В современных реалиях практически не осталось людей, пропустивших «нейросетевой» шум. Для некоторых, он даже стал фундаментальным инструментом в работе, а кто-то и вовсе ставит его важность наравне с интернетом.
Нейросети плотно начинают входить в нашу жизнь, к счастью, как дружественный инструмент, помогающий повысить точность аналитических выводов. Они используются как простыми людьми для простых задач (помочь распланировать день или отредактировать письмо), так и учёными, в лабораториях, для постановки диагноза, проверки совместимости тех или иных биологических компонентов и т.д.
В сегодняшнем информационном шуме сложно сфокусироваться на истории второстепенных для тебя вещах, поэтому даже самый активный пользователь искусственного интеллекта может не знать откуда «растут корни» - а было бы полезно!
В моей профессиональной деятельности этот термин мелькает часто, а рабочие обстоятельства заставляют плотно наблюдать за рынком, чтобы понимать темпы развития новой технологии и определить верное время и продукт для внедрения этого новшества для клиентов.
В этой статье я расскажу о развитии B2C (для частных лиц) ИИ решений, более того, затрону два рынка: Российский и Западный. Поговорим о развитии технологических гигантов в рассматриваемой мной сфере, с чего они начинали, что выпускали и для каких целей. Но начнём с фундамента.
Первые разговоры
В середине XX века начала формироваться первая концепция нейросети: исследователи пытались создать машину, имитирующую функции человеческого мозга. В 1943-м Уорреном Мак-Каллоком и Уолтером Питтсом была предложена математическая модель нейрона, а уже в конце 1950-х Фрэнк Розенблатт представил персептрон – простую модель машинного обучения, созданную для помощи компьютерам в обучении на разных объёмах данных. Именно его можно назвать первой практической реализацией нейросети.
В период 1980-2000 стали разрабатываться и появляться первые алгоритмы обучения, сравнения и анализа данных, в XXI направление стало стремительно развиваться. В 2000-х появились мощные графические процессоры, и стали доступны большие объёмы данных, что побудило сообщество начать разработку алгоритмов Deep Learning – совокупность методов машинного обучения, основанных на обучении представлениям, а не на специализированных алгоритмах под конкретные задачи.
Интерес воплощения человеческого мышления «на плате» появился почти сразу же, как вычислительная техника стала доступна большинству людей. В XX веке люди смогли довольно быстро достичь тех или иных результатов за счёт алгоритмов, которые были придуманы человеком, но не смогли продвинуть это дальше ввиду недостаточного развития технологий.
Развитие современный нейронных сетей на западе
OpenAI
В декабре 2015 года была основана некоммерческая организация OpenAI – американская научно-исследовательская организация, занимающаяся разработками в области искусственного интеллекта.
27 апреля 2016 компания выпустила публичную бета-версию OpenAI Gym, платформы для разработки и сравнения алгоритмов обучения с подкреплением
Это была своего рода разновидность задачки машинного обучения. Суть в том, что пользователю предлагалась среда с настроенными правилами и тело, способное действовать в пределах этой среды. Пользователи разрабатывали и сравнивали свои алгоритмы на этой платформе.
В 2017 году были представлены ИИ-боты для игры в Dota 2
Неожиданный, но проявивший себя продукт. Действительно, OpenAI смогли создать бота для популярной соревновательной игры, которые действуют не по описанному алгоритму, а принимают решение самостоятельно, основываясь на ранее загруженном дата-сете (набор данных для обучения нейросетей)
28 мая 2020 группа исследователей из OpenAI под руководством Дарио Амодея опубликовала научную статью с подробным описанием алгоритма GPT-3.
На этом этапе миру был представлен принцип работы генеративной нейросети GPT-3. Презентация не навела шуму, ведь никакого готового продукта не было, была показана только общая идея. Однако, это не помешало привлечь в проект ключевые инвестиции, которые помогли выпустить инновационный продукт на рынок!
30 ноября 2022 года был запущен ChatGPT - чат-бот с искусственным интеллектом, разработанный компанией OpenAI и способный работать в диалоговом режиме, поддерживающий запросы на естественных языках
Это уже всем известный ChatGPT. Лишь написав одно предложение в чат, пользователь мог получить: простой программный алгоритм, рецепт, рекомендацию, идею, совет и многое другое.
Исторический день, после которого все, кто позиционируют себя как IT гиганты, не могли не принять вызов рынка и не начать работу над своим аналогом.
В марте 2023 года была интегрирована более продвинутая модель – GPT- 4.
В данном релизе модель обучилась на существенно бОльшем объёме денных, научилась распознавать и работать с изображением. Качество ответов существенно улучшилось. Именно про GPT-4 я стал слышать от программистов положительную обратную связь: «теперь она и вправду может автоматизировать мои рутинные процессы практически безошибочно».
15 февраля 2024 была представлена Sora — это нейросеть, предназначенная для генерации коротких видеороликов по текстовому описанию.
Этот продукт пользователи тоже запомнили очень хорошо. Интернет был переполнен видеороликами с поразительным качеством и припиской об их нейросетевом происхождении. Кто-то даже генерировал полноценные прохождения компьютерных игр, кстати, вполне успешно.
13 мая 2024 была выпущена модель GPT-4o, способная на мультимодальность, более быструю и ресурсоэффективную генерацию контента.
Революционных обновлений не было, но объём и качество ответа так же возросло.
18 июля 2024 года представлена GPT-4o mini — уменьшенная версия GPT-4o, обеспечивающая более быструю и экономичную работу.
Это была «Золотая середина» между GPT-4 и GPT-4o
12 сентября 2024 года: Запущены модели o1-preview и o1-mini, разработанные для повышения точности в задачах науки, программирования и логики.
Последнее на текущий момент обновление от компании OpenAI. Лучшая производительность, огромные объёмы дата-сетов, выверенные ответы, которые нейросеть перепроверяет, доступ в интернет – всё это GPT-o1.
Google
6 февраля 2023 года Google представила Bard — чат-бот с искусственным интеллектом на основе языковой модели LaMDA., который призван отвечать на вопросы пользователей в поисковой системе.
21 марта 2023 года Google предоставила доступ к чат-боту избранным пользователям из США и Великобритании
Об этом релизе мало что известно, ведь Google решил на первых порах не показывать первую версию всему миру (как это сделал OpenAI), а дать её лишь некоторым пользователям. На самом деле, очевидный ход для релиза такого уровня продукта, ведь неудачная версия может принести существенные репутационные потери, которые, в масштабах Google, выражаются в достаточно солидных объёмах.
В апреле 2023 года разработчики Bard сообщили, что сервис получил возможность писать, отлаживать и объяснять код. Чат-бот знает 20 языков программирования и имеет связь с другими продуктами Google.
После тестирования на закрытой группе пользователей, компания поделилась краткими заметками по функционалу решения. Наученные информационным фоном вокруг OpenAI, Google сделали упор на раскрутке возможностей в области программирования.
В мае 2023 года Google сообщила, что предоставила доступ к Bard для 180 стран мира.
И вот долгожданный момент, первый ИИ от устоявшегося годами ИТ-гиганта Google доступен всем пользователям в рамках экосистемы.
В декабре 2023 года Bard перешёл на новую языковую модель — Gemini в версии Pro. Кроме генерации текста, она умеет создавать изображения.
После долгих наблюдений за обратной связью от пользователей, исправления недочётов и т.д., компания наконец-то расширила функционал, сделав следующий шаг - генерацию изображений.
15 мая 2024 года: Google интегрировала Bard в свои основные продукты, включая поиск, предоставляя пользователям более интуитивные и разговорные ответы.
На этом этапе продукт был внедрён во все ключевые компоненты Google: ассистент, поиск, приложения для звонков (например, транскрибация) и т.д.
Microsoft
В феврале 2023 года на презентации Microsoft представила обновлённый Bing с ИИ на базе чат-бота ChatGPT Новый Bing использует генеративный AI в своей функции веб-поиска для возврата результатов, которые выглядят как более длинные, написанные ответы, собранные из различных источников Интернета, а не список ссылок на соответствующие сайты. Чат-бот помимо поисковой функции может поддерживать беседу, генерировать связные тексты, а также отвечать на сложные вопросы за счёт своей обширной языковой модели.
14 марта 2023 года Microsoft официально подтвердила, что чат-бот работает на языковой модели GPT-4.
Многие задались вопросом: почему не своя модель? Но стоит учитывать, что Microsoft вступила с OpenAI в активное сотрудничество и поддерживает компанию очень даже солидными инвестициями.
4 мая 2023 года Microsoft упразднила список ожидания и открыла чат- бот Bing для всех пользователей.
Компания практически в одно время с Google выпустила в открытый доступ свой ИИ чат-бот. Это «подлило масло в огонь» в конкурентной гонке и заставило компании активнее включаться в работу и быстрее добавлять новый функционал.
В мае 2023 года Microsoft заявила, что в скором времени планирует расширить возможности чат-бота: будет добавлена история чатов, возможность загрузки изображений в чат-бот, а также работать со сторонними плагинами в рамках чата.
Довольно стандартный сценарий, которые применяли как OpenAI, так и Google.
21 сентября 2023 года: Microsoft представила Copilot — универсальный инструмент на базе ИИ, интегрированный в Windows, Edge и другие продукты, предоставляя пользователям расширенные возможности взаимодействия.
В этом аспекте Microsoft уже отличилась от своих конкурентов. Они внедрили свою нейросеть в ИИ-помощник Copilot в рамках операционной системы Windows. Это позволило совершать операции над текстом, браузером и офисными пакетами, что при правильном использовании существенно повышает эффективность работы над рутинными задачами.
3 октября 2024 года: Bing Chat обновлён с использованием модели DALL-E 3, позволяя пользователям генерировать изображения по текстовым запросам.
Таким образом, на западе есть 3 ключевых игрока в области: OpenAI и, вполне ожидаемые кандидаты, Google и Microsoft. На текущий момент основным драйвером и инноватором выступает именно OpenAI, они первые реализуют ранее недоступный функционал и вводят ключевые новинки для оптимизации рутинной деятельности пользователей.
Google и Microsoft скорее подхватывают уже придуманные фичи и реализуют их на базе своих площадок. Скажу ли, что это плохо? – вовсе нет! Создание конкуренткой борьбы и разный подход к решению одних и тех же задач – всё это в совокупности является топливом и стимулятором технологической гонки.
Так же эти компании обладают огромными экосистемами, а экосистемы имеют невероятное множество систем, в которые было бы очень полезно внедрить технологии искусственного интеллекта.
Поэтому я уверен, что бэклог задач у каждого из производителей уже расписан на годы вперёд!
Развитие современных нейросетей в России
Яндекс
В феврале 2023 года «Яндекс» сообщил, что разрабатывает собственную версию генеративной нейросети ChatGPT в рамках развития языковой модели из семейства YaLM (Yet another Language Model). Проект получил предварительное название YaLM 2.0, которое впоследствии поменяли на YandexGPT.
17 мая 2023 года компания представила нейросеть под названием YandexGPT (YaGPT), добавив в своего виртуального ассистента «Алису» специальный навык, позволяющий взаимодействовать с новой языковой моделью.
Здесь я попрошу обратить внимание на дату и осознать, что отечественный «Яндекс» не так уж и отстал от дат релизов со стороны Google и Microsoft. Разница составила всего 2 месяца. Но модель могла ответить лишь на один вопрос и не учитывала контекст чата.
5 июня 2023 года в пресс-службе «Яндекса» сообщили, что нейросеть научилась запоминать контекст беседы и задавать уточняющие вопросы.
Небольшое, но важное обновление, которое позволило держать нейросеть в контексте текущей беседы с пользователем и, при формировании ответа, опираться на прошлые вопросы пользователя.
15 июня 2023 года «Яндекс» добавил языковую модель YandexGPT в приложение для генерации изображений «Шедеврум». Благодаря этому его пользователи получили возможность создавать содержательные посты с текстом, заголовком и подходящей по смыслу иллюстрацией.
На этом этапе мы видим уже не раз упомянутую в статье нить сценария – создание нейросети для генерации изображений. «Яндекс» не остался в стороне.
В июле 2023 года нейросеть YandexGPT стала доступна бизнесу для создания виртуальных ассистентов и чат-ботов, а также генерирования и структурирования текстовой информации.
А это важный шаг для индустрии в целом, ведь «Яндекс» отдаёт свой API бизнесу для внедрения технологии в производство. Компании начинают активно пользоваться, внедрять и дообучать модель. Yandex-GPT внедряли как поисковик по внутренней базе знаний, включали в аналитические процессы и прочие важные производственные задачи. Заказчики активно делились обратной связью и результатами.
27 июня в «Яндексе» сообщили, что нейросеть научилась тезисно пересказывать статьи из интернета. Функция работает с русскоязычными текстами и статьями из интернета объёмом до 30 тысяч знаков.
На этом этапе уже сам «Яндекс» стал внедрять свою разработку в свою экосистему и начал с браузера. Пилотным внедрением стала возможность суммаризации (выделение основных тезисов) содержания web-страниц.
7 сентября 2023 года «Яндекс» представил на конференции Practical ML Conf новую версию языковой модели — YandexGPT 2. По сравнению с предыдущей она способна решать больше видов задач, при этом качество её ответов улучшилось. По утверждению разработчиков, YandexGPT 2 отвечает на запросы пользователей лучше первой версии нейросети в 67 % случаев.
«Обкатав» первую версию и получив обратную связь от пользователей и бизнеса в целом, «Яндекс» доработал модель до версии 2. Повысили объём дата-сета, улучшили точность ответа.
14 сентября 2023 года «Яндекс» начал тестировать YandexGPT для создания быстрых ответов на запросы в «Поиске». Нейросеть в режиме реального времени находит несколько самых подходящих источников по запросу пользователя, делает краткую выжимку каждого из них, а затем выбирает наиболее полезный ответ из получившихся. Он отображается под поисковой строкой вместе со ссылкой на источник.
«Яндекс» продолжает активно внедрять нейросеть в разные аспекты своей экосистемы, на этот раз, конкретный ответ на вопрос из поисковой строки.
С 6 октября 2023 года YandexGPT может создавать краткие пересказы русскоязычных видеороликов в интернете. Она обобщает видео длиной от двух минут до четырёх часов, в которых есть речь.
Один из революционных релизов на российском рынке нейросетей: лайв перевод иностранных видео. Такое внедрение, можно сказать, разрушило языковой барьер и открыло русскоговорящим пользователям огромный мир англоязычного контента. Важно упомянуть, что этот функционал стал абсолютно бесплатной частью Яндекс. Браузера, причём работал отлично уже на первых версиях.
28 марта 2024 года: Анонсировано третье поколение языковых моделей YandexGPT 3. Первая модель линейки — YandexGPT 3 Pro — стала доступна на сайте Yandex Cloud, улучшив обработку сложных запросов и точность ответов.
«Яндекс» продолжил дообучение фундаментальной модели, выпустив новую версию 3, но уже добавив платную редакцию Pro (аналогичный сценарий можно наблюдать у OpenAI с платной подпиской). Обычная история с монетизацией потока частных пользователей.
28 мая 2024 года: Запущена облегчённая версия нейросети — YandexGPT 3 Lite, предназначенная для задач, требующих высокой скорости ответа, таких как чат-боты и проверка орфографии.
Это была узконаправленная модель, которую настоятельно рекомендовали использовать под конкретные задачи (орфография, простой диалог с пользователем). Она решала их быстрее и точнее.
24 октября 2024 года: Представлено четвёртое поколение языковых моделей — YandexGPT 4, включающее мощную модель Pro и облегчённую версию Lite, с улучшенной генерацией команд и возможностью интеграции в Yandex Cloud.
«Яндекс» продолжает повышать точность ответов, объём данных для обучения моделей и функционал. В этот раз получился один большой релиз: базовая клиентская версия, клиентская версия Pro, клиентская версия Lite, интеграция в Cloud для бизнеса.
Сбер
В апреле 2023 года «Сбер» представил GigaChat — нейросеть которая может одновременно генерировать и предложения, и картинки по текстовому описанию.
В 2023 году была создана GigaChat - генеративная языковая модель, созданная Сбером. Она обучалась на огромном количестве текстовых данных и была разработана для помощи пользователям в решении различных задач, связанных с текстом.
Волну искусственного интеллекта так же подхватил Сбер, начав разрабатывать свою нейросеть на основе модели ruGPT-3.5. Первым релизом так же была генеративная нейронка для работы с текстом.
В марте 2023 года была интегрирована более продвинутая модель – ruGPT- 4.
В марте, в ответ на выход Yandex GPT, Сбер выпустил более мощный релиз своего продукта на основе модели 4-го поколения.
В 2023 году GigaChat была обновлена и получила возможность создавать изображения на основе текстовых описаний.
Компания так же не забыла про генерацию изображений, в рамках GigaChat был представлен бот Kandinsky, который, к слову, с первого релиза выдавал генерации хорошего качества.
В 2023 году GigaChat была обновлена и получила возможность выполнять арифметические действия и решать математические задачи.
Выпустив основной функционал, Сбер стал добавлять мощностей текущей генеративной модели, учить её математике и логическому мышлению.
В 2023 году GigaChat была обновлена и получила возможность помогать пользователям в написании текстов, таких как письма, статьи, рассказы и т.д.
Окно промпта было увеличино, дата сет расширен и модель была доведена до уровня работы с полноценными статьями и большим объёмом текста.
Итого, из российских ИТ-компаний всерьёз за разработку ИИ-решений взялись 2 игрока: Сбер и Яндекс. Важно отметить, что производители показали быстрый отклик со своей стороны и на сегодняшний день «дышат в спину» западным лидерам.
Более активно на текущий момент развивается Yandex GPT, компания активно распространяет разработку во многие сферы жизни: для бизнеса (в Yandex Cloud), для пользователя в виде чата (навык в Яндекс.Алисе), для пользователя в виде интеграции в браузер (Яндекс.Браузер). Коллеги собирают обширную обратную связь разом и активно продолжают исправлять ошибки, делать новые внедрения и модели.
Сбер так же показывает бурный рост и хорошую производительность в лице GigaChat. Компания активно поддерживает дух конкуренции на рынке, не только имея личную мотивацию к развитию, но и транслируя её конкурентам.
Заключение
Развитие нейросетей является стремительным и впечатляющим процессом, который активно протекает как на Западе, так и в России. Начиная с ранних концепций нейросетей в середине XX века и простых моделей, мы перешли к созданию сложных и мощных алгоритмов глубокого обучения. Основными двигателями прогресса на Западе являются OpenAI, Google и Microsoft. На Российском рынке в разработке нейросетей лидируют продукты от компаний
«Яндекс» и «Сбер». Российские производители сумели быстро включиться в тренд, и уже догоняют тот уровнень функционала, какой имеют западные аналоги. В истории современных нейросетей важно обратить внимание на частоту обновлений: она свидетельствует о бурном росте и поражает объёмом обновлений в год.