Со вкусом ацетона: Как ИИ чуть не отравил программистов темным ПИВОМ

в 15:00, , рубрики: chatgpt, GigaChat, yandexgpt, генерация, ИИ, искусственный интеллект, нейросеть, пиво, технологии, чат-бот
Со вкусом ацетона: Как ИИ чуть не отравил программистов темным ПИВОМ - 1

Привет! На связи Smart Engines с новым экспериментом. Помните, мы проверяли адекватность, реальность и убедительность советов искусственного интеллекта на примере рекомендаций светлого нефильтрованного пива? (Если не читали - бегом читать тут). Сегодня на очереди темное: выясним, что рекомендуют популярные нейросети и насколько выбор ИИ совпадает с человеческим.

В качестве подопытных кроликов - чат-боты от OpenAI, Яндекса и Сбера. В качестве независимого жюри, которому придется дегустировать пиво, - команда экспертов Smart Engines. Запасайтесь закусками, эксперименты начинаются!

Пиво не крапива и другие вводные эксперимента

Начались осенние холода, а значит пришло время сменить легкий солод с освежающей горчинкой на плотный, насыщенный вкус с хлебными, кофейными, ореховыми или карамельными нотками. Это вкус уюта, тепла и гармонии, для каждого он свой… Способен ли искусственный интеллект постичь всю глубину и многогранность темного пива, чтобы посоветовать действительно стоящие образцы, - предстоит выяснить.

Как и в прошлый раз, три нейросети от известных разработчиков - ChatGPT от OpenAI, Алиса Про от Яндекса и GigaChat от Сбера - должны составить список из пяти лучших сортов темного пива от российских брендов. Международные марки с локализованным производством нам не подходят - пиво должно быть полностью отечественным (благо, не перевелись еще в нашей стране хорошие пивовары).

Мы решили немного обновить вводные данные. Во-первых, заветный вопрос мы адресовали не только трем нейросетям, но и человеку (настоящему специалисту в этой области, пивному мастеру со стажем). Так мы сможем не просто оценить качество пива самого по себе, но и сравнить, насколько сгенерированные рекомендации сходятся с советами, подкрепленными реальным опытом. Во-вторых, из-за большого числа желающих было решено расширить список участников. Таким образом конечная экспертная оценка получится более полной и репрезентативной. В-третьих, сразу оговоримся, что к участию в тестировании были допущены и фильтрованные образцы темного пива. Отчасти это связано с тем, что некоторые предложенные варианты мы попросту не обнаружили в розничных магазинах, а наш эксперимент не предполагает полумер. Кроме того, одним из частых вариантов был портер, а его фильтруют.

Специально для жюри были подготовлены белоснежные халаты, чтобы обеспечить эксперименту соответствующие лабораторные условия. Как и в прошлый раз, дегустация проводилась вслепую, а жюри выставляло образцам оценки от 1 до 5 по нескольким критериям.

Выбор приглашенного эксперта

Начнем с элементарного. Получить от приглашенного пивного сомелье перечень лучшего темного российского пива не составило большого труда. Хотя бы потому, что естественному интеллекту, в отличие от искусственного, не требуется для этого сложносочиненный промпт. И это, признаемся, весьма радует.

Получили следующий список:

  1. Русский Имперский Стаут (Балтика)

  2. Порт-Артур (Волковская пивоварня)

  3. Варница бархатное темное (Варница)

  4. Афанасий Темное Марочное (Афанасий)

  5. Жигули Барное Бархатное (Московская пивоваренная компания)

Затем перечень образцов было решено расширить, чтобы иметь возможность проанализировать как можно больше вариантов, предложенных нейросетями. И ряды образцов из массмаркета пополнились крафтом.

Вот как выглядит список honorable mention:

  • Schwarzbier (Salden's Brewery)

  • Black Cat Stout (Panzer Brewery)

  • Афанасий Porter (Афанасий)

  • Балтика 6 Портер (Балтика)

  • Фон Вакано Темное (Жигулевское пиво)

  • Синяя борода (Василеостровская пивоварня)

  • Молоко+ (Бакунин)

  • Екатерина (Jaws)

Приняли, зафиксировали. Теперь к выбору нейросетей.

Порхай как бабочка. Жаль, что ChatGPT заврался

Нашим первым цифровым ассистентом стал ChatGPT (модели GPT-4o) от OpenAI. В прошлый раз, чтобы добиться мало-мальски удовлетворительных ответов, пришлось изрядно помучиться. Нейросеть упорно не понимала команду, и менять промпт пришлось не один и не десять раз. Ответ не стал блестящим даже после того, как чат-бот сгенерировал промпт сам себе. Ко всему прочему, пару раз нейросеть была поймана на откровенном обмане: ChatGPT не краснея советовал выдуманные марки пива. 

С учетом всех прошлых проб и ошибок мы сформулировали запрос таким образом:

Составь топ-5 лучших российских брендов темного пива. Пиво должно быть реальным, производиться в РФ и быть доступным в российских магазинах. Укажи краткое описание каждого бренда, объясни, почему они заслуживают места в списке. Обоснуй свой выбор. Марка темного пива обязательно должна быть российской. Международные бренды с производством в России не подходят. Список должен состоять из пяти лучших российских марок темного пива, доступных в 2024 году для приобретения.

И если вы подумали, что на сей раз ChatGPT наступил на те же грабли, вы заблуждаетесь. Он станцевал на них чечетку.

В ответ был получен целый набор несуществующих марок. Были, например, “Дон Пиво” (видимо, результат смешения светлого ростовского пива “Дон” и чего-то испанского), “Криг” от Винзавода (здесь чат-бот явно чуть-чуть не дотянул до бельгийского вишневого напитка) и даже Октоберфест темное. Встретилось и пиво “Венец” - его ChatGPT уже пытался советовать как светлое нефильтрованное.

Среди всех пивных фантазий чат-бота приз зрительских симпатий однозначно достается варианту “Киндзмараули Темное” (по словам нейросети, “Этот бренд заслуживает внимания благодаря своему глубокому вкусу и богатой ароматики, которая включает нотки шоколада и кофе. Оно идеально подходит для холодного времени года и отлично сочетается с мясными блюдами”). В общем, полная гамарджоба. 

После десятка попыток без видимого прогресса мы решили остановиться. Чтобы составить представление об адекватности ответов ИИ от OpenAI, взгляните на это:

Fake it till you make it в исполнении ChatGPT

Fake it till you make it в исполнении ChatGPT

Кирпичное Пиво (Темное). Кирпичное пиво — это классическое российское темное пиво с ярко выраженным карамельным и жженым вкусом. Его цвет варьируется от медного до глубокого коричневого. Это пиво стало символом традиционного русского пивоварения и высоко ценится за свою насыщенность и гармоничное послевкусие.

Жигулевское Темное. Жигулевское темное пиво отличается мягким вкусом и сладковатыми нотами. Его производят на знаменитом заводе «Жигулевское», основанном в 1934 году. Этот бренд заслуживает внимания благодаря своей популярности и качеству. Оно доступно во многих магазинах и пабах, и всегда находит своих поклонников.

Чешское Пиво (Темное). Чешское темное пиво обладает сбалансированным вкусом с легкими нотами шоколада и карамели. Его производство основано на чешских традициях пивоварения. Бренд привлекает ценителей пива благодаря своему качеству и аутентичности. Оно легко найти на полках магазинов, что делает его доступным выбором.

Балтика 4 (Темное). Балтика 4 — это темное пиво с богатым вкусом и сладковатым ароматом. Имеет глубокий цвет и плотное тело. Балтика — один из самых известных российских брендов, и его темное пиво предлагает отличный баланс между вкусом и доступностью. Оно популярно среди широкой аудитории.

Венец (Темное). Венец — это темное пиво с насыщенным ароматом и мягким вкусом, в котором ощущаются нотки жженого солода и легкой горечи. Этот бренд выделяется своим качеством и характерным вкусом, что делает его предпочтительным выбором для любителей темного пива.

Как нетрудно заметить, ChatGPT так и остался на своей волне: он присудил первое место выдуманному “Кирпичному пиву”. О вкусах, конечно, не спорят, но объявить придуманную марку символом традиционного русского пивоварения - это смело. В середине списка российских марок внезапно оказалось чешское пиво, его мы по понятным причинам обходим стороной. Это же касается и многострадального бренда "Венец". По-прежнему несуществующего, поэтому тоже мимо.

Названия оставшихся двух видов чат-бот знатно перепутал. Жигулевское темное называется Жигули Барное Бархатное (его описание ChatGPT зачем-то сопроводил неверной исторической справкой), а от Балтики нам подходит не четвертый, а шестой номер. Впрочем, в сравнении со всей прочей жестью, полученной от ChatGPT, это мелочи.

Итог: на экспертизу направляются два образца из пяти. Кирпичное пиво - в аутсайдерах.

YandexGPT: Гигант мысли, но есть нюанс

Диалог с яндексовской Алисой Про не задался с самого начала. Если точнее - нейросеть ушла от разговора, заявив, что не разбирается в этой теме. И притом явно поскромничала, потому что на повтор команды мы получили-таки список.

Вот он:

Спасибо за Хамовники. Но просили темное...

Спасибо за Хамовники. Но просили темное...

Балтика №6 Портер. Это темное пиво с насыщенным вкусом и ароматом, которое производится на заводе “Балтика”. Оно имеет глубокий коричневый цвет и плотную пену. “Балтика №6 Портер” отличается высоким качеством и уникальным вкусом, который достигается благодаря использованию специальных сортов солода и хмеля. Это пиво неоднократно получало награды на международных конкурсах.

Жигули Барное Темное. Пиво с глубоким, насыщенным вкусом и ароматом, которое производится на заводе “Жигули”. Оно имеет темно-коричневый цвет и плотную пену. “Жигули Барное Темное” отличается высоким качеством и уникальным вкусом, который достигается благодаря использованию специальных сортов солода и хмеля. Это пиво также неоднократно получало награды на различных конкурсах.

Очаково Темное. Пиво с глубоким, насыщенным вкусом и ароматом, которое производится на заводе “Очаково”. Оно имеет темно-коричневый цвет и плотную пену. “Очаково Темное” отличается высоким качеством и уникальным вкусом, который достигается благодаря использованию специальных сортов солода и хмеля. Это пиво также пользуется популярностью среди любителей темного пива.

Хамовники Венское. Пиво с глубоким, насыщенным вкусом и ароматом, которое производится на заводе “Хамовники”. Оно имеет темно-коричневый цвет и плотную пену. “Хамовники Венское” отличается высоким качеством и уникальным вкусом, который достигается благодаря использованию специальных сортов солода и хмеля. Это пиво также неоднократно получало награды на различных конкурсах.

Сибирская Корона Темное. Пиво с глубоким, насыщенным вкусом и ароматом, которое производится на заводе “Сибирская Корона”. Оно имеет темно-коричневый цвет и плотную пену. “Сибирская Корона Темное” отличается высоким качеством и уникальным вкусом, который достигается благодаря использованию специальных сортов солода и хмеля. Это пиво также пользуется популярностью среди любителей темного пива.

На фоне скудных ответов ChatGPT список нейросети от Яндекса выглядит куда более внушительно. Давайте разбираться, из каких образцов он состоит. 

Балтика и Жигули, занявшие первое и второе места соответственно, полностью удовлетворяют условиям эксперимента и отправляются на экспертизу. А вот с остальными вариантами дело обстоит, увы, не так благополучно. Очаково Темное и Сибирскую Корону (судя по всему, имелось в виду пиво “Таежный бурый”) уже не приобрести, а Хамовники Венское - вообще светлое. Избежать недопониманий не удалось.

Примечательно, что все упомянутые нейросетью варианты либо пользуются популярностью среди любителей темного пива, либо неоднократно получали награды на международных конкурсах. Другого, по мнению YandexGPT, не дано. А жаль - настолько однотипные ответы в таком небольшом списка не вселяют уверенности в серьезном потенциале генеративного ИИ.

Отдельно заметим, что в ходе общения с чат-ботом были получены и другие ответы, причем с высокой частотностью на первом месте в них фигурировал портер от пивоварни Афанасий:

Афанасий Портер. Плотный и насыщенный портер крепостью 8 % об. Вкус: тёмный шоколад, чернослив, кофе, бородинский хлеб и жжёный солод. Цена: 80–90 рублей за бутылку.

Поскольку качество этого образца было отмечено и приглашенным экспертом, мы решили включить его в нашу экспертизу.

Итог: на экспертизу направляются три образца. По качеству ответов отечественный чат-бот не сильно превзошел иностранный.

GigaChat: Ничего нового 

Последний на очереди - чат-бот от Сбера. В прошлый раз из его рекомендаций нам подошли целых четыре образца. Пришло время проверить, что нейросеть может посоветовать из темных сортов.

Путь был тернист. ИИ отчаянно рекомендовал нам “Охоту Крепкую” (это, напомним, все еще светлое пиво). А еще неоднократно впаривал “Жигулевское темное” - вероятно, Жигули Барное.

Последний ответ GigaChat удивительным образом даже превзошел наши невысокие ожидания. Вот что выдала нейросеть после ряда правок и уточнений:

Фразы из описания кочуют от варианта к варианту. Где-то мы уже это видели...

Фразы из описания кочуют от варианта к варианту. Где-то мы уже это видели...

Афанасий Темное. Традиционное российское пиво, известное своим качеством и доступностью. Афанасий Темное обладает насыщенным вкусом и приятным ароматом. Бренд давно присутствует на рынке, широко доступен и популярен среди любителей пива.

Жигули Барное Темное. Жигули Барное Темное – это российское пиво, известное своим качеством и доступностью. Оно обладает насыщенным вкусом и приятным ароматом. Надежная репутация, доступность в большинстве розничных магазинов и высокое качество продукта.

Варница Темное. Варница Темное – это российское пиво, известное своим качеством и доступностью. Обладает богатым вкусом и приятным ароматом. Высокое качество продукта, популярность среди любителей пива и доступность в розничных магазинах.

Балтика №6 Портер. Балтика является одним из самых известных российских производителей пива. Балтика №6 Портер отличается насыщенным вкусом и глубоким цветом. Надежная репутация, доступность в большинстве розничных магазинов и высокое качество продукта.

Балтика Имперский Стаут. Балтика Имперский Стаут – это российское пиво, известное своим темным цветом и насыщенным вкусом. Популярность среди любителей темного пива и доступность в розничных магазинах.

Все перечисленные варианты нам подходят. С выбором приглашенного эксперта они тоже совпадают, только вот места распределены совершенно иначе. К примеру, пиво Афанасий темное, лидирующее в топ-5 от GigaChat, было удостоено лишь четвертого места. Финальное слово - за нашим жюри.

Итог: на экспертизу направляются пять вариантов. Пристально следим за расстановкой образцов в топе.

Экспертиза Smart Engines

Итак, на тест были бережно доставлены шесть образцов темного пива. По распределению количества голосов и присвоенных позиций в топе получилась следующая картина (приводим наименования образцов в порядке дегустации):

  1. Афанасий Porter. “Плавающее” первое место от YandexGPT, судить пока рановато.

  2. Жигули Барное Бархатное. Второе место от всех нейросетей сразу и пятое место в рейтинге приглашенного эксперта. Весьма неплохие шансы закрепиться в финальном топе.

  3. Балтика Имперский Стаут. Противоречивый образец: пятое место от GigaChat и золото от приглашенного эксперта. 

  4. Варница Бархатное. Фаворит сберовской нейросети и приглашенного эксперта. Два третьих места.

  5. Балтика №6 Портер. Четвертое место от ChatGPT и GigaChat, первое место от Алисы Про. Приглашенный эксперт этот образец в топ-5 не вынес.

  6. Афанасий Темное Марочное. Четвертое место от приглашенного эксперта и топ-1 от GigaChat.

Наконец, пиво было разлито по бокалам, а многоуважаемые члены жюри облачились в стерильные халаты. По лаборатории (или лучше сказать - полигону) разлился насыщенный хмельной аромат.

Решающий момент настал: дегустация стартовала.

Айтишники в естественной среде обитания. Дикая природа удивительна.

Айтишники в естественной среде обитания. Дикая природа удивительна.

По этическим соображениям мы решили не приводить здесь некоторые из комментариев, которые высказывались в процессе эксперимента. Самые приличные из эпитетов - “ужас” и “самое-самое худшее”. Уже по ним можно судить о ходе эксперимента: было очень весело.

Оценки выставлялись по критериям, сформулированным для прошлого тестирования. Напомним, тогда оценивали пенную шапку, цвет, аромат, вкус и горечь.

Процесс оценивания занял у жюри немало времени. По большей части - из-за схожести представленных образцов.

Процесс оценивания занял у жюри немало времени. По большей части - из-за схожести представленных образцов.

Итоговые оценки жюри - перед вами:

Образец 1: Porter от Афанасий

172

Образец 2: Жигули Барное Бархатное

132

Образец 3: Балтика Имперский Стаут

104

Образец 4: Варница Бархатное

99

Образец 5: Балтика 6 Портер

160

Образец 6: Афанасий Темное Марочное

134

По итогам подсчета голосов победителем с существенным отрывом вышел первый образец, он набрал 172 балла. Его предложила нейросеть Яндекса, а все остальные подопытные чат-боты проигнорировали. Серебро досталось Балтике №6 (160 баллов), заработавшей уверенное четвертое место от ChatGPT и GigaChat. Бронзу (и 134 балла) взял шестой образец - Афанасий Темное Марочное. Далее следуют Жигули Барное Бархатное (132 балла), Балтика Имперский Стаут (104 балла) и Варница Бархатное (99 баллов). 

А теперь пару слов о средней температуре по палате. Чтобы обрисовать, насколько выбор нейросетей пришелся по душе членам жюри Smart Engines, добавим, что победителю было присвоено гордое звание лучшего среди худших. Образец №2 заслужил фразу “я бы это взял”, образец №4 был назван провалом, а вот третьему досталось больше всех других. Словом, члены жюри, в буквальном смысле не щадя живота своего, экспериментально подтвердили: подобранные нейросетями “лучшие” образцы оказались не самыми лучшими. Далеко не самыми лучшими. Никакого доверия чат-ботам.

Пивом дело здесь явно не ограничивается: к сожалению, невменяемость генеративного ИИ уже не раз становилась причиной серьезных человеческих рисков. Так, после прочтения книги для начинающих грибников, которую написал чат-бот, семья из Британии оказалась в больнице с тяжелым отравлением. Другой недавний пример: на вопрос пользователя, как улучшить оливковую заправку, нейросеть от Google выдала развернутую инструкцию по созданию биотоксина. А еще ранее ИИ убеждал пользователей есть камни для улучшения пищеварения, добавлять клей в пиццу и прыгать с моста для борьбы с депрессией. Выводы о масштабах проблемы делайте сами.

Наш безобидный тест в очередной раз доказал: доверять советам генеративного искусственного интеллекта сегодня нельзя.

А вот для решения отдельных конкретных задач алгоритмы ИИ годятся отлично. В особенности - если использовать свой фирменный искусственный интеллект, в надежности которого ты не сомневаешься. Мы в Smart Engines успешно применяем собственные ИИ-технологии на всех этапах распознавания паспорта и любых других документов от анализа видеопотока до выгрузки результатов. И все это с высокой точностью и без напряжения пользователя.

Хотите надежный ИИ - обращайтесь к Smart Engines.

Автор: SmartEngines

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js