В середине августа мы видели анонс бета-версий Grok-2 и Grok-2 mini от стартапа Илона Маска xAI, а на днях они предоставили API к своей модели. Что ж, на дворе осень, как пел Anacondaz "на улице дубак, на сердце тлен и мрак", так пусть же Grok 2 сегодня станет тем самым, кто укроет зацензуренным пледом наши тела. Предлагаю начинать.
Приятного прочтения!
Немного про Grok-2
Пожалуй, начнем с небольшого предисловия про детище Илона Маска. 13 августа 2024 года xAI представил Grok-2. Согласно заверениям разработчиков, это семейство моделей обладает самыми современными возможностями в области рассуждений, кода и чата. xAI поднялись на одну ступень выше в сравнении со своей предыдущей моделью Grok-1.5 (ну, в целом как обычно).
По общему рейтингу ELO, бета-версия Grok-2 (на графике под названием sus-column-r) опережает Claude 3.5 Sonnet и GPT-4o mini на лидерборде LMSYS:
В блоге xAI есть интересная информация о том, как они оценивают свои модели. Тут всё просто: представьте себе ИИ-наставников, которые как строгие учителя в школе, дают моделям задания, отражающие реальные ситуации, в которых мог бы оказаться Grok. Каждое задание — это два ответа от модели, и наставник выбирает лучший, руководствуясь специальными критериями.
Разработчики решили сконцентрироваться на двух важных аспектах: как модели справляются с выполнением инструкций и насколько точную и фактическую информацию они предоставляют. Grok-2 действительно похорошел. Теперь он лучше разбирается в извлечённой информации и умеет пользоваться инструментами. Например, ловко находит недостающие данные, рассуждает о последовательности событий, да ещё и фильтрует мусор, который к делу не относится.
А теперь поговорим про академические испытания. Модель не только болтает в чате, но еще может потягаться с умниками на логике, чтении с пониманием, науке, математике и даже в программировании. Grok-2 и его младший брат Grok-2 mini показали себя с лучшей стороны и обошли своего предшественника Grok-1.5. В науке они показывают уровень выпускников (GPQA), общие знания держат на уровне (MMLU, MMLU-Pro), а также преуспели в математических задачах (MATH).
Но это еще не всё. Grok-2 отлично справляется и с заданиями на основе визуального контента. Например, в визуальной математике (MathVista) и ответах на вопросы по документам (DocVQA) он показал передовые результаты. Так что Grok-2 — это не просто “болтушка”, а настоящий универсальный солдат в мире ИИ.
Бенчмарки
Я могу долго петь дифирамбы Grok'у, но мы сюда пришли не за этим. Предлагаю меньше слов и больше дела, прогоним Grok-2 по задачкам, а также сравним его с другими моделями, а именно, Claude 3.5 Sonnet, Gemini Pro 1.5 Exp / Gemini Pro 1.5 и GPT-4o.
Код
Мой промт:
Напиши функцию на Python, которая анализирует данные о продажах. Тебе нужно реализовать функцию, которая принимает список словарей, где каждый словарь содержит информацию о товаре, его категории, дате продажи и сумме продажи. Функция должна:
1. Вернуть общую сумму продаж для каждого месяца;
2. Вернуть категорию с наибольшим количеством продаж за каждый месяц;
3. Определить, в каком месяце была самая высокая общая сумма продаж и вывести соответствующую сумму и месяц;
Данные подаются в следующем формате:
sales_data = [
{'product': 'item1', 'category': 'A', 'sale_date': '2024-01-15', 'sale_amount': 100}, {'product': 'item2', 'category': 'B', 'sale_date': '2024-02-10', 'sale_amount': 200}, {'product': 'item3', 'category': 'A', 'sale_date': '2024-01-20', 'sale_amount': 150}, {'product': 'item4', 'category': 'C', 'sale_date': '2024-03-05', 'sale_amount': 50},
]
Да, сделаю небольшую ремарку: промты будут на русском, а также я не буду вдаваться в подробные комментарии по оценке результатов моделей, чтобы не перегружать вас своими субъективными мыслями и дать вам возможность независимо от меня оценить ту или иную модель.
Grok-2
Claude 3.5 Sonnet
Gemini Pro 1.5 Exp
GPT-4o
Результаты у нас с вами перед глазами, в целом, можно увидеть, что Grok довольно хорошо справился с задачей: понятный код, выполняет все требования, которые перед ним поставили. Разве что он немного уступает Claude, так как код Claude гораздо более лаконичный и компактный. И, конечно, стоит сказать и о Gemini с GPT — на мой взгляд, они гораздо хуже Grok'а и Claude справились с задачей, во-первых это идентичный код в ответе у обеих моделей, а соответсвенно и повторяющиеся недостатки, например, читабельность кода или не очень удобный формат возвращаемых данных. В общем, на мой взгляд, бета Grok-2 может очень хорошо работает с кодом, можем ставить плюсик и идти к следующей задаче.
Понимание инструкций
Мой промт:
1. Возьми следующее предложение:
“В 2024 году компания Alpha Inc. увеличила свою прибыль на 25%, компания Beta Ltd. — на 10%, а Gamma Corp. показала убыток в размере 5% по сравнению с предыдущим годом.”
2. На основе этой информации рассчитай, какая прибыль была у каждой компании в 2023 году, если в 2024 году их прибыли составили: Alpha Inc. — $125,000, Beta Ltd. — $220,000 и Gamma Corp. — $95,000
3. Потом напиши вывод в формате:
"Alpha Inc. в 2023 году имела прибыль: $X
Beta Ltd. в 2023 году имела прибыль: $Y
Gamma Corp. в 2023 году имела прибыль: $Z"
4. После этого перепиши исходное предложение, добавив информацию о прибыли компаний в 2023 году.
5. Проанализируй динамику и напиши вывод, какая из компаний показала наибольший прирост прибыли, а какая наиболее негативную динамику.
Grok-2
Claude 3.5 Sonnet
Gemini Pro 1.5 Exp
GPT-4o
Не могу не отметить, что ответы Grok-2 выделяются структурой. Я сама для выполнения тех или иных задач обычно обращаюсь к Claude 3.5 Sonnet, и не могу не отметить, как Grok подает информацию, в каком виде. И это, кстати, не только выделяет его на фоне других моделей, это делает его в целом лучшим в этой задаче, плюс здесь мы также наблюдаем информативные и понятные расчеты, анализ динамики и строгое следование инструкции. Интересный опыт, думаю, можно двигаться дальше.
Рассуждения/логика
Ты участвуешь в игре с тремя сундуками. В одном из них находится золото, в остальных — пусто. На каждом сундуке написана надпись, но только одна из надписей правдива, остальные две — ложные. Вот, что написано на сундуках:
Сундук 1: золото не находится в Сундуке 2.
Сундук 2: золото находится в этом сундуке.
Сундук 3: золото не находится в этом сундуке.
Вопрос: в каком сундуке находится золото?
*Начиная с этой задачи я поменяла модель Gemini Pro 1.5 Exp на Gemini Pro 1.5
Grok-2
Claude 3.5 Sonnet
Gemini Pro 1.5
GPT-4o
Как мне кажется, в этой задаче снова выделяются Grok-2 и Claude 3.5 Sonnet за счет во-первых правильного решения, а во вторых структурирования информации. Однако между Grok'ом и Claude'ом также есть разница в подаче — Grok старается все расписать максимально подробно, в то время как Claude предлагает не менее понятное решение, но более лаконичное. Также Grok обходит GPT, поскольку его решение более наглядное и весомое, хотя у GPT ответ тоже верный. Ну-с, а Gemini допустил ошибку, что снова выделяет Grok-2, плюсик поставили и идем к последней задаче.
Математика
У тебя есть 150 яблок. Ты решаешь разделить их между тремя друзьями, при этом первый друг получает на 20 яблок больше, чем второй, а третий получает в два раза больше, чем второй.
Вопрос 1: Сколько яблок получает каждый друг?
Вопрос 2: Если первый друг решит отдать 10 яблок второму другу, сколько яблок будет у каждого друга после этого?
Вопрос 3: Какова будет общая сумма яблок у всех друзей после обмена, если они решили оставить все яблоки у себя?
Grok-2
Claude 3.5 Sonnet
Gemini Pro 1.5 Exp
GPT-4o
Здесь хочется отметить, ответ уже не Grok-2, а Gemini Pro 1.5, хотя модель также продолжила решать задачу, она единственная заметила, что работает с дробями, хотя задача должна предполагать решение в целых числах. Но в целом, Grok здесь на уровне Claude и GPT находится, то есть решения верные, если не брать во внимание тот факт, что задача поставлена некорректно.
Итого, сегодня мы вместе с вами пробежались по новой модели Grok-2 и, на мой взгляд, он очень хорошо себя показывает, конечно, можно протестировать на большем количестве задач, но я не хотела сильно затягивать и выделила основные моменты, которые обычно хочется в первую очередь посмотреть у той или иной модели.
Хочу отметить, что мы работали с Grok-2 через BothHub, но его можно протестировать и через платформу X с расширенным функционалом, например, оценить функцию vision и генерацию картинок с FLUX, но это доступно только пользователям у кого есть VPN и подписка.
Спасибо большое за внимание! А что вы думаете про Grok-2?
Автор: veseluha