Сравнение GPT-4o mini и GigaChat Max между собой в качестве инструментов для обучения разработке компьютерных игр

в 10:16, , рубрики: GigaChat Max, gpt-4o mini

Современные технологии искусственного интеллекта (ИИ) становятся неотъемлемой частью разработки видеоигр, предоставляя новичкам в разработке видеоигр новые инструменты для быстрого поиска информации и обучения необходимым навыкам. 

Среди таких технологий особое внимание привлекают большие языковые модели, такие как GPT-4o mini и GigaChat Max, которые могут ускорить процесс обучения. Однако для разработчика выбор между этими инструментами может быть сложной задачей, требующей учета их особенностей, производительности и применимости в конкретных задачах. В данном эссе будет проведено сравнительное исследование GPT-4o mini и GigaChat Max с точки зрения разработчика видеоигр, чтобы выявить их преимущества и недостатки относительно друг друга для использования в обучении.

Нейросети будут сравниваться по нескольким критериям, таким как:

  • Доступность и цена - критерий, который определяет, насколько доступна языковая модель для пользователя. Даже если одна модель опережает другую по остальным критериям, но недоступна для пользователя, то считать ее лучше нельзя, так как у пользователя просто может не быть к ней доступа.

  • Различия в возможностях языковых моделей - критерий, который показывает, какие особенности есть у нейросетей. Важно учитывать этот критерий, ведь различный функционал может ускорить процесс получения необходимых знаний и навыков. Например, возможность работы с текстовыми файлами может позволить сделать краткую выжимку файла и быстрее получить нужную информацию.

  • Бенчмарки (в целом) - критерий, в котором производится сравнение нейросетей по бенчмаркам, который затрагивают различные области знаний, суммарно показывающий общий уровень нейросети, что важно учитывать, так как разработка видеоигры включает в себя множество различных областей.

  • Бенчмарки (программирование и математика) - критерий, в котором нейросети сравниваются отдельно по бенчмаркам, связанным с программированием и математикой, так как обучение в этих областях может быть крайне сложным и трудозатратным. Поэтому важно уделить отдельное внимание данным областям.

Доступность и цена являются одним из важнейших показателей при выборе языковой модели. 

  • Обе языковые модели можно использовать абсолютно бесплатно, что позволяет пользоваться данными сервисами вне зависимости от финансовой ситуации. 

  • С GPT-4o mini можно взаимодействовать через сайт, в то время как доступ к GigaChat Max можно получить через сайт и официального telegram-бота. 

  • Для полноценного использования GigaChat Max потребуется российский IP-адрес и авторизация через Сбер ID, что требует российского номера телефона. Для использования GPT-4o mini требуется email адрес, также доступ к данной нейросети есть только в некоторых странах.

Учитывая эти особенности, можно сделать вывод, что для пользователя из России получить доступ к GPT 4o-mini труднее чем к GigaChat Max. Для пользователей из других стран ситуация противоположна.

При выборе модели важно оценивать ее возможности, к сожалению, и OpenAl и Sber не предоставляют данных об одном из самых важных параметров - размере языковой модели. Но нейросети все еще можно сравнить по некоторым другим параметрам, которые могут повлиять на выбор нейросети.

Важно отметить, что первым параметром в таблице является количество символов в одном токене и выбор языковой модели не должен основываться на этом параметре. 

Характеристика

GPT-4o mini

GigaChat Max

Токен

~4 символа

3-4 символа

Размер контекста в токенах

128 тысяч

32 тысячи

Максимальная длина одного ответа

16 тысяч токенов

~4 тысячи символов

Работа с изображениями

да

да

Работа с текстовыми файлами

да

да

Работа с таблицами

да

нет

Возможность генерировать изображения

бесплатно, 2 изображения день

бесплатно, неограниченное количество раз

Данные таблицы показывают, что GPT-4o mini уступает лишь в одном параметре: возможности генерировать изображения. Однако, во всех остальных параметрах GPT-4o mini показывает себя лучше или наравне с GigaChat Max. Размер контекста в токенах у GPT-4o mini больше в 4 раза по сравнению с его соперником, что позволяет взаимодействовать с большими объемами информации и лучше отвечать на запросы пользователя. К тому-же у GPT-4o mini приблизительно в 16 раз больше максимальная длина одного ответа. Различия в этом параметре очень хорошо видны, когда обеим нейросетям задается развернутый вопрос. GPT-4o mini дает более развернутые и комплексные ответы, 

Также важным различием является возможность работы с таблицами, которой нет у GigaСhat Max, что может несколько усложнить работу с таблицами.

Следует отметить, что в таблице не представлены максимальные размеры файлов, с которыми могут работать нейросети. Данные не отражены в таблице ввиду не структурированности информации. OpenAI и Sber предоставляют некоторую информацию, однако систематизировать ее непросто.

Важными показателями эффективности языковой модели являются бенчмарки. Все результаты бенчмарков были взяты из трех источников: сайт OpenAI с информацией о GPT-4o mini, документация GigaChat Max от Sber, сайт MERA.

В данной таблице указаны результаты нейросетей для общего бенчмарка MMLU и его русскоязычной версии ruMMLU. Также в таблице приведена общая оценка языковых моделей от MERA, включающая в себя большое количество задач.

Бенчмарк

GPT-4o mini

GigaChat Max

MMLU

0.82

0.80

ruMMLU

0.652

0.718-0.75

Общая оценка модели от MERA

0.57

0.588

Исходя из данных, можно заметить, что обе нейросети показывают практически идентичные результаты как в бенчмарке MMLU, так и в оценке от MERA. В бенчмарке ruMMLU точность языковых моделей падает, однако GigaChat Max показывает более высокий результат, что может являться результатом лучшего понимания русского языка.

Учитывая то, что сравнение производится с точки зрения разработчика видеоигр, важно уделить особое внимание программированию и математике, так как обе эти области критически важны при разработке компьютерной игры и иногда могут являться большим препятствием для начинающего разработчика.

Первая таблица предоставляет результаты бенчмарков, связанных с программированием. Бенчмарк ruCodeEval является российским аналогом HumanEval. BPS и LCS также являются русскоязычными бенчмарками.

Бенчмарк

GPT-4o mini

GigaChat Max

HumanEval

0.872

0.64

ruCodeEval

0.704 / 0.753 / 0.768

0.077 / 0.093  / 0.098

BPS

0.965

0.977

LCS

0.108

0.192

Исходя из данных таблицы, можно заметить, что GigaChat Max показывает крайне низкие результаты в бенчмарке ruCodeEval, несмотря на неплохой результат в тесте HumaEval. Также нейросети показывают практически идентичный результат в бенчмарке BPS и Gigachat Max заметно опережает GPT-4o mimi в тесте LCS. В целом GPT-4o mini показывает лучшие результаты в тестах, что может стать причиной выбора именно этой языковой модели.

Вторая таблица предоставляет результаты бенчмарков, связанных с математическими способностями моделей. Из всех бенчмарков, представленных в таблице, англоязычным бенчмарком является лишь MATH, он же и является самым сложным из тестов, включающим в себя задачи вплоть до университетского уровня.

 

Бенчмарк

GPT-4o mini

GigaChat Max

MATH

0.702

0.53

MathLogicQA

0.454

0.575

ruMultiAr

0.301

0.362

ruModAr

0.495

0.938

Исходя из данных таблицы, можно сделать заключение, что GigaChat Max справляется с базовыми задачами на русском языке лучше, чем GPT-4o mini. Однако, GigaChat Max проигрывает в тесте MATH, показывая проблемы, которые испытывает данная языковая модель с задачами на английском языке. 

Учитывая все, что написано выше, можно отметить, что обе языковые модели имеют как плюсы, так и минусы относительно друг-друга и назвать лучшую модель для всех случаев нельзя. GPT-4o mini имеет больший функционал, показывает лучшие результаты во всех англоязычных тестах, размер контекста нейросети больше в 4 раза, однако, данная языковая модель недоступна на территории России. GigaChat Max в основном показывает лучшие результаты в русскоязычных текстах, показывает себя хуже чем GPT-4o mini в задачах, связанных с программированием. Но в среднем эта языковая модель немного отстает от своего противника.

Для пользователей которые не знают русский язык и/или не живут в России выбор между нейросетями очевиден. GPT-4o mini лучше показывает себя в англоязычных тестах, является более доступным и обладает большим функционалом.

Для пользователей из России выбрать языковую модель будет труднее. Учитывая то, что получить доступ к GigaChat Max проще, а также лучший результат в русскоязычных тестах, данная нейросеть становится привлекательным вариантом. Однако, следует учитывать, что GPT-4o mini решает сложные задачи лучше, и, в некоторых ситуациях, особенно если пользователь знает английский язык, GigaChat Max может быть менее выгодным выбором, несмотря на свои преимущества. В данном случае выбирать нейросеть лучше исходя из задач и их сложности, в некоторых случаях GPT-4o mini будет лучше, в некоторых - GigaChat Max.

Автор: GregZapu

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js