В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.
-
Обновление: Claude Sonnet 3.5 v2 — отличные возможности PDF
-
GPT-4o от 20 ноября — ТОП-3!
-
Qwen 2.5 Coder 32B Instruct — посредственный, но продвигает SotA!
-
Qwen QwQ 32B Preview — слишком умный
-
Gemini Experimental 1121 — достойный, но труднодоступный
-
Планы для бенчмарков LLM v2 — фокус на кейсах и возможностях
-
Бенчмарк Text-to-SQL
Бенчмарки LLM | Ноябрь 2024 г.
Бенчмарки оценивают модели с точки зрения их пригодности для разработки цифровых продуктов. Чем выше оценка, тем лучше.
☁️ - Облачные модели с собственной лицензией
✅ - Модели с открытым исходным кодом, которые можно запускать локально без ограничений
🦙 - Локальные модели с лицензией Llama
-
Code — может ли модель генерировать код и помогать с программированием?
-
Cost — предполагаемая стоимость выполнения рабочей нагрузки. Для облачных моделей мы рассчитываем стоимость в соответствии с ценами. Для локальных моделей мы оцениваем стоимость на основе требований к графическому процессору для каждой модели, стоимости аренды графического процессора, скорости модели и эксплуатационных расходов.
-
CRM — насколько хорошо модель поддерживает работу с каталогами продуктов и торговыми площадками?
-
Docs — насколько хорошо модель может работать с большими документами и базами знаний?
-
Integration — может ли модель легко взаимодействовать с внешними API, сервисами и плагинами?
-
Marketing — насколько хорошо модель может поддерживать маркетинговые мероприятия, например, мозговой штурм, генерацию идей и текстов?
-
Reason — насколько хорошо модель может рассуждать и делать выводы в заданном контексте?
-
Speed — в столбце «Скорость» указана расчетная скорость модели в запросах в секунду (без пакетной обработки). Чем выше скорость, тем лучше.
Полная таблица по ссылке: https://www.timetoact-group.com/en/details/llm-benchmarks-november-2024
Обновление Claude 3.5 v2 и извлечение документов в производстве
В октябрьском «LLM Benchmark» мы написали, что Anthropic добилась небольшого улучшения возможностей своего Claude 3.5 v2. Это улучшение относительно небольшое, но недостаточное, чтобы поместить его в ТОП-10.
Тем не менее, Anthropic Claude 3.5 Sonnet v2 в настоящее время является нашим первым выбором для проектов по извлечению данных (например, в рамках автоматизации бизнеса в производственных отраслях). Вы спросите, почему?
Представьте, что вам нужно тщательно извлечь из 1000 паспортов данные о спецификациях продукта для 20 000 электрических компонентов. Эти PDF-файлы могут включать сложные таблицы и даже диаграммы. Извлеченные данные затем можно использовать для сравнения продуктов компании с продуктами конкурентов, предлагая эквивалентные компоненты во встроенной рекламе или управляя решениями по цепочке поставок.
Anthropic Claude 3.5 Sonnet v2 имеет две замечательные функции, которые хорошо работают вместе:
Встроенная обработка PDF — теперь мы можем загружать файлы PDF непосредственно в API вместе с инструкциями по извлечению данных. Anthropic API разбивает PDF-файл на страницы и загружает каждую страницу дважды: в виде изображения и в виде текста. Это решение работает достаточно хорошо «из коробки», чтобы заменить ранее сложные настройки, в которых использовались выделенные VLM (визуальные модели языка), работающие на локальных графических процессорах.
PDF-файлы могут потреблять много токенов, особенно если они сопровождаются большим системным запросом. Чтобы ускорить обработку, повысить точность и снизить затраты, мы используем двухуровневое кэширование Prompt от Anthropic. Это позволяет нам оплатить полную стоимость токенизации PDF только один раз.
Вот как может выглядеть наш запрос для извлечения данных:
-
Системная подсказка: Ваша задача — извлечь данные о продукте из PDF. Вот схема (большая схема) и контекст компании.
-
Подсказка к документу: вот PDF-файл, из которого можно извлечь данные. В нем есть несколько продуктов (большой PDF).
-
Задача: извлечь продукт X из PDF.
Таким образом мы можем извлечь несколько продуктов из одного PDF-файла (следуя шаблону контрольного списка). Системная подсказка (1) и подсказка к документу (2) будут кэшироваться между всеми запросами на извлечение в один и тот же PDF. Система (1) будет кэшироваться между всеми запросами на извлечение PDF этого типа в целом.
Каждый раз, когда часть подсказки кэшируется на сервере, это обходится дешевле и выполняется быстрее. Например, на 30-70% быстрее и на 50-90% дешевле, как описано в документации Anthropic. В случаях извлечения данных экономия затрат, как правило, ближе к верхней границе этого диапазона.
Вот как это выглядит в действии: «Создание кэша» указывается, когда часть подсказки сохраняется в кэше, а «Чтение кэша» указывается, когда кэшированная подсказка используется повторно, что экономит время и деньги.
Есть небольшой нюанс. Антропные модели не имеют возможности структурированного вывода OpenAI. Поэтому вы можете подумать, что мы можем потерять две удивительные функции:
-
Точное следование схеме
-
Возможность жестко закодировать пользовательский процесс цепочки мыслей, который будет управлять LLM через процесс извлечения данных.
Но это не так! Структурированный вывод — это всего лишь возможность вывода, которая управляет ограниченным декодированием (выбором токена) для точного следования схеме. Способный LLM сможет извлечь даже сложную структуру без него. И при этом он будет следовать процессу цепочки мыслей, закодированному в определении схемы.
Антропный Claude 3.5 Sonnet v2, безусловно, может это сделать. И в 5-7% случаев, когда нам возвращается слегка недействительная схема, мы можем передать результаты в GPT-4o для ее исправления.
Вот пример определения структурированного вывода из одного проекта (качество изображения было намеренно снижено).
GPT-4o от 20 ноября — ТОП 3
OpenAI не удосужилась опубликовать полноценный анонс этой модели (gpt-4o-2024-11-20 в API). Недавно они опубликовали обновление в Твиттере:
Модель заслуживает особого упоминания в наших бенчмарках. По сравнению с предыдущей GPT-4o v2/2024-08-06, модель показывает заметное улучшение, особенно в категории «Reason».
Вы также можете заметить обычную схему OpenAI с моделями:
-
Сначала они выпускают новую мощную модель (в данном случае GPT-4o v1)
-
Затем они выпускают следующую модель в том же семействе, которая намного дешевле в запуске
-
И, наконец, они улучшают модель, все еще работая с меньшими затратами.
Несколько моделей Qwen от Alibaba
Qwen 2.5 Coder 32B Instruct — это новая модель в семействе Qwen. Поначалу она расстроит вас, а затем обрадует.
Сама модель может быть загружена с HuggingFace и запущена локально на вашем оборудовании.
Печально то, что эта модель кодирования плохо справилась с нашей категорией задач Code+Eng. Она смогла справиться с задачами кодирования, но не справилась с более сложными задачами проверки и анализа кода. Кроме того, ее рассуждения, как правило, довольно низкие — 46.
Чего же можно ожидать от модели под названием «Кодер», верно? И на самом деле в кодировании эта модель довольно хороша. Эта модель показала себя так же хорошо, как Sonnet 3.5 в бенчмарке кодирования для сложных задач преобразования текста в SQL (подробнее об этом позже).
Что же такого хорошего в этой модели? Эта модель, ориентированная на кодирование, представляет собой новое качественное улучшение для локальных моделей в категории «Она может работать на графическом процессоре A100/H100»!
Кстати, интересно отметить, что несколько других крупных улучшений качества, которые продвинули State of the Art для локальных моделей, также были реализованы Qwen.
Также интересно, что «o1-killer» от Qwen не набрал таких высоких баллов в нашем бенчмарке. Qwen: QwQ 32B Preview был разработан, чтобы продвинуться в возможностях рассуждения. Согласно некоторым бенчмаркам, он преуспел в этом. Однако он не подходит для задач продукта и автоматизации бизнеса. Почему? Он слишком много говорит и не следует инструкциям.
Учитывая приведенную ниже подсказку, это также подкрепляется парой примеров:
Вы извлекаете свойства продукта из предоставленного текста. Если не можете определить, ответьте в формате: «числовая единица» или «Н/Д». Уберите кавычки, разделители тысяч и комментарии.
Модель будет стремиться начать ответ следующим образом:
Хорошо, у меня есть этот текст об электрической отвертке...
Даже крошечный mistral-7b-instruct-f16 ответил бы что-то вроде 1300 об/мин.
Это может показаться несправедливым сравнением QwQ с топовой моделью o1-preview. У o1 есть возможность рассуждать в частном порядке, прежде чем предоставить свой ответ (для этого он использует токены рассуждений).
Чтобы сделать ситуацию более справедливой для новых поколений моделей рассуждения, мы немного изменим ситуацию в следующем крупном обновлении нашего бенчмарка — моделям будет разрешено рассуждать, прежде чем давать ответ. Модели, которые слишком много думают, будут изначально наказаны за счет своей стоимости и огромной задержки.
LLM Benchmark v2
Мы запускаем текущую версию бенчмарка без серьезных изменений почти полтора года. Изменения были исключены, чтобы результаты бенчмарка были сопоставимы между моделями и тестовыми запусками.
Однако с июля 2023 года многое изменилось в ландшафте:
-
Структурированные выходные данные — позволяют нам определять точный формат ответа и даже управлять пользовательской цепочкой мыслей для сложных задач.
-
Мультимодальные языковые модели могут обрабатывать изображения и аудио в дополнение к текстовым входным данным. Входные данные изображений активно используются при извлечении документов.
-
Оперативное кэширование меняет перспективу создания систем RAG, запуска сложных контрольных списков или извлечения данных из множества документов.
-
Новые модели рассуждений позволяют нам повышать производительность моделей, разбивая сложные задачи на небольшие шаги, а затем инвестируя (оплачиваемое) время в их размышление.
Кроме того, мы получили гораздо больше информации о создании систем на основе LLM и добавили больше кейсов в наше портфолио ИИ.
Настало время для большого обновления. Работа над бенчмарком TIMETOACT GROUP LLM v2 уже началась. Мы рассчитываем опубликовать первый проект отчета в начале следующего года.
Бенчмарк V2 сохранит основы из v1, но будет больше сосредоточен на конкретных случаях ИИ и новых возможностях модели. Также ожидается больше диаграмм.
Gemini Experimental 1121 — хорош, но «непонятен»
Gemini Experimental 1121 — это новая модель-прототип от Google. В настоящее время она доступна в тестовых средах, таких как AI Studio или OpenRouter. Эта модель не продвигает новейшие разработки для Gemini, но доказывает, что присутствие Google в ТОП-10 — вовсе не счастливое совпадение. Это третья модель Gemini, попавшая в ТОП-10.
Однако в настоящее время эту модель невозможно использовать. Она предоставляется бесплатно, но имеет жесткие ограничения по скорости. Потребовалось 3 дня и несколько ключей API только для того, чтобы запустить несколько сотен оценок из нашего бенчмарка.
Бенчмарк Text-to-SQL
Neo4j опубликовал видео с конференции NODES24 о бенчмаркинге различных LLM в задачах text-to-SQL и text-to-Cypher.
Примером задачи Text-to-SQL является использование LLM для перевода человеческого запроса в сложный запрос к базе данных SQL компании. Он используется для самостоятельной отчетности. Text-to-Cypher аналогичен, но выполняет запросы к таким базам данных, как Neo4j.
Исследование и презентация были выполнены в партнерстве с двумя компаниями из TIMETOACT GROUP: X-Integrate и TIMETOACT GROUP Austria.
Самый важный слайд презентации — ниже. Он показывает точность, с которой разные LLM генерировали запросы для сложной базы данных. Эта база данных содержала информацию о технических и организационных зависимостях в компании для целей управления рисками.
«Базовые» баллы — это баллы без каких-либо оптимизаций производительности, в то время как «полные» баллы используют ряд оптимизаций производительности для повышения точности генерации запросов.
Вы можете узнать больше об этих оптимизациях (и о бенчмарке), посмотрев презентацию онлайн на YouTube.
Некоторые из этих задач text-to-query будут даже включены в наш предстоящий бенчмарк LLM v2.
Автор: kucev