Рубрика «бенчмарки»

Лучшие крупные языковые модели в ноябре 2024 г

2024-12-16 в 13:46, admin, рубрики: Claude 3.5 v2 Update, gpt-4o, llm, LLM Benchmark v2, qwen, Text-to-SQL, бенчмарки

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

Обновление: Claude Sonnet 3.5 v2 — отличные возможности PDF
GPT-4o от 20 ноября — ТОП-3!
Qwen 2.5 Coder 32B Instruct — посредственный, но продвигает SotA!
Qwen QwQ 32B Preview — слишком умный

Читать полностью »

BABILong — бенчмарк для оценки LLM на больших контекстах

2024-12-16 в 7:24, admin, рубрики: benchmark, llm, бенчмарки, длинный контекст

Привет! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут обрабатывать большой объем данных и решать задачи на основе них.

Разработчики современных языковых моделей соревнуются в длине контекста, и счёт уже идёт на миллионы токенов. Но насколько эффективно LLM пользуются информацией из этого контекста?

Чтобы выяснить это, мы вместе с коллегами из МФТИ и Лондонского института Математических Наук создали новый бенчмарк под названием BABILong, который привезли Читать полностью »

Сравнение эффективности компиляторов под Эльбрус на примере решета Эратосфена

2024-12-13 в 15:15, admin, рубрики: бенчмарки, Компиляторы, МЦСТ, Процессоры, решето Эратосфена, тесты производительности, Эльбрус, Эльбрус-8С

На Хабре уже тестирование Эльбрусов на разных языках программирования (например, здесь). И данный обзор стоит рассматривать как дополнение, с ещё одним тестом, новыми версиями компиляторов и новыми участниками (Rust, С++). Так же обзор сделан с упором на тест возможностей именно компиляторов и настройки оптимизации.

Тестовые стенды:

x86:

AMD FX-6300@3500 Мгц. (турбобуст отключен).
Intel Celeron (Haswell) G1820@2700 Мгц.

Софт:

Ubuntu 22.04.

Java: OpenJDK Runtime Environment (build 11.0.25+9-post-Ubuntu-1ubuntu122.04).

Rust: rustc / cargo v.1.83.0; LLVM version: 19.1.1.

Читать полностью »

Сколько памяти нужно в 2024 году для выполнения миллиона конкурентных задач?

2024-12-07 в 5:44, admin, рубрики: graalvm, nodejs, асинхронные задачи, бенчмарки, конкурентность

Помните сравнение потребления памяти для асинхронного программирования на популярных языках 2023 года?

Мне стало любопытно, как поменялась ситуация за один год на примере самых новых версий языков.

Давайте снова проведём бенчмарки и изучим результаты!

Бенчмарк

Программа для бенчмаркинга будет той же, что и в прошлом году:

Запустим N конкурентных задач, каждая будет ждать в течение 10 секунд. После завершения всех задач программа завершается. Количество задач указывается как аргумент командной строки.

Читать полностью »

От слов к делу: Практические кейсы применения NLP в Ингосстрахе

2024-11-28 в 10:07, admin, рубрики: AI, data science, llm, machine learning, nlp, бенчмарки

Когда говорят про ИИ в страховании, все обычно представляют классический ML и вероятностные модели (они конечно же имеются у нас в большом количестве). Страховая отрасль богата всевозможными данными (телеметрия с авто, внешние условия, данные с сайтов и партнёров, и прочее). Все эти большие данные нужны для создания лучших предложений клиентам в рамках кастомизируемых и вариативных страховых продуктах.

Именно с ними работают математики, которых, чтобы было веселее, в страховании называют сложно выговариваемыми словами «актуарии» и «андеррайтеры».

Читать полностью »

Почти все бенчмарки для измерения ИИ — ужасны. Колонка MIT Technology Review

2024-11-28 в 7:45, admin, рубрики: AI, llm, бенчмарки, ИИ, искусственный интеллект, критерии оценки

Многие из самых популярных бенчмарков для моделей ИИ устарели или плохо разработаны.

Дисклеймер: это вольный перевод статьиЧитать полностью »

Человек и LLM: как построить метрики для оценки моделей

2024-11-28 в 7:02, admin, рубрики: llm, ml, ml-метрики, бенчмарки, машинное обучение, метрики, нейросети, оценка качества, языковые модели

Привет, меня зовут Ирина Барская, и я руководитель службы аналитики и исследований в Яндексе. А это значит, что я и моя команда каждый день думаем, как оценивать качество работы генеративных моделей, какие при этом смотреть метрики, как вообще понять, хорошая ли модель у нас получилась.

Читать полностью »

Сравнение бенчмарков LLM для разработки программного обеспечения

2024-11-14 в 13:33, admin, рубрики: Aider, BigCodeBench, ClassEval, CodeXGLUE, DevQualityEval, HumanEval, llm, SWE-bench, бенчмарки, бенчмаркинг

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.

Серия публикаций о бенчмаркинге LLM

Прочтите все остальные статьи из серии Symflower об оценке LLM и ознакомьтесь с нашим последним подробным обзором Читать полностью »

Полный гид по бенчмаркам LLM

2024-09-24 в 12:28, admin, рубрики: AlpacaEval, CyberSecEval, llm, llmarena, MTBench, SycophancyEval, TrustLLM, TruthfulQA, бенчмарки

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.
Читать полностью »

Самые популярные LLM бенчмарки

2024-09-23 в 7:45, admin, рубрики: GSM8K, llm, MathEval, MMLU, MT-Bench, бенчмарки

Зачем использовать бенчмарки для оценки LLM?

Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач.

Бенчмарки содержат все структуры и данные, необходимые для оценки LLM, в том числе:

«Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами)
Способы передачи входных промтов в LLM
Способы интерпретации/сбора ответов
Вычисляемые метрики и оценки (а также способы их вычисления)

Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «бенчмарки»

Лучшие крупные языковые модели в ноябре 2024 г

BABILong — бенчмарк для оценки LLM на больших контекстах

Сравнение эффективности компиляторов под Эльбрус на примере решета Эратосфена

Сколько памяти нужно в 2024 году для выполнения миллиона конкурентных задач?

Бенчмарк

От слов к делу: Практические кейсы применения NLP в Ингосстрахе

Почти все бенчмарки для измерения ИИ — ужасны. Колонка MIT Technology Review

Человек и LLM: как построить метрики для оценки моделей

Сравнение бенчмарков LLM для разработки программного обеспечения

Серия публикаций о бенчмаркинге LLM

Полный гид по бенчмаркам LLM

Самые популярные LLM бенчмарки

Зачем использовать бенчмарки для оценки LLM?

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «бенчмарки»

Бенчмарк

Серия публикаций о бенчмаркинге LLM

Зачем использовать бенчмарки для оценки LLM?

Новости

Актуальные темы

Архив