Рубрика «MMLU»

Как оценить LLM модель

2024-10-28 в 7:06, admin, рубрики: GLUE, HellaSwag, llm, MMLU, TruthfulQA, оценка систем LLM, оценки на основе моделей, оценки на основе правил

Введение

Читать полностью »

Самые популярные LLM бенчмарки

2024-09-23 в 7:45, admin, рубрики: GSM8K, llm, MathEval, MMLU, MT-Bench, бенчмарки

Зачем использовать бенчмарки для оценки LLM?

Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач.

Бенчмарки содержат все структуры и данные, необходимые для оценки LLM, в том числе:

«Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами)
Способы передачи входных промтов в LLM
Способы интерпретации/сбора ответов
Вычисляемые метрики и оценки (а также способы их вычисления)

Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «MMLU»

Как оценить LLM модель

Введение

Самые популярные LLM бенчмарки

Зачем использовать бенчмарки для оценки LLM?

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «MMLU»

Как оценить LLM модель

Введение

Самые популярные LLM бенчмарки

Зачем использовать бенчмарки для оценки LLM?

Новости

Актуальные темы

Архив