Рубрика «MMLU»
Как оценить LLM модель
2024-10-28 в 7:06, admin, рубрики: GLUE, HellaSwag, llm, MMLU, TruthfulQA, оценка систем LLM, оценки на основе моделей, оценки на основе правилСамые популярные LLM бенчмарки
2024-09-23 в 7:45, admin, рубрики: GSM8K, llm, MathEval, MMLU, MT-Bench, бенчмаркиЗачем использовать бенчмарки для оценки LLM?
Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач.
Бенчмарки содержат все структуры и данные, необходимые для оценки LLM, в том числе:
- «Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами)
- Способы передачи входных промтов в LLM
- Способы интерпретации/сбора ответов
- Вычисляемые метрики и оценки (а также способы их вычисления)
Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!
Читать полностью »