Рубрика «llmarena»

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

2025-08-27 в 5:30, admin, рубрики: AI, llm, llmarena, machinelearning, ml, open source, ИИ, краудсорсинг, нейросети, оценка моделей

Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena?

Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.

TL/DR:

Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;
Читать полностью »

Вселенная OpenAI: полный путеводитель по семейству моделей GPT в 2025 году

2025-06-26 в 9:25, admin, рубрики: chatgpt, gpt, gpt-3, gpt-4, llm, llmarena, OpenAI, sora, ИИ

(версия статьи актуальна на 26 июня 2025 года)

OpenAI за несколько лет превратила ChatGPT из экспериментального проекта в полноценного цифрового помощника, который умеет не только писать тексты, но и думать, видеть, слышать и даже спорить. Это стало настоящим поворотным моментом в истории ИИ и индустрия вошла в новый цикл развития. Появились тысячи приложений на базе LLM, десятки компаний сменили стратегию, а работа с языковыми моделями стала повседневной реальностью.

Читать полностью »

От ресторанов до банков: какие компании доверяют ИИ важные задачи

2025-03-06 в 11:20, admin, рубрики: AI, claude 3.7 sonnet, gpt-4o, llmarena, qwen, ИИ, искусственный интеллект

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.

Кейс 1: сеть ресторанов Wendy’s

В основном нейросети применяют для автоматизации общения с клиентами: в службах поддержки, при приеме и обработке заявок. На их основе создают чат-ботов или голосовых помощников, которые общаются не шаблонными фразами, а самостоятельно генерируют ответы.

Читать полностью »

Феномен DeepSeek: разбираем причины шума вокруг нейросети

2025-02-13 в 12:52, admin, рубрики: AI, deepseek, gpt, llm, llmarena, OpenAI, ИИ

Понедельник, 27 января, начался с крупнейшего однодневного падения Читать полностью »

Будущее LLM: 7 прогнозов на 2025 год

2024-12-26 в 12:43, admin, рубрики: AGI, Fine-tuning, gpt, llm, llmarena, o1-preview, OpenAI, rag, искусственный интеллект

Читать полностью »

Как устроен бенчмарк LLM? Знакомство с оценкой моделей

2024-10-14 в 7:27, admin, рубрики: BBH (Big Bench Hard), FEval, GPQA, LLM бенчмарк, llmarena, MMLU-PRO

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые крупные языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей Читать полностью »

Полный гид по бенчмаркам LLM

2024-09-24 в 12:28, admin, рубрики: AlpacaEval, CyberSecEval, llm, llmarena, MTBench, SycophancyEval, TrustLLM, TruthfulQA, бенчмарки

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «llmarena»

Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?

Вселенная OpenAI: полный путеводитель по семейству моделей GPT в 2025 году

От ресторанов до банков: какие компании доверяют ИИ важные задачи

Кейс 1: сеть ресторанов Wendy’s

Феномен DeepSeek: разбираем причины шума вокруг нейросети

Будущее LLM: 7 прогнозов на 2025 год

Как устроен бенчмарк LLM? Знакомство с оценкой моделей

Полный гид по бенчмаркам LLM