Рубрика «бенчмаркинг»

ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

2025-12-12 в 17:29, admin, рубрики: arc-agi, OpenAI, бенчмарки, бенчмаркинг, генеративный ии, искусственный интеллект, машинное обучение, Новости, тестирование моделей

Вчера вышла новая версия модели ChatGPT 5.2. В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков.

Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок.

На сегодня существует две версии этого теста. Так о чем же он?

ARC-AGI-1

История начинается в 2019 году со статьиЧитать полностью »

Битрикс24 бенчмарк для оценки LLM

2025-07-30 в 8:00, admin, рубрики: gemini, llm, бенчмарк кода, бенчмарки бям, бенчмаркинг, битрикс отладка веб-разработка, Битрикс24, ии чат-бот, ии-агенты

В преддверии выхода GPT-5 хотелось сделать бенчмарк который по-настоящему проверит её способности. Не прекращаются споры – если LLM просто стохастические попугаи, то как решают олимпиадные задачи по математике? Если Chatgpt способен написать полезное приложение по одному запросу, то почему не может посчитать число r в слове Strawberry или описать как фермеру перевезти себя и две курицы через реку? Пора положить обсуждениям конец с помощью 150 задач по Битрикс24 разработке!

Кто просил об этом?

Читать полностью »

Зимняя школа RISC-V: измеряем латентность и пропускную способность, оптимизируем приложения на C#

2025-05-05 в 13:01, admin, рубрики: risc-v, бенчмаркинг, зимняя школа risc-v, оптимизация приложений, сезон open source, студенты, студенческие проекты

Зимняя школа RISC-V — совместный проект YADRO и ведущих технических вузов России и Беларуси. В этом году зимняя школа прошла во второй раз: 12 лекций по разработке на RISC-V в январе и проектная работа с защитой в начале февраля. Далее в статье мы расскажем об итогах школы, дадим слово кураторам и начнем делиться самыми интересными проектами потока.

Читать полностью »

Что покажет бенчмарк? Оценка мультиагентных систем в действии

2025-05-05 в 11:00, admin, рубрики: AI, ai agent, бенчмаркинг, ИИ, ии-агенты

Оценка ИИ-агентов с контролем затрат

Читать полностью »

Сравнение бенчмарков LLM для разработки программного обеспечения

2024-11-14 в 13:33, admin, рубрики: Aider, BigCodeBench, ClassEval, CodeXGLUE, DevQualityEval, HumanEval, llm, SWE-bench, бенчмарки, бенчмаркинг

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.

Серия публикаций о бенчмаркинге LLM

Прочтите все остальные статьи из серии Symflower об оценке LLM и ознакомьтесь с нашим последним подробным обзором Читать полностью »

Как мы исследовали энергоэффективность инференса нейросетей на планшете

2024-11-14 в 9:45, admin, рубрики: AI, бенчмаркинг, инференс, искусственный интеллект, планшет, функции

Современные гаджеты невозможно представить без AI-функций. Размыть фон за спиной во время телеконференции, подавить шум от проходящих мимо коллег, вычесть «красные глаза» на фотографии — все это давно стало базовым функционалом любого устройства с камерой и микрофоном. Сейчас вендоры потребительских устройств устраивают настоящую «гонку вооружений», предлагая новые AI-функции, которые выделят устройство среди «собратьев».

Читать полностью »

Шлепа — Большой Русский Бенчмарк

2024-09-02 в 7:00, admin, рубрики: llama, llm, mistral, бенчмаркинг

Здарова! На связе лаборатория Вихрей, сегодня мы расскажем про наш бенчмарк, Шлёпа — большой русский бенчмарк.

Что есть сейчас для оценки русскоязычных LLM

Mera — бенчмарк от Альянса искусственного интеллекта, использует тесты и генерацию, сабмит через сайт, сайт почти не обновлялся с зимы. Почитать про него можно тут

Читать полностью »

Бенчмаркая строки и циклы: Replace, Split и Substring

2023-05-20 в 8:53, admin, рубрики: .net, C#, бенчмаркинг, оптимизация, Программирование

Уважаемые читатели, в этой статье я хочу рассказать о небольших тестах со строками и представить свои выводы. Тесты сделаны на .net 7.

Все коды представлены для повторения но отмечу, что больше всего удивили циклы.

Про строки написано немало, поэтому слишком углубляться в их особенности не буду, лишь напомню, что строки в реальности могут быть изменяемыми с использованием различных ухищрений.

Все тесты сделаны с использованием BenchmarkDotNet, так что каждый может проверить результаты и сделать свои выводы.

Хочется начать с string.Replace, который проверяется разными вариантами, начиная с базового:

Читать полностью »

Сравнили 80-ядерный ARM-процессор Ampere Altra с AMD EPYC и довольны результатом. Протестируйте и вы

2022-12-28 в 13:15, admin, рубрики: AArch64, ampere, architecture, бенчмаркинг, Блог компании Selectel, Компьютерное железо, Процессоры, Тестирование IT-систем

Привет! Меня зовут Максим, я работаю тестировщиком оборудования в Selectel Lab. В нашей лаборатории мы изучаем новое железо в экспериментальных сборках, а также предлагаем его на тест клиентам Selectel.

На этот раз к нам попал сервер GIGABYTE E252-P30 с 80-ядерным процессором от Ampere Altra Q80-30. Этот ARM-процессор уже отметился характеристиками: процессоры с таким числом ядер с частотой 3.0 ГГц при TDP в 210 Вт не предлагает ни один «звездный» вендор.

Прогнали этот сервер через ряд тестов и сравнили с наиболее близким по характеристикам AMD EPYC 7513. Под катом — результаты бенчмарков и предложение протестировать процессор бесплатно.
Читать полностью »

Рейтинг русскоязычных энкодеров предложений

2022-06-05 в 19:18, admin, рубрики: BERT, natural language processing, python, sentence encoder, бенчмаркинг, машинное обучение, Семантика, энкодер предложений

Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами. Они полезны для кучи задач, например, few-shot классификации текстов, семантического поиска, или оценки качества перефразирования.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «бенчмаркинг»

ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

ARC-AGI-1

Битрикс24 бенчмарк для оценки LLM

Зимняя школа RISC-V: измеряем латентность и пропускную способность, оптимизируем приложения на C#

Что покажет бенчмарк? Оценка мультиагентных систем в действии

Оценка ИИ-агентов с контролем затрат

Сравнение бенчмарков LLM для разработки программного обеспечения

Серия публикаций о бенчмаркинге LLM

Как мы исследовали энергоэффективность инференса нейросетей на планшете

Шлепа — Большой Русский Бенчмарк

Что есть сейчас для оценки русскоязычных LLM

Бенчмаркая строки и циклы: Replace, Split и Substring

Сравнили 80-ядерный ARM-процессор Ampere Altra с AMD EPYC и довольны результатом. Протестируйте и вы

Рейтинг русскоязычных энкодеров предложений