Рубрика «бенчмарки» - 2

Почти все бенчмарки для измерения ИИ — ужасны. Колонка MIT Technology Review - 1

Многие из самых популярных бенчмарков для моделей ИИ устарели или плохо разработаны.

Дисклеймер: это вольный перевод статьиЧитать полностью »

Человек и LLM: как построить метрики для оценки моделей - 1

Привет, меня зовут Ирина Барская, и я руководитель службы аналитики и исследований в Яндексе. А это значит, что я и моя команда каждый день думаем, как оценивать качество работы генеративных моделей, какие при этом смотреть метрики, как вообще понять, хорошая ли модель у нас получилась.

Читать полностью »

Сравнение бенчмарков LLM для разработки программного обеспечения - 1

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.

Серия публикаций о бенчмаркинге LLM

Прочтите все остальные статьи из серии Symflower об оценке LLM и ознакомьтесь с нашим последним подробным обзором Читать полностью »

Полный гид по бенчмаркам LLM - 1

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.
Читать полностью »

Самые популярные LLM бенчмарки - 1

Зачем использовать бенчмарки для оценки LLM?

Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач.

Бенчмарки содержат все структуры и данные, необходимые для оценки LLM, в том числе:

  • «Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами)
  • Способы передачи входных промтов в LLM
  • Способы интерпретации/сбора ответов
  • Вычисляемые метрики и оценки (а также способы их вычисления)

Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!
Читать полностью »

Введение

Привет! Сегодня я хочу поделиться своими наблюдениями и опытом по работе с различными ассемблерами. Я сам пишу на языке C и относительно редко касался темы ассемблера. Но недавно решил восполнить этот пробел в знаниях и посмотреть на различные ассемблеры. В данной статье мы не будем рассматривать ARM, AVR и другие микроконтроллерные архитектуры, а сосредоточимся исключительно на компьютерных ассемблерах. Давайте не будем судить строго, ведь это скорее исследовательский опыт, чем глубокое погружение.

Введение в ассемблеры

Читать полностью »

Привет! Меня зовут Александр Иванов, я разрабатываю средства управления сетевыми элементами сотовой связи и пишу на языке Go в YADRO. Однажды я работал над приложением, которое испытывало пиковые нагрузки каждые 10 минут, но выполнить обработку памяти быстро мешал Garbage Collector. Чтобы решить эту проблему, я изучил несколько способов реализации memory pool и провел испытания скорости работы. 

Читать полностью »

Обзор бенчмарков для тестирования LLM (больших языковых моделей) - 1

Ирина Барская, Head Data Scientist в Яндексе, которая работала над голосовым ассистентом «Алиса» и Yasmina для рынка Саудовской Аравии, написала для портала Unite.ai обзор основных бенчмарков, которые используются для оценки работы больших языковых моделей. А мы этот обзор перевели.

Читать полностью »

Firefox не только самый быстрый, но и самый эффективный браузер - 1


Несколько месяцев назад мы публиковали результаты тестов Speedometer 3.0, согласно которым Firefox сохраняет преимущество в производительности перед Chrome.

А сейчас появились доказательства, что Firefox не только быстрее, но и эффективнее Chrome по некоторым параметрам. В частности, по работе с памятью.
Читать полностью »

Сравнение процессоров Loongson 3A5000 и 3A6000

Сравнение процессоров Loongson 3A5000 и 3A6000

Недавно был представлен 8-ядерный процессор следующего Loongson 3A6000 на базе ядра LA664, а знакомый энтузиаст смог приобрести плату на данном процессоре (модель процессора LS3A6000-HV и чипсет LS7A2000).

Читать полностью »

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js