Рубрика «бенчмарки»

Сравнение бенчмарков LLM для разработки программного обеспечения - 1

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать крупные языковые модели для задач разработки программного обеспечения.

Серия публикаций о бенчмаркинге LLM

Прочтите все остальные статьи из серии Symflower об оценке LLM и ознакомьтесь с нашим последним подробным обзором Читать полностью »

Полный гид по бенчмаркам LLM - 1

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.
Читать полностью »

Самые популярные LLM бенчмарки - 1

Зачем использовать бенчмарки для оценки LLM?

Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач.

Бенчмарки содержат все структуры и данные, необходимые для оценки LLM, в том числе:

  • «Эталонные» датасеты (релевантные задачи/вопросы/промты с ожидаемыми ответами)
  • Способы передачи входных промтов в LLM
  • Способы интерпретации/сбора ответов
  • Вычисляемые метрики и оценки (а также способы их вычисления)

Всё вместе это позволяет согласованным образом сравнивать точность разных моделей. Но какой же бенчмарк LLM стоит использовать? В основном это зависит от сценария использования, то есть от того, для чего вы намереваетесь применять LLM. Давайте разбираться!
Читать полностью »

Введение

Привет! Сегодня я хочу поделиться своими наблюдениями и опытом по работе с различными ассемблерами. Я сам пишу на языке C и относительно редко касался темы ассемблера. Но недавно решил восполнить этот пробел в знаниях и посмотреть на различные ассемблеры. В данной статье мы не будем рассматривать ARM, AVR и другие микроконтроллерные архитектуры, а сосредоточимся исключительно на компьютерных ассемблерах. Давайте не будем судить строго, ведь это скорее исследовательский опыт, чем глубокое погружение.

Введение в ассемблеры

Читать полностью »

Привет! Меня зовут Александр Иванов, я разрабатываю средства управления сетевыми элементами сотовой связи и пишу на языке Go в YADRO. Однажды я работал над приложением, которое испытывало пиковые нагрузки каждые 10 минут, но выполнить обработку памяти быстро мешал Garbage Collector. Чтобы решить эту проблему, я изучил несколько способов реализации memory pool и провел испытания скорости работы. 

Читать полностью »

Обзор бенчмарков для тестирования LLM (больших языковых моделей) - 1

Ирина Барская, Head Data Scientist в Яндексе, которая работала над голосовым ассистентом «Алиса» и Yasmina для рынка Саудовской Аравии, написала для портала Unite.ai обзор основных бенчмарков, которые используются для оценки работы больших языковых моделей. А мы этот обзор перевели.

Читать полностью »

Firefox не только самый быстрый, но и самый эффективный браузер - 1


Несколько месяцев назад мы публиковали результаты тестов Speedometer 3.0, согласно которым Firefox сохраняет преимущество в производительности перед Chrome.

А сейчас появились доказательства, что Firefox не только быстрее, но и эффективнее Chrome по некоторым параметрам. В частности, по работе с памятью.
Читать полностью »

Сравнение процессоров Loongson 3A5000 и 3A6000

Сравнение процессоров Loongson 3A5000 и 3A6000

Недавно был представлен 8-ядерный процессор следующего Loongson 3A6000 на базе ядра LA664, а знакомый энтузиаст смог приобрести плату на данном процессоре (модель процессора LS3A6000-HV и чипсет LS7A2000).

Читать полностью »
Самый быстрый браузер - 1

В июле 2023 года произошло важное событие — Firefox превзошёл Chrome в популярном тесте Speedometer, который измеряет скорость работы браузеров.

Были времена, когда Firefox считался медленным и неповоротливым браузером, потребляющим много памяти и в целом «тормозным». Когда появился Chrome, то некоторые пользователи перешли на него из-за лучшей производительности. Сейчас ситуация кардинально меняется.

Как Mozilla сумела добиться такого результата?
Читать полностью »

Бенчмаркингом я занимаюсь уже более 10 лет (заинтересовался, когда приобрёл первый одноплатный компьютер Odroid X2 в 2012 году, тогда только зарождалась субкультура по одноплатным компьютерам), а также мне всегда было интересно сравнить производительность современных процессоров с процессорами 80-х годов (конечно же я использую и современные бенчмарки). Для меня важно, чтобы у бенчмарков был доступен исходный код (особенно на языке C и без заморочек компиляции), легко собираемый и понятный в интерпретации результатов.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js