Рубрика «бенчмарки»
Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики
2025-02-04 в 12:49, admin, рубрики: AI, llm, named entity recognition, rag, RAI, Text-to-SQL, бенчмаркиОценка систем LLM: основные метрики, бенчмарки и лучшие практики
2025-01-22 в 11:34, admin, рубрики: DeepEval, g-eval, llm, Text-SQL, бенчмаркиНасколько RTX 2080 Ti подходит для ML-задач? Изучаем бенчмарки
2025-01-21 в 9:04, admin, рубрики: Nvidia, selectel, бенчмарки, Видеокарты, ЖелезоКогда NVIDIA представила видеокарты семейства GeForce® RTX™ 20 в 2018 году, стало ясно, что новые чипы с архитектурой NVIDIA Turing™ кардинально изменят подход к вычислениям. Благодаря множеству нововведений, новые видеокарты стали значительно производительнее предыдущего поколения. При этом GPU 20 серии поддерживают и работу новых технологий, которые анонсировали с выходом GeForce® RTX™ 30. Разберемся, какие видеокарты будут оптимальным выбором для ML-задач. Под катом — реальные примеры и результаты бенчмарков.Читать полностью »
∇²DFT — новый датасет и бенчмарк для решения задач квантовой химии с помощью нейросетей
2024-12-25 в 12:27, admin, рубрики: dft, бенчмарки, графовые нейросети, квантовая химияПривет!
Меня зовут Кузьма Храбров, я инженер‑исследователь в AIRI и занимаюсь задачами на стыке машинного обучения, квантовой химии и вычислительной биологии. Вместе с командой мы создаем новые датасеты, обучаем новые модели и придумываем методы решения как фундаментальных, так и практических задач.
ARC Prize 2024: Второй после Теста Тьюринга?
2024-12-24 в 17:40, admin, рубрики: llm, бенчмарки, ИИ, Модель o3 от OpenAI, сильный ИИ, сравнение LLMПредлагаю обсудить перевод оригинальной статьи с методикой интересного теста ARC Prize, - об него сломали виртуальные зубы все LLM, кроме нашумевшей o3 от OpenAIЧитать полностью »
Лучшие крупные языковые модели в ноябре 2024 г
2024-12-16 в 13:46, admin, рубрики: Claude 3.5 v2 Update, gpt-4o, llm, LLM Benchmark v2, qwen, Text-to-SQL, бенчмаркиВ ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.
-
Обновление: Claude Sonnet 3.5 v2 — отличные возможности PDF
-
GPT-4o от 20 ноября — ТОП-3!
-
Qwen 2.5 Coder 32B Instruct — посредственный, но продвигает SotA!
-
Qwen QwQ 32B Preview — слишком умный
BABILong — бенчмарк для оценки LLM на больших контекстах
2024-12-16 в 7:24, admin, рубрики: benchmark, llm, бенчмарки, длинный контекстПривет! Мы — команда Memory‑Augmented models в составе лаборатории Cognitive AI Systems AIRI. В ходе своих исследований мы стараемся разобраться, насколько хорошо LLM могут обрабатывать большой объем данных и решать задачи на основе них.
Разработчики современных языковых моделей соревнуются в длине контекста, и счёт уже идёт на миллионы токенов. Но насколько эффективно LLM пользуются информацией из этого контекста?
Чтобы выяснить это, мы вместе с коллегами из МФТИ и Лондонского института Математических Наук создали новый бенчмарк под названием BABILong, который привезлиЧитать полностью »
Сравнение эффективности компиляторов под Эльбрус на примере решета Эратосфена
2024-12-13 в 15:15, admin, рубрики: бенчмарки, Компиляторы, МЦСТ, Процессоры, решето Эратосфена, тесты производительности, Эльбрус, Эльбрус-8СНа Хабре уже тестирование Эльбрусов на разных языках программирования (например, здесь). И данный обзор стоит рассматривать как дополнение, с ещё одним тестом, новыми версиями компиляторов и новыми участниками (Rust, С++). Так же обзор сделан с упором на тест возможностей именно компиляторов и настройки оптимизации.
Тестовые стенды:
x86:
-
AMD FX-6300@3500 Мгц. (турбобуст отключен).
-
Intel Celeron (Haswell) G1820@2700 Мгц.
Софт:
Ubuntu 22.04.
Java: OpenJDK Runtime Environment (build 11.0.25+9-post-Ubuntu-1ubuntu122.04).
Rust: rustc / cargo v.1.83.0; LLVM version: 19.1.1.
Сколько памяти нужно в 2024 году для выполнения миллиона конкурентных задач?
2024-12-07 в 5:44, admin, рубрики: graalvm, nodejs, асинхронные задачи, бенчмарки, конкурентностьПомните сравнение потребления памяти для асинхронного программирования на популярных языках 2023 года?
Мне стало любопытно, как поменялась ситуация за один год на примере самых новых версий языков.
Давайте снова проведём бенчмарки и изучим результаты!
Бенчмарк
Программа для бенчмаркинга будет той же, что и в прошлом году:
Запустим N конкурентных задач, каждая будет ждать в течение 10 секунд. После завершения всех задач программа завершается. Количество задач указывается как аргумент командной строки.
От слов к делу: Практические кейсы применения NLP в Ингосстрахе
2024-11-28 в 10:07, admin, рубрики: AI, data science, llm, machine learning, nlp, бенчмаркиКогда говорят про ИИ в страховании, все обычно представляют классический ML и вероятностные модели (они конечно же имеются у нас в большом количестве). Страховая отрасль богата всевозможными данными (телеметрия с авто, внешние условия, данные с сайтов и партнёров, и прочее). Все эти большие данные нужны для создания лучших предложений клиентам в рамках кастомизируемых и вариативных страховых продуктах.
Именно с ними работают математики, которых, чтобы было веселее, в страховании называют сложно выговариваемыми словами «актуарии» и «андеррайтеры».