Рубрика «инференс»
Ускорение LLM: универсальные методы для популярных архитектур
2025-02-05 в 7:00, admin, рубрики: llm, ml, инференс, нейросетиАнализ DeepSeek R1-Zero и R1
2025-01-30 в 10:07, admin, рубрики: chain of thoughts, chatgpt, deepseek, OpenAI, инференс
R1-Zero важнее, чем R1
Цель ARC Prize Foundation — определять и измерять потенциал идей, делающих вклад в создание AGI. Для этого мы стремимся создавать самую надёжную международную среду для инноваций.
Пока у нас нет сильного искусственного интеллекта (AGI), а инновации по-прежнему ограничены: увеличение масштабов чистого предварительного обучения LLM — ошибочный путь, хоть он и остаётся доминирующим в отрасли ИИ и в глазах широкой публики.
Алгоритмы спекулятивного инференса LLM
2025-01-05 в 9:25, admin, рубрики: DL, DL инференс, llm, ml, ML алгоритмы, алгоритмическая оптимизация, инференс, оптимизация инференса, спекулятивный декодингВведение
За последние годы качество LLM моделей сильно выросло, методы квантизации стали лучше, а видеокарты мощнее. Тем не менее качество генерации все еще напрямую зависит от размера весов и, как следствие, вычислительной сложности.
Кроме того, генерация текста авторегрессионна - токен за токеном по одному, потому ее сложность зависит от размера контекста и количества генерируемых токенов.
Но генерация текста не всегда имеет однородную сложность, так же как мы во многом мыслим идеями, а слова произносим “на автомате”. В статье обсудим алгоритмы, позволяющие использовать эту неоднородность для ускорения.
Читать полностью »
Тензорные компиляторы: что это за «звери» и где они «обитают»
2024-12-25 в 7:12, admin, рубрики: apach tvm, glow, OpenVINO, XLA, глубокие нейросети, инференс, машинное обучение, тензорные компиляторы, тензорыКомпилятор — привычный инструмент для многих разработчиков, но не все сталкивались в работе с тензорным видом. Их частые пользователи — специалисты по машинному обучению и дата-инженеры. В этой статье совершим экскурсию в «зоопарк» тензорных компиляторов, понаблюдаем за их «поведением» и выберем самых функциональных «зверушек». А еще поделимся ссылкой на бесплатный курс о построении и использовании тензорных компиляторов для ускорения вывода глубоких нейронных сетей, который разработан сотрудниками института ИТММ ННГУ им. Н. И. Лобачевского.
Чем отличается компилятор общего назначения от тензорного
Как мы исследовали энергоэффективность инференса нейросетей на планшете
2024-11-14 в 9:45, admin, рубрики: AI, бенчмаркинг, инференс, искусственный интеллект, планшет, функцииСовременные гаджеты невозможно представить без AI-функций. Размыть фон за спиной во время телеконференции, подавить шум от проходящих мимо коллег, вычесть «красные глаза» на фотографии — все это давно стало базовым функционалом любого устройства с камерой и микрофоном. Сейчас вендоры потребительских устройств устраивают настоящую «гонку вооружений», предлагая новые AI-функции, которые выделят устройство среди «собратьев».
Чипы Intel Myriad X и их масштабируемость в инференсе нейронных сетей
2019-11-30 в 19:07, admin, рубрики: аппаратное обеспечение, инференс, искусственный интеллект, нейронные сетиНейростики Intel NCS2, чипы Myriad X, решения сторонних производителей — компания Intel продвигает решения на базе Myriad X в самых различных вариантах.
Чем же так хороши эти ускорители? Во-первых, стоимостью одного FPS. Во-вторых, полной совместимостью с OpenVINO, где можно перенести существующие решения с CPU/GPU на стик или MyriadX без их доработки или дополнительной адаптации. Конечно же, адаптация это не особенность VPU, а, скорее, особенность OpenVINO, где каждая обученная сеть может работать на любой выбранной аппаратной платформе, будь то CPU, GPU, FPGA, VPU и выбор может быть сделан не до разработки, а после.
Читать полностью »