Рубрика «квантование»

Квантовать или не квантовать LLM? - 1

Многие онлайн-сервисы предлагают доступ к проприетарным LLM. Однако по различным причинам может возникнуть необходимость использовать эти модели на своем оборудовании. Аренда серверов, особенно с GPU, может быть дорогой и зависит от требований к RAM/VRAM. Квантование моделей помогает снизить эти требования.

Итак, в этой статье мы:

  1. Расскажем о квантовании и как оно помогает в выборе оборудованияЧитать полностью »

Краткий гайд по квантованию нейросетей - 1

Мы достаточно написали статей про оптимизацию ваших нейросетей, сегодня пора перейти к дроблению, уменьшению и прямому урезанию, иначе квантованию данных. Сам по себе процесс этот несложный с точки зрения всего, но подводные камни у операции есть.

Читать полностью »

Как настроить LLM на локальном сервере? Краткое руководство для ML-специалистов - 1

Привет! Все чаще коллеги из ML замечают, что компаниям нравятся возможности ChatGPT, но далеко не каждая готова передавать данные во внешние АРІ и жертвовать своей безопасностью. В результате команды начинают внедрять open source-LLM, развернутые локально. Чтобы осуществить этот процесс, инженерам нужно выполнить две задачи.

  • Сделать удобную «песочницу» для экспериментов, чтобы быстро проверять гипотезы для бизнеса.
  • Эффективно масштабировать найденные кейсы внутри компании, по возможности снижая затраты на ресурсы.

В статье рассказываем, какие есть проблемы у open source-LLM и как оптимизировать инференс модели с помощью квантизации и LoRA-адаптеров. Подробности под катом!

Автор: Алексей Гончаров, основатель платформы Compressa.ai для разработки GenAI-решений на своих серверах.
Читать полностью »

Самый маленький корректный Baseline JPEG (159 байтов)

Самый маленький корректный Baseline JPEG (159 байтов)

Недавно на Хабре была опубликована статья Разбираем самый маленький PNG в мире. Интересно, а какой самый маленький файл JPEG? В ответах на StackOverflow и RedditЧитать полностью »

Всех приветствую, меня зовут Антон Рябых, работаю в Doubletapp. Вместе с коллегой Данилом Гальпериным мы написали статью про важный этап в процессе обучения нейронных сетей и получения необходимых нам результатов —  оптимизацию модели. Зачем нужно оптимизировать модель, если и так все работает? Но как только вы начнете разворачивать модель на устройстве, которое будет ее обрабатывать, перед вами встанет множество проблем.

Читать полностью »

Среди людей с критическим взглядом на окружающий мир укоренился стереотип о том, что аудиоформаты высокого разрешения(с частотой дискретизации более 44,1 Гц и квантованием более 16 бит) в бытовой звуковоспроизводящей аппаратуре — это лишь маркетологическая уловка, которая создана для тех, кто не знает о порогах восприятия. Мол, там улучшения за пределами порогов человеческого восприятия.

Аудиофилькина грамота: несколько слов в защиту HI-RES - 1

Я долго склонялся к похожему мнению, пока не стал периодически отмечать то, что некоторые из хайрез записей мне субъективно (по необъяснимой причине) нравятся больше. Не могу сказать, что я с лёгкостью пройду слепой тест и с высокой точностью определить, где хайрез, а где mp3 с битрейтом 320 кбит/с. Но вслушиваясь в записи в формате AIFF с частотой дискретизации 192 кГц и разрядностью 32 бита, мне показалось, что я замечаю едва различимые улучшения в динамическом диапазоне и при воспроизведении низких.

Не очень доверяю своим ушам. Я засомневался в собственных выводах и решил раскопать что-нибудь по поводу теоретической возможности услышать эти различия.
К своему удивлению обнаружил не росказни маркетологов, а вполне себе авторитетные оценки специалистов AES (Audio Engineering society). Однозначный ответ мои поиски не дали, но я стал менее категорично относится к хайрезу.

Опираясь на личный опыт, я не раз писал, что Hi-res нужен только людям, которым недостаточно слушать, но нужно знать о том, что качество звука безупречное. Проанализировав выводы аудиоинженеров и специалистов по психоакустике, я понял, что теоретическая возможность услышать разницу все же есть.Читать полностью »

На Yelp хранится более 100 миллионов пользовательских фотографий, от картинок ужинов и причёсок до одной из наших последних фич, #yelfies. Эти изображения составляют основную часть трафика для пользователей приложения и веб-сайта, а их хранение и передача обходятся недёшево. Стараясь предоставить людям наилучший сервис, мы усиленно работали над оптимизацией всех фотографий и добились среднего уменьшения размера на 30%. Это экономит людям время и трафик, а также сокращает наши расходы на обслуживание этих изображений. Ах да, и мы сделали это без ухудшения качества фотографий!

Исходные данные

Yelp хранит пользовательские фотографии уже 12 лет. Мы сохраняем lossless-форматы (PNG, GIF) как PNG, а все остальные форматы в JPEG. Для сохранения файлов используются Python и Pillow, а загрузки фотографий начинаются примерно с такого сниппета:

# do a typical thumbnail, preserving aspect ratio
new_photo = photo.copy()
new_photo.thumbnail(
    (width, height),
    resample=PIL.Image.ANTIALIAS,
)
thumbfile = cStringIO.StringIO()
save_args = {'format': format}
if format == 'JPEG':
    save_args['quality'] = 85
new_photo.save(thumbfile, **save_args)

Читать полностью »

Идея, лежащая в основе всех алгоритмов сжатия с потерями, довольно проста: на первом этапе удалить несущественную информацию, а на втором этапе к оставшимся данным применить наиболее подходящий алгоритм сжатия без потерь. Основные сложности заключаются в выделении этой несущественной информации. Подходы здесь существенно различаются в зависимости от типа сжимаемых данных. Для звука чаще всего удаляют частоты, которые человек просто не способен воспринять, уменьшают частоту дискретизации, а также некоторые алгоритмы удаляют тихие звуки, следующие сразу за громкими, для видеоданных кодируют только движущиеся объекты, а незначительные изменения на неподвижных объектах просто отбрасывают. Методы выделения несущественной информации на изображениях будут подробно рассмотрены далее.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js