Рубрика «инференс»

В середине 2025 года приобрел себе для работы ноутбук Lenovo Thinkbook 14+. После выхода моделей gpt-oss протестировал локальный инференс младшей модели и результаты для меня были весьма удивительными. Затем я провел тесты еще на двух своих ноутбуках, а совсем недавно на работе собрал заинтересованных ребят и появились результаты еще 5 ноутбуков.

Читать полностью »

9 сентября NVIDIA представила новый графический процессор Rubin CPX, разработанный специально для задач искусственного интеллекта с длинным контекстом. Этот монолитный чип оснащен 128 ГБ памяти GDDR7, способен обрабатывать миллионы токенов информации и оптимизирован для фазы предварительной обработки данных в задачах инференса. В деталях рассказываем, какую мощность выдает новинка и для какой работы подходит.

На что способен NVIDIA Rubin CPX

Читать полностью »

Как приручить LLM: подбор инфраструктуры для инференса. Часть 1 - 1

Привет! Меня зовут Антон, и сейчас я активно занимаюсь вопросами инфраструктуры для ML и AIЧитать полностью »

Хочешь, чтобы твой AI-ассистент для кодинга работал в 20 раз быстрее, чем на современных GPU? В этой статье покажу, как подключить Cerebras к CLINE — и получить мгновенные ответы от LLM.

Почему Cerebras в 20 раз быстрее, чем GPU

Компания Cerebras использует Wafer-Scale Engine 3 (WSE-3) — самый большой и быстрый ИИ-чип в мире.
Основные фишки:

  • WSE-3: гигантский кремниевый чип, размером с CD-диск, 4 триллиона транзисторов и 900 000 ядер.

  • 44 ГБ встроенной SRAM на самом кристалле → почти нет обмена с внешней памятью.

  • 20 Пбайт/сЧитать полностью »

Что же такое TPU - 1

В последнее время я много работал с TPU, и мне было интересно наблюдать такие сильные различия в их философии дизайна по сравнению с GPU.

Главная сильная сторона TPU — это их масштабируемость. Она достигается благодаря и аппаратной (энергоэффективности и модульности), и программной стороне (компилятору XLA).

Общая информация

Читать полностью »

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса - 1

Мечтаете запустить нейросеть на компьютере и анализировать целые книги или сложные документы? Тогда объём VRAM и поддержка длинных контекстов — ваши главные приоритеты.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js