В середине 2025 года приобрел себе для работы ноутбук Lenovo Thinkbook 14+. После выхода моделей gpt-oss протестировал локальный инференс младшей модели и результаты для меня были весьма удивительными. Затем я провел тесты еще на двух своих ноутбуках, а совсем недавно на работе собрал заинтересованных ребят и появились результаты еще 5 ноутбуков.
Рубрика «инференс»
Локальный инференс на бюджетных ноутбуках
2025-12-09 в 9:45, admin, рубрики: AI, gpt, lmstudio, self-hosted, ИИ, инференс«Золотая рыбка, хочу LLM без GPU»: как собрать Inference-сервер на CPU
2025-11-14 в 7:00, admin, рубрики: cpu, gpu, llm, ml, selectel, большие языковые модели, инференс, машинное обучение, ПроцессорыЧто нового в NVIDIA Rubin CPX — платформе для AI, представленной на AI Infra Summit
2025-09-25 в 6:26, admin, рубрики: gddr7, gpu, Nvidia, графические процессоры, инференс, искусственный интеллект, обработка данных, программный код9 сентября NVIDIA представила новый графический процессор Rubin CPX, разработанный специально для задач искусственного интеллекта с длинным контекстом. Этот монолитный чип оснащен 128 ГБ памяти GDDR7, способен обрабатывать миллионы токенов информации и оптимизирован для фазы предварительной обработки данных в задачах инференса. В деталях рассказываем, какую мощность выдает новинка и для какой работы подходит.
На что способен NVIDIA Rubin CPX
Как приручить LLM: подбор инфраструктуры для инференса. Часть 1
2025-08-29 в 8:01, admin, рубрики: gpu, llm, ml, selectel, инференс
Привет! Меня зовут Антон, и сейчас я активно занимаюсь вопросами инфраструктуры для ML и AIЧитать полностью »
LLM-инференс в 20 раз быстрее, чем на GPU! Как подключить агента-кодера с CLINE и Cerebras
2025-08-22 в 9:56, admin, рубрики: AI, coding, llm, llm-агент, vibecoding, инференсХочешь, чтобы твой AI-ассистент для кодинга работал в 20 раз быстрее, чем на современных GPU? В этой статье покажу, как подключить Cerebras к CLINE — и получить мгновенные ответы от LLM.
Почему Cerebras в 20 раз быстрее, чем GPU
Компания Cerebras использует Wafer-Scale Engine 3 (WSE-3) — самый большой и быстрый ИИ-чип в мире.
Основные фишки:
-
WSE-3: гигантский кремниевый чип, размером с CD-диск, 4 триллиона транзисторов и 900 000 ядер.
-
44 ГБ встроенной SRAM на самом кристалле → почти нет обмена с внешней памятью.
-
20 Пбайт/сЧитать полностью »
Что же такое TPU
2025-06-25 в 13:01, admin, рубрики: Google, tensor processing units, TPU, инференс, умножение матриц
В последнее время я много работал с TPU, и мне было интересно наблюдать такие сильные различия в их философии дизайна по сравнению с GPU.
Главная сильная сторона TPU — это их масштабируемость. Она достигается благодаря и аппаратной (энергоэффективности и модульности), и программной стороне (компилятору XLA).
Общая информация
Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса
2025-06-18 в 8:00, admin, рубрики: exllamav3, llama.cpp, qwen3, rtx 3090 24gb, rtx 5060 ti 16gb, tabbyapi, видеокарты для нейросетей, Железо, инференс, тест ии-моделей
Мечтаете запустить нейросеть на компьютере и анализировать целые книги или сложные документы? Тогда объём VRAM и поддержка длинных контекстов — ваши главные приоритеты.




