Рубрика «большие языковые модели»

emperor has no clothes

Современные кодинг-помощники кажутся магией. Достаточно описать нужное вам на хотя бы немного понятными словами, после чего они сами читают файлы, редактируют проект и пишут работающий код.

Читать полностью »

Ждёт ли OpenAI спасения от государства? - 1

В последние недели на рынках усилилась тревога по поводу устойчивости бума искусственного интеллекта. Отчасти её подогрела та мысль, которую допустилаЧитать полностью »

Три самые постоянные вещи в мире — оливье с мандаринами на Новый год, желание начать новую жизнь с понедельника и то, что если выходит статья Себастьяна Рашки, то я делаю ее качественный перевод на русский.

Эта технически глубокая статья известного исследователя LLM о том, как эволюционировали флагманские модели с открытыми весами от DeepSeek и обзор DeepSeek V3.2.


Читать полностью »

За последний месяц я детально отслеживал каждую статью об искусственном интеллекте в ведущих западных tech-изданиях. 200 статей из TechCrunch, VentureBeat и MIT Technology Review за 26 дней — в среднем почти 8 новостей об ИИ каждый день. Цель эксперимента была проста: понять, совпадает ли то, о чём громче всего кричат медиа, с реальными возможностями ИИ-моделей.

Спойлер: не совпадает. И разрыв между медийным шумом и реальностью оказался весьма значительным.

Методология исследования

Я мониторил три ключевых источника tech-новостей:

Если вы читаете этот текст, скорее всего, вы уже пробовали запустить LLM самостоятельно и, вполне вероятно, столкнулись с одной из типичных проблем:

«Заказал GPU, загрузил модель, а она не влезла, хотя по расчетам памяти должно было хватить».

«Платим за A100, а реально используем лишь 30% ее мощности».

Привет, на связи Павел, ML-инженер в Cloud.ru. Я прошел через эти проблемы сам, поэтому не понаслышке знаю, как это может раздражать.

Читать полностью »

Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

Вы наверняка слышали про такие модели, как o1 от OpenAI или QwQ от Alibaba. Их "рассуждающие" способности во многом — результат применения RL. Давайте разберемся, как обычный принцип обучения, известный по играм вроде AlphaGo, помогает языковым моделям стать умнее.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js