Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их.
Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы, когда я пишу на Хабр или куда-то ещё, для сложных терминов я сразу мог бы дать ссылку на понятное и простое объяснение.
А ещё, даже на Хабре почти каждая статья про ИИ просто копипастит оригинальные иллюстрации на английском, я и сам этим грешу. Но в этом проекте, мне захотелось сопровождать мои материалы симпатичными и понятными иллюстрациями на русском языке, поэтому я рисую их самостоятельно.
Так я начал свой хобби-проект «AI человеческим языком». Каждую новую статью про популярный термин я хочу адаптировать под Хабр, и выкладывать сюда.
В последнее время мы видим огромный прогресс в обучении ИИ без участия человека. Это важно, потому что люди - бутылочное горлышко, подготовка и разметка данных вручную человеком - крайне дорогостоящий и длительный процесс. Революция, которую произвел DeepSeek R1 - это как раз следствие найденного способа обучать ИИ без ручного труда. Вчера я рассказывал о том, как китайские ученые автоматизировали процесс обучения ИИ программированию при помощи другого ИИ, который пишет тесты. А сегодня я хочу подробнее описать, в чем суть Reinforcement learning - термина, который используется почти во всех статьях про обучение ИИ.
Что такое "Reinforcement learning"?
Краткий ответ: Reinforcement Learning (RL) — это метод обучения без начальных данных. ИИ в реальном времени совершает действия (или дает ответы), и получает вознаграждение или штраф за качество своих действий/ответов. Так он учится делать то, что приносит больше награды.
Reinforcement Learning (обучение с подкреплением) - это один из ключевых методов обучения ИИ. Его главная особенность в том, что он не требует изначального датасета с примерами правильно решенных задач. В reinforcement learning ИИ совершает действия (или дает ответы) в реальном времени, после чего, человек или алгоритм оценивают качество этого действия/ответа. Если результат хорош - ИИ получает награду (усиливает те веса модели, которые привели к этому результату), если плох - ИИ получает штраф (снижает веса).
Цель ИИ — получить как можно большее вознаграждение. Для этого он пробует разные варианты, запоминая, какие действия приводят к позитивным результатам, а какие — нет.

Важный ньюанс заключается в том, кто решает, является ли действие хорошим? Если это делает человек, то это называется RLHF (Reinforcement Learning from Human Feedback). В этом случае, на основе фидбека человека (информации о том, понравились ли ему ответы ИИ или нет), обучается другая, небольшая моделька, которая называется Reward Model. И вот уже она выступает в роли того "алгоритма", который оценивает качество ответов "большой" модели, которую мы пытаемся обучить.
Если же существует возможность сделать такой алгоритм (не используя данные на основе труда человека), который сможет оценивать качество ответов модели, то это значительно удешевляет и ускоряет процесс обучения.
Простой пример того, как выглядит RL без участия человека: можно посадить ИИ играть в компьютерную игру, скажем, тетрис. И награждать его за победы, а за поражения - штрафовать. Так как компьютерная игра - это по сути и есть алгоритм, то человек в этой схеме не нужен: ИИ будет играть до тех пор, пока не научиться побеждать настолько часто, насколько это возможно.
В 2025 году главный хит, запущенный DeepSeek - обучение моделей без ручного человеческого труда, многие команды сейчас ищут способы автоматизировано создавать наборы задачек для ИИ, которые легко можно проверить при помощи алгоритма или другой модели.
Надеюсь, вам было интересно и понятно. Если есть идеи о том, что можно было бы улучшить - напишите, пожалуйста, в комменты, буду рад внести правки.
P.S. Я веду Телеграм канал, где не только регулярно пишу про ИИ/агентов, но и даю глубокую аналитику по новостям, а также рассказываю как сделать компанию, в которой все сотрудники — AI-агенты. Велком!
Автор: ElKornacio