В последние месяцы всё чаще слышим про «reasoning-модели», способные не просто продолжать текст, а действительно шаг за шагом решать сложнейшие задачи цепочкой рассуждений (chain-of-thought). Впервые такой подход эффектно показали в OpenAI o1, но, к сожалению, подробности там остаются секретными. Недавно же команда DeepSeek наделала шуму с открытыми вариантами R1 и R1-Zero, созданными поверх их собственной большой MoE-модели DeepSeek-V3. В этом посте я не стану углубляться в вопрос «чья модель лучше — o1 или R1». Зато разберу, какие главные технические деталиЧитать полностью »
Рубрика «RLHF»
DeepSeek-R1 для чайников
2025-02-03 в 19:30, admin, рубрики: chatgpt, deepseek, llm, nlp, reasoning models, RLHFЗаконы масштабирования – архитектура O1 Pro — Инфраструктура синтетических данных, RLAIF, токеномика вычислений
2024-12-27 в 11:09, admin, рубрики: AI Lab, Claude 3.5 Opus, llm, O1 Pro, OpenAI, RLAIF, RLHF, supervised fine-tuning, Законы масштабирования, синтетические данные
С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИЧитать полностью »
Poisoned Data — отравление данных для LLM и создание «Спящего Агента»
2024-08-20 в 6:00, admin, рубрики: AI, ai alignment, llm, RLHF, искусственный интеллектСуществует множество примеров того, как злоумышленники могут атаковать модели, развернутые в инференсе через адверсальные атаки или jailbreaking. (Вкусная подборочка из лекции Карпатого была у меня тут).
ChatGPT — лучший помощник программиста. Примеры реальных задач. Плагины и инструменты
2023-04-17 в 9:00, admin, рубрики: chatgpt, e2b, gpt-4, llama, llm, OpenAI, playwright, RLHF, ruvds_статьи, Wolfram Alpha, wolfram language, Блог компании RUVDS.com, будущее здесь, будущее программирования, ИИ, искусственный интеллект, машинное обучение, новые профессии, обучение с подкреплением, Программирование, промт-инженеры
Языковая модель ChatGPT никогда не заменит программиста, потому что непосредственно редактирование кода — это крохотная часть разработки (5% по времени). Зато ChatGPT великолепно помогает. И чем выше ваш скилл — тем больше пользы от «подмастерья», выполняющего мелкие задания и черновой кодинг. Он пишет простые функции, генерирует документацию, находит и объясняет ошибки, выполняет кучу других задач (полный список под катом).
Сегодня не использовать ChatGPT просто глупо… Это действительно универсальный помощник, который сильно облегчает жизнь и выводит программирование на принципиально новый уровень. Одно из величайших изобретений в IT за десятилетия, после GUI и интернета.
Пожалуй, никогда программирование не было настолько приятным и эффективным, как сейчас.
Читать полностью »