Рубрика «большие языковые модели» - 2

Всем привет! Недавно я познакомился с курсом по глубокому обучению с подкреплением от HuggingFace Deep Reinforcement Learning Course и захотел сделать выжимку самого интересного. Эта статья — своего рода шпаргалка по основам Reinforcement Learning (RL) и одному из ключевых алгоритмов — PPO, который лежит в основе тонкой настройки современных LLM (Large Language Models).

Вы наверняка слышали про такие модели, как o1 от OpenAI или QwQ от Alibaba. Их "рассуждающие" способности во многом — результат применения RL. Давайте разберемся, как обычный принцип обучения, известный по играм вроде AlphaGo, помогает языковым моделям стать умнее.Читать полностью »

Мы всё чаще делегируем ИИ-ассистентам рабочую рутину и бытовые вопросы. Но во взаимодействии с ними есть существенная проблема: модели не помнят пользователя. Между сессиями теряются имя, контекст работы, желаемые ограничения и предпочтения, значительно влияющие на то, что и как стоит ответить пользователю. В итоге диалог каждый раз начинается «с нуля», а ответы звучат усреднённо. Это снижает эффективность и подрывает доверие: когда ассистент не помнит важное о вас, он превращается в поисковик с красивыми фразами.

Мы в команде RnD для B2C SberAI хотим это исправить. Представляем вашему вниманию задачу Читать полностью »

LangChain или LangGraph? Какой фреймворк для ии-агентов выбрать? А может быть LangSmith? Или LangFuse? LangFlow? Если вы сходу не отличаете все эти Lang между собой или просто хочется побольше узнать о внутренностях LangChain и LangGraph, то добро пожаловать в эту статью, которую мне хотелось сделать фундаментальной, чтобы ответить сразу на все возникающие вокруг LangChain вопросы.

Поговорим про архитектурные различия между LangChain и LangGraph, их подходы, посмотрим как это выглядит в коде, поищем лучшие точки применения и взглянем на сформированную экосистему вокруг.

Читать полностью »
Книга: «Промт-инжиниринг для LLM. Искусство построения приложений на основе больших языковых моделей» - 1

Привет, Хаброжители!

Читать полностью »

У меня нет рта, но я должен выводить эмодзи морского конька - 1

Существует ли эмодзи морского конька? Давайте спросим об этом у GPT-5 Instant:

Читать полностью »

Лестница понятий AI

От общего к частному – от AI к GEO

  • AI/ИИ (artificial intelligence / искусственный интеллект). Общее название технологий, которые позволяют машинам имитировать «умное» поведение человека: учиться, анализировать, принимать решения, генерировать контент.

  • ML (machine learning) / машинное обучение. Подраздел AI. Машина «обучается» на данных и потом делает прогнозы или принимает решения без прямого программирования. Пример: система прогнозирования спроса или рекомендательные алгоритмы «Озона» или YouTube.

  • Generative AI / генеративный ИИ. Читать полностью »

Привет! ИИ-агенты — главная горячая тема этого года, но все наверняка видели как их ради хайпа пытаются затащить куда угодно, совсем не глядя на эффективность и какой-либо здравый смысл.

В этой статье я расскажу о действительно полезном применении концепции агентов и попробую доказать, почему любой боксерский поединок является мультиагентной системой. Поговорим про system design бокса, про reinforcement learning, адаптивные алгоритмы, всевозможный вызов tools типа джебов или клинча, очереди сообщений и гарантию их доставки, graceful degradation агентов и многое другое.

Читать полностью »

Новая методика, разработанная учёными из Чжэцзянского университета и Alibaba Group, наделяет агентов больших языковых моделей (LLM) динамической памятью, делая их более эффективными и результативными при решении сложных задач. Этот подход, получивший название Memp, обеспечивает агентов «процедурной памятью», которая непрерывно обновляется по мере накопления опыта — подобно тому, как люди учатся через практику.

Читать полностью »

Новое исследование учёных из Университета штата Аризона показывает: знаменитое «цепочечное рассуждение» (Chain-of-Thought, CoT) в больших языковых моделях (LLM) скорее похоже на «хрупкий мираж», чем на проявление подлинного интеллекта. Эта работа продолжает традицию критического анализа глубины рассуждений LLM, но в отличие от предыдущих исследований предлагает уникальный взгляд через призму «распределения данных», который позволяет понять, где и почему CoT систематически даёт сбой.

Дисклеймер: это вольная адаптция Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js