Рубрика «llm» - 4
Ускорение LLM: универсальные методы для популярных архитектур
2025-02-05 в 7:00, admin, рубрики: llm, ml, инференс, нейросетиИИ простыми словами, часть 1. Архитектура Mixture of Experts (MoE)
2025-02-04 в 17:53, admin, рубрики: deepseek, llm, mixture of experts, r1, искусственный интеллектКогда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их.
Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы, когда я пишу на Хабр или куда-то ещё, для сложных терминов я сразу мог бы дать ссылку на понятное и простое объяснение.
LLM Llama 3 — небольшое погружение в детали
2025-02-04 в 15:29, admin, рубрики: llama 3, llama3, llm, llm-модели, искусственный интеллект, нейросетиПривет! В этой статье я попробую немного разобрать код LLM Llama 3. Полностью проанализировать каждую строку кода не получится, но самые важные и базовые концепции мы все-таки разберем насколько это возможно.
Падаем в кроличью нору

Изучать мы будем класс Llama
(файл generation.py
) и его метод text_completion
Читать полностью »
Машинный перевод
2025-02-04 в 15:09, admin, рубрики: large language model, llm, искусственные нейронные сети, искусственный интеллект, машинное обучение, машинный перевод, ШВМ, Школа Высшей МатематикиАвтор статьи: Сергей Артамонов - DS Wildberries, Research Engineer Skoltech, аспирант мехмата МГУ, преподаватель Школы Высшей Математики
Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики
2025-02-04 в 12:49, admin, рубрики: AI, llm, named entity recognition, rag, RAI, Text-to-SQL, бенчмарки
DeepSeek-R1 для чайников
2025-02-03 в 19:30, admin, рубрики: chatgpt, deepseek, llm, nlp, reasoning models, RLHFВ последние месяцы всё чаще слышим про «reasoning-модели», способные не просто продолжать текст, а действительно шаг за шагом решать сложнейшие задачи цепочкой рассуждений (chain-of-thought). Впервые такой подход эффектно показали в OpenAI o1, но, к сожалению, подробности там остаются секретными. Недавно же команда DeepSeek наделала шуму с открытыми вариантами R1 и R1-Zero, созданными поверх их собственной большой MoE-модели DeepSeek-V3. В этом посте я не стану углубляться в вопрос «чья модель лучше — o1 или R1». Зато разберу, какие главные технические деталиЧитать полностью »
Все встревожены взлетом DeepSeek — кроме Nvidia, которая этому способствовала
2025-02-03 в 15:17, admin, рубрики: AI, deepseek, llm, Nvidia, ИИ, искусственный интеллект, нейросетиАкции Nvidia просели в цене, а регуляторы ограничивают её продажи чипов, но американский гигант ИИ смотрит в будущее и ведёт долгую игру в Китае.

Дисклеймер: это вольный перевод лонгридаЧитать полностью »
Применение технологии RAG при построении интегрированных систем для цифровых продуктов: детальный разбор
2025-02-02 в 17:26, admin, рубрики: llm, rag, архитектура RAG, векторная база данных, генерация текста, ИИ, ИИ и машинное обучение, искусственный интеллект, конвейер RAG, языковые моделиВ 2024 году популярными словами и постоянной темой для обсуждения в IT были большие языковые модели (LLM), обработка естественного языка (NLP), искусственный интеллект и создание ценностей. Однако вкатиться в эту экосистему без подготовки может быть довольно сложно. Давайте начнём с того, что рассмотрим понятие генерации с дополненной выборкой (Retrieval Augmented Generation, RAG), чтобы лучше понять эту технологию и возможность её использования в наших цифровых продуктах.
HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?
2025-02-02 в 10:07, admin, рубрики: deepseek, deepseek v3, hai llm, HighFlyer, llm, ИИ, ИИ и машинное обучениеРаботу у AI отобрал другой AI )
Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и Multi-Token Predict. Однако все эти новшества уже были ранее представлены в других LLM: GPT-4, Llama, Mistrall и других.

Полистав Читать полностью »
Многопользовательский рой агентов для Ollama
2025-02-01 в 18:46, admin, рубрики: chatgpt, deepseek, javascript, llm, Ollama, OpenAI, python, telegram, TypeScript, искусственный интеллектВ данной статье осуществлен разбор многопользовательского телеграм чат бота на LLM, код которого опубликован в этом репозитории
Куда движется рынок
Когда-то давным давно графический пользовательский интерфейс сменил консольный ввод. Казалось бы, проблему неудобства взаимодействия для неподготовленного пользователя мог бы решить псевдографический интерфейс, но есть фактор, который не все замечают