Рубрика «llm-модели»

Как известно, интернет был придуман чтобы было куда скидывать фотки ню, и действительно adult media индустрия это хороший индикатор развития какой либо технологии. А что же с ИИ? Использование ИИ в колл-центрах и пользовательской поддержке уже стало обычным делом. Но что, если вы хотите применить его в более специализированной отрасли, например, для создания NSFW-чатботов или автоматизации на платформах вроде OnlyFans или для симуляторов дейтинга?

Читать полностью »

Во всем AI-мире сейчас говорят о новой китайской языковой модели DeepSeek и, конечно, наша команда развития AI не могла пройти мимо этой темы. Мы сравнили ответы новой модели на реальные запросы к нашей технической поддержке с ответами других популярных моделей. Что из этого получилось и какие выводы мы сделали расскажу я — Максим Михайлов, продуктовый менеджер Cloud.ru.

Читать полностью »

Введение

Это статья обобщение моего исследования передачи знаний от большой модели с замороженными весами в малую модель, которую мы будем обучать через расширенный механизм кросс внимания или проще говоря через LLM модули. Оригинальное исследование доступно по ссылке: arxiv.org/abs/2502.08213 . Репозиторий с кодом и весами доступен на Hugging Face: LLM модули.

Читать полностью »

Привет! В этой статье я попробую немного разобрать код LLM Llama 3. Полностью проанализировать каждую строку кода не получится, но самые важные и базовые концепции мы все-таки разберем насколько это возможно.

Падаем в кроличью нору

LLM Llama 3 — небольшое погружение в детали - 1

Изучать мы будем класс Llama (файл generation.py) и его метод text_completionЧитать полностью »

Всё, что я узнал о запуске локальных языковых моделей - 1

В мире, где облачные решения диктуют свои правила, локальные модели дают свободу — полную приватность, работу офлайн и отсутствие ограничений. Эта статья для тех, кто хочет впервые попробовать самостоятельно запустить LLM на своем компьютере.

Читать полностью »

Дипсик R1 - нашумевшая ИИ модель от китайской компании Deepseek AI. За основу взята модель Deepseek v3, возможности которой схожи с ChatGPT. Однако благодаря открытому исходному коду китайской нейросети у нее есть ряд интересных преимуществ.

В этой статье собрал все способы установки Дипсик. Т.к. китайская нейросеть с открытым исходным кодом – ее можно скачать на компьютер и использовать без Интернета. Причем, в удобном интерфейсе чат-бота.

1. Самый простой (но не всегда рабочий) способ: через сайт Deepseek

Переходим на официальный сайт chat.deepseek.comЧитать полностью »

Сегодня мы попробуем сделать свой ИИ с телеграм ботом для возможности простого общения с ней. Сразу оговорюсь, мы не будем в очередной раз использовать открытый API ChatGPT или новомодного Deepseek. Мы развернем свой полноценный ИИ локально и сынтегрируем его с телеграм ботом.

LLM модель

Telegram бот + ИИ Jlama своими руками - 1

Читать полностью »

Полчаса назад вышла новость о выходе DeepSeek Janus-7B - новой мультимодальной модели от DeepSeek, которая, по заявлениям авторов, рвёт DALL-E 3, Stable Diffusion XL и Stable Diffusion 3 (Medium) в бенчмарках.

В этой статье я не буду дублировать новость, а хочу подробнее рассмотреть, что именно в этой модели такого уникального, из-за чего многие связанные с AI медиа сегодня захлебываются от восторга.

Читать полностью »

Прошло около полугода после последней моей статьи о перспективах развития больших языковых моделей. Чтобы не утомлять долгим чтением, её краткое резюме:
Критика современных больших языковых моделей (БЯМ): они статичны, неэффективны в вычислениях и обучении, что ведет индустрию к технологическому тупику. Главные проблемы связаны с экспоненциальным ростом вычислительных мощностей, дефицитом качественных данных и ограничениями архитектуры.

Итак, можно подвести некоторые итоги, что же мы увидели за прошедшее время.

  1. Читать полностью »

Внедрение LLM в разработку ПО: стоит ли? - 1

Привет, на связи Юлия Рогозина, аналитик бизнес-процессов Шерпа Роботикс. Сегодня я перевела для вас статью, тема которой касается именно использования Large Language Models (LLM) как части вашего продукта, а не использования ИИ как инструмента в процессе разработки (например, таких инструментов, как Cursor или Zed AI).

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js