В интернете широко обсуждают опубликованный в Nature отчет авторов DeepSeek, в котором якобы заявляется, что обучение модели R1 обошлось компании всего в 294 тысячи долларов. Цифра выглядит сенсационной, ведь конкуренты тратят на создание своих моделей в тысячи раз большие суммы: например, для Claude Sonnet 3.7 давали оценку в несколько десятков миллионов долларов. Если бы взятая из Nature цифра была правдой, то получилось бы так, что у конкурентов нет никаких шансов перед командой DeepSeek. Но это не так.
Рубрика «deepseek v3»
Нет, тренировка DeepSeek R1 не стоила $294 тыс. Реальная цифра в десятки раз выше
2025-09-20 в 12:16, admin, рубрики: deepseek, DeepSeek R1, deepseek v3, deepseek v3.1Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта
2025-06-09 в 14:21, admin, рубрики: AI, deepseek, DeepSeek R1, deepseek v3, EPYC, gguf, huggingface, llama.cpp, llm, local aiЗачем?
У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание протестировать разнообразные настройки LLM. До этого момента я пробовал запускать разные небольшие модели исключительно на cpu. А вот опыта с большими моделями не было.
Где?
Дипсик не работает: Обходим ошибку Deepseek service is busy хитрыми способами
2025-02-15 в 16:43, admin, рубрики: deepseek, deepseek ai, DeepSeek R1, deepseek v3, дипсик, ии помощник, ии чат-бот, ии-ассистент, нейросетиDeepSeek взорвал рынок ИИ, и китайскую нейросеть уже наверное попробовал каждый.
Однако из-за перегрузки чаще всего Дипсик не работает. Нейросеть не отвечает, отправляя ошибки типа:
-
The server is busy. Please try again later.
-
Deepseek network error. Please try again later.
В этой статье разбираем 4 способа получить доступ к Дипсик, даже если он не отвечает. Во второй части статьи посмотрим, как установить DeepSeek локально на компьютер, что дает возможность использовать его вообще без Интернета!
1. Простой способ решить проблему Deepseek service is busy
HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?
2025-02-02 в 10:07, admin, рубрики: deepseek, deepseek v3, hai llm, HighFlyer, llm, ИИ, ИИ и машинное обучениеРаботу у AI отобрал другой AI )
Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и Multi-Token Predict. Однако все эти новшества уже были ранее представлены в других LLM: GPT-4, Llama, Mistrall и других.

Полистав Читать полностью »
Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы
2025-01-29 в 21:40, admin, рубрики: deepseek, DeepSeek R1, deepseek v3, llm, llm-модели, дипсик, ИИ, ии-ассистент, нейросети, нейросетьДипсик R1 - нашумевшая ИИ модель от китайской компании Deepseek AI. За основу взята модель Deepseek v3, возможности которой схожи с ChatGPT. Однако благодаря открытому исходному коду китайской нейросети у нее есть ряд интересных преимуществ.
В этой статье собрал все способы установки Дипсик. Т.к. китайская нейросеть с открытым исходным кодом – ее можно скачать на компьютер и использовать без Интернета. Причем, в удобном интерфейсе чат-бота.
1. Самый простой (но не всегда рабочий) способ: через сайт Deepseek
Переходим на официальный сайт chat.deepseek.comЧитать полностью »
Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах
2025-01-28 в 13:26, admin, рубрики: AI, artificial intelligence, deepseek, DeepSeek R1, deepseek v3, llm, nature, большие языковые модели, ИИ, искусственный интеллектDeepSeek-R1 — это самый громкий релиз последних дней в области искусственного интеллекта. Для сообщества исследователей и разработчиков машинного обучения (ML R&D) эта модель имеет особое значение по ряду причин:
-
Модель обладает открытыми весами и включает уменьшенные, дистиллированные варианты.
-
Она делится и размышляет над методом обучения, позволяющим воспроизвести модель рассуждений, подобную OpenAI O1.
В этой публикации мы рассмотрим, как была создана DeepSeek-R1.
Дисклеймер: это вольный перевод статьиЧитать полностью »
Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность
2025-01-28 в 13:06, admin, рубрики: AI, deepseek, DeepSeek R1, deepseek v3, галлюцинации ИИ, ИИ, токенизация
«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Явление было впервые открыто и задокументировано Читать полностью »

