Рубрика «deepseek v3»

Нет, тренировка DeepSeek R1 не стоила $294 тыс. Реальная цифра в десятки раз выше

2025-09-20 в 12:16, admin, рубрики: deepseek, DeepSeek R1, deepseek v3, deepseek v3.1

В интернете широко обсуждают опубликованный в Nature отчет авторов DeepSeek, в котором якобы заявляется, что обучение модели R1 обошлось компании всего в 294 тысячи долларов. Цифра выглядит сенсационной, ведь конкуренты тратят на создание своих моделей в тысячи раз большие суммы: например, для Claude Sonnet 3.7 давали оценку в несколько десятков миллионов долларов. Если бы взятая из Nature цифра была правдой, то получилось бы так, что у конкурентов нет никаких шансов перед командой DeepSeek. Но это не так.

Читать полностью »

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

2025-06-29 в 8:46, admin, рубрики: deepseek, DeepSeek R1, deepseek v3, ik_llama, llama.cpp, локальные нейросети

Читать полностью »

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

2025-06-09 в 14:21, admin, рубрики: AI, deepseek, DeepSeek R1, deepseek v3, EPYC, gguf, huggingface, llama.cpp, llm, local ai

Зачем?

У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание протестировать разнообразные настройки LLM. До этого момента я пробовал запускать разные небольшие модели исключительно на cpu. А вот опыта с большими моделями не было.

Где?

Читать полностью »

Дипсик не работает: Обходим ошибку Deepseek service is busy хитрыми способами

2025-02-15 в 16:43, admin, рубрики: deepseek, deepseek ai, DeepSeek R1, deepseek v3, дипсик, ии помощник, ии чат-бот, ии-ассистент, нейросети

DeepSeek взорвал рынок ИИ, и китайскую нейросеть уже наверное попробовал каждый.

Однако из-за перегрузки чаще всего Дипсик не работает. Нейросеть не отвечает, отправляя ошибки типа:

The server is busy. Please try again later.
Deepseek network error. Please try again later.

В этой статье разбираем 4 способа получить доступ к Дипсик, даже если он не отвечает. Во второй части статьи посмотрим, как установить DeepSeek локально на компьютер, что дает возможность использовать его вообще без Интернета!

1. Простой способ решить проблему Deepseek service is busy

Читать полностью »

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?

2025-02-02 в 10:07, admin, рубрики: deepseek, deepseek v3, hai llm, HighFlyer, llm, ИИ, ИИ и машинное обучение

Работу у AI отобрал другой AI )

Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и Multi-Token Predict. Однако все эти новшества уже были ранее представлены в других LLM: GPT-4, Llama, Mistrall и других.

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества? - 1

Полистав Читать полностью »

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

2025-01-29 в 21:40, admin, рубрики: deepseek, DeepSeek R1, deepseek v3, llm, llm-модели, дипсик, ИИ, ии-ассистент, нейросети, нейросеть

Дипсик R1 - нашумевшая ИИ модель от китайской компании Deepseek AI. За основу взята модель Deepseek v3, возможности которой схожи с ChatGPT. Однако благодаря открытому исходному коду китайской нейросети у нее есть ряд интересных преимуществ.

В этой статье собрал все способы установки Дипсик. Т.к. китайская нейросеть с открытым исходным кодом – ее можно скачать на компьютер и использовать без Интернета. Причем, в удобном интерфейсе чат-бота.

1. Самый простой (но не всегда рабочий) способ: через сайт Deepseek

Переходим на официальный сайт chat.deepseek.com Читать полностью »

Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах

2025-01-28 в 13:26, admin, рубрики: AI, artificial intelligence, deepseek, DeepSeek R1, deepseek v3, llm, nature, большие языковые модели, ИИ, искусственный интеллект

DeepSeek-R1 — это самый громкий релиз последних дней в области искусственного интеллекта. Для сообщества исследователей и разработчиков машинного обучения (ML R&D) эта модель имеет особое значение по ряду причин:

Модель обладает открытыми весами и включает уменьшенные, дистиллированные варианты.
Она делится и размышляет над методом обучения, позволяющим воспроизвести модель рассуждений, подобную OpenAI O1.

В этой публикации мы рассмотрим, как была создана DeepSeek-R1.

Дисклеймер: это вольный перевод статьиЧитать полностью »

Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность

2025-01-28 в 13:06, admin, рубрики: AI, deepseek, DeepSeek R1, deepseek v3, галлюцинации ИИ, ИИ, токенизация

«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Явление было впервые открыто и задокументировано Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «deepseek v3»

Нет, тренировка DeepSeek R1 не стоила $294 тыс. Реальная цифра в десятки раз выше

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Зачем?

Где?

Дипсик не работает: Обходим ошибку Deepseek service is busy хитрыми способами

1. Простой способ решить проблему Deepseek service is busy

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

1. Самый простой (но не всегда рабочий) способ: через сайт Deepseek

Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах

Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность