Рубрика «deepseek v3»

DeepSeek взорвал рынок ИИ, и китайскую нейросеть уже наверное попробовал каждый.

Однако из-за перегрузки чаще всего Дипсик не работает. Нейросеть не отвечает, отправляя ошибки типа:

  • The server is busy. Please try again later.

  • Deepseek network error. Please try again later.

В этой статье разбираем 4 способа получить доступ к Дипсик, даже если он не отвечает. Во второй части статьи посмотрим, как установить DeepSeek локально на компьютер, что дает возможность использовать его вообще без Интернета!

1. Простой способ решить проблему Deepseek service is busy

Читать полностью »

Работу у AI отобрал другой AI )

Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и Multi-Token Predict. Однако все эти новшества уже были ранее представлены в других LLM: GPT-4, Llama, Mistrall и других.

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества? - 1

Полистав Читать полностью »

Дипсик R1 - нашумевшая ИИ модель от китайской компании Deepseek AI. За основу взята модель Deepseek v3, возможности которой схожи с ChatGPT. Однако благодаря открытому исходному коду китайской нейросети у нее есть ряд интересных преимуществ.

В этой статье собрал все способы установки Дипсик. Т.к. китайская нейросеть с открытым исходным кодом – ее можно скачать на компьютер и использовать без Интернета. Причем, в удобном интерфейсе чат-бота.

1. Самый простой (но не всегда рабочий) способ: через сайт Deepseek

Переходим на официальный сайт chat.deepseek.comЧитать полностью »

DeepSeek-R1 — это самый громкий релиз последних дней в области искусственного интеллекта. Для сообщества исследователей и разработчиков машинного обучения (ML R&D) эта модель имеет особое значение по ряду причин:

  1. Модель обладает открытыми весами и включает уменьшенные, дистиллированные варианты.

  2. Она делится и размышляет над методом обучения, позволяющим воспроизвести модель рассуждений, подобную OpenAI O1.

В этой публикации мы рассмотрим, как была создана DeepSeek-R1.

Дисклеймер: это вольный перевод статьиЧитать полностью »

Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность - 1

«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Явление было впервые открыто и задокументировано Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js