В быстроразвивающемся мире искусственного интеллекта каждый прорыв переопределяет границы возможного. Небольшое сравнение этих языковых моделей. Чем она отличается и почему эксперты называют её новым этапом в эволюции ИИ?

В быстроразвивающемся мире искусственного интеллекта каждый прорыв переопределяет границы возможного. Небольшое сравнение этих языковых моделей. Чем она отличается и почему эксперты называют её новым этапом в эволюции ИИ?
Мой друг Николай присылает мне в телеграмм фото кроссворда из детского учебника с комментарием, что ни сам он, ни Яндекс, ни Гигачат, ни GPT-4o не смогли найти это слово.
А учебник детский.
Акции NVIDIA рухнули, потеряв за одну ночь $600 миллиардов рыночной капитализации — крупнейшийЧитать полностью »
DeepSeek-R1 — это самый громкий релиз последних дней в области искусственного интеллекта. Для сообщества исследователей и разработчиков машинного обучения (ML R&D) эта модель имеет особое значение по ряду причин:
Модель обладает открытыми весами и включает уменьшенные, дистиллированные варианты.
Она делится и размышляет над методом обучения, позволяющим воспроизвести модель рассуждений, подобную OpenAI O1.
В этой публикации мы рассмотрим, как была создана DeepSeek-R1.
Дисклеймер: это вольный перевод статьиЧитать полностью »
«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Явление было впервые открыто и задокументировано Читать полностью »
За последние два года - за время невероятной популярности Generative AI - появилось много перспективных компаний, создающих новые прорывные модели. Последний пример - это китайский стартап DeepSeek, благодаря которому у нас есть открытые аналоги OpenAI GPT-4o и o1. С теми же (что проверено бенчмарками) возможностями в плане выполнения текстовых инструкций, задач на математику, логику и кодинг.
В последние годы искусственный интеллект (ИИ) стремительно развивается, становясь центральной силой, формирующей отрасли и переосмысливающей возможности как для отдельных людей, так и для бизнеса.
Полчаса назад вышла новость о выходе DeepSeek Janus-7B - новой мультимодальной модели от DeepSeek, которая, по заявлениям авторов, рвёт DALL-E 3, Stable Diffusion XL и Stable Diffusion 3 (Medium) в бенчмарках.
В этой статье я не буду дублировать новость, а хочу подробнее рассмотреть, что именно в этой модели такого уникального, из-за чего многие связанные с AI медиа сегодня захлебываются от восторга.