Рубрика «токенизация»

Создание простой поисковой системы, которая действительно работает

2025-11-23 в 10:51, admin, рубрики: php, sql, индексация, оптимизация, поиск, поисковая система, репозиторий, токенизация

Зачем строить свой собственный?

Зачем вообще делать что-то своё?

Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы.

Но иногда хочется чего-то более простого — такого, что:

работает прямо с вашей текущей базой данных;
не требует сторонних сервисов;
легко понять и отладить;
действительно выдаёт релевантные результаты.

Читать полностью »

Апокалипсис контента? Взгляд юриста и разбор LLM

2025-11-16 в 11:13, admin, рубрики: llm-модели, transformer, авторегрессия, апокалипсис контента, вероятностная генерация, генерация текста, механизм внимания, нейросети, токенизация

На днях наткнулся на статью, опубликованную в телеграм-канале Habr, под названием «Тихий апокалипсис контента: почему все устали от сгенерированных статей». В ней автор выражает озабоченность количеством сгенерированного контента, который набирает просмотры и вытесняет из выдачи авторские статьи. Статья автора натолкнула меня на идею порассуждать на эту тему, провести небольшие исследования, сравнить процесс генерации текста ИИ и человеком и просто поделиться своим «экспертным» мнением.

Задачи для себя при написании статьи я ставлю следующие:

Читать полностью »

Clickhouse в машинном обучении без использования GPU (Часть 1)

2025-09-24 в 4:41, admin, рубрики: clickhouse, ml, sql, токенизация

Один из моих коллег сказал когда-то, что "база данных - это хранилище, а не считалище!"Читать полностью »

C 26 мая 2025 года вступают в силу расширенные требования ЦБ к иностранным цифровым правам (ИЦП), в результате чего физлицам запрещено покупать USDT и другие стейблкоины.

USDT — популярный и надёжный стейблкоин. В нём удобно производить расчёты, переводить деньги друзьям, рассчитываться за услуги, покупать товары.

Но центробанки хотят навязать гражданам свои цифровые валюты с полным отказом от анонимности, с автоматической уплатой налогов и удобной конфискацией средств в случае необходимости.
Читать полностью »

История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

2025-05-13 в 15:14, admin, рубрики: BERT, chatgpt, t5, word2vec, токенизация

Доброго времени суток, «Хабр»!

Читать полностью »

Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность

2025-01-28 в 13:06, admin, рубрики: AI, deepseek, DeepSeek R1, deepseek v3, галлюцинации ИИ, ИИ, токенизация

«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Явление было впервые открыто и задокументировано Читать полностью »

Почему токенизация – костыль? Передовые подходы для больших языковых моделей следующего поколения

2025-01-12 в 14:15, admin, рубрики: Byte Latent Transformer, byte-level models, Large Concept Model, llm, большие языковые модели, концепты, мультиязычность, ограничения ИИ, патчинг, токенизация

Читать полностью »

Обучение GigaChat с контекстом в сотни тысяч токенов

2024-10-09 в 14:38, admin, рубрики: GigaChat, llm, токенизация

Помните фразу «640 килобайт памяти хватит всем»? Запросы человечества вечно растут, а индустрии надо поспевать.

Вот и с языковыми моделями так. Ещё недавно мы все удивлялись тому, на что они стали способны. А теперь нам этого мало: «ну хорошо, а может модель в диалоге учитывать то, что я сказал сотни реплик назад?»

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «токенизация»

Создание простой поисковой системы, которая действительно работает

Зачем строить свой собственный?

Апокалипсис контента? Взгляд юриста и разбор LLM

Clickhouse в машинном обучении без использования GPU (Часть 1)

5 устройств, которые изменили быт сильнее смартфона

Сознание ИИ: может ли алгоритм страдать по-настоящему?

Почему гражданам запретили покупать USDT за рубли и доллары

История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность

Почему токенизация – костыль? Передовые подходы для больших языковых моделей следующего поколения

Обучение GigaChat с контекстом в сотни тысяч токенов