Рубрика «токенизация»

Зачем строить свой собственный?

Зачем вообще делать что-то своё?

Я знаю, что вы можете подумать: «Почему бы просто не использовать Elasticsearch?» или «А что насчёт Algolia?» Это вполне рабочие решения, но у них есть нюансы. Нужно разбираться с их API, поддерживать инфраструктуру под них и учитывать все тонкости их работы.

Но иногда хочется чего-то более простого — такого, что:

  • работает прямо с вашей текущей базой данных;

  • не требует сторонних сервисов;

  • легко понять и отладить;

  • действительно выдаёт релевантные результаты.

Читать полностью »

На днях наткнулся на статью, опубликованную в телеграм-канале Habr, под названием «Тихий апокалипсис контента: почему все устали от сгенерированных статей». В ней автор выражает озабоченность количеством сгенерированного контента, который набирает просмотры и вытесняет из выдачи авторские статьи. Статья автора натолкнула меня на идею порассуждать на эту тему, провести небольшие исследования, сравнить процесс генерации текста ИИ и человеком и просто поделиться своим «экспертным» мнением.

Задачи для себя при написании статьи я ставлю следующие:

  1. Читать полностью »

Сгенерировано с помощью gigaChat

Сгенерировано с помощью gigaChat

Один из моих коллег сказал когда-то, что "база данных - это хранилище, а не считалище!"Читать полностью »

Почему гражданам запретили покупать USDT за рубли и доллары - 1

C 26 мая 2025 года вступают в силу расширенные требования ЦБ к иностранным цифровым правам (ИЦП), в результате чего физлицам запрещено покупать USDT и другие стейблкоины.

USDT — популярный и надёжный стейблкоин. В нём удобно производить расчёты, переводить деньги друзьям, рассчитываться за услуги, покупать товары.

Но центробанки хотят навязать гражданам свои цифровые валюты с полным отказом от анонимности, с автоматической уплатой налогов и удобной конфискацией средств в случае необходимости.
Читать полностью »

История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима - 1

Доброго времени суток, «Хабр»!

Читать полностью »

Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность - 1

«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Явление было впервые открыто и задокументировано Читать полностью »

Обучение GigaChat с контекстом в сотни тысяч токенов - 1

Помните фразу «640 килобайт памяти хватит всем»? Запросы человечества вечно растут, а индустрии надо поспевать.

Вот и с языковыми моделями так. Ещё недавно мы все удивлялись тому, на что они стали способны. А теперь нам этого мало: «ну хорошо, а может модель в диалоге учитывать то, что я сказал сотни реплик назад?»

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js