Рубрика «эмбеддинги»

Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа

2025-02-21 в 5:59, admin, рубрики: big data, faiss, аналитика, искусственный интеллект, маркетплейсы, нейросети, обработка изображений, семантический поиск, эмбеддинги

Привет! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа.

Данные о товарах – это основа всего.Читать полностью »

pg_auto_embeddings — считаем эмбеддинги для текста прямо в Postgres, без экстеншенов

2025-01-10 в 11:30, admin, рубрики: embeddings, postgres, postgresql, rag, векторные представления, ИИ, эмбеддинги

У вас есть PostgreSQL база, где хранится множество текстовых данных. Вы хотите использовать векторные представления (embeddings), к примеру, от OpenAI, чтобы построить систему рекомендаций, улучшенный поиск или реализовать RAG для работы с LLM. Но при этом ставить расширения (extensions) не хочется, а может, и вовсе нельзя — например, в облачных Managed PostgreSQL зачастую нет нужных прав.

pg_auto_embeddings Читать полностью »

Новая методика существенно повышает эффективность систем RAG в поиске необходимых документов

2024-10-11 в 14:18, admin, рубрики: bm25, llm, rag, искусственный интеллект, нейросети, эмбеддинги

Метод генерации с дополнением извлечения (RAG) стал популярным способом связывания больших языковых моделей (LLM) с внешними источниками знаний. Системы RAG обычно используют модель эмбеддингов для кодирования документов в корпусе знаний и выбирают те, которые наиболее соответствуют запросу пользователя.

Дисклеймер 1: это вольный перевод заметкиЧитать полностью »

Новый взгляд на оценку русскоязычных моделей: обновлённый бенчмарк ruMTEB и лидерборд

2024-09-23 в 12:35, admin, рубрики: Massive Text Embedding Benchmark, rumteb, векторизация, искусственный интеллект, лидерборд, эмбеддинги, языковые модели

Всем привет! Меня зовут Роман Соломатин, я представляю команду AI-Run из X5 Tech, мы занимаемся генеративными сетями в целом и языковыми моделями в частности. Несколько месяцев назад русскоязычное сообщество разработчиков искусственного интеллекта получило инструмент для оценки моделей — бенчмарк ruMTEB (Massive Text Embedding Benchmark). Он предназначен для оценки репрезентации русскоязычных текстов и позволяет объективно сравнивать различные эмбеддинговые модели, которые превращают текст в вектора чисел, ориентированные на работу с русским языком (Читать полностью »

Размерность Минковского и Two Nearest Neighbours (TwoNN)

2024-09-10 в 20:11, admin, рубрики: облака точек, размерность, топологический анализ данных, эмбеддинги

В этой статье я кратко изложу абстрактную идею того, что такое внутренняя размерность геометрической фигуры, попутно введя один из вариантов размерности Минковского, а затем расскажу про другой, приблизительный способ оценки внутренней размерности, который применим к реальным (то есть, конечным) облакам точек и называется Two Nearest Neighbours (TwoNN). В конце статьи для интересующихся будут оставлены ссылки на несколько научных статей, в которых второй способ используется для анализов эмбеддингов нейросетей.

Итак, давайте разбираться!

Размерность Минковского

Читать полностью »

Что можно узнать из текста в телеграмм-канале?

2024-08-19 в 18:16, admin, рубрики: nlp, анализ данных, анализ данных python, данные, кластер, машинное обучение, текст, тематическое моделирование, эмбеддинги

Привет!

Два года назад я создал телеграмм-канал и начал постить туда всякое, что считал интересным. Изначально это было что-то вроде публичного дневника с регулярными и короткими заметками из моей студенческой жизни. После, я попробовал превратить этот канал в блог о современном искусстве, ну а пару месяцев назад понял, что не могу жить без любимой айтишечки и начал постить в канал новости из мира Data Science и ИИ.

Читать полностью »

Лучше 170 раз услышать: как GPT-4o кодирует изображения?

2024-08-15 в 11:02, admin, рубрики: gpt-4, gpt-4o, gpt-4v, OpenAI, эмбеддинги

Интересный факт: GPT-4o взимает по 170 токенов за обработку каждого тайла 512x512 , используемого в режиме высокого разрешения. При соотношении примерно 0,75 токенов на слово можно предположить, что картинка стоит примерно 227 слов, что всего в четыре раза меньше, чем в поговорке «картинка стоит тысячи слов».

Читать полностью »

Как сжать модель fastText в 100 раз

2020-02-24 в 6:56, admin, рубрики: compression, data mining, FastText, gensim, machine learning, natural language processing, python, word embeddings, word2vec, Алгоритмы, машинное обучение, эмбеддинги

Модель fastText — одно из самых эффективных векторных представлений слов для русского языка. Однако её прикладная польза страдает из-за внушительных (несколько гигабайт) размеров модели. В этой статье мы показываем, как можно уменьшить модель fastText с 2.7 гигабайт до 28 мегабайт, не слишком потеряв в её качестве (3-4%). Спойлер: квантизация и отбор признаков работают хорошо, а матричные разложения — не очень. Также мы публикуем пакет на Python для этого сжатия и пример компактной модели для русских слов.
Как сжать модель fastText в 100 раз - 1

Читать полностью »

Применение сиамских нейросетей в поиске

2019-09-20 в 8:39, admin, рубрики: natural language processing, nlp (natural language processing), Блог компании Mail.Ru Group, машинное обучение, нейронные сети, поисковые системы, поисковые технологии, Семантика, сиамские нейросети, эмбеддинги

Применение сиамских нейросетей в поиске - 1

Всем привет! В этом посте я расскажу, какие подходы мы в Поиске Mail.ru используем для сравнения текстов. Для чего это нужно? Как только мы научимся хорошо сравнивать разные тексты друг с другом, поисковая система сможет лучше понимать запросы пользователя.

Что нам для этого нужно? Для начала строго поставить задачу. Нужно определить для себя, какие тексты мы считаем похожими, а какие не считаем и затем сформулировать стратегию автоматического определения схожести. В нашем случае будут сравниваться тексты пользовательских запросов с текстами документов.
Читать полностью »

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

2019-05-14 в 12:07, admin, рубрики: ABBYY, machine learning, natural language processing, ner, RNN, Блог компании ABBYY, искусственный интеллект, машинное обучение, нейронные сети, нейросети, токены, эмбеддинги

Первую часть статьи об основах NLP можно прочитать здесь. А сегодня мы поговорим об одной из самых популярных задач NLP – извлечении именованных сущностей (Named-entity recognition, NER) – и разберем подробно архитектуры решений этой задачи.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «эмбеддинги»

Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа

pg_auto_embeddings — считаем эмбеддинги для текста прямо в Postgres, без экстеншенов

Новая методика существенно повышает эффективность систем RAG в поиске необходимых документов

Новый взгляд на оценку русскоязычных моделей: обновлённый бенчмарк ruMTEB и лидерборд

Размерность Минковского и Two Nearest Neighbours (TwoNN)

Размерность Минковского

Что можно узнать из текста в телеграмм-канале?

Лучше 170 раз услышать: как GPT-4o кодирует изображения?

Как сжать модель fastText в 100 раз

Применение сиамских нейросетей в поиске

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «эмбеддинги»

Размерность Минковского

Новости

Актуальные темы

Архив