Главная

Рубрика «embeddings»

Как выбрать embedding модель без датасета и исторических данных

2025-02-24 в 9:15, admin, рубрики: AI, embeddings, nlp, python, rag, retrieval, retrieval augmented generation

Введение

С появлением больших языковых моделей тема векторного поиска обрела новое дыхание. Компании, которые хотят внедрить архитектуру Retrieval-Augmented Generation (RAG), сталкиваются с вопросом: как выбрать эмбеддинги, которые будут работать эффективно именно с их данными?

Выбор эмбеддинг-модели — это стратегически важное и долгосрочное решение, так как оно определяет качество поиска и производительность системы. Но этот выбор особенно сложно сделать на ранних этапах развития вашего проекта, когда данных для анализа ещё нет. При этом замена модели в будущем может оказаться дорогостоящей и ресурсозатратной.

Читать полностью »

pg_auto_embeddings — считаем эмбеддинги для текста прямо в Postgres, без экстеншенов

2025-01-10 в 11:30, admin, рубрики: embeddings, postgres, postgresql, rag, векторные представления, ИИ, эмбеддинги

У вас есть PostgreSQL база, где хранится множество текстовых данных. Вы хотите использовать векторные представления (embeddings), к примеру, от OpenAI, чтобы построить систему рекомендаций, улучшенный поиск или реализовать RAG для работы с LLM. Но при этом ставить расширения (extensions) не хочется, а может, и вовсе нельзя — например, в облачных Managed PostgreSQL зачастую нет нужных прав.

pg_auto_embeddings Читать полностью »

Зачем нужны эмбеддинги?

2024-11-02 в 8:34, admin, рубрики: embeddings, llm, similarity

Работая с прикладными задачами для больших языковых моделей (LLM), постепенно понимаешь, что большинство задач сводятся к двум основным целям:

Структурирование неструктурированных данных: преобразование массивов текстов в структурированный формат, по которому можно будет проводить поиск.
Преобразование пользовательских запросов: превращение неструктурированных запросов пользователя в структурированный формат, чтобы можно было искать в подготовленных данных.

Читать полностью »

Julia NLP. Обрабатываем тексты

2019-11-15 в 8:45, admin, рубрики: BERT, embeddings, flux, Julia, natural language processing, nlp (natural language processing), term-document, модели анализа текстов, Программирование

Julia NLP. Обрабатываем тексты - 1

Анализ и обработка текстов на естественном языке является постоянно актуальной задачей, которая решалась, решается и будет решаться всеми доступными способами. На сегодня хотелось бы поговорить о средствах решения для решения этой задачи, именно, на языке Julia. Безусловно, в виду молодости языка, здесь нет столь развитых средств анализа, как, например Stanford CoreNLP, Apache OpenNLP, GATE и пр., как, например, для языка Java. Однако, даже уже разработанные библиотеки, вполне могут использоваться как для решения типовых задач, так и быть рекомендованными в качестве точки входа для студентов, которым интересна область обработки текстов. А синтаксическая простота Julia и её развитые математические средства, позволяют с лёгкостью погрузиться в задачи кластеризации и классификации текстов.

Читать полностью »

Визуализация больших графов для самых маленьких

2019-09-04 в 11:04, admin, рубрики: data mining, embeddings, graph, network, visualization, Блог компании Open Data Science, большие графы, визуализация, визуализация данных, графы, искусственный интеллект, машинное обучение

Визуализация больших графов для самых маленьких - 1
Что делать, если вам нужно нарисовать граф, но попавшиеся под руку инструменты рисуют какой-то комок волос или вовсе пожирают всю оперативную память и вешают систему? За последние пару лет работы с большими графами (сотни миллионов вершин и рёбер) я испробовал много инструментов и подходов, и почти не находил достойных обзоров. Поэтому теперь пишу такой обзор сам.
Читать полностью »

Word2vec в картинках

2019-04-02 в 18:12, admin, рубрики: embeddings, gensim, nlp, word2vec, векторное представление слов, вложения, машинное обучение

«Во всякой вещи скрыт узор, который есть часть Вселенной. В нём есть симметрия, элегантность и красота — качества, которые прежде всего схватывает всякий истинный художник, запечатлевающий мир. Этот узор можно уловить в смене сезонов, в том, как струится по склону песок, в перепутанных ветвях креозотового кустарника, в узоре его листа.

Мы пытаемся скопировать этот узор в нашей жизни и нашем обществе и потому любим ритм, песню, танец, различные радующие и утешающие нас формы. Однако можно разглядеть и опасность, таящуюся в поиске абсолютного совершенства, ибо очевидно, что совершенный узор — неизменен. И, приближаясь к совершенству, всё сущее идёт к смерти» — Дюна (1965)

Я считаю, что концепция вложений (embeddings) — одна из самых замечательных идей в машинном обучении. Если вы когда-нибудь использовали Siri, Google Assistant, Alexa, Google Translate или даже клавиатуру смартфона с предсказанием следующего слова, то уже работали с моделью обработки естественного языка на основе вложений. За последние десятилетия произошло значительное развитие этой концепции для нейронных моделей (последние разработки включают контекстуализированные вложения слов в передовых моделях, таких как BERT и GPT2).
Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Обсуждаемое

Рекомендуем

Рубрика «embeddings»

Как выбрать embedding модель без датасета и исторических данных

Введение

pg_auto_embeddings — считаем эмбеддинги для текста прямо в Postgres, без экстеншенов

Зачем нужны эмбеддинги?

Julia NLP. Обрабатываем тексты

Визуализация больших графов для самых маленьких

Word2vec в картинках

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «embeddings»

Как выбрать embedding модель без датасета и исторических данных

Введение

pg_auto_embeddings — считаем эмбеддинги для текста прямо в Postgres, без экстеншенов

Зачем нужны эмбеддинги?

Julia NLP. Обрабатываем тексты

Визуализация больших графов для самых маленьких

Word2vec в картинках

Новости

Актуальные темы

Архив