Рубрика «faiss»
Как я победил в RAG Challenge: от нуля до SoTA за один конкурс
2025-03-22 в 11:54, admin, рубрики: chatgpt, Docling, faiss, gpt, llm, question answering, rag, retrieval augmented generation, векторный поиск, парсинг PDF
Предисловие
В этом посте я расскажу про подход, благодаря которому я занял первое место в обеих призовых номинациях и в общем SotA рейтинге.
Памятка по RAG
RAG - это инструмент, расширяющий возможности LLM через “подключение” к ней базы знаний любого размера.
Путь разработки базовой RAG системы состоит из этапов:
Миллиарды векторов и немного магии: превращаем сырые данные с маркетплейсов в пригодные для анализа
2025-02-21 в 5:59, admin, рубрики: big data, faiss, аналитика, искусственный интеллект, маркетплейсы, нейросети, обработка изображений, семантический поиск, эмбеддингиПривет! Я — Игорь Старун, BigData Lead в MPSTATS. Я уже 3 года занимаюсь анализом данных на маркетплейсах, штудируя гигантские объёмы информации и превращая их из непотребного и нечитаемого вида в удобоваримый и анализируемый. Моя задача — собрать и подготовить данные так, чтобы помочь продавцам на маркетплейсах разобраться, что происходит с их товарами, конкурентами и продажами, чтобы они не утонули в хаосе карточек, цен и остатков. В этой статье я расскажу, как мы перерабатываем эти объемы грязных данных и структурируем для дальнейшего анализа.
Данные о товарах – это основа всего.Читать полностью »
Не баян: ищем дубликаты изображений на основе Milvus с индексом FAISS внутри
2020-12-22 в 14:32, admin, рубрики: faiss, github, java, kotlin, Milvus, open source, python, Блог компании FunCorp, вектор, дубликаты изображений, картинки, мобильная разработка, поиск, поисковые технологии, разработка, разработка мобильных приложений
В user-generated проектах часто приходится бороться с дубликатами, а для нас это особенно актуально, так как основной контент мобильного приложения iFunny — это изображения, которые постятся десятками тысяч ежедневно. Для поиска повторов мы написали отдельную систему, чтобы облегчить процесс и сэкономить море времени.
Под катом рассмотрим используемые инструменты, а потом перейдём к примеру реализации.
Читать полностью »
Использование faiss для поиска по многомерным пространствам
2020-02-18 в 10:56, admin, рубрики: faiss, hnsw, python, машинное обучение, считаем байтикиПривет! Меня зовут Владимир Олохтонов, я старший разработчик в команде автоматической модерации Авито. Осенью 2019 мы запустили сервис поиска похожих изображений на основе библиотеки faiss. Он помогает нам понимать, что фотографии уже встречались в другом объявлении, даже если они достаточно серьёзно искажены: размыты, обрезаны и тому подобное. Так мы определяем потенциально фейковые публикации.
Мне бы хотелось рассказать о тех проблемах, с которыми мы столкнулись в процессе создания этого сервиса, и наших подходах к их решению.
Статья предполагает, что читатель хотя бы немного знаком с темой поиска по многомерным пространствам, поскольку дальше речь пойдёт в основном о технических деталях. Если это не так, я рекомендую сначала прочитать базовую статью в блоге Mail.ru.


