Рубрика «big data»

Все работают на RAG

Все работают на RAG

RAG-системы становятся все популярнее в корпоративной среде, но их эффективное внедрение и качественная оценка остается сложной задачей. Один из типичных примеров — создание чат-ботов, отвечающих на вопросы пользователей с опорой на корпоративную базу знаний. И которые, вроде бы, заводятся и работают, и делают это даже неплохо, но всегда хочется получше.

Читать полностью »

Привет, я Исламбек Темирбек, Senior Data Analyst в QIC digital hub. В этой статье я расскажу о машинном обучении и о том, как с его помощью можно предсказать будущее.

Какую роль играет аналитика в создании и разработке онлайн-страховых и нестраховых сервисов и почему мы обратились именно к машинному обучению (ML)? В этой статье я расскажу о нашем опыте с моделью машинного обучения Time Series, служащей для предсказания временных рядов. Обсудим, как мы использовали Facebook Prophet для прогнозирования продления полисов, а также методологию и результаты, включая возможные ошибки.

Читать полностью »

На каждой технической конференции в последнее время обязательно звучит слово «агенты». Они преподносятся по разному: и как следующая ступенька после RAG, и как серебряная пуля для всех проблем, и как абсолютная замена всех классических пайплайнов. А кто еще не использует агентов — безнадежно отстал от прогресса.

Классика, LLM-ассистент и LLM-агент

Классика, LLM-ассистент и LLM-агент

Читать полностью »

Текущая экономическая ситуация в мире приводит к сильному давлению роста цен во всех секторах экономики. Ритейлеры не могут перекладывать эти риски на плечи своих покупателей, что приводит их к необходимости поиска новых путей сокращения затрат на экземпляр процесса, т. е. на штуку товара. Усиливающаяся конкуренция с e‑commerce требует перестройки процессов и выхода на повышенные скорости доставки в борьбе за клиента.

Читать полностью »

Элегантная математика фильтров Блума - 1


Вероятностные функции способны моделировать множество алгоритмов и процедур. Они помогают нам оптимизировать процессы для получения наилучших результатов. Опытные программные инженеры знают, что рано или поздно практически любое ПО достигает определённой степени недетерминированности, когда решение является не абсолютным, но при оптимальной конфигурации приближается к наилучшим результатам. В математическом смысле подобное решение обычно сводится к поиску минимума, максимума или пределов неких вероятностных функций.

В этой статье речь пойдёт об изяществе математики, лежащей в основе фильтров Блума. Мы разберём аспекты точности работы и компромиссов при конфигурировании этих фильтров, а также узнаем, почему в некоторых случаях они могут стать отличным выбором, особенно в сфере больших данных и системах OLAP, когда подразумевается обработка огромных и статичных датасетов.Читать полностью »

Как мы отбираем и обучаем разметчиков: от первых шагов до реальных проектов - 1

В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах.

Читать полностью »

Разметка данных играет ключевую роль в развитии совершенно разных технологий: от автопилотов и голосовых помощников до агро- и тяжелой промышленности. Но процесс разметки может быть трудоёмким и занимать много времени. Чтобы упростить эту задачу, важно выбрать инструменты, которые подходят для вашей задачи и могут сделать работу быстрее и удобнее.

В этом руководстве мы разберем самые популярные решения для разметки данных и разберём, какой стоит выбрать именно вам.

CVAT

Читать полностью »

Всем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”.

В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя.

Небольшой сэмпл данных и тетрадки с примерами запусков описанных ниже вариантов реализации можно увидеть в Читать полностью »

image

Привет! MLOps пробрался даже в fashion-индустрию. И не говорите после этого, что работа с большими данными и ML — это немодно! В новом выпуске дайджеста — вновь «золотые» статьи по ML, AI и дата-аналитике. По классике начинаем с объемных образовательных статьей, а заканчиваем новинками «железа» от Nvidia и результатами отчетов по рынку (есть и на русском языке!). Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».
Читать полностью »

В распоряжении Forbes оказался план-график создания витрин данных национальной системы управления данными (НСУД). В нем указано, какие данные различные ведомства будут передавать в том числе порталу «Госуслуг». Согласно документу, со II квартала 2023 года МВД, в частности, передает «Госуслугам» информацию о регистрации граждан по месту жительства и месту пребывания, ДТП, результатах технического осмотра автомобилей (пробег), выдаче, замене и проверке действительности общегражданского и заграничного паспортов, а также другие сведения и данные.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js