RAG-системы становятся все популярнее в корпоративной среде, но их эффективное внедрение и качественная оценка остается сложной задачей. Один из типичных примеров — создание чат-ботов, отвечающих на вопросы пользователей с опорой на корпоративную базу знаний. И которые, вроде бы, заводятся и работают, и делают это даже неплохо, но всегда хочется получше.
Рубрика «big data»
Как оценивать ваш RAG-пайплайн и валидировать качество ответов LLM
2024-12-27 в 6:14, admin, рубрики: AI, big data, llm, llm-модели, nlp, rag, rag pipeline, база знаний, искусственный интеллект, языковые моделиКак предсказать будущее с помощью ML?
2024-12-27 в 5:15, admin, рубрики: AI, big data, machinelearning, ml, qicПривет, я Исламбек Темирбек, Senior Data Analyst в QIC digital hub. В этой статье я расскажу о машинном обучении и о том, как с его помощью можно предсказать будущее.
Какую роль играет аналитика в создании и разработке онлайн-страховых и нестраховых сервисов и почему мы обратились именно к машинному обучению (ML)? В этой статье я расскажу о нашем опыте с моделью машинного обучения Time Series, служащей для предсказания временных рядов. Обсудим, как мы использовали Facebook Prophet для прогнозирования продления полисов, а также методологию и результаты, включая возможные ошибки.
Как LLM меняют архитектуру систем: от простых дата-пайплайнов к интеллектуальным автономным агентам
2024-12-22 в 6:23, admin, рубрики: big data, data, data en, llm, llm-приложения, machine learning, nlp, агентыНа каждой технической конференции в последнее время обязательно звучит слово «агенты». Они преподносятся по разному: и как следующая ступенька после RAG, и как серебряная пуля для всех проблем, и как абсолютная замена всех классических пайплайнов. А кто еще не использует агентов — безнадежно отстал от прогресса.
Повышение производительности складской комплектации: как без трудоёмкого хронометража найти потенциал ускорения
2024-12-11 в 9:10, admin, рубрики: big data, Process Intelligence, Task mining, Большие данные, исследование, логистика, повышение производительности, цепочки поставок, цифровой след, эффективностьТекущая экономическая ситуация в мире приводит к сильному давлению роста цен во всех секторах экономики. Ритейлеры не могут перекладывать эти риски на плечи своих покупателей, что приводит их к необходимости поиска новых путей сокращения затрат на экземпляр процесса, т. е. на штуку товара. Усиливающаяся конкуренция с e‑commerce требует перестройки процессов и выхода на повышенные скорости доставки в борьбе за клиента.
Элегантная математика фильтров Блума
2024-12-08 в 9:13, admin, рубрики: big data, ruvds_переводы, Большие данные, математика, фильтры блумаВероятностные функции способны моделировать множество алгоритмов и процедур. Они помогают нам оптимизировать процессы для получения наилучших результатов. Опытные программные инженеры знают, что рано или поздно практически любое ПО достигает определённой степени недетерминированности, когда решение является не абсолютным, но при оптимальной конфигурации приближается к наилучшим результатам. В математическом смысле подобное решение обычно сводится к поиску минимума, максимума или пределов неких вероятностных функций.
В этой статье речь пойдёт об изяществе математики, лежащей в основе фильтров Блума. Мы разберём аспекты точности работы и компромиссов при конфигурировании этих фильтров, а также узнаем, почему в некоторых случаях они могут стать отличным выбором, особенно в сфере больших данных и системах OLAP, когда подразумевается обработка огромных и статичных датасетов.Читать полностью »
Как мы отбираем и обучаем разметчиков: от первых шагов до реальных проектов
2024-10-25 в 9:02, admin, рубрики: artificial intelligence, big data, data annotation, project management, аннотация, разметка данных, разметка датасетаВ чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах.
5 лучших инструментов для разметки данных в 2024 году
2024-10-15 в 10:02, admin, рубрики: big data, data annotation, data mining, искусственный интеллект, разметка данныхРазметка данных играет ключевую роль в развитии совершенно разных технологий: от автопилотов и голосовых помощников до агро- и тяжелой промышленности. Но процесс разметки может быть трудоёмким и занимать много времени. Чтобы упростить эту задачу, важно выбрать инструменты, которые подходят для вашей задачи и могут сделать работу быстрее и удобнее.
В этом руководстве мы разберем самые популярные решения для разметки данных и разберём, какой стоит выбрать именно вам.
CVAT
Бутстрап в PySpark
2024-10-09 в 9:49, admin, рубрики: big data, Bootstrap, data engineering, pyspark, python, spark, АБ-тесты, бутстрап, Статистика в ITВсем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”.
В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя.
Небольшой сэмпл данных и тетрадки с примерами запусков описанных ниже вариантов реализации можно увидеть в Читать полностью »
MLOps от Gucci и оценка уровня Data Driven’ности в компании
2023-08-24 в 11:07, admin, рубрики: AI, big data, ml, mlops, selectel, кейсы, полезные ссылки
Привет! MLOps пробрался даже в fashion-индустрию. И не говорите после этого, что работа с большими данными и ML — это немодно! В новом выпуске дайджеста — вновь «золотые» статьи по ML, AI и дата-аналитике. По классике начинаем с объемных образовательных статьей, а заканчиваем новинками «железа» от Nvidia и результатами отчетов по рынку (есть и на русском языке!). Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».
Читать полностью »
На Госуслугах создадут мега-базу данных на граждан, заполняемую автоматически
2023-08-04 в 16:06, admin, рубрики: big data, Госвеб, госуслуги, Текучка, метки: big data, Госвеб, госуслуги, ТекучкаВ распоряжении Forbes оказался план-график создания витрин данных национальной системы управления данными (НСУД). В нем указано, какие данные различные ведомства будут передавать в том числе порталу «Госуслуг». Согласно документу, со II квартала 2023 года МВД, в частности, передает «Госуслугам» информацию о регистрации граждан по месту жительства и месту пребывания, ДТП, результатах технического осмотра автомобилей (пробег), выдаче, замене и проверке действительности общегражданского и заграничного паспортов, а также другие сведения и данные.