Рубрика «big data» - 3

Как предсказать будущее с помощью ML?

2024-12-27 в 5:15, admin, рубрики: AI, big data, machinelearning, ml, qic

Привет, я Исламбек Темирбек, Senior Data Analyst в QIC digital hub. В этой статье я расскажу о машинном обучении и о том, как с его помощью можно предсказать будущее.

Какую роль играет аналитика в создании и разработке онлайн-страховых и нестраховых сервисов и почему мы обратились именно к машинному обучению (ML)? В этой статье я расскажу о нашем опыте с моделью машинного обучения Time Series, служащей для предсказания временных рядов. Обсудим, как мы использовали Facebook Prophet для прогнозирования продления полисов, а также методологию и результаты, включая возможные ошибки.

Читать полностью »

Как LLM меняют архитектуру систем: от простых дата-пайплайнов к интеллектуальным автономным агентам

2024-12-22 в 6:23, admin, рубрики: big data, data, data en, llm, llm-приложения, machine learning, nlp, агенты

На каждой технической конференции в последнее время обязательно звучит слово «агенты». Они преподносятся по разному: и как следующая ступенька после RAG, и как серебряная пуля для всех проблем, и как абсолютная замена всех классических пайплайнов. А кто еще не использует агентов — безнадежно отстал от прогресса.

Читать полностью »

Повышение производительности складской комплектации: как без трудоёмкого хронометража найти потенциал ускорения

2024-12-11 в 9:10, admin, рубрики: big data, Process Intelligence, Task mining, Большие данные, исследование, логистика, повышение производительности, цепочки поставок, цифровой след, эффективность

Текущая экономическая ситуация в мире приводит к сильному давлению роста цен во всех секторах экономики. Ритейлеры не могут перекладывать эти риски на плечи своих покупателей, что приводит их к необходимости поиска новых путей сокращения затрат на экземпляр процесса, т. е. на штуку товара. Усиливающаяся конкуренция с e‑commerce требует перестройки процессов и выхода на повышенные скорости доставки в борьбе за клиента.

Читать полностью »

Элегантная математика фильтров Блума

2024-12-08 в 9:13, admin, рубрики: big data, ruvds_переводы, Большие данные, математика, фильтры блума

Вероятностные функции способны моделировать множество алгоритмов и процедур. Они помогают нам оптимизировать процессы для получения наилучших результатов. Опытные программные инженеры знают, что рано или поздно практически любое ПО достигает определённой степени недетерминированности, когда решение является не абсолютным, но при оптимальной конфигурации приближается к наилучшим результатам. В математическом смысле подобное решение обычно сводится к поиску минимума, максимума или пределов неких вероятностных функций.

В этой статье речь пойдёт об изяществе математики, лежащей в основе фильтров Блума. Мы разберём аспекты точности работы и компромиссов при конфигурировании этих фильтров, а также узнаем, почему в некоторых случаях они могут стать отличным выбором, особенно в сфере больших данных и системах OLAP, когда подразумевается обработка огромных и статичных датасетов.Читать полностью »

Как мы отбираем и обучаем разметчиков: от первых шагов до реальных проектов

2024-10-25 в 9:02, admin, рубрики: artificial intelligence, big data, data annotation, project management, аннотация, разметка данных, разметка датасета

В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах.

Читать полностью »

5 лучших инструментов для разметки данных в 2024 году

2024-10-15 в 10:02, admin, рубрики: big data, data annotation, data mining, искусственный интеллект, разметка данных

Разметка данных играет ключевую роль в развитии совершенно разных технологий: от автопилотов и голосовых помощников до агро- и тяжелой промышленности. Но процесс разметки может быть трудоёмким и занимать много времени. Чтобы упростить эту задачу, важно выбрать инструменты, которые подходят для вашей задачи и могут сделать работу быстрее и удобнее.

В этом руководстве мы разберем самые популярные решения для разметки данных и разберём, какой стоит выбрать именно вам.

CVAT

Читать полностью »

Бутстрап в PySpark

2024-10-09 в 9:49, admin, рубрики: big data, Bootstrap, data engineering, pyspark, python, spark, АБ-тесты, бутстрап, Статистика в IT

Всем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”.

В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя.

Небольшой сэмпл данных и тетрадки с примерами запусков описанных ниже вариантов реализации можно увидеть в Читать полностью »

MLOps от Gucci и оценка уровня Data Driven’ности в компании

2023-08-24 в 11:07, admin, рубрики: AI, big data, ml, mlops, selectel, кейсы, полезные ссылки

Привет! MLOps пробрался даже в fashion-индустрию. И не говорите после этого, что работа с большими данными и ML — это немодно! В новом выпуске дайджеста — вновь «золотые» статьи по ML, AI и дата-аналитике. По классике начинаем с объемных образовательных статьей, а заканчиваем новинками «железа» от Nvidia и результатами отчетов по рынку (есть и на русском языке!). Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».
Читать полностью »

На Госуслугах создадут мега-базу данных на граждан, заполняемую автоматически

2023-08-04 в 16:06, admin, рубрики: big data, Госвеб, госуслуги, Текучка, метки: big data, Госвеб, госуслуги, Текучка

В распоряжении Forbes оказался план-график создания витрин данных национальной системы управления данными (НСУД). В нем указано, какие данные различные ведомства будут передавать в том числе порталу «Госуслуг». Согласно документу, со II квартала 2023 года МВД, в частности, передает «Госуслугам» информацию о регистрации граждан по месту жительства и месту пребывания, ДТП, результатах технического осмотра автомобилей (пробег), выдаче, замене и проверке действительности общегражданского и заграничного паспортов, а также другие сведения и данные.

Читать полностью »

Единая нейросетевая модель кредитного скоринга

2023-07-19 в 8:36, admin, рубрики: big data, искусственный интеллект, кредитная история, кредитный скоринг, машинное обучение, нейронные сети, транзакции

Кредитный скоринг - известная и давно решаемая банковская задача, суть которой заключается в оценке рисков банка при выдаче кредита. Для формализации риска в банке используется понятие дефолта.

Существуют разные определения дефолта. Самое распространенное, которое используем и мы — по просрочке на K дней в пределах N месяцев.

Подобное определение дефолта также приводится в соревновании от American Express Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «big data» - 3

Как предсказать будущее с помощью ML?

Как LLM меняют архитектуру систем: от простых дата-пайплайнов к интеллектуальным автономным агентам

Повышение производительности складской комплектации: как без трудоёмкого хронометража найти потенциал ускорения

Элегантная математика фильтров Блума

Как мы отбираем и обучаем разметчиков: от первых шагов до реальных проектов

5 лучших инструментов для разметки данных в 2024 году

Бутстрап в PySpark

MLOps от Gucci и оценка уровня Data Driven’ности в компании

На Госуслугах создадут мега-базу данных на граждан, заполняемую автоматически

Единая нейросетевая модель кредитного скоринга