В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах.
Рубрика «big data»
Как мы отбираем и обучаем разметчиков: от первых шагов до реальных проектов
2024-10-25 в 9:02, admin, рубрики: artificial intelligence, big data, data annotation, project management, аннотация, разметка данных, разметка датасета5 лучших инструментов для разметки данных в 2024 году
2024-10-15 в 10:02, admin, рубрики: big data, data annotation, data mining, искусственный интеллект, разметка данныхРазметка данных играет ключевую роль в развитии совершенно разных технологий: от автопилотов и голосовых помощников до агро- и тяжелой промышленности. Но процесс разметки может быть трудоёмким и занимать много времени. Чтобы упростить эту задачу, важно выбрать инструменты, которые подходят для вашей задачи и могут сделать работу быстрее и удобнее.
В этом руководстве мы разберем самые популярные решения для разметки данных и разберём, какой стоит выбрать именно вам.
CVAT
Бутстрап в PySpark
2024-10-09 в 9:49, admin, рубрики: big data, Bootstrap, data engineering, pyspark, python, spark, АБ-тесты, бутстрап, Статистика в ITВсем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”.
В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя.
Небольшой сэмпл данных и тетрадки с примерами запусков описанных ниже вариантов реализации можно увидеть в Читать полностью »
MLOps от Gucci и оценка уровня Data Driven’ности в компании
2023-08-24 в 11:07, admin, рубрики: AI, big data, ml, mlops, selectel, кейсы, полезные ссылки
Привет! MLOps пробрался даже в fashion-индустрию. И не говорите после этого, что работа с большими данными и ML — это немодно! В новом выпуске дайджеста — вновь «золотые» статьи по ML, AI и дата-аналитике. По классике начинаем с объемных образовательных статьей, а заканчиваем новинками «железа» от Nvidia и результатами отчетов по рынку (есть и на русском языке!). Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».
Читать полностью »
На Госуслугах создадут мега-базу данных на граждан, заполняемую автоматически
2023-08-04 в 16:06, admin, рубрики: big data, Госвеб, госуслуги, Текучка, метки: big data, Госвеб, госуслуги, ТекучкаВ распоряжении Forbes оказался план-график создания витрин данных национальной системы управления данными (НСУД). В нем указано, какие данные различные ведомства будут передавать в том числе порталу «Госуслуг». Согласно документу, со II квартала 2023 года МВД, в частности, передает «Госуслугам» информацию о регистрации граждан по месту жительства и месту пребывания, ДТП, результатах технического осмотра автомобилей (пробег), выдаче, замене и проверке действительности общегражданского и заграничного паспортов, а также другие сведения и данные.
Единая нейросетевая модель кредитного скоринга
2023-07-19 в 8:36, admin, рубрики: big data, искусственный интеллект, кредитная история, кредитный скоринг, машинное обучение, нейронные сети, транзакцииКредитный скоринг - известная и давно решаемая банковская задача, суть которой заключается в оценке рисков банка при выдаче кредита. Для формализации риска в банке используется понятие дефолта.
Существуют разные определения дефолта. Самое распространенное, которое используем и мы — по просрочке на K дней в пределах N месяцев.
Подобное определение дефолта также приводится в соревновании от American ExpressЧитать полностью »
Доброго времени суток habr, на связи Николай Иванов, студент-магистр 1 курса Сколтеха факультета Data Science. С почином, так как это моя первая, и, надеюсь, не последняя статья на habr. С того момента как я познакомился с областью Deep Learning прошло уже около двух лет. С самого начала мне была интересна область обработки естественного языка (Natural Laguage Processing, NLP), о некоторых задачах которой и результатах я попробую рассказать в этой статье. В мае 2023 года начался мой путь в Sber AI Lab Читать полностью »
ClickHouse: полезные лайфхаки
2023-06-25 в 15:57, admin, рубрики: analytics, big data, BigData, clickhouse, data engineering, open source, opensourse, sqlЯ начала пользоваться ClickHouse до того, как это стало мэйнстримом: первый раз я столкнулась c этой базой данных лет 8 назад. C тех пор я уверена, что это лучшая DB для аналитики. Большинство аналитиков, которых я знаю, в восторге от ClickHouse (иногда чтобы проникнуться, требуется немного времени: разобраться и привыкнуть к синтаксису). Однако, я не могу не отметить, что администрирование ClickHouse имеет свои нюансы и подводные камни, но это уже совсем другая история.
В этой статье я расскажу что такое ClickHouse и почему я считаю его идеально подходящим мощным инструментом для аналитики. А также поделюсь tips & tricks из моего опыта. Поехали.
Анализировать данные — это как варить пиво. Почему дата-анализ и пивоварение — одно и то же с техноизнанки
2023-06-23 в 7:53, admin, рубрики: big data, data engineering, data mining, анализ данных, Блог компании IT-guide, пивоварениеТри года я был эстонским пивоваром: придумывал рецепты и сам варил. Когда начал изучать Python, SQL и анализ данных, понял, что между подготовкой данных и подготовкой сусла много общего: оказывается, в цеху я занимался DS, но не подозревал об этом. Меня зовут Алексей Гаврилов, я сеньор дата-аналитик в ретейле. В этой статье расскажу, чем пивоварение и аналитика данных похожи изнутри.
Разработчики — налево, методологи — направо: четыре шага к оптимизации работы BI-аналитиков
2023-06-01 в 12:03, admin, рубрики: bi-аналитика, big data, sql, Анализ и проектирование систем, бизнес-процессы, Блог компании Selectel, визуализация данных, оптимизация, ревью, улучшениеПривет! Меня зовут Наташа Базанова, я старший аналитик Selectel. В компании я работаю три года: за это время команда аналитиков сильно расширилась, число задач и их амбициозность выросли. Как и любая другая команда, мы столкнулись с проблемами, связанными с несовершенством бизнес-процессов.
В этом тексте расскажу, что мы предприняли, чтобы работать эффективнее и слаженнее. Спойлер: для этого нам пришлось разделиться на две команды, но это тот случай, когда расставание пошло на пользу. Надеюсь, кому-то наш опыт и рекомендации пойдут на пользу — сэкономят время, деньги и нервы. А если вы проходили подобный путь, делитесь своей историей в комментариях!
Читать полностью »