Всем привет. В этой статье я расскажу о нашем опыте участия в соревновании по анализу данных Data Mining Cup 2019 (DMC) и о том, как нам удалось войти в ТОП-10 команд и принять участие в очном финале чемпионата в Берлине.
Рубрика «data mining» - 18
Как студенты из Перми попали в финал международного чемпионата по анализу данных Data Mining Cup 2019
2019-07-09 в 12:34, admin, рубрики: big data, data analysis, data mining, Data Mining Cup, data science, kaggle, machine learning, python, анализ данных, визуализация данных, машинное обучение, Соревнования по машинному обучениюОрганизуем ML-проект с помощью Ocean
2019-07-09 в 12:08, admin, рубрики: data mining, ml, SURF, surfstudio, Блог компании Surf, машинное обучение
Вступление
За годы разработки ML- и DL-проектов у нашей студии накопились и большая кодовая база, и много опыта, и интересные инсайты и выводы. При старте нового проекта эти полезные знания помогают увереннее начать исследование, переиспользовать полезные методы и получить первые результаты быстрее.
Очень важно, чтобы все эти материалы были не только в головах разработчиков, но и в читаемом виде на диске. Это позволит эффективнее обучить новых сотрудников, ввести их в курс дела и погрузить в проект.
Конечно, так было не всегда. Мы столкнулись с множеством проблем на первых этапах
- Каждый проект был организован по-разному, особенно если их инициировали разные люди.
- Недостаточно отслеживали, что делает код, как его запустить и кто его автор.
- Не использовали виртуализацию в должной степени, зачастую мешая своим коллегам установкой существующих библиотек другой версии.
- Забывались выводы, сделанные по графикам, которые осели и умерли в горé jupyter-тетрадок.
- Теряли отчеты по результатам и прогрессу в проекте.
Для того, чтобы эти проблемы решить раз и навсегда, мы решили, что нужно работать как над единой и правильной организаций проекта, так и над виртуализацией, абстракцией отдельных компонентов и переиспользуемостью полезного кода. Постепенно весь наш прогресс в этой области перерос в самостоятельный фреймворк — Ocean.
Вишенка на торте — логи проекта, которые агрегируются и превращаются в красивый сайт, автоматически собранный с помощью выполнения одной команды.
В статье мы расскажем на маленьком искусственном примере, из каких частей состоит Ocean и как его использовать.
Машинное обучение vs. аналитический подход
2019-07-08 в 12:32, admin, рубрики: big data, data mining, kaggle, sna, Алгоритмы, алгоритмы обработки данных, анализ данных, анализ социальных сетей, Блог компании Школа Данных, искусственный интеллект, математика, машинное обучение, нейронные сети, нейросети, рекомендательные системы, Чат-боты, школа данных
Какое-то время назад мы нашли свои старые материалы, по которым обучали первые потоки на наших курсах машинного обучения в Школе Данных и сравнили их с теперешними. Мы удивились, сколько всего мы добавили и поменяли за 5 лет обучения. Осознав, почему мы это сделали и как, на самом деле, поменялся подход к решению задач Data Science, мы решили написать вот эту публикацию.Читать полностью »
Сэмплирование и точность вычислений
2019-07-07 в 7:17, admin, рубрики: data mining, аналитика данных, Аналитика мобильных приложений, биноминальное распределение, бутстреппинг, доверительный интервал, конверсия, сэмплирование, точность, Управление продуктомРяд моих коллег сталкиваются с проблемой, что для расчета какой-то метрики, например, коэффициента конверсии, приходится кверить всю базу данных. Или нужно провести детальное исследование по каждому клиенту, где клиентов миллионы. Такого рода квери могут работать довольно долго, даже в специально сделанных для этого хранилищах. Не очень-то прикольно ждать по 5-15-40 минут, пока считается простая метрика, чтобы выяснить, что тебе нужно посчитать что-то другое или добавить что-то еще.
Одним из решений этой проблемы является сэмплирование: мы не пытаемся вычислить нашу метрику на всем массиве данных, а берем подмножество, которое репрезентативно представляет нам нужные метрики. Это сэмпл может быть в 1000 раз меньше нашего массива данных, но при этом достаточно хорошо показывать нужные нам цифры.
В этой статье я решил продемонстрировать, как размеры выборки сэмплирования влияют на ошибку конечной метрики.
Дайджест статей машинного обучения и искусственного интеллекта
2019-07-04 в 13:05, admin, рубрики: big data, data mining, гайды, искусственный интеллект, машинное обучение, Программирование, статьиХабр, привет.
Отфильтровав большое количество статей, конференций и подписок — собрал для вас все наиболее значимые гайды, статьи и лайфхаки из мира машинного обучения и искусственного интеллекта. Всем приятного чтения!
1. Проекты искусственного интеллекта, с которыми можно поиграться уже сегодня. Что вы знаете про искусственный интеллект и машинное обучение? Современный тренд или потенциально мощная сила, способная убивать людей? Эти модные понятия всё чаще на слуху, но далеко не все знают, что же это на самом деле. Пришло время изучить эти технологии с помощью простого и интересного подхода — попробовать искусственный интеллект и нейросети самостоятельно на практике.
2. Изучение ИИ, если ты ничего не понимаешь в математике. Может быть, вы хотели бы копать глубже и запустить программу распознавания изображений в TensorFlow или Theano? Возможно, вы офигительный разработчик или системный архитектор и вы очень хорошо знаете компьютеры, но есть только одна маленькая проблема: Вы не понимаете в математике.
3. Как построить систему модерации сообщений. Системы автоматической модерации обычно встроены в веб-сервисы и приложения, где должно обрабатываться большое количество пользовательских сообщений. Такие системы могут снизить затраты на ручную модерацию и ускорить модерацию, обрабатывая все пользовательские сообщения в режиме реального времени. В этой статье будет обсуждаться разработка системы автоматической модерации с использованием алгоритмов машинного обучения.
Дайджест новостей машинного обучения и искусственного интеллекта за июнь
2019-07-02 в 17:20, admin, рубрики: big data, data mining, будущее, дайджест, данные, искусственный интеллект, машинное обучение, ПрограммированиеХабр, привет.
Отфильтровав большое количество источников и подписок — собрал для вас все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за июнь. Всем приятного чтения!
1. Команда исследователей из Карнеги-Меллона сделала прорыв в области неинвазивного управления роботизированными устройствами.
Используя неинвазивный интерфейс мозг-компьютер, они разработали первую в мире успешную роботизированную руку, которая управляется с помощью мыслей и без хирургического (!) вмешательства. Технология продемонстрировала способность непрерывно отслеживать и следовать за курсором компьютера.
2. Facebook AI опубликовали работу, в которой проверяли нейросети на способность следовать принципу взаимной исключительности при принятии решений. И выяснили, чем отличается процесс принятия решений у нейросети и ребенка.
3. Waymo публикует данные для обучения автопилотных автомобилей. Данные включают в себя 3,000 видеозаписей вождения, которые в сумме длятся 16.7 часов, 600,000 фреймов, около 25 миллионов 3D границ объектов и 22 миллионов 2D границ объектов. Сенсоры на автомобилях, которые собирали данные, включали в себя 5 LiDARs, 5 камер и радары, количество которых не разглашается. Компания заявила, что им удалось точнее синхронизировать LiDAR и записи камер, чем в открытых данных (KITTI, NuScenes).
Яндекс открывает датасеты Толоки для исследователей
2019-07-01 в 10:03, admin, рубрики: data mining, Блог компании Яндекс, исследования, Исследования и прогнозы в IT, краудсорсинг, открытые данные, толока, яндексТолока — крупнейший источник размеченных людьми данных для задач машинного обучения. Каждый день в Толоке десятки тысяч исполнителей производят более 5 миллионов оценок. Для любых исследований и экспериментов, связанных с машинным обучением, необходимы большие объёмы качественных данных. Поэтому мы начинаем публиковать открытые датасеты для академических исследований в разных предметных областях.
Сегодня мы поделимся ссылками на первые публичные датасеты и расскажем о том, как они собирались. А ещё подскажем, где же правильно ставить ударение в названии нашей платформы.
Создаём нейронную сеть, предсказывающую рак груди за пять минут
2019-06-30 в 13:08, admin, рубрики: big data, data mining, python, диагностика, искусственный интеллект, лайфхак, нейронная сеть, Программирование, рак грудиПривет.
Создать такую нейронную сеть — просто.
Минута первая: введение
Этот высокоуровневый урок рассчитан на новичков в машинном обучении и искусственном интеллекте. Для того, чтобы успешно создать нейронную сеть, необходимо:
- Установленный Python;
- Как минимум начальный уровень программирования;
- Пять минут свободного времени.
Мы пропустим много деталей работы нейронной сети, не будем углубляться в теоретическую часть, а сфокусируемся на предсказании рака за 5 минут.
Для построения предсказаний будем использовать имплементацию нейронной сети из библиотеки scikit-learn
. Сами же предсказания будут основаны на данных из датасета Калифорнийского университета в Ирвайн “Breast Cancer Wisconsin” (рак груди, Висконсин). На вход нейронной сети подаются свойства клеточных ядер новообразования (например, строение), а на выходе мы получаем предсказание: злокачественное или доброкачественное новообразование.Читать полностью »
Глубокое ранжирование для сравнения двух изображений
2019-06-27 в 12:30, admin, рубрики: big data, data mining, глубокое машинное обучение, глубокое обучение, свёрточная нейросеть, сверточные нейронные сетиПривет! Представляю вашему вниманию перевод статьи «Image Similarity using Deep Ranking» автора Akarsh Zingade.
Алгоритм Deep Ranking
Понятия "сходства двух изображений" — введено не было, поэтому давайте введем данное понятие хотя бы в рамках статьи.
Сходство двух изображений — это результат сравнения двух изображений по определенным критериям. Его количественная мера определяет степень сходства между диаграммами интенсивности двух изображений. С помощью меры сходства сравниваются какие-то признаки, описывающие изображения. В качестве меры сходства обычно применяется: расстояние Хемминга, евклидово расстояние, расстояние Манхэттена и т. д.
Читать полностью »
Как настроить веб-аналитику на AMP страницах
2019-06-26 в 17:00, admin, рубрики: amp, data mining, gtm, wrike, wriketechclub, аналитика, Блог компании Wrike, веб-аналитика, медийная реклама, Разработка веб-сайтовПривет. Я data-аналитик отдела маркетинга Wrike: занимаюсь сбором и анализом всех рекламных данных, моделированием LTV и другими техническими задачами, помогающими команде делать самую эффективную рекламу во всех источниках. Недавно я столкнулся с проблемой настройки сбора данных на AMP-страницах и обнаружил совсем мало информации по теме, поэтому решил рассказать вам, как справиться с этой задачей.