1-го апреля завершился финал SNA Hackathon 2019, участники которого соревновались в сортировке ленты социальной сети с использованием современных технологий машинного обучения, компьютерного зрения, обработки тестов и рекомендательных систем. Жесткий онлайн отбор и двое суток напряженной работы над 160 гигабайтами данных не прошли даром :). Рассказываем о том, что помогло участникам прийти к успеху и о других интересных наблюдениях.
Рубрика «machine learning» - 21
SNA Hackathon 2019 — итоги
2019-04-17 в 8:16, admin, рубрики: big data, data mining, kaggle, machine learning, snahackathon, Блог компании Одноклассники, машинное обучениеОсновы Natural Language Processing для текста
2019-04-15 в 5:54, admin, рубрики: machine learning, nlp (natural language processing), python, Блог компании Voximplant, машинное обучение, обработка естественного языка, Программирование, распознавание текстаОбработка естественного языка сейчас не используются разве что в совсем консервативных отраслях. В большинстве технологических решений распознавание и обработка «человеческих» языков давно внедрена: именно поэтому обычный IVR с жестко заданными опциями ответов постепенно уходит в прошлое, чатботы начинают все адекватнее общаться без участия живого оператора, фильтры в почте работают на ура и т.д. Как же происходит распознавание записанной речи, то есть текста? А вернее будет спросить, что лежит в основе соврменных техник распознавания и обработки? На это хорошо отвечает наш сегодняшний адаптированный перевод – под катом вас ждет лонгрид, который закроет пробелы по основам NLP. Приятного чтения!

Детектирование поваленного леса на основе аэрофотосъёмки
2019-04-10 в 15:46, admin, рубрики: machine learning, python, машинное обучениеАнализ / обзор
- Первостепенная задача – выявление местоположения и характера завалов для поисково-спасательных отрядов. Независимо от постановки задач, необходимо планировать и отслеживать маршруты движения отряда в лесу. Неправильно направленный отряд может потеряться в буреломе от нескольких часов, до нескольких недель, вплоть до летального исхода. Завалы могут образоваться в любое время года, по самым разным причинам. Их нельзя отмечать на топографических картах, которые чертят раз в несколько десятков лет, как раз из-за их непостоянности. Завалы – временное, и неожиданно наступающее явление.
- Читать полностью »
Для чего и как мы скрываем госномера автомобилей в объявлениях Авито
2019-04-09 в 10:17, admin, рубрики: computer vision, development, machine learning, object detection, production, python, Алгоритмы, машинное обучение, ПрограммированиеПривет. В конце прошлого года мы стали автоматически скрывать номера автомобилей на фотографиях в карточках объявлений на Авито. О том, зачем мы это сделали, и какие есть способы решения таких задач, читайте в статье.
Обман нейронной сети для начинающих
2019-03-28 в 6:01, admin, рубрики: adversarial attacks, digital security, machine learning, python, Блог компании «Digital Security», информационная безопасность, машинное обучениеВ рамках ежегодного контеста ZeroNights HackQuest 2018 участникам предлагалось попробовать силы в целом ряде нетривиальных заданий и конкурсов. Часть одного из них была связана с генерированием adversarial-примера для нейронной сети. В наших статьях мы уже уделяли внимание методам атаки и защиты алгоритмов машинного обучения. В рамках же этой публикации мы разберем пример того, как можно было решить задание с ZeroNights Hackquest при помощи библиотеки foolbox.
SNA Hackathon 2019: усложняем архитектуру — упрощаем признаки
2019-03-26 в 13:30, admin, рубрики: machine learning, Алгоритмы, Блог компании Mail.Ru Group, машинное обучениеВ этой статье я расскажу про свое решение текстовой части задачи SNA Hackathon 2019. Какие-то из предложенных идей будут полезны участникам очной части хакатона, которая пройдет в московском офисе Mail.ru Group с 30 марта по 1 апреля. Кроме того, этот рассказ может быть интересен и читателям, решающим практические задачи машинного обучения. Так как я не могу претендовать на призы (я работаю в Одноклассниках), я постарался предложить наиболее простое, но при этом эффективное и интересное решение.
Читая про новые модели машинного обучения, я хочу понять, как рассуждал автор, работая над задачей. Поэтому в этой статье я попробую подробно обосновать все компоненты своего решения. В первой части я расскажу про постановку задачи и ограничения. Во второй — про эволюцию модели. Третья часть посвящена результатам и анализу модели. Наконец, в комментариях я постараюсь ответить на любые возникшие вопросы. Нетерпеливые читатели могут сразу посмотреть на финальную архитектуру.
Читать полностью »
Big data, deus ex machina
2019-03-18 в 9:00, admin, рубрики: big data, BigData, data mining, Hadoop, machine learning, Блог компании Mail.Ru Group, машинное обучение«Данные — это новая нефть». Эту фразу на выступлении для PopTech произнёс несколько лет назад Джер Торп (Jer Thorp), художник и эксперт в вопросах анализа и визуализации данных, один из основателей «Бюро креативных исследований». Сегодня мы хотим поговорить не просто о данных, а о больших данных. Разбираемся, какие данные big, а какие нет, как они работают и как на этом зарабатывает бизнес.
Говорит и показывает: отличается ли риторика популярных украинских политиков?
2019-03-11 в 12:29, admin, рубрики: machine learning, natural language processing, open data, python, sklearn, машинное обучение, открытые данныеМожно ли по цитате определить, кто из политиков ее автор? Украинская НКО Vox Ukraine делает проект VoxCheck, в рамках которого проверяет высказывания наиболее рейтинговых политиков. Недавно они выложили всю базу проверенных цитат. Я как раз слушаю курсы по NLP и решила проверить, насколько точно по тексту цитаты можно определить ее автора.
Disclaimer. Эта статья написана из интереса к теме и желания опробовать изученный материал на практике, без претензий на максимально точный и детальный анализ.
Читать полностью »
Deep Learning — не только котики на мобилках или как мы производим дефектовку тележек локомотивов
2019-03-11 в 11:02, admin, рубрики: machine learning, python, Алгоритмы, Блог компании Open Data Science, машинное обучение, обработка изображенийБуквально пару дней назад компания Aurorai передала в опытную эксплуатация систему распознавания дефектов и контроля состояния тележек для локомотивов Ермак. Задача нетривиальная и очень интересная, первым этапом которой было предложено оценить состояние тормозных колодок и ширины бандажа. Нам удалось решить задачу с точность до 1мм при скорости локоматива до 30 км/ч! Хочу отметить, что благодаря специфики можно было использовать “TTA (test-time augmentation)” – яркий пример kaggle-style хака из соревнований, который плохо ложится на прод и семантическую сегментацию на базе se_resnext50 encoder, которая даёт поразительный по точности результат в предсказании маски.
Читать полностью »
Руководство по развертыванию моделей машинного обучения в рабочей среде в качестве API с помощью Flask
2019-03-07 в 9:55, admin, рубрики: data science, machine learning, python, Блог компании Отус, машинное обучениеДрузья, в конце марта мы запускаем новый поток по курсу «Data Scientist». И прямо сейчас начинаем делиться с вами полезным материалом по курсу.
Введение
Вспоминая ранний опыт своего увлечения машинным обучением (ML) могу сказать, что много усилий уходило на построение действительно хорошей модели. Я советовался с экспертами в этой области, чтобы понять, как улучшить свою модель, думал о необходимых функциях, пытался убедиться, что все предлагаемые ими советы учтены. Но все же я столкнулся с проблемой.
Как же внедрить модель в реальный проект? Идей на этот счет у меня не было. Вся литература, которую я изучал до этого момента, фокусировалась только на улучшении моделей. Я не видел следующего шага в их развитии.
Именно поэтому я сейчас пишу это руководство. Мне хочется, чтобы вы столкнулись с той проблемой, с которой столкнулся я в свое время, но смогли достаточно быстро ее решить. К концу этой статьи я покажу вам как реализовать модель машинного обучения используя фреймворк Flask на Python.Читать полностью »