Пропущенные значения в данных — обычное в реальных задачах явление. Нужно знать, как эффективно работать с ними, если цель — уменьшить погрешность и построить точную модель. Давайте рассмотрим разные варианты обработки пропущенных значений и их реализацию.
Читать полностью »
Рубрика «data science» - 38
R: обработка пропущенных значений
2016-05-15 в 15:23, admin, рубрики: data analysis, data mining, data science, R, Блог компании Инфопульс УкраинаКак я писал книгу ‘Python Machine Learning’
2016-04-21 в 14:56, admin, рубрики: data science, machine learning, python, scikit-learn, Блог компании Издательский дом «Питер», книги, машинное обучение, Программирование, Профессиональная литератураЗдравствуйте, уважаемыее!
В настоящее время мы всерьез намерены в обозримом будущем порадовать вас серьезной книгой по машинному или глубинному обучению. Среди книг, вызвавших у нас наибольший интерес, особого упоминания заслуживает работа Себастьяна Рашки "Python Machine Learning"
Предлагаем почитать, что сам автор рассказывает об этой книге. Мы позволили себе сократить статью практически вдвое, так как вся ее вторая часть посвящена тонкостям писательского труда и оформления книги, а тематические тонкости и актуальность темы рассмотрены в самом начале. Надеемся, что вам понравится текст, а нам — результаты опроса.
Читать полностью »
Microsoft DevCon 2016 — компьютерное зрение, SQL Server 2016, Data Science и не только
2016-03-28 в 8:28, admin, рубрики: azure, data science, devcon, DevCon 2016, Microsoft Azure, Microsoft SQL Server, open source, sql, sql server 2016, windows, Блог компании Microsoft, разработка под windows, метки: devcon 2016
Друзья, с удовольствием делюсь с вами анонсами сразу нескольких мастер-классов, которые ожидают участников в первый день конференции DevCon 2016!
Новый формат конференции предлагает вам окунуться не просто в атмосферу технологий Microsoft, а с помощью наших экспертов затронуть самые актуальные темы разработки под Windows, использования сервисов Azure, особенностей нового выпуска SQL Server 2016 и аналитики данных.
Мы рады представить вам темы мастер-классов и познакомить с экспертами:
Читать полностью »
Fbi Detected: Как я обнаружил агентов ФБР
2016-03-24 в 9:01, admin, рубрики: big data, data mining, data science, python, информационная безопасность, обработка данных, слив данных, сноуден, ФБР, черная археологияВ новом выпуске «Черной археологии датамайнинга» мы немного поиграемся в шпионов. Увидим, что может узнать обычный Data Specialist на основе открытых в сети данных.
Всё началось со статьи на хабре, о том, что некий анинимный хакер делился слитыми в сеть данными агентов ФБР. Я получил эти данные, и стал смотреть, что с ними можно сделать? В данных есть только фамилия, имя, и служебные мейлы и телефон – немного информации.
Получив эти данные, я увидел, что они заканчиваются буквой J. То есть, датасет не полон. Интресено, каков его полный размер? Чтобы узнать его, надо построить статистику частоты встречаемости фамилий.
Для этого я начал искать наборы американских фамилий, и тут меня ждало открытие – в Америке можно найти открытые данные по, скажем, избирателям штата – как я понял, совершенно легально. Например, я за полчаса без проблем получаю данные всех избирателей штата Юта.
Главное из интервью издателя BuzzFeed Дао Нгуйен: Как аналитика меняет работу редакции
2016-03-17 в 12:18, admin, рубрики: buzzfeed, data science, анализ данных, Блог компании Surfingbird, интервью, исследования аудитории, Исследования и прогнозы в IT, контент-маркетинг, Медиа, медийная реклама, СМИ, трафик, увеличение конверсии, увеличение трафика
BuzzFeed специализируется на виральном контенте и при подготовке своих публикаций активно использует анализ данных. Этим в компании занимается специальный отдел, которым руководит 41-летняя Дао Нгуйен. Ее должность в Buzzfeed официально звучит, как «издатель» (publisher), но в прессе ее уже прозвали «царицей данных».
Дао Нгуйен не отвечает за распространение и продажи. Она руководит в Buzzfeed всеми работниками, которые не связаны напрямую с подготовкой контента и рекламы. Речь идет о технической части, работе с данными и всем, что так или иначе связано с издательской платформой. А это, ни много ни мало – более 100 человек, что составляет около шестой части всего коллектива Buzzfeed.
Благодаря работе аналитического отдела трафик Buzzfeed увеличился в 5 раз.
Об особенностях своей работы издатель Buzzfeed рассказала в интервью FastCompany. Мы перевели самые интересные моменты.
Читать полностью »
Уроки участия в хакатоне «Dota Science» в рамках «Data Fest 2»
2016-03-08 в 16:52, admin, рубрики: big data, data science, Dota2, mail.ru, машинное обучение, хакатон, Хакатоны, метки: dota26 дней назад около полуночи мы, команда «EC.Dota2» из четырех человек, начали работать над онлайн частью хакатона «Dota Science». Никто из нас ничего не знал об игре Dota2.
Сначала, хронологически, о первой, «онлайн» части. Есть сетка игр мирового финала «The Shanghai Major 2016». Нужно до матча предсказать его исход. Как показало время (но не описание конкурса), предсказывать нужно было матчи за 3, 4, 5 марта. Для обучения были даны исторические данные о матчах в Dota2 по разным прошлым турнирам с агрегированной информацией о каждом матче. Со среды пришлось начать недосыпать, т.к. все днем работают. Для онлайн этапа были разработаны две модели.
В качестве показателя качества прогноза использовалась следующая метрика: score=log2(p_winner)+1, где p_winner — предсказанная до начала матча вероятность победы команды, которая в результате победила.
Тут стоит сказать несколько слов о целях хакатона. Цель формальная — получить самую высокую относительно других оценку качества прогнозов. Цель, соответствующая смыслу Data Fest — построить самую лучшую, относительно других, модель для прогнозирования исхода матча методами машинного обучения.
Один выступающий в последний день Data Fest 2 (Nuker?) верно заметил, что «задачу машинного обучения всегда можно решить и без машинного обучения» (своими собственными нейронными сетями в голове). Кто использовал модели, кто использовал экспертный опыт, кто просто случайно играл? Неизвестно.
Финальная оценка первого этапа – среднее всех значений метрики качества для предсказанных вероятностей. Как показывает турнирная таблица первого этапа Хакатона, количество предсказаний на «команду» разнилось в 10-20 раз. Читать полностью »
Приглашаем на Data Fest 5 и 6 марта
2016-02-25 в 15:59, admin, рубрики: data fest, data mining, data science, kaggle, mail.ru, Алгоритмы, анализ данных, Блог компании Mail.Ru Group, конференция, машинное обучение
5 и 6 марта в московском офисе компании Mail.Ru Group состоится Data Fest2 — двухдневная серия митапов российских Data Science-сообществ Moscow Data Fest и Moscow Data Science. Data Fest2 — это конференция, на которой участникам представится возможность познакомиться с разными направлениями в современном анализе данных: от сугубо практических вопросов внедрения результатов исследований до самых последних теоретических разработок в анализе текстов и глубоком обучении.
В рамках конференции также пройдут два мероприятия, где все участники смогут проявить себя: хакатон для желающих посоревноваться друг с другом в предсказании исхода турнира по Dota 2 и питч-постер сессия для исследователей, где можно будет представить результаты своих исследований и разработок.
Читать полностью »
Глубокое обучение в гараже — Возвращение смайлов
2016-02-17 в 14:23, admin, рубрики: big data, data analysis, data mining, data science, deep learning, python, обработка изображений, Программирование
Это третья статья из серии про определение смайла по выражению лица.
Глубокое обучение в гараже — Братство данных
Глубокое обучение в гараже — Две сети
Глубокое обучение в гараже — Возвращение смайлов
Так что же со смайлами?
Фух, ну наконец, детекция лиц работает, можно учить сеть распознавания смайла. Только вот на чем учить? Открытых наборов данных нет. А из того, как долго в предыдущей части я добирался до, собственно, обучения моделей вы уже должны были понять, что в глубоком обучении данные решают все. И их нужно много.
Читать полностью »
Глубокое обучение в гараже — Две сети
2016-02-16 в 13:03, admin, рубрики: data analysis, data mining, data science, deep learning, neural networks, python, Алгоритмы, обработка изображений, Программирование
Это вторая статья из серии про определение смайла по выражению лица.
Глубокое обучение в гараже — Братство данных
Глубокое обучение в гараже — Две сети
Калибрация
Итак, с классификатором, разобрались, но вы наверняка уже заметили, что заоблачные 99% как-то не очень впечатляюще выглядят во время боевого теста на детекцию. Вот и я заметил. Дополнительно видно, что в последних двух примерах очень мелкий шаг движения окон, так в жизни работать не будет. В настоящем, реальном запуске шаг ожидается больше похожим на картинку для первой сети, а там хорошо видно неприятный факт: как бы хорошо сеть не искала лица, окна будут плохо выровнены к лицам. И уменьшение шага — явно не подходящее решение этой проблемы для продакшена.
Читать полностью »
Глубокое обучение в гараже — Братство данных
2016-02-15 в 10:54, admin, рубрики: big data, data analysis, data mining, data science, deep learning, gpgpu, python, Программирование
Вы тоже находите смайлы презабавнейшим феноменом?
В доисторические времена, когда я еще был школьником и только начинал постигать прелести интернета, с первых же добавленных в ICQ контактов смайлы ежедневно меня веселили: ну действительно, представьте, что ваш собеседник корчит рожу, которую шлет вам смайлом!
С тех пор утекло много воды, а я так и не повзрослел: все продолжаю иногда улыбаться присланным мне смайлам, представляя отправителя с глазами разного размера или дурацкой улыбкой на все лицо. Но не все так плохо, ведь с другой стороны я стал разработчиком и специалистом в анализе данных и машинном обучении! И вот, в прошлом году, мое внимание привлекла относительно новая, но интересная и будоражащая воображение технология глубокого обучения. Сотни умнейших ученых и крутейших инженеров планеты годами работали над его проблемами, и вот, наконец, обучать глубокие нейронные сети стало не сложнее "классических" методов, вроде обычных регрессий и деревянных ансамблей. И тут я вспомнил про смайлы!
Представьте, что чтобы отправить смайл, вы и вправду могли бы скорчить рожу, как бы было круто? Это отличное упражнение по глубокому обучению, решил я, и взялся за работу.
Читать полностью »