В настоящий момент уже можно считать, что страсти по Big Data и Data Science немного утихли, а ожидание чуда, как обычно, было сильно скорректировано реальностью физического мира. Самое время заняться конструктивной деятельностью. Поиск тем на Хабре по различным ключевым словам выдал крайне скудный набор статей, поэтому я решил поделиться тем опытом, который был накоплен в части практического применения инструментов и подходов Data Science для решения повседневных задач в компании.
Читать полностью »
Рубрика «data science» - 36
Инструменты Data Science как альтернатива классической интеграции
2016-09-05 в 15:04, admin, рубрики: big data, data mining, data science, RВизуализация фото-портфолио. Часть 1: Нестандартное применение deep learning
2016-09-03 в 13:23, admin, рубрики: data mining, data science, deep learning, dimensionality reduction, inceptionV3, keras, sklearn, t-sne, truncatedSVD, визуализация данных, машинное обучение
Визуализация портфолио (на данном рисунке, чем краснее область, тем больше фото в этой области, имеющих нулевое количество скачиваний)
Коротко о задаче: есть фото-портфолио с большим количеством фото, хотим узнать список популярных и не популярных тем.
Читать полностью »
«Мои друзья потеряли меня из виду на 3 месяца» или как люди учатся у нас big data
2016-08-24 в 13:11, admin, рубрики: big data, data mining, data science, Блог компании New Professions Lab, машинное обучениеВсем привет! 5 октября в New Professions Lab стартует пятый набор программы «Специалист по большим данным», которую на данный момент закончило более 200 человек. Мы уже рассказывали на Хабре (здесь и здесь), чему конкретно мы учим, с какими знаниями и навыками выходят наши выпускники, и совсем скоро напишем, что нового будет в пятой программе. А сегодня хотим поделиться рассказами и отзывами тех, кто уже прошел обучение и на себе испытал все тяготы и невзгоды.
Кто виноват, и что делать, если айтишник скучает на работе. Результаты опроса
2016-08-16 в 12:01, admin, рубрики: big data, data science, Блог компании New Professions Lab, Исследования и прогнозы в IT, опрос, профессиональный рост, Учебный процесс в ITНедавно мы провели опрос среди айтишников, чтобы узнать, скучают ли они на работе, и почему это происходит. Как мы и думали, большинство специалистов время от времени не знают, чем себя занять, и при этом задумываются, как можно этого избежать. Многие готовы оставаться на нынешнем месте работы, причем более 80% не хотят становиться начальниками, а хотят развиваться профессионально. Из них почти 10% видят себя в области Big Data и Data Science.
Всего на наши вопросы ответили 1898 человек. Данные можно посмотреть здесь и здесь.
Летняя практика: Топ-10 курсов Microsoft Virtual Academy
2016-07-26 в 7:14, admin, рубрики: azure, C#, data science, docker, hyper-v, IT Pro, linq, linux, machine learning, microsoft, microsoft virtual academy, mva, powershell, system center, windows, Блог компании Microsoft, курсы, машинное обучение, онлайн-курсы, разработка, Разработка веб-сайтов, разработка мобильных приложений, разработка под windows, системное администрированиеДвигаемся дальше и продолжаем прокачивать скиллы в виртуальной академии Microsoft MVA. В прошлой подборке были самые интересные курсы для новичков, сегодня вы узнаете популярные курсы для подготовленных специалистов: Windows 10 в корпоративной сети, JSON и C#, использование Docker-контейнеров в облаке Microsoft Azure, обеспечение катастрофоустойчивости в приложениях, виртуализация серверов Windows Server Hyper-V и System Center, импортирование локальной системы Linux в облако, написание скриптов в PowerShell и использование технологии PowerShell Desired State Configuration, а также о LINQ, Data Science и Machine Learning.
Kaggle: История о том как мы учились предсказывать релевантность поисковых запросов и заняли 3-е место
2016-07-12 в 13:08, admin, рубрики: data mining, data science, kaggle, machine learning, natural language processing, машинное обучениеПревью
Здравствуй! 25-го апреля 2016 года закончилось 3-х месячное напряженное соревнование Home Depot Product Search Relevance в котором нашей команде Turing Test (Igor Buinyi, Kostiantyn Omelianchuk, Chenglong Chen) удалось не только неплохо разобраться с Natural Language Processing и ML, но и занять 3-е место из 2125 команд. Полное описание нашего решения и код доступны тут, краткое интервью тут, а цель этой публикации не только рассказать о решении, которое принесло нам такой результат, но и о тех трудностях и переживаниях, через которые нам довелось пройти во время соревнования.
Читать полностью »
Spark Summit 2016: обзор и впечатления
2016-07-04 в 11:34, admin, рубрики: analytics, Apache Spark, big data, data mining, data science, machine learning, spark, wrike, Анализ и проектирование систем, Блог компании Wrike, хранение данных
В июне прошло одно из самых крупных мероприятий мира в сфере big data и data science — Spark Summit 2016 в Сан-Франциско. Конференция собрала две с половиной тысячи человек, включая представителей крупнейших компаний (IBM, Intel, Apple, Netflix, Amazon, Baidu, Yahoo, Cloudera и так далее). Многие из них используют Apache Spark, включая контрибьюторов в open source и вендоров собственных разработок в big data/data science на базе Apache Spark.
Мы в Wrike активно используем Spark для задач аналитики, поэтому не могли упустить возможности из первых рук узнать, что происходит нового на этом рынке. С удовольствием делимся своими наблюдениями.
Решаем «Первый открытый контест» от Mail.ru по Data Science с помощью Azure ML (введение в Azure ML)
2016-06-28 в 13:28, admin, рубрики: .net, azure ml, C#, data mining, data science, Microsoft Azure, Программирование, метки: azure mlСейчас проходит соревнование ML Boot Camp, в котором надо спрогнозировать время, за которое будут перемножены 2 матрицы размерами mxk и kxn на данной вычислительной системе, если известно, сколько решалась эта задача на других вычислительных системах с другими размерами матриц (точные правила). Давайте попробуем решить эту задачу регресии не с помощью стандартных инструментов и библиотек (R, Python и panda), а используя облачный продукт от Microsoft: Azure ML. Для наших целей подойдет бесплатный доступ, для которого достаточно даже trial Azure аккаунта. Все, кто хочет получить краткое руководство по настройке и использованию Azure ML в общем и ML Studio в частности на примере решения реальной живой задач, приглашаются под кат.
Читать полностью »
Отчет с Moscow Data Science Meetup 27 мая
2016-06-24 в 14:45, admin, рубрики: big data, data science, kaggle, mail.ru, spark, Алгоритмы, Блог компании Mail.Ru Group, машинное обучение
27 мая в офисе Mail.Ru Group прошёл очередной Moscow Data Science Meetup. На встрече собирались представители крупных российских компаний и научных организаций, а также энтузиасты в области машинного обучения, рекомендательных систем анализа социальных графов и смежных дисциплин. Гости делились друг с другом своим опытом решения практических задач анализа данных. Предлагаем вашему вниманию видеозаписи и презентации трёх докладов, представленных на встрече.
Читать полностью »