Рубрика «data science» - 32

Карта артистов, неуклюжий поиск связей в данных и как можно изобрести велосипед

2017-05-24 в 4:16, admin, рубрики: collaborative filtering, d3.js, data mining, data science, javascript, JS, артисты, визуализация данных, группы, музыкальные данные, открытые данные, метки: группы, музыкальные данные

Недавно смотрел серию видео популяризатора математики. Там он пытается рассказывать про математический анализ и линейную алгебру немного с позиции человека, который «как бы» изобрел бы ее с нуля. То есть пытается делать доступными простые и понятые визуализации относительно сложных концепций, как бы объясняя их с позиции человека, который как будто бы придумал это впервые. Относительно недавно читал статью на Хабре про unsupervised learning и увидел там раздел про Affinity Propagation. Как оказалось, мы использовали именно этот метод кластерного анализа чисто интуитивно, сами того не ведая.

TLDR для данной статьи. Если хотите интерактивную визуализацию, проследуйте сюда.
В данной визуализации в виде графа показаны связи между музыкальными жанрами ~25,000 самых популярных артистов мира, причем размер кругляшка показывает популярность данного жанра, а размер ребра графа — силу связи.

Читать полностью »

Лишенный премии за российское гражданство программист получит выплату от Mail.ru

2017-05-23 в 15:13, admin, рубрики: data science, Data Science Challenge, mail.ru, конкурсы, политика, Программирование, Регулирование IT-сектора, соревнования

Лишенный премии за российское гражданство программист получит выплату от Mail.ru - 1 Ныне проживающий и работающий в США программист Владимир Игловиков занял второе место в британском соревновании Data Science Challenge. Игловикову должны были выплатить денежное вознаграждение в размере 12 тыс. фунтов стерлингов. Через два дня после окончания конкурса с программистом связались организаторы и объяснили, что не могут выплатить призовые деньги из-за несоответствия критериям конкурса: у Игловикова российское гражданство. Вчера стало известно, что компания Mail.ru выплатит вознаграждение вместо организаторов конкурса.

Владимир Игловиков (профиль на «Хабрахабре» и на «Гиктаймсе» — ternaus) закончил физический факультет Санкт-Петербургского государственного университета со степенью магистра, затем получил степень доктора наук в Калифорнийском университете в Дейвисе. Игловиков оставил научную деятельность и ушёл в компанию Bidgely, затем перешёл в TrueAccord на должность старшего научного сотрудника. На данный момент Владимир проживает в США.
Читать полностью »

Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМО

2017-05-22 в 15:02, admin, рубрики: data mining, data science, Блог компании Университет ИТМО, Университет ИТМО

16 мая в Университете ИТМО состоялся семинар, посвященный теме машинного обучения. Приглашенный лектор, заведующий кафедрой высокопроизводительных компьютерных технологий Уральского федерального университета Андрей Созыкин, рассказывал о профессии специалиста по Data science и направлениях развития этой сферы в ближайшем будущем.

В сегодняшнем материале — выдержки из интервью с лектором и рассказ о том, что нужно знать и уметь будущему специалисту по работе с данными.

Читать полностью »

Анализ взаимосвязи навыков с помощью графов в R

2017-05-17 в 9:04, admin, рубрики: clustering, data mining, data science, dataviz, graph, R, R-project

Интересно, но такая область как профессиональное развитие остается немного в стороне от шума из-за data science. Стартапы в сфере HRtech только начинают наращивать обороты и увеличивать свою долю, замещая традиционный подход в сфере работы с профессионалами или, теми, кто хочет стать профессионалом.

Сфера HRtech очень разнообразна и включает в себя автоматизацию найма сотрудников, развитие и коучинг, автоматизацию внутренних HR процедур, отслеживание рыночных зарплат, трекинг кандидатов, сотрудников и многое другое. Данное исследование помогает с помощью методов анализа данных ответить на вопрос как взаимосвязаны навыки, какие есть специализации, какие навыки более популярны, а какие навыки следует изучить следующим.

Читать полностью »

Проблемы современного Data Science

2017-05-15 в 5:30, admin, рубрики: analytics, big data, data mining, data science, machine learning, python, Алгоритмы, аналитика, Блог компании Школа Данных, математика, машинное обучение, модели, Программирование

Привет!

В последнее время все чаще приходится наблюдать, что ожидания работодателей и потенциальных ученых по данными сильно отличаются. Компания, инвестируя в новые разработки в первую очередь ждет возврат на инвестиции, а не очередную модель. Специалист же, окончивший всевозможные курсы ждет на вход чистые и понятные данные, а на выходе хотел бы отдать модель прикрепив к ней метрики качества. А дальше «пусть менеджеры разбираются», как это все будет встроено в процесс и как именно полученная модель будет использоваться. В результате возникает пропасть и непонимание между бизнесом и учеными.

По факту оказывается, что модели сами по себе никому не нужны, а на деле приходится заниматься очень большим количеством рутинных задач.

Хотелось бы на обобщенных примерах (все совпадения с реальной жизнью случайны) показать, какие же на самом деле трудности приходится преодолевать, чтобы принести работодателю деньги. Наверное, после этого в аналитику данных люди будут идти более осознанно, попутно получая нужные для работы навыки, а не изучая очередную статью про алгоритм.
Читать полностью »

Нейрокурятник ч.0. Или нейро- без курятника

2017-05-08 в 4:45, admin, рубрики: data mining, data science, neural networks, open source, python, python 3, глубокое обучение, куры, математика, машинное обучение, нейросети, образование

Нейрокурятник часть ноль. Или нейро- без курятника. Или как правильно закоптиться в нейросети.

Курочка снесла яичко. Сам процесс выглядит ужасно. Результат — съедобно. Массовый геноцид кур.
В этой статье будет описано:

Где, как и почему можно получить небольшое качественное самообразование в сфере работы с нейросетями БЕСПЛАТНО, СЕЙЧАС и СОВСЕМ НЕ БЫСТРО;
Будет описана логика рекурсии и будут порекомендованы книги по теме;
Будет описан список основных терминов, которые нужно разобрать на 2-3 уровня абстракции вниз;
Будет приведен ipynb-notebook, который содержит необходимые ссылки и базовые подходы;
Будет немного своеобразного саркастичного юмора;
Будут описаны некоторые простые закономерности, с которыми вы столкнетесь при работе с нейросетями;

Статьи про нейрокурятник

Заголовок спойлера

Вступление про обучение себя нейросетям
Железо, софт и конфиг для наблюдения за курами
Разметка датасетов
Параллельное участие в соревнованиях, визуализации внутренностей нейросетей, развитие архитектур моделей
Работающая модель для распознавания кур в курятнике
Бот, который постит события из жизни кур

Читать полностью »

Видеозапись вебинара «Julia — A fresh approach to numerical computing and data science»

2017-04-29 в 8:38, admin, рубрики: big data, BigData, data mining, data science, deep learning, FlyElephant, gpu, HPC, Julia, machine learning, mpi, xeon phi, Блог компании FlyElephant, вебинар, машинное обучение

Видеозапись вебинара «Julia — A fresh approach to numerical computing and data science» - 1

Команда FlyElephant в марте проводила вебинар с со-основателем и CEO в Julia Computing, а также со-автором языка Julia — Viral B. Shah, на тему "Julia — A fresh approach to numerical computing and data science".

Читать полностью »

Спортивный анализ данных, или как стать специалистом по data science

2017-04-26 в 14:05, admin, рубрики: adam, big data, black box, data mining, data science, ImageNet, inceptionV3, kaggle, mxnet, Q-learning, resnet, xgboost, аугментация данных, блендинг, Блог компании Яндекс, валидация, классификация, конкурсы разработчиков, контест, машинное обучение, нейронные сети, распознавание изображений, Спортивное программирование, стекинг, тренировки, черный ящик

Меня зовут Пётр Ромов, я — data scientist в Yandex Data Factory. В этом посте я предложу сравнительно простой и надежный способ начать карьеру аналитика данных.

Многие из вас наверняка знают или хотя бы слышали про Kaggle. Для тех, кто не слышал: Kaggle — это площадка, на которой компании проводят конкурсы по созданию прогнозирующих моделей. Её популярность столь велика, что часто под «кэглами» специалисты понимают сами конкурсы. Победитель каждого соревнования определяется автоматически — по метрике, которую назначил организатор. Среди прочих, Kaggle в разное время опробовали Facebook, Microsoft и нынешний владелец — Google. Яндекс тоже несколько раз отметился. Как правило, Kaggle-сообществу дают решать задачи, довольно близкие к реальным: это, с одной стороны, делает конкурс интересным, а с другой — продвигает компанию как работодателя с солидными задачами. Впрочем, если вам скажут, что компания-организатор конкурса задействовала в своём сервисе алгоритм одного из победителей, — не верьте. Обычно решения из топа слишком сложны и недостаточно производительны, а погони за тысячными долями значения метрики не настолько и нужны на практике. Поэтому организаторов больше интересуют подходы и идейная часть алгоритмов.

Спортивный анализ данных, или как стать специалистом по data science - 1

Kaggle — не единственная площадка с соревнованиями по анализу данных. Существуют и другие: DrivenData, DataScience.net, CodaLab. Кроме того, конкурсы проводятся в рамках научных конференций, связанных с машинным обучением: SIGKDD, RecSys, CIKM.

Для успешного решения нужно, с одной стороны, изучить теорию, а с другой — начать практиковать использование различных подходов и моделей. Другими словами, участие в «кэглах» вполне способно сделать из вас аналитика данных. Вопрос — как научиться в них участвовать?

Читать полностью »

Приглашаем на IV конференцию по практическому применению науки о данных DataScience Lab 13 мая

2017-04-24 в 10:46, admin, рубрики: artificial intelligence, big data, data mining, data science, FlyElephant, R, Блог компании FlyElephant, Большие данные, искусственный интеллект, конференция, машинное обучение, наука о данных

Приглашаем на IV конференцию по практическому применению науки о данных DataScience Lab 13 мая - 1

Команда FlyElephant приглашает всех 13 мая в Одессу на IV конференцию по практическому применению науки о данных Data Science Lab (exAI&BigDataLab).

Data Science Lab — это ежегодная техническая конференция, которая объединяет исследователей, инженеров и разработчиков, связанных с Data Science для обмена опытом и обсуждения актуальных тем в области машинного обучения, обработки естественного языка, распознавания образов и других аспектов анализа данных. Темы докладов раскрывают вопросы от практического внедрения результатов исследований до самых последних теоретических разработок.
Читать полностью »

Дайджест Университета ИТМО: материалы для тех, кто хочет влиться в Data Science

2017-04-19 в 16:20, admin, рубрики: big data, data science, Блог компании Университет ИТМО, Университет ИТМО

Сегодня мы подготовили для вас дайджест, в котором постарались собрать самые интересные литературные источники, статьи, видеокурсы и лекции (в том числе подготовленные силами преподавателей, студентов и сотрудников Университета ИТМО), которые позволят познакомиться с Data Science.

Эти материалы затрагивают как теоретические аспекты работы с данными, так и практические — направленные на создание алгоритмов и написание программ.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 32

Карта артистов, неуклюжий поиск связей в данных и как можно изобрести велосипед

Лишенный премии за российское гражданство программист получит выплату от Mail.ru

Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМО

Анализ взаимосвязи навыков с помощью графов в R

Проблемы современного Data Science

Нейрокурятник ч.0. Или нейро- без курятника

Нейрокурятник часть ноль. Или нейро- без курятника. Или как правильно закоптиться в нейросети.

Видеозапись вебинара «Julia — A fresh approach to numerical computing and data science»

Спортивный анализ данных, или как стать специалистом по data science

Приглашаем на IV конференцию по практическому применению науки о данных DataScience Lab 13 мая

Дайджест Университета ИТМО: материалы для тех, кто хочет влиться в Data Science

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 32

Нейрокурятник часть ноль. Или нейро- без курятника. Или как правильно закоптиться в нейросети.

Новости

Актуальные темы

Архив