Всем привет. В этой статье я расскажу о нашем опыте участия в соревновании по анализу данных Data Mining Cup 2019 (DMC) и о том, как нам удалось войти в ТОП-10 команд и принять участие в очном финале чемпионата в Берлине.
Рубрика «data analysis» - 3
Как студенты из Перми попали в финал международного чемпионата по анализу данных Data Mining Cup 2019
2019-07-09 в 12:34, admin, рубрики: big data, data analysis, data mining, Data Mining Cup, data science, kaggle, machine learning, python, анализ данных, визуализация данных, машинное обучение, Соревнования по машинному обучениюИспользуем данные на практике
2019-06-27 в 15:28, admin, рубрики: computer vision, data analysis, data science, machine learning, nlp (natural language processing), usedataconf, Алгоритмы, Блог компании Конференции Олега Бунина (Онтико), конференции, машинное обучение, обработка изображенийМежду идеальным алгоритмом машинного обучения в вакууме и его применением на реальных данных часто лежит пропасть. Вроде бы берешь статью: алгоритм есть, сходимость для данных такого-то типа есть — бери и применяй. Но почему-то оказывается, что твоих данных недостаточно для обучения, да и отличаются они от модельных из статьи, потому что настоящие, не синтетические.
Обычное дело в обосновании алгоритма ввести допущения о чистоте данных и их распределении, которых в реальной жизни не найдёшь. Например, автор статьи экспериментирует на фотографиях взрослых знаменитостей, и все у него замечательно распознается и классифицируется, а в нашем реальном примере попадаются еще и дети, и мультяшные персонажи, и на них всё внезапно ломается. Но есть люди, которые умеют с этим справляться, да так, что пропасть между теорией и практикой перестает казаться неприступной, и, стоит показать как, сразу находятся и другие желающие ее преодолеть.
Стажировка Sberseasons: Python, UX-UI, Data и ещё много чего для студентов
2019-03-01 в 17:43, admin, рубрики: big data, data analysis, data science, python, ui/ux, ui/ux дизайн, Блог компании Сбербанк, Карьера в IT-индустрии, Сбербанк, стажировка, стажировка в itПривет!
Этот пост написан специально для студентов. Если вы уже состоявшийся профессионал, лучше посмотрите, как в gif’ках выглядит жизнь Open Source разработчика, а если вы студент, да еще с
ИТ-шной специальностью, добро пожаловать под кат.
Чем хороша наша программа стажировок Sberseasons? У нас есть много больших интересных проектов на выбор. Они завязаны на современный технологический стек, и их потом можно положить в свое портфолио. Плюс, её можно совмещать с учебой. Разумеется, она у нас оплачивается.
Стажировка доступна сразу по 18 IT-направлениям. О некоторых из них рассказываем подробнее.
«Мне кажется, идеи команды – самое важное при разработке продукта»
2018-12-03 в 11:10, admin, рубрики: big data, BigData, data analysis, data mining, data science, data scientist, IT-образование, Блог компании New Professions Lab, управление разработкойМы продолжаем серию интервью с выпускниками Newprolab, в которой они рассказывают о своей истории перехода в data science. Истории разные и будут интересны тем, кто задумывается о смене карьерной траектории или о том, как новые знания могут помочь решать в том числе текущие задачи. Недавно встретились с Яной Чаруйской, Product Owner в МТС. Яна рассказала, как она пришла в большие данные, как профессионально росла, вспомнила о своем любимом проекте, подарившем ей помимо знаний и опыта, еще и друзей. Рассказала о рабочей атмосфере в МТС, о проектах, которые делает ее команда, о своей мечте, планах на будущее и пр.
— Яна, расскажи немного о себе и своем бэкграунде.
— Меня зовут Яна Чаруйская, я Product Owner в МТС. Интересуюсь областью Big Data и занимаюсь ею уже порядка двух лет. Если вкратце про мою историю: я закончила ВШЭ по направлению «Бизнес-информатика», училась 6 лет, затем год училась на психолога. Четыре года я проработала в IT-консалтинге, три из них занималась хранилищами данных, витринами данных, построением управленческой отчетности в основном для крупных банков. Последний год в консалтинге занималась машинным обучением и предиктивной аналитикой. Сейчас я работаю в МТС менеджером по продукту, у меня команда из 6 человек, и она растет, в ближайшее время нанимаю еще 7. В целом, компания тоже расширяется, сейчас в МТС более 150 Big Data специалистов и еще открыто множество вакансий (планируем увеличить штат практически в 2 раза!). Мы с командой разрабатываем несколько продуктов одновременно, в настоящий момент они на разных стадиях реализации: есть продукты, которые находятся в стадии R&D, какие-то — в стадии продуктивизации.
Читать полностью »
How linear algebra is applied in machine learning
2018-10-21 в 8:12, admin, рубрики: data analysis, data science, english, linear algebra, machine learning, maths, математика, машинное обучениеWhen you study an abstract subject like linear algebra, you may wonder: why do you need all these vectors and matrices? How are you going to apply all this inversions, transpositions, eigenvector and eigenvalues for practical purposes?
Well, if you study linear algebra with the purpose of doing machine learning, this is the answer for you.
In brief, you can use linear algebra for machine learning on 3 different levels:
- application of a model to data;
- training the model;
- understanding how it works or why it does not work.
Наивный Байес, или о том, как математика позволяет фильтровать спам
2018-07-02 в 15:17, admin, рубрики: algorithm, code, data analysis, example, machine learning, math, mathematics, naive bayes, R, statistics, tutorial, математика, машинное обучение, Статистика в ITПривет! В этой статье я расскажу про то, как в настоящее время фильтруются спам письма чуть ли не во всех популярных почтовых службах. Пройдемся по теории, затем закрепим практикой, ну и в конце предоставлю свой набросок кода на мною обожаемом языке R. Буду стараться излагать максимально легкими выражениями и формулировками. Приступим!
Исследование рынка вакансий BA-SA
2018-06-09 в 12:57, admin, рубрики: data analysis, data mining, hh.ru, R, top skills, бизнес-аналитик"Исследование рынка вакансий аналитиков" — так звучала вполне реальная задача одного вполне реального ведущего аналитика одной ни большой, ни маленькой фирмы. Рисерчер парсил десятки описаний вакансий с hh вручную, раскидывая их по запрашиваемым скиллам и увеличивая счетчик в соответствующей колонке спредшита.
Я увидела в этой задаче неплохое поле для автоматизации и решила попытаться справиться с ней меньшей кровью, легко и просто.
Меня интересовали следующие вопросы, затронутые в данном исследовании:
- средний уровень зарплат бизнес- и системных аналитиков,
- наиболее востребованные умения и личные качества на этой позиции,
- зависимости (если есть) между определенными навыками и уровнем зп.
Спойлер: легко и просто не получилось.
Работа с Anaconda на примере поиска корреляции курсов криптовалют
2018-03-07 в 12:17, admin, рубрики: anaconda, cryptocurrencies, data analysis, data mining, open source, python, визуализация данных, открытые данныеЦель этой статьи — предоставить легкое введение в анализ данных с использованием Anaconda. Мы пройдем через написание простого скрипта Python для извлечения, анализа и визуализации данных по различным криптовалютам.
Читать полностью »
Pygest #20. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [6 декабря 2017 — 23 декабря 2017]
2017-12-22 в 18:52, admin, рубрики: cpython, data analysis, data science, digest, django, machine learning, nuitka, python, python3, события из мира python, Учебный процесс в IT, Читальный зал Всем привет! Это уже двадцатый выпуск дайджеста на Хабрахабр о новостях из мира Python.
Присылайте свои интересные события из мира Python. Вместе мы сделаем Python еще лучше:)
С предыдущим digest можно ознакомиться здесь
Руководство к созданию собственного когортного отчёта по возвратности
2017-11-10 в 22:47, admin, рубрики: data analysis, mysql, pandas, python, sql, Анализ и проектирование систем, Аналитика мобильных приложений, веб-аналитикаКогортный анализ возвратности пользователей является мощным способом для понимания разных групп клиентов — их поведения и значимости для бизнеса. Однако итоговые таблицы бывает трудно понять с первого раза, а с ходу придумать, как их построить, ещё сложнее.
В статье будет описан относительно простой, но полезный алгоритм построения когортой таблицы, а также приведены наброски кода с Python/Pandas и SQL. Если Вам необходимо программно реализовать построение когортного отчёта или просто интересно узнать этот алгоритм — прошу под кат.