Привет! В этой статье я расскажу про то, как в настоящее время фильтруются спам письма чуть ли не во всех популярных почтовых службах. Пройдемся по теории, затем закрепим практикой, ну и в конце предоставлю свой набросок кода на мною обожаемом языке R. Буду стараться излагать максимально легкими выражениями и формулировками. Приступим!
Рубрика «data analysis» - 3
Наивный Байес, или о том, как математика позволяет фильтровать спам
2018-07-02 в 15:17, admin, рубрики: algorithm, code, data analysis, example, machine learning, math, mathematics, naive bayes, R, statistics, tutorial, математика, машинное обучение, Статистика в ITИсследование рынка вакансий BA-SA
2018-06-09 в 12:57, admin, рубрики: data analysis, data mining, hh.ru, R, top skills, бизнес-аналитик"Исследование рынка вакансий аналитиков" — так звучала вполне реальная задача одного вполне реального ведущего аналитика одной ни большой, ни маленькой фирмы. Рисерчер парсил десятки описаний вакансий с hh вручную, раскидывая их по запрашиваемым скиллам и увеличивая счетчик в соответствующей колонке спредшита.
Я увидела в этой задаче неплохое поле для автоматизации и решила попытаться справиться с ней меньшей кровью, легко и просто.
Меня интересовали следующие вопросы, затронутые в данном исследовании:
- средний уровень зарплат бизнес- и системных аналитиков,
- наиболее востребованные умения и личные качества на этой позиции,
- зависимости (если есть) между определенными навыками и уровнем зп.
Спойлер: легко и просто не получилось.
Работа с Anaconda на примере поиска корреляции курсов криптовалют
2018-03-07 в 12:17, admin, рубрики: anaconda, cryptocurrencies, data analysis, data mining, open source, python, визуализация данных, открытые данныеЦель этой статьи — предоставить легкое введение в анализ данных с использованием Anaconda. Мы пройдем через написание простого скрипта Python для извлечения, анализа и визуализации данных по различным криптовалютам.
Читать полностью »
Pygest #20. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [6 декабря 2017 — 23 декабря 2017]
2017-12-22 в 18:52, admin, рубрики: cpython, data analysis, data science, digest, django, machine learning, nuitka, python, python3, события из мира python, Учебный процесс в IT, Читальный зал Всем привет! Это уже двадцатый выпуск дайджеста на Хабрахабр о новостях из мира Python.
Присылайте свои интересные события из мира Python. Вместе мы сделаем Python еще лучше:)
С предыдущим digest можно ознакомиться здесь
Руководство к созданию собственного когортного отчёта по возвратности
2017-11-10 в 22:47, admin, рубрики: data analysis, mysql, pandas, python, sql, Анализ и проектирование систем, Аналитика мобильных приложений, веб-аналитикаКогортный анализ возвратности пользователей является мощным способом для понимания разных групп клиентов — их поведения и значимости для бизнеса. Однако итоговые таблицы бывает трудно понять с первого раза, а с ходу придумать, как их построить, ещё сложнее.
В статье будет описан относительно простой, но полезный алгоритм построения когортой таблицы, а также приведены наброски кода с Python/Pandas и SQL. Если Вам необходимо программно реализовать построение когортного отчёта или просто интересно узнать этот алгоритм — прошу под кат.
Barnes-Hut t-SNE и LargeVis: визуализация больших объёмов данных
2017-11-03 в 6:08, admin, рубрики: data analysis, data mining, data science, exploratory data analysis, large data, tsne, visualization, Алгоритмы, математика, машинное обучениеНаборами данных в миллионы экземпляров в задачах машинного обучения уже давным давно никого не удивишь. Однако мало кто задаётся вопросом, как качественно визуализировать эти титанические пласты информации. Когда размер датасета превышает миллион, становится довольно грустно использовать стандартный t-SNE; остаётся играться с даунсэмплированием или вовсе ограничиваться грубыми статистическими инструментами. Но на каждую задачу найдётся свой инструмент. В своей статье я бы хотел рассмотреть два алгоритма, которые преодолевают барьер квадратичной сложности: уже хорошо известный Barnes-Hut t-SNE и новый претендент на звание «золотого молотка infovis'a» LargeVis.

(Это не картина художника-абстракциониста, а визуализация LiveJournal-датасета с высоты птичьего полёта)
Читать полностью »
OpenDataScience и Mail.Ru Group проведут открытый курс по машинному обучению
2017-08-11 в 11:02, admin, рубрики: data analysis, data mining, education, machine learning, MOOC, python, Блог компании Mail.Ru Group, Блог компании Open Data Science, машинное обучение6 сентября 2017 года стартует 2 запуск открытого курса OpenDataScience по анализу данных и машинному обучению. На этот раз будут проводиться и живые лекции, площадкой выступит московский офис Mail.Ru Group.
Если коротко, то курс состоит из серии статей на Хабре (вот первая), воспроизводимых материалов (Jupyter notebooks, вот github-репозиторий курса), домашних заданий, соревнований Kaggle Inclass, тьюториалов и индивидуальных проектов по анализу данных. Здесь можно записаться на курс, а тут — вступить в сообщество OpenDataScience, где будет проходить все общение в течение курса (канал #mlcourse_open в Slack ODS). А если поподробней, то это вам под кат.
Data-driven подход к продакшну – Фильтры по акциям
2017-05-16 в 10:36, admin, рубрики: data analysis, google analytics, google tag manager, growth hacking, jquery, json, pandas, product analytics, python, Блог компании Агентство AGIMA, веб-аналитикаЧто вас ждет в статье:
Описание подхода, который мы применили для исследования фильтров на сайте одного из наших клиентов, а также детальное описание технологий.
На кого рассчитана статья:
Статья будет интересна веб-аналитикам и всем, кто сталкивается с задачами исследования пользовательского опыта на основе количественных данных.
Дисклеймер:
Все описанное в статье является лишь мнением автора (Артем Кулбасов, веб-аналитик AGIMA) и не является единственно верным решением задачи. Многие описанные в статье технологии могут быть заменены аналогами.
Superjob Data Science Meetup (отчет, презентации, видео)
2017-03-15 в 14:39, admin, рубрики: big data, data analysis, data mining, data science, data science digest, data scientist, data structures, development, meet-up, meet-ups, meetup, SuperJob, superjob.ru, Блог компании Superjob.ru, встреча разработчиков, мероприятие, Мероприятия, Москва, отчёт, Программирование, разработка, Сбербанк-Технологии, события IT профессионалов, метки: события it профессионаловВидео, доклады и краткий отчет для тех, кто не приехал и не успел посмотреть прямую трансляцию.
В офисе Superjob состоялся Data Science Meetup. Послушать доклады пришли около ста аналитиков и разработчиков, включая специалистов из Renault, Тинькофф банк, Эльдорадо, SAP, Вымпелком, Delloite, ВТБ и тд. Около 500 человек смотрели прямую трансляцию.
Superjob Data Science Meetup. Прямая трансляция
2017-03-02 в 15:58, admin, рубрики: big data, data analysis, data mining, data science, data science digest, data scientist, data structures, development, meet-up, meet-ups, meetup, SuperJob, superjob.ru, Блог компании Superjob.ru, встреча разработчиков, мероприятие, Мероприятия, Москва, Программирование, прямая трансляция, разработка, Сбербанк-Технологии, события, события IT профессионалов, трансляцияСпециально для тех, кто не успел зарегистрироваться на Superjob Data Science Meetup, мы организуем прямую трансляцию события на Youtube или Facebook.
Начало в 19:00 по московскому времени.
Читать полностью »