Привет, читатель.
По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.
Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.
+ бонус в конце статьи — крутой курс от ФПМИ МФТИ.
Итак, давайте приступим.
Подборка датасетов с рабочими примерами обработки данных:
Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.
Примеры обработки:
- Suicide data — Full interactive dashboard;
- Mental Health, Happiness, Economics, Human Freedom;
- Data Visualization of Suicide Rates
Spotify's Worldwide Daily Song Ranking — ежедневный рейтинг 200 самых прослушиваемых песен в 53 странах с 2017 и 2018 годов пользователями Spotify.
Пример обработки:
- Top Songs on Spotify: What makes them popular?;
- Spotify Chart Trend + Seasonal ARIMA;
- Trends in Spotify's Worldwide Daily Songs 17 -18.
Crimes in Boston — записи из Бостонской системы отчетов о происшествиях с преступностью, включающая в себя происшествия, и информацию о том когда и где оно произошло.
Пример обработки:
Google Play Store Apps — категории, рейтинги, размер всех приложений Google Play.
Пример обработки:
- All that you need to know about the Android market;
- How to get «High» Rating on Play Store;
- Google Play Store EDA.
Pokémon for Data Mining and Machine Learning — статистика и особенности покемонов;
Пример обработки:
A Million News Headlines — данные заголовков новостей, опубликованных за последние 15 лет.
Пример обработки:
- What is with News headlines;
- Meaningful Random Headlines by Markov Chain;
- Topic Modelling with LSA and LDA.
Airplane Crashes Since 1908 — полная история авиакатастроф по всему миру, с 1908 года по настоящее время.
Пример обработки:
News Headlines Dataset For Sarcasm Detection — высококачественный набор данных для задачи обнаружения сарказма.
Пример обработки:
- Detecting Sarcasm Using Different Embeddings;
- Sarcasm with Keras;
- Beginners's guide to NLP using spaCy
Historical Air Quality — данные о качестве воздуха, собранные на наружных мониторах по всей территории США.
Пример обработки:
Nutrition Facts for McDonald's Menu — анализ питания каждого пункта меню в McDonald's США.
Пример обработки:
LEGO Database — детали / комплекты / цвета и запасы каждого официального набора LEGO в базе данных Rebrickable.
Пример обработки:
- LEGO- Let's play;
- Finding Lego color themes with topic models;
- Have LEGO sets been getting bigger over time?
Global Commodity Trade Statistics — объемы импорта и экспорта для 5000 товаров в большинстве стран мира за последние 30 лет.
Пример обработки:
Crime in India — полная информация о различных аспектах преступлений, совершенных в Индии с 2001 года.
Пример обработки:
Predicting a Pulsar Star — данные по пульсарам, собранные во время обзора Вселенной.
Примеры обработки:
French employment, salaries, population per town — данные, показывающие равенство и неравенство во Франции.
Пример обработки:
- Using Regression to Predicting Earnings in France;
- Interactive Map & Graph — job & salary inequality;
- How big is French Industry?
United States Census — данные переписи в США.
Пример обработки:
California Housing Prices — цена на жилье в Калифорнии.
Пример обработки:
- Introduction to machine learning in R (tutorial);
- Gradient Boosting and Parameter Tuning in R;
- Geospatial Feature Engineering and Visualization
US Unemployment Rate by County, 1990-2016 — данные по безработице министерства труда США.
Пример обработки:
- Maps are beautiful, Unemployment is not;
- Analysis of world crime;
- Time Series Analysis on US Unemployment Rate.
World of Warcraft Avatar History — набор записей, которые детализируют информацию о персонажах игрока в игре с течением времени.
Пример обработки:
The Gravitational Waves Discovery Data — данные о событиях гравитационных волн GW150914.
Пример обработки:
Бонус!
А бонусом у нас сегодня будет прекрасный курс по Deep Learning, рассчитанный на старшеклассников, интересующихся программированием и математикой, а также студентов, которые хотят начать заниматься глубоким обучением.
Цель курса — познакомить с основными принципами глубокого обучения (нейронных сетей) в интерактивном формате и на примере практических задач.
Программа курса
- Python: основы, Google Colab;
- Введение в линейную алгебру. Векторы. Матрицы и операции с ними. Библиотека NumPy;
- Библиотеки Pandas и MatPlotlib. Основы машинного обучения;
- Элементы теории оптимизации. Градиент. Градиентный спуск. Линейные модели;
- Введение в глубокое обучение. Перцептрон. Нейрон с сигмоидой (и другими функциями активации). Основы ООП в Python;
- Библиотека PyTorch. Многослойные нейросети;
- Обучение нейронных сетей на практике. Cifar10, notMNIST;
- Сверточные нейросети. Сверточный слой. Пулинг слой;
- Практика обучения нейросетей. Классификация дорожных знаков;
- Transfer Дearning. Популярные в Computer Vision архитектуры;
- Сегментация картинок. U-Net;
- Участие в соревнованиях на Kaggle;
- Object Detection. YOLOv3;
- Классический GAN. Нейронный перенос стиля;
- Базовые методы обработки текста;
- Word Embeddings;
- Рекуррентные нейронные сети;
- LSTM, GRU ячейки;
- Языковые модели;
- Машинный перевод;
- Text2Speech;
- SuperResolution.
Также вы можете заглянуть на Youtube-канал Deep Learning School. Там много отличных видео ;)
На этом наша короткая подборка примеров обработки данных подошла к концу. Надеюсь вы узнали для себя что-нибудь новое. Как принято на Хабре, понравился пост — поставь плюс. Не забудьте поделиться с коллегами. Также, если у вас есть то, чем вы можете поделиться сами — пишите в комментариях. Больше информации о машинном обучении и Data Science на Хабре и в телеграм-канале Нейрон (@neurondata).
Всем знаний!
Автор: Rushan