Продолжим (1, 2) рассматривать тему машинного обучения. Вашему вниманию вторая часть (первая тут) адаптированной подборки полезных материалов.
Разное
- Список: отличные фреймворки, библиотеки и приложения машинного обучения;
- Список: отличные библиотеки и другие ресурсы для визуализации данных;
- Awesome Data Science: материалы по науке о данных;
- Data Science Masters: обучающие материалы и литература по даталогии;
- Cross Validated: FAQ по машинному обучению;
- Список: университетские курсы, связанные с машинным обучением;
- Quora: алгоритмы машинного обучения, которые нужно понимать;
- Статья: разница между линейно независимыми, ортогональными и некоррелированными переменными;
- Список: концепции и алгоритмы машинного обучения;
- Презентации: различные темы;
- Презентация: лекции MIT по машинному обучению;
- Статья: сравнение алгоритмов обучения с учителем;
- Статья: основы науки о данных;
- Статья: три ошибки в машинном обучении, которые стоит избегать;
- TheAnalyticsEdge: лекции с примерами;
Интервью
- Quora: как студенту подготовиться к интервью на должность специалиста по работе с данными;
- Quora: с чего начать знакомство с машинным обучением;
- Quora: FAQ по интервью на должность специалиста по работе с данными;
- Quora: самые важные навыки для специалиста по обработке данных;
Искусственный интеллект
- Репозиторий: список ресурсов по искусственному интеллекту;
- edX: курс по искусственному интеллекту от Дэна Клейна и Питера Аббеля;
- Udacity: курс Питера Норвига и Себастьяна Труна;
- TED Talks: искусственный интеллект;
Генетические алгоритмы
- Wiki: генетические алгоритмы;
- Outlace: простая реализация генетических алгоритмов на Python (часть 1);
- Outlace: простая реализация генетических алгоритмов на Python (часть 2);
- ai-junkie: о генетических алгоритмах простым языком;
- Wiki: генетическое программирование;
- GitHub: генетическое программирование на Python;
- Quora: генетические алгоритмы и генетическое программирование;
Статистика
- Stat Trek: все о статистике и вероятностях;
- Intro2stats: изучайте статистику с помощью Python;
- Statistics for Hackers: презентация от Джейка Вандерпласа;
- Online Statistics Book: интерактивный мультимедийный курс по статистике;
- Статья: что такое выборочное распределение;
- Обучение: программа углубленного изучения статистики;
- Обучение: статистика и вероятность;
- Обучение: алгебра матриц;
- Форум: что такое несмещенная оценка;
- Wiki: критерий согласия;
- Статья: что такое квантиль-квантиль графики;
Полезные блоги
- Блог Эдвина Чена: блог о математике, статистике, машинном обучении и науке о данных;
- Data School: даталогия для начинающих;
- ML Wave: изучение машинного обучения;
- Karpathy: блог о глубоком обучении и науке о данных;
- Colah: отличный блог о нейронных сетях;
- Блог Алекса Минаара: блог о машинном обучении и программировании;
- Statistically Significant: блог Эндрю Ландграфа о науке о данных;
- Simply Statistics: блог ведут три профессора биостатистики;
- Yanir Seroussi: блог о науке о данных и не только;
- fastML: доступным языком о машинном обучении;
- Trevor Stephens: персональная страница Тревора Стефенса;
- Kaggle: все об обработке и анализе данных;
- Outlace: блог студента о машинном обучении;
- r4stats: все о науке о данных и R;
- Variance Explained: блог Дэвида Робинсона;
- AI Junkie: блог об искусственном интеллекте;
Ресурсы на Quora
- Quora: самые популярные авторы, которые пишут о машинном обучении;
- Наука о данных: тематический раздел;
- Ответы Уильяма Чена;
- Ответы Майкла Хочстера;
- Ответы Рикардо Владимиро;
- Блог: полезные материалы и советы по статистке не только;
- FAQ: по науке о данных;
- FAQ: по машинному обучению;
Kaggle Competitions
- Статья: как (почти) выиграть Kaggle Competitions;
- Статья: применение сверточных нейронных сетей для расшифровки сигналов ЭЭГ;
- Статья: разбор Facebook Recruiting III;
- Статья: предсказание коэффициента CTR с помощью динамического машинного обучения;
Шпаргалки
Классификация
- Статья: помогает ли балансировка классов улучшить результаты работы классификатора;
- Quora: преимущества различных алгоритмов классификации;
- Статья: ROC-анализ;
- Статья: матрица неточностей – терминология;
Линейная регрессия
- Статья: условия применения линейной регрессии;
- duke.edu: все о линейной регрессии;
- Data School: применение и оценка результатов линейной регрессии;
- ResearchGate: что, если зависимая переменная не имеет нормального распределения;
- Wiki: мультиколлинеарность;
- Статья: мультиколлинеарность и фактор инфляции дисперсии (VIF);
- Статья: регуляризация и выбор переменных с помощью метода эластичных нейронных сетей;
Логистическая регрессия
- Wiki: логистическая регрессия;
- Статья: геометрическая интерпретация логистической регрессии;
- FAQ: что такое псевдо R-квадрат;
Проверка модели с помощью повторной выборки
- Wiki: повторная выборка/ресэмплинг;
- Chioka: хорошие материалы по перекрестной проверке;
- Эндрю Ын: предотвращение переобучения при перекрестной проверке;
- Гевин Коули:влияние переобучения и систематических ошибок отбора на оценку эффективности модели;
- Эндрю Мур: перекрестная проверка для выявления и предотвращения переобучения;
- Wiki: статистический бутстрэп;
- Бутстрэп: анимации;
- Пример: статистический бутстрэп;
Глубокое обучение
- Список: руководства, проекты и сообщества по глубокому обучению;
- Deeplearning4j: ресурсы по глубокому обучению;
- Стэнфорд: интересные проекты по глубокому обучению и обработке естественного языка;
- Статья: ключевые концепции глубокого обучения;
- Статья: обработка естественного языка с применением глубоких сетей на Torch;
- Стэнфорд: руководство по глубокому обучению;
- Quora: FAQ по глубокому обучению;
- Google: страничка, посвященная глубокому обучению;
- Reddit: сабреддит по глубокому обучению;
- Reddit: еще один сабреддит;
- Статья: где изучать глубокое обучение;
- NVidia: концепции глубокого обучения;
- Intro2deeplearning: глубокое обучение и Python;
- Intro2deeplearning: отличная презентация;
- Оксфорд: видео с лекциями 2015 года;
- Видео: Deep Learning Summer School 2015;
- Список: программное обеспечение для глубокого обучения;
- Статья: нейронные сети с точки зрения программиста;
- Kdnuggets: топ-5 работ по глубокому обучению;
- Видео: Джеффри Хинтон о глубоком обучении;
- Deeplearning: лучшие материалы по глубокому обучению;
- Deeplearning: все о машинном обучении;
- Deeplearning: ПО для машинного обучения;
- Deeplearning4j: руководство по библиотеке;
- Статья: поразительное руководство по глубокому обучению;
- Статья: основы глубокого обучения;
- Стэнфорд: статья по глубокому обучению;
- Deeplearning: руководства по глубокому обучению;
- Статья: нейронный машинный перевод с применением GPU (Часть 1);
- Статья: нейронный машинный перевод с применением GPU (Часть 1);
- Статья: нейронный машинный перевод с применением GPU (Часть 1);
- Deep Speech: распознавание речи с применением GPU-системы для обучения глубоких нейронных сетей;
Фреймворки для глубокого обучения
- FastML: Torch или Theano;
- Deeplearning4j: Dl4j, Torch7 или Theano;
- Список: библиотеки для глубокого обучения;
- Theano: Python-библиотека;
- Статья: знакомство с Theano;
- Theano: руководство;
- Theano: еще одно руководство;
- Theano: применение логистической регрессии для классификации цифр;
- Theano: многослойный перцептрон;
- Theano: сверточные нейронные сети;
- Theano: рекуррентная нейронная сеть;
- Theano: LSTM-сети для анализа эмоциональной окраски высказываний;
- Theano: ограниченная машина Больцмана;
- Theano: глубокие сети доверия;
- Theano: еще руководства;
- Torch: еще одна библиотека для машинного обучения;
- Руководство: машинное обучение в Torch;
- Статья: знакомство с Torch;
- Репозиторий: обучающие материалы по Torch;
- Репозиторий: отличные материалы по Torch;
- Оксфорд: лекции по машинному обучению с использованием Torch;
- Torch: небольшой обзор;
- Torch: подсказки и советы;
- Torch: обработка естественного языка с помощью глубоких нейронных сетей;
- Caffe: глубокое обучение для решения задач компьютерного зрения с Caffe и cuDNN;
- TensorFlow: библиотека машинного обучения от Google;
- TensorFlow: примеры для начинающих;
- Репозиторий: материалы для изучения TensorFlow;
- TensorFlow: бенчмарки;
Нейронные сети прямого распространения
- Руководство: реализация нейронной сети;
- Статья: ускорение работы нейронной сети с помощью Theano и GPU;
- Статья: основы нейронных сетей;
- Статья: метод обратного распространения ошибки;
- AI Junkie: нейронная сеть на C++;
- Code Project: нейронные сети для начинающих;
- Презентация: алгоритмы регрессии и классификации;
- Статья: знакомство с нейронными сетями;
Рекуррентные и LSTM-сети
- Awesome-rnn: список ресурсов;
- Руководство: рекуррентная нейронная сеть (Часть 1);
- Руководство: рекуррентная нейронная сеть (Часть 2);
- Руководство: рекуррентная нейронная сеть (Часть 3);
- Статья: обработка естественного языка, рекуррентные сети и представления;
- Статья: эффективность рекуррентных нейронных сетей;
- Deeplearning4j: введение в рекуррентные нейронные сети;
- Deeplearning4j: введение в LSTM-сети;
- Статья: применение рекуррентных нейронных сетей;
- Статьи: оптимизация производительности рекуррентных сетей;
- Пример: простая рекуррентная нейронная сеть;
- Статья: генерация кликбейт-заголовков с помощью рекуррентных нейронных сетей;
- Презентация: использование рекуррентных сетей для текстового анализа;
- Статья: использование рекуррентных нейронных сетей для машинного перевода;
- Keras: создание музыки с помощью рекуррентных нейронных сетей;
- Keras: использование рекуррентных нейронных сетей для генерации диалога;
- Статья: введение в LSTM-сети;
- Статья: LSTM-сети;
- Deeplearning4j: LSTM-сети для новичков;
- Статья: реализация LSTM-сети с нуля;
- GitHub: символьная модель языка и её реализация char-rnn в Torch;
- GitHub: применение LSTM-сетей для расшифровки сигналов ЭЭГ;
- Статья: применение LSTM-сетей для анализа текстов на Theano;
- Статья: применение глубокого обучения для анализа изображений;
- Google: компьютер отвечает на email с помощью LSTM;
- Google: LSTM-сети значительно повышают эффективность голосового поиска;
- Deeplearning: еще одна статья на тему голосового поиска;
- NVidia: обработка естественного языка с помощью LSTM-сетей на Torch;
- Torch: анализ изображений с помощью сверточных и LSTM-сетей;
- Сравнение: LSTM или управляемые рекуррентные модули (GRU);
- Wiki: рекурсивные нейронные сети;
- Deeplearning4j: рекурсивная тензорная нейронная сеть (RNTN);
- Deeplearning4j: использование word2vec, глубоких сетей доверия и RNTN для анализа текста;
Ограниченная машина Больцмана
- Deeplearning4j: руководство для начинающих по ограниченной машине Больцмана;
- Deep Learning: еще одно хорошее руководство;
- Статья: введение в ограниченные машины Больцмана;
- Джеффри Хинтон: руководство по обучению ограниченных машин Больцмана;
- GitHub: ограниченные машины Больцмана на R;
- Deeplearning4j: руководство по созданию глубоких сетей доверия;
Автокодировщики
- Эндрю Ын: разреженные автокодировщики;
- Deeplearning4j: руководство по глубоким автокодировщикам;
- Deep Learning: шумоподавляющие автокодировщики;
- Deep Learning: вложенные шумоподавляющие автокодировщики;
Сверточные сети
- Awesome Deep Vision: список ресурсов по машинному зрению;
- Deeplearning4j: введение в сверточные нейронные сети;
- Статья: применение сверточных сетей для обработки естественного языка;
- Стэнфорд: применение сверточных сетей для распознавания образов;
- Стэнфорд: библиотека JavaScript для работы со сверточными сетями;
- Статья: применение сверточных сетей для распознавания лиц;
- Статья: создание классификатора фотографий;
- Kaggle: интервью с Яном Лекуном;
- Статья: визуализация сверточных сетей;
Обработка естественного языка
- GitHub: список ресурсов по обработке речи и естественного языка;
- Статья: обработка естественного языка с помощью глубоких нейронных сетей на Torch;
- Руководство: что такое TF-IDF;
- Стэнфорд: интересные проекты, связанные с обработкой естественного языка;
- Google: основы обработки естественного языка;
- Руководство: частичное обучение для обработки естественного языка в графах;
- Модель bag-of-words;
- Руководство: классификация текста с помощью модели bag-of-words;
- Тематическое моделирование;
- Латентное размещение Дирихле (ЛРД);
- Латентно-семантический анализ (ЛСА);
- Вероятностный латентно-семантический анализ (ВЛСА);
- Статья: что такое ЛРД;
- Статья: еще одно хорошее объяснение, что такое ЛРД;
- Статья: интуитивно понятное объяснение ЛРД;
- Quora: в чем разница между ЛСА и ЛРД;
- Принстон: латентное размещение Дирихле;
- Quora: интуитивно понятное объяснение распределения Дирихле;
- Статья: тематическое моделирование – это просто;
- Статья: обновление ЛРД-модели в реальном времени;
- Статья: обновление ЛРД-модели в реальном времени со Spark;
- Статья: ЛРД на Scala (Часть 1);
- Статья: ЛРД на Scala (Часть 2);
- Статья: сегментация ленты событий Twitter с применением тематического моделирования;
- Статья: построение тематической модели подписчиков в Twitter;
- Google: word2vec;
- Wiki: модель bag-of-words;
- Статья: тщательный анализ моделей skip-gram;
- Руководство: skip-gram-моделирование;
- Kaggle: векторное представление слов;
- Статья: как работать с word2vec;
- Deeplearning4j: алгоритм word2vec;
- Quora: как работает word2vec;
- Quora: об архитектурах CBOW и skip-gram простыми словами;
- Quora: в чем разница между BOW и CBOW;
- Quora: что лучше для word2vec – CBOW или skip-gram;
- Wiki: расстояние Левенштейна;
- Статья: классификация текстов с помощью модели bag-of-words;
- Статья: изучение языка с помощью методов обработки естественного языка и обучения с подкреплением;
- Kaggle: векторное представление слов и bag-of-words (Часть 1);
- Kaggle: векторное представление слов и bag-of-words (Часть 2);
- Kaggle: векторное представление слов и bag-of-words (Часть 3);
- Руководство: предсказание слов в обработке естественного языка;
- Статья: подробнее о skip-gram-моделировании;
Компьютерное зрение
- Awesome Computer Vision: список материалов по компьютерному зрению;
- Awesome Deep Vision: список ресурсов по распознаванию образов;
Метод опорных векторов
- Quora: метод опорных векторов простым языком;
- Руководство: метод опорных векторов;
- Руководство: метод опорных векторов;
- Презентация: метод опорных векторов;
- Статья: знакомство с методом опорных векторов;
- Статья: сравнение метода опорных векторов и нейронных сетей;
- Статья: алгоритмы оптимизации в методе опорных векторов;
- LIBSVM: библиотека для классификации методом опорных векторов;
- Quora: что такое ядра в машинном обучении;
- Quora: гауссово ядро в методе опорных векторов;
- Wiki: шкалирование по Платту;
- Статья: калибровка классификаторов с использованием шкалирования по Платту;
Обучение с подкреплением
- Awesome Reinforcement Learning: список ресурсов по обучению с подкреплением;
- Руководство: обучение с подкреплением (Часть 1);
- Руководство: обучение с подкреплением (Часть 2);
Деревья решений
- Wiki: деревья решений;
- FAQ: деревья решений;
- Статья: решающие леса и деревья;
- Статья: методы, основанные на деревьях решений в R;
- Статья: как работают деревья решений;
- Статья: алгоритмы и их суть;
- Презентация: деревья решений;
- Статья: использование суррогатов с целью улучшения неполных наборов данных;
- Статья: деревья решений;
- Wiki: отсечение ветвей деревьев решений;
- Wiki: процесс обратный отсечению ветвей;
- Сравнение: алгоритмы CART и CTREE;
- Сравнение: алгоритмы CHAID и CART;
- Сравнение: алгоритмы CART и CHAID;
- Статья: еще одно сравнение различных алгоритмов;
- Wiki: рекурсивное секционирование;
- Статья: алгоритм CART;
- CART: оценка важности переменной;
- FAQ: рекурсивное секционирование;
- Статья: пакет party в R;
- Wiki: автоматический детектор взаимодействия Хи-квадрат (CHAID);
- Статья: введение в CHAID;
- Руководство: CHAID;
MARS
- Wiki: многомерные адаптивные регрессионные сплайны (MARS);
Вероятностные деревья решений
Случайный лес
- GitHub: список ресурсов по теме случайного леса;
- Kaggle: настройка параметров алгоритма случайного леса;
- Презентация: ошибка out-of-bag;
- Статья: оценка алгоритмов случайного леса для анализа выживаемости;
- FAQ: случайный лес;
Алгоритмы бустинга деревьев
- Статья: зачем нужен бустинг;
- Wiki: бустинг;
- Чен Тьянци: «растущие» деревья;
- Wiki: градиентный бустинг;
- Презентация: обобщенная усиленная регрессионная модель GBM на R;
- FAQ: GBM;
- Kaggle: GBM или xgboost;
- Kaggle: настройка параметров xgboost;
- Kaggle: xgboost или GBM;
- Обзор: xgboost;
- Wiki: AdaBoost;
- AdaBoost: работа с разряженным набором данных;
- Пакет: adaBag;
- AdaBoost: руководство;
Композиционное обучение
- Wiki: композиционное обучение;
- Kaggle: руководство по композиционному обучению;
- Статья: введение в композиционное обучение;
- Статья: композиционное обучение;
- Композиционные модели на R;
- Kaggle: предсказание свойств грунта в Африке;
- Сравнение: бустинг и бэггинг;
Стэкинг
- Статья: стэкинг, блендинг и многоярусное обобщение;
- Статья: многоярусное обобщение;
- Статья: когда следует применять многоярусное обобщение;
- Статья: многоярусное обобщение;
Размерность Вапника — Червоненкиса
- Wiki: размерность Вапника – Червоненкиса;
- Quora: интуитивно понятное объяснение размерности Вапника – Червоненкиса;
- Видео: что такое размерность Вапника – Червоненкиса;
- Статья: знакомство с размерностью Вапника – Червоненкиса;
- FAQ: размерность Вапника – Червоненкиса;
Байесовские методы машинного обучения
- GitHub: знакомство с байесовскими методами машинного обучения;
- Видео: должны ли все методы машинного обучения быть байесовскими;
- Руководство: байесовская оптимизация;
- Статья: байесовский вывод и глубокое обучение;
- Статья: байесовская статистика простыми словами;
- GitHub: фильтры Калмана и Байеса на Python;
- Wiki: цепь Маркова;
Частичное обучение
- Wiki: частичное обучение;
- Руководство: частичное обучение;
- Иерархическая кластеризация (таксономия);
- Видео-руководство: частичное обучение;
- Статья: обучение с учителем, без учителя и частичное обучение;
- Статья: объединение возможностей активного и частичного обучения с использованием модели гауссовских случайных полей;
- Статья: использование модели гауссовского случайного поля в частичном обучении;
- Статья: улучшенный алгоритм частичного обучения;
Оптимизация
- Статья: оптимизация портфеля активов на R с применением квадратичного программирования;
- Статья: алгоритмы оптимизации в машинном обучении;
- Видео: алгоритмы оптимизации в машинном обучении;
- Статья: алгоритмы оптимизации в анализе данных;
- Видео: лекции по оптимизации;
- Статья: алгоритмы оптимизации для метода опорных векторов;
- Статья: взаимосвязь проблем оптимизации и машинного обучения;
Дополнительно
- GitHub: коллекция руководств по использованию R в науке о данных.
P.S. В нашем блоге мы пишем о разработке систем связи и о первых шагах на пути к продвинутому программированию. Впереди еще много интересного, подписывайтесь и не пропускайте наши новые материалы, друзья.
Автор: Университет ИТМО