Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много интересных видеоматериалов. Некоторые количество материалов посвящено теме Data Engineering. В данном выпуске достаточно много практических примеров кода на языках программирования R и Python. Как обычно много материалов посвящено алгоритмам машинного обучения.
Материалы по анализу данных и машинному обучению
- Визуализация с помощью фреймворка D3
Небольшая статья про визуализацию данных с помощью популярного JS-фреймворка D3. - Свой собственный поиск по изображениям
Автор рассказывает свою собственную разработку на Python, которая позволяет упростить работу с изображениями на локальном компьютере. - Alex Smola рассказывает про масштабируемое машинное обучение
Это еще одна лекция из серии лекций, которые были представлены на летней школе машинного обучения Machine Learning Summer School (MLSS ’14) в Питтсбурге. В данной видеолекции известный специалист в области компьютерных наук и в том числе в области машинного обучения Alex Smola (исследователь в Google, профессор университета Карнеги-Меллона) затрагивает очень интересную и важную тему масштабирования в машинном обучении. - Будущее потребления контента глазами Yahoo
Интересная о статья о планах компании Yahoo на будущее в области искусственного интеллекта и машинного обучения. - 21 инструмент навигации в R
Полезный набор из 21 инструмента навигации для языка программирования R, который будет полезен каждому. - Развитие технологий искусственного интеллекта в Facebook завистит от этого человека
Интересная статья о Yann LeCunn — одном из самых известных специалистов в области анализа данных и машинного обучения, который является одним из основоположников Deep Learning и сейчас занимается развитием технологий машинного обучения в компании Facebook. - Список ведущих исследователей в области анализа данных
Любопытный список ведущих исследователей и ученых в области анализа данных и Data Science от популярного портала KDnuggets, основанный на обработке результатов данных с Microsoft Academic Search. - Выбор подмножества записей из большого файла
При работе с большим файлом в языке программирования R чаще гораздо удобнее работать с небольшим случайным подмножеством записей из всего набора данных. В данной короткой статье представлен пример кода для извлечения подмножества записей из файла. - Apache Spark совместно с IPython
Небольшая статья с блога компании Cloudera об интеграции Apache Spark и IPython. - Библиотека машинного обучения PyStruct
Библиотека для машинного обучения, а именно Structured Learning с использованием языка программирования Python. Библиотека создана с ориентировкой на схожесть дизайна с популярной библиотекой машинного обучения scikit-learn. - Быстрое обучение с Vowpal Wabbit
Небольшая статья от Microsoft Technet Machine Learning Blog о системе машинного обучения с открытым исходным кодом Vowpal Rabbit, которую развивает Microsoft Research и которая имеет возможность интеграции с облачной платформой машинного обучения Microsoft Azure ML. - Лучшие видео первой половины года по теме анализа данныхВ данной cтатье можно найти список лучших видеоматериалов первого полугодия 2014, которые были на портале IBM Big Data & Analytics Hub.
- Библиотека машинного обучения QuickML
Интересная библиотека для машинного обучения с использованием языка программирования Java. - SAS в облаке
В данной статье достаточно кратко рассказывается о работе SAS в облаке AWS от компании Amazon, а также об интеграции платформы SAS с некоторыми AWS-сервисами. - 38 статей по анализу данных, которые должен прочитать каждый
Отличный список из 38 статей по анализу данных, которые будут интересны тому, кто интересуется данной темой. - Как сделать наклонные подписи на осях графика
Как сделать наклонные подписи на осях графика — вопрос, который часто возникает при использовании стандартных средств визуализации в языке программирования R. В данной статье есть небольшой пример кода, который позволяет делать подписи к осях под различными углами наклона. - Как улучшить свои навыки в машинном обучении
Хорошая небольшая статья, написанная простым языком, о том как улучшить свои навыки машинного обучения. - Сравнение программного обеспечения для анализа данных
Сравнительная таблица программных продуктов (R, MATLAB, SAS, STATA и SPSS) на предмет встроенной поддержки различных инструментов статистического анализа в них. - 18 основных инструментов семейства Hadoop
Количество новых инструментов вокруг Hadoop стремительно растет и следить за всеми новинками в данном направлении достаточно сложно. В данный статье можно найти список из 18 основных с кратким описанием каждого. - Библиотека semPlot для языка R
Небольшой пример использования библиотеки semPlot, которая предназначена для визуализации данных Structural equation modeling (SEM), что позволяет исследовать различные сложные взаимосвязи между переменными. - Дилемма заключённого: пример на языке R
Интересный пример реализации фундаментальной проблемы из теории игр «Дилемма заключенного» с использованием языка программирования R. - Немного базовой статистики
Немного примеров простых операций из статистики с примерами на языке программирования Python. - Трансформация данных из SAS в SQLite
Полезный пример кода на языке программирования Python для трансформации данных из формата SAS в формат SQLite. - GrapherR: GUI-система визуализации для R
GrapherR — библиотека для языка программирования R, которая позволяет визуализировать различные данные, но что очень важно — данная библиотека имеет свой GUI. - Сверточные нейронные сети
Публикация посвящена теме сверточных нейронных сетей, с достаточно глубоким погружением в материал и теорию по данной интересной и популярной теме. - Так вы хотели попробовать Deep Learning?
Статья посвящена популярной теме Deep Learning, а скорее является набором полезных и интересных ресурсов по данной тематике, которые позволят лучше разобраться в теме Deep Learning. - Краткое описание OpenML
Небольшая статья про набирающий популярность портал по машинному обучению OpenML, на котором в том числе можно поучаствовать в соревнованиях по машинному обучению. - Исследовательский анализ данных с помощью Python и Pandas
Очень любопытная статья про исследовательский анализ данных с использованием Python и Pandas, с примерами кода на основе популярного датасета «Титаник» с Kaggle. - Построение инфраструктуры для машинного обучения
В данном интересном видео с очень легким стилем изложения Джош Виллис (Senior Director of Data Science в Cloudera) расскажет над чем работает в Cloudera в данный момент и про использование машинного обучения на живой среде с большим количеством данных или Industrial Machine Learning, что зачастую бывает гораздо сложнее чем академическое машинное обучение. - Новое в CDH 5.1: Кэширование чтения в HDFS
Данная статья расскажет о новой функциональности в CDH 5.1: кэширование чтения в HDFS, которая потенциально позоволит значительно увеличить скорость чтения в системах, которые используют HDFS. - Нелинейная классификация в R
Восемь видов нелинейной классификации с примерами на языке программирования R.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №8 (4 — 11 августа 2014)
Автор: moat