Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много интересных видеоматериалов. Некоторые количество материалов посвящено теме Data Engineering. В данном выпуске достаточно много практических примеров кода на языках программирования R и Python. Как обычно много материалов посвящено алгоритмам машинного обучения.
Материалы по анализу данных и машинному обучению
Визуализация с помощью фреймворка D3
Небольшая статья про визуализацию данных с помощью популярного JS-фреймворка D3.Свой собственный поиск по изображениям
Автор рассказывает свою собственную разработку на Python, которая позволяет упростить работу с изображениями на локальном компьютере.Alex Smola рассказывает про масштабируемое машинное обучение
Это еще одна лекция из серии лекций, которые были представлены на летней школе машинного обучения Machine Learning Summer School (MLSS ’14) в Питтсбурге. В данной видеолекции известный специалист в области компьютерных наук и в том числе в области машинного обучения Alex Smola (исследователь в Google, профессор университета Карнеги-Меллона) затрагивает очень интересную и важную тему масштабирования в машинном обучении.Будущее потребления контента глазами Yahoo
Интересная о статья о планах компании Yahoo на будущее в области искусственного интеллекта и машинного обучения.21 инструмент навигации в R
Полезный набор из 21 инструмента навигации для языка программирования R, который будет полезен каждому.Развитие технологий искусственного интеллекта в Facebook завистит от этого человека
Интересная статья о Yann LeCunn — одном из самых известных специалистов в области анализа данных и машинного обучения, который является одним из основоположников Deep Learning и сейчас занимается развитием технологий машинного обучения в компании Facebook.Список ведущих исследователей в области анализа данных
Любопытный список ведущих исследователей и ученых в области анализа данных и Data Science от популярного портала KDnuggets, основанный на обработке результатов данных с Microsoft Academic Search.Выбор подмножества записей из большого файла
При работе с большим файлом в языке программирования R чаще гораздо удобнее работать с небольшим случайным подмножеством записей из всего набора данных. В данной короткой статье представлен пример кода для извлечения подмножества записей из файла.Apache Spark совместно с IPython
Небольшая статья с блога компании Cloudera об интеграции Apache Spark и IPython.Библиотека машинного обучения PyStruct
Библиотека для машинного обучения, а именно Structured Learning с использованием языка программирования Python. Библиотека создана с ориентировкой на схожесть дизайна с популярной библиотекой машинного обучения scikit-learn.Быстрое обучение с Vowpal Wabbit
Небольшая статья от Microsoft Technet Machine Learning Blog о системе машинного обучения с открытым исходным кодом Vowpal Rabbit, которую развивает Microsoft Research и которая имеет возможность интеграции с облачной платформой машинного обучения Microsoft Azure ML.Лучшие видео первой половины года по теме анализа данныхВ данной cтатье можно найти список лучших видеоматериалов первого полугодия 2014, которые были на портале IBM Big Data & Analytics Hub.
Библиотека машинного обучения QuickML
Интересная библиотека для машинного обучения с использованием языка программирования Java.SAS в облаке
В данной статье достаточно кратко рассказывается о работе SAS в облаке AWS от компании Amazon, а также об интеграции платформы SAS с некоторыми AWS-сервисами.38 статей по анализу данных, которые должен прочитать каждый
Отличный список из 38 статей по анализу данных, которые будут интересны тому, кто интересуется данной темой.Как сделать наклонные подписи на осях графика
Как сделать наклонные подписи на осях графика — вопрос, который часто возникает при использовании стандартных средств визуализации в языке программирования R. В данной статье есть небольшой пример кода, который позволяет делать подписи к осях под различными углами наклона.Как улучшить свои навыки в машинном обучении
Хорошая небольшая статья, написанная простым языком, о том как улучшить свои навыки машинного обучения.Сравнение программного обеспечения для анализа данных
Сравнительная таблица программных продуктов (R, MATLAB, SAS, STATA и SPSS) на предмет встроенной поддержки различных инструментов статистического анализа в них.18 основных инструментов семейства Hadoop
Количество новых инструментов вокруг Hadoop стремительно растет и следить за всеми новинками в данном направлении достаточно сложно. В данный статье можно найти список из 18 основных с кратким описанием каждого.Библиотека semPlot для языка R
Небольшой пример использования библиотеки semPlot, которая предназначена для визуализации данных Structural equation modeling (SEM), что позволяет исследовать различные сложные взаимосвязи между переменными.Дилемма заключённого: пример на языке R
Интересный пример реализации фундаментальной проблемы из теории игр «Дилемма заключенного» с использованием языка программирования R.Немного базовой статистики
Немного примеров простых операций из статистики с примерами на языке программирования Python.Трансформация данных из SAS в SQLite
Полезный пример кода на языке программирования Python для трансформации данных из формата SAS в формат SQLite.GrapherR: GUI-система визуализации для R
GrapherR — библиотека для языка программирования R, которая позволяет визуализировать различные данные, но что очень важно — данная библиотека имеет свой GUI.Сверточные нейронные сети
Публикация посвящена теме сверточных нейронных сетей, с достаточно глубоким погружением в материал и теорию по данной интересной и популярной теме.Так вы хотели попробовать Deep Learning?
Статья посвящена популярной теме Deep Learning, а скорее является набором полезных и интересных ресурсов по данной тематике, которые позволят лучше разобраться в теме Deep Learning.Краткое описание OpenML
Небольшая статья про набирающий популярность портал по машинному обучению OpenML, на котором в том числе можно поучаствовать в соревнованиях по машинному обучению.Исследовательский анализ данных с помощью Python и Pandas
Очень любопытная статья про исследовательский анализ данных с использованием Python и Pandas, с примерами кода на основе популярного датасета «Титаник» с Kaggle.Построение инфраструктуры для машинного обучения
В данном интересном видео с очень легким стилем изложения Джош Виллис (Senior Director of Data Science в Cloudera) расскажет над чем работает в Cloudera в данный момент и про использование машинного обучения на живой среде с большим количеством данных или Industrial Machine Learning, что зачастую бывает гораздо сложнее чем академическое машинное обучение.Новое в CDH 5.1: Кэширование чтения в HDFS
Данная статья расскажет о новой функциональности в CDH 5.1: кэширование чтения в HDFS, которая потенциально позоволит значительно увеличить скорость чтения в системах, которые используют HDFS.Нелинейная классификация в R
Восемь видов нелинейной классификации с примерами на языке программирования R.
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №8 (4 — 11 августа 2014)
Автор: moat