Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Общее
- Архитектура системы машинного обучения защиты от рисков
- SQL-подобные запросы для потоковой аналитики в реальном времени
- Анонс Apache Spark 1.3 — краткий обзор возможностей новой версии Apache Spark.
- Вышла новая версия R 3.1.3
- Apache Spark: Восхождение звезды
Теория и алгоритмы машинного обучения, примеры кода
- Машинное обучение — 2. Нелинейная регрессия и численная оптимизация — статистика по просмотрам и целевым действиям аудитории копится, и именно она послужила отправной точкой для данной статьи. В ней автор коротко рассмотрит пример нелинейной регрессии (а именно, экспоненциальной) и с ее помощью построим модель конверсии, выделив среди пользователей две группы.
- Работа с метасетевыми структурами на Python – библиотека MetaNet — в данной статье автор расскажет о некоторых предпосылках появления инструмента для моделирования метасетей.
- Визуальная линейная аппроксимация с помощью Gnuplot
- Руководство по выбору оборудования для задач Deep Learning
- Deep Learning, проклятие размерности и автоэнкодеры
- Использование Deep Learning для понимания текстовой информации
- Python: scikit-learn — обучение классификатора с нечисловыми признаками
- Как работают алгоритмы машинного обучения (часть 1). Искусственные нейроны и однослойные нейронные сети
- Реализация наивного байсовского классификатора на Apache Flink
- Машинное обучение для новичков (часть 1)
- Описание работы генетического алгоритма
- Обработка данных и машинное обучение на Python. Презентация и примеры кода
- Кластеризация методом k-средних на Python
- Введение в Microsoft Azure Machine Learning Studio
- Улучшение производительности работы Apache Spark (часть 1)
- Gravitational Clustering: Новый алгоритм обучения с учителем. Описание и реализация
Соревнования по машинному обучению
Онлайн-курсы, обучающие материалы и литература
- Книга Петера Флаха по машинному обучению переведена на русский язык
- Онлайн-курс на Coursera: Process Mining: Data science in Action
- Онлайн-курс: Text Retrieval and Search Engines
- Онлайн-курс на Coursera: Applied Regression Analysis
- Онлайн-курс от Johns Hopkins University: Mathematical Biostatistics Boot Camp 1
- Обзор бесплатной электронной книги: Data Driven: Creating a Data Culture
Видеоматериалы, подкасты
- Введение в Deep Learning. Набор видеолекций
- 10 главных ошибок при анализе данных
- Talking Machines: Эпизод 6: Интервью с Geoffrey Hinton, Yoshua Bengio и Yann LeCun: Будущее машинного обучения изнутри — шестой эпизод серии подкастов «Talking Machines», в данном случае это продолжение беседы с Geoffrey Hinton (Google, University of Toronto), Yoshua Bengio (University of Montreal) и Yann LeCun (Facebook, NYU).
Data engineering
- Airpal: веб-приложение для работы с SQL — Airpal — это веб-приложение, предназначенное для работы с базами данных, которое призвано дополнить PrestoDB от Facebook при анализе информации. И в этом посте рассказывает о его возможностях и особенностях.
- Создание Single View в MongoDb (часть 1): Обзор и анализ данных
- Обработка больших данных в Apache Spark
- Apache Spark совместно с Neo4j с использованием Docker Compose
Обзоры
- Интересное из мира R (9-15 марта 2015 г.)
- Лучшие материалы за неделю от KDnuggets.com (1 — 7 марта)
- Лучшие материалы за неделю от KDnuggets.com (8 — 14 марта)
- Еженедельный дайджест от DataScienceCentral (16 марта)
- Новости Data Science от MyDataMine.com (15 марта)
- Новости Big Data от MyDataMine.com (12 марта)
- Лучшие ресурсы за неделю от Data Elixir (№26)
- Еженедельный сборник лучших материалов от R1Soft (13 марта)
- Наиболее интересные материалы по High Scalability (13 марта)
Предыдущий выпуск: Обзор наиболее интересных материалов по анализу данных и машинному обучению №38 (2 — 8 марта 2015)
Автор: moat