Добрый день, уважаемые читатели.
Представляю вашему вниманию дайджест новостей и полезных материалов из мира анализа данных. Предыдущий дайджест пользовался большой популярностью и поэтому я решил сделать их регулярными. Периодичность таких подборок будет 1 раз в 2 недели.
В сегодняшней подборки вы узнаете что общего у статистики и науке об анализе данных, как можно выявить ложную корреляцию, а также какие алгоритмы правят современным миром. Помимо этого вы получите небольшую шпаргалки по методам машинного обучения и NoSQL базам данных, ну и еще много чего интересного.
Теория
- Список NoSQL баз данных (EN)
Полный перечень NoSQL БД, с разбивкой по категориям и кратким описанием. - 10 вещей из статистики применимые при анализе больших данных(EN)
В статье описаны общие подходы используемые в статистике и анализе больших данных. - Ложные корреляции в больших данных (EN)
Еще одна статья на тему отличия ложных корреляций от истинных. Рассматривается 6 видов корреляций. - Развитие в анализе данных (EN)
Выделены основные вехи развития себя как специалиста по анализу данных. На мой взгляд статья будет полезна тем, кто недавно начал заниматься анализом данных, но уже обладает базовыми представлениями об этом. - Станет ли Python лидером среди языков для анализа данных (EN)
В статье показана динамика развития Python, в качестве инструмента для анализа данных, А также приводятся размышления, почему он сейчас пользуется большой популярностью. - 3 интересных, но малоизвестных, языка программирования (EN)
Приводятся краткие описания языков: Julia, Scala, Erlang. - 3 тенденции в хранилищах данных для наблюдения (EN)
В статье выделяется следующие тенденции: взятие данных из разных источников, прямой доступ аналитиков к данным и скорость работы с ними. - 7 основных правил для проекта с большими данными (EN)
Перечислены моменты, на которые надо обратить внимание при начале работы с большими данными. - Строим команду аналитиков данных (EN)
В статье показано, каких специалисты должны ходить в состав команды и почему. В основном разговор идет о 3 людях: специалист по работе с клиентами, контекстный аналитик, визуализатор. - 5 вопросов которые надо задать перед измерением чего-либо (EN)
Показаны вопросы которое надо задать себе или закачку, перед началом анализирования какого-либо показателя. - Жизнь аналитика данных в небольших странах (EN)
В статье описаны ряд трудностей, а также пути их решения, при работе аналитиком в небольших странах, таких как Бельгия, Швейцария и т.д. - The Graphviz Cookbook (EN)
Сборник рецептов по использованию Graphviz для визуализации данных. - 10 советов аналитикам (EN)
Эксперты в области аналитики делятся советами, которые помогут вам при анализе. - Трудности использования SQL при работе OLAP (EN)
В статье описаны проблемы с которыми можно столкнуться при создании систем бизнес аналитика. - Априорные вероятности и распространенность «неожиданных» эффектов (EN)
Интересная статья по оценке p-value и его интерпретации. - Простая байесовская сеть на основе цепей маркова (EN)
Показано использование PyMC для построения такой сети. - Справка по структурам данных (EN)
- Аналитики данных: прекратите искать, начните пользоваться(EN)
Интересная статья, в которой объясняется, как можно заменить аналитика данных если его нет в штате. - Стройте аналитические модели на нормальном распределении (EN)
В статье описаны преимущества указанного подхода. - SAS делает свои курсы свободными (EN)
Приятная новость для желающих ознакомиться с SAS. - BigML делает машинное обучение проще (EN)
- 5 отличных ресурсов для изучения линейной алгебры (EN)
- 4 важных применения эксцесса распределения (EN)
- Инфорграфика противостояния языков для анализа данных (EN)
- 4 вещи, которые можно получить из данных заказчика (EN)
Кратко рассмотрено, какую выгоду могут принести сбор и анализ данных о ваших клиентах. - 20 туториалов для аналитика данных (EN)
- Что скрывают нейронные сети? (RU)
- А что действительно скрывают нейронные сети? (RU)
- Шпаргалка по методам машинного обучения (EN)
Шпаргалка создана для пакета scikit-learn. - Что такое глубокое обучение(EN)
- Советы по построению системы аналитики «с нуля» (EN)
Литература
- Analytics in a Big Data World (EN)
Руководство по анализу данных в различных отраслях. - Outlier Detection for Temporal Data (EN)
- Подборка из 15 книг по машинному обучению и анализу данных(EN)
- Practical Data Science with R (EN)
- Big Data Computing (EN)
- Predictive Analytics, Data Mining and Big Data: Myths, Misconceptions and Methods (EN)
- Data Mining and Analysis — Fundamental Concepts and Algorithms(EN)
- Predictive Analytics (EN)
- Practical Machine Learning – Innovations in Recommendation (EN)
- Книги, которые должны быть у аналитика (EN)
Практика использования различных инструментов
- Изучение статистики с помощью IPython Notebook (EN)
Подборка консолей IPython демонстрирующая основные приемы анализа данных. И все это сделано в виде учебника. Для начинающих изучать анализ данных с помощью Python очень рекомендую. - Победа Бразилии на домашнем чемпионате мира (EN)
Еще одна статья посвященная предсказанию победителя грядущего ЧМ, на это раз с помощью R. - Распознование речи с помощью скрытых цепей маркова (EN)
Показано как можно использовать Python и его пакеты для этой задачи. - Определение основных цветов изображения с помощью кластеризации (EN)
Описано как выполнить эту задачу с помощью OpenCV и Python. - Введение в использование Node.js и MongoDB (EN)
Небольшой простенький пример работы с Mongo средствами Node.js. - Работа с GDELT из Python (EN)
Официальный туториал по работе с GDELT из Python. - IPython и plotly (EN)
Пример использования plotly совместно с ipython. Оформлена статья как консоль ipython notebook. - Построение рекомендательной системы c использование R (EN)
Небольшая статья о том как сделать простенькую систему рекомендаций с помощью нескольких строк кода на R. - Более 100 наборов данных для анализа (EN)
Небольшая подборка наборов данных. - Пошаговое руководство по настройке R-Hadoop (EN)
- Подборка обучающих материалов по анализу данных (EN)
Обучающие видео
- Python for Big Data Analytics (EN)
Подборка видео описывающих, как язык Python может применяться для анализа больших данных. - Введение в бизнес анализ (EN)
Онлайн лекции по основам бизнес-аналитики. - Прогнозирование в реальном времени с помощью scikit-learn и RabbitMQ (EN)
Разные статьи по теме
- 10 алгоритмов, которые правят миром (RU)
Рассказ о алгоритмах, которые чаще всего используются в настоящее время. - Список сокращений, принятых при анализе больших данных (EN)
В статье собраны сокращения, наиболее часто встречающиеся в статьях по большим данным. - Как анализ данных помогает улучшить здоровье (EN)
Интервью с директором по науке сервиса MyFitnessPal. - Предсказание чемпиона мира по футболу 2014 (EN)
В статье описана концепция предсказания, а также есть ссылка на описание методологии (которая кстати очень красиво визуализирована). - Исследование на предмет эволюции шахмат (EN)
В статье исследуется вопрос о том, как изменялось начало шахматных партий с 1850 г. до наших дней. - Моделирование катастроф с помощью машинного обучения (EN)
Интервью с Дагом Лохманном (Dag Lohmann) CEO компании KatRisk, которая занимается моделирование катастроф. - Анализ данных и статистика — одно и тоже? (EN)
Интересные размышления автор при ответе на вопрос «чем анализ данных отличается от статистики?». - Почему банки по прежнему против «больших данных» (EN)
В статье дан ряд ответов, на вопросы различных банкиров как можно применять «большие данные» в их бизнесе. - Сравнение производительности Revolution R Enterprise и SAS (EN)
Приведена презентация по сравнению возможностей вышеуказанных аналитических систем. - 250 миллионов международных событий в одном месте (RU)
- Противоборство аналитиков и статистиков (EN)
Довольно занимательная статья о том как борются между собой эти 2 лагеря. - Революция данных в цифровую эпоху (EN)
Размышления Эрика Шмидта на тему как большие данные могут изменить мир.
Автор: kuznetsovin