Добрый день, уважаемые читатели.
Пролетели 2 недели и пришло время нашей подборки материалов по анализу данных. Сегодняшний дайджест получился большим, и признаюсь често сам осилил не все, что в него попало. Но так как на вкус и цвет товарище нет, то я решил выложить всю подборку.
Итак, из сегодняшней подборки вы узнаете о том как использовать хранилища данных различных типов в одном проекте, посмотрите какими большими данными может обладать бизнес и как их анализ может ему помочь. Также в нашей подборке будет статья посвященная алгоритму FTCA, а также будет материал про сравнени различных алгоритмов машинного обучения.
Теория
- Распознавание текста в ABBYY FineReader (RU)
- Большие данные это вся информация, которая измеряется и изменяется во времени (EN)
Статья о том, что же на самое деле представляют из себя большие данные и почему прежние определения не подходят. - Описательная, предписывающая и прогнозная аналитика (EN)
В статье даны описания трех основных видов аналитика, а также произведено их сравнение - Разные подходы к использованию вероятностей и различие результата (EN)
- 4 примера характеристик больших данных (EN)
- Моделируем хранилище данных (EN)
Небольшая заметка про построение ХД. - Часы для аналитиков (EN)
Интересная визуализация того, что должен знать специалист по анализу данных. - Кластеризация клиентов в телекоме (EN)
В статье приводится кейс, на заданную в заголовке тему, а также его решение. - Первый закон анализа данных (EN)
Заметка о том, что корреляция в данных не подразумевает причинно-следственной связи. - Врожденная предвзятость больших данных (EN)
В статье приводятся примеры того, что предвзятость может быть заложена уже при сборе данных. - Как заработать на машинном обучении (EN)
Интересная статья о том как можно монетизировать свои навыки машинного обучения и анализа данных - Распознавание автомобильных номеров в деталях (RU)
- Машинное обучение это весело (EN)
Небольшое введение в машинное обучение - 10 ошибок, которые могут поставить под угрозу вашу базу данных (EN)
- 5 ошибок в больших данных о которых вы знаете (EN)
Распространенные ошибки о которых все знают, но все равно их допускают - Что такое цифровой маркетинг? (EN)
- 10 инструментов для анализа данных (EN)
- Облачные вычисления (EN)
Заметка о введении в облачные вычисления - Эффективная обработка больших данных на ежедневной основе (EN)
- 70 сайтов репозиториев с наборами данных для анализа (EN)
- 9 секретов которые вы должны знать в области статистики (EN)
То что вы учили в университете, но забыли об этом. - Используем внешние данные (EN)
Рассказ о том, где можно применить внешние данные о вашей организации, взятые из разных источников. - Про котиков, собак, машинное обучение и deep learning (RU)
- Глубокое обучение с помощью нейронных сетей. Руководство для начинающих. (EN)
- Наивный Байес и Логистическая регрессия (EN)
Сравнение двух моделей - Разработка архитектуры системы машинного обучения для расчета рисков (EN)
- Иерархическая Распознавание (EN)
Автор повествует о том, как решил создать алгоритм глубокого обучения для анализа статей из Wikipedia - Алгоритм кластеризации FTCA (EN)
- Вероятностные модели: сэмплирование (RU)
- Решение задачи линейной регрессии с помощью быстрого преобразования Хафа (RU)
Литература
- Data Analytics with R: A hands-on approach (EN)
- Understanding Machine Learning: From Theory to Algorithms (EN)
- Analytics Across the Enterprise (EN)
- Journal of the Association for Information Science and Technology (EN)
- Three Big Data Blueprints (EN)
- Подборка интересных книг по анализу данных (EN)
Практика использования различных инструментов
- Филогенез в R и Python (EN)
- Сравнение алгоритмов классификации с Python и Plotly (EN)
Консоль IPython Notebook, в котором сравниваются различные алгоритмы классификации из пакета scikit-learn. - DLib: библиотека для машинного обучения (EN)
DLib open source библиотека для языка С++, которая содержит широкий набор алгоритмов машинного обучения. - Введение в использование TVI (EN)
- Визуализация автобусных остановок с помощью R (EN)
Небольшая заметка по использованию rCharts - Django и большие данные. Часть 1 — Первичные ключи (EN)
- Анализ криминальной статистики ФРБ с Glue и plotly (EN)
Статья оформлена в виде консоли IPython Notebook
Обучающие видео
Разные статьи по теме
- Почему сайты не подсказывают клиенту то, что ему реально нужно (RU)
- Как визуализация данных может помочь в рентгенологии (EN)
Интересная статья о том, как большие данные могут быть использованы рентгенологами. - Самообслуживание BI — новая демократия в аналитике (EN)
Рассуждения на тему того, что разработчики BI систем и их пользователи должны тесно сотрудничать между собой. - Используем машинное обучения для решения своих проблем (EN)
Интересные идеи о том, где можно брать наборы данных для машинного обучения в повседневной жизни - Что лучше интуиция или анализ? (EN)
Рассуждения о том смогут ли аналитические системы принимать правильные решения без участия человека. - Семантический анализ, как помощник построения точных моделей (EN)
Рассуждения, о том как смысловой анализ модели может помочь для увеличения ее точности. - Предписывающая аналитика: то, что доктор прописал (EN)
- Большие эффекты от больших данных (EN)
Часть интервью с автором книги «Analytics in a Big Data World». - Облако и большие данные не представляют угрозы для хранилищ данных (EN)
Рассуждения автора на тему почему облака и большие данные не вытеснят хранилища данных - Подборка интересных статей из мира больших данных (EN)
Некоторые из указанных статей уже бывали в наших подборках, а часть нет. - Как пересекающиеся области помогают организация сформировать инновации (EN)
Рассуждения автора о том, что алгоритмы применимые в одних областях знаний, могут привести к хорошим результатам в других. - Отойти от глубокого обучения и получить некий прогноз (EN)
Заметка о том, что просто применение алгоритмов машинного обучения не приведет к желаемым результатам и надо проводить более глубокий анализ проблемы. - IBM Watson: где и как сейчас используются возможности суперкомпьютера? (RU)
- Разрабатываем успешную стратегию использования больших данных в бизнесе (EN)
8 пунктов которые помогут Вам применить большие данные в своем бизнесе - Почему текстовая аналитика так важна для поиска (EN)
- Большие данные в спорте (EN)
- Как аналитика поможет ИТ-директору стать более клиентоориентированным (EN)
- 5 ключевых задач больших данных в банковском секторе (EN)
- Что такое большие данные и когда они превратятся в умные данные (EN)
- Как я начал работать с машинным обучением (EN)
Автор повествует о том, как он столкнулся с машинном обучение и начал применять его в работе. - Бизнес и Большие данные: лаборатория FABERNOVEL (RU)
- В Россию пришли большие данные. Первые проекты (RU)
- Как большие данные повышают эффективность аналитики в банках (EN)
- Кто использует ваши данные (EN)
- Как большие данные могут применяться при найме персонала (EN)
- Как малые предприятия могут использовать возможности больших данных (EN)
Заметка о том, что даже малый бизнес обладает большими данными, например информацией о продажах, отзывами в соц сетях и т.д. - Использование разных хранилищ данных (EN)
Заметка о том, как можно комбинировать различные типы хранилищ данных
Автор: kuznetsovin