При изучении Data Science, я решил составить для себя конспект по основным приемам, используемым в анализе данных. В нем отражены названия методов, кратко описана суть и приведен код на Python для быстрого применения. Готовил конспект для себя, но подумал, что кому-то это также может быть полезно, например, перед собеседованием, в соревновании или при запуске нового проекта. Рассчитано на аудиторию, которая в целом знакома со всеми этими методами, но имеет необходимость освежить их в памяти. Статья под катом.
Читать полностью »
Рубрика «big data» - 15
Конспект по методам классификации данных
2020-03-06 в 8:49, admin, рубрики: big data, анализ данных python, машинное обучение, ПитонClickHouse – визуально быстрый и наглядный анализ данных в Tabix. Игорь Стрыхарь
2020-03-06 в 7:26, admin, рубрики: apache zeppelin, big data, cassandra, clickhouse, clickhouse-grafana, DataGrip, devops, druid, infiniDB, redash.io, Superset Airbnb, Tabix, Администрирование баз данных, визуализация данныхПредлагаю ознакомиться с расшифровкой доклада 2017 года Игорь Стрыхарь «ClickHouse – визуально быстрый и наглядный анализ данных в Tabix».
Веб-интерфейс для ClickHouse в проекте Tabix.
Основные возможности:
- Работает с ClickHouse напрямую из браузера, без необходимости установки дополнительного ПО;
- Редактор запросов с подсветкой синтаксиса;
- Автодополнение команд;
- Инструменты графического анализа выполнения запросов;
- Цветовые схемы на выбор.
С чего начинается Elasticsearch
2020-02-25 в 16:10, admin, рубрики: big data, elasticsearch, поисковые системы, поисковые технологии, распределенные системыElasticsearch, вероятно, самая популярная поисковая система на данный момент с развитым сообществом, поддержкой и горой информации в сети. Однако эта информация поступает непоследовательно и дробно.
Самое первое и главное заблуждение — "нужен поиск, так бери эластик!". Но в действительности, если вам нужен шустрый поиск для небольшого или даже вполне себе крупного проекта, вам стоит разобраться в теме поподробней и вы откажетесь от использования именно этой системы.
Искусственный интеллект появится в школьной программе и найдёт москвичей по татуировкам
2020-02-25 в 15:38, admin, рубрики: big data, Госвеб, искусственный интеллект, Москва, новая экономика, метки: big data, Госвеб, искусственный интеллект, Москва, новая экономикаВ 2021 году школьники начнут проходить искусственный интеллект, узнали СМИ из проекта дорожной карты развития ИИ в России. К 2024 году он будет включен в программы в половине школ. С 2021 года ежегодно будет проводиться всероссийская олимпиада по ИИ, дающая преференции победителям при поступлении в вузы.
Карту разработали Сбербанк и РФПИ (Российский фонд прямых инвестиций). Она также предусматриваетЧитать полностью »
29 февраля в ЦДП состоится X5 RetailHero: как попасть на первую конференцию Х5 по Data Science и разработке
2020-02-25 в 11:30, admin, рубрики: AI, big data, data science, retail, базы данных, искусственный интеллект, разработка, риск-менеджмент, хакатон29 февраля в «Цифровом деловом пространстве» (ЦДП, Москва, улица Покровка 47) состоится конференция X5 Retail Hero, посвященная Data Science и разработке в сфере ритейла. Участие бесплатное, необходима предварительная регистрация.
Конференция приурочена к финалу одноименного соревнования X5 Retail Group. Между выступлениями экспертов организаторы объявят победителей, представивших лучшие решения для цифровизации розничной торговли.
Почему базы данных NoSQL — плохое решение для современных приложений
2020-02-24 в 6:42, admin, рубрики: big data, mysql, nosql, sql, базы данных, Блог компании Издательский дом «Питер», высокая производительность, Исследования и прогнозы в IT, распределенные системыЗдравствуйте.
Сегодня мы предлагаем вашему вниманию перевод статьи из блога MemSQL, которая исходно является рекламной (посвящена достоинствам MemSQL, обновлена по состоянию на начало января 2020 года). Но мы решили все-таки перевести ее в сокращенном виде, поскольку она подробно объясняет, почему мы пока так и не собрались издавать ничего ни по MongoDB, ни по Cassandra, ни по прочим нереляционным базам данных. Может быть, мы были правы, ограничившись весьма успешной книгой "MySQL по максимуму".
Читать полностью »
«Яндекс», «Ростелеком» и Mail.ru выступили против законопроекта Минкомсвязи о регулировании Big Data в РФ
2020-02-22 в 0:00, admin, рубрики: big data, IoT, Законодательство в IT, законопроекты, Минкомсвязи, Россия
Вчера стало известно о том, что Российская Ассоциация больших данных не согласилась с положениями законопроекта Минкомсвязи о регулировании больших данных. Документ был предложен ведомством в феврале этого года. Представители Ассоциации утверждают, что новый законопроект противоречит Конституции, а именно — нарушает прописанные в ней свободы экономической деятельности и распространения информации.
Кроме того, участники рынка считают, что этот документ повлечет за собой снижение темпов развития технологий ИИ в стране.
Читать полностью »
Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 2. Практическая
2020-02-21 в 15:43, admin, рубрики: big data, data accuracy, data analysis, data anomaly, data cleansing, data completeness, data consistency, data engineering, data mining, data preparation, data quality, data structures, dirty data, Алгоритмы, грязные данные, обработка данных, открытые данные, очистка данныхВ части первой описывалось, что данная публикация сделана на основе датасета результатов кадастровой оценки объектов недвижимости в Ханты-Мансийском АО.
Практическая часть представлена в виде шагов. Проводилась вся очистка в Excel, так как самый распространенный инструмент и описанные операции может повторить большинство специалистов знающих Excel. И достаточно неплохо подходит для работы в «рукопашную».
Нулевым этапом поставлю работы по запуску, сохранению файла, так как он размером 100 мб, то при количестве этих операций десятки и сотни на них уходит существенное время.
Открытие, в среднем, — 30 сек.
Сохранение – 22 сек.
Первый этап начинается с определения статистических показателей датасета.
Таблица 1. Статпоказатели датасета
Читать полностью »
Коллектив из бывших инженеров АНБ США и Amazon создает «GitHub для данных»
2020-02-21 в 14:08, admin, рубрики: Alconost, big data, data, github, алконост, Блог компании Alconost, гитхаб, данныеОколо полугода назад у нескольких инженеров и разработчиков с опытом работы в Агентстве национальной безопасности США, Google и Amazon Web Services появилась любопытная идея.
Для создания новых функций и изобретения чего-то нового разработчикам и инженерам нужны данные. Но эти данные часто конфиденциальны и недоступны — из-за бюрократии и разного рода нормативных требований, — и чтобы получить одобрение на их использование, может понадобиться несколько недель. Поэтому недавно был запущен проект Gretel — стартап, цель которого — помочь разработчикам безопасно обмениваться конфиденциальными данными и совместно взаимодействовать с ними в режиме реального времени.
Алекс Уотсон, один из сооснователей проекта, говорит о предназначении новой платформы так: «Это не такая нишевая задача, как может показаться. Разработчики любой компании могут столкнуться с этой проблемой». Зачастую разработчикам нужен не полный доступ к банку пользовательских данных, а лишь фрагмент или выборка для работы. Во многих случаях достаточно будет данных, которые просто выглядят как реальные пользовательские данные.
Создать мощный курс Machine Learning: миссия выполнена
2020-02-21 в 12:28, admin, рубрики: big data, data science, machine learning, Блог компании OTUS. Онлайн-образование, Карьера в IT-индустрии, курсы, машинное обучение, образование онлайн
У нас было 2 неудачных запуска, 169 студентов, 8 сердитых отзывов, 3 смены названий, слишком много теории и мало реальной практики. Не то чтобы это было полным провалом, но если начал обучать Data Science, надо сделать это идеально. Сегодня вы услышите историю о том, как мы развивали в OTUS направление анализа данных и какие на этом пути допустили, а потом исправили ошибки.
Читать полностью »