Рубрика «big data» - 29

Осваиваем компьютерное зрение — 8 основных шагов

2019-07-25 в 18:29, admin, рубрики: big data, data mining, python, Компьютерное зрение, машинное обучение, Программирование, теги все читают

Привет читатель.

Для тебя уже не является новостью тот факт, что все на себе попробовали маски старения через приложение Face App. В свою очередь для компьютерного зрения есть задачи и поинтереснее этой. Ниже представлю 8 шагов, которые помогут освоить принципы компьютерного зрения.

Прежде, чем начать с этапов давайте поймём, какие задачи мы с вами сможем решать с помощью компьютерного зрения. Примеры задач могут быть следующими:

Читать полностью »

5 главных алгоритмов сэмплинга

2019-07-25 в 9:04, admin, рубрики: big data, data mining, python, Алгоритмы, выборки, Программирование, сэмплинг

Работа с данными — работа с алгоритмами обработки данных.

И мне приходилось работать с самыми разнообразными на ежедневной основе, так что я решил составить список наиболее востребованных в серии публикаций.

Эта статья посвящена наиболее распространённым способам сэмплинга при работе с данными.

Читать полностью »

Математическое расследование, как подделывали выборы губернатора в Приморье 16 сентября 2018 года

2019-07-23 в 14:18, admin, рубрики: big data, colab, open data, python, z3, выборы-2018, невыборы, открытые данные, приморский край

Во втором туре выборов губернатора Приморского края 16 сентября 2018 года встречались действующий и.о. губернатора Андрей Тарасенко и занявший второе место в первом туре коммунист Андрей Ищенко. В ходе подсчета голосов на сайте ЦИК РФ отображалась информационная панель с растущим числом обработанных протоколов и голосов за кандидатов.

Публикация подробных данных по участкам на официальном сайте ЦИК www.izbirkom.ru замерла после ввода 1484 (95.74%) протоколов и не возобновлялась до самого конца. Поэтому когда в трансляции лидер голосования вдруг поменялся с Ищенко на Тарасенко, было неясно, как именно это могло произойти. В СМИ просто писали «после обработки 99,03% протоколов лидер сменился».

Однако, располагая промежуточными суммарными данными из информационной панели, с помощью простой математики и программирования можно подробно установить, что именно происходило с протоколами в ночь после выборов. Используем Python, Colab от Google и Z3 theorem prover от Microsoft Research. Ну и добьём всё обычной дедукцией.

Математическое расследование, как подделывали выборы губернатора в Приморье 16 сентября 2018 года - 1
Читать полностью »

Семь раз отмерь, один раз внедри BI инструмент

2019-07-22 в 11:56, admin, рубрики: #businessintelligence, #looker, #modeanalytics, big data, data mining, Блог компании Open Data Science, визуализация данных, Софт

Не так давно я столкнулся с задачей по переходу на новую BI-систему для нашей компании. Поскольку мне пришлось погрузиться довольно глубоко и основательно в данный вопрос, я решил поделиться с уважаемым сообществом своими мыслями на этот счет.

На просторах интернета есть немало статей на эту тему, но, к моему большому удивлению, они не ответили на многие мои вопросы по выбору нужного инструмента и были несколько поверхностны. В рамках 3 недель тестирования мы опробовали 4 инструмента: Tableau, Looker, Periscope/Sisense, Mode analytics. Про эти инструменты в основном и пойдет речь в данной статье. Сразу оговорюсь, что предложенная статья — это личное мнение автора, отражающее потребности небольшой, но очень быстро растущей IT-компании :)

Несколько слов о рынке

Сейчас на рынке BI происходят довольно интересные изменения, идёт консолидация, крупные игроки облачных технологий пытаются укрепить свои позиции путем вертикальной интеграции всех аспектов работы с данными (хранение данных, обработка, визуализация). За последние несколько месяцев произошло 5 крупных поглощений: Google купил Looker, Salesforce купил Tableau, Sisense купил Periscope Data, Logi Analytics' купил Zoomdata, Alteryx купил ClearStory Data. Не будем дальше погружаться в корпоративный мир слияний и поглощений, стоит лишь отметить, что можно ожидать дальнейших изменений как в ценовой, так и в протекционистской политике новых обладателей BI-инструментов (как недавно нас обрадовал инструмент Alooma, вскоре после покупки их компанией Google, они перестают поддерживать все источники данных, кроме Google BigQuery :) ).

Читать полностью »

Отчет с PyDaCon meetup в Mail.ru Group, 22 июня

2019-07-22 в 8:37, admin, рубрики: big data, machine learning, pydata, python, sql, Блог компании Mail.Ru Group

Отчет с PyDaCon meetup в Mail.ru Group, 22 июня - 1

В конце июня, в московском офисе прошел митап на котором собрали 2 секции: доклады по Python, состав которого был сформирован на основе общего списка докладов к PyCon Russia и PyData-трек от PyData Moscow meetup. Под катом собрали презентации, записи докладов и небольшие комментарии.
Читать полностью »

Подборка рабочих примеров обработки данных

2019-07-20 в 16:14, admin, рубрики: big data, data mining, python, визуализация, машинное обучение

Привет, читатель.

По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.

Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.

+ бонус в конце статьи — крутой курс от ФПМИ МФТИ.

Итак, давайте приступим.

Подборка датасетов с рабочими примерами обработки данных:

Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.

Примеры обработки:

Читать полностью »

Как выглядят банки изнутри

2019-07-19 в 13:02, admin, рубрики: AFS, aml, anti-fraud system, anti-money laundering, big data, data mining, анализ данных, банки, Большие данные, финансы и банковская сфера

Так выглядит банк изнутри. Данная визуализация в три этапа основана на реальных клиентских операциях банка с отозванной лицензией.

В качестве источника данных — главная бухгалтерская книга банка. Используя теорию графов, выделяем всех его клиентов в качестве узлов, а операции по счёту используем как ребра. Сумма операции, в таком случае, будет являться весом ребра.
Читать полностью »

Извлечение данных при машинном обучении

2019-07-19 в 12:15, admin, рубрики: big data, BigData, data mining, data science, jupyter notebook, mashine learning, python, Блог компании Plarium, дата-майнинг, машинное обучение, наука о данных, новичкам, сбор данных

Хотите узнать о трех методах получения данных для своего следующего проекта по ML? Тогда читайте перевод статьи Rebecca Vickery, опубликованной в блоге Towards Data Science на сайте Medium! Она будет интересна начинающим специалистам.

Извлечение данных при машинном обучении - 1

Получение качественных данных — это первый и наиболее важный шаг в любом проекте по машинному обучению. Специалисты Data Science часто применяют различные методы получения датасетов. Они могут использовать общедоступные данные, а также данные, доступные по API или получаемые из различных баз данных, но чаще всего комбинируют перечисленные методы.

Цель этой статьи — представить краткий обзор трех разных методов извлечения данных с использованием языка Python. Я расскажу, как делать это с помощью Jupyter Notebook. В своей предыдущей статье я писала о применении некоторых команд, запускаемых в терминале.Читать полностью »

Яндекс умеет определять доход пользователей, но не будет этого делать. Mediascope определял. ВК/Ali — возможно будут

2019-07-18 в 9:55, admin, рубрики: aliexpress, big data, Mediascope / TNS, Вконтакте, Доверие к соцсетям, Медиа, мобильные приложения, патенты, персональные данные, соцсети, Текучка, Цены / Тарифы, яндекс, метки: aliexpress, big data, Mediascope / TNS, Вконтакте, Доверие к соцсетям, медиа, мобильные приложения, патенты, персональные данные, соцсети, Текучка, Цены / Тарифы, яндекс

«Яндекс не использует и не планирует использовать запатентованную компанией технологию, которая может выявлять заработок пользователей мобильных устройств по профессиям и по тому, какими сервисами они пользуются», — заявила пресс-служба поисковика.

Ранее днём «Известия» сообщили, что поисковик в 2017-м подал заявку, Читать полностью »

Белый шум рисует черный квадрат

2019-07-17 в 23:43, admin, рубрики: big data, data analysis, data mining, machine learning, Алгоритмы, анализ данных, декомпозиция баз данных, математика, открытые данные, теорема Эрдёша-Реньи

Любой аналитик, в начале своей работы, проходит ненавистный этап определения идентификации параметров распределения. Потом, с наработкой опыта, для него согласование полученных остаточных разбросов означает, что какой-то этап, в анализе Big Data, пройден и можно двигаться дальше. Уже нет необходимости проверять сотни моделей на соответствие различным уравнениям регрессии, искать отрезки с переходными процессами, составлять композицию моделей. Терзать себя сомнениями: «Может есть, еще какая-нибудь модель, которая больше подходит?»
Подумал: «А что, если пойти от противного. Посмотреть, что может сделать белый шум. Может ли белый шум создать, что-то, что наше внимание сопоставит со значимым объектом из нашего опыта?»
Белый шум рисует черный квадрат - 1
Рис. Белый шум (файл взят из сети, размер 448х235).

По этому вопросу рассуждал так:
1. Какова вероятность, что появится горизонтальные и вертикальные линии, заметной длины?
2. Если они могут появиться, то какова вероятность, что они совпадут своим началом по одной из координат и составят прямоугольную фигуру?
Дальше по тексту, объясню, как эти задачи связались с анализом Big Data.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 29

Осваиваем компьютерное зрение — 8 основных шагов

5 главных алгоритмов сэмплинга

Математическое расследование, как подделывали выборы губернатора в Приморье 16 сентября 2018 года

Семь раз отмерь, один раз внедри BI инструмент

Несколько слов о рынке

Отчет с PyDaCon meetup в Mail.ru Group, 22 июня

Подборка рабочих примеров обработки данных

Подборка датасетов с рабочими примерами обработки данных:

Как выглядят банки изнутри

Извлечение данных при машинном обучении

Яндекс умеет определять доход пользователей, но не будет этого делать. Mediascope определял. ВК/Ali — возможно будут

Белый шум рисует черный квадрат

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 29

Несколько слов о рынке

Подборка датасетов с рабочими примерами обработки данных:

Новости

Актуальные темы

Архив