Рубрика «big data» - 30

Подборка рабочих примеров обработки данных

2019-07-20 в 16:14, admin, рубрики: big data, data mining, python, визуализация, машинное обучение

Привет, читатель.

По стопам моего первого поста подборки датасетов для машинного обучения — сделаю подборку относительно свежих датасетов с рабочими примерами по обработке данных. Ведь ни для кого не секрет, что обучение на хороших примерах проходит эффективнее и быстрее. Посмотрим, что интересного нам смогут показать одни из лучших примеров по обработке данных.

Схема работы с текущим постом унаследуется от моего поста про лучшие блокноты по ML и DS, а именно — сохранил в закладки → передал коллеге.

+ бонус в конце статьи — крутой курс от ФПМИ МФТИ.

Итак, давайте приступим.

Подборка датасетов с рабочими примерами обработки данных:

Suicide Rates Overview 1985 to 2016 — сравнение социально-экономической информации с показателями самоубийств по годам и странам.

Примеры обработки:

Читать полностью »

Как выглядят банки изнутри

2019-07-19 в 13:02, admin, рубрики: AFS, aml, anti-fraud system, anti-money laundering, big data, data mining, анализ данных, банки, Большие данные, финансы и банковская сфера

Так выглядит банк изнутри. Данная визуализация в три этапа основана на реальных клиентских операциях банка с отозванной лицензией.

В качестве источника данных — главная бухгалтерская книга банка. Используя теорию графов, выделяем всех его клиентов в качестве узлов, а операции по счёту используем как ребра. Сумма операции, в таком случае, будет являться весом ребра.
Читать полностью »

Извлечение данных при машинном обучении

2019-07-19 в 12:15, admin, рубрики: big data, BigData, data mining, data science, jupyter notebook, mashine learning, python, Блог компании Plarium, дата-майнинг, машинное обучение, наука о данных, новичкам, сбор данных

Хотите узнать о трех методах получения данных для своего следующего проекта по ML? Тогда читайте перевод статьи Rebecca Vickery, опубликованной в блоге Towards Data Science на сайте Medium! Она будет интересна начинающим специалистам.

Извлечение данных при машинном обучении - 1

Получение качественных данных — это первый и наиболее важный шаг в любом проекте по машинному обучению. Специалисты Data Science часто применяют различные методы получения датасетов. Они могут использовать общедоступные данные, а также данные, доступные по API или получаемые из различных баз данных, но чаще всего комбинируют перечисленные методы.

Цель этой статьи — представить краткий обзор трех разных методов извлечения данных с использованием языка Python. Я расскажу, как делать это с помощью Jupyter Notebook. В своей предыдущей статье я писала о применении некоторых команд, запускаемых в терминале.Читать полностью »

Яндекс умеет определять доход пользователей, но не будет этого делать. Mediascope определял. ВК/Ali — возможно будут

2019-07-18 в 9:55, admin, рубрики: aliexpress, big data, Mediascope / TNS, Вконтакте, Доверие к соцсетям, Медиа, мобильные приложения, патенты, персональные данные, соцсети, Текучка, Цены / Тарифы, яндекс, метки: aliexpress, big data, Mediascope / TNS, Вконтакте, Доверие к соцсетям, медиа, мобильные приложения, патенты, персональные данные, соцсети, Текучка, Цены / Тарифы, яндекс

«Яндекс не использует и не планирует использовать запатентованную компанией технологию, которая может выявлять заработок пользователей мобильных устройств по профессиям и по тому, какими сервисами они пользуются», — заявила пресс-служба поисковика.

Ранее днём «Известия» сообщили, что поисковик в 2017-м подал заявку, Читать полностью »

Белый шум рисует черный квадрат

2019-07-17 в 23:43, admin, рубрики: big data, data analysis, data mining, machine learning, Алгоритмы, анализ данных, декомпозиция баз данных, математика, открытые данные, теорема Эрдёша-Реньи

Любой аналитик, в начале своей работы, проходит ненавистный этап определения идентификации параметров распределения. Потом, с наработкой опыта, для него согласование полученных остаточных разбросов означает, что какой-то этап, в анализе Big Data, пройден и можно двигаться дальше. Уже нет необходимости проверять сотни моделей на соответствие различным уравнениям регрессии, искать отрезки с переходными процессами, составлять композицию моделей. Терзать себя сомнениями: «Может есть, еще какая-нибудь модель, которая больше подходит?»
Подумал: «А что, если пойти от противного. Посмотреть, что может сделать белый шум. Может ли белый шум создать, что-то, что наше внимание сопоставит со значимым объектом из нашего опыта?»
Белый шум рисует черный квадрат - 1
Рис. Белый шум (файл взят из сети, размер 448х235).

По этому вопросу рассуждал так:
1. Какова вероятность, что появится горизонтальные и вертикальные линии, заметной длины?
2. Если они могут появиться, то какова вероятность, что они совпадут своим началом по одной из координат и составят прямоугольную фигуру?
Дальше по тексту, объясню, как эти задачи связались с анализом Big Data.
Читать полностью »

ok.tech: Data Толк #2

2019-07-17 в 9:17, admin, рубрики: big data, data mining, data science, анализ данных, Блог компании Одноклассники, образование в ит

ok.tech: Data Толк #2 - 1

7 августа в московском офисе Одноклассников состоится ok.tech: Data Толк #2, в этот раз мероприятие будет посвящено образованию в Data Science. Ни для кого не секрет, что сейчас вокруг работы с данным такой хайп, что только ленивый не задумывался над получением образования в области датасаенса. Кто-то считает, что без университетского образования стать датасаентистом – невозмножно, есть сторонники мнения, что можно обучиться работе с данными с помощью курсов, другие придерживаются позиции что хороший датасаентист это – практика и разносторонний подход. Мы соберем на своей площадке представителей разных мнений и дадим им возможность подискутировать на эту тему. Мероприятие пройдет в формате дискусси между спикерами, в этот раз с нами будут Евгений Соколов (ВШЭ, Яндекс.Дзен), Дмитрий Бугайченко (OK.ru), Пётр Ермаков (Lamoda, DataGym), Дмитрий Коробченко (Nvidia, GeekBrains, SkillBox, Digital October) и Виктор Кантор (Mail.ru Group). Мы приглашаем всех, кому интересна тема образования в DataScience присоединиться к мероприятию и высказать свою точку зрения. Учились на курсах, приходите и расскажите что это вам дало, считаете, что без PHD в анализе данных нельзя, приходите и расскажите почему, считаете, что датасентист должен уметь писать в прод, приходите – обсудим.

→ Регистрация на меропритие

Под катом мнения экспертов и расписание.
Читать полностью »

Галерея лучших блокнотов по ML и Data Science

2019-07-16 в 21:32, admin, рубрики: big data, data mining, data science, jupyter, ml, python, машинное обучение

Привет, читатель.

Представляю пост который идёт строго (!) в закладки и передаётся коллегам. Он с подборкой примечательных файлов формата Jupyter Notebook по Machine Learning, Data Science и другим сферам, связанным с анализом данных. Эти блокноты Jupyter, будут наиболее полезны специалистам по анализу данных — как обучающимся новичкам, так и практикующим профи.

Итак, приступим.

Вводные курсы в Jupyter Notebook

Читать полностью »

Подборка сервисов на основе ИИ, которые облегчат вам жизнь уже сегодня (1-3)

2019-07-14 в 20:34, admin, рубрики: big data, data mining, искусственный интеллект, машинное обучение, подборка, Программирование

Привет, читатель. Думаю, что ненужно рассказывать в который раз о том, что такое искусственный интеллект, какую пользу он несёт и для чего нужен. Перейду сразу к делу. Ниже собрал подборку сервисов на основе ИИ, которые могут упростить вам жизнь уже сегодня.

Свою статью я разделю на 3 части:

ИИ инструменты для личного использования;
Инструменты ИИ для бизнеса;
Инструменты ИИ для отраслевых бизнесов.

Меньше слов, больше данных.

Подборка сервисов на основе ИИ для личного использования:

Дом

Bridge Kitchen — помощник на кухне для пошагового приготовления еды;
UnifyID — автоматическая аутентификация пользователя в цифровой и физической среде.

Читать полностью »

План вернулся в экономику

2019-07-13 в 18:43, admin, рубрики: big data, будущее, будущее здесь, демократия, Исследования и прогнозы в IT, планирование, экология, экономика

Большие данные (big data) создали новые возможности для посткапиталистического будущего. Но, чтобы ими воспользоваться, нашей демократии нужно подрасти.

Когда СССР распался, вопрос экономического планирования, казалось, был решён раз и навсегда. В борьбе рынка и плана, рынок одержал решительную победу. Спустя тридцать лет после падения берлинской стены, вердикт больше не так однозначен. По всему миру нарастают академические и политические диспуты об экономическом планировании

От переводчика: технологии меняют жизнь, даже некоторые, незыблемые ранее, положения экономики могут пасть. Вашему вниманию — краткая заметка о том, почему экономическое планирование снова на слуху.

Среднее время чтения: 5 минут

Читать полностью »

WSJ: $5 млрд — размер штрафа для Facebook из-за Cambridge Analytica

2019-07-13 в 10:13, admin, рубрики: big data, Cambridge Analytica, Facebook, базы данных, выборы, Госвеб, Доверие к соцсетям, Дональд Трамп, Медиа, персональные данные, политика, соцсети, США, Текучка, утечки, метки: big data, Cambridge Analytica, Facebook, базы данных, выборы, Госвеб, Доверие к соцсетям, Дональд Трамп, медиа, персональные данные, политика, соцсети, США, Текучка, утечки

По данным WSJ, власти США одобрили соглашение с компанией Марка Цукерберга о выплате штрафа для урегулирования скандала с утечкой данных через компанию Cambridge Analytica [Roem.ru: термин «утечка» в данном случае политизированный шаблон, а не IT-шный факт]. Это рекордная сумма для технологических компаний в Штатах, передал РБК.

Cambridge Analytica, Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 30

Подборка рабочих примеров обработки данных

Подборка датасетов с рабочими примерами обработки данных:

Как выглядят банки изнутри

Извлечение данных при машинном обучении

Яндекс умеет определять доход пользователей, но не будет этого делать. Mediascope определял. ВК/Ali — возможно будут

Белый шум рисует черный квадрат

ok.tech: Data Толк #2

Галерея лучших блокнотов по ML и Data Science

Вводные курсы в Jupyter Notebook

Подборка сервисов на основе ИИ, которые облегчат вам жизнь уже сегодня (1-3)

Подборка сервисов на основе ИИ для личного использования:

План вернулся в экономику

WSJ: $5 млрд — размер штрафа для Facebook из-за Cambridge Analytica

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 30

Подборка датасетов с рабочими примерами обработки данных:

Вводные курсы в Jupyter Notebook

Подборка сервисов на основе ИИ для личного использования:

Новости

Актуальные темы

Архив