Рубрика «data science» - 12

Введение

Очень часто, как и в точных науках (физика, химия), так и в прочих областях (экономика, социология, маркетинг и пр.) при работе с разного рода экспериментально полученными зависимостями одной величины (Y) от другой (X) возникает потребность описать полученные данные какой-нибудь математической функцией. Этот процесс часто называют экспрессией, аппроксимацией, приближением или фиттингом.

Наиболее часто для фиттинга данных используется линейная функция:

$$display$$Y(x) = Ax + B.$$display$$

Действительно, она довольно проста математически, с ней удобно работать, смысл параметров A и B кристально ясен даже ученику средних классов школы, для нее существуют хорошо работающие математические методы, позволяющие их однозначно и быстро находить, и самое главное, многие экспериментально полученные зависимости, на самом деле, имеют в той или иной степени линейный характер.Читать полностью »

ок.tech: Data Толк #4 новогодний выпуск - 1

Если вспомнить практику анализа данных 10 лет назад и сравнить её с тем, что есть сейчас, то станет очевидно —за декаду Data Science проделал гигантский путь. Компьютерное зрение, рекомендательные системы, большие данные, искусственный интеллект — в 2010 эти слова использовались в основном только передовыми ИТ-компаниями. Никто не мог представить, что всего лишь за 10 лет эти технологии изменят мир.

Каким бы был Netflix без рекомендательной системы? Кто будет подсказывать какие сериальчики смотреть по вечерам. Или Apple music, в котором вам ничего не рассказывают про новые альбомы в стиле христианский блэк-метал? Только подумайте сколько времени займет выдача кредита без применения скоринговой системы? Представьте себе YouTube, который ничего не показывает в разделе «Рекомендованные видео». Хотя… при таком сценарии я бы больше спал, а не смотрел смешные видосы про котов до 3-х часов ночи. Мир ждет, что водителей заменят беспилотные автомобили, хотя в 2010 это было научной фантастикой. Да чего там, Tinder подбирает пары на основе алгоритмов машинного обучения, люди женятся, у них рождаются дети, если призадуматься, то окажется, что фактически это дети искусственного интеллекта Sic.

Мы многим обязаны Data Science, поэтому 16 декабря в московском офисе Одноклассников соберемся и вместе с коллегами из OK, Сбербанка, VK и X5 Retail Group проведем ок.tech: Data Толк #4 новогодний выпуск. Поговорим про итоги года и десятилетия в области анализа и обработки данных. Какой была индустрия раньше, что она представляет сейчас и какие сюрпризы нас ждут в будущем, когда Илон Маск заменит людей огромными человекоподобными роботами. Ответы на все эти вопросы вы получите на нашем мероприятии.

Приходите! Будет полезно, интересно и весело!
Зарегистрироваться на мероприятие.

Под катом вас ждут описания докладов и расписание.
Читать полностью »

Байесовская сеть, валюты и мировой кризис - 1

Эта статья про модель на основе Байесовской сети, которая описывает котировки мировых валют. Я покажу на основе простой метрики, что паттерн поведения котировок мировых валют за последние два года (с начала 2018 по конец 2019) совпадает с тем, который наблюдался в течении двух лет перед началом острой фазы мирового экономического кризиса 2008 года. Результаты моего мини исследования находятся в согласии с мнением многих экспертов о том, что сегодня мировая экономика находится на пороге масштабного экономического кризиса, который может превзойти кризис 2008 года. Также я опишу как я строил модель, где брал данные и дам свой анализ результатов работы модели на примере котировок рубля. Начну с небольшого количества технических деталей.
Читать полностью »

Привет!

Часто ли вы видите токсичные комментарии в соцсетях? Наверное, это зависит от контента, за которым наблюдаешь. Предлагаю немного поэкспериментировать на эту тему и научить нейросеть определять хейтерские комментарии.

Итак, наша глобальная цель — определить является ли комментарий агрессивным, то есть имеем дело с бинарной классификацией. Мы напишем простую нейросеть, обучим ее на датасете комментариев из разных соцсетей, а потом сделаем простой анализ с визуализацией.

Для работы я буду использовать Google Colab. Этот сервис позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, что ускорит обучение. Мне понадобится backend TensorFlow, дефолтная версия в Colab 1.15.0, поэтому просто обновим до 2.0.0.

Импортируем модуль и обновляем.

Читать полностью »

Привет!

В сентябре этого (2019) года прошли выборы Губернатора Санкт-Петербурга. Все данные о голосовании находятся в открытом доступе на сайте избирательной комиссии, мы не будем ничего ломать, а просто визуализируем информацию с этого сайта www.st-petersburg.vybory.izbirkom.ru в нужном для нас виде, проведем совсем несложный анализ и определим некоторые «волшебные» закономерности.

Обычно для подобных задач я использую Google Colab. Это сервис, который позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, это заметно ускорит пирсинг данных и их дальнейшую обработку. Мне понадобились некоторые подготовительные работы перед импортом.

%%time 
!apt update
!apt upgrade
!apt install gdal-bin python-gdal python3-gdal 
# Install rtree - Geopandas requirment
!apt install python3-rtree 
# Install Geopandas
!pip install git+git://github.com/geopandas/geopandas.git
# Install descartes - Geopandas requirment
!pip install descartes

Далее импорты.

import requests 
from bs4 import BeautifulSoup 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import geopandas as gpd
import xlrd

Описание используемых библиотек

  • requests — модуль для запроса на подключение к сайту

  • BeautifulSoup — модуль для парсинга html и xml документов; позволяет получить доступ напрямую к содержимому любых тегов в html

  • numpy — математический модуль с базовым и необходимым набором математических функций

  • pandas — библиотека для анализа данных

  • matplotlib.pyplot — модуль-набор методов построения

  • geopandas — модуль для построения карты выборов

  • xlrd — модуль для чтения табличных файлов

Настал момент собирать сами данные, парсим. Избирком позаботился о нашем времени и предоставил отчетность в таблицах, это удобно.
Читать полностью »

Семинары по облачным сервисам, ИИ, блокчейну, Data Science, микросервисам: теперь в Москве и Санкт-Петербурге - 1

Если вы еще не побывали на наших практических семинарах по популярным темам для разработчиков (ИИ, блокчейн, data science, распознавание изображений, контейнеры, чат-боты и пр.), возможно, в этом ноябре — самое время восполнить упущение. Тем более, что этой осенью мы расширили географию наших семинаров, и теперь предлагаем их не только в Москве, но и в северной столице.

Как обычно, участие в семинарах абсолютно бесплатное, а кофе-чай-пирожные за наш счет. По окончании семинара каждый его участник получит сертификат от IBM. Количество мест ограничено.

Перечень практических семинаров:

  • Чат-боты + методология разработки интеллектуальных ассистентов
  • Микросервисы, DevOps и модернизация приложений — подход IBM
  • Watson Studio – все необходимое для Data Science в облаке
  • Распознавание изображений и видео в облаке
  • Блокчейн с практическими примерами, платформа Hyperledger Fabric
  • Искусственный интеллект для ваших приложений — практический семинар по сервисам ИИ

Интересно? Просим под кат для детального описания и регистрации.
Неинтересно? Предложите свою тему в комментариях — мы рассмотрим возможность провести по ней семинар.
Читать полностью »

Перевод статьи подготовлен специально для студентов базового и продвинутого курсов «Математика для Data Science».

Понимаем теорему Байеса - 1


Теорема Байеса – одна из самых известных теорем в статистике и теории вероятности. Даже если вы не работаете с расчетами количественных показателей, вероятно, вам в какой-то момент пришлось познакомиться с этой теоремой во время подготовки к экзамену.

P(A|B) = P(B|A) * P(A)/P(B)

Вот так она выглядит, но что это значит и как работает? Сегодня мы это узнаем и углубимся в теорему Байеса.Читать полностью »

Настоящий disrupt случится совсем скоро – и ты можешь стать его участником! 21 ноября состоится первое мероприятие X5 Tech Future Night о больших данных и инновациях в развитии ритейла. За вариации на тему цифровизации будущего отвечает приглашенный гость из Японии, за привязку к настоящему – лучшие спикеры инновационного ритейла России. Мы обсудим концепции и уже реализованные проекты Next Generation Retail, столкнем лбами сторонников противоположных взглядов и подходов во время экспертных батлов, а также выберем лучшую корпоративную рок-группу.

БудущееVSНастоящее – на #X5TechFutureNight - 1
Читать полностью »

Рубрика «Читаем статьи за вас». Июль — Сентябрь 2019 - 1

Привет! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

  1. Layer rotation: a surprisingly powerful indicator of generalization in deep networks? (Université catholique de Louvain, Belgium, 2018)
  2. Parameter-Efficient Transfer Learning for NLP (Google Research, Jagiellonian University, 2019)
  3. RoBERTa: A Robustly Optimized BERT Pretraining Approach (University of Washington, Facebook AI, 2019)
  4. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks (Google Research, 2019)
  5. How the Brain Transitions from Conscious to Subliminal Perception (USA, Argentina, Spain, 2019)
  6. Large Memory Layers with Product Keys (Facebook AI Research, 2019)
  7. Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches (Politecnico di Milano, University of Klagenfurt, 2019)
  8. Omni-Scale Feature Learning for Person Re-Identification (University of Surrey, Queen Mary University, Samsung AI, 2019)
  9. Neural reparameterization improves structural optimization (Google Research, 2019)

Читать полностью »

Представляем исчерпывающую шпаргалку, где мы простыми словами рассказываем, из чего «делают» искусственный интеллект и как это все работает.

В чем разница между Artificial Intelligence, Machine Learning и Data Science?

AI для людей: простыми словами о технологиях - 1
Разграничение понятий в области искусственного интеллекта и анализа данных.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js