Рубрика «data science» - 13

Нейросеть для определения хейтеров — «не, ну это бан»

2019-11-17 в 14:49, admin, рубрики: big data, data mining, data science, python, визуализация данных, комментарии, машинное обучение, нейросети

Привет!

Часто ли вы видите токсичные комментарии в соцсетях? Наверное, это зависит от контента, за которым наблюдаешь. Предлагаю немного поэкспериментировать на эту тему и научить нейросеть определять хейтерские комментарии.

Итак, наша глобальная цель — определить является ли комментарий агрессивным, то есть имеем дело с бинарной классификацией. Мы напишем простую нейросеть, обучим ее на датасете комментариев из разных соцсетей, а потом сделаем простой анализ с визуализацией.

Для работы я буду использовать Google Colab. Этот сервис позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, что ускорит обучение. Мне понадобится backend TensorFlow, дефолтная версия в Colab 1.15.0, поэтому просто обновим до 2.0.0.

Импортируем модуль и обновляем.

Читать полностью »

Визуальное представление выборов в Санкт-Петербурге — магия накрутки голосов

2019-11-10 в 20:50, admin, рубрики: big data, data mining, data science, geopandas, pandas, python, анализ данных, визуализация данных, выборы, Геоинформационные сервисы

Привет!

В сентябре этого (2019) года прошли выборы Губернатора Санкт-Петербурга. Все данные о голосовании находятся в открытом доступе на сайте избирательной комиссии, мы не будем ничего ломать, а просто визуализируем информацию с этого сайта www.st-petersburg.vybory.izbirkom.ru в нужном для нас виде, проведем совсем несложный анализ и определим некоторые «волшебные» закономерности.

Обычно для подобных задач я использую Google Colab. Это сервис, который позволяет запускать Jupyter Notebook'и, имея доступ к GPU (NVidia Tesla K80) бесплатно, это заметно ускорит пирсинг данных и их дальнейшую обработку. Мне понадобились некоторые подготовительные работы перед импортом.

%%time 
!apt update
!apt upgrade
!apt install gdal-bin python-gdal python3-gdal 
# Install rtree - Geopandas requirment
!apt install python3-rtree 
# Install Geopandas
!pip install git+git://github.com/geopandas/geopandas.git
# Install descartes - Geopandas requirment
!pip install descartes

Далее импорты.

import requests 
from bs4 import BeautifulSoup 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import geopandas as gpd
import xlrd

Описание используемых библиотек

requests — модуль для запроса на подключение к сайту

BeautifulSoup — модуль для парсинга html и xml документов; позволяет получить доступ напрямую к содержимому любых тегов в html

numpy — математический модуль с базовым и необходимым набором математических функций

pandas — библиотека для анализа данных

matplotlib.pyplot — модуль-набор методов построения

geopandas — модуль для построения карты выборов

xlrd — модуль для чтения табличных файлов

Настал момент собирать сами данные, парсим. Избирком позаботился о нашем времени и предоставил отчетность в таблицах, это удобно.
Читать полностью »

Семинары по облачным сервисам, ИИ, блокчейну, Data Science, микросервисам: теперь в Москве и Санкт-Петербурге

2019-10-31 в 15:12, admin, рубрики: appsody, blockchain, data science, devops, IBM, kabanero, microprofile, openshift, operators, Блог компании IBM, искусственный интеллект, машинное обучение, микросервисы, облачная разработка, облачные сервисы, разработка, Чат-боты

Семинары по облачным сервисам, ИИ, блокчейну, Data Science, микросервисам: теперь в Москве и Санкт-Петербурге - 1

Если вы еще не побывали на наших практических семинарах по популярным темам для разработчиков (ИИ, блокчейн, data science, распознавание изображений, контейнеры, чат-боты и пр.), возможно, в этом ноябре — самое время восполнить упущение. Тем более, что этой осенью мы расширили географию наших семинаров, и теперь предлагаем их не только в Москве, но и в северной столице.

Как обычно, участие в семинарах абсолютно бесплатное, а кофе-чай-пирожные за наш счет. По окончании семинара каждый его участник получит сертификат от IBM. Количество мест ограничено.

Перечень практических семинаров:

Чат-боты + методология разработки интеллектуальных ассистентов
Микросервисы, DevOps и модернизация приложений — подход IBM
Watson Studio – все необходимое для Data Science в облаке
Распознавание изображений и видео в облаке
Блокчейн с практическими примерами, платформа Hyperledger Fabric
Искусственный интеллект для ваших приложений — практический семинар по сервисам ИИ

Интересно? Просим под кат для детального описания и регистрации.
Неинтересно? Предложите свою тему в комментариях — мы рассмотрим возможность провести по ней семинар.
Читать полностью »

Понимаем теорему Байеса

2019-10-28 в 14:45, admin, рубрики: artificial intelligence, big data, data science, education, machine learning, statistics, Блог компании OTUS. Онлайн-образование, математика, машинное обучение

Перевод статьи подготовлен специально для студентов базового и продвинутого курсов «Математика для Data Science».

Понимаем теорему Байеса - 1

Теорема Байеса – одна из самых известных теорем в статистике и теории вероятности. Даже если вы не работаете с расчетами количественных показателей, вероятно, вам в какой-то момент пришлось познакомиться с этой теоремой во время подготовки к экзамену.

P(A|B) = P(B|A) * P(A)/P(B)

Вот так она выглядит, но что это значит и как работает? Сегодня мы это узнаем и углубимся в теорему Байеса.Читать полностью »

БудущееVSНастоящее – на #X5TechFutureNight

2019-10-25 в 15:08, admin, рубрики: big data, data science, innovations, будущее здесь, будущее рядом, инвестиции в стартапы, информационные технологии, футурология

Настоящий disrupt случится совсем скоро – и ты можешь стать его участником! 21 ноября состоится первое мероприятие X5 Tech Future Night о больших данных и инновациях в развитии ритейла. За вариации на тему цифровизации будущего отвечает приглашенный гость из Японии, за привязку к настоящему – лучшие спикеры инновационного ритейла России. Мы обсудим концепции и уже реализованные проекты Next Generation Retail, столкнем лбами сторонников противоположных взглядов и подходов во время экспертных батлов, а также выберем лучшую корпоративную рок-группу.

БудущееVSНастоящее – на #X5TechFutureNight - 1
Читать полностью »

Рубрика «Читаем статьи за вас». Июль — Сентябрь 2019

2019-10-25 в 11:26, admin, рубрики: arxiv.org, data science, machine learning, ods, open data science, science, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение, обработка изображений

Рубрика «Читаем статьи за вас». Июль — Сентябрь 2019 - 1

Привет! Продолжаем публиковать рецензии на научные статьи от членов сообщества Open Data Science из канала #article_essense. Хотите получать их раньше всех — вступайте в сообщество!

Статьи на сегодня:

Layer rotation: a surprisingly powerful indicator of generalization in deep networks? (Université catholique de Louvain, Belgium, 2018)
Parameter-Efficient Transfer Learning for NLP (Google Research, Jagiellonian University, 2019)
RoBERTa: A Robustly Optimized BERT Pretraining Approach (University of Washington, Facebook AI, 2019)
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks (Google Research, 2019)
How the Brain Transitions from Conscious to Subliminal Perception (USA, Argentina, Spain, 2019)
Large Memory Layers with Product Keys (Facebook AI Research, 2019)
Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches (Politecnico di Milano, University of Klagenfurt, 2019)
Omni-Scale Feature Learning for Person Re-Identification (University of Surrey, Queen Mary University, Samsung AI, 2019)
Neural reparameterization improves structural optimization (Google Research, 2019)

Читать полностью »

AI для людей: простыми словами о технологиях

2019-10-21 в 16:27, admin, рубрики: artificial intelligence, data science, machine learning, Алгоритмы, Блог компании Инфосистемы Джет, искусственный интеллект, машинное обучение

Представляем исчерпывающую шпаргалку, где мы простыми словами рассказываем, из чего «делают» искусственный интеллект и как это все работает.

В чем разница между Artificial Intelligence, Machine Learning и Data Science?

AI для людей: простыми словами о технологиях - 1
Разграничение понятий в области искусственного интеллекта и анализа данных.
Читать полностью »

Рубрика «Читаем статьи за вас». Январь — Июнь 2019

2019-10-16 в 11:35, admin, рубрики: arxiv.org, data science, machine learning, ods, open data science, science, Алгоритмы, Блог компании Open Data Science, математика, машинное обучение, обработка изображений

Рубрика «Читаем статьи за вас». Январь — Июнь 2019 - 1

Статьи на сегодня:

Neural Ordinary Differential Equations (University of Toronto, 2019)
Semi-Unsupervised Learning with Deep Generative Models: Clustering and Classifying using Ultra-Sparse Labels (University of Oxford, The Alan Turing Institute, London, 2019)
Uncovering and Mitigating Algorithmic Bias through Learned Latent Structure (Massachusetts Institute of Technology, Harvard University, 2019)
Deep reinforcement learning from human preferences (OpenAI, DeepMind, 2017)
Exploring Randomly Wired Neural Networks for Image Recognition (Facebook AI Research, 2019)
Photofeeler-D3: A Neural Network with Voter Modeling for Dating Photo Rating (Photofeeler Inc., 2019)
MixMatch: A Holistic Approach to Semi-Supervised Learning (Google Reasearch, 2019)
Divide and Conquer the Embedding Space for Metric Learning (Heidelberg University, 2019)

Читать полностью »

Исследование рынка аналитиков: где учатся, какими инструментами пользуются и сколько зарабатывают

2019-10-10 в 14:24, admin, рубрики: data science, аналитика, Блог компании Нетология, Карьера в IT-индустрии, нетология

Партнеры Нетологии — компания «Нормальные исследования» совместно с рекрутинговым агентством New.HR и сервисом анонимного поиска работы GeekJob.ru — провели глубокое исследование рынка аналитиков. Среди охваченных тем — можно ли быть успешным аналитиком без профильного образования, сколько зарабатывают и какие задачи решают аналитики. Делимся самым интересным.Читать полностью »

Математика для Data Science. Новый курс от OTUS

2019-10-08 в 13:11, admin, рубрики: data science, machine learning, Блог компании OTUS. Онлайн-образование, Карьера в IT-индустрии, математика, машинное обучение, образование

Всем привет, сегодня хотим поговорить о запуске нового курса «Математика для Data Science», а точнее целой серии курсов, подробнее об этом в нашей публикации.

Математика для Data Science. Новый курс от OTUS - 1

Не все, учась в школе, понимают, как в жизни им пригодится математика. Самый распространенный ответ – считать деньги, но не все рождаются крутыми финансистами. Это понимают и учителя математики, поэтому часто преподают через пень-колоду. И вот человек школу закончил, зачем нужна математика, так и не понял, но деньги считать (и свои, и чужие) научился, посчитал и захотел работать в IT, например, в сфере машинного обучения, чтобы зарабатывать немало. Тут-то и стало ясно, для чего нужна математика! Но школа, как и институт, уже давно прошли...Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 13

Нейросеть для определения хейтеров — «не, ну это бан»

Визуальное представление выборов в Санкт-Петербурге — магия накрутки голосов

Описание используемых библиотек

Семинары по облачным сервисам, ИИ, блокчейну, Data Science, микросервисам: теперь в Москве и Санкт-Петербурге

Перечень практических семинаров:

Понимаем теорему Байеса

БудущееVSНастоящее – на #X5TechFutureNight

Рубрика «Читаем статьи за вас». Июль — Сентябрь 2019

AI для людей: простыми словами о технологиях

В чем разница между Artificial Intelligence, Machine Learning и Data Science?

Рубрика «Читаем статьи за вас». Январь — Июнь 2019

Исследование рынка аналитиков: где учатся, какими инструментами пользуются и сколько зарабатывают

Математика для Data Science. Новый курс от OTUS

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data science» - 13

Описание используемых библиотек

Перечень практических семинаров:

В чем разница между Artificial Intelligence, Machine Learning и Data Science?

Новости

Актуальные темы

Архив