Рубрика «анализ данных» - 10

Армия троллей

2019-06-20 в 13:32, admin, рубрики: data mining, twitter, twitter api, анализ данных, веб-аналитика, тролли

Есть тролли обыкновенные. Они развлекаются в комментариях к новостям и статьям, развлекают народ и обогащают эмоциями дискуссии, чаще милые и безобидные. Они сами по себе и действуют в своих интересах. А есть другие, которые выступают под флагами неведомых сил, их влечет блеск золота, они беспощадны и готовы крушить все на своем пути. Их целое полчище… стихия, управляемая чужими интересами.

Платный троллинг (вики)

Платный троллинг — действия организованных групп интернет-пользователей, за денежное вознаграждение занимающихся формированием общественного мнения в определённом направлении и манипуляциями общественным мнением в Интернете. Используются обычно в политических целях, зачастую правительствами, и имеют разные названия в зависимости от страны или организации, которую представляют

Далее речь пойдет о троллях, действующих в чужих интересах, и чаще всего в интересах государств. Их цель — пустить пыль в глаза и сформировать ложное общественное мнение на острые события. Такой троллинг развивается во многих странах. В статье Bloomberg Россию называют мастером спорта в этом деле, ключевым экспортером данной тактики и родиной троллинга.

Под катом особенности российских троллей и их цифровой след на платформе Twitter
Читать полностью »

Набор в бакалавриат СПбГУ при поддержке Яндекса и JetBrains

2019-06-17 в 13:03, admin, рубрики: jetbrains, software engineering, анализ данных, Блог компании Computer Science Center, информатика, математика, машинное обучение, образование, Программирование, Промышленное программирование, Учебный процесс в IT, яндекс

В сентябре 2019 года СПбГУ открывает факультет математики и компьютерных наук. Набор в бакалавриат начинается уже в конце июня на три направления: «Математика», «Математика, алгоритмы и анализ данных» и «Современное программирование». Программы созданы коллективом Лаборатории им. П.Л. Чебышёва вместе с ПОМИ РАН, Computer Science центром, компаниями Газпромнефть, JetBrains и Яндекс.

Курсы читают известные преподаватели, опытные и увлечённые сотрудники IT-компаний. Среди преподавателей — Николай Вавилов, Эдуард Гирш, Сергей Иванов, Сергей Кисляков, Александр Охотин, Александр Куликов, Илья Кацев, Дмитрий Ицыксон, Александр Храбров. А также Александр Авдюшенко из Яндекса, Михаил Сенин и Святослав Щербина из JetBrains и другие.

Занятия проходят на Васильевском острове в центре Петербурга.
Читать полностью »

Обучение логистической регрессии с L1 и L2 регуляризациями с методом SGD

2019-06-15 в 11:38, admin, рубрики: big data, data mining, python, анализ данных, искусственный интеллект, логистическая регрессия, машинное обучение, регуляризация, стахостический градиентный спуск

Хабр, привет.

Сегодня у нас пост с интересным заданием — будем обучать логистическую регрессию с L1 и L2 регуляризациями с помощью метода Stochastic Gradient Descent (SGD).

Перед тем как приступить к статье и коду, беглым шагом пробежимся по основным понятиям L1 и L2 регуляризации, логистической регрессии и стахостического градиентного спуска (Stochastic Gradient Descent — SGD).Читать полностью »

Обзор Python-пакета Datatable

2019-06-14 в 9:30, admin, рубрики: datatable, pandas, python, анализ данных, Блог компании RUVDS.com, разработка, Разработка веб-сайтов

«Пять экзабайт информации создано человечеством с момента зарождения цивилизации до 2003 года, но столько же сейчас создаётся каждые два дня». Эрик Шмидт

Datatable — это Python-библиотека для выполнения эффективной многопоточной обработки данных. Datatable поддерживает наборы данных, которые не помещаются в памяти.

Если вы пишете на R, то вы, вероятно, уже используете пакет data.table. Data.table — это расширение R-пакета data.frame. Кроме того, без этого пакета не обойтись тем, кто пользуется R для быстрой агрегации больших наборов данных (речь идёт, в частности, о 100 Гб данных в RAM).

Пакет data.table для R весьма гибок и производителен. Пользоваться им легко и удобно, программы, в которых он применяется, пишутся довольно быстро. Этот пакет широко известен в кругах R-программистов. Его загружают более 400 тысяч раз в месяц, он используется в почти 650 CRAN и Bioconductor-пакетах (источник).

Какая от всего этого польза для тех, кто занимается анализом данных на Python? Всё дело в том, что существует Python-пакет datatable, являющийся аналогом data.table из мира R. Пакет datatable чётко ориентирован на обработку больших наборов данных. Он отличается высокой производительностью — как при работе с данными, которые полностью помещаются в оперативной памяти, так и при работе с данными, размер которых превышает объём доступной RAM. Он поддерживает и многопоточную обработку данных. В целом, пакет datatable вполне можно назвать младшим братом data.table.
Читать полностью »

Разбираемся с Machine Learning в Elastic Stack (он же Elasticsearch, он же ELK)

2019-06-13 в 4:05, admin, рубрики: Beats, big data, elastic stack, elasticsearch, kibana, logstash, machine learning, алгоритмы машинного обучения, анализ данных, Блог компании Gals Software, визуализация данных, машинное обучение

Разбираемся с Machine Learning в Elastic Stack (он же Elasticsearch, он же ELK) - 1

Напомним, что в основе Elastic Stack лежат нереляционная база данных Elasticsearch, веб-интерфейс Kibana и сборщики-обработчики данных (самый известный Logstash, различные Beats, APM и другие). Одно из приятных дополнений всего перечисленного стека продуктов — анализ данных при помощи алгоритмов машинного обучения. В статье мы разбираемся что из себя представляют эти алгоритмы. Просим под кат.
Читать полностью »

Решаем задачи на принятие решений на основе данных

2019-06-06 в 16:20, admin, рубрики: data mining, анализ данных, аналитика, визуализация данных, графики и диаграммы, задачи на смекалку, Занимательные задачки

Сейчас многие и очень многие люди (обычно их называют аналитиками, но в целом это может быть какая угодно специальность) готовят различные красивые таблицы и графики, на основании которых в идеале должны приниматься важные решения.

Понятия, которые начинаются со слов Data Driven, сейчас на слуху.

Но не всегда решения принимаются действительно на основе данных. А иногда с принятием решений есть объективные проблемы.

Материалов о том, как хорошие данные генерировать, хранить и красиво подавать достаточно.
Всем желающим немного поупражняться именно в принятии решений на основе кое-как полученных и кое-как оформленных данных — добро пожаловать под кат.
Читать полностью »

Подборка датасетов для машинного обучения

2019-05-19 в 16:23, admin, рубрики: data mining, dataset, python, анализ данных, данные, искусственный интеллект, машинное обучение, Питон, теги все читают

Привет, читатель!

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

Подборка датасетов для машинного обучения:

Данные смертей и сражений из игры престолов Читать полностью »

Python — помощник в поиске недорогих авиабилетов для тех, кто любит путешествовать

2019-05-16 в 9:00, admin, рубрики: python, анализ данных, Блог компании RUVDS.com, разработка, Разработка веб-сайтов, хранение данных

Автор статьи, перевод которой мы публикуем сегодня, говорит, что её цель — рассказать о разработке веб-скрапера на Python с использованием Selenium, который выполняет поиск цен на авиабилеты. При поиске билетов используются гибкие даты (+- 3 дня относительно указанных дат). Скрапер сохраняет результаты поиска в Excel-файле и отправляет тому, кто его запустил, электронное письмо с общими сведениями о том, что ему удалось найти. Задача этого проекта — помощь путешественникам в поиске наиболее выгодных предложений.

Если вы, разбираясь с материалом, почувствуете, что потерялись — взгляните на эту статью.
Читать полностью »

Ускорение разведочного анализа данных с использованием библиотеки pandas-profiling

2019-05-13 в 9:30, admin, рубрики: pandas, pandas-profiling, python, анализ данных, Анализ и проектирование систем, Блог компании RUVDS.com, Программирование, хранение данных

Первым делом, приступая к работе с новым набором данных, нужно понять его. Для того чтобы это сделать, нужно, например, выяснить диапазоны значений, принимаемых переменными, их типы, а также узнать о количестве пропущенных значений.

Библиотека pandas предоставляет нам множество полезных инструментов для выполнения разведочного анализа данных (Exploratory Data Analysis, EDA). Но, прежде чем воспользоваться ими, обычно нужно начать с функций более общего плана, таких как df.describe(). Правда, надо отметить, что возможности, предоставляемые подобными функциями, ограничены, а начальные этапы работы с любыми наборами данных при выполнении EDA очень часто сильно похожи друг на друга.

Автор материала, который мы сегодня публикуем, говорит, что он — не любитель выполнения повторяющихся действий. В результате он, в поисках средств, позволяющих быстро и эффективно выполнять разведочный анализ данных, нашёл библиотеку pandas-profiling. Результаты её работы выражаются не в виде неких отдельных показателей, а в форме довольно подробного HTML-отчёта, содержащего большую часть тех сведений об анализируемых данных, которые может понадобиться знать перед тем, как приступать к более плотной работе с ними.
Читать полностью »

Почему data scientist — это не data engineer?

2019-04-30 в 12:03, admin, рубрики: big data, data engineer, data scientist, Алгоритмы, анализ данных, Блог компании Mail.Ru Group, машинное обучение, теория анализа данных, Управление продуктом

Почему data scientist — это не data engineer? - 1

«Ученый может открыть новую звезду, но не может создать её. Для этого ему пришлось бы обратиться к инженеру». Гордон Линдсей Глегг, «Дизайн дизайна» (1969)

Несколько месяцев назад я писал о различиях между специалистами по теории и методам анализа данных (data scientist) и специалистами по обработке данных (data engineer). Я говорил об их навыках и общих отправных точках. Произошло кое-что интересное: data scientist'ы начали наступать, утверждая, что они на самом деле так же компетентны в области инженерии данных, как и специалисты по обработке данных. Это было интересно, потому что специалисты по обработке данных не высказывали возражений и не говорили, что они являются специалистами по теории анализа данных.

Поэтому последние несколько месяцев я занимался сбором информации и наблюдением за поведением специалистов по теории анализа данных в их естественной рабочей среде. В этом посте я подробнее расскажу о том, почему data scientist не является data engineer'ом.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «анализ данных» - 10

Армия троллей

Набор в бакалавриат СПбГУ при поддержке Яндекса и JetBrains

Обучение логистической регрессии с L1 и L2 регуляризациями с методом SGD

Обзор Python-пакета Datatable

Разбираемся с Machine Learning в Elastic Stack (он же Elasticsearch, он же ELK)

Решаем задачи на принятие решений на основе данных

Подборка датасетов для машинного обучения

Подборка датасетов для машинного обучения:

Python — помощник в поиске недорогих авиабилетов для тех, кто любит путешествовать

Ускорение разведочного анализа данных с использованием библиотеки pandas-profiling

Почему data scientist — это не data engineer?

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «анализ данных» - 10

Подборка датасетов для машинного обучения:

Новости

Актуальные темы

Архив