Рубрика «data mining» - 71

Проверка теории шести рукопожатий - 1

Хочу рассказать о своем эксперименте по проверке «Теории шести рукопожатий». На написание этого материала меня вдохновила статья «Анализ дружеских связей VK с помощью Python» (чтобы избежать повторений, в дальнейшем я буду ссылаться на нее). Так как в целом задача мной была поставлена по-другому, да и использованные методы тоже отличаются, то я решил что это может быть интересно.
Читать полностью »

Во время разработки игры SUPERVERSE нам нужно было средство для отслеживания того, как игроки взаимодействуют с игрой, а также получения сведений о «железе», разрешении экрана, операционной системе и т.д. Эти данные могли пригодиться не только на этапе отладки, но и помогли бы изучить особенности поведения пользователей в игре.

Использование Google Analytics в играх - 1
Читать полностью »

image

Независимый интернет-исследователь Гверн Брэнвен выложил на своём сайте всеобъемлющий архив с данными торговых площадок т.н. «даркнета», которые он тщательно собирал с 2013 года. Объём данных составляет около 50 Гб в архиве (и более 1,6 Тб в распакованном виде). Среди них – интернет-магазины, форумы, доски объявлений и другие сайты, находившиеся на «скрытых сервисах» Tor и торговавшие всякими интересными, и поэтому запрещёнными, товарами.

Всего в выборку попало 89 магазинов, 37 форумов и 5 других сайтов, которые неутомимый исследователь, рискуя своей репутацией перед правоохранительными органами, посещал и скачивал в ежедневном режиме. Архив доступен для скачивания в виде торрента.

Это исследование, по признанию автора, было вдохновлено возникновением первого масштабного магазина Silk Road, владельца которого не так давно арестовали и осудили. Когда в 2013 году магазин прекратил своё существование, в образовавшийся вакуум хлынули его конкуренты мелкого масштаба – и вот тогда-то и началось всё самое интересное. Развитие даркнета сподвигло Гверна на сбор подробной информации с целью её дальнейшего изучения.
Читать полностью »

Есть темы, по которым очень мало статей по специальности data science, но которые представляют интерес для специалистов по безопасности. Это статистические исследования логинов и паролей пользователей – данные, добытые «черными археологами» дата майнинга.

image

Мне было интересно посмотреть некоторые закономерности и для этой цели я взял базу данных паролей, утёкших в 2014 году – от Яндекса, Гугла и Мейлру, объемом 6 миллионов записей.
Читать полностью »

Социальные сети, в том числе Твиттер, предоставляют огромное количество информации о том, что люди думают по тому или иному поводу, и понятным является желание автоматизировать и улучшать методы оценки общественного мнения на основе данных соц. сетей.

Предположим, нам надо оценить эмоциональную окраску твитов, например, для проведения различных социологических замеров (о том, могут ли такие замеры заменить классические соц. опросы см. здесь). В таком случае, очевидным подходом будет взять словарь эмоционально окрашенных слов, где эмоции выражены количественно, и оценивать твиты по наличию слов из этого словаря. Но тут возникает проблема: такие словари редки, малы и могут устареть, к тому же не соответствуют «живому» языку общения в соц. сетях. Кажется законным пополнять доступные словари новыми словами, при этом приписывая им эмоциональность твитов, в которых эти слова встречаются (точнее, среднее арифметическое по всем твитам, содержащим данное слово). Собственно такая задача предлагается к решению в курсе «Introduction to Data Science». Возникает вопрос: является ли такое продолжение законным? Будет ли полученный словарь зависеть от тех твитов на которых он расширялся или, точнее, насколько будут отличаться два словаря, полученные из одного и того же начального словаря, но дополненные на разных твитах?
Читать полностью »

Big Data Week Moscow 2015: узнайте об индустрии больших данных изнутри - 1

Хабр, команда Лаборатории новых профессий приглашает тебя на Big Data Week Moscow — серию открытых встреч, посвященных технологиям больших данных, которые будут проходить с 20 по 24 апреля в центре Digital October.
Читать полностью »

У многих наших клиентов и потенциальных заказчиков установлены те или иные средства отслеживания активности на файловых серверах, SharePoint сайтах, Exchange и даже Active Directory. И всё это вроде даже работает – можно зайти в программу, сгенерировать отчеты, просмотреть статистику и выявить нестандартные шаблоны поведения. Но дьявол кроется в мелочах – проверять такие вещи необходимо регулярно, на постоянной основе, а не когда данные уже окажутся в чужих руках. Как показывает практика, делают это совсем не многие, несмотря на наличие соответствующих технических возможностей.

Но существует достаточно простой выход – автоматизация. Настроить всё один раз, а потом сидеть, попивать чаёк и реагировать только в случае возникновения подозрительных ситуаций – что может быть лучше? О том, что можно и даже нужно автоматизировать и на какие события высылать уведомления, мы и поговорим в рамках данной статьи.
Читать полностью »

Продолжаем публиковать материалы наших образовательных проектов. В этот раз предлагаем ознакомиться с лекциями Техносферы по курсу «Алгоритмы интеллектуальной обработки больших объемов данных». Цель курса — изучение студентами как классических, так и современных подходов к решению задач Data Mining, основанных на алгоритмах машинного обучения. Преподаватели курса: Николай Анохин (anokhinn), Владимир Гулин и Павел Нестеров (mephistopheies).

Объемы данных, ежедневно генерируемые сервисами крупной интернет-компании, поистине огромны. Цель динамично развивающейся в последние годы дисциплины Data Mining состоит в разработке подходов, позволяющих эффективно обрабатывать такие данные для извлечения полезной для бизнеса информации. Эта информация может быть использована при создании рекомендательных и поисковых систем, оптимизации рекламных сервисов или при принятии ключевых бизнес-решений.
Читать полностью »

Кручинин Дмитрий, Долотов Евгений, Кустикова Валентина, Дружков Павел, Корняков Кирилл

Введение

В настоящее время машинное обучение является активно развивающейся областью научных исследований. Это связано как с возможностью быстрее, выше, сильнее, проще и дешевле собирать и обрабатывать данные, так и с развитием методов выявления из этих данных законов, по которым протекают физические, биологические, экономические и другие процессы. В некоторых задачах, когда такой закон определить достаточно сложно, используют глубокое обучение.

Глубокое обучение (deep learning) рассматривает методы моделирования высокоуровневых абстракций в данных с помощью множества последовательных нелинейных трансформаций, которые, как правило, представляются в виде искусственных нейронных сетей. На сегодняшний день нейросети успешно используются для решения таких задач, как прогнозирование, распознавание образов, сжатие данных и ряда других.
Читать полностью »

Глобальная значимость английского, немецкого, русского, китайского и других языков в Интернете (Data Mining) - 1

Центральные языки на этой карте могут и не иметь самого большого количества носителей, однако они служат «общими» языками для общения элит.

В молодом направлении Big Data есть свои восходящие звезды и многообещающие лидеры, один из самых ярких это Цезарь Хидальго — профессор MIT Media Lab, разработчик онлайн-платформы визуализации данных о торговых связях между разными странами мира Observatory of Economic Complexity, и один из “50 человек, которые изменят мир” по версии журнала Wired.

Несколько лет назад Цезарю и его боевым товарищам захотелось исследовать взаимосвязь языковых узлов в Интернете. Языки отличаются по значимости по куче причин: начиная от технических и заканчивая демографическими. Задачу ставили себе амбициозную — определить глобальную значимость языка, которая не зависит от простых демографических и экономических показателей. О том, что из этого получилось, читайте в посте ниже.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js