Рубрика «data mining» - 89

Я параноик или Почему Большой Брат уже следит за нами

2013-11-12 в 8:14, admin, рубрики: big brother, data mining, Privacy, Блог компании «Maxifier Development», информационная безопасность, слежка, теория заговора, метки: big brother, Privacy, слежка, теория заговора

Начал писать комментарий к собственному переводу статьи о приватности пользовательских данных и неожиданно понял, что он выливается в нечто большее.

Дело в том, что я занимаюсь технологиями data mining и text mining последние лет пятнадцать. И поэтому все недавние скандалы, связанные с делом Сноудена и PRISM, XKeyScore, Muscular, СОРМ, чтением почты Гуглом, передачей конфиденциальных и гео данных с мобильников, и множество прочих оставили меня абсолютно равнодушным.

По очень простой причине – я уже знаю, что Большой Брат давно существует.

Если точнее, я абсолютно в этом уверен – так же, как не могу знать, что Солнце завтра взойдет, но весьма и весьма в этом убежден. И все новые доказательства существования Большого Брата полезны, но уже не обязательны.
А объяснение уверенности очень простое: при наличии необходимых ресурсов я сам мог бы его построить.
Читать полностью »

Поведенческая реклама ≠ правительственная слежка. Пора внести ясность

2013-11-08 в 8:01, admin, рубрики: data mining, Блог компании «Maxifier Development», защита данных, информационная безопасность, персональные данные

Комментарий переводчика:
В последнее время вопросы приватности данных и вторжения государства в частную жизнь не сходят со страниц газет и блогов. Поскольку для нас этот вопрос являлся ключевым с точки зрения бизнеса, регулярно как в профессиональных встречах, так и в личных беседах приходилось рассказывать и доказывать, чем же аккуратное использование данных для конкретных бизнес-целей отличается от слежки за пользователями Интернета. Поэтому статья, перевод которой приведен ниже, показалась мне очень актуальной.

Когда мы начинали разрабатывать алгоритмы для оптимизации интернет-рекламы в Maxifier, то вопрос доступности и конфиденциальности данных был одним из первых, от которых зависели и потенциальные возможности нашего продукта, и общее позиционирование компании. Для себя мы однозначно решили, что не будем использовать персонифицированные данные о пользователе, а работать только с усредненными статистическими данными. Да, это несколько обедняет алгоритмы. Да, результат для каждого конкретного человека будет чуть менее точным — т.к. мы будем использовать автоматически реконструированные шаблоны поведения, но не знания о поведении в сети этого конкретного пользователя. Создали самообучающуюся систему; со временем она становится все более «умной» — статистические знания о пользователях накапливаются, шаблоны уточняются. Такое решение позволило нам избежать всех проблем с последовавшими законами о конфиденциальности данных в Европе, например, из-за которых потом сильно пострадали все системы behavior targeting'a. А то, что мы изначально строили алгоритмы, предполагая высокий уровень шума и загрубленность данных, в дальнейшем нам даже позволило сделать это дополнительным конкурентным преимуществом — т.к. наш продукт работает в случаях недостатка информации или отсутствия доступа к ней из-за политики сайтов и рекламных сетей – в ситуациях, когда решения конкурентов- обладателей баз данных не справлялись по показателям качества.
Читать полностью »

BaseX. Неизвестная NoSQL Вселенная

2013-11-06 в 21:26, admin, рубрики: data mining, database, java, nosql, XML, xpath, xquery, метки: database, java, nosql, XML, xpath, xquery

BaseX. Неизвестная NoSQL Вселенная
Далеко-далеко, где-то на краю Галактики, я обнаружил весьма впечатляющее NoSQL решение…

Любовь, апатия, ненависть, восхищение, гордость, гнев, радость — именно такие эмоции были у меня целый год. Чем больше я изучал этот продукт, тем сильнее были чувства.

Маркетинговая затравка от авторов звучит примерно так:

BaseX является очень легковесной, высокопроизводительной и масштабируемой XML базой данных с XPath/XQuery 3.0 процессором, который имеет полную поддержку W3C Update и Full Text спецификаций. Интерактивный и дружественный графический интерфейс позволяет легко изучать ваши XML документы

Звучит весьма вкусно, но реальность, как всегда, больно-больно ударяет по самым незащищенным местам
Читать полностью »

Экстрактор контента из веб-документов

2013-11-04 в 1:47, admin, рубрики: boilerplate, data mining, python, Qt Software, выделение содержания, машинное обучение, метки: boilerplate, выделение содержания, машинное обучение

Экстрактор контента из веб документов

Здравствуй!

Это мой первый пост, в котором я хочу поделиться своей наработкой в решении такой задачки, как выделение контента на странице. Собственно, задачка давно висела в голове в фоновом режиме. Но так сложилось, что именно сейчас мне самому понадобился инструмент, кроме того наткнулся на статейку на хабре: habrahabr.ru/company/mailru/blog/200394 и решил — пора. Ладно, поехали.
Читать полностью »

Визуализация двумерного гауссиана на плоскости

2013-10-26 в 10:32, admin, рубрики: data mining, математика, матрица ковариации, эллипс, метки: матрица ковариации, эллипс

Визуализация двумерного гауссиана на плоскости Доброго времени суток. В процессе разработки одного из методов кластеризации, возникла у меня потребность визуализировать гауссиан (нарисовать эллипс по сути) на плоскости по заданной ковариационной матрице. Но я как-то сразу и не задумался, что за простой отрисовкой обычного эллипса по 4 числам скрываются какие то трудности. Оказалось, что при расчете точек эллипса используются собственные числа и собственные векторы ковариационной матрицы, расстояние Махаланобиса, а так же квантили распределение хи-квадрат, которое я, честно говоря, не использовал со времен университета ни разу.

Читать полностью »

Кто живет в соцсетях?

2013-10-23 в 11:03, admin, рубрики: big data, data mining, Facebook, Вконтакте, Инфографика, одноклассники, Социальные сети и сообщества, фейсбук, метки: Facebook, Вконтакте, инфографика, одноклассники, фейсбук

Как бы ни гремели скандалы про PRISM, про персональные данные и их утечки, социальные сети так и манят поведать о себе всё: какие котята нравятся, с кем ты дружишь и почему с утра такой не выспавшийся.
Целая энциклопедия о поведении большинства интернет-активной публики лежит совсем рядом, и мне всегда хотелось её пощупать. С одной стороны, эти данные лежат вроде бы в открытом доступе, но просто взять и проанализировать их не так легко — всё слишком неструктурировано и разрозненно. К тому же, насколько я знаю, пригодных для машинного анализа наборов данных о соцсетях практически не существует. А для России — так и подавно.
Выбора не оставалось, и пришлось, зловеще хохоча по ночам, писать простеньких пауков для соцсетей ВКонтакте, Одноклассники, МойМир и русского сегмента Фейсбук, которые за несколько месяцев неспешно собрали более или менее статистически-корректный семпл данных. Собиралась только та информация, которую люди сами о себе рассказали. А рассказали они много.

О том, что удалось выудить из таких данных, и пойдет рассказ.Читать полностью »

ETL-процесс с использованием веб-сервисов в Integration Services 2012

2013-10-19 в 20:13, admin, рубрики: big data, BigData, Business Intelligence, c#.net, data mining, datamining, etl, MS Sql Server, SSIS, XML, метки: BigData, Business Intelligence, c#.net, datamining, etl, MS Sql Server, SSIS, XML

Запасаем впрок

Иногда в процессе работы бывают нужны данные из веб-сервисов, тем более SOAP соединения сегодня практически стандарт.

ETL-процесс (Extract — Transform — Load) это термин из Business Intelligence и описывает процесс сбора и трансформации данных для создания аналитической базы данных (например хранилища данных).

SOAP протокол обмена данных и веб-сервисы описываемые WSDL — распространенные окна в мир практически всех ERP систем, многих онлайн порталов и финансовых организаций.

Попробую описать пошагово ETL процесс с помощью одного из мощнейших инструментов в классе — MS Integration Services.

Итак, рассмотрим тестовую задачу.

Задача

Необходимо собрать данные о курсах валют по отношению к рублю на каждую дату прошлого года и загрузить их в таблицу для последующего анализа. Центробанк России предоставляет историчекие данные — в виде веб сервисов с неплохим описанием.
Похоже это и есть решение.
Читать полностью »

Как воспользоваться возможностями R в C++

2013-10-18 в 15:20, admin, рубрики: c++, data mining, метки: c++, tcp-ip

R — язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU © Wikipedia.

В R собрано огромное число статистических алгоритмов на все случаи жизни и их можно использовать не только из родной програмной среды: его поддерживают такие известные математические пакеты, как SPSS, Statistica, SAS, Wolfram Mathematica и некоторые другие. Как же можно интегрировать R в свои приложения?
На хабрахабре уже была статья про использование R в С++, однако она осветила всего один из способов, который возможно использовать только если ваш код распространяется под GPL-совместимой лицензией. Но и в противном случае есть выход — использование пакета Rserve.
Читать полностью »

Копание в данных как степень свободы

2013-10-14 в 19:04, admin, рубрики: data mining, reporting, sql, базы данных, Софт, хранилище данных, метки: data mining, reporting, sql, базы данных, хранилище данных

Приветствую уважаемых читателей.
Данный материал прольет свет на проблему удобства работы с РСУБД, которой я посвятил много лет, но никак не находил времени рассказать.

Если вы не занимаетесь поиском, просмотром и анализом данных или же делаете это, но полностью удобно и не имеете ни в чем нужды, смело бросайте чтение данного текста.

Проблематика

Итак, вы – пользователь, имеющий право на чтение в некой СУБД. Вероятно, перед вами стоит набор типовых подзадач:

Разобраться со структурой данных
Найти в ней нужные сущности
Найти в них нужные поля
Найти связи между сущностями
Найти интересующие значения
Отобрать набор значений
Выбрать нужные данные
Убедиться, что это действительно ТЕ САМЫЕ данные, которые вы искали
Сохранить результаты
Подготовить из них отчеты

Наконец, весьма вероятно, что эти задачи вам надо решать регулярно.

На рынке инструментов обработки данных представлено огромное количество средств, посвященных построению запросов, кубов и отчетов. Прискорбно, но большая часть из них не видит наличия у пользователя вышеперечисленных задач во всей их полноте. Перечислим типичные проблемы, в обратном порядке относительно предыдущего списка:
Читать полностью »

Прикручиваем пространственный индекс к ничего не подозревающей OpenSource СУБД

2013-10-10 в 5:09, admin, рубрики: data mining, diy или сделай сам, open source, spatial index, Поисковые машины и технологии, СУБД, метки: open source, spatial index, СУБД

Мне всегда нравилось, когда заголовок однозначно говорит о том, что будет дальше, например, «Техасская резня бензопилой». Поэтому под катом мы действительно будем добавлять пространственный поиск к СУБД, в которой его изначально не было.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 89

Я параноик или Почему Большой Брат уже следит за нами

Поведенческая реклама ≠ правительственная слежка. Пора внести ясность

BaseX. Неизвестная NoSQL Вселенная

Экстрактор контента из веб-документов

Визуализация двумерного гауссиана на плоскости

Кто живет в соцсетях?

ETL-процесс с использованием веб-сервисов в Integration Services 2012

Запасаем впрок

Задача

Как воспользоваться возможностями R в C++

Копание в данных как степень свободы

Проблематика

Прикручиваем пространственный индекс к ничего не подозревающей OpenSource СУБД

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 89

Запасаем впрок

Задача

Проблематика

Новости

Актуальные темы

Архив