Рубрика «data mining» - 90

Как воспользоваться возможностями R в C++

2013-10-18 в 15:20, admin, рубрики: c++, data mining, метки: c++, tcp-ip

R — язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU © Wikipedia.

В R собрано огромное число статистических алгоритмов на все случаи жизни и их можно использовать не только из родной програмной среды: его поддерживают такие известные математические пакеты, как SPSS, Statistica, SAS, Wolfram Mathematica и некоторые другие. Как же можно интегрировать R в свои приложения?
На хабрахабре уже была статья про использование R в С++, однако она осветила всего один из способов, который возможно использовать только если ваш код распространяется под GPL-совместимой лицензией. Но и в противном случае есть выход — использование пакета Rserve.
Читать полностью »

Копание в данных как степень свободы

2013-10-14 в 19:04, admin, рубрики: data mining, reporting, sql, базы данных, Софт, хранилище данных, метки: data mining, reporting, sql, базы данных, хранилище данных

Приветствую уважаемых читателей.
Данный материал прольет свет на проблему удобства работы с РСУБД, которой я посвятил много лет, но никак не находил времени рассказать.

Если вы не занимаетесь поиском, просмотром и анализом данных или же делаете это, но полностью удобно и не имеете ни в чем нужды, смело бросайте чтение данного текста.

Проблематика

Итак, вы – пользователь, имеющий право на чтение в некой СУБД. Вероятно, перед вами стоит набор типовых подзадач:

Разобраться со структурой данных
Найти в ней нужные сущности
Найти в них нужные поля
Найти связи между сущностями
Найти интересующие значения
Отобрать набор значений
Выбрать нужные данные
Убедиться, что это действительно ТЕ САМЫЕ данные, которые вы искали
Сохранить результаты
Подготовить из них отчеты

Наконец, весьма вероятно, что эти задачи вам надо решать регулярно.

На рынке инструментов обработки данных представлено огромное количество средств, посвященных построению запросов, кубов и отчетов. Прискорбно, но большая часть из них не видит наличия у пользователя вышеперечисленных задач во всей их полноте. Перечислим типичные проблемы, в обратном порядке относительно предыдущего списка:
Читать полностью »

Прикручиваем пространственный индекс к ничего не подозревающей OpenSource СУБД

2013-10-10 в 5:09, admin, рубрики: data mining, diy или сделай сам, open source, spatial index, Поисковые машины и технологии, СУБД, метки: open source, spatial index, СУБД

Мне всегда нравилось, когда заголовок однозначно говорит о том, что будет дальше, например, «Техасская резня бензопилой». Поэтому под катом мы действительно будем добавлять пространственный поиск к СУБД, в которой его изначально не было.
Читать полностью »

Доступ к файловой системе в MarkLogic Server

2013-10-04 в 14:36, admin, рубрики: big data, data mining, nosql, XML, метки: big data, data mining, nosql, XML

MarkLogic является сервером приложений и любая программа написанная на XQuery для него может получить доступ не только к объектам хранящимся в самой базе данных, но и к файлам находящимся непосредственно на файловой системе.
API предоставляющий доступ к файловой системе в MarkLogic Server не так уж и богат, но имеющихся средств вполне достаточно чтобы зачитывать данные с файловой системы напрямую из XQuery кода и выполнять сохранения файлов на неё.
Читать полностью »

Данные в MarkLogic Server [Part2]

2013-09-27 в 12:12, admin, рубрики: big data, BigData, data mining, nosql, XML, метки: BigData, data mining, nosql, XML

Еще немного о том как MarkLogic Server хранит данные.
Читать полностью »

Оценка результатов линейной регрессии

2013-09-25 в 10:00, admin, рубрики: data mining, linear regression, линейная регрессия, математика, метки: data mining, linear regression, линейная регрессия

Введение

Сегодня уже все, кто хоть немного интересуется дата майнингом, наверняка слышали про простую линейную регрессию. Про нее уже писали на хабре, а также подробно рассказывал Эндрю Нг в своем известном курсе машинного обучения. Линейная регрессия является одним из базовых и самых простых методов машинного обучения, однако очень редко упоминаются методы оценки качества построенной модели. В этой статье я постараюсь немного исправить это досадное упущение на примере разбора результатов функции summary.lm() в языке R. При этом я постараюсь предоставить необходимые формулы, таким образом все вычисления можно легко запрограммировать на любом другом языке. Эта статья предназначена для тех, кто слышал о том, что можно строить линейную регрессию, но не сталкивался со статистическими процедурами для оценки ее качества.
Читать полностью »

Продолжаем разбирать квест Harvester 1996 года

2013-09-25 в 7:23, admin, рубрики: data mining, reverse engineering, Восстановление данных, игры, квест про квест, перевод, реверс-инжиниринг, метки: data mining, reverse engineering, игры, квест про квест, перевод, реверс-инжиниринг

Всем добра.

В прошлый раз я остановился на том, что внедрил Arial в игру и был доволен.

Сразу стали видны минусы, шрифт не вписывается в стиль игры.
Появились новые заморочки:

внедрить красивый русский шрифт, стилизованный под оригинальный,
разобраться с пропуском почти всех видео в dosbox.

Инструменты: IDA, dosbox + debugger, winhex.
Читать полностью »

HOLO — Система анализа музыки — Версия 2

2013-09-24 в 18:35, admin, рубрики: .net, data mining, sql, sqlite, математика, музыка, Работа со звуком, статистика, метки: Audio, c++, data mining, sql, sqlite, математика, музыка, статистика

Введение

Чуть менее чем год назад я писал на Хабре статью про разрабатываемую мной программу под названием HOLO.
Если кратко, то программа «слушает» вашу музыкальную коллекцию и затем позволяет визуально исследовать массив собранных данных, а также составлять плейлисты похожих на заданные образцы композиций.
Позитивные отзывы позволили сохранить энтузиазм. На связь даже выходил один человек, который предпринял попытку переписать приложение из .NET WinForms в WPF, но после некоторых промежуточных успехов внезапно скрылся из поля зрения. Я его не виню, так как понимаю что проект содержательно весьма тяжёлый, и будучи программистом по основной работе, уделять достаточно времени на HOLO было затруднительно.
Тем не менее, я и сам затянул с релизом новой версии, но этому есть более позитивные причины, чем банальная лень.

Возможности

Вообще говоря, с точки зрения психологии восприятия звука, задача является очень субьективной. Каждый человек будет по-своему оценивать похожи ли Жанна Агузарова и Земфира, Led Zeppelin и Iron Maiden, System of a Down и Metallica. Но интенсивное тестирование на себе и знакомых показало что кое-какие вещи всё-таки можно выразить цифрами. Для каких-то жанров музыки лучше, для каких-то хуже.
Читать полностью »

Разбор шрифтов и перевод квеста 1996 г. — I Have no Mouth, and I Must Scream

2013-09-24 в 13:53, admin, рубрики: data mining, reverse engineering, Восстановление данных, игры, квест про квест, перевод, реверс-инжиниринг, метки: data mining, reverse engineering, игры, квест про квест, перевод, реверс-инжиниринг

Всем добра!

Основанная на одноименной новелле Харлана Эллисона (Harlan Ellison) игра I Have No Mouth, and I Must Scream является одним из самых мрачных квестов всех времен. Давящая атмосфера не отпускает до самой развязки.

Недалекое будущее. Три сверхдержавы, США, Россия и Китай, каждая стремясь превзойти соперниц, создали суперкомпьютеры для ведения войн. Но они просчитались. Объединившись в единое целое, называющее себя AM, три суперкомпьютера, использовав мощь, данную им людьми, стерли человечество с лица земли. В живых компьютер оставляет только пятерых, которым предстоит послужить ему игрушками для бесконечных пыток.

В прошлый раз я описывал 8-битный шрифт, а в этот раз удалось разобрать 1-битный.
Оба варианта шрифтов не зашифрованы и не сжаты, это сильно упростило задачу.

Инструменты: IDA, dosbox + debugger, winhex, GBS.

КДПВ

Читать полностью »

Архитектура интеллектуального Интернет-паука

2013-09-23 в 20:43, admin, рубрики: data mining, архитектура приложений, Программирование, метки: архитектура приложений

Архитектура интеллектуального Интернет паука
Понадобилось как-то выудить информацию из Интернета. Нашёл подходящий сайт, посмотрел на устройство страниц. Оказалось, что скрыто многое от ока всё скачивающего wget. Не помогла и стандартная сборка HTTrack. Хотел было паука для Scrapy написать, но не пришло ощущение надёжности и масштабируемости. Стал думу думать, да и велосипед изобретать, точнее свой web crawler писать.

Находил в Интернете разные статьи по разработке инструментов для скачивания сайтов, но не приглянулись из-за ограниченности своей, которая допустима лишь для примеров, но не для задач реальных. Приведу лишь два основных. Во-первых, заранее необходимо предусмотреть разбор всех типов страниц. Во-вторых, почти всегда информация выгружается за один раз, а при ошибке просто всё вновь запускается.

Про свои предыдущие поделки на время забыл, в сторону отложил, а всё сосредоточение направил на архитектуру, статью о которой не срамно и на Хабре будет выложить.

Упрощения ради повествования было имя выбрано «ИнКр» (InCr), что является сокращением от Intellectual Crawler, а также является началом слова Incredible (невероятный).

ИнКр должен представлять собой платформу, которая сама реализует базовые функции по управлению заданиями, скачиванию и хранению документов. Со стороны же разработчика требуется написание парсеров для конкретного сайта. В ходе анализа были сформулированы следующие основные требования:
1. Возможность гибкой настройки загрузки: ограничение количества потоков, приостановка обработки для аутентификации, распознаванию captcha и т.п.;
2. Независимость загрузки страниц и их разбора, возможность повторного разбора ранее скаченных страниц;
3. Поддержка процесса разработки парсера: отдельно отмечаются все документы, которые не смогли быть полностью разобраны;
4. Возможность дополнения данных, полученных на основе информации нескольких страниц;
5. Продолжение процесса загрузки страниц после остановки;
6. Корректная обработка изменений;
7. Одновременная работа сразу с несколькими сайтами и наборами правил.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 90

Как воспользоваться возможностями R в C++

Копание в данных как степень свободы

Проблематика

Прикручиваем пространственный индекс к ничего не подозревающей OpenSource СУБД

Доступ к файловой системе в MarkLogic Server

Данные в MarkLogic Server [Part2]

Оценка результатов линейной регрессии

Введение

Продолжаем разбирать квест Harvester 1996 года

Всем добра.

HOLO — Система анализа музыки — Версия 2

Введение

Возможности

Разбор шрифтов и перевод квеста 1996 г. — I Have no Mouth, and I Must Scream

Всем добра!

Архитектура интеллектуального Интернет-паука

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data mining» - 90

Проблематика

Введение

Всем добра.

Введение

Возможности

Всем добра!

Новости

Актуальные темы

Архив