MarkLogic является сервером приложений и любая программа написанная на XQuery для него может получить доступ не только к объектам хранящимся в самой базе данных, но и к файлам находящимся непосредственно на файловой системе.
API предоставляющий доступ к файловой системе в MarkLogic Server не так уж и богат, но имеющихся средств вполне достаточно чтобы зачитывать данные с файловой системы напрямую из XQuery кода и выполнять сохранения файлов на неё.
Читать полностью »
Рубрика «data mining» - 90
Доступ к файловой системе в MarkLogic Server
2013-10-04 в 14:36, admin, рубрики: big data, data mining, nosql, XML, метки: big data, data mining, nosql, XMLДанные в MarkLogic Server [Part2]
2013-09-27 в 12:12, admin, рубрики: big data, BigData, data mining, nosql, XML, метки: BigData, data mining, nosql, XML Еще немного о том как MarkLogic Server хранит данные.
Читать полностью »
Оценка результатов линейной регрессии
2013-09-25 в 10:00, admin, рубрики: data mining, linear regression, линейная регрессия, математика, метки: data mining, linear regression, линейная регрессияВведение
Сегодня уже все, кто хоть немного интересуется дата майнингом, наверняка слышали про простую линейную регрессию. Про нее уже писали на хабре, а также подробно рассказывал Эндрю Нг в своем известном курсе машинного обучения. Линейная регрессия является одним из базовых и самых простых методов машинного обучения, однако очень редко упоминаются методы оценки качества построенной модели. В этой статье я постараюсь немного исправить это досадное упущение на примере разбора результатов функции summary.lm() в языке R. При этом я постараюсь предоставить необходимые формулы, таким образом все вычисления можно легко запрограммировать на любом другом языке. Эта статья предназначена для тех, кто слышал о том, что можно строить линейную регрессию, но не сталкивался со статистическими процедурами для оценки ее качества.
Читать полностью »
Продолжаем разбирать квест Harvester 1996 года
2013-09-25 в 7:23, admin, рубрики: data mining, reverse engineering, Восстановление данных, игры, квест про квест, перевод, реверс-инжиниринг, метки: data mining, reverse engineering, игры, квест про квест, перевод, реверс-инжинирингВсем добра.
В прошлый раз я остановился на том, что внедрил Arial в игру и был доволен.
Сразу стали видны минусы, шрифт не вписывается в стиль игры.
Появились новые заморочки:
- внедрить красивый русский шрифт, стилизованный под оригинальный,
- разобраться с пропуском почти всех видео в dosbox.
Инструменты: IDA, dosbox + debugger, winhex.
Читать полностью »
HOLO — Система анализа музыки — Версия 2
2013-09-24 в 18:35, admin, рубрики: .net, data mining, sql, sqlite, математика, музыка, Работа со звуком, статистика, метки: Audio, c++, data mining, sql, sqlite, математика, музыка, статистика
Введение
Чуть менее чем год назад я писал на Хабре статью про разрабатываемую мной программу под названием HOLO.
Если кратко, то программа «слушает» вашу музыкальную коллекцию и затем позволяет визуально исследовать массив собранных данных, а также составлять плейлисты похожих на заданные образцы композиций.
Позитивные отзывы позволили сохранить энтузиазм. На связь даже выходил один человек, который предпринял попытку переписать приложение из .NET WinForms в WPF, но после некоторых промежуточных успехов внезапно скрылся из поля зрения. Я его не виню, так как понимаю что проект содержательно весьма тяжёлый, и будучи программистом по основной работе, уделять достаточно времени на HOLO было затруднительно.
Тем не менее, я и сам затянул с релизом новой версии, но этому есть более позитивные причины, чем банальная лень.
Возможности
Вообще говоря, с точки зрения психологии восприятия звука, задача является очень субьективной. Каждый человек будет по-своему оценивать похожи ли Жанна Агузарова и Земфира, Led Zeppelin и Iron Maiden, System of a Down и Metallica. Но интенсивное тестирование на себе и знакомых показало что кое-какие вещи всё-таки можно выразить цифрами. Для каких-то жанров музыки лучше, для каких-то хуже.
Читать полностью »
Разбор шрифтов и перевод квеста 1996 г. — I Have no Mouth, and I Must Scream
2013-09-24 в 13:53, admin, рубрики: data mining, reverse engineering, Восстановление данных, игры, квест про квест, перевод, реверс-инжиниринг, метки: data mining, reverse engineering, игры, квест про квест, перевод, реверс-инжинирингВсем добра!
Основанная на одноименной новелле Харлана Эллисона (Harlan Ellison) игра I Have No Mouth, and I Must Scream является одним из самых мрачных квестов всех времен. Давящая атмосфера не отпускает до самой развязки.
Недалекое будущее. Три сверхдержавы, США, Россия и Китай, каждая стремясь превзойти соперниц, создали суперкомпьютеры для ведения войн. Но они просчитались. Объединившись в единое целое, называющее себя AM, три суперкомпьютера, использовав мощь, данную им людьми, стерли человечество с лица земли. В живых компьютер оставляет только пятерых, которым предстоит послужить ему игрушками для бесконечных пыток.
В прошлый раз я описывал 8-битный шрифт, а в этот раз удалось разобрать 1-битный.
Оба варианта шрифтов не зашифрованы и не сжаты, это сильно упростило задачу.
Инструменты: IDA, dosbox + debugger, winhex, GBS.
КДПВ
Читать полностью »
Архитектура интеллектуального Интернет-паука
2013-09-23 в 20:43, admin, рубрики: data mining, архитектура приложений, Программирование, метки: архитектура приложений
Понадобилось как-то выудить информацию из Интернета. Нашёл подходящий сайт, посмотрел на устройство страниц. Оказалось, что скрыто многое от ока всё скачивающего wget. Не помогла и стандартная сборка HTTrack. Хотел было паука для Scrapy написать, но не пришло ощущение надёжности и масштабируемости. Стал думу думать, да и велосипед изобретать, точнее свой web crawler писать.
Находил в Интернете разные статьи по разработке инструментов для скачивания сайтов, но не приглянулись из-за ограниченности своей, которая допустима лишь для примеров, но не для задач реальных. Приведу лишь два основных. Во-первых, заранее необходимо предусмотреть разбор всех типов страниц. Во-вторых, почти всегда информация выгружается за один раз, а при ошибке просто всё вновь запускается.
Про свои предыдущие поделки на время забыл, в сторону отложил, а всё сосредоточение направил на архитектуру, статью о которой не срамно и на Хабре будет выложить.
Упрощения ради повествования было имя выбрано «ИнКр» (InCr), что является сокращением от Intellectual Crawler, а также является началом слова Incredible (невероятный).
ИнКр должен представлять собой платформу, которая сама реализует базовые функции по управлению заданиями, скачиванию и хранению документов. Со стороны же разработчика требуется написание парсеров для конкретного сайта. В ходе анализа были сформулированы следующие основные требования:
1. Возможность гибкой настройки загрузки: ограничение количества потоков, приостановка обработки для аутентификации, распознаванию captcha и т.п.;
2. Независимость загрузки страниц и их разбора, возможность повторного разбора ранее скаченных страниц;
3. Поддержка процесса разработки парсера: отдельно отмечаются все документы, которые не смогли быть полностью разобраны;
4. Возможность дополнения данных, полученных на основе информации нескольких страниц;
5. Продолжение процесса загрузки страниц после остановки;
6. Корректная обработка изменений;
7. Одновременная работа сразу с несколькими сайтами и наборами правил.
NLPub Q&A
2013-09-22 в 16:41, admin, рубрики: data mining, nlpub, вопрос-ответ, искусственный интеллект, Компьютерная лингвистика, обработка естественного языка, Поисковые машины и технологии, русский язык, сообщество, метки: nlpub, вопрос-ответ, Компьютерная лингвистика, обработка естественного языка, русский язык, сообществоОколо года назад здесь был представлен некоммерческий ресурс NLPub — каталог лингвистических решений для обработки русского языка.
Мы по-прежнему продолжаем придерживаться некоммерческих целей. За прошедшее время мне довелось слышать много тёплых слов, замечаний, пожеланий и благодарностей за работу над каталогом и экосистемой. Я искренне восхищён интересом к NLPub со стороны людей: нам удалось поймать тенденцию, сделать хороший продукт, и предоставить его соответствующей аудитории. Это само по себе является огромной ценностью.
Самая частая просьба, которую мне доводится слышать — просьба сделать на базе NLPub какой-нибудь специализированный сервис вопросов и ответов. Сервис, где люди могут спросить что-нибудь про обработку естественного языка, и получить ответ от компетентных специалистов, работающих в этой области.
Было бы некорректно игнорировать просьбы и пожелания людей, которые работают над тем, чтобы заставить вычислительную технику понимать наш язык и речь. Мы представляем NLPub Q&A — русскоязычный сервис вопросов и ответов о компьютерной лингвистике.
Читать полностью »
Данные в MarkLogic Server [Part1]
2013-09-20 в 13:28, admin, рубрики: big data, data mining, nosql, XML, метки: big data, data mining, nosql, XMLMarkLogic Server – это документо-ориентированная native XML база данных. Как и в любой документо-ориентированной DB в MarkLogic Server данные можно представить как файлово-фолдерную структуру. Кстати, при доступе к хранилищу через WebDAV данные именно так и представляются. Помимо собственно XML в MarkLogic Server можно хранить и любые бинарные данные в виде файлов.
Внутренне представление XML данных в MarkLogic Server довольно сложное и будет рассмотрено позже. Сейчас же стоит сказать о том, что поместить в MarkLogic Server можно только well formed XML так как хранится он не в виде простого текста, а как объект данных типа XML. Кодировкой внутреннего представления XML данных является Unicode, что избавляет от множества проблем с разными языками. Все Entity в XML данных разворачиваются в цифровые еntity. Если в документе используются только они, то это не доставит никаких проблем, в противном случае MarkLogic Server должен «знать» о всех используемых entity.
Читать полностью »
Profiler в MarkLogic Server
2013-09-13 в 12:38, admin, рубрики: application server, data mining, nosql, xquery, метки: application server, data mining, xqueryПрофилирование – это очень важный аспект при разработке и поддержке почти любого приложения. Не в меньшей мере это относится и к базам данных. Особенно при больших объёмах информации производительность запросов к хранилищу данных является очень критичным. Что же касается производительности запросов в MarkLogic Server и их профилирования, можно сказать что эти вопросы являются одними из самых важных так как XQuery используемый в MarkLogic Server позволяет писать не только очень сложные запросы к самой DB но и довольно сложные приложения.Читать полностью »