Добрый всем!
Всё началось со шкафа со старыми играми. Лет 10 назад взял у друга игру, положил её в тумбочку и вспомнил о ней через 10 лет. Заинтересовался, что за игра такая, мне неизвестная. Оказалось что это танковая аркада 1999 года, от фирмы 3DO, о похождениях супер-американского танка во время войны в заливе.
Рубрика «data mining» - 92
Практическая некромантия на примере игры Gulf War: Operation Desert Hammer (1999г)
2013-07-15 в 10:31, admin, рубрики: data mining, reverse engineering, Восстановление данных, ностальгия, ретро, форматы файлов, метки: reverse engineering, ностальгия, ретро, форматы файловПредобучение ограниченными машинами Больцмана для распознавания реальных изображений
2013-07-11 в 16:49, admin, рубрики: data mining, machine learning, restricted boltzmann machine, искусственный интеллект, машина Больцмана, машинное обучение, нейронные сети, ограниченная машина больцмана, метки: machine learning, restricted boltzmann machine, машина Больцмана, машинное обучение, нейронные сети, ограниченная машина больцмана
Доброго времени суток. Этот топик рассчитан на тех, кто имеет представление об ограниченных машинах Больцмана (restricted Boltzmann machine, RBM) и их использовании для предобучения нейронных сетей. В нем мы рассмотрим особенности применения ограниченных машин Больцмана для работы с изображениями, взятыми из реального мира, поймем, почему стандартные типы нейронов плохо подходят для этой задачи и как их улучшить, а также немного пораспознаем выражения эмоций на человеческих лицах в качестве эксперимента. Те, кто представления o RBM не имеет, могут его получить, в частности, отсюда:
Реализация Restricted Boltzmann machine на c#,
Предобучение нейронной сети с использованием ограниченной машины Больцмана
Читать полностью »
Улучшенное распознование речи используя категории
2013-07-06 в 16:37, admin, рубрики: data mining, Google API, google app engine, распознавание речи, распознавание текста, метки: распознавание речи, распознавание текстаНа данный момент большой проблемой распознавания речи (и смысла текста) является сложность предугадать смысл, а точнее контекст в котором находится слово. Часть проблемы решается дополнительным анализом соседних слов и предложения, а в тексте также анализируются заголовки документов. Большая проблема состоит в сложности реализации алгоритмов, особенно если речь идет о мобильных приложениях которые имеют ограниченные ресурсы.
Проблема может быть решена если автор приложения сам укажет контекст в котором произнесена фраза или написано сообщение для анализа.
Читать полностью »
Вероятностные модели: искусство расставлять скобки
2013-07-04 в 17:20, admin, рубрики: data mining, байесовские сети, Блог компании Surfingbird, искусственный интеллект, математика, математическое моделирование, теория вероятностей, метки: data mining, байесовские сети, математика, математическое моделирование, теория вероятностейПосле большого перерыва продолжаем цикл о графических вероятностных моделях (часть 1, часть 2). Сегодня мы наконец-то от постановок задач перейдём к алгоритмам; поговорим мы о самом простом, но часто полезном алгоритме вывода на фактор-графах – алгоритме передачи сообщений. Или, как его ещё можно назвать, алгоритме правильной расстановки скобок.
PRISM — недремлющее око или золотой клад?
2013-06-26 в 19:10, admin, рубрики: data mining, информационная безопасность, сетевая безопасность, метки: it security, информационная безопасность, сетевая безопасность Многие из нас на сегодня уже слышали про проект PRISM от Агенства Hациональной Безопасноти США. Вкратце, данный проект собирает всю информацию о так называемых «подозреваемых пользователях». Зашифрованные email-ы хранятся у этих ребят без срока давности до расшифровки, по нажатию кнопки сотрудник АHБ может получить доступ к вашему Фейсбук аккаунту, ко всем данным Гугла (например вашим поисковым запросам), и даже к удалённым вами письмам. Данная ситуация подвергает надруганию не только в нашу и вашу личную жизнь (на что сотрудникам АHБ в принципе наплевать), но и в личную жизнь граждан США (с чем сотрудникам АHБ приходится считаться). Но давайте отступим на минутку от истерики и вооружившись здоровой паранойей взглянем на ситуацию под другим углом.
Читать полностью »
Фильтрация смс спама с помощью наивного байесовского классификатора (код на R)
2013-06-25 в 13:39, admin, рубрики: data mining, алгоритм, Алгоритмы, Байес, вероятность, искусственный интеллект, спам, метки: алгоритм, Байес, вероятность, спамПривет. В этом посте мы рассмотрим простую модель фильтрации спама с помощью наивного байесовского классификатора с размытием по Лапласу, напишем несколько строк кода на R, и, наконец, протестируем на англоязычной базе данных смс спама. Вообще, на хабре я нашел две статьи посвященные данной теме, но ни в одной не было наглядного примера, чтобы можно было скачать код и посмотреть результат. Также не было упоминания про размытие, что существенно увеличивает качество модели, без особых затрат усилий, в отличие, скажем, от сложной предобработки текста. Но вообще, запилить очередной пост про наивного байеса меня побудило то, что я пишу методичку для студентов с примерами кода на R, вот и решил поделиться инфой.
Метод опорных векторов для нахождения полиморфизмов в геноме
2013-06-13 в 13:40, admin, рубрики: data mining, genome, machine learning, SNP, SVM, Алгоритмы, биоинформатика, метки: genome, machine learning, SNP, SVMСтатья 2013-ого года «A support vector machine for identification of single-nucleotide polymorphisms from next-generation sequencing data» (O'Fallon, Wooderchak-Donahue, Crockett) предлагает новый метод определения полиформизмов в геноме на основе применения метода опорных векторов (SVM). Хотя ранее в статье 2011-ого года «A framework for variation discovery and genotyping using next-generation DNA sequencing data» уже описывалось применение методов машинного обучения для определения однонуклеотидных полиморфизмов (SNP-ов, снипов), подход, основанный на использовании SVM, описан впервые в данной статье.
Определение полиморфизмов в геноме является важной (например, для полногеномного поиска ассоциаций aka GWAS), но нетривиальной задачей. Приходится учитывать, что многие организмы гетерозиготны, а также, что данные могут содержать ошибочную информацию.
Читать полностью »
Улучшения XQuery в MarkLogic Server
2013-06-11 в 14:45, admin, рубрики: application server, big data, data mining, xquery, базы данных, Песочница, метки: application server, xquery, базы данныхВ MarkLogic Server реализован собственный диалект XQuery, который называется XQuery 1.0-ml. Не трудно догадаться, что это — тот самый XQuery 1.0 с некоторыми дополнениями от MarkLogic, призванными сделать жизнь разработчика лучше. Читать полностью »
Создание OLAP куба в MS SQL Server 2012
2013-06-10 в 15:37, admin, рубрики: data mining, olap, olap-кубы, sql server 2012, метки: data mining, olap, olap-кубы, sql server 2012Здравствуйте.
Понадобилось мне использовать для анализа данных OLAP кубы. Эту технологию я активно изучал и использовал в 2001-2002 годах и даже сертифицировался по ней. Но потом долгое время не прикасался к ней. И вот совсем недавно попробовал воспользоваться 2012 SQL Server’ом, но не тут то было: многое и того что появилось в новом сервере оказалось мне совершенно не знакомым.
Потратив некоторое время на знакомство, решил поделиться навыками с сообществом: записал обучающий видеоролик о том, как создается куб и измерения.
Ролик ознакомительный, возможно, некоторые вещи сделаны неправильно, но пример вполне рабочий. Предполагается, что читатель (зритель) уже знаком с понятиями многомерного куба, измерений, мер и для чего это используется.