Рубрика «Hadoop» - 11

Дата майнинг для информационной безопасности

На Хабре много писали о суперкомпьютере IBM Watson с зачатками искусственного интеллекта. Предполагается, что такая машина должна служить людям: помогать ставить диагнозы и решать другие сложные проблемы путём анализа массивов структурированных и неструктурированных данных. Но можно ли систему дата-майнинга приспособить для нужд информационной безопасности компании?
Читать полностью »

Технологии Big Data сегодня очень популярны, о чем говорит хотя бы то, что на текущий момент это наиболее часто встречающийся термин в IT-публикациях. Достаточно посмотреть на статистику таких известных поисковых систем, как Google или Yandex по словосочетанию «Big Data», и становится понятным, что так называемые «Большие Данные» действительно сейчас можно назвать одним из самых востребованных и интересных направлений развития информационных технологий.

Так в чем же секрет популярности этих технологий и что означает термин «Big Data»? Читать полностью »

в 14:19, , рубрики: Hadoop, nosql, метки:

Хотел с Вами посоветоваться. Нужна ли книга по Hadoop?

На Амазоне эта книга привлекла мое внимание, но нет ясности: надо ли издавать её на русском языке?

image
Читать полностью »

image
Apache Mahout™ — это библиотека машинного обучения, созданная для использования в масштабируемых приложениях машинного обучения. Системы рекомендаций — это наиболее узнаваемые приложения машинного обучения, используемые в настоящее время. При выполнении заданий этого руководства мы будем использовать интернет-архив Million Song Dataset, чтобы создать рекомендации по выбору песен для пользователей с учетом их музыкальных предпочтений.

О чем пойдет речь в данном руководстве:

  • Как использовать систему рекомендаций

Данное руководство состоит из следующих разделов.

  1. Изучение и форматирование данных
  2. Выполнение задания Mahout

Читать полностью »

Команда Microsoft Research побила мировой рекорд по сортировкеНа сайте sortbenchmark.org ежегодно проводятся конкурсы по сортировке больших наборов данных. Один из видов соревнований — minute sort, в котором необходимо за минуту прочитать с диска и сортировать как можно большее число записей и сохранить результат в файл. Конкурс проходит в двух категориях — Indy, без ограничений на используемое железо, и Daytona — должны использоваться только обычные компьютеры “из магазина”.

Команде Microsoft Research удалось многократно превысить державшийся с 2009 года рекорд Yahoo в категории Daytona. Их кластер, состоящий из 1033 дисков на 250 машинах, справился с 1401 гигабайтом данных. Это почти втрое лучше результата Yahoo (500 гигабайт), при том, что кластер Yahoo был почти в шесть раз больше (5624 диска на 1406 машинах). Более того, майкрософтовский кластер побил и прошлогодний рекорд в категории Indy (1353 гигабайта).
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js