Рубрика «big data» - 129

Дайджест статей по анализу данных №2 (26.05.2014 — 8.06.2014) Добрый день, уважаемые читатели.
Представляю вашему вниманию дайджест новостей и полезных материалов из мира анализа данных. Предыдущий дайджест пользовался большой популярностью и поэтому я решил сделать их регулярными. Периодичность таких подборок будет 1 раз в 2 недели.

В сегодняшней подборки вы узнаете что общего у статистики и науке об анализе данных, как можно выявить ложную корреляцию, а также какие алгоритмы правят современным миром. Помимо этого вы получите небольшую шпаргалки по методам машинного обучения и NoSQL базам данных, ну и еще много чего интересного.

Читать полностью »

Секретная служба США покупает софт, распознающий сарказм в соцсетях

В заказе, выложенном онлайн в понедельник, СС описывает потребность в сервисе, способном, среди прочего, анализировать большие объёмы данных из социальных медиа и визуализировать результат. Распознавание сарказма — только одна из многочисленных функций требуемого софта, но именно она привлекла внимание журналистов «Вашингтон пост», заголовки в котором звучат (в тестовых, надо полагать, целях): «Секретной службе нужен софт, который распознаёт сарказм в социальных сетях. (Ага, удачи)» и «Секретной службе нужен софт, который распознаёт сарказм в социальных сетях. Не сомневаемся, что это сработает».
Читать полностью »

Низкая скорость поисковых запросов

Работая над поисковым движком по социальной информации (ark.com), мы остановили свой выбор на Elasticsearch, так как по отзывам он был очень легок в настройке и использовании, имел отличные поисковые возможности и, в целом, выглядел как манна небесная. Так оно и было до тех пор, пока наш индекс не вырос до более-менее приличных размером ~ 1 миллиарда документов, размер с учетом реплик уже перевалил за 1,5 ТБ.

Даже банальный Term query мог занять десятки секунд. Документации по ES не так много, как хотелось бы, а гуглинг данного вопроса выдавал результаты 2х-летней давности по совсем не актуальным версиям нашего поискового движка (мы работаем с 0.90.13 — что тоже не достаточно старая вещь, но мы не можем позволить себе опустить весь кластер, обновить его, и запустить заново на текущий момент — только роллинг рестарты).

Низкая скорость индексации

Вторая проблема — мы индексируем больше документов в секунду (порядка 100к), чем Elasticsearch может обрабатывать. Тайм-ауты, огромная нагрузка на Write IO, очереди из процессов в 400 единиц. Все выглядит очень страшно, когда смотришь на это в Marvel.

Как решать эти проблемы — под катом
Читать полностью »

Дайджест статей по анализу данных и big data Частенько читаю Хабр и заметил что в последнее время появились Дайджесты новостей по многим тематикам, таким как веб-разработка на php, разработка на Python, мобильные приложения, но не встретил ни одного подборки по популярному сейчас направлению, а именно анализу данных и big data.

Ниже я решил собрать небольшую подборку материалов по данной теме. Т.к. на русском материалов не так много, в данный дайджест попали в основном англоязычные статьи.

Кого заинтересовала данная тема прошу подкат. А также жду замечаний, пожеланий и дополнений, буду очень рад обратной связи.

Читать полностью »

Предпосылки возникновения технологии.

Майер Амшель, основатель известной династии Ротшильдов, в кодексе для своих потомков упомянул, что тот кто владеет информацией, владеет миром. Столь важную для любой компании информацию мы черпаем из данных, которые сами по себе, находясь внутри БД не несут нам никакой пользы. Для этого данные нужно обработать, то есть предоставить приложению, например, из области бизнес-аналитики (BusinessIntelligence). В предыдущие десятилетия, когда объём данных, частота их изменений и количество обращений к ним оставались достаточно низкими, мы могли позволить себе хранить их на медленных носителях и волновались в основном за стоимость единицы хранения (доллар за мегабайт, гигабайт и так далее). Сегодня, в эпоху BigData, когда успешными становятся те компании, которые быстрее других реагируют на рыночные изменения, важным становится не стоимость за гигабайт, а стоимость за быструю транзакцию или за потребителя этих быстрых транзакций.
Читать полностью »

Датское агентство по геоданным запустило на своих серверах полномасштабную модель Дании. Модель очень подробная и сгенерирована на основе реальных географических данных — она включает не только рельеф, но и здания, растительность, парки и достопримечательности. Не соответствует действительности разве что расположение пород и полезных ископаемых в недрах земли и цвета фасадов зданий, сгенерированные случайным образом. Модель не помещается на один сервер целиком, поэтому её разбили на три части.


Читать полностью »

Microsoft представляет SQL Server 2014 в России!

Привет!

24 апреля 2014 года состоится ключевое события года в мире серверных и облачный решений – конференция Data Platform Day.

In-Memory OLTP (Hekaton), BIG DATA, Power BI, Microsoft Azure HDInsight и другие новейшие технологии работы с данными в трех треках за один день от ведущих экспертов Microsoft, компаний-партнеров и крупнейших российских заказчиков. Всё это будет идти под флагом глобальной стратегии развития Microsoft Cloud OS и универсальной Платформы SQL Server 2014.

Читать полностью »

Мифы и легенды про Big Data
Один из наших кластеров для пилотных задач (Data node: 18 servers /2 CPUs, 12 Cores, 64GB RAM/, 12 Disks, 3 TB, SATA — HP DL380g)

— Что такое Big Data вообще?
Все знают, что это обработка огромных массивов данных. Но, например, работа с Oracle-базой на 20 Гигабайт или 4 Петабайта — это ещё не Big Data, это просто highload-БД.

— Так в чём ключевое отличие Big Data от «обычных» highload-систем?
В возможности строить гибкие запросы. Реляционная база данных, в силу своей архитектуры, предназначена для коротких быстрых запросов, идущих однотипным потоком. Если вы вдруг решите выйти за пределы таких запросов и собрать новый сложный, то базу придётся переписывать – или же она умрёт под нагрузкой.

— Откуда берётся эта новая нагрузка?
Если чуть углубиться в архитектуру, то можно увидеть, что традиционные базы данных хранят информацию очень дисперсионно. Например, у нас номер абонента может быть на одном сервере в одной таблице, а его баланс — в другой таблице. Быстродействие требует максимального разбиения данных. Как только мы начинаем делать сложные join'ы, производительность резко падает. Читать полностью »

     Доброго времени суток, уважаемые читатели. В этом посте я хотел бы описать несколько примеров развертки mongoDB, отличия между ними, принципы их работы. Однако больше всего хотелось бы поделиться с вами практическом опытом шардирования mongoDB. Если бы этот пост имел план, он бы выглядел скорее всего так:

  1. Вступление. Кратко о масштабировании
  2. Некоторые примеры развертки mongoDB и их описание
  3. Шардинг mongoDB

    Пункты 1 и 2 — теоретические, а номер 3 претендует на практическое руководство по поднятию кластера mongoDB и больше всего подойдет тем, кто столкнулся с этим в первый раз.
Читать полностью »

Сегодня мы представляем сразу несколько новостей, касающихся сервисов Cloud Platform. Вас ждут сниженные и упрощенные тарифы, облачные инструменты DevOps, управляемые виртуальные машины (VM) для App Engine, аналитика Big Data в режиме реального времени с использованием Google BigQuery, и многое другое.

Цены, которым нет равных

Облачные платформы предлагают очень простую формулу: вы пользуетесь виртуальной инфраструктурой и платите только за текущую нагрузку. Это выгоднее по сравнению с приобретением собственного оборудования. Кроме того, вам не нужно платить крупные предварительные взносы. Однако цена облачных платформ противоречит закону Мура: за последние 5 лет она падала всего на 8% в год, хотя за это же время стоимость оборудования снижалась на 20–30%.

Мы решили восстановить равновесие, упростив тарифы и снизив стоимость различных услуг «по требованию» на 30–85%:

  1. Виртуальные машины Compute Engine стали дешевле минимум на 32% независимо от размера, региона и класса.
  2. Тарифы App Engine стали более прозрачными; существенно снизились цены на фронтальные виртуальные машины и операции с базами данных.
  3. Cloud Storage теперь стоит 2,6 цента (0,026$) за 1 ГБ (в среднем на 68% ниже для большинства клиентов).
  4. Тариф BigQuery «по требованию» подешевел на 85%.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js