Необходимость в анализе больших объемов информации быстро выходит за рамки исключительно коммерческого использования.
Big Data оказывает серьезное влияние на решения, принимаемые людьми, начиная с выборов президента и заканчивая покупкой чашечки кофе. Сфера анализа больших объемов информации стала настолько прибыльной, что инвесторы из штата Массачусетс торопятся найти очередную будущую многомиллиардную компанию, чтобы успеть инвестировать в нее сейчас.
На сегодняшний день коммерческое использование Big Data в основном существует в виде контекстной рекламы – стоит только вспомнить пророческий в этом плане сервис Google ads.
Читать полностью »
Рубрика «big data» - 142
Инвесторы возлагают большие надежды на Big Data
2012-12-07 в 9:59, admin, рубрики: big data, Блог компании CloudsNN, большие объемы данных, Облачные вычисленияBig Data – почему это так модно?
2012-12-06 в 7:40, admin, рубрики: big data, Hadoop, MapReduce, Большие данные, большие объемы данных, Песочница, СУБД, хранилища данных, метки: big data, Hadoop, MapReduce, Большие данные, большие объемы данных, СУБД, хранилища данныхТехнологии Big Data сегодня очень популярны, о чем говорит хотя бы то, что на текущий момент это наиболее часто встречающийся термин в IT-публикациях. Достаточно посмотреть на статистику таких известных поисковых систем, как Google или Yandex по словосочетанию «Big Data», и становится понятным, что так называемые «Большие Данные» действительно сейчас можно назвать одним из самых востребованных и интересных направлений развития информационных технологий.
Так в чем же секрет популярности этих технологий и что означает термин «Big Data»? Читать полностью »
MapReduce 2.0. Какой он современный цифровой слон?
2012-12-05 в 9:14, admin, рубрики: big data, BigData, MapReduce, YARN, параллельное программирование, метки: BigData, MapReduce, YARN
Если ты ИТшник, то нельзя просто так взять и выйти на работу 2-го января: пересмотреть 3-ий сезон битвы экстрасенсов или запись программы «Гордон» на НТВ (дело умственных способностей вкуса).
Нельзя потому, что у других сотрудников обязательно будут для тебя подарки: у секретарши закончился кофе, у МП — закончились дедлайны, а у администратора баз данных — амнезия память.
Оказалось, что инженеры из команды Hadoop тоже любят побаловать друг друга новогодними сюрпризами.
2008
2 января. Упуская подробное описание эмоционально-психологического состояния лиц, участвующих в описанных ниже событиях, сразу перейду к факту: поставлен таск MAPREDUCE-279 «Map-Reduce 2.0». Оставив шутки про число, обращу внимание, что до 1-ой стабильной версии Hadoop остается чуть менее 4 лет.
За это время проект Hadoop пройдет эволюцию из маленького инновационного снежка, запущенного в 2005, в большой снежный com ком, надвигающийся на ИТ, в 2012.
Ниже мы предпримем попытку разобраться, какое же значение январский таск MAPREDUCE-279 играл (и, уверен, еще сыграет в 2013) в эволюции платформы Hadoop. Читать полностью »
Teradata – СУБД, параллельная от рождения
2012-12-03 в 9:42, admin, рубрики: big data, sql, teradata, архитектура бд, Блог компании Teradata, СУБД, метки: teradata, архитектура бд, СУБД Приветствуем, уважаемые читатели. Последнее время на Хабре стало мелькать название компании Teradata в тех или иных вопросах. И, увидев возможный интерес, мы решили рассказать немного о том, что же такое СУБД Teradata, от первого лица. Мы планируем подготовить небольшую серию статей о самых интересных, на наш взгляд, технических особенностях СУБД и работы с ней. Если у вас есть опыт работы с Teradata или в вашей компании используется наша платформа и у вас есть вопросы – подкидывайте их, и мы либо ответим на них в комментариях, либо подготовим соответствующую полноценную статью. А начнем с небольшого обзора. Для знакомства, так сказать.
Читать полностью »
Что такое In-Memory Data Grid
2012-11-28 в 5:58, admin, рубрики: big data, transactions, метки: transactionsОбработка данных in-memory является довольно широко обсуждаемой темой в последнее время. Многие компании, которые в прошлом не стали бы рассматривать использование in-memory технологий из-за высокой стоимости, сейчас перестраивают архитектуру своих информационных систем, чтобы использовать преимущества быстрой транзакционной обработки данных, предлагаемых данными решениями. Это является следствием стремительного падения стоимости оперативной памяти (RAM), в результате чего становится возможным хранение всего набора операционных данных в памяти, увеличивая скорость их обработки более чем в 1000 раз. In-Memory Compute Grid и In-Memory Data Grid продукты предоставляют необходимые инструменты для построения таких решений.
Задача In-Memory Data Grid (IMDG) — обеспечить сверхвысокую доступность данных посредством хранения их в оперативной памяти в распределённом состоянии. Современные IMDG способны удовлетворить большинство требований к обработке больших массивов данных.
Упрощенно, IMDG — это распределённое хранилище объектов, схожее по интерфейсу с обычной многопоточной хэш-таблицей. Вы храните объекты по ключам. Но, в отличие от традиционных систем, в которых ключи и значения ограничены типами данных «массив байт» и «строка», в IMDG Вы можете использовать любой объект из Вашей бизнес-модели в качестве ключа или значения. Это значительно повышет гибкость, позволяя Вам хранить в Data Grid в точности тот объект, с которым работает Ваша бизнес-логика, без дополнительной сериализации/де-сериализации, которую требуют альтернативные технологии. Это также упрощает использование Вашего Data Grid-а, поскольку в большинстве случаев Вы можете работать с распределённым хранилищем данных как с обычной хэш-таблицей. Возможность работать с объектами из бизнес-модели напрямую — одно из основных отличий IMDG от In-Memory баз данных (IMDB). В последнем случае пользователи всё ещё вынуждены осуществлять объектно-реляционное отображение (Object-To-Relational Mapping), которое, как правило, приводит к значительному снижению производительности.
Читать полностью »
AWS Marketplace: Новая категория Big Data
2012-11-19 в 10:13, admin, рубрики: Amazon Web Services, AWS, big data, Блог компании EPAM Systems Ukraine, метки: aws, big dataПривет!
Лидирующий на рынке облачных вычислений провайдер Amazon Web Services помимо своего сервиса Elastic MapReduce, который занимается обработкой Больших объёмов данныъ по одноименной технологии, вывел в свет новый раздел своего магазина. Раздел этот называется Big Data.
Читать полностью »
NoSQL своими руками: код для работы с нереально большими объемами данных
2012-11-17 в 16:08, admin, рубрики: big data, nosql, Программирование, метки: big dataМои проекты, как многие уже знают, подразумевают работу с реально большими объемами данных — сотни миллионов записей.
Причем это не просто «добавил-и-забыл», а регулярное их обновление, при этом работать на выборку они должны даже на достаточно слабых машинах. Пользователи моих продуктов скачивают и устанавливают базы себе на машину — так удобнее работать с большими выборками.
Меня часто спрашивают о движке, который я использую для организации данных, и сегодня я немного приоткрою завесу :)
Vertica на HighLoad++
2012-10-23 в 8:34, admin, рубрики: big data, Vertica, Блог компании «LifeStreet Media», метки: highload, VerticaВчера было мое выступление на HighLoad++. Тезисы и слайды на сайте организаторов. Конференция организована, кстати, отлично. Но времени на полноценное выступление было мало — 45 минут с вопросами. Тестовый прогон у меня занял 60 минут, после некоторой реорганизации и без вопросов на HL я уложился за 42. Некоторые важные архитектурные моменты пришлось проговаривать быстро и без примеров, от чего, конечно, страдала ясность. Я пытался построить презентацию таким образом, чтобы показать, как мы необходимым образом пришли к Вертике и к текущей архитектуре, и в то же время сделать акцент на важных архитектурных принципах работы с большими данными вообще. Не уверен, что цель была в полной мере достигнута. Мало, мало времени. Но я всегда открыт для вопросов. Вертика, впрочем, вызвала заслуженный интерес, вопросы были по делу.
А сегодня было выступление Криса Бонна из etsy.com, и, удивительное дело, он тоже рассказывал про Вертику. Читать полностью »
NewSQL — новый виток в эволюции BigData, забираем лучшее из SQL и NoSQL
2012-10-12 в 13:13, admin, рубрики: acid, big data, Facebook, mysql, NewSQL, nosql, sql, Веб-разработка, метки: Facebook, mysql, NewSQL, nosql, sqlNewSQL
Начало
Сегодня очень легко наблюдать стремительный рост данных в интернете. Согласно одной оценке, данные, созданные в 2010, составляют приблизительно 1,200 ЭБ (1018 байт) и вырастут почти к 8,000 ЭБ к 2015 в Интернете, являющимся основным поставщиком данных к потребителю.
Этот рост опережает рост вместимости, приводя к появлению систем управления информацией, где данные хранятся распределенным способом, но получают доступ и анализируют, как будто они находятся на одной машине.
Пока программисты всего мира устраивают глобальные Holywars на тему: «SQL vs NoSQL», крупные компании, такие как Google и Facebook со своей миллиардной аудиторией всеми силами борются с нехваткой мощностей и предельными работами СУБД. Несмотря на появление новой технологии NoSQL, которая позволяла легко масштабировать данные, она так и не решила вопросы связанные с соответствием операций требованиям ACID (atomicity, consistency, isolation, durability — «атомарность, непротиворечивость, изолированность, долговечность») — стандарта, который гарантирует точность выполнения оперативных транзакций средствами СУБД, даже если работа системы прерывалась. На фоне всего этого компания VoltDB при поддержке нескольких других компаний, начали разрабатывать с чистого листа новый opensource проект под название NewSQL, сочетающий в себе лучшие стороны SQL и NoSQL.
Читать полностью »
Анализ данных Twitter в облаке с помощью Apache Hadoop и Hive
2012-09-26 в 9:44, admin, рубрики: apache hadoop, big data, Excel, open source, twitter, windows azure, Блог компании Microsoft, Облачные вычисления, облачные сервисы
В данном руководстве описаны процедуры запроса, изучения и анализа данных Twitter с помощью служб на базе Apache Hadoop для Windows Azure, а также Hive-запрос в Excel. Социальные сети — это главный источник больших данных. Поэтому общедоступные API таких социальных медиа, как Twitter, служат источником полезной информации и помогают лучше понять сетевые тренды.
Руководство состоит из следующих разделов.
- Поиск, загрузка, установка и использование Microsoft Analytics для Twitter
- Получение фидов Twitter с помощью cURL и Twitter Streaming API
- Запрос и настройка нового Hadoop на кластере Windows Azure
- Обработка данных Twitter с помощью Hive на Hadoop в кластере Windows
- Настройка Hive ODBC и панели Hive в Excel для получения данных Hive