Рубрика «big data» - 142

Привет!

Лидирующий на рынке облачных вычислений провайдер Amazon Web Services помимо своего сервиса Elastic MapReduce, который занимается обработкой Больших объёмов данныъ по одноименной технологии, вывел в свет новый раздел своего магазина. Раздел этот называется Big Data.
AWS Marketplace: Новая категория Big Data
Читать полностью »

Мои проекты, как многие уже знают, подразумевают работу с реально большими объемами данных — сотни миллионов записей.

Причем это не просто «добавил-и-забыл», а регулярное их обновление, при этом работать на выборку они должны даже на достаточно слабых машинах. Пользователи моих продуктов скачивают и устанавливают базы себе на машину — так удобнее работать с большими выборками.

Меня часто спрашивают о движке, который я использую для организации данных, и сегодня я немного приоткрою завесу :)

Читать полностью »

Вчера было мое выступление на HighLoad++. Тезисы и слайды на сайте организаторов. Конференция организована, кстати, отлично. Но времени на полноценное выступление было мало — 45 минут с вопросами. Тестовый прогон у меня занял 60 минут, после некоторой реорганизации и без вопросов на HL я уложился за 42. Некоторые важные архитектурные моменты пришлось проговаривать быстро и без примеров, от чего, конечно, страдала ясность. Я пытался построить презентацию таким образом, чтобы показать, как мы необходимым образом пришли к Вертике и к текущей архитектуре, и в то же время сделать акцент на важных архитектурных принципах работы с большими данными вообще. Не уверен, что цель была в полной мере достигнута. Мало, мало времени. Но я всегда открыт для вопросов. Вертика, впрочем, вызвала заслуженный интерес, вопросы были по делу.

А сегодня было выступление Криса Бонна из etsy.com, и, удивительное дело, он тоже рассказывал про Вертику. Читать полностью »

NewSQL

Начало

Сегодня очень легко наблюдать стремительный рост данных в интернете. Согласно одной оценке, данные, созданные в 2010, составляют приблизительно 1,200 ЭБ (1018 байт) и вырастут почти к 8,000 ЭБ к 2015 в Интернете, являющимся основным поставщиком данных к потребителю.

Этот рост опережает рост вместимости, приводя к появлению систем управления информацией, где данные хранятся распределенным способом, но получают доступ и анализируют, как будто они находятся на одной машине.

Пока программисты всего мира устраивают глобальные Holywars на тему: «SQL vs NoSQL», крупные компании, такие как Google и Facebook со своей миллиардной аудиторией всеми силами борются с нехваткой мощностей и предельными работами СУБД. Несмотря на появление новой технологии NoSQL, которая позволяла легко масштабировать данные, она так и не решила вопросы связанные с соответствием операций требованиям ACID (atomicity, consistency, isolation, durability — «атомарность, непротиворечивость, изолированность, долговечность») — стандарта, который гарантирует точность выполнения оперативных транзакций средствами СУБД, даже если работа системы прерывалась. На фоне всего этого компания VoltDB при поддержке нескольких других компаний, начали разрабатывать с чистого листа новый opensource проект под название NewSQL, сочетающий в себе лучшие стороны SQL и NoSQL.
Читать полностью »

image

В данном руководстве описаны процедуры запроса, изучения и анализа данных Twitter с помощью служб на базе Apache Hadoop для Windows Azure, а также Hive-запрос в Excel. Социальные сети — это главный источник больших данных. Поэтому общедоступные API таких социальных медиа, как Twitter, служат источником полезной информации и помогают лучше понять сетевые тренды.

Руководство состоит из следующих разделов.

  1. Поиск, загрузка, установка и использование Microsoft Analytics для Twitter
  2. Получение фидов Twitter с помощью cURL и Twitter Streaming API
  3. Запрос и настройка нового Hadoop на кластере Windows Azure
  4. Обработка данных Twitter с помощью Hive на Hadoop в кластере Windows
  5. Настройка Hive ODBC и панели Hive в Excel для получения данных Hive

Читать полностью »

После пельменей, пива и финансов Тиньков решил заняться информационными технологиями.
Вчера в его жж появилось такое короткое объявление:

Ищем людей на вакансии, указанные по ссылке:
www.tinkoffdigital.ru/index.php#
ЗАРПЛАТЫ ОТ МИЛЛИОНА РУБЛЕЙ В МЕСЯЦ.

По ссылке открывается довольно кривой сайт Tinkoff Digital, который сообщает о себе, что «это инновационная компания, созданная для запуска проектов в интернете и мобильной среде. Основные области интересов компании — рекламные технологии, интернет-проекты и мобильные приложения.»

Также на сайте размещён список вакансий, из которого можно получить некоторое представление о планируемых к использованию технологиях:Читать полностью »

После пельменей, пива и финансов Тиньков решил заняться информационными технологиями.
Вчера в его жж появилось такое короткое объявление:

Ищем людей на вакансии, указанные по ссылке:
www.tinkoffdigital.ru/index.php#
ЗАРПЛАТЫ ОТ МИЛЛИОНА РУБЛЕЙ В МЕСЯЦ.

По ссылке открывается довольно кривой сайт Tinkoff Digital, который сообщает о себе, что «это инновационная компания, созданная для запуска проектов в интернете и мобильной среде. Основные области интересов компании — рекламные технологии, интернет-проекты и мобильные приложения.»

Также на сайте размещён список вакансий, из которого можно получить некоторое представление о планируемых к использованию технологиях:Читать полностью »

Двадцать шестой выпуск подкаста — Сливки IT R&D.
Проблемы с iPhone 5, Shazam сделал новую фичу, Надым и ты туда же, Цукерберг против и многое другое.

Читать полностью »

Так случилось, что первый посмотренный мною фильм с упоминанием слова «суперкомпьютер» был Терминатор. Но, как ни странно, моя (тогда еще) не сформировавшаяся психика не посчитала скайнет мировым злом, списав агрессивное поведение первого в мире ИИ на недостаточное покрытие юнит тестами.

На тот момент у меня был ZX Spectrum (чьих 128 Kb явно не хватало на запуск чего-то похожего на ИИ) и много (думаю лет 10) свободного времени. Благодаря последнему факту, я благополучно дождался эры виртуализации. Можно было снять хоть 10K VPS, установить между ними канал связи и начинать создавать ИИ. Но мне хотелось заниматься программированием, а не администрированием/конфигурацией grid-системы, и я разумно начал ждать, когда вычислительные ресурсы начнут предоставляться как сервис.

Моей радости не было конца, когда появились облачные сервисы. Но радость длилась недолго: стало понятно, что пока прямые коммуникации между отдельными вычислительными инстансами – это фантастика код, который нужно писать самому (то есть с большой вероятностью он работать не будет). Попереживав пару лет по этому поводу, я (мы все) дождался Hadoop, сначала «on-premises», а потом и эластичного «on-demand». Но и там, как оказалось, не всё так эластично гладкоЧитать полностью »

Стоит ли платить за Apache Hadoop?

В 2010 году Apache Hadoop, MapReduce и ассоциированные с ними технологии привели к распространению нового явления в сфере информационных технологий, названного «большими данными» или «Big Data». Понимание того, что из себя представляет платформа Apache Hadoop, зачем она нужна и для чего её можно использовать потихоньку проникает в умы специалистов по всему миру. Зарожденный, как идея одного человека, и быстро выросший до промышленных масштабов, Apache Hadoop стал одной из самых широко обсуждаемых платформ для распределенных вычислений, а также платформой для хранения неструктурированной или слабо структурированной информации. В этой статье я хотел бы подробнее остановиться на самой платформе Apache Hadoop и рассмотреть коммерческие реализации, предоставляемые сторонними компаниями, и их отличия от свободно распространяемой версии Apache Hadoop.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js