Большинство ПО кластерных систем предполагает наличие файловой системы доступной со всех узлов кластера. Эта файловая система используется для хранения ПО, данных, для организации работы некоторых кластерных подсистем и т.д. Требования на производительность такой FS могут сильно отличаться для разных задач, однако, чем она выше, тем считается, что кластер более устойчив и универсален. NFS сервер на мастер-узле является минимальным вариантом такой FS. Для больших кластеров NFS дополняется развертыванием LustreFS — высокопроизводительной специализированной распределенной файловой системы, использующей несколько серверов в качестве хранилища файлов и несколько метаинформационных серверов. Однако такая конфигурация обладает рядом свойств, которые сильно затрудняют работу с ней в случае, когда клиенты используют независимые виртуализированные кластера. В системе HPC HUB vSC для создания разделяемой FS используется широко известное решение CEPH и файловая система GFS2.
Читать полностью »
Рубрика «big data» - 87
Создание разделяемого хранилища на базе CEPH RBD и GFS2
2016-10-14 в 9:33, admin, рубрики: big data, ceph, gfs2, HPC, lustrefs, nfs, open source, openstack, storage, Блог компании HPC HUB, высокая производительность, параллельное программированиеПрименение R для подготовки и передачи «живой» аналитики другим бизнес-подразделениям
2016-10-13 в 16:23, admin, рубрики: big data, data mining, data science, RВ этой краткой заметке хочу поделиться еще одним вариантом использования R в повседневных бизнес задачах. Этот «use-case» актуален почти для всех компаний, вне зависимости от их размера. Речь идет о подготовке различных оперативных отчетов и аналитических срезов.
Как собрать биграммы для корпуса любого размера на домашнем компьютере
2016-10-12 в 16:06, admin, рубрики: big data, data mining, nlp, text processing, Алгоритмы, биграмма, машинное обучение, обработка естественного языка, СемантикаВ современной компьютерной лингвистике биграммы, или в общем случае n-граммы, являются важным статистическим инструментом. В статье мы расскажем с какими трудностями можно столкнуться при расчёте биграмм на большом корпусе текстов и приведём алгоритм, который можно использовать на любом домашнем компьютере.
Читать полностью »
Как писать меньше кода для MR, или Зачем миру ещё один язык запросов? История Yandex Query Language
2016-10-12 в 14:44, admin, рубрики: big data, Hadoop, MapReduce, netty, realtime mapreduce, s-expressions, spark, sql, Алгоритмы, Анализ и проектирование систем, Блог компании Яндекс, инфраструктура, Промышленное программирование, языки запросовИсторически во многих уголках Яндекса разрабатывались свои системы хранения и обработки больших объемов данных — с учетом специфики конкретных проектов. При такой разработке в приоритете всегда была эффективность, масштабируемость и надежность, поэтому на удобные интерфейсы для использования подобных систем времени, как правило, не оставалось. Полтора года назад разработку крупных инфраструктурных компонентов выделили из продуктовых команд в отдельное направление. Цели были следующими: начать двигаться быстрее, уменьшить дублирование среди схожих систем и снизить порог входа новых внутренних пользователей.
Очень скоро мы поняли, что тут мог бы здорово помочь общий высокоуровневый язык запросов, который бы предоставлял единообразный доступ к уже имеющимся системам, а также избавлял от необходимости заново реализовывать типовые абстракции на низкоуровневых примитивах, принятых в этих системах. Так началась разработка Yandex Query Language (YQL) — универсального декларативного языка запросов к системам хранения и обработки данных. (Сразу скажу, что мы знаем, что это уже не первая штука в мире, которая называется YQL, но мы решили, что это делу не мешает, и оставили название.)
В преддверии нашей встречи, которая будет посвящена инфраструктуре Яндекса, мы решили рассказать о YQL читателям Хабрахабра.
Функция синхронного перевода в Skype теперь поддерживает русский язык
2016-10-11 в 10:30, admin, рубрики: big data, deep learning, microsoft, skype, Skype Translator, будущее здесь, перевод, поддержка русского языка, синхронный перевод
С последним обновлением Skype в него была добавлена функция синхронного перевода русского языка. Соответствующая новость была опубликована сегодня в официальном блоге Skype под заголовком «Привет! Skype Translator says Hello to Russian».
«Русский является восьмым по популярности языком в мире и наши русскоязычные пользователи всегда высказывали огромный энтузиазм по поводу функции Skype Translator. В течение нескольких месяцев мы получили множество запросов о включении русского языка в портфель языкового аудио сопровождения Skype Translator. Мы рады, наконец, пересечь этот рубеж, и заявляем о начале поддержки одного из самых сложных в диалектическом плане языков мира со стороны Skype», — говорится в официальном блоге Skype.
Читать полностью »
Сравнение аналитических in-memory баз данных
2016-10-11 в 7:57, admin, рубрики: big data, clickhouse, dwh, exasol, greenplum, Hadoop, hana, impala, MemSQL, mysql, postgresql, sapbo, sql, Блог компании Тинькофф Банк
В последние два месяца лета в управлении хранилищ данных (Data Warehouse, DWH) Тинькофф Банка появилась новая тема для кухонных споров.
Всё это время мы проводили масштабное тестирование нескольких in-memory СУБД. Любой разговор с администраторами DWH в это время можно было начать с фразы «Ну как, кто лидирует?», и не прогадать. В ответ люди получали длинную и очень эмоциональную тираду о сложностях тестирования, премудростях общения с доселе неизвестными вендорами и недостатках отдельных испытуемых.
Подробности, результаты и некое подобие выводов из тестирования — под катом.
Читать полностью »
«Обучаем специалистов всех уровней»: EPAM о Java-разработке и конференциях
2016-10-10 в 14:24, admin, рубрики: big data, EPAM, fullstack development, java, joker, Блог компании JUG.ru Group, конференции
Название EPAM известно практически всем. Но не все знают о том, что компания среди прочего занимается биоинформатикой, что в ней ценят full-stack разработчиков, а её внутренняя система обучения/переквалификации рассчитана не только на джуниоров, и в качестве менторов там порой выступают архитекторы.
В преддверии конференции Joker, на которой EPAM будет активно присутствовать, мы задали сотрудникам компании вопросы о Java-разработке и всём, что вокруг неё. Нашими собеседниками стали:
- Марианна Округина, директор офиса в Санкт-Петербурге
- Алексей Зиновьев, тренер по Java/Big Data (спикер Joker 2016 и не только)
- Вячеслав Лапин, senior developer (спикер Joker 2015 и не только)
- Полина Панюкова, специалист по маркетингу
Когда старый MapReduce лучше нового Tez
2016-10-10 в 13:53, admin, рубрики: big data, Hadoop, MapReduce, tez, Блог компании Mail.Ru Group, высокая производительность, метки: tez
Как всем известно, количество данных в мире растёт, собирать и обрабатывать поток информации становится всё сложнее. Для этого служит популярное решение Hadoop c идеей упрощения методов разработки и отладки многопоточных приложений, использующее парадигму MapReduce. Эта парадигма не всегда удачно справляется со своими задачами, и через некоторое время появляется «надстройка» над Hadoop: Apache Tez с парадигмой DAG. Под появление Tez подстраивается и HDFS-SQL-обработчик Hive. Но не всегда новое лучше старого. В большинстве случаев HiveOnTez значительно быстрее HiveOnMapReduce, но некоторые подводные камни могут сильно повлиять на производительность вашего решения. Здесь я хочу рассказать, с какими нюансами столкнулся. Надеюсь, это поможет вам ускорить ETL или другой Hadoop UseCase.
Читать полностью »
Обзор курсов по Deep Learning
2016-10-05 в 15:21, admin, рубрики: big data, data mining, deep learning, Блог компании New Professions Lab, глубинное обучение, глубокое обучение, машинное обучениеПривет! Последнее время все больше и больше достижений в области искусственного интеллекта связано с инструментами глубокого обучения или deep learning. Мы решили разобраться, где же можно научиться необходимым навыкам, чтобы стать специалистом в этой области.
MapReduce из подручных материалов. Часть II – базовые интерфейсы реализации
2016-10-04 в 10:24, admin, рубрики: big data, cache, DIY, mapreduce на коленке, nosql, Алгоритмы, Блог компании InterSystems, здравый смысл, Программирование, метки: mapreduce на коленкеВ предыдущей части серии мы (в 100500й раз) попытались рассказать про основные приемы и стадии подхода Google MapReduce, должен признаться, что первая часть была намерено "капитанской", чтобы дать знать о MapReduce целевой аудитории последующих статей. Мы не успели показать ни строчки того, как всё это мы собираемся реализовывать в Caché ObjectScript. И про это наша рассказ сегодня (и в последующие дни).
Напомним первоначальный посыл нашего мини-проекта: вы всё еще планируем реализовать MapReduce алгоритм используя те подручные средства, что есть в Caché ObjectScript. При создании интерфейсов, мы попытаемся придерживаться того API, что мы описали в предыдущей статье про оригинальную реализацию Google MapReduce, любые девиации будут озвучены соответствующе.