Всё лучшее, зачастую, случается внезапно. Редко когда тщательно спланированная вечеринка может сравниться с внезапным визитом друзей, а блюдо, приготовленное точно по рецепту, с импровизацией мастера. В нашей команде этот феномен тоже имеет место быть: мы не задумывались о «рецептах», когда за пару недель реализовывали Media Monitor, который, как иногда случается в разработке нишевых B2B продуктов, оказался на удивление востребованным.
Рубрика «big data» - 135
Технологии правят… информацией. Технологическая пицца
2013-10-15 в 11:29, admin, рубрики: big data, Блог компании PalitrumLab, информационная среда, разработка, социальные сети, метки: информационная среда, разработка, социальные сетиАлгоритм распределения данных в кластере серверов в dCache
2013-10-14 в 21:02, admin, рубрики: algorithms, big data, java, Алгоритмы, метки: algorithms, big data, javaВ продолжение статьи о dCache расскажу о некоторых деталях внутренней реализации.
Одна из важных задач распределённых систем — как распределить нагрузку по имеющимся узлам. Для распределённого хранилища эта задача особо важна, так как решение принятое на стадии записи влияет на то, как данные будут прочитаны.
Большие данные — неотъемлемая часть нашей жизни
2013-10-14 в 9:21, admin, рубрики: big data, LSI, lsi nytro, Большие данные, высокая производительность, метки: big data, LSI, lsi nytro, Большие данныеВ прошлой статье речь шла о том, как Big Data вообще и продукты LSI в частности позволяют предсказывать погоду, и почему это так важно. С момента выхода той статьи произошло одно интересное событие, подтверждающее важность затронутой темы. Всем известная компания Monsanto, мировой лидер биотехнологии растений приобрела компанию The Climate Corporation из Сан-Франциско за 930 миллионов долларов, последняя как раз занимается анализом «больших данных» связанных с погодой и климатом. По словам СЕО Monsanto: «Climate Corporation фокусируется на том, чтоб предоставить сельскому хозяйству больше возможностей за счет науки обработки данных». Но, разумеется, не одними только прогнозами состояния атмосферы полезны для нас «большие данные», давайте рассмотрим еще пару интересных применений.
Каждый год, в конце осени — начале зимы, мы все с определенной покорностью ожидаем начала неизбежной эпидемии гриппа. Несмотря на относительную «безопасность» этой болезни, часто она способна дать огромные осложнения, а ежегодное число жертв по всему миру по данным ВОЗ составляет от 250 до 500 тысяч человек.
dCache — xранилище, где живёт ХИГГС
2013-10-07 в 9:33, admin, рубрики: big data, java, LHC, nfsv4, Облачные вычисления, метки: big data, java, LHC, nfsv4В последнее время было большое количество постов о ЦЕРНе и Большом Адронном Kоллайдере (БАК или LHC). Но не многие знают, что БАК производит ~20 ПБ данных в год. Порядка 50% всех данных хранится в dCache.
dCache является распределённой системой хранения данных, способной работать на обычном железе, с возможностью расширения посредсвом добавления новых узлов. Всё, что нужно для работы на узле, — это JVM (так как всё написано на джаве) и файловая система, где, собственно, и хранятся данные. Типичные инсталляции используют Linux(RHEL/SL/CentOS 6) или Solaris с XFS или ZFS, соответсвенно. В связи с натурой эксперементальных данных dCache не предусматривает изменение хранимых файлов.
dCache разрабатывается с 2000 года и с 2002 года используеться в более чем 80 научных центрах мира, включая Россию. Самые маленькие системы состоят из одного узла в несколько ТБ, самые большие состоят из ~500 узлов с суммарным дисковым пространством в 22 ПБ.
Доступ к файловой системе в MarkLogic Server
2013-10-04 в 14:36, admin, рубрики: big data, data mining, nosql, XML, метки: big data, data mining, nosql, XML MarkLogic является сервером приложений и любая программа написанная на XQuery для него может получить доступ не только к объектам хранящимся в самой базе данных, но и к файлам находящимся непосредственно на файловой системе.
API предоставляющий доступ к файловой системе в MarkLogic Server не так уж и богат, но имеющихся средств вполне достаточно чтобы зачитывать данные с файловой системы напрямую из XQuery кода и выполнять сохранения файлов на неё.
Читать полностью »
Платформа «Атом» от Яндекса — интернет, адаптированный для каждого
2013-10-02 в 6:59, admin, рубрики: big data, Блог компании Яндекс, Поисковые машины и технологии, яндекс, метки: atom, big data, яндексТолько что на YaC 2013 мы анонсировали свою новую платформу «Атом». Она использует множество наших технологий, которые мы создавали для разных задач, чтобы решить одну большую — изменить интернет так, чтобы каждый из нас перестал быть для него абстракцией, а стал человеком со своим характером и интересами. Мы поняли, что у нас есть возможность дать такие технологии всему интернету.
Постепенно мы все пришли к пониманию, что интернет определятся не документами, а людьми. Он связан с реальностью и состоит из потребностей, предпочтений и задач людей — как мир из атомов. Наша программа — о человеке, она выдвигает и проверяет гипотезы о том, чего он хочет, что ему интересно, что ему нужно на конкретном сайте. Она об атомах, из которых состоит сегодняшняя цифровая вселенная. И мы хотим вместе с вами определить, какой должна быть платформа Атом, чтобы она могла решать поставленные перед ней задачи эффективно.
Читать полностью »
Данные в MarkLogic Server [Part2]
2013-09-27 в 12:12, admin, рубрики: big data, BigData, data mining, nosql, XML, метки: BigData, data mining, nosql, XML Еще немного о том как MarkLogic Server хранит данные.
Читать полностью »
HBase, загрузка больших массивов данных через bulk load
2013-09-26 в 16:43, admin, рубрики: big data, BigData, Hadoop, java, метки: BigData, Hadoop, java Привет коллеги.
Хочу поделиться своим опытом использования HBase, а именно рассказать про bulk loading. Это еще один метод загрузки данных. Он принципиально отличается от обычного подхода (записи в таблицу через клиента). Есть мнение, что с помощью bulk load можно очень быстро загружать огромные массивы данных. Именно в этом я решил разобраться.
Читать полностью »
Прогноз погоды
2013-09-20 в 14:33, admin, рубрики: big data, LSI, Большие данные, данные, метки: big data, LSI, Большие данные, данныеРассматривая разные технологии хранения данных и решения, предлагаемые компанией LSI, мы немного подзабыли о практически-прикладном смысле этого всего. Зачем нужны все возрастающие скорости и емкости дисков? Одно из первых, приходящих в голову применений — это, конечно, Big Data или Большие данные. Чем же эти Большие данные отличаются от просто больших, чтоб заслужить написание с большой буквы? Обычно это называют «правило трех V».
Данные в MarkLogic Server [Part1]
2013-09-20 в 13:28, admin, рубрики: big data, data mining, nosql, XML, метки: big data, data mining, nosql, XMLMarkLogic Server – это документо-ориентированная native XML база данных. Как и в любой документо-ориентированной DB в MarkLogic Server данные можно представить как файлово-фолдерную структуру. Кстати, при доступе к хранилищу через WebDAV данные именно так и представляются. Помимо собственно XML в MarkLogic Server можно хранить и любые бинарные данные в виде файлов.
Внутренне представление XML данных в MarkLogic Server довольно сложное и будет рассмотрено позже. Сейчас же стоит сказать о том, что поместить в MarkLogic Server можно только well formed XML так как хранится он не в виде простого текста, а как объект данных типа XML. Кодировкой внутреннего представления XML данных является Unicode, что избавляет от множества проблем с разными языками. Все Entity в XML данных разворачиваются в цифровые еntity. Если в документе используются только они, то это не доставит никаких проблем, в противном случае MarkLogic Server должен «знать» о всех используемых entity.
Читать полностью »