LHC (Large Hadron Collider) не только огромный научный эксперимент, но и сложнейшая вычислительная сеть.
В этом посте (а если будет хорошо получаться и людям будет интересно, то и в серии) я попробую рассказать что же происходит со «стопкой CD дисков высотой в 20км», которые коллайдер генерирует каждый год (сейчас, кстати, он остановлен и новых данных в ближайшие год-два не будет).
Что же происходит данными?
Детекторы четырех экспериментов (ATLAS, Alice, LHCb, CMS) регистрируют прохождение через них элементарных частиц (события). То, что зафиксировали детекторы — сырые данные (RAW data). Их поток огромен и очень неравномерно распределен по времени: в день набегает около 40Tb сырых данных (~15Pb в год), но все это происходит за несколько часов эксперимента. Единственное что можно сделать с этим потоком на нулевом уровне (Tier-0) — просто сохранить данные для последующей обработки. После того как данные сохранены начинается их обработка. Вычислительные мощности Tier-0 не велики, «всего» ~50000 ядер, что, примерно, 10% от общей вычислительной мощности всего ГРИД, обслуживающего LHC. В Tier-0 производится предварительная обработка данных: убираются естественные шумы итд (в этих вопросах я, к сожалению, не силен). Таким образом в Tier-0 имеется полная копия данных, когда либо полученных на LHC. Объем хранилища Tier-0 составляет 83Pb лент и 33Pb дисков.
Дальше эти данные распределяются между 11 вычислительными центрами по всему миру(в Канаде, Германии, Испании, Франции, Италии, Голландии, Тайване, Англии, США х2, коллаборации стран северной Европы. В России делают 12ый) — Tier-1. Tier-0 связан с каждым Tier-1 высокоскоростным линком (обычно, от 2Gb/s).
В каждом Tier-1 сырые данные так же складируются на ленты. Кроме этого, там начинается основная обработка данных.
Каждый эксперимент по разному использует вычислительные мощности Tier'ов, но суть одна: на основе данных с детекторов и законов физики восстанавливаются траекторий миллионов частиц и картина столкновения пучков. Кроме восстановления событий проверяется на сколько хорошо та или иная математическая модель соответствует полученным в ходе экспериментов результатам.
Вычислительные мощности Tier-1 и объемы хранилищ относительно велики. Например, английский Tier-1 имеет примерно по 10Pb лент и дисков и около 14000 ядер.
Не каждый желающий поучаствовать в экспериментах может себе это позволить. По этому данными из Tier-1 «кормятся» вычислительные центры поменьше (Tier-2, которых насчитывается около 140, и Tier-3).
Tier-2 уже не имеют собственных ленточных хранилищ, и обрабатывают только с данные, полученные с Tier-1 своего региона.
Центров уровня Tier-2 в России 9. Для сравнения: на все российские Tier-2 вычислительные комплексы приходится «всего» 4Pb дисков и 7500 ядер, которые распределены между вычислительными центрами крайне неравномерно.
Автор: Silvar