На сайте sortbenchmark.org ежегодно проводятся конкурсы по сортировке больших наборов данных. Один из видов соревнований — minute sort, в котором необходимо за минуту прочитать с диска и сортировать как можно большее число записей и сохранить результат в файл. Конкурс проходит в двух категориях — Indy, без ограничений на используемое железо, и Daytona — должны использоваться только обычные компьютеры “из магазина”.
Команде Microsoft Research удалось многократно превысить державшийся с 2009 года рекорд Yahoo в категории Daytona. Их кластер, состоящий из 1033 дисков на 250 машинах, справился с 1401 гигабайтом данных. Это почти втрое лучше результата Yahoo (500 гигабайт), при том, что кластер Yahoo был почти в шесть раз больше (5624 диска на 1406 машинах). Более того, майкрософтовский кластер побил и прошлогодний рекорд в категории Indy (1353 гигабайта).
Таких впечатляющих результатов удалось добиться благодаря технологии Flat Datacenter Storage (FDS). Microsoft не использовала типичные для таких задач решения на базе парадигмы MapReduce. Для некоторых задач, и сортировка — одна из них, невозможно обрабатывать части данных независимо друг от друга на разных узлах, как это делается в MapReduce-решениях. От необходимости перемещать огромные объёмы данных никуда не деться.
Технология FDS использует тот факт, что с того времени, как была создана архитектура MapReduce, сети стали намного быстрее и дешевле. Это позволило построить кластер, в котором каждый компьютер способен общаться с любым другим одновременно на полной скорости своего сетевого интерфейса (такая сеть называется full bisection bandwidth network). Таким образом, вместо инфраструктуры Hadoop, которую использовала в 2009 году Yahoo, команда Microsoft Research использовала сетевую файловую систему, которая позволяет обращаться к любым данным на любом узле так, как будто они находятся на локальном диске.
Microsoft планирует применить архитектуру FDS в датацентрах, обслуживающих поисковик Bing.
Автор: ilya42