Яндекс открывает новое направление своей деятельности — Yandex Data Factory

в 13:23, , рубрики: big data, data mining, Блог компании Яндекс, Большие данные, Исследования и прогнозы в IT, матрикснет, машинное обучение, Облачные вычисления, яндекс

Только что в Париже на конференции La Web Яндекс объявил об открытии нового важного направления своей деятельности — по коммерческой обработке больших данных — Yandex Data Factory.

Мы верим, что обработка больших данных — это часть нового витка технической революции, который сделает всё человечество ещё более эффективным и приведёт нас к будущему, которое мы сейчас ещё даже не можем до конца представить. И в нём работа с большими объёмами данных будет не менее важным и распространённым, чем выработка электричества или железные дороги сегодня.

Яндекс открывает новое направление своей деятельности — Yandex Data Factory - 1

Перед публичным запуском Yandex Data Factory мы провели несколько пилотных проектов с компаниями-партнёрами. Для компании, обслуживающей линии электропередач, в Yandex Data Factory создали систему, которая анализирует сделанные беспилотниками снимки и автоматически выявляет угрозы: например, деревья, растущие слишком близко к проводам. А для автодорожного агентства проанализировали данные о загруженности дорог, качестве покрытия, средней скорости движения транспорта и аварийности. Это позволило в режиме реального времени составлять прогноз заторов на дорогах на ближайший час и выявлять участки с высокой вероятностью ДТП.

Кажется, каждый раз, когда человечество учится экономить где-нибудь 10%, происходит индустриальная революция. 200 лет назад стали использовать паровую машину. Сто лет назад благодаря развитию химии появились новые искусственные материалы. Электроника в XX веке изменила не только производство, но и быт. Когда люди поняли, что обрабатывать материалы дешевле в Китае и Юго-Восточной Азии, все промышленное производство мира переехало туда. На самом деле, 10% экономии — это мировые сдвиги. Анализ данных может помочь мировому производству и экономике стать более эффективными.

Интернет — не единственное место, где есть большие данные. Исторически еще в 60-70-х прошлого века их генерировали геологи. Они наблюдали за тем, как отражаются волны от взрывов на поверхности — это был их способ посмотреть под землю. В геологоразведке есть, что анализировать. И два года назад мы предоставили свои технологии параллельных вычислений и оборудование для обработки геолого-геофизических данных. Алгоритмы стали новым способом посмотреть под землю.

Многие из нас думают, что Wi-Fi в самолетах нужен для того, чтобы мы могли пользоваться своими устройствами во время полетов. Но изначально интернет в них появлялся, потому что современный самолёт — это тысячи датчиков, которые все время своего полёта измеряют огромное количество показателей и генерируют данные. Их часть передаётся на землю еще до посадки, а после неё из самолёта извлекают терабайтный диск и сохраняют его, не зная, что делать со всем, что на нём записано.

Яндекс открывает новое направление своей деятельности — Yandex Data Factory - 2

Но если посмотреть даже на те данные, которые передаются во время полёта, можно заранее предсказать, какие запчасти, например, нужно заменить в самолёте. Это сэкономит и время пассажиров, и ресурсы авиастроения, которое теряет 10% на простоях из-за запчастей. Сам Яндекс — это буквально улицы из серверов, которые потребляют 120 МВт мощности. И даже когда у вас сотни тысяч серверов, одновременно всегда в любую секунду не работает несколько сот дисков. Машина может предсказать, какой диск следующим выйдет из строя, и подскажет, что его надо поменять.

Яндекс — одна из немногих компаний мира, обладающих нужными для этого технологиями и экспертизой. Поиск в интернете невозможен без машинного обучения и умения анализировать данные. Сейчас они стоят практически за всем в Яндексе — прогнозом пробок, статистическим переводом, распознаванием речи и изображений. Большое влияние на становление этого оказала советская научная школа. Впоследствии мы создали Школу анализа данных, чтобы готовить специалистов, которые умеют работать с данными. В Высшей школе экономики при нашем участии появился факультет компьютерных наук, где в том числе есть департамент анализа данных и искусственного интеллекта.

Матрикснет — наша технология машинного обучения изначально создавалась, чтобы решать задачи ранжирования в поиске. Сейчас её используют ученые в ЦЕРНе. Один из проектов связан с построением системы отбора данных о столкновениях частиц в коллайдере в реальном времени. Это точный и гибкий фильтр, основанный на Матрикснете, который позволяет учёным очень быстро получать в распоряжение только интересные и важные данные о столкновениях частиц в БАК, чтобы использовать их в научных работах. Иногда это сверхредкие данные, встречающиеся, например, в 100 тысячах случаях на 100 миллиардов. Больше половины всех научных статей LHCb основаны как раз на данных, отфильтрованных нашим алгоритмом на базе Матрикснета.

Яндекс открывает новое направление своей деятельности — Yandex Data Factory - 3

Второй наш проект с ЦЕРНом — оптимизация хранилища данных. За два года работы БАК сгенерировал петабайты данных, которые хранятся на жестких дисках, чтобы у учёных был к ним оперативный доступ. Но место на HDD уже заканчивается, и какую-то часть данных нужно переносить на ленточные накопители. Это более дешевый способ хранения, но и менее гибкий — не так просто искать данные на ленте. Надо понять, какую именно часть файлов переносить, а какую — оставить на жестких дисках. Мы предложили ЦЕРНу помочь проранжировать тысячи накопленных файлов об экспериментах и выделить данные, которые необходимо оставить на HDD. Таким образом, мы поможем высвободить несколько петабайтов на HDD, а это десятки процентов.

Количество данных растет гораздо очень быстрыми темпами. Каждый из нас носит огромный источник данных в кармане — телефон. Датчики становятся всё дешевле, данных на сервера отправляется все больше, и встаёт вопрос, что с ними делать. Нам кажется, что если мы научимся их использовать и как-то с ними работать, то есть шансы сэкономить мировой экономике 10% ресурсов. И, если это случится, нас ждёт новая индустриальная революция.

Автор: Zalina

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js