ок.tech на HighLoad++ 2019

в 10:59, , рубрики: conferences, highload++ 2019, Блог компании Одноклассники, высокая производительность, конференции, распределенные системы

ок.tech на HighLoad++ 2019 - 1

Highload++ очень близко! 7-8 ноября в Сколково в тринадцатый раз соберутся более 3000 разработчиков высоконагруженных систем. Мероприятие направлено на обмен знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей.
Программа охватывает такие аспекты веб-разработок, как архитектуры крупных проектов, базы данных и системы хранения, системное администрирование, нагрузочное тестирование, эксплуатация крупных проектов и другие направления, связанные с высоконагруженными системами.
Мы принимаем активное участие в Highload++ 2019 и сегодня расскажем, какие доклады приготовили наши сотрудники для участников конференции.

7 ноября

Новый граф Одноклассников. Антон Иванов, ведущий разработчик платформы

image

Время: 12:00
Место: зал «Москва»

Граф друзей — один из самых важных и нагруженных сервисов в Одноклассниках. Он нужен практически для любой функции сайта: сформировать ленту, найти новых друзей, проверить права при просмотре фото и много чего еще. Всё это создаёт до 700 000 запросов в секунду к 300 000 000 000 связям между пользователями.

Такая нагрузка — это не только жесткие требования к перформансу, но и к отказоустойчивости, ведь любые проблемы с графом могут парализовать работу всего сайта. Долгое время мы жили на классической схеме из шардированных баз и кэшей. Но у неё было много проблем как с консистентностью данных, так и с отказоустойчивостью.

В докладе мы подробно расскажем про переход на новую архитектуру графа, начнем с рассказа о старой версии и проблемах, которые возникали при её использовании, затем погрузимся в новую архитектуру графа и сюрпризы, которые нас ожидали во время миграции.

Эффективные надежные микросервисы. Олег Анастасьев, главный инженер

image

Время: 17:00
Место: зал «Сингапур»

В Одноклассниках запросы пользователей обслуживает более 200 видов уникальных типов сервисов. Множество этих сервисов используют прием совмещения в одном процессе JVM бизнес-логики и распределенной отказоустойчивой базы данных Cassandra. Это позволяет нам строить высоконагруженные сервисы, управляющие сотнями миллиардов записей с миллионами операций в секунду на них.

В данном докладе мы поговорим о том, какие преимущества появляются при совмещении бизнес-логики и БД; обсудим, как состояние влияет на надежность и доступность сервисов; а также обсудим, как этот прием позволил значительно повысить быстродействие наших сервисов.

Но не все базы данных подходят для этого. Мы подробно рассмотрим, какие базы данных подходят для встраивания в ваш следующий микросервис, а какие — нет.

8 ноября

«Восстание машин» – это OK. Леонид Талалаев, ведущий разработчик в команде платформы

image

Время: 10:00
Место: зал «Кейптаун»

Одноклассники состоят из более чем 6000 серверов, расположенных в нескольких дата-центрах. Почти половина из них являются частью нашего облака, one-cloud, про которое мы уже рассказывали два года назад на HighLoad++.

При управлении более чем 10000 контейнеров возникают типовые задачи, выполнение которых вручную отнимало бы слишком много времени и неизбежно приводило бы к человеческим ошибкам. Поэтому мы стремимся автоматизировать все процессы в облаке так, чтобы минимизировать участие человека. Такую полную автоматизацию мы назвали “Восстание машин”.

В докладе мы рассмотрим такие темы, как:
— выкладка секьюрити-патчей на все контейнеры. Заодно, научимся подменять слои docker-образа за 1 секунду;
— обеспечение доступности распределенных statefull-сервисов при операциях в облаке;
— проблема фрагментации в облаке. Расскажем, как с помощью изменения алгоритма размещения мы сэкономили миллион долларов.

Пересядь с иглы TCP на UDP с миллионами пользователей. Александр Тоболь, руководитель разработки платформ видео и ленты

image

Время: 14:00
Место: главный зал («Конгресс-холл»)

Александр расскажет:

  • как Одноклассники пересадили миллионы пользователей с TCP на UDP, 3/4 пользователей OK Android для сетевого взаимодействия уже используют UDP
  • как ускорили до 30% доставку контента пользователям по продуктовой клиентской статистике
  • про подходы к построению сетевых протоколов и методы тестирования и моделирования работы сети

Кроме этого ОК не только поделятся результатами тестов TCP и QUIC в разных сетях, но еще и исходным кодом эмулятора сети, на котором проводятся такие тесты.

Кластер Elasticsearch на 200 Тб+. Петр Зайцев, системный администратор, специалист по Elasticsearch

image

Время: 16:00
Место: главный зал («Конгресс-холл»)

Цель доклада: рассказать о подводных камнях и архитектуре кластера Elasticsearch для хранения логов в особо крупном объёме.

В докладе я расскажу о том, как в рамках проекта «Одноклассники» мы организовывали хранение и доступ к логам для разработчиков.

Изначально к сервису предъявлялись высокие требования. Все понимали, что объёмы обрабатываемых данных будут большими, также нужна была отказоустойчивость, а пиковая нагрузка могла возрастать до 2 млн строк в секунду. По этим причинам задача оказалась совершенно нетривиальной, с большим содержанием «подводных камней» и пикантных особенностей.

Я изложу историю нашего «извилистого» пути к решению этой задачи, а также расскажу, к какой архитектуре кластера мы в итоге пришли и какие решения, кажущиеся на первый взгляд правильными, «стреляли в ногу» в самый неожиданный момент.

У нас было 4 дата-центра, 500 инстансов под эластик, 200Тб+ данных, до 2 млн строк в секунду в пике и требования 100% аптайма сервиса во что бы то ни стало.

Как нам удалось это реализовать, вы узнаете на нашем докладе!

Автор: Александр Анисимов

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js