1-3 февраля пройдёт Слёрм-3, интенсив по Kubernetes. Анонс и программа тут.
Сегодня расскажу немного о внутренней кухне: как мы помогаем студентам справляться с практикой и что из этого получается. Заодно будущие участники поймут, чего ждать от поддержки.
Я сам 2-3 раза в год прохожу платные курсы, всегда беру варианты с практикой, и очень редко доделываю ее до конца. Для меня ситуация выглядит, как если бы я заказал в ресторане килограммовый стейк: съел, сколько мог, остальное оставил на тарелке. Но в тех, кто едет на Слёрм, хотелось бы запихнуть всю порцию.
На первом Слёрме мы отнеслись к практике спокойно, мол, мы даем задания, а участники справляются как могут. И это привело бы к катастрофе, если бы в аудитории не нашлось инициативных и талантливых парней: «15 минут назад я писал в чат о проблеме, я ее уже решил сам и помог еще пятерым».
Поэтому на втором Слёрме кроме трех спикеров со студентами работал десяток саппортов: системных администраторов из команды Southbridge.
Откуда проблемы с практикой?
Сам подход «Do It Yourself». Можно было бы сделать Walkthrough: «скопируйте конфиг, запустите плейбук, вуаля, ваш кластер готов». Это было бы очень быстро, очень просто и очень бессмысленно. Мы пошли сложным путем: чтобы выполнить задание, нужно понять тему и вручную поправить конфиги-настройки и т.д.
Снежный ком. Все темы и задания связаны друг с другом. Если в первый день не развернул кластер, во второй не сможешь накатывать туда приложение. Самой важной и сложной темой оказался Ceph.
Жесть и факапы
Ceph — ключевая и сложная тема, а двигаться без нее дальше нельзя, поэтому массовый затык на Ceph по разрушительности был сравним с факапом. Тут саппорты легли костьми.
Ошибка на слайде. Все мы человеки, спикеры тоже. Ошибки на слайдах были, и они означали, что все 87 студентов сейчас напишут в чат, как у них ничего не работает.
Глюки трансляции. Мы купили выделенный канал у провайдера и держали резервный канал от мегафона, но по закону подлости это не спасло. В первый день Слёрма упал крупный магистральный провайдер, через которого проходил канал до сервиса трансляций Facecast. Мы запустили трансляцию на Ютубе, но за это время спикеры с очными студентами убежали вперед, и отставшие онлайн-студенты устроили скандал, вплоть до отключения от занятий. На следующий день Facecast изменил схему подключения провайдеров, но не у всех пользователей система сразу хорошо заработала. И вся волна возмущения обрушилась на наших саппортов.
(Проблему из-за упавшего провайдера решили: остановили занятия, дождались полной работоспособности и повторили весь пропущенный материал. Лаги второго дня пришлось перетерпеть).
Итак, студент просит помощи
Саппорт должен выбрать линию поведения:
— дать студенту самостоятельно позаниматься траблшутингом;
— найти ошибку студента и объяснить ее;
— сделать этап практики за студента.
Есть необнаружимые ошибки: неправильный логин, буква I вместо l (большая i вместо маленькой L), в таком духе.
Если произошел факап, к саппортам выстраивается очередь. Невозможно вдумчиво помочь сразу пятерым в условиях цейтнота.
А цейтнот был серьёзным: во внутреннем чате техподдержки за день набегало несколько тысяч сообщений. Саппорты отключались заполночь, а начинали работать часов в 6 утра (благо и саппорты, и студенты разбросаны по разным часовым поясам).
Поэтому иногда вместо разбора участники получали ответ: «Я все поправил, сейчас ваш кластер работает как надо, двигайтесь дальше». Да, «Do It Youself» похерен, но зато удалось избежать снежного кома.
Маленькие простые радости
Команда саппортов собирала вопросы из чата и специальной формы, сортировала, отвечала, сложные вопросы передавала спикерам. Поэтому подвисших вопросов не осталось.
Выяснилось, что онлайн-участникам неудобно переключаться между трансляцией и консолью, а у нас нет текстового файла с командами, только презентация на ноутбуке спикера. Поэтому один из саппортов, сидящих в зале, набирал и отправлял в телеграмм команды со слайдов.
В общем за спиной ярких спикеров стоит десяток работяг, благодаря которым подавляющее большинство участников дошло до конца практики. Благо Southbridge занимается поддержкой инфраструктуры, у нас каждый может помочь.
Слёрм-3 будет лучше, чем Слёрм-2
То, что на Слёрме-2 делалось стихийно, мы систематизируем и оптимизируем:
— закрепляем за каждым саппортом свою группу, чтобы студенты знали своего саппорта в лицо;
— пишем базу типовых ошибок и решений;
— готовим шорткаты «Если вы не справились с практикой, но хотите двигаться дальше»;
— готовим памятку участника с инструкцией по организации рабочего места и взаимодействию с саппортами.
Слёрм-3: запускаем кластер Kubernetes
Автор: aSkobin