Рубрика «Серверное администрирование» - 158

Со многими моими коллегами (системными администраторами, да наверное и не только) случалось так, что при отключении электропитанияаппаратном сбоепрограммное сбое — о недоступности того или иного сервисасервера узнавали от недовольного начальстванедовольных коллег.
Чтобы как-то решить проблему того, что я узнаю о проблеме в инфраструктуре от коллег, стало необходимым сделать смс-оповещение.
Наверняка есть какие-то уже готовые решения, может быть какие-то платные, аппаратные и т.п… В данной статье речь пойдёт о простом и банальном решении Читать полностью »

Много информации в сети по Zabbix, много и шаблонов самописных, хочу представить на суд аудитории свои модификации.
Zabbix — очень удобный и гибкий инструмент мониторинга. Хочешь — сотню мониторь, хочешь — тысячу станций, а не хочешь — следи за одним сервером, снимай сливки во всех разрезах. Буду не против отдать на github, если кто коллекционирует схожие.

image

Так случилось, что решили мы выложить на хостинг базу данных с оберткой из php-fpm+nginx. В качестве БД — postgres. Мысли собирать данные о работе машины были еще до покупки хостинга — это нужно, это полезно! Волшебным пенделем к внедрению системы послужили тормоза жесткого диска на нашей VDS станции — в начале скриптом каждую минуту кладем время и замерянную скорость в файл, а потом в экселе строим графики, сравниваем как было/стало, снимаем количественную статистику. И это всего один параметр! А вдруг виноват не VDS, а наши приложения, которые на нем работают. Вобщем, мониторить надо много, мониторить надо удобно!
Читать полностью »

Graphana

Graphana — первый действительно хороший дашборд для отображения метрик!

Читать полностью »

Как мы переводили облако с Ethernet 10G на Infiniband 56G
Кабель Mellanox MC2609125-005

В нашем случае Infiniband работал бы в пять раз быстрее, чем Ethernet, а стоил бы столько же. Сложность была только одна – всё это нужно было делать без прерывания облачных сервисов в ЦОДе. Ну, это примерно как пересобрать двигатель автомобиля во время движения.

В России таких проектов попросту не было. Все, кто до сих пор пытались переходить с Ethernet на Infiniband, так или иначе останавливали свою инфраструктуру на сутки-двое. У нас же в облачном «плече», которое находится в дата-центре на Волочаевской-1, около 60 крупных заказчиков (включая банки, розницу, страховые и объекты критичной инфраструктуры) на почти 500 виртуальных машинах, размещенных на примерно сотне физических серверов. Мы первые в стране получили опыт перестроения стораджевой и сетевой инфраструктуры без даунтаймов и немного гордимся этим.

Как мы переводили облако с Ethernet 10G на Infiniband 56G
Infiniband-кабель на входе в сервер

В итоге пропускная способность каналов связи между серверами «облака» выросла с 10 Гб/сек до 56 Гб/сек.Читать полностью »

Довелось мне поработать в компании, которая была, а может до сих пор и является, подрядчиком одного из мобильных операторов.
Частью работы была настройка коммутаторов и последующая их установка на объекты.
Речь пойдет о первоначальной настройке коммутатора Alcatel-Lucent 7210 SAS-M, а также немного фото и замечаний из жизни инженегра.
image
Читать полностью »

Предисловие.

Итак, закончился молодёжный форум «Балтийский Артек 2014». Уже второй год я участвую в создании и поддержке инфраструктуры форума и, если в прошлом году это было скорее случайностью, то в этом году мы решили подготовиться. Всего будет три части от меня и коллег о том, что же мы здесь чудили, но начать я считаю нужным с сервера, так как он был самым больным местом в прошлом году.
image
Зимой я прочитал замечательну историю о тестировании сервера отечественной разработки. Намучавшись с наёмными техподдержками буржуйских иностранных вендоров, я решил попытать счастье и попросить на тестирование сервер в БА. Связавшись сначала с компанией Globatel, а затем и с Рикор.ИТ, мы заключили ряд устных соглашений, которым старались впоследствии следовать.
Данная статья лишь описывает наши ощущения от использования предоставленного на опытную эксплуатацию сервера и не содержит цифр, граф и прочего, что могло бы быть интересно исушённому тестировщику. Однако я постараюсь точно описать круг задач, для решения которых нам понадобилась сия железка, и её поведение.
Читать полностью »

Админская загадка: На сервере произошло три oom kill'а, а мониторинг сказал только про два. Почему?

Конфигурация

Для мониторинга всего у нас настроена связка ganglia-shinken-logstash-elasticsearch-kibana. Полное описание довольно обширно, так что ограничусь только частью, имеющей отношение к проблеме.

В logstash присылаются логи со всех серверов. Он их складывает в elasticsearch. В конфиге logstash'а настроена реакция на всякие странные сообщения, которые свидетельствуют о проблемах. Если сообщение появляется, присылается event мониторингу (shinken), который разными методами начинает беспокоить админов.

Помимо syslog'ов, которые шлют сообщения от большинства приложений, у нас настроена ещё и отправка netconsole от всех ядер. Сама технология проста до невозможности — ядро помимо dmesg'а посылает сообщения в виде UDP-датаграмм на указанный IP и mac-адрес. MAC-адрес нужен потому, что netconsole очень низкоуровневая и заниматься разгадыванием «как из IP сделать MAC» (то есть ARP) не собирается. Благодаря низкоуровневости сообщения проходят даже в ситуациях полного катаклизма. Например, если программный коммутатор перестал работать (и сеть недоступна), сообщения всё равно будут посылаться. Более того, они будут посылаться, даже если в iptables сказано -j drop_vsyo_nafig. И, самое главное и ценное, эти сообщения успешно будут отправлены, если дисковая подсистема полностью не работает. То есть для post-mortem исследований «что именно случилось с зависшим сервером» — самое оно.

Очевидным кандидатом в «плохие» сообщения является сообщение от oom-killer'а.

[517935.914380] ntpd invoked oom-killer: gfp_mask=0x201da, order=0, oom_score_adj=0
[517935.914730] Call Trace:
[517935.914807]  [<ffffffff816e14ce>] dump_header+0x83/0xbb
[517935.914877]  [<ffffffff816e155b>] oom_kill_process.part.6+0x55/0x2cf
...
с финальным торжествующим: 
[517935.951044] Out of memory: Kill process 4550 (apache2) score 247 or sacrifice child
[517935.951203] Killed process 4550 (apache2) total-vm:2610268kB, anon-rss:2012696kB, file-rss:3928kB

Итак, возвращаемся к загадке. Идёт пусконаладка, предпродакшен, как, вдруг, апач (точнее, wsgi-приложение) насасывается данных до неприличия, и его прибивают со словами «go be fat somewhere else». Админам приходит сообщение. Казалось бы всё хорошо (ну, в админском смысле «хорошо»). Но…

Случилось три oom'а, сообщения пришли о двух. Мониторинг в порядке, netconsole в порядке. Загадка? Проблемы? Симптомы таинственной неведомой фигни? Звать придворного шамана с бубном?
Читать полностью »

Компания Fujitsu приглашает вас принять участие в конференции Fujitsu World Tour, которая пройдет в Москве 17 сентября 2014 года. Мероприятие состоится в рамках мирового турне Fujitsu по городам Европы, Австралии, Азии и Америки и продолжит серию традиционных встреч Fujitsu IT Future, на которых только в 2013 году побывало более 8000 посетителей.

Участники конференции под девизом «Человек – ориентир интеллектуального сообщества» узнают, как продукты и услуги компании могут сократить их финансовые, временные и трудозатраты. Fujitsu предлагает лучшие разработки для решения бизнес-задач вместе с четким и действующим планом внедрения инноваций.Читать полностью »

Продолжаем тему, начатую в статьях "Тестирование флеш СХД. Теоретическая часть" и "Тестирование флеш СХД. IBM RamSan FlashSystem 820". Сегодня мы рассмотрим возможности одной из наиболее «массовых» моделей компании Violin Memory. Стартап, основанный выходцами из Fusion-io, стал первопроходцем и духовным лидером идеологии построения систем хранения данных исключительно на основе флеш-памяти. Массив Violin 6232 был выпущен в сентябре 2011 года и пробыл флагманом вплоть до выхода модели 6264 в августе 2013 года.

Тестирование флеш СХД. Violin 6232 Series Flash Memory Array

Нас, как технических специалистов, в большей мере, заинтересовала архитектура массивов Violin Memory, являющаяся их отличительной особенностью и несомненным преимуществом по сравнению с конкурентами. Каждый компонент — это собственная разработка компании:

  • Собственные flash модули (VIMM);
  • Собственная операционная система VMOS, оптимизированная для работы с flash;
  • Собственный запатентованный RAID (vRAID), лишенный недостатков стандартных RAID 5,6.

Система без единой точки отказа, где все компоненты продублированы. Где замена компонентов или обновление прошивки ни только не требуют остановки работы, но и не снижают производительности: 4 контроллера, отсутствие внутреннего кэша, запись полными «страйпами», оптимальные алгоритмы «сбора мусора». Такая архитектура позволяет получить высочайшую производительность, минимизировать задержки и побочные явления (Write Cliff), обеспечивает доступность данных уровня 99,9999 и нивелирует потери производительности при возможном выходе компонентов из строя. Богатый, продуманный интерфейс управления гармонично добавляет удобства работы с оборудованием Violin.
Читать полностью »

Начинайте думать

Доброго времени суток дорогой %username%!
Хотелось бы поздравить с праздником всех админов и в честь этого накатило на меня написать пост. По роду своей деятельности (*nix админ), ко мне обращаются знакомые с различными просьбами о помощи по серверам. Обычно просьбы в духе — у нас стал тормозить сайт, или что-то у нас повисло и т.п. Очень часто, проблемы возникают из-за действий программистов, которые не всегда понимают что делают, либо не понимают последствий того, что они делают. Посмотрев на это все, я решил поделиться с вами некоторыми случаями и наставлениями.

Изначально, думал назвать пост «прекратите админить» и собрать в нем типичные ошибки программистов админов, однако мысль пошла немного иначе, поэтому заголовок получился такой. Заранее хочу извиниться за сумбурность поста, просто накатило что-то написать и как мысль пошла, так и написал.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js