Со многими моими коллегами (системными администраторами, да наверное и не только) случалось так, что при отключении электропитанияаппаратном сбоепрограммное сбое — о недоступности того или иного сервисасервера узнавали от недовольного начальстванедовольных коллег.
Чтобы как-то решить проблему того, что я узнаю о проблеме в инфраструктуре от коллег, стало необходимым сделать смс-оповещение.
Наверняка есть какие-то уже готовые решения, может быть какие-то платные, аппаратные и т.п… В данной статье речь пойдёт о простом и банальном решении Читать полностью »
Рубрика «Серверное администрирование» - 158
Тривиальное смс-оповещение при недоступности сервера-оборудования
2014-08-19 в 13:40, admin, рубрики: ит-инфраструктура, Серверное администрирование, системное администрированиеМониторинг PostgreSQL + php-fpm + nginx + диска с помощью Zabbix
2014-08-11 в 8:29, admin, рубрики: postgresql, Серверное администрирование Много информации в сети по Zabbix, много и шаблонов самописных, хочу представить на суд аудитории свои модификации.
Zabbix — очень удобный и гибкий инструмент мониторинга. Хочешь — сотню мониторь, хочешь — тысячу станций, а не хочешь — следи за одним сервером, снимай сливки во всех разрезах. Буду не против отдать на github, если кто коллекционирует схожие.
Так случилось, что решили мы выложить на хостинг базу данных с оберткой из php-fpm+nginx. В качестве БД — postgres. Мысли собирать данные о работе машины были еще до покупки хостинга — это нужно, это полезно! Волшебным пенделем к внедрению системы послужили тормоза жесткого диска на нашей VDS станции — в начале скриптом каждую минуту кладем время и замерянную скорость в файл, а потом в экселе строим графики, сравниваем как было/стало, снимаем количественную статистику. И это всего один параметр! А вдруг виноват не VDS, а наши приложения, которые на нем работают. Вобщем, мониторить надо много, мониторить надо удобно!
Читать полностью »
Grafana — удобный дашборд для метрик
2014-08-08 в 23:22, admin, рубрики: dashboard, highload, open source, метрики, Серверное администрирование, системное администрированиеКак мы переводили облако с Ethernet 10G на Infiniband 56G
2014-08-07 в 6:13, admin, рубрики: ethernet, infiniband, Блог компании КРОК, дата-центр, инфраструктура, ит-инфраструктура, передача данных, перенос, Серверное администрирование, цод
Кабель Mellanox MC2609125-005
В нашем случае Infiniband работал бы в пять раз быстрее, чем Ethernet, а стоил бы столько же. Сложность была только одна – всё это нужно было делать без прерывания облачных сервисов в ЦОДе. Ну, это примерно как пересобрать двигатель автомобиля во время движения.
В России таких проектов попросту не было. Все, кто до сих пор пытались переходить с Ethernet на Infiniband, так или иначе останавливали свою инфраструктуру на сутки-двое. У нас же в облачном «плече», которое находится в дата-центре на Волочаевской-1, около 60 крупных заказчиков (включая банки, розницу, страховые и объекты критичной инфраструктуры) на почти 500 виртуальных машинах, размещенных на примерно сотне физических серверов. Мы первые в стране получили опыт перестроения стораджевой и сетевой инфраструктуры без даунтаймов и немного гордимся этим.
Infiniband-кабель на входе в сервер
В итоге пропускная способность каналов связи между серверами «облака» выросла с 10 Гб/сек до 56 Гб/сек.Читать полностью »
Начальная конфигурация ALU или один день из жизни «полосатого» подрядчика
2014-08-05 в 12:15, admin, рубрики: alcatel-lucent, конфигурация, Серверное администрирование, Сетевые технологии, системное администрирование Довелось мне поработать в компании, которая была, а может до сих пор и является, подрядчиком одного из мобильных операторов.
Частью работы была настройка коммутаторов и последующая их установка на объекты.
Речь пойдет о первоначальной настройке коммутатора Alcatel-Lucent 7210 SAS-M, а также немного фото и замечаний из жизни инженегра.
Читать полностью »
Как мы собирали молодёжный форум. Часть 1: Сервер от Рикор ИТ
2014-08-03 в 16:41, admin, рубрики: ит-инфраструктура, Рикор.ИТ, сервер, Серверная оптимизация, Серверное администрированиеПредисловие.
Итак, закончился молодёжный форум «Балтийский Артек 2014». Уже второй год я участвую в создании и поддержке инфраструктуры форума и, если в прошлом году это было скорее случайностью, то в этом году мы решили подготовиться. Всего будет три части от меня и коллег о том, что же мы здесь чудили, но начать я считаю нужным с сервера, так как он был самым больным местом в прошлом году.
Зимой я прочитал замечательну историю о тестировании сервера отечественной разработки. Намучавшись с наёмными техподдержками буржуйских иностранных вендоров, я решил попытать счастье и попросить на тестирование сервер в БА. Связавшись сначала с компанией Globatel, а затем и с Рикор.ИТ, мы заключили ряд устных соглашений, которым старались впоследствии следовать.
Данная статья лишь описывает наши ощущения от использования предоставленного на опытную эксплуатацию сервера и не содержит цифр, граф и прочего, что могло бы быть интересно исушённому тестировщику. Однако я постараюсь точно описать круг задач, для решения которых нам понадобилась сия железка, и её поведение.
Читать полностью »
Маленькая админская история: как поймать OOM
2014-08-01 в 11:47, admin, рубрики: logstash, syslog, udp, webzilla, Блог компании Webzilla, Серверное администрирование, системное администрирование, спасибо за чтениеАдминская загадка: На сервере произошло три oom kill'а, а мониторинг сказал только про два. Почему?
Конфигурация
Для мониторинга всего у нас настроена связка ganglia-shinken-logstash-elasticsearch-kibana. Полное описание довольно обширно, так что ограничусь только частью, имеющей отношение к проблеме.
В logstash присылаются логи со всех серверов. Он их складывает в elasticsearch. В конфиге logstash'а настроена реакция на всякие странные сообщения, которые свидетельствуют о проблемах. Если сообщение появляется, присылается event мониторингу (shinken), который разными методами начинает беспокоить админов.
Помимо syslog'ов, которые шлют сообщения от большинства приложений, у нас настроена ещё и отправка netconsole от всех ядер. Сама технология проста до невозможности — ядро помимо dmesg'а посылает сообщения в виде UDP-датаграмм на указанный IP и mac-адрес. MAC-адрес нужен потому, что netconsole очень низкоуровневая и заниматься разгадыванием «как из IP сделать MAC» (то есть ARP) не собирается. Благодаря низкоуровневости сообщения проходят даже в ситуациях полного катаклизма. Например, если программный коммутатор перестал работать (и сеть недоступна), сообщения всё равно будут посылаться. Более того, они будут посылаться, даже если в iptables сказано -j drop_vsyo_nafig. И, самое главное и ценное, эти сообщения успешно будут отправлены, если дисковая подсистема полностью не работает. То есть для post-mortem исследований «что именно случилось с зависшим сервером» — самое оно.
Очевидным кандидатом в «плохие» сообщения является сообщение от oom-killer'а.
[517935.914380] ntpd invoked oom-killer: gfp_mask=0x201da, order=0, oom_score_adj=0 [517935.914730] Call Trace: [517935.914807] [<ffffffff816e14ce>] dump_header+0x83/0xbb [517935.914877] [<ffffffff816e155b>] oom_kill_process.part.6+0x55/0x2cf ... с финальным торжествующим: [517935.951044] Out of memory: Kill process 4550 (apache2) score 247 or sacrifice child [517935.951203] Killed process 4550 (apache2) total-vm:2610268kB, anon-rss:2012696kB, file-rss:3928kB
Итак, возвращаемся к загадке. Идёт пусконаладка, предпродакшен, как, вдруг, апач (точнее, wsgi-приложение) насасывается данных до неприличия, и его прибивают со словами «go be fat somewhere else». Админам приходит сообщение. Казалось бы всё хорошо (ну, в админском смысле «хорошо»). Но…
Случилось три oom'а, сообщения пришли о двух. Мониторинг в порядке, netconsole в порядке. Загадка? Проблемы? Симптомы таинственной неведомой фигни? Звать придворного шамана с бубном?
Читать полностью »
17 сентября приглашаем на конференцию Fujitsu World Tour 2014
2014-07-30 в 12:50, admin, рубрики: Fujitsu, Fujitsu World Tour, Блог компании Fujitsu, Серверная оптимизация, Серверное администрированиеКомпания Fujitsu приглашает вас принять участие в конференции Fujitsu World Tour, которая пройдет в Москве 17 сентября 2014 года. Мероприятие состоится в рамках мирового турне Fujitsu по городам Европы, Австралии, Азии и Америки и продолжит серию традиционных встреч Fujitsu IT Future, на которых только в 2013 году побывало более 8000 посетителей.
Участники конференции под девизом «Человек – ориентир интеллектуального сообщества» узнают, как продукты и услуги компании могут сократить их финансовые, временные и трудозатраты. Fujitsu предлагает лучшие разработки для решения бизнес-задач вместе с четким и действующим планом внедрения инноваций.Читать полностью »
Тестирование флеш СХД. Violin 6232 Series Flash Memory Array
2014-07-25 в 11:42, admin, рубрики: Flash Array, Flash Memory, flash-память, ssd, storage systems, Violin Memory, Блог компании INLINE Technologies, высоконагруженные приложения, ит-инфраструктура, нагрузочное тестирование, Серверное администрирование, СХД, тесты, цодПродолжаем тему, начатую в статьях "Тестирование флеш СХД. Теоретическая часть" и "Тестирование флеш СХД. IBM RamSan FlashSystem 820". Сегодня мы рассмотрим возможности одной из наиболее «массовых» моделей компании Violin Memory. Стартап, основанный выходцами из Fusion-io, стал первопроходцем и духовным лидером идеологии построения систем хранения данных исключительно на основе флеш-памяти. Массив Violin 6232 был выпущен в сентябре 2011 года и пробыл флагманом вплоть до выхода модели 6264 в августе 2013 года.
Нас, как технических специалистов, в большей мере, заинтересовала архитектура массивов Violin Memory, являющаяся их отличительной особенностью и несомненным преимуществом по сравнению с конкурентами. Каждый компонент — это собственная разработка компании:
- Собственные flash модули (VIMM);
- Собственная операционная система VMOS, оптимизированная для работы с flash;
- Собственный запатентованный RAID (vRAID), лишенный недостатков стандартных RAID 5,6.
Система без единой точки отказа, где все компоненты продублированы. Где замена компонентов или обновление прошивки ни только не требуют остановки работы, но и не снижают производительности: 4 контроллера, отсутствие внутреннего кэша, запись полными «страйпами», оптимальные алгоритмы «сбора мусора». Такая архитектура позволяет получить высочайшую производительность, минимизировать задержки и побочные явления (Write Cliff), обеспечивает доступность данных уровня 99,9999 и нивелирует потери производительности при возможном выходе компонентов из строя. Богатый, продуманный интерфейс управления гармонично добавляет удобства работы с оборудованием Violin.
Читать полностью »
Начинайте думать
2014-07-25 в 6:28, admin, рубрики: mysql, nginx, php-fpm, Веб-разработка, поклонение сатане, Серверное администрирование, экспрессионизм
Доброго времени суток дорогой %username%!
Хотелось бы поздравить с праздником всех админов и в честь этого накатило на меня написать пост. По роду своей деятельности (*nix админ), ко мне обращаются знакомые с различными просьбами о помощи по серверам. Обычно просьбы в духе — у нас стал тормозить сайт, или что-то у нас повисло и т.п. Очень часто, проблемы возникают из-за действий программистов, которые не всегда понимают что делают, либо не понимают последствий того, что они делают. Посмотрев на это все, я решил поделиться с вами некоторыми случаями и наставлениями.
Изначально, думал назвать пост «прекратите админить» и собрать в нем типичные ошибки программистов админов, однако мысль пошла немного иначе, поэтому заголовок получился такой. Заранее хочу извиниться за сумбурность поста, просто накатило что-то написать и как мысль пошла, так и написал.
Читать полностью »