Мне поступила задача организовать отказоустойчивость веб-приложения из двух серверов. Веб-приложение включает в себя статические файлы и данные в СУБД MySQL.
Основное требование заказчика — веб-приложение должно быть всегда доступно и в случае сбоя в течении 5 минут сбой должен быть восстановлен.
2 сервера, территориально разнесенные в разных ЦОДах, должны удовлетворить данное требование.
Для решения данной задачи мной было выбрана ОС Debian Squeeze, т.к. разработчики веб-приложения используют Debian. Логику отказоустойчивости я решил делать через DNS, т.е. есть доменное имя test.ru. В качестве NS-серверов выступают мои 2 сервера, т.е. вся информация о зоне хранится локально. Если случается сбой с основным сервером, то ДНС переписывается и А-запись указывает на резервный сервер.
Помимо ДНС, встала проблема с синхронизацией файлов, причем необходима двунаправленная, т.к. на резервный сервер, в момент простоя основного, может быть залита информация. Для решения это задачи я использую пакет Unison.
Для синхронизации баз MySQL используется стандартная MySQL-репликация двунаправленная Мастер-Мастер. При однонаправленной репликации («master-slave») в случае записи в подчиненную базу данных база данных данные могут оказаться противоречивыми, что может привести к ошибке репликации. В случае двунаправленной репликации базы данных будут находиться в согласованном состоянии.
Арбитром всей этой системы будет выступать самописный скрипт, который я приведу ниже.
Подготовка системы
Имеем чистую систему Debian с установленными пакетами apache2, mysql-server. Их установку я расписывать не буду, благо в инете полно информации.
Главный сервер — master IP=10.1.0.1, Резервный сервер — slave IP=10.2.0.2
Синхронизация файлов
Файлы веб-приложения находятся в каталоге /site/web/. Apache на обоих серверах уже должен быть настроен на этот каталог.
Далее, для синхронизации файлов, нам необходимо сделать безпарольный доступ по SSH между серверами, для этого сгенерируем пару ключей:
ssh-keygen -t rsa (passphrase не указываем)
scp /root/.ssh/id_rsa.pub root@10.2.0.2:/root/.ssh/authorized_keys2
и аналогично на втором сервере:
ssh-keygen -t rsa (passphrase не указываем)
scp /root/.ssh/id_rsa.pub root@10.1.0.1:/root/.ssh/authorized_keys2
После этого необходимо убедиться, что данные в каталогах /site/web/ на обоих серверах идентичные и устанавливаем Unison:
apt-get install unison
создаем файл конфигурации /root/.unison/web.prf со следующим содержимым:
# Определяем список директорий, которые будут синхронизированы
root = /site/web
root = ssh://root@10.2.0.2//site/web
# Указываем сохранять права доступа и владельца
owner = true
times = true
batch = true
# Сохраняем лог с результатами работы в отдельном файле
log = true
logfile = /var/log/unison_sync.log
Теперь можно запустить синхронизацию следующей командой на главном сервере:
unison web
Чтобы сделать автоматическую синхронизацию раз в 5 минут, необходимо использовать следующий скрипт:
#!/bin/sh
# проверка, не запущена ли уже синхронизация
if [ -f /var/lock/sync.lock ]
then
echo lockfile exists!
exit 1
fi
/usr/bin/touch /var/lock/sync.lock
/usr/bin/unison test
/bin/rm /var/lock/sync.lock
#End
Сохраняем этот скрипт в файл /root/bin/sync.sh, даем право на запуск
chmod +x /root/bin/sync.sh
И добавляем задание в CRON «crontab -e»:
*/5 * * * * /root/bin/sync.sh > /dev/null 2>&1
Запуск данного скрипта каждые 5 минут.
MySQL репликация
Для репликации будем использовать пользователя MySQL replication с паролем some_password.
На главном master-сервере редактируем файл /etc/mysql/my.cnf. Вставляем следующие строки в раздел, относящийся к репликации:
server-id = 1
log_bin = /var/log/mysql/mysql-bin.log
expire_logs_days = 10
max_binlog_size = 100M
binlog_ignore_db = mysql
binlog_ignore_db = test
master-host = 10.2.0.2 #ip-адрес резервного slave-сервера
master-user = replication #пользователь для репликации
master-password = some_password #пароль пользователя
master-port = 3306
и в этом же файле изменяем переменную bind-address, чтобы мускул был доступен на любом интерфейсе:
bind-address = 0.0.0.0
Заходим в MySQL под пользователем root и даем право пользователю replication подключаться к нашему серверу с резервного slave-сервера:
mysql -u root -p
Enter password: Вводим пароль для пользователя root, заданный во время установки
>grant replication slave on *.* to 'replication'@'10.2.0.2' identified by 'some_password';
>flush privileges;
>quit;
/etc/init.d/mysql restart
Переходим ко второму slave-серверу. Редактируем файл /etc/mysql/my.cnf. Вставляем следующие строки в раздел, относящийся к репликации:
server-id = 2
log_bin = /var/log/mysql/mysql-bin.log
expire_logs_days = 10
max_binlog_size = 100M
binlog_ignore_db = mysql
binlog_ignore_db = test
master-host = 10.1.0.1 #ip-адрес главного master-сервера
master-user = replication #пользователь для репликации
master-password = some_password #пароль пользователя
master-port = 3306
и в этом же файле изменяем переменную bind-address, чтобы мускул был доступен на любом интерфейсе:
bind-address = 0.0.0.0
Заходим в MySQL под пользователем root и даем право пользователю replication подключаться к нашему серверу с главного master-сервера:
mysql -u root -p
Enter password: Вводим пароль для пользователя root, заданный во время установки
>grant replication slave on *.* to 'replication'@'10.1.0.1' identified by 'some_password';
>flush privileges;
>quit;
/etc/init.d/mysql restart
На обоих серверах проверяем, что процесс репликации запущен. Для этого выполняем следующее:
#mysql —u root —p
Enter password: Вводим пароль для пользователя root, заданный во время установки
>show slave status G
В выведенной информации нас интересуют три параметра:
Slave_IO_State: Waiting for master to send event
Slave_IO_Running: Yes
Slave_SQL_Running: Yes
Если указанные параметры на обоих серверах соответствуют указанным выше, то все замечательно, репликация настроена. Если нет, смотрим логи.
ДНС — сервера
Для того, чтобы управлять доменной зоной test.ru, в настройках домена необходимо его делегировать на наши сервера. Пусть в глобальной сети наши сервера имеют уже доменные имена ns.master.my.com для главного сервера и ns.slave.my.com для резервного.
Только после делегирования ДНС-зоны на наши сервера мы сможем ей управлять.
На обоих серверах устанавливаем пакет bind9:
apt-get install bind9
Добавляем в конфиг /etc/bind/named.conf строку для указания своих зон:
echo 'include "/etc/bind/my-zones.conf";' >> /etc/bind/named.conf
И создаем свой конфиг-файл /etc/bind/my-zones.conf со следующим содержимым:
zone "test.ru" {
type master;
file "/etc/bind/db.test.ru";
};
На первом главном master-сервере создаем свою базу в файле /etc/bind/db.test.ru со следующим содержимым:
$ORIGIN test.ru.
$TTL 10
@ IN SOA ns.master.my.com. admin.my.com. (
2 ; Serial
10 ; Refresh
10 ; Retry
10 ; Expire
10 ) ; Negative Cache TTL
IN NS ns.master.my.com.
IN NS ns.slave.my.com.
;
@ IN A 10.1.0.1
где ns.master.my.com — доменное имя этого сервера (домен my.com вымышленный)
Ключевой здесь является А-запись и время обновления — 10 секунд.
На втором резервном slave-сервере создаем свою базу в файле /etc/bind/db.test.ru со следующим содержимым:
$ORIGIN test.ru.
$TTL 10
@ IN SOA ns.slave.my.com. admin.my.com. (
2 ; Serial
10 ; Refresh
10 ; Retry
10 ; Expire
10 ) ; Negative Cache TTL
IN NS ns.master.my.com.
IN NS ns.slave.my.com.
;
@ IN A 10.1.0.1
Отличия от главного в SOA-записи.
Далее перегружаем bind на обоих серверах
/etc/init.d/bind9 restart
И с какого-нибудь внешнего компьютера пробуем проверить А-запись домена test.ru
Например при помощи nslookup test.ru. Должен выдать адрес 10.1.0.1.
Если что-то не так, то смотрим логи.
Арбитраж
Переходим к самому интересному — арбитраж, который будет все это разруливать и управлять ДНС-зоной.
За основу я принял работу сервисов SSH, DNS, HTTP и MySQL. Критическими, в данном случае, являются сервисы HTTP и MySQL, т.к. если хотя бы один из этих сервисов не работает на главном сервере, то необходимо все запросы отправить на резервный, дополнительно уведомить администратора о проблеме по электронной почте.
Чтобы проверить работоспособность сервис я использую скрипт, который при помощи TELNET проверяет доступность порта и выставляет значение в специальный файл-состояния.
Сначала опрашивается главный master-сервер и результаты заносятся в файл, затем опрашивается резервный slave-сервер, результаты также заносятся в файл; затем проверяется состояние критически важных сервисов на главном сервере, в случае проблем проверяется состояние на резервном сервере и, в зависимости от статуса, производится перезапись ДНС-зоны. Всю логику описывать не буду, она представленна в скриптах.
Для начала необходимо создать на обоих серверах специальный каталог:
mkdir /var/lock/sync/
Все скрипты хранятся в /root/bin/
первый скрипт /root/bin/master.sh отвечает за проверку главного master-сервера по сервисам DNS, SSH, HTTP, MySQL.
#!/bin/bash
# Скрипт для провверки доступности портов вашего сервера
# This script is licensed under GNU GPL version 2.0 or above
# ---------------------------------------------------------------------
### Этот скрипт проверяет порты 22, 53, 80 и 3306 ###
### После двух неудачных проверок будет послано уведомление на email ###
###### Эта секция может модифицироваться######
WORKDIR="/root/bin/"
SEMAFOR="/var/lock/sync/master.sem"
MAILFILE="/root/bin/master_server_problem.txt"
# адрес главного master-сервера
HOST="10.1.0.1"
HTTP="80"
SSH="22"
MYSQL="3306"
DNS="53"
PROTOCOLS="SSH HTTP MYSQL DNS"
### Мыло админа###
EMAIL="admin@my.com"
##########
############
###### В эту секцию не нужно вносить изменения#####
### Binaries ###
TELNET=$(which telnet)
###Change dir###
cd $WORKDIR
###Check if already notified###
if [ -f $MAILFILE ]; then
rm -rf $MAILFILE
fi
# Если файла со статусами нет, то создаем его
if [ -f $SEMAFOR ]; then
A=1
else
echo "
DNS 0
SSH 0
HTTP 0
MYSQL 0" > $SEMAFOR
fi
###Проверяем СЕРВИСЫ###
for PROTO in $PROTOCOLS
do
Num_PROTO=`cat $SEMAFOR | grep $PROTO | awk {'print $2'}`
(
echo "quit"
) | $TELNET $HOST ${!PROTO} | grep Connected > /dev/null 2>&1
if [ "$?" -ne "1" ]; then #Ok
echo "$PROTO PORT CONNECTED"
if [ $Num_PROTO -ne "0" ]; then # !=0
if [ $Num_PROTO = "3" ]; then # ==3
echo "$PROTO PORT CONNECTING, AVALIBLE on server $HOST n" >> $MAILFILE
fi
OLD_Line="$PROTO $Num_PROTO"
NEW_Line="$PROTO 0"
sed -i -e "s/$OLD_Line/$NEW_Line/g" $SEMAFOR
fi
else #Connection failure
if [ $Num_PROTO -ne "3" ]; then
if [ $Num_PROTO = "2" ]; then # ==2 send notification
echo "$PROTO PORT NOT CONNECTING, FAILED on server $HOST n" >> $MAILFILE
fi
OLD_Line="$PROTO $Num_PROTO"
NEW_Line="$PROTO $(($Num_PROTO+1))"
sed -i -e "s/$OLD_Line/$NEW_Line/g" $SEMAFOR
fi
fi
done
###Send mail notification after 2 failed check###
# я использую MUTT для отправки почты через свой SMTP-сервер 10.6.6.6 без авторизации
# эту секцию можете модифицировать
if [ -f $MAILFILE ]; then
/usr/bin/mutt -x -e "set smtp_url=smtp://10.6.6.6" -e "set from="admin@drg.ru"" -s "Server problem" $EMAIL < $MAILFILE
fi
Второй скрипт /root/bin/slave.sh отвечает за проверку сервисов на резервном slave-сервере
#!/bin/bash
# Скрипт для провверки доступности портов вашего сервера
# This script is licensed under GNU GPL version 2.0 or above
# ---------------------------------------------------------------------
### Этот скрипт проверяет порты 22, 53, 80 и 3306 ###
### После двух неудачных проверок будет послано уведомление на email ###
###### Эта секция может модифицироваться######
WORKDIR="/root/bin/"
SEMAFOR="/var/lock/sync/slave.sem"
MAILADMIN=0
MAILFILE="/root/bin/slave_server_problem.txt"
HOST="10.2.0.2"
HTTP="80"
SSH="22"
MYSQL="3306"
DNS="53"
PROTOCOLS="SSH HTTP MYSQL DNS"
### Мыло админа###
EMAIL="admin@my.com"
##########
###### В эту секцию не нужно вносить изменения#####
### Binaries ###
TELNET=$(which telnet)
###Change dir###
cd $WORKDIR
###Check if already notified###
if [ -f $MAILFILE ]; then
rm -rf $MAILFILE
fi
if [ -f $SEMAFOR ]; then
A=1
else
echo "
DNS 0
SSH 0
HTTP 0
MYSQL 0" > $SEMAFOR
fi
###Проверяем SSH###
for PROTO in $PROTOCOLS
do
Num_PROTO=`cat $SEMAFOR | grep $PROTO | awk {'print $2'}`
(
echo "quit"
) | $TELNET $HOST ${!PROTO} | grep Connected > /dev/null 2>&1
if [ "$?" -ne "1" ]; then #Ok
echo "$PROTO PORT CONNECTED"
if [ $Num_PROTO -ne "0" ]; then # !=0
if [ $Num_PROTO = "3" ]; then # ==3
echo "$PROTO PORT CONNECTING, AVALIBLE on server $HOST n" >> $MAILFILE
fi
OLD_Line="$PROTO $Num_PROTO"
NEW_Line="$PROTO 0"
sed -i -e "s/$OLD_Line/$NEW_Line/g" $SEMAFOR
fi
else #Connection failure
if [ $Num_PROTO -ne "3" ]; then
if [ $Num_PROTO = "2" ]; then # ==2 send notification
echo "$PROTO PORT NOT CONNECTING, FAILED on server $HOST n" >> $MAILFILE
fi
OLD_Line="$PROTO $Num_PROTO"
NEW_Line="$PROTO $(($Num_PROTO+1))"
sed -i -e "s/$OLD_Line/$NEW_Line/g" $SEMAFOR
fi
fi
done
###Send mail notification after 2 failed check###
# я использую MUTT для отправки почты через свой SMTP-сервер 10.6.6.6 без авторизации
# эту секцию можете модифицировать
if [ -f $MAILFILE ]; then
/usr/bin/mutt -x -e "set smtp_url=smtp://192.168.55.15" -e "set from="admin@drg.ru"" -s "Server problem" $EMAIL < $MAILFILE
fi
Эти два файла идентичны, за исключением двух переменных $HOST и $SEMAFOR, в принципе можно было бы сделать один и использовать цикл, но я решил сделать их отдельными файлами.
Третий файл /root/bin/compare.sh служит для сравнения статусов сервисов на серверах и производит перезапись зоны ДНС.
#!/bin/bash
# Скрипт для провверки доступности портов вашего сервера
# This script is licensed under GNU GPL version 2.0 or above
# ---------------------------------------------------------------------
FILE_MASTER="/var/lock/sync/master.sem"
FILE_SLAVE="/var/lock/sync/slave.sem"
HOST_MASTER="10.1.0.1"
HOST_SLAVE="10.2.0.2"
DNSFILE="/etc/bind/db.test.ru"
LOG="/var/log/dns_rewrite.log"
PROTOCOLS="HTTP MYSQL"
MASTER_COL=0
SLAVE_COL=0
COL=0
for PROTO in $PROTOCOLS
do
COL=$(($COL + 1))
Master_PROTO=`cat $FILE_MASTER | grep $PROTO | awk {'print $2'}`
MASTER_COL=$(($MASTER_COL + $Master_PROTO))
Slave_PROTO=`cat $FILE_SLAVE | grep $PROTO | awk {'print $2'}`
SLAVE_COL=$(($SLAVE_COL + $Slave_PROTO))
done
MAX_COL=$(($COL * 3))
if [ $MASTER_COL = $MAX_COL ]; then # ==6
if [ $SLAVE_COL = "0" ]; then #==0
# Переписываем ДНС на Slave
grep $HOST_MASTER $DNSFILE
if [ "$?" -ne "1" ]; then #ok, rewrite
sed -i -e "s/$HOST_MASTER/$HOST_SLAVE/g" $DNSFILE
echo "Rewrite DNS to $HOST_SLAVE" >> $LOG
/etc/init.d/bind9 restart
fi
fi
else # check master
if [ $MASTER_COL = "0" ]; then #==0
grep $HOST_SLAVE $DNSFILE
if [ "$?" -ne "1" ]; then #ok, rewrite
sed -i -e "s/$HOST_SLAVE/$HOST_MASTER/g" $DNSFILE
echo "Rewrite DNS to $HOST_MASTER" >> $LOG
/etc/init.d/bind9 restart
fi
else
if [ $SLAVE_COL = "0" ]; then #==0
# Переписываем ДНС на Slave
grep $HOST_MASTER $DNSFILE
if [ "$?" -ne "1" ]; then #ok, rewrite
sed -i -e "s/$HOST_MASTER/$HOST_SLAVE/g" $DNSFILE
echo "Rewrite DNS to $HOST_SLAVE" >> $LOG
/etc/init.d/bind9 restart
fi
fi
fi
fi
И наконец собираем все эти скрипты воедино в один файл /root/bin/dnswrite.sh
#!/bin/bash
# Запускам проверку МАСТЕР
/root/bin/master.sh
# Запускам проверку SLAVE
/root/bin/slave.sh
# Запускам проверку баллов на перезапись ДНС
/root/bin/compare.sh
Добавляем права на запуск данных скриптов
chmod +x /root/bin/*.sh
и добавляем задание в CRON чтобы запускался каждую минуту «crontab -e»:
*/1 * * * * /root/bin/dnswrite.sh /dev/null 2>&1
Все готово.
Теперь мы имеем полностью автоматизированный комплекс отказоустойчивого веб-приложения!
Буду рад выслушать комментарии и принять замечания.
Автор: dimawar