На создание данной статьи я был вдохновлен публикацией «Получение участников сообщества vk.com за считанные секунды». Моя статья написана новичком и отражает опыт решения одной задачи. Основная цель написания этой статьи для меня — собрать мнения, отзывы и критику примененного подхода от более опытных коллег. Кроме того, надеюсь, что кому-то приведенная здесь информация будет полезна.
Не так давно в одном из тестовых задания на вакансию младшего php-программиста мне попалась простая, но интересная для меня задача.
«Сделайте скрипт на php, который возвращает список id пользователей «ВКонтакте», разделенный символами перевода строки, которые являются мужчинами старше 25 лет и состоят в группе vk.com/habr».
Доступ к информации из базы «ВКонтакте» осуществляется с использованием VK API. Начинать знакомство с VK API лучше с официальной документации. Для того чтобы вызвать метод API ВКонтакте, необходимо осуществить POST или GET запрос по протоколу HTTPS на URL следующего вида:
api.vk.com/method/METHOD_NAME?PARAMETERS&access_token=ACCESS_TOKEN, где METHOD_NAME – название метода из списка методов API, PARAMETERS – параметры соответствующего метода, ACCESS_TOKEN – ключ доступа.
В нашей задаче используем метод groups.getMembers, который возвращает список участников сообщества. Все параметры метода описаны в документации. Метод не требует ключа доступа. В стандартной форме ответ приходит в виде JSON-файла. В одном запросе можно получить данные не более 1000 пользователей. Чтобы вживую посмотреть вывод метода, достаточно в адресной строке браузера ввести простейший запрос: api.vk.com/method/groups.getMembers?group_id=habr.
Получаем JSON-структуру с общим количеством членов сообщества vk.com/habr и тысячей первых id в списке по умолчанию отсортированном по возрастанию.
По условию задачи нам нужно вывести id пользователей определенного пола и возраста. Очевидный способ — выбирать запросами VK API пользователей группы вместе с их данными о поле и возрасте, а потом в PHP-коде анализировать их и выводить только нужные. Другой возможный способ — метод execute — позволяет в одном запросе передать скрипт на специальном языке VKScript для манипуляции с данными на сервере и вернуть уже обработанные данные. Сразу скажу, что мне не удалось, решить задачу с помощью метода execute. Может быть в комментариях кто-то укажет такое решение.
Пойдем по первому пути. Метод groups.getMembers с помощью значения sex параметра fields может выдавать пол пользователя, но он не выдает возраст. Вместо этого параметр fields имеет поле bdate — дата рождения. Кроме того, в запросах мы выбираем по тысяче пользователей, значит каждый следующий запрос должен выдать следующую тысячу. Для этого есть параметр offset, который показывает с какой позиции начинать выборку. Укажем в запросе еще и версию API.
В итоге запрос будет иметь примерно такой вид: https://api.vk.com/method/groups.getMembers?group_id=habr&offset=0&fields=sex,bdate&version=5.27
Чтобы забирать файл по ссылке, в PHP есть функция file_get_contents(). Она получает контент по ссылке и возвращает его в виде строки. Нужно учесть, что для того, чтобы file_get_contents() понимала протокол HTTPS нужна поддержка openssl в веб-сервере.
Потом полученный JSON-контент можно преобразовать в массив функцией json_decode(). Массив будет содержать и id, и пол. Дата рождения может быть вообще не указана.
Если дата рождения всё же указана, осталось из даты рождения получить возраст.
Даты рождения в bdate хранятся в строках формата ДД.ММ.ГГГГ, если указан год рождения, или ДД.ММ, если год рождения не указан. Чтобы узнать в каком формате строка фактически, я использовал первое, что пришло в голову: count(explode(".", $user_array['bdate'])) равно 2 или 3. Этот способ работает и не думаю, что это самое узкое место скрипта.
Для вычисления возраста по дате рождения нашел формулу hashcode.ru/questions/137939#137940. Функция strtotime() понимает формат поля bdate.
Проверяем пол и возраст. Если они удовлетворяют условию, выводим id.
// Номер пакета запроса
$packet = 0;
// Размер пакета запроса
$limit = 1000;
do {
// Каждый запрос начинаем там, где остановились в предыдущем запросе.
$offset = $ packet * $limit;
// Выполнение запроса.
// Результат - JSON-файл с общим количеством и данными пользователей.
// Чтобы file_get_contents() работал с https на веб-сервере apache
// должен быть активен модуль openssl.
$contents = file_get_contents("https://api.vk.com/method/groups.getMembers?group_id=samsung&offset=$offset&fields=sex,bdate&version=5.27")
// Преобразуем JSON в массив
$members = json_decode($contents, true);
// Данные пользователей хранятся в подмассиве users.
// Каждый элемент users - ассоциированный массив с данными.
foreach ($members['response']['users'] as $user_array) {
// Если пользователь указал дату рождения и пользователь - мужчина...
if ((isset($user_array['bdate'])) && ($user_array['sex'] == 2)) {
// ... и если в дате рождения три компонента (ДД.ММ.ГГГГ)...
if (count(explode(".", $user_array['bdate'])) == 3) {
// то вычисляем возраст (формулу нашел в интернете)
$age = floor((time()-strtotime($user_array['bdate']))/(60*60*24*365.25));
// Если возраст нам подходит, выводим id пользователя с переводом строки
if ($age > 25) {
echo $user_array['uid'] . "<br/>";
}
}
}
}
// Переходим на следующий пакет.
$packet++;
} while ($members['response']['count'] > $offset + $limit);
Этот вариант прекрасно работает на относительно небольших группах, но на группах более 100 тысяч подписчиков скрипт отрабатывает не до конца — в какой-то момент почему-то вываливается ошибка «file_get_contents(...): failed to open stream: Connection timed out in … on line ...». Пробовал увеличивать время выполнения скрипта и таймаут веб-сервера — не помогло. Так и не смог найти закономерность.
Тогда нашелся другой вариант — для загрузки ответа запроса использовать cURL. Чтобы применить такой метод, необходимо установить в ОС библиотеку libcurl, например, в Ubuntu —
sudo apt-get install libcurl3
и включить в PHP поддержку cURL, например, в Ubuntu —
sudo apt-get install php5-curl
Теперь можно открыть в PHP-скрипте сеанс curl функцией curl_init(), установить параметры соединения (в том числе URL) функцией curl_setopt() и скачивать контент JSON-файлов в строку функцией curl_exec(). Потом следует закрыть сеанс — curl_close(). Остальной код остается без изменений:
// Номер пакета запроса
$packet = 0;
// Размер пакета запроса
$limit = 1000;
// Инициализируем cURL.
// Для работы с cURL должна быть установлена библиотека libcurl
// и включена поддержка cURL в PHP.
$ch = curl_init();
do {
// Каждый запрос начинаем там, где остановились в предыдущем запросе.
$offset = $ packet * $limit;
// Параметры запроса
curl_setopt($ch, CURLOPT_URL, "https://api.vk.com/method/groups.getMembers?group_id=samsung&offset=$offset&fields=sex,bdate&version=5.27");
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
// Выполнение запроса.
// Результат - JSON-файл с общим количеством и данными пользователей.
$content = curl_exec ($ch);
$members = json_decode($contents, true);
// Данные пользователей хранятся в подмассиве users.
// Каждый элемент users - ассоциированный массив с данными.
foreach ($members['response']['users'] as $user_array) {
// Если пользователь указал дату рождения и пользователь - мужчина...
if ((isset($user_array['bdate'])) && ($user_array['sex'] == 2)) {
// ... и если в дате рождения три компонента (ДД.ММ.ГГГГ)...
if (count(explode(".", $user_array['bdate'])) == 3) {
// то вычисляем возраст (формулу нашел в интернете)
$age = floor((time()-strtotime($user_array['bdate']))/(60*60*24*365.25));
// Если возраст нам подходит, выводим id пользователя с переводом строки
if ($age > 25) {
echo $user_array['uid'] . "<br/>";
}
}
}
}
// Переходим на следующий пакет.
$packet++;
} while ($members['response']['count'] > $offset + $limit);
// Закрываем cURL
curl_close ($ch);
Как я уже говорил, думаю, возможен подход с методом execute, но мне пока не удалось получить в этом направлении удовлетворительный результат.
P. S. Прошу не думать, что я хочу получить от аудитории «Хабра» решение тестового задания. Вышеприведенные варианты я уже давно отправил и получил ответ. Просто немало времени потратил на эту задачу и хотел бы узнать, в правильном направлении ли я двигался и какие еще подходы можно было бы использовать.
Автор: Simonyan