Всегда было интересно, существует ли разница между поисковой выдачей Яндекса и их API (xml.yandex.ru), решающим такие же задачи (официальная позиция: Яндекс.XML — возможность делать поисковые запросы к Яндексу и публиковать результаты поиска на своем сайте).
Известно, что данные в Яндекс.Вебмастер всегда сильно запаздывают и расходятся с реальностью: информация, которую можно получить через выдачу (количество проиндексированных страниц, ссылки и пр.) появляется в ЯВМ лишь через несколько суток.
Но поскольку в Яндексе выступает против непосредственного парсинга выдачи, они сделали альтернативу через получение данных по xml.
К слову, раньше к Я.XML все могли получить доступ, просто подтвердив телефонный номер в аккаунте (если не ошибаюсь, для неподтверждённых аккаунтов было ограничение в 1000 запросов), но примерно год или два назад в Яндексе отказались от этой политики и ввели свою метрику, которая сильно коррелирует с трафиком (а если быть точнее, то с «количество показов в выдаче»).
Вообще это очень интересная метрика (к примеру, чем чаще показывается сайт в выдаче, тем чаще антивирусный бот Яндекса проверяет страницу). В прошлом году я как раз её и получил, распарсив 3кк запросов из разных групп. Эти данные можно осудить в отдельной статье. А первый раз я этот термин услышал на Yet Another Conference 2013, в отделе безопасности.
Но вернемся к XML.
Суть эксперимента:
1. Было взято 2,778 запросов из 4 групп (коммерция, женская тематика, туризм, информационные запросы)
2. Почти одновременно был запущен парсинг поисковой выдачи (xml парсится дольше из-за внутренних ограничений)
3. Для доступа к Я.XML взяли собственные лимиты из Я.Вебмастера, для парсинга выдачи — закрытый прокси-сервис. Ради чистоты эксперимента был указан регион lr=1 (география IP прокси-сервиса — RU (по хуизу), в поле address указан Moscow).
Последний апдейт базы был 9 января, а данные собирали 13, так что шторма выдачи уже нет и данные можно считать достоверными.
Немного о минусах XML:
- не отдает содержимое title, только сниппет
- у сниппета есть разница со сниппетом из выдачи
- не показывает, есть ли реклама в выдаче (так можно оценить конкурентов и степень коммерциализации запроса)
- не показывает, есть ли сервисы Яндекса в выдаче
(Также я на другом своем проекте проверяю домены на показатели (индексация, тИЦ и прочее). При проверке индекса через XML очень часто Яндекс цифры меняет, это я давно заметил. Расхождение может достигать сотни страниц (плюс-минус), иногда в индексе якобы 0.)
Теперь выводы:
Большинство расхождений — плюс-минус 1 позиция.
Чуть меньше — плюс-минус 5 позиций
Совсем мало — другие сайты на позициях.
И в цифрах:
Совпадает позиций — 75%
Не совпадает — 25%
Буду рад указаниям на возможные ошибки и, особенно, сравнению с результатами аналогичных экспериментов.
- Рандомная выборка с подсвеченными данными: yadi.sk/i/i4imHJ8qmvgTd
- Все результаты в csv: yadi.sk/d/X5SYWxl7mvgUe
- Дамп базы: yadi.sk/d/O5viMlrRmvgKD
Цифры в результатах — это частотность запросов по вордстату (общая и точная), они особо роли не играют, но просто есть
Автор: TFStudio