Сканирование и индексирование страниц на нескольких языках

в 15:09, , рубрики: Accept-Language, multilingual, web-разработка, автоматизация, Блог компании Google, Веб-разработка, краулер, локализация, обновление, Поисковые машины и технологии, сбор данных, сканирование

Многие крупные сайты ежедневно привлекают посетителей не только в стране, из которой они родом. Для посетителей-иностранцев делаются локализованные версии: какие-то переведены лучше, какие-то хуже, на одних информации столько же, сколько на родном для сайта языке, на других — совсем немного. Тем не менее, поисковой системе Google проиндексировать контент на многоязычных сайтах бывает нелегко.

Сканирование и индексирование страниц на нескольких языках - 1

Зачастую, выбор, на каком языке отдавать информацию по-умолчанию, сделан либо вручную с сохранением информации о выбранном языке в cookies, либо автоматически: по языковым настройкам браузера, операционной системы, с помощью геолокации и определения страны / города по IP. Индексирующий робот Googlebot — не пользователь, сам язык не выберет, а автоматическая система определения не распознает его и не выдаст все языки сразу, так что для правильной индексации контента потребовалось приложить некоторые усилия.

Как было раньше

Сканирование и индексирование страниц на нескольких языках - 2
Ранее робот Googlebot имел IP-адрес США, а запросы отправлял без заголовка Accept-Language. В такой ситуации большинство сайтов молча отдавала ему свою английскую версию, и на многоязычных ресурсах могли возникать проблемы с индексированием контента.

Например, при попадании на российский сайт, где пользователям из-за рубежа всегда предоставлялся контент на английском, робот не имел возможности получить основное содержание сайта на русском. Как следствие, в результатах поиска в России страницы такого сайта могли отображаться ниже, чем они того заслуживали, или не отображаться вовсе, если стояла настройка «отображать результаты только на русском языке».

Как Googlebot работает сейчас

Алгоритм работы робота изменился: если материалы могут подбираться в зависимости от местоположения пользователя и языковых настроек на его устройстве, Googlebot будет обрабатывать такие страницы с использованием новых конфигураций сканирования, учитывающих местоположение и язык. Вот какие решения при этом используются:

  • Отправка запроса с других IP-адресов, которые не относятся к США в дополнение к использовавшимся до сих пор адресам из США.
  • Использование в запросе заголовков Accept-Language, что позволяет роботу Googlebot переходить к различным языковым версиям страницы и сканировать их.

Новые конфигурации сканирования активируются автоматически, поэтому ваши страницы могут по-другому обрабатываться роботами Google и отображаться в результатах поиска, даже если вы не изменяли настройки сервера или системы управления контентом.

Что стоит сделать, чтобы многоязычный сайт наверняка отображался правильно?

Хотите обеспечить наиболее эффективное индексирование и ранжирование вашего контента и сделать сайт более удобным для поиска пользователями? Мы по-прежнему рекомендуем использовать для языковых версий разные URL и подбирать нужные варианты с помощью атрибутов rel=«alternate» hreflang=«x».

Если у вас возникают вопросы или пожелания, ждем вас на нашем справочном форуме для веб-мастеров или в сообществе для веб-мастеров в Google+: g.co/ruwebmasters.

Справочные материалы

Мультирегиональные и многоязычные сайты (Раздел Справочного центра)
Шесть советов по созданию сайтов для многоязычной аудитории от Google Web Studio

Автор: HabrAndrey

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js