«Яндекс» запустил новый поисковый алгоритм — «Палех». Суть: алгоритм будет пытаться сопоставить смыслы запроса и страниц с помощью нейросетей, а не просто сопоставлять ключевики. Сделано это для того, чтобы обеспечить лучшую выдачу по редким запросам. Пока алгоритм умеет работать только с заголовками, но, разумеется, планируется «понимать» и всё содержание страницы.
Технология начала работать несколько месяцев назад. О том, как она работает с технической точки зрения можно почитать на «Хабрахабре». Чтобы понять, что фактически произошло, несколько цитат из официального блога компании:
- В нашем случае мы имеем дело не с картинками, а с текстами — это тексты поисковых запросов и заголовков веб-страниц, — но обучение проходит по той же схеме: на положительных и отрицательных примерах. Каждый пример — это пара «запрос — заголовок». Подобрать примеры можно с помощью накопленной поиском статистики. Обучаясь на поведении пользователей, нейросеть начинает «понимать» смысловое соответствие между запросом и заголовками страниц.
- Такой способ обработки запроса и его сопоставления с вероятными ответами мы назвали семантическим вектором. Этот подход хорошо работает в тех случаях, когда запрос относится к области «длинного хвоста». Семантические векторы позволяют нам лучше находить ответы на сложные низкочастотные запросы, по которым имеется слишком мало пользовательской статистики. Более того, представляя запрос и веб-страницу в виде вектора в трёхсотмерном пространстве, мы можем понять, что они хорошо соответствуют друг другу, даже если у них нет ни одного общего слова.
- Семантический вектор применяется не только в поиске Яндекса, но и в других сервисах — например, в Картинках. Там он помогает находить в интернете изображения, которые наиболее точно соответствуют текстовому запросу.
- Технология семантических векторов обладает огромным потенциалом. Например, переводить в такие векторы можно не только заголовки, но и полные тексты документов — это позволит ещё точнее сопоставлять запросы и веб-страницы.