Рубрика «Поисковые машины и технологии» - 2

image

День добрый. Хочу поделиться с сообществом возникшей и, к сожалению, уже не новой проблемой при использовании поиска Яндекса из Республики Беларусь и, по возможности, получить комментарии от самих сотрудников компании.

В случае использования Яндекса львиная доля пользователей из РБ оказалась в западне байнета. Даже при вводе в адресную строку yandex.ru руками, коварный поисковик автоматически редиректит в зону .by, без вариантов. Тихо, молча, элегантно.

Данный пост позиционируется мной как фидбек компании, а не как хейт, или необоснованная критика.
Читать полностью »

Elaticsearch — популярный поисковый сервер и NoSQL база данных. Одной из интересных его особенностей является поддержка плагинов, которые могут расширить встроенный функционал и добавить немного бизнес-логики на уровень поиска. В этой статье я хочу рассказать о том, как написать такой плагин и тесты к нему.Пишем поисковый плагин для Elasticsearch - 1Читать полностью »

Привет! Смартфон есть у каждого? Часто ищете на нём что-нибудь? Натыкались на ужасные мобильные версии сайтов? С этого дня всё должно измениться.

Улучшаем результаты поиска на мобильных устройствах - 1

Поиск на мобильных устройствах отличается от десктопного: актуальные и свежие результаты пользователям нужны вне зависимости от того, где они расположены и насколько качественное подключение используется. Мобильное приложение? Замечательно. “Классический” сайт? Хорошо. Мобильная версия? Превосходно. Но что делать, если разработчик не позаботился о грамотной обработке переадрессаций с десктопной версии на мобильную? Пользователи из-за этого теряют время, иногда — ещё и деньги, нервы, билеты на самолёт и много чего ещё.

Так как мобильные устройства всё чаще используются для доступа к сети, Интернет и наши алгоритмы должны приспосабливаться к новым требованиям.

Мы начали с обновлений, обеспечивающих правильность настройки и просмотра сайтов в результатах на современных устройствах. После этого мы упростили для пользователей определение в выдаче страниц, оптимизированных для мобильных устройств и внедрили индексирование приложений, чтобы показывать полезную информацию и из приложений. Сегодня мы расскажем про два важных изменения, которые помогут пользователям чаще находить контент, приспособленный для мобильных устройств.
Читать полностью »

Предлагаю читателям «Хабрахабра» перевод статьи «Spotting bad actors: what your logs can tell you about protecting your business» из официального блога Elasticsearch. Статья рассказывает о том, как можно использовать возможности Elasticsearch для анализа логов веб-сервера с целью обнаружения подозрительной активности на сайте.
Читать полностью »

image

Поиск текста в изображениях — достаточно популярная функция Evernote. Мы бы хотели рассказать, как она работает и ответить на некоторые частые вопросы.

Как происходит обработка изображений

Когда в процессе синхронизации заметка отправляется в Evernote, любые ресурсы, включенные в эту заметку, с MIME-типами PNG, JPG или GIF пересылаются на отдельный набор серверов, занятых исключительно распознаванием текста во вложенных изображениях и возвращением найденных результатов. Эти результаты добавляются в заметку в виде скрытого (точнее не видимого при просмотре заметки) набора метаданных под названием recoIndex. Весь recoIndex можно посмотреть, если экспортировать заметку в файл ENEX.

Например, вот старая заметка в одном из наших аккаунтов со снимком пивной бутылки.
Читать полностью »

Многие крупные сайты ежедневно привлекают посетителей не только в стране, из которой они родом. Для посетителей-иностранцев делаются локализованные версии: какие-то переведены лучше, какие-то хуже, на одних информации столько же, сколько на родном для сайта языке, на других — совсем немного. Тем не менее, поисковой системе Google проиндексировать контент на многоязычных сайтах бывает нелегко.

Сканирование и индексирование страниц на нескольких языках - 1

Зачастую, выбор, на каком языке отдавать информацию по-умолчанию, сделан либо вручную с сохранением информации о выбранном языке в cookies, либо автоматически: по языковым настройкам браузера, операционной системы, с помощью геолокации и определения страны / города по IP. Индексирующий робот Googlebot — не пользователь, сам язык не выберет, а автоматическая система определения не распознает его и не выдаст все языки сразу, так что для правильной индексации контента потребовалось приложить некоторые усилия.
Читать полностью »

Волею судеб в мои руки попал обученный на поисковых запросах Word2Vec. Под катом даны примеры использования с пояснениями.
Читать полностью »

Хабрахабр, привет!

Возникала ли у вас когда-нибудь потребность отслеживать появление какой-нибудь информации на сайте, особенно если там нет рассылки новостей и RSS-канала!? Приходилось ли ожидать, когда опубликуют результаты экзамена, новые вакансии, тендеры, обновят прайс.

В нашей компании, занимающейся большую часть времени пенсионно-страховым консалтингом, такая потребность возникает постоянно. При этом тратить время на регулярное посещение сайтов грустно, а найти подходящий инструмент, которому можно было бы поручить такого рода задачу не получалось: либо надо было устанавливать отдельную программу, либо не устраивало отображение результата. Поэтому было решено создать сервис, который бы позволял отслеживать все изменения на сайтах. И не просто отслеживать и получать уведомления об изменениях, но и видеть сами изменения прямо на сайте.

Результатом разработки стал сервис Websvodka.ru, о котором здесь кратко расскажу. Возможно, вам он тоже сможет пригодиться.

image
Читать полностью »

В этой статье вы узнаете, как поисковая система Яндекс борется с накруткой поведенческих факторов и какая существует опасность для добросовестных вебмастеров потерять позиции на длительный период. Статья будет полезна как специалистам, так и начинающим вебмастерам, для которых я постарался расписать наиболее сложные моменты.
Читать полностью »

Онтоинженер: от сотворения мира к порождению сущностей - 1В этом посте я продолжу рассказ о той части Compreno, которая связана с профессией онтоинженера. Ну или о той работе онтоинженера, которая связана с упомянутой технологией — это уж кому как удобнее воспринимать.

Напомню, первая часть подвела нас к тому, что онтоинженеры строят онтологии, чтобы технология могла работать (без них — никуда, так уж всё устроено). А о том, что ещё, и, конечно, зачем делают онтоинженеры, я предлагаю узнать прямо сейчас.

Семь битв – одно поддерево

Основную часть рабочего времени онтоинженер посвящает не «моделированию мира» (хотя это и звучит очень гордо), а созданию системы извлечения. И хотя мы всё больше экспериментируем со статистикой, машинным обучением и автоматическим извлечением паттернов, пока в наших продуктах и проектах используются правила, написанные вручную. Однако правила эти представляют собой не какие-то жесткие шаблоны, опирающиеся на линейный порядок слов в предложении, а описания фрагментов семантико-синтаксических деревьев ABBYY Compreno. Это позволяет нам сравнительно легко обходить вариативность и неоднозначность языка, кратко задавая множество вариантов, используемых для выражения одного и того же смысла. Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js