Рубрика «Поисковые машины и технологии» - 6

8-я Российская летняя школа по информационному поиску (RuSSIR 2014) пройдет в августе в Нижнем Новгороде. Традиционно сильная научная программа, веселые вечеринки, спортивные состязания и речные прогулки «после уроков», уникальное место встречи ученых с мировым именем, студентов и представителей интернет-индустрии. Дополнительная тема этого года – пользовательские интерфейсы и визуализация данных. Участие в школе бесплатное, заявки принимаются до конца июня.

image

Читать полностью »

ElasticSearch и поиск наоборот. Percolate API
Вопрос умной категоризации чего-либо встаёт остро при разработке очень многих сайтов. Конечно, всегда можно отдать это на заполнение человеку и результат поначалу будет куда лучше машинного, но, что если категоризировать нужно в реальном времени сотни и тысячи «товаров».
Придется отдать это на откуп машине. Тут вариантов не так много, а написание собственного ИИ для 99.9% задач пустая трата времени.

Заинтересовавшимся как это решить с помощью ElasticSearch прошу под кат.
Читать полностью »

В декабре прошлого года в посте на Хабре мы объявили, что начали эксперимент по шифрованию текста запроса в поле referer с целью защиты приватности пользователей. Этот эксперимент мы планомерно расширяли и к февралю доля шифруемых данных дошла до 30% запросов. Время, которое прошло с момента анонса, как мы надеемся, дало возможность вебмастерам переориентироваться на другие способы оценки интересов пользователя. С сегодняшнего дня мы начинаем шифровать рефереры на все 100% потока запросов.

Читать полностью »

Таким образом получила продолжение история с решением Европейского суда позволить жителям ЕС требовать от Гугла удаления неумечтных и нерелевантных ссылок из выдачи. Как это может выглядеть пользователям Гугла хорошо известно:

Google планирует указывать в выдаче, что результаты были удалены по требованию фигуранта поискового запроса

Тем самым компания выражает своё отношение к решению суда, которое считает проявлением цензуры в интернете: не видя непосредственно удалённых ссылок, пользователь всё равно будет знать, что там есть что искать — благо, Google не единственный поисковик на свете.
Читать полностью »

Уровень подготовки веб-мастера: для всех

В 1998 году, когда все наши серверы умещались в гараже Сьюзан Войчицки (Susan Wojcicki), мало кто задумывался о том, как JavaScript или CSS взаимодействуют с поисковым роботом: эти технологии применялись нечасто. Разве что создатели некоторых страниц с помощью JavaScript заставляли элементы оформления… мигать. Однако с тех пор многое изменилось. Сейчас в Интернете можно найти множество красочных сайтов с интерактивным дизайном, на которых широко используется JavaScript. И сегодня мы поговорим об индексации ресурсов со сложным интерфейсом и структурой:

  • о том, почему Google обрабатывает их так, как это делают современные браузеры;
  • зачем нужно обращаться к внешним ресурсам;
  • как наша система анализирует код JavaScript и CSS.

Читать полностью »

Как я «крутил» поведенческие факторы
Приветствую вас, читатели! Сегодня я бы хотел вам поведать об очень интригующей штуке, как поведенческие факторы. А точнее, об их искусственном улучшении. А еще точнее, о недостатках сервисов-накрутчиков, которые этим занимаются.

Совсем чуть-чуть о поведенческих факторах

Поведенческие факторы – это совокупность действий посетителей на определенном сайте. Вход на сайт, время пребывания, просмотр страниц, “клики” на предлагаемые ссылки, возвращение на сайт – все эти моменты можно отнести к поведенческим факторам. Источник

Для чего я это пишу? Дело в том, что я являюсь владельцем двух коммерческих сайтов и, естественно, я заинтересован, чтобы они находились как можно выше в поисковой выдаче. И в какой-то момент, начитавшись различных статей, решился на эксперимент. Сразу оговорюсь, что результат был немного печален и я надеюсь, что эта статья послужит предостережением.
Читать полностью »

Запущен отечественный поисковик Sputnik.

image

Очевидно, что новый поисковик добровольно-принудительно будет основной поисковой системой для государственных компаний, министерств и образовательных учреждений. Это однозначно позволит ему сразу занять определенную долю на рынке.

На текущий момент доминирующим фактором ранжирования в Спутнике являются ссылки, что вполне очевидно, так как других мощных сигналов для ранжирования у него и быть не могло.
Также в Спутнике пока нет контекстной рекламы, а это в общем увеличивает долю SEO-трафика.
Таким образом, запуск новый поисковой системы может оказать поддержку в развитии SEO-рынка и рынка ссылок в частности.
Читать полностью »

Новый модный молодёжный поисковик Спутник от Ростелекома уже завтра во всех интернетах стран

Почти год назад была статья от modernstyle про сей проект. В той статье многие иронизировали, что: «бюджет удачно попилен», «сервис будет лишь роль прокси выполнять» и т.п.

Таки анонсировали дату запуска — 22 Мая. Презентация пройдёт в рамках Петербургского международного экономического форума.

Читать полностью »

Анализ неявных предпочтений пользователей, выраженных в переходах по ссылкам и длительности просмотра страниц, — важнейший фактор в ранжировании документов в результатах поиска или, например, показе рекламы и рекомендации новостей. Алгоритмы анализа кликов хорошо изучены. Но можно ли узнать что-то ещё об индивидуальных предпочтениях человека, используя больше информации о его поведении на сайте? Оказывается, траектория движения мыши позволяет узнать, какие фрагменты просматриваемого документа заинтересовали пользователя.

Этому вопросу и было посвящено исследование, проведенное мной, Михаилом Агеевым, совместно с Дмитрием Лагуном и Евгением Агиштейном в Emory Intelligent Information Access Lab Университета Эмори.

Мы изучали методы сбора данных и алгоритмы анализа поведения пользователя по движениям мыши, а также возможности применения этих методов на практике. Они позволяют существенно улучшить формирование сниппетов (аннотаций) документов в результатах поиска. Работа с описанием этих алгоритмов была отмечена дипломом «Best Paper Shortlisted Nominee» на международной конференции ACM SIGIR в 2013 году. Позже я представил доклад о результатах проделанной работы в рамках научно-технических семинаров в Яндексе. Его конспект вы найдете под катом.
Читать полностью »

В своем прошлом посте, с анонсом Google Chrome расширения для Likeastore, я упомянул тот факт, что в качестве поискового индекса мы начали использовать ElasticSeach. Именно ElasticSeach дал достаточно хорошую производительность и качество поиска, после которого было принято решение, выпустить расширение к хрому.

В этом посте, я расскажу о том, что использование связки MongoDB + ElasticSeach, есть крайне эффективное NoSQL решение, и о том, как перейти на ElasticSearch, если у вас уже есть MongoDB.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js