Рубрика «Поисковые машины и технологии» - 14

Google изменит внешний вид поисковой выдачи для Европы, «даст фору» конкурентным сервисам

Уже около трех лет чиновники Европейского Союза анализируют работу поискового сервиса Google и его влияние на работу конкурентных сервисов (Yelp, UrbanSpoon, TripAdvisor). Если помните, компании-владельцы тематических поисковых сервисов (билеты, рестораны и кафе и прочие) подали объединенный иск против Google, жалуясь на невозможность конкурировать с поисковым гигантом. Корпорация, после ряда судебных разбирательств и работы с чиновниками ЕС, пошла навстречу, и вскоре будет представлена новая версия поисковой выдачи, так сказать, европейской.

Читать полностью »

Чего мы больше всего хотим, когда открываем интернет-поисковик? Мы хотим как можно быстрее его покинуть, как это ни парадоксально. Формулируем наше желание, жмём кнопку и скорее отправляемся туда, где оно должно исполниться (мы надеемся).

Есть всего два основных способа выражения желаний: либо описать, что нужно получить (или сделать), либо указать, куда нужно «телепортироваться». В первом случае система пытается понять запрос, правильно выбрав лучшие из ответов cети, взвешивая сотни их свойств на деревьях принятия решений. Во втором правильный ответ, как правило, всего один, и мы ожидаем, что поисковик его знает.

Запросы второго типа, отвечающие на вопросы куда или где — навигационные запросы. Предлагаю вашему вниманию небольшой рассказ о том, как мы с ними работаем.Читать полностью »

Если позволите, начну без вступления и предыстории.

Поисковик сегодня (в том числе и в первую очередь интернет поисковик) — это программа, в основе которой лежит математический аппарат, статистические, вероятностные и прочие методы. В любом случае он считает. Считает ссылки, считает релевантность, статистику переходов, учитывает множество факторов (местоположение, возраст и т.д., разную ситуационную информацию). Это в конечном счете приводит к сужению результатов и фильтрации выдачи. И что в конечном счете есть огромный, безусловно многоуровневый и на сегодняшний день принципиально достаточно сложный индекс к некоторой базе собираемой на просторах интернета информации. При этом, сама база информации имеет также достаточно сложную, многоуровневую структуру, что вполне объяснимо на сегодняшний день, но сути не меняет. Здесь, естественно, и кэши, и резервирование, и распараллеливание, и прочие, прочие, прочие, что обеспечивает каждому из нас возможность пользоваться, с моей точки зрения, очень важным ресурсом. Просто попробуйте представить сегодняшний интернет без поиска. Я даже готов утверждать, что достижения в области поиска информации являются основным фактором, стимулирующим рост интернета в принципе.
Читать полностью »

Будущее поиска: интервью с участниками Европейской конференции по информационному поискуНа прошлой неделе в Москве при поддержке Яндекса прошла одна из двух самых авторитетных мировых конференций по информационному поиску — ECIR 2013 (European Conference on Information Retrieval).

Специально для Хабрахабра Илья Сегалович (iseg), технический директор Яндекса, коротко рассказал, чем она важна; почему то, что она прошла у нас, имеет большое значение и каких усилий нам и нашим соорганизаторам из Высшей школы экономики стоило провести ECIR в Москве.

Также мы взяли несколько интервью у авторов наиболее интересных статей и выступлений, а председателя жюри Best Paper Awards комитета попросили рассказать, о чём были лучшие статьи и почему предметы именно этих исследований сейчас важнее всего для науки и индустрии.
Читать полностью »

Помню первый день, когда подключился к интернету. Это был модем, постоянно занятая телефонная линия, почасовая оплата и растерянность – куда пойти и как искать. Попадая на интересную страницу не читал, а тут же сохранял ее, чтобы потом спокойно почитать. Отключившись в первый день от сети понял, что есть оптимизационная задача: как денег потратить мало, а информации найти много? Решение пришло почти сразу – купил «Желтые страницы Интернета» и перед выходом в сеть готовился, внимательно читая и выписывая адреса интересных сайтов. Так было.

Сейчас все по другому. Интернет стал давно безлимитным и дешевым. Зато поисковые системы узурпировали наше право выбора, а мы к этому привыкли и безропотно этому подчиняемся. Поисковые системы думают за нас, заботятся о нас и без всяких там угрызений совести формируют наше представление о структуре и содержании сети. Поисковики незаметно начинают перебирать на себя все новые функции. Читать полностью »

Используя данные поисковых машин Google, Bing и Yahoo за 2010 год, группа исследователей из Microsoft Research, Стэнфорда и Колумбийского университета подтвердила возможность обнаружения побочных эффектов лекарств путём анализа информации из логов поисковых систем общего назначения. Для проверки использовалась информация о том, что совместное применение двух лекарств — пароксетина и правастатина может приводить к гипергликемии. Об этом стало известно только в 2011 году, то есть в 2010 никакой информации об этом в сети быть не могло.

Учёные проанализировали частоту появления поисковых терминов, связанных с симптомами гипергликемии, среди пользователей, которые ранее искали в сети информацию об этих двух лекарствах. Оказалось, что частота поисковых запросов о симптомах гипергликемии гораздо выше у тех, кто искал информацию по обеим лекарствам, чем у тех, кто искал только одно из них. На графиках видно, что разница была ощутима на протяжении всего года и не является каким-то временным или сезонным эффектом.

Исследование статистики поисковых запросов позволяет обнаружить неизвестные ранее побочные эффекты лекарств
Читать полностью »

В моем веб-проекте на Playframework-e в один прекрасный момент потребовался поиск. Идею искать в базе через like я сразу отмел, потому что хотелось ранжирования и прочих плюшек «умного» поиска, а изобретать свой велосипед не было ни времени ни желания.
Так как проект на Java — было очень соблазнительно использовать для этого Lucene.
В гугле я сразу нашел замечательный модуль для Playframework-а под названием Search, также был найден модуль Elastic Search, который тоже использует Lucene, но он требует установки отдельного сервера, и потому был отметен. Модуль Search понравился мне своей простотой — все «навороты» в нем инкапсулированы, так что пользоваться им очень легко.
С установкой модуля, как и всегда в Play-e, проблем не возникло, команда play install search отработала на «ура» и выкачала модуль из репозитория.
Добавив module.search=${play.path}/modules/search-2.0 в application.conf я уже мог использовать его в приложении.
Следуя краткому руководству, я добавил к сущности Entry, по которой собственно и следовало осуществлять поиск, аннотацию @Indexed, а полю description — аннотацию @Field.
Написав в контроллере примерно следующий код:

public static void search(String phrase, int page) {
        int pageSize = PAGE_SIZE;
        Query query = Search.search("description:" + phrase, Entry.class);
        List<Entry> entries = query.page(page*pageSize, pageSize).fetch();
        long totalCount = query.count();
        render(entries, totalCount, page, pageSize, phrase);
}

Я уже был готов делать первые тесты и наращивать функционал, но тут начались проблемы…
Читать полностью »

Чем занят отдел обработки запросов в Поиске Mail.Ru? Если одним предложением, мы пытаемся «понять» запрос, то есть осуществляем подготовку запроса к поиску, приводим его в вид, пригодный для взаимодействия с нашим индексом, ранжированием, подмесами и прочими компонентами. Если же вы хотите узнать о нашей работе подробнее — добро пожаловать под кат. В этом посте я расскажу об одной из областей нашей работы — парсере запросов.
Читать полностью »

Бытует мнение, что русская морфология у Яндекса реализована лучше чем у Google. В этой статье я покажу, что дело обстоит ровным счетом наоборот.
image
Читать полностью »

В блоге для веб-мастеров инженеры Google подготовили и выложили два руководства разной степени сложности для тех, кто еще не знаком с базовыми методами оптимизации под поисковую машину Google.

Надо сразу сказать, что первое руководство действительно для новичков — профессионалы вряд ли обнаружат там нечто секретное и таинственное. Любопытно только то, что в Google не поленились и подготовили соответствующий одностраничный PDF-документ сразу в 13 языковых редакциях, включая и русский (английская версия). При этом документ (А4) выглядит визуально привлекательно и информативно, так что его можно распечатать и повесить в офисе, если вдруг возникнет необходимость в напоминании банальностей.

Второй документ более серьезного уровня и уже только на английском языке. Он довольно подробно и с примерами описывает различные «best practices» вроде создания уникальных заголовков веб-страниц, заполнения мета-тегов или улучшения структуры URL. Забрать документ можно отсюда.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js