Рубрика «поисковые системы» - 11

Помню первый день, когда подключился к интернету. Это был модем, постоянно занятая телефонная линия, почасовая оплата и растерянность – куда пойти и как искать. Попадая на интересную страницу не читал, а тут же сохранял ее, чтобы потом спокойно почитать. Отключившись в первый день от сети понял, что есть оптимизационная задача: как денег потратить мало, а информации найти много? Решение пришло почти сразу – купил «Желтые страницы Интернета» и перед выходом в сеть готовился, внимательно читая и выписывая адреса интересных сайтов. Так было.

Сейчас все по другому. Интернет стал давно безлимитным и дешевым. Зато поисковые системы узурпировали наше право выбора, а мы к этому привыкли и безропотно этому подчиняемся. Поисковые системы думают за нас, заботятся о нас и без всяких там угрызений совести формируют наше представление о структуре и содержании сети. Поисковики незаметно начинают перебирать на себя все новые функции. Читать полностью »

Чем занят отдел обработки запросов в Поиске Mail.Ru? Если одним предложением, мы пытаемся «понять» запрос, то есть осуществляем подготовку запроса к поиску, приводим его в вид, пригодный для взаимодействия с нашим индексом, ранжированием, подмесами и прочими компонентами. Если же вы хотите узнать о нашей работе подробнее — добро пожаловать под кат. В этом посте я расскажу об одной из областей нашей работы — парсере запросов.
Читать полностью »

Уже достаточно долгое время мы ведем поддержку двух мобильных версий Поиска Mail.Ru. Этим постом хотелось бы раскрыть немного технической информации о графических интерфейсах.

Первая из версий ориентирована на простые телефоны, которые медленно, но верно покидают современный рынок мобильных устройств, но еще не полностью забыты. К этой категории мы относим телефоны без полноценной операционной системы, браузеры в которых устарели, не понимают полноценного JavaScript-кода и не могут в силу своих ограничений поддержать быстро развивающиеся интернет-технологии. Для этой группы пришлось применять проверенный старый способ — .png- и .gif-графику.

Вторая версия, которую мы поддерживаем и развиваем, предназначена для смартфонов. О ней сегодня и пойдет речь.
Читать полностью »

Бытует мнение, что русская морфология у Яндекса реализована лучше чем у Google. В этой статье я покажу, что дело обстоит ровным счетом наоборот.
image
Читать полностью »

Пока компьютер не начнет думать как человек, он не сможет отличить плохой сайт от хорошего… так, как это сделал бы человек. На самом деле поисковые системы имеют в своих арсеналах методики сбора и анализа данных, с помощью которых кремниевые мозги легко затыкают за пояс знатоков из мяса.

Сразу оговоримся — под «хорошим» сайтом мы имеем в виду «достойный занять место в поисковой выдаче по конкретному ключевому запросу», не будем погружаться в дебри эстетики сайтостроения.

Итак, если не вдаваться в детали, сейчас в поисковых системах комплексно применяется три подхода: ранжирование страниц по авторитетности (пример — принесший Google популярность алгоритм PageRank), поведенческие факторы (анализ действий реальных посетителей реальных сайтов) и машинное обучение (пример — «Матрикснет» Яндекса, который обучает алгоритмы оценками выборок специалистами-асессорами, ну и по сути увязывает и уравновешивает первые два подхода).

Ранжирование по авторитетности на ранних этапах развития интернета работало очень хорошо, но в дальнейшем «слишком математическая» природа такого подхода позволила оптимизаторам применять фокусы, использующие найденные в ходе экспериментов слабости системы. Качество выдачи страдало, поисковики вводили поправки, дополнительные формулы и коэффициенты, фильтры и санкции, но по-настоящему крупный прорыв был сделан, когда появилась возможность ранжировать сайты на основе предпочтений их реальных живых посетителей. Анализ поведенческих факторов объективнее любых личных пристрастий (как экспертных, так и профанных), поскольку работает с предпочтениями большой выборки целевой аудитории.
Читать полностью »

Поведенческие факторы и с чем их едят
Доброго времени суток!
Более подробно остановимся на:

  • Поведенческие факторы? Курим или реальность? А как пощупать?
  • Нужно построить зиккурат больше информации. Откуда поисковые системы узнают о поведении пользователей?
  • Чего ПС ценят в поведении людей? Основные факторы
  • Как заставить людей вести себя хорошо! Плетка? Пряник?
  • Ну и на последок…

Читать полностью »

GSA: Препарируем Google Search Appliance в виртуальной машине
Последние годы, с интересом почитывая о персональных поисковых системах в веселых желтых коробках имени Google, я периодически гуглил по словам GSA, Google Search Appliance, reverse engineering и, чего греха таить, hack, DIY, disk dump и т.п. Но ничего, кроме официальных пресс-релизов и переписки счастливых (?) обладателей с группой поддержки, я не встречал.

Иногда звучали на форумах робкие вопросы вроде «а как бы рута мне получить» или «попасть в GSA по ssh», но на все подобные вопросы ответ был один — только группа поддержки Google знает пароли. И никому не скажет. Удивительно, но я не встречал в интернете никаких попыток собрать «хакинтош» на движке Гугла, или по живому коду разобраться в алгоритме ранжирования страниц.

Ситуация слегка изменилась в 2008 году, когда на волне эйфории от виртуализации, Google выкатил VGSA – бесплатную виртуальную машину для Vmware с ограниченной до 50 тысяч документов лицензией. Впрочем, особого энтузиазма это в интернете не вызвало, в 2009 году проект был свернут и большинство ссылок в Гугле на VGSA стали возвращать 404 (заметьте – самим же Гуглом). Ссылку на релиз от 2008 года можно найти довольно легко. Ссылка на версию 2009 сохранилась лишь на паре китайских сайтов.

О том, как я поставил vgsa_20090210 на ESX 5.1, зашел рутом, снял ограничение на размер индекса и увидел много чего интересного с точки зрения СЕО, можно Читать полностью »

В предыдущей статье, обсуждение получилось слишком крикливым. Но мы открыли свой сайт и там я переписал более взвешенно. Написанное там рекомендую прочитать, чтобы потом не жаловаться на сложность изложения. На самом деле нужен минимум информации для понимания. Я обещал написать продолжение о своем эксперименте, поэтому те кто заинтересовался проблематикой построения эволюционных деревьев — прошу под кат. Читать полностью »

Приветствую! Надеюсь, эта статья будет кому-нибудь полезна.

Многие знают о возможностях адресной строки Chrome, запоминающей поисковые системы различных сайтов. Однако эффективно ее использовать, думаю, умеют далеко не все.
Я сижу в интернете исключительно через этот браузер (дело вкуса и привычки, конечно) и использую кастомизированный поиск в Chrome по несколько десятков раз в день. Большое количество действий, ежедневно выполняемых через браузер, можно оптимизировать, добавив в список определенные поисковые системы.

Итак, кончаю муть, перехожу к «технической» и практической стороне дела.
Читать полностью »

image

Прототип алгоритма определения происхождения информационного всплеска.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js