Рубрика «поисковые технологии» - 15

Раньше на Авито можно было найти нужный товар, используя фильтрацию по ключевым словам или навигацию по дереву категорий. Этот способ, хоть и казался привычным, был не всегда удобен — чтобы найти товар или услугу, нужно было сделать большое количество кликов. Более года назад у нас появилась релевантность, благодаря которой поиск стал лучше, и найти товар или услугу теперь проще и удобнее даже на главной странице. С этим нововведением в выдачу перестали попадать неподходящие, откровенно «мусорные» товары. И это только один из шагов, чтобы сделать поиск лучше. Мы постепенно изменяем инфраструктуру, что позволяет нам работать над качеством поиска более интенсивно, быстрее улучшать его и выкатывать новые фичи, приносящие пользу продавцам и покупателям на Авито.

В статье я расскажу, как менялся поиск на Авито: с чего начинали и как мы сейчас движемся по пути к улучшению жизни наших пользователей, поделюсь нашими нововведениями как в продукте, так и в его начинке — технической части. Совсем хардкорного мяса здесь не будет, но, надеюсь, вам понравится.

Эволюция поиска — как купить пианино в три клика - 1Читать полностью »

С момента прошлого большого обновления «Королёв» прошло больше года. Идеи, вошедшие в тот релиз, получили за это время дальнейшее развитие и нашли новые применения. В обновлении «Андромеда» мы сфокусировались на тех аспектах работы поисковой системы, которые позволяют нашим пользователям решать как можно больше задач быстро и удобно.

Сегодня мы традиционно расскажем читателям Хабра о проделанной нами работе.

Как Яндекс изменил Поиск за прошедший год. Обновление «Андромеда» - 1

Читать полностью »

Мы уже рассказывали вам об интересных статистиках текстов, делали обзор статей применений автокодировщиков в анализе текстов, удивляли нашими свежими алгоритмами поиска переводных заимствований и парафраза. Я решил продолжить нашу корпоративную традицию и, во-первых, начать статью с «Т», а во-вторых, рассказать:

  • как быстро найти абзац текста среди сотен миллионов статей;
  • во что превращается документ после загрузки в систему Антиплагиат, и что с этим делать дальше;
  • как формируется отчет, который почти никто не смотрит, а стоило бы;
  • как проиндексировать не все, но достаточно.

Так устроен поиск заимствований в Антиплагиате - 1
Читать полностью »

Сегодня многие разрабатывают enterprise-приложения на Java с использованием spring boot. В ходе проектов часто возникают задачи по созданию поисковых систем разной сложности. Например, если вы разрабатываете систему, хранящую данные о пользователях и книгах, то рано или поздно в ней может потребоваться поиск по имени/фамилии пользователя, по названиям/аннотациям для книг.

Как начать работать с Hibernate Search - 1

В этом посте я вкратце расскажу об инструментах, которые могут помочь в решении таких задач. А затем представлю демо-проект поискового сервиса, где реализована более интересная и сложная фича — синхронизация сущностей, БД и поискового индекса. На примере этого демо-проекта вы сможете познакомиться с Hibernate Search — удобным способом общения с полнотекстовыми индексами Solr, Lucene, ElasticSearch.
Читать полностью »

В далеком 2017 году, возникла идея разработать сервис мониторинга цен конкурентов. Его отличительной фишкой от остальных подобных сервисов должна была стать функция ежесуточного автоматического сопоставления товаров. Видимо из — за почти полного отсутствия информации о том, как это делать, сервисы по мониторингу цен предлагали лишь возможность ручного сопоставления силами самих клиентов, либо операторов сервиса с ценой от 0.2 до 1 рубля за факт сопоставления. Реальная же ситуация с, например, 10 сайтами и 20 000 товаров на каждом, неминуемо требует автоматизации процесса, так как ручное сопоставление уже слишком долгое и дорогое.

Ниже будет описан подход к автоматическому сопоставлению на примере ряда конкурирующих аптек с использованием технологии Elaticsearch.
Читать полностью »

Примерно год назад я сделал такую штуку как тепловые карты цен, я тогда описал весь процесс вот в этой статье. Сервис получился интересный, но денег он не приносит совсем, просто красивая картинка наглядно показывающая где дорого, а где дешево, так сказать, имиджевая составляющая — аналогов на наших сайтах по недвижимости почему-то не было, до недавнего времени. Но на днях то же самое сделал Яндекс.
Читать полностью »

Обсуждая качество продуктового поиска и способы его автоматизированного тестирования, в прошлый раз, пришли к пониманию некоторой непрозрачности проблемы. Огромное количество интернет-магазинов часто ставят покупателей в тупик, не находя требуемого по простейшим запросам, а проблемы как бы и нет. Одним словом, смотрим на реальные проблемы не очень релевантного поиска очень популярного интернет-магазина (который очень хочет быть «маркетплейсом»).

Бензиновые велосипеды или странный поиск продуктов (e-commerce) - 1
Читать полностью »

Сегодня Гуглу официально исполнилось 20 лет, двадцать лет как в наш язык прочно вошло слово «гуглить».

Вот так Google выглядел два десятилетия назад:
image

На самом деле дата основания компании — 4 сентября 1998 года. Но технология PageRank, легшая в основу поиска Google, родилась еще в январе 1996 года как научно-исследовательский проект Ларри Пейджа и Сергея Брина, которые тогда учились в Стэнфордском университете в Калифорнии.

Основной домен поисковика google.com был зарегистрирован 15 сентября. Но в самой компании день рождения празднуется именно 27 сентября.

В честь круглой даты компания разместила на главной странице вместо обычного дудла Youtube-ролик, собравший в себе различные важные события за время существования поисковика, которые «гуглили» его посетители.

На специальной праздничной странице, имеющей немного запутанный вид, можно посмотреть самые актуальные поисковые запросы за 20 лет и историю изменения их популярности.

Яндекс решил не оставаться в стороне и поздравил с днем рождения своего заокеанского конкурента, перекрасив собственный логотип в фирменные гугловые цвета. Причем из-за разницы в часовых поясах, Яндекс начал отмечать день рождения раньше самого именинника.
image

Читать полностью »

«Яндекс» с правообладателями обсуждают механизм досудебного удаления пиратских ссылок из поиска - 1Конфликт «Яндекса» и «Газпром-медиа» не прошёл незамеченным для властей. Вчера в администрации президента РФ прошло совещание, на котором присутствовали сотрудники «Яндекса», Google, Mail.ru Group, «Газпром-медиа», Национальной медиа группы (НМГ), Роскомнадзора и представитель Ассоциации продюсеров кино и телевидения (АПКиТ). По словам нескольких информированных источников, интернет-компании, медиахолдинги и чиновники обсуждают внесудебный механизм удаления из поисковой выдачи ссылок на сайты с нелегальным контентом. Информацию о подготовке такого соглашения подтвердили представители Роскомнадзора, НМГ, «Газпром-медиа» и АПКиТ.

Правообладатели давно требуют от «Яндекса» и других поисковых компаний внедрить эффективный механизм оперативного удаления любых пиратских ссылок. Наверное, в идеале им бы хотелось иметь доступ к «админке», в которую они могут вводить произвольные ссылки — и те мгновенно исключаются из поисковой выдачи. Или реализовать такой механизм, какой предусмотрен американским законом DMCA.
Читать полностью »

10 сентября 2018 года Минкульт опубликовал законопроект «О внесении изменений в статью 15.2 Федерального закона „Об информации, информационных технологиях и о защите информации”». Речь идёт именно о той статье, по которой Роскомнадзор недавно угрожал заблокировать сервис «Яндекса» на территории России. В новой редакции предлагаются более жёсткие сроки для этой процедуры.

После получения судебного решения Роскомнадзор обязан быстрее заблокировать ресурс. Вместо нынешних «шести (максимум) рабочих дней на переговоры плюс сутки на выполнение» предлагается блокировать ресурс в течение суток после получения судебного постановления.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js