Рубрика «поисковые технологии» - 10

Пост лучше всего подойдет разработчикам «one-man-company» или командам. Я расскажу, как достаточно легко и просто (при отсутствии или минимальном бюджете) попасть в топ поисковой выдачи в развитых странах в нише разработки и перестать бороться за клиентов в СНГ, которые хотят круто, классно, без ТЗ (ну ты понял, бро, хотим, чтобы все было красиво) и так, чтобы за $4/час и вообще оплата по факту. В конце попробую свести все в чеклист. Кто попробует ему следовать и отпишется о результатах в комментариях, обязательно дам фидбек с советами.

Как попасть в топ Google в ЕС-США в нише разработки и найти клиентов с большими бюджетами - 1
Читать полностью »

У каждого пользователя когда-либо были опечатки при написании поисковых запросов. Отсутствие механизмов, которые исправляют опечатки, приводит к выдаче нерелевантных результатов, а то и вовсе к их отсутствию. Поэтому, чтобы поисковая система была более ориентированной на пользователей, в неё встраивают механизмы исправления ошибок.

image alt

Задача исправления опечаток, на первый взгляд, кажется довольно несложной. Но если отталкиваться от разнообразия ошибок, реализация решения может оказаться трудной. В целом, исправление опечаток разделяется на контекстно-независимое и контекстно-зависимое (где учитывается словарное окружение). В первом случае ошибки исправляются для каждого слова в отдельности, во втором – с учетом контекста (например, для фразы «она пошле домой» в контекстно-независимом случае исправление происходит для каждого слова в отдельности, где мы можем получить «она пошел домой», а во втором случае правильное исправление выдаст «она пошла домой»).
Читать полностью »

Поиск в Google стал поиском внутри Google: менее половины поисковых запросов приводят к переходам на сайты - 1

Поисковый сервис компании Google перестал быть просто инструментом для поиска нужных сайтов и ссылок, теперь это полноценный сервис, способный сам ответить на большинство интересующих пользователей запросов, почти не давая им причин переходить на сайты, которые поисковый запрос выдает после “карточек Google”.
Читать полностью »

Лес не сдается технологиям поиска, но инженеры наносят ответный удар - 1
Фото: «Лиза Алерт».

Если в лесу пропал человек, лучший способ его найти — оправить тренированных поисковиков на прочесывание. Ни одна технология поиска пока не может заменить людей. В начале лета мы писали про несколько команд, которые в рамках конкурса «Одиссея» разрабатывали решения для дикой природы. Многие инженеры полагались на беспилотники с камерами и компьютерное зрение, но столкнулись с не очевидными проблемами — плохая связь, низкая скорость обработки и передачи огромных данных, плотные кроны деревьев и многое другое.

В итоге ни одно решение с компьютерным зрением не прошло в финал конкурса. Но технические эксперты говорили — если бы команды объединили усилия, вместе собрали датасет и обучили на нем алгоритмы, у компьютерного зрения мог быть шанс.

На прошлой неделе, 9 августа поисковый отряд «Лиза Алерт» вместе с «Билайном» объявили о запуске инструмента, который будет искать людей на фотографиях с беспилотников. Мы сходили на пресс-конференцию, приуроченную к запуску, и узнали, как он работает.
Читать полностью »

Реклама надоела — и надоела настолько, что даже говорить об этом уже надоело. Когда в Россию пришло коммерческое телевидение, вместе с ним в наши дома вошла и реклама, к которой неподготовленному постсоветскому зрителю пришлось привыкать с нуля. Вскоре интерес сменился раздражением, нашедшим отражение, в том числе, в многочисленных шутках и анекдотах про рекламу. Сейчас эффекта новизны уже нет, рекламу стали меньше обсуждать — но раздражение никуда не делось. И переезд значительной части аудитории, а вслед за ней и самой рекламы, в интернет ситуацию не улучшил, а в чём-то и усугубил. Американское исследование за сентябрь 2017 года зафиксировало недовольство избытком рекламы YouTube и других соцсетей среди подростков. Меняются вкусы, мода, товары, которые выбирает новое поколение, но остаётся непреходящая неприязнь его к рекламе.

Шесть демонов неэффективной и назойливой онлайн-рекламы - 1
John Wanamaker, автор знаменитого выражения “Half the money I spend on advertising is wasted; the trouble is I don't know which half”

От обилия рекламы страдают люди, но при этом есть и другая проблематика — для самих рекламодателей.
Читать полностью »

Этим постом я открываю серию, где мы с коллегами расскажем, как используется ML у нас в Поиске Mail.ru. Сегодня я объясню, как устроено ранжирование и как мы используем информацию о взаимодействии пользователей с нашей поисковой системой, чтобы сделать поисковик лучше.

Задача ранжирования

Что подразумевается под задачей ранжирования? Представим, что в обучающей выборке есть какое-то множество запросов, для которых известен порядок документов по релевантности. Например, вы знаете, какой документ самый релевантный, какой второй по релевантности и т.д. И вам нужно восстановить такой порядок для всей генеральной совокупности. То есть для всех запросов из генеральной совокупности на первое место поставить самый релевантный документ, а на последнее — самый нерелевантный.

Давайте посмотрим, как такие задачи решаются в больших поисковых системах.

Активное обучение ранжированию - 1

Читать полностью »

image

Сегодня компания Google анонсировала черновик RFC стандарта Robots Exclusion Protocol (REP), попутно сделав доступным свой парсер файла robots.txt под лицензией Apache License 2.0. До сегодняшнего дня какого-либо официального стандарта для Robots Exclusion Protocol (REP) и robots.txt не существовало (ближайшим к нему было вот это), что позволяло разработчикам и пользователям интерпретировать его по-своему. Инициатива компании направлена на то, чтобы уменьшить различия между реализациями.

Черновик нового стандарта можно просмотреть на сайте IETF, а репозиторий доступен на Github по ссылке https://github.com/google/robotstxt.

Парсер представляет собой исходный код, который Google используют в составе своих продакшн-систем (за исключением мелких правок — вроде убранных заголовочных файлов, используемых только внутри компании) — парсинг файлов robots.txt осуществляется именно так, как это делает Googlebot (в том числе то, как он обращается с Юникод-символами в паттернах). Парсер написан на С++ и по сути состоит из двух файлов — вам потребуется компилятор, совместимый с C++11, хотя код библиотеки восходит к 90-ым, и вы встретите в ней «сырые» указатели и strbrk. Для того, чтобы его собрать, рекомендуется использовать Bazel (поддержка CMake планируется в ближайшем будущем).
Читать полностью »

Avito, Ivi.ru, 2ГИС и другие сервисы обвиняют «Яндекс» в нарушении закона о конкуренции - 1
Максим Стулов / Ведомости

Пять известных сайтов — частных объявлений Avito, поиска недвижимости ЦИАН, поиска специалистов Profi.ru, карт 2ГИС и онлайн-кинотеатр Ivi.ru обвинили «Яндекс» в ограничении доступа к их сервисам. По мнению компаний-операторов этих ресурсов, «Яндекс», таким образом, нарушает закон о конкуренции. Претензии компаний изложены в официальной записке, с которой ознакомились журналисты «Ведомостей».

«Яндекс», по словам этих компаний, отдает приоритет в доступах к «колдунщикам». Это ответы на запросы пользователей, оформленные в виде блоков контента, которые появляются на странице с результатами поиска сразу же после рекламы, но перед органической выдачей. Данные, о которых идет речь, агрегируются из сервисов «Яндекса» и официальных источников.
Читать полностью »

OSINT на платформе Telegram & наркогео_чаты Telegram - 1

OSINT на платформе Telegram

В данной статье поделюсь с вами Telegram-ботами, которые на раз-два-три предоставляют ценную информацию о запрашиваем объекте в поисках «Сиболы», а так же упомяну тему гео_чатов.

Это уже неотвратимый факт, что «вся» IT-тусовка резвится в Telegram, а значит «нэтсталкеры» должны были разработать что-то такое интересное для лёгкого и качественного пробива брониобъектов в мессенджере Telegram. И они придумали OSINT-ботов.
Медлю поделиться с вами telegram-ботами, о которых мне известно, а вам/некоторым — нет, для кого-то данная статья — made your day!Читать полностью »

Поисковые подсказки (саджест) — это не только пользовательский сервис, но ещё и очень мощная языковая модель, хранящая миллиарды поисковых запросов, поддерживающая нечёткий поиск, персонализацию и многое другое. Мы научились использовать саджест для того, чтобы предугадывать итоговый запрос пользователя и загружать поисковую выдачу до нажатия кнопки «Найти».

Внедрение этой технологии – пререндера – потребовало многих интересных решений в мобильной разработке, разработке поискового рантайма, логов, метрик. И, конечно, нам нужен был крутой классификатор, определяющий, нужно ли загружать поисковый запрос заранее: этот классификатор должен соблюдать баланс между ускорением загрузки, дополнительным трафиком и нагрузкой на Поиск. Сегодня я расскажу о том, как нам удалось создать такой классификатор.

Как мы научились предсказывать запрос пользователя и ускорили загрузку поисковой выдачи - 1

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js