Рубрика «поисковые технологии» - 9

Обыскать 314 км² за 10 часов — финальное сражение инженеров-поисковиков против леса - 1

Представьте задачу — в лесу пропали два человека. Один из них еще подвижен, другой лежит на месте и не может пошевелиться. Известна точка, где их видели последний раз. Радиус поиска вокруг нее — 10 километров. Получается территория площадью 314 км2. У вас есть десять часов на поиск с помощью новейших технологий.

Услышав условие в первый раз, я подумал: «пфф, подержите мое пиво». Но потом увидел, как передовые решения спотыкаются обо все, что возможно и невозможно учесть. Летом я писал, как около 20 инженерных команд пытались решить задачу в десятки раз проще, но делали это на пределе возможностей, и только четыре команды справились. Лес оказался территорией скрытых подвохов, где современные технологии бессильны.

Тогда это был лишь полуфинал конкурса «Одиссея», организованного благотворительным фондом «Система» — цель которого придумать, как модернизировать поиск пропавших в дикой природе людей. В начале октября в Вологодской области прошел его финал. Четыре команды столкнулись с той самой задачей. Я отправился на место, чтобы понаблюдать за одним из конкурсных дней. И в этот раз ехал с мыслью, что задача — нерешаемая. Но я никак не ждал увидеть «Настоящий детектив» для любителей DIY-электроники.
Читать полностью »

Дальняя кривая меня привела к написанию этого поста. Перечитываю шедевральный труд про историю зарождения интернета, начиная с лейденской банки, в большей степени шедевральный конечно — с точки зрения усилий автора, но не умоляя и труда переводчика (тот же М. Лозинский с его Божественной комедией — яркий пример того, что переводчик внес не меньший вклад чем сам автор, вечная ему память и слава). Но не об этом речь.

В комментариях к статье вижу годные комментарии, ну дай думаю поглажу по спинке человека, пытаюсь поставить плюс в карму — и вижу достаточно весомый минус по карме. Заинтересовался. Смотрю историю — «прокололся» человек на том, что решил похвалить поисковик Спутник.
И вот стал размышлять, конформизм это или глупость. Тут дисклеймер — прошу не путать личность и поступки личности. Личность может быть гениальной, и совершать глупые поступки, а может быть и наоборот. Но опять же, не в этом суть.

И я решил сравнить эффективность различных поисков — а именно Google, Яндекс и Спутник.
Как это сделать — тут уж кто на что горазд. Можно об этом написать целую диссертацию, про эффективность поисковых механизмов и ключевых показателях для их сравнения, но я выбрал такой, немножко «программистский подход», с изрядной долей упрощения.
Читать полностью »

image

Компания Google анонсировала крупнейшее за пять лет обновление поисковика. В его работе задействуют технологию BERT, которая основана на искусственном интеллекте. Таким образом, поисковик сможет лучше понимать пользователей, так как будет анализировать не отдельные слова, а запросы целиком.

BERT может учитывать полный контекст, рассматривая слова, которые идут до и после ключевого, что особенно полезно для понимания цели поисковых запросов. В компании отметили, что теперь в поиске задействованы новейшие тензорные процессоры Google (Google Tensor Processing Unit, Google TPU). Читать полностью »

Как ранжирует Google сайты, как работает его алгоритм? Этими вопросами можно долго мучиться и не находить на них ответа, в то время как давно доступна инструкция Google для асессоров. Безусловно, в ней нет алгоритмов, но есть принципы разметки сайтов в сети. Учитывая требования этой инструкции, мы можем начать делать более качественные сайты, с точки зрения поисковой системы, ну и людей, конечно.

Читать полностью »

Применение сиамских нейросетей в поиске - 1

Всем привет! В этом посте я расскажу, какие подходы мы в Поиске Mail.ru используем для сравнения текстов. Для чего это нужно? Как только мы научимся хорошо сравнивать разные тексты друг с другом, поисковая система сможет лучше понимать запросы пользователя.

Что нам для этого нужно? Для начала строго поставить задачу. Нужно определить для себя, какие тексты мы считаем похожими, а какие не считаем и затем сформулировать стратегию автоматического определения схожести. В нашем случае будут сравниваться тексты пользовательских запросов с текстами документов.
Читать полностью »

Скучный технологический стек интернет-компании из одного человека - 1
Поисковая выдача на ListenNotes.com

Listen Notes — это поисковая система и база данных подкастов. Технология на самом деле очень скучная. Никакого ИИ, глубокого обучения или блокчейна. «Если вы должны объявлять о внедрении ИИ, то вы не используете Настоящий ИИ» :)

После прочтения этой статьи вы сможете повторить мой проект или легко сделать нечто подобное. Не придётся нанимать много разработчиков. Помните, когда Instagram привлёк $57,5 млн и отошёл к Facebook за $1 млрд, у них было всего 13 сотрудников — и это не только разработчики. Покупка Instagram произошла в начале 2012-го. Сейчас 2019 год, и сегодня как никогда просто создать что-то значимое с крошечной инженерной командой — даже из одного человека.
Читать полностью »

А/Б-тестирование — мощный способ проверки интерфейсов перед публикацией на всю аудиторию. Я решил рассказать, из чего этот инструмент состоит, какие у него особенности логирования, как составляются метрики и в чем суть экспериментов во фронтенде. Поговорим об их устройстве и сервисах для решения ежедневных аналитических задач. Обсудим несколько путей развития для разработчика, который вроде бы всё уже умеет, но хочет больше.

Инфраструктура А-Б-экспериментов в большом Поиске. Доклад Яндекса - 1

— Меня зовут Лёша, я работаю в Поиске и разрабатываю самый главный, наверное, продукт Яндекса — поисковую выдачу.

Читать полностью »

Мы разбирали старые письма и наткнулись на статью, которую писал Илья Сегалович iseg для журнала «Мир Internet» в далёком 2002 году. В ней он сравнивает интернет и поисковые системы с чудесами света, размышляет о поисковых технологиях и вспоминает их историю. Несмотря на загруженность по работе, Илья написал статью в рекордные сроки и даже снабдил достаточно подробным словарём терминов, который особенно интересно читать в наши дни. Нам не удалось найти электронную версию журнала со статьей, поэтому сегодня мы публикуем её в нашем блоге, основателем и первым автором которого, к слову, был Илья.

Как работают поисковые системы - 1

Читать полностью »

«Яндекс» показал, какими словами ищут забытые фильмы - 1

Свиньи… родители… девочка…
Влюбляться… операционная система… мужчина…
Спасать… конец света… космонавты...

Это ключевые слова, по которым пользователи «Яндекса» пытаются найти фильм, название которого они забыли. Поисковик опубликовал интересное исследование на эту тему. Оно включает слова и фразы, которые наиболее часто используются для поиска конкретных фильмов (нецензурная лексика удалена).

Три фильма вверху: «Унесённые призраками» (2001), «Она» (2013), «Армагеддон» (1998).
Читать полностью »

Иногда люди обращаются к Яндексу, чтобы найти фильм, название которого вылетело из головы. Описывают сюжет, запомнившиеся сцены, яркие детали: например, [как называется фильм там где мужик выбирает красная или синяя таблетка]. Мы решили изучить описания забытых фильмов и выяснить, что сильнее всего запоминается людям в кино.

Сегодня мы не только поделимся ссылкой на наше исследование, но и вкратце расскажем о том, как развивался семантический поиск Яндекса. Вы узнаете, какие технологии помогают поиску находить ответ даже тогда, когда точно сформулировать запрос просто не получается.

А ещё мы добавили слайдеры-загадки с примерами реальных запросов людей — почувствуйте себя поисковой системой и попробуйте угадать ответ.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js