Рубрика «поисковые технологии» - 4

История AltaVista и сохранение прошлого Интернета - 1

Четверть века назад как своеобразный эксперимент возник один из первых крупных поисковых движков, задумывавшийся как публичный тест основного продукта производителя серверов. В этом тесте мог принять участие любой пользователь с подключением к вебу. На то время эксперимент оказался настолько удачным, что этого никто и представить не мог. Однако проблема заключалась в том, что по сути своей это был эксперимент, который никогда не позиционировался как бизнес. Поэтому со временем эту инновацию неизбежно превзойдут другие, более подходящие компании, а данная передовая идея со временем станет частью прошлого. Но никто не собирался превращать в музейный экспонат инновации Интернета 1995 и 1996 годов: время не стояло на месте, как и веб-сайты, какими бы важными они ни были. Однако было бы здорово, если бы кто-то смог это сделать. В своей статье я пишу об AltaVista, Digital Equipment Corporation, веб-доменах и о том, как важная история может стать основой глупой маркетинговой схемы какой-то случайной компании.
Читать полностью »

Не баян: ищем дубликаты изображений на основе Milvus с индексом FAISS внутри - 1

В user-generated проектах часто приходится бороться с дубликатами, а для нас это особенно актуально, так как основной контент мобильного приложения iFunny — это изображения, которые постятся десятками тысяч ежедневно. Для поиска повторов мы написали отдельную систему, чтобы облегчить процесс и сэкономить море времени.

Под катом рассмотрим используемые инструменты, а потом перейдём к примеру реализации.
Читать полностью »

Сито для интернета: интересные вещи с Shodan - 1

Интернет ошибочно отождествляют исключительно с вебом, но всемирная паутина доступная через браузер — это всего лишь вершина айсберга глобальной сети. Ее подводная часть куда разнообразнее, и хоть она скрыта от глаз рядовых пользователей, ничто не мешает изучать ее специализированными средствами. Одним из таких сервисов, сделанных “под ключ” и устроенных по типу швейцарского ножа, можно назвать Shodan.

Если гугл индексирует новостные сайты и энциклопедии, специально выставленные на всеобщее обозрение, то Shodan — это поисковая система, которая целенаправленно индексирует все подключенные к интернету вычислительные устройства (веб-камеры, маршрутизаторы, серверы и новомодные IoT-девайсы) и позволяет находить их с помощью различных поисковых запросов и фильтров.

Сито для интернета: интересные вещи с Shodan - 2
Читать полностью »

Как я создал собственный алгоритм YouTube (чтобы не тратить время впустую) - 1

Побег от алгоритма YouTube

Я люблю смотреть видео на YouTube, осязаемым образом улучшающие мою жизнь. К сожалению, алгоритм YouTube с этим не согласен. Он любит кормить меня кликбэйтом и прочим мусором.

Всё это неудивительно: алгоритм отдаёт приоритет кликам и времени просмотра.

Поэтому я поставил перед собой задачу: Смогу ли я написать код, который автоматически будет находить ценные видео, избавив меня от привязанности к алгоритму YouTube?

Вот так всё и началось.

Оптимально выстроенные планы

Я начал с визуализации того, что должен делать мой инструмент. Мне нужна была программа, которая будет (i) ранжировать видео на основании вероятной релевантности для меня и (ii) автоматически отправлять мне предлагаемые видео, из которых я смогу выбирать.

Я решил, что смогу серьёзно повысить продуктивность, если буду пакетно выбирать наборы видео для просмотра на каждую неделю и избавлюсь от необходимости бесконечного скроллинга YouTube.
Читать полностью »

Социальный мониторинг здорового человека: бесплатные инструменты для отслеживания упоминаний - 1

В мире стартапов и небольших проектов традиционно принято считать хороший маркетинг одним из главных условием успешного запуска. Многие не согласны с этим, в недавней статье про минусы работы в стартапах подробно описываются проблемы, связанные с затратами на маркетинг и их печальные следствия. Мы не будем их подробно обсуждать, а сконцентрируемся на одной небольшой задаче, которая поможет понять, насколько зашёл сообществу ваш продукт и как часто на него обращают внимание. Речь идёт о мониторинге упоминаний бренда; так как денег у стартапов/пет-проектов мало и мы трясёмся над каждой копейкой, будем рассматривать только бесплатные варианты.
Читать полностью »

Привет. Меня зовут Саша Готманов, я руковожу группой нейросетевых технологий в поиске Яндекса. На YaC 2020 мы впервые рассказали о внедрении трансформера — новой нейросетевой архитектуры для ранжирования веб-страниц. Это наиболее значимое событие в нашем поиске за последние 10 лет. 

Сегодня я расскажу читателям Хабра, в чём заключается иллюзия «поиска по смыслу», какой путь прошли алгоритмы и нейросети в ранжировании и какие основные сложности стоят перед теми, кто хочет применить для этой задачи трансформеры и даже заставить их работать в рантайме. 

Читать полностью »

Как «Сумерки» навсегда испортили поиск картинок Google - 1

Поучаствуйте со мной в эксперименте. При помощи поиска изображений Google мы будем искать разные времена суток. Откроем новое окно Google Chrome в режиме инкогнито, чтобы результаты не были искажены нашей историей поиска. В конце концов, это ведь научный эксперимент, и нам нужны наиболее точные результаты.

Для начала попробуем найти «sunrise» («рассвет»).
Читать полностью »

Почему с помощью обычного полнотекстового поиска сложно искать очень короткие документы и как быть, если хочется это сделать.

Как построить полнотекстовый поиск с помощью нейронных сетей - 1

Читать полностью »

На этой неделе Минюст США подал иск против Google, обвинив компанию в монополии на поиск и поисковую рекламу. В иске утверждается, что Google злоупотребляет своим положением на рынке интернет-поиска и рекламы и подавляет конкурентов. Отличное продолжение темы, которую мы в прошлый раз обсуждали – об использовании интернет-поиска Яндексом для продвижения собственных сервисов.

То, что государственные органы начали на самом высоком уровне решать вопросы, связанные с монополизацией цифровых гигантов – хороший сигнал мировому IT-сообществу. Подходы к регулированию цифровой экономики обновляются, чтобы поставить во главу угла интересы потребителей (интересный пример – наушники от Apple 12 во Франции) и честную конкуренцию.

И в Европе, и в США, и в России степень недовольства действиями технологических гигантов может быть одинакова. Однако меры по регулированию различны. Что делать с монополией Яндекса? Теперь решение за ФАС.

Монополии цифровых гигантов: кто защитит потребителей? - 1
Читать полностью »

Есть мнение, что Яндекс, занимая лидирующее положение на рынке интернет-поиска в России, не просто продвигает свои сервисы общедоступными способами. И что он с помощью «колдунщиков» задвигает на задние ряды сайты с поведенческими показателями лучшими, чем у собственных сервисов.

И что он, пользуясь доверием собственной аудитории, вводит пользователей в заблуждение и предлагает не самые релевантные сайты, а свои сервисы. А это лишает игроков рынка заметной доли прибыли, что сковывает, а подчас останавливает развитие этих онлайн-сервисов и, в целом, отрасли.

Разбираемся, так ли это. Пишите в комментарии, согласны ли вы с этим мнением.

Медленно, но верно: тайное влияние Яндекса на Рунет - 1
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js