Четверть века назад как своеобразный эксперимент возник один из первых крупных поисковых движков, задумывавшийся как публичный тест основного продукта производителя серверов. В этом тесте мог принять участие любой пользователь с подключением к вебу. На то время эксперимент оказался настолько удачным, что этого никто и представить не мог. Однако проблема заключалась в том, что по сути своей это был эксперимент, который никогда не позиционировался как бизнес. Поэтому со временем эту инновацию неизбежно превзойдут другие, более подходящие компании, а данная передовая идея со временем станет частью прошлого. Но никто не собирался превращать в музейный экспонат инновации Интернета 1995 и 1996 годов: время не стояло на месте, как и веб-сайты, какими бы важными они ни были. Однако было бы здорово, если бы кто-то смог это сделать. В своей статье я пишу об AltaVista, Digital Equipment Corporation, веб-доменах и о том, как важная история может стать основой глупой маркетинговой схемы какой-то случайной компании.
Читать полностью »
Рубрика «поисковые технологии» - 4
История AltaVista и сохранение прошлого Интернета
2020-12-29 в 8:00, admin, рубрики: altavista, Digital.com, поисковые системы, поисковые технологииНе баян: ищем дубликаты изображений на основе Milvus с индексом FAISS внутри
2020-12-22 в 14:32, admin, рубрики: faiss, github, java, kotlin, Milvus, open source, python, Блог компании FunCorp, вектор, дубликаты изображений, картинки, мобильная разработка, поиск, поисковые технологии, разработка, разработка мобильных приложенийВ user-generated проектах часто приходится бороться с дубликатами, а для нас это особенно актуально, так как основной контент мобильного приложения iFunny — это изображения, которые постятся десятками тысяч ежедневно. Для поиска повторов мы написали отдельную систему, чтобы облегчить процесс и сэкономить море времени.
Под катом рассмотрим используемые инструменты, а потом перейдём к примеру реализации.
Читать полностью »
Сито для интернета: интересные вещи с Shodan
2020-12-19 в 9:12, admin, рубрики: ruvds_статьи, shodan, Блог компании RUVDS.com, информационная безопасность, Лайфхаки для гиков, поиск, поисковые технологииИнтернет ошибочно отождествляют исключительно с вебом, но всемирная паутина доступная через браузер — это всего лишь вершина айсберга глобальной сети. Ее подводная часть куда разнообразнее, и хоть она скрыта от глаз рядовых пользователей, ничто не мешает изучать ее специализированными средствами. Одним из таких сервисов, сделанных “под ключ” и устроенных по типу швейцарского ножа, можно назвать Shodan.
Если гугл индексирует новостные сайты и энциклопедии, специально выставленные на всеобщее обозрение, то Shodan — это поисковая система, которая целенаправленно индексирует все подключенные к интернету вычислительные устройства (веб-камеры, маршрутизаторы, серверы и новомодные IoT-девайсы) и позволяет находить их с помощью различных поисковых запросов и фильтров.
Как я создал собственный алгоритм YouTube (чтобы не тратить время впустую)
2020-12-15 в 6:10, admin, рубрики: api, YouTube, Алгоритмы, поисковые технологии, Работа с видео, ранжирование, Социальные сети и сообществаПобег от алгоритма YouTube
Я люблю смотреть видео на YouTube, осязаемым образом улучшающие мою жизнь. К сожалению, алгоритм YouTube с этим не согласен. Он любит кормить меня кликбэйтом и прочим мусором.
Всё это неудивительно: алгоритм отдаёт приоритет кликам и времени просмотра.
Поэтому я поставил перед собой задачу: Смогу ли я написать код, который автоматически будет находить ценные видео, избавив меня от привязанности к алгоритму YouTube?
Вот так всё и началось.
Оптимально выстроенные планы
Я начал с визуализации того, что должен делать мой инструмент. Мне нужна была программа, которая будет (i) ранжировать видео на основании вероятной релевантности для меня и (ii) автоматически отправлять мне предлагаемые видео, из которых я смогу выбирать.
Я решил, что смогу серьёзно повысить продуктивность, если буду пакетно выбирать наборы видео для просмотра на каждую неделю и избавлюсь от необходимости бесконечного скроллинга YouTube.
Читать полностью »
Социальный мониторинг здорового человека: бесплатные инструменты для отслеживания упоминаний
2020-12-01 в 8:10, admin, рубрики: интернет-маркетинг, маркетинг, облачные сервисы, поисковые технологии, Социальные сети и сообщества, социальный мониторингВ мире стартапов и небольших проектов традиционно принято считать хороший маркетинг одним из главных условием успешного запуска. Многие не согласны с этим, в недавней статье про минусы работы в стартапах подробно описываются проблемы, связанные с затратами на маркетинг и их печальные следствия. Мы не будем их подробно обсуждать, а сконцентрируемся на одной небольшой задаче, которая поможет понять, насколько зашёл сообществу ваш продукт и как часто на него обращают внимание. Речь идёт о мониторинге упоминаний бренда; так как денег у стартапов/пет-проектов мало и мы трясёмся над каждой копейкой, будем рассматривать только бесплатные варианты.
Читать полностью »
Трансформеры в Поиске: как Яндекс применил тяжёлые нейросети для поиска по смыслу
2020-11-25 в 9:01, admin, рубрики: BERT, yati, Блог компании Яндекс, искусственный интеллект, команда яндекс.поиска, машинное обучение, поиск яндекса, поисковые технологии, Разработка веб-сайтов, трансформеры, яндексПривет. Меня зовут Саша Готманов, я руковожу группой нейросетевых технологий в поиске Яндекса. На YaC 2020 мы впервые рассказали о внедрении трансформера — новой нейросетевой архитектуры для ранжирования веб-страниц. Это наиболее значимое событие в нашем поиске за последние 10 лет.
Сегодня я расскажу читателям Хабра, в чём заключается иллюзия «поиска по смыслу», какой путь прошли алгоритмы и нейросети в ранжировании и какие основные сложности стоят перед теми, кто хочет применить для этой задачи трансформеры и даже заставить их работать в рантайме.
Как «Сумерки» навсегда испортили поиск картинок Google
2020-11-06 в 8:30, admin, рубрики: data mining, Google, google картинки, Алгоритмы, Блог компании VDSina.ru, поиск, поисковые алгоритмы, поисковые системы, поисковые технологии, сумеркиПоучаствуйте со мной в эксперименте. При помощи поиска изображений Google мы будем искать разные времена суток. Откроем новое окно Google Chrome в режиме инкогнито, чтобы результаты не были искажены нашей историей поиска. В конце концов, это ведь научный эксперимент, и нам нужны наиболее точные результаты.
Для начала попробуем найти «sunrise» («рассвет»).
Читать полностью »
Как построить полнотекстовый поиск с помощью нейронных сетей
2020-10-25 в 10:55, admin, рубрики: machine learning, nlp (natural language processing), Алгоритмы, деревья поиска, машинное обучение, поисковые технологии, полнотекстовый поискПочему с помощью обычного полнотекстового поиска сложно искать очень короткие документы и как быть, если хочется это сделать.

Монополии цифровых гигантов: кто защитит потребителей?
2020-10-22 в 14:46, admin, рубрики: IT-гиганты, Законодательство в IT, поиск, поисковая оптимизация, поисковые технологии, яндексНа этой неделе Минюст США подал иск против Google, обвинив компанию в монополии на поиск и поисковую рекламу. В иске утверждается, что Google злоупотребляет своим положением на рынке интернет-поиска и рекламы и подавляет конкурентов. Отличное продолжение темы, которую мы в прошлый раз обсуждали – об использовании интернет-поиска Яндексом для продвижения собственных сервисов.
То, что государственные органы начали на самом высоком уровне решать вопросы, связанные с монополизацией цифровых гигантов – хороший сигнал мировому IT-сообществу. Подходы к регулированию цифровой экономики обновляются, чтобы поставить во главу угла интересы потребителей (интересный пример – наушники от Apple 12 во Франции) и честную конкуренцию.
И в Европе, и в США, и в России степень недовольства действиями технологических гигантов может быть одинакова. Однако меры по регулированию различны. Что делать с монополией Яндекса? Теперь решение за ФАС.
Медленно, но верно: тайное влияние Яндекса на Рунет
2020-10-01 в 13:02, admin, рубрики: колдунщики, облачные сервисы, поисковая оптимизация, поисковики, поисковые технологии, яндексЕсть мнение, что Яндекс, занимая лидирующее положение на рынке интернет-поиска в России, не просто продвигает свои сервисы общедоступными способами. И что он с помощью «колдунщиков» задвигает на задние ряды сайты с поведенческими показателями лучшими, чем у собственных сервисов.
И что он, пользуясь доверием собственной аудитории, вводит пользователей в заблуждение и предлагает не самые релевантные сайты, а свои сервисы. А это лишает игроков рынка заметной доли прибыли, что сковывает, а подчас останавливает развитие этих онлайн-сервисов и, в целом, отрасли.
Разбираемся, так ли это. Пишите в комментарии, согласны ли вы с этим мнением.