Рубрика «поисковые системы» - 9

Мы живем во времена, когда кажется, что все просто и все есть. Нужно сделать масштабируемый проект — используем MongoDB, нужна очередь — вот RabbitMQ, нужно поднять функционал поиска — раз плюнуть: ставим Sphinx, Solr, ElasticSearch (нужное подчеркнуть).

Но здесь лишь доля правды: — при определенном везении можно поставить нужный сервер и все зашевелится. Загвоздка с поиском состоит в том, что пользователи уже порядком привыкли к высокой планке, которую задают «большие ребята», а тот поиск, что поднимется у вас «из коробки», будет явно недотягивать. И если очередь или базу данных вы можете добить железом прежде, чем будете оптимизировать, то поиск железом не добьешь.

Существую толстые книжки про настройки полнотекстового поиска, однако их мало кто читает. Сегодня я хотел бы на пальцах поговорить о том, что нужно учесть, когда вы делаете префиксный поиск с выводом результатов по мере набора слова или фразы.

Мы посмотрим, как с помощью нашего проекта http://indexisto.com сделан поиск на сайте http://maximonline.ru и сравним его с тем, что есть на других сайтах.

Для начала несколько примеров. Возьмем запрос «Битва за Лос Анджелес» и представим, что его напишут неправильно «Лос Анжелес биттва». Как видно, пользователь не знает точно, как пишется имя города, и забыл, как звучит название фильма, а также у него дрогнула рука в конце на слове «битва».

Выберем достойные проекты рунета, в которых есть префиксный поиск, и попробуем поискать там наш запрос:

Проект Правильный запрос Неправильный запрос
afisha.ru Как это сделано: префиксный поиск
все ОК
Как это сделано: префиксный поиск
Не найдено
ivi.ru Как это сделано: префиксный поиск
все ОК
Как это сделано: префиксный поиск
Не найдено
vk.com Как это сделано: префиксный поиск
все ОК
Как это сделано: префиксный поиск
Не найдено
maximonline.ru Как это сделано: префиксный поиск
все ОК
Как это сделано: префиксный поиск
все ОК

Читать полностью »

Как это сделано: парсинг статей

Для меня всегда было некоей магией то, как Getpocket, Readability и Вконтакте парсят ссылки на страницы и предлагают готовые статьи к просмотру без рекламы, сайдбаров и меню. При этом они практически никогда не ошибаются. А недавно подобная задача назрела и в нашем проекте, и я решил копнуть поглубже. Сразу скажу, что это «белый» парсинг, вебмастеры сами добровольно пользуются нашим сервисом.
Читать полностью »

От создателей Indexisto — «Поиск для Хабра II»

Хмурым осенним утром в качестве эксперимента мы запили свой поиск для Хабра со структурой и скоростью. На все работы ушло минут 10. Тем кому лень читать тык для просмотра нового поиска (поисковый инпут прямо в теле записи в блоге)

Для получения такого поиска мы не просили доступа к базе, или заливки статей через наше API. Все делается очень просто, через обычный краулер. Для примера мы скраулили порядка 5000 статей.
Читать полностью »

Банальное начало

В моей жизни появился интернет и одновременно с ним его родитель — фидонет. Время проведенное в первой сети было ограничено временем и кошельком родителей, получение информации с этой сети было мучительно долгим и не оправдывает себя, гораздо проще было заглянуть в энциклопедию и получить, то что действительно необходимо. Со второй сетью было все гораздо проще, но чувство нахождения вне сети создавало некий дискомфорт. Вспомогательное программное обеспечение (далее просто — ПО) распространялось на компакт—дисках, и это иногда был более быстрый способ получения информации, а в сравнении с интернетом и дешевле.

Интернет для моих предков был чем-то отрицательным — местом где кроме порно и вирусов больше ничего не существует. А еще это такая вещь которая делает домашний телефон постоянно занятым, да, и я этим пользовался, когда должен был позвонить классный руководитель, который забивал на попытки дозвониться и просил меня чтобы родители сами связались с ней.

Поиск нужной информации ограничивался местным каталогом интернет—ресурсов и известным яндексом.
Не достигнув совершеннолетия я умудрился устроиться в кладенезь информации, нет это была не библиотека, это был салон компакт-дисков. А позднее я устроился и к провайдеру, где доступ к интернету мне не был ограничен как на работе, так и дома. Тогда у меня начали появляться дистрибы свежего ПО и новые знания.

Родители смирились со временем, специализация у меня была совсем не компьютерная, да и компьютер нужен был для написания научной работы в ботанической области. Волею судьбы все резко поменялось и я стал работать и совершенствовать себя в айти сфере. К этому времени интернет для меня стал более доступным и гораздо быстрее, к тому-же позднее настало совершеннолетие и мои возможности стали гораздо шире.
Активное использование поисковой системы, аська и чаты стали ежедневным, обычным делом. Дааааа я помню время местного чата и желание многих окружающих меня вокруг открыть свой местный чат, дабы получить максимальную власть. Тогда еще не было такого понятия как персональные данные и все охотно делились ими направо и налево. Так зная аську чатера можно было выяснить его имя, фамилию, возраст и даже айпи, последнее позволяло не имея прав админа и используя уязвимости систем того времени не надолго лишить доступа не только в чат, но и весь интернет. Но речь далеко не о том как мы использовали, используем и будем использовать глобальную сеть, а о том как она использует НАС…
Читать полностью »

image

«Ростелеком» разрабатывает новую поисковую систему «Спутник», которая может быть запущена уже в 2014 году.

Как рассказал Ведомостям собеседник в «Ростелекоме», поисковик, который будет находиться по адресу sputnik.ru, начнет работу в первом квартале 2014 года. Он отметил, что проект существует около трех лет, а его активная разработка ведется последние полтора-два года, за которые компания инвестировала в него 20 миллионов долларов. Разработкой системы занимается компания «КМ Медиа», приобретенная «Ростелекомом» в 2012 году.
Читать полностью »

image

В школе для слепых в Японии интернет больше не просто визуальный инструмент. Японский Yahoo сделали поиск в интернете возможным даже для слепых детей. Совместно с креативным агентством Hakuhodo Kettle, Yahoo разработали аппарат, называемый Hands On Search, который является наполовину 3д-принтером, а наполовину компьютером — он построит все, о чем вы его попросите.Читать полностью »

За последние полтора года студия интернет-маркетинга FreshIT проанализировала 177 сайтов на качество SEO. В частности, проверили 71 интернет-магазин, 69 сайтов компаний, 37 контент-проектов. Результаты оказались плачевными: при создании и продвижении сайтов в интернете часто не обращают внимание даже на такие элементарные требования, как рекомендации поисковых систем для вебмастеров.

В статье речь пойдет о вытекающих из вышесказанного проблемах — о поиске информации в интернете и ее качестве.

6 глобальных проблем современной поисковой выдачи

Вы замечали такой факт — вы, человек с большим опытом в IT сфере, порой не можете найти нужную вам информацию. Казалось бы, есть гугл и яндекс, бери и ищи, но тут появляются такие проблемы и трудности, что шансы найти хоть что-то полезное приравниваются к нулю, либо время на поиск занимает безумное количество времени.
Читать полностью »

Искусственный интеллект и почему мой компьютер меня не понимает?

Гектор Левекwiki утверждает, что его компьютер тупой. И ваш тоже. Siri и голосовой поиск Google умеют понимать заготовленные предложения. Например «Какие фильмы будут показывать неподалёку в 7 часов?» Но что насчёт вопроса «Может ли аллигатор пробежать стометровку с барьерами?» Такой вопрос никто раньше не задавал. Но любой взрослый может найти ответ на него (Нет. Аллигаторы не могут участвовать в беге с барьерами). Но если вы попытаетесь ввести этот вопрос в Google, то получите тонны информации о спортивной команде по лёгкой атлетике Florida Gators. Другие поисковые системы, такие как Wolfram Alpha, тоже не способны найти ответ на поставленный вопрос. Watson, компьютерная система выигравшая викторину «Jeopardy!», вряд ли покажет себя лучше.
Читать полностью »

image

C 14:07 (Московское время) пропали блоки Яндекс.Директа с Яндекса и рекламные блоки с сайтов-партнеров РСЯ.

Доходы от рекламы составили львиную долю общей выручки «Яндекса» – 89%.
В 2012 году выручка поискового гиганта составляла 2.29 млрд рублей, следовательно на текущий момент Яндекс потерял уже более 250 000 рублей.

UPD: Комментарий от работников Яндекса ( http://clubs.ya.ru/direct/ ):
Сейчас наблюдаются проблемы с показами объявлений Яндекс.Директа.
Наши специалисты уже исправляют ситуацию, и в ближайшее время сервис вернется к обычной работе.
Читать полностью »

Поисковики и SEO в Китае

Как и обещал в предыдущих статьях, сегодня мы поговорим о китайском рынке поисковых систем и его главных игроках, а также немного затронем особенности китайского SEO. За основу взяты мои исследования для одного инвестиционного фонда, а также опыт работы и мнения экспертов в этой сфере. Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js