Рубрика «Поисковые машины и технологии» - 4

Профессор Ли Джайлс (Lee Giles) из колледжа информационных технологий при университете штата Пенсильвания значительную часть карьеры посвятил разработке поисковых систем по научным статьям, чтобы у академического сообщества был удобный доступ к материалам.

Недавно профессор опубликовал первое в своём роде исследование, в котором оценивает количество доступных научных статей в интернете. Работа "The Number of Scholarly Documents on the Public Web" опубликована в майском номере журнала PLoS ONE и цитируется в Nature.

В работе учтены только англоязычные документы, с учётом перекрытия в двух крупнейших специализированных поисковиках: Google Scholar и Microsoft Academic Search. Под научными документами подразумеваются публикации в журналах и доклады с конференций, диссертации и дипломные работы, книги, технические отчёты и рабочие документы (предварительные версии научных статей).

Статистические методы показали, что через интернет доступно как минимум 114 млн научных документов на английском языке, из них через Google Scholar доступно около 100 млн. Как минимум 27 млн документов (24%) лежат в открытом доступе.
Читать полностью »

Однажды тихой летней ночью по ходу решения насущных аналитических задач встал вопрос о том, как же следует измерять степень вариативности поисковой выдачи? В поисках ответа удалось обнаружить одно-единственное исследование на эту тему – Кокшаров, 2012.

Но удовлетворения не получил, вопросов стало ещё больше. Использование алгоритмов Оливера и Левенштейна только потому, что соответствующие функции есть в PHP, показалось необоснованным. А обоснования методов, базирующихся на разнице позиций, – неубедительными.

Почему так, а не этак? Почему массив или строка, а не упорядоченное множество или кортеж? К чему могут привести сделанные допущения? И, наконец, существует ли один-единственный самый лучший, самый правильный, самый «окончательный» способ?

В результате пришлось изобретать свой собственный велосипед – то есть расставить всё по полочкам хотя бы для себя. Но всё-таки с надеждой, что это будет интересно будет не только мне.
Читать полностью »

image

Вступление

Одним прекрасным, светлым утром, будучи потрясенным от того, что температура за окном, как казалось, была градусов на 5 больше чем обычно, я почувствовал наплыв небывалой ранее освещенности и в мой мозг прокралась идея — «а ведь те, офферы и аккаунты, которые продаются на „черном рынке“ — они же ворованные всевозможными фишинг-сайтами и стиллерами, а насколько я знаю стиллеры — все логи должны храниться на каом-то хосте в сети интернет».
Читать полностью »

Как работает поиск на Airbnb

Нас часто спрашивают как гости, так и владельцы жилья: «Как определяется позиция объявления в результатах поиска?» Каждый месяц порядка миллиона посетителей сайта ищут комнаты, квартиры, домики на деревьях, иногда даже матрасы. В конечном счёте, цель нашей поисковой системы – связать тысячи людей и создать условия для поездок, которые иначе бы не случились.

Поиск – это главный интерфейс нашего продукта, та основа, на которой строится наше развитие. Мы не боимся делать редизайн поисковой страницы или менять алгоритм ранжирования, когда перед нами цель – привлечь пользователей и сделать их пребывание на сайте комфортнее.

О том, как устроен поиск на Airbnb рассказывает engineering manager компании Максим Чарков.
Читать полностью »

Пища для ума

Когда какое-то время работаешь в сфере SEO, рано или поздно невольно посещают мысли о том, какие же формулы используют поисковики, чтобы поставить сайт в поисковой выдаче выше или ниже. Всем известно, что это все хранится в глубочайшей секретности, а мы, оптимизаторы, знаем только то, что написано в рекомендациях для вебмастеров, и на каких-то ресурсах посвященных продвижению сайтов. А теперь задумайтесь на секунду: что если бы у вас был бы инструмент, который достоверно, с точностью в 80-95% показывал бы, что именно нужно сделать на странице вашего сайта, или на сайте в целом, для того, чтобы по определенному запросу ваш сайт был на первой позиции в выдаче, или на пятой, или просто на первой странице. Мало того, если бы этот инструмент мог бы с такой же точностью определить, на какую позицию выдачи попадете, если выполните те или иные действия. А как только поисковик вводил бы изменения в свою формулу, менял бы важность того или иного фактора, то можно было бы сразу видеть, что конкретно в формуле было изменено. И это только малая доля той информации, которую вы могли бы получить из такого инструмента.

Итак, это не реклама очередного сервиса по продвижению, и это не предоставление конкретной формулы ранжирования сайтов поисковыми системами. Я хочу поделиться своей теорией, на реализацию которой у меня нет ни средств, ни времени, ни достаточных знаний программирования и математики. Но я точно знаю, что даже у тех, у кого все это есть, на реализацию этого может уйти даже не 1 месяц, возможно, 1-1,5 года.
Читать полностью »

Привет! Пока любители фруктовых девайсов меряются лопатами и отсутсвующими/запаздывающими фичами, а Siri до сих пор не умеет говорить по-русски, мы можем насладиться прогрессом другой ОС и её сервисов. Под катом можно узнать, что отличает внешне Android L от 4.4.4, каких ресурсов он требует для работы, чего нам ждать от девайсов, которые получат апдейт. Ну и ещё немного расскажу о голосовом поиске, который не так давно получил несколько весомых обновлений, но они прошли как-то мимо Хабра. Все трюки в этом посте выполенны профессиональными смартфонами, повторяйте дома на свой страх и риск.

Android L, Nexus 5, Google Search и все все все

Читать полностью »

В последний год мы написали много статей по UX / UI проектированию eCommerce проектов и не только. Концепция проекта и интерфейсы – это, безусловно, очень важно, однако есть еще несколько крайне важных вещей, которые нужно учесть. Не важно, кто их будет учитывать: UX / UI Designer, SEO Specialist, Web Developer, Project Manager или кто-то еще, важно на каком этапе жизни проекта. А сделать это нужно задолго до запуска проекта, на этапе разработки.

Читать полностью »

image

Google начнёт использовать HTTPS в качестве фактора положения сайта в своей поисковой выдаче — этот шаг должен побудить измениться веб-разработчиков, которые не спешили с повышенными мерами безопасности или которые сомневались, насколько это важно для их сайта, пишет TechCrunch.

Поддержка HTTPS не будет иметь такого же веса, как например качество контента, и в первое время новый критерий будет затрагивать не более 1 % всех глобальных запросов — таким образом Google даёт веб-мастерам время на переход на HTTPS. Однако со временем эффект шифрования на поисковую выдачу будет усиливаться, по мере того как компания уделяет всё большее значение безопасности сайтов.
Читать полностью »

У Тоффлера в книге «Революционное богатство» есть отличная метафора. Представьте скоростное шоссе и движущиеся по нему машины. Самый левый ряд, скорость 100 миль в час, это машина символизирует самую быстро меняющуюся в Америке реальность — бизнес. В нашем случае это будет сеть, Google и множество социальных сервисов. И самый правый ряд — скорость 25 миль в час. По крайнему справа ряду движутся правительственная бюрократия и классические виды бизнеса. Иначе говоря, государство и дремучий семейный бизнес банально не успевающие за прогрессом. Не успевающие настолько, что принимают решения вопреки здравому смыслу и логике. А теперь два примера из заголовка

1. Американский отель штрафовал пользователей за негативные отзывы

Два примера коммерческой цензуры: за негативные отзывы отель штрафует посетителей, а ресторан выигрывает в судеЧитать полностью »

После успешного перехода c MongoDB полнотекстового поиска на ElasticSearch, мы успели запустить несколько новых сервисов работающих на Elastic'е, расширение для браузера и в общем и целом, я был крайне доволен миграцией.

Но в бочке меда, оказалась одна ложка дегтя — примерно через месяц после конфигурации и успешной работы, LogEntries / NewRelic в один голос закричали о том, что сервер поиска не отвечает. После логина на дешбоард Digital Ocean'a, я увидел письмо от поддержки, что сервер был приостановлен в связи с большим исходящим UPD трафиком, что скорее всего свидетельствовало о том, что сервер скомрометирован.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js