8-я Российская летняя школа по информационному поиску (RuSSIR 2014) пройдет в августе в Нижнем Новгороде. Традиционно сильная научная программа, веселые вечеринки, спортивные состязания и речные прогулки «после уроков», уникальное место встречи ученых с мировым именем, студентов и представителей интернет-индустрии. Дополнительная тема этого года – пользовательские интерфейсы и визуализация данных. Участие в школе бесплатное, заявки принимаются до конца июня.
Рубрика «Поисковые машины и технологии» - 6
8-я Российская летняя школа по информационному поиску
2014-06-22 в 17:53, admin, рубрики: data mining, natural language processing, russir, russir 2014, информационный поиск, летняя школа, Поисковые машины и технологии, Учебный процесс в IT, метки: data mining, natural language processing, russir, russir 2014, информационный поиск, летняя школаElasticSearch и поиск наоборот. Percolate API
2014-06-19 в 16:34, admin, рубрики: elasticsearch, nosql, percolator, php, search engine, Блог компании SmartProgress, Поисковые машины и технологии, метки: elasticsearch, percolator, PHP, search engine
Вопрос умной категоризации чего-либо встаёт остро при разработке очень многих сайтов. Конечно, всегда можно отдать это на заполнение человеку и результат поначалу будет куда лучше машинного, но, что если категоризировать нужно в реальном времени сотни и тысячи «товаров».
Придется отдать это на откуп машине. Тут вариантов не так много, а написание собственного ИИ для 99.9% задач пустая трата времени.
Заинтересовавшимся как это решить с помощью ElasticSearch прошу под кат.
Читать полностью »
О шифровании рефереров в Яндексе
2014-06-16 в 14:43, admin, рубрики: Блог компании Яндекс, поиск, Поисковые машины и технологии, приватность, яндекс, метки: поиск, приватность, яндексВ декабре прошлого года в посте на Хабре мы объявили, что начали эксперимент по шифрованию текста запроса в поле referer с целью защиты приватности пользователей. Этот эксперимент мы планомерно расширяли и к февралю доля шифруемых данных дошла до 30% запросов. Время, которое прошло с момента анонса, как мы надеемся, дало возможность вебмастерам переориентироваться на другие способы оценки интересов пользователя. С сегодняшнего дня мы начинаем шифровать рефереры на все 100% потока запросов.
Google планирует указывать в выдаче, что результаты были удалены по требованию фигуранта поискового запроса
2014-06-09 в 9:52, admin, рубрики: Google, Поисковые машины и технологии, метки: GoogleТаким образом получила продолжение история с решением Европейского суда позволить жителям ЕС требовать от Гугла удаления неумечтных и нерелевантных ссылок из выдачи. Как это может выглядеть пользователям Гугла хорошо известно:
Тем самым компания выражает своё отношение к решению суда, которое считает проявлением цензуры в интернете: не видя непосредственно удалённых ссылок, пользователь всё равно будет знать, что там есть что искать — благо, Google не единственный поисковик на свете.
Читать полностью »
Совершенствуем понимание веб-страниц
2014-05-26 в 12:47, admin, рубрики: Google, Блог компании Google, Поисковые машины и технологии, сканированиеУровень подготовки веб-мастера: для всех
В 1998 году, когда все наши серверы умещались в гараже Сьюзан Войчицки (Susan Wojcicki), мало кто задумывался о том, как JavaScript или CSS взаимодействуют с поисковым роботом: эти технологии применялись нечасто. Разве что создатели некоторых страниц с помощью JavaScript заставляли элементы оформления… мигать. Однако с тех пор многое изменилось. Сейчас в Интернете можно найти множество красочных сайтов с интерактивным дизайном, на которых широко используется JavaScript. И сегодня мы поговорим об индексации ресурсов со сложным интерфейсом и структурой:
- о том, почему Google обрабатывает их так, как это делают современные браузеры;
- зачем нужно обращаться к внешним ресурсам;
- как наша система анализирует код JavaScript и CSS.
Как я «крутил» поведенческие факторы
2014-05-23 в 7:24, admin, рубрики: seo, веб-аналитика, поведенческие факторы, Поисковые машины и технологии, метки: seo, поведенческие факторы
Приветствую вас, читатели! Сегодня я бы хотел вам поведать об очень интригующей штуке, как поведенческие факторы. А точнее, об их искусственном улучшении. А еще точнее, о недостатках сервисов-накрутчиков, которые этим занимаются.
Для чего я это пишу? Дело в том, что я являюсь владельцем двух коммерческих сайтов и, естественно, я заинтересован, чтобы они находились как можно выше в поисковой выдаче. И в какой-то момент, начитавшись различных статей, решился на эксперимент. Сразу оговорюсь, что результат был немного печален и я надеюсь, что эта статья послужит предостережением.
Читать полностью »
Поисковик Спутник запущен
2014-05-22 в 7:19, admin, рубрики: sputnik.ru, Поисковые машины и технологии, поисковые системы, спутник, метки: sputnik.ru, поисковые системы, спутникЗапущен отечественный поисковик Sputnik.
Очевидно, что новый поисковик добровольно-принудительно будет основной поисковой системой для государственных компаний, министерств и образовательных учреждений. Это однозначно позволит ему сразу занять определенную долю на рынке.
На текущий момент доминирующим фактором ранжирования в Спутнике являются ссылки, что вполне очевидно, так как других мощных сигналов для ранжирования у него и быть не могло.
Также в Спутнике пока нет контекстной рекламы, а это в общем увеличивает долю SEO-трафика.
Таким образом, запуск новый поисковой системы может оказать поддержку в развитии SEO-рынка и рынка ссылок в частности.
Читать полностью »
Новый модный молодёжный поисковик Спутник от Ростелекома уже завтра во всех интернетах стран
2014-05-21 в 12:40, admin, рубрики: велосипеды, Медиа, поисковик, Поисковые машины и технологии, Ростелеком, спутник
Почти год назад была статья от modernstyle про сей проект. В той статье многие иронизировали, что: «бюджет удачно попилен», «сервис будет лишь роль прокси выполнять» и т.п.
Таки анонсировали дату запуска — 22 Мая. Презентация пройдёт в рамках Петербургского международного экономического форума.
Анализ неявных предпочтений пользователей. Научно-технический семинар в Яндексе
2014-05-17 в 11:51, admin, рубрики: Алгоритмы, Блог компании Яндекс, поиск, Поисковые машины и технологии, метки: поискАнализ неявных предпочтений пользователей, выраженных в переходах по ссылкам и длительности просмотра страниц, — важнейший фактор в ранжировании документов в результатах поиска или, например, показе рекламы и рекомендации новостей. Алгоритмы анализа кликов хорошо изучены. Но можно ли узнать что-то ещё об индивидуальных предпочтениях человека, используя больше информации о его поведении на сайте? Оказывается, траектория движения мыши позволяет узнать, какие фрагменты просматриваемого документа заинтересовали пользователя.
Этому вопросу и было посвящено исследование, проведенное мной, Михаилом Агеевым, совместно с Дмитрием Лагуном и Евгением Агиштейном в Emory Intelligent Information Access Lab Университета Эмори.
Мы изучали методы сбора данных и алгоритмы анализа поведения пользователя по движениям мыши, а также возможности применения этих методов на практике. Они позволяют существенно улучшить формирование сниппетов (аннотаций) документов в результатах поиска. Работа с описанием этих алгоритмов была отмечена дипломом «Best Paper Shortlisted Nominee» на международной конференции ACM SIGIR в 2013 году. Позже я представил доклад о результатах проделанной работы в рамках научно-технических семинаров в Яндексе. Его конспект вы найдете под катом.
Читать полностью »
Переходим от MongoDB Full Text к ElasticSearch
2014-05-16 в 14:58, admin, рубрики: nosql, Блог компании Likeastore, Поисковые машины и технологииВ своем прошлом посте, с анонсом Google Chrome расширения для Likeastore, я упомянул тот факт, что в качестве поискового индекса мы начали использовать ElasticSeach. Именно ElasticSeach дал достаточно хорошую производительность и качество поиска, после которого было принято решение, выпустить расширение к хрому.
В этом посте, я расскажу о том, что использование связки MongoDB + ElasticSeach, есть крайне эффективное NoSQL решение, и о том, как перейти на ElasticSearch, если у вас уже есть MongoDB.
Читать полностью »