На прошлой неделе в Москве при поддержке Яндекса прошла одна из двух самых авторитетных мировых конференций по информационному поиску — ECIR 2013 (European Conference on Information Retrieval).
Специально для Хабрахабра Илья Сегалович (iseg), технический директор Яндекса, коротко рассказал, чем она важна; почему то, что она прошла у нас, имеет большое значение и каких усилий нам и нашим соорганизаторам из Высшей школы экономики стоило провести ECIR в Москве.
Также мы взяли несколько интервью у авторов наиболее интересных статей и выступлений, а председателя жюри Best Paper Awards комитета попросили рассказать, о чём были лучшие статьи и почему предметы именно этих исследований сейчас важнее всего для науки и индустрии.
Яшар Мошфеги, University of Glasgow
Начнём с одного из авторов несколько необычной для ECIR статьи — Understanding Relevance: An fMRI Study. Учёные из Университета Глазго с помощью магнито-резонансной томографии изучили, какие части
Мы попросили Яшара Мошфеги рассказать, что им удалось выяснить и как, по его мнению, это может повлиять на судьбу измерений в области информационного поиска в будущем. Кстати, к каждому интервью вы можете включить русские субтитры.
Задачей нашего исследования было найти участки
Причина в том, что релевантность — человеческая оценка. И, как всякую человеческую оценку, её трудно понять и описать каким-то определением. Но так как это ключевое понятие в информационном поиске, крайне важно лучше понимать его. И один из способов делать это — заглянуть в
Как результаты исследования могут быть применены?
Есть две возможности. Первая — теоретическая. Раз уж исследование помогает нам лучше понять, какие участки
Кстати, о Москве. Это то, какой вы ее себе представляли? Снег в марте?
Ну, я много слышал о снеге, но не думал, что его будет столько! Так что, да, это очень похоже на то, что я видел в кино.
Марк Найорк, Microsoft Research
Марк работает в индустрии информационного поиска уже несколько десятилетий. Он был одним из тех, кто участвовал в разработке первого популярного интернет-поисковика — AltaVista. Сейчас Марк — Principal Researcher в Microsoft Research.
На ECIR 2013 он участвовал в Industry Day и рассказал о своём видении того, в каких случаях социальные данные могли бы помочь в результатах поиска, а в каких — нет. Мы в свою очередь поговорили с Марком о прошлом и будущем поиска, главных трендах, которые он видит, а также о том, какие области будут самыми важными и интересными в Information Retrieval:
Я стал заниматься поиском в конце 90-х. Работал в Compaq Computer Corporation, в которой как раз разрабатывалась АльтаВиста. Занимался поисковыми роботами, которые позже в ней и стали использоваться.
Поражаешься, когда видишь то, как быстро веб вырос, какие масштабы приобрел, как поисковые системы справлялись с этим. Я помню, когда АльтаВиста запускалась, по-моему, с 20 млн страниц в индексе. Сегодня такими большими поисковыми системами, как Google, Bing или Яндекс проиндексировано порядка десятков миллиардов страниц. So a factor of a thousand-more. И, я думаю, этот рост долго не остановится.
Думаю, основной задачей в последние десять лет было интегрировать в поиск информацию, которую все больше создают сами пользователи. Если вы посмотрите на то, как начинался веб-поиск, на первые поисковые системы вроде Excite и AltaVista, то увидите, что они использовали традиционные инструменты информационного поиска. То есть пытались понять, насколько хорошо проиндексированные веб-страницы отвечают на поисковые запросы.
Инновация Google была в том, что они стали учитывать, есть ли ссылки на веб-страницу где-то ещё. Следующим приёмом, которым стали пользоваться крупнейшие поисковые системы, включая Яндекс, Google, Bing, стал анализ пользовательского поведения. Для этого использовались запросы, клики, данные о том, как именно человек просматривает страницы. Так сами пользователи стали важным звеном информационного поиска, поиска по интернету.
Всё чаще в него интегрируются вертикальные поиски. Когда вы, например, ищите ресторан, поисковая система даже сегодня показывает вам его меню, часы работы, отзывы, месторасположение. То же самое и в поиске авиакомпаний. Если вы ищете рейс, поисковик помимо всего прочего сам покажет вам, что нужный рейс задержан на полчаса. Начать учитывать разные сценарии вертикального поиска — это одна часть этого шага.
Есть более общее решение. Заметьте, что все упомянутые сценарии подразумевали ответ без необходимости переходить по ссылке. Вы вводите запрос и сразу получаете ответ. Есть движение в сторону того, чтобы эту практику обобщить и на другие области. Чтобы поисковик не просто указывал вам на релевантные документы, но загружал их к себе в разум и синтезировал ответ. Это возможно для любого запроса, в котором… это уже разговор про фактоиды. Если зададите запрос о прибыли Яндекса, поисковик мог бы дать вам готовый ответ, основанный на пяти статьях, которые размер этой прибыли упоминали.
Что, как вы думаете, будет самой интересной областью информационного поиска в следующие пять лет?
О, непростой вопрос. Я думаю — лучшее понимание семантики и смысла в документах. Возможно, мы перестанем относиться к ним, как к мешками слов. Будем извлекать структуру и смысл из страниц.
Мор Нааман, Rutgers University SMIL, Mahaya, Inc.
Рассказ Мора открывал конференцию. Сейчас он разрабатывает стартап Mahaya.co. Сервис агрегирует социальные данные и пытается помочь взглянуть через них на события, в которые было вовлечено много людей, под разными углами. Иногда — в буквальном смысле:
Моя презентация была о том, как социальные медиа меняют то, как мы видим и понимаем мир. Особенно, если говорить о событиях — всё происходящее сейчас документируется соцмедиа. Вы можете постоянно видеть людей, которые фотографируют и твитят что-то. И благодаря этому у нас есть запись жизни общества и культуры, которая не была доступна ранее. Я рассказал о разных инструментах, которые нужны, чтобы осознать всю эту информацию. Как нам её собрать, найти, организовать, представить и сохранить в более доступном виде. Так, чтобы мы могли записывать мир таким образом, чтобы взаимодействовать с тем, что получилось.
В общем, моя презентация о социальных медиа и том, как они документируют мир, как мы сами это делаем и как нам помочь людям понять это.
Презентацию Мора можно посмотреть на SlideShare.
Пол Огилви, LinkedIn
Information Retrieval — это не только поиск. Полу Огилви из LinkedIn это понятно больше, чем многим другим. В рамках Industry day он рассказывал о том, как можно оценивать качество предложенного поиска в случае, когда обычные метрики вроде Cranfield style evaluations или методы A/B-тестирования не вполне применимы:
Я буду рассказывать о том, как много деталей проблемы может теряться в задачах информационного поиска при тех методах оценки, которые сейчас принято использовать. Например, измерениях, основанных на статических коллекциях. В результате этого иногда мы решаем не ту задачу. Так происходит потому, что у нас нет нужных типов данных, чтобы собрать все подробности. Я привожу некоторые примеры вещей, которые мы пропускаем, когда работаем с традиционными коллекциями. И некоторые примеры того, какие данные можно собирать и какие метрики использовать, чтобы не допускать некоторых распространённых искажений.
Мы заняты очень прикладными задачами. У нас нет чисто исследовательских групп. Все, кто занимается исследованиями, также работает над продакшн-системами. И следит за тем, чтобы всё, что мы придумываем и изучаем, было основано на проблемах, с которыми мы же сталкиваемся на самом деле. И одна из самых больших проблем, с которой мы столкнулись в LinkedIn, — то, что когда мы пытаемся оценить качество, нам может не хватить измерений, чтобы предсказать, что будет на реальных данных. Так что мы делаем большой акцент на понимании этого. Потому что умение хорошо предсказывать по правильно собранным данным помогает развиваться намного быстрее.
Арьен де Врис, председатель комитета по награждению лучших статей
Подводя итоги конференции, член жюри Best Paper Awards и оргкомитета ECIR 2013 Арьен де Врис, объяснил, чем круты статьи, признанные лучшими, чем они так важны для индустрии, и поделился своим впечатлением от конференции:
Ну, по-моему, конференция получилась очень хорошей. На ней был освещён очень широкий круг тем, были представлены очень хорошие статьи. Как вы знаете, я был главой комитета, который выбирал лучшие статьи. И мы даже не смогли выбрать одну — пришлось вручить три приза. Причём по темам от спорных междисциплинарных до предельно ясных и прикладных. Мне очень понравилась студенческая статья от исследователя из Яндекса. Важно обратить на неё внимание — думаю, она принесёт пользу в своей области. Так что, если говорить о качестве, конференция была очень хороша.
А что ещё вы можете сказать о лучших статьях? Например, было исследование Яшара про фМРТ. Такой тип исследований — это что-то новое для ECIR? Оно не только про Computer Science, но и про устройство
Насколько мне кажется, это первое исследование в информационном поиске, где использовали сканеры фМРТ, чтобы понять, что происходит в
И про вторую лучшую статью, если хотите. Она исключительна, потому что есть большая проблема: компании собирают данные, которые им совершенно необходимы, чтобы сделать хороший поисковик. И учёным хотелось бы работать с примерно теми же данными — чтобы проверять свои гипотезы. Но каждой попытке открыто опубликовать такой архив данных мешает вопрос прайваси. И эта работа резко увеличивает процент поисковых логов, которые можно опубликовать, на нарушив ничьего прайваси. Причём сделано это красиво, с использование очень сложной математики, которая прекрасно применена. С очень ясными целями и результатом.
Ссылки на все исследования, о которых рассказывалось на конференции, уже доступны.
Такая, казалось бы, исследованная область, как информационный поиск, находит всё новые и новые воплощения и измерения. Как вы понимаете, происходит это потому, что наша жизнь в интернете беспрерывно меняется и насыщается. Мы обрастаем связями, данными, устройствами, социальными сетями. Поиск и помощь в организации этой информации приобретают совершенно другое звучание и значение.
Автор: Zalina