Если позволите, начну без вступления и предыстории.
Поисковик сегодня (в том числе и в первую очередь интернет поисковик) — это программа, в основе которой лежит математический аппарат, статистические, вероятностные и прочие методы. В любом случае он считает. Считает ссылки, считает релевантность, статистику переходов, учитывает множество факторов (местоположение, возраст и т.д., разную ситуационную информацию). Это в конечном счете приводит к сужению результатов и фильтрации выдачи. И что в конечном счете есть огромный, безусловно многоуровневый и на сегодняшний день принципиально достаточно сложный индекс к некоторой базе собираемой на просторах интернета информации. При этом, сама база информации имеет также достаточно сложную, многоуровневую структуру, что вполне объяснимо на сегодняшний день, но сути не меняет. Здесь, естественно, и кэши, и резервирование, и распараллеливание, и прочие, прочие, прочие, что обеспечивает каждому из нас возможность пользоваться, с моей точки зрения, очень важным ресурсом. Просто попробуйте представить сегодняшний интернет без поиска. Я даже готов утверждать, что достижения в области поиска информации являются основным фактором, стимулирующим рост интернета в принципе.
Однако что есть поисковик? Поисковик- это посредник между тем кто опубликовал, и тем, кто хочет увидеть опубликованное; между мыслями одного человека, преобразованными в цифровую форму некоторого электронного документа, и мыслями другого, представленными в виде запроса. Поисковик в данном случае- канал связи со своим протоколом взаимодействия, канал взаимодействия между людьми. Этот факт крайне важен: мы говорим об инструменте, безусловно колоссальном, но инструменте взаимодействия людей в подавляющем большинстве случаев.
На днях я наткнулся на статью четырех летней давности habrahabr.ru/post/31600/, в которой рассмотрена проблема, или точнее идея, семантического поиска, в связи с чем возникли возражения, вопросы и ответы.
1. Качество поиска сегодня. Каков его уровень? Каковы перспективы?
Теоретически максимально достижимое качество поиска, базирующегося на сегодняшних технологиях, — это когда по моему запросу я получаю одну максимально релевантную запросу статью-ответ! Т.е., учитывая максимально возможное количество факторов математический аппарат поисковика вычисляет, данное соответствие. При этом мы должны понимать, что поисковик покажет то, что кто-то оставил. Достигнув этого теоретического уровня нашего канала связи (поисковика) мы задаем второй вопрос: насколько то, что математически ответ- ответ с точки зрения разума? Ведь идеальный ответ мы можем получить, если возвращенный результат в действительности был ответом на кем-то заданный, в точности наш, вопрос. Для моих целей уровень уже сегодняшнего поиска вполне достаточен. Т.е., я вполне комфортно и быстро нахожу интересующую меня информацию. Повышение релевантности в используемой сейчас архитектуре в основном, насколько мне известно, достигается за счет увеличения участвующих в процессе параметров, включения в запрос максимального количества доступных данных для большей дифференциации выдачи.
2. Семантический поиск- что это?
Поиск по содержимому или поиск со смыслом? Не буду спорить по поводу определений, но поиск по содержимому с пониманием смысла- это совершенно другая технологическая платформа. Это совершенно другая архитектура. Где система выступает в роли: «изучаю, понимаю, задают вопрос, формирую ответ, отвечаю». Все, что я вижу сейчас- это поиск информации формата вопрос-ответ, опять же, коммуникации людей. Что сводит функции поискового движка все к той же математике.
Данная проблема лежит в сфере моих интересов, исследований в этой и смежных областях и достигнутых результатов. Мы в Кибиком, ведем проект answer, в котором тестируются полученные результаты применительно к сфере поиска. Однако поиск- это далеко не единственная, требующая иных подходов сфера.
Работая в этом направлении, я переосмыслил многие вещи, вплоть до самого понятия информации, принципов ее организации, и обработки. Мне не нравится идея представления информации в специальном, машинно-ориентированном виде. Это не приведет нас к «умному» компьютеру, а скорее потребует множество специалистов-программистов, как получилось с сегодняшним программированием ( о чем хочется сказать отдельно ).
Уверен, что поиск завтра это уже общение человек<->машина. Где машина — это совершенно другая технологическая платформа, для которой информация перестанет быть бессмысленным массивом байтов. Хотелось бы не только дожить до этих времен, но и приложить максимум своих усилий!
Автор: dnclive