Длинное вступление
Совсем недавно мне пришлось подготовить работу для университета. Ну и как всегда в области, которая мне не интересна. Задание было принято без какого либо энтузиазм и хотелось побыстрее от этого избавиться. Задача стояла так «Извлечение центральных статей из гипертекстовых документов».
Я не стану расписывать возможные варианты использования подобных алгоритмов. Я уверен, что каждый из вас без проблем придумает хотя бы пять различных вариантов применения.
Бегло пробежавшись по просторам глобальной сети я понял, что за 10 лет в этой области никто не крикнул «Эврика!» и все подходы основываются на анализе Dom-модели документа. Кто-то использует одни принципы, кто-то другие, но все поголовно следуют набору правил для анализа Dom-модели документа. Побродив еще немного по просторам Хабра я наткнулся на статью, в которой автор рассказывал про алгоритм VIPS, разработанный в недрах Microsoft Research. Идея показалась очень привлекательной, и я решил придумать что-то свое и принялся за мыслительную деятельность. День, два, три… Ничего необычного в голову не приходит. Пришлось отбросить идею поиска центральной статьи с помощью компьютерного зрения. Такой подход к решению проблемы оказался мне не по зубам.
Что же делать? Писать еще один парсер Dom-дерева, как это делают люди уже больше 10 лет? Хочется уточнить, что работа должна быть больше исследовательская и не нацелена на получение конкретного результата. Немного пообщавшись с людьми, я наткнулся на язык разметки Markdown. Интересная штука, подумал я и лег спать…
Читать полностью »