Главная

Метка «markdown» - 2

Извлекаем центральную статью с web-страницы

2012-07-17 в 12:34, admin, рубрики: data mining, markdown, Алгоритмы, выделение содержания, метки: data mining, markdown, выделение содержания

Длинное вступление

Совсем недавно мне пришлось подготовить работу для университета. Ну и как всегда в области, которая мне не интересна. Задание было принято без какого либо энтузиазм и хотелось побыстрее от этого избавиться. Задача стояла так «Извлечение центральных статей из гипертекстовых документов».

Я не стану расписывать возможные варианты использования подобных алгоритмов. Я уверен, что каждый из вас без проблем придумает хотя бы пять различных вариантов применения.

Бегло пробежавшись по просторам глобальной сети я понял, что за 10 лет в этой области никто не крикнул «Эврика!» и все подходы основываются на анализе Dom-модели документа. Кто-то использует одни принципы, кто-то другие, но все поголовно следуют набору правил для анализа Dom-модели документа. Побродив еще немного по просторам Хабра я наткнулся на статью, в которой автор рассказывал про алгоритм VIPS, разработанный в недрах Microsoft Research. Идея показалась очень привлекательной, и я решил придумать что-то свое и принялся за мыслительную деятельность. День, два, три… Ничего необычного в голову не приходит. Пришлось отбросить идею поиска центральной статьи с помощью компьютерного зрения. Такой подход к решению проблемы оказался мне не по зубам.

Что же делать? Писать еще один парсер Dom-дерева, как это делают люди уже больше 10 лет? Хочется уточнить, что работа должна быть больше исследовательская и не нацелена на получение конкретного результата. Немного пообщавшись с людьми, я наткнулся на язык разметки Markdown. Интересная штука, подумал я и лег спать…
Читать полностью »

«Разбор полетов» — episode 19 — Разговоры на кухне про кухню

2012-06-01 в 16:31, admin, рубрики: extjs, github, Google, java, markdown, oracle, tomcat, tomee, подкасты, разбор-полетов, метки: extjs, github, Google, java, markdown, oracle, tomcat, tomee, разбор-полетов

С превеликим удовольствием и радостью представляем Вашему вниманию очередной, девятнадцатый выпуск подкаста «Разбор Полетов», в котором мы говорим о о событиях и технологиях, которые взволновали нас на этой неделе, и будут волновать Вас!
В сегодняшнем выпуске мы поговорим:Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Обсуждаемое

Рекомендуем

Метка «markdown» - 2

Извлекаем центральную статью с web-страницы

Длинное вступление

«Разбор полетов» — episode 19 — Разговоры на кухне про кухню

Архив

Информация

Обсуждаемое

Рекомендуем

Метка «markdown» - 2

Извлекаем центральную статью с web-страницы

Длинное вступление

«Разбор полетов» — episode 19 — Разговоры на кухне про кухню

Новости

Актуальные темы

Архив