- PVSM.RU - https://www.pvsm.ru -
apt-get install python-beautifulsoup4easy_install beautifulsoup4pip install beautifulsoup4python setup.py installhabrafav.py и в строке username = ... прописываем свой логин.python habrafav.py (или просто habrafav.py под Windows)habrahabr_favorites.fb2. Мой занимает примерно 62 Мб.
This element is not expected.
<empty-line> — 287 раз<code> — 83 раза<emphasis> — 19 раз<strong> — 7 раз<subtitle> — 5 раз<cite> — 4 раза<a> — 3 раза<image> — 2 раза<sup> — 1 разCharacter content other than whitespace is not allowed because the content type is 'element-only'. Тег — <cite>, 245 раз.empty tag. Тег — <td>, 19 раз.yet <b>another</b> bicycle превращается в yet<strong>another</strong>bicycle. Вероятно, это баг BeautifulSoup, но, возможно, ошибка где-то у меня.<img src=image_url/> на <image l:href="#image_id"/>. Затем при помощи небольшого набора костылей перестраиваю деревья разбора. Удаляю одни теги, заменяю другие, вставляю третьи. Наконец, собираю всё это вместе, добавляю шапку, подвал и пишу в файл. Единственный не совсем тривиальный момент — замена тегов на <p>. Грубо говоря — вместо разделителей между параграфами я выделяю сами параграфы. Кому интересно — файл conversion.py, функция make_paragraphs.Автор: Pastafarianist
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/python/10507
Ссылки в тексте:
[1] Универсальный конвертор: http://calibre-ebook.com/
[2] Python 2.6+: http://www.python.org/download/
[3] Python 2.7.3: http://www.python.org/ftp/python/2.7.3/python-2.7.3.msi
[4] Ставим: http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-beautiful-soup
[5] Исходники: http://www.crummy.com/software/BeautifulSoup/bs4/download/4.0/
[6] репозитория: https://bitbucket.org/Pastafarianist/habrafav/overview
[7] прямая ссылка: https://bitbucket.org/Pastafarianist/habrafav/get/ecf26c772051.zip
[8] было: http://habrahabr.ru/post/111411/
[9] Описание: http://www.fictionbook.org/index.php/%D0%9E%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5_%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%82%D0%B0_FB2_%D0%BE%D1%82_Sclex
[10] схема: http://www.fictionbook.org/index.php/XML_%D1%81%D1%85%D0%B5%D0%BC%D0%B0_FictionBook2.1
[11] Валидацию: https://code.google.com/p/fb2utils/
[12] govnokod.ru: http://govnokod.ru/
[13] форки: https://bitbucket.org/Pastafarianist/habrafav/fork
Нажмите здесь для печати.