Одна из ключевых возможностей Nimbus Note — это сохранение и/или редактирование заметок в виде html-документа. И заметки эти создаются/редактируются в браузере или на мобильных устройствах. После чего — отправляются на сервер. А как подсказывает профессиональная паранойя — информации пришедшей от пользователя доверять нельзя. Т.к. там может быть всё что угодно: XSS, документ, превращающий вёрстку в мечту абстракциониста или вообще ни разу не текст. Следовательно, данные пришедшие от пользователя нуждаются в предварительной обработке. В этой статье я опишу некоторые особенности нашего решения данной проблемы.
Метка «beautiful soup»
Парсер в Nimbus Note, или как мы решали проблему «чистого» HTML
2014-03-28 в 11:20, admin, рубрики: beautiful soup, lxml, nimbus, python, Блог компании FVD Media, Веб-разработка, парсеры, разработка, метки: beautiful soup, lxml, nimbus, python, Веб-разработка, парсеры, разработкаЭкспорт избранного Хабра в FB2
2012-06-29 в 22:02, admin, рубрики: beautiful soup, fb2, python, избранное, хабрахабр, экспорт, электронные книги, метки: beautiful soup, fb2, python, избранное, Хабрахабр, экспортНенавижу длинные вступления
И поэтому не буду писать их даже под спойлером.
- Что?
- Сабж.
- Зачем?
- Читать в оффлайне на электронных книгах.
- Моя книга не поддерживает FB2!
- Хочу!
- Обзаводимся Python 2.6+. Тестировалось на Python 2.7.3.
- Ставим библиотеку BeautifulSoup 4. Вкратце варианты:
apt-get install python-beautifulsoup4
easy_install beautifulsoup4
pip install beautifulsoup4
- Исходники и
python setup.py install
- Качаем код из репозитория. (прямая ссылка на последнюю версию на момент написания)
- Открываем файл
habrafav.py
и в строкеusername = ...
прописываем свой логин. python habrafav.py
(или простоhabrafav.py
под Windows)- Ждём. У меня с кэшированными данными экспорт ~150 статей занимает около 6 минут и 600 Мб оперативной памяти.
- Забираем
habrahabr_favorites.fb2
. Мой занимает примерно 62 Мб.