Я ранее уже рассказывал на хабре о Grab — библиотеке для парсинга сайтов и о Spider — асинхронном модуле для парсинга. Рад сообщить, что я наконец-то дописал документацию по Grab. Я решил писать всё на русском языке т.к. на английском языке мне труднее выражать мысли. На деле писанины получилось гораздо больше, чем представлялось в начале, но я таки описал практически все функции библиотеки. Я решил просто вставить сюда, оглавление, кликайте на интересный раздел и читайте о возможностях Grab:
- <a rel="nofollow" href="http://grablib.org/docs/grab/tutorial.html">Введение в Grab
- Установка библиотеки Grab
- Настройка Grab-объекта
- Отладка запросов
- Полный список настроек
- Настройка HTTP-заголовков
- Методы HTTP-запросов
- Прочие возможности
- Кодировка документа
- Работа с кукисами
- Обработка сетевых ошибок, таймауты
- Работа с прокси-серверами
- Работа с ответом
- Технические детали устройства Grab
- Работа с формами
- Работа с DOM-деревом
- Поиск в тексте документа
- Другие расширения
- Cетевые транспорты
- Полезные утилиты
Кстати, HTML-код оглавления я подготовал скриптом с использованием Grab:
# coding: utf-8 from grab import Grab from lxml.html import tostring g = Grab() g.go('http://grablib.org/docs/') g.tree.make_links_absolute('http://grablib.org/docs') elem = g.xpath(u'//h3[text()="Руководство пользователя"]/following-sibling::ul[1]') toc = tostring(elem, encoding='utf-8') print toc
Официальный сайт библиотеки grab: grablib.org
Вопросы по использованию grab писать лучше не мне в skype/jabber, а в майл-лист: groups.google.com/group/python-grab
Также напоминаю, что мы (grablab) занимаемся парсингом сайтов на заказ, если вам нужно собрать и обработать данные — обращайтесь.
Далее я планирую заняться документированием асинхронного spider модуля.
Автор: itforge