Главная

Рубрика «парсинг сайтов» - 2

Парсим weblancer используя PROXY

2017-02-26 в 12:10, admin, рубрики: proxy, python, интерфейс, парсинг сайтов

Цель работы

Парсим сайт, используя прокси-сервера.

Сохраняем данные в формате CSV.

Пишем поисковик по найденным данным.

Строим интерфейс.

Парсим weblancer используя PROXY - 1

Использовать будем язык программирования Python. Сайт, с которого мы будем качать данные — www.weblancer.net (парсинг старой версии этого сайта был размещен здесь), в нем есть предложения работы по адресу www.weblancer.net/jobs. С него мы и будем получать данные — это название, цена, количество заявок, категория, краткое описание предлагаемой работы.

Вход с использованием прокси означает — вход на сайт под ненастоящим адресом. Пригодится для парсинга сайта с защитой бана по IP адресу (то есть, если вы слишком часто, за короткий отрезок времени, входите на сайт).Читать полностью »

Веб-парсинг на Ruby

2015-03-06 в 14:40, admin, рубрики: ruby, парсинг сайтов, Программирование

Это перевод статьи «Web Scraping with Ruby», которую я нашел полезной при изучении языка программирования Ruby. Парсинг меня интересует в личных целях. Мне кажется, это не только полезный навык, но и хороший способ изучить язык.
Читать полностью »

Простой парсинг сайтов с помощью SlimerJS

2015-01-14 в 8:57, admin, рубрики: javascript, slimerJS, парсинг сайтов

В виду отсутствия хорошего материала по парсингу с помощью скриптового браузера SlimerJS и наличия свободного времени решил написать небольшую статью.

Простой парсинг сайтов с помощью SlimerJS - 1
Читать полностью »

Grab — новый интерфейс для работы с DOM-деревом HTML-документа

2013-03-19 в 22:11, admin, рубрики: data mining, dom, html, lxml, python, xpath, парсинг сайтов, метки: data mining, dom, html, lxml, python, xpath, парсинг сайтов

Исторический экскурс

Ранее я уже писал на хабре о Grab — фреймворке для написания парсеров сайтов: раз, два, три, четыре. В двух словах, Grab это удобная оболочка поверх двух библиотек: pycurl для работы с сетью и lxml для разбора HTML-документов.Читать полностью »

Не так страшен черт, или сколько же реально используемых доменов

2012-12-19 в 19:47, admin, рубрики: python, парсинг сайтов, Песочница, метки: python, парсинг сайтов

Понадобилось мне собрать определенного рода статистику по вебу. Но поисковики даже приблизительно не захотели выдавать стату, какими только запросами я их ни кормил. В итоге, по исконно русской традиции, принялся писать свой «поисковик». Итак, начнем.

Первое, что нам необходимо — список всех зарегистрированных доменов. Читать полностью »

Что такое Grab:Spider?

2012-04-18 в 3:30, admin, рубрики: grab, grablab, python, spider, парсинг сайтов, метки: grab, grablab, spider, парсинг сайтов

Никак не могу дописать документацию по Grab:Spider — это часть библиотеки Grab — для написания асинхронных пауков. Подумал выкладывать куски документации на хабрахабр. Думаю, с некоторым фидбэком дело быстрей пойдёт. На данный момент в документации есть лишь введение, описывающие в общих чертах, что за это за зверь такой Grab:Spider. Его и выкладываю.Читать полностью »

Использование Grab:Spider для парсинга сайтов

2012-04-17 в 6:07, admin, рубрики: grab, grablab, python, парсинг сайтов, метки: grab, grablab, парсинг сайтов

Всем привет!

Я активный пользователь open-source фрэймворка Grab (itforge уже писал о нем здесь и здесь) и 1/2 проекта GrabLab (который занимается собственно коммерческой эксплуатацией фрэймворка). Т.к. парсим сайты мы часто, помногу и задания как правило совершенно не похожи друг на друга, хотелось бы поделится своим опытом в вопросе построения типичного парсинг проекта.

Немного про инструментарий который помогает мне в работе

В качестве рабочего браузера я использую FireFox с плагинами HttpFox (анализировать входящий/исходящий http трафик), XPather (позволяет проверять xpath выражения), SQLite Manager (просмотр sqlite таблиц), код набираю в emacs, где активно использую сниппеты (YASnippets) для часто встречающихся конструкций.

Из-за специфики фрэймворка, как правило, на первом этапе сайт полностью (или если данных много — то частично, для удобства последующей разработки) сохраняется в локальный кэш на базе mongodb, что очень экономит время, т.к. считывание страниц идет из кэша.

Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Обсуждаемое

Рекомендуем

Рубрика «парсинг сайтов» - 2

Парсим weblancer используя PROXY

Цель работы

Парсим сайт, используя прокси-сервера.

Сохраняем данные в формате CSV.

Пишем поисковик по найденным данным.

Строим интерфейс.

Веб-парсинг на Ruby

Простой парсинг сайтов с помощью SlimerJS

Grab — новый интерфейс для работы с DOM-деревом HTML-документа

Исторический экскурс

Не так страшен черт, или сколько же реально используемых доменов

Что такое Grab:Spider?

Использование Grab:Spider для парсинга сайтов

Немного про инструментарий который помогает мне в работе

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «парсинг сайтов» - 2

Парсим weblancer используя PROXY

Цель работы

Парсим сайт, используя прокси-сервера. Сохраняем данные в формате CSV. Пишем поисковик по найденным данным. Строим интерфейс.

Веб-парсинг на Ruby

Простой парсинг сайтов с помощью SlimerJS

Grab — новый интерфейс для работы с DOM-деревом HTML-документа

Исторический экскурс

Не так страшен черт, или сколько же реально используемых доменов

Что такое Grab:Spider?

Использование Grab:Spider для парсинга сайтов

Немного про инструментарий который помогает мне в работе

Новости

Актуальные темы

Архив

Парсим сайт, используя прокси-сервера.

Сохраняем данные в формате CSV.

Пишем поисковик по найденным данным.

Строим интерфейс.