Рубрика «веб-скрейпинг»

Руководство по веб-скрейпингу на Python

2024-02-28 в 13:00, admin, рубрики: beautiful soup, ruvds_переводы, scraping, веб-скрейпинг, краулеры, краулинг, скрейпинг

В этом туториале мы создадим надёжные веб-краулеры с использованием таких библиотек, как BeautifulSoup, изучим техники, позволяющие преодолевать реальные трудности при скрейпинге, а также представим рекомендации по крупномасштабному скрейпингу.

Вы получите навыки для скрейпинга сложных сайтов и решения проблем, которые касаются ограничений частоты запросов, блокировок и генерируемых при помощи JavaScript страниц.Читать полностью »

Четыре проекта с веб-скрейпингом, которые позволят упростить себе жизнь

2021-07-07 в 10:50, admin, рубрики: beautiful soup, python, scrapy, selenium, Блог компании VDSina.ru, веб-скрейпинг, Лайфхаки для гиков, Программирование

Подумайте обо всех тех вещах, которые вы делаете в течение дня. Возможно, вы читаете новости, отправляете электронные письма, находите самые выгодные цены на товары или ищете работу онлайн. Большинство этих задач можно автоматизировать при помощи веб-скрейпинга, поэтому вместо того, чтобы вы тратили часы на изучение веб-сайтов, компьютер может сделать это за вас в течение пары минут.

Веб-скрейпинг — это процесс извлечения данных с веб-сайта. Для изучения веб-скрейпинга достаточно пройти туториал о принципах работы таких библиотек Python, как Beautiful Soup, Selenium или Scrapy; однако если вы не будете применять на практике все изученные концепции, то время окажется потраченным впустую.

Именно поэтому стоит попробовать создавать проекты с веб-скрейпингом, которые не только помогут вам освоить теорию веб-скрейпинга, но и позволять разработать ботов. автоматизирующих повседневные задачи.

В этой статье я перечислю проекты, которые автоматизируют четыре задачи, ежедневно выполняемые многими людьми. Проекты изложены по возрастанию сложности, от начальных до продвинутых.
Читать полностью »

Подключаем онлайн-карты к навигатору на смартфоне. Часть 3 — OverpassTurbo

2019-07-23 в 15:31, admin, рубрики: Google Chrome, node.js, OpenStreetMap, ovepass, Puppeteer, веб-скрейпинг, Геоинформационные сервисы, карты, навигационные сервисы, онлайн-карты

Превращаем созданный ранее скрипт в API для просмотра интерактивной карты с сайта OverpassTurbo.eu через навигационное приложение смартфона.

Читать полностью »

Web scraping обновляющихся данных при помощи Node.js и PaaS

2016-07-05 в 7:08, admin, рубрики: data mining, javascript, morph.io, node.js, paas, scraping, sql, sqlite, web scraping, веб-скрейпинг, Программирование

Web scraping обновляющихся данных при помощи Node.js и PaaS - 1 Это уже четвёртая статья в цикле про веб-скрейпинг при помощи Node.js:

Web scraping при помощи Node.js
Web scraping на Node.js и проблемные сайты
Web scraping на Node.js и защита от ботов
Web scraping обновляющихся данных при помощи Node.js

В прошлых статьях были рассмотрены получение и парсинг страниц, рекурсивный проход по ссылкам, организация и тонкая настройка очереди запросов, анализ Ajax-сайтов, обработка некоторых серверных ошибок, инициализация сессий и методы преодоления защиты от ботов.

В этой статье разбираются такие темы, как веб-скрейпинг регулярно обновляющихся данных, отслеживание изменений и использование облачных платформ для запуска скриптов и сохранения данных. Ещё внимание уделяется разделению задач веб-скрейпинга и обработки готовых данных, а также тому, чего стоит избегать при работе с обновляющимися сайтами.

Цель статьи – показать весь процесс создания, развёртывания и использования скрипта от постановки задачи и до получения конечного результата. Как обычно, для примера используется реальная задача, какие часто встречаются на биржах фриланса.

Читать полностью »

Web scraping на Node.js и защита от ботов

2016-06-21 в 7:16, admin, рубрики: amazon, authorization, casperjs, data mining, electron, headless browser, horseman.js, javascript, nightmare.js, node.js, nw.js, phantomjs, scraping, slimerJS, web scraping, zombiejs, веб-скрейпинг, Программирование, реверс-инжиниринг

Web scraping на Node.js и защита от ботов - 1 Это третья статья в цикле про создание и использование скриптов для веб-скрейпинга при помощи Node.js.

В первой статье разбирались базовые аспекты веб-скрейпинга, такие как получение и парсинг страниц, рекурсивный проход по ссылкам и организация очереди запросов. Во второй статье разбирались анализ сайта, работающего через Ajax, тонкая настройка очереди запросов и обработка некоторых серверных ошибок.

Также во второй статье затрагивалась тема инициализации сессий, но, там речь шла о предельно простом случае, когда достаточно выполнить один дополнительный запрос и сохранить куки.

В этой статье разбирается более сложный случай – инициализация сессий с авторизацией по логину и паролю и с преодолением довольно изощрённой защиты от ботов. Как обычно, на примере реальной (и весьма популярной среди скрейперов) задачи.

Важное примечание

В большинстве случаев защита от ботов на сайте направлена не против скрейперов, а против таких вещей, как мошенничество, накрутки или спам в комментариях. Однако это всегда лишний повод задуматься о легальности и этичности скрейпинга именно этого сайта. В этой статье для примера выбран сайт, про который хорошо известно, что его владельцы нормально относятся к скрейпингу (хотя и предпочитают, чтобы он выполнялся через специальный API). Простые правила: если у сайта есть открытый API, значит его владельцы рады скрейперам, а если сайт большой и ультрапосещаемый, нагрузка от скрейпинга в обход API его особо не побеспокоит.

В прошлых статьях целью было показать весь процесс создания и использования скрипта от постановки задачи и до получения конечного результата. В этой статье большая часть аспектов веб-скрейпинга обходится стороной, а вместо этого показывается многообразие подходов к решению одной, довольно узкой задачи. Различные методы и инструменты, их плюсы и минусы, субъективные оценки, примеры кода, вот это вот всё.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «веб-скрейпинг»

Руководство по веб-скрейпингу на Python

Четыре проекта с веб-скрейпингом, которые позволят упростить себе жизнь

Подключаем онлайн-карты к навигатору на смартфоне. Часть 3 — OverpassTurbo

Web scraping обновляющихся данных при помощи Node.js и PaaS

Web scraping на Node.js и защита от ботов