На первом в истории полностью виртуальном мероприятии РИТ++, прошедшем в конце мая, инженер Qrator Labs — Георгий Тарасов, рассказал публике про веб-скрейпинг, он же парсинг, популярным языком. Мы решили предоставить вашему вниманию транскрипцию выступления.
Рубрика «web scraping»
Web scraping вашего сайта: непрошеные гости и как их встречают
2020-07-29 в 13:29, admin, рубрики: ddos, l7, web scraping, Блог компании Qrator Labs, защита, информационная безопасность, парсинг, Сетевые технологии, скрейпингРазработка веб-скрапера для извлечения данных с портала открытых данных России data.gov.ru
2017-03-04 в 11:04, admin, рубрики: .net, C#, web scraping, извлечение данных, Программирование, разработка, скрапинг, метки: извлечение данных, скрапингИногда возникает необходимость получить данные c веб-страниц и сохранить их в структурированном виде.
Инструменты веб-скрапинга (web scraping) разрабатываются для извлечения данных с веб-сайтов. Эти инструменты бывают полезны тем, кто пытается получить данные из Интернета. Веб-скрапинг — это технология, позволяющая получать данные без необходимости открывать множество страниц и заниматься копипастом. Эти инструменты позволяют вручную или автоматически извлекать новые или обновленные данные и сохранять их для последующего использования. Например, с помощью инструментов веб-скрапинга можно извлекать информацию о товарах и ценах из интернет-магазинов.
Читать полностью »
Web scraping обновляющихся данных при помощи Node.js и PaaS
2016-07-05 в 7:08, admin, рубрики: data mining, javascript, morph.io, node.js, paas, scraping, sql, sqlite, web scraping, веб-скрейпинг, ПрограммированиеЭто уже четвёртая статья в цикле про веб-скрейпинг при помощи Node.js:
- Web scraping при помощи Node.js
- Web scraping на Node.js и проблемные сайты
- Web scraping на Node.js и защита от ботов
- Web scraping обновляющихся данных при помощи Node.js
В прошлых статьях были рассмотрены получение и парсинг страниц, рекурсивный проход по ссылкам, организация и тонкая настройка очереди запросов, анализ Ajax-сайтов, обработка некоторых серверных ошибок, инициализация сессий и методы преодоления защиты от ботов.
В этой статье разбираются такие темы, как веб-скрейпинг регулярно обновляющихся данных, отслеживание изменений и использование облачных платформ для запуска скриптов и сохранения данных. Ещё внимание уделяется разделению задач веб-скрейпинга и обработки готовых данных, а также тому, чего стоит избегать при работе с обновляющимися сайтами.
Цель статьи – показать весь процесс создания, развёртывания и использования скрипта от постановки задачи и до получения конечного результата. Как обычно, для примера используется реальная задача, какие часто встречаются на биржах фриланса.
Как использовать Python для «выпаса» ваших неструктурированных данных
2016-06-03 в 9:17, admin, рубрики: classification, data mining, python, web scraping, Блог компании Издательский дом «Питер», книги, Программирование, Профессиональная литератураЗдравствуйте, уважаемые читатели.
В последнее время мы прорабатываем самые разные темы, связанные с языком Python, в том числе, проблемы извлечения и анализа данных. Например, нас заинтересовала книга «Data Wrangling with Python: Tips and Tools to Make Your Life Easier»:
Поэтому если вы еще не знаете, что такое скрепинг, извлечение неструктурированных данных, и как привести хаос в порядок, предлагаем почитать перевод интересной статьи Пита Тамисина (Pete Tamisin), рассказывающего, как это делается на Python. Поскольку статья открывает целую серию постов автора, а мы решили пока ограничиться только ею, текст немного сокращен.
Если кто-то сам мечтает подготовить и издать книгу на эту тему — пишите, обсудим.