Рубрика «morph.io»

Web scraping обновляющихся данных при помощи Node.js и PaaS

2016-07-05 в 7:08, admin, рубрики: data mining, javascript, morph.io, node.js, paas, scraping, sql, sqlite, web scraping, веб-скрейпинг, Программирование

Web scraping обновляющихся данных при помощи Node.js и PaaS - 1 Это уже четвёртая статья в цикле про веб-скрейпинг при помощи Node.js:

Web scraping при помощи Node.js
Web scraping на Node.js и проблемные сайты
Web scraping на Node.js и защита от ботов
Web scraping обновляющихся данных при помощи Node.js

В прошлых статьях были рассмотрены получение и парсинг страниц, рекурсивный проход по ссылкам, организация и тонкая настройка очереди запросов, анализ Ajax-сайтов, обработка некоторых серверных ошибок, инициализация сессий и методы преодоления защиты от ботов.

В этой статье разбираются такие темы, как веб-скрейпинг регулярно обновляющихся данных, отслеживание изменений и использование облачных платформ для запуска скриптов и сохранения данных. Ещё внимание уделяется разделению задач веб-скрейпинга и обработки готовых данных, а также тому, чего стоит избегать при работе с обновляющимися сайтами.

Цель статьи – показать весь процесс создания, развёртывания и использования скрипта от постановки задачи и до получения конечного результата. Как обычно, для примера используется реальная задача, какие часто встречаются на биржах фриланса.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «morph.io»

Web scraping обновляющихся данных при помощи Node.js и PaaS

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «morph.io»

Web scraping обновляющихся данных при помощи Node.js и PaaS

Новости

Актуальные темы

Архив