Рубрика «парсинг» - 3

Как спарсить любой сайт?

2021-09-22 в 10:40, admin, рубрики: BeautifulSoup4, big data, data mining, headlessbrowser, javascript, linkedin, Puppeteer, scrapy, selenium, selenoid, открытые данные, парсинг, Тестирование веб-сервисов

Меня зовут Даниил Охлопков, и я расскажу про свой подход к написанию скриптов, извлекающих данные из интернета: с чего начать, куда смотреть и что использовать.

Написав тонну парсеров, я придумал алгоритм действий, который не только минимизирует затраченное время на разработку, но и увеличивает их живучесть, робастность, масштабируемость.

TL;DR

Читать полностью »

Как определить самый авторитетный фильм всех времен и народов

2021-09-17 в 10:28, admin, рубрики: data mining, python, анализ данных, графы, исследование, кино, парсинг

Какое произведение киноискусства оставило самый большой отпечаток в современной поп культуре? Предлагаю подумать над этим вопросом некоторое время. Может быть это Апокалипсис сегодня? Или Крестный отец? А вдруг главный фильм всех времен и народов это шедевр отечественного кинематографа - фильм Викинг?

К счастью, это можно посчитать.

Отсылки в современных произведениях популярного искусства - забавная вещь. Люди их любят. Возьмем популярный мультсериал Читать полностью »

Парсинг — это законно?

2021-03-10 в 12:01, admin, рубрики: базы данных, Законодательство в IT, интеллектуальная собственность, парсинг, персональные данные, пользовательское соглашение, право, свобода информации, скрейпинг, уголовная ответственность, условия использования

В двух словах: законно, но нужно помнить о куче «подводных камней».

В начале марта появилась новость, что в России запретили парсинг общедоступных персональных данных. В целом это действительно так, но правовые вопросы, связанные с парсингом, не сводятся только к персональным данным. Поэтому я решил написать о парсинге с юридической точки зрения.

Парсинг — это автоматизированный сбор общедоступной информации из интернета, осуществляемый без использования APIЧитать полностью »

Поиск замены депозита в облигациях с учетом того, что с 1 января 2021 года все выплаты облагаются налогами

2021-01-04 в 1:33, admin, рубрики: api, javascript, node.js, визуализация данных, инвестиции, облигации, парсинг, финансы в IT

Полгода назад, летом 2020 года я написал скрипт поиска ликвидных облигаций на Мосбирже. Скрипт нужен для поиска облигаций, которые можно купить прямо сейчас с доходностью гораздо выше банковского вклада. Проценты по вкладам так и остаются на очень низких уровнях, а тут ещё и изменения в налоговом кодексе РФ подоспели.

Читать полностью »

Парсинг сайта Умного Голосования и новый API на сайте ЦИК

2020-09-20 в 17:19, admin, рубрики: api, big data, data mining, html, http, json, python, выборы, голосование, интерфейсы, навальный, открытые данные, парсинг, сбор данных, ЦИК РФ

13 сентября 2020 года в России прошёл единый день голосования. В некоторых регионах оппозицией была применена стратегия «Умного Голосования», заключающаяся в том, что оппозиционно настроенные избиратели голосуют за единого кандидата, имеющего наивысшие шансы победить представителя от властей.

Процесс отбора кандидатов для «Умного Голосования» уже второй год вызывает дискуссии на тему своей прозрачности. Кроме того, лично меня смущают сложности с подведением итогов стратегии, с которыми могут столкнуться независимые аналитики. Организаторы УмГ не публикуют подробные итоги стратегии, а лишь диаграммы, демонстрирующие сколько оппозиционных кандидатов прошло в региональный парламент.

На сайте «Умного Голосования» нельзя получить список поддержанных кандидатов, указав, например, город и округ. Если кто-то захочет собрать данные по региону, ему предстоит монотонная работа по подбору адресов для каждого округа.

Ни в коем случае не упрекаю разработчиков сайта УмГ, он имеет весь требуемый функционал для реализации стратегии голосования. Но в связи с тем, что в 2019 году никто не занимался сбором и публикацией подробных данных по итогам УмГ (вне московских выборов), на этих выборах я решил взять инициативу в свои руки.

В итоге получилась вот такая сводная таблица. В данной статье я расскажу, как был получен приведённый набор данных, как собиралась информация с сайтов Умного Голосования и нового веб-сервиса ЦИК.

Читать полностью »

Поиски фундаментальных данных для акций через API Financial Modeling Prep

2020-08-24 в 1:25, admin, рубрики: api, javascript, node.js, Алгоритмы, биржа, биржевая торговля, инвестиции, котировка, облигации, парсинг, статистика, финансы в IT, ценные бумаги

Недавно мне понадобилось обработать экономические показатели для нескольких тысяч американских акций.

Их невозможно было получить через привычный скринер бумаг вроде яху финанс, потому что методика расчёта нестандартная.

В качестве поставщика данных использовался сервис FinancialModelingPrep, который в 2019 году был бесплатен, но в 2020 году уже нет.

Поиски фундаментальных данных для акций через API Financial Modeling Prep - 1

В статье разбираюсь в нюансах формирования запросов к базе данных сервиса. А ещё исследую глубину доступных финансовых отчетов компаний за прошлые годы.
Читать полностью »

Web scraping вашего сайта: непрошеные гости и как их встречают

2020-07-29 в 13:29, admin, рубрики: ddos, l7, web scraping, Блог компании Qrator Labs, защита, информационная безопасность, парсинг, Сетевые технологии, скрейпинг

На первом в истории полностью виртуальном мероприятии РИТ++, прошедшем в конце мая, инженер Qrator Labs — Георгий Тарасов, рассказал публике про веб-скрейпинг, он же парсинг, популярным языком. Мы решили предоставить вашему вниманию транскрипцию выступления.

Web scraping вашего сайта: непрошеные гости и как их встречают - 1
Читать полностью »

Скрипт выборки российских облигаций по параметрам

2020-06-22 в 2:26, admin, рубрики: api, javascript, node.js, биржа, биржевая торговля, визуализация данных, инвестиции, котировка, облигации, парсинг, статистика, финансы в IT, ценные бумаги

Уже несколько лет я пользуюсь облигациями в качестве замены депозита, потому что процент дохода, который можно получить со вклада стабильно падает. В отличии от ситуации с депозитом, в облигациях всегда можно найти большую доходность. И в этой ситуации меня не устраивало только количество времени на механическую работу по поиску подходящих вариантов бумаг.

Скрипт выборки российских облигаций по параметрам - 1
Работа скрипта по поиску облигаций на Московской бирже

Так как сервисов по поиску российских облигаций много, но ни один из них не имеет достаточной гибкости и простоты и поэтому на работу с ними тратится достаточно много времени. Исходя из этого и решил разработать собственный скрипт для поиска облигаций.

Сделал это на Node.js с выводом полученных результатов в локальный html файл с интерактивной таблицей от Google Charts (а в случае, если JavaScript отключен в браузере, что например происходит при открытии этого html файла из мессенджера на iPhone, то отображается статическая версия таблицы, также сгенерированная скриптом).
Читать полностью »

Весь Хабр в одной базе

2020-03-03 в 9:07, admin, рубрики: api, python, Администрирование баз данных, базы данных, парсинг, парсинг контента, Программирование, хабрахабр, хранилища данных

Добрый день. Прошло уже 2 года с момента написания последней статьи про парсинг Хабра, и некоторые моменты изменились.

Когда я захотел иметь у себя копию хабра, я решил написать парсер, который бы сохранил весь контент авторов в базу данных. Как это вышло и с какими ошибками я встретился — можете прочитать под катом.

Читать полностью »

Что делает Free API Московской биржи в Google Таблицах

2020-02-04 в 1:45, admin, рубрики: api, data mining, Google API, Google Sheets, google таблицы, акции, Алгоритмы, биржа, биржевая торговля, инвестиции, котировка, Московская Биржа, облигации, парсинг, статистика, финансы в IT, ценные бумаги

Количество частных инвесторов на Московской бирже удвоилось за последний год и составило 3,86 млн: за 2019 счета на Мосбирже открыли 1,9 млн человек. Санкт-Петербургская биржа, специализирующаяся на торгах акциями иностранных компаний, в прошлом году зафиксировала трехкратный прирост счетов – с 910 000 до 3,06 млн шт.

Что делает Free API Московской биржи в Google Таблицах - 1

Это означает, что на рынок пришло почти 2 млн новичков, которые никогда не занимались трейдингом и не использовали специализированный софт для торгов и учета позиций.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «парсинг» - 3

Как спарсить любой сайт?

TL;DR

Как определить самый авторитетный фильм всех времен и народов

Парсинг — это законно?

Поиск замены депозита в облигациях с учетом того, что с 1 января 2021 года все выплаты облагаются налогами

Парсинг сайта Умного Голосования и новый API на сайте ЦИК

Поиски фундаментальных данных для акций через API Financial Modeling Prep

Web scraping вашего сайта: непрошеные гости и как их встречают

Скрипт выборки российских облигаций по параметрам

Весь Хабр в одной базе

Что делает Free API Московской биржи в Google Таблицах

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «парсинг» - 3

TL;DR

Новости

Актуальные темы

Архив