Рубрика «краулинг»

Руководство по веб-скрейпингу на Python - 1


В этом туториале мы создадим надёжные веб-краулеры с использованием таких библиотек, как BeautifulSoup, изучим техники, позволяющие преодолевать реальные трудности при скрейпинге, а также представим рекомендации по крупномасштабному скрейпингу.

Вы получите навыки для скрейпинга сложных сайтов и решения проблем, которые касаются ограничений частоты запросов, блокировок и генерируемых при помощи JavaScript страниц.Читать полностью »

WhatsApp, Telegram и Signal выдают телефонные номера всех пользователей - 1

Синхронизация мессенджера с контактами из адресной книги (contact discovery) — очень удобная функция. Когда новый человек ставит приложение, то в него автоматически добавляется большой список контактов, а если кто-то впервые установил мессенджер, то уведомление об этом приходит всем его знакомым. К сожалению, данную функцию могут использовать государственные службы и другие злоумышленники для выслеживания людей. Существующие методы защиты пока не очень эффективны.

Масштаб утечек оценили специалисты из Вюрцбургского университета и Дармштадтского технического университета (Германия), который провели самое масштабное в истории исследование с краулингом телефонных номеров в трёх мессенджерах: WhatsApp, Telegram и Signal. Результаты неутешительные: WhatsApp и Signal сливают номера пользователей в большом масштабе.

Хотя у Telegram очень жёсткие лимиты на количество запросов к API, он тоже не полностью защищён.
Читать полностью »

В руках нашей команды из CleverDATA оказался уникальный материал – около 100 тыс. страниц англоязычных блогов, посвященных бьюти-сфере. Этот корпус к нам попал благодаря желанию одной косметической корпорации узнать законы, по которым «работает» блогосфера. Компания хотела эффективнее взаимодействовать с бьюти-блогерами – получать больший рекламный эффект, отдавая свои продукты в добрые руки лояльных авторов.
 
О чем говорят женщины? (Text mining of beauty blogs) - 1
Источник
 Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js