Рубрика «скрапинг»
Парсинг котировок ценных бумаг в Microsoft Excel и Google Таблицы с любого сайта
2024-10-21 в 0:32, admin, рубрики: Банк России, Мосбиржа, Московская Биржа, парсинг, скрапингБывает, что частные инвесторы не доверяют сервисам для ведения портфеля ценных бумаг и ведут учет своих инвестиций в «Экселе» или «Гугл Таблицах».
Если количество ценных бумаг не так велико, то подобное использование таблиц оправдано:
-
не требуется платить кому-либо за хранение данных;
-
никто не удалит ваш файл, например, за неактивность;
-
отчеты можно сделать такие, как вам нравится.
Взлом YouTube для быстрого скачивания видео
2023-11-06 в 9:00, admin, рубрики: drm, ruvds_статьи, YouTube, yt-dl, yt-dlp, ytdl-sub, альтернативные клиенты, скачивание файлов, скрапингНо главным врагом для этих программ остаются даже не правообладатели, а злобная корпорация Google, которая постоянно вносит изменения в YouTube API, чтобы прекратить злоупотребления сервисом помешать людям скачивать файлы, ведь от этого Google никакой прибыли.
Сами программки — просто технические инструменты для скачивания общедоступного контента, они ничего не воруют и не пиратят. Просто доступ происходит нестандартным способом, который не предусмотрен официально. Посмотрим, как это делается.
Читать полностью »
Возвращаем RSS к жизни
2022-03-18 в 7:28, admin, рубрики: ActivityPub, ActivityStreams, atom, Bloglines, Feedly, google reader, INFOLUST, IT-стандарты, rich-RSS, rss, RSS Proxy, RSS-Bridge, RSSAid, RSSBud, RSSHub, RSSHub-Radar, Telegram RSS, Блог компании ITSumma, генератор фидов, скрапинг, Софт, Социальные сети и сообщества, экспорт RSSRSS-агрегатор NetNewsWire
Мы уже обсуждали, насколько важен и удобен RSS для профессиональной работы с источниками в интернете. Это единственный способ собрать огромный массив данных с тысяч сайтов, соцсетей, блогов, твиттер-аккаунтов, торрент-трекеров и др.
Вся информация накапливается в личном агрегаторе, доступна в удобное время, в том числе офлайн. Никогда ничего не теряется. Это особенно актуально сейчас, в условиях информационной блокады, периодических отключений интернета и угрозы полного шатдауна.
Читать полностью »
DIY-фермы из смартфонов Android снова в строю
2021-11-25 в 16:38, admin, рубрики: 4G прокси, 4G-донглы, Android Studio Emulator, bluestacks, Brightdata, Browserstack, IPv4, LTE, Oxylabs, Packetstream, Proxidize, Sauce Labs, Smartphone Test Farm, virtualbox, Zebrunner, автоматизация браузера, Блог компании М.Видео-Эльдорадо, гаджеты, информационная безопасность, Ростелеком, сканирование портов, скрапинг, смартфоны, сотовая связьМногие задают вопрос, как использовать старые смартфоны. В самом деле, не выбрасывать же на свалку устройство с двумя-четырьмя CPU, гигабайтами оперативки, рабочими чипами NAND, модемом 4G и другой полезной электроникой. И действительно, старые гаджеты вполне могут ещё поработать и принести пользу. Например, на домашней ферме для автоматического тестирования приложений, скрапинга публично доступной информации и др.Читать полностью »
Не защищайте сайт от скрапинга: сопротивление бесполезно
2018-04-12 в 9:29, admin, рубрики: GO2CINEMA, mastercard, recaptcha, vpn, анонимайзеры, блокировка по IP, капча, одноразовая банковская карта, одноразовый email, одноразовый сотовый номер, платежные системы, разработка бота, Разработка веб-сайтов, скрапинг, технологическая война, Управление продуктом, финансы в IT, юзер-агентЗа последнее десятилетие я реализовал много проектов, связанных с агрегацией и анализом контента. Часто агрегация включает в себя снятие данных со сторонних сайтов, то есть скрапинг. Хотя я стараюсь избегать этого термина. Он превратился в некий ярлык, с которым связано много заблуждений. Основное заблуждение в том, что веб-скрапинг можно заблокировать с помощью X, Y, Z.
tl; dr; Нельзя.
С точки зрения бизнеса
На прошлой неделе я встретился с высокопоставленным руководителем из отрасли, в которой развиваю свой бизнес GO2CINEMA. Без сомнения, это один из самых умных и знающих людей в киноиндустрии.
Бизнес-модель GO2CINEMA основана на агрегировании из разных источников информации о расписании сеансов, свободных местах и стоимости билетов, а также выполнении запросов на покупку билетов на этих веб-сайтах от имени пользователя.
Я посоветовался с этим человеком насчёт поиска инвестиций. Он предложил свою помощь и попросил подготовить анализ всех способов блокировки моего текущего бизнеса, включая скрапинг контента (с технической и юридической точек зрения). Я подготовил необходимые документы и поделился с ним перед нашей встречей. Его реакция была примерно такой:
Да, тщательное исследование. Но всё-таки есть способы, чтобы тебя заблокировать. *ухмыляется*
Нет, парень, нет таких способов.
Читать полностью »
Глубинное обучение по особенностям заголовка и содержимого статьи для преодоления кликбейта
2017-03-27 в 13:49, admin, рубрики: BeautifulSoup4, data mining, Facebook, Joblib, open source, pickle, python, StopClickBaits, глубинное обучение, кликбейт, машинное обучение, нейросеть, скрапинг
Облако слов для кликбейта
TL;DR: Я добился точности распознавания кликбейта 99,2% на тестовых данных по особенностям заголовка и контента. Код доступен в репозитории GitHub.
Когда-то в прошлом я написал статью о выявлении кликбейта. Та статья получила хорошие отклики, а также много критики. Некоторые сказали, что нужно учитывать содержимое сайта, другие просили больше примеров из разных источников, а некоторые предложили попробовать методы глубинного обучения.
В этой статье я постараюсь решить эти вопросы и вывести выявление кликбейта на новый уровень.
Читать полностью »
Разработка веб-скрапера для извлечения данных с портала открытых данных России data.gov.ru
2017-03-04 в 11:04, admin, рубрики: .net, C#, web scraping, извлечение данных, Программирование, разработка, скрапинг, метки: извлечение данных, скрапингИногда возникает необходимость получить данные c веб-страниц и сохранить их в структурированном виде.
Инструменты веб-скрапинга (web scraping) разрабатываются для извлечения данных с веб-сайтов. Эти инструменты бывают полезны тем, кто пытается получить данные из Интернета. Веб-скрапинг — это технология, позволяющая получать данные без необходимости открывать множество страниц и заниматься копипастом. Эти инструменты позволяют вручную или автоматически извлекать новые или обновленные данные и сохранять их для последующего использования. Например, с помощью инструментов веб-скрапинга можно извлекать информацию о товарах и ценах из интернет-магазинов.
Читать полностью »
Скрапинг бесконечно прокручивающейся страницы
2016-10-16 в 19:15, admin, рубрики: python, scrapy, Программирование, скрапингСкрапинг бесконечно прокручивающейся страницы
Добро пожаловать в советы по Scrapy от профессионалов! В этом месяце мы поделимся несколькими уловками, чтобы помочь ускорить вашу работу связанную с веб-скрапингом. Как ведущие мэйнтейнеры Scrapy мы сталкиваемся с каждыми препятствием, которое вы можете себе представить. Так что не волнуйтесь — вы в надёжных руках. Не стесняйтесь контактировать с нами в твиттере или фейсбуке с любыми предложениями для будущих статей.
В эру одностраничных приложений и тонн AJAX-запросов на одной странице множество веб-сайтов заменили кнопку навигации "вперёд/назад" на причудливый механизм бесконечной прокрутки страницы. Веб-сайты использующие этот механизм загружают новую сущность каждый раз, когда пользователь достигает конца страницы при вертикальной прокрутке(вспомните Twitter, Facebook, Google Images). Даже несмотря на то, что UX-эксперты утверждают что механизм бесконечной прокрутки предоставляет чрезмерное количество данных для пользователей, мы видим увеличивающееся количество веб-страниц прибегающих к предоставлению бесконечного списка результатов.Читать полностью »