Рубрика «crawling»

Получаем данные результатов выборов с сайта Центризбиркома РФ

2021-09-22 в 14:32, admin, рубрики: captcha, crawling, swift, выборы, деобфускация, открытые данные, Разработка веб-сайтов, реверс-инжиниринг, результаты выборов, Статистика в IT, Центризбирком, ЦИК

Прочитав новость Читать полностью »

Как мы изгоняли наркоторговцев из рунета

2017-10-15 в 10:16, admin, рубрики: crawling, data mining, statoperator, органы государственной власти, Роскомнадзор, управление проектами

Сегодня мне хотелось бы поведать вам историю о том, как мы определяли сайты, торгующие наркотиками в рунете, о масштабах проблемы, об опыте взаимодействия IT компании с Роскомнадзором, депутатами, различными палатами, и почему на это больше не хватает зла.
Читать полностью »

Измеряя Telegram

2017-07-14 в 12:41, admin, рубрики: api, crawling, google chrome extensions, javascript, python, scraping, аналитика, веб-аналитика, интернет-маркетинг, Повышение конверсии, поисковая оптимизация

«Пока что возможности по полноценной аналитике каналов
ограничены, в первую очередь, возможностями BotAPI Telegram»
канал «Телеграм-маркетинг», 28 июня 2016

Всё хорошо c каналами в Телеграме, кроме одного — их слишком сложно искать. Ссылки есть практически везде,…

Например:

В интернете:

1. С помощью роботов, индексирующих одни каналы в поисках других каналов (1.1, 1.2)
2. В каталогах каналов, пополняемых владельцами каналов (2.1, 2.2)
3. На биржах каналов (3.1, 3.2)
4. В тематических подборках каналов (сюда тоже залетало: 4.1, 4.2)
5. В списках каналов (5.1)
6. В Гугл Доке с каналами о каналах (взял из @raskruti: 6.1)

В мобильном приложении:

7. Скачав приложение с каталогом каналов (под iOS: TeleBots)

В самом Телеграме:

8. На каналах о каналах (8.1)
9. Используя ботов для каналов (9.1)
10. На каналах о каналах о каналах (10.1)

… но процесс поиска остаётся далек от совершенства. Без единого источника данных и нормального аналитического инструментария сложно не просто найти, но даже понять:
1. Насколько каналы распространены в России?
2. Насколько каналы пользуются популярностью и что такое «популярность» в числах?

На такие вопросы нужно отвечать цифрами. В интернете удаётся разыскать только разрозненные данные. Что-то есть на Rusbase (тут), в Ведомостях (тут), в Твиттере (тут), но вся эта информация получена не систематически и сложно верифицируема.

Данная статья посвящена анализу рынка русскоязычных Телеграм-каналов. Проделана работа от сбора обобщенного (не обязательно полного) списка русскоязычных каналов до кроулинга их содержимого и построения метрик. Анализировались только те каналы, которые продвигаются в большом интернете, указывая ссылки на себя. Такое поведение – индикатор каналов, создаваемых для большой аудитории.

Читать полностью »

Анализ рынка недвижимости методом случайного леса

2017-05-27 в 20:35, admin, рубрики: crawling, data mining, machine learning, python, realty, spyder, машинное обучение, недвижимость и цены, метки: spyder

Решалась задача анализа текущих предложений на минском рынке недвижимости с целью поиска недооцененных квартир. В качестве источника информации был выбран сайт риэлтерского агентства "Твоя столица".

Читать полностью »

Web crawler с использованием Python и Chrome

2017-05-16 в 12:22, admin, рубрики: chrome debuger, chrome devtools, crawling, Google Chrome, phantomjs, python, scraping, selenium, Тестирование веб-сервисов

Добрый день, дорогие друзья.

Недавно, сидя на диване, я задумался о том, что хочется мне сделать своего паука, который что-то бы смог качать с веб сайтов. Но качать он должен был бы не простой загрузкой, а как настоящий милый добрый браузер (т.е. JavaScript чтобы исполнялся).

В моей голове всплыли такие интересные штуки, как Selenium, PhantomJS, Splash и всякое подобное. Все эти штуки были мне немного втягость. Вот какие причины я выявил:

Дело в том, что я хотел бы писать на своем любимом питоне, потому что очень не люблю JavaScript, а это уже означает, что большая часть уже не работала бы (или пришлось их как-то склеивать, что тоже отстой).
Читать полностью »

Сводные данные о зарегистрированных доменах второго уровня в зоне .RU

2016-01-08 в 10:05, admin, рубрики: crawling, ru tld, активные домены, домены, открытые данные, статистика рунета, метки: ru tld

crawljob

Целью исследования являлось получение актуального списка всех активных доменов в зоне .RU, к 01.01.2016 зарегистрировано в которой было 5040277 имён. Приняли решение пройтись по каждому имени краулером и проанализировать результат.
Читать полностью »

Сканирование с поддержкой JavaScript/Ajax/DomMutation или SlimerJS + CasperJS + Magic = Profit

2014-02-01 в 15:25, admin, рубрики: automation testing, crawling, security scanner, Веб-разработка, информационная безопасность, тестирование, метки: automation testing, crawling, security scanner

Сегодня вновь очень активно развивается тема автоматизации тестирования безопасности веб-приложений с использованием PhantomJS в связке с BurpSuite, ModSecurity, Garmr и т.д. Я не стал исключением, о своём опыте разработки относительно рабочего прототипа сканера с поддержкой Javascript, Ajax и DomMutation я бы и хотел с вами поделится. Может это поможет кому-то разработать собственное решение, которое будет гораздо лучше. Всех заинтересованных прошу под кат:-)
Читать полностью »

Индексация AJAX-сайтов

2012-03-19 в 22:51, admin, рубрики: ajax, crawling, javascript, joosy, open source, ruby on rails, Блог компании Round Lake, метки: ajax, crawling, joosy, open source

Индексация AJAX сайтов

Вместе с разработкой Joosy, AJAX внезапно – но ожидаемо, – заполонил все проекты, за которые мы беремся. Парадигма оказалась крайне удачной во всех аспектах, кроме одного. Того самого классического: «AJAX? Индексация? Пфф...». Пока мы делаем интернет-банки, это нас вполне устраивает. Но как не отказывать себе в этом изысканном удовольствии для открытых Web-ресурсов?

А вот как: Google AJAX Crawling – это стандарт Google, который позволяет при формировании AJAX-адресов специальным образом (#!) заставить Google магически запрашивать вместо него другой магический адрес. С которого Google будет ждать HTML-дамп этой страницы, который он весело прожует. Добрые люди уже написали статью про то как это работает. Ну а нам остается научиться эффективно этот дамп формировать. Да так, чтоб без вмешательства в код самого приложения.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «crawling»

Получаем данные результатов выборов с сайта Центризбиркома РФ

Рекомендательная система на коленке как средство против экзистенциального кризиса

Как мы изгоняли наркоторговцев из рунета

Измеряя Telegram

Анализ рынка недвижимости методом случайного леса

Web crawler с использованием Python и Chrome

Сводные данные о зарегистрированных доменах второго уровня в зоне .RU

Сканирование с поддержкой JavaScript/Ajax/DomMutation или SlimerJS + CasperJS + Magic = Profit

Индексация AJAX-сайтов