Прочитав новостьЧитать полностью »
Рубрика «crawling»
Получаем данные результатов выборов с сайта Центризбиркома РФ
2021-09-22 в 14:32, admin, рубрики: captcha, crawling, swift, выборы, деобфускация, открытые данные, Разработка веб-сайтов, реверс-инжиниринг, результаты выборов, Статистика в IT, Центризбирком, ЦИКРекомендательная система на коленке как средство против экзистенциального кризиса
2017-10-17 в 10:45, admin, рубрики: crawling, D3, data mining, machine learning, perl, SVD, анализ текстов, визуализация данных, машинное обучение, Программирование, рекомендательные системыМожет быть отсылка к экзистенциальному кризису звучит слишком громко, но лично для меня проблема поиска и выбора (или выбора и поиска, это имеет значение) как в мире интернета так и в мире простых вещей по мучениям иногда приближается к нему. Выбор фильма на вечер, книги неизвестного автора, сосисок в магазине, нового утюга — дикое количество вариантов. Особенно когда не очень знаешь чего хочешь. Да и когда знаешь, но не можешь попробовать — тоже не праздник — мир разнообразен и все сразу не перепробуешь.
Рекомендательные системы сильно помогают в выборе, но не везде и не всегда так как хотелось бы. Часто не учитывается семантика содержания. Кроме того, во весь рост встает проблема "длинного хвоста", когда рекомендации сосредоточены только на самых популярных позициях, а интересные, но не очень популярные в массе вещи ими не охвачены.
Cвой эксперимент в этом направлении я решил начать с поиска интересных текстов взяв для этого довольно небольшое, но пишущее сообщество авторов, которые еще остались на блоговой платформе Живой Журнал. О том как сделать собственную рекомендательную систему а в результате получить еще и помощник в выборе вина на вечер — под катом.
Читать полностью »
Как мы изгоняли наркоторговцев из рунета
2017-10-15 в 10:16, admin, рубрики: crawling, data mining, statoperator, органы государственной власти, Роскомнадзор, управление проектамиСегодня мне хотелось бы поведать вам историю о том, как мы определяли сайты, торгующие наркотиками в рунете, о масштабах проблемы, об опыте взаимодействия IT компании с Роскомнадзором, депутатами, различными палатами, и почему на это больше не хватает зла.
Читать полностью »
Измеряя Telegram
2017-07-14 в 12:41, admin, рубрики: api, crawling, google chrome extensions, javascript, python, scraping, аналитика, веб-аналитика, интернет-маркетинг, Повышение конверсии, поисковая оптимизация«Пока что возможности по полноценной аналитике каналов
ограничены, в первую очередь, возможностями BotAPI Telegram»
канал «Телеграм-маркетинг», 28 июня 2016
Всё хорошо c каналами в Телеграме, кроме одного — их слишком сложно искать. Ссылки есть практически везде,…
1. С помощью роботов, индексирующих одни каналы в поисках других каналов (1.1, 1.2)
2. В каталогах каналов, пополняемых владельцами каналов (2.1, 2.2)
3. На биржах каналов (3.1, 3.2)
4. В тематических подборках каналов (сюда тоже залетало: 4.1, 4.2)
5. В списках каналов (5.1)
6. В Гугл Доке с каналами о каналах (взял из @raskruti: 6.1)
В мобильном приложении:
7. Скачав приложение с каталогом каналов (под iOS: TeleBots)
В самом Телеграме:
8. На каналах о каналах (8.1)
9. Используя ботов для каналов (9.1)
10. На каналах о каналах о каналах (10.1)
… но процесс поиска остаётся далек от совершенства. Без единого источника данных и нормального аналитического инструментария сложно не просто найти, но даже понять:
1. Насколько каналы распространены в России?
2. Насколько каналы пользуются популярностью и что такое «популярность» в числах?
На такие вопросы нужно отвечать цифрами. В интернете удаётся разыскать только разрозненные данные. Что-то есть на Rusbase (тут), в Ведомостях (тут), в Твиттере (тут), но вся эта информация получена не систематически и сложно верифицируема.
Данная статья посвящена анализу рынка русскоязычных Телеграм-каналов. Проделана работа от сбора обобщенного (не обязательно полного) списка русскоязычных каналов до кроулинга их содержимого и построения метрик. Анализировались только те каналы, которые продвигаются в большом интернете, указывая ссылки на себя. Такое поведение – индикатор каналов, создаваемых для большой аудитории.
Анализ рынка недвижимости методом случайного леса
2017-05-27 в 20:35, admin, рубрики: crawling, data mining, machine learning, python, realty, spyder, машинное обучение, недвижимость и цены, метки: spyderРешалась задача анализа текущих предложений на минском рынке недвижимости с целью поиска недооцененных квартир. В качестве источника информации был выбран сайт риэлтерского агентства "Твоя столица".
Web crawler с использованием Python и Chrome
2017-05-16 в 12:22, admin, рубрики: chrome debuger, chrome devtools, crawling, Google Chrome, phantomjs, python, scraping, selenium, Тестирование веб-сервисовДобрый день, дорогие друзья.
Недавно, сидя на диване, я задумался о том, что хочется мне сделать своего паука, который что-то бы смог качать с веб сайтов. Но качать он должен был бы не простой загрузкой, а как настоящий милый добрый браузер (т.е. JavaScript чтобы исполнялся).
В моей голове всплыли такие интересные штуки, как Selenium, PhantomJS, Splash и всякое подобное. Все эти штуки были мне немного втягость. Вот какие причины я выявил:
- Дело в том, что я хотел бы писать на своем любимом питоне, потому что очень не люблю JavaScript, а это уже означает, что большая часть уже не работала бы (или пришлось их как-то склеивать, что тоже отстой).
- Читать полностью »
Сводные данные о зарегистрированных доменах второго уровня в зоне .RU
2016-01-08 в 10:05, admin, рубрики: crawling, ru tld, активные домены, домены, открытые данные, статистика рунета, метки: ru tld
Целью исследования являлось получение актуального списка всех активных доменов в зоне .RU, к 01.01.2016 зарегистрировано в которой было 5040277 имён. Приняли решение пройтись по каждому имени краулером и проанализировать результат.
Читать полностью »
Сканирование с поддержкой JavaScript/Ajax/DomMutation или SlimerJS + CasperJS + Magic = Profit
2014-02-01 в 15:25, admin, рубрики: automation testing, crawling, security scanner, Веб-разработка, информационная безопасность, тестирование, метки: automation testing, crawling, security scanner Сегодня вновь очень активно развивается тема автоматизации тестирования безопасности веб-приложений с использованием PhantomJS в связке с BurpSuite, ModSecurity, Garmr и т.д. Я не стал исключением, о своём опыте разработки относительно рабочего прототипа сканера с поддержкой Javascript, Ajax и DomMutation я бы и хотел с вами поделится. Может это поможет кому-то разработать собственное решение, которое будет гораздо лучше. Всех заинтересованных прошу под кат:-)
Читать полностью »
Индексация AJAX-сайтов
2012-03-19 в 22:51, admin, рубрики: ajax, crawling, javascript, joosy, open source, ruby on rails, Блог компании Round Lake, метки: ajax, crawling, joosy, open source
Вместе с разработкой Joosy, AJAX внезапно – но ожидаемо, – заполонил все проекты, за которые мы беремся. Парадигма оказалась крайне удачной во всех аспектах, кроме одного. Того самого классического: «AJAX? Индексация? Пфф...». Пока мы делаем интернет-банки, это нас вполне устраивает. Но как не отказывать себе в этом изысканном удовольствии для открытых Web-ресурсов?
А вот как: Google AJAX Crawling – это стандарт Google, который позволяет при формировании AJAX-адресов специальным образом (#!) заставить Google магически запрашивать вместо него другой магический адрес. С которого Google будет ждать HTML-дамп этой страницы, который он весело прожует. Добрые люди уже написали статью про то как это работает. Ну а нам остается научиться эффективно этот дамп формировать. Да так, чтоб без вмешательства в код самого приложения.