Рубрика «парсинг»

Блуждая по бескрайним просторам интернета, я наткнулся на любопытное исследование под названием Temporal dynamics of goal scoring in soccer. Авторы статьи, вооружившись данными о 3 433 футбольных матчах из 21 лиги, попытались ответить на вопрос: подчиняются ли голы в футболе строгим закономерностям или же являются результатом чистого случая?

Читать полностью »

Когда-то я пытался завести ютуб канал и стать знаменитым, но оказалось что для этого нужна харизма, чувство юмора и четкая дикция, а не то что у меня.

Но все же мне удалось нафармить 3,5к подписчиков мучительными душными видео, которые совершенно не понятно зачем терпели мои зрители

Теперь, я принял себя и нашел более подходящую площадку для своей духоты, поэтому представляю вашему вниманию несколько графиков про видео хостинг ютуб, который я парсил в течение 4 месяцев

Датасет

Привет! Меня зовут Илья, и я увлекаюсь сбором и анализом открытых данных из интернета. Это позволяет мне иногда находить действительно интересные вещи.

Сегодня я подготовил для вас подборку из семи любопытных рейтингов, связанных с онлайн-курсами в России и за рубежом.

Важное уточнение

У меня нет профильного образования, поэтому, если заметите какие-то ошибки в интерпретации данных или выводах, буду благодарен за ваши замечания в комментариях.

Немного информации

Как я сделал PR на 14К строк в проект YDB будучи студентом - 1

В этой статье я хотел бы рассказать о задаче, решение которой легло в основу моей дипломной работы. В ноябре 2023 года я был студентом Физтеха — учился на базовой кафедре Яндекса, программа обучения которой реализуется совместно с ШАД. Задача заключалась в переводе парсера языка запросов YQL (диалект SQL для Читать полностью »

GUI для исследования внутренностей PDF - 1

Как известно, PDF-файлы часто используются как контейнеры для вирусов и эксплоитов. Они применяются в фишинговых кампаниях и социальной инженерии, когда жертве присылают для просмотра «безобидный документ» в формате PDF, а тот запускает на исполнение вредоносный код через незакрытую уязвимость в браузере или PDF-ридере.

Перед открытием документа всегда желательно посмотреть, что находится внутри. Для этих целей существуют парсеры, которые разбирают PDF. Например, Interactive PDF Analysis (IPA, на скриншоте вверху) и другие.

Даже если перед нами чистый PDF, иногда нужно изучить содержимое и извлечь полезные ресурсы в нетронутом виде — например, оригинальные изображения в JPG.
Читать полностью »

Что может быть привлекательнее депозита в Сбербанке под 21%? Видимо только депозит в ВТБ под 24%. А еще можно рассмотреть облигации с доходностью до 40% и ежемесячной выплатой купонов. Посмотрим, что они предлагают и какие существуют риски.

В статье будем искать варианты при помощи скрипта поиска ликвидных облигаций, который выложен на GitHub.

Читать полностью »

Бывает, что частные инвесторы не доверяют сервисам для ведения портфеля ценных бумаг и ведут учет своих инвестиций в «Экселе» или «Гугл Таблицах».

Если количество ценных бумаг не так велико, то подобное использование таблиц оправдано:

  • не требуется платить кому-либо за хранение данных;

  • никто не удалит ваш файл, например, за неактивность;

  • отчеты можно сделать такие, как вам нравится.

Читать полностью »

Четыре года назад я написал систему поиска поиска недооцененных американских акций, используя данные Яху Финанс, ведь на американском рынке торгуется больше 10 тысяч бумаг, из которых около 4 тысяч бумаг имеют рекомендации аналитиков о прогнозируемой цене. Это большие цифры, с которыми сложно работать. Но что по России?

Я вялотекуще пытался найти систему которая бы также отдавала рекомендации аналитиков по российским компаниям, пока недавно не нашёл такой API. Вот например какие рекомендации Читать полностью »

В этом кейсе вы узнаете, как IT-рекрутеры могут автоматизировать поиск кандидатов по никнеймам в Telegram и перевести его из ручного процесса в почти промышленный.

Мы будем использовать информацию об участниках чата в Telegram в качестве базы никнеймов, но вы можете применить любой другой альтернативный источник данных и начинать с 4-го шага.

Шаг 1. Регистрация аккаунта в Telegram через виртуальный номер

Читать полностью »

Уже полгода хожу в фитнес клуб World Class или как пишут в самом клубе - являюсь его резидентом. Выбрал этот клуб в основном из-за наличия в нём бассейна. Потом заинтересовался групповыми программами и частенько хожу на сайкл тренировки - это тренировки на специальном велотренажере.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js