Главная

Рубрика «robots.txt»

«Атака ботов»: как ИИ-краулеры ддосят онлайн-проекты

2025-02-02 в 14:50, admin, рубрики: ddos, MWS, robots.txt, ИИ, краулер, поисковый робот

DDoS-атаки становятся масштабнее и опаснее. О «самом-самом» расскажем 13 февраля, а сегодня поговорим о новом явлении. В последнее время некоторые боты-сборщики данных для обучения LLM, «используют содержимое веб-сайтов, но делают это без уважения».

Читать полностью »

PVS-Studio хотел, но не смог найти баги в robots.txt

2019-07-11 в 14:01, admin, рубрики: Google, open source, pvs-studio, robots.txt, static code analysis, Блог компании PVS-Studio

На днях Google опубликовал исходники парсера robots.txt. Почему бы не прогнать уже проверенный всеми вдоль и поперек проект через PVS-Studio и, возможно, найти ошибку. Сказано — сделано. Жаль, что ничего значимого найти не удалось. Ну что ж, тогда пусть это будет просто повод похвалить разработчиков Google.

robots.txt – индексный файл, который содержит правила для поисковых роботов. Он действует для протоколов https, http и FTP. Google сделала доступным для всех свой парсер файла robots.txt. Подробнее об этой новости можно почитать здесь: Google открывает исходный код парсера robots.txt
Читать полностью »

PVS-Studio wanted but couldn’t find bugs in robots.txt

2019-07-11 в 13:52, admin, рубрики: Google, open source, pvs-studio, robots.txt, static code analysis, Блог компании PVS-Studio

The other day Google revealed the sources of the robots.txt parser. Why not give a run for the already far and wide checked project using PVS-Studio and possibly find a bug. So said so done. But I wish we could find something meaningful. Well, then let it be just a reason to give full marks for Google developers.

robots.txt — is an index file that contains rules for search robots. It works for https, http and FTP protocols. Google made the parser of the robots.txt file available for everyone. Read more about this news here: Google opens the source code of the robots.txt parser
Читать полностью »

Google открывает исходный код парсера robots.txt

2019-07-01 в 17:48, admin, рубрики: crawler, Google, IT-стандарты, open source, robots.txt, поисковые технологии

Сегодня компания Google анонсировала черновик RFC стандарта Robots Exclusion Protocol (REP), попутно сделав доступным свой парсер файла robots.txt под лицензией Apache License 2.0. До сегодняшнего дня какого-либо официального стандарта для Robots Exclusion Protocol (REP) и robots.txt не существовало (ближайшим к нему было вот это), что позволяло разработчикам и пользователям интерпретировать его по-своему. Инициатива компании направлена на то, чтобы уменьшить различия между реализациями.

Черновик нового стандарта можно просмотреть на сайте IETF, а репозиторий доступен на Github по ссылке https://github.com/google/robotstxt.

Парсер представляет собой исходный код, который Google используют в составе своих продакшн-систем (за исключением мелких правок — вроде убранных заголовочных файлов, используемых только внутри компании) — парсинг файлов robots.txt осуществляется именно так, как это делает Googlebot (в том числе то, как он обращается с Юникод-символами в паттернах). Парсер написан на С++ и по сути состоит из двух файлов — вам потребуется компилятор, совместимый с C++11, хотя код библиотеки восходит к 90-ым, и вы встретите в ней «сырые» указатели и strbrk. Для того, чтобы его собрать, рекомендуется использовать Bazel (поддержка CMake планируется в ближайшем будущем).
Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Обсуждаемое

Рекомендуем

Рубрика «robots.txt»

«Атака ботов»: как ИИ-краулеры ддосят онлайн-проекты

PVS-Studio хотел, но не смог найти баги в robots.txt

PVS-Studio wanted but couldn’t find bugs in robots.txt

Google открывает исходный код парсера robots.txt

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «robots.txt»

«Атака ботов»: как ИИ-краулеры ддосят онлайн-проекты

﻿PVS-Studio хотел, но не смог найти баги в robots.txt

﻿PVS-Studio wanted but couldn’t find bugs in robots.txt

Google открывает исходный код парсера robots.txt

Новости

Актуальные темы

Архив

PVS-Studio хотел, но не смог найти баги в robots.txt

PVS-Studio wanted but couldn’t find bugs in robots.txt