При поиске свободного имена в зоне .com меня неприятно удивило количество уже занятых, но неиспользуемых доменов. Судя по всему, зарегистрированы все произносимые комбинации букв на всех основных языках мира. И даже непроизносимые короткие комбинации. То ли существует большой рынок доменов, то ли мне просто на ум приходят те же имена, что и всем остальным? Посмотрим на голую статистику…
В настоящее время зарегистрировано 137 миллионов доменных имён .com. По данным Verisign, в «активной зоне» по состоянию на 27.01.2019 года есть 137 756 106 доменов .com. Перед этим я сверил корректность цифры с файлом DNS-зоны.
Из них используется около трети (предприятия, личные веб-сайты, электронная почта и т. д.). Ещё треть, по-видимому, не используется, а последняя треть используется в различных спекулятивных целях.
Вот как используются домены (на выборке из 2188 штук):
Как я получил эти цифры
Я начал краулинг со случайной выборки доменов верхнего уровня из DNS-файла зоны (файл скачан 21.01.2019, а краулинг продолжался до 23.01.2019), пока не достиг 100 000 валидных доменов (не все записи там валидные, некоторые выполняют роль ханипотов для ловли людей, которые нелегально распространяют файлы зоны, а примерно 1% являются нейм-серверами; после их исключения осталось 98 854 валидных доменов).
Для каждого домена я собрал следующее:
- запись WHOIS;
- все DNS-записи для доменов верхнего уровня и поддоменов
www
(DNS-запросомANY
напрямую к нейм-серверам, указанным в WHOIS-записи); - ответы HTTP и HTTPS (код состояния, заголовки и тела) для главной страницы домена верхнего уровня и поддомена
www
(невалидные SSL-сертификаты относили домен в категориюError
); - скриншот главной страницы в Mozilla Firefox 64.0 под Linux.
Сканирование заняло чуть более 48 часов с одного сервера в сингапурском дата-центре. Затем я запустил второй этап краулинга для всех доменов, которые не смогли подключиться по HTTP или HTTPS (в случае временных ошибок). И, наконец, для 2188 доменов из выборки я вручную проверил все ошибки на случай, если краулер вышел по таймауту или события DOM оказались заблокированы в JavaScript.
Затем я написал вспомогательный скрипт для ускорения ручной классификации сайтов на основе их скриншота и содержимого.
Скрипт представляет возможные категории в виде списка кнопок с содержимым по умолчанию
С помощью этого скрипта я выполнил категоризацию сайтов за два дня. Не все сайты пришлось различать вручную: в некоторых случаях категория была очевидной по полю <title>, так что я применил регулярные выражения. В других случаях скриншота оказалось недостаточно, поэтому пришлось вручную открывать домен в браузере для проверки.
Сводная статистика и выводы
Топ-10 регистраторов .com из выборки в 100 000 доменов
- GoDaddy зарегистрировал треть всех доменных имён. Это примерно 45 миллионов доменов. Из них на каждом третьем парковочные страницы. Иными словами, более 10% всех доменов .com в интернете размещают объявления GoDaddy.
- Хотя в выборке 1851 регистратор, они управляются небольшим числом операторов. Например, только DropCatch.com контролирует более тысячи регистраторов: DropCatch.com 1000 LLC, DropCatch.com 1001 LLC, DropCatch.com 1002 и так далее; аналогичные схемы с номерами используют и другие регистраторы, но у некоторых не столь очевидные схемы.
- За последний год зарегистрировано 25% доменов.
Возраст доменов из выборки в 100 000 штук (в годах)
Категории доменов
Список категорий дополнялся по мере работы. Например, я не ожидал большого количества доменов для азартных игр (под алиасами).
Для большинства категорий приводится случайная выборка скриншотов.
Контент (31% или ~43 млн)
Контент — домен с любым уникальным контентом. Это категория по умолчанию, куда я помещал любые сайты в случае сомнений.
Реклама (23% или ~31 млн)
Обратите внимание, что половина доменов в этой категории — страницы паркинга GoDaddy, на которых GoDaddy размещает объявления Google по ключевым словам, связанным с доменным именем.
Нет веб-сервера (11% или ~16 млн)
Если мне не удалось подключиться или получить валидный ответ по порту 80 или 443 для домена верхнего уровня или субдомена www, при этом у домена нет MX-записи, я помещал его в эту категорию. Некоторые из этих доменов, вероятно, используются как-то иначе, например, как FTP или игровые сервера, но мне кажется, таких меньшинство. Ещё сюда попали любые сайты на IPv6, потому что сервер краулера был настроен только для IPv4.
Пусто (9,2% или ~13 млн)
Пустой домен — тот, для которого веб-сервер отвечает на запросы, но возвращает пустые страницы, ошибки 404 или незаполненные шаблоны (например, установки WordPress по умолчанию).
Разница между пустым и припаркованным доменом заключается в том, что пустой домен предположительно настроен пользователем, но содержимое ещё не добавлено.
На продажу (7,1% или ~9,8 млн)
Многие домены выставляются на продажу через различных брокеров и торговые площадки. Почти половину из них, похоже, продаёт HugeDomains, хотя на их веб-сайте говорится лишь о «более 200 000» доменах, доступных для покупки. Я учитывал только домены от известных площадок или когда контактные данные не включались в состав рекламного объявления, потому что рекламные сети и брокеры часто врут, что представляют владельца домена (вместо этого я классифицировал все такие домены как объявления).
Ошибка (5,7% или ~7,9 млн)
Если домен возвращал ошибку любого типа, будь то ошибка HTTP или ошибка на странице, я относил его к этой категории.
Обратите внимание, что сюда могли случайно попасть некоторые приватные домены, если они использовали обычную аутентификацию, поскольку я не отличал 403 Forbidden (из-за отсутствия базовых учётных данных для аутентификации) от других ошибок.
Запаркован (4,8% или ~6,5 млн)
Запаркованные домены отображают страницу регистратора или сообщают, что домен ещё не настроен. Чтобы попасть в эту категорию, домен должен выдавать страницу без внешней рекламы. Он может рекламировать собственные услуги, но не может размещать объявления из рекламной сети.
Азартные игры (3,0% или ~4 млн)
Почти все сайты этой категории на китайском языке и работают под алиасами: часто это короткие строки цифр или согласных (например, 17770012 или tdwhtr). Они следуют общим шаблонам и содержат похожие изображения, часто с автоматически генерируемыми логотипами. Я предполагаю, что их цель — привлечь людей на удачу.
Почта (2,6% или ~3,5 млн)
Если домен не попадал ни в какую категорию, а его MX-записи в DNS (для email), я относил его в категорию «Почта». Не проверял, работает ли почтовый сервер или доставка. Вполне возможно, что многие из этих доменов не используются для электронной почты.
Редирект (1,1% или ~1,6 млн)
Сюда отнесены «домены тщеславия», которые отсылают на страницы Facebook, альтернативные названия компаний и т. д.
Приватный (0,64% или ~0,9 млн)
Это сайты, на которых никакой контент не доступен без авторизации (или, в некоторых случаях, регистрации).
Порно (0,59% или ~0,8 млн)
Как и игорные сайты, многие порносайты работает под разными алиасами. Веб-сайты преимущественно на китайском языке, и домены следуют аналогичным шаблонам именования. Поскольку многие сайты отображают порнографический материал напрямую (без предупреждения), я не делал скриншоты.
Автор: m1rko