Совладелец компании Data Insight Борис Овчинников написал о недостатках выпущенного сегодня исследования «Яндекса». Интернет-компания опубликовала исследование по данным Яндекс.Карт — о российских улицах. Аналитики «Яндекса» изучили более 560 000 улиц в 43 000 населённых пунктов. Суммарная длина этих улиц — более 395 000 километров (чуть больше чем до Луны).
Я всегда с интересом смотрю на те исследования, которые делает и публикует Яндекс. Но увы иногда попадаются примеры из серии "как не надо делать". Например, "как не надо строить выборки и экстраполировать данные"
Например, сегодняшнее исследование про улицы российских городов (ссылку дам в комментарии). В частности, выбрали 1000 самых популярных названий улиц (самые популярные = встречающиеся в наибольшем количестве населенных пунктов), плюс добавили некоторое количество популярных в отдельных регионах - и разобрали эти названия по категориям: в честь людей, в честь городов и т.д. В среднем по России так были разобраны по категориям примерно 60% названий. Но в Москве, где улиц очень много и у большинства уникальные названия (не повторяющиеся больше нигде в России), под такую классификацию попало хорошо если 25% названий
Но авторы исследования на такие мелочи внимание увы не обращают, и однозначно пишут, что чаще всего названия в Москве связаны с городами (3,7%) и с людьми (3,3%). По сути за профиль московских названий выдается статистика по присутствию в Москве типовых общероссийских названий улиц и переулков. Какие типы названий характерны для основной массы московских топонимов (то есть простите годонимов) - уникальных или редко повторяющихся в других городах названий? Насколько топ категорий, посчитанный на небольшой и смещенной выборке, характерен для Москвы в целом?
На эти вопросы в исследовании конечно нет ответа
Я взял случайную выборку из 100 московских названий (без Зеленограда и Новой Москвы и только улицы и переулки, на которых есть жилые дома) - и среди них 18 названий по городам и 26 по людям. А если учесть дореволюционные названия, когда улицы не назывались в честь людей - но их названия естественно вырастали из фамилий местных владельцев, то доля названий "по людям" вырастает до 36%. Есть разница между 3,3% и то ли 26%, то ли 36%? На мой взгляд, есть :)
Каких названий в Москве больше - в честь городов (как говорит Яндекс) или в честь людей (как показывает небольшая случайная выборка)?
А теперь последний вопрос: какая часть читателей исследования Яндекса способна заметить странность в цифрах по Москве, понять причины возникновения этой странности и понять, что приводимые Яндексом цифры имеют очень слабое отношение к реальности?Опубликовано Борисом Овчинниковым 4 октября 2017 г.