Chart Wars: Диаграммы наносят ответный удар

в 1:02, , рубрики: data mining, how to lie with statistic, Tufte, визуализация данных, Учебный процесс в IT

Что может быть хуже круговой диаграммы?
Две круговые диаграммы! Эдвард Тафти

Все мы уже не раз видели, что может пойти не так с визуализацией данных. Сегодня обсудим несколько важных принципов, лежащих в основе качественной графики, и что гораздо интересней, узнаем, что произойдет, если эти правила НЕ соблюдать.

Chart Wars: Диаграммы наносят ответный удар - 1

Структура статьи

  1. Восприятие измерений
  2. Соотношение чернила-данные
  3. Фактор обмана
  4. Парадокс Симпсона
  5. Джон Сноу всё-таки что-то знает — пример классики визуализации
  6. Что еще посмотреть-почитать
  7. Круговая диаграмма в реальной жизни

(*осторожно трафик*)

Восприятие измерений

Чаще всего нам необходимо изображать линейные величины на графике т.е. зависимость одной переменной Х, например время в часах, от второй Y, например пройденный путь в км. Пусть 1 см на графике равен 1 часу по Х и 5 км по Y. Вася едет на велосипеде 10 км в час и ехал в течение 4 часов. Значит, изменение по Х составит 4 см, а по Y 40/5=8 см.

Что в подобной ситуации может пойти не так?

Площадь и трехмерные эффекты

Вся хитрость в деталях: представим, что некоторой реальной измеряемой величине X1 соответствует точка Y1 на графике, а X2 точка Y2, а значит, что при изменении данных от X1 до X2 разница на графике составит Y2 — Y1. Но не тут-то было — на круговой диаграмме это будет соответствовать разнице площадей, а если добавить трехмерные эффекты, то и объемов.

Примеры в студию! Представим, что доля Андроида выросла на несколько процентов. Тогда на графике ниже доля вырастет пропорционально объему, а не линейной шкале. Чем это грозит? Прежде всего, это ведет к абсолютному непониманию читателем рассматриваемых величин и невозможности корректного сравнения величин. Кто сможет угадать какая доля у Blackberry на этом графике и насколько она меньше доли iPhone?

Chart Wars: Диаграммы наносят ответный удар - 2

Восприятие объема

Спасут ли ситуацию явно прописанные на графике величины? На самом деле нет. Рассмотрим простой пример, где все величины явно прописаны. На графике ниже зеленая часть явно в два раза больше желтой, но на самом деле это не так.

Chart Wars: Диаграммы наносят ответный удар - 3
(кликабельно; взято отсюда)

Тортиковая вечеринка

Вот тут внимательный читатель может заявить, что мы рассматривали исключительно патологические примеры с трехмерными эффектами и если использовать стандартные круговые диаграммы, то всё пройдет как по маслу. Внимание вопрос, насколько точно можно сравнить данные между категориями по данному графику?

Chart Wars: Диаграммы наносят ответный удар - 4
(кликабельно)

Соотношение чернила-данные

Теперь перейдем от вопроса восприятия данных на графике к информативности. Вопрос: какое количество информации передает этот график?

Chart Wars: Диаграммы наносят ответный удар - 5
Ответ: 4(!) числа, причем коричневая часть зрительно выглядит заметно меньше зеленой из-за трехмерной перспективы.

Можем ли мы улучшить данную круговую диаграмму? Для этого зададим несколько важных вопросов:

  • Действительно ли здесь нужен цвет? Если да, то какую функцию он выполняет?
  • Какую функциональную роль играет здесь трехмерный эффект?
  • Легко ли можно сравнивать числа между собой, стоит ли изменить тип графика?
  • Облегчает ли фон чтение и восприятие графика?
  • Не дублируют ли функциональные элементы друг друга, например текстовые метки и использование цвета?

Если мы ответим на эти вопросы, то можем получить что-то схожее с вот таким графиком:
Chart Wars: Диаграммы наносят ответный удар - 6
Минималистичный пример, не отвлекающий читателя от главного.

На данную тему всячески рекомендую курс на Udacity: Data Visualization and D3.js

В частности по этому вопросу, у них есть отличное видео:

После просмотра видео сравните эту визуализацию
Chart Wars: Диаграммы наносят ответный удар - 7

и эту
Chart Wars: Диаграммы наносят ответный удар - 8
(хотя некоторые с этим примером в качестве «неправильной визуализации» не согласны, и дебаты не скончаются по сей день).

Фактор обмана

Если графики с площадями и объемами не убедили, то настала пора написать убедительную формулу.

Chart Wars: Диаграммы наносят ответный удар - 9
На графике выше количество миль на галлон топлива изменилось c 18 до 27.5, то есть на 53%, рост на графике составил 783%, теперь давайте рассчитаем фактор обмана.

Chart Wars: Диаграммы наносят ответный удар - 10

Подставив числа, получим 783/53 = 14.8, мы преувеличили рост с помощью графики практически в 15(!) раз.

Подробнее и примерами можно прочитать тут.

Упражнение со звёздочкой: посчитать фактор обмана с учетом того, график показывает объем вместо линейных размеров. Мне кажется или здесь действительно 11 невероятно больше 9, а 6 и 11 вообще не сравнимы?

Chart Wars: Диаграммы наносят ответный удар - 11
(Взято отсюда)

Парадокс Симпсона

Подвох может находиться и там, где его меньше всего ждут. Визуализируя данные, мы часто разбиваем их на категории или группы и один из классических сюрпризов, который при этом может возникнуть и называется парадоксом Симпсона.
Chart Wars: Диаграммы наносят ответный удар - 12

Рассмотрим в качестве примера Гомера, который решил поправить своё здоровье и начал бегать по стадиону и записывать результаты тренировки по месяцам. Первые четыре месяца он стабильно наращивал на нагрузку, но на пятый месяц нашел коробку с пончиками и прекратил тренировки. Через два месяца совесть и лишний вес снова подтолкнули его начать тренировки и вновь каждый месяц он наращивал нагрузку.

Получается, и в первый период, и во второй нагрузка росла, а в среднем нагрузка стабильно падала.

Chart Wars: Диаграммы наносят ответный удар - 13

Парадокс заключается в том, что разбив данные на группы, можно обратить негативный тренд в положительный и наоборот.
Графики и примеры вместе с детальным объяснением парадокса можно также найти здесь (рекомендую).

Джон Сноу всё-таки что-то знает — пример классики визуализации

Джон Сноу не только охранял Стену, но и спас жителей Лондона от холеры, используя визуализацию. Он нанес каждого погибшего на карту и заметил, что вокруг водяной колонки на Broad Stree кластер смертей. Тогда-то он и выдвинул гипотезу о том, что источник холеры в зараженной воде колонки. И оказался прав.

Chart Wars: Диаграммы наносят ответный удар - 14
(кликабельно)

Одним из интересных выводов стало то, что пивоварня была самым безопасным местом (ноль смертей), использованная вода и сам процесс приготовления делали пиво гораздо более безопасным к употреблению, чем обычную воду из колонки (правда только в середине 19го века в Лондоне).

Подробная история с интерактивной картой здесь.

Что еще посмотреть-почитать

Видео о росте роли визуализации в политической жизни.

Chart Wars: Диаграммы наносят ответный удар - 15
(видео перекинет на другую страницу; можно также кликнуть сюда)

Полезные книги (must read, сейчас наслаждаюсь прочтением первой)

Real life pie chart

<юмор> Круговая диаграмма в реальной жизни </юмор>

Chart Wars: Диаграммы наносят ответный удар - 16

С пятницей!

Автор: varagian

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js