ДЕНЬ 20
Про боксплоты
СЕГОДНЯ:

Попробуем найти название для boxplot и научиться строить этот вид визуализации в Tableau, чтобы не плодить десятки гистограмм и компактно формировать наполнение дашбордов. Маршрут краток, но с вниманием к деталям по сторонам. Строим боксплоты в Tableau в задании дня и изучаем примеры. На закуску, легкий видео-воркшоп и десерты в виде дата-блюд из кулинарных проектов. Красивые Визуализации - на полке в библиотеке, листаем на ночь для хороших снов. Опять бежим легко и неспешно. Гоу!
РАЗБИРАЕМСЯ
Боксплот / Boxplot / Box-and-Whiskers
Что это такое
Диаграмму боксплот используют для быстрой оценки данных. Она также как и гистограмма показывает распределение значений в выборке.
Основное преимущество диаграммы боксплот в том, что она компактно и наглядно показывает основные статистические показатели:
  • Медиану (50% квартиль) - это линия по середине прямоугольника
  • Верхний и нижний квартили (25% и 75%) - верхняя и нижняя граница прямоугольника
  • Наблюдаемые минимумы и максимумы
  • А также выбросы в данных, в виде отдельных точек

Благодаря своей компактности, диаграмма позволяет сравнивать распределения значений по разным выборкам между собой, располагая их рядом друг с другом. Внутри каждого боксплота могут быть тысячи значений, но они все спрячутся в небольшом и понятном "ящике с усами", внешний вид которого сразу скажет о том, какие данные он содержит.

Диаграмма имеет несколько названий как в английском, так и в русском языке: boxplot, box-and-whiskers diagram, диаграмма размаха, ящик с усами, боксплот. Все вышеперечисленные варианты названий будут верны.
Боксплот, как и гистограмма, показывает распределение значений. Ниже показано сопоставление боксплота с графиком плотности распределения. Все основные показатели находятся на тех же отметках.
График плотности на примере смещен влево - вертикальной линией отмечена медиана по этой выборке. Это значит что в левой части распределения, значения больше по величине, чем в правой. Боксплот это подтверждает, повторяя те же характеристики выборки, но немного в другой форме.
Как построить
1. Добавьте нужные категории в Columns
2. Добавьте нужную меру в Rows
3. Откройте меню Show Me и выберите опцию бокслпот

Вы также можете поменять настройки внешнего вида, через меню форматирования боксплота.

Подробнее тут →
Примеры
Ниже также хороший пример сравнения компактных боксплотов по профессиям вымышленного штата Калисота в США. На визуализации, каждый боксплот - это отдельная категория, данные по отдельной профессии. По оси Y - средняя годовая зарплата сотрудников каждой профессии.

Благодаря нескольким боксплотам, мы можно быстро увидеть минимумы и максимумы, заметить, что медсестры получают меньше всего. При этом у них не практикуется повышение заработной платы - высота их боксплота небольшая, т.е. разница между минимальным и максимальным заработком не велика. У дантистов наоборот - "основа" боксплота, т.е. основная коробка, достаточно высокая, и нижний усик боксплота в целом находится гораздо выше, чем у остальных. Примерно так должен проходить анализ боксплотов со стороны.
ПРАКТИКУЕМСЯ
Сегодня рассмотрим новые данные: сведения о зарплатах в гос. учреждениях и организациях публичного сектора провинции Онтарио (Канада) за 2007 и 2017 года. Исследуем изменения средней зарплаты по секторам с помощью боксплотов.
Датасет
Зарплаты работников публичного сектора за 2007 и 2017 года.

Скачать датасет
Задание
1. Построить график с горизонтальными боксплотами по секторам и годам (2007 и 2017)
2. При помощи графиков исследовать данные: как изменились средние зарплаты по секторам.
3. Разместите решение на дашборде.

Скачать задание в виде книжки Tableau
Решение задания предыдущего дня
И Пуаро всецело сосредоточился на том, как бы уберечь от супа свои длинные усы.

// Агата Кристи
ВДОХНОВЕНИЕ
Полезные ссылки по теме
Дневной микс датажурналистики, набора правильных чартов и поиска идей в междустрочье бложков конкурентов
Видео
Легкий вводный воркшоп по визуализации данных от Harvard Innovation Lab
Визуализация данных для непрограммистов
Harvard i-lab
МАТЕРИАЛЫ
Книги
Сегодня в библиотеке для ознакомления экземпляр с совсем не хитрым названием. Смотрим
Прекрасные визуализации
... листать медлено
Учимся на классических примерах от визуализации перелетов до текстовых облаков и карт метро.
Итоги этапа
Вот и изучили диаграмму с усами. Поняли, что весь датасет можно ужимать в компактный виз. Научились быстро строить этого зверя в Tableau. В конце дня пробежались по визуализациям классических проектов. Ну и нашли что-то новое в журналистике данных. Узнали, что и с помощью еды можно визуализировать данные. Готовимся к новому дню с водными процедурами. Завтра нас ждут водопады данных. Виз виз ура!
~
DATA YOGA CLUB