ДЕНЬ 25
Про джиттерчарт и график-гантели
СЕГОДНЯ

Кроме бега, подключаем тягание гантелек. Сегодня изучаем Dumbbell Charts и смотрим как изящно визуализировать разницу между двумя показателями. Вторым визом дня будет Jitter Charts и с ним мы научимся повышать наглядность наших диаграмм. Построение сначала по инструкции, а потом самостоятельно под задачу. Вдохновляемся примерами столетней давности - на полке книга Вилларда Бринтона. Полистав ее, можно сделать вывод что за сотню лет, принципы графического представления информации не сильно изменились. Но нюансы в деталях. Продолжаем бег. Ну что, начали? Раз, два...

РАЗБИРАЕМСЯ
График-гантели / Dumbbell Charts
Что это такое
График-гантели - альтернативная визуализация для показа изменения между двумя точками данных.
Название графика происходит от его внешнего вида, который напоминает гантели. Визуализацию в англоязычном сообществе также называют DNA chart - ДНК график, который похож на структуру молекулы ДНК, если построен в горизонтальном виде.

График чем то похож на слоупграф, так как тот тоже показывает изменение во времени между двумя точками данных, которые соединены линией. Однако, в слоупграфе мы смотрим на угол наклона между двумя точками, а в гантелях - на длину линии между точками.
График-гантели - на самом деле комбинация из двух графиков: на одной оси данные показываются точками, а на другой линией. После объединения двух графиков в один получаются гантели.
Концепция графика-гантели

Slemma.com
Как построить
1. Добавьте дискретную категорию, по которой вы хотите показать данные, в Rows
2. Добавьте меру в Columns
3. Добавьте поле с датой на уровне YEAR(Date) в Цвет (Color)
4. Добавьте поле с датой в Фильтры и отфильтруйте два нужных года
После добавления в фильтры, выберите Years и нажмите Next >. Затем выберите два значения
5. На области с карточками слева, откройте выпадающий выбор способа визуализации, который поставлен на Automatic и выберите Circle - кружки
6. Добавьте ту же меру еще раз в Columns, чтобы сделать диаграмму с двумя осями
7. Переключитесь на вторую вкладку в области карточек слева, чтобы редактировать второй показатель. Уберите все поля, которые туда добавились автоматически
8. Там же, поменяйте тип визуализации на линию Line
9. Там же, добавьте поле с датой YEAR(Date) в Path (в Marks)
10. Нажмите правой кнопкой на вторую меру в Columns и выберите Dual Axis. Сделайте синхронизацию осей
11. Поменяйте местами две меры в Columns. Просто перетащите левую меру направо - так вы поменяете порядок "слоев", чтобы кружочки (из шага 2) оказались над линией (из шага 6).
12. Примените форматирование: размер линии, цвета.

Подробнее тут →
Вид сборки графика от Райана Слипера
Примеры
Гантели располагают как вертикально, так и горизонтально: выбор остается за вами. При большом количестве категорий с длинными названиями, лучше располагать их вертикальным списком для удобства чтения. Эта рекомендация распространяется на любые визуализации.

Кружочки могут быть окрашены в разный цвет, или даже содержать картинки.
Джиттерчарт / Jitter Charts
Что это такое
Джиттеринг это техника визуализации данных, которая используется для усиления разброса между точками при их наложении друг на друга. Добавляя дополнительное пространство между точками, вы повышаете наглядность диаграммы, и можете успешно показать то, что скрыто.

В Tableau по умолчанию нет такого вида графика. Однако, благодаря активному сообществу экспертов визуализации данных, было придумано изящное решение для создания джиттерплотов в Tableau. Джиттерплоты были описаны по крайней мере тремя Tableau Zen Masters: Steve Wexler, Mark Jackson, и Jeffrey Shaffer.
Все знают про существование солнечного и лунного затмения... Но как это связано с визуализацией данных?
Иногда, при визуализации большого количества точек, происходит их абсолютное наложение друг на друга без отклонений влево и вправо. При этом, вы видите только оду, "самую верхнюю" точку, и не знаете как много данных может находиться под ней. Все, что видите - это лишь верхний слой. Эту ситуацию можно назвать 'mark-eclipse' или затмение точек (а может "точечное затмение"?).
Проблема "затмения" в визуализации данных

DoingData
Да, может помочь добавление прозрачности в цвете точек, как на примерах выше. Но намного понятнее не станет - какой объем данных скрывается за этими точками не ясно.
Вы можете оставить все как есть (не надо), или попробовать подобрать другой способ визуализации. В том числе, использовать джиттер.
Проблема "затмения" в визуализации данных

DoingData
Такое искусственное распределение точек по одной из осей достигается при помощи функции RANDOM, которая возвращает случайное число в диапазоне от 0 до 1. При этом, вы можете контролировать разброс точек в зависимости от целей виза. Например, если поделить результат от функции RANDOM на 3, то вы получите разброс от 0 до 0.33. Разброс зависит от конкретного кейса и количества категорий на вашей визуализации.
Как построить
1. Создайте вычисляемое поле "Случайный разброс" с формулой: RANDOM( )
2. Если необходимо поделите вычисление на подходящее вам число. Например, если хотите сделать разбор в два раза меньше, то поделите на 2. Если в три раза меньше - то на 3.
Формула может выглядеть вот так: RANDOM( ) / 3
3. Добавьте нужную меру в Rows
4. В выпадающем меню слева поменяйте тип визуализации с Automatic на кружки - Circle
5. Добавьте поле, которое детализирует показатель, например ID заказа, в Details на области карточек слева
6. Поставьте прозрачность в меню настройки цвета Color на на 70%
7. Добавьте вычисление "Случайный разброс"
8. Нажмите правой кнопкой на поле "Случайный разброс" и поставьте галочки рядом с опцией Dimension

Подробнее тут →
Примеры
При большом количестве точек, обязательно добавляйте прозрачность, а также поддерживающий цвет.
ПРАКТИКУЕМСЯ
Сегодня возвращаемся к практике и тренируемся разбираться в вине.
Датасет
Для джиттерчартов мы подготовили новый датасет. Рейтинг вин производства нескольких стран, в ценовом диапазоне за бутылку $0 - $300.

Скачать датасет
Задание
1. Построить джиттерчарт. Используйте формулу в колонках RANDOM(). Предусмотрите возможность выбора страны и расчетом средней цены по каждой оценке вина. Цвета - дегустаторы.
2. Разместите решение на дашборде.

Скачать задание в виде книжки Tableau
Я тебе гантельки куплю — силу в руки загонять.

Мария Халфина
ВДОХНОВЕНИЕ
Полезные ссылки по теме
Темы понятные - действуем по инструкции
... коротко и по делу
... просто техника
... просто техника
... просто техника
МАТЕРИАЛЫ
Книги
Чтобы понять, что многие принципы графического представления информации не изменились с 1914 года, ставим на полку это замечательное издание
Графическое изображение фактов
Бринтон
Кому требуется на языке оригинала - пишите в чатик.

Виллард Бринтон (Willard Brinton) – американский инженер, пионер в области визуализации данных. Его книга представляет собой руководство для тех, чья работа в конце 19 – начале 20 веков была связана с изготовлением чертежей для отчетов, для иллюстрирования журналов и рекламных целей. Книга облегчала взаимодействие между исполнителем и заказчиком, служа сборником примеров диаграмм, графиков и иллюстраций. Материалом для книги послужили авторские лекции Бринтона, прочитанные в том числе в Гарвардском университете.
Итоги этапа
Размялись на гантельках, randomно раскидали джиттер чарт, вдохновились винтажной работой Бринтона. Немало для одного дня. Решаем задачки и готовимся к следующему дню, будем в нем строить бампчарт. До нового дня. Виз виз сервиз!
~
DATA YOGA CLUB