ДЕНЬ 15

Про несколько переменных и диаграмму рассеяния
Вчера мы чертили и раскрашивали таблицы.

СЕГОДНЯ

У нас есть прекрасная возможность вспомнить некоторые элементы статистического анализа. Повторим нахождение корреляций и узнаем, как можно представлять зависимости в графическом виде. Научимся строить диаграммы рассеяния в Tableau, а также добавлять показатели в цвет и получать пузырьковую диаграмму. Вдохновляться будем «Правдивым искусством» Альберто Каиро и знакомством с Хансом Рослингом. Ну что, побежали!

РАЗБИРАЕМСЯ

Диаграмма рассеяния / Диаграмма разброса / Скаттерплот

Scatterplot
скаттерплот
Диаграмма рассеяния — это график, на котором точки показывают распределение элементов по двум переменным. Одна переменная отложена по горизонтальной оси X, а другая — по вертикальной оси Y.

Этот график помогает искать корреляцию между переменными. Корреляция — это зависимость, когда изменение одной переменной влияет на изменение другой. Но корреляция не всегда означает причинно-следственную связь. Может быть, есть еще какая-то третья переменная, которая влияет на обе. Чтобы показать предполагаемую корреляцию, можно провести линию тренда через точки.

Как построить скаттерплот

  1. Перетащите одну меру на панель Rows. Tableau агрегирует первый показатель и создает вертикальную ось.
  2. Перетащите другую меру на панель Columns. Tableau агрегирует второй показатель и создает горизонтальную ось. Вы получили скаттерплот всего с одной точкой, так как показываете агрегированные показатели. Чтобы привнести смысла в диаграмму, нужно добавить дискретные категории и увеличить детализацию.
  3. Добавляйте дополнительные категории (синие поля) в карточки слева (Color, Size, Detail), чтобы разделить точки по разным группам и изменить их вид.

Или воспользуйтесь функцией Show Me. Выберите нужные поля на панели данных или преобразуйте уже имеющуюся визуализацию в диаграмму рассеяния с помощью Show Me.
скаттерплот Tableau
Процесс построения скаттерплота
На примере Superstore с добавлением линий тренда.
Пара слов о Details

До этого вы, возможно, не пользовались карточкой Details, но на скаттерплотах ее применение практически обязательно.

Помните про уровень детализации в Tableau? Когда вы добавляете поля на панели Rows/Columns или на карточки Color, Size, Details, Text, Shape, вы делаете диаграмму более подробной. Если вы хотите показать диаграмму рассеяния по всем городам в вашем источнике и не менять цвет или размер точек, добавьте поле Города в Details. А если хотите изменить цвет или размер точек, добавьте Города в Color, Size, Shape. Можно комбинировать разные поля и разные карточки, чтобы создать визуальные эффекты.
СОВЕТ
Хотя самая простая диаграмма рассеяния основана на двух показателях, вы можете отобразить до четырех мер, изменив размер точек и добавив цвет.

Примеры

Обычно диаграмма рассеяния имеет две оси. Но в Tableau вы можете добавить еще категории на панели Rows/Columns, чтобы сделать диаграмму рассеяния-матрицу. Или еще одно поле на карточку Color или Size. Не стесняйтесь экспериментировать — все гениальные открытия были результатом творчества.‍
СОВЕТ
Если вам нужно показать данные с большой точностью, используйте фоновую сетку (Grid). Чтобы ее настроить, правой кнопкой мыши щелкните по графику и выберите Format. На панели Lines вы можете менять параметры сетки (и других линий) для всего графика или для отдельных осей. Пробуйте разные форматы!️

Пузырьковая диаграмма / Bubble Chart

Пузырьковая диаграмма — это диаграмма рассеяния с еще одной мерой, добавленной в ячейку Size.
bubblechart


bubblechart
Помните, что на пузырьковой диаграмме значение и размер кружочков соответствуют их площади, а не диаметру или радиусу.
Диаграмма ниже показывает категории планет.
Есть 3 переменные: вертикальная ось показывает массу планет (чем выше, тем легче), горизонтальная ось показывает температуру (чем левее, тем теплее от звезды), размер кружочков повторяет массу, а цвет — категорию зоны обитания.
В квадрате отмечены планеты, пригодные для жизни человека.
Для массы планет используется логарифмическая шкала.
пузырьковая диаграмма
Если не знаешь с чего ходить — ходи с бубей! Если не знаешь, что делать — садись и анализируй ситуацию. Все как всегда, независимо от века, в котором ты живешь.

// Евгений Красницкий. «Отрок. Внук сотника»

ПРАКТИКУЕМСЯ

О датасете

Сегодня будем работать с The World Happiness Report. Это исследование глобального счастья, в котором 156 стран оцениваются по уровню счастья их жителей. В Докладе о мировом счастье за 2021 год акцент сделан на влиянии COVID-19.
Задание
  1. От чего больше зависит счастье?
  2. Будем ли мы щедрее, если станем счастливее? А если станем богаче?
  3. Стали ли мы счастливее со временем?

Скачать задание в виде книжки Tableau
Решение задания предыдущего дня

ВДОХНОВЕНИЕ

Полезные ссылки по теме

За гуманизм и дело мира успешно борется... Джорджия Лупи (Giorgia Lupi). Смотрим ее замечательные работы. Знакомимся с основными элементами успешной визуализации данных.

Дата Гуманизм

Бесконечно красивые и информационно насыщенные работы Джорджии Лупи

Видео

Вы узнаете, как наш коллега из Индии анализирует и визуализирует движения баскетболистов, чтобы помогать тренерам лучших клубов мира менять стратегии командной игры. Скаттерплоты и пузырьковые диаграммы ему в помощь.
Математика движений игроков в профессиональном баскетболе
Rajiv Maheswaran | TED Talks

Видео

Ханс Рослинг — известный во всем мире шведский врач, ученый и лектор. Он утверждает, что многие видят мир искаженно из-за стереотипов, а не на опираясь на данные. В своих лекциях Ханс показывает разницу между фактом и мнением на примерах.
200 стран, 200 лет, 4 минуты
Ханс Рослинг | BBC
Ханс Рослинг стал известным после выступления на TED в 2006 году. На сайте TED сказано так: «Еще никто не представлял данные таким образом. С натиском и скоростью спортивного комментатора гуру статистики Ханс Рослинг развенчивает мифы о так называемом «развивающемся мире».

МАТЕРИАЛЫ

Книги

Сегодня пролистываем одну из ключевых работ Альберта Каиро «Правдивое искусство». Автор объясняет, как применять основы данных и науки в повседневных ситуациях. Он учит анализировать наборы данных и находить в них интересные истории.
Правдивое искусство
Альберто Каиро
Книга наполнена вдохновляющими примерами визуализации данных из The New York Times, The Wall Street Journal, Estado de São Paulo (Бразилия), Berliner Morgenpost (Германия).

Итоги этапа

Освоили скаттерплоты. Поняли, что Гуманизм может быть на основе данных. Попрактиковались в построении бабл-чартов и вдохновились примерами Альберто Каиро, собранными в «Правдивом Искусстве». День быстрый, но интересный. Готовимся к новому дню и освоению визуализаций с помощью тримапов. До встречи. Виз-виз уррра!

Бежим Марафон в команде!

С менторством и в компании единомышленников.
Нажимая кнопку, вы соглашаетесь на обработку персональных данных. Мы используем их, чтобы оставаться на связи. Подробнее здесь.