ДЕНЬ 13
Про несколько переменных и диаграмму рассеяния
СЕГОДНЯ

Прекрасная возможность вспомнить некоторые элементы статистического анализа. Повторим нахождение корреляций и посмотрим как можно представлять зависимости в графическом виде. Научимся строить диаграммы рассеяния в Tableau, а также добавлять показатели в цвет и получать пузырьковую диаграмму. Вдохновляться будем "Правдивым искусством" Альберто Каиро и применением технологий для изменения стратегий в баскетболе. Ну что, побежали!

РАЗБИРАЕМСЯ
Диаграмма рассеяния /Диаграмма разброса / Скаттерплот / Scatterplot
Что это такое
Диаграмма рассеяния показывает распределение элементов множества в плоскости между двумя переменными.
Значения одного независимого параметра откладываются по оси X, значения второго зависимого параметра – по оси Y.

Это статистическая диаграмма и ее также используют для нахождения корреляции.
Корреляция – это зависимость, которую можно описать словами "когда изменяется X, то Y тоже меняется". Иногда, видимое наличие корреляции может быть простым совпадением или не означать прямую взаимосвязь двух взятых переменных – они могут быть связаны какой-либо третьей переменной, не вошедшей в текущий анализ. Предполагаемую корреляцию обозначают в виде линии тренда по точкам.
Как построить
1. Добавляете одну из мер в Rows
Tableau агрегирует первый показатель и создает вертикальную ось
2. Добавляете другую из мер в Columns
Tableau агрегирует второй показатель и создает горизонтальную ось. Вы получили скаттерплот всего с одной точкой, так как показываете агрегированные показатели.Чтобы привнести смысла в диаграмму, нужно добавить дискретные категории и повысить уровень детализации.
3. Добавляйте дополнительные категории (синие поля) в карточки слева (Color, Size, Detail) для детализации скаттерплота и изменения внешнего вида.

Вы также можете построить эту диаграмму при помощи ShowMe!

Подробнее тут →
Процесс построения скаттерплота
На примере Superstore с добавлением линий тренда
Пара слов о Details

До этого вы могли не использовать карточку Details на практике, но на скаттерплотах ее применение практически обязательно.
Помните про уровень детализации в Tableau? Добавляя поля в области Rows/Columns, а также на карточки Color, Size, Details, Text, Shape - вы повышаете уровень детализации диаграммы. Когда вы хотите показать скаттерплот по всем городам в вашем источнике - добавьте поле Города в Details если не хотите изменять визуальную кодировку элементов на скаттерплоте, или в Color, Size, Shape - если хотите поменять их внешний вид. Вы можете добавлять по одному полю в каждую из этих полок, тем самым комбинируя разные визуальные кодировки.
СОВЕТ
Хотя самый простая диаграмма рассеяния основана на двух показателях, вы можете отобразить до четырех мер путем изменения размера точек и добавления цвета.
Примеры
Стандартная диаграмма рассеяния состоит из двух осей. Но вы можете добавить дополнительные категории в области Rows/Columns в Tableau, создав скаттерплот-миниатюры. Или еще одно поле в цвет или в размер. Не бойтесь экспериментировать самостоятельно - еще ни одно гениальное открытие не свершалось по инструкции.
СОВЕТ
Используйте фоновую сетку, если вам нужна высокая точность данных.
Добавив любой показатель в Size - вы можете превратить скаттерплот в пузырьковую диаграмму.
Пузырьковая диаграмма
Когда в скаттерплот добавляют еще одну переменную в Size
Сейчас вы пользуетесь продуктом, который самостоятельно строит диаграммы вместо вас. Но имейте в виду, что при построении пузырьковой диаграммы, кодировка значения и размер кружочков определяется площадью, а не диаметром или радиусом.
Диаграмма показывает категории планет. В нее заложены 3 переменные: по вертикальной оси показывается масса планет (чем ниже - тем тяжелее), по горизонтальной - температура (чем правее - тем холоднее от звезды), размер кружочков дублирует массу, а цвет - категорию зоны обитания.

В квадрате показаны планеты, пригодные для жизни человека.

На визуализации используется логарифмическая шкала массы планет.
ПРАКТИКУЕМСЯ
Ханс Рослинг - шведский врач, академик, профессор и всемирно известный лектор. Рослинг считал, что люди неправильно смотрят на мир: они опираются на свои искаженные представления, а не на данные. В своих выступлениях он оперировал только фактами и показывал, насколько они отличаются от того, что думают люди.

Ханс Рослинг стал известным после его выступления на TED в 2006 году. На сайте TED это выступление описывано так: Еще никто не представлял данные таким образом. С натиском и скоростью спортивного комментатора гуру статистики Ханс Рослинг развенчивает мифы о так называемом «развивающемся мире». Вы можете посмотреть это видео здесь.

Для нашего задания, мы возьмем отрывок из знаменитой лекции 2006 года. В этом видео, всего за 4 минуты он рассказывает историю мира, которую все из нас представляют иначе: 200 стран, 200 лет, 120 000 чисел.
200 стран, 200 лет, 4 минуты
Ханс Рослинг | BBC
Датасет
Статистика по основным показателям стран с 1800 по 2015: ВВП, продолжительность жизни и общее население. В датасете также были исключены страны, по которым нет данных по ВВП.

Скачать датасет
Задание
1. Посмотреть видео выше (200 стран, 200 лет, 4 минуты).
2. Построить скаттерплоты, показанные Хансом Рослингом.
3. *Для создания эффекта движения, анимации, используйте полку Pages. Туда нужно добавить поле с датой (год).

Скачать задание в виде книжки Tableau
Если не знаешь с чего ходить — ходи с бубей! Если не знаешь, что делать — садись и анализируй ситуацию. Все как всегда, независимо от века, в котором ты живешь.

Евгений Красницкий. Отрок. Внук сотника
ВДОХНОВЕНИЕ
Полезные ссылки по теме
За гуманизм и дело мира успешно борится... Джорджия Лупи. Сегодня смотрим ее замечательные работы, в том числе и для лаборатории IBM, где мы можем ознакомиться с основными элементами успешной визуализации данных.
Видео
На примере баскетбола, наш индийский коллега, расскажет как анализ и визуализация движений игроков в баскетболе помогает изменять стратегии командной игры и поддерживает работу тренеров лучших баскетбольных клубов мира. Скеттерплоты и баблчарты ему в помощь.
Математика движений игроков в профессиональном баскетболе.
Rajiv Maheswaran | TED Talks
Баскетбол - это быстроразвивающаяся игра импровизации, контакта и ... пространственно-временного распознавания образов. Раджив Махешваран и его коллеги анализируют движения ключевых баскетбольных игр, чтобы помочь тренерам и игрокам объединить интуицию с новыми данными.
МАТЕРИАЛЫ
Книги
Сегодня мы пролистываем одну из ключевых работ Альберта Каиро. В «Правдивом искусстве» Каиро преобразует элементарные принципы данных и научных рассуждений в инструменты, которые вы можете использовать в повседневной жизни, чтобы интерпретировать наборы данных и извлекать из них истории.
Правдивое искусство
Альберто Каиро
Книга наполнена вдохновляющими и образовательными реальными примерами визуализации данных из таких ведущих изданий, как The New York Times, The Wall Street Journal, Estado de São Paulo (Бразилия), Berliner Morgenpost (Германия) и многие другие.

Тут вы найдете:
+ Роль инфографики и визуализации данных в нашем мире
+ Основные принципы данных и научные рассуждения, которые каждый может освоить
+ Как стать лучшим критическим мыслителем
+ Пошаговые процессы, которые помогут вам оценить визуализацию данных
+ Как создавать и использовать эффективные диаграммы, графики и карты данных для объяснения данных для любой аудитории
Итоги этапа
Освоили скеттерплоты. Поняли что Гуманизм может быть на основе данных. Попрактиковались в построении баблчартов и вдохновились примерами Альберто Каиро собранными в Правдивом Искусстве. День быстрый, но интересный. Готовимся к новому дню и освоению визуализаций с помощью тримапов. До встречи. Виз виз уррра!
~
DATA YOGA CLUB