ДЕНЬ 02
Про концепции Tableau
/ СЕГОДНЯ:
наш маршрут продолжается в изучении Ключевых концепции Tableau, на этот раз мы учимся использовать агрегацию данных и видим как эта концепция работает на примере линейных графиков, тренируемся вызывать быстрые табличные вычисления и внимательно приглядываемся к визуальным кодировкам и ключам /
Всплеск c помощью линий
Можно ли изучить большой объем знаний за короткое время? Этот вопрос задают себе все сомневающиеся, а те кто не сомневаются, по прошествии некоторого времени задают его себе тоже. Сегодня мы вместе с Джошем Кауфманом попробуем ответить на него. Самое интересное, что часто бывает дело не в усилиях при изучении, а в мотивации и способности концентрироваться на главном. Мы старались в марафоне не перегрузить вас материалами и не давать сложные темы, которые привычны бывалым аналитикам, так как большая часть участников пришла на марафон, чтобы погрузиться в визуализацию данных и в продукт и усвоить концепции от простого к сложному. Без этого невозможна легкая и комфортная работа. Ну что, продолжаем наш Путь? Бежим дальше.
РАЗБИРАЕМСЯ
В основных концепциях
Уровень детализации
Что это такое и почему важно?
При работе с источником, данные агрегируются на определенном уровне детализации. Уровень детализации определяется полями, добавленными на область создания виза.

Чем меньше категорий, тем меньше уровень детализации. Сравните: вы показываете данные только по странам (только с одной категорией "Страна") или отображаете детально каждый выполненный заказ (с категориями "Страна", "Город", "Категория клиента", "Категория товара", "Наличие акции" и так далее). Во втором случае, уровень детализации будет выше.

С каждой новой категорией, уровень детализации увеличивается. Самый высокий уровень детализации один в один соответствует исходной структуре вашего источника данных. Он достигается, когда значения мер уже не агрегируются, а показываются в том виде, в котором они записаны в таблице источника. Как будто вы открыли построчный просмотр базы данных.

Все, что при создании графика вы добавляете в «красные» зоны, определяет уровень детализации визуализации. Представим, что уровень детализации передает особое сообщение процессору Tableau: «Дорогой процессор, для получения необходимых данных, обязательно учти все поля из красных зон». После получения сообщения, процессор Tableau добавит эти поля в запрос к источнику. Запрос вернет на график значения показателей, агрегированные к указанным категориям.
Уровень детализации
Последите, как меняется ваша диаграмма при добавлении новых полей в эти области.
Агрегация данных
Что это такое и почему важно?
Агрегацией в Tableau называют:
  • Концепцию агрегирования значений к запрашиваемому уровню детализации
  • Способ агрегирования мер
При добавлении меры на представление, Tableau автоматически агрегирует ее значения. Все значения из источника агрегируются единым способом, чтобы вернуть одно единственное значение, подходящее под выбранную категорию и уровень детализации.

Сумма, среднее и медиана - наиболее распространенные способы агрегации. Tableau автоматически агрегирует все числовые меры как сумму, так как это самый используемый тип агрегации. Однако это правило можно поменять в настройках конкретного поля.
Способы агрегации
Выбирайте в зависимости от ваших задач. По умолчанию, все числовые меры - суммируются, а все текстовые меры - считаются при помощи COUNT.
При этом, помните о том, что все меры (measures) агрегируются, а все измерения (dimensions) - не агрегируются. Одно поле, например "ID заказа", может использоваться в двух видах. Если как измерение, то его отдельные значения будут категориями на визуализациях и будут создавать срезы или подписи на осях. Если же использовать поле "ID заказа" как меру, т.е. агрегировать, то его значения могут быть просуммированы (не очень понятно зачем, но такая возможность есть).
Агрегация
Одно поле может быть как агрегировано (мера), так и диз-агрегировано (измерение).
Более того, агрегация влияет на то, как рассчитываются пользовательские вычисления. О вычислениях мы поговорим только в дне 05, но имейте в виду: от того, укажите ли вы агрегацию при вычислении или нет - зависит то, как Tableau будет просчитывать данные.

На примере ниже два варианта расчета показателя "Стоимость на метр", который является частным от деления Стоимости квартиры на ее Площадь.
Вариант 1. Без агрегации. Считаем стоимость каждой квартиры в таблице по каждой строчке, а потом суммируем результат.
Вариант 2. С агрегацией. Сначала считаем сумму всех Площадей и сумму всех Стоимостей, а потом делим одну сумму на другую.
Уровни вычислений
В зависимости от агрегации, меняется и расчет показателей.
Агрегация
Уровни гранулированности и агрегации данных

Визуальные кодировки и ключи
Что влияет на внешний вид визуализации. Visual cues
В Tableau доступны визуальные опции, которые необходимы для настройки внешнего вида диаграммы под ваши требования. Можно быстро поменять форму визуализации (смотрите на выпадающее меню в Marks), настроить цвет, размер, форму/шейп, а также добавить подписи данных и тултипы - всплывающие при наведении подсказки. Просто перетаскивайте поля из панели данных слева на нужные полки.

Каждую из визуальных опций можно редактировать простым кликом на полку. Добавлять собственные цветовые палитры на основе корпоративных цветов, загружать свои шейпы с тематическими иконками, менять диапазон размера шейпов, изменять подписи в тултипы.
Независимые оси
Что делать с осями разной размерности
Когда вы добавляете меру на визуализацию, формируется ось. Осей может быть несколько если добавлено несколько мер (об этом позже) или если на визуализацию добавлено несколько категорий (Регион, страна, город).

Во втором случае, вы можете столкнуться с разницей масштабов между подкатегориями. Например, вы показываете продажи по городам. Продажи в Томске будут сильно меньше, чем продажи в Москве. Но по умолчанию, и то и то будет показываться на осях единого "московского" масштаба - масштаб самого крупного города. И если московские продажи будут на уровне нескольких десятков тысяч единиц, то Томские продажи по 100-200 единиц не будут заметны на таком масштабе.

Это можно поменять, если задать в настройках независимость осей. Тогда у Томска будет своя ось от 0 до 300, а у Москвы - своя многотысячная. Они будут находиться на одной визуализации вместе.

Заходите в настройки Edit Axis и включайте опцию Independent Axis range.

Больше про независимые оси:
Онлайн справочник Tableau
Настройка осей

При независимых диапазонах осей каждая категория имеет свой масштаб. В этом случае, не скрывайте оси - пользователю может быть неочевиден их разный масштаб.
Быстрые табличные вычисления
Quick Table Calculations
Быстрые табличные вычисления - это вычисления, которые Tableau строит прямо на текущей визуализации без необходимости прописывать формулы "на лету". Несмотря на название, вычисления добавляются не только к таблицам - они доступны для любого вида диаграммы. Просто в основе каждой диаграммы все равно спрятана двумерная таблица данных с мерами и категориями.
А вот быстрые они не зря: они добавляются за один клик. Чтобы добавить быстрое табличные вычисление, выберите меру в области Rows/Columns и через контекстное меню найдите Quick Table Calculation.

Самые распространенные быстрые табличные вычисления:
  • Нарастающий итог
  • Отклонение (абсолютное и в %)
  • Процент от общего
  • Скользящая средняя

Так как структура визуализации может быть сложной, то результат табличных вычислений зависит от того, как вы их настроите. Должны ли они считаться построчно сверху вниз или слева направо? Какие категории должны быть исключены из расчета? Какое значение взять за основу вычисления? Эти и многие другие настройки доступны через меню Edit Table Calculations...

Больше про быстрые табличные вычисления:
Онлайн справочник Tableau
СОВЕТ
При работе со сложными табличными вычислениями/на сложных диаграммах, сделайте все необходимые настройки на таблице, предварительно добавив все необходимые поля. После всех настроек, создавайте визуализацию на этом же листе.
Виз: Линейный график
Маст-хэв для данных с датами
Line chart
Графики используют для показа количественных данных во времени. Графиком удобно показывать тренды и то как переменная изменялась в течение временного периода. Или как график одной переменной соотносится с графиками других переменных, если вы показывайте несколько наборов даных.

Area chart
Одной из вариацией графика является график с накоплением. График с накоплением работает также как и обычный график за исключением того, что несколько категорий данных накладываются непосредственно друг на друга. То есть, каждое значение нового набора данных прибавляется к уже существующим значениям, образуя «новый слой».
ПРАКТИКУЕМСЯ
Продолжаем изучать Олимпийцев
Продолжаем работать с данными об олимпийских результатах за последние 120. Мы разобрались с рабочим пространством Tableau и постигли bar charts вместе с сортировками.
Чем мы будем пользоваться сегодня для выполнения заданий: линейными и area графиками, вычисляемыми агрегациями (sum, avg, min, max) и быстрыми табличными вычислениями.

Повторим характеристики данных: список результатов Олимпийских игр по следующим характеристикам: атлеты, медали, вид спорта, год и место проведения. Для отображения количества спортсменов будем использовать Number of Records автоматически сгенерированной Tableau (в нашем случае, количество всех спортсменов и их результатов за 120 лет истории Игр).
Еще раз о датасете
Список результатов Олимпийских игр по следующим характеристикам: атлеты, медали, вид спорта, год и место проведения.

Скачать датасет
Задание
1. Какие Олимпийские игры собрали наибольшее количество спортсменов? (line chart)
2. На каких Олимпийских играх было (зимних и летних) завоевано больше всего золотых медалей?
3. На каких Олимпийских играх (зимних и летних) был самый низкий (в среднем) рост среди спортсменов?
4. С какого года начали проводиться Олимпийские игры попеременно?
5. Сколько всего за историю игра завоевала команда Зимбабве золотых медалей? (area chart)
6. Когда начали соревноваться женщины в водном поло?
7. Кто был самым легким спортсменом команды из Австралии за все игры?
И как всегда на вопросы поможет ответить могущественный tooltip или контекстное мены магическим View Data

Скачать задание в виде книжки Tableau
Решение задания предыдущего дня
В теории нет разницы между практикой и теорией. Но на практике она есть.

// Jan van de Snepscheut
ВДОХНОВЕНИЕ
Полезные ссылки по теме
Сегодня в полезных ссылках подходы к форматированию и работа с тултипами. Обязательно к просмотру для понимания деталей настроек ключевых элементов визуализации
Видео
Получение нового навыка для многих людей это сложная задача. Как максимально использовать свои ресурсы чтобы максимально эффективно изучить Tableau? Сегодня нам подскажет Джош.
Джош Кауфман
Как за 20 часов научиться чему угодно

Джош Кауфман рассказывает как за 20 часов научиться чему угодно. Почему это важно для нашего марафона? Дело в том, что при должной мотивации и концентрации на ключевых элементах изучаемой области знаний или компетенции, вы в очень короткие сроки сможете освоить любой навык. Слушаем советы Джоша и практикуем осознанность при работе с Tableau.
МАТЕРИАЛЫ
Книги
Для тех марафонцев кто бежит на время и рассчитывает получать прибыль от дальнейших забегов, рекомендуем обратить внимание на детали квалификационных и сертификационных программ Tableau, эти знаки хорошо обменивать в дальнейшем на денежные.
Экзамены для пытливых
Автор
Хорошей практикой является знакомство с требованиями Tableau и разбора тем и заданий в виде практики для подготовки к возможным вопросам при прохождении квалификационного экзамена. Дерзайте.
Итоги этапа
Линейные графики были знакомы и со школы, но много нюансов появляется при практическом применении теоретических знаний. Поэтому мы с вами посмотрели на примеры и для тех кто просмотрел видео по возможностям форматирования еще немного ближе подобрались к эстетике визуализации данных. Практику самые ленивые пропустили, а остальные марафонцы, ответив на все вопросы, набирают разгон для следующего дня где нас ждут концепции Tableau работы со временем и цветом. Виз виз ура!
~
DATA YOGA CLUB