ДЕНЬ 01

Про интерфейс и основные термины

Осматриваем ландшафт

Перед началом забега мы установили и настроили программное обеспечение, выбрали стратегию обучения и познакомились с продуктами Tableau.

СЕГОДНЯ

Стартуем с концепций Tableau и работы с данными, без них сложно сделать понятную визуализацию. А без разбора деталей интерфейса продукта работа не может быть быстрой и комфортной. Начнем с основных элементов визуализаций. Работаем сегодня c классическими таблицами — скучно, но полезно. И обязательно — полезняшки в виде ссылок, материалов и видео для вдохновения.


Ваша главная цель — научиться «видеть» данные.

Мы постарались избежать англоязычных материалов для демонстрации базовых возможностей Tableau. Но не бойтесь искать их сами — у Tableau прекрасное англоязычное сообщество. Его участники щедро делятся материалами.

РАЗБИРАЕМСЯ

В основах и терминологии

Как работать в Tableau

Работа в Tableau построена на взаимодействии с данными в Рабочей книге (Workbook) при помощи Листов-вкладок (Sheet). Стартовая вкладка для работы с данными — DataSource. Здесь подключаются новые и редактируются уже существующие источники данных, создается модель данных. В остальных вкладках ведется работа над визуализацией данных. Вкладки рабочей книги называются Рабочий лист, Дашборд и История.

Рабочий лист (Sheet или Worksheet) — основная вкладка для работы в Tableau. Создание визуализаций (диаграмм, графиков, карт) происходит именно здесь. Каждый Лист может быть скопирован в новую рабочую книгу и сохранен отдельно. Вы можете создавать новые Листы, переименовывать их, дублировать, скрывать или удалять.

Дашборд (Dashboard) — это коллекция из нескольких рабочих листов. Он позволяет собрать вместе графики, созданные на Рабочих листах, добавив к ним заголовки, легенды, фильтры и выстроить «рассказ».

История (Story) — это последовательность Рабочих листов или Дашбордов в виде повествования, презентации.

Рабочая область и визуальные обозначения

Разберем, из каких областей состоит Рабочий лист — наша главная рабочая среда.

Рабочая область листа

рабочая область Tableau
A — Название Рабочей книги
B — Область Pages
C — Область фильтров
D — Область меток (визуального представления данных)
E — Панель инструментов
F — Полки строк (Rows) и столбцов (Columns) (сюда помещаются поля, задействованные в визуализации)
G — Рабочая область
H — Кнопка перехода на начальную страницу
I — Боковая панель (Панель данных или Панель аналитики)
J — Переход на страницу источника данных
K — Строка состояния
L — Созданные рабочие листы, дашборды или истории
M — Для создания нового рабочего листа, дашборда или истории

Визуальные обозначения

Познакомьтесь с визуальными обозначениями и кодировками. Обращайте внимание на цвет, подписи, пиктограммы. Они помогают понимать информацию на экране.
интерфейс Tableau

A — перейти на начальную страницу.

B — отменить последнее действие.

C — повторить последнее действие, которое отменили с помощью кнопки «Отменить».

D — сохранить изменения.

E — подключить новый источник данных.

F — остановить/запустить автоматические обновления.

G — обновить текущий лист или дашборд (при остановленном автоматическом обновлении).

H — создать новый рабочий лист (либо дашборд или историю при раскрытии списка).

I — создать дубликат текущей вкладки (листа, дашборда или истории).

J — очистить текущий лист или дашборд.

K — переместить строки в столбцы и наоборот.

L — сортировать по возрастанию.

M — сортировать по убыванию.

N — добавить на лист или дашборд подсветку по определенному полю.

O — включить выделения для рабочего листа.

P — включить подписи данных.

Q — зафиксировать оси.

R — настроить вид отображения листа (с заданными шириной и высотой либо в полный экран).

S — добавить или скрыть элементы (заголовок, фильтры, легенды и т. д.).

T — запустить режим презентации.

U — поделиться рабочей книгой.

Продолжение большого справочника визуальных подсказок, значков и горячих клавиш — в карусели. Сейчас все это немного пугает, но сделайте себе закладку на будущее — всегда можно вернуться и подсмотреть нужное обозначение. Увеличивается по клику.

Как Tableau работает с данными

Алгоритм работы с данными в Tableau очень простой и состоит из трех основных этапов:

  • выбор источника данных;
  • визуализация данных;
  • публикация результата.
Вы можете подключаться к разным источникам данных в Tableau Desktop. Это файлы, базы данных, онлайн-сервисы и табличные данные из буфера обмена. Когда вы запускаете Tableau Desktop, на стартовом экране виден список доступных источников данных.

Сначала вы видите файловые типы данных, такие как Excel, CSV, JSON и другие. Затем показаны серверы баз данных, такие как Oracle, SQL Server, MySQL.
Вы также видите последние источники данных, к которым вы подключались ранее.
Кроме того, вы можете подключаться к онлайн-сервисам: Google Analytics, Amazon Redshift, Salesforce и другим. А еще — вставляйте табличные данные из буфера обмена, используя опцию «Текстовые данные».
Стартовый экран Tableau Desktop
с источниками данных

Выбор типа подключения

Вы можете выбрать прямое подключение (Live) к данным или создание экстракта (Extract).
Прямое подключение
Live
При прямом подключении, данные в Tableau будут обновляться при каждом изменении источника. Каждый раз, когда вы создаете или изменяете визуализацию, Tableau отправляет запрос к источнику данных и получает ответ.

Когда нужно? Прямое подключение подходит, если вам нужны самые свежие данные и когда ваш источник данных поддерживает этот тип подключения. Однако прямое подключение замедлять работу при большом объеме данных и/или сложных запросах.
Создание экстракта
Extract
Экстракт подключение означает, что вы создаете локальную копию данных в формате Tableau, которая хранится на вашем компьютере или на сервере (в облаке). Экстракт данных сжимает и оптимизирует данные, чтобы ускорить работу с ними. Вы можете фильтровать и агрегировать данные при создании экстракта, чтобы уменьшить его размер и уровень детализации. Например, если в дашборде нас интересует показатель продаж по месяцам, а в данных видим продажи за каждый день, применяем агрегацию и «забираем» в экстракт сразу суммы по месяцам. Это повысит скорость работы дашборда.
Чтобы поддерживать экстракт в актуальном состоянии, настройте его автоматическое или ручное обновление.

Когда нужно? Экстракт подключение подходит для тех случаев, когда вам не нужны самые свежие данные или когда ваш источник данных не поддерживает прямое подключение.
Важно
Тип подключения зависит от того, как часто и как быстро вы хотите обновлять и анализировать данные, а также от того, какой источник данных и какой коннектор вы используете.

Вкладка DataSource

Окно подключения источника данных

Вкладка DataSource — это экран, на котором вы можете настроить источник данных, к которому вы подключились в Tableau Desktop. Это важный шаг перед тем, как перейти к созданию визуализаций данных.

На этом экране вы можете:
  1. Просмотреть данные в источнике, чтобы убедиться, что они правильно загружены и отформатированы.
  2. Выбрать способ объединения таблиц (relationships, join, union).
  3. Выбрать тип подключения Live/Extract.
  4. Настроить типы полей.
  5. Переименовать поля.
  6. Скрыть ненужные поля.
  7. Добавить фильтры на уровне источника данных.
Интерфейс вкладки DataSource
Вы можете узнать, как Tableau подключается к разным источникам данных из официального видео:
Как Tableau работает с источниками данных (английский язык)
Официальное видео

Текстовые файлы типа Excel и csv Tableau, как правило, считывает нормально. Но в csv формате Tableau может неправильно распознать разделитель или кодировку. В таком случае настройте подключение вручную. Вот короткая инструкция:
подключение к данным Tableau

Типы связи данных

Скорее всего в вашем источнике содержится не одна таблица. Даже если это Excel-файл, в нем может быть несколько вкладок, каждая является отдельной таблицей. Поэтому после подключения к данным нам понадобится «карта». Необходимо указать Tableau, какие таблицы использовать из источника и как они связаны. Это называется моделью данных.

Чтобы создать модель данных, перетащите нужные таблицы из списка таблиц в правую верхнюю часть экрана на вкладке Data Source.
В Tableau Desktop три типа связей: Relationships, Join и Union.

Relationships

Этот тип связи таблиц используется Tableau по умолчанию. Он позволяет использовать данные из нескольких таблиц в одном дашборде. Это возможно благодаря ключам.

Возьмем две таблицы. В одной записаны заказы, в другой — список тех из них, которые были возвращены. В дашборде мы хотим показать, какой в прошлом месяце был процент возвратов от общего количества заказов. Для того, чтобы это сделать, нам нужно найти поле, которое содержится в обеих таблицах. Это поле с порядковым номером заказа, т.е. его ID. Оно является ключом для связи двух таблиц без объединения их в одну. По нему Tableau быстро находит в общем списке заказов возвращенные.

Чаще всего ключи — цифровые значения, ID. Такие значения обрабатываются быстрее всего, поэтому это наилучший способ связи таблиц.
Joins
При первом типе связи каждая таблица остается самостоятельной. Но иногда нам необходимо сделать из нескольких таблиц одну. Тогда мы используем тип связи Join. Их бывает несколько. Выбор зависит от того, какой результат мы хотим получить.

Посмотрите на объяснение типов джойнов ниже.
Юнионы
Когда вы создаете джойны, вы комбинируете две или больше таблиц, добавляя столбцы. Когда вы создаете юнион, вы комбинируете таблицы с данными, добавляя строки, то есть новые значения тех же столбцов. Чтобы сделать юнион, у вас должны быть данные одной внутренней структуры.
Вы можете создавать юнион между таблицами Excel, Google Sheets, JSON и CSV. А также между таблицами в базах данных Amazon Redshift, Google BigQuery, HP Vertica, Microsoft SQL, MySQL, Oracle, PostgreSQL.
Tableau Prep
Реальность такова, что в анализе данных 80% времени занимает их подготовка, и лишь 20% — их визуализация и дальнейшая аналитика.
Чаще всего данные в «сыром» виде не пригодны для загрузки в системы аналитики и дальнейшего анализа.
Чтобы привести их в порядок, нужно провести процедуры по извлечению, преобразованию и загрузке данных. Для этого существуют специальные ETL-инструменты (от англ. Extract, Transform, Load).
ETL-продукт от Tableau называется Tableau Prep. У него интуитивный интерфейс, схожий с Tableau Desktop.

Измерения и меры (Dimensions и Measures).

Дискретные и непрерывные поля

Чтобы работать с данными, надо понимать, как они устроены.

Когда Tableau подключается к источнику данных, все столбцы с данными превращаются в поля на панели данных.

поле Tableau
Поля на панели данных в Tableau делятся на две основные группы: Измерения (Dimensions) и Меры (Measures).

Представим, что вам нужно проанализировать продажи. Вряд ли вас устроит ответ 1,5 миллиарда (а это сумма выручки по всем проданным товарам в вашем источнике данных). Для анализа нужны определенные срезы данных: по годам, по категориям товаров, по типам клиентов.
Измерения — это те поля, которые позволяют создавать срезы данных, сегментировать данные. Например, поле с названиями категорий товаров. Добавляя такое поле на визуализацию, получим не сумму выручки вообще, а сумму выручки по каждой из категорий. И вместо одной метки в рабочей области, увидим несколько.

Меры — это поля с количественными данными. Меры в Tableau автоматически агрегируются при добавлении на визуализацию (например, суммируются).

На панели данных Измерения находятся над серой чертой, Меры — под чертой.
измерения и меры Tableau
Второе деление полей в Tableau: поля Дискретные (Discrete) и Непрерывные (Continuous).

Дискретные поля можно узнать по синему цвету. Они содержат отдельные значения и создают заголовки на визуализации. Примеры дискретных данных: названия регионов, имена клиентов, коды товаров.

Непрерывные поля — зеленого цвета. Они принимают значения из определенного диапазона, а на визуализации создают ось. Примеры непрерывных данных: вес, рост, количество проданных товаров, прибыль, температура.

Поля становятся похожими на цветные пилюли. По-английски поля в этой области так и называются — «pills».
измерения и меры Tableau
Таким образом, в Tableau может быть 4 типа полей:
  • Discrete Dimension*
  • Discrete Measure
  • Continuous Dimension
  • Continuous Measure*
*Используются чаще всего и назначаются Tableau по умолчанию.

Дискретные меры и непрерывные измерения вообще встречаются? Да! В карусели ниже примеры таких случаев.

Поля и их типы

Tableau автоматически определяет тип данных каждого поля: текст, число, дата, геоданные, булевое (True/False). На тип указывают маркеры: какие символы встречаются, какова длина поля.

Присвоенный полю тип данных можно узнать из пиктограммы и в контекстном меню нужного поля. Там же можно изменить присвоенный тип данных.
поля Tableau
Когда нужно изменять тип данных?


Автоматически тип данных может быть определен неверно. Например, полю присвоен числовой тип с целочисленным значением вместо дробного. При добавлении новых данных в источник это может привести к неточным расчетам.

Быстрый способ изменить тип данных в поле или присвоить ему геороль — кликнуть на пиктограмму слева от поля на панели данных и сделать нужный выбор.
изменение типа данных Tableau
Alias

Для Дискретных Измерений можно создавать псевдонимы (alias) для отдельных значений. Эти псевдонимы будут использоваться на визуализации, но не повлияют на оригинальные значения поля. Например, можно назвать яблоки «фруктами», а огурцы «овощами».
alias Tableau
Важно
Помните про алиасы при создании вычисляемых полей. Там вы можете использовать только оригинальное значение поля, иначе Tableau не поймет вашу формулу.
Автоматически создаваемые Tableau переменные

Tableau умеет создавать поля не только на основе источников данных, но и генерировать их автоматически. Чтобы их не перепутали с полями, загруженными из источника, автоматические поля выделены курсивом.
Вот эти поля:

  • Count
  • Measure Names & Measure Values
  • Latitude (generated) & Longitude (generated)
автоматические поля Tableau
Поле Count в формате ИмяТаблицы(Count) показывает количество записей в таблице источника или в текущем срезе данных. Если в вашей таблице 100 записей, то ИмяТаблицы(Count) покажет 100. Если вы отфильтруете только города в России и их останется 50, то Count покажет 50. До версии 2020.2 оно называлось Number of Records.

По сути, это счетчик строк, по которому удобно проверять качество загруженных данных. Если вы знаете, что в исходной таблице должно быть 1 300 строчек, именно это поле покажет, все ли они загружены в Рабочую книгу. Аналогом поля Count является поле с числом 1.
Measure Names & Measure Values

Дискретное поле Measure Names — это измерение, которое содержит названия всех мер в вашем источнике данных. Просто как список названий всех полей, которые находятся под чертой: прибыль, продажи, количество заказов и т.п.
Непрерывное поле Measure Values содержит набор всех мер из вашего источника данных. При добавлении поля на визуализацию появляется отдельная область (полочка) под карточкой меток, на которой можно оставить только необходимые меры.
Больше информации про Measure Names & Measure Values будет в дне 11.
Latitude (generated) & Longitude (generated)

Если Tableau распознает в источнике поля с геоданными, оно автоматически создаст для них поля с геокоординатами: Широтой и Долготой. Без лишних сложностей можно построить карту и показать на ней нужные данные.
Больше информации про Latitude (generated) & Longitude (generated) будет в дне 10.
создание папок Tableau
Для систематизации полей используйте возможность создания папок (Folders) на панели данных. Группируйте близкие по смыслу переменные или собственные вычисления. Держите все в порядке.

Как создавать визуализации

Мы рассказали о том, какие бывают данные и связи между ними. Увидели, как выглядит рабочая область Tableau. Теперь о том, как создавать визуализации.

Все визуализации составляются из разных полей, как набор кубиков конструктора Лего. Одни кубики влияют на макет и структуру визуализации (Rows/Columns), другие — на внешний вид (Marks: Color, Size, Shape, Detail), третьи — на выборку данных (Filters).

Есть несколько подходов к созданию визуализаций, но наиболее правильным будет такой маршрут:

  1. Определение нужных полей (Dimensions, Measures).
  2. Добавление выбранных полей в области Rows/Columns для получения структуры виза.
  3. Если необходимо, то настройка фильтров (Filters).
  4. Изменение внешнего вида (Marks...).
  5. Добавление контекста (Labels, Tooltips).
  6. Прочие настройки: форматирование, размер визуализации, «докручивание» внешнего вида.
рабочая область Tableau
  • На схеме показаны области, которые «создают» визуализации:
    • фильтры;
    • структура визуализации (какие поля должны быть на осях, в категориях);
    • внешний вид (цвет, размер, подписи, способ визуализации);
    • в центре экрана есть область автоматической визуализации Magic Zone. Tableau использует магию Show Me.
рабочая область Tableau
Show Me

Набор лучших практик по визуализации данных у вас под рукой. В правом верхнем углу рабочего листа Tableau собраны 24 виза с подсказками, как их получить.
Tableau Desktop поддерживает множество источников данных: таблицы, статистические файлы, базы данных, многомерные кубы и онлайн-источники, включая Google Analytics, Amazon Redshift и Salesforce. При запуске Tableau Desktop, список возможных источников данных отображается на стартовом экране.

Файловые типы данных показываются в самом начале, затем перечислены серверы баз данных или последние источники, к которым вы подключались. Вы также можете напрямую вставлять табличные данные из буфера обмена.
Можно пользоваться двумя подходами к созданию визуализаций.

1. Получите рекомендации. Выберите виз в Show Me и наведите мышью на его пиктограмму. Внизу появится подсказка, какие типы полей нужны для создания виза. Или через Shift выделите категории и меры, которые хотите визуализировать. Откройте меню Show Me. Выберите подходящий вам вариант диаграммы (красным прямоугольником Tableau подсвечивает оптимальный виз).

2. Постройте самостоятельно. Добавляйте поля в области Строк, Столбцов, Меток (Rows, Columns, Marks) или же напрямую в область визуализации.
show me Tableau

Из чего состоит визуализация?

Любая визуализация состоит из 4 компонентов — система координат, шкала, визуальная кодировка и контекст. Каждый выполняет свою функцию, а вместе они обеспечивают простое и быстрое понимание диаграммы зрителем. Если вы разберетесь, из чего состоят и как работают эти компоненты, выбрать подходящий тип визуализации для ваших данных будет проще.

Внешний вид визуализации полностью зависит от выбранной системы координат. Их 3 вида: Декартова, полярная и географическая.
система координат Tableau
Система координат
Самая популярная и знакомая со школы Декартова система с координатами X и Y. Геосистема в качестве координат использует широту и долготу, позволяя строить карты. В полярной системе координаты располагаются в соответствии с радиусом и величиной угла.
шкалы Tableau
Шкалы
На шкалах находятся подписи данных. Благодаря им мы понимаем, на что смотрим, какая размерность у графика, что представляет каждая категория.
визуальная кодировка Tableau
Визуальная кодировка
Визуальная кодировка данных позволяет представить их в понятном, легко считываемом виде. К визуальной кодировке относятся типы меток (линии, столбики, текст), цвет, форма, размер и т.д.
Помните, что для правильного понимания данных важна Легенда. Она нужна, если у визуализации есть условные обозначения: цвета, формы или размера. Чтобы увидеть и настроить Легенду, нажмите на стрелку раскрывающегося списка в правом верхнем углу Листа и выберите этот пункт.
заголовки Tableau
Контекст
Контекст позволяет не только считать общие тренды, но и понять причину, их вызвавшую. Подумайте над заголовком, добавьте аннотацию, но не увлекайтесь, чтобы не перегрузить визуализацию.

Пробуем сделать таблицу

Это тоже визуализация!
Вы не любите кошек таблицы? Вы просто не умеете их готовить! Тем важнее будет иметь этот навык, если ваши пользователи «прикипели» к табличному представлению данных.

Чтобы построить таблицу в Tableau нужны только поля Измерений, а Меры добавляем на карточку Меток в область текста. Или пользуемся всемогущим меню Show Me: выделяем нужные измерения и меры, нажимаем на пиктограмму таблицы (text table) в Show Me и наслаждаемся результатом.
создание таблицы в Tableau
Зачем делать таблицы, это же не про визуальную аналитику?

У всего есть область применения.
С таблицами эффективно:

  • сравнить несколько разнородных показателей, например, План/Факт анализ (см. пример 1);
  • показать значения с высокой точностью после запятой (см. пример 2 );
  • переходить от табличной отчетности к визуальной аналитике (и обратно, когда вам говорят: это хорошо, но покажите мне ЦИФРЫ!).

СОВЕТ
Не бойтесь экспериментировать и пробовать! Всегда можно вернуться на шаг назад. Кнопка «Отменить» в Tableau бесконечна.

Сохранение результатов

В Tableau Desktop вы можете сохранять свою работу в разных форматах файлов, в зависимости от того, какие данные вы хотите включить в файл. Есть два основных формата: twb и twbx.

Формат twb — это файл рабочей книги Tableau, который содержит только информацию о визуализациях, фильтрах, параметрах и других настройках, которые вы создали в Tableau. Формат twb не содержит самих данных, а только ссылку на источник данных, к которому вы подключились.
Когда нужно? Подходит, если вы хотите сохранить свою работу, но не хотите передавать данные другим пользователям. Однако, чтобы открыть файл twb, вам нужно иметь доступ к источнику данных, к которому он ссылается.

Формат twbx — это файл рабочей книги Tableau, который содержит не только информацию о визуализациях, но и сами данные в формате Tableau Data Extract или Tableau Data Source. Формат twbx позволяет вам упаковать все данные и настройки в один файл, который вы можете легко передавать другим пользователям.
Когда нужно? Когда вы хотите поделиться своей работой с другими, или когда вы хотите работать с данными офлайн. Для того, чтобы открыть файл twbx, вам не нужно иметь доступ к источнику — данные уже включены в файл.

Как поделиться дашбордом

Tableau предлагает много вариантов, как поделиться результатами своей работы. От простой выгрузки в виде картинок, PDF или загрузки данных в Excel до публикации онлайн, обмена рабочими книгами по почте или интеграции в корпоративный портал.

Для Tableau Public
Для Tableau Desktop

ПРАКТИКУЕМСЯ

О датасете

Датасет содержит статистику по топ-игрокам Чемпионата Европы по футболу 2020. Для выполнения заданий стройте таблицы. На некоторые вопросы вам помогут ответить знания визуальных обозначений и автоматически сгенерированные поля.
Задания
  1. Подсчитайте количество записей в датасете.
  2. Сколько в датасете полей Измерений? Не учитывайте автоматически сгенерированные поля.
  3. Какие Меры с числовым типом данных с плавающей точкой есть в датасете?
  4. Найдите страну с максимальным количеством забитых голов. Помните, мы используем таблицы.
  5. Создайте Алиасы для позиций игроков в футболе (forward, midfielder, defender, not specified). Определите, игроки какой позиции пробежали максимальную совокупную дистанцию.
  6. Какой футболист сыграл наибольшее количество минут за Италию?

Скачать задание в виде книги Tableau
В теории нет разницы между практикой и теорией. Но на практике она есть.

// Jan van de Snepscheut

ВДОХНОВЕНИЕ

Полезные ссылки по теме

Знакомимся со справочными материалами и примерами использования баров в визуализации. Насмотренность помогает подобрать нужный виз или прием.

Карта компетенций

Что нужно знать для работы в DataScience

Viz of the Day

Вдохновляющие визуализации, созданные в Tableau Public

Визуализации Makeover Monday

Потрясающий источник вдохновенных проектов

Полный (и очень user-friendly) справочник по работе с Tableau.

МАТЕРИАЛЫ

Видео

Выступление неподражаемого Ханса Рослинга. Уважаемый спикер на Tableau конференциях и большой шоумен статистических инсайтов.
Рослинг рассказывает о статистике, данных и экономиках стран мира. Смотреть с русским транскриптом на сайте TED.com

Книги

Чтобы создавать эффективные визуализации данных, вам нужно быть и экспертом в статистике, и дизайнером, а еще мастером рассказывать истории. Автор книги «Данные» говорит о том, что же помогает создавать оригинальные и полные смысла визуализации, которые аудитория не только поймет, но и запомнит.
Данные
Nathan Yau

Итоги этапа

Освоили интерфейс и запомнили нужные сочетания клавиш для быстрой работы, отличаете измерения от мер. Построили свою первую таблицу — не так уж и сложно, правда? Разогрелись на ответах на простые вопросы при работе с датасетом и листаем книги из библиотеки, заполняя время, отведенное для вечерней медитации. Завтра — ответы на вопросы практики и подготовка к освоению визуальных кодировок и бар-чартов. Виз-виз ура!

Бежим Марафон в команде!

С менторством и в компании единомышленников.
Нажимая кнопку, вы соглашаетесь на обработку персональных данных. Мы используем их, чтобы оставаться на связи. Подробнее здесь.