ДЕНЬ 29
Про аналитику
СЕГОДНЯ

Знакомимся с вкладкой Analytics в Tableau. Пробежимся по основным терминам и функциональности аналитического уголка в интерфейсе продукта. Главное разобраться для чего нужны все эти фишки в реальной жизни. Для пытливых ставим на полку базовый курс статистики в комиксах, чтобы напомнить что визуальная аналитика это не цвет и шрифт, а понимание того, что находится по ту сторону данных, ну и вспомогательный постер аналитических практик поможет связать "данные-полки-визы" в единую картинку. Вдохновляться будем дата-гуманистическим манифестом от Джорджии Лупи, которая призывает нас делать аналитику более человечной. Ну что, побежали!
РАЗБИРАЕМСЯ
Аналитика в Tableau
Вкладка аналитики в панели данных обеспечивает быстрый и простой доступ к наиболее общим аналитическим функциям в Tableau. Можно добавлять референс-линии, тренды и прогнозы, доверительные интервалы и другие функции. Такие простые дополнения к диаграммам могут придать новый смысл данным и показать их с новой стороны.

Чтобы добавить аналитические функции на диаграмму, перетащите их мышкой на рабочую область. Многие из функций можно добавить и из других мест в интерфейсе Tableau, при создании диаграммы, но они также собраны в единой вкладке Analytics для удобства и быстрого доступа.
Полный список элементов аналитики на момент написания текста:
  • Линия константы / Constant Line
  • Линия среднего значения / Average Line
  • Линия тренда / Trend Line
  • Линия референс значения / Reference Line
  • Среднее значение с 95% доверительным интервалом / Average with 95% CI
  • Медиана с 95% доверительным интервалом / Median with 95% CI
  • Медиана с квартилями / Median with Quartiles Прогнозы / Forecasts
  • Кластеризация / Clustering
  • Диапазон референс значний / Reference Band
  • Диапазон распределения / Distribution Band
  • Бокс плот / Box Plot (Диаграмма "Ящик с усами")
  • Итоги / Totals
Область применения
Или Scope – область применения, границы.

Для большинства элементов аналитики обязательно задается область их применения. Tableau – гибкий инструмент, предоставляющий вам свободу выбора. Указывая Scope, вы говорите Tableau как именно ему нужно рассчитать значение и отрисовать его на визуализации. Например, если вы хотите посчитать среднее (и вывести линию среднего значения Average Line), то Tableau может посчитать среднее по всей визуализации, или же рассчитать среднее для каждой подкатегории на визе, на каждую панель. Выбор области применения зависит от вашей цели.
  • Полная таблица / Entire Table. Создает линию аналитики на агрегированном значении всей таблицы (визуализации).
  • На панель / Per Pane. Создает линию аналитики на агрегированном значении, но уже на уровне первой категории.
  • На ячейку / Per Cell. Создает линию аналитики на каждом отдельном значении визуализации.
Немного о некоторых функциях аналитики.

Референс-линии
Вы можете добавлять на визуализацию справочные референс-линии, которые отметят на оси нужное и важное для этих данных значение. Референс-линии служат ориентиром на диаграмме, создают фокус.

Как только вы перетащите референс-линию на диаграмму, Tableau автоматически откроет окно для её редактирования. Настройте область действия, выберите нужную вам переменную для показа, ее вид агрегации и подпись.
Кластерный анализ
Кластерный анализ разбивает точки на диаграмме рассеяния на кластеры, в которых точки из одного кластера сильнее похожи друг на друга, чем на точки других кластеров. Tableau присваивает каждому кластеру свой цвет.

Для кластерного анализа Tableau использует метод k-средних. По этому методу данные разбиваются на несколько сегментов. Для каждого сегмента подбирается центр кластера, до тех пор, пока суммарное квадратичное отклонение точек кластеров от центров этих кластеров не будет сведено к минимуму. Иными словами, метод k-средних, вместе с Tableau, пытается определить схожесть точек на основе их расстояния до центра кластера. Этот метод не всегда работает хорошо. Результат зависит от выбора исходных центров кластеров, их оптимальный выбор неизвестен.
Остальные функции кратко:
  • Прогнозы / Forecast – добавляет линию прогноза по изменению показателя. Прогнозы доступны только когда на представлении есть хотя бы одна мера. Прогнозы недоступны на многомерных источниках данных.
  • Линия константы / Constant Line – добавляет статичную линию по заданному значению.
  • Линия среднего значения / Average Line – добавляет динамическую линию по среднему значению показателя.
  • Медиана с квартилями / Median with Quartiles – добавляет один или несколько набор медиан и интервалов распределения на лист.
  • Бокс плот / Box Plot – добавляет ящики боксплот на визуализацию. Боксплот отражает статистику по самой выборке значений.
  • Итоги / Totals – добавляет на визуализацию дополнительную категорию по выбранной модели агрегации. Есть возможность добавить под-итоги / Subtotals, при нескольких категориях.
  • Среднее значение с 95% доверительным интервалом / Average with 95% CI – добавляет линию среднего значения с диапазоном доверительного интервала в 95%. Доверительный интервал показывает диапазон, в который попадают значения показателя в 95% всех случаев.
  • Линия тренда / Trend Line – добавляет линию, построенную на значениях по заданной модели.
  • Диапазон референс значний / Reference Band – добавляет две линии – значения границы диапазона заданного показателя.
  • Диапазон распределения / Distribution Band – показывает диапазон распределения значений показателя по заданному правилу. Например, отмечает границу 60% и 80% от среднего.
ВДОХНОВЕНИЕ
Полезные ссылки по теме
Да прибудет с вами визуальная аналитика
Материал для ..."покопаться в терминах"
... несколько фишек для разнообразия приемов
Разъяснение от самого Tableau
Рабочие книжки, подготовленные SuperDataScience
Видео
Предлагаем вдохновиться потрясающей лекцией Джорджии Лупи посвященной ДатаГуманизму.
Дата Гуманизм
Giorgia Lupi: Data Humanism
МАТЕРИАЛЫ
Наши Артефакты
Помогут Вам лучше усвоить и вовремя вспомнить основные элементы методик, подходов, последовательностей действий, проверенных практик
Книги
Статистика в самой доступной и интересной форме. Что еще может быть лучше хорошего комикса о занудной теме.
Статистика в комиксах
Грейди Клейн и Алан Дебни
Иллюстратор Грейди Клейн и статистик Алан Дебни создали самое доступное и художественное пособие по статистике. Их книга-комикс учит собирать надежные данные, делать правильные выводы, владея ограниченной информацией, и оценивать надежность экзит-поллов и многих других данных, которые падают на вас со всех сторон каждый день.
Итоги этапа
Пробежались по функциональности аналитики, быстро, для ознакомления. Пролистали базовый курс статистики и вспомнили, чем мода от медианы отличается и как работают доверительные интервалы. Вдохновились гуманистическим подходом к визуализации данных и готовимся разбирать тему дашбордов в условиях приближающихся зимних холодов. Winter is coming. Виз виз уррра!
~
DATA YOGA CLUB