ДЕНЬ 11
Про визуализации
СЕГОДНЯ

Сегодня мы начинаем новый этап в нашем пробеге. Следующие 20 дней марафона мы с вами системно рассмотрим подходы к построению наиболее популярных, востребованных и практичных видов визуализаций.
Ключевой идеей марафона остается обзор всего процесса проектирования визуализации данных, что в последствии, как мы надеемся, позволит каждому участнику оценить множество факторов, которые должны быть учтены в любом проекте. Этот подход значительно повысит ваши шансы как можно скорее выйти к наилучшему возможному визуальному решению. На повестке сегодня: визуальное восприятие и атрибуты, вопросы задаваемые к данным, обсуждение золотого набора визов для последующих дней марафона, ну и на конец дня поддержим диалог по поводу компетенций бизнес-аналитика, тема которая вызвала недавно оживленное обсуждение в русском таблочатике.
Самый визуальный этап марафона
РАЗБИРАЕМСЯ
Зачем нужна визуализация данных
Как часто вы пытались объяснить смешное видео своим друзьям, а вас не понимали? Ведь проще сразу показать это видео, вместо попыток пересказать его смысл словами.

Когда мы хотим донести какую-то информацию до нужной аудитории, наши слова могут быть восприняты неоднозначно. У каждого из нас свой личный, особый опыт, поэтому и восприятие одного и то же может сильно различаться. Даже одну и ту же презентацию на конференции слушатели воспримут по-своему: запомнят разные слайды, придумают разные вопросы. Как добиться безупречного и однозначного понимания среди таких разных людей одновременно?
Визуальные образы воспринимаются в 60 000 раз быстрее слов. Исследования Массачусетского Технологического Института (MIT) 2014 года показали, что человек может понять, что изображено на фотографии, посмотрев на нее всего 13 миллисекунд. К тому же, визуальные образы держатся в памяти намного дольше, вызывают больший эмоциональный отклик, и, что самое главное – очень ёмкие.

Как думаете, сколько информации могут воспринимать наши глаза?
Посмотрите на результаты исследования, которое было направлено на изучение работы органов чувств человека. Большая голубая область - количество информации, которое обрабатывается нашими органами зрения за 1 секунду. Следующие области показывают осязание (розовое), слух и обоняние (желтое) и органы вкуса (темно розовое): все площади показывают количество информации, которое усваивается через соответствующие органы чувств за 1 секунду. Белое пятно справа внизу - это то, сколько поступающей информации мы осознаем за этот отрезок времени.
Такое сравнение помогает оценить насколько эффективно наше зрение в целом и визуализация данных в частности
Кроме того, визуализация помогает наводить порядок, преобразовывая сырые данные в наглядные диаграммы и графики. Без визуализации данных, мы бы не смогли быстро и легко разбираться в таком огромном количестве данных, которые накапливаются сейчас каждый день. Данные без обработки, в сыром виде, нам ни о чем не скажут.
Чтобы понять суть данных и донести их до аудитории - надо поработать
Визуальные атрибуты
Помните пример о подсчете количества троек? Выделенные контрастным цветом цифры автоматически выходят на передний план, а вы сразу же обращаете на них внимание. Почему так происходит?
Мы можем так быстро считывать информацию благодаря визуальным атрибутам и нашему подсознанию. Визуальные атрибуты (preattentive attributes) – это набор визуальных «подсказок» для нашего подсознания. Они указывают нам на что обратить внимание.
Замечая визуальные атрибуты в текстах, на визуализациях, в рекламе, фотографиях, кино, постерах и любых визуальных материалах, наши глаза фокусируются на подобных контрастах. Мозг задает вопрос «почему этот элемент выделяется? что он пытается мне сказать?».

При помощи визуальных атрибутов, мы можем доносить до аудитории то, на что хотим обратить их внимание, еще до того, как они это осознают. Их внимание будет приковано к тому, что выделяется на общем фоне.
Основные визуальные атрибуты
Основные принципы визуализаций похожи на принципы визуальных атрибутов. Принципы нашего визуального восприятия всегда одинаковы – только на диаграммах мы показываем данные.
Но визуальные атрибуты различаются по точности, с которой они передают данные. В 80-е годы прошлого века, статистик Уильям Кливленд написал книгу «Элементы графических данных», после выхода которой визуализация данных обрела научную основу. Его работа не только описывает базовые «задачи восприятия», но и утверждает, с какими из них люди справляются лучше всего.
Именно он проводил эксперимент по изучению того, с какой точностью разные визуальные атрибуты доносят одинаковую информацию. Точность у них не одинаковая.

Например, положение точек или баров на общей шкале позволяет делать наиболее точные выводы и получать конкретные цифры. Это пример стандартной столбиковой диаграммы. А вот визуальные атрибуты размера или цвета дают только общие представления. Это значит, что посмотрев на график c пузырьками, вам будет сложно точно сказать на сколько один кружок отличается от другого. Если те же самые данные показать в виде барчарта - вы сможете сделать это точнее.
Посмотрите на пример ниже. Показаны отрасли (подписи наверху) и объем их финансирования за 2010 и 2015 года. Попробуйте ответить на эти вопросы:
  • Какая отрасль получила наибольшее финансирование в 2015 году?
  • Какая отрасль получила второе место по объему финансирования в 2015 году?
А теперь, посмотрите на варианты тех же данных ниже. Диаграмма была переведена в бары и заново скомпонована. Прощелкайте по слайдам и посмотрите ответы ниже. Сравните процесс вашего визуального восприятия.
А может и нет никакой разницы? Фрукт-фрукт. Цветок-цветок
Фрукт-фрукт
Цветок-цветок
Вопросы к данным
Попытка уменьшить размер перспективы… Вы не можете позволить себе все попробовать. Существует так много статистических методов и, как вы увидите, так много визуальных средств для показа данных, что вы просто не можете рассчитывать на возможность раскрыть всю поисковую артиллерию. Вы должны различать свою тактику, ставя правильные цели и задавая нужные вопросы к данным.
Ключевой идеей визуализации является поиск ответов на вопросы к данным, в понятной и доступной форме. Поэтому все составляющие материала, опубликованного в отчете или на сайте – заголовки, иллюстрации, текст, дополнительные справочные сведения – организуются так, чтобы максимально полно сообщить то, что интересует пользователя по данной теме.
Выбор способа визуализации данных зависит и от того, какой ответ мы хотим получить. На основе вопросов к данным были выделены и типы сравнения данных.
Типы сравнения
Мы можем показывать данные в разном виде – сравнивать нашу компанию с конкурентами, показывать долю выручки одного продукта от общей выручки, объяснять как что-то устроено при помощи схем и простых графиков или показывать как одна категория влияет на другу, и так далее.
На основе видов сравнению создаются схемы и каталоги визуализаций данных, в которых вам предлагается выбрать подходящий для себя график. Но сложно оперировать и отталкиваться от такого большого количества видов сравнения данных – очень легко запутаться и пойти не туда.

Мы выделили 6 основных типов сравнения, которые считаем наиболее популярными, и которые являются наиболее общими. Все остальное можно считать либо производными от этих видов, либо слишком специфичным.
Распределение величины. Самое простое что можно сделать с данными, имеющих даже всего одну переменную – это показать частотное распределение этой переменной. Используется, когда мы хотим понять какое значение внутри одного показателя встречается чаще других.
Сравнение категорий. Показать, что величина по одной категории больше, чем величина по другой категории. Сравнить эти числа.
Соотношение категорий. Показать соотношение нескольких категорий между собой. Показать зависимости. Или наоборот, доказать что зависимости нет.
Части целого. Показать внутреннее наполнение, долю от целого, структуру. Из чего состоит та или иная категория.
Изменение во времени. Показать, как изменялся показатель в динамике, где были всплески и спады, какая сезонность. Нужно видеть время.
Изменение на местности. Показать, где находятся или какой показатель имеют данные на географической местности.
Компоненты успешной визуализации
Выдерживаем баланс между прагматичностью и художественностью
Параллельные сэты - визуализация выживших на Титанике
Связь данных. Главным моментом такого типа визуализации является рациональное и эффективное информирование пользователя о данных.
Визуальная эффективность. Прагматическая визуализация использует визуальный канал для передачи большого количества информации как можно проще и понятнее.
Даны данные. Прагматическая визуализация не связана со сбором данных, хотя часто требуется их обработка.
Без контекста это чистое созерцание
Коммуникация проблемы или вопроса требующего решения. Данные являются средством коммуникации более глубоких проблем или идей.
Визуальная эффективность не проблема. Многие художественные визуализации не предназначены для того, чтобы быть эффективными, и либо сильно опираются на метафоры (в той степени, которая может повредить восприятию), либо на исследование формы. Художественные визуализации имеют возвышенное или созерцательное качество.
Сбор данных. Поскольку наличие данных часто является частью сообщения, сбор данных является важной частью работы. Это также может отражать объем работы, которая входила в сбор данных, что может быть значительным усилием.
УСПЕШНАЯ ВИЗУАЛИЗАЦИЯ. Сплетение целей, визуальных форм, данных и хорошей истории. Для успешной визуализации нужно учесть все составляющие
Результаты исследований

+ наиболее используемая визуализация данных часто подготовлена командой. Чаще всего дополнительно востребована экспертиза графического дизайнера, технического эксперта и эксперта по коммуникациям
+ инструментарий на примере дашбордов дает возможность вовлечь конечных пользователей для понимания своих потребностей, готовьте свои истории на дополнительных данных
+ будьте целенаправленными при определении аудитории для вашей визуализации. Учитывайте цифровую и визуальную грамотность, а также потребность в данных которые нужны аудитории для принятия решений
Хороший дизайн делает понятным и запоминающимся. Великий дизайн делает незабываемым и значительным.
// Дайтер Рамс
Золотой набор визуализаций
В следующие 20 дней, мы будем разбирать разные виды визуализаций и графиков. Мы выделяем несколько самых основных, нужных и популярных диаграмм, которые вам необходимо знать и понимать.
Эти виды диаграмм и графиков можно построить практически в любом инструменте для визуализации данных. Какие-то из них используются чаще, какие-то будут для вас специфичными.

Все равно в процессе вашей дальнейшей работы у вас будут складываться определенные предпочтения в пользу того или иного вида диаграммы, которая вам больше всего по душе или больше подходит под ваш личный вид деятельности.
Из меню Show Me
День за днем мы будем идти по этому набору (и даже дальше), рассказывая об особенностях виза дня, способах построения и примерах.

С нетерпением ждем начала нового этапа забега!
ПРАКТИКУЕМСЯ
Мы решили сбавить темпы практических заданий нашего марафона. Первые 10 дней стали настоящим забегом и тестом на выносливость.

Сегодня мы предлагаем вам попробовать себя в создании разных графиков. Попробуйте проанализировать, как они построены и повторить их самостоятельно. Что является их основным визуальным атрибутом? Может быть те же данные можно было показать лучше?

Сегодня день осознанной медитации.
Датасет
В качестве датасета сегодня учебные данные от Tableau: датасет по продажам в Superstore.
Вы можете найти его на первом экране вашей версии Tableau, в разделе Sample Datasource.

Скачать датасет
Задание
Повторить 4 вида графиков.

Скачать задание в виде книжки Tableau
Логика может привести вас от пункта А к пункту Б, а воображение — куда угодно.

Альберт Эйнштейн.
ВДОХНОВЕНИЕ
Полезные ссылки по теме
Пару ссылок на проекты-каталоги различных техник визуализации. Не все конечно полезно, а некоторые виды визов даже и вредны, но правильный ответ всегда будут диктовать условия, цели и среда применения инструментов.
Наш каталог карточек
Каталог визуализаций с удобным поиском, категориями и структурой входных данных
Отличное взаимодействие Google News Lab и Adioma
Потрясающие примеры для неструктурированных потоков
Наиболее полная коллекция артефактов
Видео
Ну и хорошее начало - погружение в историю визуализации. Стенфордский экспресс обзор.
Краткая история визуализаций
Helvetica documentary, 2007
МАТЕРИАЛЫ
Наши Артефакты
Сегодня мы делаем ссылку на отличный постер от Financial Time с набором базовых концепций визуализации
Книги
К разговору в Tableau чатике о границах и наполнении компетенции бизнес-аналитиков, мы решили поддержать этот диалог и предложить рассмотреть парочку работ в этой области - пересечение книги Винсента Гранвиля и стандарта BABOK версии 3. Интересно, что получится...
Развивая аналитический талант
Винсент Гранвиль
Гид по знаниям бизнесаналитика
v3
Компетенции исследователя данных
...в сравнении с профессией аналитика, который описывает явления на основе накопленных данных простыми пользовательскими средствами (вроде электронных таблиц или средств класса Business Intelligence), профиль специалиста науки о данных требует более глубоких знаний в математической статистике, машинном обучении и программировании.
АНАЛИТИЧЕСКАЯ ЭКСПЕРТИЗА

Способность определять наиболее подходящие методы для разных проблем, применять соответствующие методы для решения бизнес-задач и переводить результаты и идеи таким образом, чтобы бизнес смог понять их ценность. Эта способность основана на глубоком понимании статистического (например, регрессионного анализа, кластерного анализа и методов оптимизации) и вычислительных методов (например, машинного обучения, обработки естественного языка, анализа графиков / социальных сетей, нейронных сетей и имитационного моделирования).

ЭКСПЕРТИЗА ТЕХНОЛОГИЙ ДАННЫХ

Полное понимание внешних и внутренних источников данных, их сбор, хранение и извлечение. Это позволит 1) извлекать, преобразовывать и загружать хранилища данных; 2) извлекать данные из внешних источников (протоколы передачи данных); 3) использовать и управлять крупными хранилищами данных (такими как Hadoop, Hive, Mahoot и целый ряд новых технологий больших данных); а также 4) использовать разрозненные источники данных для анализа данных и генерации инсайтов.

БИЗНЕС-АНАЛИЗ

Способность формулировать то, как информация, идеи и аналитика могут помочь руководству ответить на ключевые вопросы - и даже определить, на какие вопросы необходимо отвечать. В этом блоке необходимо глубокое понимание бизнеса в цепочке создания стоимости (от маркетинга, продаж, распределения, операций, ценообразования, продуктов, финансов, рисков…)

ЭКСПЕРТИЗА ВИЗУАЛИЗАЦИИ

Полное понимание визуального искусства и дизайна. Это важно, потому что это позволяет тем, кто не является профессиональным аналитиком данных, интерпретировать данные. Соответственно, специалист должен уметь 1) проводить статистический и вычислительный анализ и превращать его в понятные графики, диаграммы и анимации; 2) создавать визуализацию (например, диаграммы движения, карты слов), которые ясно показывают понимание данных и соответствующей аналитики; а также 3) генерировать статические и динамические визуализации в различных визуальных средах (например, отчеты, экраны - от мобильных экранов до экранов ноутбуков / настольных компьютеров до больших стен визуализации, интерактивных программ и, возможно, в ближайшее время, дополненных очков реальности).
Итоги этапа
Сегодня мы ознакомились с новым маршрутом на ближайшие три недели, проверили свой золотой набор визов и разобрали необходимые компетенции бизнес-аналитика для будущей прокачки. Надеемся, что освоение визуальной аналитики не потребует столько усилий как погружение в концепции Tableau. После сборки всех визуализаций, каждый участник марафона получит электронный каталог визов от ДАТАЙОГА. До завтра всем! Виз виз урааа!
~
DATA YOGA CLUB