Как познакомиться с данными.
–Здрасьте!
Неделя 1
Добро пожаловать на Марафон!

Новый марафон Дата Йога, который мы проводим совместно с нашими партнёрами, продолжает уже сложившуюся традицию организации экспериментальных форматов обучения и коммуникации.

В этот раз, мы пробуем новый формат недельных спринтов, который поможет всем участникам:

+ Освежить подходы
и базовые знания работы с Tableau.
Работая каждую неделю с новым датасетом, совместно со всеми участниками марафона, развить существующие навыки визуализации данных и бизнес-аналитики для применения в работе и персональных проектах

+ Обменяться опытом с коллегами, пообщавшись в течение марафона в Телеграм-чате @tableau_chat по темам, которые будут меняться каждую неделю, и мы надеемся, станут хорошим генератором новых идей и лучших практик использования инструмента Tableau

+ Ознакомиться с принципами Дата Йоги, чтобы применять практики работы с данными более осознанно и чувствовать внутреннюю легкость и открытость

1000+
участников
Мы видим большой интерес участников к формату марафона, где каждый может для себя найти как подсказки и советы, так и ссылки на интересные материалы и полезные ресурсы.

Так как количество материала на этой странице рассчитано на целую неделю, то лонгрид получился объемным. Воспользуйтесь переходом на основные темы недели ниже.
ЗНАНИЯ
Обретаем здоровый разум и баланс при работе с данными внешнего мира путем соблюдения определенных правил: использования визуализации во благо, отказ от обмана, манипуляций и профанаций, отказ от накопления бесполезных данных и желания обладать ими бесцельно. Жизнь в ладу с внешним миром
ЧТО ТАкое датайога
В основе традиционной йоге, на основе которой развились практики датайоги, лежат практики и способы видения, помогающие человеку лучше узнать самого себя, сформировал свой "особый способ видения".

За время прошедшее со времен систематизации великими мистиками древнейших текстов индийской культуры, появилось множество интерпретаций слова "йога". Мы хотели бы обозначить в каких контекстах мы будем трактовать термин "датайога", появившийся на стыке современных технологий обработки и визуализации данных и потребности людей привнести в свою жизнь желаемые перемены, опираясь на все увеличивающийся объем данных нашего быстро меняющегося мира.
Мы будем рассматривать ДатаЙогу как:

+ Идею достижения того, что было прежде недостижимо, лежащее пока еще за пределами наших возможностей. Это идея изменений, которые происходят когда мы предпринимаем действия, позволяющие нам выйти за эти пределы, и в ходе дискуссии лучше понять себя или других. Мы каждый раз будем достигать точки, в которой никогда прежде не бывали

+ Образ действия
, при котором наше внимание целиком и полностью сконцентрировано на том, чем мы занимаемся в настоящий момент и тех задачах, которые мы решаем с помощью имеющихся у нас данных. Мы можем быть погружены в процесс, но на самом деле уделять ему очень мало внимания; действовать, но не присутствовать в своем действии
Датайога стремится к достижению такого состояния, когда вы присутствуете в каждом действии, которое вы осуществляете со своими данными. Концентрация внимания позволит вам выполнять работу лучше, чем прежде, и при этом осознавать все, что вы делаете. Ваша внимательность снижает вероятность ошибок, а осознанность во всех ваших действиях избавит от старых ненужных привычек. Вам не нужно будет уже делать что-то сегодня, только потому, что вы делали это вчера. Так вы сможете избежать бессмысленных повторений в своих поступках.

В истинной практике датайоги каждый человек идет своей дорогой. И для движения вперед нужно действовать, следя за направлением своего движения. Это поможет всегда знать, где находится цель и что нужно, чтобы до нее добраться. Такое внимательное наблюдение позволит вам постоянно обнаруживать что-то новое.
ПРИНЦИПЫ РАБОТЫ С ДАННЫМИ
На этой неделе мы хотим предложить для обсуждения три принципа ДатаЙоги, которые позволят лучше понять отношение каждого участника Марафона к окружающим данным и процессам их обработки.
Принцип 1
Не использовать визуализацию данных во вред обществу и самому себе
Принцип 2
Избегать манипуляций с данными и отказаться от лжи, профанаций и самообмана
Принцип 3
Отказаться от бесцельного накопления данных, не имеющих смысла
Предлагаем обсудить принципы Дата Йоги, поделиться практиками и подходами к быстрому пониманию дата сетов в Телеграмм комьюнити в течение этой недели – ищите чат по имени @tableau_chat
ПОДГОТОВКА К МЕДИТАЦИИ
Для тех участников, кто присоединился к текущему Марафону 8шагов ДатаЙога и не проходил подготовку по базовым концепциям Tableau, мы рекомендуем ознакомиться с материалами на сайте предыдущего забега. А для остальных участников, мы подготовили отдельный раздел, где собрали основные концепции для повторения. Мы надеемся, что иллюстративные материалы помогут быстро освежить полученные ранее знания и будут полезны для работ по визуализации недельных датасетов.

Давайте повторим как Tableau работает с данными при загрузке, как формируется визуализация, какие типы данных формируют оси, а какие заголовки. Пробежимся по наиболее часто используемым расчетным функциям, чтобы они были у нас под рукой во время Марафона.
Базовые концепции Tableau в кратком изложении
Работа в Tableau построена на взаимодействии с данными в рабочей книжке при помощи листов, почти как в Microsoft Excel. Рабочая книжка содержит вкладки, которые могут быть Рабочими листами, Дашбордами или Историями. Основная вкладка для работы с данными – Datasource. На ней подключаются новые и редактируются уже существующие источники данных. В остальных вкладках ведется работа над визуализацией данных.

Рабочий лист (Worksheet) содержит одно представление (визуализацию), с фильтрами, легендами и панелью данных, на которой доступен список полей. Создание визуализаций (диаграмм, графиков) происходит именно здесь.

Дашборд (Dashboard) – это коллекция нескольких рабочих листов. Дашборд позволяет визуально собрать в одном месте сразу несколько диаграмм и графиков, добавив к ним контекст, легенды, фильтры и выстроив логику работы.

История (Story) – это последовательность Рабочих листов или Дашбордов в виде повествования, презентации.

В рабочей книжке вы можете создавать новые Листы, дублировать их, скрывать или удалять. Каждый Лист может быть скопирован даже в новую рабочую книжку и сохранен отдельно.
Работа с данными в три шага
Детальная схема работы с продуктами экосистемы Tableau выглядит следующим образом:
  1. Выбор одного или нескольких источников данных
  2. Опционально: загрузка выбранных источников в Tableau Prep для дополнительных действий по очистке, трансформации и последующей загрузке обработанных данных напрямую в Tableau Desktop
  3. Создание визуализаций и дашбордов в Tableau Desktop. На этом шаге выполняется 90% всего анализа – фильтрация, сортировки, группировки, создание вычислений, выявление паттернов, … все возможности Tableau Desktop
  4. Результаты работы могут быть опубликованы на сервер или сохранены как локальный файл
  5. Отчеты, опубликованные на сервере, можно просматривать с Tableau Mobile
Схема работы продуктов Tableau
Tableau работает с плоскими таблицами. Поэтому, чтобы данные из вашего источника правильно интерпретировались программой, должен быть специальный формат. Напомним что в каком виде Tableau понравятся ваши данные.
Формат данных
для работы в Tableau
Типы полей в Tableau
Все поля на панели данных в Tableau делятся на две основные группы: Dimensions и Measures. На русский язык, эти термины можно перевести как Измерения и Меры.

Второе деление полей в Tableau: поля Discrete и Continuous. Эти термины переводятся как Дискретные и Непрерывные.
Таким образом, в Tableau может быть 4 типа полей:
  • Discrete Dimension*
  • Discrete Measure
  • Continuous Dimension
  • Continuous Measure*
Измерения определяют срез данных на визуализации, то какие категории вы хотите показать. Измерения не агрегируются, и показывают все уникальные значения категорий.
Меры агрегируются под выбранные измерения и добавляют числовое выражение визуализации.
Дискретные данные показывают текстовые значения. Обычная текстовая таблица строится в Tableau при помощи только дискретных полей.
Непрерывные данные рисуют оси. При появлении осей всегда появляется какая-либо визуализация, графическое представление данных. На каждое непрерывное поле Tableau нарисует свою ось.
Таким образом, если сгруппировать все перечисленные признаки, то –
Если посмотреть на то, как это влияет на внешний вид графика или диаграммы, которую вы хотите построить, то –
  • Дискретные измерения создадут подписи и визуальную иерархию полей
  • Непрерывные меры создадут ось по показателю, по которой будет откладываться длина столбца. Чем длиннее столбец – тем больше значение показателя.
Меры и измерения на графике
Работа с полями Дата в Tableau
Под временем мы понимаем данные, содержащие информацию о какой-либо точке во времени. В Tableau есть два типа временных полей: просто дата (Date) и дата + время (Datetime).

Алгоритм работы с датами имеет свои особенности. Для дат есть отдельный список функций, специальные настройки в фильтрах, уникальные способы отображения на визуализациях.

При работе с датами, Tableau по умолчанию создает иерархию вида: Год - Квартал - Месяц - День... вплоть до секунд, если поле имеет тип данных Datetime. Вам доступен переход по уровню иерархии одним кликом: по значку плюса, который появляется на названии поля из иерархии. Причем это доступно как разработчику в режиме редактирования, так и пользователю на самой визуализации в режиме просмотра.

Иерархии помогают нам гибко работать с датами, выбирая тот уровень, который нужен для конкретной задачи.
Показ даты и времени
Дата тоже может быть дискретной или непрерывной. Тип даты выбирается в зависимости от того, какая перед вами задача.

Вместе с понятиями дискретных и непрерывных дат, введем понятия date parts и date values.

Дискретные даты основаны на Date parts. Это буквально составные части даты. Если взять как пример дату 5 Марта 2019 года (05.03.2019), то Март (или 03) – это составная часть date part "месяц". Date part "день" = 5, а "год" = 2019. На составные части – date parts – можно разложить любую дату. Например, можно вывести на график только date part "месяц" за несколько лет, показав данные по каждому Марту за 10 лет – как по независимой категории.

Непрерывные даты основаны на Date values – значениях дат. Они следуют той же структуре что и date parts (год, квартал, месяц, неделя...). Разница в том, что date value подразумевает детализацию временной оси. При использовании непрерывных дат создается непрерывная ось времени, на которой вы потом выбираете нужную детализацию: показывать данные на уровне лет, кварталов, или месяцев.
Создание визуализаций
Все диаграммы составляются из разных кубиков, как конструктор Лего. Одни кубики влияют на макет и структуру визуализации (Rows/Columns), другие – на внешний вид (Marks: Color, Size, Shape, Detail), третьи – на выборку данных (Filters).
Структура рабочего окна Tableau Desktop
Есть несколько подходов к созданию визуализаций, но наиболее правильным будет подход по следующему маршруту:
  1. Определение нужных полей (Dimensions, Measures)
  2. Добавление выбранных полей в области Rows/Columns для получения структуры визуализации
  3. Если необходимо, то настройка фильтров (Filters)
  4. Изменение внешнего вида (Marks...)
  5. Добавление контекста (Labels, Tooltips, Заголовки)
  6. Прочие настройки: форматирование, размер визуализации, докручивание внешнего вида
Подход к созданию виза
Если разобрать уже готовую визуализацию на примере выше на составляющие, то мы увидим, что:
  1. Дискретное измерение "Жанр" находится в Колонках и разбивает график на вертикальные срезы
  2. Непрерывная мера "Количество фильмов" суммируется для каждого жанра, создает ось слева
  3. Несколько полей добавлены в фильтры, чтобы уточнить выборку
  4. В Marks выбран автоматический способ визуализации. Под эти данные подходят бары (столбцы)
  5. Поле "Страна" лежит в цвете и разбивает каждый столбец на три сегмента для трех стран. Видим легенду. В подписи столбцов также добавлено количество фильмов, которые мы видим на графике для каждой страны. Таким образом, уровень детализации графика определен дискретными полями "Жанр" и "Страна". А количество фильмов показывается для каждой комбинации значений этих двух полей
Функции для работы с данными
Если ваши исходные данные не включают в себя все поля, которые вам необходимы для визуального анализа, вы можете создать новые поля самостоятельно. Новые вычисления создаются на основе имеющихся полей, а затем сохраняются как часть источника данных. Например, если у вас в источнике есть поля Продажа и Себестоимость, то вы можете создать новое вычисляемое поле под названием Прибыль, которая вычисляет разницу между ними. Вы создаете вычисляемые поля в Tableau, определив формулу, используя стандартные функции, параметры, арифметические действия и операторы. При создании вычисляемых полей в Tableau, вы будете оперировать встроенными функциями работы с данными
Функции
в Tableau
Tableau по-настоящему раскрывает свою мощь в работе с функциями. Механика функций аналогична MS Exсel. Все функции разделены в зависимости от задач, на которые они нацелены. Все функции с синтаксисом, описанием и примером доступны в справке – в интерфейсе Tableau Desktop в окне создания вычисляемого поля.
Работа с текстом
Функции логики
Работа с датами
В большинстве функций для работы с датами нужно прописывать необходимый вам уровень иерархии времени – date part. Ниже приведено описание всех возможных значений date part с примерами.
Таким образом, в зависимости от того, какое значение даты вы хотите получить, вы можете написать следующие выражения:
Примеры выражений с использованием функции Dateadd
DATEADD('year', 1, TODAY() )   //прибавит один год к текущей дате
DATEADD('month', 1, TODAY() )  //прибавит один месяц к текущей дате
DATEADD('week', 1, TODAY() )   //прибавит одну неделю к текущей дате

DATEADD('year', -1, TODAY() )   //вычтет один год от текущий даты
Вот мы сделали быстрый обзор базовых концепций продукта. Давайте теперь посмотрим какие приемы и техники помогут нам понять наши данные.
наше внимание целиком и полностью сконцентрировано на том, чем мы занимаемся в настоящий момент
ПОГРУЖЕНИЕ В ДАННЫЕ
Мы собрали небольшой набор рекомендаций, которые, надеемся, будут вам полезны в вашей работе и хотели бы применить эти подходы к заданию этой недели. Итак, что можно использовать из оперативных подходов?

Прежде чем начинать работать с визуализацией данных, нужно понимать из чего состоят ваши данные: какие в них особенности, сколько строчек, сколько у вас мер и измерений. Без этих знаний полноценное понимание датасета невозможно. Чтобы не действовать вслепую и на ощупь, предлагаем ознакомиться с подборкой наших советов по работе с данными в Tableau.
Количество записей
Tableau генерирует несколько системных полей автоматически, и одно из них – поле Number of Records.

Для упрощения своей работы, сделайте новый рабочий лист, добавьте на него Number of Records и переименуйте это поле в то, что оно логически означает в ваших данных. Например, Number of Transactions – Количество транзакций (клиентов, заказов, звонков...)

Поле Number of Records – это автоматически генерируемое вычисляемое поле, в "расчете" которого просто устанавливается число 1. Это число связывается с каждой строкой в источнике данных. Если вы добавите поле Number of Records в представление, вы увидите суммарное количество всех строк в источнике данных (количество записей). Вы можете использовать поле Number of Records для быстрого подсчета значений различных измерений.
Описание полей
В начале работы с источником данных полезно будет изучить каждое из полей путем запуска Describe. Desrcibe (Описание)– это подпункт меню поля, которое показывает вам все нужные метаданные и значения выбранного поля.

Чтобы перейти в это меню, зайдите в контекстное меню нужного поля на панели данных по правой кнопке мыши (1) -> Describe (2) -> Load (3). Кнопка Load загрузит домен поля и покажет уникальные значения. В появившемся окне Describe field находится раздел с описанием самого поля: Role, Type, Remote column – тип данных, название исходного, системного поля в базе данных.

Данный подход работает быстрее, чем отдельное добавление каждого из полей на новые рабочие листы и отображение их значений. Кроме того, все метаданные собраны в компактном виде.
Группировка полей
Чтобы облегчить работу с источниками данных со многими полями, будет полезно организовать элементы панели данных в папки. Такие элементы, как поля, параметры и сеты могут быть сгруппированы в папки.

Выберите параметр Группировать по папке в контекстном меню панели данных или в контекстном меню поля.

Группируйте поля исходя из их смысла, бизнес-логики, типа данных. Если в вашем источнике много разных дат – сгруппируйте их в единую папку "Даты".

Если у вас есть географические данные – сгруппируйте их в папку (или даже в иерархию) по гео-признаку. Это поможет и вам и вашим коллегам.

Кстати, если выбран второй параметр – Группировать по таблице источников данных, измерения и показатели группируются в соответствии с таблицей базы данных, к которой они принадлежат. Это особенно полезно, когда у вас есть несколько соединенных таблиц.
Сортировка полей
В большинстве исходных таблиц, особенно в таблицах из баз данных, уже есть логика сортировки полей. Tableau же по умолчанию использует сортировку по имени поля в алфавитном порядке.

Попробуйте задать в источнике сортировку полей по порядку источника – возможно, так будет удобнее работать с данными. Настройка доступна в контекстном меню панели данных.

Ненужные поля
Некоторые поля бывают не нужны для анализа. Мы рекомендуем скрывать их на уровне Tableau для облегчения создания экстракта данных – скрытые и неиспользуемые поля не попадут в экстракт.

При большом количестве полей, скрытие неиспользуемых упрощает навигацию и просмотр данных. При этом, вы можете удалить ненужные поля еще на уровне источника данных, но если в будущем вам понадобятся эти поля – придется переделывать модель данных или сами данные. В Tableau же всегда можно их снова показать.

Какие поля можно скрывать? Например, системные, поля, которые содержат только одно значение, или просто избыточные поля, ненужные для анализа.

Проверка соединения нескольких таблиц (Joins)
При соединении нескольких таблиц с использованием Join в Tableau, не всегда понятно сколько строчек мы могли исключить, сколько строк не совпало по условию объединения?

При использовании нескольких таблиц, советуем подключить каждую таблицу отдельно и разобрать логику строк и полей. Это дает возможность понимания сколько строк получится после выполнения операции Join. Для подсчета количества строк используйте поле Number of Records, а для поиска уникальных ключей по полям – Describe field.

Механизм объединения таблиц
При настройке объединения нескольких таблиц в Tableau, используйте в первую очередь внутреннее соединение (Inner Join), так как этот тип соединения – самый быстрый по производительности.

Пользуйтесь этим советом особенно, если вам непринципиально какой тип соединения использовать, т.е. при полном соответствии таблиц (хотя такое редко бывает).

Использование строки состояния (Status bar)
Один из самых недооцененных элементов интерфейса Tableau – строка состояния или status bar. Между тем, это очень полезный инструмент для оценки текущего набора данных.

Строка состояния содержит информацию о количестве Marks, Rows, Columns и первое и основное поле Measure и его агрегацию. Переводим на понятный язык и показываем на примере: Marks показывает количество текущих отметок на визуализации (столбцы в бар-чарте или точки на диаграмме рассеяния) (1). На примере ниже, это число равно количеству строк (Rows) (2), которые соответствуют дням недели. Columns показывает количество столбцов – на текущей диаграмме мы показываем только один столбец с днями недель. И последнее число – сумма нашей единственной меры.
Используйте эти практические советы в своей повседневной работе с данными для облегчения взаимодействия и экономии времени. Будем рады услышать ваши личные лучшие практики в телеграм-чате @tableau_chat
ПРИМЕР ПОГРУЖЕНИЯ

у меня зазвонил телефон – кто говорит?
– Мегафон
В качестве примера по обработке данных, предлагаем вам посмотреть на процесс очистки данных, полученных при выгрузке звонков от оператора Мегафон
Сделав детализацию звонков и операций из личного кабинета Мегафон, мы получили таблицу с данными по звонкам за несколько месяцев. При этом, изначальная таблица в формате xls состояла из следующих столбцов:
  • дата
  • время
  • вид услуги
  • направление
  • набранный номер, точка доступа
  • местонахождение при использовании услуги
  • объём услуги
  • измерение объема
  • протарифиц. объём
  • измерение тарификации
  • стоимость, руб.
  • imei
Для того, чтобы работать с такой выгрузкой в Tableau, наша таблица должна быть определенного читаемого формата.
В частности, данные должны быть:
  • как можно более детализированными, а не агрегированными (такими как ежедневные данные о погоде, а не среднемесячные)
  • организованы как таблица базы данных (а не сводная таблица)
  • лишены посторонней информации и форматирования (всего, что не является данными и их заголовками)
Поэтому, мы должны вручную привести выгрузку в таблице выше к читаемому Tableau формату.
Наши шаги по очистке такого файла в Excel:
  1. убираем объединенные строки и заголовки, чтобы Tableau смог корректно прочитать названия столбцов
  2. убираем строки с итогами, т.к. итоги мы можем посчитать уже внутри Tableau и дублировать значения нам не нужно
  3. преобразуем объединенные ячейки в отдельные
  4. удаляем сервисные поля (все поля с единичным значением). Например "основной лицевой счет" на протяжении всей таблицы одинаковый, нам он не нужен для дальнейшего анализа
  5. исправляем разделители локали для понимания типов данных, т.е приводим значения вроде "52.50" в "52,50". Например, в полях "объем услуг" и "протарифиц. объем" – заменяем точку на запятую. Можно воспользоваться функцией в Excel, поиском и заменой, или же преобразовать в Tableau.
  6. убираем ненужное форматирование. Некоторые выгрузки содержат множество цветового форматирования, например, выделенная шапка таблицы, которая нам не нужна
Иллюстрация к первым трем шагам
После завершения всех шагов в Excel, открываем подготовленный набор данных в Tableau. Нам нужно проверить загруженные данные – то ли это, что мы запрашивали по объему и наполнению.

Внутри книжки Tableau

Так как в исходной таблице два поля с временем ("дата" и "время"), соберем из этих двух полей общее поле для удобной работы. Мы можем воспользоваться функцией dateparse, которая переводит текстовые значения в формат поля "date/datetime" по заданному шаблону. Мы также можем "скормить" функции уже объединенные значения даты и времени, которые мы сцепили через "+".

Проверим диапазон дат выводом максимального и минимального значений.
В исходной таблице есть поля по местонахождению при использовании услуг. Если в выгрузке таких местонахождений несколько, то мы можем обогатить наши данные, чтобы привести их к гео-формату Tableau и показать на карте.

Мы воспользуемся группировкой значений внутри поля "местонахождение", и сгруппируем, например, Москву и московскую область. Получившуюся группу можно переименовать, используя формат ISO Code 3. Так, Москва+Московская область станут частью RUS, а Рим+Неаполь – ITA. Полю из получившейся группы можно присвоить географическую роль Country и показать на карте.
Для чистой работы с данными, сгруппируем виды услуг при помощи тех же Groups, разбив их на два типа: услуги по типу (звонки, интернет, сообщения) и услуги по направлению (входящие, интернет, исходящие).
Последним шагом в подготовке данных в Tableau будет деперсонализация. Если мы хотим поделиться результатом в открытых источниках (facebook, telegram, Tableau Public), то нам нужно заменить все настоящие номера телефонов на вымышленные или не публиковать их.

Теперь мы можем переходить к постановке гипотез и исследованию.
В теле такая приятная гибкость образовалась...
Падал прошлогодний снег, мультшедевр
Формулировка и проверка гипотезы

Мегафон звонил автору этой выгрузки с предложением о смене тарифа "на более выгодный". Оператор сообщал, что затраты автора в месяц превышают 1000 рублей и что сейчас у него есть уникальная возможность получить новый, выгодный тариф.

Новые условия тарифа были следующими:
  • 500 смс
  • 1000 включенных минут на исходящие
  • Безлимитный интернет ("честный безлимит")
  • Стоимость 1000 руб в месяц

Давайте проверим гипотезу – действительно ли новый тариф был реально выгоднее?

Задаем три вопроса

Попробуем исследовать очищенные данные визуально и задать три вопроса, в разрезе месяца (ведь новый тариф тоже предлагает условия помесячно)

  1. Сколько смс отправляется и их стоимость
  2. Сколько минут выговаривается - объем и стоимость
  3. Сколько интернета используется - объем и стоимость
Мы подготовили целую интерактивную историю по анализу звонков, смс и интернета на Tableau Public
Мы смогли сделать важный вывод: автору не было выгодно соглашаться на новое условие от оператора, т.к. всплеск затрат в месяц более 1000 рублей был временным и был связан с Новым Годом. В другие месяца, затраты на звонки, интернет и сообщения в сумме были сильно ниже.
Считаем такой вывод прекрасным и полезным! После такого подробного погружения предлагаем перейти к самостоятельной практике.
ОПЫТ
Практикуемся на выгрузках собственных данных, ищем инсайты с помощью визуальной аналитики, задаем правильные вопросы и проверяем гипотезы. Обсуждаем идеи и подходы с коллегами по Марафону
inspired by DI.FM
На этой неделе мы предлагаем каждому участнику Марафона сделать выгрузку данных у своего оператора связи из личного кабинета и поработать с инсайтами в собственных данных. Рассказываем как и где получить данные.
МТС
Инструкция тут
Максимальный период – 6 месяцев
Билайн
Инструкция тут
Максимальный период – 6 месяцев
ТЕЛЕ 2
Инструкция тут
Максимальный период – 6 месяцев
Обратите внимание, что вам нужно будет зайти в свой ЛК на каждом из сайтов-операторов. Если у вас не оператор из списка выше – попробуйте сделать выгрузку самостоятельно или приходите в наш чат за помощью: @tableau_chat
Особенность МТС
Находка для любителей парсить данные в .pdf формате

Первое, что вам необходимо сделать, это зайти в свой личный кабинет.
Далее перейти в раздел "Детализация разговоров". Важно понимать, что ваша выгрузка, ее период и формат файла, с которым вам придется работать – зависят от того, на какой версии сайта вы находитесь. Например, на новой версии сайта в данном разделе выгрузить данные можно максимально за 3 месяца, только в формате .pdf. Также, отправка данных возможна только на указанный e-mail. Для более раннего периода придется обращаться в офис МТС.
Но, если перейти на старую версию сайта, то максимальный период выгрузки данных составит 6 месяцев и при выгрузке автор может выбрать для себя удобный формат файла. Бонусом также является тип отправки: сохранение выгрузки в ЛК или отправка на указанный e-mail. Как никак, а возможность выбора – это всегда плюс. Получив данные любым удобным для вас способом, можно открывать Tableau и подключаться к источнику данных
Если у вас не получилось выгрузить ваши собственные данные, вы можете исследовать очищенные данные из нашей объясняющей практики по Мегафону
Данные есть, знания есть. Дело за опытом. Пройдите путь от очистки данных и подготовки источника в Tableau к проверке гипотез: как часто вы пользуетесь смс, и сколько денег тратите на связь ежемесячно? Может быть вам стоит сменить тариф на более выгодный?
Задания
  • Найти 3 инсайта в своих данных путем визуальной аналитики
  • Ответить на 3 предварительно поставленных вопроса
  • Проверить 1 гипотезу
  • Поделиться идеями и находками в чате Марафона
ВДОХНОВЕНИЕ
Рассматриваем какие выводы можно сделать на основе доступных метаданных человека, изучаем интересные ссылки на материалы темы текущей недели, листаем на полке рекомендуемые книжные издания и накапливаем полезняшки-артефакты Tableau для вспомогательной работы с продуктом
ОТКРЫТАЯ ЖУРНАЛИСТИКА
Кейс открытой журналистики
В качестве опыта по расширению вашего кругозора, предлагаем вам прочитать кейс открытой журналистики от ABC. Полный текст статьи доступен по ссылке на английском языке, а ниже мы приведем выжимку основных моментов.
Will Ockenden
Журналист
ЧТО ДАННЫЕ ЖУРНАЛИСТА РАССКАЖУТ О ЕГО ЖИЗНИ?

Уилл Окенден – журналист из Австралии – согласился поделиться своими личными данными для проведения открытого исследования, чтобы посмотреть какие выводы и гипотезы о его жизни смогут построить другие люди на основе его личных данных. Для анализа Уилл выгрузил данные с телефонных вышек за целый год, и порой выводы были настолько верны, что журналист был серьезно озадачен: каким образом читатели смогли описать факты из его личной жизни настолько точно?
ГДЕ ОН ЖИВЕТ И РАБОТАЕТ, КАКИМ ТРАНСПОРТОМ ПОЛЬЗУЕТСЯ И КАКИМ МАРШРУТОМ ЕЗДИТ
На тепловых картах Уилла были четко обозначены две основные горячие точки в Сиднее, и одна из них находится в кластере вышек сотовой связи вокруг офисов Ultimo. Другой горячей точкой в Сиднее был жилой комплекс в Мэнли, где Уилл живет.

Конечно, случались и неверные предположения. Например, один из читателей выразил мысль, что Уилл ходит играть в гольф в один из близлежащих клубов, но Уилл опроверг такую идею, сказав, что он безнадежен в гольфе.



Поскольку изначальные данные были точными, исследователи смогли определить вид транспорта, на котором Уилл добирается до работы: при помощи парома или автобусом. Читаели смогли даже угадать название конкретных остановок.

Уилл был удивлен, что читатели смогли доказать, что он стоял в пробке во время поднятия моста рядом с Мэнли.

Вопросы, на которые отвечали в процессе работы с данными: место жительство родителей Уилла, время посещения родителей.

В процессе работы с данными, читатели генерировали интересные гипотезы. Например, посмотрев на анализ вышек в Рождество и степень активности телефона Уилла, читатели сделали вывод, что он проводил время, скорее всего, с близкими и, как следствие, оказались правы.

Второй гипотезой, которую проверили читатели, стала информация по вылету Уилла из аэропорта. Читатели использовали google, для того чтобы определить номер рейса, зная примерное время вылета.

Далее читатели пошли дальше и предположили, что Уилл находился за границей, когда последний сигнал с телевышки был получен с международного аэропорта. К тому же, в течение какого-то времени телефон Уилла был не активен, а не просто выключен.
Длительные перемещения
Перед читателями поставили задачу: выяснить топ-10 контактов Уилла.

Но в полученных данных не учтено расхождение в контактах. Причина в том, что пользователям iPhone можно отправлять sms через imessage и такие данные могут быть неполными или отличаться от пользователей с android.
Топ-10 контактов
Тем не менее, в исследовании таких данных очень важен контекст и дополнительные знания о человеке. Например, если не знать, что Уилл вахтовой рабочий, то можно построить неправильные гипотезы и сделать неправильный вывод о его рабочем графике (собственно, что и вышло).

Многие из "поздних ночей" Уилла на самом деле были ранним утром. Люди утверждали, что он работал с воскресенья по четверг, тогда как на самом деле он работает в различные смены в течение всех семи дней.

Советуем вам изучить полный текст материала на английском языке и посмотреть на интерактивные карты на странице статьи по ссылке.
ПОЛЕЗНЫЕ ССЫЛКИ
От ... и до...
ПОЛЕЗНЫЕ КНИЖКИ
Осмысляя изученные подходы работы с Tableau и сопутствующими практиками визуализации и обработки данных, хотелось бы каждую неделю предлагать Вам для ознакомления издания или дополнительные материалы по теме. Этот раз для продолжения тематики персональных данных и визуализации информации из открытых источников, предлагаем обзорную работу по журналистике, а для тех участников, кто хочет освежить свои подходы к работы с Tableau более системно, предлагаем ознакомиться с последними новинками этой области.
ПОСОБИЕ ПО ЖУРНАЛИСТИКЕ ДАННЫХ
Пособие по журналистике данных – это перевод известной книги The Data Journalism Handbook, которая является практическим руководством с лучшими практиками в сфере журналистики данных во всем мире. Сейчас онлайн-версия пособия на русском языке находится в свободном доступе.
Эта книга станет полезным источником информации для каждого, кто полагает, что ему может быть интересно стать профессионалом в области журналистики данных, или как минимум по-любительски заниматься или поверхностно ознакомиться с журналистикой данных.
НАЧАЛО РАБОТЫ С TABLEAU 2018.x
Подробная и конкретная поваренная книга для работы в Tableau новых версий. Если вам не хватало точных указаний и подробных скриншотов при изучении продукта – ознакомьтесь с книжкой по ссылке.
НАШИ АРТЕФАКТЫ
Помогут вам лучше усвоить и вовремя вспомнить основные элементы методик, подходов, последовательностей действий, проверенных практик
Эти постеры помогут вам рассмотреть подробнее ключевые элементы процесса визуализации в Tableau. На них вы также найдете элементы, разговор о которых у нас состоится в последующие дни, например, порядок операций в Tableau – тема, которая всегда вызывает крепкие дискуссии у практиков. Накапливайте артефакты Марафона, чтобы лучше и эффективнее погрузиться в мир визуализации, в мир Tableau.
~
Итоги этой недели

Мы обсуждаем принципы Дата Йоги, делимся практиками и подходами к быстрому пониманию дата сетов, практикуемся на собственных данных услуг мобильных операторов связи, проверяя гипотезы и задавая интересующие вопросы к выгруженным данным. Первая дата-медитация с простым датасетом позволит Вам найти интересные инсайты и поделиться ими в комьюнити. До встречи в чате или до начала новой темы. Виз виз урррааа!
DATA YOGA CLUB