1. Понимайте с чем работаете
Прежде чем загружать данные, важно осознать и разобрать, с чем вы работаете. Изучите историю данных, каким контекстом они обладают. Это необходимо для того, чтобы вы знали как дальше производить очистку данных – например, какие столбцы вам понадобятся, а какие можно исключить.
2. Определите размер выборки
Когда вы подключаетесь к большому источнику данных, вы, скорее всего, захотите ограничить его выборкой, чтобы увеличить скорость работы и подготовки данных и оптимизировать производительность вашего компьютера. Если выборка не поможет вам решить задачу подготовки данных, вот несколько вещей, которые вы можете попробовать:
- Увеличьте размер выборки. Вернитесь на первый шаг загрузки источника и измените количество строк для сэмпла. Вы можете увеличить количество строк или включить все данные, но помните, что это может снизить скорость работы приложения. Еще одно предостережение заключается в том, что использование фиксированного количества строк возвращает то, что исходная база данных использует в качестве критериев для быстрого способа возврата запрошенных строк (т. е. это не обязательно означает верхние 1000 строк в базе данных).
- Используйте случайную выборку. По умолчанию Tableau Prep рассчитает оптимальное количество строк для показа в зависимости от общего количества полей в источнике и типов данных полей. Случайная выборка происходит на уровне базы данных, показывая количество запрошенных строк. База данных просматривает каждую строку и возвращает сформированный сэмпл. Эта опция также может влиять на производительность и зависит от источника данных.
- Добавьте фильтр. Добавляя фильтр на этапе загрузки, вы гарантируете, что данные, которые вставляются в ваш поток, имеют отношение к вашему анализу. Это дает вам более репрезентативную выборку, а также помогает с производительностью
3. Изучите данные
Во-первых, вы, скорее всего, захотите увидеть уникальное количество значений в заданном поле. В приведенном ниже примере, рядом с названиями названием полей, вы увидите число значений в этом столбце. Вы также захотите узнать, как связаны разные значения, чтобы была возможность выявлять отличия или проблемы с данными. В приложении Tableau Prep вы можете использовать подсветку для обнаружения связей между полями. Когда вы нажимаете на значение в панели профиля, оно сужает представление сетки данных, чтобы отображать записи, которые имеют эти значения в указанном поле. Tableau Prep подсвечивает значения полей и окрашивает связанные значения синим цветом.