Tableau. Часть 2. Изучаем датасет и проверяем гипотезы

Как с помощью Tableau быстро проверить рабочую гипотезу или попытаться с нуля отыскать что-то интересное в данных

Дата
24 окт. 2020
Автор
Редакция
Tableau. Часть 2. Изучаем датасет и проверяем гипотезы

Мы с продолжаем изучать программу Tableau. Рассмотрим ее новые функции и посмотрим на то, как с ее помощью искать инсайты в данных. Для сегодняшнего занятия мы возьмем тот же датасет с аварийными домами, который был в прошлом выпуске.

Видео: Глеб Лиманский

Но перед тем как загрузить датасет в Tableau, лучше подготовить задачи заранее. Откроем наш датасет и посмотрим на то, какие колонки у него есть. С помощью изучения этих колонок мы можем задать вопросы, которые нам интересны. Я подготовил для сегодняшнего занятия некоторые вопросы. Они касаются домов, их характеристики и тех жителей, которые будут расселены в последствии. Мы можем проверить их с помощью программы Tableau. Для этого загрузим туда наш файл. Если вы забыли, как определить, подходит ли файл для табло и корректно ли он открывается, можете просмотреть предыдущий выпуск.  

В каких регионах больше всего аварийных домов?

Для того, чтобы ответить на первый вопрос, нам нужно знать две переменные — название региона и количество домов. Перетаскиваем Formalname Region в Rows, в Columns добавляем количество строк. Сортируем и получаем информацию о том, что самое большое количество аварийных домов находятся в республике Саха. Можем еще добавить отображение данных. Видим, что 5000 аварийных домов находится в Якутии.

О чем здесь важно знать. Мы получили такой рейтинг, но эти данные нужно нормировать. Нужно понять, какую долю это составляет от всего жилого фонда. Пока мы не можем оценить масштаб. Возможно, в Якутии просто очень много домов, и они все аварийные. Поэтому эти данные нуждаются в дальнейшей обработке и изучении.

В каких регионах больше всего аварийных домов?

Для этого можно просто создать дубликат нашего листа и поменять название региона на название города. Таким образом, мы узнаем, что больше всего аварийных домов находится в Архангельске. 

Из какого материала сделаны стены аварийных домов?

Мы поняли, какое количество домов находится в разных регионах. Но мы хотим знать о них больше. Создать портрет вот этого дома и узнать какой он.

Подписывайтесь на рассылку «Мастерской»
И вы узнаете о крутых инструментах для сбора, анализа и визуализации данных

Для этого у нас есть несколько полезных переменных. У нас есть переменная, которая называется «материал стен». Мы можем узнать, из какого материала сделаны стены этих домов. Мы перетаскиваем wall material в Rows, добавляем в Columns число домов. Делаем рейтинг и понимаем, что большинство этих домов — деревянные. В голове сразу всплывают эти старые деревянные обветшалые дома из далеких уголков России. Кроме того, программа может автоматически рассчитать процент. Для этого мы идем в Analysis-Percentage of-Table. Смотрим на процентное соотношение и видим, что почти 40% домов деревянные, и для многих домов, к сожалению, материал стен не указан. 

Какой этажности эти дома?

Интересно узнать, какой этажности эти дома. Это низкие дома или многоэтажки, или хрущевки, которые разваливаются на глазах?

Для это у нас есть переменные, которые называются «максимальное» и «минимальное» число этажей. Давайте возьмем максимальное. Но для начала переведем эту переменную в категории для того, чтобы нам было удобнее анализировать. Переносим, добавляем в Rows и опять добавляем число домов в Columns. Такими несложными вычислениями понимаем, что самые распространенные одно и двухэтажные дома.

Какой средний возраст аварийного дома?

Мы можем посмотреть средний возраст аварийного дома, потому что у нас есть графа «год постройки». Я заранее при подготовке данных вычел из 2020 года год основания дома и тем самым получилось, сколько лет каждому аварийному дому. Эта переменная называется «years». С ее помощью мы можем увидеть среднее значение по всем домам. Для этого просто перетянем ее на Text. Нажмем правой кнопкой, выберем Measure-Average. Таким образом, средний возраст нашего временного дома 63-64 года.

Мы понимаем, что эти дома были построены после войны в 50-х-60-х годах XX века. Возможно это бараки, в которых раньше жили люди, а сейчас они находятся в плачевном состоянии.

Мы можем посмотреть на возраст домов по-другому. Да, у нас есть, например, год, в котором дом был построен. Мы можем добавить число домов и получить график, который показывает, дома какого года чаще всего признаются аварийными. Мы видим пик на 1917 году. Тогда большевики без разбора ставили всем домам год постройки 1917, когда не знали настоящего. Основные пики видим на довоенных и послевоенных домах. 

Какие основные причины признания дома аварийным?

Мы хотим узнать, по каким причинам дома признаются аварийными. Для этого у нас есть переменная, которая называется alarm reason. Перетаскиваем ее на Row, добавляем число домов. Сортируем и понимаем, что большинство домов признаются аварийными из-за физического износа. Второе место в рейтинге занимают природные катастрофы, третье — пожары. Дальше идут менее частые причины. 

Можно на эти же данные посмотреть в разрезе регионов. Для этого во вкладке Show me меняет тип графика на стейк-чарт, переносим данные в Columns. В строки добавляем переменную Formalname region. В таком виде на данные смотреть неудобно. Можно представить все дома региона как 100%. Далее идем Analisys-Percentage of-Row. Теперь мы гораздо лучше видим, в каких регионах и по каким причинам дома признали аварийными.

Это повод заняться изучением конкретных регионов и превратить это в дата-историю.

Сколько людей планируют расселить?

Чтобы это выяснить, нам понадобятся две переменные Planned Ppl Count и Formalname Region. В лидерах по числу людей опять уже известная нам республика Саха. 

Тоже самое мы можем сделать и в разрезе времени. Создаем дубликат нашего листа и вместо регионов ставим Planned resettlement Date. Поменяем местами колонки и строки, чтобы получить линейный график. Видим пик на 2025 году и очень много незаполненных полей. 

Сколько дней в среднем люди ждут расселения?

В Tableau можно проводить и более сложные вычисления. У нас есть колонки «плановая дата расселения» и «фактическая дата расселения». Есть гипотеза, что в регионах люди могут долго ждать своей очереди на расселение из аварийного дома. Давайте ее проверим.

Для начала создадим вычисляемое поле — нашу новую переменную, которая покажет число дней от плановой и фактической даты расселения. Правой кнопкой нажимаем Create calculated Field. У нас появилось окно, в которое мы будем записывать вычисления. Функция, которая нам нужна, называет DATEDIFF. Пишем ее, далее после скобок пишем единицу времени — день, далее дату начала (планируемая дата расселения) и дату конца (фактическую дату расселения дату). Если все сделали верно, появится текст Calculation is valid. Не забудьте написать название нашего поля. Теперь у нас есть переменная duration, построим график с ней. Добавим в строки названия регионов, в столбцы — переменную duration. Установим для нее среднее значение.

Видим, что во многих регионах люди очень долго ждут расселения. Однако, есть и те, где в среднем расселяют раньше срока.

Программа Tableau содержит множество функций, мы разобрали далеко не все из них. Вы можете задать свои вопросы в чате Мастерской, чате Tableau или в Гугле. У Tableau большое коммьюнити и с помощью англоязычных запросов можно найти ответ на любой вопрос.

Важное объявление. Теперь уроки Мастерской будут выходить на отдельном канале, чтобы не пропустить следующие выпуски — подписывайтесь

Подписывайтесь и на мой телеграмм-канал о дата-журналистике и визуализации данных и на инстаграм с остроумными графиками.