Data Science

[태블로] [DAY4] 테이블 계산식, 시간 분석, 덤벨 차트 본문

데이터분석

[태블로] [DAY4] 테이블 계산식, 시간 분석, 덤벨 차트

shinho0902 2023. 6. 8. 23:21

<이론영상> - 테이블 계산식

 

테이블 계산식에서 가장 중요한 전제 조건. 집계값을 이용해야한다!

계산 유형

다음 데이터를 4개년 평균매출 and 해당년도 평균매출 분기별 매출차이를 구해봅시다.

평균선

평균으로 시각화는 가능하나, 이 값을 이용할수가 없다.

집계된 합계 매출값을 가지고 다시 평균을 계산해야할때, 테이블 계산식을 활용한다.

필드 - 4개년 평균 매출
필드 - 해당 년도 평균 매출

수식이 위아래가 같습니다.

하지만, 해당 년도 평균 매출은 말그대로 '해당 년도'만 계산해야합니다.

그러기위해 '테이블 계산' 기능을 활용해봅니다.

테이블 계산
매출 - 평균
결과

다시말해, 테이블 계산식은 집계값을 기반으로

범위와 방향에 따라서 값(합계, 누계, 순위, 구성비율, 선/후행 비교...)들을 도출해낼수 있다.


다음 데이터에서 이전 달 대비, 늘었는지 줄었는지 그 차이값을 구해보려한다.

데이터
퀵테이블계산 - 차이

어떻게 계산되었는지 들여다보자.

테이블(옆으로)

매출의 차이가 이전 달과 비교해서 나타내진다.

노란색으로 칠해져 있는곳이 계산되는 방향이다.

 

여기서 해당 년도 안에서만 이전달과 비교하려면 '패널(옆으로)'를 선택하면 된다.

패널(옆으로)

기준에 대한 기능은 다음과 같다.

기준

이전: 이전 달과 차이

다음: 다음 달과 차이

첫 번째: 1월 달과 차이 (해당년도와 비교일때)

지난: 거꾸로 12월 부터 차이


DATA : 도시대기 미세먼지

데이터 필드명


1. 라인차트

라인 차트는 시간의 흐름에 따라 데이터의 패턴과 트랜드를 보는데 가장 많이 사용됩니다. (즉, 시계열 분석)

월 별 미세먼지 평균 지수를 살펴보자.

월 별 미세먼지 평균 지수

여기서 월별로 나누되, 년도별 AND 월별로 미세먼지 평균을 시각화 해보자

표현 형태

위 메뉴에서 표현 형태(회색글자)를 보면 어떤 식으로 나누어 시각화할지 볼수있다.

년도별 AND 월별

 


2. 하이라이트 테이블

하이라이트 테이블을 사용해서 시도/월 별 미세먼지 패턴을 살펴봅시다.

열에 '월(기준년월)', 행에 '시도'를 넣는다.

열 - 월(기준년월)

마크는 사각형, 색상과 레이블은 미세먼지 평균을 넣어준다.

마크 - PM10
결과

 


DATA : 빅맥 지수 (big-mac-raw-index)

데이터 필드명

3. 테이블 계산식을 이용한 시간 분석

Dollar Price 를 이용해서 2000년 대비 2020년의 빅맥 가격국가별로 얼마나 상승했는지 '상승 비율'을 통해서 시각화 해봅시다.

 

먼저, 2000년, 2020년만 선택합니다.

2000년, 2020년 선택

달러를 합계에서 평균으로, 그리고 비율 차이 표현으로 바꿔줍시다.

달러

테이블 계산식을 사용해봅시다. 기준은 2000년이니 '첫번째'로 해야합니다.

테이블 계산 편집

마커 색상은 평균(달러), 레이블은 국가명을 붙여 완성합니다.

결과
해석

브라질이 빅맥지수 상승률이 제일 높습니다.


4. 덤벨 차트

덤벨차트로 연도별로 최대/최소의 빅맥 가격 차이 변화를 살펴봅니다.

추가적으로 한국 빅맥 가격도 같이 보게 합시다.

 

여기서 '측정값' 및 '측정값 이름'을 활용하는데 조금 헷갈린다. 잘 이해해보자.

https://help.tableau.com/current/pro/desktop/ko-kr/datafields_understanddatawindow_meavalues.htm

 

측정값 및 측정값 이름

데이터 패널에는 항상 원래 데이터에서 제공되지 않는 많은 필드가 포함되며, 그 중 두 개가 측정값 및 측정값 이름입니다

help.tableau.com

[측정값]: 연속형 값으로 단일 필드에 수집된 데이터의 모든 측정값을 포함합니다. 개별 측정값 필드를 측정값 카드 밖으로 끌어 뷰에서 제거합니다.

[측정값 이름]: 필드는 불연속형 값으로 단일 필드에 수집된 데이터의 모든 측정값 이름을 포함합니다.

 

 

먼저 행을 년월 기준으로 설정한다.

행 - 년월

덤벨차트는 하나의 축에 여러개의 측정값을 표현합니다.

때문에, 여러개의 측정값을 하나의 축에 표현하기 위해서는 '측정값' 필드를 이용해야합니다.

 

열에 측정값을 두고, 필터로 측정값 이름을 설정합니다.

달러와 한국가격만 필터링 합니다.

측정값

측정값 선반에

합계(한국가격), 최대값(달러), 최소값(달러), 을 만들어 줍니다.

측정값 선반

*최소값(Dollar Price)가 왜 분(..)으로 표기되는지 모르겠음, 버그인듯함 + 추가 : min -> 분 으로 해석해서 그렇다함ㅎㅎ

 

마크의 형태를 원으로 표현하고, 색상은 측정값 이름으로 구분해봅시다.

중간결과 - 1

측정값(한국돈 합계, 달러 최대/최소)이 이름별로 색상이 적용됐습니다.

 

 

이제 덤벨형태를 만들기 위해선 수평선이 필요합니다.

열에 있는 '측정값' 필드를 복사한 후,

마크의 형태를 라인으로 변경, '측정값 이름'을 경로로 설정하세요

 

중간결과 - 2

위와 같이 최소부터 최대까지 이어지는 선을 만들 수 있습니다.

만든 두 시각화를 합치면 완성이 됩니다. 이중 축을 활용해봅시다.

이중축

이중축을 하고 축 동기화를 거쳐야 합니다. (축의 범위 동기화)

그리고 해당 결과에서 선이 위로 올라와서 점을 가립니다.

그럴때는 열의 순서를 바꾸어 주면 됩니다. 

열 순서 변경

 

최종 결과

 

 


+@ 추가

'측정값 이름' 필드를 경로에 두면 왜 수평선이 되는건지 잘 이해가 안간다.

그냥 라인으로 하면 아래와 같이 생겼다.

측정값 이름 - 라인

 

이중축을 적용해서 경로를 했을때와 안했을때를 다시 비교를 해본다.

노랑-라인 / 초록-라인+경로

라인만 하는거는 일반적인 선차트로 이해하면 될거 같고

라인+경로는 약간 최대 최소 차이의 누적 차트(?) 느낌으로 이해해야 할거 같다. (실제 누적은 x)

행/열 전환

행열을 바꿔보니 이해가 조금 더 되는거 같다.

결국, 시계열 분석인데 x축이 시간이 아니라 어색했던거 같다.

 


덤벨차트라는 것을 처음 들어보고

'측정값', '측정값 이름' 필드를 처음으로 활용을 해봤다,

기회가 있을때 자주 써보려고 노력을 해봐야겠다.

 

 

오늘은 은근히 버벅댔던게 많았지만, 이전에 여러번 반복됐던 내용은 자연스레 반복 숙달되어 쉽게 했다.

오늘 새로 배운것도 나중에는 자연스럽게 쓸 수 있을거라 생각한다.

 

 

 

 

 

Comments