Data Science

[태블로] [DAY2] 행과 집계, 필드계산 본문

데이터분석

[태블로] [DAY2] 행과 집계, 필드계산

shinho0902 2023. 6. 6. 15:38

이론 영상 - <행과 집계>

행/집계 수준 계산식

'계산에 오류 있음' 오류는 행 수준과 집계 수준이 섞였을때 발생한다.

 

 

계산된 필드 만들기
백분율 형태로 지정
비교
원래 데이터 형태

즉, 행 수준은 모두 다 더해져서 2만 퍼센트가 나온것이다.

 

계산된 필드를 만들어, 매출 2억이상 인곳을 색상을 표시해보자.

매출 2억 이상

매출 > 2억 (X)

SUM(매출) > 2억 (O)

 

2019 매출액 행 수준으로 불러오기

 


DAY2 - 스타벅스 메뉴 분석

DATA 필드명

1. 워드클라우드

칼로리가 높은 메뉴명을 분석해보자.

워드클라우드

크기와 색상을 이용해 한눈에 볼수 있다!

 

2. 박스플롯

데이터 분포, 이상치를 동시에 보며 서로 다른 데이터 군을 쉽게 비교할 수 있다.

 

칼로리와 카페인이 둘 다 낮는것을 분석해보자

박스플롯

박스플롯으로 칼로리, 점 색상으로 카페인을 표현했습니다.

낮게 있을수록 칼로리가 적고, 색상이 파란색 일수록 카페인이 적어요!!

카페인과 칼로리가 0이네요

3. 계산된 필드 만들기

평균 카페인 함유량이 80mg 보다 높은 카테고리와 아닌 카테고리를 분류해서 보자.

계산된 필드
카페인 80mg

+@ 추가 도전과제

매장명 별로 매장운영시간을 표현하고, 시도를 필터로 걸어 각 시도의 매장별운영시간을 확인하자.

 

계산된필드-매장운영시간

DATEDIFF 함수에서 '날짜_부분'은 다음을 참고

DATE_PART (날짜_부분)

필터는 '시도' 기준으로 하면된다!

또한, 단일 값(목록) 형태 필터로 바꾸자

 

시도 필터 만들기

 

 

매장운영시간

 

 


하나씩 해결해 나가는 과정이 은근히 재밌다.

기능적 역량을 확실하게 쌓을 뿐만아니라, 어떤 상황에서 어떤 분석을 해야할지 잘 염두해둬야겠다.

 

 

 


수정 - 추가 도전과제 오답

매장 운영시간을 계산을할때,

'hour' 로 했을때는 분 단위차이가 계산되지 않은 한계점이 있습니다.

다음과 같이 환산하는 것이 더욱 정확합니다.

계산된필드-매장운영시간(수정)
분단위 환산

추가적으로 데이터들이 30분 단위로 되어있기 때문에, 0.500 처럼 뒤에 00은 필요가 없고 보기 싫습니다.

서식을 변경해보자

서식 변경

 

0.0 형식으로 변경

 

Comments