일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 컨테이너
- konlpy
- 튜플
- 공빅데기관매칭
- 2회기출
- 딕셔너리
- 예측모델링
- 공공빅데이터청년인턴
- 워드클라우드
- 빅데이터분석기사
- 빅분기
- 파이썬
- 백준1920
- 빅분기실기
- 실기
- 태블로
- 셋
- 백준 2164
- 리스트
- 파이썬튜플
- 공빅데
- 파이썬딕셔너리
- dataq
- csv병합
- set시간복잡도
- 파이썬셋
- 작업형2
- 행별속성합계
- 파이썬입출력
- 파이썬AHP
- Today
- Total
목록데이터분석 (14)
Data Science
- 테이블 계산식 테이블 계산식에서 가장 중요한 전제 조건. 집계값을 이용해야한다! 다음 데이터를 4개년 평균매출 and 해당년도 평균매출 분기별 매출의 차이를 구해봅시다. 평균으로 시각화는 가능하나, 이 값을 이용할수가 없다. 집계된 합계 매출값을 가지고 다시 평균을 계산해야할때, 테이블 계산식을 활용한다. 수식이 위아래가 같습니다. 하지만, 해당 년도 평균 매출은 말그대로 '해당 년도'만 계산해야합니다. 그러기위해 '테이블 계산' 기능을 활용해봅니다. 다시말해, 테이블 계산식은 집계값을 기반으로 범위와 방향에 따라서 값(합계, 누계, 순위, 구성비율, 선/후행 비교...)들을 도출해낼수 있다. 다음 데이터에서 이전 달 대비, 늘었는지 줄었는지 그 차이값을 구해보려한다. 어떻게 계산되었는지 들여다보자...
1. 매개 변수를 사용하여 측정값 변경하기1 & 마크 색상 표현하기 (1) 하나의 시각화에서 여러 개의 측정값을 비교해보고, (2) 선택한 카페인 함유량에 따라서 카테고리 색상이 표시되도록 합니다. 먼저, 매개변수를 추가합니다. 만든 매개변수를 이용하기 위해서 계산된 필드 '선택한 측정값'을 만들어봅시다. 이전에는 CASE-WHEN 구문을 사용했다면, 이번엔 IF-ELSEIF 구문을 사용해봅니다. 위의 결과는 합계로 집계됩니다. 카테고리 별로 분석하는 것이니 집계형태를 평균으로 바꿔야겠죠? 이제 카페인 함유량에 따라서 색상을 표현하겠습니다. 매개변수를 추가해줍니다. 만든 매개변수를 이용하기 위해서 계산된 필드 '카페인 > 선택한 카페인'을 만들어봅시다. '카페인 > 선택한 카페인' 필드를 마크-색상에 놓..
이론 영상 - day2 때, 매출 > 2억 기준으로 색상을 표시를 했었다. 여기서, '2억'을 동적으로 바꿀 수 있게 해보자. *단계 크기: 최소값에서 최대값까지 값을 선택할때, 얼마만큼의 크기를 가지고 값을 증가 시켜 나갈지를 의미함 다음과 같이 생성된다. 아직 시각화에는 적용되지 않았다. 기존에 만든 계산된 필드인 '매출 달성 여부'를 수정하여 시각화에 적용해보자. '목표 매출 금액'은 동적인 변수이기에 보라색으로 표현이 됨을 알수있다. 다음 데이터에서는 매출 top 10 제품을 보여주자. 필드를 이리저리 움직일때, ctrl+이동을하면 복사해서 이동을 한다. 여기서 top10 이 아닌 top+동적 으로 하기 위해 매개변수를 만들어보자 매개변수를 생성한 후, 이번에는 계산된 필드를 사용하는 것이 아닌,..
이론 영상 - '계산에 오류 있음' 오류는 행 수준과 집계 수준이 섞였을때 발생한다. 즉, 행 수준은 모두 다 더해져서 2만 퍼센트가 나온것이다. 계산된 필드를 만들어, 매출 2억이상 인곳을 색상을 표시해보자. 매출 > 2억 (X) SUM(매출) > 2억 (O) DAY2 - 스타벅스 메뉴 분석 1. 워드클라우드 칼로리가 높은 메뉴명을 분석해보자. 크기와 색상을 이용해 한눈에 볼수 있다! 2. 박스플롯 데이터 분포, 이상치를 동시에 보며 서로 다른 데이터 군을 쉽게 비교할 수 있다. 칼로리와 카페인이 둘 다 낮는것을 분석해보자 박스플롯으로 칼로리, 점 색상으로 카페인을 표현했습니다. 낮게 있을수록 칼로리가 적고, 색상이 파란색 일수록 카페인이 적어요!! 3. 계산된 필드 만들기 평균 카페인 함유량이 80m..
1. 카테고리 별 평균 칼로리와 평균 카페인 하나의 카테고리에는 여러가지 음료 메뉴가 있기에 각종 음료의 칼로리/카페인 값은 다 더해진다. 칼로리, 카페인의 집계 형태를 평균으로 바꾸는게 바람직하다. 2. 메뉴명 별 칼로리 & 카페인 트리맵은 계층 구조의 데이터를 표시하는데 용이합니다. 3. 카테고리와 메뉴명을 한 번에 살펴보기 칼로리 평균에서 도구설명 - 시트 추가 4. 당분 함유량과 칼로리 상관관계 추세선을 만들기 위해선 좌측탭 - 분석 - 추세선(선형) 을 적용한다. 5. 시군구 별 매장 분포 현황 6. 대시보드 만들기 아직까진 기초 단계고 힌트를 많이 주셔서 수월하게 진행됐다.
출처 - 신효임 컨설턴트와 함께하는 온라인 기초실습교육 ( https://youtu.be/81vkiUW4QT4 ) Tableau Prep : 데이터 준비단계 - 정제 Tableau Desktop : 데이터 분석 및 시각화 Tableau Server, Online : 결과물 공유 - 웹과 모바일을 통해서 볼 수 있다. 연결 목록- 데이터 시트 목록- 데이터 안에 있는 시트를 보여줌 두 시트를 끌어서 오른쪽 화면에 두면, 어떤 필드(속성) 기준으로 조인해서 불러올것인지 결정하는 창이 나온다. 추출 형태로 저장하면 .hyper 확장자로 결정된다. 시스템 메모리에서 처리된다. 위쪽은 차원, 아래쪽은 측정값 잘 못 분류되어 있는 경우 드래그를 통해 이동가능하다. 필드가 많아질 경우 '폴더링' 기능을 이용하면 관리..
sns 텍스트 분석¶ 필요한 모듈/라이브러리 불러오기 In [ ]: import csv import pandas as pd import tweepy import konlpy import sys import numpy as np import os from konlpy.tag import Okt from PIL import Image from collections import Counter from wordcloud import STOPWORDS from wordcloud import WordCloud 데이터 불러오기¶ In [ ]: # 데이터 불러오기 df = pd.read_csv("sns_data_namyangju.csv",encoding='utf-8') #전체 df.head(5) Out[ ]: 원시데이..
여러 개의 CSV 파일 합치기 (행)¶ In [1]: import glob import pandas as pd 헤더가 있을때¶ In [2]: # 합쳐질 파일 형태 pd.read_csv('sample_marge/sample1.csv',encoding='cp949') Out[2]: 구분 이름 0 1번째 파일 A 1 1번째 파일 B 2 1번째 파일 C In [3]: path = 'D:/Jupyter/read_files_test/sample_marge/' merge_path = 'sample_merge_result_header_lib.csv' In [4]: file_list = glob.glob(path + '*') combined_csv = pd.concat([pd.read_csv(f,encoding='cp9..
sns 텍스트 분석¶ In [3]: import csv import pandas as pd import tweepy import konlpy import sys import numpy as np from konlpy.tag import Okt from collections import Counter from wordcloud import STOPWORDS from wordcloud import WordCloud from IPython.display import Image 데이터 불러오기¶ In [99]: # 데이터 불러오기 #df = pd.read_csv("TC_SN_NAMYANGJU__WEB_DOC_20210106142300/TC_SN_NAMYANGJU__WEB_DOC_20210106142300_sam..
https://passerby14.tistory.com/3