일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 파이썬셋
- 실기
- 백준 2164
- 빅데이터분석기사
- csv병합
- set시간복잡도
- dataq
- 파이썬입출력
- 파이썬
- konlpy
- 딕셔너리
- 파이썬딕셔너리
- 리스트
- 행별속성합계
- 튜플
- 파이썬튜플
- 공공빅데이터청년인턴
- 파이썬AHP
- 예측모델링
- 셋
- 2회기출
- 백준1920
- 컨테이너
- 태블로
- 워드클라우드
- 작업형2
- 공빅데기관매칭
- 빅분기
- 빅분기실기
- 공빅데
- Today
- Total
목록전체 글 (53)
Data Science
- 테이블 계산식 테이블 계산식에서 가장 중요한 전제 조건. 집계값을 이용해야한다! 다음 데이터를 4개년 평균매출 and 해당년도 평균매출 분기별 매출의 차이를 구해봅시다. 평균으로 시각화는 가능하나, 이 값을 이용할수가 없다. 집계된 합계 매출값을 가지고 다시 평균을 계산해야할때, 테이블 계산식을 활용한다. 수식이 위아래가 같습니다. 하지만, 해당 년도 평균 매출은 말그대로 '해당 년도'만 계산해야합니다. 그러기위해 '테이블 계산' 기능을 활용해봅니다. 다시말해, 테이블 계산식은 집계값을 기반으로 범위와 방향에 따라서 값(합계, 누계, 순위, 구성비율, 선/후행 비교...)들을 도출해낼수 있다. 다음 데이터에서 이전 달 대비, 늘었는지 줄었는지 그 차이값을 구해보려한다. 어떻게 계산되었는지 들여다보자...
1. 매개 변수를 사용하여 측정값 변경하기1 & 마크 색상 표현하기 (1) 하나의 시각화에서 여러 개의 측정값을 비교해보고, (2) 선택한 카페인 함유량에 따라서 카테고리 색상이 표시되도록 합니다. 먼저, 매개변수를 추가합니다. 만든 매개변수를 이용하기 위해서 계산된 필드 '선택한 측정값'을 만들어봅시다. 이전에는 CASE-WHEN 구문을 사용했다면, 이번엔 IF-ELSEIF 구문을 사용해봅니다. 위의 결과는 합계로 집계됩니다. 카테고리 별로 분석하는 것이니 집계형태를 평균으로 바꿔야겠죠? 이제 카페인 함유량에 따라서 색상을 표현하겠습니다. 매개변수를 추가해줍니다. 만든 매개변수를 이용하기 위해서 계산된 필드 '카페인 > 선택한 카페인'을 만들어봅시다. '카페인 > 선택한 카페인' 필드를 마크-색상에 놓..
이론 영상 - day2 때, 매출 > 2억 기준으로 색상을 표시를 했었다. 여기서, '2억'을 동적으로 바꿀 수 있게 해보자. *단계 크기: 최소값에서 최대값까지 값을 선택할때, 얼마만큼의 크기를 가지고 값을 증가 시켜 나갈지를 의미함 다음과 같이 생성된다. 아직 시각화에는 적용되지 않았다. 기존에 만든 계산된 필드인 '매출 달성 여부'를 수정하여 시각화에 적용해보자. '목표 매출 금액'은 동적인 변수이기에 보라색으로 표현이 됨을 알수있다. 다음 데이터에서는 매출 top 10 제품을 보여주자. 필드를 이리저리 움직일때, ctrl+이동을하면 복사해서 이동을 한다. 여기서 top10 이 아닌 top+동적 으로 하기 위해 매개변수를 만들어보자 매개변수를 생성한 후, 이번에는 계산된 필드를 사용하는 것이 아닌,..
이론 영상 - '계산에 오류 있음' 오류는 행 수준과 집계 수준이 섞였을때 발생한다. 즉, 행 수준은 모두 다 더해져서 2만 퍼센트가 나온것이다. 계산된 필드를 만들어, 매출 2억이상 인곳을 색상을 표시해보자. 매출 > 2억 (X) SUM(매출) > 2억 (O) DAY2 - 스타벅스 메뉴 분석 1. 워드클라우드 칼로리가 높은 메뉴명을 분석해보자. 크기와 색상을 이용해 한눈에 볼수 있다! 2. 박스플롯 데이터 분포, 이상치를 동시에 보며 서로 다른 데이터 군을 쉽게 비교할 수 있다. 칼로리와 카페인이 둘 다 낮는것을 분석해보자 박스플롯으로 칼로리, 점 색상으로 카페인을 표현했습니다. 낮게 있을수록 칼로리가 적고, 색상이 파란색 일수록 카페인이 적어요!! 3. 계산된 필드 만들기 평균 카페인 함유량이 80m..
1. 카테고리 별 평균 칼로리와 평균 카페인 하나의 카테고리에는 여러가지 음료 메뉴가 있기에 각종 음료의 칼로리/카페인 값은 다 더해진다. 칼로리, 카페인의 집계 형태를 평균으로 바꾸는게 바람직하다. 2. 메뉴명 별 칼로리 & 카페인 트리맵은 계층 구조의 데이터를 표시하는데 용이합니다. 3. 카테고리와 메뉴명을 한 번에 살펴보기 칼로리 평균에서 도구설명 - 시트 추가 4. 당분 함유량과 칼로리 상관관계 추세선을 만들기 위해선 좌측탭 - 분석 - 추세선(선형) 을 적용한다. 5. 시군구 별 매장 분포 현황 6. 대시보드 만들기 아직까진 기초 단계고 힌트를 많이 주셔서 수월하게 진행됐다.
출처 - 신효임 컨설턴트와 함께하는 온라인 기초실습교육 ( https://youtu.be/81vkiUW4QT4 ) Tableau Prep : 데이터 준비단계 - 정제 Tableau Desktop : 데이터 분석 및 시각화 Tableau Server, Online : 결과물 공유 - 웹과 모바일을 통해서 볼 수 있다. 연결 목록- 데이터 시트 목록- 데이터 안에 있는 시트를 보여줌 두 시트를 끌어서 오른쪽 화면에 두면, 어떤 필드(속성) 기준으로 조인해서 불러올것인지 결정하는 창이 나온다. 추출 형태로 저장하면 .hyper 확장자로 결정된다. 시스템 메모리에서 처리된다. 위쪽은 차원, 아래쪽은 측정값 잘 못 분류되어 있는 경우 드래그를 통해 이동가능하다. 필드가 많아질 경우 '폴더링' 기능을 이용하면 관리..
2-1 토큰화란?¶ 문장을 토큰 시퀀스로 나누는 과정 단어 단위 토큰화: 어휘 집합의 크기가 커져 모델 학습이 어렵다. 문자 단위 토큰화: 미등록 토큰 문제로부터 자유롭다 각 문자 토큰이 의미 있는 단위가 되기 어렵다. 서브워드 단위 토큰화: 단어와 문자 단위 토큰화의 장점만 취한 형태 어휘 집합 크기가 커지지 않으면서도 미등록 토큰 문제를 피하고, 분석된 토큰 시퀀스가 너무 길어지지 않게 한다. 2-2 바이트 페어 인코딩(BEP)이란?¶ BEP는 사전의 크기 증가를 억제하면서도 정보를 효율적으로 압축할 수 있는 알고리즘이다. BPE 어휘 집합은 고빈도 바이그램(Bigram) 쌍을 병합하는 방식으로 구축된다. 2-3 어휘 집합 구축하기¶ In [ ]: !pip install ratsnlp In [ ]: ..
1-1 딥러닝 기반 자연어 처리 모델¶ 자연어 처리 모델은 자연어를 입력 받아서 해당 입력이 특정 범주일 확률을 반환하는 확률 함수다. 문서 분류 (document classification) 문장 쌍 분류 (sentence pair classification) 개체명 인식 (named entity recognition) 질의응답 (question answering) 문장 생성 (sentence generation) 학습이란 출력이 정답에 가까워지도록 모델을 업데이트하는 과정을 말한다. 1-2 트랜스퍼 러닝 - 전이학습 (transfer learning)¶ Transfer learning 이란 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법이다. 업스트림 태스크 (upstram task)..
from collections import deque def bfs(x, y): que = deque([(x,y)]) array[x][y] == 1 # array == visited # print(que) flag = 0 while que: x, y = que.popleft() for dx, dy in vec: nx, ny = x+dx, y+dy if nx=n or ny=m: continue if array[nx][ny] == 0: # print(nx, ny) que.append([nx, ny]) array[nx][ny] = 1 flag = 1 return flag n, m = map(int,input().split()) array = [] for i in range(n): array.append(lis..
1차원 배열 입력받기 (공백기준) arr = list(map(int,input().split())) 1차원 배열 0 으로 초기화 하기 arr = [0] * 10 2차원 배열 입력받기 (공백기준, n행) arr = [list(map(int,input().split())) for _ in range(n)] 2차원 배열 0 으로 초기화 하기 (rows X cols) # 2차원 배열 초기화 rows = 10 cols = 5 arr = [[0 for j in range(cols)] for i in range(rows)]