일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 컨테이너
- 빅분기실기
- 리스트
- 빅분기
- 2회기출
- 파이썬
- 공빅데
- 백준1920
- 파이썬AHP
- 공빅데기관매칭
- 딕셔너리
- 공공빅데이터청년인턴
- konlpy
- 태블로
- 작업형2
- 빅데이터분석기사
- dataq
- 워드클라우드
- 실기
- 파이썬셋
- 튜플
- 파이썬딕셔너리
- 셋
- 파이썬입출력
- 파이썬튜플
- csv병합
- 행별속성합계
- 예측모델링
- set시간복잡도
- 백준 2164
- Today
- Total
목록전체 글 (53)
Data Science
TIP¶ 경고 메세지 뜰경우¶ 분류 모델 학습중 경고가 뜰경우 In [ ]: # values.ravel() model.fit(X_TRAIN, Y_TRAIN.values.ravel() ) 처음부터 사용하지 말고, 문제 해결 불가시 사용 In [ ]: import warnings warnings.filterwarnings(action='ignore') 데이터프레임 전체 다 보고 싶을때¶ In [ ]: import pandas as pd pd.options.display.max_columns = None 탐색¶ In [ ]: # 요약정보 확인 # print(data.info()) In [ ]: # 기초통계량 확인 # print(data.describe()) In [ ]: # 상관분석 # print(data.c..
참고 데이터 https://www.kaggle.com/kukuroo3/ecommerce-shipping-data-competition-form Commerce Shipping Data (competition form) Classification problem www.kaggle.com In [1]: import pandas as pd x_train = pd.read_csv('../input/ecommerce-shipping-data-competition-form/X_train.csv') x_test = pd.read_csv('../input/ecommerce-shipping-data-competition-form/X_test.csv') y_train = pd.read_csv('../input/ecomme..
# 결측치 삭제방법 # df 전체에서 결측값이 있으면 해당 행 삭제 data = data.dropna() # 해당 하는 열의 결측값이 있으면 해당 행 삭제 data['RM'] = data['RM'].dropna() # 평균 대체 : 모든 값을 각 변수의 평균으로 대체함. data_mean = data.fillna(data.mean()) # CHAS 칼럼과 RAD 칼럼 순으로 그룹을 지은후 각 그룹의 데이터 개수를 구하기 data_g = data.groupby(['CHAS','RAD'])['RAD'].count() # A 컬럼 그룹화 B 컬럼의 갯수? data_g = data.groupby(['A'])['B'].count()
아래는 백화점 고객의 1년 간 구매 데이터이다. 고객 3500명에 대한 학습용 데이터(y_train.csv, X_train.csv)를 이용하여 성별예측 모형을 마든 후, 이를 평가용 데이터(X_test.csv)에 적용하여 얻은 2482명 고객의 성별 예측값(남자일 확률)을 다음과 같은 형식(custid, gender)의 CSV 파일로 생성하시오. (제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점) # 데이터 읽기 import pandas as pd x_train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/빅분기 실기/프리렉/data/x_train.csv',encoding='cp949') x_test = pd.read_cs..
* 프리렉 교재를 참고하였으며, 교재와 다른 내용이 많이 포함되어 있습니다. 고객 10,866건에 대한 학습용데이터(x_train,y_train)를 이용하여 자전거 대여량 예측 모형을 만든다. 생성한 예측 모형으로 평가용데이터(x_test)에 해당하는 6,493건의 자전거 대여량 예측값을 csv 파일로 생성하시오 (제출한 모델의 성능은 R^2 score 평가지표에 따라 채점) import pandas as pd x_train=pd.read_csv('/content/drive/MyDrive/Colab Notebooks/빅분기 실기/프리렉/data/bike_x_train.csv',encoding='cp949') y_train=pd.read_csv('/content/drive/MyDriv..
문제1. 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지 가늠하는 숫자는 무엇인가요? 답: 분산 문제2. 인공신경망의 출력값이 원하는 결과와 다를 경우, 가중치 갱신을 통해 오차를 최소화 시키도록 반복수행하여 신경망을 학습시키는 알고리즘이 무엇인가요 ? 답: 역전파 알고리즘 문제3. 차원축소와 군집화를 동시에 수행하며, 고차원으로 표현된 데이터를 저차원으로 변환하여 보는 비지도학습 기반 클러스터링 기법은 무엇인가요 ? 답: 자기 조직화 지도(self organization map) - SOM 문제4. 많은 데이터를 그림을 이용하여 집합의 범위와 중앙값을 빠르게 확인할 수 있으며, 또한 통계적으로 이상값이 있는지 빠르게 확인이 가능한 시각화 기법은 무엇인가요 ? 답: 박스플롯 문제5. 학습 데이터에..
빅데이터분석기사 2회 실기 단답형 기출문제 1. 데이터 정제 과정에서 처리해야 하는 값으로, 데이터가 정상의 범주에서 벗어난 값을 의미하는 것은 무엇인가? 이상치 2. 결측값 처리를 위한 단순 대치법에서 관측 또는 실험으로 얻어진 자료를 평균값으로 결측값을 대치하는 방법은? 평균대치법 3. 모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주거나 알고리즘 생성자가 직접 만드는 값은 무엇인가? 하이퍼 파라미터 4. 다음이 설명하는 개념은 무엇인가? - 데이터에서 표식(라벨)이 없는 경우가 많다. - 예측의 문제 보다는 주로 현상의 설명이나 특징추출, 패턴 도출 등의 문제에 사용된다. - 대표적인 기법은 군집화, 차원축소기법, 연관관계분석, 자율학습 인공신경망의 기법이 있다..
sns 텍스트 분석¶ 필요한 모듈/라이브러리 불러오기 In [ ]: import csv import pandas as pd import tweepy import konlpy import sys import numpy as np import os from konlpy.tag import Okt from PIL import Image from collections import Counter from wordcloud import STOPWORDS from wordcloud import WordCloud 데이터 불러오기¶ In [ ]: # 데이터 불러오기 df = pd.read_csv("sns_data_namyangju.csv",encoding='utf-8') #전체 df.head(5) Out[ ]: 원시데이..
여러 개의 CSV 파일 합치기 (행)¶ In [1]: import glob import pandas as pd 헤더가 있을때¶ In [2]: # 합쳐질 파일 형태 pd.read_csv('sample_marge/sample1.csv',encoding='cp949') Out[2]: 구분 이름 0 1번째 파일 A 1 1번째 파일 B 2 1번째 파일 C In [3]: path = 'D:/Jupyter/read_files_test/sample_marge/' merge_path = 'sample_merge_result_header_lib.csv' In [4]: file_list = glob.glob(path + '*') combined_csv = pd.concat([pd.read_csv(f,encoding='cp9..
sns 텍스트 분석¶ In [3]: import csv import pandas as pd import tweepy import konlpy import sys import numpy as np from konlpy.tag import Okt from collections import Counter from wordcloud import STOPWORDS from wordcloud import WordCloud from IPython.display import Image 데이터 불러오기¶ In [99]: # 데이터 불러오기 #df = pd.read_csv("TC_SN_NAMYANGJU__WEB_DOC_20210106142300/TC_SN_NAMYANGJU__WEB_DOC_20210106142300_sam..