일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 작업형2
- 공빅데
- 빅데이터분석기사
- 공공빅데이터청년인턴
- 백준 2164
- 파이썬딕셔너리
- 파이썬입출력
- 공빅데기관매칭
- 예측모델링
- 2회기출
- 딕셔너리
- 행별속성합계
- 태블로
- 워드클라우드
- 리스트
- dataq
- 튜플
- 컨테이너
- 실기
- konlpy
- 빅분기실기
- 파이썬
- set시간복잡도
- 파이썬셋
- 셋
- 빅분기
- 파이썬AHP
- 백준1920
- csv병합
- 파이썬튜플
- Today
- Total
목록인공지능 (2)
Data Science
2-1 토큰화란?¶ 문장을 토큰 시퀀스로 나누는 과정 단어 단위 토큰화: 어휘 집합의 크기가 커져 모델 학습이 어렵다. 문자 단위 토큰화: 미등록 토큰 문제로부터 자유롭다 각 문자 토큰이 의미 있는 단위가 되기 어렵다. 서브워드 단위 토큰화: 단어와 문자 단위 토큰화의 장점만 취한 형태 어휘 집합 크기가 커지지 않으면서도 미등록 토큰 문제를 피하고, 분석된 토큰 시퀀스가 너무 길어지지 않게 한다. 2-2 바이트 페어 인코딩(BEP)이란?¶ BEP는 사전의 크기 증가를 억제하면서도 정보를 효율적으로 압축할 수 있는 알고리즘이다. BPE 어휘 집합은 고빈도 바이그램(Bigram) 쌍을 병합하는 방식으로 구축된다. 2-3 어휘 집합 구축하기¶ In [ ]: !pip install ratsnlp In [ ]: ..
1-1 딥러닝 기반 자연어 처리 모델¶ 자연어 처리 모델은 자연어를 입력 받아서 해당 입력이 특정 범주일 확률을 반환하는 확률 함수다. 문서 분류 (document classification) 문장 쌍 분류 (sentence pair classification) 개체명 인식 (named entity recognition) 질의응답 (question answering) 문장 생성 (sentence generation) 학습이란 출력이 정답에 가까워지도록 모델을 업데이트하는 과정을 말한다. 1-2 트랜스퍼 러닝 - 전이학습 (transfer learning)¶ Transfer learning 이란 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법이다. 업스트림 태스크 (upstram task)..