임베딩
0. Word Representation
사람이 사용하는 언어(자연어)를 컴퓨터가 이해할 수 있는 언어(숫자) 형태인 벡터로 변환한 결과 혹은 일련 과정

-
단어의 표현 방법 분류
- 국소 표현 Local Representation = Discrete Representation
- 해당 단어 그 자체만 보고 특정값 매핑 → 단어 표현
- 벡터의 차원 = 단어 집합의 크기
- 단어 벡터 간 유의미한 유사도 계산 불가
- 분산 표현 Distributed Representation = Continuous Representation
- 그 단어를 표현하고자 주변 참고 → 단어 표현
- 저차원에 단어의 의미를 분산하여 표현
- 단어 벡터 간 유의미한 유사도 계산 가능
-
역할
- 단어 및 문장 간 관련성 계산
- 의미적/문법적 정보 함축
-
방법에 따라
- 희소 표현 기반 임베딩 (One-hot)
- 빈도수 기반 임베딩 (BoW, DTM, TF-IDF)
- 예측 기반 임베딩 (Word2Vec, FastText)
- 빈도수/예측 기반 임베딩 (GloVe)
1. Local Representation
1.1 희소 표현; Sparse Representation
- ↔ 밀집표현 dense representation
- 원-핫 벡터, DTM 등
1.1.1 One-hot Encoding
: N개의 단어를 각 N차원의 벡터로 표현하는 방식(단어가 포함된 위치에 1, 나머지에 0)
1.2 빈도수 기반 표현; Count Based Representation
1.2.1 BoW; Bag of Words
: 문서 집합에서 단어를 토큰으로 생성하고 각 단어의 출현 빈도수를 이용하여 인코딩해서 벡터를 만드는 방법
즉, 토크나이징과 벡터화가 동시에 가능

- 단어의 등장 순서는 고려❌
- 단어들의 빈도수만 고려하는 텍스트 데이터의 수치화 표현 방법
- 예제
1.2.2 DTM; Document-Term Matrix
: 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것
- 각 문서에 대한 BoW를 하나의 행렬로 만든 것
- 한계
- 희소 표현 Sparse representation
- 단순 빈도수 기반 접근

1.2.3 TF-IDF; Term Frequency-Inverse Document Frequency
: 문서 단어 행렬(DTM) 내 단어마다 중요도를 고려하여 가중치를 주는 통계적인 단어 표현 방법