임베딩

0. Word Representation

사람이 사용하는 언어(자연어)를 컴퓨터가 이해할 수 있는 언어(숫자) 형태인 벡터로 변환한 결과 혹은 일련 과정

스크린샷 2024-02-19 오후 1.34.09.jpg

1. Local Representation

1.1 희소 표현; Sparse Representation

1.1.1 One-hot Encoding

: N개의 단어를 각 N차원의 벡터로 표현하는 방식(단어가 포함된 위치에 1, 나머지에 0)

1.2 빈도수 기반 표현; Count Based Representation

1.2.1 BoW; Bag of Words

: 문서 집합에서 단어를 토큰으로 생성하고 각 단어의 출현 빈도수를 이용하여 인코딩해서 벡터를 만드는 방법 즉, 토크나이징과 벡터화가 동시에 가능

스크린샷 2023-08-18 오전 12.24.01.jpg

1.2.2 DTM; Document-Term Matrix

: 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것

스크린샷 2024-02-19 오후 1.53.56.jpg

1.2.3 TF-IDF; Term Frequency-Inverse Document Frequency

: 문서 단어 행렬(DTM) 내 단어마다 중요도를 고려하여 가중치를 주는 통계적인 단어 표현 방법