0. Word Representation

사람이 사용하는 언어(자연어)를 컴퓨터가 이해할 수 있는 언어(숫자) 형태인 벡터로 변환한 결과 혹은 일련 과정

스크린샷 2024-02-19 오후 1.34.09.jpg

단어의 표현 방법 분류
1. 국소 표현 Local Representation = Discrete Representation
  - 해당 단어 그 자체만 보고 특정값 매핑 → 단어 표현
  - 벡터의 차원 = 단어 집합의 크기
  - 단어 벡터 간 유의미한 유사도 계산 불가
2. 분산 표현 Distributed Representation = Continuous Representation
  - 그 단어를 표현하고자 주변 참고 → 단어 표현
  - 저차원에 단어의 의미를 분산하여 표현
  - 단어 벡터 간 유의미한 유사도 계산 가능
역할
1. 단어 및 문장 간 관련성 계산
2. 의미적/문법적 정보 함축
방법에 따라
- 희소 표현 기반 임베딩 (One-hot)
- 빈도수 기반 임베딩 (BoW, DTM, TF-IDF)
- 예측 기반 임베딩 (Word2Vec, FastText)
- 빈도수/예측 기반 임베딩 (GloVe)

1. Local Representation

: N개의 단어를 각 N차원의 벡터로 표현하는 방식(단어가 포함된 위치에 1, 나머지에 0)

: 문서 집합에서 단어를 토큰으로 생성하고 각 단어의 출현 빈도수를 이용하여 인코딩해서 벡터를 만드는 방법 즉, 토크나이징과 벡터화가 동시에 가능

스크린샷 2023-08-18 오전 12.24.01.jpg

: 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것

스크린샷 2024-02-19 오후 1.53.56.jpg

: 문서 단어 행렬(DTM) 내 단어마다 중요도를 고려하여 가중치를 주는 통계적인 단어 표현 방법