문서 관점에서 일종의 Distribution Representation
Matrix Factorization Approach
SVD(singular value decomposition) 사용하면 LSA(latent semantic analysis)라고 함!
LSA의 단점
Generative Approach
1️⃣ 문서는 토픽의 분포 2️⃣ 토픽은 단어의 분포
가정: 각각의 문서는 토픽들의 probability distribution
가정: 각 토픽은 단어들의 probability distribution
Model-based methods
How it work?
<aside> ⭐ 문서가 생성되는 어떤 Procedure를 정의해놓고 그 procedure로부터 현재 관측(수집)하고 있는 데이터가 생성되었을 것이다 믿음을 갖는 것, 그 믿음으로부터 이렇게 데이터가 생성되었으니까 이 데이터를 생성한 실제 가정(h)은 무엇일까?를 추론하는 것 = 학습
</aside>
Process of generative model
데이터를 인코딩한 행렬의 문제 (e.g. TDM)
❓
Matrix Decomposition