Intro
Brief intro: What is NLP and LLMs?
- Natural Language Processing (NLP): The toolkit for using computers to process, understand, and generate text.
- Language AI: A set of modern tools within that toolkit which leverage machine learning models. Some examples include text generation, classification, summarization, paraphrasing, and entity extraction.
- Large Language Models (LLM): A general-purpose type of language AI that eliminates the need for different models for different tasks. It has also achieved state-of-the-art performance in some NLP tasks.
Module intro
- LLM은 텍스트를 처리하고 분석하는 모델이다. 방대한 양의 데이터를 통해 언어의 패턴을 학습하여 우리가 제공하는 어떤 쿼리든 사람 같은 대답human-like responses을 생성해낸다.
- LLM은 large, deep neural network에 기반한다. 챗봇, 번역, 요약 등 매우 다양하게 활용된다.
Text Embeddings
- NLP의 본질적인 과제는 인간의 언어를 이해하는 것이다.
- 하지만, 그곳에는 큰 단절이 있다. 인간은 단어와 문장으로 말을 하지만, 컴퓨터는 오직 숫자를 이해하고 처리한다. 그렇다면 우리는 어떻게 일관된 방식으로 단어와 문장을 숫자로 바꿀 수 있을까?
- 숫자에 단어를 할당하는 것을 단어 임베딩이라고 한다.
What is a Word Embedding?

사과를 집, 차, 테니스와는 먼 좌표로, 바나나, 딸기, 체리와 가까운 좌표로 할당하는 것이 합리적이다.
- 위 예시로 좋은 임베딩의 성질을 다음과 같이 정리할 수 있다.
- 유사한 단어는 가까운 좌표에 할당한다.
- 다른 단어는 먼 좌표에 할당한다.
Word Embeddings Capture Features of the Word

- 단어 임베딩은 의미상 유사성 뿐만 아니라 언어의 다양한 속성을 포착해야 한다.
- 단어의 관계를 수학의 연산으로 표현할 수 있을까?
- 위 예시에서 ‘cow’라는 단어는 c에 할당하는 것이 적절하다. 그렇게 되면 x축이 나이, y축이 크기를 표현하게 된다.
