1. 토큰화 Tokenization

1.1 단어 토큰화 Word Tokenization

토큰화에서 고려해야 할 사항

1.2 문장 토큰화 Sentence Tokenization

: 토큰의 단위가 문장(sentence)일 경우

한국어에서의 토큰화의 어려움

1.3 품사 태깅 Part-of-speech tagging

: 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지 구분해놓는 작업