1. 토큰화 Tokenization

: 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업

1.1 단어 토큰화 Word Tokenization

: 토큰의 기준이 단어(word)인 경우
ex. 구두점과 같은 문자 제외시키는 간단한 단어 토큰화 작업
보통 토큰화 작업은 정제만으로 해결되지 않음
- ex. 구두점이나 특수문자를 전부 제거하면 토큰이 의미를 잃어버리는 경우도 발생
- ex. 영어와 달리 한국어는 띄어쓰기 단위로 자르면 단어 토큰이 구분 어려워 짐

토큰화에서 고려해야 할 사항

단어 토큰화 예제; word_tokenize
단어 토큰화 예제; WordPunctTokenizer
단어 토큰화 예제; text_to_word_sequence
표준 단어 토큰화 예제; TreebankWordTokenizer

1.2 문장 토큰화 Sentence Tokenization

: 토큰의 단위가 문장(sentence)일 경우

갖고 있는 코퍼스 내에서 문장 단위로 구분하는 작업, = 문장 분류 sentence segmentaion
갖고 있는 코퍼스가 정제되지 않은 상태라면 코퍼스는 문장 단위로 구분되어 있지 않아서 이를 사용하고자 하는 용도에 맞게 문장 토큰화가 필요할 수 있음
마침표를 기준으로 문장을 잘라내면 안됨
- ex. Ph.D, [email protected], IP 192.168.56.31 등
영어 문장 토큰화 예제; sent_tokenize
한국어 문장 토큰화 예제; kss.split_sentences

한국어에서의 토큰화의 어려움

1.3 품사 태깅 Part-of-speech tagging

: 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지 구분해놓는 작업

단어의 의미를 제대로 파악하기 위해서는 해당 단어가 어떤 품사로 쓰였는지 봐야 함