1. 토큰화 Tokenization
- : 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업
1.1 단어 토큰화 Word Tokenization
- : 토큰의 기준이 단어(word)인 경우
- ex. 구두점과 같은 문자 제외시키는 간단한 단어 토큰화 작업
- 보통 토큰화 작업은 정제만으로 해결되지 않음
- ex. 구두점이나 특수문자를 전부 제거하면 토큰이 의미를 잃어버리는 경우도 발생
- ex. 영어와 달리 한국어는 띄어쓰기 단위로 자르면 단어 토큰이 구분 어려워 짐
토큰화에서 고려해야 할 사항
- 단어 토큰화 예제;
word_tokenize
- 단어 토큰화 예제;
WordPunctTokenizer
- 단어 토큰화 예제;
text_to_word_sequence
- 표준 단어 토큰화 예제;
TreebankWordTokenizer
1.2 문장 토큰화 Sentence Tokenization
: 토큰의 단위가 문장(sentence)일 경우
- 갖고 있는 코퍼스 내에서 문장 단위로 구분하는 작업, = 문장 분류 sentence segmentaion
- 갖고 있는 코퍼스가 정제되지 않은 상태라면 코퍼스는 문장 단위로 구분되어 있지 않아서 이를 사용하고자 하는 용도에 맞게 문장 토큰화가 필요할 수 있음
- 마침표를 기준으로 문장을 잘라내면 안됨
- 영어 문장 토큰화 예제;
sent_tokenize
- 한국어 문장 토큰화 예제;
kss.split_sentences
한국어에서의 토큰화의 어려움
1.3 품사 태깅 Part-of-speech tagging
: 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지 구분해놓는 작업
- 단어의 의미를 제대로 파악하기 위해서는 해당 단어가 어떤 품사로 쓰였는지 봐야 함