2. 텍스트 전처리

자연어 처리(NLP)는 컴퓨터와 인간 언어 간의 상호 작용과 관련된
언어학, 컴퓨터 과학 및 인공 지능의 하위 분야로,
특히 대량의 자연어 데이터를 처리하고 분석할 수 있도록 컴퓨터를 프로그래밍하는 방법을 말한다

1. 왜 전처리가 필요한가?

컴퓨터에게 어떤 문장을 이해시키고 싶다면 하나의 문자열로 이루어진 문장 혹은 문서를 단어 단위로 나눈 후에 이 단어들의 리스트 형태로 변환해주어야 한다. 왜냐 프로그래밍 언어 안에서의 문서 혹은 텍스트는 문자열로 표현되기 때문이다. 이러한 문자열은 우리가 이해할 때 단어들의 순차수열로 이해한다. 그래서 이 과정에서 전처리를 해두면 용이하게 작업을 할 수 있다. 예를 들어 필요 없는 부호나 단어를 제거하면 좋다. 또 과거와 같은 지향적인 단어들인 '했습니다'를 '했다'로 변환해 주는 것이 효율적일 수 있다.

2. 전처리의 단계

Text Preprocessing은 '주어진 텍스트에서 노이즈와 같은 불필요한 부분을 제거하고 표준 단어들로 분리한 후에 각 단어의 품사를 파악하는 것'까지를 의미한다.

1. 정제(cleaning): 분석에 불필요한 노이즈를 제거하는 작업을 말한다. 토큰화 이전에 이루어지나, 토큰화 이후에도 필요한 경우 정제작업은 이루어질 수 있다.

2. 토큰화(Tokenization): 주어진 텍스트를 원하는 단위로 나누는 작업을 말한다.

3. 정규화: 다른 형태로 쓰여진 단어들을 통일시켜서 표준 단어로 만드는 작업을 말한다.

4. 품사 태깅: 품사는 단어를 문법적인 기능에 따라 분류한 것을 말하며 명사, 대명사, 동사, 형용사 등이 있다. 같은 단어도 품맥에 따라 의미가 바뀔 수 있으므로 문맥을 잘 파악해야 한다.

출처: 박상언, 강주영, 정석찬 저자 '파이썬 텍스트 마이닝 완벽 가이드'

'Text Mining' 카테고리의 다른 글

1. 텍스트 마이닝의 정의 (0)	2023.02.06

'Text Mining' 카테고리의 다른 글

티스토리툴바