Text Mining
2. 텍스트 전처리
자연어 처리(NLP)는 컴퓨터와 인간 언어 간의 상호 작용과 관련된 언어학, 컴퓨터 과학 및 인공 지능의 하위 분야로, 특히 대량의 자연어 데이터를 처리하고 분석할 수 있도록 컴퓨터를 프로그래밍하는 방법을 말한다 1. 왜 전처리가 필요한가? 컴퓨터에게 어떤 문장을 이해시키고 싶다면 하나의 문자열로 이루어진 문장 혹은 문서를 단어 단위로 나눈 후에 이 단어들의 리스트 형태로 변환해주어야 한다. 왜냐 프로그래밍 언어 안에서의 문서 혹은 텍스트는 문자열로 표현되기 때문이다. 이러한 문자열은 우리가 이해할 때 단어들의 순차수열로 이해한다. 그래서 이 과정에서 전처리를 해두면 용이하게 작업을 할 수 있다. 예를 들어 필요 없는 부호나 단어를 제거하면 좋다. 또 과거와 같은 지향적인 단어들인 '했습니다'를 '했다'..

1. 텍스트 마이닝의 정의
텍스트 마이닝이란? '텍스트에서 고품질 정보를 추출하는 과정(the process of deriving high-quality information from text)' 고품질 정보란? '패턴이나 트렌드를 통해 얻어짐을 말함'(High-quality information is typically obtained by devising patterns and trends)' 즉, 텍스트 마이닝이란 텍스트에 숨어있는 패턴을 발견하고 이용하여 어떤 사건을 예측할 수 있음을 말한다. 패턴을 찾을 수 있는가에 대한 질문에 대해 통계적 패턴 학습은 무엇이 있는가? 첫 번째로 대부분 정형적인 데이터(structured data)를 대상으로 하는 방법론으로 머신러닝이 있다. 비정형 텍스트 데이터를 정형화하는 작업도 필요하..