텍스트 마이닝이란? '텍스트에서 고품질 정보를 추출하는 과정(the process of deriving high-quality information from text)'
즉, 텍스트 마이닝이란 텍스트에 숨어있는 패턴을 발견하고 이용하여 어떤 사건을 예측할 수 있음을 말한다.
패턴을 찾을 수 있는가에 대한 질문에 대해 통계적 패턴 학습은 무엇이 있는가?
첫 번째로 대부분 정형적인 데이터(structured data)를 대상으로 하는 방법론으로 머신러닝이 있다. 비정형 텍스트 데이터를 정형화하는 작업도 필요하다 여기에 다양한 자연어 처리 기법이 활용된다. 처리 기법은 아래에서 소개하겠다.
결국 ,텍스트 마이닝은 '자연어 처리 기법을 이용해 텍스트를 정형화된 데이터로 변환하고, 머신러닝 기법을 적용해 우리가 관심이 있는 어떤 사건을 예측하고자 하는 방법론이다.
텍스트로부터 정형화된 데이터는 어떤 형태인가? '일정한 길이의 벡터'를 말한다. 일정하다의 뜻은 항상 같은 길이로 변환된다는 뜻, 기하하적인 정의를 배제하고 하나의 값이 아니라 차원의 수만큼의 여러 개의 값으로 구성됐음을 의미한다. 주어진 텍스트를 일정한 길이의 벡터로 변환하는 것을 임베딩이라고 한다.
텍스트 마이닝 패러다임의 변화
1. 카운트 기반의 문서 표현
사용된 단어들의 빈도를 분석하고 워드 클라우드로 표현, 추출하는 단계에서 텍스트에 나타난 순서에 대한 정보는 사라진다.
2. 시퀀스 기반의 문서 표현
카운트 기반의 문서표현과 달리 사람이 글을 읽고 이해하는 것과 유사한 방법으로 텍스트의 문맥을 이해하고자 하는 방식으로 각 단어를 먼저 벡터로 변환하고, 이러한 벡터의 연속된 나열 혹은 시퀀스로 문서를 표현한다. 연속된 단어의 형태로 문장을 이해하려면 RNN과 같은 딥러닝 기법을 필요로 한다.
텍스트 마이닝 주의점
텍스트 마이닝은 수많은 문서의 집합을 다루기 때문에 모두 같은 방식으로 임베딩할 수 있어야 한다. 예를 들어 문서의 집합에 사용된 단어가 50,000개라면 각 단어를 크기가 50,000인 벡터로 표현해야 한다. 특별한 과정을 거쳐 짧은 벡터로 변환하게 되는데 이러한 과정을 임베딩이라고 한다. 문서를 벡터로 변환하는 과정도 임베딩인데 이 둘은 워드 임베딩과 문서 임베딩으로 구분할 수 있다.
텍스트 마이닝 주요 기술
1. 자연어 처리 기법
자연어 처리는 컴퓨터를 이용한 사람의 자연어를 분석하고 처리하는 기술로 요약된다. 자연어 처리의 세부 내용으로 형태소 분석, 품사 부착, 구절 단위 분석, 구문 분석을 제시하고 있다. 이러한 기술은 텍스트를 일정한 길이의 벡터로 변환하기 위해 쓰이는 기법이다.
2. 통계학과 선형대수
회귀분석, SVM과 같은 머신러닝 방법론을 이해하기 위한 통계학적인 지식은 필수이다. 위에 말했다시피 텍스트를 일정 길이의 '벡터'로 변환하고 다루어야 하는데 이는 선형대수의 영역에 속한다.
3. 시각화 기법
워드 클라우드와 막대그래프와 같은 기법이 많이 사용되며 토픽 모델링을 통해 쉽게 나타내려고 많이 활용되기도 한다.
4. 머신러닝
사람의 직접적인 지시 없이 컴퓨터가 학습을 통해서 문제를 해결하게 하는 알고리즘이나 통계적 모형에 관한 연구를 말한다. 크게 지도학습, 비지도학습, 강화학습으로 나뉘며, 지도학습에서는 다시 회귀와 분류, 비지도학습은 클러스터링과 차원축소로 나뉜다.
5. 딥러닝
머신러닝의 한 분류에 속하는 인공신경망에서 은닉층을 깊게 쌓은 신경망 구조를 활용해 학습하는 알고리즘을 말한다. 초기에는 RNN, LSTM, CNN 등의 방법론이 사용됐다면, 지금은 트랜스포머에 기반한 BERT, GPT 등의 기법을 쓴다.
출처: 박상언, 강주영, 정석찬 저자 '파이썬 텍스트 마이닝 완벽 가이드'
'Text Mining' 카테고리의 다른 글
2. 텍스트 전처리 (0) | 2023.02.06 |
---|