KR101847847B1

KR101847847B1 - 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법

Info

Publication number: KR101847847B1
Application number: KR1020160151940A
Authority: KR
Inventors: 김문종; 한규열; 최현수
Original assignee: 주식회사 와이즈넛
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2018-04-12
Also published as: WO2018092936A1

Abstract

비정형 텍스트 데이터에 대하여 군집 내 문서들 간의 유사도를 높여 문서 군집화의 품질을 높일 수 있는 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법이 제공된다. 이러한 문서 군집화 방법은, 문서 군집화 시스템이: 다수의 문서로부터 수집된 비정형 텍스트 데이터로부터 단어사상을 통해 단어 벡터를 생성하는 단계; 각 문서에 대한 주제어를 추출한 후 단어 벡터를 참조하여 주제어 벡터로 표현하는 단계; 문서에 대한 문서 벡터와 주제어 벡터를 이용하여 문서에 대한 문서 자질을 구성하는 단계; 및 복수의 문서에 대하여 문서 자질의 유사도에 따라 문서 군집화를 수행하는 단계를 포함한다.

Description

딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법{Method for clustering document from informal text data by using deep learning}

본 발명은 비정형 텍스트 데이터의 문서 군집화 방법에 관한 것으로서, 더욱 상세하게는 딥러닝을 이용하여 비정형 텍스트 데이터로부터 유사한 형태의 문서들을 군집화하는 방법에 관한 것이다.

딥러닝(deep learning)은 컴퓨터가 여러 데이터를 이용해 마치 사람처럼 스스로 학습할 수 있게 하기 위해 인공 신경망(ANN: artificial neural network)을 기반으로 한 기계 학습 기술을 말한다. 딥러닝은 사물이나 데이터를 군집화하거나 분류하는 데 사용되는데, 신호 처리, 이미지 처리, 자연언어처리 등의 분야에서 두각을 나타내고 있다. 특히, 자연언어처리 분야에서 비감독학습(unsupervised learning)을 통하여 문서 집합에서의 확률 모델을 생성함으로써 언어에 대한 자질 추출을 자동으로 수행하면서 기존 감독학습(supervised learning)의 알고리즘을 그대로 적용할 수 있다는 점에서 주목을 받고 있다. 이와 같은 자연언어처리를 통하여 문서의 검색, 요약, 연관정보 분석 등 다양한 분야에서 활용되고 있다.

종래에도 딥러닝을 이용하여 문서 군집화를 시도한 예들이 있으나, 대부분은 문서의 특징 정보를 제대로 파악하지 못하여 군집 내 문서들 간에 유사도가 낮아서 이를 실무적으로 활용하기는 어려웠다.

본 발명이 해결하고자 하는 과제는, 비정형 텍스트 데이터에 대하여 군집 내 문서들 간의 유사도를 높여 문서 군집화의 품질을 높일 수 있는 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법을 제공하고자 하는 것이다.

본 발명이 해결하고자 하는 과제들은 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 과제를 달성하기 위한 본 발명의 일 실시예에 따른 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법은, 문서 군집화 시스템이: 다수의 문서로부터 수집된 상기 비정형 텍스트 데이터로부터 단어사상을 통해 단어 벡터를 생성하는 단계; 각 문서에 대한 주제어를 추출한 후 상기 단어 벡터를 참조하여 주제어 벡터로 표현하는 단계; 상기 문서에 대한 문서 벡터와 상기 주제어 벡터를 이용하여 상기 문서에 대한 문서 자질을 구성하는 단계; 및 복수의 문서에 대하여 상기 문서 자질의 유사도에 따라 문서 군집화를 수행하는 단계를 포함한다.

상기 주제어를 추출하는 단계는, 각 문서로부터 후보 단어를 생성하는 단계; 상기 후보 단어마다 가중치를 부여하여 중요도를 결정하는 단계; 및 상기 중요도에 따라 기설정된 상위 순위에 해당하는 상기 후보 단어를 주제어로 선정하는 단계를 포함할 수 있다.

상기 중요도는 아래의 수식에 의해 정의될 수 있다.

[수식]

(여기서, f: 필드 번호, TL_t: 단어 t의 길이, TF_t: 단어 t의 출현 수, ISF_t: 1 / (단어 t가 출현한 문장의 수), w_f: 필드 별 가중치)

상기 문서 자질을 구성하는 단계는, 각 문서에 대응하는 상기 주제어 벡터와 상기 문서 벡터를 분산 메모리 모델을 기반으로 연관(concatenation) 기법으로 결합시킬 수 있다.

상기 문서 군집화를 수행하는 단계는, 하나 이상의 문서가 할당된 하나 이상의 클러스터를 정의하는 단계; 상기 클러스터에 할당되지 않은 문서에 대하여 그 문서의 문서 자질을 이용하여 CRP (Chinese Restaurant Process) 확률 및 IRad (Information Radius) 유사도를 연산하는 단계; 및 상기 CRP 확률과 상기 IRad 유사도를 비교하여 상기 문서가 할당될 클러스터를 결정하는 단계를 포함할 수 있다.

상기 CRP 확률이 상기 IRad 유사도보다 큰 경우 상기 문서는 새로운 클러스터에 할당되고, 상기 CRP 확률이 상기 IRad 유사도보다 작거나 같은 경우 상기 문서는 기존 클러스터에 할당될 수 있다.

기타 실시예들의 구체적인 사항들은 구체적인 내용 및 도면들에 포함되어 있다.

상술한 바와 같이 본 발명에 따른 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법에 의하면, 각 문서에 대한 주제어를 추출하여 이를 기반으로 문서 자질을 구성함으로써 문서 자질에 해당 문서의 특징정보가 잘 표현될 수 있다. 이러한 문서 자질을 이용하여 여러 문서 간의 유사도를 측정함으로써, 보다 정확하게 유사한 문서끼리 군집화할 수 있게 되어 군집화의 품질을 높일 수 있다.

이와 같이 방대한 비정형 텍스트 데이터를 유사한 형태의 문서끼리 군집화를 하면, 필요한 정보를 보다 빠르게 얻을 수 있는 장점이 있다. 예컨대, 문서 군집 별 통계, 트렌드 분석 등을 활용함으로써, 기업의 의사 결정에 있어서 많은 기여를 할 수 있다.

도 1은 본 발명의 일 실시예에 따른 문서 군집화 시스템을 개략적으로 나타낸 구성도이다.
도 2는 본 발명의 일 실시예에 따른 문서 군집화 방법을 순차적으로 나타낸 순서도이다.
도 3은 도 2에서 문서 자질을 구성하는 단계를 나타낸 개념도이다.
도 4는 도 2에서 문서 군집화를 수행하는 단계를 구체적으로 나타낸 순서도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

이하 첨부된 도면들을 참조하여 본 발명의 일 실시예에 따른 문서 군집화 시스템 및 이를 이용한 문서 군집화 방법을 자세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 문서 군집화 시스템을 개략적으로 나타낸 구성도이다.

본 발명의 문서 군집화 시스템(100)은 단어 벡터 모듈(10), 주제어 모듈(20), 문서 벡터 모듈(30) 및 문서 군집화 모듈(40)을 포함한다. 본 발명의 문서 군집화 시스템(100)은 비정형 텍스트 데이터를 군집화한다. 여기서, 비정형 텍스트 데이터는 규격화된 데이터 필드에 저장되지 않은 데이터를 말하며, 예를 들어, 소셜 네트워킹 서비스(SNS)에서 발생되는 소셜 데이터, 웹 문서, 이메일 등이 이에 해당될 수 있다.

단어 벡터 모듈(10)은 수집된 비정형 텍스트 데이터로부터 단어 사상(word embedding)을 통하여 단어 벡터를 생성한다. 여기서, 단어 사상은 분산 단어 표현(distributed word representation)을 사용하는데, 말뭉치(corpus)를 학습하여 차원 축소 및 추상화를 통해 문서 집합에 등장하는 단어를 수십에서 수백 차원의 자질 벡터(feature vector)로 표현하는 것이다. 학습된 단어 벡터는 통사적(syntactic), 의미적(semantic) 쓰임에 대한 높은 수준의 의미를 표현한다. 예를 들어, 영어 문서 집합에 대한 학습 결과에서 "Queens" - "Queen"의 결과는 복수에 대한 문법 정보를 의미하는 특징 벡터로 생각될 수 있는데, "Kings" - "King"의 결과와 매우 유사하다. 이를 통해, 학습을 통한 단어 벡터는 유사한 단어의 쓰임에 대하여 규칙적인 패턴을 잘 표현하며 문법적인 관계 정보도 잘 반영되는 것을 알 수 있다.

주제어 모듈(20)은 특정 문서에 대한 주제어를 추출한 후 이를 단어 벡터로 표현하여 주제어 벡터를 생성한다. 여기서, 주제어는 특정 문서의 특징을 잘 표현할 수 있는 의미단위 또는 단어를 나타낸다. 주제어 모듈(20)은 주제어 추출을 위하여 후보 단어를 생성한 후, 각 후보 단어 별 가중치를 부여하여 중요도를 결정하고, 각 후보 단어의 중요도에 따라 기설정된 상위 순위에 해당하는 후보 단어들을 해당 문서의 주제어로 선정한다. 선정된 주제어는 상기 단어 벡터를 참조하여 주제어 벡터로 표현된다.

문서 벡터 모듈(30)은 분산메모리모델(distributed memory model)을 이용하여 각 문서에 대한 문서 벡터와 주제어 벡터를 이용하여 해당 문서의 문서 자질(document feature)을 구성한다. 구체적으로, 문서 벡터 모듈(30)은 주제어 벡터에, 문서의 순서 및 문맥 정보를 기억하기 위한 문서 벡터를 추가하여 연관(concatenate) 기법에 의해 해당 문서의 유일한 자질 벡터인 문서 자질을 표현한다.

문서 군집화 모듈(40)은 유사한 문서들의 집단으로 구성된 하나 이상의 클러스터(cluster)를 정의하고, 각 문서의 문자 자질의 유사도에 따라 문서의 군집화를 수행한다.

이하, 도 2 내지 도 4를 참조하여 본 발명의 일 실시예에 따른 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법을 자세히 설명한다. 도 2는 본 발명의 일 실시예에 따른 문서 군집화 방법을 순차적으로 나타낸 순서도이다. 도 3은 도 2에서 문서 자질을 구성하는 단계를 나타낸 개념도이다. 도 4는 도 2에서 문서 군집화를 수행하는 단계를 구체적으로 나타낸 순서도이다.

먼저, 단어 벡터 모듈(10)은 다수의 문서로부터 수집된 비정형 텍스트 데이터로부터 단어 사상을 통하여 단어 벡터를 생성한다(S10).

이어서, 주제어 모듈(20)은 각 문서에 대한 주제어를 추출하고 상기 단어 벡터를 참조하여 이를 주제어 벡터로 표현한다(S20). 구체적으로 다음과 같은 순서를 따른다.

(1) 주제어 모듈(20)은 특정 문서의 어절 및 형태소를 분석하여 해당 문서에 대응하는 후보 단어를 생성한다. 여기서, 후보 단어는 아래 수식 1과 같이 접두사 및/또는 접미사가 명사에 붙은 단어를 말한다.

[수식 1]

후보 단어 = (접두사)^*(명사 류)⁺(접미사)^*

(여기서, *: 해당 품사가 0 내지 N개 반복, +: 해당 품사가 1 내지 N개 반복)

예를 들어, 특정 문서 내에 "외국 유명사이트, 잘못된 한국사 여전"이라는 예문이 포함된 경우를 가정해 보자. 이 문장으로부터 아래 표 1과 같은 후보 단어가 결정될 수 있다.

어절	형태소 분석	후보 단어 명사
외국	외국/명사	외국
유명사이트	유명/명사+사이트/명사	유명사이트
,	,/문장기호
잘못된	잘못되/동사+ㄴ/어미
한국사	한국/명사+사/접사	한국사
여전	여전/명사	여전

상기 예문에서 후보 단어는, 외국, 유명사이트, 한국사, 여전이 된다. 이와 같이, 비정형 텍스트 데이터가 한국어를 기반으로 하는 경우, 한국어 특유의 어휘, 형태소, 품사 등의 복잡한 문법구조로 인하여 후속하는 문서 군집화의 품질이 떨어질 수 있는데, 본 발명에서는 한국어 특성에 맞춰 형태소 분석을 거치기 때문에 보다 정확한 주제어를 선정할 수 있고, 이는 문서 군집화의 품질을 높이는 원인으로 작용할 수 있다.

(2) 이어서, 주제어 모듈(20)은 상기 후보 단어마다 가중치를 부여하여 각 후보 단어가 해당 문서 내에서 가지는 중요도를 산출한다. 후보 단어 t에 대한 중요도는 아래 수식 2에 의해 정의된다.

[수식 2]

여기서, f: 필드 번호, TL_t: 단어 t의 길이, TF_t: 단어 t의 출현 수, ISF_t: 1 / (단어 t가 출현한 문장의 수), w_f: 필드 별 가중치.

수식 2에 따르면, 특정 문서 내에서 단어 t의 중요도는 단어 t의 길이(TL_t), 단어 t의 출현 수(TF_t), 필드 별 가중치(w_f)에 비례하고, 단어 t가 출현한 문장의 수(1/ ISF_t)에 반비례한다. 구체적으로, 필드(f)는 텍스트 문서가 배치된 영역을 의미하며, 예를 들어 제목 필드, 본문 필드, 댓글 필드, 광고 필드 등을 포함할 수 있다. w_f는 기설정된 각 필드 별 가중치를 의미하는데, 예컨대 본문 필드의 가중치는 크게 설정하고, 제목 필드의 가중치는 낮게 설정할 수 있다. TL_t는 단어 t의 길이 또는 글자수로서, 명사에 접두사나 접미사가 많을 수록 뜻이 좀더 명확해지기 때문에 단어의 길이가 길수록 중요도가 커진다. TF_t는 단어 t의 출현 수 또는 출현 빈도(term frequency)로서 한 문서 내에 해당 단어가 많이 출현할수록 중요도가 커진다. ISF_t는 문서 내에서 단어 t의 독특함의 정도를 나타내는데, 단어 t가 여러 문장에 출현할수록 그 독특함이 떨어지기 때문에 ISF_t는 단어 t가 출현한 문장의 수의 역수에 비례한다.

(3) 이와 같이 주제어 모듈(20)은 각 후보 단어에 대하여 중요도가 높은 순서로 배열한 뒤, 기설정된 상위 소정의 순위에 해당하는 후보 단어들을 주제어로 선정하고, 단어 벡터를 참조하여 각 주제어를 주제어 벡터로 표현한다.

이어서, 문서 벡터 모듈(30)은 분산 메모리 모델(distributed memory model)을 기반으로 각 문서에 대응하는 문서 벡터와 주제어 벡터를 이용하여 각 문서에 대한 문서 자질(document feature)을 구성한다(S30). 본 발명의 분산 메모리 모델은 PV-DM("Distributed Memory Model of Paragraph Vector" by Quoc Le and Tomas Mikolov)를 응용한 것으로서, 단락 벡터를 문서 단위로 확장하여 문서에 대한 특징을 표현하는 유일한 문서 벡터를 얻을 수 있고, 이 벡터를 문서 군집화 시스템에 적용한다. 도 3을 참조하면, 하나의 문서에 대응하는 주제어는 주제어 벡터(W: Xi, Xi+1, …, Xn)에 매핑되고, 해당 문서에 대응하는 문서 id(Document id)는 문서 벡터(D)에 매핑된다. 문서 벡터(D)는 단어 또는 단락 간의 문맥 정보, 단어 또는 단락의 배열, 특징 등을 표현한 것이다. 문서 자질은 문서 벡터(D)와 주제어 벡터(W)를 연관(concatenation) 기법으로 결합시켜 구성된다. 본 발명의 분산 메모리 모델을 적용할 때, 어절이 어려 개의 형태소로 구성되어 있는 한국어의 특징을 잘 반영하기 위하여 어절 안에 모든 형태소를 사용하는 것이 바람직하다. 또한, 어절 간에 삽입되는 띄어쓰기나 어절 내의 형태소 분리정보와 구분되도록 띄어쓰기에 의한 공백은 예약어 "SPACE"로 치환하고, 형태소와 해당 형태소는 "_"로 결합하여 형태소 정보도 포함되어 학습되도록 하는 것이 바람직하다.

이어서, 문서 군집화 모듈(40)은 복수의 문서에 대하여 문서 자질의 유사도에 따라 문서 군집화를 수행한다(S40). 문서 군집화 모듈(40)은 문장에서의 쓰임에 따라 단어 별로 군집화(clustering)을 수행할 수도 있고, 문서의 특징을 표현하는 주제어가 포함된 클러스터를 선별할 수도 있다. 이를 위해, 문서를 단어의 흐름(word streaming)으로 가정하고 CRP(Chinese Restaurant Process) 방식으로 군집화를 수행한다.

구체적으로 도 4를 참조하면, 문서 군집화 모듈(40)은 하나 이상의 클러스터(cluster)를 정의하는데, 각 클러스터에는 유사한 형태의 하나 이상의 문서가 할당될 수 있다(S410).

문서 군집화 모듈(40)은 클러스터에 할당되지 않은 문서에 대해서는 해당 문서의 문서 자질을 이용하여 CRP(Chinese Restaurant Process) 확률을 연산한다(S420). CRP 확률에 관해서는 공지된 방법을 참조한다. CRP 확률(Pr)은 해당 문서가 기존 클러스터에 할당될지, 새로운 클러스터를 생성하여 이에 할당될지는 알려주는 지표로서, 아래 수식 3에 의해 정의될 수 있다.

[수식 3]

본 실시예에서는 클러스터의 수를 자동으로 결정하는 특징이 있고, 파라미터 α와 θ를 조정하여 생성되는 클러스터의 수를 조절할 수 있다. 본 실시예에서는 CRP확률(Pr) 중 해당 문서가 새로운 클러스터를 생성하여 이에 할당될 확률을 우선적으로 결정하여 이후 과정에서 사용한다. 이때 새로운 클러스터를 생성하기 전에, 해당 문서가 일정 유사도 이상을 갖는 클러스터에 우선 할당되도록 설계하여 클러스터의 과생성을 방지한다.

이를 위해, 문서 군집화 모듈(40)은 해당 문서(P)와 기존 클러스터에 속한 문서(Q) 간에 IRad (Information Radius) 유사도를 연산한다(S430). IRad 유사도는 아래 수식 4와 같이 정의된다.

[수식 4]

IRad 유사도는 문서 P와 문서 Q 간에 출현하는 각 주제어의 정보량을 기준으로 데이터간 비유사도를 측정한 것이다. 즉, pi는 문서 P의 주제어들의 확률분포이고, qi는 문서 Q의 주제어들의 확률분포이다. IRad 유사도는 0과 2log2 사이의 값을 가지므로, 이를 정규화하여 0 내지 1 사이의 값을 가지도록 하는 것이 바람직하다. 문서 군집화 모듈(40)은 CRP 확률과 IRad 유사도를 비교하여 해당 문서가 할당될 클러스터를 결정한다(S440). 만일 CRP 확률이 IRad 유사도보다 큰 경우 새로운 클러스터를 생성한 후 해당 문서를 새로운 클러스터에 할당하고(S450), 만일 CRP 확률이 IRad 유사도보다 작거나 같은 경우 해당 문서는 기존 클러스터에 할당된다. 이 때 기존 클러스터에 있는 다수의 문서 중 가장 IRad 유사도가 큰 문서가 존재하는 클러스터에 해당 문서를 할당하는 것이 바람직하다.

또한, 문서 군집화 모듈(40)은 특정 문서에 대응하는 클러스터를 결정할 때, 추가로 휴리스틱 정보를 추가 자질로 사용하여 해당 문서에 가장 의미가 있거나 가장 유사도가 큰 클러스터를 선택할 수 있다. 휴리스틱 정보는 아래 표 2와 같이 문서 내에서 얻을 수 있는 정보로 구성될 수 있다.

항목	설명
TF-ISF	클러스터 내 단어의 빈도 / 단어가 출현한 문장 수
Title Vector	클러스터와 제목과의 유사도

본 발명의 실시예에서 사용된 용어 중 '모듈'는 소프트웨어 또는 Field Programmable Gate Array(FPGA) 또는 주문형 반도체(Application Specific Integrated Circuit, ASIC) 등과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다. 그렇지만 모듈은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. 모듈은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 따라서, 일 예로서 모듈은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 또는 변수들을 포함한다. 구성요소들과 모듈들에서 제공되는 기능은 더 작은 수의 구성요소들 및 모듈들로 결합되거나 추가적인 구성요소들과 모듈들로 더 분리될 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

10: 단어 벡터 모듈
20: 주제어 모듈
30: 문서 벡터 모듈
40: 문서 군집화 모듈
100: 문서 군집화 시스템

Claims

삭제
삭제
딥러닝을 이용하여 비정형 텍스트 데이터를 군집화하는 문서 군집화 시스템이:
다수의 문서로부터 수집된 상기 비정형 텍스트 데이터로부터 단어사상을 통해 단어 벡터를 생성하는 단계;
각 문서에 대한 주제어를 추출한 후 상기 단어 벡터를 참조하여 주제어 벡터로 표현하는 단계;
상기 문서에 대한 문서 벡터와 상기 주제어 벡터를 이용하여 상기 문서에 대한 문서 자질을 구성하는 단계; 및
복수의 문서에 대하여 상기 문서 자질의 유사도에 따라 문서 군집화를 수행하는 단계를 포함하되,
상기 주제어를 추출하는 단계는, 각 문서로부터 후보 단어를 생성하는 단계; 상기 후보 단어마다 가중치를 부여하여 중요도를 결정하는 단계; 및 상기 중요도에 따라 기설정된 상위 순위에 해당하는 상기 후보 단어를 주제어로 선정하는 단계를 포함하고
상기 중요도는 아래의 수식에 의해 정의되는 것을 특징으로 하는 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법.
[수식]

(여기서, f: 필드 번호, TL_t: 단어 t의 길이, TF_t: 단어 t의 출현 수, ISF_t: 1 / (단어 t가 출현한 문장의 수), w_f: 필드 별 가중치)
제3항에 있어서,
상기 문서 자질을 구성하는 단계는, 각 문서에 대응하는 상기 주제어 벡터와 상기 문서 벡터를 분산 메모리 모델을 기반으로 연관(concatenation) 기법으로 결합시키는 것을 특징으로 하는 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법.
딥러닝을 이용하여 비정형 텍스트 데이터를 군집화하는 문서 군집화 시스템이:
다수의 문서로부터 수집된 상기 비정형 텍스트 데이터로부터 단어사상을 통해 단어 벡터를 생성하는 단계;
각 문서에 대한 주제어를 추출한 후 상기 단어 벡터를 참조하여 주제어 벡터로 표현하는 단계;
상기 문서에 대한 문서 벡터와 상기 주제어 벡터를 이용하여 상기 문서에 대한 문서 자질을 구성하는 단계; 및
복수의 문서에 대하여 상기 문서 자질의 유사도에 따라 문서 군집화를 수행하는 단계를 포함하되,
상기 문서 군집화를 수행하는 단계는,
하나 이상의 문서가 할당된 하나 이상의 클러스터를 정의하는 단계;
상기 클러스터에 할당되지 않은 문서에 대하여 그 문서의 문서 자질을 이용하여 CRP (Chinese Restaurant Process) 확률 및 IRad (Information Radius) 유사도를 연산하는 단계; 및
상기 CRP 확률과 상기 IRad 유사도를 비교하여 상기 문서가 할당될 클러스터를 결정하는 단계를 포함하는 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법.
제5항에 있어서,
상기 CRP 확률이 상기 IRad 유사도보다 큰 경우 상기 문서는 새로운 클러스터에 할당되고,
상기 CRP 확률이 상기 IRad 유사도보다 작거나 같은 경우 상기 문서는 기존 클러스터에 할당되는 것을 특징으로 하는 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법.