KR101092352B1

KR101092352B1 - 문장 코퍼스에 대한 영역 자동분류 방법 및 장치

Info

Publication number: KR101092352B1
Application number: KR1020090021205A
Authority: KR
Inventors: 이수종; 이일빈; 김정세; 윤승; 전형배; 박준; 박상규
Original assignee: 한국전자통신연구원
Priority date: 2008-10-31
Filing date: 2009-03-12
Publication date: 2011-12-09
Also published as: KR20100048842A

Abstract

본 발명은 문장 코퍼스에 대한 영역 자동분류 방법 및 장치에 관한 것으로, 음성언어 정보처리를 위해 구축된 대량의 문장 코퍼스에 대하여 문장단위로 엔그램에 기반하여 세부영역으로 자동 분류하며, 문장을 구성하는 어절묶음을 기반으로 엔그램 분석을 수행함으로써, 문장 코퍼스를 좀 더 세분화된 영역으로 자동 분류하는 모델을 제공하며, 특정 분야의 문장 코퍼스를 세부영역으로 분류하는데 그치지 않고, 인터넷에서 수집 가능한 문장을 대상으로 필요한 영역의 문장을 확보할 수 있는 이점이 있다.

엔그램, 문장분류, 영역 자동분류

Description

문장 코퍼스에 대한 영역 자동분류 방법 및 장치{METHOD AND APPARATUS FOR AUTOMATIC CLASSIFICATION OF SENTENCE CORPUS}

본 발명은 문장 코퍼스에 대한 영역 자동분류 방법 및 장치에 관한 것으로, 더욱 상세하게는 음성언어 정보 처리에 필요한 영역별 코퍼스 확보를 위하여 엔그램(N-gram)에 기반하여 분류대상 문장 코퍼스의 문장들을 미리 정의한 세부영역으로 자동 분류하는 방법 및 장치에 관한 것이다.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발 사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-01, 과제명: 휴대형 한/영 자동통역 기술개발].

인터넷 활용이 활발해지면서, 대량의 문서에 대한 범주(영역)분류의 필요성이 대두되었으며, 이러한 문서분류기술은 주로 TF(Term Frequency, 문서 내에서의 단어 출현 회수)/IDF(Inversed Document Frequency, 전체 문서 중 단어가 출현한 문서 개수의 역수)에 기반하여 이루어지고 있다.

문서분류는 문서의 내용에 기반하여 미리 정의되어 있는 범주들로 자동으로 할당하는 작업으로서 효율적인 정보관리 및 검색을 가능하게 하는 동시에 방대한 양의 수작업을 감소시키는데 그 목적을 둔다.

이러한 문서분류의 문제점 중의 하나는 사용하는 데이터의 차원이 매우 커서 문서분류에 필요한 단어만을 추출하여 문서데이터의 차원을 축소하는 작업을 필요로 한다.

그리고, 개별 문장단위를 분류하는 기술은 활성화되어 있지 않다. 문장단위로 영역을 분류하는 연구는 미흡한 실정으로 앞으로 음성언어 정보처리 기술의 진전에 따라 문장단위의 영역별 코퍼스 확보에 대한 논의가 활발해질 것으로 예상된다.

음성언어 정보처리를 위해서는 서비스 영역에 적합한 대량의 음성언어 자원을 필요로 한다. 음성인식기술은 기준이 되는 음성정보를 미리 구축해 놓고 입력되는 정보와 비교하는 패턴인식의 범주에 속하는 기술이므로 발성 가능한 문장 코퍼스를 충분히 확보할 필요가 있다. 또한 현재까지의 음성인식 시스템들은 특정한 영역에서 제한된 주제 및 어휘를 대상으로 하고 있는 실정이고, 임의의 문장을 인식하는 것이 아니라, 어떤 정해진 문법에 맞은 문장 중에서 인식하게 되므로 인식 대 상 문장이 충분히 확보되어야 하는 문제점이 있다. 제한된 영역에서 필요한 문장 코퍼스를 확보함에 있어서, 필요할 때마다 이를 추가 수집하는 것은 어려운 일이기 때문이다.

본 발명은 이와 같은 종래 기술의 문제점을 해결하기 위해 제안한 것으로서, 음성언어 정보처리를 위해 구축된 대량의 문장 코퍼스에 대하여 문장단위로 엔그램에 기반하여 세부영역으로 자동 분류하며, 문장을 구성하는 어절묶음을 기반으로 엔그램 분석을 수행함으로써, 문장 코퍼스를 좀 더 세분화된 영역으로 자동 분류하는 모델을 제공하며, 특정 분야의 문장 코퍼스를 세부영역으로 분류하는데 그치지 않고, 인터넷에서 수집 가능한 문장을 대상으로 필요한 영역의 문장을 확보할 수 있도록 한다.

본 발명의 제 1 관점으로서 문장 코퍼스에 대한 영역 자동분류 장치는, 분류하고자 하는 세부영역들 각각에 대한 훈련셋 문장 코퍼스를 대상으로 학습하여 상기 세부영역들의 엔그램 정보를 추출한 후에 이를 상기 세부영역들간의 비중으로 변환하는 문장 학습부와, 테스트셋 혹은 분류되어야 할 분류대상 문장 코퍼스를 상기 세부영역들간의 비중에 따라 분류하는 문장 분류부를 포함한다.

여기서, 상기 문장 학습부는, 상기 훈련셋 문장 코퍼스를 구성하는 어절묶음을 기반으로 상기 엔그램 정보를 추출한다.

상기 문장 학습부는, 상기 훈련셋 문장 코퍼스의 구성상태를 확인하는 훈련셋 문장 분석부와, 확인한 상기 구성상태에 따라 상기 훈련셋 문장 코퍼스 중에 동일한 문장이 있는지 분석하여 중복 문장을 제거하는 중복 문장 제거부와, 상기 중복 문장을 제거한 훈련셋 문장 코퍼스를 구성하는 상기 어절묶음을 구성하는 어절의 개수가 하나인 유니그램으로부터 전체의 어절을 포함하는 엔그램에 이르기까지 상기 어절묶음으로 분리하는 엔그램 분리부와, 상기 엔그램이 상기 훈련셋 문장 코퍼스 내에 얼마나 많이 나타나는지 빈도를 추출하는 엔그램 빈도 추출부와, 상기 세부영역간 정규화를 위해 상기 세부영역들의 엔그램 확률을 산출하는 엔그램 확률 산출부와, 각각의 상기 엔그램마다 각각의 상기 세부영역에서 차지하는 비중을 산출한 후 상기 엔그램 확률을 상기 세부영역간 비중으로 변환하여 각각의 상기 세부영역으로 분류할 훈련모델을 정립하는 도메인 비중 산출부를 포함한다.

상기 훈련셋 문장 분석부는, 상기 훈련셋 문장 코퍼스의 각 문장 첫 단어의 시작부분에 공백이 없도록 한다.

상기 문장 분류부는, 상기 분류대상 문장 코퍼스의 구성상태를 확인하는 분류대상 문장 코퍼스 분석부와, 확인한 상기 구성상태에 따라 상기 분류대상 문장 코퍼스의 문장구성 어절들을 유니그램부터 엔그램까지 분리하는 분류대상 문장 엔그램 분리부와, 분리한 상기 엔그램별로 도메인 비중을 수집하는 도메인 비중 확인부와, 수집한 상기 도메인 비중을 문장단위로 합산하는 문장단위 도메인 비중 종합부와, 합산한 상기 도메인 비중을 비교하여 문장단위로 가장 큰 도메인 비중을 갖는 세부영역으로 분류하는 문장단위 도메인 분류부와, 상기 분류대상 문장 코퍼스 를 분류한 상기 세부영역에 따라 세부영역 문장 코퍼스로 축적하는 세부영역 문장 코퍼스 축적부를 포함한다.

본 발명의 제 2 관점으로서 문장 코퍼스에 대한 영역 자동분류 방법은, 분류하고자 하는 세부영역들 각각에 대한 훈련셋 문장 코퍼스를 대상으로 학습하여 상기 세부영역들의 엔그램 정보를 추출한 후에 이를 상기 세부영역들간의 비중으로 변환하는 단계와, 테스트셋 혹은 분류되어야 할 분류대상 문장 코퍼스를 상기 세부영역들간의 비중에 따라 분류하는 단계를 포함한다.

여기서, 상기 변환하는 단계는, 상기 훈련셋 문장 코퍼스를 구성하는 어절묶음을 기반으로 상기 엔그램 정보를 추출한다.

상기 변환하는 단계는, 상기 훈련셋 문장 코퍼스의 구성상태를 확인하는 단계와, 확인한 상기 구성상태에 따라 상기 훈련셋 문장 코퍼스 중에 동일한 문장이 있는지 분석하여 중복 문장을 제거하는 단계와, 상기 중복 문장을 제거한 훈련셋 문장 코퍼스를 구성하는 상기 어절묶음을 구성하는 어절의 개수가 하나인 유니그램으로부터 전체의 어절을 포함하는 엔그램에 이르기까지 상기 어절묶음으로 분리하는 단계와, 상기 엔그램이 상기 훈련셋 문장 코퍼스 내에 얼마나 많이 나타나는지 빈도를 추출하는 단계와, 상기 세부영역간 정규화를 위해 상기 세부영역들의 엔그램 확률을 산출하는 단계와, 각각의 상기 엔그램마다 각각의 상기 세부영역에서 차지하는 비중을 산출한 후 상기 엔그램 확률을 상기 세부영역간 비중으로 변환하여 각각의 상기 세부영역으로 분류할 훈련모델을 정립하는 단계를 포함한다.

상기 확인하는 단계는, 상기 훈련셋 문장 코퍼스의 각 문장 첫 단어의 시작부분에 공백이 없도록 한다.

상기 분류하는 단계는, 상기 분류대상 문장 코퍼스의 구성상태를 확인하는 단계와, 확인한 상기 구성상태에 따라 상기 분류대상 문장 코퍼스의 문장구성 어절들을 유니그램부터 엔그램까지 분리하는 단계와, 분리한 상기 엔그램별로 도메인 비중을 수집하는 단계와, 수집한 상기 도메인 비중을 문장단위로 합산하는 단계와, 합산한 상기 도메인 비중을 비교하여 문장단위로 가장 큰 도메인 비중을 갖는 세부영역으로 분류하는 단계와, 상기 분류대상 문장 코퍼스를 분류한 상기 세부영역에 따라 세부영역 문장 코퍼스로 축적하는 단계를 포함한다.

본 발명에 의하면 음성언어 정보처리에 기반이 되는 영역별 문장 코퍼스의 확보를 용이하게 할 수 있는 효과를 제공한다. 이러한 본 발명의 효과를 몇 가지로 나눠보면 다음과 같다.

첫째, 특정 영역의 문장 코퍼스를 세부영역으로 좀 더 분류하는데 활용할 수 있다. 음성인식의 경우 인식대상 어휘나 문장이 많을수록 혼란도(perplexity)가 높아지므로 인식률의 저하를 가져올 수 있다. 따라서 영역을 세분화할 필요가 있는 경우 이를 활용할 수 있다. 기존에 수집된 다양한 영역의 문장 코퍼스를 필요한 세부영역으로 재분류하여 활용할 수 있다.

둘째, 특정 영역의 문장 코퍼스를 확보하고 추가 수집하는데 활용할 수 있 다. 음성인식의 경우를 다시 예로 들면, 임의의 문장을 인식하는 것이 아니라 인식대상 어휘나 문장 중에서 인식하게 되므로, 발성 가능한 문장을 충분히 확보하는 것이 필요하다. 요즘에는 인터넷이 다양한 분야에서 대화의 공간으로 활용됨에 따라, 다양한 영역에 걸쳐 다양한 문장들이 놓여 있으므로 가능한 문장을 수집하여 활용하는 데도 필요하다.

셋째, 필요한 문장 코퍼스를 충분히 수집하여 음성인식 대상 문장으로 활용할 수 있게 되므로, 음성인식 성능제고에 기여할 수 있다. 또한 발성 가능한 음성인식 대상 문장이 많아지므로 발성의 자유도를 획기적으로 높일 수 있다.

이하, 본 발명의 일부 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 아울러 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

음성언어 정보처리 기술의 성능이 향상되고 서비스 영역이 확대되는 경우에 다양한 영역에 관한 문장 코퍼스에 대한 수요가 증가할 것이다. 이때에 종래 기술에 따라 TF와 IDF를 기반으로 하는 문서분류 방법을 이용한다면 각 문서에 해당하는 대표단어를 추출하는 TF/IDF 단계를 거쳐야 한다. TF/IDF란 문서 내의 해당 단어에 대한 출현빈도(TF)와 출현하는 문서의 개수(DF)의 역수를 이용하는 것으로, 문서에서의 특정단어의 중요도는 해당 문서 내에서의 출현빈도에 비례하고 총 출현문서의 개수와는 반비례하는 특성을 활용하여 중요 핵심어를 추출한다. 그러나 이러한 문서분류 기술은 본 발명이 이루고자 하는 문장단위의 분류에 직접 적용하는 데에는 어려움이 있다. 하나의 문장을 문서로 간주해야 하기 때문이다.

본 발명은 문장 코퍼스를 대상으로 문장단위로 영역을 분류하며, 이를 위해 문장을 구성하는 어절간의 연결정보에 대한 엔그램 확률을 비교하여 해당 영역으로 분류한다.

본 발명에 의한 문장 코퍼스에 대한 영역 자동분류 방식은 문장 학습과정과 문장 분류과정으로 구분할 수 있다.

문장 학습과정에서는 세부분류를 위해서 미리 설정된 각 세부영역에 관한 훈련셋 문장들을 미리 준비한다. 다음에는 이들 훈련셋의 각 문장을 대상으로 엔그램 단위로 분리하고, 엔그램 확률값을 산출하여 모델링한다. 해당 세부영역별 모델링 결과를 세부영역간 비중(weight)으로 변환하여 분류대상 문장의 영역분류에 활용한다.

문장 분류과정에서는 테스트셋 혹은 분류되어야 할 분류대상 문장 코퍼스가 입력되면, 각 문장을 훈련셋 문장에서와 같은 방법으로 엔그램 단위로 분리한다. 각 세부영역에서는 일치하는 이들 엔그램 단위를 찾아서 미리 변환되어 있는 세부영역간 비중을 집계한다. 각 세부영역별로 합산한 엔그램 단위 비중을 문장단위로 종합한 다음에 가장 높은 세부영역으로 자동 분류한다.

도 1은 본 발명의 실시예에 따른 문장 코퍼스에 대한 영역 자동분류 장치의 블록 구성도이다.

이에 나타낸 바와 같이 본 발명의 영역 자동분류 장치는, 분류하고자 하는 세부영역들 각각에 대한 훈련셋 문장 코퍼스를 대상으로 학습하여 세부영역들의 엔그램 정보를 추출한 후에 이를 세부영역들간의 비중으로 변환하는 문장 학습부(100)와, 테스트셋 혹은 분류되어야 할 분류대상 문장 코퍼스를 세부영역들간의 비중에 따라 분류하는 문장 분류부(200) 등을 포함한다.

문장 학습부(100)는 훈련셋 문장 분석부(101), 중복 문장 제거부(103), 엔그램 분리부(105), 엔그램 빈도 추출부(107), 엔그램 확률 산출부(109), 도메인 비중 산출부(111) 등을 포함한다.

훈련셋 문장 분석부(101)는 훈련셋 문장 코퍼스의 구성상태를 확인하여 훈련셋 문장 코퍼스의 각 문장 첫 단어의 시작부분에 공백이 없도록 한다.

중복 문장 제거부(103)는 훈련셋 문장 분석부(101)에서 확인한 구성상태에 따라 훈련셋 문장 코퍼스 중에 동일한 문장이 있는지 분석하여 중복 문장을 제거하여 중복이 없도록 한다.

엔그램 분리부(105)는 중복 문장 제거부(103)가 중복 문장을 제거한 훈련셋 문장 코퍼스를 구성하는 어절묶음을 구성하는 어절의 개수가 하나인 유니그램으로부터 전체의 어절을 포함하는 엔그램에 이르기까지 어절묶음으로 분리한다.

엔그램 빈도 추출부(107)는 엔그램이 훈련셋 문장 코퍼스 내에 얼마나 많이 나타나는지 빈도를 추출한다.

엔그램 확률 산출부(109)는 세부영역간 정규화(normalize)를 위해 세부영역들의 엔그램 확률을 산출한다.

도메인 비중 산출부(111)는 각각의 엔그램마다 각각의 세부영역에서 차지하는 비중을 산출한 후 엔그램 확률 산출부(109)에서 산출한 엔그램 확률을 세부영역간 비중으로 변환하여 각각의 세부영역으로 분류할 훈련모델을 정립한다.

문장 분류부(200)는 분류대상 문장 코퍼스 분석부(201), 분류대상 문장 엔그램 분리부(203), 도메인 비중 확인부(205), 문장단위 도메인 비중 종합부(207), 문장단위 도메인 분류부(209), 세부영역 문장 코퍼스 축적부(211) 등을 포함한다.

분류대상 문장 코퍼스 분석부(201)는 테스트셋 혹은 분류되어야 할 분류대상 문장 코퍼스의 구성상태를 확인하여 분류대상 문장 코퍼스의 각 문장 첫 단어의 시작부분에 공백이 없도록 한다.

분류대상 문장 엔그램 분리부(203)는 분류대상 문장 코퍼스 분석부(201)에서 확인한 구성상태에 따라 분류대상 문장 코퍼스의 문장구성 어절들을 유니그램부터 엔그램까지 분리한다.

도메인 비중 확인부(205)는 분류대상 문장 엔그램 분리부(203)에서 분리한 엔그램별로 도메인 비중(domain weight)을 수집한다.

문장단위 도메인 비중 종합부(207)는 도메인 비중 확인부(205)에서 수집한 도메인 비중을 문장단위로 합산한다.

문장단위 도메인 분류부(209)는 문장단위 도메인 비중 종합부(207)에서 합산한 도메인 비중을 비교하여 문장단위로 가장 큰 도메인 비중을 갖는 세부영역으로 분류한다.

세부영역 문장 코퍼스 축적부(211)는 분류대상 문장 코퍼스를 문장단위 도메인 분류부(209)에서 분류한 세부영역에 따라 세부영역 문장 코퍼스로 축적한다.

도 2는 본 발명의 실시예에 따른 문장 코퍼스에 대한 영역 자동분류 방법을 설명하기 위한 흐름도이다. 이 흐름도를 참조하여 본 발명의 실시예에 따른 문장 코퍼스에 대한 영역 자동분류 장치에 의한 영역 자동분류 과정을 살펴보면 다음과 같다.

먼저, 문장 학습부(100)의 훈련셋 문장 분석부(101)는 훈련셋 문장 코퍼스의 구성상태를 확인하여 훈련셋 문장 코퍼스의 각 문장 첫 단어의 시작부분에 공백이 없도록 한 후에 세부영역 문장 코퍼스(도메인_1 코퍼스, 도메인_2 코퍼스, …, 도메인_n 코퍼스)를 중복 문장 제거부(103)에게 제공한다(S311).

그리고, 중복 문장 제거부(103)는 훈련셋 문장 분석부(101)에서 확인한 구성상태에 따라 훈련셋 문장 코퍼스, 즉 세부영역 문장 코퍼스 중에 동일한 문장이 있는지 분석하여 중복 문장을 제거하여 중복이 없도록 하며, 중복 문장을 제거한 훈련셋 문장 코퍼스를 엔그램 분리부(105)에게 제공한다(S312).

이어서, 엔그램 분리부(105)는 중복 문장 제거부(103)에 의해 중복 문장이 제거된 훈련셋 문장 코퍼스를 구성하는 어절묶음을 구성하는 어절의 개수가 하나인 유니그램으로부터 전체의 어절을 포함하는 엔그램에 이르기까지 어절묶음으로 분리한다(S313).

도 3은 본 발명의 실시예에 따른 문장 코퍼스에 대한 영역 자동분류 장치의 엔그램 분리부(105)가 엔그램 단위로 문장을 분리하는 과정을 설명하기 위한 개념도이다. (a)는 문장을 나타낸 것으로 W_1, W_2, …,W_n의 어절로 구성되어 있다. (b)는 유니그램(unigram) 단위를 나타낸 것으로 어절(ⓐ_1, ⓑ_1, ⓒ_1,…, W_n) 하나하나를 단위로 한다. (c)는 바이그램(bigram) 단위를 나타낸 것으로 2개의 어절을 하나의 묶음(ⓐ_2, ⓑ_2, ⓒ_2,…)으로 한다. (d)는 트라이그램(trigram) 단위를 나타낸 것으로 3개의 어절(ⓐ_3, ⓑ_3, ⓒ_3,…)을 하나의 묶음으로 한다. (e)는 엔그램 단위를 나타낸 것으로 전체 어절(ⓐ_n)을 포함하는 원래 문장이다.

그러면, 엔그램 빈도 추출부(107)는 엔그램이 훈련셋 문장 코퍼스 내에 얼마나 많이 나타나는지 빈도를 추출하며(S314), 엔그램 확률 산출부(109)는 세부영역간 정규화를 위해 세부영역들의 엔그램 확률을 산출한다(S315). 이 과정에서 엔그램 확률이 널(Null) 값을 갖는 경우, 예컨대 소수 8자리까지의 계산결과가 0인 경우는 정보력이 극히 낮은 경우이므로 제외하며, 여타의 세부영역에서도 같은 과정을 거쳐 엔그램 확률을 산출한다.

도메인 비중 산출부(111)는 각각의 엔그램마다 각각의 세부영역에서 차지하는 비중을 산출한 후 엔그램 확률 산출부(109)에서 산출한 엔그램 확률을 세부영역간 비중으로 변환하여 각각의 세부영역으로 분류할 훈련모델을 정립한다(S316). 이제 각 세부영역으로 분류할 훈련모델이 정립된 것이다.

다음으로, 문장 분류부(200)의 분류대상 문장 코퍼스 분석부(201)는 테스트셋 혹은 분류되어야 할 분류대상 문장 코퍼스가 입력되면 분류대상 문장 코퍼스의 구성상태를 확인하여 분류대상 문장 코퍼스의 각 문장 첫 단어의 시작부분에 공백이 없도록 한다(S321).

그리고, 분류대상 문장 엔그램 분리부(203)는 분류대상 문장 코퍼스 분석부(201)에서 확인한 구성상태에 따라 분류대상 문장 코퍼스의 문장구성 어절들을 유니그램부터 엔그램까지 분리한다(S322). 이러한 문장 분리 과정은 도 3을 참조하여 설명한 바 있는 엔그램 분리부(105)에 의한 문장 분리 과정과 동일 또는 유사한 개념에 의해 수행된다.

이어서, 도메인 비중 확인부(205)는 분류대상 문장 엔그램 분리부(203)에서 분리한 엔그램별로 도메인 비중을 수집하며(S323), 문장단위 도메인 비중 종합부(207)는 도메인 비중 확인부(205)에서 수집한 도메인 비중을 문장단위로 합산한다(S324). 즉 각 세부영역에서 일치하는 엔그램 단위가 있는지 검색하여 일치하는 엔그램 단위가 있으면 세부영역간 비중을 합산하여 그 결과값(문장단위 도메인_1 비중, 문장단위 도메인_2 비중, …, 문장단위 도메인_n 비중)을 문장단위 도메인 분류부(209)에게 제공한다.

그러면, 문장단위 도메인 분류부(209)는 문장단위 도메인 비중 종합부(207)에서 합산한 도메인 비중을 비교하여 문장단위로 가장 큰 도메인 비중을 갖는 세부영역으로 분류한다(S325). 이러한 세부영역 분류 과정은 분류대상 문장 코퍼스의 모든 문장이 분류될 때까지 반복하여 수행한다.

끝으로, 세부영역 문장 코퍼스 축적부(211)는 분류대상 문장 코퍼스를 문장단위 도메인 분류부(209)에서 분류한 세부영역에 따라 세부영역 문장 코퍼스(도메 인_1 문장 코퍼스, 도메인_2 문장 코퍼스, …, 도메인_n 문장 코퍼스)로 축적한다(S326).

본 발명에 의한 문장 코퍼스에 대한 영역 자동분류 방법은 컴퓨터 프로그램으로 작성 가능하다. 이 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 해당 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 문장 코퍼스에 대한 영역 자동분류 방법을 구현한다. 정보저장매체는 자기 기록매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한다.

지금까지 본 발명에 대하여 그 일부 실시예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

도 1은 본 발명의 실시예에 따른 문장 코퍼스에 대한 영역 자동분류 장치의 블록 구성도,

도 2는 본 발명의 실시예에 따른 문장 코퍼스에 대한 영역 자동분류 방법을 설명하기 위한 흐름도,

도 3은 본 발명의 실시예에 따른 문장 코퍼스에 대한 영역 자동분류 장치에 의한 엔그램 단위 문장 분리 과정을 설명하기 위한 개념도.

<도면의 주요 부분에 대한 부호의 설명>

100 : 문장 학습부

101 : 훈련셋 문장 분석부 103 : 중복 문장 제거부

105 : 엔그램 분리부 107 : 엔그램 빈도 추출부

109 : 엔그램 확률 산출부 111 : 도메인 비중 산출부

200 : 문장 분류부

201 : 분류대상 문장 코퍼스 분석부 203 : 분류대상 문장 엔그램 분리부

205 : 도메인 비중 확인부 207 : 문장단위 도메인 비중 종합부

209 : 문장단위 도메인 분류부 211 : 세부영역 문장 코퍼스 축적부

Claims

삭제
삭제
삭제
분류하고자 하는 세부영역들 각각에 대한 훈련셋 문장 코퍼스를 대상으로 학습하여 상기 훈련셋 문장 코퍼스를 구성하는 어절묶음을 기반으로 상기 세부영역들의 엔그램(N-gram) 정보를 추출한 후에 이를 상기 세부영역들간의 비중으로 변환하는 문장 학습부와,

테스트셋 혹은 분류되어야 할 분류대상 문장 코퍼스를 상기 세부영역들간의 비중에 따라 분류하는 문장 분류부를 포함하며,

상기 문장 학습부는, 상기 훈련셋 문장 코퍼스의 구성상태를 확인하는 훈련셋 문장 분석부와,

확인한 상기 구성상태에 따라 상기 훈련셋 문장 코퍼스 중에 동일한 문장이 있는지 분석하여 중복 문장을 제거하는 중복 문장 제거부와,

상기 중복 문장을 제거한 훈련셋 문장 코퍼스를 구성하는 상기 어절묶음을 구성하는 어절의 개수가 하나인 유니그램으로부터 전체의 어절을 포함하는 엔그램에 이르기까지 상기 어절묶음으로 분리하는 엔그램 분리부와,

상기 엔그램이 상기 훈련셋 문장 코퍼스 내에 얼마나 많이 나타나는지 빈도를 추출하는 엔그램 빈도 추출부와,

상기 세부영역간 정규화를 위해 상기 세부영역들의 엔그램 확률을 산출하는 엔그램 확률 산출부와,

각각의 상기 엔그램마다 각각의 상기 세부영역에서 차지하는 비중을 산출한 후 상기 엔그램 확률을 상기 세부영역간 비중으로 변환하여 각각의 상기 세부영역으로 분류할 훈련모델을 정립하는 도메인 비중 산출부를 포함하고,

상기 훈련셋 문장 분석부는, 상기 훈련셋 문장 코퍼스의 각 문장 첫 단어의 시작부분에 공백이 없도록 하는

문장 코퍼스에 대한 영역 자동분류 장치.
제 4 항에 있어서,

상기 문장 분류부는,

상기 분류대상 문장 코퍼스의 구성상태를 확인하는 분류대상 문장 코퍼스 분석부와,

확인한 상기 구성상태에 따라 상기 분류대상 문장 코퍼스의 문장구성 어절들을 유니그램부터 엔그램까지 분리하는 분류대상 문장 엔그램 분리부와,

분리한 상기 엔그램별로 도메인 비중을 수집하는 도메인 비중 확인부와,

수집한 상기 도메인 비중을 문장단위로 합산하는 문장단위 도메인 비중 종합부와,

합산한 상기 도메인 비중을 비교하여 문장단위로 가장 큰 도메인 비중을 갖는 세부영역으로 분류하는 문장단위 도메인 분류부와,

상기 분류대상 문장 코퍼스를 분류한 상기 세부영역에 따라 세부영역 문장 코퍼스로 축적하는 세부영역 문장 코퍼스 축적부

문장 코퍼스에 대한 영역 자동분류 장치.
삭제
삭제
삭제
분류하고자 하는 세부영역들 각각에 대한 훈련셋 문장 코퍼스를 대상으로 학습하여 상기 훈련셋 문장 코퍼스를 구성하는 어절묶음을 기반으로 상기 세부영역들의 엔그램 정보를 추출한 후에 이를 상기 세부영역들간의 비중으로 변환하는 단계와,

테스트셋 혹은 분류되어야 할 분류대상 문장 코퍼스를 상기 세부영역들간의 비중에 따라 분류하는 단계를 포함하며,

상기 변환하는 단계는, 상기 훈련셋 문장 코퍼스의 구성상태를 확인하는 단계와,

확인한 상기 구성상태에 따라 상기 훈련셋 문장 코퍼스 중에 동일한 문장이 있는지 분석하여 중복 문장을 제거하는 단계와,

상기 중복 문장을 제거한 훈련셋 문장 코퍼스를 구성하는 상기 어절묶음을 구성하는 어절의 개수가 하나인 유니그램으로부터 전체의 어절을 포함하는 엔그램에 이르기까지 상기 어절묶음으로 분리하는 단계와,

상기 엔그램이 상기 훈련셋 문장 코퍼스 내에 얼마나 많이 나타나는지 빈도를 추출하는 단계와,

상기 세부영역간 정규화를 위해 상기 세부영역들의 엔그램 확률을 산출하는 단계와,

각각의 상기 엔그램마다 각각의 상기 세부영역에서 차지하는 비중을 산출한 후 상기 엔그램 확률을 상기 세부영역간 비중으로 변환하여 각각의 상기 세부영역으로 분류할 훈련모델을 정립하는 단계를 포함하고,

상기 확인하는 단계는, 상기 훈련셋 문장 코퍼스의 각 문장 첫 단어의 시작부분에 공백이 없도록 하는

문장 코퍼스에 대한 영역 자동분류 방법.
제 9 항에 있어서,

상기 분류하는 단계는,

상기 분류대상 문장 코퍼스의 구성상태를 확인하는 단계와,

확인한 상기 구성상태에 따라 상기 분류대상 문장 코퍼스의 문장구성 어절들을 유니그램부터 엔그램까지 분리하는 단계와,

분리한 상기 엔그램별로 도메인 비중을 수집하는 단계와,

수집한 상기 도메인 비중을 문장단위로 합산하는 단계와,

합산한 상기 도메인 비중을 비교하여 문장단위로 가장 큰 도메인 비중을 갖는 세부영역으로 분류하는 단계와,

상기 분류대상 문장 코퍼스를 분류한 상기 세부영역에 따라 세부영역 문장 코퍼스로 축적하는 단계

문장 코퍼스에 대한 영역 자동분류 방법.