KR20110038474A

KR20110038474A - 문장경계 인식 장치 및 방법

Info

Publication number: KR20110038474A
Application number: KR1020090095775A
Authority: KR
Inventors: 이충희
Original assignee: 한국전자통신연구원
Priority date: 2009-10-08
Filing date: 2009-10-08
Publication date: 2011-04-14
Also published as: KR101259558B1; US8355904B2; US20110087484A1

Abstract

본 발명은 정보검색 등 다양한 언어 처리 응용을 위해서 언어 코퍼스 분석 시에 필요한 개선된 하이브리드 문장경계 인식 방법에 관한 것으로, 문장종결 기호가 생략된 문장도 인식하기 위해서 문장종결 기호뿐 아니라 문장종결 어미 및 문장종결에 사용될 수 있는 모든 음절을 대상으로 문장경계 후보를 추출한다. 또한, 문장경계 여부를 분류하는 알고리즘을 ME 모델, SVM 모델, CRF 모델 중 2개 이상을 사용하고, 입력된 문장의 자질에 따라 가장 최적의 알고리즘을 선택함으로써 문장경계 인식 성능을 향상시킨다. 또한, 분류된 통계 모델의 한계인 학습데이터에 의존적인 오류를 규칙에 기반해서 후처리함으로써 문장경계 인식의 정확도를 높인다.

문장경계, ME 모델, SVM 모델, CRF 모델, 기계학습

Description

문장경계 인식 장치 및 방법{apparatus and method for detecting sentence boundaries}

본 발명은 문장경계 인식 장치 및 방법에 관한 것이며, 더 상세하게는 하이브리드 방식에 기반한 문장경계 인식 장치 및 방법에 관한 것이다.

본 발명은 지식경제부 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-020-02, 과제명: 웹 QA 기술개발].

문장경계 인식 기술이란 문서를 입력으로 하여 해당 문서에 포함된 텍스트를 문장 단위로 구분하는 기술을 말한다. 이 분야의 종래기술을 살펴본다.

"정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치 및 그 방법[한국 출원번호: 10-2000-0002721]"은 입력 문자열에 대해 문장 분리를 먼저 수행하지 않고, 형태소 분석 및 품사 태깅과정에서 문장 단위를 인식하기 위하여 정규표현과 확률적 문맥정보를 이용한 문장범위 인식 장치 및 그 방법에 대한 것이다. 상기 방법을 실현시키기 위한 시스템 구성은 다음과 같다. 품사 태깅을 위하여 입력 문서를 토큰(Token)들의 열(Sequence)로 분리하기 위한 토큰분리수단; 상기 토큰 분리수단으로부터 토큰 열을 입력받아 확률사전을 이용하여 형태소 분석을 수행하고 확 률적 품사 태거의 입력 구조를 생성하기 위한 형태소 분석수단; 현재 단어와 주변의 단어의 확률 정보를 이용하여 현재 단어의 품사 중의성을 해소하는 품사 태깅 수단과; 현재 단어에서 문장 분리를 수행할지를 정규 표현을 이용하여 정하는 문장분리 규칙 생성수단; 상기 문장분리 규칙 생성수단으로부터의 문장범위 인식 규칙을 빠르게 적용하기 위하여 유한 상태 오토마타(Finite State Automata)로 변환하는 규칙 인터프리팅수단; 및 상기 형태소 분석수단으로부터의 확률적 문맥정보와 상기 규칙 인터프리팅수단으로부터의 정규 표현을 이용하여 문장을 분리하기 위한 문장분리수단을 포함한다. 그리고 최종적으로 자연언어 처리시스템 등에 이용된다. 이 기술은 규칙에 기반해서 문장경계를 인식하는 기술로, 품사 태거 결과를 문장경계에 이용함으로써 확률 정보도 약간은 고려할 수 있다. 하지만 언어분석결과에 의존적이므로 학습에 사용되지 않은 분야 및 언어에 대해서는 사용할 수 없고, 주로 규칙을 사용하므로 확장성 및 이식성이 떨어지는 문제가 있다.

"Method for automatically identifying sentence boundaries in noisy conversational data[미국 공개번호: US 2009/0063150 A1]"은 노이즈가 섞인 대화 전사 데이터에 있는 문장 경계를 자동으로 인식하기 위한 방법에 대한 것이다. 문장 경계 인식을 위한 과정은 다음과 같다. 노이즈와 전사 심볼들이 제거된 후, 학습데이터는 긴 침묵이나 수작업에 기반해서 문장 경계가 표시되어 만들어진다. 문장의 시작과 끝에 나타나는 n-gram 들의 빈도수가 학습데이터로부터 구해진다. 문장의 중간에 나온 n-gram 들은 제거되며, 학습데이터 문장의 시작과 끝의 나머지 n-gram들에 대해서 문장 경계가 표시된다. 다음으로, 대화의 턴(turn)에 대해서 인 식한 후, 각 턴 다음에 문장경계 심볼이 표시된다. 최종적으로, 표시된 문장 경계들을 기반으로 문장들이 인식된다. 이 기술은 문장의 시작과 끝에 나오는 n-gram들의 단순 빈도수에 기반해서 문장 경계를 인식하는 방법으로 인식 성능에 한계가 있고, 음성 대화에 기반해서 학습하므로 일반 문서에 적용하는 경우, 성능 저하가 예상된다.

"메모리 기반의 기계 학습을 이용한 한국어 문장경계 인식[임희석, 한군희, 한국콘텐츠학회논문지]"은 기계 학습 기법 중에서 메모리 기반 학습을 사용하여 범용의 학습 가능한 한국어 문장경계 인식기를 제안한다. 제안한 방법은 메모리 기반 학습 알고리즘 중 최근린 이웃(kNN) 알고리즘을 사용하였으며, 이웃들을 이용한 문장경계 결정을 위한 스코어 값 계산을 위한 다양한 가중치 방법을 적용하여 이들을 비교 분석하였다. 문장경계 구분을 위한 자질로는 특정 언어나 장르에 제한적이지 않고 범용으로 적용될 수 있는 자질만을 사용하였다. 성능 실험을 위하여 ETRI 코퍼스(corpus)와 KAIST 코퍼스를 사용하였으며, 성능 척도로는 정확도와 재현율이 사용되었다. 실험 결과 제안한 방법은 적은 학습 코퍼스만으로도 98.82%의 문장 정확률과 99.09%의 문장 재현율을 보였다. 이 논문은 문장경계로 사용되는 구두점만을 대상으로 문장경계를 인식하므로, 구두점의 생략, 띄어쓰기 오류, 오타가 많이 나타나는 웹 문서에 적용할 수 없다는 문제점이 있다.

"기계학습 기법을 이용한 문장경계 인식[박수혁, 임해창, 한국정보처리학회 춘계학술발표대회 눈문집]"은 언어의 통계적 특징을 이용하여 범용의 문장경계 인식기를 제안한다. 제안하는 방법은 대량의 코퍼스 내에서 사용되고 있는 문장 경계 를 기준으로 음절 및 어절 등의 자질을 이용하여 통계적 특징을 추출하고 다양한 기계학습 기법을 사용하여 문장경계를 인식하고자 하였다. 또한 특정 언어나 도메인에 제한적이지 않고 범용적인 자질만을 사용하려고 노력하였다. 언어의 특성상 문장의 구분이 애매한 경우 또는 잘못 사용된 구두점 등의 경우에도 적용 가능하도록 다양한 자질을 사용하여 실험하였으며, 한국어와 영문 코퍼스에 대해서 동일한 자질을 적용하여 실험하여 본 논문에서 제시한 자질들이 한국어 및 다른 언어권의 언어에도 적용될 수 있는 범용적인 자질임을 확인할 수 있었다. 한국어 문장경계 인식을 위한 기계학습 및 실험을 위해서 세종계획 코퍼스를 사용하였으며, 성능척도로는 정확률과 재현율을 사용하였으며, 실험결과 제안한 방법으로 99%의 정확률과 99.2%의 재현율을 보였다. 영문의 경우는 Wall Street Journal 코퍼스를 사용하였으며, 동일한 자질을 적용하여 실험한 결과 98.9%의 정확률과 94.6%의 재현율을 보였다. 이 논문도 위의 논문과 동일하게 문장경계로 사용되는 구두점만을 대상으로 문장경계를 인식하므로, 구두점의 생략, 띄어쓰기 오류, 오타가 많이 나타나는 웹 문서에 적용할 수 없다는 문제점이 있다.

위에 소개된 논문이나 특허와 같이 현재까지 연구되거나 발표된 문장 경계인식 방법은 대부분 구두점이나 공백 또는 문장의 시작과 끝에 나오는 n-gram을 대상으로 문장경계 여부를 판별하고, 일부는 언어분석 결과를 이용해서 언어에 종속적이다. 이런 한계로 인해 기존 연구는 띄어쓰기가 안 되어 있거나 구두점이 없는 웹문서와 같이 일반 사용자가 작성한 문서에 대해서는 문장경계 인식이 안 되거나 성능이 떨어지는 문제가 있고, 다른 언어에는 사용할 수 없는 언어 종속성 문제가 있다.

본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 구두점의 생략, 띄어쓰기 오류, 오타 등이 많이 나타나는 웹 문서에 대해서도 적용할 수 있는 문장경계 인식 장치 및 방법을 제공하고자 한다.

본 발명의 다른 목적은 향상된 인식 성능을 갖는 문장경계 인식 장치 및 방법을 제공하고자 하는 것이다.

본 발명의 목적을 달성하기 위한 문장경계 인식 장치는, 입력된 문서로부터 문장경계 후보를 추출하는 문장경계 후보 추출부와, 추출된 문장경계 후보의 앞, 뒤 문맥 정보로부터 두 개 이상의 통계 모델에 사용될 수 있는 자질을 추출하는 문서 문맥 분석부와, 추출된 자질과 두 개 이상의 통계 모델을 이용해서 문장경계 후보의 문장경계 여부를 분류하는 문장경계 후보 분류부와, 문장경계 후보의 문장경계 여부 분류 결과를 기반으로 문서를 문장 단위로 추출하는 문장 생성부를 포함한다.

여기에서, 상기 문서 문맥 분석부는, 문장경계 후보의 구두점 여부에 대한 정보를 추출하는 구두점 자질 추출부와, 문장경계 후보의 다음 음절의 공백 여부에 대한 정보를 추출하는 공백자질 추출부와, 문장경계 후보의 이전 1번째부터 n번째 음절(n은 자연수)에 대한 정보와 문장경계 후보의 다음 1번째부터 n번째 음절에 대한 정보를 추출하는 음절 자질 추출부와, 문장경계 후보의 이전 1번째부터 n번째 토큰에 대한 정보와 문장 경계후보의 다음 1번째부터 n번째 토큰에 대한 정보를 추출하는 토큰 자질 추출부와, 대상 문장의 시작부터 문장경계 후보까지 나온 따옴표의 개수에 대한 정보를 추출하는 따옴표 자질 추출부를 포함할 수 있다.

상기 두 개 이상의 통계 모델은 ME(Maximum Entropy) 모델, SVM(Support Vector Machine), CRF(Critical Random Field) 모델 중 두 개 이상이며,상기 문장경계 후보 분류부는, 추출된 자질에 기반해서 ME 모델을 통해 문장경계 여부를 분류하는 ME 기반 분류부와, SVM 알고리즘을 통해 문장경계 여부를 분류하는 SVM 기반 분류부와, CRF 모델에 기반해서 문장경계 여부를 분류하는 CRF 기반 분류부 중 두 개 이상을 포함하고, 추출된 자질에 기반해서 상기 ME 기반 분류부, 상기 SVM 기반 분류부, 상기 CRF 기반 분류부 중 두 개 이상으로부터의 분류 결과 중에서 최적의 분류 결과를 최종 분류 결과로 선택하는 최적 분류 선택부를 포함할 수 있다.

본 발명의 목적은, 입력된 문서로부터 문장경계 후보를 추출하는 문장경계 후보 추출부와, 추출된 문장경계 후보의 앞, 뒤 문맥 정보로부터 통계 모델에 사용될 수 있는 자질을 추출하는 문서 문맥 분석부와, 추출된 자질과 통계 모델을 이용해서 문장경계 후보의 문장경계 여부를 분류하는 문장경계 후보 분류부와, 분류된 문장경계 후보에 대하여 미리 정한 규칙에 기반하여 오류를 수정하는 오류 후처리부와, 상기 오류 후처리부에 의해 오류가 수정된 문장경계 후보의 문장경계 여부 분류 결과를 기반으로 문서를 문장 단위로 추출하는 문장 생성부를 포함하는 문장경계 인식 장치에 의해서도 달성 가능하다.

또한, 본 발명의 목적은 입력된 문서로부터 문장경계 후보를 추출하는 문장 경계 후보 추출부와, 추출된 문장경계 후보의 앞, 뒤 문맥 정보로부터 통계 모델에 사용될 수 있는 자질을 추출하는 문서 문맥 분석부와, 추출된 자질과 통계 모델을 이용해서 문장경계 후보의 문장경계 여부를 분류하는 문장경계 후보 분류부와, 상기 문장경계 후보의 문장경계 여부 분류 결과를 기반으로 문서를 문장 단위로 추출하는 문장 생성부를 포함하며, 상기 문장경계 후보는, 문장종결로 사용될 수 있는 구두점, 용언에 붙어서 사용되는 어미 중에서 문장종결로 사용되는 종결어미, 문장종결 기호가 태깅된 학습데이터로부터 문장종결에 사용된 모든 음절을 미리 추출하고, 추출된 상기 음절의 목록을 기반으로 추출된 기타 문장종결 음절 중 적어도 하나를 포함하는 문장경계 인식 장치에 의해서도 달성할 수 있다.

본 발명의 목적을 달성하기 위한 문장경계 인식 방법은, 입력된 문서로부터 문장경계 후보를 추출하는 단계와, 추출된 문장경계 후보의 앞, 뒤 문맥 정보로부터 두 개 이상의 통계 모델에 사용될 수 있는 자질을 추출하는 단계와, 추출된 자질과 두 개 이상의 통계 모델을 이용해서 문장경계 후보의 문장경계 여부를 분류하는 단계와, 문장경계 후보의 분류 결과를 기반으로 상기 문서를 문장 단위로 추출하는 단계를 포함한다.

여기에서, 상기 문장경계 여부를 분류하는 단계는, 자질에 기반해서 ME 모델을 통해 문장경계 여부를 분류하는 단계와, SVM 알고리즘을 통해 문장경계 여부를 분류하는 단계와, CRF 모델에 기반해서 상기 문장경계 후보의 문장경계 여부를 분류하는 단계와, 자질에 기반해서 상기 ME, SVM, CRF 기반 분류 단계의 분류 결과 중에서 최적의 분류 결과를 최종 분류 결과로 선택하는 단계를 포함할 수 있다.

또한, 분류된 상기 문장경계 후보에 대하여 미리 정한 규칙에 기반하여 오류를 수정하는 단계를 더 포함할 수 있으며, 상기 오류를 수정하는 단계는, 규칙에 기반하여 문장경계 후보에 대해 후처리 대상 여부를 인식하는 단계와, 상기 후처리 대상 여부를 인식하는 단계에서의 인식 결과, 문장경계 후보가 후처리 대상으로 결정되는 경우 문장경계 후보의 분류 결과를 반대로 바꾸는 단계를 포함할 수 있다.

상기한 바와 같이 본 발명은 문장경계 인식 대상을 문장종결 구두점만을 대상으로 하지 않고, 종결어미 및 문장경계에 사용된 모든 음절을 대상으로 하기 때문에, 문장종결 구두점이 생략되거나 띄어쓰기 오류가 많은 웹 문서와 같은 비전문가가 작성한 문서에 대해서도 문장경계를 인식할 수 있으며, 한국어 이외의 다른 언어에 대해 보편적으로 사용될 수 있다.

또한, 기계학습에 기반한 분류 모델을 사용하여 문장경계 여부를 분류함으로써 대용량 웹 문서를 학습데이터로 사용하여 문장경계인식 성능을 최대화할 수 있으며, 2개 이상의 통계 모델을 사용함으로써 문맥에 따라 최적화된 분류 결과를 얻을 수 있다.

뿐만 아니라, 학습데이터에 의존적인 통계모델의 단점을 극복하기 위하여 규칙에 기반해서 오류 후처리를 수행함으로써 궁극적으로 문장경계 인식의 성능을 극대화할 수 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하에서 첨부한 도면을 참고로 하여 본 발명의 바람직한 실시예를 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 문장경계 인식 장치의 전체 구성도이다.

도 1에 도시한 바와 같이, 본 발명의 실시예에 따른 문장경계 인식 장치(10)는 문장경계 후보 추출부(200), 문서 문맥 분석부(300), 문장경계 후보 분류부(400), 오류 후처리부(500), 문장 생성부(600)를 포함하여 이루어진다.

문장경계 후보 추출부(200)는 문장경계 인식 장치(10)로 입력된 문서로부터 문장경계가 될 수 있는 후보들을 추출하여 문서 문맥 분석부(300)로 전달한다. 문서 문맥 분석부(300)는 추출된 문장경계 후보의 앞, 뒤 문맥정보를 분석하여 분류 모델에 사용되기 위한 자질들을 추출한다. 문장경계 후보 분류부(400)는 문서 문맥 분석부(300)로부터 추출된 자질들을 이용해서 해당 문장경계 후보가 문장경계가 될 수 있는지 여부를 분류한다. 오류 후처리부(500)는 문장경계 후보 분류부(400)로부터 분류된 결과의 오류를 규칙에 기반해서 수정하고, 문장 생성부(600)는 최종적으로 인식된 문장경계를 기반으로 문서를 문장 단위로 생성한다.

이하에서, 본 발명의 실시예에 따른 문장경계 인식 장치(10) 내부의 각 구성요소에 대해 상세히 설명한다. 도 2 내지 도 5는 각각 본 발명의 실시예에 따른 문장경계 인식 장치(10)의 문장경계 후보 추출부(200), 문서 문맥 분석부(300), 문장경계 후보 분류부(400), 오류 후처리부(500)의 구성을 도시한 것이다.

도 2에 나타난 바와 같이, 문장경계 후보 추출부(200)는 구두점 후보 추출부(210), 종결어미 후보 추출부(220), 기타 후보 추출부(230)와 문장경계 후보 사전(240)을 포함하여 이루어진다.

구두점 후보 추출부(210)는 문장종결로 사용될 수 있는 구두점을 문장경계 후보로 추출하며, 예를 들면, 마침표(.), 물음표(?), 느낌표(!)를 후보로 추출할 수 있다. 종결어미 후보 추출부(220)는 용언에 붙어서 사용되는 어미 중에서 문장종결로 사용되는 종결어미를 후보로 추출한다. 예를 들면 아래와 같은 15개의 종결어미가 종결어미 후보로 추출될 수 있다.

종결어미: 다, 네, 오, 어, 지, 나, 군, 라, 니, 가, 까, 게, 자, 세, 요

본 발명의 실시예에 따르면, 문장종결 기호가 태깅된 학습데이터로부터 문장종결에 사용된 모든 음절을 미리 추출하고, 이 결과를 문장경계 후보사전(240)에 보관한다. 문장경계 후보사전(240)은 앞서 서술한 종결어미를 저장하는 종결어미 사전(242)과 문장종결에 사용되는 기타후보를 저장하는 기타후보 사전(244)을 포함한다.

기타후보 추출부(230)는 문장경계 후보사전(240)의 기타후보 사전(244)에 저장된 목록을 기반으로 문장경계 후보를 추출한다. 문장종결에 사용된 음절의 예는 아래와 같다.

문장종결 음절: 가, 각, 간, 감, ... 나, 날, 낮, 내, 냐, ... 다, 단, 담, 답, 당, 대, 던, 데, ... 라, 락, 란, 랄, 람, 래, 램, 랴, 를, ... 마, 막, 만, ... 흐, 흑, 흔, 희, 힝

도 3은 문서의 문맥을 분석하여 통계모델에 사용할 자질을 추출하는 문서 문맥 분석부(300)의 구성을 도시한 것으로, 문서 문맥 분석부(300)는 구두점 자질 추출부(310), 공백 자질 추출부(320), 음절 자질 추출부(330), 토큰 자질 추출부(340), 따옴표 자질 추출부(350)와 자질 사전(360)을 포함한다.

구두점 자질 추출부(310)는 해당 문장경계 후보의 구두점 여부에 대한 정보를 추출하고, 공백 자질 추출부(320)는 문장경계 후보의 다음 음절의 공백 여부에 대한 정보를 추출하고, 음절 자질 추출부(330)는 문장경계 후보의 이전 1번째부터 n번째 음절(n은 자연수)에 대한 정보와 문장경계 후보의 다음 1번째부터 n번째 음절에 대한 정보를 추출하고, 토큰 자질 추출부(340)는 문장경계 후보의 이전 1번째부터 n번째 토큰에 대한 정보와 문장경계 후보의 다음 1번째부터 n번째 토큰에 대한 정보를 추출하고, 따옴표 자질 추출부(350)는 대상 문장의 시작부터 문장경계 후보까지 나온 따옴표의 개수에 대한 정보를 추출한다. 이 때, 자질 사전(360)에 등록되어 있는 데이터를 이용한다.

도 4는 문장경계 후보 분류부(400)의 구성을 나타낸 것으로서, 문장경계 후보 분류부(400)는 ME(Maximum Entropy) 기반 분류부(410)와 ME 모델 데이터베이스(450), SVM(Support Vector Machine) 기반 분류부(420)와 SVM 모델 데이터베이스(460), CRF(Critical Random Field) 기반 분류부(430)와 CRF 모델 데이터베이스(470), 최적 분류 선택부(440)를 포함하여 이루어진다.

ME 기반 분류부(410)는 문서 문맥 분석부(300)로부터 추출된 자질들에 기반해서 Maximum Entropy 모델을 통해 문장경계 후보의 문장경계 여부를 분류하고, SVM 기반 분류부(420)는 Support Vector Machine 알고리즘을 통해 문장경계 후보의 문장경계 여부를 분류하고, CRF 기반 분류부(430)는 Critical Random Field 모델에 기반해서 문장경계 후보의 문장경계 여부를 분류한다.

최적 분류 선택부(440)는 현재 문장경계 후보의 자질들에 기반해서 ME, SVM, CRF 3개의 분류 엔진 중 최적의 분류 엔진을 선택한다.

한편, 분류 엔진 3개 중 1개를 선택하기 위한 알고리즘도 ME, SVM, CRF 등의 분류 알고리즘을 사용하고, 분류 모델의 학습에도 문장경계 인식용 학습 데이터를 그대로 사용함으로써 추가적인 노력을 최소화할 수 있다.

최적 분류 선택부(440)에서 선택된 분류 엔진을 사용하여 최종 문장경계 인식이 수행되며, 문맥에 따라 최적의 분류 모델을 선택함으로써 문장경계 인식의 성능을 최대화할 수 있다.

도 5는 오류 후처리부(500)의 구성을 나타낸 것으로서, 오류 후처리부(500) 는 후처리 대상 인식부(510)와 후처리 대상 인식사전(530) 및 오류 수정부(520)를 포함하여 이루어진다.

문장경계 후보 분류부(400)에 의해 최적의 분류 모델을 선택하여 문장경계를 인식하더라도, 분류된 통계 모델의 한계인 학습데이터에 의존적인 오류는 존재할 수 있다. 오류 후처리부(500)는 이와 같은 오류를 제거하기 위한 것이다.

후처리 대상 인식부(510)는 통계 모델에서 자주 발생하는 명확한 분류 오류를 인식하기 위한 것으로, 수작업에 의해서 구축되어 후처리 대상 인식사전(530)에 저장되어 있는 정규화 표현식에 의해서 후처리 대상 여부를 인식하고, 오류 수정부(520)는 후처리 대상으로 결정되는 경우에 분류결과를 반대로 바꾼다.

이제, 본 발명의 실시예에 따른 문장경계 인식 방법에 대해 설명한다. 도 6은 본 발명의 실시예에 따른 문장경계 인식 방법을 나타낸 흐름도이다.

도 6에 나타난 바와 같이, 문장경계 인식 장치(10)로 문서셋이 입력되면 먼저 문장경계 후보 추출부(200)에 의해 문장경계 후보가 추출된다(S610).

다음, 문서 문맥 분석부(300)에 의해 문장경계 후보의 앞, 뒤 문맥정보를 분석하여 분류 모델에 사용되기 위한 자질들을 추출한다(S620).

이어서, 해당 문장경계 후보가 문장경계가 될 수 있는지 여부가 S620 단계에서 추출된 자질들을 이용해서 결정되고, 문장경계 후보로부터 최종 문장경계가 분류된다(S630). S630 단계는 문장경계 후보 분류부(400)에 의해 이루어지며, 앞서 도 4를 참고로 설명한 바와 같이, ME, SVM, CRF 기반 분류 중 최적의 분류를 선택하여 이에 따라 문장경계 후보를 분류한다.

분류된 문장경계 후보에 대해 오류 후처리부(500)에 의한 오류 후처리가 수행되(S640), 이에 따라 최종 문장이 생성된다(S650).

이와 같은 문장경계 인식의 결과로 문장경계 인식 장치(10)로 입력된 문서셋은 구분된 문장의 리스트로 변환되어 제공된다.

본 발명의 실시예에 따른 문장경계 인식 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들면 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

이상에서 바람직한 실시예를 기준으로 본 발명을 설명하였지만, 본 발명의 문장경계 인식 장치 및 방법은 반드시 상술된 실시예에 제한되는 것은 아니며 발명의 요지와 범위로부터 벗어남이 없이 다양한 수정이나 변형을 하는 것이 가능하다. 첨부된 특허청구의 범위는 본 발명의 요지에 속하는 한 이러한 수정이나 변형을 포함할 것이다.

도 1은 본 발명의 실시예에 따른 문장경계 인식 장치의 구성도,

도 2 내지 도 5는 본 발명의 실시예에 따른 문장경계 인식 장치의 문장경계 후보 추출부, 문서 문맥 분석부, 문장경계 후보 분류부, 오류 후처리부를 각각 나태는 구성도,

도 6은 본 발명의 실시예에 따른 문장경계 인식 방법을 나타내는 흐름도이다.

Claims

입력된 문서로부터 문장경계 후보를 추출하는 문장경계 후보 추출부와,

추출된 상기 문장경계 후보의 앞, 뒤 문맥 정보로부터 두 개 이상의 통계 모델에 사용될 수 있는 자질을 추출하는 문서 문맥 분석부와,

추출된 상기 자질과 상기 두 개 이상의 통계 모델을 이용해서 상기 문장경계 후보의 문장경계 여부를 분류하는 문장경계 후보 분류부와,

상기 문장경계 후보의 문장경계 여부 분류 결과를 기반으로 상기 문서를 문장 단위로 추출하는 문장 생성부를 포함하는 문장경계 인식 장치.
제1항에 있어서, 상기 문장경계 후보 추출부는,

문장종결로 사용될 수 있는 구두점을 상기 문장경계 후보로 추출하는 구두점 후보 추출부를 포함하는 문장경계 인식 장치.
제2항에 있어서, 상기 문장경계 후보 추출부는,

용언에 붙어서 사용되는 어미 중에서 문장종결로 사용되는 종결어미를 상기 문장경계 후보로 추출하는 종결어미 후보 추출부를 더 포함하는 문장경계 인식 장치.
제2항에 있어서, 상기 문장경계 후보 추출부는,

문장종결 기호가 태깅된 학습데이터로부터 문장종결에 사용된 모든 음절을 미리 추출하고, 추출된 상기 음절의 목록을 기반으로 상기 문장경계 후보를 추출하는 기타 후보 추출부를 더 포함하는 문장경계 인식 장치.
제1항에 있어서, 상기 문서 문맥 분석부는,

상기 문장경계 후보의 구두점 여부에 대한 정보를 추출하는 구두점 자질 추출부와,

상기 문장경계 후보의 다음 음절의 공백 여부에 대한 정보를 추출하는 공백자질 추출부와,

상기 문장경계 후보의 이전 1번째부터 n번째 음절(n은 자연수)에 대한 정보와 상기 문장경계 후보의 다음 1번째부터 n번째 음절에 대한 정보를 추출하는 음절 자질 추출부와,

상기 문장경계 후보의 이전 1번째부터 n번째 토큰에 대한 정보와 상기 문장 경계후보의 다음 1번째부터 n번째 토큰에 대한 정보를 추출하는 토큰 자질 추출부와,

대상 문장의 시작부터 상기 문장경계 후보까지 나온 따옴표의 개수에 대한 정보를 추출하는 따옴표 자질 추출부를 포함하는 문서의 문장경계 인식 장치.
제1항에 있어서,

상기 두 개 이상의 통계 모델은 ME(Maximum Entropy) 모델, SVM(Support Vector Model), CRF(Critical Random Field) 모델 중 두 개 이상이며,

상기 문장경계 후보 분류부는,

상기 문서 문맥 분석부로부터 추출된 자질에 기반해서 ME 모델을 통해 상기 문장경계 후보의 문장경계 여부를 분류하는 ME 기반 분류부와,

상기 문서 문맥 분석부로부터 추출된 자질에 기반해서 SVM 알고리즘을 통해 상기 문장경계 후보의 문장경계 여부를 분류하는 SVM 기반 분류부와,

상기 문서 문맥 분석부로부터 추출된 자질에 기반해서 CRF 모델에 기반해서 상기 문장경계 후보의 문장경계 여부를 분류하는 CRF 기반 분류부

중 두 개 이상과,

상기 문서 문맥 분석부로부터 추출된 자질에 기반해서 상기 ME 기반 분류부, 상기 SVM 기반 분류부, 상기 CRF 기반 분류부 중 두 개 이상으로부터의 분류 결과 중에서 최적의 분류 결과를 최종 분류 결과로 선택하는 최적 분류 선택부를 포함하는 문장경계 인식 장치.
제1항에 있어서,

분류된 상기 문장경계 후보에 대하여 미리 정한 규칙에 기반하여 오류를 수정하는 오류 후처리부를 더 포함하며,

상기 문장 생성부는 상기 오류 후처리부에 의하여 오류가 수정된 상기 분류 결과를 기반으로 상기 문서를 문장 단위로 추출하는 문장경계 인식 장치.
제7항에 있어서, 상기 오류 후처리부는,

미리 정한 상기 규칙에 기반하여 상기 문장경계 후보에 대해 후처리 대상 여부를 인식하는 후처리 대상 인식부와,

상기 문장경계 후보가 후처리 대상으로 결정되는 경우 상기 문장경계 후보의 분류 결과를 반대로 바꾸는 오류 수정부

를 포함하는 문장경계 인식 장치.
입력된 문서로부터 문장경계 후보를 추출하는 문장경계 후보 추출부와,

추출된 상기 문장경계 후보의 앞, 뒤 문맥 정보로부터 통계 모델에 사용될 수 있는 자질을 추출하는 문서 문맥 분석부와,

추출된 상기 자질과 상기 통계 모델을 이용해서 상기 문장경계 후보의 문장경계 여부를 분류하는 문장경계 후보 분류부와,

분류된 상기 문장경계 후보에 대하여 미리 정한 규칙에 기반하여 오류를 수정하는 오류 후처리부와,

상기 오류 후처리부에 의해 오류가 수정된 상기 문장경계 후보의 문장경계 여부 분류 결과를 기반으로 상기 문서를 문장 단위로 추출하는 문장 생성부를 포함하는 문장경계 인식 장치.
입력된 문서로부터 문장경계 후보를 추출하는 문장경계 후보 추출부와,

추출된 상기 문장경계 후보의 앞, 뒤 문맥 정보로부터 통계 모델에 사용될 수 있는 자질을 추출하는 문서 문맥 분석부와,

추출된 상기 자질과 상기 통계 모델을 이용해서 상기 문장경계 후보의 문장경계 여부를 분류하는 문장경계 후보 분류부와,

상기 문장경계 후보의 문장경계 여부 분류 결과를 기반으로 상기 문서를 문장 단위로 추출하는 문장 생성부를 포함하며,

상기 문장경계 후보는,

문장종결로 사용될 수 있는 구두점, 용언에 붙어서 사용되는 어미 중에서 문장종결로 사용되는 종결어미, 문장종결 기호가 태깅된 학습데이터로부터 문장종결에 사용된 모든 음절을 미리 추출하고, 추출된 상기 음절의 목록을 기반으로 추출된 기타 문장종결 음절 중 적어도 하나를 포함하는 문장경계 인식 장치.
입력된 문서로부터 문장경계 후보를 추출하는 단계와,

추출된 상기 문장경계 후보의 앞, 뒤 문맥 정보로부터 두 개 이상의 통계 모델에 사용될 수 있는 자질을 추출하는 단계와,

추출된 상기 자질과 두 개 이상의 상기 통계 모델을 이용해서 상기 문장경계 후보의 문장경계 여부를 분류하는 단계와,

상기 문장경계 후보의 분류 결과를 기반으로 상기 문서를 문장 단위로 추출하는 단계

를 포함하는 문장경계 인식 방법.
제11항에 있어서, 상기 문장경계 후보를 추출하는 단계는,

문장종결로 사용될 수 있는 구두점을 상기 문장경계 후보로 추출하는 단계를 포함하는 문장경계 인식 방법.
제12항에 있어서, 상기 문장경계 후보를 추출하는 단계는,

용언에 붙어서 사용되는 어미 중에서 문장종결로 사용되는 종결어미를 상기 문장경계 후보로 추출하는 단계를 더 포함하는 문장경계 인식 방법.
제12항에 있어서, 상기 문장경계 후보를 추출하는 단계는,

문장종결 기호가 태깅된 학습데이터로부터 문장종결에 사용된 모든 음절을 미리 추출하고, 추출된 상기 음절의 목록을 기반으로 상기 문장경계 후보를 추출하는 단계를 더 포함하는 문장경계 인식 방법.
제11항에 있어서, 상기 자질을 추출하는 단계는,

상기 문장경계 후보의 구두점 여부에 대한 정보를 추출하는 단계와,

상기 문장경계 후보의 다음 음절의 공백 여부에 대한 정보를 추출하는 단계와,

상기 문장경계 후보의 이전 1번째부터 n번째 음절(n은 자연수)에 대한 정보와 상기 문장경계 후보의 다음 1번째부터 n번째 음절에 대한 정보를 추출하는 단계와,

상기 문장경계 후보의 이전 1번째부터 n번째 토큰에 대한 정보와 상기 문장 경계후보의 다음 1번째부터 n번째 토큰에 대한 정보를 추출하는 단계와,

대상 문장의 시작부터 상기 문장경계 후보까지 나온 따옴표의 개수에 대한 정보를 추출하는 단계

를 포함하는 문서의 문장경계 인식 방법.
제11항에 있어서,

상기 문장경계 여부를 분류하는 단계는,

두 개 이상의 상기 통계 모델 각각을 통해 상기 문장경계 후보의 문장경계 여부를 분류하는 단계와,

두 개 이상의 상기 통계 모델 각각을 통해 분류된 결과 중에서 최적의 분류 결과를 최종 분류 결과로 선택하는 단계

를 포함하는 문장경계 인식 방법.
제11항에 있어서, 상기 문장경계 여부를 분류하는 단계는,

추출된 상기 자질에 기반해서 ME 모델을 통해 상기 문장경계 후보의 문장경계 여부를 분류하는 단계와,

추출된 상기 자질에 기반해서 SVM 알고리즘을 통해 상기 문장경계 후보의 문장경계 여부를 분류하는 단계와,

추출된 상기 자질에 기반해서 CRF 모델에 기반해서 상기 문장경계 후보의 문장경계 여부를 분류하는 단계와,

추출된 상기 자질에 기반해서 상기 ME, SVM, CRF 기반 분류 단계의 분류 결과 중에서 최적의 분류 결과를 최종 분류 결과로 선택하는 단계를 포함하는 문장경계 인식 방법.
제11항에 있어서,

분류된 상기 문장경계 후보에 대하여 미리 정한 규칙에 기반하여 오류를 수정하는 단계를 더 포함하며,

상기 문서를 문장 단위로 추출하는 단계에서는,

상기 오류를 수정하는 단계에서 오류가 수정된 상기 분류 결과를 기반으로 상기 문서를 문장 단위로 추출하는 문장경계 인식 방법.
제18항에 있어서, 상기 오류를 수정하는 단계는,

미리 정한 상기 규칙에 기반하여 상기 문장경계 후보에 대해 후처리 대상 여부를 인식하는 단계와,

상기 후처리 대상 여부를 인식하는 단계에서의 인식 결과, 상기 문장경계 후보가 후처리 대상으로 결정되는 경우 상기 문장경계 후보의 분류 결과를 반대로 바꾸는 단계를 포함하는 문장경계 인식 방법.
입력된 문서로부터 문장경계 후보를 추출하는 단계와,

추출된 상기 문장경계 후보의 앞, 뒤 문맥 정보로부터 통계 모델에 사용될 수 있는 자질을 추출하는 단계와,

추출된 상기 자질과 상기 통계 모델을 이용해서 상기 문장경계 후보의 문장경계 여부를 분류하는 단계와,

분류된 상기 문장경계 후보에 대하여 미리 정한 규칙에 기반하여 오류를 수정하는 단계를 더 포함하며,

상기 오류를 수정하는 단계에서 오류가 수정된 상기 문장경계 후보의 분류 결과를 기반으로 상기 문서를 문장 단위로 추출하는 단계를 포함하는 문장경계 인식 방법.