KR101104114B1

KR101104114B1 - 대용어 참조해소 시스템 및 대용어 참조해소 방법

Info

Publication number: KR101104114B1
Application number: KR1020090118927A
Authority: KR
Inventors: 최윤수; 최성필; 정창후; 윤화묵; 류범종
Original assignee: 한국과학기술정보연구원
Priority date: 2009-12-03
Filing date: 2009-12-03
Publication date: 2012-01-13
Also published as: KR20110062261A

Abstract

대용어 참조해소 시스템 및 대용어 참조해소 방법이 개시된다. 본 발명은 문서 내에서 대용의 기능을 담당하는 어휘인 대용어를 찾아내고, 문서 내에서 해당 대용어가 어떤 핵심개체를 가리키는지를 구별하는 참조해소 과정을 통해 과학기술문헌의 핵심개체인식의 재현율을 높이는 효과가 있다.

선행어, 대명사, 대용어, 대용대명사, 참조해소

Description

대용어 참조해소 시스템 및 대용어 참조해소 방법{ANAPHORIC PRONOUN REFERENCE RESOLUTION SYSTEM AND METHOD FOR PRODUCTION THEREOF}

본 발명은 대용어 참조해소 시스템에 관한 것으로서, 더욱 상세하게는 문장의 의미를 정확하게 파악하기 위해서 문장에서 사용되는 대용어(anaphora)가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지 구별하는 참조해소(reference resolution) 과정을 통해 문헌내의 대명사가 참조하는 핵심개체를 발굴하는 대용어 참조해소 시스템에 관한 것이다.

가상공간(cyber space)이라고 하는 웹은 전 세계를 통하여 많은 정보를 쉽게 얻을 수 있는 정보의 보고이다.

가상공간에 존재하는 정보들은 매우 다양하며, 그 양 또한 매우 빠른 속도로 증가하고 있다.

방대한 정보공간에서 유용한 정보를 효과적으로 찾기 위해 정보검색이나 정보 추출 등이 널리 사용 된다

이러한 기법들은 자연어 처리를 기반으로 하여 사용자가 필요로 하는 정보들을 인식하여 요약된 형태로 가공하거나 서로의 관계들을 규명한다.

특히, 종래의 중심화 이론(centering theory) 등을 중심으로 규칙기반에 대한 기술개발과 경험규칙에 대한 기술개발이 주로 진행되었으나 이러한 기술개발들은 유용한 정보를 효과적으로 검색하기가 용이하지 않다는 문제점이 있다.

상술한 종래의 문제점을 해결하기 위해 최근에 와서는 기계학습을 이용한 대용어 처리 관한 연구도 활발히 진행되고 있지만 아직도 해결되지 않은 많은 문제점들이 있다.

따라서, 본 발명은 방대한 정보공간에서 유용한 정보를 효과적으로 찾기 위해 정보를 검색하거나 추출하기 위해서 문장에서 사용되는 대용어(anaphora)가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지 구별하는 참조해소(reference resolution) 과정을 통해 문헌 내의 대명사가 참조하는 핵심개체를 발굴하는 대용어 참조해소 시스템을 제공하는 것이다.
본 발명의 다른 목적은 대용어 참조 해소 방법을 제공하는 것에 있다.

상술한 목적을 달성하기 위하여, 본 발명에 따른 대용어 참조 해소 시스템은
문장에서 사용되는 대용어(anaphora)가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지 구별하는 참조 해소 과정을 통해 문헌 내의 대명사가 참조하는 핵심 개체를 발굴하는 대용어 참조 해소 시스템에 있어서,
어휘 자질로서 대용대명사 및 대용대명사의 주변 단어의 어휘 정보를 취하고, 품사 자질로서 대용대명사의 품사 및 대용대명사 주변 단어의 품사 정보를 취하여 문서 내에 존재하는 대명사들 중에서 선행어를 갖는 대용어를 인식하는 대용어 인식 모듈;
상기 대용어 인식 모듈이 인식한 대용어 정보를 전달받는 제어부; 및
상기 제어부로부터 대용어 정보를 전달받고, 대용어에 대한 자질, 선행어에 대한 자질 그리고 대용어와 선행어의 관계 자질로 이루어지는 자질집합을 이용하여 대용어에 대한 선행어 후보 목록을 작성하고, 선행어 후보들 중에서 대용어가 가리키는 선행어를 찾아내는 선행어 추출 모듈을 포함하는 것을 특징으로 한다.
상기의 다른 목적을 달성하는 본 발명에 따른 대용어 참조 해소 방법은
문장에서 사용되는 대용어(anaphora)가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지 구별하는 참조 해소 과정을 통해 문헌 내의 대명사가 참조하는 핵심 개체를 발굴하는 대용어 참조 해소 방법에 있어서,
(a) 대용어 인식 모듈이 외부의 입력장치에 의해 입력되는 문서를 직접 입력받거나, 또는 데이터 베이스부(400)에 기저장된 문서를 제어부(100)를 통해 입력받는 단계;
(b) 상기 대용어 인식 모듈이 어휘 자질로서 대용대명사 및 대용대명사의 주변 단어의 어휘 정보를 취하고, 품사 자질로서 대용대명사의 품사 및 대용대명사 주변 단어의 품사 정보를 취하여 (a) 단계에서 수신한 문서로부터 선행어를 가지는 대용어를 인식하는 단계;
(c) 상기 (b)단계에서 추출된 대용대명사 정보를 상기 제어부(100)를 통해 전달받은 선행어 추출 모듈이 대용어에 대한 자질, 선행어에 대한 자질 그리고 대용어와 선행어의 관계 자질로 이루어지는 자질집합을 이용하여 상기 대용대명사 각각에 대한 복수의 선행어 후보 목록을 생성하는 단계; 및
(d) 상기 선행어 추출 모듈이 상기 (c)단계에서 생성된 복수의 선행어 후보 목록으로부터 최종 선행어를 선정하는 단계;를 포함하는 것을 특징으로 한다.

상술한 본 발명에 따른 대용어 참조해소 시스템 및 대용어 참조해소 방법은 문서 내에서 대용의 기능을 담당하는 어휘인 대용어를 찾아내고, 문서 내에서 해당 대용어가 어떤 핵심개체를 가리키는지를 구별하는 참조해소 과정을 통해 과학기술문헌의 핵심개체인식의 재현율을 높이는 효과가 있다.

본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정 해석되지 아니하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 대용어 참조해소 시스템 및 대용어 참조해소 방법에 대하여 상세히 설명한다.

먼저, 구체적인 설명에 들어가기 전, 본 발명에서 사용되는 대용어와 참조해소에 대한 용어를 다음과 같이 정의한다.

"대용어"는 대용의 기능을 담당하는 어휘로서 선행어(antecedent)보다 간결한 형식을 사용하여 반복되는 성분을 대신하는 것으로서 명확한 진술을 피하거나 정확한 단어를 떠올릴 수 없을 때 사용하는 말이며, 대명사(pronoun)가 그 대표적인 예에 해당된다.

한마디로 쉽게 요약하면, 대용어란 문장 또는 문서 내에서 복수의 대명사 중, 선행어를 가지는 대명사만을 일컫는 말이며, 대용대명사라고도 한다.

"참조해소(reference resolution)"는 문장의 의미를 정확히 파악하기 위해서 문장에 사용된 상술한 대용어가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지를 구별하는 과정이다.

예를 들어 참조해소는 한 문서 안에서 "이명박"이 "Lee Myung Bak", "Mr.Lee", Korea President", "He" 등으로 표현되었을 때 이들이 모두 같은 개체임을 찾아내는 것을 말한다.
의미론(semantics)에 의하면, 단어의 자질(feature)은 단어의 품사, 범위, 역할등 그 단어가 갖고 있는 쓰임새를 뜻한다. 형태소나 단어는 단일한 범주로 구성되어 있는 것이 아니라 여러 가지 속성, 즉 의미 자질이 모여 형성되며 이 자질을 찾고 그 관계를 구명하는 것을 자질 분석이라고 한다.
예를 들어, father라는 단어는 uncle, bachelor처럼 “male"과 ”adult"라는 자질을 가진다. 그러나 father는 “parent"라는 자질도 가지며 이것이 다른 두 단어와 구별되는 점이다.”
어휘자질이나 품사자질은 그 단어에 대한 특징을 나타내는 정보이다. 예를 들어, 인칭, 단/복수 등의 정보부터, 함께 많이 출현하는 단어, 품사 등도 정보가 될 수 있습니다.

본 발명에 따른 대용어 참조해소 시스템은 도 1에 도시된 바와 같이, 제어부(100), 문서 내에서 대명사인 단어 중, 선행어를 갖는 대명사 즉, 대용어를 인식하는 대용어 인식 모듈(200), 인식된 대명사가 가리키는 선행어를 찾아내는 선행어 추출 모듈(300)을 포함한다.

문서 내에서 존재하는 상술한 대용어 인식 모듈(200)이 인식해 내는 대명사는 모두 선행어를 가지는 대용어인데, 이러한 대명사를 대용대명사(anaphoric pronoun)라 정의 한다.

문서 내에 존재하는 대명사의 품사가 대명사라고 해서 모두 선행어를 가지는 대용어가 아니다.

왜냐하면, 비록 품사가 대명사이지만 문서 내에서 선행어를 가리키지 않는 대명사가 존재하기 때문이다.

예를 들어 문장 "It is important not to give up."에서 'It'은 선행어를 가지지 않는 대명사로서, 대용어 인식 모듈(200)에 의해 인식되지 못한다.

대용어 인식 모듈(200)은 여러 가지 자질집합과 CRF 모델을 이용한 분류 모델을 통해 대용어를 인식한다.

<E id=1 Those figures> are almost exactly what the government proposed to legislators in September. If <E id=2 the government> can stick with <E id =1 them>, <E id=1 it> will be able to halve this year’s 120 billion ruble (US $193 billion) deficit.

위의 [표 1]를 참조하여 보다 상세히 설명하면, 대용어 인식 모듈(200)은 [표 1]의 문장 내에서 대용대명사 'them'과 'it'을 인식해 내고 이후, 제어부(100)가 대용어 인식 모듈(200)의 인식정보를 선행어 추출 모듈(300)에 전달하면, 선행어 추출 모듈(300)은 대용대명사 'them'과 'it'이 각각 지시하고 있는 선행어 'Those figures'와 'the government'를 추출해 낸다.

기계학습 방법을 사용할 때, 성능에 큰 영향을 미치는 요소 중 하나는 자질 집합이다.

이하, 대명사 참조해소를 위한 자질 집합에 대하여 설명한다.

먼저, 대용어 인식 모듈(200)은 문서 내에서 대용대명사를 결정하기 위해 대용대명사 및 대용대명사 주변의 어휘 정보 및 품사 정보를 사용한다. 즉, 어휘 자질로서 대용대명사 및 대용대명사 주변 단어의 어휘 정보를 취하고, 품사 자질로서 대용대명사 및 대용대명사 주변 단어의 품사 정보를 취한다.

종류	자질집합
어휘	w_i-2, w_i-1, w_i, w_i+1, w_i+2, w_i-1w_i, w_iw_i+1
품사	t_i-2, t_i-1, t_i, t_i+1, t_i+2, t_i-1t_i, t_it_i+1, t_i-2t_i-1t_i, t_i-1t_it_i+1, t_it_i+1t_i

위의 [표 2]에서 w_i는 대용대명사이고, t_i는 대용대명사의 품사이다.

그리고, 아랫 첨자가 음수이면 w_i의 이전 단어이고, 양수이면 다음 단어이다.

대용어 인식 모듈(200)의 어휘 선택부(210)는 자질로써 어휘 부분에서 대용대명사(w_i), 그 이전 두 단어(w_i _-2, w_i _-1), 그 이후 두 단어(w_i ₊₁, w_i ₊₂), 이전단어와 대용대명사의 결합된 형태(w_i-1w_i) 그리고 대용대명사와 이후 단어의 결합된 형태(w_iw_i ₊₁)를 선택하여 사용한다.

대용어 인식 모듈(200)의 품사 선택부(220)는 품사 부분에서 대용대명사의 품사(t_i), 그 이전 두 단어의 품사(t_i-2, t_i-1), 이후 두 단어의 품사(t_i+1, t_i+2), 이전 단어의 품사와 대용대명사의 품사를 결합한 형태(t_i-1t_i), 대용대명사의 품사와 이후 단어의 품사를 결합한 형태(t_it_i ₊₁), 이전 두 단어의 품사와 대용대명사의 품사를 결합한 형태(t_i _-2t_i _-1t_i), 이전 단어의 품사와 대용대명사의 품사 및 이후 단어의 품사를 결합한 형태(t_i-1t_it_i+1) 그리고 대용대명사의 품사와 이후 두 단어의 품사를 결합한 형태( t_it_i+1t_i)를 선택하여 사용한다.

아래의 [표 3]에 기재된 바와 같이, 선행어 추출 모듈(300)은 대용어 인식 모듈(200)가 인식한 대용대명사의 선행어를 찾기 위해 대용대명사에 대한 자질, 선행어에 대한 자질 및 대용대명사와 선행어 사이의 관계 자질을 사용한다.

한편, 상술한 각 자질은 품사나 격, 위치정보 등이 조합되어 자질로서 생성하게 된다.

하지만, 자질들의 수가 너무 많고, 기계학습의 학습 속도 문제로 인해 이러한 자질의 모든 조합에 대해 실험하는 것은 사실상 불가능하다.

그래서, 선행어 추출 모듈(300)이 사용할 수 있는 자질들의 리스트를 작성하고, 결정 트리에서 사용되는 정보 이득(information gain)이용하여 최대한 정확한 선행어를 추출할 수 이도록 하기 위한 자질 집합을 결정하여 아래의 [표 3]에 나타내었다.

종류	자질
대명사	- 인칭대명사인지 아닌지 - 소유격인지 아닌지 - 3인칭인지 아닌지 - 재귀대명사인지 아닌지 - 대문자를 포함했는지 아닌지 - 앞/뒤 단어의 품사 - 앞뒤 단어를 포함한 어휘의 품사 정보(5개)
후보	- 구성 단어의 수 - 대명사인지 아닌지 - Is indefinite NP - Is Demonstrative NP - 앞/뒤 단어의 품사 - 자신의 품사 - 이전의 텍스트에서 자신이 나온 횟수
관계	- 대명사와 후보 간의 문장 거리 - 대명사와 후보 간의 단어 거리

선행어 추출 모듈(300)은 대용대명사와 각각의 후보 선행어들 사이의 관계에 의해서 최종 선행어를 결정하는 것이 아니라, 두 후보 선행어들 끼리 경쟁할 수 있도록 티씨엠<TCM:twin-candidate model>에 의해 모델링된 승자 진출전 실행부(310) 또는 연맹전 실행부(320)를 통해 선행어를 추출한다.

[표 1]과 아래의 [표 4]를 참조하여 상술한 승자 진출전 실행부(310)에 의한 선행어 추출을 더욱 상세히 설명한다.

참고로, [표 4] 및 [표 5]의 정답 란에서 정답 태그는 총 3가지로"00", "10" 및 "01"이 있는데, "00"은 둘 다 정답이 아닌 경우이고, "10"은 앞의 것이, "01"은 뒤의 것이 정답으로서 경쟁에서 살아남은 것을 표시한다.

대명사	후보들	정답
[6 them]	[1 Those figures], [2 the government]	10
	[1 Those figures], [3 legislators]	10
	[1 Those figures], [4 September]	10
	[1 Those figures], [5 the government]	10
[7 it]	[1 Those figures], [2 the government]	01
	[2 the government], [3 legislators]	10
	[2 the government], [4 September]	10
	[2 the government], [5 the government]	01
	[5 the government] , [6 them]	10

승자 진출전 실행부(310)는 모든 후보들 중, 가장 먼저 두 개의 후보를 선택하여 경쟁을 붙이고, 이 경쟁에서 살아남은 후보와 아직 선택되지 않은 후보 1개를 선택하여 다시 경쟁하도록 한다.

모든 후보들이 선택되어 남아있는 후보가 없어져 경쟁이 끝나면, 승자 진출전 실행부(310)는 최후에 살아남은 후보를 대용대명사의 선행어로 추출한다.

위의 [표 4]를 참조하여 더욱 구체적으로 설명하면, 승자 진출전 실행부(310)는 가장 먼저 두 개의 후보[1 Those figures]와 [2 the government]를 선택하여 경쟁을 붙이고, 이 경쟁에서 살아남은 후보 [1 Those figures]와 아직 선택되지 않은 후부들 중 1개를 선택하여 다시 경쟁하도록 한다.

이후, 모든 후보들이 선택되어 남아있는 후보가 없어져 경쟁이 끄타면, 승자 진출전 실행부(310)는 최후에 살아남은 후보[5 the government]를 대용대명사의 선행어로 추출한다.

[표 1]과 아래의 [표 5]를 참조하여 상술한 연맹전 실행부(320)에 의한 선행어 추출을 더욱 상세히 설명한다.

연맹전 실행부(320)는 대용대명사의 모든 후보들에 대한 경쟁을 붙여서 가장 승률이 좋은 후보를 선택한다.

대명사	후보들		정답
[₇ it]	[₁Those figures], [₂the government]		01
	[₁Those figures], [₃ legislators]		00
	[₁Those figures], [₄ September]		00
	[₁Those figures], [₅ the government]		01
	[₁Those figures], [₆ them]		00
	[₂the government], [₃ legislators]		10
	[₂the government], [₄ September]		10
	[₂the government], [₅ the government]		01
	[₂the government], [₆ them]		10
	[₃ legislators], [₄ September]		00
	[₃ legislators], [₅ the government]		01
	[₃ legislators], [₆ them]		00
	[₄ September], [₅ the government]		01
	[₄ September], [₆ them]		00
	[₅ the government], [₆ them]		10
선행어		점수
[₁Those figures]		0
[₂the government]		4
[₃ legislators]		0
[₄ September]		0
[ ₅ the government]		5
[₆ them]		0

위의 [표 5]에서 보는 바와 같이 총 6개의 후보들 중, 2개를 선택하여 경쟁을 붙이는 경우의 수는 15가지인데, 연맹전 실행부(320)는 15가지의 연맹전을 실행하여 승점이 가장 높은 후보 즉, 위의 표에서 승점 5점으로 승률이 가장 좋은 [₅ the government]를 대용대명사 [₇ it]의 선행어로 채택한다.

본 발명에 따른 대용어 참조해소 시스템에서 기계학습을 위해 사용되는 말뭉치는 OntoNote이다. 이 말뭉치는 대용어의 참조 정보뿐 아니라 개체명(named entity), 품사, 기저구 정보가 포함되어 특별한 언어처리 시스템을 사용하지 않고도 참조해소 시스템을 구현할 수 있다. 이 시스템에서는 OntoNote의 WSJ을 사용한다. 이 말뭉치는 Penn Treebank에 포함된 WSJ의 문장에 대해서 대용어의 참조 정보를 포함하고 있다.

OntoNote - WSJ는 총 14,246개의 문장(308,736 단어)로 구성되어 있다. 이 말뭉치의 경우 몇 가지 문제점 때문에 바로 학습에 사용할 수가 없으므로 새롭게 가공을 하여야 한다. 첫 번째는 XML 형태로 구성되어 있다는 점이다.

게다가 중첩된 선행어도 태깅해 놓았기 때문에 XPath와 XSLT를 이용하여 중첩된 선행어가 없는 형태의 말뭉치로 새롭게 가공하였다. 두 번째 문제는 개체명 인식 말뭉치를 가공할 때와 마찬가지로 이 말뭉치 하나만으로는 선행어 결정 시스템에서 필요한 모든 자질을 추출할 수 없다는 점이다.

이와 같은 이유로 Penn Treebank와 통합하여 문장 분리, 토큰 분리, 품사, 기저 명사구, 개체명의 정보를 포함하는 새로운 형태의 말뭉치로 가공하였다. 이 중 90%를 학습 말뭉치(13,235 문장 / 309,541 단어)로, 10%를 실험 말뭉치(1,502 문장 / 34,363 단어)로 나누어 각각 학습 및 실험을 수행하였다.

본 발명에 따른 대용어 참조해소 시스템에서의 대용대명사가 가리키는 선행어를 정확하게 찾는 비율을 성능 척도로 사용하며 이를 선행어 결정 정확률

이라고 한다.

선행어 결정확률

는 아래의 수학식 1과 같다.

위의 식에서 ,

는 전체 문서에 인식된 올바른 대용대명사의 개수,

는 대용대명사들 중에서 선행어를 정확하게 찾아낸 대용대명사의 수이다.

승자 진출전 실행부(310)와 연맹전 실행부(320)에 의한 승자 진출전과 연맹전에 대한 성능평가 결과가 아래의 [표 6]에 나와 있다.

구분	대용대사	대용어 인식모듈에 의해 인식된 대용대명사의 수	선행어를 정확하게 인식한 대용대명사의 수	정확률 (%)
승자 진출전	676	610	386	57.1
연맹전	676	610	254	37.5

위의 [표 6]을 살펴보면 승자진출전에 비해서 연맹전이 상당히 낮은 정확률을 보이는 것을 알 수 있다. 이는 연맹전의 특성상 모든 후보들 간의 경쟁이 일어남에 따라 정답 태그 중 "00"의 비율이 너무 높아져서 학습 결과가 "00"쪽으로 치우치는 현상 태문이다.

아래의 [표 7]은 대용어 인식 모듈(200)에 의해 인식된 대용어를 이용하지 않고 모든 대명사만을 대상으로 선행어 추출 모듈(300)에 의해 선행어를 추출한 결과이다.

대용대명사의 수	선행어를 정확하게 인식한 대용대명사의 수	정확률(%)
676	526	77.81

[표 7]를 살펴보면 대용어 인식 모듈(200)에서 전파되는 에러율이 상당히 높은 것을 알 수 있다.

이러한 이유로 본 발명에 따른 대용어 참조해소 시스템에서는 대용어 인식 모듈(200)을 거친 승자 진출전 방식을 이용한다.

상술한 대용어 참조해소 시스템 부분에서 상세히 설명한 내용과 중복되는 부분이 상당하여 이하에서는 도 2를 참조하여 대용어 참조해소 방법에 관해 간단히 설명한다.

도 2는 대용어 참조해소 방법을 설명하기 위한 흐름도이다.

제어부(100)는 외부의 입력장치에 의해 입력되는 문서를 직접 입력받거나, 또는 데이터 베이스부(400)에 기저장된 문서를 입력받아 대용어 인식 모듈(200)에 전달하는 단계를 수행한다(S100).

대용어 인식 모듈(200)은 제어부(100)로부터 입력되는 문서를 수신하여 선행어를 가진 대용어를 인식하는 단계를 수신한다(S200).

대용어 인식 모듈(200)은 문서 내에서 대용대명사를 결정하기 위해 대용대명사 및 대용대명사 주변 단어의 어휘 정보 및 품사 정보를 사용한다.

'S200'단계에서 추출된 대용 대명사에 각각에 대한 복수의 선행어 후보 목록을 생성하는 단계를 수행한다(S300).

위의 [표 3]에 기재된 바와 같이 선행어 후보 목록은 사용할 수 있는 자질들의 리스트를 작성하고, 결정 트리에서 사용되는 정보 이득(information gain)이용하여 최대한 정확한 선행어를 추출할 수 있도록 하기 위한 자질 집합이다.

선행어 추출 모듈(300)은 'S300'단계에서 생성된 복수의 선행어들을 승자 진출전 방식을 사용한 반복수행을 통해 최종 선행어를 선정하는 단계를 수행한다(S400).

선행어 추출 모듈(300)은 최종 선행어를 선정하기 위하여 대용대명사에 대한 자질, 선행어에 대한 자질 및 대용대명사와 선행어 사이의 관계 자질을 사용한다.

이상에서 본 발명은 실시예로 기재된 구체적인 예에 대해서만 상세히 설명되었지만, 당업자가 본 발명의 기술사상 범위 내에서 다양한 변형과 수정이 가능하다는 것은 명백하며, 이러한 변형과 수정 역시 첨부된 특허청구범위에 속한다는 것은 당연하다.

도 1은 본 발명에 따른 대용어 참조 해소 시스템의 블록도 이고,

도 2는 본 발명에 따른 대용어 참조 해소 방법을 설명하기 위한 흐름도 이다.

<도면의 주요 부분에 대한 설명>

100 : 제어부 200 : 대용어 인식 모듈

300 : 선행어 추출 모듈 210 : 어휘 선택부

220 : 품사 선택부 310 : 승자 진출전 실행부

320 : 연맹전 실행부

Claims

문장에서 사용되는 대용어(anaphora)가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지 구별하는 참조 해소 과정을 통해 문헌 내의 대명사가 참조하는 핵심 개체를 발굴하는 대용어 참조 해소 시스템에 있어서,

어휘 자질로서 대용대명사 및 대용대명사의 주변 단어의 어휘 정보를 취하고, 품사 자질로서 대용대명사의 품사 및 대용대명사 주변 단어의 품사 정보를 취하여 문서 내에 존재하는 대명사들 중에서 선행어를 갖는 대용어를 인식하는 대용어 인식 모듈(200);

상기 대용어 인식 모듈(200)이 인식한 대용어 정보를 전달받는 제어부(100); 및

상기 제어부(100)로부터 대용어 정보를 전달받고, 대용어에 대한 자질, 선행어에 대한 자질 그리고 대용어와 선행어의 관계 자질로 이루어지는 자질집합을 이용하여 대용어에 대한 선행어 후보 목록을 작성하고, 선행어 후보들 중에서 대용어가 가리키는 선행어를 찾아내는 선행어 추출 모듈을 포함하는 대용어 참조 해소 시스템.
제 1항에 있어서,

상기 대용어 인식 모듈(200)은

대용어의 어휘 자질로써 어휘 부분에서 대용대명사(w_i), 상기 대용대명사의 이전 두 단어(w_i-2, w_i-1), 그 이후 두 단어(w_i+1, w_i+2), 이전 단어와 상기 대용대명사의 결합된 형태(w_i-1w_i) 그리고 대용대명사와 이후 단어의 결합된 형태(w_iw_i+1)를 선택하는 어휘 선택부(210)와

대용어의 품사 자질로서 대용대명사의 품사(t_i), 그 이전 두 단어의 품사(t_i-2, t_i-1), 이후 두 단어의 품사(t_i+1, t_i+2), 이전 단어의 품사와 대용대명사의 품사를 결합한 형태(t_i-1t_i), 대용대명사의 품사와 이후 단어의 품사를 결합한 형태(t_it_i+1), 이전 두 단어의 품사와 대용대명사의 품사를 결합한 형태(t_i-2t_i-1t_i), 이전 단어의 품사와 대용대명사의 품사 및 이후 단어의 품사를 결합한 형태(t_i-1t_it_i+1) 그리고 대용대명사의 품사와 이후 두 단어의 품사를 결합한 형태(t_it_i+1t_i)를 선택하는 품사 선택부(220)를 사용하여 문서 내의 대용어를 인식하는 것을 특징으로 하는 대용어 참조해소 시스템.
삭제
제 1항에 있어서

상기 선행어 추출 모듈(300)은

복수의 모든 선행어 후보들 중, 가장 먼저 두 개의 후보를 선택하여 경쟁을 붙이고, 이 경쟁에서 살아남은 후보와 아직 선택되지 않은 후보 1개를 선택하여 다시 경쟁하도록 하여 최후에 살아남은 후보를 대용 대명사의 최종 선행어로 추출하는 승자 진출전 실행부(310)을 구비하는 것을 특징으로 하는 대용어 참조 해소 시스템.
문장에서 사용되는 대용어(anaphora)가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지 구별하는 참조 해소 과정을 통해 문헌 내의 대명사가 참조하는 핵심 개체를 발굴하는 대용어 참조 해소 방법에 있어서,

(a) 대용어 인식 모듈(200)이 외부의 입력장치에 의해 입력되는 문서를 직접 입력받거나, 또는 데이터 베이스부(400)에 기저장된 문서를 제어부(100)를 통해 입력받는 단계;

(b) 상기 대용어 인식 모듈(200)이 어휘 자질로서 대용대명사 및 상기 대용대명사의 주변 단어의 어휘 정보를 취하고, 품사 자질로서 대용대명사 및 대용대명사 주변 단어의 품사 정보를 취하여 (a) 단계에서 수신한 문서로부터 선행어를 가지는 대용어를 인식하는 단계;

(c) 상기 (b)단계에서 추출된 대용대명사 정보를 상기 제어부(100)를 통해 전달받은 선행어 추출 모듈(300)이 대용어에 대한 자질, 선행어에 대한 자질 그리고 대용어와 선행어의 관계 자질로 이루어지는 자질집합을 이용하여 상기 대용대명사 각각에 대한 복수의 선행어 후보 목록을 생성하는 단계; 및

(d) 상기 선행어 추출 모듈(300)이 상기 (c)단계에서 생성된 복수의 선행어 후보 목록으로부터 최종 선행어를 선정하는 단계;를 포함하는 것을 특징으로 하는 대용어 참조해소 방법.
청구항 5항에 있어서,

문서 내의 대용어를 인식하는 상기 (b)단계는

(b-1) 상기 대용어 인식 모듈(200)의 어휘 선택부(210)가 대용어의 자질로써 어휘 부분에서 대용대명사(w_i), 상기 대용대명사의 이전 두 단어(w_i-2, w_i-1), 그 이후 두 단어(w_i+1, w_i+2), 이전 단어와 상기 대용대명사의 결합된 형태(w_i-1w_i) 그리고 대용대명사와 이후 단어의 결합된 형태(w_iw_i+1)를 선택하는 단계; 및

(b-2) 상기 대용어 인식 모듈(200)의 품사 선택부(220)가 품사 부분에서 대용대명사의 품사(t_i), 그 이전 두 단어의 품사(t_i _-2, t_i _-1), 이후 두 단어의 품사(t_i+1, t_i+2), 이전 단어의 품사와 대용대명사의 품사를 결합한 형태(t_i-1t_i), 대용대명사의 품사와 이후 단어의 품사를 결합한 형태(t_it_i+1), 이전 두 단어의 품사와 대용대명사의 품사를 결합한 형태(t_i-2t_i-1t_i), 이전 단어의 품사와 대용대명사의 품사 및 이후 단어의 품사를 결합한 형태(t_i-1t_it_i+1) 그리고 대용대명사의 품사와 이후 두 단어의 품사를 결합한 형태(t_it_i+1t_i)를 선택하는 단계;를 포함하는 것을 특징으로 하는 대용어 참조해소 방법.
제 5항에 있어서,

상기 (d) 단계에서

상기 선행어 추출 모듈(300)의 승자 진출전 실행부(310)가

복수의 모든 선행어 후보들 중, 가장 먼저 두 개의 후보를 선택하여 경쟁을 붙이고, 이 경쟁에서 살아남은 후보와 아직 선택되지 않은 후보 1개를 선택하여 다시 경쟁하도록하여 최후에 살아남은 후보를 대용대명사의 최종 선행어로 추출하는 것을 특징으로 하는 대용어 참조해소 방법.