KR101104114B1 - 대용어 참조해소 시스템 및 대용어 참조해소 방법 - Google Patents

대용어 참조해소 시스템 및 대용어 참조해소 방법 Download PDF

Info

Publication number
KR101104114B1
KR101104114B1 KR1020090118927A KR20090118927A KR101104114B1 KR 101104114 B1 KR101104114 B1 KR 101104114B1 KR 1020090118927 A KR1020090118927 A KR 1020090118927A KR 20090118927 A KR20090118927 A KR 20090118927A KR 101104114 B1 KR101104114 B1 KR 101104114B1
Authority
KR
South Korea
Prior art keywords
substitute
word
speech
pronouns
pronoun
Prior art date
Application number
KR1020090118927A
Other languages
English (en)
Other versions
KR20110062261A (ko
Inventor
최윤수
최성필
정창후
윤화묵
류범종
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020090118927A priority Critical patent/KR101104114B1/ko
Publication of KR20110062261A publication Critical patent/KR20110062261A/ko
Application granted granted Critical
Publication of KR101104114B1 publication Critical patent/KR101104114B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

대용어 참조해소 시스템 및 대용어 참조해소 방법이 개시된다. 본 발명은 문서 내에서 대용의 기능을 담당하는 어휘인 대용어를 찾아내고, 문서 내에서 해당 대용어가 어떤 핵심개체를 가리키는지를 구별하는 참조해소 과정을 통해 과학기술문헌의 핵심개체인식의 재현율을 높이는 효과가 있다.
선행어, 대명사, 대용어, 대용대명사, 참조해소

Description

대용어 참조해소 시스템 및 대용어 참조해소 방법{ANAPHORIC PRONOUN REFERENCE RESOLUTION SYSTEM AND METHOD FOR PRODUCTION THEREOF}
본 발명은 대용어 참조해소 시스템에 관한 것으로서, 더욱 상세하게는 문장의 의미를 정확하게 파악하기 위해서 문장에서 사용되는 대용어(anaphora)가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지 구별하는 참조해소(reference resolution) 과정을 통해 문헌내의 대명사가 참조하는 핵심개체를 발굴하는 대용어 참조해소 시스템에 관한 것이다.
가상공간(cyber space)이라고 하는 웹은 전 세계를 통하여 많은 정보를 쉽게 얻을 수 있는 정보의 보고이다.
가상공간에 존재하는 정보들은 매우 다양하며, 그 양 또한 매우 빠른 속도로 증가하고 있다.
방대한 정보공간에서 유용한 정보를 효과적으로 찾기 위해 정보검색이나 정보 추출 등이 널리 사용 된다
이러한 기법들은 자연어 처리를 기반으로 하여 사용자가 필요로 하는 정보들을 인식하여 요약된 형태로 가공하거나 서로의 관계들을 규명한다.
특히, 종래의 중심화 이론(centering theory) 등을 중심으로 규칙기반에 대한 기술개발과 경험규칙에 대한 기술개발이 주로 진행되었으나 이러한 기술개발들은 유용한 정보를 효과적으로 검색하기가 용이하지 않다는 문제점이 있다.
상술한 종래의 문제점을 해결하기 위해 최근에 와서는 기계학습을 이용한 대용어 처리 관한 연구도 활발히 진행되고 있지만 아직도 해결되지 않은 많은 문제점들이 있다.
따라서, 본 발명은 방대한 정보공간에서 유용한 정보를 효과적으로 찾기 위해 정보를 검색하거나 추출하기 위해서 문장에서 사용되는 대용어(anaphora)가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지 구별하는 참조해소(reference resolution) 과정을 통해 문헌 내의 대명사가 참조하는 핵심개체를 발굴하는 대용어 참조해소 시스템을 제공하는 것이다.
본 발명의 다른 목적은 대용어 참조 해소 방법을 제공하는 것에 있다.
상술한 목적을 달성하기 위하여, 본 발명에 따른 대용어 참조 해소 시스템은
문장에서 사용되는 대용어(anaphora)가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지 구별하는 참조 해소 과정을 통해 문헌 내의 대명사가 참조하는 핵심 개체를 발굴하는 대용어 참조 해소 시스템에 있어서,
어휘 자질로서 대용대명사 및 대용대명사의 주변 단어의 어휘 정보를 취하고, 품사 자질로서 대용대명사의 품사 및 대용대명사 주변 단어의 품사 정보를 취하여 문서 내에 존재하는 대명사들 중에서 선행어를 갖는 대용어를 인식하는 대용어 인식 모듈;
상기 대용어 인식 모듈이 인식한 대용어 정보를 전달받는 제어부; 및
상기 제어부로부터 대용어 정보를 전달받고, 대용어에 대한 자질, 선행어에 대한 자질 그리고 대용어와 선행어의 관계 자질로 이루어지는 자질집합을 이용하여 대용어에 대한 선행어 후보 목록을 작성하고, 선행어 후보들 중에서 대용어가 가리키는 선행어를 찾아내는 선행어 추출 모듈을 포함하는 것을 특징으로 한다.
상기의 다른 목적을 달성하는 본 발명에 따른 대용어 참조 해소 방법은
문장에서 사용되는 대용어(anaphora)가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지 구별하는 참조 해소 과정을 통해 문헌 내의 대명사가 참조하는 핵심 개체를 발굴하는 대용어 참조 해소 방법에 있어서,
(a) 대용어 인식 모듈이 외부의 입력장치에 의해 입력되는 문서를 직접 입력받거나, 또는 데이터 베이스부(400)에 기저장된 문서를 제어부(100)를 통해 입력받는 단계;
(b) 상기 대용어 인식 모듈이 어휘 자질로서 대용대명사 및 대용대명사의 주변 단어의 어휘 정보를 취하고, 품사 자질로서 대용대명사의 품사 및 대용대명사 주변 단어의 품사 정보를 취하여 (a) 단계에서 수신한 문서로부터 선행어를 가지는 대용어를 인식하는 단계;
(c) 상기 (b)단계에서 추출된 대용대명사 정보를 상기 제어부(100)를 통해 전달받은 선행어 추출 모듈이 대용어에 대한 자질, 선행어에 대한 자질 그리고 대용어와 선행어의 관계 자질로 이루어지는 자질집합을 이용하여 상기 대용대명사 각각에 대한 복수의 선행어 후보 목록을 생성하는 단계; 및
(d) 상기 선행어 추출 모듈이 상기 (c)단계에서 생성된 복수의 선행어 후보 목록으로부터 최종 선행어를 선정하는 단계;를 포함하는 것을 특징으로 한다.
상술한 본 발명에 따른 대용어 참조해소 시스템 및 대용어 참조해소 방법은 문서 내에서 대용의 기능을 담당하는 어휘인 대용어를 찾아내고, 문서 내에서 해당 대용어가 어떤 핵심개체를 가리키는지를 구별하는 참조해소 과정을 통해 과학기술문헌의 핵심개체인식의 재현율을 높이는 효과가 있다.
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정 해석되지 아니하며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 대용어 참조해소 시스템 및 대용어 참조해소 방법에 대하여 상세히 설명한다.
먼저, 구체적인 설명에 들어가기 전, 본 발명에서 사용되는 대용어와 참조해소에 대한 용어를 다음과 같이 정의한다.
"대용어"는 대용의 기능을 담당하는 어휘로서 선행어(antecedent)보다 간결한 형식을 사용하여 반복되는 성분을 대신하는 것으로서 명확한 진술을 피하거나 정확한 단어를 떠올릴 수 없을 때 사용하는 말이며, 대명사(pronoun)가 그 대표적인 예에 해당된다.
한마디로 쉽게 요약하면, 대용어란 문장 또는 문서 내에서 복수의 대명사 중, 선행어를 가지는 대명사만을 일컫는 말이며, 대용대명사라고도 한다.
"참조해소(reference resolution)"는 문장의 의미를 정확히 파악하기 위해서 문장에 사용된 상술한 대용어가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지를 구별하는 과정이다.
예를 들어 참조해소는 한 문서 안에서 "이명박"이 "Lee Myung Bak", "Mr.Lee", Korea President", "He" 등으로 표현되었을 때 이들이 모두 같은 개체임을 찾아내는 것을 말한다.
의미론(semantics)에 의하면, 단어의 자질(feature)은 단어의 품사, 범위, 역할등 그 단어가 갖고 있는 쓰임새를 뜻한다. 형태소나 단어는 단일한 범주로 구성되어 있는 것이 아니라 여러 가지 속성, 즉 의미 자질이 모여 형성되며 이 자질을 찾고 그 관계를 구명하는 것을 자질 분석이라고 한다.
예를 들어, father라는 단어는 uncle, bachelor처럼 “male"과 ”adult"라는 자질을 가진다. 그러나 father는 “parent"라는 자질도 가지며 이것이 다른 두 단어와 구별되는 점이다.”
어휘자질이나 품사자질은 그 단어에 대한 특징을 나타내는 정보이다. 예를 들어, 인칭, 단/복수 등의 정보부터, 함께 많이 출현하는 단어, 품사 등도 정보가 될 수 있습니다.
본 발명에 따른 대용어 참조해소 시스템은 도 1에 도시된 바와 같이, 제어부(100), 문서 내에서 대명사인 단어 중, 선행어를 갖는 대명사 즉, 대용어를 인식하는 대용어 인식 모듈(200), 인식된 대명사가 가리키는 선행어를 찾아내는 선행어 추출 모듈(300)을 포함한다.
문서 내에서 존재하는 상술한 대용어 인식 모듈(200)이 인식해 내는 대명사는 모두 선행어를 가지는 대용어인데, 이러한 대명사를 대용대명사(anaphoric pronoun)라 정의 한다.
문서 내에 존재하는 대명사의 품사가 대명사라고 해서 모두 선행어를 가지는 대용어가 아니다.
왜냐하면, 비록 품사가 대명사이지만 문서 내에서 선행어를 가리키지 않는 대명사가 존재하기 때문이다.
예를 들어 문장 "It is important not to give up."에서 'It'은 선행어를 가지지 않는 대명사로서, 대용어 인식 모듈(200)에 의해 인식되지 못한다.
대용어 인식 모듈(200)은 여러 가지 자질집합과 CRF 모델을 이용한 분류 모델을 통해 대용어를 인식한다.
<E id=1 Those figures> are almost exactly what the government proposed to legislators in September. If <E id=2 the government> can stick with <E id =1 them>, <E id=1 it> will be able to halve this year’s 120 billion ruble (US $193 billion) deficit.
위의 [표 1]를 참조하여 보다 상세히 설명하면, 대용어 인식 모듈(200)은 [표 1]의 문장 내에서 대용대명사 'them'과 'it'을 인식해 내고 이후, 제어부(100)가 대용어 인식 모듈(200)의 인식정보를 선행어 추출 모듈(300)에 전달하면, 선행어 추출 모듈(300)은 대용대명사 'them'과 'it'이 각각 지시하고 있는 선행어 'Those figures'와 'the government'를 추출해 낸다.
기계학습 방법을 사용할 때, 성능에 큰 영향을 미치는 요소 중 하나는 자질 집합이다.
이하, 대명사 참조해소를 위한 자질 집합에 대하여 설명한다.
먼저, 대용어 인식 모듈(200)은 문서 내에서 대용대명사를 결정하기 위해 대용대명사 및 대용대명사 주변의 어휘 정보 및 품사 정보를 사용한다. 즉, 어휘 자질로서 대용대명사 및 대용대명사 주변 단어의 어휘 정보를 취하고, 품사 자질로서 대용대명사 및 대용대명사 주변 단어의 품사 정보를 취한다.
종류 자질집합
어휘 wi-2, wi-1, wi, wi+1, wi+2, wi-1wi, wiwi+1
품사 ti-2, ti-1, ti, ti+1, ti+2, ti-1ti, titi+1, ti-2ti-1ti, ti-1titi+1, titi+1ti
위의 [표 2]에서 wi는 대용대명사이고, ti는 대용대명사의 품사이다.
그리고, 아랫 첨자가 음수이면 wi의 이전 단어이고, 양수이면 다음 단어이다.
대용어 인식 모듈(200)의 어휘 선택부(210)는 자질로써 어휘 부분에서 대용대명사(wi), 그 이전 두 단어(wi -2, wi -1), 그 이후 두 단어(wi +1, wi +2), 이전단어와 대용대명사의 결합된 형태(wi-1wi) 그리고 대용대명사와 이후 단어의 결합된 형태(wiwi +1)를 선택하여 사용한다.
대용어 인식 모듈(200)의 품사 선택부(220)는 품사 부분에서 대용대명사의 품사(ti), 그 이전 두 단어의 품사(ti-2, ti-1), 이후 두 단어의 품사(ti+1, ti+2), 이전 단어의 품사와 대용대명사의 품사를 결합한 형태(ti-1ti), 대용대명사의 품사와 이후 단어의 품사를 결합한 형태(titi +1), 이전 두 단어의 품사와 대용대명사의 품사를 결합한 형태(ti -2ti -1ti), 이전 단어의 품사와 대용대명사의 품사 및 이후 단어의 품사를 결합한 형태(ti-1titi+1) 그리고 대용대명사의 품사와 이후 두 단어의 품사를 결합한 형태( titi+1ti)를 선택하여 사용한다.
아래의 [표 3]에 기재된 바와 같이, 선행어 추출 모듈(300)은 대용어 인식 모듈(200)가 인식한 대용대명사의 선행어를 찾기 위해 대용대명사에 대한 자질, 선행어에 대한 자질 및 대용대명사와 선행어 사이의 관계 자질을 사용한다.
한편, 상술한 각 자질은 품사나 격, 위치정보 등이 조합되어 자질로서 생성하게 된다.
하지만, 자질들의 수가 너무 많고, 기계학습의 학습 속도 문제로 인해 이러한 자질의 모든 조합에 대해 실험하는 것은 사실상 불가능하다.
그래서, 선행어 추출 모듈(300)이 사용할 수 있는 자질들의 리스트를 작성하고, 결정 트리에서 사용되는 정보 이득(information gain)이용하여 최대한 정확한 선행어를 추출할 수 이도록 하기 위한 자질 집합을 결정하여 아래의 [표 3]에 나타내었다.
종류 자질



대명사
- 인칭대명사인지 아닌지
- 소유격인지 아닌지
- 3인칭인지 아닌지
- 재귀대명사인지 아닌지
- 대문자를 포함했는지 아닌지
- 앞/뒤 단어의 품사
- 앞뒤 단어를 포함한 어휘의 품사 정보(5개)



후보
- 구성 단어의 수
- 대명사인지 아닌지
- Is indefinite NP
- Is Demonstrative NP
- 앞/뒤 단어의 품사
- 자신의 품사
- 이전의 텍스트에서 자신이 나온 횟수
관계 - 대명사와 후보 간의 문장 거리
- 대명사와 후보 간의 단어 거리
선행어 추출 모듈(300)은 대용대명사와 각각의 후보 선행어들 사이의 관계에 의해서 최종 선행어를 결정하는 것이 아니라, 두 후보 선행어들 끼리 경쟁할 수 있도록 티씨엠<TCM:twin-candidate model>에 의해 모델링된 승자 진출전 실행부(310) 또는 연맹전 실행부(320)를 통해 선행어를 추출한다.
[표 1]과 아래의 [표 4]를 참조하여 상술한 승자 진출전 실행부(310)에 의한 선행어 추출을 더욱 상세히 설명한다.
참고로, [표 4] 및 [표 5]의 정답 란에서 정답 태그는 총 3가지로"00", "10" 및 "01"이 있는데, "00"은 둘 다 정답이 아닌 경우이고, "10"은 앞의 것이, "01"은 뒤의 것이 정답으로서 경쟁에서 살아남은 것을 표시한다.
대명사 후보들 정답

[6 them]

[1 Those figures], [2 the government] 10
[1 Those figures], [3 legislators] 10
[1 Those figures], [4 September] 10
[1 Those figures], [5 the government] 10


[7 it]

[1 Those figures], [2 the government] 01
[2 the government], [3 legislators] 10
[2 the government], [4 September] 10
[2 the government], [5 the government] 01
[5 the government] , [6 them] 10
승자 진출전 실행부(310)는 모든 후보들 중, 가장 먼저 두 개의 후보를 선택하여 경쟁을 붙이고, 이 경쟁에서 살아남은 후보와 아직 선택되지 않은 후보 1개를 선택하여 다시 경쟁하도록 한다.
모든 후보들이 선택되어 남아있는 후보가 없어져 경쟁이 끝나면, 승자 진출전 실행부(310)는 최후에 살아남은 후보를 대용대명사의 선행어로 추출한다.
위의 [표 4]를 참조하여 더욱 구체적으로 설명하면, 승자 진출전 실행부(310)는 가장 먼저 두 개의 후보[1 Those figures]와 [2 the government]를 선택하여 경쟁을 붙이고, 이 경쟁에서 살아남은 후보 [1 Those figures]와 아직 선택되지 않은 후부들 중 1개를 선택하여 다시 경쟁하도록 한다.
이후, 모든 후보들이 선택되어 남아있는 후보가 없어져 경쟁이 끄타면, 승자 진출전 실행부(310)는 최후에 살아남은 후보[5 the government]를 대용대명사의 선행어로 추출한다.
[표 1]과 아래의 [표 5]를 참조하여 상술한 연맹전 실행부(320)에 의한 선행어 추출을 더욱 상세히 설명한다.
연맹전 실행부(320)는 대용대명사의 모든 후보들에 대한 경쟁을 붙여서 가장 승률이 좋은 후보를 선택한다.
대명사 후보들 정답








[7 it]




[1 Those figures], [2 the government] 01
[1 Those figures], [3 legislators] 00
[1 Those figures], [4 September] 00
[1 Those figures], [5 the government] 01
[1 Those figures], [6 them] 00
[2 the government], [3 legislators] 10
[2 the government], [4 September] 10
[2 the government], [5 the government] 01
[2 the government], [6 them] 10
[3 legislators], [4 September] 00
[3 legislators], [5 the government] 01
[3 legislators], [6 them] 00
[4 September], [5 the government] 01
[4 September], [6 them] 00
[5 the government], [6 them] 10
선행어 점수
[1 Those figures] 0
[2 the government] 4
[3 legislators] 0
[4 September] 0
[ 5 the government] 5
[6 them] 0
위의 [표 5]에서 보는 바와 같이 총 6개의 후보들 중, 2개를 선택하여 경쟁을 붙이는 경우의 수는 15가지인데, 연맹전 실행부(320)는 15가지의 연맹전을 실행하여 승점이 가장 높은 후보 즉, 위의 표에서 승점 5점으로 승률이 가장 좋은 [5 the government]를 대용대명사 [7 it]의 선행어로 채택한다.
본 발명에 따른 대용어 참조해소 시스템에서 기계학습을 위해 사용되는 말뭉치는 OntoNote이다. 이 말뭉치는 대용어의 참조 정보뿐 아니라 개체명(named entity), 품사, 기저구 정보가 포함되어 특별한 언어처리 시스템을 사용하지 않고도 참조해소 시스템을 구현할 수 있다. 이 시스템에서는 OntoNote의 WSJ을 사용한다. 이 말뭉치는 Penn Treebank에 포함된 WSJ의 문장에 대해서 대용어의 참조 정보를 포함하고 있다.
OntoNote - WSJ는 총 14,246개의 문장(308,736 단어)로 구성되어 있다. 이 말뭉치의 경우 몇 가지 문제점 때문에 바로 학습에 사용할 수가 없으므로 새롭게 가공을 하여야 한다. 첫 번째는 XML 형태로 구성되어 있다는 점이다.
게다가 중첩된 선행어도 태깅해 놓았기 때문에 XPath와 XSLT를 이용하여 중첩된 선행어가 없는 형태의 말뭉치로 새롭게 가공하였다. 두 번째 문제는 개체명 인식 말뭉치를 가공할 때와 마찬가지로 이 말뭉치 하나만으로는 선행어 결정 시스템에서 필요한 모든 자질을 추출할 수 없다는 점이다.
이와 같은 이유로 Penn Treebank와 통합하여 문장 분리, 토큰 분리, 품사, 기저 명사구, 개체명의 정보를 포함하는 새로운 형태의 말뭉치로 가공하였다. 이 중 90%를 학습 말뭉치(13,235 문장 / 309,541 단어)로, 10%를 실험 말뭉치(1,502 문장 / 34,363 단어)로 나누어 각각 학습 및 실험을 수행하였다.
본 발명에 따른 대용어 참조해소 시스템에서의 대용대명사가 가리키는 선행어를 정확하게 찾는 비율을 성능 척도로 사용하며 이를 선행어 결정 정확률
Figure 112009074667834-pat00001
이라고 한다.
선행어 결정확률
Figure 112009074667834-pat00002
는 아래의 수학식 1과 같다.
Figure 112009074667834-pat00003
위의 식에서 ,
Figure 112009074667834-pat00004
는 전체 문서에 인식된 올바른 대용대명사의 개수,
Figure 112009074667834-pat00005
는 대용대명사들 중에서 선행어를 정확하게 찾아낸 대용대명사의 수이다.
승자 진출전 실행부(310)와 연맹전 실행부(320)에 의한 승자 진출전과 연맹전에 대한 성능평가 결과가 아래의 [표 6]에 나와 있다.
구분 대용대사 대용어 인식모듈에 의해 인식된 대용대명사의 수 선행어를 정확하게 인식한 대용대명사의 수 정확률
(%)
승자 진출전 676 610 386 57.1
연맹전 676 610 254 37.5
위의 [표 6]을 살펴보면 승자진출전에 비해서 연맹전이 상당히 낮은 정확률을 보이는 것을 알 수 있다. 이는 연맹전의 특성상 모든 후보들 간의 경쟁이 일어남에 따라 정답 태그 중 "00"의 비율이 너무 높아져서 학습 결과가 "00"쪽으로 치우치는 현상 태문이다.
아래의 [표 7]은 대용어 인식 모듈(200)에 의해 인식된 대용어를 이용하지 않고 모든 대명사만을 대상으로 선행어 추출 모듈(300)에 의해 선행어를 추출한 결과이다.
대용대명사의 수 선행어를 정확하게 인식한 대용대명사의 수 정확률(%)
676 526 77.81
[표 7]를 살펴보면 대용어 인식 모듈(200)에서 전파되는 에러율이 상당히 높은 것을 알 수 있다.
이러한 이유로 본 발명에 따른 대용어 참조해소 시스템에서는 대용어 인식 모듈(200)을 거친 승자 진출전 방식을 이용한다.
상술한 대용어 참조해소 시스템 부분에서 상세히 설명한 내용과 중복되는 부분이 상당하여 이하에서는 도 2를 참조하여 대용어 참조해소 방법에 관해 간단히 설명한다.
도 2는 대용어 참조해소 방법을 설명하기 위한 흐름도이다.
제어부(100)는 외부의 입력장치에 의해 입력되는 문서를 직접 입력받거나, 또는 데이터 베이스부(400)에 기저장된 문서를 입력받아 대용어 인식 모듈(200)에 전달하는 단계를 수행한다(S100).
대용어 인식 모듈(200)은 제어부(100)로부터 입력되는 문서를 수신하여 선행어를 가진 대용어를 인식하는 단계를 수신한다(S200).
대용어 인식 모듈(200)은 문서 내에서 대용대명사를 결정하기 위해 대용대명사 및 대용대명사 주변 단어의 어휘 정보 및 품사 정보를 사용한다.
'S200'단계에서 추출된 대용 대명사에 각각에 대한 복수의 선행어 후보 목록을 생성하는 단계를 수행한다(S300).
위의 [표 3]에 기재된 바와 같이 선행어 후보 목록은 사용할 수 있는 자질들의 리스트를 작성하고, 결정 트리에서 사용되는 정보 이득(information gain)이용하여 최대한 정확한 선행어를 추출할 수 있도록 하기 위한 자질 집합이다.
선행어 추출 모듈(300)은 'S300'단계에서 생성된 복수의 선행어들을 승자 진출전 방식을 사용한 반복수행을 통해 최종 선행어를 선정하는 단계를 수행한다(S400).
선행어 추출 모듈(300)은 최종 선행어를 선정하기 위하여 대용대명사에 대한 자질, 선행어에 대한 자질 및 대용대명사와 선행어 사이의 관계 자질을 사용한다.
이상에서 본 발명은 실시예로 기재된 구체적인 예에 대해서만 상세히 설명되었지만, 당업자가 본 발명의 기술사상 범위 내에서 다양한 변형과 수정이 가능하다는 것은 명백하며, 이러한 변형과 수정 역시 첨부된 특허청구범위에 속한다는 것은 당연하다.
도 1은 본 발명에 따른 대용어 참조 해소 시스템의 블록도 이고,
도 2는 본 발명에 따른 대용어 참조 해소 방법을 설명하기 위한 흐름도 이다.
<도면의 주요 부분에 대한 설명>
100 : 제어부 200 : 대용어 인식 모듈
300 : 선행어 추출 모듈 210 : 어휘 선택부
220 : 품사 선택부 310 : 승자 진출전 실행부
320 : 연맹전 실행부

Claims (7)

  1. 문장에서 사용되는 대용어(anaphora)가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지 구별하는 참조 해소 과정을 통해 문헌 내의 대명사가 참조하는 핵심 개체를 발굴하는 대용어 참조 해소 시스템에 있어서,
    어휘 자질로서 대용대명사 및 대용대명사의 주변 단어의 어휘 정보를 취하고, 품사 자질로서 대용대명사의 품사 및 대용대명사 주변 단어의 품사 정보를 취하여 문서 내에 존재하는 대명사들 중에서 선행어를 갖는 대용어를 인식하는 대용어 인식 모듈(200);
    상기 대용어 인식 모듈(200)이 인식한 대용어 정보를 전달받는 제어부(100); 및
    상기 제어부(100)로부터 대용어 정보를 전달받고, 대용어에 대한 자질, 선행어에 대한 자질 그리고 대용어와 선행어의 관계 자질로 이루어지는 자질집합을 이용하여 대용어에 대한 선행어 후보 목록을 작성하고, 선행어 후보들 중에서 대용어가 가리키는 선행어를 찾아내는 선행어 추출 모듈을 포함하는 대용어 참조 해소 시스템.
  2. 제 1항에 있어서,
    상기 대용어 인식 모듈(200)은
    대용어의 어휘 자질로써 어휘 부분에서 대용대명사(wi), 상기 대용대명사의 이전 두 단어(wi-2, wi-1), 그 이후 두 단어(wi+1, wi+2), 이전 단어와 상기 대용대명사의 결합된 형태(wi-1wi) 그리고 대용대명사와 이후 단어의 결합된 형태(wiwi+1)를 선택하는 어휘 선택부(210)와
    대용어의 품사 자질로서 대용대명사의 품사(ti), 그 이전 두 단어의 품사(ti-2, ti-1), 이후 두 단어의 품사(ti+1, ti+2), 이전 단어의 품사와 대용대명사의 품사를 결합한 형태(ti-1ti), 대용대명사의 품사와 이후 단어의 품사를 결합한 형태(titi+1), 이전 두 단어의 품사와 대용대명사의 품사를 결합한 형태(ti-2ti-1ti), 이전 단어의 품사와 대용대명사의 품사 및 이후 단어의 품사를 결합한 형태(ti-1titi+1) 그리고 대용대명사의 품사와 이후 두 단어의 품사를 결합한 형태(titi+1ti)를 선택하는 품사 선택부(220)를 사용하여 문서 내의 대용어를 인식하는 것을 특징으로 하는 대용어 참조해소 시스템.
  3. 삭제
  4. 제 1항에 있어서
    상기 선행어 추출 모듈(300)은
    복수의 모든 선행어 후보들 중, 가장 먼저 두 개의 후보를 선택하여 경쟁을 붙이고, 이 경쟁에서 살아남은 후보와 아직 선택되지 않은 후보 1개를 선택하여 다시 경쟁하도록 하여 최후에 살아남은 후보를 대용 대명사의 최종 선행어로 추출하는 승자 진출전 실행부(310)을 구비하는 것을 특징으로 하는 대용어 참조 해소 시스템.
  5. 문장에서 사용되는 대용어(anaphora)가 이전 문장 혹은 대화의 어떤 사물이나 행위를 가리키는지 구별하는 참조 해소 과정을 통해 문헌 내의 대명사가 참조하는 핵심 개체를 발굴하는 대용어 참조 해소 방법에 있어서,
    (a) 대용어 인식 모듈(200)이 외부의 입력장치에 의해 입력되는 문서를 직접 입력받거나, 또는 데이터 베이스부(400)에 기저장된 문서를 제어부(100)를 통해 입력받는 단계;
    (b) 상기 대용어 인식 모듈(200)이 어휘 자질로서 대용대명사 및 상기 대용대명사의 주변 단어의 어휘 정보를 취하고, 품사 자질로서 대용대명사 및 대용대명사 주변 단어의 품사 정보를 취하여 (a) 단계에서 수신한 문서로부터 선행어를 가지는 대용어를 인식하는 단계;
    (c) 상기 (b)단계에서 추출된 대용대명사 정보를 상기 제어부(100)를 통해 전달받은 선행어 추출 모듈(300)이 대용어에 대한 자질, 선행어에 대한 자질 그리고 대용어와 선행어의 관계 자질로 이루어지는 자질집합을 이용하여 상기 대용대명사 각각에 대한 복수의 선행어 후보 목록을 생성하는 단계; 및
    (d) 상기 선행어 추출 모듈(300)이 상기 (c)단계에서 생성된 복수의 선행어 후보 목록으로부터 최종 선행어를 선정하는 단계;를 포함하는 것을 특징으로 하는 대용어 참조해소 방법.
  6. 청구항 5항에 있어서,
    문서 내의 대용어를 인식하는 상기 (b)단계는
    (b-1) 상기 대용어 인식 모듈(200)의 어휘 선택부(210)가 대용어의 자질로써 어휘 부분에서 대용대명사(wi), 상기 대용대명사의 이전 두 단어(wi-2, wi-1), 그 이후 두 단어(wi+1, wi+2), 이전 단어와 상기 대용대명사의 결합된 형태(wi-1wi) 그리고 대용대명사와 이후 단어의 결합된 형태(wiwi+1)를 선택하는 단계; 및
    (b-2) 상기 대용어 인식 모듈(200)의 품사 선택부(220)가 품사 부분에서 대용대명사의 품사(ti), 그 이전 두 단어의 품사(ti -2, ti -1), 이후 두 단어의 품사(ti+1, ti+2), 이전 단어의 품사와 대용대명사의 품사를 결합한 형태(ti-1ti), 대용대명사의 품사와 이후 단어의 품사를 결합한 형태(titi+1), 이전 두 단어의 품사와 대용대명사의 품사를 결합한 형태(ti-2ti-1ti), 이전 단어의 품사와 대용대명사의 품사 및 이후 단어의 품사를 결합한 형태(ti-1titi+1) 그리고 대용대명사의 품사와 이후 두 단어의 품사를 결합한 형태(titi+1ti)를 선택하는 단계;를 포함하는 것을 특징으로 하는 대용어 참조해소 방법.
  7. 제 5항에 있어서,
    상기 (d) 단계에서
    상기 선행어 추출 모듈(300)의 승자 진출전 실행부(310)가
    복수의 모든 선행어 후보들 중, 가장 먼저 두 개의 후보를 선택하여 경쟁을 붙이고, 이 경쟁에서 살아남은 후보와 아직 선택되지 않은 후보 1개를 선택하여 다시 경쟁하도록하여 최후에 살아남은 후보를 대용대명사의 최종 선행어로 추출하는 것을 특징으로 하는 대용어 참조해소 방법.
KR1020090118927A 2009-12-03 2009-12-03 대용어 참조해소 시스템 및 대용어 참조해소 방법 KR101104114B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090118927A KR101104114B1 (ko) 2009-12-03 2009-12-03 대용어 참조해소 시스템 및 대용어 참조해소 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090118927A KR101104114B1 (ko) 2009-12-03 2009-12-03 대용어 참조해소 시스템 및 대용어 참조해소 방법

Publications (2)

Publication Number Publication Date
KR20110062261A KR20110062261A (ko) 2011-06-10
KR101104114B1 true KR101104114B1 (ko) 2012-01-13

Family

ID=44396474

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090118927A KR101104114B1 (ko) 2009-12-03 2009-12-03 대용어 참조해소 시스템 및 대용어 참조해소 방법

Country Status (1)

Country Link
KR (1) KR101104114B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200075465A (ko) * 2018-12-18 2020-06-26 주식회사 엘지유플러스 문장 복원 방법 및 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522909B (zh) * 2020-04-10 2024-04-02 海信视像科技股份有限公司 一种语音交互方法及服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100200210B1 (ko) * 1996-11-30 1999-06-15 윤종용 광 아이솔레이터
KR100641053B1 (ko) 2005-10-06 2006-11-02 한국전자통신연구원 생략된 문장성분 복원 장치 및 방법
KR100725723B1 (ko) 2005-12-09 2007-06-08 한국전자통신연구원 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치
KR20090063384A (ko) * 2007-12-14 2009-06-18 한국전자통신연구원 대용어 참조해결 장치 및 그 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100200210B1 (ko) * 1996-11-30 1999-06-15 윤종용 광 아이솔레이터
KR100641053B1 (ko) 2005-10-06 2006-11-02 한국전자통신연구원 생략된 문장성분 복원 장치 및 방법
KR100725723B1 (ko) 2005-12-09 2007-06-08 한국전자통신연구원 연결어미 제약을 이용한 한국어 주어의 생략 성분 복원방법 및 장치
KR20090063384A (ko) * 2007-12-14 2009-06-18 한국전자통신연구원 대용어 참조해결 장치 및 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김미진 외 4명, "한국어 복합문에서의 제로 대용어 처리를 위한 분해 알고리즘과 복원규칙", 정보과학회논문지: 소프트웨어 및 응용 제29권 제10호, 2002년 10월

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200075465A (ko) * 2018-12-18 2020-06-26 주식회사 엘지유플러스 문장 복원 방법 및 장치
KR102194424B1 (ko) 2018-12-18 2020-12-23 주식회사 엘지유플러스 문장 복원 방법 및 장치

Also Published As

Publication number Publication date
KR20110062261A (ko) 2011-06-10

Similar Documents

Publication Publication Date Title
Goldsmith Unsupervised learning of the morphology of a natural language
CN107526841A (zh) 一种基于Web的藏文文本自动摘要生成方法
Azmi et al. Universal web accessibility and the challenge to integrate informal Arabic users: a case study
Hsiao et al. The nature and frequency of relative clauses in the language children hear and the language children read: A developmental cross-corpus analysis of English complex grammar
CN116911300A (zh) 语言模型预训练方法、实体识别方法和装置
KR102398683B1 (ko) 패러프레이징을 이용한 감정 사전 구축 및 이를 이용한 텍스트 상의 감정 구조 인식 시스템 및 방법
KR101104114B1 (ko) 대용어 참조해소 시스템 및 대용어 참조해소 방법
Tedla et al. Analyzing word embeddings and improving POS tagger of tigrinya
Ferret et al. QALC-the Question-Answering program of the Language and Cognition group at LIMSI-CNRS
Hao et al. SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis
CN111027314A (zh) 一种基于语篇的人物属性抽取方法
Panahandeh et al. Correction of spaces in Persian sentences for tokenization
JP5194920B2 (ja) 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Torunoglu-Selamet et al. Exploring spelling correction approaches for turkish
Ouvrard et al. Collatinus & Eulexis: Latin & Greek Dictionaries in the Digital Ages.
Ji et al. Analysis and repair of name tagger errors
Althafir et al. A hybrid approach for auto-correcting grammatical errors generated by non-native Arabic speakers
Herrera et al. TweetTaglish: A Dataset for Investigating Tagalog-English Code-Switching
Drame et al. Towards a bilingual Alzheimer's disease terminology acquisition using a parallel corpus
Seddah et al. Enriching the NArabizi Treebank: A Multifaceted Approach to Supporting an Under-Resourced Language
Patel et al. A Review of Indian and Non-Indian Stemming: A focus on Gujarati Stemming Algorithms
Xu et al. Historical changes in semantic weights of sub-word units
Zribi et al. A Multi-Agent System for POS-Tagging Vocalized Arabic Texts.
Selvaramalakshmi et al. A novel PSS stemmer for string similarity joins
Zhang et al. An ATE system based on probabilistic relations between terms and syntactic functions

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160104

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20161228

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee