KR101972408B1

KR101972408B1 - 술어 템플릿 수집 장치, 특정 프레이즈 페어 수집 장치, 및 이들을 위한 컴퓨터 프로그램

Info

Publication number: KR101972408B1
Application number: KR1020147023682A
Authority: KR
Inventors: 치카라 하시모토; 켄타로 토리사와; 사에거 스테인 드; 오종훈; 준이치 카자마
Original assignee: 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코
Priority date: 2012-02-27
Filing date: 2013-01-23
Publication date: 2019-04-25
Also published as: JP5924666B2; WO2013128984A1; CN104137097A; US9582487B2; US20150039296A1; JP2013175097A; KR20140129053A; EP2821923A4; EP2821923B1; EP2821923A1; CN104137097B

Abstract

술어 템플릿을 효율적으로 자동적으로 인식할 수 있는 술어 템플릿 수집 장치를 제공하기 위해서, 술어 템플릿 수집 장치는 접속사 및 시드 템플릿을 이용하여 술어 템플릿 페어와 공기하는 명사 페어를 수집하고, 명사의 관계의 극성을 판정하는 명사 페어 수집부(94) 및 명사 페어 극성 판정부(98)와 명사 페어와 공기하는 템플릿 페어를 수집하고, 술어 템플릿 페어와 공기하는 명사 페어의 관계와 술어 템플릿 페어 간의 접속사에 기초하여, 술어 템플릿 페어의 활성의 극성이 동일인지의 여부를 판정하는 템플릿 페어 수집부(100)와 술어 템플릿 페어와 그 활성의 일치/불일치에 의하여 술어 템플릿 간을 관계시킨 템플릿 네트워크를 구축하는 템플릿 네트워크 구축부(106)와 네트워크내의 시드 템플릿의 활성값과 노드 간의 관계를 사용하여 각 노드에 부여하는 활성값을 산출하는 템플릿 활성값 산출부(112)를 포함하도록 한다.

Description

술어 템플릿 수집 장치, 특정 프레이즈 페어 수집 장치, 및 이들을 위한 컴퓨터 프로그램{PREDICATE TEMPLATE GATHERING DEVICE, SPECIFIED PHRASE PAIR GATHERING DEVICE AND COMPUTER PROGRAM FOR SAID DEVICES}

본 발명은 자연 언어의 문장 또는 프레이즈(phrase)의 사이의 관계를 인식하기 위한 기술에 관한 것이고, 특히 문장 또는 프레이즈 등 사이의 인과 관계, 모순 등에 관한 표현을 자동적으로 인식해서 수집하기 위한 기술에 관한 것이다.

소위, 인터넷 검색 엔진 등의 이용이 보급됨과 아울러 언어 처리 기술이 진보하고, 「쓰여 있는 정보」를 찾는 것에 관해서는 상당히 높은 레벨의 서비스가 개시되고 있다. 그것과 대조적으로 「쓰여 있지 않지만, 유용한 정보」를 가설로서 추론하는 기술에 대해서는 아직 충분한 연구가 이루어지지 않았다. 이러한 기술은 「시스템이 생각하는 기술」이라 할 수 있고, 차세대 정보 서비스의 중요한 코어 기술이 될 것이라고 생각된다. 이러한 기술에 대해서는 소위 「인공 지능」이라 하여 민간, 공적 기관을 막론하고 장기간 연구가 행해지고 있음에도 불구하고, 아직 실용화, 상용화의 레벨에는 이르지 않고 있다.

이러한 언어 처리 기술에 있어서 기본적인 것으로서, 소위 문장 또는 프레이즈가 있다(본 명세서에서는, 일본어를 처리 대상으로 하는 것을 상정하고, 「프레이즈」란 어떤 명사와 술어가 조사로 연결된 것을 나타낸다. 단, 일본어 이외의 언어를 상정하는 경우에는, 일본어에 있어서의 「프레이즈」와 동등한 단위를 처리 대상으로 한다). 이들은 어떤 결말을 가진 사건 및 행위를 자연 언어로 기술하는 것이다. 이들 문장 또는 프레이즈 사이에는 어떤 인과 관계가 발견되는 경우가 있다. 예를 들면 「담배를 피운다」라고 하는 프레이즈가 나타내는 것이 「폐암에 걸린다」라고 하는 프레이즈로 나타내어지는 것의 원인이 된다는 관계가 있다. 문장 또는 프레이즈 사이에는 의미적인 모순 관계가 발견되는 경우도 있다. 예를 들면 「제품을 사용한다」와 「제품을 파기한다」 사이의 관계 등이다.

문장 또는 프레이즈 사이의 이러한 관계는, 인간에게는 용이하게 인식될 수 있다. 그러나, 언어 처리를 자동적으로 행하고자 하는 경우, 이러한 처리는 난제이다. 예를 들면, 언어에 관한 정보 서비스, 정보 분석 기술, 언어 처리 기술을 한층 높은 레벨로 도달시켜, 추론 등의 보다 고차원인 기능에 결부시키기 위해서는 문장 또는 프레이즈 간의 상기한 관계를 높은 정확도로 인식할 수 있도록 하는 것이 필수적인 기술로 여겨지고 있다. 그러나, 현재까지 넓은 범위의 언어 표현으로부터 상기한 바와 같은 관계를 높은 정확도로 발견할 수 있는 기술은 존재하지 않고 있다.

이러한 기술의 구성 요소에 관련되는 종래 기술로서, 후술의 비특허문헌 1∼7에 기재된 것이 있다.

(A) 프레이즈 간의 인과 관계의 자동 인식 방법

수작업으로 준비한 대량의 인과 관계 사례로부터 기계 학습에 의해 새로운 인과 관계를 취득하는 기술로서, 비특허문헌 1에 기재된 기술이 있다. 일본어에서의 예로서, 인과 관계를 명시적으로 나타내는 「때문에」「이므로」라고 하는 접속사의 텍스트 중에서의 출현을 단서로 프레이즈 간의 관계를 자동 인식하는 것이 존재한다(비특허문헌 2).

(B) 프레이즈 간의 모순 관계의 자동 인식 방법

Word Net 등의 수작업으로 구축된 사전을 이용하는 것이 존재한다(비특허문헌 3).

(C) 동사의 분류 방법

명사와 동사의 조합으로 이루어지는 단위에 대해서, 동사가 예를 들면, 명사가 가리키는 대상이 지니는 기능, 효과 등을 발휘시키거나, 증대시키는 방향의 사건을 기술하는 것인지의 여부에 기초하여 동사를 분류하거나, 그러한 성질을 지닌 동사를 자동적으로 획득하는 연구가 존재한다(예를 들면, 비특허문헌 4 및 비특허문헌 5).

(D) 언어에 의한 가설 생성 방법

단어간의 특정한 의미적 관계, 예를 들면 인과 관계에 관해서, 가설을 생성하는 기술이 존재한다(비특허문헌 6). 예를 들면, 「콜레스테롤」과 「동맥 경화」의 사이에는 인과 관계가 있고, 「동맥 경화」와 「뇌경색」의 사이에 인과 관계를 있다는 것을 데이터 베이스에 저장하고 있다고 하면, 그들의 인과 관계를 조합시켜 새로운 가설 「콜레스테롤」은 「뇌경색」의 원인이 된다라는 것을 추론할 수 있다.

(E) 프레이즈 간의 동의, 함의의 자동 인식 방법

종래, 동사 등의 단어 또는 「A가 B를 야기한다」와 같은 패턴 사이의 동의성, 함의의 인식에 있어서, 그 단어의 주변에 출현하는 다른 단어 또는 패턴 내의 A, B라는 변수에 출현하는 단어의 확률 분포를 구하고, 그들 사이의 통계적 유사도(이것을 「분포 유사도」라고 부른다)를 사용하는 기술이 존재한다(비특허문헌 7). 예를 들면, 「A가 B를 야기한다」라고 하는 패턴과 「A가 B의 원인이 된다」라고 하는 패턴은 거의 동의라 인정되지만 이것을 A, B의 위치에 오는 일련의 명사, 예를 들면 「다이옥신」, 「암」과 같은 것의 출현 확률을 구하고, 그들의 출현 확률 사이의 유사도에 의해 그러한 동의를 인식하는 기술이다.

Roxana Girju. Automatic Detection of Causal Relations for Question Answering. In Proceedings of ACL Workshop on Multilingual Summarization and Question Answering. 2003.(수작업으로 준비한 대량의 인과 관계 사례로부터 기계 학습에 의해 새로운 인과 관계를 취득하는 기술) Takashi INUI, Kentaro INUI, Yuji MATSUMOTO. 접속 조사 「때문에」를 포함하는 복문으로부터 인과 관계 지식을 획득한다. 정보 처리 학회 자연 언어 처리 연구회(NL-150-25), pp.171--178, 2002.(프레이즈 간의 인과 관계의 자동 인식.「때문에」등의 특정 접속사를 단서로서 인과 관계를 취득하는 기술) Saif Mohammad, Bonnie Dorr and Graeme Hirst. Computing Word Pair Antonymy. In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pp.982-991, Honolulu, October 2008.(모순 관계의 자동 인식. 수작업으로 구축한 사전에 기초하는 기술) James Pustejovsky, The Generative Lexicon, MIT Press, 1995.(동사의 분류 방법) Kentaro Torisawa. 대상의 용도와 준비를 나타내는 표현의 자동 획득. 자연 언어 처리, vol.13(2), pp.125-144, 2006.(동사 분류의 자동 획득 방법) Masaaki Tsuchida, Kentaro Torisawa, Stijn De Saeger, Jong Hoon Oh, Jun'ichi Kazama, Chikara Hashimoto and Hayato Ohwada. Toward Finding Semantic Relations not Written in a Single Sentence: An Inference Method using Auto-Discovered Rules. In Proceedings of the 5th International Joint Conference on Natural Language Processing(IJCNLP 2011), pp.902-910, Chiang Mai, Thailand, November, 2011.(언어에 의한 가설 생성） Dekang Lin and Patrick Pantel. Discovery of inference rules for question answering. Natural Language Engineering, 7(4):343-360. 2001.(프레이즈 간의 동의, 함의의 자동 인식 방법) Hiroya Takamura, Takashi Inui, and Manabu Okumura. Extracting Semantic Orientations of Words using Spin Model. In Proceedings of the 43rd Annual Meeting of the ACL, pp.133-140. 2005.(극성 값의 자동 산출 방법)

[문제의 소재]

이하, (A) 프레이즈 간의 인과 관계의 자동 인식 방법, (B) 프레이즈 간의 모순 관계의 자동 인식 방법, (C) 술어 템플릿(조사와 동사의 페어, 예: <을 먹는다>)의 자동 분류 방법, (D) 언어에 의한 자동 가설 생성 방법 및 (E) 프레이즈 간의 동의, 함의의 자동 인식 방법의 5점에 관해서 종래 기술의 과제를 정리한다.

(A) 프레이즈 간의 인과 관계의 자동 인식 방법

프레이즈 간의 논리적 관계의 하나로서, 인과 관계가 있다. 선행 기술은 인과 관계를 명시적으로 나타내는 「때문에」「이므로」라고 한 접속사, 또는 수작업으로 구축한 사전을 그 정보원으로 하여 인과 관계를 인식한다. 그러나, 「때문에」와 같은 접속사는 통상, 텍스트 중에서 출현 빈도가 그만큼 많지 않다는 것, 및 수작업으로 작성된 사전은 커버하는 단어가 적어 획득할 수 있는 인과 관계가 많지 않다고 하는 문제가 있다. 따라서, 적용 범위를 넓게 하는 것이 바람직하다.

(B) 프레이즈 간의 모순 관계의 자동 인식 방법

프레이즈 간의 논리적 관계의 다른 예로서, 프레이즈 간의 모순 관계가 있다. 여기서 말하는 모순 관계란 양자의 의미하는 바가 반대인 것을 말한다. 이 점에 관한 선행 기술은 수작업으로 구축된 사전에 의존하고 있다. 그러한 사전에 기재된 단어는 많지 않고, 광범위한 표현에 대응할 수 없다고 하는 문제가 있다.

(C) 술어 템플릿의 자동 분류 방법

선행 기술에서는 동사가 예를 들면 명사가 가르키는 대상이 갖는 기능, 효과 등을 발휘시키거나, 증대시키는 방향의 사건을 기술하는 것만으로 착안하고 있다. 그러나, 단지 동사의 이러한 성질에 착안하는 것만으로는 모순·인과 관계의 인식이 충분하게 행해지지 않는다는 문제가 있다.

(D) 언어에 의한 자동 가설 생성 방법

선행 기술에 개시된 기술에서는, 단어간의 인과 관계를 추출하는 것은 가능하지만, 보다 넓은 단위에서 인과 관계를 추출하거나, 인과 관계에 관한 가설을 생성할 수 없다고 하는 문제가 있다.

(E) 프레이즈 간의 동의, 함의의 자동 인식 방법

선행 기술에서는 단어, 프레이즈, 패턴의 주변에 출현하는 다른 단어의 확률분포를 구한다. 또한, 그들의 확률 분포 사이의 유사도를 계산한다. 이렇게 해서 얻어진 정보에 의해, 단어, 프레이즈 및 패턴간의 동의 또는 함의 관계를 인식하고 있다. 그러나, 이들 기술에는 「반의」의 표현도 동의라고 인식해버릴 가능성이 높다고 하는 결점이 있다. 예를 들면, 패턴「A가 B를 야기한다」와 패턴「A가 B를 막는다」라고 하는 패턴을 비교하면 이해하기 쉽다. 양자에 있어서, 「야기한다」와 「막는다」는 완전히 반대의 의미를 지닌다. 그러나, 주변에 출현하는 다른 단어의 확률 분포의 유사도를 구하면, 이들이 높은 유사도를 나타내기 때문이다. 예를 들면 「식사가 성인병을 야기한다」「식사가 병을 막는다」와 같이 애매한 단어가 양자의 패턴으로 빈출하는 경우가 많다고 하는 것에 기인한다. 이러한 패턴이 빈출하기 때문에, 「야기한다」및 「막는다」라고 하는 단어를 포함하는 패턴으로 출현하는 명사의 확률 분포가 유사해져 버린다. 따라서, 보다 높은 정확도로 동의, 함의를 인식할 수 있도록 할 필요가 있다.

따라서, 본 발명의 목적은 인과 관계, 모순 관계 등의 프레이즈 간의 논리적 관계를 자동적으로 인식하는 것을 가능하게 하기 위해서, 그들을 구성하는 술어 템플릿을 효율적으로 자동적으로 또한 정밀도 높게 인식할 수 있는 술어 템플릿 수집 장치를 제공하는 것이다.

본 발명의 다른 목적은 인과 관계, 모순 관계 등, 특정 관계에 있는 프레이즈 페어를 자동적으로, 효율적으로, 또한 정밀도 높게 인식할 수 있는 장치를 제공하는 것이다.

본 발명의 제 1 국면에 따르는 술어 템플릿 수집 장치는 술어 템플릿을 소정 문장의 집합으로부터 수집하기 위한 술어 템플릿 수집 장치이다. 술어 템플릿은 명사와 결부되어서 프레이즈를 구성하는 것이다. 또한, 술어 템플릿에는 활성, 불활성 및 중립이라고 하는 분류를 따라서 활성의 방향 및 그 크기를 나타내는 활성값을 부여하는 것이 가능하다. 활성이란 상기 술어 템플릿에 결부된 명사가 가르키는 대상의 기능 또는 효과를 발휘시키는 방향의 사건을 기술하는 것을 나타낸다. 불활성이란 상기 술어 템플릿에 결부된 명사가 가르키는 대상의 기능 또는 효과를 발휘시키지 않는 방향의 사건을 기술하는 것을 나타낸다. 중립이란 활성도 불활성도 아닌 술어 템플릿인 것을 나타낸다. 술어 템플릿에 관한 활성 및 불활성의 구별을 술어 템플릿의 극성이라고 부른다. 술어 템플릿 수집 장치는 순접 또는 역접으로 분류된 접속사를 기억하는 접속사 기억부와 술어 템플릿 네트워크를 구축하기 위한 기점이 되는 시드 템플릿을 기억하기 위한 시드 템플릿 기억부를 포함한다. 시드 템플릿의 각각에는 극성과 활성값이 부여된다. 따라서, 술어 템플릿의 극성은 술어 템플릿의 활성값의 부호를 나타내는 것이라도 할 수도 있다.

이 장치는 또한, 어떤 관계를 충족하는 명사 페어를 소정의 코퍼스(corpus)로부터 수집하고, 각 명사 페어를 구성하는 명사끼리의 관계의 극성을 정이나 부로 분류하기 위한 명사 페어 수집 수단을 포함한다. 명사 페어를 구성하는 명사끼리의 관계의 극성은 상기 명사 페어의 한쪽이 나타내는 대상이 다른 쪽이 나타내는 대상의 출현을 촉진할 때에는 정, 억제할 때에는 부로서 정의된다. 이 장치는 또한, 명사 페어 수집 수단에 의해 수집된 명사 페어와 각각 공기(共起)하는 술어 템플릿 페어를 소정의 코퍼스로부터 수집하고, 수집된 각 술어 템플릿 페어에 대해서, 상기 술어 템플릿 페어와 공기하는 명사 페어의 관계의 극성과, 상기 술어 템플릿 페어를 연결하는 접속사에 기초하여 상기 술어 템플릿 페어의 활성/불활성이 동일인지, 반대인지를 판정하기 위한 술어 템플릿 페어 수집 수단과 술어 템플릿 페어 수집 수단에 의해 수집된 술어 템플릿 페어와 각 술어 템플릿 페어에 관한 활성/불활성이 동일인지 아닌지의 판정 결과를 이용하여 술어 템플릿 간을 관계지음으로써, 각 술어 템플릿을 노드로 하고, 술어 템플릿 페어를 구성하는 술어 템플릿 간의 관계를 링크로 하는 템플릿 네트워크를 구축하기 위한 구축 수단과 템플릿 네트워크내의 시드 템플릿에 대응하는 노드에 미리 부여된 활성값을 기초로 하고, 템플릿 네트워크내의 노드 간의 관계를 사용하여 각 노드에 부여해야 할 활성값을 산출하고, 각 노드에 대응하는 술어 템플릿에 산출된 활성값을 부여해서 출력하기 위한 활성값 산출 수단을 포함한다.

바람직하게는 명사 페어 수집 수단은 접속사 기억부에 기억된 접속사와 시드 템플릿 기억부에 기억된 시드 템플릿을 이용하여, 술어 템플릿 페어와 공기하는 명사 페어를 소정의 코퍼스로부터 수집하고, 각 명사 페어를 구성하는 명사끼리의 관계의 극성을 정 또는 부로 분류하기 위한 수단을 포함한다.

보다 바람직하게는 분류하기 위한 수단은 접속사 기억부에 기억된 접속사와 시드 템플릿 기억부에 기억된 시드 템플릿을 이용하여 술어 템플릿 페어와 공기하는 명사 페어이고, 코퍼스에 소정의 빈도 이상 출현하는 것을 코퍼스로부터 수집하고, 각 명사 페어를 구성하는 명사끼리의 관계의 극성을 정 또는 부로 분류하기 위한 수단을 포함한다.

분류하기 위한 수단은 접속사 기억부에 기억된 접속사와 시드 템플릿 기억부에 기억된 시드 템플릿을 이용하여 술어 템플릿 페어와 공기하는 명사 페어를 코퍼스로부터 수집하기 위한 수단과 수집하기 위한 수단에 의해 수집된 명사 페어 조합의 각각에 대해서, 각 명사 페어와 공기하는 술어 템플릿 페어의 극성과 상기 명사 페어 및 술어 템플릿에 의해 구성되는 프레이즈 페어를 결부시키고 있는 접속사의 종류에 기초하여 상기 명사 페어의 조합을 구성하는 명사간의 관계의 극성을 결정하기 위한 극성 결정 수단을 포함해도 된다.

보다 바람직하게는, 수집하기 위한 수단은 접속사 기억부에 기억된 접속사와 시드 템플릿 기억부에 기억된 시드 템플릿을 이용하여 술어 템플릿 페어와 코퍼스내에서 소정 빈도 이상의 빈도로 공기하는 명사 페어를 코퍼스로부터 수집하기 위한 수단을 포함한다.

더욱 바람직하게는 극성 결정 수단은 수집하기 위한 수단에 의해 수집된 명사 페어의 각각에 대해서, 상기 명사 페어와 공기하는 술어 템플릿의 술어 템플릿 페어의 극성과 상기 명사 페어 및 술어 템플릿에 의해 구성되는 프레이즈 페어를 결부시키고 있는 접속사의 종류에 기초하여 상기 명사 페어의 각각을 구성하는 명사간의 관계의 극성을 결정하기 위한 수단과 결정하기 위한 수단에 의해 명사 페어의 각각에 대해서 결정된 명사간의 극성을 명사 페어의 종류마다 집계하고, 다수결에 의해, 명사 페어의 종류 마다에 그 사이의 극성을 결정하기 위한 수단을 포함해도 된다.

바람직하게는 술어 템플릿 수집 장치는 또한, 활성값 산출 수단에 의한 술어 템플릿의 출력이 완료된 것에 응답하고, 술어 템플릿의 활성값을 산출하는 처리의 종료 조건이 성립하고 있는지의 여부를 판정하기 위한 판정 수단과, 판정 수단에 의해 종료 조건이 성립하지 않는다고 판정된 것에 응답하고, 활성값 산출 수단에 의해 산출된 술어 템플릿 중, 활성값의 절대값이 임계값 이상인 술어 템플릿으로 이루어지는 새로운 시드 템플릿을 선택하고, 상기 새롭게 선택된 시드 템플릿에 의해, 시드 템플릿 기억부의 기억 내용을 갱신하기 위한 갱신 수단과 갱신 수단에 의한 갱신이 행해진 것에 응답하고, 술어 템플릿 페어 수집 수단, 명사 페어 수집 수단, 술어 템플릿 페어 수집 수단, 구축 수단 및 활성값 산출 수단에 의한 처리를 재실행시키기 위한 수단을 포함한다.

더욱 바람직하게는 구축 수단은 술어 템플릿 페어 수집 수단에 의해 수집된 술어 템플릿 페어를 이루는 술어 템플릿에 대응하는 노드가 템플릿 네트워크내에 존재하지 않을 때에는 상기 술어 템플릿에 대응하는 노드를 추가하기 위한 수단과 술어 템플릿 페어 수집 수단에 의해 수집된 술어 템플릿 페어를 이루는 술어 템플릿 사이에 링크를 생성하기 위한 링크 수단을 포함한다. 링크 수단은 각 링크에 의해 접속되는 술어 템플릿의 활성이 동일한지의 여부에 따라서, 각 링크에 활성의 일치 또는 불일치를 나타내는 속성을 부여한다. 구축 수단은 또한 링크 수단에 의해 생성되는 각 링크에, 다른 노드와의 링크 수의 함수인 가중치를 부여하기 위한 가중치 부여 수단을 포함한다. 가중치 부여 수단이 부여하는 가중치는 상기 링크의 속성이 일치를 나타내는 값일 때와 불일치를 나타내는 값일 때에 부호가 다르다.

활성값 산출 수단은 템플릿 네트워크내의 각 링크의 가중치와 각 노드에 할당되는 활성값의 함수이고, 이하의 식

단, x_i, x_j는 각각 i번째 및 j번째의 노드의 활성값,

x는 상기 템플릿 네트 워크내의 각 노드의 활성값을 요소로 하는 벡터,

W는 링크 가중치 w_ij를 요소로 하는 행렬

에 의해 정의되는 함수의 값을 최적화함으로써, 템플릿 네트워크내의 각 노드에 할당되는 활성값을 추정하기 위한 수단을 포함해도 된다. 단, 시드 템플릿 중, 극성이 활성인 것에는 플러스의 극성과 활성값이, 불활성인 것에는 마이너스의 극성과 활성값이 각각 부여된다.

본 발명의 제 2 국면에 따른 컴퓨터가 실행가능한 컴퓨터 프로그램은 상기 컴퓨터를 상기한 어느 하나의 술어 템플릿 수집 장치로서 기능시킨다.

본 발명의 제 3 국면에 따른 특정 프레이즈 페어 수집 장치는 상기한 어느 하나의 술어 템플릿 수집 장치와 술어 템플릿 수집 장치에 의해 수집된 술어 템플릿을 기억하기 위한 술어 템플릿 기억 수단과 술어 템플릿 기억 수단에 기억된 술어 템플릿 중, 특정 활성/불활성의 술어 템플릿의 조합과 특정 종류의 접속사로 이루어지는 술어 템플릿 페어를 포함하는 프레이즈 페어를 소정의 코퍼스로부터 수집하기 위한 프레이즈 페어 수집 수단과 프레이즈 페어 수집 수단에 의해 수집된 프레이즈 페어내에서 술어 템플릿과 공기하고 있는 명사 페어와 상기 프레이즈 페어내의 술어 템플릿의 극성이 특정 조합으로 되어 있는 것을 추출함으로써 소정의 관계를 표현하는 프레이즈 페어를 선택하기 위한 프레이즈 선택 수단을 포함한다.

바람직하게는, 특정 프레이즈 페어 수집 장치는 또한, 프레이즈 선택 수단에 의해 선택된 프레이즈 페어의 각각에 대해서, 각 프레이즈 페어를 구성하는 술어 템플릿의 활성값과 상기 프레이즈 페어에 포함되는 명사 페어의 코퍼스내에서의 공기 관계와의 함수로서, 소정 관계의 강도를 나타내는 스코어를 산출하기 위한 스코어 산출 수단과 스코어 산출 수단에 의해 산출된 스코어의 순서로 프레이즈 선택 수단에 의해 선택된 프레이즈 페어를 정렬시키기 위한 수단을 포함한다.

소정 관계로서는 한쪽의 프레이즈가 다른 쪽의 프레이즈의 원인이 되는 인과 관계, 한쪽의 프레이즈와 다른 쪽의 프레이즈가 서로 모순하는 내용을 나타내는 모순 관계 또는 인과 관계로서 상기 코퍼스 중에는 존재하지 않는 가설로서의 인과 관계 가설이 있다.

도 1은 본 발명의 제 1 실시형태에 따른 모순 표현 수집 시스템의 블럭도이다.
도 2는 도 1에 나타내는 템플릿 DB 구축 장치의 보다 상세한 블럭도이다.
도 3은 템플릿 네트워크의 구성을 모식적으로 나타낸 도면이다.
도 4는 템플릿 네트워크 구축부를 실현하는 프로그램의 제어 구조를 나타내는 플로우 차트이다.
도 5는 템플릿 네트워크의 구축에 있어서, 링크를 추가하는 처리를 실현하는 프로그램의 제어 구조를 나타내는 플로우 차트이다.
도 6은 각 템플릿의 활성값의 산출 처리를 실현하는 프로그램의 제어 구조를 나타내는 플로우 차트이다.
도 7은 모순 표현 획득 처리를 실현하는 프로그램의 제어 구조를 나타내는 플로우 차트이다.
도 8은 도 7에 제어 구조를 나타내는 프로그램 중, 프레이즈군의 생성 처리를 실현하는 프로그램 부분의 제어 구조를 나타내는 플로우 차트이다.
도 9는 도 7에 제어 구조를 나타내는 프로그램의 중, 모순 프레이즈 페어를 선택하는 처리를 실현하는 프로그램 부분의 제어 구조를 나타내는 플로우 차트이다.
도 10은 도 7에 제어 구조를 나타내는 프로그램 중, 모순 프레이즈 페어의 랭킹을 행하는 프로그램의 제어 구조를 나타내는 플로우 차트이다.
도 11은 본 발명의 제 2 실시형태에 있어서, 인과 관계를 획득하는 기능을 실현하기 위한 프로그램의 제어 구조를 나타내는 플로우 차트이다.
도 12는 인과 관계 데이터베이스의 내용에 의해 추론 시스템의 결론이 다른 예를 설명하기 위한 모식도이다.
도 13은 본 발명의 제 3 실시형태에 있어서, 각종 명사 페어로부터 인과 관계 가설을 생성하는 기능을 실현하는 프로그램의 제어 구조를 나타내는 플로우 차트이다.
도 14는 본 발명의 제 3 실시형태에 있어서, 인과 관계 페어와 모순 페어에 기초하여 새로운 인과 관계 가설을 생성하는 기능을 실현하는 프로그램의 제어 구조를 나타내는 플로우 차트이다.
도 15는 본 발명의 실시형태에 따른 질문 응답 시스템을 실현하기 위한 컴퓨터의 외관을 나타내는 모식도이다.
도 16은 도 15에 나타내는 컴퓨터의 하드웨어 구성을 설명하는 블럭도이다.

이하의 설명 및 도면에서는 동일한 부품에는 동일한 참조 번호를 붙이고 있다. 따라서, 그들에 관한 상세한 설명은 반복하지 않는다. 또한, 이하의 기재에서는 명사와 동사(또는 형용사, 형용 동사 등의 술어)가 조사를 통하여 결부된 것을 「프레이즈」라고 부른다. 또한, 프레이즈내의 조사와 술어의 조합(예: <을 먹는다>)을 「술어 템플릿」이라고 부른다.

이하의 설명에서는 최초로 본 실시형태에서 사용되는 기본 개념을 나타낸다. 또한, 그들을 이용하여 어떻게 해서 모순 표현 또는 인과 관계 표현을 인식할 수 있는지를 설명한다. 최후에, 구체적인 실시형태에 관하여 설명한다.

[기본 개념]

《템플릿》

이미 설명한 바와 같이, 1개의 명사와 1개의 동사, 형용사 또는 형용동사를 조사를 통하여 결부시킨 것을 「술어 템플릿」이라고 부른다. 본 실시형태에서는 술어 템플릿은 활성, 불활성, 중립 중 어느 하나로 분류된다.

《분류 라벨》

이하에서는, 술어 템플릿의 분류 라벨에 관하여 설명한다. 다음에 그 분류가 지닌 언어학적 성질을 설명한다. 또한, 분류의 자동 획득 방법에 대해서 설명한다. 최후에, 분류된 술어 템플릿의 어플리케이션에 대해서 설명한다.

(1) 술어 템플릿의 분류/극성

본 실시형태에서는 전체 시스템의 입력이 되는 텍스트에 나타나는 술어 템플릿을 이하의 표 1에 나타내는 3종으로 분류한다.

분류	설명
<활성>	명사가 가르키는 대상이 지닌 기능, 효과 등을 발휘시키거나 증대시키는 방향의 사건을 기술하는 술어 템플릿
<활성>	예 : (펜)으로 쓰다, (석유)를 수입하다, (석유)로 만들다. (주가)가 상승하다. (담배)를 피우다, (백신)을 주사하다 등
<불활성>	대상이 지닌 기능, 효과 등을 발휘시키지 않는 방향의 사건을 기술하는 술어 템플릿
<불활성>	예 : (펜)을 버리다, (암)을 치료하다, (석유)를 수입 금지하다, (주가)가 하락하다, (담배)를 끊다, (백신)을 처방하지 않다 등
<중립>	상기 2개 중 어느 하나도 아닌 술어 템플릿
<중립>	예 : (고향)을 생각하다, (주가)를 고려하다, (방법)을 검토하다

본 실시형태에서는 이상의 분류는 텍스트로부터 자동적으로 계산된다. 그 때, 활성 템플릿에는 정의 활성값을, 불활성 템플릿에는 부의 활성값을 각각 할당한다. 활성값의 구체적인 계산법에 관해서는 후술한다. 중립 동사란, 계산의 결과 얻어진 활성값의 절대값이 어떠한 임계값 이하인 것을 말한다. 본 명세서에서는 상술의 「활성」, 「불활성」 및 「중립」에 관한 분류와 각 템플릿에 부여된 활성값의 양자를 총칭해서 술어 템플릿의 「극성」이라고 부른다. 이하의 표 2에 예를 열거한다.

템플릿	활성값
…로 쓰다	+0.8
…를 피우다	+0.9
를 중지하다	-0.6
를 생각하다	+0.00003

부정의 조동사 「않는다」등이 술어에 이어지는 경우에는 술어와 부정의 조동사를 조합시킨 것을 1개의 술어라고 생각하고, 그 활성값으로서 원래 술어의 활성값의 정부를 역전시킨 것을 사용한다. 이하의 표 3에 예를 열거한다.

템플릿	활성값
…로 쓰지 않는다	-0.8
…를 피우지 않는다	-0.9
를 중지하지 않는다	+0.6
를 생각하지 않는다	-0.00003

(2) 술어 템플릿으로의 극성의 할당

술어 템플릿으로의 극성의 할당은 자동적으로 계산된다. 우선, 극성 할당의 단서로서 이하와 같은 언어학적 성질, 제약을 생각한다. 우선, 명사의 페어를 생각하고, 페어를 이루는 명사간의 인과 관계라고 하는 개념을 도입한다.

인과 관계를 지닌 명사의 페어에는 이하의 표 4에 나타내는 2종류의 관계가 있다.

관계명	예
정의 인과관계	예 : <지진, 쓰나미> 한쪽의 명사가 가르키는 대상이 다른 쪽의 대상의 출현을 촉진한다.
부의 인과관계	예 : <항암제, 암> 한쪽의 명사가 가르키는 대상이 다른 쪽의 대상의 출현을 억제한다

이들 명사의 페어와 술어 템플릿의 활성값의 곱의 극성(부호)과의 사이에는 이하와 같은 관계가 있다. 즉, (1) 순접의 접속사(∼므로, ∼ 때문에, ∼해서 등)로 연결된 2개의 술어 템플릿의 활성값의 곱의 극성은 정의 인과 관계를 지닌 명사구가 2개의 술어 템플릿과 의존 관계를 가질 경우에는 정이 된다. (2) 반대로, 순접의 접속사로 연결된 2개의 술어 템플릿과 부의 인과 관계를 갖는 명사구가 의존 관계를 지니고 있을 경우에는 술어 템플릿의 활성값의 곱의 극성은 부가 된다. (3) 역설의 접속사(∼지만, ∼에도 불구하고 등)로 2개의 동사가 연결된 경우에는 2개의 술어 템플릿의 활성값의 곱의 극성은 (1), (2)와 반대가 된다.

이들 관계에 대해서 예를 들면 이하의 표 5와 같다. 또한, 명사의 페어<지진, 쓰나미>는 정의 인과 관계, <항암제, 암>은 부의 인과 관계를 각각 갖는다.

명사 페어의 예	예문	활성값의 곱
<지진, 쓰나미>	(지진)이 일어나서(활성값 정) (쓰나미)가 덮치다(활성값 정)	정
<항암제, 암>	(항암제)가 주사되어(활성값 정) (암)을 치료하다(활성값 부)	부
<지진, 쓰나미>	(지진)이 일어남(활성값 정)에도 불구하고 (쓰나미)가 덮치지 않았다(활성값 부)	부
<항암제, 암>	(항암제)를 주사했지(활성값 정)만 (암)은 치료되지 않았다(활성값 정)	정

또한, 동의/함의의 관계를 갖는 술어 템플릿의 세트는 같은 극성을 갖는다. 예를 들면 「(백신)을 처방하다」와 「(백신)을 주사하다」는 양쪽 모두 극성은 정이고, 「(지진)이 발생하다」와 「(지진)이 일어나다」에 관해서도 극성은 양쪽 모두 정이다. 단, 활성값이 동일하다고는 할 수 없다.

구체적인 활성값의 계산에 있어서는 이상에서 예시한 바와 같은 텍스트, 즉, 각각 명사와 결부되고, 또한 서로 순접 또는 역설의 접속사로 연결된 2개의 술어 템플릿으로 이루어지는 표현을 인터넷 상에서 대량으로 수집한다. 그들 접속사로 이어진 술어 템플릿 사이 및 동의/함의 관계를 갖는 술어 템플릿의 페어간에서 링크를 붙임으로써, 술어 템플릿의 네트워크를 제작한다. 링크에는 상술한 바와 같은 술어 템플릿의 극성이 동일한지의 여부의 정보를 속성으로서 부여한다. 이 네트워크 상의 소수의 술어 템플릿에는 미리 수작업으로 +1 또는 -1의 활성값을 부여한다. 그 네트워크 상에서, 후술하는 바와 같이 양자 역학에서의 전자 스핀의 에너지와 유사한 에너지를 정의하는 것이 가능하다. 그 에너지를 최적화(여기서는 최소화)하는 계산을 행하여 일종의 제약 해소를 행함으로써 술어 템플릿의 극성 및 명사 페어의 인과 관계의 극성을 부트스트랩적이고 또한 대국적으로 결정 및 계산할 수 있다. 이 활성값의 산출 방법에 관해서는 비특허문헌 8을 참조하고자 한다.

또한, 후술의 활성값의 할당 알고리즘은 어디까지나 일례이고, 상기 언어학적 제약을 고려한 에너지 함수에 기초해서 구체적인 활성값을 구하는 방법은 그 외에도 존재할 가능성이 있다.

(3) 이러한 분류 극성을 사용하는 것으로 이하와 같은 어플리케이션이 가능해진다.

(A) 프레이즈 간의 인과 관계의 자동 인식 방법

활성값의 곱이 정이고, 활성값의 절대값이 큰 술어 템플릿의 페어가 정의 인과 관계를 지닌 명사와 공기하고, 순접의 접속사로 연결된 경우에는 인과 관계를 나타내고 있을 가능성이 높아진다. 활성값의 곱이 부이고, 활성값의 절대값이 큰 술어 템플릿의 페어가 부의 인과 관계를 지닌 명사와 공기하고, 순접의 접속사로 연결되어 있을 경우에도 인과 관계를 나타내고 있을 가능성이 높다. 이 성질을 이용하여 인과 관계를 나타내는, 2개의 술어 템플릿 및 정부의 인과 관계를 지닌 명사 페어를 포함하는 표현을 텍스트 중에서 자동적으로 인식하고, 취득할 수 있다.

예문	설명
지진이 일어나서(활성값 정이고 절대값 대) 쓰나미가 덮친다(활성값 정이고 절대값 대)	2개의 술어 템플릿의 활성값의 곱은 정이고 「지진」, 「쓰나미」는 정의 인과 관계를 가지므로 인과 관계를 나타낸다
수요가 감소해서(활성값 부이고 절대값 대) 주가가 하강한다(활성값 부이고 절대값 대)	2개의 술어 템플릿의 활성값의 곱은 정이고 「수요」, 「주가」는 정의 인과 관계를 가지므로 인과 관계를 나타낸다
포만감을 부여해서(활성값 정이고 절대값 대) 과식을 억제한다(활성값 부이고 절대값 대)	2개의 술어 템플릿의 활성값의 곱은 부이고 「포만감」, 「과식」은 부의 인과 관계를 지니므로 인과 관계를 나타낸다
기초대사량을 증가시켜(활성값 정이고 절대값 대) 지방이 감소한다(활성값 부이고 절대값 대)	2개의 술어 템플릿의 활성값의 곱은 부이고 「기초대사량」, 「지방」은 부의 인과 관계를 지니므로 인과 관계를 나타낸다

접속사 「∼해서」는 언제나 인과 관계를 나타낸다고는 할 수 없다.「∼해서」가 인과 관계 이외의 의미를 표현하는 경우는 다수 존재한다. 예를 들면 「목욕하고, 식사를 한다」의 경우, 목욕과 식사의 사이에는, 인과 관계는 통상, 인정되지 않는다. 본 실시형태에 의해, 이러한 인과 관계가 아닌 프레이즈 페어를 잘 제외하여 인과 관계만을 높은 정밀도 취득할 수 있다.

이러한 표현의 집합 중에서, 상기 제약을 고려함으로써 프레이즈 간의 인과 관계를 높은 정확도로 획득하는 것이 가능해진다. 인과 관계가 얻어지면, 예를 들면 「지진이 일어났다」라고 하는 정보로부터, 「쓰나미가 덮칠 가능성이 있다」라는 예측이 가능하다. 이렇게 해서 취득된 인과 관계는 프레이즈 간의 의미적 관계의 자동 획득이라고 하는 매우 중요한 기술에 있어서 큰 팩터가 된다.

(B) 정보 모순의 자동 인식

극성이 반대인 술어 템플릿은 가령 양자가 동종의 명사에 부수해서 출현하는 경우, 서로 모순하고 있을 가능성이 높다. 이 성질을 이용하여 모순하는 프레이즈 페어를 자동적으로 취득할 수 있다. 구체적으로는, 공통의 명사와 아울러 출현할 확률이 높고, 극성이 반대인 술어 템플릿 페어에 공통의 명사를 끼워 넣은 프레이즈 페어를 수집한다. 이들 프레이즈 페어는 서로 모순하는 프레이즈 페어로서 자동적으로 취득할 수 있다. 이하에, 모순하는 표현의 예를 열거한다.

모순하는 프레이즈 페어

(담배)를 피우다(극성 정)↔(담배)를 끊다(극성 부)

(제품)을 사용하다(극성 정)↔(제품)을 판매 정지한다(극성 부)

이들 프레이즈 페어로부터 공통인 명사를 제거하면, 술어 템플릿의 페어가 남는다. 그들도 역시 서로 모순할 가능성이 높다. 그러한 술어 템플릿을 데이터베이스화하면, 반의에 관한 유용한 사전으로서 활용할 수 있다. 상기 예를 보면, 「…를 피우다」와 「…를 끊다」와 같이 서로 반하는 의미를 갖는 술어 템플릿 페어로서 수집할 수 있다.

(C) 프레이즈 간의 인과 관계와 모순을 조합시킨 가설 생성

상기 (A) 프레이즈 간의 인과 관계의 자동 인식과 (B) 정보의 모순의 자동 인식의 기술을 병용함으로써, 정보원이 되는 텍스트에 명시적으로 기재되지 않은 인과 관계를 자동 획득하는 것이 가능해진다. 그 방법의 개략은 이하와 같다.

우선, 정보원이 되는 텍스트로부터, 패턴에 의한 명사 간의 의미적 관계의 획득(이것에는 기존 기술을 이용할 수 있다)에 의해, 예를 들면 재료 관계를 자동적으로 획득할 수 있다. 즉, 제품 B와 재료 A간의 관계가 「A로 B를 만든다」라고 말하는 바와 같은 패턴에 의해 자동 획득될 수 있다. 이 자동 획득의 결과, 제품 「초경 공구」의 재료가 「텅스텐」이다라고 하는 정보가 취득될 수 있었다고 한다. 이어서, 이 재료 관계로 말하는 의미적 관계를 지닌 것이 확인된 명사의 페어, 즉 「초경 공구」와「텅스텐」으로 이루어지는 명사의 페어와 각각 빈번하게 공기하는 술어 템플릿에서 서로 활성값의 곱이 정이고, 또한 그 활성값의 절대값이 큰 것을 선택한다. 선택된 술어 템플릿을 각각 페어가 되는 명사와 배열한다. 그러면, 예를 들면 「텅스텐을 수입해서(활성값 정), 초경 공구를 제조하다(활성값 정)」이라고 하는 바와 같은 술어(동사)와 명사로 이루어지는 동사구간의 (넓은 의미에서의) 인과 관계를 획득할 수 있다. 여기에서의 인과 관계란 「텅스텐을 수입하다」는 것은 「초경 공구를 제조하기」위해서이다,라고 하는 것이다.

이렇게 하여 획득된 인과 관계 자체가 텍스트 중에 명시적으로 기재되지 않는 경우도 있다. 그러한 경우에는 상기한 방법으로 인과 관계에 관한 가설이 생성된 것이 된다. 또한, 이 때, 「수입한다」「제조한다」라고 한 동사 단체가 자주 한 문자내에서 함께 출현하는 등의 제약을 사용해도 된다.

이어서, 상술한 바와 같이 취득된 것도 포함시킨 술어 및 명사로 이루어지는 프레이즈 간의 인과 관계에 대하여, 술어 템플릿의 각각을 그 술어 템플릿과 모순하는 (B)의 정보 모순의 자동 인식으로 취득된 술어 템플릿으로 치환한다. 예를 들면, 「텅스텐을 수입하여 초경 공구를 제조하다」라고 하는 인과 관계를 생각한다. 이 인과 관계를 구성하는 술어 템플릿 중, 「을 수입하다」와 「이 수입 금지되다」가 모순하고, 「을 제조하다」와「을 판매 중지하다」가 모순하고 있으면, 모두 상기 (B)기술로 인식된 것으로 한다. 이렇게 원의 인과 관계에 포함되는 술어 템플릿과 각각 모순한다고 한 술어 템플릿으로 원래의 인과 관계에 포함되는 술어 템플릿을 치환한다. 이 수속에 의해, 「텅스텐이 수입 금지되었기 때문에, 초경 공구를 판매 중지하다」라고 하는 새로운 인과 관계의 가설을 생성할 수 있다.

이상과 같은 방법으로 대량의 인과 관계 및 그 가설을 취득하고, 데이터베이스로 해 둠으로써, 실제로 새로운 정보가 왔을 때에, 그 후의 가능한 상황을 추론하는 것이 가능해진다. 예를 들면, 「텅스텐이 수입 금지되었기 때문에, 초경 공구를 판매 중지하다」라고 하는 인과 관계의 가설이 데이터베이스화되어 있었다고 한다. 여기에, 「텅스텐이 수입 금지」라고 하는 뉴스 기사가 출현했다고 한다. 그러면, 상기한 데이터베이스를 검색함으로써, 「텅스텐이 수입 금지되었다」는 것의 귀결로서, 「초경 공구가 판매 중지되다」의 가능성이 있다고 하는 추론을 행할 수 있다. 즉, 해당 분야에 관한 상세한 지식을 갖고 있지 않은 비전문가에게 있어서는 미지의 가설이 자동적으로 생성될 수 있다.

이상과 같은 가설 생성은 당초의 「초경 공구를 텅스텐으로 제작하다」라고 한 단순하게 빈출하는 패턴으로 기재된 정보만으로부터 시작되는 것이다. 한편, 초경 공구와도 텅스텐과도 관계를 지니지 않는 텍스트로부터 술어 템플릿의 활성/불활성에 관한 정보를 추출한다. 이들을 조합시킴으로써, 인과 관계의 가설이 생성된다. 즉, 입력되는 텍스트 중에 초경 공구 및 텅스텐에 관한 언급이 「초경 공구를 텅스텐으로 제작하다」라고 하는 표현밖에 없었다고 하여도 상술한 바와 같은 가설의 생성이 가능하게 된다. 그 결과, 매우 부족한 정보량으로부터, 「초경 공구가 제조 금지가 될 가능성이 있다」라고 하는 매우 고도한 가설을 얻을 수 있다. 따라서, 이 기술은 넓은 적용 범위가 있음과 아울러 정보의 고도한 활용을 위한 코어 기술이 된다.

(D) 동의, 함의 관계를 갖는 표현의 자동 획득의 정밀도 향상

종래의 동의, 함의 관계의 자동 획득 기술에서는, 주목하고 있는 표현의 주변에 출현하는 단어의 출현 확률 분포의 유사에 의해, 동의, 함의를 인식하고 있다. 그러나 상술한 바와 같이, 때때로 어떤 단어 A에 대한 반의의 단어 B가 단어 A와 동의 또는 함의라고 하는 관계를 가지면 오류 인식되는 케이스가 있었다. 이것은 반의어가 출현하는 콘텍스트가 유사하는 경우가 많은 것에 기인한다. 이것에 대하여 본 실시형태에 의하면, 예를 들면 「을 야기하다」의 활성값이 정, 「을 막는다」의 활성값이 부인 것을 자동적으로 계산할 수 있다. 이들 정보를 사용하면, 종래 기술을 사용함으로써 추출된 동의 표현의 후보 중에서, 술어 템플릿의 극성이 다른지의 여부에 의해 동의인지의 여부를 분별할 수 있다. 이 결과, 본 실시형태의 기술을 이용하여, 단어의 동의 및 함의의 자동 획득의 정밀도가 향상한다.

(E) 문장을 걸친 인과 관계의 자동 획득

상기한 (A) 및 (C)의 기술에 의해 다수의 인과 관계를 취득할 수 있다. 그들 다수의 인과 관계를 데이터베이스화하면, 그들 인과 관계의 표현 중에 빈출하는 술어 템플릿의 페어를 획득할 수 있다. 예를 들면, 「이 일어났다」와 「이 덮쳤다」라고 하는 술어 템플릿의 페어가 데이터베이스 중의 인과 관계에 다수 출현하는 것으로 한다. 그러한 술어 템플릿은 텍스트 중에서 문장을 걸쳐서(다른 문장 중에서) 출현한 경우에도 서로 간의 문장 수, 단어 수 또는 문자 수 등, 「거리」가 가까운 경우에는 인과 관계를 나타낼 가능성이 높다. 예를 들면 「어제, 지진이 일어났다. 쓰나미가 덮쳤다라는 보고가 올라오고 있다.」라고 하는 바와 같이, 「지진이 일어났다」라고 하는 표현과 「쓰나미가 덮쳤다」라고 하는 표현이 2문장으로 나눠져 출현한 경우를 생각한다. 이 경우에도, 「지진이 일어났다」와 「쓰나미가 덮쳤다」라는 2개의 프레이즈로 기술되는 사건 사이에는 인과 관계가 있다. 또한, 여기에 출현하고 있는 명사의 페어, 즉 「지진」과 「쓰나미 」간에도 인과 관계가 있다. 이러한 성질을 이용하고, 복수 문장에 걸쳐 기재된 인과 관계를 프레이즈 간 및 단어 간의 쌍방에 대해서, 자동적으로 취득할 수 있다.

이하, 상기한 생각에 기초하는 본 실시형태의 시스템의 구성 및 동작에 관하여 설명한다. 이하에 설명하는 실시형태 중, 제 1 실시형태는 상기한 프레이즈 페어 추출 기술을 이용하여, 프레이즈 간의 논리적 관계의 하나인 모순 표현을 자동적으로 수집하는 시스템에 관한 것이다. 제 2 실시형태는 상기한 프레이즈 페어의 추출 기술을 프레이즈 간의 논리적 관계의 다른 예인 인과 관계의 획득에 적용하는 시스템에 관한 것이다. 제 3 및 제 4 실시형태는 인과 관계의 가설을 생성하는 시스템에 관한 것이다.

<제 1 실시형태>

[구성]

도 1을 참조하여 본 발명의 제 1 실시형태에 따른 모순 표현 수집 시스템(30)은 상술한 술어 템플릿 중, 템플릿 네트워크 구축시의 핵이 되는 템플릿(이것을 「시드 템플릿」이라고 부른다)을 기억하기 위한 시드 템플릿 기억 장치(32)와 술어 템플릿 간을 연결하는 순접 및 역설의 접속사를 기억하는 접속사 기억부(34)와 시드 템플릿 기억 장치(32), 접속사 기억부(34) 및 인터넷(40) 상의 코퍼스로부터 접속사 기억부(34)에 기억된 접속사에 의해 결부된 2개의 프레이즈로 이루어지는 프레이즈 페어를 대량으로 수집하고, 그들 중에서 서로 모순한 표현(상반하는 표현)을 획득하기 위한 모순 표현 수집 장치(36)와 모순 표현 수집 장치(36)에 의해 수집된 모순 표현을 기억하기 위한 모순 표현 기억 장치(38)를 포함한다.

모순 표현 수집 장치(36)는 시드 템플릿 기억 장치(32), 접속사 기억부(34) 및 인터넷(40)에 접속되고, 인터넷(40) 상의 가상 코퍼스로부터 대량의 프레이즈 페어를 수집하고, 그들 중에서 대량의 술어 템플릿을 인출하여 템플릿 데이터베이스(DB)(62)를 구축하기 위한 템플릿 DB 구축 장치(60)와 템플릿 DB 구축 장치(60)에 의해 구축된 템플릿 DB(62)를 사용하여 인터넷(40) 상의 가상 코퍼스로부터 모순 표현을 획득하기 위한 모순 표현 획득부(64)를 포함한다. 또한, 시드 템플릿 기억 장치(32)에 기억된 템플릿에는 그들 템플릿의 활성·불활성에 따라서 미리 정 또는 부의 활성값이 부여된다. 이하에 설명하는 처리의 최초에는, 이들의 값은 각각 +1 및 -1이다.

도 2를 참조하고, 템플릿 DB 구축 장치(60)는 시드 템플릿 기억 장치(32)와 접속사 기억부(34)에 접속되고, 시드 템플릿 기억 장치(32)에 기억된 모든 템플릿과 접속사 기억부(34)에 기억된 모든 접속사를 사용하여 2개의 템플릿이 접속사로 결부된 조합의 모두를 생성하는 템플릿 페어 생성부(90)와 템플릿 페어 생성부(90)에 의해 생성된 템플릿 페어를 기억하기 위한 템플릿 페어 기억부(92)를 포함한다. 템플릿 페어 생성부(90)에 의해 생성되는 템플릿 페어의 형태의 예는 이하와 같은 것이다.

케이스	제1템플릿	접속사	제2템플릿
a.	(제1명사)를 야기하다	므로(순접)	(제2명사)를 발생시키다
b.	(제1명사)를 야기하다	때문에(순접)	(제2명사)를 막는다
c.	(제1명사)를 발생시키다	만(역접)	(제2명사)를 억제하다

템플릿 DB 구축 장치(60)는 또한, 템플릿 페어 기억부(92)에 기억된 템플릿 페어의 각각에 대해서, 그 템플릿 페어와 공기하는 명사 페어를 인터넷(40) 상에서 수집하기 위한 명사 페어 수집부(94)와 명사 페어 수집부(94)에 의해 수집된 명사 페어를 기억하기 위한 명사 페어 기억부(96)와, 명사 페어 기억부(96)에 접속되고, 명사 페어 기억부(96)에 기억된 명사 페어의 각각에 포함되는 명사간의 관계를 그들 명사와 공기하고 있는 술어 템플릿의 극성 및 접속사 기억부(34)에 기억된 접속사의 종별에 기초하여 판정하고, 각 명사 페어에 그 관계를 나타내는 태그를 부여해서 처리를 행하기 위한 명사 페어 극성 판정부(98)를 포함한다.

여기에서는, 명사 페어 극성 판정부(98)는 이하의 표 9에 나타내는 방법에 따라서 명사 페어를 구성하는 명사간의 관계를 판정한다.

표 8의 케이스	예	관계
a.에 매칭	(지진, 쓰나미)	정
b.에 매칭	(타액분비, 목마름)	부
c.에 매칭	(아세트알데히드, 간 장해)	정

즉, 2개의 술어 템플릿과 공기하고 있는 명사 페어의 관계는 다음과 같이 해서 판정할 수 있다.

(1) 2개의 술어 템플릿의 극성이 같고, 이들이 순접의 접속사로 접속되어 있으면, 이들과 공기하고 있는 명사 페어의 관계는 정

(2) 2개의 술어 템플릿의 극성이 같고, 이들이 역접의 접속사로 접속되어 있으면, 이들과 공기하고 있는 명사 페어의 관계는 부

(3) 2개의 술어 템플릿의 극성이 반대이고, 이들이 순접의 접속사로 접속되어 있으면, 이들과 공기하고 있는 명사 페어간은 부

(4) 2개의 술어 템플릿의 극성이 반대이고, 이들이 역접의 접속사로 접속되어 있으면, 이들과 공기하고 있는 명사 페어간은 정

템플릿 DB 구축 장치(60)는 또한, 명사 페어 기억부(96)에 접속되고, 명사 페어 극성 판정부(98)에 의해 관계 태그가 부여된 명사 페어의 각각에 대해서, 그들과 공기하는 템플릿 페어를 인터넷(40)으로부터 수집하기 위한 템플릿 페어 수집부(100)와 템플릿 페어 수집부(100)가 수집한 템플릿 페어를 그들과 공기한 명사 페어와 관계시켜서 기억하기 위한 템플릿 페어 기억부(102)와 템플릿 페어 기억부(102)에 기억된 템플릿 페어의 각각에 대해서, 그 템플릿 페어를 구성하는 템플릿의 활성/불활성이 동일한지의 여부(매칭하는지의 여부)를 그 템플릿 페어와 공기 하는 명사 페어의 관계(정/부)와 템플릿을 연결하고 있는 접속사가 순접인지 역접인지에 기초하여 판정하고, 각 템플릿 페어에 그 결과를 태그로서 부여하기 위한 템플릿 활성 매칭 판정부(104)를 포함한다.

템플릿 페어의 활성/불활성이 동일한지의 여부는 이하에 예를 나타내는 방법에 의해 판정할 수 있다. 또한, 표 9에 나타내는 바와 같이 명사 페어 <지진, 쓰나미>의 관계는 정, 명사 페어 <타액분비, 목마름>의 관계는 부, 명사 페어 <아세트알데히스, 간 장해>의 관계는 정이다.

제1술어 템플릿	접속사	제2술어 템플릿	매칭 판정
(지진)이 정지하다	므로(순접)	(쓰나미)를 억제하다	동일
(지진)을 일으키다	지만(역접)	(쓰나미)를 방지하다	반대
(지진)이 발생하다	지만(역접)	(쓰나미)를 억제하다	반대
(타액분비)를 촉진하다	해서(순접)	(목마름)을 억제하다	반대
(타액분비)를 억제하다	므로(순접	(목마름)이 발생하다	반대
(아세트알데히드)를 발생시키다	때문에(순접)	(간 장해)를 발증(發症)한다	동일

즉, 이하와 같은 조건으로 템플릿 페어의 활성/불활성이 동일한지 반대인지를 판정할 수 있다.

(1) 관계가 정인 명사 페어와 공기하고, 순접의 접속사에 의해 접속되는 템플릿 페어의 활성은 동일

(2) 관계가 정인 명사 페어와 공기하고, 역접의 접속사에 의해 접속되는 템플릿 페어의 활성은 반대

(3) 관계가 부인 명사 페어와 공기하고, 순접의 접속사에 의해 접속되는 템플릿 페어의 활성은 반대

(4) 관계가 부인 명사 페어와 공기하고, 역접의 접속사에 의해 접속되는 템플릿 페어의 활성은 동일

템플릿 DB 구축 장치(60)는 템플릿 페어 기억부(102)에 기억된 템플릿 페어와 그 매칭 판정 결과에 기초하고 템플릿 간에 네트워크를 구축하기 위한 템플릿 네트워크 구축부(106)와, 템플릿 네트워크 구축부(106)가 네트워크의 구축시에 템플릿 간의 링크를 추가하기 위해서 사용하는 동의·함의 관계 사전(108)을 포함한다. 이 네트워크를 본 명세서에서는 「템플릿 네트워크」라고 부른다.

도 3을 참조하고, 예를 들면 템플릿 네트워크(140)는 각각이 1개의 템플릿에 대응하는 복수개의 노드와 그들 노드 사이에 정의되는 링크를 포함한다. 링크는 표9에 의해 나타내어지는 매칭 판정이 행해진 템플릿에 대응하는 노드 사이에 제공된다. 각 링크에는 그 양단의 노드의 템플릿 사이에 대한 매칭 판정의 결과(표 9)에 따라서, 동일 극성 또는 반대 극성이라고 하는 속성이 할당된다. 도 3에 있어서, 동일 극성이 할당된 링크는 실선으로 나타내고, 반대 극성이 할당된 링크는 점선으로 나타내고 있다. 후술하는 바와 같이, 이 링크를 이용하여 각 템플릿의 활성값이 산출된다. 활성값의 산출을 위해서 템플릿 네트워크(140)의 노드 중, 시드 템플릿 기억 장치(32)에 기억된 시드 템플릿(예를 들면, 도 3의 「을 야기한다」, 「을 발생시킨다」, 「을 억제한다」등의 노드)에 대해서는 미리 +1 또는 -1의 값이 수작업에 의해 부여된다. 이들의 값과 노드 간의 링크 및 그 링크의 속성을 이용하여 각 노드(템플릿)의 활성값이 계산된다. 계산 방법의 구체적 내용에 관해서는 후술한다.

다시 도 2을 참조하고, 템플릿 DB 구축 장치(60)는 또한, 템플릿 네트워크 구축부(106)에 접속되고, 템플릿 네트워크 구축부(106)에 의해 구축된 템플릿 네트워크(140)를 기억하기 위한 템플릿 네트워크 기억부(110)와 템플릿 네트워크 기억부(110)에 기억된 템플릿 네트워크(140)의 각 노드에 대해서, 시드 템플릿에 미리 부여된 +1 또는 -1의 활성값을 기초로 하여 각 노드(템플릿)의 활성값을 산출하고, 각 노드(템플릿)에 그들 활성값을 부여하기 위한 템플릿 활성값 산출부(112)와 템플릿 네트워크 기억부(110)에 기억된 템플릿 네트워크(140)의 각 노드(템플릿) 중, 템플릿 활성값 산출부(112)에 의해 산출된 활성값의 절대값이 큰 것만을 추출하고, 추출한 템플릿에 의해 템플릿 DB(62)를 구축하기 위한 고활성도 템플릿 추출부(114)와 템플릿 DB 구축을 위해 미리 결정된 종료 조건이 성립한 것인지의 여부를 판정하기 위한 종료 판정부(116)와 종료 판정부(116)에 의해 종료 조건이 성립하지 않는다고 판정된 것에 응답하고, 템플릿 DB(62)에 기억된 템플릿을 새로운 시드 템플릿으로서 시드 템플릿 기억 장치(32)를 갱신하고, 다시 템플릿 DB 구축 장치(60)에 의한 템플릿 DB 구축의 처리를 실행시키기 위한 시드 템플릿 갱신부(118)를 포함한다. 종료 판정부(116)에 의해 종료 조건이 성립했다고 판정된 때에는 템플릿 DB 구축 장치(60)의 동작은 종료하고, 모순 표현 획득부(64)가 기동한다.

후술하는 바와 같이, 모순 표현 수집 장치(36)의 각 부는 컴퓨터 하드웨어와 상기 컴퓨터 하드웨어에 의해 실행되는 컴퓨터 프로그램에 의해 실현된다.

템플릿 페어 생성부(90)는 단순하게 시드 템플릿 기억 장치(32)에 기억된 시드 템플릿의 모든 조합과 접속사 기억부(34)에 기억된 모든 접속사를 조합시킴으로써 템플릿 페어를 생성하기 위한 것이다. 템플릿 페어의 전형예는 「(명사 1)을 야기하다」「므로」「(명사 2)를 발생시키다」와 같은 것이다.

명사 페어 수집부(94)는 이하와 같은 처리를 행한다. 상기한 템플릿 페어 + 접속사의 조합과 한 문장에서 공기하는 명사 페어를 고려할 수 있다. 그러한 명사 페어는 이하에 예시하는 바와 같이 서로 정의 관계에 있는 것과 서로 부의 관계에 있는 것으로 나눌 수 있다. 명사 페어의 정/부는 그 명사 페어와 공기하는 템플릿 페어의 활성/불활성과 접속사의 조합에 의해 결정된다.

접속사	템플릿 페어의 활성/불활성의 매칭
접속사	동일	반대
순접(예:∼므로)	정의 관계(예문 1)	부의 관계(예문 2)
역접(예:∼지만)	부의 관계(예문 3)	정의 관계(예문 4)

예문 1 : (지진)을 일으키(활성)~므로 (쓰나미)를 발생시키다(활성)

예문 2 : (타액분비)를 일으키(활성)~므로 (목마름)을 막는다(불활성)

예문 3 : (오존층)을 파괴하지(불활성)~만 (자외선)을 차단하다(불활성)

예문 4 : (아세트알데히드)를 발생시키지(활성)~만 (간 장해)를 억제하다(불활성)

템플릿 페어 수집부(100)는 이하와 같은 처리를 행한다. 상기 명사 페어 극성 판정부(98)에 의해 정의 관계로서만 인터넷(40) 상에서 출현하고 있다고 판정된 명사 페어를 고려한다. 템플릿 페어 수집부(100)는 그들 중, 출현 빈도가 소정 횟수 상의 명사 페어만을 정의 관계 명사 페어로서 남긴다. 마찬가지로, 부의 관계로서만 인터넷(40) 상에 출현하고 있는 명사 페어에 관해서도, 출현 횟수가 소정 횟수 이상인 명사 페어만을 부의 관계 명사 페어로서 남긴다. 여기에서의 임계값으로서의 소정 횟수는 정의 관계 명사 페어를 선택할 때와 부의 관계 명사 페어를 선택할 때에서 달리 있어도 되고, 일치하고 있어도 된다.

템플릿 활성 매칭 판정부(104)는 남겨진 정/부 관계의 명사 페어 + 접속사와 한 문장 중에서 공기하는 템플릿 페어를, 이하의 표 12에 기초한 판정 방법에 따르고, 템플릿의 활성/불활성이 동일한 것(일치)과 반대인 것(반대)으로 분류한다. 이 때, 어떤 템플릿 페어에 대해서, 인터넷(40) 상에서 템플릿의 활성이 일치해서 출현하거나, 반대의 활성으로 출현하고 있거나 하는 경우가 있다. 이들에 대해서는 일치하고 있는 것과 반대인 것의 출현 회수를 비교하여 다수결로 결정한다.

	정의 관계의 명사 페어	부의 관계의 명사 페어
순접(예:~므로)	일치(예문 1)	반대(예문 2)
역접(예:~지만)	반대(예문 3)	일치(예문 4)

예문 1 : (지진)이 정지되(불활성)~므로 (쓰나미)를 억제하다(불활성)

예문 2 : (타액 분비)를 억제하(불활성)~므로 (목마름)이 야기되다(활성)

예문 3 : (아세트알데히드)를 발생시키지(활성)~만 (간 장해)를 억제하다(불활성)

예문 4 : (오존층)을 유지하지(활성)~만 (자외선)이 내리쬐다(활성)

도 4를 참조하고, 도 2에 나타내는 템플릿 네트워크 구축부(106)를 실현하기 위한 프로그램은 템플릿 페어 기억부(102)에 템플릿 페어가 기억되고, 템플릿 활성 매칭 판정부(104)에 의해 각 템플릿 페어에 관한 활성 매칭 판정이 종료하면 기동된다. 이 프로그램은 메모리 상에 소정의 기억 영역을 확보하거나, 그들 기억 영역 중 소정의 변수를 위한 영역에 초기값을 대입하거나, 초기의 공(空) 템플릿 네트워크(140)를 구축하는 초기화를 행하는 스텝(150)과, 템플릿 페어 기억부(102)에 기억된 모든 템플릿 페어에 대하여, 처리(154)를 실행하는 스텝(152)을 포함한다. 처리(154)는 상기 템플릿 페어를 구성하는 템플릿과 그 사이의 링크를 템플릿 네트워크(140)에 추가하는 처리를 행하기 위한 것이다. 또한, 스텝(150)에서는 템플릿 네트워크(140)로서 공 네트워크가 미리 구축된 것으로 한다.

처리(154)는 처리 대상의 템플릿 페어에 포함되는 템플릿의 각각에 대해서, 대응하는 노드가 템플릿 네트워크(140)에 있는지의 여부, 즉 그 노드를 템플릿 네트워크(140)에 추가해야 할 것인지의 여부를 판정하는 스텝(180)과 스텝(180)의 판정이 긍정적일 때에 실행되고, 템플릿 네트워크(140)에 추가해야 한다고 판정된 노드(1개 또는 2개)를 템플릿 네트워크(140)에 추가하는 처리를 행하는 스텝(182)과 스텝(180) 및 스텝(182)의 뒤에 실행되고, 처리 대상의 템플릿 페어에 대응하는 노드간에 이미 링크가 있는지의 여부를 판정하는 스텝(184)과 스텝(184)의 판정이 부정적일 때에, 상기 링크를 템플릿 네트워크(140)에 추가하는 처리를 행해서 처리(154)를 종료하는 스텝(186)을 포함한다. 스텝(184)의 판정이 긍정적일 때에는 이 템플릿 페어에 대한 처리(154)의 실행은 종료한다.

템플릿 네트워크 구축부(106)를 실현하는 프로그램은 또한, 스텝(152)에 의한 처리의 완료 후, 구축된 템플릿 네트워크(140)에 동의·함의 관계 사전(108)을 참조함으로써 링크를 추가하는 스텝(164)과 스텝(164)의 결과 얻어진 템플릿 네트워크(140)에 있어서, 다른 노드와의 사이의 링크수가 소정의 임계값 이하인 노드를 삭제하는 스텝(166)과 각 노드가 링크하고 있는 노드의 수에 기초하여 각 링크의 가중치를 산출하고(계산 방법에 관해서는 후술한다), 각 링크에 부여해서 처리를 종료하는 스텝(168)을 포함한다.

도 5를 참조하고, 도 4의 링크의 추가 처리의 스텝(164)으로 실행되는 프로그램 부분(루틴)은 템플릿 네트워크(140)내의 노드 중, 서로 링크를 가지지 않는 노드 페어의 모두에 대하여 이하의 처리(202)를 실행하는 스텝(200)을 포함한다.

처리(202)는 처리 대상의 노드 페어 사이에, 특정 관계가 있는지의 여부를 판정하는 스텝(210)과 스텝(210)의 판정이 긍정적일 때에 처리 대상의 노드 페어 간에 「동일」이라고 하는 속성을 가지는 링크를 추가해서 처리(202)를 종료하는 스텝(212)을 포함한다. 스텝(210)의 판정이 부정적인 경우에도 처리(202)를 종료한다. 여기서 말하는 특정 관계의 유무의 판정에 있어서는 이하에 나타내는 바와 같이, 동사의 문법적 정보 및 도 2에 나타내는 동의·함의 관계 사전(108)에 저장된 단어의 동의·함의 관계가 사용된다.

관계	예
「원형-수동태」관계	「를 사용한다」-「가 사용된다」
「원형-사역태」관계	「를 사용한다」-「를 사용시킨다」
동의·함의 관계	「를 사용한다」-「를 사용한다」

스텝(168)에서는 각 링크의 가중치가 산출된다. 템플릿 i와 템플릿 j 사이의 링크에 부여되는 가중치를 w_ij라고 한다. 가중치 w_ij는 이하의 식(1)에 의해 산출된다.

단, d(i)는 템플릿 i와 링크되고 있는 템플릿의 수를 나타낸다. SAME(i, j)는 템플릿 i와 템플릿 j 사이의 링크에 「일치」속성이 부여된 것을 나타낸다. OPPOSITE(i, j)은 템플릿 i와 템플릿 j 간의 링크에 「반대」속성이 부여된 것을 나타낸다. 즉, 템플릿 i와 템플릿 j에 일치 속성이 부여되어 있으면, 가중치는 정의 값이 되고, 반대 속성이 부여되어 있으면, 가중치 부호는 역전하여 부가 된다.

도 2에 나타내는 템플릿 활성값 산출부(112)는 템플릿 네트워크 기억부(110)에 기억된 템플릿 네트워크(140)의 각 노드에 대해서, 이하에 설명하는 바와 같은 방법으로 각 노드의 활성값을 산출한다. 도 6을 참조하고, 템플릿 활성값 산출부(112)를 실현하는 컴퓨터 프로그램은 템플릿 네트워크 기억부(110)에 템플릿 네트워크(140)가 기억되고, 각 링크에 각각 가중치가 부여된 것에 응답해서 실행을 개시한다. 이 프로그램은 템플릿 네트워크(140)내의 노드 중, 시드 템플릿에 대응하는 노드에 그들 시드 템플릿에 대하여 미리 부여되어 있었던 활성값(활성 시드 템플릿에는 +1, 불활성 시드 템플릿에는 -1)을 설정하고, 다른 노드에는 소정의 초기값을 설정하는 스텝(240)과, 스텝(240) 후에 이하의 식에 의해 정의되는 값 E(x, W)의 값을 최적화(여기서는 극소화)함으로써 각 노드의 활성값을 추정하는 스텝(242)을 포함한다.

단, xi 및 xj는 각각 템플릿 i, j의 부호 부여의 활성값, x는 그들 활성값으로 이루어지는 벡터, W는 링크의 가중치 wij으로 이루어지는 행렬을 각각 나타낸다. 이 값(E)은 마치 양자역학에 있어서의 전자 스핀의 에너지의 계산식과 유사하며, 양자역학에 있어서의 에너지의 최소화 계산과 동일하게 행할 수 있다. 이 식의 시그마 내의 각 항 중, x_ix_j의 값은 에너지 최소화 계산 후, x_i 및 x_j의 극성이 같을 때에는 정의 값, 다를 때에는 부의 값이 되는 경향이 있다. 가중치 w_ij의 부호는 상술한 바와 같이, x_i 및 x_j의 극성이 같을 때에는 정의 값, 다를 때에는 부의 값이 된다. 따라서 시그마 중의 각 항의 값은 반드시 정의 값이 되는 경향이 있고, 이것을 최대화함으로써 일종의 제약 해소가 행해진다. 또한, 식(2)에 있어서, 시그마의 앞에 계수 「-1/2」가 있기 때문에, 시그마 내의 값을 최대화함으로써 E(x, W)의 값이 최소화된다.

한편, 도 1의 모순 표현 획득부(64)도 컴퓨터 프로그램에 의해 실현된다. 도 7을 참조하고, 모순 표현 획득부(64)를 실현하기 위한 컴퓨터 프로그램은 프레이즈군을 생성하는 스텝(280)과 스텝(280)으로 생성된 프레이즈군 중에서, 서로 모순하는(상반하는 의미를 가짐) 표현이라 생각되는 2개의 프레이즈로 이루어지는 모순 프레이즈 페어를 선택하는 스텝(282)과 스텝(282)으로 선택된 모순 프레이즈 페어에 대해서, 소정의 스코어를 이용하여 랭킹해서 출력하는 스텝(284)을 포함한다.

여기서 말하는 모순 페어란 이하의 조건을 충족하는 프레이즈 페어를 말한다.

(1) 양쪽 프레이즈 모두 1개의 명사와 1개의 활성 또는 불활성 템플릿으로 이루어진다. 예를 들면, 「(감기)에 걸리다」와 「(감기)를 예방하다」와 같은 것이다.

(2) 양쪽 프레이즈에 포함되는 2개의 명사는 서로 동의(또는 동일)이다. 예를 들면, <감기, 코감기> 또는 <감기, 감기>와 같은 조합이다.

(3) 양쪽 프레이즈에 포함되는 2개의 템플릿은 한쪽이 활성이고 다른 쪽이 불활성이다. 예를 들면 「에 걸리다」(활성)와 「을 예방하다」(불활성)이라고 하는 페어이다.

(4) 2개의 템플릿은 인터넷 상에서 공기하는(의존 관계를 연결함) 명사를 많이 공유한다. 즉, 이들 2개의 템플릿은 분포 유사도가 높다. 예를 들면, 「에 걸리다」와 공기하는 명사로서 감기, 코감기, 폐렴, … 등이 생각되는 것에 대해, 「을 예방하다」와 공기하는 명사로서는 감기, 코감기, 폐렴, 화재, 재해 등이 생각되어, 양자 간의 분포 유사도는 높다.

(5) 각 프레이즈는 인터넷 상에서 소정의 임계값 이상의 출현 빈도를 갖는다. 즉, 각 프레이즈의 명사와 템플릿은 이 임계값 이상의 빈도로 종속 관계를 연결한다. 예를 들면 「(감기)에 걸리다」의 출현 빈도 ≥ 임계값 및 「(감기)를 예방하다」의 출현 빈도 ≥ 임계값이 함께 성립할 필요가 있다.

이상의 처리를 실행해서 모순 페어를 추출하기 위한 처리는 도 7의 스텝(280)으로 실행된다. 도 8을 참조하고, 이 프로그램 부분(280)은 인터넷(40)으로부터 명사를 취득하는 스텝(320)과 취득된 명사 모두에 대하여, 이하의 처리(324)를 실행하는 스텝(322)을 포함한다. 처리(324)는 처리 대상의 명사에 대해서, 이하의 처리(362)를 템플릿 DB(62)에 기억된 모든 템플릿에 대하여 실행하는 스텝(360)을 포함한다.

처리(362)는 처리 대상의 명사에, 처리 대상의 템플릿을 결부시킴으로써 어떤 프레이즈를 생성하는 스텝(400)과 그 프레이즈의 인터넷(40) 상에서의 출현 빈도가 상기한 임계값 이상인지 여부를 판정하는 스텝(402)과 스텝(402)의 판정이 긍정적일 때에, 그 프레이즈를 프레이즈군에 추가해서 처리(362)를 종료하는 스텝(404)을 포함한다. 스텝(402)의 판정이 부정적인 경우에는 그 프레이즈는 프레이즈군에는 추가하지 않는다.

도 8에 나타내는 프로그램을 실행함으로써, 활성 프레이즈 및 불활성 프레이즈가 다수 생성된다. 예를 들면, 활성 템플릿으로서 「을 야기하다」 및 「에 걸리다」가 있고, 불활성 템플릿으로서 「을 막는다」 및 「을 예방하다」가 있는 것으로 한다. 인터넷(40)으로부터 얻은 명사의 예로서 「지진」, 「쓰나미」, 「감기」, 「코감기」등이 있다고 하면, 출현 빈도가 높은 활성 프레이즈 및 불활성 프레이즈로서 이하와 같은 것이 생성될 것이다. 이들이 프레이즈군에 추가되어 도 7의 스텝(282)으로의 입력이 된다.

활성 프레이즈의 예	불활성 프레이즈의 예
지진을 일으키다	지진을 막는다
쓰나미를 일으키다	코감기를 막는다
감기에 걸리다	감기를 예방하다

도 7의 스텝(282)을 실현하는 프로그램 부분은 도 9에 나타내는 바와 같은 제어 구조를 가진다. 도 9를 참조하고, 이 프로그램 부분은 미리 모순 프레이즈 페어를 저장하는 영역으로서 기억 장치 내에 확보하고 있었던 영역을 클리어하는 스텝(440)과, 스텝(280)에서 얻어진 프레이즈군 중, 모든 활성 프레이즈에 대해서 이하의 처리(444)를 행하는 스텝(442)을 포함한다.

처리(444)는 모든 불활성 프레이즈에 대하여, 이하의 처리(472)를 실행하는 스텝(470)을 포함한다.

처리(472)는 처리 대상의 활성 프레이즈 및 불활성 프레이즈에 대해서, 양자에 포함되는 명사가 동일인지의 여부를 판정하는 스텝(490)과 스텝(490)의 판정이 부정적일 때에 활성 프레이즈에 포함되는 명사와 동의인 단어를 예를 들면, 도 2에 나타내는 동의·함의 관계 사전(108)과 동종의 사전으로부터 검색하는 스텝(498)과 스텝(498)으로 검색된 단어 중 어느 하나가 불활성 프레이즈의 명사와 일치하고 있는지의 여부를 판정하는 스텝(500)을 포함한다. 스텝(500)의 판정이 부정적일 때에는 처리(472)의 실행은 종료한다.

스텝(490)의 판정이 긍정적일 때, 및 스텝(500)의 판정이 긍정적일 때에는 제어는 스텝(492)로 진행된다. 스텝(492)은 처리 대상의 활성 프레이즈와 불활성 프레이즈의 분포 유사도가 임계값 보다 큰지의 여부를 판정한다. 스텝(492)의 판정이 긍정적이면 제어는 스텝(494)로 진행된다. 스텝(494)에서는 각 프레이즈의 인터넷(40) 상에서의 출현 빈도가 소정의 임계값 이상인지의 여부를 판정한다. 판정이 긍정적이면 처리 대상의 활성 프레이즈와 불활성 프레이즈의 페어를 모순 프레이즈 페어군에 추가하고(스텝 496), 그렇지 않으면 이 페어는 폐기한다.

도 7의 스텝(284)으로 실행되는 랭킹을 실현하는 프로그램 부분은 본 실시형태에서는 도 10에 나타내는 바와 같은 제어 구조를 갖는다. 도 10을 참조하고, 이 프로그램은 도 7의 스텝(282)에 의해 선택된 모든 모순 프레이즈 페어에 대하여, 그 모순 프레이즈 페어의 모순 정도를 나타내는 스코어를 산출하는 스텝(532)을 행하는 스텝(530)과 스텝(530)의 처리가 모든 모순 프레이즈 페어에 대하여 완료된 후, 모든 모순 프레이즈 페어를 스코어의 내림차순으로 소팅해서 출력하고, 처리를 종료하는 스텝(534)을 포함한다.

스텝(532)으로 계산되는 스코어는 본 실시형태에서는 이하의 식으로 산출되는 스코어 C_t(p₁,p₂)이다.

단, p₁ 및 p₂는 각각 모순 페어를 구성하는 프레이즈를 나타내고, t₁ 및 t₂는 각각 p₁ 및 p₂에 포함되는 템플릿, s₁ 및 s₂는 각각 템플릿 t₁ 및 t₂의 활성값, 기호|s₁|은 활성값 s₁의 절대값, sim(t₁, t₂)은 템플릿 t₁과 t₂의 분포 유사도를 각각 나타낸다.

[동작]

이 제 1 실시형태에 따른 모순 표현 수집 시스템(30)은 이하와 같이 동작한다. 도 1을 참조하고, 시드 템플릿 기억 장치(32)에는 미리 소수의 시드 템플릿이 저장된다. 각 시드 템플릿이 활성인지의 여부에 관해서도 미리 판단되고 있고, 각 템플릿에 그 태그가 부여된다. 한편, 접속사 기억부(34)에는 일본어의 순접 접속사 및 역접 접속사가 저장된다. 이들에 관해서도 미리 순접인지 역접인지를 나타내는 정보를 부여해 둔다.

템플릿 DB 구축 장치(60)는 이하와 같이 동작해서 템플릿 DB(62)를 구축한다. 도 2를 참조하고, 템플릿 페어 생성부(90)는 시드 템플릿 기억 장치(32)에 기억된 모든 시드 템플릿의 모든 조합과 접속사 기억부(34)에 기억된 접속사의 가능한 조합을 모두 생성하고, 이들을 모두 템플릿 페어로서 템플릿 페어 기억부(92)에 기억시킨다. 명사 페어 수집부(94)는 템플릿 페어 기억부(92)에 기억된 템플릿 페어의 각각에 대해서, 그 템플릿 페어와 공기하는 명사 페어를 인터넷(40)으로부터 수집하고, 명사 페어 기억부(96)에 기억시킨다. 명사 페어 극성 판정부(98)는 이들 명사 페어의 각각에 대해서, 그 명사 페어와 공기하는 템플릿 페어내의 템플릿의 활성/불활성과 템플릿 페어를 결부시키는 접속사의 종류에 따라서, 그 명사 페어가 정의 관계인지 부의 관계인지를 판정하고, 각 명사 페어에 태그를 부여한다.

계속해서, 템플릿 페어 수집부(100)가 각 명사 페어에 대해서, 인터넷(40)으로부터 그 명사 페어와 공기하는 템플릿 페어를 수집하고, 템플릿 페어 기억부(102)에 저장한다. 이들 템플릿 페어의 각각에 대해서, 템플릿 활성 매칭 판정부(104)가 공기하는 명사 페어의 정/부와 접속사의 종류(순접, 역접)에 따라서, 템플릿 페어를 구성하는 템플릿의 활성/불활성이 서로 동일한지, 반대인지를 결정한다. 이 때, 어떤 템플릿 페어에 대해서, 그들의 활성이 동일로 되는 것과 반대로 되는 것이 존재하는 경우에는 동일의 것과 반대의 것을 출현 횟수를 비교하고, 다수결에 의해 일치인지 반대인지를 결정한다. 템플릿 활성 매칭 판정부(104)는 템플릿 페어 기억부(102)에 기억된 템플릿 페어의 각각에 대해서, 그들의 활성/불활성이 동일한지 반대인지를 나타내는 태그를 부여한다.

템플릿 네트워크 구축부(106)는 템플릿 페어 기억부(102)에 기억된 템플릿 페어에 기초하여 템플릿 네트워크(140)를 구축한다. 템플릿 네트워크 구축부(106)는 템플릿 페어를 구성하는 2개의 템플릿에 대응하는 노드가 만일 네트워크에 없으면 네트워크에 추가하고, 그 링크도 없으면 추가한다. 이 처리를 모든 템플릿 페어에 대해서 실행함으로써 템플릿 네트워크(140)의 원형을 구축한다. 템플릿 네트워크 구축부(106)는 또한 네트워크내에서 서로 링크되지 않는 노드의 페어 모두에 대해서, 동의·함의 관계 사전(108)을 참조하고, 그들 노드에 대응하는 템플릿 간에 표 13에 나타내는 바와 같은 특정의 관계가 있는지의 여부를 판정하고, 있으면 서간에 「동일」이라고 하는 링크를 제공한다. 또한, 템플릿 네트워크 구축부(106)는 이렇게 하여 구축된 네트워크의 각 링크에 대하여, 식(1)에 의해 산출되는 가중치를 부여한다. 이렇게 하여 링크가 추가된 템플릿 네트워크(140)는 템플릿 네트워크 기억부(110)에 기억된다.

템플릿 활성값 산출부(112)는 도 6에 나타내는 처리를 실행한다. 즉, 최초에 시드 템플릿에 그 활성/불활성에 따라서 +1 또는 -1의 활성값을 부여한다(스텝(240)). 또한, 전자 스핀의 에너지와 유사한 양으로서 정의된 값 E(x, W)을 최소화하는 처리를 실행함으로써(스텝(242)), 각 템플릿의 활성값을 추정하고, 각 템플릿에 그 활성값을 부여한다. 이들 활성값의 값에는, 부의 것도 있고 정의 것도 있다. 고활성도 템플릿 추출부(114)는 이렇게 하여 활성값이 추정된 템플릿 중 활성값의 절대값이 소정의 임계값보다 큰 것을 선택하고, 그들 템플릿을 이용하여 템플릿 DB(62)를 구축한다. 또한, 여기에서는 임계값에 의해 선택하는 것은 아니고, 활성값의 값의 크기에 따라서 순위를 매기도록 하여도 된다.

도 2에 나타내는 종료 판정부(116)는 템플릿 DB(62)가 구축된 시점에서, 소정의 종료 조건이 충족되는지의 여부를 판정한다. 종료 조건으로서는 예를 들면, 반복수가 소정수를 초과하거나 또는 템플릿수가 소정수를 초과하였다고 하는 바와 같은 조건을 상정할 수 있다. 만일 종료 조건이 성립하고 있으면, 템플릿 DB(62)가 완성된 것으로 한다. 만일 종료 조건이 성립하지 않고 있으면, 시드 템플릿 갱신부(118)는 템플릿 DB(62)에 포함되는 템플릿을 시드 템플릿하고, 시드 템플릿 기억 장치(32)를 갱신한다. 이들 시드 템플릿에는 이상의 처리에 의해 계산된 활성값이 부여되어 있으므로, 이후의 처리에서는 이들의 활성값을 사용해서 지금까지 기재한 것과 동일한 처리를 실행한다.

이상의 처리를 반복하고, 종료 조건이 충족된 경우에서 템플릿 DB(62)가 완성되게 된다. 이후, 모순 표현 획득부(64)가 이 템플릿 DB(62)를 사용하여 인터넷(40)으로부터 모순 표현을 획득하는 처리를 실행한다.

구체적으로는 모순 표현 획득부(64)는 도 7에 나타내는 바와 같이 프레이즈군의 생성을 행한다. 즉, 도 8에 나타내는 바와 같이 인터넷(40)으로부터 명사를 취득하고(스텝(320)), 각 명사와 템플릿 DB(62) 중의 각 템플릿과의 조합 모두에 대하여(스텝(322), 처리(324), 스텝(360)), 그 명사와 그 템플릿으로 이루어지는 프레이즈를 생성한다(스텝(400)). 그 프레이즈의 인터넷(40) 상에 있어서의 출현 빈도가 미리 정해진 값 이상이면, 그 프레이즈를 이하의 처리에서 사용하는 프레이즈군에 추가하고, 그렇지 않으면 그 프레이즈를 폐기한다. 이상의 처리를 모든 명사와 모든 템플릿의 조합에 대하여 실행함으로써 인터넷(40)상인 빈도로 출현하는 프레이즈를 얻을 수 있다.

다음에 모순 표현 획득부(64)는 이렇게 하여 생성된 프레이즈군 중에서 이하와 같이 해서 모순 프레이즈 페어를 선택한다. 즉, 최초에 모순 프레이즈 페어의 저장 영역을 클리어하고(도 9의 스텝(440)), 프레이즈군에 포함되는 모든 활성 프레이즈와 모든 불활성 프레이즈의 모든 조합에 대하여(스텝(442), 처리(444), 스텝(470)), 양자에 포함되는 명사가 동일 또는 동의인지(스텝(490), 스텝(498), 스텝(500))을 조사한다. 양자의 명사가 동일 또는 동의인 경우, 또한 그 프레이즈 페어에 포함되는 템플릿 페어의 분포 유사도가 임계값보다 큰지의 여부를 조사한다. 판정이 부정적이면 그 프레이즈 페어는 폐기한다. 판정이 긍정적이면, 다음에 스텝(494)에서 그 프레이즈 페어의 인터넷(40)상에서의 출현 빈도가 모두 임계값 이상인지의 여부를 조사한다. 판정이 부정적이라면 그 프레이즈 페어는 폐기한다. 판정이 긍정적이다면 이 프레이즈 페어를 모순 프레이즈 페어군에 추가한다(스텝(496)).

모순 표현 획득부(64)는 이상의 처리를 모든 활성 프레이즈와 불활성 프레이즈의 조합으로 이루어지는 프레이즈 페어에 대해서 반복해서 행한다. 그 결과, 대량의 모순 프레이즈 페어군을 자동적으로 얻을 수 있다.

또한, 이렇게 하여 얻어진 모순 프레이즈 페어의 모두에 대해서, 도 10의 스텝(532)에 의해 나타내는 바와 같이 모순 정밀도의 스코어를 산출한다. 이 스코어를 사용하여 모순 프레이즈 페어를 스코어의 내림차순으로 소팅해서 출력한다.

이상의 처리에 의해, 대량의 모순 프레이즈 페어를 자동적으로 얻을 수 있다. 수작업의 범위는 최초의 시드 템플릿의 설정과, 그들의 활성을 판단해서 활성값을 설정하는 정도가 된다. 그 이외의 리소스는 모두 기존의 것을 사용할 수 있다. 또한, 최종적으로 모순 프레이즈 페어를 스코어의 내림차순으로 소팅함으로써, 모순 표현으로서 신뢰성이 높은 것으로부터 순서대로 모순 표현을 선택할 수 있다.

<제 2 실시형태>

상기한 제 1 실시형태의 모순 표현 수집 시스템(30)의 중 템플릿 DB 구축 장치(60)에 의해 템플릿 DB(62)를 얻을 수 있다. 이 템플릿 DB(62)는 제 1 실시형태와 같은 모순 표현의 획득뿐만 아니라, 여러가지 처리에 사용할 수 있다. 제 2 실시형태는 템플릿 DB(62)을 인과 관계의 취득에 사용하는 예이다. 이 제 2 실시형태는 도 1의 모순 표현 획득부(64) 대신에, 인터넷(40)으로부터 인과 관계 표현을 획득하기 위한 처리부를 채용함으로써 실현할 수 있다. 그러한 처리부는 컴퓨터 프로그램에 의해 실현할 수 있다.

도 11을 참조하고, 인과 관계의 획득 처리는 이하와 같이 해서 행할 수 있다. 우선, 스텝(570)에 있어서, 한 문장 중에 서로 순접 접속사로 접속된 형태로 인터넷(40) 상의 가상 코퍼스내에서 공기하고 있는 프레이즈 페어와 그 프레이즈 페어 중의 명사로 이루어지는 명사 페어를 인터넷(40)으로부터 수집한다.

이어서, 이렇게 하여 얻어진 모든 프레이즈 페어에 대하여, 이하의 처리(574)를 실행한다(스텝(572)). 즉, 처리(574)에서는 처리 대상의 프레이즈 페어내의 명사 페어의 관계가 정의 관계인지 아닌지를 판정한다. 판정이 긍정적인 경우에는 또한, 템플릿 페어의 활성/불활성이 동일한지 반대인지를 판정한다(스텝(592)). 스텝(592)의 판정이 부정적이라면 이 명사의 페어는 폐기한다. 스텝(592)의 판정이 긍정적이라면 이 프레이즈 페어를 인과 관계 페어군에 추가한다 (스텝(594)).

한편, 스텝(590)의 판정이 부정적이라면, 스텝(596)으로 템플릿 페어의 활성/불활성이 서로 반대인지 아닌지를 판정한다. 판정이 부정적이라면 이 프레이즈 페어는 폐기한다. 판정이 긍정적이라면 이 프레이즈 페어를 인과 관계 페어군에 추가한다.

이상의 처리가 모든 프레이즈 페어에 대하여 종료하면, 결과로서 얻어진 인과 관계 페어군내의 모든 인과 관계 프레이즈 페어에 대하여 스텝(578)의 처리를 실행한다(스텝(576)). 스텝(578)으로 각 인과 관계 프레이즈 페어에 대하여 행해지는 처리는 인과 관계의 강도를 나타내는 스코어 C_s(p₁, p₂)를 이하의 식에 의해 산출하는 처리이다.

단, p₁, p₂는 각각 인과 관계 페어를 구성하는 프레이즈, s₁ 및 s₂는 각각 프레이즈 p₁, p₂를 구성하는 템플릿의 활성값, 기호 |s₁|은 활성값 s₁의 절대값, n₁, n₂는 각각 프레이즈 p₁, p₂에 포함되는 명사, npfreq(n₁, n₂)는 n₁, n₂가 정의 관계라면, n₁, n₂가 활성/불활성이 같은 템플릿 페어와 한 문장 중에서 공기하는 빈도, n₁, n₂가 부의 관계라면, n₁, n₂가 활성/불활성이 다른 템플릿 페어와 한 문장 중에서 공기하는 빈도를 각각 나타낸다.

이렇게 하여 모든 인과 관계 프레이즈 페어에 대하여 인과 관계의 강도를 나타내는 스코어를 산출한 후, 스텝(580)로 인과 관계 프레이즈 페어를 스코어의 내림차순으로 소팅하고, 출력한다.

이러한 처리를 실행함으로써, 인과 관계를 나타내는 프레이즈의 페어를 대량으로 또한 자동적으로 인터넷(40)으로부터 수집할 수 있다.

또한, 인과 관계 취득 방법은 이것에는 한정되지 않는다. 예를 들면 다음의 조건을 모두 충족시키는 프레이즈 페어를 인과 관계 페어로서 획득하여도 된다.

(1) 양 프레이즈 모두 1개의 명사와 1개의 활성/불활성 프레이즈로 이루어진다.

예를 들면, 「(지진)을 일으키다」와 「(쓰나미)가 발생하다」와 같은 프레이즈 페어이다.

(2) 양 프레이즈는 순접 접속사, 예를 들면 「∼해서」로 연결되는 형태이고, 한 문장 중에서 공기하고 있다. 예를 들면 「단층이 지진을 일으켜서 쓰나미가 발생했다」과 같은 페어.

구체적으로는, 인터넷(40)으로부터 순접 접속사와 함께 한 문장에서 공기하고 있는 템플릿 페어와 그 한 문장에서 공기하고 있는 명사 페어를 취득한다. 이들이 인과 관계 페어의 원형이라 생각된다.

이렇게 해서 얻어진 인과 관계 프레이즈 페어에 대해서, 예를 들면 이하의 식(5)에 의해 인과 관계 강도 스코어를 산출한다. 그리고 모든 인과 관계 프레이즈 페어를 인과 관계 강도 스코어의 내림차순으로 소팅해서 출력한다.

상기한 제 2 실시형태에 있어서의 스코어 산출에 식(4)가 아닌 식(5)를 사용하도록 해도 된다.

<제 3 실시형태>

제 2 실시형태에서는 인터넷(40) 상에 존재하는 기재에 대해서, 인과 관계를 기재하고 있다고 생각되는 인과 관계를 추출하고 있다. 그러나, 세상에는 인과 관계로 볼 수 없는 것은 무수하게 존재하고 있다. 제 2 실시형태의 방법에서는 그들 중에서 실제로 인터넷(40) 상에 문장으로서 기재된 것, 즉 인간의 표현 활동에 의해 근거가 부여된다고 볼 수 있는 것만이 추출된다. 게다가, 1개의 인과 관계이어도, 다종 다양한 언어로 표현할 수 있다. 예를 들면, 일본어로 한정하고 어떤 인과 관계 「미국산 소고기를 입수하다 → 규동을 만든다」의 주변에 존재하는 인과 관계는 이하에 예를 나타내는 바와 같은 다양한 형태로 표현할 수 있다.

원인		결과
미국산 소고기를 입수하다	→	규동을 만든다
미국산 소고기를 구입하다	→	규동을 판매하다
미국산 소고기를 수입하다	→	규동을 먹을 수 있다
미국산 소고기가 수입 금지되다	→	규동을 먹을 수 없다

이와 같이, 인터넷(40) 상에 직접 표현은 되지 않고 있지만, 기지의 표현으로부터, 실제로 존재한다고 생각되는 인과 관계의 표현을 생성할 수 있으면 편리하다. 예를 들면 다양한 표현 언어로 나타내어지는 무수한 인과 관계에 대한 커버율을 향상시키는 것을 기대할 수 있고, 자연 언어를 사용한 여러가지 언어 처리 및 추론 등의 정밀도를 높일 수 있다.

제 1 실시형태에서 설명한 템플릿 DB(62)이 있으면, 인터넷(40) 상에 실제로 존재하고 있는 것이 확인은 할 수 없지만, 인과 관계로서 타당하다고 생각되는 프레이즈 페어를 인과 관계의 가설로서 생성할 수 있다. 이하, 그러한 기능을 실현하는 실시형태에 관하여 설명한다.

도 12(A)를 참조하고, 인과 관계를 기술한 데이터베이스(인과 관계 DB(632))가 있고, 추론 시스템(630)이 이 인과 관계 DB(632)를 사용하여 입력으로부터 추론할 수 있는 가설을 출력하도록 설정된 것으로 한다. 이 인과 관계 DB(632)에, 「미국산 소고기를 입수하다 → 규동을 만든다」라고 하는 인과 관계(634)가 있고, 미국산 소고기에 관해서는 이 인과 관계만이 인과 관계 DB(632)에 포함된 것으로 한다.

이러한 상황에서, 가령 신문에 「미국산 소고기, 수입 금지에」라고 하는 기사(636)가 있었다고 하는 정보가 얻어지고, 그 결과, 어떤 영향이 생길 것인가라고 하는 문장이 추론 시스템(630)에 부여된 것으로 한다. 추론 시스템(630)이 이용할 수 있는 인과 관계는 인과 관계(634)뿐이다. 추론 시스템(630)에는 미국산 소고기와 수입 금지에 관한 인과 관계에 관한 기술은 없다. 그 결과, 추론 시스템(630)의 출력(638)은 얻을 수 없다.

한편, 도 12(B)를 참조하고, 미국 소고기에 관한 별도의 인과 관계 DB(672)를 생각한다. 인과 관계 DB(672)는 인과 관계(634) 뿐만 아니라, 위의 표 15에 나타낸 그 밖의 인과 관계군(674)도 포함한다. 그리고, 추론 시스템(670)이 이 인과 관계DB(672)를 사용하여 질문에 대한 회답을 추론하는 것으로 한다. 그러면, 도 12(A)의 경우와 같은 질문이 주어졌을 때에, 추론 시스템(670)은 인과 관계 DB(672) 중의 인과 관계「미국산 소고기의 수입이 금지된다 → 규동을 먹을 수 없다」 에 기초하여 「규동을 먹을 수 없을 거예요」라고 하는 출력(676)을 얻을 수 있다. 이러한 시스템이 도 12(A)에 나타내는 추론 시스템(630)과 비교해서 훨씬 유용한 것은 명백하다.

문제는 인터넷(40)으로부터는 인과 관계(634)밖에 얻을 수 없을 때에, 어떻게 하면 인과 관계군(674) 등이 얻어지는지,라는 것이 된다. 여기서, 제 1 실시형태에서 설명한 템플릿 DB(62)을 사용하는 것이 유용하다.

템플릿 DB(62)를 사용하여 인터넷(40) 상에 찾아낼 수 있는 인과 관계로부터, 인터넷(40) 상에 직접은 존재하지 않는 인과 관계의 가설을 출력하기 위한 시스템은 컴퓨터 하드웨어와 그 컴퓨터 하드웨어에 의해 실행되는 프로그램에 의해 실현 가능하다. 이 시스템은 도 1에 나타내는 템플릿 DB(62)과 함께 사용된다.

도 13을 참조하고, 본 실시형태에 따른 그러한 기능을 실현하기 위한 프로그램은 인과 관계에 있는 명사의 페어(인과 관계 명사 페어), 한쪽이 다른 쪽의 재료에 적합한 명사의 페어(재료 관계 명사 페어), 한쪽이 다른 쪽을 억제하는 관계에 있는 명사 페어(억제 관계 명사 페어)를 취득하는 스텝(710)을 포함한다. 이들의 명사 페어는 모두 기존의 기술을 이용하여, 소정의 패턴에 매칭하는 표현으로부터 취득할 수 있다. 예를 들면, 인과 관계 명사 페어의 경우에는 「A가 B를 야기하다」와 같은 패턴에 매칭하는 표현을 선택하고, 그 명사 A 및 B를 인과 관계 명사 페어로서 취득한다. 재료 관계 명사 페어의 경우에는 「A로 B를 만든다.」와 같은 패턴에 매칭하는 표현으로부터 명사 A 및 B를 취득한다. 억제 관계 패턴의 경우에는 「A가 B를 막는다」와 같은 패턴에 매칭하는 표현으로부터 명사 A 및 B를 취득한다. 이들 예를 이하의 표 16에 나타낸다. 또한, 인과 관계의 가설을 생성하기 위해서 이 스텝(710)에서 취득하는 명사 페어는 상기한 3종 관계의 명사 페어에는 한정되지 않고, 이 외에도 각종 관계가 생각된다.

명사 페어의 종류	예	비고
인관 관계 명사 페어	(지진, 쓰나미)	이 명사 페어는 정의 관계라 간주된다
재료 관계 명사 페어	(소고기, 규동)	이 명사 페어는 정의 관계라 간주된다
제어 관계 명사 페어	(항암제, 암)	이 명사 페어는 부의 관계라 간주된다

이 프로그램은 또한, 스텝(710)에서 취득한 모든 명사 페어에 대하여, 이하의 프로그램 부분(714)을 실행하는 스텝(712)을 포함한다.

프로그램 부분(714)은 처리 대상의 명사 페어내의 명사의 각각에 대해서, 그 명사와 빈번히 의존 관계를 연결하는 템플릿을 동정하는 스텝(740)과 명사 페어가 서로 정의 관계에 있는지의 여부를 판정해서 제어의 흐름을 분기시키는 스텝(742)과 스텝(742)의 판정이 긍정적일 때에 실행되고, 스텝(740)으로 동정된 템플릿을 조합시킨 페어 중, 순접 접속사와 아울러 빈번히 인터넷(40) 상에 공기하고, 또한 서로의 활성/불활성이 같은 것을 선택하는 스텝(744)과 스텝(742)의 판정이 부정적일 때에 실행되고, 스텝(740)으로 동정된 템플릿을 조합시킨 페어 중, 순접 접속사와 함께 빈번히 공기하고, 또한 서로의 활성/불활성이 반대인 것을 선택하는 스텝(746)을 포함한다. 스텝(744) 및 스텝(746)으로 「빈번히」라고 할 때는, 본 실시형태에서는 인터넷(40) 상에서의 출현 빈도가 미리 정해진 값보다 큰 경우를 말한다.

프로그램 부분(714)은 또한, 스텝(744) 및 스텝(746)에 계속되어서 실행되고, 스텝(744) 또는 스텝(746)으로 선택된 모든 템플릿 페어에 대하여, 이하에 설명하는 프로그램 부분(750)을 실행하는 스텝(748)을 포함한다.

프로그램 부분(750)은 처리 대상의 명사 페어에, 처리 대상의 템플릿 페어를 첨가함으로써 인과 관계 가설을 생성하는 스텝(770)과 스텝(770)으로 생성된 인과 관계 가설을 인과 관계 가설군에 추가해서 처리를 종료하는 스텝(772)을 포함한다.

이 도 13에 나타내는 제어 구조를 갖는 프로그램을 인터넷(40)에 접속된 컴퓨터로 실행함으로써, 인터넷(40) 상에 존재하지 않는 표현이고, 또한 어떠한 인과 관계를 나타내는 표현(명사+템플릿의 페어)인 인과 관계 가설을 대량으로 얻을 수 있다.

예를 들면, 이하와 같은 상황이 있을 수 있다. 재료 관계 명사 페어<소고기, 규동>(정의 관계에 있다고 간주할 수 있다) 및 억제 관계 명사 페어 <항암제, 암> (부의 관계라 간주할 수 있다)과 다음 표 17에 나타내는 바와 같은 활성/불활성 템플릿이 전제로서 주어진 것이라 한다.

활성 템플릿	불활성 템플릿
을 수입하다	을 치료하다
을 사용하다	을 막는다
을 판매하다

스텝(740)의 처리에 의해, 다음과 같은 템플릿이 동정된다.

템플릿

소고기를 수입하다

소고기를 사용하다

소고기를 판매하다

규동을 판매하다

항암제를 수입하다

항암제를 사용하다

항암제를 판매하다

암을 치료하다

…

또한, 이들 템플릿에 대해서, 스텝(742)∼(746)의 처리를 하여 템플릿 페어를 선택하고, 각 템플릿 페어에 대해서 프로그램 부분(750)을 실행함으로써, 다음과 같은 인과 관계 가설이 얻어진다.

원인		결과
소고기를 수입하다	→	규동을 판매하다
소고기를 사용하다	→	규동을 판매하다
항암제를 수입하다	→	암을 치료하다
항암제를 사용하다	→	암을 치료하다

이상과 같이, 본 실시형태에 따른 시스템에 의하면, 템플릿 DB(62)을 사용하여 인터넷(40)으로부터 수집한 명사 페어에 기초하여 인터넷(40) 상에는 존재하지 않는 다수의 인과 관계 가설을 생성할 수 있다. 그 결과, 인터넷(40) 상에서 얻어지는 인과 관계뿐만 아니라, 훨씬 많은 인과 관계 가설을 얻을 수 있다. 따라서, 추론 시스템의 베이스가 되는 인과 관계로서 폭넓은 범위를 커버할 수 있고, 폭넓은 질문에 대하여 추론 시스템이 회답을 발견하는 것이 가능해진다.

<제 4 실시형태>

인과 관계 가설의 생성 방법으로서는 제 3 실시형태에 따르는 것 이외에도 여러가지가 생각된다. 이 제 4 실시형태에 따르는 방법은 인터넷(40)으로부터 직접적으로 획득한 인과 관계 페어(인과 관계에 있는 프레이즈의 페어) 또는 제 3 실시예에 따르는 방법에 의해 획득한 인과 관계 가설(인과 관계 페어의 일종)과 제 1 실시형태에서 구해진 모순 표현(서로 모순하는 프레이즈로 이루어지는 페어)으로부터, 인과 관계 가설을 생성한다,라고 하는 것이다. 구체적으로는 이하와 같다. 또한, 이하의 처리의 전제로서, 프레이즈「소고기를 수입하다」에 대하여 프레이즈 「소고기가 수입 금지되다」라고 하는 모순 표현이 미리 얻어져 있고, 프레이즈 「규동을 먹는다」에 대하여 「규동을 먹을 수 없다」라고 하는 모순 표현이 미리 얻어져 있는 것으로 한다.

(1) 인과 관계를 선택한다. 예를 들면, 「소고기를 수입하다 → 규동을 먹는다」를 선택한다.

(2) 인과 관계를 구성하는 2개의 프레이즈의 각각에 대해서, 그 프레이즈를 그 프레이즈와 모순하는(반대 의미의) 프레이즈로 치환한다. 예를 들면, 「소고기를 수입하다」를 「소고기가 수입 금지되다」로 치환하고, 「규동을 먹는다」를 「규동을 먹을 수 없다」로 치환한다.

(3) 새로운 인과 관계 가설 「소고기가 수입 금지되다 → 규동을 먹을 수 없다」이 얻어진다.

이 처리의 결과, 획득 완료의 인과 관계 또는 인과 관계 가설의 각 프레이즈를 각각 모순하는 프레이즈로 치환함으로써, 새로운 인과 관계 가설이 자동적으로 얻어지게 된다. 도 14를 참조하고, 이 실시형태를 컴퓨터 하드웨어에 의해 실현하기 위한 프로그램은 이미 인과 관계 페어가 얻어지고 있는 것을 전제로 하여, 각 인과 관계 페어에 대하여 이하의 프로그램 부분(812)을 실행하는 스텝(810)을 포함한다.

프로그램 부분(812)은 처리 대상의 인과 관계 페어 중, 좌측 프레이즈(원인를 나타내는 프레이즈)에 대한 모순 프레이즈의 모두에 대하여, 이하의 프로그램 부분(842)을 실행하는 스텝(840)을 포함한다.

프로그램 부분(842)은 처리 중의 인과 관계 페어의 좌측 프레이즈를 그 프레이즈와 모순하는 프레이즈(스텝(840)로 처리 대상으로 선택된 모순 프레이즈)와 치환하는 스텝(870)과 처리 중의 인과 관계 페어의 우측 프레이즈와 모순하는 프레이즈 모두에 대하여, 이하의 프로그램 부분(874)을 실행하는 스텝(872)을 포함한다.

프로그램 부분(874)은 처리 중의 인과 관계 페어의 우측 프레이즈를, 그 프레이즈와 모순하는 프레이즈로 치환하는 스텝(910)과 스텝(910)의 처리 완료에 의해 새롭게 얻어진 프레이즈 페어를 새로운 인과 관계 가설로서 인과 관계 가설군에 추가해서 프로그램 부분(874)을 종료하는 스텝(912)을 포함한다.

이상의 제어 구조를 갖는 프로그램에 의하면, 처리 대상이 되는 모든 인과 관계 페어에 대해서, 그들의 좌측 프레이즈를 그 좌측 프레이즈와 모순하는 프레이즈로, 우측 프레이즈를 그 우측 프레이즈와 모순하는 프레이즈로, 각각 치환함으로써 새로운 인과 관계 가설을 얻을 수 있다. 좌측 프레이즈, 우측 프레이즈가 각각 복수의 모순 페어를 갖는 경우, 생성되는 인과 관계 가설의 수는 승산적으로 증가한다. 게다가 이 처리에는 수작업을 필요로 하지 않는다. 따라서, 대단히 넓은 범위를 커버하는 인과 관계 가설을 자동적으로 생성할 수 있다.

<기타 응용>

《동의·함의 표현의 정밀도의 향상》

상기 실시형태는 모두 최종적으로는 어떠한 형태의 프레이즈 페어를 얻는다.그러나, 본 발명에 의해 얻어지는 템플릿 페어는 그러한 실시형태로 이용 가능한 것만이 아니다. 그 외에도 다양한 이용을 생각할 수 있다.

그 제 1 예는 동의·함의 표현의 획득시의 정밀도의 향상을 위한 템플릿 페어를 사용한다,라고 하는 것이다. 일반적으로, 동의·함의 표현은 양자의 출현 문맥의 유사성(분포 유사도)을 단서로 텍스트 안에서 획득된다. 예를 들면, 이하와 같은 예가 생각된다.

종별	제1술어 템플릿		제2술어 템플릿
동의 관계	(명사 1)을 수입하다	=	(명사 2)를 임포트하다
함의 관계	(명사 3)이 수입 금지되다	=	(명사 4)가 입수 곤란하게 되다

이 예 중, 동의 관계에 있어서, 「을 수입하다」의 출현 문맥이 「명사 1」, 「을 임포트하다」의 출현 문맥이 「명사 2」이다라고 생각한다. 그러면, 명사 1과 명사 2가 일치하거나 동의인 단어인 경우가 많다. 이것은 이들 2개의 프레이즈의 의미가 유사하고 있기(동의) 때문이다. 마찬가지로, 「이 수입 금지되다」의 출현 문맥이 「명사3」, 「이 입수 곤란하게 되다」의 출현 문맥이 「명사 4」이다라고 생각된다. 그러면, 명사 3이 형성하는 집합이 명사 4가 형성하는 집합의 부분 집합이 되는 경향이 강하다. 따라서, 동의 관계의 경우도, 함의 관계의 경우도, 양자의 템플릿의 출현 문맥은 유사하고, 분포 유사도는 높게 된다. 동의·함의 관계는 이러한 관계를 이용하여 획득한다.

그러나, 분포 유사도는 2개의 템플릿의 동의·함의 관계가 있을 경우만이 아니라, 서로 모순하는(반대인) 관계인 경우도 많다. 예를 들면, 「(명사 1)을 수입하다」와 「(명사 2)가 수입 금지되다」는 모순하는 관계에 있다. 그러나, 명사 1과 명사 2에는 같은 명사가 들어가는 경우가 많고, 결과적으로 분포 유사도는 높게 되어 버린다. 따라서, 동의·함의 표현에 있어서, 본래는 모순하는 의미인 템플릿끼리가 동의 또는 함의 표현으로서 선택되어 버린다고 하는 문제가 있다.

템플릿 DB(62)를 사용함으로써, 그러한 문제를 해결할 수 있다. 즉, 종래의 방법으로 추출된 동의·함의 표현의 후보가 되는 언어 표현 페어에 대해서, 양자의 템플릿의 활성/불활성이 일치하는지의 여부를 조사한다. 양자의 활성/불활성이 일치하면, 그들 템플릿은 동의 또는 함의 관계에 있다고 생각되는 한편, 양자의 활성/불활성이 일치하지 않고 있으면, 이들 템플릿끼리는 모순 관계에 있다고 판정할 수 있다.

단, 이 판정은 명사와 같이 활성/불활성이라고 하는 속성이 해당되지 않는 언어 표현에는 적용할 수 없다.

《문장 경계에 걸쳐져 있는 인과 관계 명사 페어의 획득》

종래의 인과 관계 명사 페어를 획득하는 방법의 대부분은 어떤 패턴에서 한문장 내에서 공기하고 있는 명사의 페어를 추출한다,라고 하는 것이다. 그러나, 그러한 방법에서는, 한 문장 내에 기술된 인과 관계 페어밖에 획득할 수 없다. 한편, 현실에서는 한 문장내에 공기하고 있는 표현 이외에도, 인과 관계의 표현이 있을 수 있다. 특히, 텍스트 중에서 서로 가까운 위치에 존재하고 있는 표현의 페어 중에 인과 관계를 나타내고 있는 경우도 많다. 예를 들면, 「동북 지방에서 지진이 일어났다. 그 후에 많은 사람이 쓰나미에 덮쳐졌다」라고 하는 바와 같은 표현이다.

이와 같이 문장에 걸쳐져서 출현하는 인과 관계 명사 페어에 대해서, 템플릿 DB(62)를 사용해서 이하와 같이 해서 획득할 수 있다.

우선, 인과 관계 또는 인과 관계 가설(모두 프레이즈의 페어+순접 접속사의 형태)을 어떠한 방법으로 준비한다. 실시형태 2 또는 실시형태 3에 기재된 방법을 사용해도 된다. 이들 중에서 빈출하는 템플릿 페어를 추출한다. 예를 들면, 「이 일어난다 → 에 덮쳐진다」, 「을 야기한다 → 이 발증한다」등의 템플릿 페어를 얻을 수 있다.

다음에 위 방법에 의해 얻어진 템플릿 페어의 각각에 대해서, 인터넷(40) 상에서, 근접하는 다른 2문장으로 공기하고 있는 것을 검출한다. 검출된 템플릿 페어에 대해서, 그들 템플릿과 공기하고 있는 명사 페어를 추출한다. 이렇게 하여 얻어진 명사 페어는 원래 인과 관계를 구성하고 있었던 템플릿 페어와 공기하고 있으므로, 역시 인과 관계에 있는 명사 페어일 가능성이 높다. 게다가 이들 명사 페어와 그 명사 페어와 공기하는 템플릿 페어가 한 문장내에서 공기하지 않는다. 따라서, 기존의 방법으로 얻어지는 인과 관계 명사 페어와 비교해서 보다 넓은 범위의 인과 관계 명사 페어를 획득할 수 있다.

<실시형태의 작용·효과>

이상과 같이 본 발명의 실시형태에 의하면, 이하와 같은 효과가 얻어진다.

텍스트에 쓰여져 있거나, 쓰여져 있지 않은 것을 막론하고, 대량의 인과 관계를 갖는 프레이즈의 페어 및 명사의 페어를 획득할 수 있다. 특히, 그 중의 일부는 텍스트에 쓰여져 있지 않은 신규의 가설을 포함하는 것이 논리적으로 가능하다. 즉, 인터넷(40) 상의 가상적인 코퍼스 등에 존재하는 대량의 텍스트로부터, 인터넷(40) 상에 기재가 없는 신규의 지식에 관한 가설을 생성할 수 있다.

또한, 이상의 실시형태에 의하면, 텍스트 중의 프레이즈 간의 의미적인 모순을 정확하게 인식할 수 있다. 이 결과, 모순뿐만 아니라, 동의·함의 관계의 인식의 정밀도도 향상한다.

이들 효과에 의해, 텍스트를 검색할 뿐만 아니라, 텍스트의 내용에 기초하여 추론을 행하거나, 서로 모순하는 정보 또는 그러한 정보의 사이의 인과 관계를 유저에게 제공할 수 있다. 그 결과, 정보의 신뢰성을 검증하기 위한 수단, 및 장래 발생할 수 있는 사태를 사전에 예측하기 위한 수단을 제공할 수 있다.

가장 실용에 가깝다고 생각되는 것은 임의의 언어로 쓰여진 질문에 대하여, 현명하고, 단적으로, 정확한 회답을 주는 질문 응답 시스템 등에 대한 본 발명의 적용이다. 본 발명은 음성 인식 기술과 조합됨으로써, 컴퓨터에 대하여 어떠한 질문을 받고 그 회답을 얻거나 하는 시스템 또는 콜 센터 등에서 과거의 사례를 축적한 데이터베이스를 유지하고 있는 시스템에 있어서의 이용에 특히 적합성이 높다.

예를 들면, 상술한 바와 같은 실시형태의 시스템에 의해, 매우 큰 범위를 커버하는 인과 관계의 데이터베이스를 정비할 수 있다. 그러한 데이터베이스가 있으면, 종래의 질문 응답 기술이 약한 인과 관계에 관한 질문, 즉 「WHY형의 질문」에 대하여, 적절하게 회답할 수 있게 된다. 예를 들면 「왜, 초경 공구의 가격이 상승하고 있는 것인가?」라고 한 질문에 대하여 「중국이 텅스텐을 수출 금지하고 있기 때문이다」라고 한 회답을 주는 것은 종래 기술에서는 곤란했다. 그러나, 상술한 실시형태에 의해 얻어지는 인과 관계 데이터베이스를 사용하면, 그러한 회답을 용이하게 취득할 수 있게 된다.

또한, 상술한 가설 생성 기술에 의해, 인터넷(40) 상에 존재하지 않는 정보도 가설로서 제시할 수 있게 된다. 예를 들면, 지금까지의 질문 응답 시스템에서는 미지의 사건의 귀결 또는 원인을 대답하는 것은 불가능했다. 그러나, 상술한 실시형태는 그러한 기술을 가능하게 한다. 예를 들면, 상술한 실시형태의 기술을 사용하면, 초경 공구의 가격이 실제로 상승하기 이전에, 「가령 초경 공구의 가격이 상승하면 원인은 무엇이 있을 수 있을 것인가?」라고 한 질문이 주어졌을 때에, 「중국이 텅스텐을 수출 금지하면, 초경 공구의 가격이 상승할 가능성이 있다」라고 한 가설을 회답으로서 되돌려 줄 수 있게 된다. 이러한 것이 가능하게 되면, 질문자가 리스크를 헤지(hedge)하는 방책을 세우는 것도 가능해진다. 「가령 중국이 텅스텐을 수출 금지로 한다고 하면, 그 원인은 무엇인가?」「초경 공구의 가격이 상승하면, 주가가 하락하는 기업은 어디인가」라고 하는, 가상적으로 기존 텍스트에 기재되지 않고 있는 상황에 관한 질문에 대해서도 수작업을 통하지 않고 시스템이 적절한 회답을 자동 생성할 수 있다. 또한, 질문을 받기 전에, 그러한 조건과 그 귀결을 미리 발견하고, 제시하는 것도 가능하게 된다. 즉, 가상적인 장래 시나리오를 시스템이 열거할 수 있는 것이 된다. 그 결과, 비지니스 뿐만 아니라, 정치, 경제, 과학 기술 등도 포함하여 의사 결정시의 강력한 툴이 되는 것이라 상정된다. 그러한 시스템이 실현되면, 정보 서비스 기술로서는 그 외에 없는 고도한 것이며, 비지니스상의 가치도 높다고 생각된다.

다른 예로서, 어떤 상품에 관해서 과거의 사례와 모순하는 트러블에 관한 클레임이 고객으로부터 콜 센터로 접수되는 케이스를 생각할 수 있다. 통상, 콜 센터에서는 키워드에 의해 데이터베이스로부터 정보를 검색해서 적절한 회답을 얻고 있다. 그러나, 과거의 사례와 모순하는 트러블인 경우, 정보를 검색해도 적절한 것은 얻어지지 않는다. 따라서, 종래의 방법은 이러한 트러블에 대처하는 점에서는 무력했다. 그러나, 상기 실시형태에 의한 모순의 자동 인식이라고 하는 기술을 적용하면, 적어도 새로운 클레임이 과거의 사례와 모순하는 사례인 것을 시스템이 인식하고, 오퍼레이터에게 그 의미를 제시할 수 있다. 그 결과로부터, 예를 들면 오퍼레이터는 아무런 정보가 없을 경우와 비교해서 훨씬 적확하게 대응할 수 있다. 예를 들면, 새로운 클레임이 과거의 사례와 모순하고 있는 것으로부터, 고객이 트러블을 오류 인식하고 있거나 또는 이 트러블이 미지의 트러블일 가능성이 있는 것 등을 고객에게 제시할 수 있다. 그 결과, 종래와 비교해서 보다 스무스하게 문제 해결을 행할 수 있다.

또한, 상기 실시형태에 의하면, 「때문에」「이므로」인 것 같은 단서가 되는 표현을 이용하지 않고 인과 관계의 자동 인식을 행할 수 있다. 사전에 해당하는 정보도 자동 취득할 수 있다. 따라서, 그 적용 범위는 극적으로 넓어진다.

또한, 상기 실시형태에서는, 동사를 활성/불활성/중립의 3종으로 분류한다. 이러한 분류의 방법은 종래 생각되지 않고 있었다. 이 중, 불활성한 술어에 관해서는 대응하는 분류가 제안된 적은 없다. 모순 또는 인과 관계의 인식에 있어서는 술어(탬플릿)의 활성/불활성의 조합이 중요한 팩터이고, 양자가 갖추어져서 유용하게 된다. 따라서, 이러한 활성/불활성이라고 하는 분류, 또는 활성/불활성/중립이라고 하는 분류를 지니지 않는 종래 기술은 인과 관계의 자동 인식, 모순의 인식에 있어서 상기 실시형태와 같은 효과를 줄 수는 없다.

상기 실시형태에서는 또한, 종래 기술이 취급해 온 「콜레스테롤」「뇌경색 」간의 인과 관계와 같이 단어간의 인과 관계를 취득할 수 있는 것만이 아니다. 예를 들면, 「콜레스테롤을 섭취한다」는 것이 「뇌경색을 겪는다」는 것의 원인이다,라고 말한 바와 같은 프레이즈 단위의 가설도 생성할 수 있다. 단어간의 의미적 관계에 관해서도 상기 실시형태에 의하면, 종래법에서는 취득할 수 없는 것을 취득 가능하게 된다. 그 결과, 상기 실시형태는 단어간의 의미적 관계에 관한 가설 생성의 기술을 종래와 비교해서 보다 강력하게 한다고 할 수 있다.

또한, 동의·함의 관계의 인식에 있어서, 상기 실시형태에서는 「야기한다」「막는다」등의 동사를 다른 라벨(활성/불활성)로 분류하는 것을 미리 행한다. 그리고, 다른 라벨로 분류된 동사는 동의라고 인식하지 않는다,라고 하는 제약을 부과한다. 이러한 제약을 부과함으로써, 반의어에서도 분포 유사도가 높기 때문에 동의·함의로서 인식되는 것을 방지할 수 있다. 따라서, 상기 실시형태는 동의·함의 관계의 인식의 정밀도를 높일 수 있다.

[컴퓨터에 의한 실현]

상기 실시형태에 따른 시스템은 컴퓨터 하드웨어와 그 컴퓨터 하드웨어 상에서 실행되는 컴퓨터 프로그램에 의해 실현될 수 있다. 도 15는 이 컴퓨터 시스템(930)의 외관을 나타내고, 도 16은 컴퓨터 시스템(930)의 내부 구성을 나타낸다.

도 15를 참조하고, 이 컴퓨터 시스템(930)은 메모리 포트(952) 및 DVD(Digital Versatile Disc) 드라이브(950)를 갖는 컴퓨터(940)와 키보드(946)와 마우스(948)와 모니터(942)를 포함한다.

도 16을 참조하고, 컴퓨터(940)는 메모리 포트(952) 및 DVD 드라이브(950)에 더해서, CPU(중앙처리장치)(956)와 CPU(956), 메모리 포트(952) 및 DVD 드라이브(950)에 접속된 버스(966)와 부트 업 프로그램 등을 기억하는 판독 전용 메모리(ROM)(958)와 버스(966)에 접속되고, 프로그램 명령, 시스템 프로그램 및 작업 데이터 등을 기억하는 랜덤 억세스 메모리(RAM)(960)를 포함한다. 컴퓨터 시스템(930)은 또한, 다른 단말과의 통신을 가능하게 하는 네트워크로의 접속을 제공하는 네트워크 인터페이스(I/F)(944)를 포함한다.

컴퓨터 시스템(930)을 상기한 각 실시형태의 시스템의 각 기능부로서 기능시키기 위한 컴퓨터 프로그램은 DVD 드라이브(950) 또는 메모리 포트(952)에 장착되는 DVD(962) 또는 리무버블 메모리(964)에 기억되고, 또한 하드 디스크(954)에 전송된다. 또는, 프로그램은 도시하지 않은 네트워크를 통해서 컴퓨터(940)에 송신되어 하드 디스크(954)에 기억되어도 된다. 프로그램은 실행시에 RAM(960)에 로드된다. DVD(962)로부터, 리무버블 메모리(964)로부터, 또는 네트워크를 통하여 직접적으로 RAM(960)에 프로그램을 로드해도 된다.

이 프로그램은 컴퓨터(940)를 상기 실시형태에 따른 시스템의 각 기능부로서 기능시키기 위한 복수의 명령을 포함한다. 이 동작을 행하게 하는데 필요한 기본적기능의 몇몇은 컴퓨터(940) 상에서 동작하는 오퍼레이팅 시스템(OS) 또는 써드 파티의 프로그램 또는 컴퓨터(940)에 인스톨되는 각종 프로그래밍 툴 키트의 모듈에 의해 제공된다. 따라서, 이 프로그램은 이 실시형태의 시스템 및 방법을 실현하는데 필요한 기능 모두를 반드시 포함하지 않아서 된다. 이 프로그램은 명령 중, 소망의 결과가 얻어지도록 제어된 방식으로 적절한 기능 또는 프로그래밍 툴 키트내의 적절한 프로그램 툴을 호출함으로써, 상기한 시스템으로서의 기능을 실현하는 명령만을 포함하고 있으면 된다. 컴퓨터 시스템(930)의 동작은 주지이다. 따라서 여기에서는 반복하지 않는다.

금회 개시된 실시형태는 단지 예시이고, 본 발명이 상기한 실시형태만으로 제한되는 것은 아니다. 본 발명의 범위는 발명의 상세한 설명의 기재를 참작한 점에서 특허청구범위의 각 청구항에 의해 나타내어지고, 거기에 기재된 문언과 균등한 의미 및 범위 내에서의 모든 변경을 포함한다.

(산업상의 이용 가능성)

본 발명은 자연 언어 처리를 이용하는 방법 및 장치에 이용할 수 있고, 특히, 프레이즈를 구성하는 술어 템플릿 및 특정 관계에 있는 프레이즈 페어를 효율적으로 자동적으로, 또한 정밀도 높게 인식할 수 있는 술어 템플릿 수집 장치 등의 제조, 이용 및 대출 등을 행하는 산업에 있어서 이용할 수 있다.

30 : 모순 표현 수집 시스템 32 : 시드 템플릿 기억 장치
34 : 접속사 기억부 36 : 모순 표현 수집 장치
38 : 모순 표현 기억 장치 40 : 인터넷
60 : 템플릿 DB 구축 장치 62 : 템플릿 DB
64 : 모순 표현 획득부 90 : 템플릿 페어 생성부
92 : 템플릿 페어 기억부 94 : 명사 페어 수집부
96 : 명사 페어 기억부 98 : 명사 페어 극성 판정부
100 : 템플릿 페어 수집부 102 : 템플릿 페어 기억부
104 : 템플릿 활성 매칭 판정부 106 : 템플릿 네트워크 구축부
108 : 동의·함의 관계 사전 110 : 템플릿 네트워크 기억부
112 : 템플릿 활성값 산출부 114 : 고활성도 템플릿 추출부
116 : 종료 판정부 118 : 시드 템플릿 갱신부
140 : 템플릿 네트워크 630, 670 : 추론 시스템
632, 672 : 인과 관계 DB 634 : 인과 관계
674 : 인과 관계군

Claims

술어 템플릿을 소정 문장의 집합으로부터 수집하기 위한 술어 템플릿 수집 장치로서,
술어 템플릿은 명사와 연결되어서 프레이즈를 구성하는 것이고, 또한 술어 템플릿에는 활성, 불활성 및 중립이라고 하는 분류에 따라서 활성의 방향 및 그 크기를 나타내는 활성값을 부여하는 것이 가능하고,
활성이란 상기 술어 템플릿에 결부된 명사가 가르키는 대상의 기능 또는 효과를 발휘시키는 방향의 사건을 기술하는 것을 나타내고,
불활성이란 상기 술어 템플릿에 결부된 명사가 가르키는 대상의 기능 또는 효과를 발휘시키지 않는 방향의 사건을 기술하는 것을 나타내고,
중립이란 활성도 불활성도 아닌 술어 템플릿인 것을 나타내고,
술어 템플릿에 관한 활성 및 불활성의 구별을 극성이라고 부르고,
상기 술어 템플릿 수집 장치는,
순접 또는 역접으로 분류된 접속사를 기억하는 접속사 기억부와,
템플릿 네트워크를 구축하기 위한 기점이 되는 시드 템플릿을 기억하기 위한 시드 템플릿 기억부를 포함하고,
상기 시드 템플릿의 각각에는 극성과 활성값이 부여되고,
상기 술어 템플릿 수집 장치는 어떤 관계를 충족하는 명사 페어를 소정의 코퍼스로부터 수집하고, 각 명사 페어를 구성하는 명사끼리의 관계의 극성을 정이나 부로 분류하기 위한 명사 페어 수집 수단을 더 포함하고,
명사 페어를 구성하는 명사끼리의 관계의 극성은 상기 명사 페어의 한쪽이 나타내는 대상이 다른 쪽이 나타내는 대상의 출현을 촉진할 때에는 정, 억제할 때에는 부로서 정의되고,
상기 술어 템플릿 수집 장치는,
상기 명사 페어 수집 수단에 의해 수집된 명사 페어와 각각 공기하는 술어 템플릿 페어를 소정의 코퍼스로부터 수집하고, 수집된 각 술어 템플릿 페어에 대해서 상기 술어 템플릿 페어와 공기하는 명사 페어의 관계의 극성과 상기 술어 템플릿 페어를 연결하는 접속사에 기초하여 상기 술어 템플릿 페어의 활성/불활성이 동일한지 반대인지를 판정하기 위한 술어 템플릿 페어 수집 수단과,
상기 술어 템플릿 페어 수집 수단에 의해 수집된 술어 템플릿 페어와 각 술어 템플릿 페어에 관한 활성/불활성이 동일한지의 여부의 판정 결과를 이용하여 술어 템플릿 사이를 관계지음으로써, 각 술어 템플릿을 노드로 하고 술어 템플릿 페어를 구성하는 술어 템플릿 사이의 관계를 링크로 하는 템플릿 네트워크를 구축하기 위한 구축 수단과,
상기 템플릿 네트워크내의 시드 템플릿에 대응하는 노드에 미리 부여된 상기 활성값을 기초로 하여, 상기 템플릿 네트워크내의 노드 간의 관계를 이용해서 각 노드에 부여해야 할 활성값을 산출하고, 각 노드에 대응하는 술어 템플릿에 산출된 활성값을 부여해서 출력하기 위한 활성값 산출 수단을 더 포함하는 것을 특징으로 하는 술어 템플릿 수집 장치.
제 1 항에 있어서,
상기 명사 페어 수집 수단은 상기 접속사 기억부에 기억된 접속사와 상기 시드 템플릿 기억부에 기억된 시드 템플릿을 이용하여 술어 템플릿 페어와 공기하는 명사 페어를 소정의 코퍼스로부터 수집하고, 각 명사 페어를 구성하는 명사끼리의 관계의 극성을 정 또는 부로 분류하기 위한 수단을 포함하는 것을 특징으로 하는 술어 템플릿 수집 장치.
제 2 항에 있어서,
상기 분류하기 위한 수단은 상기 접속사 기억부에 기억된 접속사와 상기 시드 템플릿 기억부에 기억된 시드 템플릿을 이용하여, 술어 템플릿 페어와 공기하는 명사 페어로서 상기 코퍼스에 소정의 빈도 이상 출현하는 것을 상기 코퍼스로부터 수집하고, 각 명사 페어를 구성하는 명사끼리의 관계의 극성을 정 또는 부로 분류하기 위한 수단을 포함하는 것을 특징으로 하는 술어 템플릿 수집 장치.
제 2 항에 있어서,
상기 분류하기 위한 수단은,
상기 접속사 기억부에 기억된 접속사와 상기 시드 템플릿 기억부에 기억된 시드 템플릿을 이용하여 술어 템플릿 페어와 공기하는 명사 페어를 상기 코퍼스로부터 수집하기 위한 수단과,
상기 수집하기 위한 수단에 의해 수집된 명사 페어의 조합의 각각에 대해서, 각 명사 페어와 공기하는 술어 템플릿 페어의 극성과 상기 명사 페어 및 술어 템플릿에 의해 구성되는 프레이즈 페어를 결부시키고 있는 접속사의 종류에 기초하여 상기 명사 페어의 조합을 구성하는 명사 간의 관계의 극성을 결정하기 위한 극성결정 수단을 포함하는 것을 특징으로 하는 술어 템플릿 수집 장치.
제 4 항에 있어서,
상기 수집하기 위한 수단은 상기 접속사 기억부에 기억된 접속사와 상기 시드 템플릿 기억부에 기억된 시드 템플릿을 이용하여 술어 템플릿 페어와 상기 코퍼스내에서 소정 빈도 이상의 빈도로 공기하는 명사 페어를 상기 코퍼스로부터 수집하기 위한 수단을 포함하는 것을 특징으로 하는 술어 템플릿 수집 장치.
제 4 항에 있어서,
상기 극성 결정 수단은 상기 수집하기 위한 수단에 의해 수집된 명사 페어의 각각에 대해서, 상기 명사 페어와 공기하는 술어 템플릿의 술어 템플릿 페어의 극성과 상기 명사 페어 및 술어 템플릿에 의해 구성되는 프레이즈 페어를 결부시키고 있는 접속사의 종류에 기초하여 상기 명사 페어의 각각을 구성하는 명사 간의 관계의 극성을 결정하기 위한 수단과,
상기 결정하기 위한 수단에 의해 상기 명사 페어의 각각에 대해서 결정된 극성을 상기 명사 페어의 종류마다 집계하고, 다수결에 의해 명사 페어의 종류마다 극성을 결정하기 위한 수단을 포함하는 것을 특징으로 하는 술어 템플릿 수집 장치.
제 1 항 또는 제 2 항에 있어서,
상기 활성값 산출 수단에 의한 술어 템플릿의 출력이 완료된 것에 응답하여 술어 템플릿의 활성값을 산출하는 처리의 종료 조건이 성립하고 있는지를 판정하기 위한 판정 수단과,
상기 판정 수단에 의해 상기 종료 조건이 성립하지 않는다고 판정된 것에 응답하여 상기 활성값 산출 수단에 의해 산출된 술어 템플릿 중 활성값의 절대값이 임계값 이상인 술어 템플릿으로 이루어지는 새로운 시드 템플릿을 선택하고, 상기 새롭게 선택된 시드 템플릿에 의해 상기 시드 템플릿 기억부의 기억 내용을 갱신하기 위한 갱신 수단과,
상기 갱신 수단에 의한 갱신이 행하여진 것에 응답하여 상기 술어 템플릿 페어 수집 수단, 상기 명사 페어 수집 수단, 상기 술어 템플릿 페어 수집 수단, 상기 구축 수단 및 상기 활성값 산출 수단에 의한 처리를 재실행시키기 위한 수단을 더 포함하는 것을 특징으로 하는 술어 템플릿 수집 장치.
제 7 항에 있어서,
상기 구축 수단은,
상기 술어 템플릿 페어 수집 수단에 의해 수집된 술어 템플릿 페어를 이루는 술어 템플릿에 대응하는 노드가 상기 템플릿 네트워크내에 존재하지 않을 때에는 상기 술어 템플릿에 대응하는 노드를 추가하기 위한 수단과,
상기 술어 템플릿 페어 수집 수단에 의해 수집된 술어 템플릿 페어를 이루는 술어 템플릿 간에 링크를 생성하기 위한 링크 수단을 포함하고,
상기 링크 수단은 각 링크에 의해 접속되는 술어 템플릿의 활성이 동일한지의 여부에 따라서, 각 링크에 활성의 일치 또는 불일치를 나타내는 속성을 부여하고,
상기 구축 수단은 상기 링크 수단에 의해 생성되는 각 링크에 다른 노드와의 링크 수의 함수인 가중치를 부여하기 위한 가중치 부여 수단을 더 포함하고,
상기 가중치 부여 수단이 부여하는 가중치는 상기 링크의 상기 속성이 상기 일치를 나타내는 값일 때와 상기 불일치를 나타내는 값일 때에 부호가 다른 것을 특징으로 하는 술어 템플릿 수집 장치.
제 8 항에 있어서,
상기 활성값 산출 수단은 상기 템플릿 네트워크내의 각 링크의 가중치와 각 노드에 할당되는 활성값의 함수로서, 이하의 식에 의해 정의되는 함수의 값을 최적화함으로써 상기 템플릿 네트워크내의 각 노드에 할당되는 활성값을 추정하기 위한 수단을 포함하고,
단, 상기 시드 템플릿 중 극성이 활성인 것에는 플러스의 극성 및 활성값이, 불활성인 것에는 마이너스의 극성 및 활성값이 각각 부여되는 것을 특징으로 하는 술어 템플릿 수집 장치.

(단, x_i, x_j는 각각 i번째 및 j번째 노드의 활성값,
x는 상기 템플릿 네트 워크내의 각 노드의 활성값을 요소로 하는 벡터,
W는 링크 가중치 w_ij를 요소로 하는 행렬)
제 1 항 내지 제 6 항 중 어느 한 항에 기재된 술어 템플릿 수집 장치와,
상기 술어 템플릿 수집 장치에 의해 수집된 술어 템플릿을 기억하기 위한 술어 템플릿 기억 수단과,
상기 술어 템플릿 기억 수단에 기억된 술어 템플릿 중 특정 활성/불활성의 술어 템플릿의 조합과 특정 종류의 접속사로 이루어지는 술어 템플릿 페어를 포함하는 프레이즈 페어를 소정의 코퍼스로부터 수집하기 위한 프레이즈 페어 수집 수단과,
상기 프레이즈 페어 수집 수단에 의해 수집된 프레이즈 페어내에서 술어 템플릿과 공기하고 있는 명사 페어와 상기 프레이즈 페어내의 술어 템플릿의 극성이 특정 조합으로 되어 있는 것을 추출함으로써 소정의 관계를 표현하는 프레이즈 페어를 선택하기 위한 프레이즈 선택 수단을 포함하는 것을 특징으로 하는 특정 프레이즈 페어 수집 장치.
제 10 항에 있어서,
상기 프레이즈 선택 수단에 의해 선택된 프레이즈 페어의 각각에 대해서 상기 각 프레이즈 페어를 구성하는 술어 템플릿의 활성값과 상기 프레이즈 페어에 포함되는 명사 페어의 상기 코퍼스내에서의 공기 관계의 함수로서 상기 소정의 관계의 강도를 나타내는 스코어를 산출하기 위한 스코어 산출 수단과,
상기 스코어 산출 수단에 의해 산출된 스코어의 순서로 상기 프레이즈 선택 수단에 의해 선택된 프레이즈 페어를 정렬시키기 위한 수단을 더 포함하는 것을 특징으로 하는 특정 프레이즈 페어 수집 장치.
컴퓨터가 실행 가능한 컴퓨터 프로그램을 기록한 판독 가능한 기록 매체로서, 상기 컴퓨터에 제 1 항 내지 제 6 항 중 어느 한 항에 기재된 모든 수단으로서 기능시키는 것을 특징으로 하는 컴퓨터 프로그램을 기록한 판독 가능한 기록 매체.