KR20170122755A - 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템 - Google Patents

함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템 Download PDF

Info

Publication number
KR20170122755A
KR20170122755A KR1020177023997A KR20177023997A KR20170122755A KR 20170122755 A KR20170122755 A KR 20170122755A KR 1020177023997 A KR1020177023997 A KR 1020177023997A KR 20177023997 A KR20177023997 A KR 20177023997A KR 20170122755 A KR20170122755 A KR 20170122755A
Authority
KR
South Korea
Prior art keywords
pair
unary
pattern
pairs
binary
Prior art date
Application number
KR1020177023997A
Other languages
English (en)
Other versions
KR102468481B1 (ko
Inventor
타쿠야 카와다
줄리앙 끌로에체
켄타로 토리사와
Original Assignee
코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 filed Critical 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코
Publication of KR20170122755A publication Critical patent/KR20170122755A/ko
Application granted granted Critical
Publication of KR102468481B1 publication Critical patent/KR102468481B1/ko

Links

Images

Classifications

    • G06F17/2785
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • G06F17/2795
    • G06F17/30654
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

원래의 함의 페어를 확장하여 어떠한 함의 페어를 획득할 수 있는지 예측 가능하고, 정밀도도 보증할 수 있는 함의 관계 페어 확장 장치를 제공하는 것이다.

Description

함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템
본 발명은 자연 언어 처리에 관한 것이며, 특히 어떤 패턴이 다른 패턴을 함의하고 있는 2개의 언어 패턴의 페어를 효율 좋게 생성하는 기술에 관한 것이다.
질문 응답 시스템에 있어서, 예를 들면 「무엇이 폐암을 야기하는가?」라는 질문에 대해서 전형적으로는 「공해가 폐암을 야기한다」라는 문장이 회답으로서 얻어진다. 이들 2개의 문장은 「(폐암을)야기한다」라는 표현을 공통되게 갖고 있기 때문이다. 그러나 회답으로서 적절한 것은 이와 같이 질문과 공통 표현을 갖고 있는 것만이라고는 할 수 없다. 예를 들면, 「흡연은 폐암을 초래합니다」라는 표현도 회답으로서 어울리는 것으로 여겨진다. 이러한 회답을 얻기 위해서는 「A가 B를 야기한다」를 「A가 B를 초래한다」로 바꿔 말할 수 있다는 지식이 필요하다. 여기에서 A 및 B는 변수이며, 임의의 단어로 치환할 수 있다.
본 명세서에서는 이렇게 복수의 표현에 공통되게 보이는 유형을 언어 패턴 또는 간단히 패턴이라고 부른다. 보다 상세하게는 본 명세서에서는 술어와 n개(n은 0 이상의 정수)의 항의 조합으로 이루어지는 표현을 n항 언어 패턴이라고 부른다. 「A가 B를 야기한다」는 「야기한다」라는 술어와 변수항 A 및 변수항 B로 이루어지는 2개의 항의 조합으로 이루어지는 2항 언어 패턴이다.
2개의 언어 패턴(패턴 페어)이 함의 관계에 있을 경우, 본 명세서에서는 그들 패턴 페어를 함의 패턴 페어(간단히는 「함의 페어」)라고 부른다. 질문 응답 시스템에서는 함의 페어를 높은 정밀도로 다수 수집하는 것이 바람직하다.
함의 페어를 획득하기 위한 종래 기술로서 후에 게재하는 비특허문헌 1이 있다. 비특허문헌 1에 기재된 기술은 이하와 같이 해서 함의 관계에 있는 패턴 페어를 수집한다. 미리 함의 관계에 있는 패턴 페어를 수동으로 모음으로써 학습 데이터를 구축한다. 이 학습 데이터에 대해서 N그램, 분포 유사도 등의 스코어를 특징량으로 하여 2개의 언어 패턴이 부여되었을 때에 한쪽이 다른 쪽을 함의하고 있는지의 여부를 판정하는 판정기의 기계 학습을 행한다. 판정기의 학습이 종료되면 다수의 문장을 포함하는 코퍼스로부터 대량의 함의 페어의 후보를 랜덤하게 생성한다. 이들 후보 각각에 대해서 판정기에 의한 판정을 행한다. 그 결과, 함의 관계에 있다고 판정된 패턴 페어를 모음으로써 학습 데이터에 없는 새로운 함의 페어를 수집할 수 있다.
Julien Kloetzer, Kentaro Torisawa, Stijn De Saeger, Motoki Sano, Chikara Hashimoto, Gotou Atsushi, 함의 관계 패턴 페어의 대규모 획득, 2013년도 정보처리학회간사이지부 지부대회(2013년)
종래 기술에 의해 사람의 손을 거치지 않고, 매우 많은 함의 페어를 수집할 수 있다. 그러나 기계 학습에 의한 판정기를 사용할 경우 구체적으로 어떤 페어를 획득할 수 있는지 예측 불가능하며, 정밀도의 보증도 불가능하다. 그 때문에 질문 응답 시스템을 개발할 때에 필요한 언어 전환 패턴 페어(함의 페어)가 망라되어 있지 않은 경우의 대처가 어렵다는 문제가 있다.
그러므로 본 발명의 목적은 원래의 함의 페어를 확장하여 어떤 함의 페어를 획득할 수 있는지 예측 가능하며, 그 정밀도도 어느 정도 보증할 수 있는 함의 관계 페어 확장 장치를 제공하는 것이다.
본 발명의 제 1 국면에 의한 함의 페어 확장 장치는 m항의 함의 페어로부터 n항의 함의 페어를 생성함으로써 함의 페어를 확장한다. 단, m 및 n은 0 이상이며 m<n를 만족시키는 정수이다. 함의 페어 각각은 제 1 언어 패턴과, 제 1 언어 패턴이 함의하는 제 2 언어 패턴의 페어를 포함한다. 함의 페어 확장 장치는 m항의 함의 페어로부터 n항의 함의 페어를 생성하기 위한 생성 규칙을 기억하기 위한 생성 규칙 기억 수단을 포함한다. 상기 생성 규칙은 상기 생성 규칙을 적용하기 위해서 m항의 함의 페어가 충족해야 할 조건과, 상기 조건이 충족되었을 때에 m항의 함의 페어를 구성하는 언어 패턴 각각에 대한 n-m개의 변수의 추가를 포함하는 언어 패턴의 변형 규칙을 규정한다. 함의 페어 확장 장치는 또한 m항의 함의 페어를 받아 상기 m항의 함의 페어에 대해서 생성 규칙 기억 수단에 기억된 생성 규칙 각각에 대해서 상기 생성 규칙의 조건이 m항의 함의 페어에 의해 충족되는지의 여부를 판정하기 위한 판정 수단과, 판정 수단에 의해 조건이 충족되면 판정된 생성 규칙의 변형 규칙을 m항의 함의 페어를 구성하는 각 언어 패턴에 적용함으로써 n항의 함의 페어를 생성하기 위한 규칙 적용 수단을 포함한다.
바람직하게는 m은 0이며, m항의 함의 페어는 각각이 술어로 이루어지는 술어의 함의 페어이다.
보다 바람직하게는 n은 1이다.
함의 페어 확장 장치는 m항의 함의 페어에 대해서 추이율을 적용함으로써 m항의 함의 페어를 확장하기 위한 추이율 적용 수단을 더 포함해도 좋다.
바람직하게는 함의 페어 확장 장치는 규칙 적용 수단에 의해 생성된 n항의 함의 페어에 대해서 추이율을 적용함으로써 n항의 함의 페어를 확장하기 위한 추이율 적용 수단을 더 포함한다.
본 발명의 제 2 국면에 의한 컴퓨터 프로그램은 컴퓨터를 어느 하나의 함의 페어 확장 장치의 모든 수단으로서 기능시킨다.
본 발명의 제 3 국면에 의한 질문 응답 시스템은 상기한 어느 하나의 함의 페어 확장 장치에 의해 확장된 함의 페어를 기억하기 위한 함의 페어 기억 수단과, 복수의 문서를 기억한 문서 기억 수단과, 질문을 받고 상기 질문을 구문 해석함으로써 상기 질문에 대한 회답이 가져야 할 언어 패턴을 추출하기 위한 패턴 추출 수단과, 패턴 추출 수단에 의해 추출된 언어 패턴 각각을 함의 페어 기억 수단에 기억된 함의 페어를 사용하여 확장하기 위한 패턴 확장 수단과, 패턴 확장 수단에 의해 확장된 언어 패턴에 합치하는 표현을 문서 기억 수단에 기억된 문서로부터 검색하고, 질문에 대한 회답으로서의 적합함을 나타내는 스코어를 산출하기 위한 검색 수단과, 검색 수단에 의해 검색된 회답 후보 중 검색 시에 합치한 언어 패턴에 포함되는 변수의 수가 많은 것을 우선하고, 스코어를 사용하여 회답을 선택하기 위한 선택 수단을 포함한다.
도 1은 본 발명의 제 1 실시형태에 의한 함의 패턴 페어 확장 장치의 블록도이다.
도 2는 도 1에 나타내는 유너리 페어 생성부를 실현하는 프로그램의 제어 구조를 나타내는 플로우 차트이다.
도 3은 도 1에 나타내는 유너리 페어 확장부의 블록도이다.
도 4는 도 3에 나타내는 유너리 페어 확장부 중 추이율 페어 추가부를 실현하는 프로그램의 제어 구조를 나타내는 플로우 차트이다.
도 5는 도 1에 나타내는 바이너리 페어 추가부를 실현하는 프로그램의 제어 구조를 나타내는 플로우 차트이다.
도 6은 도 5에 나타내는 바이너리 페어의 생성 처리의 상세를 나타내는 플로우 차트이다.
도 7은 실험에서 얻은 유너리 페어 전체의 평가를 나타내는 그래프이다.
도 8은 실험에서 얻은 유너리 페어 중 500예의 평가를 나타내는 그래프이다.
도 9는 실험에서 얻은 바이너리 함의 페어 중 500예의 평가를 나타내는 그래프이다.
도 10은 본 발명의 제 2 실시형태에 의한 질문 응답 시스템의 개략의 구성을 나타내는 기능적 블록도이다.
도 11은 본 발명의 제 1 실시형태에 의한 함의 패턴 확장 장치 및 제 2 실시형태에 의한 질문 응답 시스템을 실현하는 컴퓨터 시스템의 외관도이다.
도 12는 도 11에 나타내는 컴퓨터의 내부 구성을 나타내는 하드웨어 블록도이다.
이하의 설명 및 도면에서는 동일 부품에는 동일 참조 번호를 붙이고 있다. 따라서 그들에 대한 상세한 설명은 반복하지 않는다.
[용어의 설명]
본 명세서에서는 「유너리 패턴」이란 변수가 1개와 술어 및 일본어에서는 그들을 연결하는 조사로 이루어지는 패턴을 말한다. 위에 열거한 「A를 야기한다」, 「A를 초래한다」 등이 그 예이다.
「유너리 함의 패턴 페어」란 2개의 유너리 패턴으로서, 한쪽이 다른 쪽을 함의하는 것 같은 의미적 관계가 되어 있는 것을 말한다. 「A를 야기한다」와 「A를 초래한다」와 같은 페어가 일례이다. 간단히 「유너리 페어」라고도 부른다.
「바이너리 패턴」이란 변수가 2개와 술어 및 일본어의 경우 그들을 연결하는 조사로 이루어지는 패턴인 것을 말한다. 「A가 B를 야기한다」, 「A가 B를 초래한다」 등이 그 예이다.
「바이너리 함의 패턴 페어」란 2개의 바이너리 패턴으로서, 한쪽이 다른 쪽을 함의하는 것 같은 의미적 관계가 되어 있는 것을 말한다. 「A가 B를 초래한다」와 「A가 B를 야기한다」로 이루어지는 페어가 일례이다. 간단히 「바이너리 페어」라고도 부른다.
「N-어리 패턴」이란 일반적으로 변수가 N항과, 술어와, 그들을 연결하는 조사로 이루어지는 패턴을 말한다. N-어리 함의 패턴 페어(「N-어리 페어」라고 부른다)란 N-어리 패턴의 페어로서, 한쪽이 다른 쪽을 함의하고 있는 것 같은 것을 말한다.
[제 1 실시형태]
<기본적 사고방식>
제 1 실시형태는 동사 사이의 함의 관계를 기술한 원래의 동사 함의 데이터 베이스(DB)로부터 유너리 페어를 생성한다. 이렇게 해서 얻은 유너리 페어에 원래의 유너리 패턴 DB로부터 생성한 유너리 페어를 더 추가한다. 얻어진 복수의 유너리 페어를 개략 이하의 방법으로 더 확장한다. 상세에 대해서는 후술한다.
(1) 술부를 수동태로 변형
(2) 술부를 가능형으로 변형
이들 변형을 각 페어 중 한쪽만, 다른 쪽만, 및 쌍방에 실시할 수 있다.
또한, 각 페어를 구성하는 유너리 각각에 대해서 그 자신과 그 자신에 대해서 상술한 변형을 행하여 얻어진 것을 조합시켜 새로운 유너리 페어를 생성한다.
이어서 추이율을 사용해서 유너리 페어를 확장한다. 즉, 2세트의 유너리 페어 P→Q와 Q→R이 있을 경우 이들로부터 P→R을 생성한다.
최후에, 확장된 유너리 페어 각각에 대해서 쌍방의 패턴에 대해서 새로운 항을 추가함으로써 바이너리로 확장한다. 새로운 항을 추가하는 방법으로서는 원래의 유너리 패턴이 술부가 되도록 새로운 항을 추가하는 방법과, 원래의 유너리 패턴이 연체절이 되도록 새로운 항을 추가하는 방법이 있다. 전자의 예로서는 「A를 초래한다」의 선두에 「A가」를 추가하여 「A가 B를 초래한다」로 하는 변형이 있다. 후자의 예로서는 「A를 초래한다」를 연체절로서 말미에 「A」를 추가하여 「B를 초래하는 A」와 같은 예가 있다. 상세한 것은 후술한다.
<구성>
도 1에 본 발명의 일실시형태에 의한 함의 패턴 페어 확장 장치(50)의 블록도를 나타낸다. 도 1을 참조해서 함의 패턴 페어 확장 장치(50)는 제 1 유너리 DB(52), 제 2 유너리 DB(54), 동사 함의 DB(56) 및 문맥 유사도 기억부(58)를 사용하여 확장 유너리 페어 DB(60) 및 확장 바이너리 페어 DB(62)를 출력하기 위한 것이다.
제 1 유너리 DB(52) 및 제 2 유너리 DB(54)는 모두 원래의 유너리 페어를 저장한 데이터 베이스이다. 이들은 어떻게 해서 얻은 것이어도 좋다. 수작업으로 작성한 것이어도 좋고, 어떠한 처리에 의해 기계적으로 생성한 것이어도 좋다. 또한, 이 실시형태에서는 유너리 DB로서 제 1 유너리 DB(52) 및 제 2 유너리 DB(54)를 사용하고 있지만 이들의 수에 제한이 있는 것은 아니다. 1개이어도 좋고, 3개 이상이어도 좋다. 가령 동사 함의 DB(56)를 사용해서 유너리 페어를 생성할 경우에는 유너리 DB는 전혀 사용하지 않아도 좋다.
동사 함의 DB(56)는 미리 준비된 함의 관계에 있는 동사의 페어를 복수개 기록하고 있다. 동사 함의 페어의 일례는 「초래한다→야기한다」라는 동사 함의 페어이다. 이 데이터로서는 본 실시형태에서는 출원인이 수동으로 구축한 동사 함의 데이터(https://alaginrc.nict.go.jp/)를 사용했다. 이 동사 함의 DB(56)는 52,689페어의 동사 함의 페어를 수록하고 있다.
문맥 유사도 기억부(58)에 기록되어 있는 데이터는 2개의 단어의 문맥 유사도를 산출하기 위한 것이다. 문맥 유사도란 간단히 말하면 2개의 단어가 출현하는 문장상의 위치가 어느 정도 유사한지를 나타내는 척도이다. 문맥 유사도는 2개의 단어 공기(共起) 정도를 사용해서 산출하여 이하의 순서에 의해 얻어진다.
단어 vi와 그 각 문맥 단어 vj 사이의 공기 정도 fij를 구한다. 단어 vi의 문맥 단어란 단어 vi의 출현 개소의 문맥 내에 출현하는 전체 단어를 말한다. 문맥의 범위는 임의로 정하면 좋지만, 예를 들면 그 단어가 출현하는 문장 내, 그 문장을 중심으로 한 전후 소정 수의 문장 내, 동단락 내의 문장 등이 고려된다. 이 처리에 의해 얻어지는 공기 정도 fij를 문맥 단어 vj의 순서에 따라 배열함으로써 벡터가 얻어진다. 이 벡터는 단어 vi에 대한 문맥 벡터라고 생각할 수 있다. 이 단어 vi의 문맥 벡터를 벡터 fi *라고 쓴다. 벡터 fi *는 공기 정도 fij 중에서 단어 vi와 그 문맥 단어에 대응하는 값의 전부로 이루어지는 벡터이다. 전체 단어의 집합 V 내의 단어 vi와 단어 vj의 조합 전부에 대해서 이 벡터 fi * 및 fj *의 코사인 유사도를 계산하고, 그 값을 문맥 유사도 ωij로 한다.
문맥 유사도 기억부(58)에는 미리 상기 순서에 의해 산출한 임의의 2개의 단어 간의 문맥 유사도가 기억되어 있다.
함의 패턴 페어 확장 장치(50)는 제 1 유너리 DB(52) 및 제 2 유너리 DB(54)에 저장된 유너리 페어에 대해서 함의 패턴 페어 확장 장치(50)에서 취급하는 포맷으로 변형하고, 또한 각 유너리 페어의 데이터 소스를 나타내는 값으로서 각 유너리 DB의 식별자를 부가해서 출력하는 유너리 페어 추가부(100)와, 유너리 페어 추가부(100)가 출력하는 유너리 페어를 저장하는 유너리 페어 DB(102)와, 동사 함의 DB(56)에 저장된 동사 함의 페어 각각으로부터 문맥 유사도 기억부(58)에 기억된 문맥 유사도를 사용하여 유너리 페어를 생성하고, 유너리 페어 DB(102)에 추가 출력하는 유너리 페어 생성부(104)를 포함한다.
함의 패턴 페어 확장 장치(50)는 또한 단어의 한자와 그 읽는 법을 기계 판독 가능한 형식으로 저장한 한자 사전(106)과 유너리 페어 DB(102)에 저장된 유너리 페어 각각에 대해서 한자 사전(106)을 참조하면서 확장 처리를 행하여 복수의 유너리 페어를 출력하기 위한 유너리 페어 확장부(108)와, 유너리 페어로부터 바이너리 페어를 생성하기 위한 생성 규칙을 기억한 바이너리 페어 생성 규칙 기억부(110)와, 바이너리 페어 생성 규칙 기억부(110)에 기억된 생성 규칙을 확장 유너리 페어 DB(60)에 기록된 유너리 페어 각각에 대해서 적용함으로써 바이너리 페어를 생성하여 확장 바이너리 페어 DB(62)에 출력하기 위한 바이너리 페어 추가부(112)를 포함한다.
도 2를 참조하여 도 1에 나타내는 유너리 페어 생성부(104)는 컴퓨터 프로그램에 의해 실현할 수 있다. 이 프로그램은 프로그램 개시와 함께 기억 영역의 확보 및 초기화 등을 행하는 스텝 140과, 동사 함의 DB(56)로부터 동사 함의 페어를 모두 판독하는 스텝 142와, 동사 함의 페어 각각에 대해서 처리 146을 실행하는 스텝 144를 포함한다.
처리 146은 처리 대상의 동사 함의 페어를 구성하는 동사 각각에 대해서 「A가」, 「A에」, 「A를」, 및 「A로」를 각각 부여함으로써 복수의 유너리 함의 패턴의 후보 페어를 생성하는 스텝 160과, 이렇게 해서 얻어진 후보 페어 각각에 대해서 그것을 구성하는 페어끼리의 사이에서 문맥 유사도 계산 처리 164를 행하는 스텝 162와, 페어끼리의 사이의 문맥 유사도가 가장 높은 페어를 선택하는 스텝 166과, 선택된 페어를 새로운 유너리 페어로서 유너리 페어 DB(102)에 추가하는 스텝 168을 포함한다. 이렇게 해서 얻어진 패턴 페어에 대해서는 수동으로 그 함의 페어로서의 타당성을 체크하고, 부적당한 것을 삭제하는 것이 바람직하다. 이때 후처리에서 얻어지는 패턴 페어 중으로부터 부적당한 것을 삭제하기 위해서 그와 같이 삭제해야 할 것은 네거티브예로서 보존해 두면 보다 바람직하다. 또한, 후술하는 각 처리에 있어서는 특별히 설명하고 있지 않지만 새로운 유너리 페어 또는 바이너리 페어를 등록할 때에는 이렇게 해서 미리 보존되어 있던, 또는 미리 준비되어 있던 네거티브예와 대조하여 네거티브예는 등록으로부터 제외하도록 한다.
도 3을 참조해서 도 1에 나타내는 유너리 페어 확장부(108)는 컴퓨터 프로그램에 의해 실현할 수 있다. 이 프로그램은 컴퓨터를 유너리 페어 DB(102)로부터 유너리 페어의 레코드를 판독하는 레코드 판독부(180)와, 레코드 판독부(180)에 의해 판독된 유너리 페어 각각에 대해서 페어를 구성하는 패턴 각각에 대해서 수동태로의 변형 및 가능형으로의 변형을 행하고, 그들의 조합으로 얻어지는 새로운 유너리 페어를 원래의 유너리 페어와 함께 확장 유너리 페어 DB(60)에 추가하는 수동태·가능형 추가부(182)와, 수동태·가능형 추가부(182)에 의한 확장 유너리 페어 DB(60)로의 유너리 페어의 추가의 완료 후 확장 유너리 페어 DB(60)에 기억된 유너리 페어로서, 제 1 유너리 페어의 후반부가 제 2 유너리 페어의 전반부와 일치하는 것을 검색하고, 그들의 조합 각각에 대해서 제 1 유너리 페어의 전반부와 제 2 유너리 페어의 후반부를 조합시켜서 새로운 유너리 페어를 생성하고, 확장 유너리 페어 DB(60)에 추가하는 추이율 페어 추가부(184)로서 기능시킨다.
또한, 본 실시형태에서는 수동태·가능형 추가부(182)의 처리 전에 술어의 표기 변형(orthographical variant) 및 어미의 변형을 각 유너리 페어에 적용함으로써 유너리 페어를 더 확장하고 있다. 표기 변형에 대한 대응으로서는 한자 사전(106)을 참조하여 한자로 적힌 술어를 가나 문자로 변환한 패턴을 만들고, 새로운 패턴을 갖는 유너리 페어를 추가한다. 여기에서는 또한, 「A가 일어난다(起きる)→A가 일어난다(おきる)」 및 「A가 일어난다(おきる)→A가 일어난다(起きる)」라는 「한자→가나 문자」 및 「가나 문자→한자」라는 유너리 페어도 동시에 생성하여 확장 유너리 페어 DB(60)에 추가한다. 이러한 페어는 엄밀하게는 「함의」 관계에 있다고는 할 수 없다. 그러나 질문 응답에 있어서의 「언어 전환」이라는 문맥에 있어서는 그러한 페어가 있는 편이 유익하다고 생각된다.
추이율 페어 추가부(184)는 컴퓨터 프로그램에 의해 실현된다. 도 4에 그와 같은 컴퓨터 프로그램의 제어 구조를 플로우 차트 형식으로 나타낸다. 이 프로그램은 확장 유너리 페어 DB(60)로부터 유너리 페어를 모두 판독하는 스텝 220과, 판독된 각 유너리 페어에 대해서 처리 224를 실행하는 스텝 222를 포함한다.
처리 224는 처리 대상의 유너리 페어의 후반부와 일치하는 전반부를 갖는 유너리 페어를 모두 확장 유너리 페어 DB(60)로부터 판독하는 스텝 250과, 스텝 250에서 판독된 유너리 페어 각각에 대해서 처리 254를 실행하는 스텝 252를 포함한다. 이하, 설명을 위해 스텝 222에서 처리 대상으로서 선택된 페어를 제 1 유너리 페어, 스텝 252에서 처리 대상으로서 선택된 페어를 제 2 유너리 페어라고 부른다.
처리 254는 제 1 유너리 페어의 술부가 「한자→가나 문자」의 조합이며, 제 2 유너리 페어의 술부가 「가나 문자→한자」의 조합으로 되어 있는지의 여부를 판정하고, 판정 결과가 긍정이면 처리를 종료하여 다음의 제 2 유너리 페어로 처리를 옮기는 스텝 280과, 스텝 280의 판정 결과가 부정일 때에 제 1 유너리 페어의 전반이 제 2 유너리 페어의 후반과 일치하고 있는지의 여부를 판정하는 스텝 282와, 스텝 282의 판정이 NO일 때에 제 1 유너리 페어의 전반과 제 2 유너리 페어의 후반으로 이루어지는 페어를 새로운 유너리 페어로서 확장 유너리 페어 DB(60)에 추가하는 스텝 284와, 스텝 282의 판정이 긍정일 때에 제 1 및 제 2 유너리 페어 각각에 대해서 그 대우(對偶)에 상당하는 페어를 확장 유너리 페어 DB(60)에 추가하는 스텝 286을 포함한다.
스텝 284의 처리의 결과 P→Q라는 페어와 Q→R이라는 페어로부터 소위 추이율에 의해 P→R이라는 페어가 생성되어 확장 유너리 페어 DB(60)에 추가된다.
스텝 286의 처리는 추이율에 의한 것은 아니다. 스텝 286의 처리가 행해지는 것은 제 1 유너리 페어의 후반과 제 2 유너리 페어의 전반이 동일하고, 또한 제 1 유너리 페어의 전반과 제 2 유너리 페어의 후반이 동일하다는 경우이다. 즉, 제 1 유너리 페어와 제 2 유너리 페어가 서로의 반대로 되어 있는 케이스이다. 즉, P→Q와 Q→P의 쌍방이 존재하고 있다. 이들 2개의 유너리 페어가 함께 존재하고 있다는 것은 이들 2개의 유너리 페어 사이에 소위 「동치」와 마찬가지인 관계가 성립하고 있다고 생각된다. 그래서 본 실시형태에서는 이들 2개의 유너리 페어 쌍방에 대해서 논리학에서 말하는 「대우」에 상당하는 유너리 페어를 생성하여 확장 유너리 페어 DB(60)에 추가한다. 즉, P→Q에 대해서는 ¬Q→¬P라는 유너리 페어(「¬」은 부정을 나타낸다)를 추가하고, Q→P라는 유너리 페어에 대해서는 ¬P→¬Q라는 유너리 페어를 추가한다.
또한, 일반적으로 어떤 명제가 참이면 그 대우도 참으로 되어 있으므로 P→Q라는 유너리 페어가 있으면 그 대우의 ¬Q→¬P라는 유너리 페어를 무조건으로 추가해도 좋은 것 같이 여겨진다. 그러나 본 실시형태에서 취급하고 있는 것은 자연 언어이며, 어떤 유너리 페어가 존재하고 있었다고 해서 그 대우도 실제로 옳다고는 할 수 없다. 그래서 여기에서는 2개의 유너리 페어가 서로 동치일 때만 그들의 대우를 추가하는 것으로 하고 있다.
도 5를 참조하여 본 실시형태에서는 도 1에 나타내는 바이너리 페어 추가부(112)도 컴퓨터 프로그램에 의해 실현된다. 이 프로그램은 확장 유너리 페어 DB(60)로부터 모든 유너리 페어를 판독하는 스텝 320과, 판독된 유너리 페어 각각에 대해서 그 유너리 페어로부터 바이너리 페어를 생성하는 처리 324를 실행하는 스텝 322를 포함한다.
도 6을 참조해서 도 5의 처리 324를 실현하는 프로그램은 도 1에 나타내는 바이너리 페어 생성 규칙 기억부(110)로부터 바이너리 페어의 생성 규칙을 모두 판독하는 스텝 350과, 처리 대상의 유너리 페어에 대해서 스텝 350에서 판독된 생성 규칙 각각을 적용하여 바이너리 페어를 생성하여 확장 바이너리 페어 DB(62)에 추가하는 처리 354를 실행하는 스텝 352를 포함한다. 여기에서 각 바이너리 생성 규칙은 그 바이너리 규칙을 유너리 페어에 적용하기 위해서 유너리 페어가 충족시켜야 할 조건과, 조건이 성립했을 때에 유너리 페어를 구성하는 패턴 페어를 어떻게 변형해서 바이너리 페어를 생성할지를 기술한 명령부로 이루어져 있다. 명령부는 실제로는 문장의 변형 규칙을 기술한 것이다.
처리 354는 처리 대상의 바이너리 페어 생성 규칙을 적용해야 할 조건이 처리 중의 유너리 페어에 의해 충족되는지의 여부를 판정하고, 충족되어 있지 않으면 규칙의 적용을 종료하는 스텝 380과, 스텝 380의 판정이 긍정일 때에 도 5의 스텝 322에서 선택한 유너리 페어에 대해서 도 6의 스텝 352에서 선택한 바이너리 페어 생성 규칙을 적용함으로써 바이너리 페어를 생성하는 스텝 382와, 스텝 382에서 생성된 바이너리 페어를 확장 바이너리 페어 DB(62)에 추가하여 이 바이너리 페어 생성 규칙의 적용을 종료하는 스텝 384를 포함한다.
또한, 바이너리 페어 생성 규칙 기억부(110)에 기억되어 있는 바이너리 페어 생성 규칙은 본 실시형태에서는 If-then 형식으로 기재되어 있다. 1개의 바이너리 페어 생성 규칙은 1개의 유너리 페어에 적용함으로써 1개의 바이너리 페어를 생성하도록 기재되어 있다.
본 실시형태에서는 바이너리 페어 생성 규칙의 주된 것은 이하와 같다.
(1) 만약 유너리 페어의 조사가 「가」가 아닐 경우 유너리 페어의 쌍방에 「A가」를 부가한다. 이 결과, 예를 들면 「A를 사용한다(使う)→A를 사용한다(用いる)」라는 유너리 페어로부터 「A가 B를 사용한다(使う)→A가 B를 사용한다(用いる)」라는 바이너리 페어가 생성된다. 또한, 여기에서 규칙 적용 전에 「A」로서 기재하고 있었던 변수를 「B」로 기재하고 있지만, 이것은 바이너리 페어의 형태를 알기 쉽게 하기 위해서이며, B에서 나타내져 있었던 변수가 다른 변수로 바뀌는 것은 아니다. 이것은 이하의 기재에서도 마찬가지이다.
(2) 만약 유너리 페어의 조사가 「가」가 아닐 경우 유너리 페어 중 전반의 패턴에 「A가」를 부가하고, 후반의 패턴의 선두에 「A가」를 부가해서 「B를」을 삭제하고, 말미에 「B」를 부가한다. (1)과 같은 예에 대해서는 「A가 B를 사용한다(使う)→A가 사용하는(用いる) B」라는 바이너리 페어가 생성된다.
(3) 만약 유너리 페어의 조사가 「가」가 아닐 경우 전반의 선두에 「A가」를 부가하고, 후반의 말미에 「A」를 부가한다. 상기 예로 말하면 「A가 B를 사용한다(使う)→B를 사용하는(用いる) A」라는 바이너리 페어가 생성된다.
(4) 만약 유너리 페어의 조사가 「가」가 아닐 경우 전반의 선두에 「A가」를 부가하고, 「B를」을 삭제해서 말미에 「B」를 부가한다. 후반의 선두에는 「A가」를 부가한다. 상기 예로 말하면 「A가 사용하는(使う) B→A가 B를 사용한다(用いる)」가 얻어진다.
마찬가지의 변환 규칙을 유너리 페어의 전반 또는 후반 또는 그 쌍방에 적용함으로써 새로운 바이너리 페어가 생성된다.
적용의 조건이 되는 조사에 대해서 「가」 대신에 「로」를 조건으로 하는 경우에도 마찬가지의 생성 규칙을 사용해서 바이너리 페어를 생성할 수 있다.
여기에서는 또한, 같은 유너리 패턴을 조합시킨 유너리 페어를 만들고, 상기와 마찬가지의 조작을 행하여 바이너리 페어를 작성한다. 예를 들면, 「A를 사용한다」라는 패턴으로부터 「A가 B를 사용한다→B를 사용하는 A」와 같은 바이너리 페어를 생성하여 확장 바이너리 페어 DB(62)에 저장한다.
또한, 본 실시형태에서는 바이너리 페어 생성 규칙을 프로그램의 외부에 데이터로서 갖고 있지만 본 발명은 그러한 실시형태에는 한정되지 않는다. 생성 규칙을 프로그램의 형식으로 기재하고, 프로그램 실행 시에 동적으로 로드하도록 해도 좋다. 또는 프로그램의 본체에 생성 규칙을 명령 형식으로 순차 기재하도록 해도 좋다. 외부로부터 생성 규칙을 읽어들일 경우 각각의 규칙을 별개의 파일로 해서 미리 준비해 두어도 좋고, 규칙의 전체를 하나의 파일에 정리해 두어도 좋다. 어느 쪽이든 각 규칙은 조건부와 그 조건부가 유너리 페어에 의해 충족되었을 때에 각 패턴에 적용해야 할 변형 규칙의 세트로서 미리 준비되어 어떠한 형태로 준비해 두면 좋다. 규칙의 형식으로서는 상술한 바와 같이 데이터 형식이어도 좋고, 프로그램 형식이어도 좋다. 또한, 프로그램 본체 중에 규칙을 알고리즘 형식으로 삽입되어도 좋고, 실행 시에 외부로부터 인클루드하는 형태로 읽어들이도록 프로그램 형식으로 외부 파일로서 보존하고 있어도 좋다.
<동작>
도 1을 참조해서 상기한 함의 패턴 페어 확장 장치(50)는 이하와 같이 동작한다. 또한, 함의 패턴 페어 확장 장치(50)가 이하의 처리를 실행하는 것에 앞서 제 1 유너리 DB(52), 제 2 유너리 DB(54), 동사 함의 DB(56), 문맥 유사도 기억부(58), 한자 사전(106) 및 바이너리 페어 생성 규칙 기억부(110)에 대해서는 미리 그 내용을 준비해 놓을 필요가 있다.
유너리 페어 추가부(100)는 제 1 유너리 DB(52) 및 제 2 유너리 DB(54)로부터 유너리 페어를 순차 판독하고, 각각에 대해서 함의 패턴 페어 확장 장치(50)에서 취급하는 포맷으로 변형하고, 또한 각 유너리 페어의 데이터 소스를 나타내는 값으로서 각 유너리 DB의 식별자를 부가하여 유너리 페어 DB(102)에 출력한다.
유너리 페어 생성부(104)는 문맥 유사도 기억부(58)에 기억된 문맥 유사도 를 사용하여 이하와 같이 유너리 페어를 생성하고, 유너리 페어 DB(102)에 추가 출력한다. 도 2를 참조하여 유너리 페어 생성부(104)는 처리의 개시와 함께 기억 영역의 확보 및 초기화 등을 행한다(스텝 140). 유너리 페어 생성부(104)는 동사 함의 DB(56)로부터 동사 함의 페어를 모두 판독한다(스텝 142). 유너리 페어 생성부(104)는 판독한 동사 함의 페어 각각에 대해서 처리 146을 실행한다(스텝 144).
처리 146에서는 유너리 페어 생성부(104)는 처리 대상의 동사 함의 페어를 구성하는 동사 각각에 대해서 「A가」, 「A에」, 「A를」, 및 「A로」를 각각 부여함으로써 복수의 유너리 함의 패턴의 후보 페어를 생성한다(스텝 160). 유너리 페어 생성부(104)는 이렇게 해서 얻어진 후보 페어 각각에 대해서 그것을 구성하는 유너리 페어끼리의 사이에서 문맥 유사도 계산 처리 164를 행한다(스텝 162). 유너리 페어 생성부(104)는 계산한 문맥 유사도에 의거하여 유너리 페어를 구성하는 패턴끼리의 사이의 문맥 유사도가 가장 높은 유너리 페어를 선택해서(스텝 166) 새로운 유너리 페어로서 유너리 페어 DB(102)에 추가한다(스텝 168). 이때 새로운 유너리 페어의 데이터 소스로서 동사 함의 DB(56)의 식별자가 새로운 유너리 페어에 부여되고, 또한 기초가 된 동사 함의 페어의 식별자도 부여된다. 유너리 페어 생성부(104)는 이러한 처리를 동사 함의 DB(56)로부터 판독한 모든 동사 함의 페어에 대해서 행한다.
유너리 페어 추가부(100) 및 유너리 페어 생성부(104)에 의한 유너리 페어 DB(102)로의 유너리 페어의 추가가 완료되면 유너리 페어 확장부(108)가 유너리 페어 DB(102)에 저장된 유너리 페어 각각으로부터 복수의 유너리 페어를 생성하여 확장 유너리 페어 DB(60)에 출력한다. 즉, 도 3을 참조해서 유너리 페어 확장부(108)의 레코드 판독부(180)는 유너리 페어 DB(102)로부터 유너리 페어의 레코드를 판독한다. 수동태·가능형 추가부(182)는 레코드 판독부(180)에 의해 판독된 유너리 페어 각각에 대해서 유너리 페어를 구성하는 유너리 패턴 각각에 대해서 수동태로의 변형 및 가능형으로의 변형을 행하고, 그들의 조합으로 얻어지는 복수의 새로운 유너리 페어를 원래의 유너리 페어와 함께 확장 유너리 페어 DB(60)에 추가한다. 이때 새로운 유너리 페어의 기초가 된 유너리 페어의 식별자와 적용된 변형을 특정하는 플래그가 새로운 유너리 페어에 부여된다. 수동태·가능형 추가부(182)에 의한 확장 유너리 페어 DB(60)로의 유너리 페어의 추가 완료 후 추이율 페어 추가부(184)는 술어의 표기 변형 및 어미의 변형을 각 유너리 페어에 적용함으로써 유너리 페어를 더 확장한다. 즉, 추이율 페어 추가부(184)는 한자로 적힌 술어에 대해서 한자 사전(106)을 참조함으로써 가나 문자로 변환한 유너리 패턴을 만들고, 새로운 패턴을 갖는 유너리 페어를 추가한다. 추이율 페어 추가부(184)는 또한 「한자→가나 문자」 및 「가나 문자→한자」라는 유너리 페어도 동시에 생성하여 확장 유너리 페어 DB(60)에 더 추가한다. 이후 추이율 페어 추가부(184)는 확장 유너리 페어 DB(60)에 기억된 유너리 페어의 조합으로서, 제 1 유너리 페어의 후반부가 제 2 유너리 페어의 전반부와 일치하는 것을 검색한다. 검색된 유너리 페어의 조합 각각에 대해서 추이율 페어 추가부(184)는 제 1 유너리 페어의 전반부와 제 2 유너리 페어의 후반부를 조합시켜서 새로운 유너리 페어를 생성하여 확장 유너리 페어 DB(60)에 추가한다.
도 4를 참조해서 보다 구체적으로는 추이율 페어 추가부(184)는 확장 유너리 페어 DB(60)로부터 유너리 페어를 모두 판독하고(스텝 220), 판독된 각 유너리 페어에 대해서 처리 224를 실행한다(스텝 222). 즉, 스텝 222에서는 추이율 페어 추가부(184)는 판독된 유너리 페어를 소정의 순서로 차례대로 처리 대상으로서 선택하고, 선택된 유너리 페어(제 1 유너리 페어)에 대해서 이하와 같이 처리 224를 실행한다.
처리 224에서는 추이율 페어 추가부(184)는 처리 대상의 유너리 페어의 후반부와 일치하는 전반부를 갖는 유너리 페어를 모두 확장 유너리 페어 DB(60)로부터 판독한다(스텝 250). 추이율 페어 추가부(184)는 스텝 250에서 판독된 유너리 페어(제 2 유너리 페어) 각각에 대해서 이하의 처리 254를 실행한다(스텝 252). 처리 254에서는 추이율 페어 추가부(184)는 제 1 유너리 페어의 술부가 「한자→가나 문자」의 조합이며, 제 2 유너리 페어의 술부가 「가나 문자→한자」의 조합이면 처리를 종료하고 다음의 제 2 유너리 페어로 처리를 옮긴다(스텝 280에서 긍정). 스텝 280의 판정이 부정일 때에는 추이율 페어 추가부(184)는 제 1 유너리 페어의 전반 패턴이 제 2 유너리 페어의 후반 패턴과 일치하고 있는지의 여부를 판정한다(스텝 282). 판정이 NO일 때에는 추이율 페어 추가부(184)는 제 1 유너리 페어의 전반 패턴과 제 2 유너리 페어의 후반 패턴으로 이루어지는 유너리 페어를 새로운 유너리 페어로서 확장 유너리 페어 DB(60)에 추가한다(스텝 284). 스텝 282의 판정이 긍정일 때에는 추이율 페어 추가부(184)는 제 1 및 제 2 유너리 페어 각각에 대해서 그 대우에 상당하는 유너리 페어를 확장 유너리 페어 DB(60)에 추가한다(스텝 286).
스텝 284의 처리의 결과 P→Q라는 페어와 Q→R이라는 페어로부터 소위 추이율에 의해 P→R이라는 페어가 생성되어 확장 유너리 페어 DB(60)에 추가된다. 스텝 286의 처리에서는 P→Q에 대해서는 ¬Q→¬P라는 페어를 추가하고, Q→P라는 페어에 대해서는 ¬P→¬Q라는 페어를 추가한다.
추이율 페어 추가부(184)에 의한 추이율 페어의 등록이 완료되면 확장 유너리 페어 DB(60)에는 제 1 유너리 DB(52), 제 2 유너리 DB(54) 및 동사 함의 DB(56)에 기억된 유너리 페어 및 동사 함의 페어로부터 확장한 유너리 페어가 축적되어 있으며, 이용하는 것이 가능하게 되어 있다. 또한, 추이율에 의해 생성한 유너리 페어에는 기초가 된 2세트의 유너리 페어의 식별자와 추이율에 의해 추가된 것을 나타내는 플래그가 부여되고, 동치에 의해 추가된 유너리 페어에는 기초가 된 2세트의 유너리 페어의 식별자와 동치에 의해 추가된 것을 나타내는 플래그가 부여된다.
도 1로 돌아와서 확장 유너리 페어 DB(60)로의 유너리 페어의 축적을 완료하면 바이너리 페어 추가부(112)가 확장 유너리 페어 DB(60)에 저장된 유너리 페어 각각에 대해서 이하와 같이 복수의 바이너리 페어를 생성하여 확장 바이너리 페어 DB(62)에 저장한다. 구체적으로는 도 5를 참조하며, 바이너리 페어 추가부(112)는 확장 유너리 페어 DB(60)로부터 모든 유너리 페어를 판독한다(스텝 320). 바이너리 페어 추가부(112)는 판독된 유너리 페어를 차례로 선택하고(스텝 322), 그 각각에 대해서 그 유너리 페어로부터 바이너리 페어를 생성하는 처리 324를 실행한다.
도 6을 참조해서 바이너리 페어 추가부(112)는 도 5의 처리 324에 있어서 도 1에 나타내는 바이너리 페어 생성 규칙 기억부(110)로부터 바이너리 페어의 생성 규칙을 모두 판독한다(스텝 350). 바이너리 페어 추가부(112)는 선택한 처리 대상의 유너리 페어에 대해서 스텝 350에서 판독된 생성 규칙 각각을 차례로 선택하고(스텝 352), 처리 354를 더 실행한다. 처리 354에서는 바이너리 페어 추가부(112)는 처리 중의 유너리 페어가 처리 대상의 바이너리 페어 생성 규칙을 적용해야 할 조건을 충족하는지의 여부를 판정한다(스텝 380). 조건이 충족되어 있지 않으면 이 규칙의 적용을 종료하고, 다음의 생성 규칙의 적용에 처리를 진행한다(스텝 380의 판정이 NO). 스텝 380의 판정이 긍정일 때에는 바이너리 페어 추가부(112)는 처리 대상의 유너리 페어에 대해서 처리 중의 바이너리 페어 생성 규칙을 적용함으로써 바이너리 페어를 생성한다(스텝 382). 바이너리 페어 추가부(112)는 이렇게 해서 생성된 바이너리 페어를 확장 바이너리 페어 DB(62)에 추가하여 이 바이너리 페어 생성 규칙의 적용을 종료한다(스텝 384).
본 실시형태에서는 「A를 사용한다(使う)→A를 사용한다(用いる)」라는 유너리 페어로부터는 이하와 같은 바이너리 페어가 생성된다.
Figure pct00001
바이너리 페어 추가부(112)가 확장 유너리 페어 DB(60)에 기억된 모든 유너리 페어에 대해서 바이너리 페어 생성 규칙 기억부(110)에 기억된 생성 규칙을 적용하고, 생성된 모든 바이너리 페어(네거티브예를 제외)를 확장 바이너리 페어 DB(62)에 추가함으로써 확장 바이너리 페어 DB(62)에 제 1 유너리 DB(52), 제 2 유너리 DB(54) 및 동사 함의 DB(56)로부터 확장해서 얻어진 바이너리 페어가 축적되어 이용 가능하게 된다. 이때 각 바이너리 페어에는 그 바이너리 페어의 기초가 된 유너리 페어의 식별자와 적용한 생성 규칙의 식별자가 정보로서 부가된다.
통상 질문 응답 시스템에서는 유너리 페어는 질문에 대한 회답으로서 적중하기 쉽다. 그러나 유너리 페어는 항을 1개밖에 갖지 않는다. 그 때문에 유너리 페어만으로부터 회답을 얻으려고 하면 회답 정밀도에 과도한 기대는 할 수 없다. 그래서 회답을 검색할 때에는 최초에 바이너리 페어를 사용하고, 바이너리 페어에서는 회답이 발견되지 않을 경우에 유너리 페어를 사용한다. 이러한 회답 검색의 방법에 의해 회답의 정밀도를 높게 유지하면서 적중율도 높일 수 있다. 그 경우 상기 실시형태의 방법에 따라서 바이너리 페어를 충실하게 함으로써 회답의 정밀도를 더 높이는 것을 기대할 수 있다.
또한, 상기 방법으로 생성된 유너리 페어도 다음과 같은 방법으로 질문 응답 시스템에 이용할 수 있다. 우선 페어를 구성하는 각 패턴의 코퍼스 중의 출현 빈도를 미리 계산해 둔다. 후술하는 실험에서는 웹으로부터 수집한 다수의 문서 중에 있어서 각 패턴이 회답 검색에서 적중했을 경우에는 유너리 패턴의 데이터의 유래 및 성질에 따라 이하와 같은 우선순위에 따라서 우선적으로 언어 전환 패턴으로서 유너리 페어를 이용한다.
(1) 동치 관계(P→Q와 Q→P가 함께 성립할 경우)
(2) 읽는 법 또는 형태(가능형·수동태)가 다른 동일한 술어
(3) 상기 이외에서 제 1 유너리 DB(52) 및 제 2 유너리 DB(54)로부터 확장된 유너리 페어
그리고 데이터의 유래에 관계없이 상기 웹으로부터 수집한 문서 중의 빈도가 어떤 정수 미만의 패턴의 우선순위는 가장 낮아지도록 설정했다. 후술하는 평가 실험에서는 웹 상으로부터 수집한 문서의 수는 6억개이며, 가장 우선순위를 낮게 설정하기 위한 역치는 10으로 했다.
<평가>
이상으로 구성을 설명한 제 1 실시형태에 의한 함의 페어(유너리 페어 및 바이너리 페어)의 평가 실험에 대해서 설명한다. 이 실험에서는 제 1 유너리 DB(52) 및 제 2 유너리 DB(54) 대신에 3개의 유너리 페어의 집합을 사용했다. 이들 중 제 1의 것은 원래의 유너리 페어로부터 페어를 구성하는 패턴 간의 문맥 유사도가 상위인 것을 수동으로 체크해서 구축한 것이며, 83,706예의 유너리 페어로 이루어진다. 제 2의 것은 원래의 술어쌍으로부터 조사가 「를, 에, 로」인 술어를 선택해서 유너리 페어로 한 것이다. 이때 의미가 애매한 것은 수동으로 체크하고, 또한 포지티브예로 판단된 것만을 선택함으로써 구축한 것이며, 7,334예의 유너리 페어로 이루어진다. 제 3의 것은 출원인이 지금까지 구축해 온 몇 개의 데이터를 기초로 얻은 27,369예의 포지티브예로 이루어지는 것이다.
동사 함의 DB(56)로서는 상기한 바와 같이 출원인이 수동으로 구축한 동사 함의 데이터(https://alaginrc.nict.go.jp/)를 사용했다. 이 동사 함의 DB(56)는 52,689페어의 동사 함의 페어를 수록하고 있다. 이에 대해서 유너리 페어 생성부(104)의 처리를 행하고, 얻어진 유너리 페어를 수동으로 체크해서 포지티브예를 축적했다. 이 결과 얻어진 유너리 페어는 51,589페어이었다.
이상으로부터 처리의 종류로서 사용된 유너리 페어의 수는 83,706+7,334+27,369+51,589=169,998이다.
상기 실시형태에 의한 방법을 사용하여 이러한 유너리 페어 및 바이너리 페어를 생성한 결과 다음과 같은 수의 페어가 얻어졌다. 우선 추이율을 적용하기 전의 유너리 페어의 수는 901,232이었다. 이것은 원래의 유너리 페어의 개수의 8배 이상이다. 추이율에 의한 확장으로 새로이 2,864,415개의 유너리 페어가 얻어졌다. 이 페어 수는 추이율 적용 전의 약 3배이다. 또한, 같은 유너리 표현으로부터 바이너리 페어를 확장함으로써 최종적으로는 42,096,327개의 바이너리 페어가 생성되었다. 기초가 되는 유너리 페어의 개수와 비교해서 약 280배가 되어 있다.
상기 처리에서 생성된 페어는 휴리스틱에 의해 이하와 같이 스코어를 매겼다.
Figure pct00002
여기에서 f는 어떤 페어를 생성하는 기초가 된 2개의 유너리 패턴이 웹 6억 문서 중에 나타난 빈도의 합계를 나타낸다. α, β의 값은 기초가 되는 유너리 패턴에 따라 이하와 같이 부여된다.
·동치 관계에 있는 패턴: α=2, β=-0.2
·추이율에서 확장한 패턴: α=-0.2, β=-0.8
·상기 이외의 패턴: α=0.1, β=-0.3
도 7은 유너리 페어의 전체의 평가를 나타내는 그래프이다. 이 그래프는 이하와 같이 해서 확장 유너리 페어 DB(60)에 얻어진 유너리 페어 전체(3,765,647개)를 평가한 것이다.
(1) 유너리 페어를 구성하는 2개의 패턴의 웹 6억 문서 중에 있어서의 출현 빈도가 모두 10 이상인 것을 선택했다.
(2) (1)에서 선택된 것으로부터 랜덤 샘플링으로 500페어를 선택하고, 3명의 어노테이터에 의해 각 유너리 페어의 옳고 그름을 평가했다. 이 어노테이터는 모두 본원발명의 발명자와는 다르다. 최종 평가는 3명의 어노테이터에 의한 평가의 다수결에 의했다. 이때의 일치율은 Kappa:0.46이며, 중간 정도의 일치율이다.
(3) 500샘플을 각 샘플을 구성하는 패턴의 출현 빈도의 곱에 의해 정렬하여 플롯팅했다.
이 도면으로부터 각 패턴의 출현 빈도에 의한 차는 그다지 보이지 않는 것을 알 수 있다.
또한, 추이율에서 확장한 유너리 페어와 그 이외에서 확장한 페어에 대해서 각각 포지티브예의 평가를 하여 이하의 결과를 얻었다.
Figure pct00003
도 8은 500페어의 유너리 페어를 랜덤 샘플링해서 평가하고, 그 우선순위(스코어)가 높은 순으로 정렬하고, 상위 n위의 정밀도를 플롯팅한 것이다. 전체적으로는 0.68정도의 정밀도가 되었다. 그러나 테이블 1에 나타내는 바와 같이 추이율 이외에서 생성한 유너리 페어에 대해서는 0.8을 초과하는 정밀도가 얻어졌다.
마찬가지로 생성된 바이너리 페어(42,096,327개)로부터 500페어를 랜덤 샘플링하여 평가하고, 그 스코어순으로 정렬해서 플롯팅한 결과를 도 9에 나타낸다. 도 9의 그래프가 나타내는 바와 같이 전체적으로의 정밀도는 0.66이 되며, 유너리 페어와 같은 정도의 정밀도가 되었다.
질문 응답 시스템에 있어서의 언어 전환으로의 이용이라는 관점으로부터 말하면 약 4,200만의 바이너리 페어에서는 상위 30%로 약 1,200만 페어, 약 380만의 유너리 페어에서는 상위 20%로 약 75만 페어에 관해서 0.8정도의 정밀도가 얻어졌다. 이 수에서 이 정밀도이면 충분히 실용적인 데이터가 얻어졌다고 평가할 수 있다.
이들 페어에 기계 학습에 의해 획득한 페어를 더 포함시키고, 토탈 약 1억의 함의 페어를 언어 전환용의 자원으로서 출원인이 작성한 질문 응답 시스템에 삽입하고, 「빅 데이터는 무엇에 사용하는가」라는 질문을 입력했다. 그 결과 「비지니스」, 「마케팅」이라는 예상 가능한 회답에 추가해서 「수송 계획에 도움이 된다」, 「빅 데이터의 활용이 정확한 정치적 예측에 어떻게 도움이 될지가 왕성하게 알려진다」라는 회답이 얻어졌다. 이들을 얻기 위해서는 모두 「A에 도움이 되다→A에 사용한다」라는 추이율을 기초로 얻어진 페어가 사용되어 있다. 또한, 「노부나가는 무엇을 노렸는가」라는 질문에 대해서는 「천하통일」이라는 상식적인 회답뿐만 아니라 「절대 왕정을 목표로 한다」, 「자유 경제를 목표로 한다」라는 회답이 얻어졌다. 이들은 「A가 B를 목표로 한다→A가 B를 노린다」, 「B를 목표로 하는 A→A가 B를 노린다」라는 추이율을 기초로 얻어진 페어가 언어 전환에 사용되어 있다. 따라서 상기한 실시형태의 방법을 사용하여 함의 페어를 확장해서 질문 응답 시스템의 언어 전환에 사용함으로써 다양한 회답이 추출되어 있는 것을 확인할 수 있었다.
<변형예>
본 실시형태에서는 추이율의 적용을 2단계에 한정시키고 있다. 이것은 3단계 이상이 되면 처리에 시간을 요하기 때문이다. 원리적으로는 이 추이율은 몇 단계에서도 적용할 수 있다. 도 4에 나타내는 처리 224를 네스티드 형식으로 적용하면 좋다. 무엇보다 추이율의 적용 단계의 수가 많아지면 정밀도의 저하가 예측된다. 실용적으로는 3단계 또는 4단계 정도가 한도라고 생각된다. 그러나 처리의 방법에 따라서는 그 이상의 수의 함의 페어 사이에서 추이율을 적용해도 정밀도의 저하를 방지할 수 있을지도 모른다. 그들에 대해서는 금후의 검증이 필요하다.
또한, 상기 실시형태에서는 추이율의 적용을 유너리 페어의 확장 후에 행하고 있다. 그러나 원리적으로는 추이율의 적용은 유너리 페어의 확장 후가 아닌 동사 함의 페어의 단계 또는 유너리 페어의 확장 전에 행하는 것도 고려된다. 단, 예를 들면 동사 함의 페어의 경우에는 동사 자체의 다의성 때문에 추이율의 적용에 의해 얻어지는 새로운 동사 함의 페어가 부적당한 것이 되는 것도 고려된다. 따라서 추이율 적용 후의 체크에 의해 부적절한 페어를 제거할 필요가 있다. 확장 전의 유너리 페어에 대한 추이율의 적용 시에는 그와 같은 위험성은 낮지만 추이율의 적용에 의해 얻어지는 새로운 유너리 페어의 수는 확장 후에 추이율을 적용할 경우보다 적어진다고 생각된다. 그 때문에 언어 전환 표현을 획득한다는 의미에서는 상기 실시형태보다 불리해질 가능성은 있다. 그러나 그래도 종래 기술과는 달리 예측이 가능한 형태로 유너리 페어를 확장할 수 있다는 효과가 얻어지는 것은 변하지 않는다. 따라서 그러한 실시형태도 충분히 고려된다.
또한, 상기 실시형태에서는 유너리 페어로부터 바이너리 페어로의 확장을 행하고 있다. 그러나 본 발명은 그러한 실시형태에는 한정되지 않는다. 바이너리 페어에 항을 더 추가함으로써 3항 페어(「터너리 페어」라고 부른다)로의 확장을 행할 수도 있다. 터너리 페어의 예로서는 「A가 B에 C를 보내다」가 있다. 그 방법으로서는 유너리 페어로부터 바이너리 페어로의 확장 시와 마찬가지의 생성 규칙에 의한 방법을 그대로 사용할 수 있다. 단, 터너리 패턴의 생성 시에는 규칙을 적용할 수 있는 조건의 지정이 바이너리 페어의 경우보다 복잡해지는 것, 얻어지는 터너리 페어의 버라이어티가 바이너리 페어의 경우와 비교해서 많아지는 것, 따라서 처리에 요하는 시간도 길어지는 것이 고려된다. 마찬가지의 생각으로 4 이상의 자연수 n에 대해서 m=n-1로서 m-아리 패턴을 확장해서 N-어리 패턴을 얻을 수도 있다. 설치상의 제약은 규칙 결정의 작업량과 처리 시간의 문제에 지나지 않는다.
또한, 유너리 페어로부터 직접적으로 터너리 페어로 확장하는 것도 가능하다. 이 경우 조건이 충족되었을 때에 유너리 페어에 2항을 추가하는 규칙을 작성하면 좋다. 유너리 페어로부터 바이너리 페어를 작성하는 규칙과 유너리 페어로부터 터너리 페어를 작성하는 규칙을 혼합해서 유너리 페어에 적용함으로써 바이너리 페어와 터너리 페어를 동시에 생성할 수도 있다.
이상과 같이 본 발명에 의하면 단순한 동사의 함의 페어로부터 항이 1개 이상인 복잡한 언어 패턴 간의 함의 페어를 간편한 규칙을 적용함으로써 생성할 수 있다. 이 방법에서는 필요한 동사의 함의 페어를 준비하면 그것에 관련되는 여러 가지 패턴으로 이루어지는 함의 페어가 자동적으로 생성된다. 종래와 같이 기계학습으로 획득한 페어만으로는 망라할 수 없었던 함의 페어를 대량으로 획득할 수 있다. 이 결과 이 함의 페어를 질문 응답 시스템에 있어서의 언어 전환에 적용함으로써 얻어지는 회답이 대폭으로 증가한다는 효과를 얻을 수 있다. 이 확장에 의해 얻어지는 함의 페어가 어떤 것인가는 기초가 되는 동사의 함의 페어로부터 예측할 수 있다. 또한, 상기한 바와 같이 최종적으로 채용하는 데이터의 정밀도가 어느 정도의 값이 되는 것을 보증할 수 있다. 따라서 종래의 기술과 비교해서 질문 응답 시스템 등의 자연 언어를 이용한 시스템에 이용 가능한 정밀도가 높은 함의 페어의 집합을 효율 좋게 수집할 수 있다.
[제 2 실시형태]
상기 제 1 실시형태에 의한 함의 패턴 페어 확장 장치(50)에 의해 확장 유너리 페어 DB(60) 및 확장 바이너리 페어 DB(62)와 같이 복수의 DB를 얻을 수 있다. 제 2 실시형태는 그러한 복수의 DB를 사용하여 질문에 대한 회답을 웹 아카이브로부터 검색하는 질문 응답 시스템에 관한 것이다. 또한, 이 제 2 실시형태에 의한 질문 응답 시스템은 일반적인 예로서 변수를 n항까지 포함하는 패턴까지로 확장한 함의 페어를 기억한 DB, 즉 확장 N-어리 DB까지 취급하는 것으로 한다. 확장 유너리 페어, 확장 바이너리 페어 및 일반적인 확장 N-어리 페어를 통틀어 이하에서는 확장 페어라고 부르고, 이들을 각각 기억한 DB(확장 유너리 페어 DB(60), 확장 바이너리 페어 DB(62) 등)를 총칭해서 확장 페어 DB라고 부른다.
도 10을 참조해서 이 제 2 실시형태에 의한 질문 응답 시스템(500)은 음성에 의한 질문(502)을 받고, 질문에 대한 회답(504)을 음성으로 출력한다. 질문(502)은 이 질문 응답 시스템(500)에 설치된 마이크로폰 및 음성 처리부에 의해 받아도 좋고, 네트워크를 통해서 다른 단말로부터 받아들이도록 해도 좋다.
질문(502)에 대해서 음성 인식부(520)가 음성 인식을 행하여 문법 정보가 첨부된 텍스트로 이루어지는 질문문을 출력한다. 구문 해석부(522)가 이 질문문에 대해서 미리 준비한 구문 변환 규칙을 적용함으로써 긍정문을 얻고, 의존 해석 및 구문 해석을 더 행하고, 단어 간의 의미적인 의존 관계를 나타내는 그래프 형식의 의존 정보를 출력한다. 이 의존 정보를 패턴 추출부(526)가 스캔해서 그래프 상에 존재하는 단어를 연결하는 패스로부터 패턴을 추출한다. 이때 그 패턴에 포함되는 변수의 항수의 상한을 N으로 한다. 이 항수의 최대값은 최대 항수 기억부(524)에 기억되어 있으며, 패턴 추출부(526)는 이 값을 판독하여 의존 정보로부터 최대로 N항의 변수를 포함하는 패턴을 추출한다. 변수가 1개일 때 및 2개일 때는 상술한 바와 같이 유너리 및 바이너리라고 부르고 있다. 일반적으로 변수가 N개인 패턴을 N-어리 패턴이라고 부르기로 한다. 따라서 패턴 추출부(526)가 추출하는 패턴은 유너리 패턴, 바이너리 패턴, …, N-어리 패턴이다.
보다 구체적으로는 패턴 추출부(526)는 그래프상에서 명사와 술어를 연결하는 패스에 있어서 명사를 변수로 치환함으로써 유너리 패턴을 추출한다. 패턴 추출부(526)는 마찬가지로 그래프상에서 2개의 명사와 술어를 연결하는 패스에 있어서 2개의 명사를 각각 변수로 치환함으로써 바이너리 패턴을 추출한다. 이하 마찬가지이다. 또한, 여기에서 패턴 추출부(526)는 명사를 변수로 치환할 때에 그 명사의 의미 클래스에 대응한 제약을 변수로 부여한다. 예를 들면, 명사가 지명이면 「지명」, 음식물이면 「음식물」 등의 제약이 변수로 부여된다. 이렇게 함으로써 회답을 검색할 때에 구문 형식은 아주 비슷하지만 의미적으로는 무관계인 후보를 제외할 수 있다.
질문 응답 시스템(500)은 이 때문에 상술한 확장 유너리 페어 DB(60) 및 확장 바이너리 페어 DB(62)에 추가해서 N-어리 페어를 저장한 확장 N-어리 DB(530)까지의 확장 페어 DB를 포함한다. 물론 N=2어도 좋고, 그 경우에는 질문 응답 시스템(500)은 함의 페어로서 확장 유너리 페어 DB(60)와 확장 바이너리 페어 DB(62)만을 포함하게 된다.
패턴 추출부(526)가 추출한 패턴은 확장 유너리 페어 DB(60), 확장 바이너리 페어 DB(62), …, 확장 N-어리 페어 DB(530)를 이용해서 패턴 확장부(528)에 의해 확장된다. 패턴 확장부(528)는 확장 대상의 패턴이 유너리 패턴이면 확장 유너리 페어 DB(60)를 이용해서 패턴의 확장을 행한다. 패턴 확장부(528)는 마찬가지로 확장 대상의 패턴이 바이너리 패턴이면 확장 바이너리 페어 DB(62)를 이용해서 패턴의 확장을 행한다. 이하 마찬가지이다. 여기에서는 패턴 확장부(528)는 확장 유너리 페어 DB(60), 확장 바이너리 페어 DB(62), …, 확장 N-어리 페어 DB(530)를 순서대로 이용해서 함의 페어의 확장을 행한다. 그 때문에 질문 응답 시스템(500)은 패턴 확장부(528)에 의해 제어되어 확장 유너리 페어 DB(60), 확장 바이너리 페어 DB(62), …, 확장 N-어리 페어 DB(530) 중 패턴 확장부(528)에 의해 지정된 확장 페어 DB를 선택적으로 패턴 확장부(528)에 접속하는 실렉터(532)를 포함한다.
이렇게 패턴 추출부(526)에 의해 추출되어서 얻은 유너리 페어, 바이너리 페어 …, N-어리 페어는 각각 확장 유너리 페어 DB(60), 확장 바이너리 페어 DB(62), …, 확장 N-어리 페어 DB(530)에 저장된 함의 페어를 사용해서 모두 대폭으로 확장된다. 그 결과 패턴 확장부(528)로부터는 변수에 제약이 부여된 대량의 패턴이 출력된다.
질문 응답 시스템(500)은 웹상의 대량의 데이터를 기억한 웹 아카이브(534)를 포함한다. 회답 후보 검색부(536)가 패턴 확장부(528)로부터 출력된 대량의 패턴에 합치하는 표현을 갖는 문장을 웹 아카이브(534)로부터 검색하고, 각각 어느 확장 페어 DB에 기억되어 있었던 페어에 합치할 것인지의 여부에 따라 분류해서 출력한다. 회답 후보 검색부(536)의 출력하는 회답 후보는 유너리 회답 후보 기억부(538), 바이너리 회답 후보 기억부(540), …, N-어리 회답 후보 기억부(542)에 각각 분류해서 기억된다. 또한, 회답 후보 검색부(536)는 미리 학습용 데이터에 의한 기계 학습을 마친 판별기를 포함한다. 이 판별기는 패턴에 포함되는 단어의 의미적 클래스, 그 회답 후보를 검색할 때에 사용된 패턴, 그 패턴과 원래의 질문문의 의미적인 유사도, 회답 후보와 그것을 추출할 때에 사용된 패턴의 관련도 등 여러 가지 요인을 포함해서 회답 후보의 검색을 하고, 각각 질문(502)에 대한 회답으로서의 적합함을 나타내는 스코어를 각 회답 후보에 매긴다.
질문 응답 시스템(500)은 유너리 회답 후보 기억부(538), 바이너리 회답 후보 기억부(540), …, N-어리 회답 후보 기억부(542)에 기억된 회답 후보 중으로부터 회답을 선택하기 위해서 미리 준비된 역치를 기억하는 역치 기억부(546)와, 역치 기억부(546)에 기억된 역치 이상의 스코어를 갖는 회답을 1개만 유너리 회답 후보 기억부(538), 바이너리 회답 후보 기억부(540), …, N-어리 회답 후보 기억부(542)에 기억된 회답 후보 중으로부터 선택하는 회답 선택부(548)를 더 포함한다.
회답 선택부(548)는 이 선택할 때 최초에 회답 후보 중에서 가장 변수가 많은 패턴을 사용해서 검색된 회답 후보가 있으면 그 중에서 스코어가 가장 높으며, 또한 스코어가 역치 이상인 것을 회답으로서 선택한다. 만약 그와 같은 회답 후보가 없으면 회답 선택부(548)는 변수의 수가 1개 적은 패턴을 사용해서 검색된 회답 후보로부터의 회답의 선택을 시도한다. 이하, 변수의 값이 1이 될 때까지 마찬가지의 처리가 행해진다. 회답 선택부(548)는 이렇게 변수가 많은 패턴을 사용해서 검색된 회답 후보를 우선하여 회답을 선택한다. 따라서 질문 응답 시스템(500)은 회답 선택부(548)에 의한 제어에 따라서 N-어리 회답 후보 기억부(542), …, 바이너리 회답 후보 기억부(540), 유너리 회답 후보 기억부(538) 중 어느 하나를 선택해서 회답 선택부(548)의 입력에 결합하는 실렉터(544)를 더 포함한다.
유너리 페어를 사용해서 검색된 회답 후보까지 모두 조사해도 조건을 충족하는 회답 후보가 발견되지 않았을 경우에는 미리 정한 기준에 의해 선정된 회답 후보가 선택된다.
또한, 회답 후보를 선택할 때의 역치는 그 회답 후보를 검색할 때에 사용된 패턴에 포함되는 변수의 수에 상관없이 일정해도 좋고, 변수의 수가 커짐에 따라서 역치가 작아지도록 해도 좋다. 발견된 회답 후보가 모두 조건을 충족하지 않을 때에는, 예를 들면 발견된 회답 후보 중에서 가장 스코어가 높았던 것을 회답으로 해도 좋고, 검색할 때에 사용된 패턴의 변수의 항수가 가장 많은 회답 후보 중에서 스코어가 가장 높은 것을 선택하도록 해도 좋다.
회답 선택부(548)가 선택한 회답은 회답 출력부(550)에 전해진다. 회답 출력부(550)는 이 회답을 질문(502)의 입력 경로에 따른 경로에 입력 형식에 대응한 형식으로 회답(504)으로서 출력한다. 예를 들면, 질문(502)이 질문 응답 시스템(500)에 구비된 마이크로폰 등 경유에서 입력되었을 경우 회답 출력부(550)는 회답(504)을 음성으로 변환하고, 음성을 스피커에서 출력한다. 질문(502)이 네트워크 경유에서 음성으로서 보내져 왔을 때에는 회답 출력부(550)는 질문(502)을 송신해서 온 어드레스에 대해서 음성으로서 출력하도록 가공한 데이터를 송신한다.
이상과 같이 이 제 2 실시형태에 의한 질문 응답 시스템(500)은 제 1 실시형태에 의한 함의 패턴 페어 확장 장치(50)로 확장한 확장 유너리 페어 DB(60), 확장 바이너리 페어 DB(62), …, 확장 N-어리 페어 DB(530)을 사용하여 질문(502)으로부터 얻은 패턴을 확장한다. 이들 확장 페어의 수는 매우 많아 질문(502)으로부터 얻어지는 패턴의 수도 매우 많아진다. 그렇게 대량의 패턴을 사용해서 웹 아카이브(534)로부터 회답 후보를 검색한다. 따라서 구문의 형식으로서는 질문(502)과는 크게 다른 것이라도 회답으로서 적합한 것을 검색할 수 있을 가능성이 높아진다. 또한, 추이율을 사용해서 패턴 페어가 확장되어 있으므로 질문(502)으로부터 얻은 패턴과 상이한 의외인 패턴의 회답이 얻어질 가능성도 높아진다. 또한, 회답을 검색할 때에 사용된 패턴에 포함되는 변수의 수가 많은 회답 후보를 우선해서 선택한다. 그 결과, 질문(502)에 대하여 보다 구체적이며, 적절한 회답을 얻을 수 있는 가능성이 높아진다는 효과가 있다.
[컴퓨터에 의한 실현]
상기 제 1 실시형태에 의한 함의 패턴 페어 확장 장치(50), 제 2 실시형태에 의한 질문 응답 시스템(500) 및 그 밖의 변형예는 컴퓨터 하드웨어와 그 컴퓨터 하드웨어상에서 실행되는 컴퓨터 프로그램에 의해 실현할 수 있다. 도 11은 이 컴퓨터 시스템(930)의 외관을 나타내고, 도 12는 컴퓨터 시스템(930)의 내부 구성을 나타낸다.
도 11을 참조하여 이 컴퓨터 시스템(930)은 메모리 포트(952) 및 DVD(Digital Versatile Disc) 드라이브(950)를 갖는 컴퓨터(940)와, 키보드(946)와, 마우스(948)와, 모니터(942)를 포함한다.
도 12를 참조하여 컴퓨터(940)는 메모리 포트(952) 및 DVD 드라이브(950)에 추가해서 CPU(중앙처리장치)(956)와, CPU(956), 메모리 포트(952) 및 DVD 드라이브(950)에 접속된 버스(966)와, 부트 프로그램 등을 기억하는 판독 전용 메모리(ROM)(958)와, 버스(966)에 접속되어 프로그램 명령, 시스템 프로그램 및 작업 데이터 등을 기억하는 랜덤 액세스 메모리(RAM)(960)와, 하드디스크(954)를 포함한다. 컴퓨터 시스템(930)은 타 단말과의 통신을 가능하게 하는 네트워크(968)로의 접속을 제공하는 네트워크 인터페이스(I/F)(944)를 더 포함한다.
RAM(960), 하드디스크(954) 및 메모리 포트(952)에 장착 가능한 착탈 가능한 리무버블 메모리(964)는 도 1에 나타내는 제 1 유너리 DB(52), 제 2 유너리 DB(54), 동사 함의 DB(56), 문맥 유사도 기억부(58), 확장 유너리 페어 DB(60), 확장 바이너리 페어 DB(62), 한자 사전(106), 바이너리 페어 생성 규칙 기억부(110), 확장 N-어리 DB(530), 웹 아카이브(534), 회답 후보 기억부(538, 540 및 542), 최대 항수 기억부(524) 및 역치 기억부(546)와 같은 기억 장치로서 기능한다. 정보의 수정이 불필요한 데이터, 예를 들면 한자 사전(106)과 같은 것은 CD-ROM 또는 DVD(962)에 저장하고, DVD 드라이브(950)에 장착해서 판독하도록 해도 좋다.
컴퓨터 시스템(930)을 상기한 실시형태에 의한 함의 패턴 페어 확장 장치(50) 또는 질문 응답 시스템(500)의 각 기능부로서 기능시키기 위한 컴퓨터 프로그램은 DVD 드라이브(950) 또는 메모리 포트(952)에 장착되는 DVD(962) 또는 리무버블 메모리(964)에 기억되고, 또한 하드디스크(954)에 전송된다. 또는 프로그램은 네트워크(968)를 통해서 컴퓨터(940)에 송신되어 하드디스크(954)에 기억되어도 좋다. 프로그램은 실행할 때에 RAM(960)에 로드된다. DVD(962)로부터 리무버블 메모리(964)로부터 또는 네트워크(968)를 통해 직접적으로 RAM(960)에 프로그램을 로드해도 좋다.
이 프로그램은 컴퓨터(940)를 상기 실시형태에 의한 함의 패턴 페어 확장 장치(50) 또는 질문 응답 시스템(500)의 각 기능부로서 기능시키기 위한 복수의 명령으로 이루어지는 명령열을 포함한다. 컴퓨터(940)에 이 동작을 행하게 하는데도 필요한 기본적 기능 중 몇개는 컴퓨터(940) 상에서 동작하는 오퍼레이팅 시스템, 또는 서드 파티의 프로그램, 또는 컴퓨터(940)에 인스톨되는 다이내믹 링크 가능한 각종 프로그래밍 툴 키트, 또는 프로그램 라이브러리에 의해 제공되어 프로그램의 실행 시에 동적으로 링크되어 실행된다. 따라서 이 프로그램 자체는 이 실시형태의 시스템 및 방법을 실현하는데에 필요한 기능을 실현하기 위한 오브젝트 코드 또는 스크립트 모두를 반드시 포함하지 않아도 좋다. 이 프로그램은 명령 중 소망의 결과가 얻어지도록 제어된 방식으로 적절한 기능 또는 프로그래밍 툴 키트 또는 프로그램 라이브러리 내의 적절한 프로그램을 실행 시에 동적으로 호출함으로써 상기한 시스템으로서의 기능을 실현하는 명령만을 포함하고 있으면 좋다. 물론 프로그램만으로 필요한 기능을 모두 제공하도록 해도 좋다.
또한, 함의 패턴 페어 확장 장치(50) 또는 질문 응답 시스템(500)의 각 기능부를 따로따로 컴퓨터에 분산해서 처리하거나 네트워크를 통해 각각의 지역에 존재하는 다른 컴퓨터에서 분산해서 처리하거나 하도록 해도 좋다.
이번에 개시된 실시형태는 단지 예시이며, 본 발명이 상기 실시형태에만 제한되는 것은 아니다. 본 발명의 범위는 발명의 상세한 설명의 기재를 참작한 후에 청구범위의 각 청구항에 의해 나타내어지고, 거기에 기재된 문언과 균등한 의미 및 범위 내에서의 모든 변경을 포함한다.
(산업상 이용가능성)
본 발명은 질문 응답 시스템, 안내 시스템, 로봇에 의한 대화 시스템 등 자연 언어를 사용하고, 다양한 언어 표현을 사용하여 통일적·효율적으로 자연 언어 처리를 행하는 것이 필요한 시스템에 이용할 수 있다.
50 : 함의 패턴 페어 확장 장치 52 : 제 1 유너리 DB
54 : 제 2 유너리 DB 56 : 동사 함의 DB
58 : 문맥 유사도 기억부 60 : 확장 유너리 페어 DB
62 : 확장 바이너리 페어 DB 100 : 유너리 페어 추가부
102 : 유너리 페어 DB 104 : 유너리 페어 생성부
106 : 한자 사전 108 : 유너리 페어 확장부
110 : 바이너리 페어 생성 규칙 기억부 112 : 바이너리 페어 추가부
164 : 문맥 유사도 계산 처리 180 : 레코드 판독부
182 : 수동태·가능형 추가부 184 : 추이율 페어 추가부
500 : 질문 응답 시스템 522 : 구문 해석부
526 : 패턴 추출부 528 : 패턴 확장부
534 : 웹 아카이브 536 : 회답 후보 검색부
548 : 회답 선택부

Claims (6)

  1. m항의 함의 페어로부터 n항의 함의 페어를 생성함으로써 함의 페어를 확장하기 위한 함의 페어 확장 장치로서,
    단, m 및 n은 0 이상이며 m<n를 만족시키는 정수이며, 상기 함의 페어 각각은 제 1 언어 패턴과, 상기 제 1 언어 패턴이 함의하는 제 2 언어 패턴의 페어를 포함하고,
    상기 함의 페어 확장 장치는 상기 m항의 함의 페어로부터 상기 n항의 함의 페어를 생성하기 위한 생성 규칙을 기억하기 위한 생성 규칙 기억 수단을 포함하고, 상기 생성 규칙은 상기 생성 규칙을 적용하기 위해서 상기 m항의 함의 페어가 충족해야 할 조건과, 상기 조건이 충족되었을 때에 상기 m항의 함의 페어를 구성하는 언어 패턴 각각에 대한 n-m개의 변수의 추가를 포함하는 언어 패턴의 변형 규칙을 규정하고,
    상기 m항의 함의 페어를 받아 상기 m항의 함의 페어에 대해서 상기 생성 규칙 기억 수단에 기억된 생성 규칙 각각에 대해서 상기 생성 규칙의 조건이 상기 m항의 함의 페어에 의해 충족되는지의 여부를 판정하기 위한 판정 수단과,
    상기 판정 수단에 의해 상기 조건이 충족되면 판정된 생성 규칙의 상기 변형 규칙을 상기 m항의 함의 페어를 구성하는 각 언어 패턴에 적용함으로써 상기 n항의 함의 페어를 생성하기 위한 규칙 적용 수단을 포함하는 함의 페어 확장 장치.
  2. 제 1 항에 있어서,
    상기 m은 0이며,
    상기 m항의 함의 페어는 각각이 술어로 이루어지는 술어의 함의 페어인 함의 페어 확장 장치.
  3. 제 2 항에 있어서,
    상기 n은 1인 함의 페어 확장 장치.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 m항의 함의 페어에 대해서 추이율을 적용함으로써 상기 m항의 함의 페어를 확장하기 위한 추이율 적용 수단을 더 포함하는 함의 페어 확장 장치.
  5. 컴퓨터를 제 1 항 내지 제 4 항 중 어느 한 항에 기재된 모든 수단으로서 기능시키는 컴퓨터 프로그램.
  6. 제 1 항 내지 제 4 항 중 어느 한 항에 기재된 함의 페어 확장 장치에 의해 확장된 함의 페어를 기억하기 위한 함의 페어 기억 수단과,
    복수의 문서를 기억한 문서 기억 수단과,
    질문을 받고, 상기 질문을 구문 해석함으로써 상기 질문에 대한 회답이 가져야 할 언어 패턴을 추출하기 위한 패턴 추출 수단과,
    상기 패턴 추출 수단에 의해 추출된 언어 패턴 각각을 상기 함의 페어 기억 수단에 기억된 함의 페어를 사용하여 확장하기 위한 패턴 확장 수단과,
    상기 패턴 확장 수단에 의해 확장된 언어 패턴에 합치하는 표현을 상기 문서기억 수단에 기억된 문서로부터 검색하고, 상기 질문에 대한 회답으로서의 적합함을 나타내는 스코어를 산출하기 위한 검색 수단과,
    상기 검색 수단에 의해 검색된 회답 후보 중 검색 시에 합치한 언어 패턴에 포함되는 변수의 수가 많은 것을 우선하여 상기 스코어를 사용하여 회답을 선택하기 위한 선택 수단을 포함하는 질문 응답 시스템.
KR1020177023997A 2015-03-06 2016-02-09 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템 KR102468481B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2015-044419 2015-03-06
JP2015044419A JP6551968B2 (ja) 2015-03-06 2015-03-06 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
PCT/JP2016/053750 WO2016143449A1 (ja) 2015-03-06 2016-02-09 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム

Publications (2)

Publication Number Publication Date
KR20170122755A true KR20170122755A (ko) 2017-11-06
KR102468481B1 KR102468481B1 (ko) 2022-11-18

Family

ID=56876607

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177023997A KR102468481B1 (ko) 2015-03-06 2016-02-09 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템

Country Status (6)

Country Link
US (1) US10380250B2 (ko)
EP (1) EP3267327A4 (ko)
JP (1) JP6551968B2 (ko)
KR (1) KR102468481B1 (ko)
CN (1) CN107408110B (ko)
WO (1) WO2016143449A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11140115B1 (en) * 2014-12-09 2021-10-05 Google Llc Systems and methods of applying semantic features for machine learning of message categories
US10353935B2 (en) * 2016-08-25 2019-07-16 Lakeside Software, Inc. Method and apparatus for natural language query in a workspace analytics system
JP6726638B2 (ja) * 2017-05-11 2020-07-22 日本電信電話株式会社 含意認識装置、方法、及びプログラム
JP6986978B2 (ja) * 2018-01-16 2021-12-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
CN111931018B (zh) * 2020-10-14 2021-02-02 北京世纪好未来教育科技有限公司 试题匹配及试题拆分方法、装置和计算机存储介质
CN112434517B (zh) * 2020-11-09 2023-08-04 西安交通大学 一种结合主动学习的社区问答网站答案排序方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735622B1 (en) * 1997-04-23 2004-05-11 Xerox Corporation Transferring constraint descriptors between light-weight devices for document access
KR20130056207A (ko) * 2010-02-26 2013-05-29 독립행정법인정보통신연구기구 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
KR20140128346A (ko) * 2012-02-23 2014-11-05 도쿠리츠 교세이 호진 죠호 츠신 켄큐 키코 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램
KR20150017290A (ko) * 2013-08-06 2015-02-16 후지제롯쿠스 가부시끼가이샤 정보 처리 장치, 정보 처리 방법, 및 기억 매체

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
US8275803B2 (en) * 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US8332394B2 (en) * 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8554542B2 (en) * 2010-05-05 2013-10-08 Xerox Corporation Textual entailment method for linking text of an abstract to text in the main body of a document
US11068657B2 (en) * 2010-06-28 2021-07-20 Skyscanner Limited Natural language question answering system and method based on deep semantics
US8595213B2 (en) * 2010-07-15 2013-11-26 Semmle Limited Type inference for datalog with complex type hierarchies
US9020872B2 (en) * 2010-12-21 2015-04-28 International Business Machines Corporation Detecting missing rules with most general conditions
US8762132B2 (en) * 2011-10-20 2014-06-24 Nec Corporation Textual entailment recognition apparatus, textual entailment recognition method, and computer-readable recording medium
US20130103390A1 (en) * 2011-10-21 2013-04-25 Atsushi Fujita Method and apparatus for paraphrase acquisition
JP5924666B2 (ja) * 2012-02-27 2016-05-25 国立研究開発法人情報通信研究機構 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム
SG11201404678RA (en) * 2012-03-14 2014-09-26 Nec Corp Term synonym acquisition method and term synonym acquisition apparatus
CN105264518B (zh) * 2013-02-28 2017-12-01 株式会社东芝 数据处理装置及故事模型构建方法
US10452779B2 (en) * 2013-05-07 2019-10-22 Paul V. Haley System for knowledge acquisition
US20140372102A1 (en) * 2013-06-18 2014-12-18 Xerox Corporation Combining temporal processing and textual entailment to detect temporally anchored events
JP6150291B2 (ja) * 2013-10-08 2017-06-21 国立研究開発法人情報通信研究機構 矛盾表現収集装置及びそのためのコンピュータプログラム
JP5904559B2 (ja) * 2013-12-20 2016-04-13 国立研究開発法人情報通信研究機構 シナリオ生成装置、及びそのためのコンピュータプログラム
JP5907393B2 (ja) * 2013-12-20 2016-04-26 国立研究開発法人情報通信研究機構 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
JP6403382B2 (ja) * 2013-12-20 2018-10-10 国立研究開発法人情報通信研究機構 フレーズペア収集装置、及びそのためのコンピュータプログラム
US20150199339A1 (en) * 2014-01-14 2015-07-16 Xerox Corporation Semantic refining of cross-lingual information retrieval results
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统
AU2015201364A1 (en) * 2014-03-17 2015-10-01 Accenture Global Services Limited Generating a semantic network based on semantic connections between subject-verb-object units
CN103902733B (zh) * 2014-04-18 2017-02-01 北京大学 基于疑问词扩展的信息检索方法
KR20150129134A (ko) * 2014-05-08 2015-11-19 한국전자통신연구원 질의 응답 시스템 및 그 방법
WO2016013175A1 (ja) * 2014-07-22 2016-01-28 日本電気株式会社 テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
US9946763B2 (en) * 2014-11-05 2018-04-17 International Business Machines Corporation Evaluating passages in a question answering computer system
US10783159B2 (en) * 2014-12-18 2020-09-22 Nuance Communications, Inc. Question answering with entailment analysis
US20160299881A1 (en) * 2015-04-07 2016-10-13 Xerox Corporation Method and system for summarizing a document
US20170046139A1 (en) * 2015-08-14 2017-02-16 Xiaohua Yi Parsing and Interpretation of Logical Statements
US11520813B2 (en) * 2016-01-04 2022-12-06 International Business Machines Corporation Entailment knowledge base in natural language processing systems
US10628738B2 (en) * 2017-01-31 2020-04-21 Conduent Business Services, Llc Stance classification of multi-perspective consumer health information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735622B1 (en) * 1997-04-23 2004-05-11 Xerox Corporation Transferring constraint descriptors between light-weight devices for document access
KR20130056207A (ko) * 2010-02-26 2013-05-29 독립행정법인정보통신연구기구 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램
KR20140128346A (ko) * 2012-02-23 2014-11-05 도쿠리츠 교세이 호진 죠호 츠신 켄큐 키코 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램
KR20150017290A (ko) * 2013-08-06 2015-02-16 후지제롯쿠스 가부시끼가이샤 정보 처리 장치, 정보 처리 방법, 및 기억 매체

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Julien Kloetzer, Kentaro Torisawa, Stijn De Saeger, Motoki Sano, Chikara Hashimoto, Gotou Atsushi, 함의 관계 패턴 페어의 대규모 획득, 2013년도 정보처리학회간사이지부 지부대회(2013년)

Also Published As

Publication number Publication date
CN107408110A (zh) 2017-11-28
WO2016143449A1 (ja) 2016-09-15
US10380250B2 (en) 2019-08-13
JP6551968B2 (ja) 2019-07-31
EP3267327A1 (en) 2018-01-10
EP3267327A4 (en) 2018-12-05
CN107408110B (zh) 2020-12-15
JP2016164708A (ja) 2016-09-08
KR102468481B1 (ko) 2022-11-18
US20180067922A1 (en) 2018-03-08

Similar Documents

Publication Publication Date Title
US10936664B2 (en) Dialogue system and computer program therefor
CN110096567B (zh) 基于qa知识库推理的多轮对话回复选择方法、系统
CN106776544B (zh) 人物关系识别方法及装置和分词方法
KR20170122755A (ko) 함의 페어 확장 장치, 그것을 위한 컴퓨터 프로그램, 및 질문 응답 시스템
KR101968102B1 (ko) 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램
CN110543644A (zh) 包含术语翻译的机器翻译方法、装置与电子设备
US20130018650A1 (en) Selection of Language Model Training Data
CN109840255B (zh) 答复文本生成方法、装置、设备及存储介质
JPWO2019208222A1 (ja) 回答選択装置、回答選択方法、回答選択プログラム
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
JP2003196280A (ja) テキスト生成方法及びテキスト生成装置
KR20210070904A (ko) 다중 문서 질의 응답을 위한 방법 및 장치
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
JP5812534B2 (ja) 質問応答装置、方法、及びプログラム
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
KR101092354B1 (ko) 복합 명사 인식 장치 및 그 방법
JP2014232145A (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
CN114154496A (zh) 基于深度学习bert模型的煤监类案对比方法及装置
JP6067616B2 (ja) 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム
KR102117281B1 (ko) 빈도 테이블을 이용한 챗봇 발언 생성 방법
JP6574469B2 (ja) 次発話候補ランキング装置、方法、及びプログラム
Lee et al. Improving text auto-completion with next phrase prediction
CN111930880A (zh) 一种文本编码检索的方法、装置及介质
KR101092355B1 (ko) 대용어 복원 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant