KR101715432B1 - 단어쌍취득장치, 단어쌍취득방법 및 기록 매체 - Google Patents

단어쌍취득장치, 단어쌍취득방법 및 기록 매체 Download PDF

Info

Publication number
KR101715432B1
KR101715432B1 KR1020127006123A KR20127006123A KR101715432B1 KR 101715432 B1 KR101715432 B1 KR 101715432B1 KR 1020127006123 A KR1020127006123 A KR 1020127006123A KR 20127006123 A KR20127006123 A KR 20127006123A KR 101715432 B1 KR101715432 B1 KR 101715432B1
Authority
KR
South Korea
Prior art keywords
word
pair
class
pattern
unit
Prior art date
Application number
KR1020127006123A
Other languages
English (en)
Other versions
KR20130038179A (ko
Inventor
사가 스테인 데
겐타로 도리사와
준이치 가자마
고우 구로다
마사키 무라타
Original Assignee
코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 filed Critical 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코
Publication of KR20130038179A publication Critical patent/KR20130038179A/ko
Application granted granted Critical
Publication of KR101715432B1 publication Critical patent/KR101715432B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

종래, 소정의 관계에 있는 단어쌍을 적절히 취득할 수 없었다. 단어의 클래스를 특정하는 단어클래스정보를 저장할 수 있는 단어클래스정보저장부와, 2개의 클래스의 장점을 나타내는 클래스쌍양호도를 저장할 수 있는 클래스쌍양호도저장부와, 소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해서 이용하는 시드패턴을 1 이상 저장할 수 있는 시드패턴 저장부와, 1 이상의 문장군으로부터, 시드패턴과 공기(co-occurrence)하는 1 이상의 단어쌍을 취득하는 단어쌍취득부와, 1 이상의 단어쌍에 대응하는 클래스쌍양호도를 취득하는 클래스쌍양호도취득부와, 클래스쌍양호도를 이용해, 각 단어쌍의 스코어를 결정하는 스코어결정부와, 스코어가 미리 결정된 조건을 충족시킬수록 높은 1 이상의 단어쌍을 취득하는 단어쌍선택부와, 단어쌍선택부가 취득한 1 이상의 단어쌍을 출력하는 단어쌍출력부를 구비하는 단어쌍취득장치에 의해, 단어쌍을 적절히 취득할 수 있다.

Description

단어쌍취득장치, 단어쌍취득방법 및 기록 매체{WORD PAIR ACQUISITION DEVICE, WORD PAIR ACQUISITION METHOD, AND RECORDING MEDIUM}
본 발명은, 소정의 관계를 갖는 2개의 단어쌍을 취득하는 단어쌍취득장치 등에 관한 것이다.
종래, 꺼내고 싶은 단어쌍을 소량 주어, 해당 단어쌍으로부터 패턴을 취득하는 단어쌍취득장치가 있었다. 그리고, 종래의 단어쌍취득장치는, 그 취득한 패턴과 공기(co-occurrence)하는 단어쌍을 취득하는 것이었다(예를 들면, 비특허문헌 1 참조).
(비특허문헌 1)
P. Pantel and M. Pennacchiotti. Espresso: Leveraging generic patterns for automatically harvesting semantic relations. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics (COLINGACL-06), pages 113-120, 2006.
그러나, 종래의 단어쌍취득장치에 있어서는, 소정의 관계에 있는 단어쌍을 적절히 취득할 수 없었다.
본 발명의 제1양태에 따른 단어쌍취득장치는, 1 이상의 문장군을 저장할 수 있는 문장군저장부와, 1 이상의 단어와 1 이상의 단어가 속하는 클래스를 식별하는 클래스식별자를 대응시켜서 갖는 2 이상의 단어클래스정보를 저장할 수 있는 단어클래스정보저장부와, 2개의 클래스의 장점을 나타내는 지표인 클래스쌍양호도를 저장할 수 있는 클래스쌍양호도저장부와, 2개의 단어인 단어쌍을 1 이상 저장할 수 있는 단어쌍저장부와, 단어쌍저장부에 저장되어 있는 1 이상의 단어쌍이 갖는 각 단어가 속하는 2개의 클래스의 클래스쌍양호도를 클래스쌍양호도저장부로부터 취득하는 클래스쌍양호도취득부와, 클래스쌍양호도취득부가 취득한 클래스쌍양호도를 이용해, 단어쌍저장부의 각 단어쌍의 스코어를 결정하는 스코어결정부와, 스코어결정부가 결정한 스코어가 미리 결정된 조건을 충족시킬수록, 스코어가 높은 1 이상의 단어쌍을 취득하는 단어쌍선택부와, 단어쌍선택부가 취득한 1 이상의 단어쌍을 출력하는 단어쌍출력부를 구비하는 단어쌍취득장치이다.
상기 구성에 의해, 클래스쌍양호도를 이용해, 소정의 관계에 있는 단어쌍을 적절히 취득할 수 있다.
또한, 본 발명의 제2양태에 따른 단어쌍취득장치는, 제1의 발명에 대해서, 소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해서 이용하는 패턴인 시드패턴(seed pattern)을 1 이상 저장할 수 있는 시드패턴저장부와, 2개의 각 클래스에 속하는 단어쌍이, 문장군저장부의 1 이상의 문장군 중에서, 1 이상의 시드패턴과 공기(co-occurrence)하는 횟수 또는 비율이 많을수록 클래스쌍양호도가 커지도록 클래스쌍양호도를 산출하는 클래스쌍양호도산출부를 더 구비하며,, 클래스쌍양호도산출부가 산출한 2개의 클래스의 클래스쌍양호도는, 클래스쌍양호도저장부에 저장되어 있는 클래스쌍양호도인 단어쌍취득장치이다.
상기 구성에 의해, 클래스쌍양호도를 적절히 산출할 수 있어, 그 클래스쌍양호도를 이용해, 소정의 관계에 있는 단어쌍을 적절히 취득할 수 있다.
또한, 본 발명의 제3양태에 따른 단어쌍취득장치는, 제1 또는 제2의 발명에 대해서, 시드패턴이 아닌 패턴이며, 소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해서 이용하는 패턴을 1 이상 저장할 수 있는 패턴저장부와, 패턴저장부에 저장되어 있는 1 이상의 각 패턴과 시드패턴의 유사도를, 패턴마다 저장할 수 있는 패턴유사도저장부와, 시드패턴 저장부에 저장되어 있는 1 이상의 시드패턴, 및 패턴저장부에 저장되어 있는 1 이상의 패턴의 어느 하나를 취득해, 문장군저장부에 저장되어 있는 1 이상의 문장군으로부터, 시드패턴 또는 패턴과 공기(co-occurrence)하는 1 이상의 단어쌍을 취득하는 단어쌍취득부를 더 구비하며, 스코어결정부는, 패턴유사도저장부에 저장되어 있는 1 이상의 각 패턴과 시드패턴의 유사도도 이용해, 단어쌍취득부가 취득한 각 단어쌍의 스코어를 결정하는 단어쌍취득장치이다.
상기 구성에 의해, 시드패턴과 패턴의 유사도를 이용해, 소정의 관계에 있는 단어쌍을 더 적절히 취득할 수 있다.
또한, 본 발명의 제4양태에 따른 단어쌍취득장치는, 제3의 발명에 대해서, 1 이상의 시드패턴과 공기(co-occurrence)하는 단어쌍에 대응하는 클래스쌍과, 패턴저장부에 저장되어 있는 1 이상의 각 패턴과 공기(co-occurrence)하는 단어쌍에 대응하는 클래스쌍의 겹침(중첩)이 클수록, 커지도록 유사도를 산출하는 패턴유사도산출부를 더 구비하며, 패턴유사도산출부가 산출한 유사도는, 패턴유사도저장부에 저장되어 있는 유사도인 단어쌍취득장치이다.
상기 구성에 의해, 시드패턴과 패턴의 유사도를 적절히 산출할 수 있어, 그 유사도를 이용해, 소정의 관계에 있는 단어쌍을 더 적절히 취득할 수 있다.
또한, 본 발명의 제5양태에 따른 단어쌍취득장치는, 본 발명의 제1내지 제4 양태 중 어느 하나에 따른 발명에 대해서, 1 이상의 각 단어쌍과 1 이상의 각 패턴의 친화성에 관한 정보인 친화성정보를 저장할 수 있는 친화성정보저장부를 더 구비하며, 스코어결정부는, 친화성정보저장부의 친화성정보도 이용해, 단어쌍취득부가 취득한 각 단어쌍의 스코어를 결정하는 단어쌍취득장치이다.
상기 구성에 의해, 패턴과 단어쌍의 친화성을 이용해, 소정의 관계에 있는 단어쌍을 더 적절히 취득할 수 있다.
또한, 본 발명의 제6양태에 따른 단어쌍취득장치는, 본 발명의 제5양태에 따른 발명에 대해서, 단어쌍취득부가 취득한 1 이상의 단어쌍과, 1 이상의 각 패턴이 공기(co-occurrence)하는 횟수 또는 비율이 많을수록, 커지도록 친화성정보를 산출하는 친화성정보산출부를 더 구비하며, 친화성정보저장부의 친화성정보는, 친화성정보산출부가 산출한 친화성정보인 단어쌍취득장치이다.
상기 구성에 의해, 패턴과 단어쌍의 친화성을 적절히 산출할 수 있어, 그 친화성을 이용해, 소정의 관계에 있는 단어쌍을 더 적절히 취득할 수 있다.
또한, 본 발명의 제7양태에 따른 단어쌍취득장치는, 본 발명의 제6양태에 따른 발명에 대해서, 스코어결정부는, 클래스쌍양호도, 시드패턴과 패턴의 유사도, 및 친화성정보의 꼽셈(multiplication, 積, 積算)이 가장 큰 시드패턴 또는 패턴에 있어서의 스코어를, 각 단어쌍의 스코어로서 결정하는 단어쌍취득장치이다.
상기 구성에 의해, 단어쌍의 스코어를 정확도 높게 산출할 수 있어, 그 결과, 소정의 관계에 있는 단어쌍을 지극히 적절히 취득할 수 있다.
또한, 본 발명의 제8양태에 따른 단어쌍취득장치는, 본 발명의 제3양태 내지 제7양태 중 어느 하나에 따른 발명에 대해서, 문장군저장부에 저장되어 있는 1 이상의 문장군의 각 문장에 대해서, 형태소해석 및 의존구문해석(dependency parsing, 의존문법해석)해, 제1의 명사 또는 명사구를 기점으로서, 제2의 명사 또는 명사구를 종점으로서, 기점에서 종점까지 이르는 형태소의 연결을 패턴으로서 취득해, 또는, 기점으로부터의 형태소의 연결과 종점으로부터의 형태소의 연결이 결합되는 형태소까지를 패턴으로서 취득하는 패턴취득부를 더 구비하며, 패턴저장부의 패턴은, 패턴취득부가 취득한 패턴인 단어쌍취득장치이다.
상기 구성에 의해, 문장군으로부터 적절히 패턴을 취득할 수 있어, 그 패턴을 이용해, 소정의 관계에 있는 단어쌍을 적절히 취득할 수 있다.
또한, 본 발명의 제9양태에 따른 단어쌍취득장치는, 본 발명의 제 1양태 내지 제8양태 중 어느 하나에 따른 발명에 대해서, 최종적으로 출력하지 않는 단어쌍에 대응하는 클래스쌍을 식별하는 2개의 클래스식별자인 제외클래스쌍을 1 이상 저장할 수 있는 제외클래스쌍저장부와, 1 이상의 제외클래스쌍에 대응하는 단어쌍을 출력하는 단어쌍으로부터 제외하는 단어쌍제외부를 더 구비하는 단어쌍취득장치이다.
상기 구성에 의해, 부적절한 단어쌍을 출력할 가능성을 낮게 할 수 있어, 그 결과, 소정의 관계에 있는 단어쌍을 보다 적절히 취득할 수 있다.
또한, 본 발명의 제10양태에 따른 단어쌍취득장치는, 본 발명의 제9양태에 따른 발명에 대해서, 1 이상의 문장군에 있어서의, 각 클래스에 속하는 단어의 평균출현빈도와, 클래스식별자를 쌍에 갖는 클래스출현빈도정보를, 클래스마다 저장할 수 있는 클래스출현빈도정보저장부와, 평균출현빈도가 미리 결정된 역치 이상의 차이를 갖는 2개의 클래스의 클래스식별자를 제외클래스쌍으로서, 제외클래스쌍저장부에 축적하는 제외클래스쌍축적부를 더 구비하는 단어쌍취득장치이다.
상기 구성에 의해, 부적절한 단어쌍을 출력할 가능성을 매우 낮게 할 수 있어, 그 결과, 소정의 관계에 있는 단어쌍을 보다 적절히 취득할 수 있다.
또한, 본 발명의 제11양태에 따른 단어쌍취득장치는, 본 발명의 제1양태 내지 제10양태 중 어느 하나에 따른 발명에 대해서, 문장군저장부의 1 이상의 문장군을 이용해, 동일한 동사, 또는 동일한 동사와 조사와 공기(co-occurrence)하는 횟수 또는 비율이 많은 단어를 동일한 클래스에 속하도록, 1 이상의 단어클래스정보를 취득하는 단어클래스정보취득부를 더 구비하며, 단어클래스정보저장부의 단어클래스정보는, 단어클래스정보취득부가 취득한 단어클래스정보인 단어쌍취득장치이다.
상기 구성에 의해, 단어클래스정보를 보다 적절히 취득할 수 있다.
본 발명에 의한 단어쌍취득장치에 따르면, 소정의 관계에 있는 단어쌍을 적절히 취득할 수 있다.
도 1은 실시의 형태1에 있어서의 단어쌍취득장치(1)를 포함한 단어취득시스템의 개념도
도 2는 동 단어쌍취득장치의, 단어쌍을 취득하는 처리를 실시하는 구성요소에 착목한 블럭도
도 3은 동 단어쌍취득장치의, 단어쌍을 취득하는 처리를 실시하기 전의 환경정비를 실시하는 구성요소에 착목한 블럭도
도 4는 동 문장열의 의존구문해석의 결과를 나타내는 도
도 5는 동 문장열의 의존구문해석의 결과를 나타내는 도
도 6은 동 단어쌍취득장치의 동작에 대해 설명하는 플로 차트
도 7은 동 단어클래스정보관리표를 나타내는 도
도 8은 동 클래스출현빈도정보관리표를 나타내는 도
도 9는 동 단어쌍 등의 출력예를 나타내는 도
도 10은 동 실험 1에 있어서의 각 방법의 정확도를 나타내는 그래프
도 11은 동 단어쌍 등의 출력예를 나타내는 도
도 12는 동 실험 2에 있어서의 각 방법의 정확도를 나타내는 그래프
도 13은 동 단어쌍 등의 출력예를 나타내는 도
도 14는 동 실험 3에 있어서의 각 방법의 정확도를 나타내는 그래프
도 15는 동 확률분포관리표를 나타내는 도
도 16은 동 컴퓨터시스템의 개관도
도 17은 동 컴퓨터시스템의 블럭도
이하, 단어쌍취득장치 등의 실시형태에 대해 도면을 참조해 설명한다. 또한, 실시의 형태에 있어서 같은 부호를 붙힌 구성요소는 같은 동작을 하므로, 재차의 설명을 생략하는 경우가 있다.
(실시형태 1)
본 실시의 형태에 있어서, 소정의 관계를 갖는 2개의 단어쌍을 취득하는 단어쌍취득장치에 대해 설명한다. 본 단어쌍취득장치는, 단어쌍이 속하는 클래스쌍의 장점 (후술하는 클래스쌍양호도)을 지표로서, 단어쌍을 선택한다. 또한, 본 단어쌍취득장치는, 단어쌍을 꺼낼 때에 이용하는 패턴의 장점(후술하는 유사도)을 지표로서, 단어쌍을 선택한다. 게다가, 본 단어쌍취득장치는, 패턴과 단어쌍의 친화성(후술하는 친화성정보)을 이용해, 단어쌍을 선택한다.
도 1은, 본 실시의 형태에 있어서의 단어쌍취득장치(1)를 포함하는 단어취득시스템의 개념도이다. 단어취득시스템은, 단어쌍취득장치(1)과, 1 이상의 문장군저장장치(2)를 포함한다. 문장군저장장치(2)는, 문장군을 저장하는 서버장치이다. 문장군저장장치(2)는, 예를 들면, 웹상의 서버장치이며, 1 이상의 웹페이지를 저장한다. 상기 경우, 문장군은, 웹페이지이다. 또한, 단어쌍취득장치(1)는, 1 이상의 문장군저장장치(2)로부터, 문장군을 취득해, 해당 문장군을 적어도 일시적으로 저장한다.
도 2 및 도 3은, 본 실시의 형태에 있어서의 단어쌍취득장치(1)의 블럭도이다. 도 2는, 단어쌍취득장치(1)의 구성요소 중의, 주로, 단어쌍을 취득하는 처리를 하는 구성요소에 착목한 블럭도이다. 도 3은, 단어쌍취득장치(1)의 구성요소 중의, 주로, 단어쌍을 취득하는 처리를 하기 전의 환경정비를 하는 구성요소에 착목한 블럭도이다. 다만, 도 2, 도 3은, 단어쌍취득장치(1)를 분리한 구성의 일례에 불과하다.
본 발명에 따른 단어쌍취득장치(1)는, 문장군저장부(101), 단어쌍저장부(102), 단어클래스정보저장부(103), 시드패턴저장부(104), 패턴저장부(105), 클래스쌍양호도저장부(106), 패턴유사도저장부(107), 친화성정보저장부(108), 제외클래스쌍저장부(109), 클래스출현빈도정보저장부(110), 단어쌍취득부(111), 단어쌍축적부(112), 단어클래스정보취득부(113), 단어클래스정보축적부(114), 패턴취득부(115), 패턴축적부(116), 클래스쌍양호도산출부(117), 클래스쌍양호도축적부(118), 패턴유사도산출부(119), 패턴유사도축적부(120), 친화성정보산출부(121), 친화성정보축적부(122), 클래스쌍양호도취득부(123), 패턴유사도취득부(124), 친화성정보취득부(125), 스코어결정부(126), 단어쌍선택부(127), 단어쌍출력부(128), 단어쌍제외부(129), 제외클래스쌍축적부(130), 클래스출현빈도정보산출부(131)를 포함한다.
문장군저장부(101)는, 1 이상의 문장군을 저장할 수 있다. 문장군이라는, 예를 들면, 웹페이지이다. 다만, 문장군은 어느 것인지 가능하다. 문장군은, 텍스트데이터, 소정의 데이터베이스 등일 수도 있고, 그 구조도 묻지 않는다(따지지 않다, 즉 처리하지 않는다). 문장군저장부(101)의 문장군은, 통신수단이나 방송수신수단 등으로 취득한 문장군인 것이 바람직하다. 문장군저장부(101)는, 불휘발성의 기록매체가 바람직하지만, 휘발성의 기록매체에서도 실현가능하다. 문장군저장부(101)에 문장군이 기억되는 과정은 묻지 않는다(따지지 않다, 즉 처리하지 않는다). 예를 들면, 기록매체를 통해서 문장군이 문장군저장부(101)에서 기억될 수도 있고, 통신회선 등을 통해서 송신된 문장군이 문장군저장부(101)에서 기억될 수도 있고, 혹은, 입력디바이스를 통해서 입력된 문장군이 문장군저장부(101)에서 기억될 수도 있다.
단어쌍저장부(102)는, 1 이상의 단어쌍을 저장할 수 있다. 단어쌍이라는, 소정의 관계를 갖는 2개의 단어이다. 단어라는, 여기에서는, 통상, 명사나 명사구이다. 다만, 형용사 등의 다른 품사를 단어라고 생각할 수도 있다. 또한, 소정의 관계라는, 예를 들면, 원인과 결과의 관계, 원재료와 제품의 관계, 현상과 그 현상의 방지수단의 관계 등이다. 소정의 관계가 원인과 결과의 관계인 경우, 예를 들면, 단어쌍은 "바이러스"와 "감기" 등이다. 단어쌍저장부(102)는, 불휘발성의 기록매체가 바람직하지만, 휘발성의 기록매체에서도 실현가능하다. 단어쌍저장부(102)에 단어쌍이 기억되는 과정은 묻지 않는다(따지지 않다, 즉 처리하지 않는다). 다만, 통상, 단어쌍취득부(111)가 취득한 단어쌍을, 단어쌍축적부(112)가 단어쌍저장부(102)에 축적한다.
단어클래스정보저장부(103)는, 2 이상의 단어클래스정보를 저장할 수 있다. 단어클래스정보는, 1 이상의 단어와 1 이상의 단어가 속하는 클래스를 식별하는 클래스식별자를 대응시켜서 갖는 정보이다. 클래스라는, 동일한 동사와 잘 공기(co-occurrence)하는 단어(통상, 명사)를 동일한 클래스에 속하는 단어로 한다. 또한, 동일한 동사 및 조사와 잘 공기(co-occurrence)하는 단어(통상, 명사)를 동일한 클래스에 속하는 단어로 할 수도 있다. 여기서, 잘 공기(co-occurrence)한다는 것은, 미리 결정된 횟수(빈도) 또는 비율 이상, 동일한 동사, 또는 동일한 동사 및 조사와 공기(co-occurrence)하는 것이다. 단어클래스정보는, 클래스식별자와 1 이상의 단어를 식별하는 1 이상의 단어식별자를 갖는 정보일 수도 있다. 단어클래스정보저장부(103)는, 불휘발성의 기록매체가 바람직하지만, 휘발성의 기록매체에서도 실현가능하다. 단어클래스정보저장부(103)에 단어클래스정보가 기억되는 과정은 묻지 않는다(따지지 않다, 즉 처리하지 않는다). 다만, 통상, 단어클래스정보취득부(113)가 취득한 단어클래스정보를, 단어클래스정보축적부(114)가 단어클래스정보저장부(103)에 축적한다.
시드패턴저장부(104)는, 1 이상의 시드패턴을 저장할 수 있다. 시드패턴이라는, 소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해서 이용하는 패턴이다. 시드패턴은, 미리 주어진 패턴이다. 시드패턴은, 단어쌍이나 새로운 패턴을 취득하기 위한 바탕이 되는 패턴이다. 또한, 패턴이라는, 2개의 단어와, 표현패턴을 포함한 문자열이다. 패턴은, 예를 들면, "X는 Y를 일으킨다" "X에 의한 Y" 등이다. 여기서, X와 Y로 옮겨지는 2개의 단어가 단어쌍이다. 즉, X나 Y는, 이른바 변수이다. 변수에는, 문자열이 들어갈 수 있다. 또한, 시드패턴저장부(104)에 저장되어 있는 시드패턴은, 예를 들면, 10이나 20 등의 패턴이다. 시드패턴저장부(104)는, 불휘발성의 기록매체가 바람직하지만, 휘발성의 기록매체에서도 실현가능하다.
시드패턴저장부(104)에 시드패턴이 기억되는 과정은 묻지 않는다(따지지 않다, 즉 처리하지 않는다). 다만, 시드패턴은, 통상, 사용자의 수동입력에 의해, 시드패턴저장부(104)에 축적된다.
패턴저장부(105)는, 1 이상의 패턴을 저장할 수 있다. 패턴이라는, 시드패턴이 아닌 패턴이며, 소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해서 이용하는 패턴이다. 다만, 패턴 중에, 시드패턴을 포함할 수도 있다. 패턴저장부(105)는, 불휘발성의 기록매체가 바람직하지만, 휘발성의 기록매체에서도 실현가능하다. 패턴저장부(105)에 패턴이 기억되는 과정은 묻지 않는다(따지지 않다, 즉 처리하지 않는다). 다만, 통상, 패턴취득부(115)가 취득한 패턴을, 패턴축적부(116)가 패턴저장부(105)에 축적한다. 또한, 패턴도, 사용자의 수동작업에 의해 축적될 수도 있다.
클래스쌍양호도저장부(106)는, 2개의 클래스의 장점을 나타내는 지표인 클래스쌍양호도를 저장할 수 있다. 여기서, 2개의 클래스를 클래스쌍이라고 한다. 또한, 2개의 클래스의 장점을 나타내는 지표라는, 2개의 클래스에 속하는 단어쌍이 시드패턴과 공기(co-occurrence)하는 정도이다. 2개의 클래스에 속하는 단어쌍이 시드패턴과 잘 공기(co-occurrence)하는 만큼, 좋은 클래스쌍으로 한다. 클래스쌍양호도는, 수치이다(수치로 표현한다). 또한, 좋은 클래스쌍일수록, 클래스쌍양호도가 큰 값이 된다. 클래스쌍양호도저장부(106)는, 통상, 2개의 클래스의 클래스식별자와, 클래스쌍양호도를 쌍으로 갖는 클래스쌍양호도정보를 1 이상 저장한다. 또한, 클래스쌍의 나쁨(좋지 않음)을 나타내는 지표를 이용하는 것도, 클래스쌍양호도를 이용하는 것도 동의의라고 생각한다. 클래스쌍양호도가 클래스쌍의 나쁨을 나타내는 지표인 경우, 예를 들면, 클래스쌍양호도가 크면 클수록, 나쁜 클래스쌍이다. 또한, 클래스쌍양호도가 클래스쌍의 나쁨을 나타내는 지표인 경우, 후술하는 수학식에 있어서, 예를 들면, 클래스쌍양호도는 역수이다, 라고 생각해 계산된다. 클래스쌍양호도저장부(106)는, 불휘발성의 기록매체가 바람직하지만, 휘발성의 기록매체에서도 실현가능하다. 클래스쌍양호도저장부(106)에 클래스쌍양호도가 기억되는 과정은 묻지 않는다(따지지 않다, 즉 처리하지 않는다). 다만, 통상, 클래스쌍양호도산출부(117)가 산출한 클래스쌍양호도를, 클래스쌍양호도축적부(118)가 클래스쌍양호도저장부(106)에 축적한다.
패턴유사도저장부(107)는, 패턴저장부(105)에 저장되어 있는 1 이상의 각 패턴과 시드패턴의 유사도를, 패턴마다 저장할 수 있다. 패턴유사도저장부(107)는, 예를 들면, 패턴을 식별하는 패턴식별자와 유사도를 대응시켜서 갖는다. 또한, 패턴유사도저장부(107)는, 예를 들면, 패턴과 유사도를 대응시켜서 가질 수도 있다. 패턴과 시드패턴의 유사도의 산출방법은 묻지 않는다(따지지 않다, 즉 처리하지 않는다). 유사도의 구체적인 산출방법은 후술한다. 패턴유사도저장부(107)는, 불휘발성의 기록매체가 바람직하지만, 휘발성의 기록매체에서도 실현가능하다. 패턴유사도저장부(107)에 유사도가 기억되는 과정은 묻지 않는다(따지지 않다, 즉 처리하지 않는다). 다만, 통상, 패턴유사도산출부(119)가 산출한 유사도를, 패턴유사도축적부(120)가 패턴유사도저장부(107)에 축적한다.
친화성정보저장부(108)는, 1 이상의 각 단어쌍과 1 이상의 각 패턴의 친화성에 관한 정보인 친화성정보를 저장할 수 있다. 친화성정보는, 통상, 단어쌍과 패턴의 친화성의 정도를 나타내는 수치이다. 친화선정보가 클수록, 단어쌍과 패턴의 친화성의 정도가 높은 것을 나타낸다. 친화성정보저장부(108)는, 예를 들면, 패턴식별자 또는 패턴과, 단어쌍 또는 단어쌍의 식별자(2개의 단어식별자일 수도 있다)와, 친화성정보를 대응시켜서 갖는다. 또한, 친화성정보는, 단어쌍과 패턴의 친화성이 낮은 정도일 수도 있다. 상기 경우, 친화성정보가 작을수록, 단어쌍과 패턴의 친화성의 정도가 높은 것을 나타낸다. 친화성정보저장부(108)는, 불휘발성의 기록매체가 바람직하지만, 휘발성의 기록매체에서도 실현가능하다. 친화성정보저장부(108)에 친화성정보가 기억되는 과정은 묻지 않는다(따지지 않다, 즉 처리하지 않는다). 다만, 통상, 친화성정보산출부(121)가 산출한 친화성정보를, 친화성정보축적부(122)가 친화성정보저장부(108)에 축적한다.
제외클래스쌍저장부(109)는, 제외클래스쌍을 1 이상 저장할 수 있다. 제외클래스쌍이라는, 최종적으로 출력하지 않는 단어쌍에 대응하는 클래스쌍을 나타내는 정보이다. 제외클래스쌍은, 통상, 2개의 클래스식별자를 갖는 정보이다. 다만, 제외클래스쌍은, 단어쌍 등, 2개의 클래스식별자를 취득할 수 있는 바탕의 정보일 수도 있다. 제외클래스쌍저장부(109)는, 불휘발성의 기록매체가 바람직하지만, 휘발성의 기록매체에서도 실현가능하다. 제외클래스쌍저장부(109)에 제외클래스쌍이 기억되는 과정은 묻지 않는다(따지지 않다, 즉 처리하지 않는다). 다만, 통상, 제외클래스쌍축적부(130)가 취득한 제외클래스쌍을 제외클래스쌍저장부(109)에 축적한다. 다만, 사용자가 수동입력에 의해, 제외클래스쌍을 제외클래스쌍저장부(109)에 축적할 수도 있다.
클래스출현빈도정보저장부(110)는, 클래스출현빈도정보를 클래스마다 저장 할 수 있다. 클래스출현빈도정보라는, 1 이상의 문장군 내에 있어서의, 각 클래스에 속하는 단어의 평균출현빈도와, 클래스식별자를 쌍에 갖는 정보이다. 평균출현빈도는, 도시하지 않는 클래스출현빈도정보취득부가, 예를 들면, 이하의 처리에 의해, 취득한 것이다. 클래스출현빈도정보취득부는, 각 클래스에 속하는 모든 단어의, 1 이상의 문장군 내에 있어서의 출현빈도(f1, f2,ㅇㅇㅇ, fn)를 취득한다. 다음에, 클래스출현빈도정보취득부는, 클래스마다, 클래스내의 모든 단어의 평균출현빈도((f1+f2+ㅇㅇㅇ+fn)/n)를 산출한다. 클래스출현빈도정보저장부(110)는, 불휘발성의 기록매체가 바람직하지만, 휘발성의 기록매체에서도 실현가능하다. 클래스출현빈도정보저장부(110)에 클래스출현빈도정보가 기억되는 과정은 묻지 않는다(따지지 않다, 즉 처리하지 않는다). 다만, 통상, 클래스출현빈도정보산출부(131)가 산출한 클래스출현빈도정보를 클래스출현빈도정보저장부(110)에 축적한다. 다만, 사용자가 수동입력에 의해, 클래스출현빈도정보를 클래스출현빈도정보저장부(110)에 축적할 수도 있다.
단어쌍취득부(111)는, 시드패턴저장부(104)에 저장되어 있는 1 이상의 시드패턴의 어느 하나를 취득해, 문장군저장부(101)에 저장되어 있는 1 이상의 문장군으로부터, 취득한 시드패턴과 공기(co-occurrence)하는 1 이상의 단어쌍을 취득한다. 시드패턴 등의 패턴과 단어쌍이 공기(co-occurrence)한다, 라는, 문장 중에 패턴(단어쌍을 제외한 문자열)이 존재해, 또한, 문장 중에, 단어쌍을 구성하는 2개의 단어가 출현하는 것이다. 예를 들면, 패턴이 "X는 Y를 일으킨다"인 경우, 단어"X"나 "Y"는, 패턴"X는 Y를 일으킨다"와 공기(co-occurrence)한다, 라고 한다. 시드패턴이, "X는 Y를 일으킨다"인 경우, 단어쌍취득부(111)는, 1 이상의 문장군 중의 문장에 "바이러스가 감기를 일으킨다"로부터, 단어쌍"바이러스"와 "감기"를 취득한다. 또한, 시드패턴이, "X에 의한 Y"이며, 1 이상의 문장군 중의 문장이 "교통사고에 의한 경제적인 손해에 관하여"인 경우, 단어쌍취득부(111)는, 이하와 같이 처리해, 단어쌍"교통사고"와 "손해"를 취득한다. 즉, 단어쌍취득부(111)는, "교통사고에 의한 경제적인 손해에 관하여"에 "에 의한다"가 존재하는 것을 패턴매칭 등의 언어처리기술에 의해 인식한다. 다음에, 단어쌍취득부(111)는, 1 이상의 문장군 중의 문장"교통사고에 의한 경제적인 손해에 관하여"를 형태소해석해, "교통사고|에|의한|경제적|인|손해|에|관하여", 및 각 형태소의 품사를 얻는다. 그리고, 다음에, 단어쌍취득부(111)는, 의존구문해석해, 도 4에 나타내는 바와 같은 형태소 간의 의존구문(의존문법)의 정보(화살표의 정보)를 얻는다. 그리고, 단어쌍취득부(111)는, "에 의한다"에 연결되는 명사"교통사고"와, "에 의한다"로부터 연결되는 명사"손해"를 취득한다. 이 "교통사고"와 "손해"가 단어쌍이다. 또한, 상기의 형태소해석을 실시하는 기술로서, JUMAN(URL:http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html참조)나, ChaSen(URL:) 등이 존재해, 공지기술이다. 또한, 의존구문해석을 실시하는 기술로서, 일본어구문분석시스템KNP(URL:참조) 등이 있어, 공지기술이다.
단어쌍취득부(111)는, 시드패턴저장부(104)에 저장되어 있는 1 이상의 시드패턴, 및 패턴저장부(105)에 저장되어 있는 1 이상의 패턴의 어느 하나(통상, 모든 것)를 이용해, 단어쌍을 취득하는 것이 더 바람직하다. 즉, 단어쌍취득부(111)는, 1 이상의 시드패턴과 1 이상의 패턴의 어느 하나를, 차례차례, 취득해, 문장군저장부(101)에 저장되어 있는 1 이상의 문장군으로부터, 시드패턴 또는 패턴과 공기(co-occurrence)하는 1 이상의 단어쌍을 취득하는 것이 더 바람직하다.
또한, 단어쌍취득부(111)는, 시드패턴이나 패턴을 이용하지 않고 단어쌍을 취득할 수도 있다. 즉, 단어쌍취득부(111)는, 1 이상의 문장군 중의 각 문으로부터, 2개의 단어(통상, 명사)의 쌍을 취득할 수도 있다. 상기 경우, 단어쌍취득부(111)는, 1문 중에 공기(co-occurrence)하는 1 이상의 단어쌍을 취득하게 된다.
단어쌍취득부(111)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 단어쌍취득부(111)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
단어쌍축적부(112)는, 단어쌍취득부(111)가 취득한 1 이상의 단어쌍을, 단어쌍저장부(102)에 축적한다. 단어쌍축적부(112)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 단어쌍축적부(112)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
단어클래스정보취득부(113)는, 문장군저장부(101)의 1 이상의 문장군을 이용해, 1 이상의 단어클래스정보를 취득한다. 단어클래스정보취득부(113)는, 예를 들면, 1 이상의 문장군 중의 각 문장을 형태소해석해, 모든 동사와 조사의 조 또는 모든 동사를 취득한다. 또한, 단어클래스정보취득부(113)는, 예를 들면, 1 이상의 문장군 중의 각 문장을 형태소해석해, 모든 명사(명사구를 포함한다)를 취득한다. 그리고, 단어클래스정보취득부(113)는, 각 명사가, 각 동사와 조사의 조 또는, 각 동사와 공기(co-occurrence)하는 횟수 또는 비율을 명사마다 산출한다. 다음에, 단어클래스정보취득부(113)는, 명사마다, 각 동사와 조사의 조 또는, 각 동사와 공기(co-occurrence)하는 횟수 또는 비율을 요소에 갖는 벡터를 취득한다. 다음에, 단어클래스정보취득부(113)는, 명사마다 벡터가 미리 결정된 이상으로 유사하는 명사의 집합을 하나의 클래스에 속하는 것으로 해, 단어클래스정보를 취득한다. 또한, 단어클래스정보는, 1 이상의 단어와 클래스식별자를 갖는 정보이다. 또한, 클래스의 수는, 예를 들면, 수백, 또는 수천 등의 많은 수이다.
단어클래스정보취득부(113)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 단어클래스정보취득부(113)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
단어클래스정보축적부(114)는, 단어클래스정보취득부(113)가 취득한 2 이상의 단어클래스정보를 단어클래스정보저장부(103)에 축적한다. 단어클래스정보축적부(114)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 단어클래스정보축적부(114)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
패턴취득부(115)는, 문장군저장부(101)에 저장되어 있는 1 이상의 문장군의 각 문장으로부터, 패턴을 취득한다. 구체적으로는, 예를 들면, 패턴취득부(115)는, 문장군저장부(101)에 저장되어 있는 1 이상의 문장군의 각 문장에 대해서, 형태소해석 및 의존구문해석해, 제1의 명사(명사구를 포함한다)를 기점으로서, 제2의 명사를 종점으로서, 기점에서 종점까지 이르는 형태소의 연결을 패턴으로서 취득한다. 또는, 패턴취득부(115)는, 기점으로부터의 형태소의 연결과 종점으로부터의 형태소의 연결이 결합되는 형태소까지를 패턴으로서 취득하는 것이 더 바람직하다. 예를 들면, 1 이상의 문장군의 문장이 "교통사고에 의한 경제적인 손해에 관하여"인 경우, 패턴취득부(115)는, 해당 문장을 형태소해석해, "교통사고|에|의한|경제적|인|손해|에|관하여"를 얻는다. 또한, 형태소해석에 의해, 패턴취득부(115)는, 제1의 명사"교통사고"와 제2의 명사"손해"가 명사인 것을 검출한다. 그리고, 의존구문해석에 의해, 패턴취득부(115)는, 도 4의 의존구문의 정보를 얻는다. 다음에, 패턴취득부(115)는, 제1의 명사 "교통사고"를 기점으로서, 제2의 명사"손해"를 종점으로서, 기점에서 종점까지 이르는 형태소의 연결"X에 의한 Y"를 패턴으로서 취득한다. 또한, 여기서, 제2의 명사"손해"에 연결되는 형태소군"경제적인"은, 패턴으로부터 소거된다. 또한, 예를 들면, 1 이상의 문장군의 문장이 "교통사고에 의한 경제의 손해에 관하여"인 경우, 패턴취득부(115)는, 해당 문장을 형태소해석해, "교통사고|에|의한|경제|의|손해|에|관하여"를 얻는다. 패턴취득부(115)는, 제1의 명사 "교통사고"와 제2의 명사"경제"와 제3의 명사"손해"가 명사인 것을 검출한다. 그리고, 의존구문해석에 의해, 패턴취득부(115)는, 도 5의 의존구문의 정보를 얻는다. 다음에, 패턴취득부(115)는, 제1의 명사"교통사고"인 기점으로부터의 형태소의 연결과, 제2의 명사"경제"인 종점으로부터의 형태소의 연결이 결합되는 형태소"손해"까지를 패턴으로서 취득한다. 여기서, 패턴취득부(115)는, "X에 의한 Y의 손해"를 패턴으로서 취득한다.
또한, 패턴취득부(115)는, 주어진 2개의 명사(단어쌍)를 이용해, 패턴을 취득할 수도 있다. 즉, 예를 들면, 2개의 명사"교통사고"와 "손해"가 주어졌을 때, 패턴취득부(115)는, "교통사고에 의한 경제적인 손해에 관하여"에 "교통사고"와 "손해"가 포함되는 것을 검지한다. 그리고, 패턴취득부(115)는, "교통사고에 의한 경제적인 손해에 관하여"를 형태소해석해, 또한, 의존구문해석해, 도 4의 의존구문의 정보를 얻는다. 다음에, 패턴취득부(115)는, 제1의 명사"교통사고"를 기점으로서, 제2의 명사 "손해"를 종점으로서, 기점에서 종점까지 이르는 형태소의 연결"X에 의한 Y"를 패턴으로서 취득한다.
패턴취득부(115)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 패턴취득부(115)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
패턴축적부(116)는, 패턴취득부(115)가 취득한 1 이상의 패턴을 패턴저장부(105)에 축적한다. 패턴축적부(116)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 패턴축적부(116)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
클래스쌍양호도산출부(117)는, 2개의 각 클래스에 속하는 단어쌍이, 문장군저장부(101)의 1 이상의 문장군 중에서, 1 이상의 시드패턴과 공기(co-occurrence)하는 횟수 또는 비율이 많을수록 클래스쌍양호도가 커지도록 클래스쌍양호도를 산출한다. 클래스쌍양호도(CScore(ci, cj, P))는, 예를 들면, 이하의 수학식 1에 의해 산출된다. 또한, 수학식 1에 있어서, 클래스쌍양호도는 클래스쌍의 장점을 나타내는 것으로 하므로, 클래스쌍양호도가 클래스쌍의 나쁨(좋지 않음)을 나타내는 지표인 경우, CScore(ci, cj, P)는, 예를 들면, 수학식 1에 있어서의 산출 결과의 역수가 된다.
Figure 112012018715931-pct00001
여기서, ni나 nj는 명사(단어)이다. ci나 cj는 클래스이다. 또한, P는, 시드패턴의 집합이다. *는, 임의의 패턴을 나타낸다. 그리고,||(ni, P, nj)||는, 명사 ni와 nj가, 시드패턴의 집합과 공기(co-occurrence)하는 빈도이다. 즉, "||(ni, P, nj)||= Σp∈P||(ni, P, nj)||"를 뜻하다. 또한, ||(ni, *, nj)||는, 명사 ni와 nj가, 1 이상의 문장군(M) 중에서, 임의의 패턴과 공기(co-occurrence)하는 빈도이다. 즉, "||(ni, *, nj)||= Σ(ni,p,nj)∈M ||(ni, p, nj)||"이다. 따라서, ||(ni, *, nj)||는, 명사 ni와 nj가, 단지 공기(co-occurrence)하는 빈도와 동일하다.
또한, α는, 조건을 나타낸다. 또한, α는, 소정수가 다른 시드패턴과 공기(co-occurrence)해야 된다는 조건이다. 또한, α의 예는, 수학식 2이다. 수학식 2에 있어서, ni나 nj가, β(예를 들면, 3) 이상의 다른 시드패턴과 공기(co-occurrence)하는 것을 나타낸다. 즉, 수학식 2가 조건(α)인 경우, 2 이하의 시드패턴으로 밖에 공기(co-occurrence)하지 않는 단어쌍(ni나 nj)의 클래스쌍양호도는, 0가 된다.
Figure 112012018715931-pct00002
수학식 2에 있어서, M는, 1 이상의 문장군이다.
또한, 수학식 1에 있어서, 클래스쌍양호도(CScore(ci, cj, P))는, 2개의 각 클래스에 속하는 단어가, 1 이상의 시드패턴과 공기(co-occurrence)하는 횟수 또는 비율이 많을수록, 그 정도가 커지게 되는 산출식의 일례이다. 또한, 수학식 1에 있어서, 2개의 각 클래스에 속하는 단어가, 시드패턴이외의 패턴과 공기(co-occurrence)하는 횟수가 많을수록, 그 정도가 작아지게 되는 산출식의 일례이다.
또한, 클래스쌍양호도 대신에, 클래스쌍이 양호하지 않은 정도를 이용했을 경우는, 2개의 각 클래스에 속하는 단어가, 1 이상의 시드패턴과 공기(co-occurrence)하는 횟수 또는 비율이 많을수록, 그 정도가 작아지도록 산출된다. 이 경우도, 2개의 각 클래스에 속하는 단어가, 1 이상의 시드패턴과 공기(co-occurrence)하는 횟수 또는 비율이 많을수록, 클래스쌍양호도가 커지도록, 클래스쌍양호도를 산출하는 것과 동의의로 파악한다.
클래스쌍양호도산출부(117)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 클래스쌍양호도산출부(117)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
클래스쌍양호도축적부(118)는, 클래스쌍양호도산출부(117)가 산출한 클래스쌍양호도를, 클래스쌍양호도저장부(106)에 축적한다. 클래스쌍양호도축적부(118)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 클래스쌍양호도축적부(118)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
패턴유사도산출부(119)는, 1 이상의 시드패턴과, 패턴저장부(105)에 저장되어 있는 각 패턴의 유사도를 산출한다. 패턴유사도산출부(119)는, 통상, 1 이상의 시드패턴과 공기(co-occurrence)하는 단어쌍에 대응하는 클래스쌍과, 1 이상의 각 패턴과 공기(co-occurrence)하는 단어쌍에 대응하는 클래스쌍의 겹침(중첩)이 클수록, 시드패턴과 패턴의 유사도가 커지도록, 유사도를 산출한다.
패턴유사도산출부(119)는, 시드패턴과 패턴의 유사도를, 예를 들면, 수학식 3, 수학식 4, 수학식 5, 수학식 6, 또는 수학식 7에 의해 산출한다. 즉, 유사도는, Para(pci×cj,P), Para(pci×cj,P), Para(pci×cj,P), Para(pci×cj,P), 또한 Para(pci×cj,P) 등이다. 수학식 3에서 7에 있어서, P는, 시드패턴의 집합이며, p는, 어느 하나의 패턴이다. 통상, p는, 시드패턴일 수도 있다.
Figure 112012018715931-pct00003
수학식 3에 있어서, 시드패턴과 패턴의 유사도는, (Para(pci×cj,P))이다. 또한, "I(pci×cj)"는, 어떤 패턴p와, 클래스ci와 클래스cj에 속하는 단어ni와 nj가 공기(co-occurrence)하는 인스턴스의 집합을 나타낸다. "I(pci×cj)"는, {(ni,nj)∈cixcj|(ni,p,nj)∈M}이다. 또한, "(Pci×cj)"는, 어느 하나의 시드패턴과 클래스ci과 클래스cj에 속하는 단어ni와 nj가 공기(co-occurrence)하는 인스턴스를 나타낸다. 그리고, "I(Pci×cj)=Up∈PI(pci×cj)"이다. 그리고, ||I(pci×cj)∩I(Pci×cj)||는, "I(pci×cj)'와 '(Pci×cj)"의 겹침(중첩)의 인스턴스의 수이다. 또한, ||I(pci×cj)∪I(Pci×cj)||는, "I(pci×cj)"와 "(Pci×cj)"의 화집합의 인스턴스의 수이다.
Para1은, 패턴p와 공기(co-occurrence)하는 클래스 ci와 클래스 cj에 속하는 단어ni와 nj와, 시드패턴의 집합(P)과 공기(co-occurrence)하는 클래스ci와 클래스cj에 속하는 단어ni와 nj의 Jaccard계수로서 산출된다. Para1에 의해, 클래스의존이며, 패턴p를 이용해 생성되는 많은 단어쌍"pci×cj" 중에서, 적절한 클래스를 선택할 수 있게 된다.
수학식 3을 이용하면, 1 이상의 시드패턴과 공기(co-occurrence)하는 단어쌍에 대응하는 클래스쌍과, 1 이상의 각 패턴과 공기(co-occurrence)하는 단어쌍에 대응하는 클래스쌍의 겹침(중첩)이 클수록, 시드패턴과 패턴의 유사도가 커지도록, 유사도가 산출된다. 또한, 수학식 3을 이용하면, "I(pci×cj)"와 "(Pci×cj)"의 화집합의 인스턴스의 수가 많을수록, 유사도가 작아지도록, 유사도가 산출된다.
또한, 패턴유사도산출부(119)는, 예를 들면, 수학식 3을 이용해, 시드패턴과 패턴의 유사도를 산출하는 경우, "I(pci×cj)"와 "(Pci×cj)"의 관계가 없는 패턴(||I(pci×cj)∩I(Pci×cj)||=0의 파턴)를 제외하는 것이 바람직하다. 위와 같은 것으로, 처리의 고속화를 도모할 수 있다.
또한, 수학식 3의 변형으로서, 이하와 같이 시드패턴과 패턴의 유사도(Para3')를 산출할 수도 있다.
즉, p와 공기(co-occurrence)하는 단어쌍을 벡터의 요소, 패턴p와 공기(co-occurrence)하는 단어쌍의 개수를 그 단어쌍의 벡터의 요소의 값으로 하는 벡터Vp를 p에 대해서 구성한다. 그리고, 시드패턴P와 공기(co-occurrence)하는 단어쌍을 벡터의 차원, P와 공기(co-occurrence)하는 단어쌍의 개수를 그 단어쌍의 벡터의 차원의 값으로 하는 벡터VP를 P에 대해서 구성한다. 다만, 시드패턴 P는 집합이므로, P의 각p에 대해서, 벡터를 만들어, 그 벡터의 합를, P의 벡터로 한다.
그리고, 이러한 벡터의 거리, 또는 각도를 산출한다. 거리는, |Vp-VP|(Vp, VP의 각 벡터의 요소의 값의 차이의 제곱의 합의 평방근)에 의해 산출할 수 있다. 각도는, VpㅇVP/|Vp|/|VP|에 의해 산출할 수 있다. 또한, VpㅇVP는, 내적(Vp, VP의 각 벡터의 요소의 값의 적의 합)이며, |Vp|는 벡터의 크기(Vp의 벡터의 요소의 값의 제곱의 합의 평방근)이다.
이것은, 벡터Vp와 벡터VP의 유사도가 클수록, 시드패턴과 패턴의 유사도가 커지는 것이며, 바꾸어 말하면, 상술한 바와 같이, 1 이상의 각 패턴과 공기(co-occurrence)하는 단어쌍에 대응하는 클래스쌍의 겹침(중첩)이 클수록, 시드패턴과 패턴의 유사도가 커진다, 라고 하는 것이다.
Figure 112012018715931-pct00004
수학식 4에 있어서, 클래스에 독립한 패턴도, 유사도의 산출을 받아들이고 있다(이용된다). 또한, 수학식 4는, 수학식 3의 "Para(pci×cj,P)"를 이용한 변형예이다. 드문 클래스의 결합은, 조금의 인스턴스만을 포함한다는 문제(희박성문제라고 한다.)가 있다. 수학식 4는, 이 희박성문제를 해결하는 것이다. 수학식 4에 있어서의 "I(p)"는, 문장군(M)에 있어서, 패턴p와 공기(co-occurrence)하는 단어쌍의 인스턴스의 집합이다. "I(P)"는, 시드패턴P와 공기(co-occurrence)하는 단어쌍의 인스턴스의 집합이다. 그리고, ||I(p)∩I(p)||는, "I(p)"와 "I(P)"의 겹침(중첩)의 인스턴스의 수이다. 또한, ||I(p)∪I(p)||는, "I(p)"와 "I(P)"의 화집합의 인스턴스의 수이다. 또한, 수학식 4는, 클래스쌍 중의 Jaccard계수의 보충이 된다. 즉, 수학식 4에 있어서, 클래스에 포함되는 단어쌍에 한정하지 않고, 모든 단어쌍에 관해서 계산되어 있다.
수학식 4도 수학식 3과 같이, 1 이상의 시드패턴과 공기(co-occurrence)하는 단어쌍에 대응하는 클래스쌍과, 1 이상의 각 패턴과 공기(co-occurrence)하는 단어쌍에 대응하는 클래스쌍의 겹침(중첩)이 클수록, 시드패턴과 패턴의 유사도가 커지도록, 유사도가 산출된다. 또한, "I(pci×cj)와 "(Pci×cj)"의 화집합의 인스턴스의 수가 많을수록, 유사도가 작아지도록, 유사도가 산출된다. 또한, 수학식 4를 이용하면, "I(p)"와 "I(P)"의 겹침(중첩)의 인스턴스의 수가 많을수록, 시드패턴과 패턴의 유사도가 커지도록, 유사도가 산출된다. 게다가, 수학식 4를 이용하면, "I(p)"와 "I(P)"의 화집합의 인스턴스의 수가 많을수록, 유사도가 작아지도록, 유사도가 산출된다.
Figure 112012018715931-pct00005
수학식 5에 있어서, ||I(pci×cj)||+||I(Pci×cj)||는, 어떤 패턴p와, 클래스ci와 클래스cj에 속하는 단어ni와 nj가 공기(co-occurrence)하는 인스턴스의 집합의 수와, 시드패턴P와 클래스ci와 클래스cj에 속하는 단어ni와 nj가 공기(co-occurrence)하는 인스턴스의 집합의 수의 합이다. 또한, 수학식의 변형으로서, Para3의 분모의||I(pci×cj)||+||I(Pci×cj)||를, ||I(pci×cj)||x||I(Pci×cj)|| 등과 변형할 수도 있다. 또한, Para3의 분모에 대해, ||I(pci×cj)||와 ||I(Pci×cj)||의 가중치를 부여하여, 덧셈 또는 곱셈을 할 수도 있다. 즉, 수학식 5는, ||I(pci×cj)||와 ||I(Pci×cj)||를 파라미터로 하는 감소함수이면 좋다. 또한, 수학식 5는, ||I(pci×cj)∩I(Pci×cj)||를 파라미터로 하는 증가함수로 할 수 있다.
Figure 112012018715931-pct00006
수학식 6에 있어서, max(||I(pci×cj)||, ||(Pci×cj)||)는, 클래스ci와 클래스cj에 속하는 단어 ni와 nj가 공기(co-occurrence)하는 인스턴스의 집합의 수와, 시드패턴P와 클래스ci와 클래스cj에 속하는 단어ni와 nj가 공기(co-occurrence)하는 인스턴스의 집합의 수 중에서 큰 쪽의 수이다. 수학식 6에 있어서, ||I(pci×cj)∩I(Pci×cj)||를 파라미터로 하는 증가함수이면 좋다.
Figure 112012018715931-pct00007
또한, 수학식 7에 있어서, DKL(p||p)는, 수학식 8과 같이 나타난다. 수학식 8에 있어서의 DKL(p||p)는, 확률분포p1와 p2의 Kullback-Leibler 다이버전스(KL다이버전스라고도 한다.)이다. Kullback-Leibler다이버전스에 대해서는, "카자마 준이치(風間淳一), De Saeger, Stijn, 도리사와 겐타로(鳥澤健太郞), 무라타 마사키(村田眞樹)" 의존구문의 확률적클러스터링을 이용한 대규모유사어리스트의 작성"언어처리학회 제15회연차대회(NLP2009)" 등에 설명되어 있다. Kullback-Leibler다이버전스는, 공지이므로, 상세한 설명을 생략한다.
Figure 112012018715931-pct00008
수학식 7, 8에 있어서, p와 p는, 클래스쌍ci×cj에 속하는 단어쌍(ni, nj)와, pci×cj가 공기(co-occurrence)하는 확률분포이다. p는, 클래스쌍ci×cj에 속하는 단어쌍(ni, nj)와, P가 공기(co-occurrence)하는 확률분포이다.
또한, 패턴p와 공기(co-occurrence)하는 단어쌍을 벡터의 차원, p와 공기(co-occurrence)하는 단어쌍의 개수를 p의 총출현수로 나눈 값을, 그 단어쌍의 벡터의 차원의 값으로 하는 벡터Vp를 p에 대해서 작성한다. 그리고, 이 각 벡터의 요소(ni, nj)의 값이, p1(ni, nj)이다.
또한, 시드패턴P와 공기(co-occurrence)하는 단어쌍을 벡터의 차원, P와 공기(co-occurrence)하는 단어쌍의 개수를 P의 총출현수로 나눈 값을, 그 단어쌍의 벡터의 차원의 값으로 하는 벡터VP를 P에 대해서 작성한다. 그리고, 이 각 벡터의 요소(ni, nj)의 값이, p2(ni, nj)이다.
또한, KL다이버전스도, 벡터끼리의 유사도가 큰 것을 취하는 지표이다. 즉, KL다이버전스에 있어서, 예를 들면, p와 p가 같은 경우, DKL의 p/ p가 1이 되어, log/ p가 0이 되어, KL다이버전스도 0이 된다. 또한, p와 p가 다른 값의 경우, 최종적인 KL다이버전스의 값은 정의 값이 된다.
패턴유사도산출부(119)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 패턴유사도산출부(119)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
패턴유사도축적부(120)는, 패턴유사도산출부(119)가 산출한 패턴유사도를, 패턴마다, 패턴유사도저장부(107)에 축적한다.
패턴유사도축적부(120)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 패턴유사도축적부(120)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
친화성정보산출부(121)는, 단어쌍과 패턴의 친화성정보를 산출한다. 친화성정보산출부(121)는, 단어쌍취득부(111)가 취득한 1 이상의 단어쌍과, 1 이상의 각 패턴이 공기(co-occurrence)하는 횟수 또는 비율이 많을수록, 커지도록 친화성정보를 산출하는 것이 바람직하다. 친화성정보산출부(121)는, 예를 들면, 수학식 9, 또는 수학식 10에 의해, 단어쌍과 패턴의 친화성을 산출한다.
수학식 9에 있어서, 친화성정보(Assoc1)는, 정수의 1이므로, 후술하는 스코어산출에 있어서, 친화성정보가 고려되지 않는 것과 같다.
수학식 10에 있어서, ||(n, p, n')||는, 단어쌍(n, n')와, 패턴p가 공기(co-occurrence)하는 빈도이다. 즉, 친화성정보산출부(121)는, 상기 빈도가 클수록, 커지도록 친화성정보를 산출하게 된다. 또한, ||(n, *, n')||는, 단어쌍(n, n')가 임의의 패턴과 공기(co-occurrence)하는 (즉, 단어쌍(n, n')의 출현의) 빈도이다. 게다가, ||(*, p, *)||는, 패턴p의 출현빈도이다. 즉, 친화성정보는, 단어쌍(n, n')가 임의의 패턴과 공기(co-occurrence)하는 빈도가 높으면 높을수록, 작은 값이 된다. 또한, 친화성정보는, 패턴p의 출현빈도가 높으면 높을수록, 작은 값이 된다.
Figure 112012018715931-pct00009
Figure 112012018715931-pct00010
친화성정보산출부(121)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 친화성정보산출부(121)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
친화성정보축적부(122)는, 친화성정보산출부(121)가 산출한 친화성정보를, 친화성정보저장부(108)에 축적한다. 친화성정보축적부(122)는, 통상, 단어쌍과 패턴과 친화성정보를 대응시켜서, 친화성정보저장부(108)에 축적한다. 친화성정보축적부(122)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 친화성정보축적부(122)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
클래스쌍양호도취득부(123)는, 단어쌍취득부(111)가 취득한 1 이상의 단어쌍이 갖는 각 단어가 속하는 2개의 클래스의 클래스쌍양호도를 클래스쌍양호도저장부(106)로부터 취득한다. 여기서, 통상, 클래스쌍양호도취득부(123)는, 2개의 클래스의 2개의 클래스식별자인 클래스 식별자쌍(2개의 클래스식별자)를 단어클래스정보저장부(103)로부터 취득해, 그 클래스식별자쌍에 대응하는 클래스쌍양호도를 클래스쌍양호도저장부(106)로부터 취득한다. 클래스쌍양호도취득부(123)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 클래스쌍양호도취득부(123)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
패턴유사도취득부(124)는, 시드패턴과 패턴의 유사도를, 패턴유사도저장부(107)로부터 취득한다. 패턴유사도취득부(124)는, 예를 들면, 스코어산출대상의 패턴을 식별하는 패턴식별자에 대응하는 유사도를, 패턴유사도저장부(107)로부터 취득한다. 패턴유사도취득부(124)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 패턴유사도취득부(124)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
친화성정보취득부(125)는, 친화성정보를, 친화성정보저장부(108)로부터 취득한다. 친화성정보취득부(125)는, 예를 들면, 스코어산출대상의 패턴 및 스코어산출대상의 단어쌍에 대응하는 친화성정보를, 친화성정보저장부(108)로부터 취득한다. 친화성정보취득부(125)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 친화성정보취득부(125)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
스코어결정부(126)는, 클래스쌍양호도취득부(123)가 취득한 클래스쌍양호도를 이용해, 단어쌍취득부(111)가 취득한 각 단어쌍의 스코어를 결정한다. 스코어결정부(126)는, 클래스쌍양호도를 증가함수로 하는 연산식에 의해, 스코어를 결정한다. 또한, 스코어결정부(126)는, 패턴유사도저장부(107)에 저장되어 있는 1 이상의 각 패턴과 시드패턴의 유사도도 이용해, 단어쌍취득부(111)가 취득한 각 단어쌍의 스코어를 결정하는 것이 바람직하다. 상기 경우, 스코어결정부(126)는, 유사도를 증가함수로 하는 연산식에 의해, 스코어를 결정한다. 또한, 스코어결정부(126)는, 친화성정보저장부(108)의 친화성정보도 이용해, 단어쌍취득부(111)가 취득한 각 단어쌍의 스코어를 결정하는 것이 바람직하다. 상기 경우, 스코어결정부(126)는, 친화성정보를 증가함수로 하는 연산식에 의해, 스코어를 결정한다.
또한, 스코어결정부(126)는, 수학식 11에 나타내는 바와 같이, 클래스쌍양호도, 시드패턴과 패턴의 유사도, 및 친화성정보의 꼽셈(multiplication, 積, 積算)이 가장 큰 시드패턴 또는 패턴에 있어서의 스코어를, 각 단어쌍의 스코어로서 결정하는 것이 바람직하다.
Figure 112012018715931-pct00011
또한, 스코어결정부(126)는, 예를 들면, 수학식 11에 있어서의 Para에 대해서, 상술한 Para1로부터 Para5 중 어느 하나를 적용할 수 있다. 또한, 스코어결정부(126)는, 수학식 11에 있어서의 Assoc에 대해서, 상술한 Assoc1 또는 Assoc2중 어느 하나를 적용할 수 있다. 즉, 수학식 11은, 더 구체적으로는, 이하의 수학식 12, 또는 수학식 13, 또는 수학식 14 등일 수도 있다. 수학식 12로부터 수학식 14에 있어서, 인수, 및 연산자"max"는 생략되어 있다. 또한, 수학식 12에 의해, 스코어를 산출하는 방법을, Class Dependent I(CD-I)라고 한다. 또한, 수학식 13에 의해, 스코어를 산출하는 방법을, Class Dependent II(CD-II)라고 한다. 게다가, 수학식 14에 의해, 스코어를 산출하는 방법을, Class Dependent III(CD-III)라고 한다.
Figure 112012018715931-pct00012
Figure 112012018715931-pct00013
Figure 112012018715931-pct00014
수학식 11으로부터 수학식 14에 있어서, 스코어는, Cscore, Para, 및 Assoc의 3개의 값의 적에 의해 산출되었다. 다만, 스코어는, 3개의 값의 합으로 산출될 수도 있고, 스코어는, Cscore ×Para×Assoc에 의해 산출될 수도 있다. 즉, 스코어는, Cscore, Para, 및 Assoc를 파라미터로서 산출되면 좋다. 또한, 스코어는, 통상, Cscore가 클수록 큰 값이 되어, Para가 클수록 큰 값이 되어, Assoc가 클수록 큰 값이 된다.
스코어결정부(126)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 스코어결정부(126)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
단어쌍선택부(127)는, 스코어결정부(126)가 결정한 스코어가 미리 결정된 조건을 충족시킬수록, 스코어가 높은 1 이상의 단어쌍을 취득한다. 단어쌍선택부(127)는, 통상, 스코어에 의해 단어쌍을 소트해, 예를 들면, 스코어가 역치 이상의 단어쌍을 취득한다. 또는, 단어쌍선택부(127)는, 스코어에 의해 단어쌍을 소트해, 스코어가 상위로부터 소정수(예를 들면, 1000)의 단어쌍을 취득 등을 할 수도 있다. 또한, 단어쌍선택부(127)는, 스코어에 의해 단어쌍을 소트해, 예를 들면, 단어쌍출력부(128)가, 스코어의 상위로부터 내림차순으로, 모든 단어쌍을 출력하도록 할 수도 있다. 상기 경우도, 단어쌍선택부(127)는, 1 이상의 단어쌍을 취득해, 단어쌍출력부(128)는, 1 이상의 단어쌍을 출력한 것이 된다.
단어쌍선택부(127)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 단어쌍선택부(127)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
단어쌍출력부(128)는, 단어쌍선택부(127)가 취득한 1 이상의 단어쌍을 출력한다. 여기서, 출력이라는, 디스플레이에의 표시, 프로젝터를 이용한 투영, 프린터에의 인자, 음출력(音出力), 외부의 장치에의 송신, 기록매체에의 축적, 다른 처리장치나 다른 프로그램 등에의 처리결과의 인도 등을 포함한 개념이다. 단어쌍출력부(128)는, 디스플레이나 스피커 등의 출력디바이스를 포함한다고 생각할 수도 있고, 포함하지 않는다고 생각할 수도 있다. 단어쌍출력부(128)는, 출력디바이스의 드라이버소프트 또는, 출력디바이스의 드라이버소프트와 출력디바이스 등으로 실현될 수 있다.
단어쌍제외부(129)는, 제외클래스쌍저장부(109)에 저장되어 있는 1 이상의 어느 하나의 제외클래스쌍에 대응하는 단어쌍을 출력하는 단어쌍으로부터 제외한다. 또한, 단어쌍출력부(128)는, 단어쌍제외부(129)가 제외한 단어쌍에 대해, 통상, 출력하지 않는다. 여기서, 제외한다는 것은, 통상, 삭제하는, 의미이다. 다만, 제외한다는 것은, 스코어를 낮게 하는 것이나, 해당 단어쌍의 순위를 떨어뜨리는(예를 들면, 최하위로 한다) 등의 것도 포함할 수도 있다. 단어쌍제외부(129)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 단어쌍제외부(129)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
제외클래스쌍축적부(130)는, 평균출현빈도가 미리 결정된 역치 이상의 차이를 갖는 2개의 클래스의 클래스식별자를 제외클래스쌍으로서, 제외클래스쌍저장부(109)에 축적한다. 역치는, 예를 들면, 25배이다. 제외클래스쌍축적부(130)는, 통상, MPU나 메모리 등으로부터 실현될 수 있다. 제외클래스쌍축적부(130)의 처리순서는, 통상, 소프트웨어로 실현되어, 해당 소프트웨어는 ROM 등의 기록매체에 기록되어 있다. 단, 하드웨어(전용 회로)로 실현될 수도 있다.
다음에, 단어쌍취득장치(1)의 동작에 대해, 도 6의 플로 차트를 이용해 설명한다. 도 6의 플로 차트에 있어서, 단어쌍저장부(102), 단어클래스정보저장부(103), 시드패턴저장부(104), 패턴저장부(105), 클래스쌍양호도저장부(106), 패턴유사도저장부(107), 친화성정보저장부(108), 및 제외클래스쌍저장부(109)의 구성요소 중에, 각 구성요소가 저장할 수 있는 정보가 저장된 후, 소정의 관계에 있는 단어쌍을 출력하는 처리에 대해 설명한다.
(스텝 S601) 스코어결정부(126)는, 카운터 I 에 1을 대입한다.
(스텝 S602) 스코어결정부(126)는, 단어쌍저장부(102)의 단어쌍 중 또는, 단어쌍취득부(111)가 취득한 단어쌍 중, i번째의 단어쌍이 존재하는지 아닌지를 판단한다. i번째의 단어쌍이 존재하면 스텝 S603에 가고, i번째의 단어쌍이 존재하지 않으면 스텝 S618에 간다.
(스텝 S603) 스코어결정부(126)는, i번째의 단어쌍을 취득한다.
(스텝 S604) 스코어결정부(126)는, i번째의 단어쌍에 대한 클래스쌍을 취득한다. 여기서, 클래스쌍이라는, 2개의 클래스식별자일 수도 있다.
(스텝 S605) 스코어결정부(126)는, 스텝 S604에서 취득한 클래스쌍이, 제외클래스쌍저장부(109)에 저장되어 있는 제외클래스쌍인지 아닌지를 판단한다. 제외클래스쌍이면 스텝 S617에 가고, 제외클래스쌍이 아니면 스텝 S606에 간다.
(스텝 S606) 스코어결정부(126)는, 클래스쌍양호도저장부(106)로부터, 스텝 S604에서 취득한 클래스쌍에 대응하는 클래스쌍양호도를 취득한다.
(스텝 S607) 스코어결정부(126)는, 카운터 j에 1을 대입한다.
(스텝 S608) 스코어결정부(126)는, j번째의 패턴이, 패턴저장부(105) 또는, 시드패턴저장부(104)에 존재하는지 아닌지를 판단한다. j번째의 패턴이 존재하면 스텝 S609에 가고, 존재하지 않으면 스텝 S615에 간다.
(스텝 S609) 스코어결정부(126)는, j번째의 패턴을 패턴저장부(105) 또는, 시드패턴저장부(104)로부터 취득한다.
(스텝 S610) 스코어결정부(126)는, j번째의 패턴에 대응하는 유사도를, 패턴유사도저장부(107)로부터 취득한다.
(스텝 S611) 스코어결정부(126)는, i번째의 단어쌍, 및 j번째의 패턴에 대응하는 친화성정보를, 친화성정보저장부(108)로부터 취득한다.
(스텝 S612) 스코어결정부(126)는, 스텝 S606에서 취득한 클래스쌍양호도, 스텝 S610에서 취득한 유사도, 및 스텝 S611에서 취득한 친화성정보를 이용해, i번째의 단어쌍, 및 j번째의 패턴에 대응하는 스코어를 산출한다.
(스텝 S613) 스코어결정부(126)는, 스텝 S612에서 산출한 j번째의 패턴에 대응하는 스코어를, 버퍼에 일시 축적한다.
(스텝 S614) 스코어결정부(126)는, 카운터 j를 1, 증분(increment)한다. 스텝 S608에 되돌아간다.
(스텝 S615) 스코어결정부(126)는, 스텝 S613에서 버퍼에 일시 축적한 스코어 중에서, 최대의 스코어를 취득한다.
(스텝 S616) 스코어결정부(126)는, 스텝 S615에서 취득한 스코어를, i번째의 단어쌍과 대응시켜서 축적한다.
(스텝 S617) 스코어결정부(126)는, 카운터 i를 1, 인크리먼트한다. 스텝 S602에 되돌아간다.
(스텝 S618) 단어쌍선택부(127)는, 스텝 S616에서 축적한 스코어를 키로서, 단어쌍을 소트한다.
(스텝 S619) 단어쌍선택부(127)는, 스텝 S618에서 소트한 단어쌍 중, 미리 결정된 조건을 충족시킬수록, 스코어가 높은 1 이상의 단어쌍을 취득한다.
(스텝 S620) 단어쌍출력부(128)는, 스텝 S619에서 취득된 1 이상의 단어쌍을 출력해, 처리를 종료한다.
또한, 도 6의 플로 차트에 대해 설명하지 않았지만, 단어쌍저장부(102)의 단어쌍, 단어클래스정보저장부(103)의 단어클래스정보, 시드패턴저장부(104)의 시드패턴, 패턴저장부(105)의 패턴, 클래스쌍양호도저장부(106)의 클래스쌍양호도, 패턴유사도저장부(107)의 유사도, 친화성정보저장부(108)의 친화성정보, 및 제외클래스쌍저장부(109)의 제외클래스쌍은, 각각 상술한 처리에 의해, 저장된다.
또한, 도 6의 플로 차트에 있어서, 제외클래스쌍에 대응하는 단어쌍을 처리로부터 제외하는 것은, 스텝 S605에 있어서, 하게 됐다. 그러나, 제외클래스쌍에 속하는 단어쌍을, 출력하는 단어쌍으로부터 제외하는 처리는, 다른 타이밍(예를 들면, 출력하기 직전 등)일 수도 있다.
이하, 본 실시의 형태에 있어서의 단어쌍취득장치(1)의 구체적인 동작에 대해 설명한다. 지금, 문장군저장부(101)는, 웹상의 1 이상의 웹페이지를 저장한다. 또한, 단어쌍저장부(102)는, 1 이상의 웹페이지로부터 취득한 명사인 단어의 쌍을 다수 저장한다.
또한, 단어클래스정보저장부(103)는, 예를 들면, 도 7에 나타내는 바와 같은 단어클래스정보관리표를 유지한다. 도 7에 나타내는 단어클래스정보관리표는, 클래스식별자" C290" 및 "C471"의 단어클래스정보만을 나타낸다. 또한, 1의 단어가 복수의 클래스에 속하는 것도 있을 수 있다. 또한, 본 단어클래스정보관리표는, 예를 들면, 단어클래스정보취득부(113)가 상술한 처리에 의해, 취득한 정보이다.
또한, 클래스출현빈도정보저장부(110)는, 도 8에 나타내는 클래스출현빈도정보관리표를 유지한다. 클래스출현빈도정보관리표는, "클래스"와 "평균출현빈도"를 갖는 레코드이다. "클래스"는, 클래스식별자이다. "평균출현빈도"는, 클래스식별자에서 식별되는 클래스에 속하는 단어쌍의 평균출현빈도이다.
상기 상황에 있어서, 3개의 실험을 실시했다. 실험 1은, 원인과 결과의 단어쌍을 취득하는 실험이다. 실험 2는, 제품과 재료의 단어쌍을 취득하는 실험이다. 실험 3은, 현상과 방지수단을 취득하는 실험이다.
또한, 3개의 실험에 있어서, 4개의 베이스라인방법과, 본 출원의 단어쌍취득장치(1)에 의한 방법을 비교하는 실험을 실시했다. 4개의 베이스라인방법 중 제1의 방법은, Espresso(ESP)로 불리는 방법이다(비특허문헌 1 참조). ESP는, 상술한 바와 같이, 꺼내고 싶은 단어쌍을 소량 주어, 해당 단어쌍으로부터 패턴을 취득한다. 그리고, 종래의 단어쌍취득장치는, 그 취득한 패턴과 공기(co-occurrence)하는 단어쌍을 취득하는 것이다. 또한, ESP는, 반복하는 부트스트랩(bootstrap)방법이다.
또한, 4개의 베이스라인방법 중 제2의 방법은, 단어쌍취득장치(1)과는 달라, 클래스를 이용하지 않는 방법이다. 즉, 이 제2의 방법은, Single Class(SC)라고 불러, 수학식 15에 의해, 단어쌍의 스코어가 산출된다.
Figure 112012018715931-pct00015
수학식 15에 있어서, "I(p)"는, 패턴p와 공기(co-occurrence)하는 단어쌍의 인스턴스, "I(P)"는, 시드패턴P와 공기(co-occurrence)하는 단어쌍의 인스턴스이다. 또한, ||I(p)∩I(P)||는, "I(p)"와 "I(P)"의 겹침쳐(차이집합)의 인스턴스의 수이다. 또한, ||I(p)∪I(P)||는, "I(p)"와 "I(P)"의 화집합의 인스턴스의 수이다.
또한, 4개의 베이스라인방법 중 제3의 방법, 및 제4의 방법은, 랜덤 베이스라인메소드이다. 제3의 방법은, "R-I"라고 한다. R-I는, 1 이상의 문장군으로부터, 패턴p와 공기(co-occurrence)하는 단어쌍을 취득하는 방법이다. 제4의 방법은, "R-II"라고 한다. R-II는, 1 이상의 문장군으로부터, 시드패턴P와 공기(co-occurrence)하는 단어쌍을 취득하는 방법이다.
또한, 단어쌍취득장치(1)에 의한 방법이라는, 상술한 CD-I, CD-II, CD-III의 3개이다.
또한, 3개의 각 실험으로, 모든 방법에게 주는 시드패턴은 동일하다. 다만, 당연히, 3개의 실험으로 이용하는 시드패턴은 다르다. 그리고, 3명의 판단자가, 각 방법이 출력한 단어쌍이 올바른가 아닌가를 판단했다.
또한, 각 방법에 있어서, 출력인 순위매김된 단어쌍의 집합을, 세그먼트(segment)에 분할했다. 세그먼트라는, 예를 들면, 상위 5000, 상위 5000에서 15000, 상위 15000에서 35000, 및 상위 35000에서 75000이다. 그리고, 각 방법에 있어서, 각 세그먼트로부터, 랜덤으로 100의 단어쌍의 샘플을 취득했다. 그리고, 모든 세그먼트에 있어서, 단어쌍이 소정의 관계의 단어쌍인 정답율(이하, 정확도라고도 한다.)을 산출했다. 또한, 실험에 있어서, 2개의 평가기준을 적용했다. 1번째는, 3명이 정답으로 했을 경우만, 단어쌍을 정답으로 하는 "엄격항(strict)"판단, 2번째는, 과반수(2명)가 정답으로 했을 경우도, 단어쌍을 정답으로 하는 "관대한(lenient)"판단이다. 또한, 평가를 위해서, 500의 단어쌍의 스톱워드리스트를 사용했다. 이와 같이 하는 것으로, 각 방법의 출력으로부터 대명사의 쌍, 명사화의 쌍, 및 스톱워드의 쌍을 제외할 수 있었다.
(실험 1)
실험 1은, 원인과 결과의 단어쌍을 취득하는 실험이다. 실험 1에 있어서, 시드패턴저장부(104)에는, 예를 들면, "X는 Y를 일으킨다""X가 Y의 원인이 된다" 등의 20의 시드패턴을 저장했다.
단어쌍취득장치(1)의 CD-III에 의한 방법에서는, 도 9에 나타내는 바와 같은 단어쌍 등의 출력을 얻을 수 있었다. 도 9에 있어서, 클래스쌍, 랭크, 및 단어쌍을 나타낸다. 랭크는, 스코어에 의해 매기게 된 순위이다. CD-III를 이용했을 경우, 예기치 않은 단어쌍이, Web(1 이상의 문장군)로부터 취득할 수 있었다. 이것은, Web로부터, 모르는, 또한 유용한 단어쌍(결과와 원인의 단어쌍)을 취득할 수 있는 것을 나타낸다. 도 10은, 실험 1에 있어서의 각 방법의 정확도를 나타내는 그래프이다. 도 10에 있어서, 횡축(Samples Ranked by Score)은, 스코어에 의해, 순위매김한 샘플(단어쌍)을 나타내, 세로축(Precision(%))은, 단어쌍의 정답율을 나타낸다. 도 10에 의하면, 단어쌍취득장치(1)의 CD-III의 방법(관대한(lenient) 케이스)에 있어서, 탑60,000의 단어쌍의 정확도는 70% 이상이며, 탑 30,000의 단어쌍의 정확도는 80% 이상이다. 이것은, ESP나 SC와 비교해, CD-III의 정확도가 지극히 높은 것을 나타낸다. 게다가, 탑 5000의 세그먼트에 있어서, CD-II(관대한(lenient) 케이스)는, 93%정도의 정확도를 달성한다. 이상에 의해, CD-II나 CD-III의 클래스를 이용한 방법은, 지극히 효과적인 것을 말할 수 있다.
또한, "X는 Y를 일으킨다""X가 Y의 원인이 된다"라고 하는 시드패턴을 이용했을 경우, 단어쌍취득장치(1)에 있어서, 32,213의 단어쌍(20,687의 스톱워드를 제외하다)을 취득할 수 있었다. 또한, 1,282의 클래스에 단어를 분류할 수 있었다. 또한, 스톱워드라는, 출력으로부터 제외해야 할 워드이다.
또한, 8회의 반복을 한 Espresso에서는, "X에 의한 Y"의 패턴을 이용해, 1,520,662의 단어쌍을 취득할 수 있었다.
또한, R-I(완전히 랜덤인 베이스라인방법)에서는, 100의 랜덤으로 취득한(n, p, n') 튜플(tuple)으로부터, 원인과 결과의 관계를 갖는 단어쌍을 취득할 수 없었다. 또한, R-II의 방법에서는, 시드패턴과 공기(co-occurrence)하는 20,678의 튜플으로부터 랜덤으로 100의 튜플을 선택해 보았더니, 엄격한(strict) 케이스로 46%의 정확도, 관대한(lenient) 케이스로 71%의 정확도였다. 이것들은, 모두, 단어쌍취득장치(1)의 방법보다 나쁜 것이 밝혀졌다.
(실험 2)
실험 2는, 제품과 재료의 단어쌍을 취득하는 실험이다. 실험 2에 있어서, 시드패턴저장부(104)에는, 예를 들면, "Y는 X에 의해 만들어진다""X는 Y의 재료이다" 등의 14의 시드패턴을 저장했다.
그리고, 단어쌍취득장치(1)를 이용해, 예를 들면, 도 11에 나타내는 바와 같은 단어쌍 등의 출력을 얻을 수 있었다. 또한, 단어쌍취득장치(1)의 단어쌍취득부(111)는, 11,471의 단어쌍(8,633의 스톱워드를 없앤 후)을 취득할 수 있었다. 또한, 단어쌍취득장치(1)는, 620의 클래스쌍을 취득했다.
또한, 도 12는, 실험 2에 있어서의 각 방법의 정확도를 나타내는 그래프이다. 도 12에 있어서, 단어쌍취득장치(1)에 있어서의 CD-III의 방법(관대한(lenient) 케이스)는, 탑 30,000의 샘플(세그먼트)에 있어서, 80% 이상의 정확도인 것을 나타낸다. 한편, Espress(관대한(lenient) 케이스)에서는, 50%정도의 정확도이며, CD-III의 방법은 Espress와 비교해, 30% 이상이나 우수했다.
 또한, 클래스의존의 방법인 CD-I, CD-II에서는, 상위의 랭크의 세그먼트를 보면, 매우 좋은 결과를 나타낸다. 다만, CD-I, CD-II에서는, 하위의 랭크에서는, 급격하게 정확도가 저하한다. 또한, Espresso(관대한(lenient) 케이스)는, CD-I(관대한(lenient) 케이스)의 저랭크(30,000정도)에 대해서는 우위이다.
게다가, R-I에서는, 올바른 단어쌍을 취득할 수 없었다. 또한, R-II에서는, 엄격한(strict) 케이스에서 59%의 정확도, 관대한(lenient) 케이스에서는 72%의 정확도로, 단어쌍을 취득했다.
(실험 3)
실험 3은, 현상과 방지수단의 단어쌍을 취득하는 실험이다. 실험 3에 있어서, 시드패턴저장부(104)에는, 예를 들면, "X에 의해 Y를 막는다""Y를 방지하는 X" 등의 20의 시드패턴을 저장했다.
단어쌍취득장치(1)에 의한 방법에서는, 예를 들면, 도 13에 나타내는 바와 같은 단어쌍 등의 출력을 얻을 수 있었다. 또한, 단어쌍취득장치(1)의 단어쌍취득부(111)는, 18,512의 단어쌍(9,946의 스톱워드를 없앤 후)을 취득할 수 있었다. 또한, 단어쌍취득장치(1)는, 1,161의 클래스쌍을 취득했다.
또한, 도 14는, 실험 3에 있어서의 각 방법의 정확도를 나타내는 그래프이다. 도 12에 있어서, 단어쌍취득장치(1)에 있어서의 CD-III의 방법은, 탑의 2개의 세그먼트(탑 5,000, 및 5,000에서 15,000)에 있어서, Espresso와 SC와 비교해, 우수한 것을 중이다. 이 실험 3에서는, 단어쌍취득장치(1)에 의한 방법 중, CD-III만 평가했다. 또한, 실험 3에 있어서, CD-III의 방법을, 확장한 방법(CD-IIIa, CD-IIIb)도 이용해, 단어쌍취득장치(1)를 평가했다. 확장한 방법을 이용한 것은, 시드패턴을 포함한 패턴에 의해 취득된 단어쌍 중에는, 구체적인 방지수단보다, 그 자체를 방지하는 행위를 나타내는 단어가 포함되어 있었기 때문이다. 예를 들면, 단어쌍취득장치(1)가 취득한 단어쌍에는, 패턴"Y를 방지하는 X"에 대응해 "공복(空腹) 을 방지하는 수단"이나 "누락을 방지하는 메커니즘" 중의 "공복"과 "수단", "누락"과 "메커니즘" 등 단어쌍이 있었다. "수단"이나 "메커니즘" 등은, 부적절하다고 해, 제외하도록 했다. 이것은, 상술한 제외클래스쌍저장부(109)의 제외클래스쌍을 이용해, 채용하지 않는 단어쌍을 결정하는 것 등이다.
CD-IIIa는, CD-III와 비슷하지만, 제외클래스쌍저장부(109)의 제외클래스쌍에 대응하는 단어쌍을 제외하는 점이 다르다. CD-IIIa에 있어서, 평균출현빈도가 미리 결정된 역치 이상의 차이를 갖는 2개의 클래스의 클래스식별자를 제외클래스쌍으로 한다. 여기서, 역치는, 25배이다. 제외클래스쌍을 이용하는 것은, 매우 출현빈도의 높은 단어가 속하는 클래스에 속하는 단어는, 소정의 관계에 있는 양호한 단어쌍을 구성하는 단어가 되기 어렵다, 라고 생각되기 때문이다. 또한, 도 8의 평균출현빈도관리표를 이용했을 경우, 클래스 9와 클래스 49의 평균출현빈도의 차이는, 25배 이상(약 135배)이며, 클래스 9와 클래스 49는, 제외클래스쌍이 된다.
또한, CD-IIIb도, CD-IIIa와 같이, CD-III와 비슷하지만, 제외클래스쌍저장부(109)의 제외클래스쌍에 대응하는 단어쌍을 제외하는 점이 다르다. CD-IIIb에 있어서, 수동작업으로 9개의 제외클래스쌍을 준다. 실험자가, CD-III의 출력을 체크해, 9개의 제외클래스쌍을 결정했다. 도 14에 의하면, 대체로, CD-IIIb가 양호한 결과를 나타낸다.
게다가, R-I에서는, 엄격한(strict) 및 관대한(lenient) 케이스 모두, 100샘플 중에서는, 올바른 단어쌍을 취득할 수 없었다. 또한, R-II에서는, 엄격한(strict) 케이스에서 59%의 정확도, 관대한(lenient) 케이스에서는 68%의 정확도로, 단어쌍을 취득했다.
이상, 본 실시의 형태에 의하면, 소정의 관계에 있는 단어쌍을, 정확도 높게 취득할 수 있다.
또한, 본 실시의 형태에 있어서, 클래스쌍양호도만을 이용해, 단어쌍의 스코어를 산출할 수도 있다. 상기 경우, 예를 들면, 스코어는, 클래스쌍양호도와 일치할 수도 있다. 그리고, 이 단어쌍취득장치(1)는, 1 이상의 문장군을 저장할 수 있는 문장군저장부와, 1 이상의 단어와 해당 1 이상의 단어가 속하는 클래스를 식별하는 클래스식별자를 대응시켜서 갖는 2 이상의 단어클래스정보를 저장할 수 있는 단어클래스정보저장부와, 2개의 클래스의 장점을 나타내는 지표인 클래스쌍양호도를 저장할 수 있는 클래스쌍양호도저장부와, 소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해서 이용하는 패턴인 시드패턴을 1 이상 저장할 수 있는 시드패턴저장부와, 상기 시드패턴저장부에 저장되어 있는 1 이상의 시드패턴의 어느 하나를 취득해, 상기 문장군저장부에 저장되어 있는 1 이상의 문장군으로부터, 상기 취득한 시드패턴과 공기(co-occurrence)하는 1 이상의 단어쌍을 취득하는 단어쌍취득부와, 상기 단어쌍취득부가 취득한 1 이상의 단어쌍이 갖는 각 단어가 속하는 2개의 클래스의 클래스쌍양호도를 상기 클래스쌍양호도저장부로부터 취득하는 클래스쌍양호도취득부와, 상기 클래스쌍양호도취득부가 취득한 클래스쌍양호도를 이용해, 상기 단어쌍취득부가 취득한 각 단어쌍의 스코어를 결정하는 스코어 결정부와, 상기 스코어결정부가 결정한 스코어가 미리 결정된 조건을 충족시킬수록, 스코어가 높은 1 이상의 단어쌍을 취득하는 단어쌍선택부와, 상기 단어쌍선택부가 취득한 1 이상의 단어쌍을 출력하는 단어쌍출력부를 구비하는 단어쌍취득장치이다.
또한, 본 실시의 형태에 있어서, 단어클래스정보저장부(103)는, 단어마다, 확률분포정보를 저장할 수도 있다. 확률분포정보라는, 용어가, 1 이상의 각 클래스에 속하는 확률의 분포(집합)의 정보이다. 확률분포정보는, 벡터를 구성할 수 있다. 클래스라는, 명사를 1 이상 갖는 정보군, 또는, 명사를 추상화한 것을 1 이상 갖는 정보군이다. 클래스라는, 예를 들면, 같은 동사, 또는 같은 동사와 조사의 조와 공기(co-occurrence)하기 쉬운 명사의 집합이다. 클래스는, 적당히, 숨김클래스라고 한다. 또한, 상기 경우, 단어클래스정보저장부(103)가 갖는 단어클래스정보는, 도 15와 같이 된다. 도 15는, 확률분포관리표이다. 또한, 확률분포관리표의 각 데이터는, 단어마다 각 클래스에 속하는 확률을 갖는 벡터이지만, 이 벡터도, 1 이상의 단어와 해당 1 이상의 단어가 속하는 클래스의 클래스식별자를 대응시켜서 갖는 단어클래스정보의 일종이다, 라고 할 수 있다. 또한, 도 15에 있어서, 클래스식별자는, 벡터내의 요소번호로 정해진다.
그리고, 단어클래스정보취득부(113)는, 문장군저장부(101)의 1 이상의 문장군을 이용해, 도 15와 같은 확률분포관리표를 구축할 수도 있다. 즉, 예를 들면, 1,000,000의 명사구와, 100,000의 동사와 조사의 세트를 이용해, 확률"P(<v, rel>|n)"를 1 이상의 문장군(Shinzato등이 발표한 이하의 윕코파스(web corpus)"K. Shinzato, D. Kawahara, C. Hashimoto and S. Kurohashi. 2008. A Large-Scale Web Data Collection as A Natural Language Processing Infrastructure. In the 6th International Conference on Language Resources and Evaluation (LREC).")로부터 취득한다. 또한, <v, rel>의 조의 발생의 조건부확률"P(<v, rel>|n)"은, 이하의 수학식 16에 의해 산출할 수 있다. "P(<v, rel>|n)"는, 명사n의 문법적인 콘텍스트(context) 확률분포이다. 또한, v는 동사, rel는 조사, n는 명사(명사구를 포함한다)이다. 또한, 명사는 단어에 상당한다. 또한, 명사n와 조사rel로 되는 문절이, 동사v를 포함한 문절을 수식할 경우에, "명사n가<v, rel>와 공기(co-occurrence)한다"라고 한다.
Figure 112012018715931-pct00016
또한, 수학식 16에 있어서, log를 사용하지만, log를 사용하지 않을 수도 있다. 따라서, 수학식 16은, "P(<v, rel>|n)=(f(<v, rel, n>)+1)/(Σf(<v, rel, n>)+1)"일 수도 있다.
수학식 16에 있어서, "f(<v, rel, n>)"는, <v, rel, n>의 출현빈도이다. 또한, D는, {<v, rel>|f(<v, rel, n>)>0}으로서 정의되는 세트이다. 또한, "f(<v, rel, n>)=0"의 경우, "P(<v, rel>|n)"는, "0"이다.
또한, 단어클래스정보취득부(113)는, "EM-based clustering"라고 하는 클래스분류방법에 의해, 명사를 분류할 수도 있다. 즉, 단어클래스정보취득부(113)는, 이하의 수학식 17으로 나타나는 <v, rel, n>의 조의 출현확률을 산출한다.
Figure 112012018715931-pct00017
수학식 17에 있어서, "a"는 <v, rel>의 조 및 "n"가 숨김클래스를 나타낸다. 수학식 17에 있어서, 확률"P(<v, rel>|a)", "P(n|a)" 및 "P(a)"가 직접적으로 산출할 수 없다. 숨김클래스"a"가 주어진 코파스로부터 취득할 수 없기 때문이다.
"EM-based clustering"는, 주어진 코파스(1 이상의 문장군)로부터, 이러한 확률("P(<v, rel>|a)", "P(n|a)" 및 "P(a)")를 추정한다. "EM-based clustering"는 "E스텝"과 "M스텝"의 2개의 스텝으로 된다. "E스텝"에 있어서, 확률"P(<v, rel>|a)"가 산출된다. "M스텝"에 있어서, "E스텝"에 있어서의 결과를 이용해, 최대우도가 될 때까지, "P(<v, rel>|a)", "P(n|a)" 및 "P(a)"가 갱신된다.
이상의 처리에 의해, 각 <v, rel>, n, 및 a에 대해서, 확률"P(<v, rel>|a)", "P(n|a)" 및 "P(a)"가 산출된다.
그리고, "P(a|n)"는, 이하의 수학식 18에 의해 산출된다.
Figure 112012018715931-pct00018
"P(a|n)"는, n의 클래스를 결정하기 위해서 이용된다. 예를 들면, 최대의 "P(a|n)"를 갖는 클래스가, n가 속하는 클래스이다. 유사하는 <v, rel>의 조와 공기(co-occurrence)하는 명사구는, 같은 클래스에 속하는 경향이 있다.
또한, 본 명세서에서 기재한 클래스쌍에 관해서, 이하와 같이 좁히는 것이 바람직하다. 즉, 도시하지 않는 수단 또는 상술한 어느 하나의 구성요소(발명특정사항)에 의해, 문장군저장부(101)의 문장군으로부터, 시드패턴과 공기(co-occurrence)하는 단어쌍을 꺼내, 해당 단어쌍이, 미리 결정된 수(역치는 미리 저장되어 있다) 이상 존재하는 클래스쌍으로 한정한다. 그리고, 한정된 클래스쌍, 또는 한정된 클래스쌍의 단어쌍을 이용해, 상술한 처리(단어쌍의 취득처리나, 클래스쌍양호도의 산출이나, 패턴의 유사도의 산출이나, 스코어의 산출 등)가 하게 된다. 위와 같은 것으로, 처리의 고속화를 도모할 수 있다.
또한, 본 명세서에서 기재한 각종의 수학식은, 기술적사상을 반영하는 범위에서, 다소의 변형을 더할 수 있는 것은 말할 필요도 없다.
게다가, 본 실시의 형태에 있어서의 처리는, 소프트웨어로 실현될 수도 있다. 그리고, 이 소프트웨어를 소프트웨어다운로드 등으로 배포할 수도 있다. 또한, 이 소프트웨어를 CD-ROM 등의 기록매체에 기록해 유포할 수도 있다. 또한, 이 것은, 본 명세서에 있어서의 다른 실시의 형태에 있어도 해당한다. 또한, 본 실시의 형태에 있어서의 정보처리장치를 실현하는 소프트웨어는, 이하와 같은 프로그램이다. 즉, 이 프로그램은, 기억매체에, 1 이상의 문장군을 저장해, 1 이상의 단어와 해당 1 이상의 단어가 속하는 클래스를 식별하는 클래스식별자를 대응시켜서 갖는 2 이상의 단어클래스정보를 저장해, 2 개의 클래스의 장점을 나타내는 지표인 클래스쌍양호도를 저장해, 소정의 관계를 갖는 2 개의 단어쌍을 취득하기 위해서 이용하는 패턴인 시드패턴을 1 이상 저장해, 컴퓨터를, 상기 기억매체에 저장되어 있는 1 이상의 시드패턴의 어느 하나를 취득해, 상기 기억매체에 저장되어 있는 1 이상의 문장군으로부터, 상기 취득한 시드패턴과 공기(co-occurrence)하는 1 이상의 단어쌍을 취득하는 단어쌍취득부와, 상기 단어쌍취득부가 취득한 1 이상의 단어쌍이 갖는 각 단어가 속하는 2개의 클래스의 클래스쌍양호도를 상기 기억매체로부터 취득하는 클래스쌍양호도취득부와, 상기 클래스쌍양호도취득부가 취득한 클래스쌍양호도를 이용해, 상기 단어쌍취득부가 취득한 각 단어쌍의 스코어를 결정하는 스코어결정부와, 상기 스코어결정부가 결정된 스코어가 미리 결정된 조건을 충족시킬수록, 스코어가 높은 1 이상의 단어쌍을 취득하는 단어쌍선택부와, 상기 단어쌍선택부가 취득한 1 이상의 단어쌍을 출력하는 단어쌍출력부로서 기능시키기 위한 프로그램, 이다.
또한, 상기 프로그램에 있어서, 컴퓨터를, 2개의 각 클래스에 속하는 단어쌍이, 상기 문장군저장부의 1 이상의 문장군 중, 상기 1 이상의 시드패턴과 공기(co-occurrence)하는 횟수 또는 비율이 많을수록 클래스쌍양호도가 커지도록 클래스쌍양호도를 산출하는 클래스쌍양호도산출부로서, 더 기능시켜, 상기 클래스쌍양호도산출부가 산출한 2개의 클래스의 클래스쌍양호도는, 기억매체에 저장되어 있는 클래스쌍양호도인 것이 바람직하다.
또한, 상기 프로그램에 있어서, 기억매체에, 시드패턴이 아닌 패턴이며, 상기 소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해서 이용하는 1 이상의 패턴, 및, 상기 1 이상의 각 패턴과 상기 시드패턴의 유사도를, 패턴마다 더 저장해, 상기 단어쌍취득부는, 상기 기억매체에 저장되어 있는 1 이상의 시드패턴, 및 상기 기억매체에 저장되어 있는 1 이상의 패턴의 어느 하나를 취득해, 상기 기억매체에 저장되어 있는 1 이상의 문장군으로부터, 상기 시드패턴 또는 상기 패턴과 공기(co-occurrence)하는 1 이상의 단어쌍을 취득해, 상기 스코어결정부는, 상기 기억매체에 저장되어 있는 상기 1 이상의 각 패턴과 상기 시드패턴의 유사도도 이용해, 상기 단어쌍취득부가 취득한 각 단어쌍의 스코어를 결정하는 것으로서, 컴퓨터를 기능시키는 프로그램인 것이 바람직하다.
또한, 상기 프로그램에 있어서, 컴퓨터를, 상기 1 이상의 시드패턴과 공기(co-occurrence)하는 단어쌍에 대응하는 클래스쌍과, 상기 기억매체에 저장되어 있는 1 이상의 각 패턴과 공기(co-occurrence)하는 단어쌍에 대응하는 클래스쌍의 겹침(중첩)이 클수록, 커지도록 유사도를 산출하는 패턴유사도산출부를 더 구비하며, 상기 패턴유사도산출부가 산출한 유사도는, 상기 기억매체에 저장되어 있는 유사도인 것이 바람직하다.
또한, 상기 프로그램에 있어서, 기억매체에, 1 이상의 각 단어쌍과 1 이상의 각 패턴의 친화성에 관한 정보인 친화성정보를, 더 저장해, 상기 스코어결정부는, 상기 기억매체의 친화성정보도 이용해, 상기 단어쌍취득부가 취득한 각 단어쌍의 스코어를 결정하는 것으로서, 컴퓨터를 기능시키는 프로그램인 것이 바람직하다.
또한, 상기 프로그램에 있어서, 컴퓨터를, 상기 단어쌍취득부가 취득한 1 이상의 단어쌍과, 상기 1 이상의 각 패턴이 공기(co-occurrence)하는 횟수 또는 비율이 많을수록, 커지도록 친화성정보를 산출하는 친화성정보산출부로서 더 기능시켜, 상기 기억매체의 친화성정보는, 상기 친화성정보산출부가 산출한 친화성정보인 것이 바람직하다.
또한, 상기 프로그램에 있어서, 상기 스코어결정부는, 상기 클래스쌍양호도, 상기 시드패턴과 패턴의 유사도, 및 상기 친화성정보의 꼽셈이 가장 큰 시드패턴 또는 패턴에 있어서의 스코어를, 각 단어쌍의 스코어로서 결정하는 것으로서, 컴퓨터를 기능시키는 프로그램인 것이 바람직하다.
또한, 상기 프로그램에 있어서, 컴퓨터를, 상기 기억매체에 저장되어 있는 1 이상의 문장군의 각 문장에 대해서, 형태소해석 및 의존구문해석해, 제1의 명사 또는 명사구를 기점으로서, 제2의 명사 또는 명사구를 종점으로서, 상기 기점으로부터 상기 종점까지 이르는 형태소의 연결을 패턴으로서 취득해, 또는, 상기 기점으로부터의 형태소의 연결과 상기 종점으로부터의 형태소의 연결이 결합되는 형태소까지를 패턴으로서 취득하는 패턴취득부로서 더 기능시켜, 상기 기억매체의 패턴은, 상기 패턴취득부가 취득한 패턴인 것이 바람직하다.
또한, 상기 프로그램에 있어서, 기억매체에, 최종적으로 출력하지 않는 단어쌍에 대응하는 클래스쌍을 식별하는 2개의 클래스식별자인 제외클래스쌍을 1 이상 저장해, 컴퓨터를, 상기 1 이상의 제외클래스쌍에 대응하는 단어쌍을 출력하는 단어쌍으로부터 제외하는 단어쌍제외부로서 더 기능시키는 것이 바람직하다.
또한, 상기 프로그램에 있어서, 기억매체에, 상기 1 이상의 문장군에 있어서의, 각 클래스에 속하는 단어의 평균출현빈도와, 클래스식별자를 쌍에 갖는 클래스출현빈도정보를, 클래스마다 저장해, 컴퓨터를, 상기 평균출현빈도가 미리 결정된 역치 이상의 차이를 갖는 2개의 클래스의 클래스식별자를 제외클래스쌍으로서, 상기 제외클래스쌍저장부에 축적하는 제외클래스쌍축적부로서 더 기능시키는 것이 바람직하다.
또한, 도 16은, 본 명세서에서 말한 프로그램을 실행해, 상술한 실시의 형태의 단어쌍취득장치(1) 등을 실현하는 컴퓨터의 외관을 나타낸다. 상술의 실시의 형태는, 컴퓨터하드웨어 및 그 위세서 실행되는 컴퓨터프로그램으로 실현될 수 있다. 도 16은, 이 컴퓨터시스템(340)의 개관도이며, 도 17은, 컴퓨터시스템(340)의 내부구성을 나타내는 도이다.
도 16에 있어서, 컴퓨터시스템(340)은, FD드라이브(3411), CD-ROM드라이브(3412)를 포함한 컴퓨터(341)과, 키보드(342)와, 마우스(343)과, 모니터(344)를 포함한다.
도 17에 있어서, 컴퓨터(341)는, FD드라이브(3411), CD-ROM드라이브(3412)에 가해, MPU(3413)와, CD-ROM드라이브(3412) 및 FD드라이브(3411)에 접속된 버스(3414)와, 부트업프로그램 등의 프로그램을 기억하기 위한 ROM(3415)와, MPU(3413)에 접속되어, 응용프로그램의 명령을 일시적으로 기억하는 동시에 일시 기억공간을 제공하기 위한 RAM(3416)와, 응용프로그램, 시스템프로그램, 및 데이터를 기억하기 위한 하드디스크(3417)를 포함한다. 여기에서는, 도시하지 않지만, 컴퓨터(341)는, 게다가, LAN에의 접속을 제공하는 네트워크카드를 포함할 수도 있다.
컴퓨터시스템(340)에, 상술한 실시의 형태의 단어쌍취득장치(1) 등의 기능을 실행시키는 프로그램은, CD-ROM(3501), 또는 FD(3502)에 기억되어, CD-ROM드라이브(3412) 또는 FD드라이브(3411)에 삽입되어, 더 하드디스크(3417)에 전송될 수도 있다. 이것을 대신해, 프로그램은, 도시하지 않는 네트워크를 통해서 컴퓨터(341)에 송신되어, 하드디스크(3417)에 기억될 수도 있다. 프로그램은 실행 시에 RAM(3416)에 로드된다. 프로그램은, CD-ROM(3501), FD(3502) 또는 네트워크로부터 직접, 로드될 수도 있다.
프로그램은, 컴퓨터(341)에, 상술한 실시의 형태의 단어쌍취득장치(1) 등의 기능을 실행시키는 오퍼레이팅 시스템(OS), 또는 서드파티 프로그램 등은, 반드시 포함하지 않을 수도 있다. 프로그램은, 제어된 모양으로 적절한 기능(모듈)을 호출해, 소망한 결과를 얻을 수 있도록 하는 명령의 부분만을 포함하면 좋다. 컴퓨터시스템(340)이 어떻게 동작하는지는 주지이며, 상세한 설명은 생략한다.
또한, 상기 프로그램을 실행하는 컴퓨터는, 단수일 수도 있고, 복수일 수도 있다. 즉, 집중처리를 실시할 수도 있고, 혹은 분산처리를 실시할 수도 있다.
또한, 상기 각 실시의 형태에 있어서, 각 처리(각 기능)는, 단일의 장치(시스템)에 의해 집중처리되는 것으로 실현될 수도 있고, 혹은, 복수의 장치에 의해 분산처리하게 되는 것으로 실현될 수도 있다.
본 발명은, 이상의 실시의 형태로 한정되는 것이 없이, 여러 가지의 변경이 가능하고, 그것들도 본 발명의 범위 내에 포함되는 것인 것은 말할 필요도 없다.
이상과 같이, 본 발명에 상기 단어쌍취득장치는, 소정의 관계에 있는 단어쌍을 적절히 취득할 수 있다는 효과를 가지며, 단어쌍취득장치 등으로서 유용하다.

Claims (13)

1 이상의 문장군을 저장할 수 있는 문장군저장부와,
1 이상의 단어와 해당 1 이상의 단어가 속하는 클래스를 식별하는 클래스식별자를 대응시켜서 갖는 2 이상의 단어클래스정보를 저장할 수 있는 단어클래스정보저장부와,
2개의 클래스의 장점을 나타내는 지표이며, 해당 2개의 클래스에 속하는 단어쌍이 소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해 이용하는 패턴인 시드패턴과 잘 공기(co-occurrence)하는 정도를 나타내는 클래스쌍양호도를 저장할 수 있는 클래스쌍양호도저장부와,
2개의 단어인 단어쌍을 1 이상 저장할 수 있는 단어쌍저장부와,
상기 단어쌍저장부에 저장되어 있는 1 이상의 단어쌍이 갖는 각 단어가 속하는 2개의 클래스의 클래스쌍양호도를 상기 클래스쌍양호도저장부로부터 취득하는 클래스쌍양호도취득부와,
상기 클래스쌍양호도취득부가 취득한 클래스쌍양호도를 이용해, 상기 단어쌍저장부의 각 단어쌍의 스코어를 결정하는 스코어결정부와,
상기 스코어결정부가 결정한 스코어가 미리 결정된 조건을 채울 만큼, 스코어가 높은 1 이상의 단어쌍을 취득하는 단어쌍선택부와,
상기 단어쌍선택부가 취득한 1 이상의 단어쌍을 출력하는 단어쌍출력부를 구비하는 단어쌍취득장치.
제1항에 있어서,
소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해서 이용하는 패턴인 시드패턴을 1 이상 저장할 수 있는 시드패턴저장부와,
2개의 각 클래스에 속하는 단어쌍이, 상기 문장군저장부의 1 이상의 문장군 중에서, 상기 1이상의 시드패턴과 공기(co-occurrence)하는 횟수 또는 비율이 많을수록 클래스쌍양호도가 커지도록 클래스쌍양호도를 산출하는 클래스쌍양호도 산출부를 더 구비하며,
상기 클래스쌍양호도산출부가 산출한 2개의 클래스의 클래스쌍양호도는, 상기 클래스쌍양호도저장부에 저장되어 있는 클래스쌍양호도인 단어쌍취득장치.
제1항에 있어서,
소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해 이용하는 패턴인 시드패턴이 아닌 패턴이며, 상기 소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해서 이용하는 패턴을 1 이상 저장할 수 있는 패턴저장부와,
상기 패턴저장부에 저장되어 있는 1 이상의 각 패턴과 상기 시드패턴의 유사도를, 패턴마다 저장할 수 있는 패턴유사도저장부와,
1 이상의 시드패턴 또는 상기 패턴저장부에 저장되어 있는 1 이상의 패턴의 어느 하나를 취득해, 상기 문장군저장부에 저장되어 있는 1 이상의 문장군으로부터, 상기 시드패턴 또는 상기 패턴과 공기(co-occurrence)하는 1 이상의 단어쌍을 취득하는 단어쌍취득부를 더 구비하며,
상기 스코어결정부는,
상기 패턴유사도저장부에 저장되어 있는 상기 1 이상의 각 패턴과 상기 시드패턴과의 유사도를 파라미터로 하는 증가함수를 이용해, 상기 단어쌍취득부가 취득한 각 단어쌍의 스코어를 결정하는 단어쌍취득장치.
제3항에 있어서,
상기 1 이상의 시드패턴과 공기(co-occurrence)하는 단어쌍에 대응하는 클래스쌍과, 상기 패턴저장부에 저장되어 있는 1 이상의 각 패턴과 공기(co-occurrence)하는 단어쌍에 대응하는 클래스쌍의 겹침(중첩)이 클수록, 커지도록 유사도를 산출하는 패턴유사도산출부를 더 구비하며,
상기 패턴유사도산출부가 산출한 유사도는, 상기 패턴유사도저장부에 저장되어 있는 유사도인 단어쌍취득장치.
제3항에 있어서,
1 이상의 각 단어쌍과 1 이상의 각 패턴의 친화성에 관한 정보정보이며, 단어쌍과 패턴을 잘 공기(co-occurrence)하는 정도를 나타내는 정보인 친화성정보를 저장할 수 있는 친화성정보저장부를 더 구비하며,
상기 스코어결정부는,
상기 친화성정보저장부의 친화성정보도 파라미터로 하는 증가함수를 이용해, 상기 단어쌍취득부가 취득한 각 단어쌍의 스코어를 결정하는 단어쌍취득장치.
제5항에 있어서,
상기 단어쌍취득부가 취득한 1 이상의 단어쌍과, 상기 1 이상의 각 패턴이 공기(co-occurrence)하는 횟수 또는 비율이 많을수록, 커지도록 친화성정보를 산출하는 친화성정보산출부를 더 구비하며,
상기 친화성정보저장부의 친화성정보는, 상기 친화성정보산출부가 산출한 친화성정보인 단어쌍취득장치.
제6항에 있어서,
상기 스코어결정부는, 상기 클래스쌍양호도, 및 상기 시드패턴과 패턴의 유사도, 및 상기 친화성정보의 곱셈(multiplication, 積, 積算)이 가장 큰 시드패턴 또는 패턴에 있어서의 스코어를, 각 단어쌍의 스코어로서 결정하는 단어쌍취득장치.
제3항에 있어서,
상기 문장군저장부에 저장되어 있는 1 이상의 문장군의 각 문장에 대해서, 형태소해석 및 의존구문해석해, 제1의 명사 또는 명사구를 기점으로서, 제2의 명사 또는 명사구를 종점으로서, 상기 기점으로부터 상기 종점까지 이르는 형태소의 연결을 패턴으로서 취득해, 또는, 상기 기점으로부터의 형태소의 연결과 상기 종점으로부터의 형태소의 연결이 결합되는 형태소까지를 패턴으로서 취득하는 패턴취득부를 더 구비하며,
상기 패턴저장부의 패턴은, 상기 패턴취득부가 취득한 패턴인 단어쌍취득장치.
제1항에 있어서,
최종적으로 출력하지 않는 단어쌍에 대응하는 클래스쌍을 식별하는 2개의 클래스식별자인 제외클래스쌍을 1 이상 저장할 수 있는 제외클래스쌍저장부와,
상기 1 이상의 제외클래스쌍에 대응하는 단어쌍을 출력하는 단어쌍으로부터 제외하는 단어쌍제외부를 더 구비하는 단어쌍취득장치.
제9항에 있어서,
상기 1 이상의 문장군에 있어서의, 각 클래스에 속하는 단어의 평균출현빈도와, 클래스식별자를 쌍에 갖는 클래스출현빈도정보를, 클래스마다 저장할 수 있는 클래스출현빈도정보저장부와,
상기 평균출현빈도가 미리 결정된 역치이상의 차이를 갖는 2개의 클래스의 클래스식별자를 제외클래스쌍으로서, 상기 제외클래스쌍저장부에 축적하는 제외클래스쌍축적부를 더 구비하는 단어쌍취득장치.
제1항에 있어서,
상기 문장군저장부의 1 이상의 문장군을 이용해, 동일한 동사, 또는 동일한 동사와 조사와 공기(co-occurrence)하는 횟수 또는 비율이 많은 단어를 동일한 클래스에 속하도록, 1 이상의 단어클래스정보를 취득하는 단어클래스정보취득부를 더 구비하며,
상기 단어클래스정보저장부의 단어클래스정보는, 상기 단어클래스정보취득부가 취득한 단어클래스정보인 단어쌍취득장치.
기억매체에,
1 이상의 문장군을 저장하며,
1 이상의 단어와 해당 1 이상의 단어가 속하는 클래스를 식별하는 클래스식별자를 대응시켜서 갖는 2 이상의 단어클래스정보를 저장하고,
2개의 클래스의 장점을 나타내는 지표이며, 해당 2개의 클래스에 속하는 단어쌍이 소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해 이용하는 패턴인 시드패턴과 잘 공기(co-occurrence)하는 정도를 나타내는 클래스쌍양호도를 저장하며,
소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해서 이용하는 패턴인 시드패턴을 1 이상 저장하고,
단어쌍취득부, 클래스쌍양호도취득부, 스코어결정부, 단어쌍선택부, 및 단어쌍출력부에 의해 실현되는 단어쌍취득방법이며,
상기 단어쌍취득부에 의해, 상기 기억매체에 저장되어 있는 1 이상의 시드패턴의 어느 하나를 취득해, 상기 기억매체에 저장되어 있는 1 이상의 문장군으로부터, 상기 취득한 시드패턴과 공기(co-occurrence)하는 1 이상의 단어쌍을 취득하는 단어쌍취득스텝과,
상기 클래스쌍양호도취득부에 의해, 상기 단어쌍취득스텝에서 취득된 1 이상의 단어쌍이 갖는 각 단어가 속하는 2개의 클래스의 클래스쌍양호도를 상기 기억매체로부터 취득하는 클래스쌍양호도취득스텝과,
상기 스코어결정부에 의해, 상기 클래스쌍양호도취득스텝에서 취득된 클래스쌍양호도를 이용해, 상기 단어쌍취득스텝에서 취득된 각 단어쌍의 스코어를 결정하는 스코어결정스텝과,
상기 단어쌍선택부에 의해, 상기 스코어결정스텝에서 결정된 스코어가 미리 결정된 조건을 충족시킬수록, 스코어가 높은 1 이상의 단어쌍을 취득하는 단어쌍선택스텝과,
상기 단어쌍출력부에 의해, 상기 단어쌍선택스텝에서 취득된 1 이상의 단어쌍을 출력하는 단어쌍출력스텝을 구비하는 단어쌍취득방법.
기억매체에,
1 이상의 문장군을 저장하고,
1 이상의 단어와 해당 1 이상의 단어가 속하는 클래스를 식별하는 클래스식별자를 대응시켜서 갖는 2 이상의 단어클래스정보를 저장하며,
2개의 클래스의 장점을 나타내는 지표이며, 해당 2개의 클래스에 속하는 단어쌍이 소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해 이용하는 패턴인 시드패턴과 잘 공기(co-occurrence)하는 정도를 나타내는 클래스쌍양호도를 저장하고,
소정의 관계를 갖는 2개의 단어쌍을 취득하기 위해서 이용하는 패턴인 시드패턴을 1 이상 저장하며,
컴퓨터를,
상기 기억매체에 저장되어 있는 1 이상의 시드패턴의 어느 하나를 취득해, 상기 기억매체에 저장되어 있는 1 이상의 문장군으로부터, 상기 취득한 시드패턴과 공기(co-occurrence)하는 1 이상의 단어쌍을 취득하는 단어쌍취득부와,
상기 단어쌍취득부가 취득한 1 이상의 단어쌍이 갖는 각 단어가 속하는 2개의 클래스의 클래스쌍양호도를 상기 기억매체로부터 취득하는 클래스쌍양호도취득부와,
상기 클래스쌍양호도취득부가 취득한 클래스쌍양호도를 이용해, 상기 단어쌍취득부가 취득한 각 단어쌍의 스코어를 결정하는 스코어결정부와,
상기 스코어결정부가 결정한 스코어가 미리 결정된 조건을 충족시킬수록, 스코어가 높은 1 이상의 단어쌍을 취득하는 단어쌍선택부와,
상기 단어쌍선택부가 취득한 1 이상의 단어쌍을 출력하는 단어쌍출력부로서 기능시키기 위한 프로그램을 기록한 컴퓨터 판독가능 기록 매체.
KR1020127006123A 2009-09-09 2010-09-07 단어쌍취득장치, 단어쌍취득방법 및 기록 매체 KR101715432B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009207944A JP5382651B2 (ja) 2009-09-09 2009-09-09 単語対取得装置、単語対取得方法、およびプログラム
PCT/JP2010/065308 WO2011030752A1 (ja) 2009-09-09 2010-09-07 単語対取得装置、単語対取得方法、およびプログラム

Publications (2)

Publication Number Publication Date
KR20130038179A KR20130038179A (ko) 2013-04-17
KR101715432B1 true KR101715432B1 (ko) 2017-03-22

Family

ID=43732424

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127006123A KR101715432B1 (ko) 2009-09-09 2010-09-07 단어쌍취득장치, 단어쌍취득방법 및 기록 매체

Country Status (6)

Country Link
US (1) US9037586B2 (ko)
EP (1) EP2477125A4 (ko)
JP (1) JP5382651B2 (ko)
KR (1) KR101715432B1 (ko)
CN (1) CN102576358B (ko)
WO (1) WO2011030752A1 (ko)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510308B1 (en) * 2009-06-16 2013-08-13 Google Inc. Extracting semantic classes and instances from text
JP5594225B2 (ja) * 2011-05-17 2014-09-24 富士通株式会社 知識獲得装置、知識取得方法、及びプログラム
JP5254402B2 (ja) * 2011-06-07 2013-08-07 株式会社東芝 注目評価対象抽出装置及びプログラム
US8832655B2 (en) 2011-09-29 2014-09-09 Accenture Global Services Limited Systems and methods for finding project-related information by clustering applications into related concept categories
JP5491478B2 (ja) * 2011-10-24 2014-05-14 ヤフー株式会社 検索クエリ関連単語出力装置、検索クエリ関連単語出力方法および検索補助システム
JP5597653B2 (ja) * 2012-01-05 2014-10-01 日本電信電話株式会社 単語抽出装置及び方法及びプログラム
US9037452B2 (en) * 2012-03-16 2015-05-19 Afrl/Rij Relation topic construction and its application in semantic relation extraction
US10305831B2 (en) * 2013-12-16 2019-05-28 Fairwords, Inc. Compliance mechanism for messaging
US10289678B2 (en) 2013-12-16 2019-05-14 Fairwords, Inc. Semantic analyzer for training a policy engine
US10120859B2 (en) 2013-12-16 2018-11-06 Fairwords, Inc. Message sentiment analyzer and message preclusion
US11501068B2 (en) 2013-12-16 2022-11-15 Fairwords, Inc. Message sentiment analyzer and feedback
JP5904559B2 (ja) 2013-12-20 2016-04-13 国立研究開発法人情報通信研究機構 シナリオ生成装置、及びそのためのコンピュータプログラム
JP6403382B2 (ja) * 2013-12-20 2018-10-10 国立研究開発法人情報通信研究機構 フレーズペア収集装置、及びそのためのコンピュータプログラム
JP5907393B2 (ja) 2013-12-20 2016-04-26 国立研究開発法人情報通信研究機構 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
EP3113034A4 (en) * 2014-02-28 2017-07-12 Rakuten, Inc. Information processing system, information processing method and information processing program
JP6410455B2 (ja) * 2014-04-04 2018-10-24 日本放送協会 意味関係抽出装置およびプログラム
WO2015187129A1 (en) * 2014-06-03 2015-12-10 Hewlett-Packard Development Company, L.P. Document classification based on multiple meta-algorithmic patterns
US9678947B2 (en) * 2014-11-21 2017-06-13 International Business Machines Corporation Pattern identification and correction of document misinterpretations in a natural language processing system
US10409909B2 (en) 2014-12-12 2019-09-10 Omni Ai, Inc. Lexical analyzer for a neuro-linguistic behavior recognition system
US20170337484A1 (en) * 2014-12-12 2017-11-23 Hewlett Packard Enterprise Development Lp Scalable web data extraction
JP6437892B2 (ja) * 2015-07-13 2018-12-12 日本電信電話株式会社 ソフトウェア解析システム、ソフトウェア解析方法およびソフトウェア解析プログラム
US10062084B2 (en) 2015-10-21 2018-08-28 International Business Machines Corporation Using ontological distance to measure unexpectedness of correlation
JP2017174009A (ja) * 2016-03-22 2017-09-28 日本電気株式会社 事態間知識抽出装置、事態間知識抽出方法、及びプログラム
WO2017189768A1 (en) * 2016-04-26 2017-11-02 Ponddy Education Inc. Affinity knowledge based computational learning system
US11023475B2 (en) 2016-07-22 2021-06-01 International Business Machines Corporation Testing pairings to determine whether they are publically known
JP6721179B2 (ja) * 2016-10-05 2020-07-08 国立研究開発法人情報通信研究機構 因果関係認識装置及びそのためのコンピュータプログラム
KR20180089183A (ko) 2017-01-31 2018-08-08 동국대학교 산학협력단 뇌파를 이용한 게임 장치 및 방법
US11507744B2 (en) * 2017-11-10 2022-11-22 Nec Corporation Information processing apparatus, information processing method, and computer-readable recording medium
US11586655B2 (en) 2017-12-19 2023-02-21 Visa International Service Association Hyper-graph learner for natural language comprehension

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003256447A (ja) 2002-02-26 2003-09-12 Kyoji Umemura 関連語抽出方法および装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
JPH0689302A (ja) * 1992-09-08 1994-03-29 Hitachi Ltd 辞書メモリ
US5787422A (en) * 1996-01-11 1998-07-28 Xerox Corporation Method and apparatus for information accesss employing overlapping clusters
US6236987B1 (en) * 1998-04-03 2001-05-22 Damon Horowitz Dynamic content organization in information retrieval systems
JP3636941B2 (ja) * 1999-07-19 2005-04-06 松下電器産業株式会社 情報検索方法と情報検索装置
JP4803709B2 (ja) * 2005-07-12 2011-10-26 独立行政法人情報通信研究機構 単語用法差異情報取得プログラム及び同装置
CN1916889B (zh) * 2005-08-19 2011-02-02 株式会社日立制作所 语料库制作装置及其方法
DE102005051617B4 (de) * 2005-10-27 2009-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken
US20080208566A1 (en) * 2007-02-23 2008-08-28 Microsoft Corporation Automated word-form transformation and part of speech tag assignment
KR101465770B1 (ko) * 2007-06-25 2014-11-27 구글 인코포레이티드 단어 확률 결정
US8280886B2 (en) * 2008-02-13 2012-10-02 Fujitsu Limited Determining candidate terms related to terms of a query
JP5184195B2 (ja) * 2008-04-24 2013-04-17 日本放送協会 言語処理装置およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003256447A (ja) 2002-02-26 2003-09-12 Kyoji Umemura 関連語抽出方法および装置

Also Published As

Publication number Publication date
US20120179682A1 (en) 2012-07-12
CN102576358A (zh) 2012-07-11
JP2011059917A (ja) 2011-03-24
US9037586B2 (en) 2015-05-19
WO2011030752A1 (ja) 2011-03-17
KR20130038179A (ko) 2013-04-17
JP5382651B2 (ja) 2014-01-08
CN102576358B (zh) 2014-10-15
EP2477125A4 (en) 2016-09-21
EP2477125A1 (en) 2012-07-18

Similar Documents

Publication Publication Date Title
KR101715432B1 (ko) 단어쌍취득장치, 단어쌍취득방법 및 기록 매체
US20180300315A1 (en) Systems and methods for document processing using machine learning
JP5284990B2 (ja) キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US8090724B1 (en) Document analysis and multi-word term detector
US8645418B2 (en) Method and apparatus for word quality mining and evaluating
US20030225763A1 (en) Self-improving system and method for classifying pages on the world wide web
US20020174095A1 (en) Very-large-scale automatic categorizer for web content
US9852122B2 (en) Method of automated analysis of text documents
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
US8812504B2 (en) Keyword presentation apparatus and method
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
US20160154876A1 (en) Using context to extract entities from a document collection
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP2003288362A (ja) 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP2011118689A (ja) 検索方法及びシステム
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
JP3847273B2 (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
CN108021595B (zh) 检验知识库三元组的方法及装置
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2006293616A (ja) 文書集約方法及び装置及びプログラム
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体
KR102471408B1 (ko) 악성민원 검출장치 및 그 방법
Xu et al. Exploiting paper contents and citation links to identify and characterise specialisations

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant