KR20080084803A

KR20080084803A - 교차-언어 지식 검색을 위한 시스템 및 방법

Info

Publication number: KR20080084803A
Application number: KR1020087012584A
Authority: KR
Inventors: 제임스 토드헌터; 이고르 소브펠; 헤오르히 지할코
Original assignee: 인벤션 머신 코포레이션; 이고르 소브펠; 제임스 토드헌터; 헤오르히 지할코
Priority date: 2005-10-24
Filing date: 2006-10-24
Publication date: 2008-09-19
Also published as: EP1941405A2; WO2007051109A3; US20070094006A1; US7672831B2; WO2007051109A2

Abstract

교차-언어 지식 검색을 위한 시스템 및 방법. 상기 시스템은 시맨틱 분석기, 자연어 사용자 요청/문서 검색 패턴/시맨틱 인덱스 생성기, 사용자 요청 검색 패턴 번역기 및 지식 기반 검색기를 갖는다. 상기 시스템은 또한 자동 시맨틱 분석 및 사용자 요청 지식 추출/검색에 상응하는 지식 인식 및 교차-언어에 대한 자연어 사용자 요청/문서의 시맨틱 인덱싱을 제공한다. 시스템 기능은 다수의 유일한 바이링귀얼 개념/목적어 및 동작 사전들에 의해서뿐만 아니라 언어 지식 기반에 의해 보장된다.

교차-언어 검색, 지식 기반, 시맨틱, 바이링귀얼

Description

교차-언어 지식 검색을 위한 시스템 및 방법{SYSTEM AND METHOD FOR CROSS-LANGUAGE KNOWLEDGE SEARCHING}

본 발명은 텍스트 문서에서 자동 지식 인식의 시스템 및 방법 그리고 사용자 요청에 상응하는, 교차-언어 지식/문서 추출에 목적을 둔 사용자 지식 기반에 접근하기 위한 자연어 인터페이스에 관한 것이다.

하기의 미국특허 및 미국특허공개공보 문서들은 본 발명에 관련된 기술의 설명을 제공한다: Katz 등에 의해 1995년 4월에 발행된, 미국특허번호 제5,404,295호(이하 Katz 등 이라 함); Driscoll에 의해 1997년 12월에 발행된, 미국특허번호 제5,694,592호(이하 Driscoll 이라 함); Woods에 의해 1998년 3월에 발행된, 미국특허번호 제 5,724,571호(이하 Woods 라 함); Dahlgren 등에 의해 1998년 8월에 발행된, 미국특허번호 제5,794,050호(이하 Dahlgren 등 이라 함); Braden-Harder 등에 의해 1999년 8월에 발행된, 미국특허번호 제5,933,822호(이하 Braden-Harder 등 이라 함); Heidorn 등에 의해 1999년 10월에 발행된, 미국특허번호 제5,966,686호(이하 Heidorn 등 이라 함); Williamowski 등에 의해 2002년 4월에 발행된, 미국특허번호 제6,381,598호(이하 Williamowski 등 이라 함); 및 Mittal 등에 의해 2004년 12월에 공개된, 미국공개공보 제20040261021호(이하 Mittal 등 이라 함).

다음의 비특허 문서들 또한 본 출원서에 관련된 기술의 설명을 제공한다:

Radev D.R. 등의 "Ranking Suspected Answers to Natural Language Question Using Predictive Annotation", 2000년 4월 29일 - 5월 4일, 6차 응용 자연어 프로세싱 컨퍼런스의 회보, 페이지 150-157 (이하 Radev 등 이라 함);

Srihari R. 등의 "A Question Answering System Supported by Information Extrcation", 2000년 4월 29일 - 5월 4일, 6차 응용 자연어 프로세싱 컨퍼런스의 회보, 페이지 166-172 (이하 Srihari 등 이라 함);

Cardie C. 등의 "Examining the Role of Statistical and Linguistic Knowledge Sources in a General-Knowledge Question-Answering System", 2000년 4월 29일 - 5월 4일, 6차 응용 자연어 프로세싱 컨퍼런스의 회보, 페이지 180-187 (이하 Cardie 등 이라 함);

Abney S. 등의 "Answer Extraction", 2000년 4월 29일 - 5월 4일, 6차 응용 자연어 프로세싱 컨퍼런스의 회보, 페이지 296-301 (이하 Abney 등 이라 함);

정보-제공 시스템에 있어서, 정보 또는 지식은 사용자 요청 또는 쿼리에 따라 회수되거나 추출될 수 있다. 상기 사용자 요청은 자연어(natural language: NL)로 공식화되는 것이 바람직하다. 그러한 쿼리가 주어지면, 상기 시스템은 특별 분석에 의한 정식 방법으로 그것들을 제시하려 한다. 그러한 시도는 NL 이해 시스템으로 불린다. 프리젠테이션의 제1 형태는 키워드 순서, 키워드로 구성된 부울식(boolean expression), 특정 어휘 단위(lexical units) 등이었다.

상기 기술에 있어서 한층 더한 연구가 필요로 될 것이란 점을 아는 것은 어렵지 않다. 새로운 컴퓨터-기반 기술이 발전되어 왔다. 그러한 기술들은, 예를 들면, 이용가능한 정보를 미리 프로세싱하고 언어 수단으로 사용자 요청을 분석하는 것을 다루었다.

전처리(preprocessing)를 위해, 코퍼스 텍스트(courpus texts)는 태깅(tagging), 파싱(parsing) 및 시맨틱 분석(semantic analysis)을 요할 수 있다. 상기 태깅 단계 또는 형태학적 분석은 상기 텍스트로부터 단어 및 구두점을 추출하는 과정과, 뒤이어 각 단어의 사전 정보, 즉 그 단어가 문장에서 가지는 모든 가능한 형태, 센스 및 문법적 역할을 첨부하는 과정으로 이루어진다.

상기 파싱 단계 동안, 상기 문장의 언어학상 구조는 구문 파싱 트리의 형태로 제시되며 여기서 각 리프 노드(leaf node)는 한 단어 또는 상기 문장의 구두점 마크를 나타낸다. 중간-레벨 리프들은 다양한 언어학상 구성-예를 들면, 명사구, 동사구, 전치사구 등-다른 언어학상 구성 또는 일상어 및 구두점 마크로 번갈아 구성되는 다양한 언어학상 구성을 나타낸다; 이러한 노드들의 구성은 하기에서 하나 이상의 기존 노드들로 그들을 링크함으로써 반영된다. 완전한 언어학상 파싱 트리의 단일 루트 노드(root node)는 전체 문장을 나타낸다. 상기 시맨틱 분석 단계는 상기 텍스트 이해의 보다 심층적인 레벨, 즉 사람에 의해 달성되는 것과 동등한 정도의 레벨을 가정한다. 상기 마지막 단계는 심층 주어, 심층 목적어, 절(clause), 상위어(hypernym), 수단 등과 같은, 텍스트에서 재생시 다양한 시맨틱 역할 단어 및 언어학상 구성을 얻는다.

사용자 요청은 또한, 유사한 3 단계 분석을 요할 수 있다. 특별히 전체 문장 질문의 형태로 된 입력 스트링과 함께 동작하도록 발전된 시스템들이 존재한다. 이러한 시스템들은 사용자 질문의 시맨틱 구조를 태깅, 파싱 및 분석한다.

상기 코퍼스 텍스트와 사용자 요청 둘 모두의 상기 시맨틱 구조에 대한 기계의 이해도는 입력 질문에 대한 적당한 응답을 갖추는데 도움을 준다. 즉, 이러한 이해도는 사용자 요청을 최대한 이행하는 상기 코퍼스 텍스트들에 구현된 지식의 제공을 허용할 것이다.

품사(POS) 태깅, 파싱, 및 시맨틱 분석의 사용은 사용자 쿼리의 보다 정확한 정식 표현의 구성을 허용하나, 일부 시스템들은 또한 사용자와의 대화(dialog)를 사용한다. 태깅, 파싱 및 시맨틱 분석을 사용하는 시스템들은 종래기술에 공지된다. 예를 들면, Katz 등은 사용자 요청(그러나 그것들 모두는 아님)을 구조 형태(structured form)로 번역한다. Dahlgren 등은 NL 입력을 수신하고 1차 논리(first order logic: FOL) 출력을 생성하는 (나이브(naive)한 시맨틱 어휘집, 명사 및 동사구 인식을 포함하는) NL 이해 모듈을 사용한다. Braden-Harder 등 및 Heidorn 등 둘 모두는 사용자 요청을 논리 형식 그래프(logical form graph: LFG), 즉, 한 세트의 논리 형태 트리플(triples)로 번역한다. 상기 Braden-Harder 및 Heidorn 방법은 통계-기반 검색 엔진을 두드러지게 개선하나, 단지 단문 또는 문장 단편의 형태의 쿼리들을 위해서만 설계된다. 상기 LFG는 구문에서(심층 주어, 심층 목적어 등) 중요한 단어들 사이의 시맨틱 관계들을 판단하나, 사실상, 그것은 문법상 주어, 목적어 등을 의미한다. 또한, 트리플로의 쿼리 분리는 그것의 통합 시맨 틱 표현을 파괴한다. 상기 질문이 요청되는 상기 LFG 요소는 등록되지 않는다. 그 결과, 상기 시스템은 상응 문서들을 검색하나, 상기 사용자 질문에 대한 답변들을 추출하지 않는다.

이러한 자연어 프로세싱(NLP) 시스템의 결점은, 새로운 시맨틱 규칙들을 상기 시스템에 추가하는 것이 점점 더 어렵게 된다는 점이다. 새로운 규칙의 추가는 일반적으로, 상기 시맨틱 서브시스템에 이미 프로그램된 것과 상충할 수 있는 새로운 절차 논리를 수반한다. LGF 또는 FOL의 크기 및 복잡성은 그들의 사용을 상당히 어렵게 하며 심지어 많은 업무를 해결하는데 비효율적이다.

NL 인터페이스의 발전에 대한 또 다른 접근법은 상기 사용자 쿼리의 철저한 언어 분석을 수행한다는 데에 있지는 않고, 검색 능력 레벨에 버금가는 계산에 의하여, 문서 내의 쿼리를 형성하는 분리된 단어들의 검색을 위한 특정 알고리즘을 구현하는 데에 있다. 예를 들면, Driscoll과 Woods는 특정 메시지들을 찾기 위해 "랭킹 완화(relaxation ranking)"로 불리는 기법의 사용을 설명하며, 여기서 쿼리 요소(element)의 최대수가 함께, 바람직하게는 동일한 형태 및 순서로 발견된다. Radev 등 및 Shirai 등은 질의 응답(QA) 및 NLP 기법들을 결합함으로써 유사한 접근법을 개발했다. Radev 등 및 Shirai 등은 전체-스케일 NLP를 사용하지 않으나, 질문들의 일부 요소 및 텍스트 문서들은 시맨틱 카테고리들, 예를 들면, Radev 등에 기술된 바와 같은 Q/A 토큰(Tokens)에 의해 인덱싱된다. Cardie 등은 표준 ad-hoc 정보 회수(IR), 쿼리-종속(query-dependent) 텍스트 요약 및 피상적인 시맨틱 문장 분석을 결합한다. 하지만, 상기 Cardie 시스템은 명사구들의 추출에 초점을 맞추며 사용자와의 대화를 사용한다. Abney 등은 IR 및 NLP 기술 둘 모두를 사용한다; 이는 순수한 IR 시스템보다 더 큰 정확성을 갖질 수 있게 하면서, 순수한 NLP 방법에 비해 상기 Abney 시스템을 보다 견고하게 한다. 그러나 상기 Abney 제작자들은 스스로 상기 시스템의 비교적 낮은 품질이 상기 NLP 컴포넌트의 개선, 더 큰 질문 코퍼스의 발전 등을 필요로 한다는 점을 인정한다.

따라서, 텍스트의 분석/ 이해의 시스템을 수립하기 위해, 많은 다양한 접근법들이 존재한다는 사실에 상관없이, 그들 중 아무도 이상적인 NL 사용자 인터페이스를 제공하지 않는다. 게다가, 사용자 쿼리의 NL 분석, 또는 피상적인 분석의 수행 실패는 불충분한 결과들을 가져올 수 있다. Woods는 "언어 지식은 정보 검색을 향상시킬 수 있다"고 설명한다 - 그리하여 상기 논제는 상기 문제를 해결하는데 적절한 점으로 고려되어야 한다. 사용자는 질문을 하면서 적절한 정보, 즉, 지식을 받기를 원한다. 상기 지식의 주요 요소들은: 목적어/개념, (예를 들면: 발명, 찬 물); 팩트들(불이 물을 가열한다); 및 외부/주어 영역의 규정들을 반영하는 규칙들의 형태로 공식화된 상기 팩트들 사이의 인과 관계들(예를 들면: F1(불이 물을 100도로 가열한다)이면 그 후 F2(물이 끓는다)임)이다.

텍스트 문서에서 상기 언어 지식의 인식에 기초한, "Natural Language Processing and Query Driven Information Retrieval"로 표제된, 미국특허출원공개공보 제20020010574호; "Semantic Answering System and Method"로 표제된, 미국특허출원공개공보 제20020116176호; 및 "Computer-based Summarization fo Natural Language Documents"로 표제된, 미국특허출원공개공보 제20030130837호는, NL의 완 전하고 정확한 POS 태깅, 파싱 및 시맨틱 분석에 기초하여, NL 사용자 요청 및 텍스트 문서들의 분석에 대한 또 다른 접근법을 기술한다. 상기 접근법은 임의의 사용자 NL 요청 및/또는 텍스트 문서의 분석, 및 외부/주어 영역의 목적어, 팩트 및 규정들에 관한 지식의 검색, 및 상기 지식의 임의의 요소들(속성들, 관계들)을 제공한다.

문제들 및 지식 엔지니어링을 검색하기 위한 효율적 해결책의 새로운 가능성이 텍스트 자원들의 사용에 있어 한층 더한 성장을 야기했다. 하지만, 사용자에게 필요한 지식은 다양한 언어들의 문서들에 포함될 수 있는 반면, 상기 사용자는 그의 본래 언어로 소통하는 것을 더 선호한다. 이는 결국 교차-언어 지식 검색 및 추출의 문제로 귀결된다. 상기에 언급된 문제점들을 포함하는 기존 시스템들은 지식 검색이 아니라 정보 검색을 목표로 한다. 그러므로, "교차-언어 문제점"은 전형적으로 바이링귀얼(bilingual) 사전을 사용하는 사용자 쿼리로부터 키워드를 간단히 번역함으로써 그것을 해결한다. 예를 들면, Williamowski 등은 사용자 쿼리로서 키워드(기본 단어) 및 부울 연산자(Boolean operator)에 의해 형성된 표현을 사용한다. 이러한 단어들은 그 후 영역 특정 사전을 사용하여 번역되고 스템되어(stemmed), 결국 스템 및 번역된 기본 단어들의 결합 세트가 된다. 상기 사용자 쿼리 검색 표현 세트를 사용하는, 상기 Williamowski 등의 시스템은 상기 회수된 문서들에서 상기 검색 키워드들의 정확한 언어 구조를 증명하는, 해당 자연어의 문서들에서 종래 키워드 검색을 수행한다. Mittal 등은 제1 형식으로 작성된 사용자 쿼리로부터 획득된 용어들을 개연성이 있는 사전을 사용하여 제2 형식으로 번역한 다; 상기 번역된 쿼리에 상응하는 정보에 대한 데이터베이스를 검색하고 사용자에게 상기 제2 형식으로 작성된 검색 결과들을 리턴한다. 상기 Williamowski 등의 방법과 달리, Mittal 등은 구글^TM 앵커-기반 코퍼스들을 사용하는 개연성 있는 사전을 수립하기 위한 방법을 제시한다. 그러한 코퍼스들의 종류는 일반적으로 문장들에 있어서 불충분한 시맨틱 구조들을 가지며, 정확한 시맨틱 비교를 위해 사용되지 않을 수 있으며, 따라서 결국 기본적으로 키워드 검색이 된다.

따라서, 사용자 쿼리 및 텍스트 문서의 심층적인 언어(시맨틱을 포함하는) 분석의 필요성이 있을 때, 본 발명의 실시예들은 심지어 사전 수립 단계에서조차, 그러한 분석 결과들을 고려하여, "교차-언어 문제"를 언급한다.

본 발명은 자연어 문서들에서 자동으로 지식을 인식하고 교차-언어 지식 검색 및 추출 동안 NL 사용자 요청을 해석하기 위한 컴퓨터에 대한 능력을 제공한다. 사용자 요청은 개별 목적어/개념, 지식 영역의 팩트 및 그들 사이의 관계들에 관련할 수 있다. 이러한 능력은 우선 시맨틱 분석기에 의해, NL 사용자 요청 및 NL 문서들을 의미론적으로 분석함으로써 제공되며, 또한 eSAO, 이를테면, 7-필드 시맨틱 유닛(주어-동작-목적어-형용사-전치사-간접목적어-부사) 및 제약(constraints)의 형태로 그들의 검색 패턴/시맨틱 인덱스를 생성하는 것을 용이하게 한다.

사용자 요청 시맨틱 인덱스는 번역기 모듈에 들어가고, 상기 번역기 모듈은 데이터베이스에 저장되는 상기 문서들에 존재하는 NL의 수로부터 임의의 다른 NL 에 대한 번역을 수행하는 반면에, 상기 시맨틱 인덱스의 모든 구성요소들, 어휘 및 문법 특성들, 시맨틱 역할 및 관계들이 보존된다. 사용자 요청에 상응하는 상응 지식 및 문서들의 검색은 지식 기반의 시맨틱 인덱스들의 해당 서브세트에 대한 소스 및 타겟 언어 모두에서 사용자 요청 시맨틱 인덱스의 매칭을 이룬다.

사용자 요청 및 텍스트 문서들의 언어 분석은 다른 종류의 사전, 분류자, 문법, 통계 데이터 및 텍스트-대-단어 분할을 위한 언어 모델의 인식, 주어, 목적어, 동작(action) 등의 인식을 포함하는, 언어 지식 기반의 의해 보장된, 품사 태깅, 파싱 및 시맨틱 분석을 포함한다. 상기 언어 지식 기반은 또한 병렬 텍스트 코퍼스들로부터 자동으로 생성되고 교차-언어 지식 검색 및 추출의 레벨에서 사용자 요청 시맨틱 인덱스를 번역하기 위해 사용된 동작 및 개념의 유일한 바이링귀얼 사전을 포함한다.

도 1은 상기 시스템의 구조적이고 기능적인 체제.

도 2A는 동작의 바이링귀얼(bilingual) 사전의 단편.

도 2B는 개념/목적어의 바이링귀얼 사전의 단편.

도 3은 상기 사전 편찬자의 구조적이고 기능적인 체제.

본 발명은 지식 인식에 대한 NL 문서/사용자 요청의 시맨틱 분석 및 NL 사용자 요청에 따른 교차-언어 지식 검색/추출을 위한 시스템 및 방법에 관한 것이다.

본 발명의 일부 실시예들은 사용자 요청 및 문서들의 정식 콘텐츠 표현을 위 해 확장형 주어-동작-목적어(SAO) 형식을 사용한다. 상기 확장형 SAO들(또는 eSAO들) 유닛들은 다음의 7개의 컴포넌트들을 포함할 수 있다:

1. 목적어(O)에 동작(A)을 수행하는, 주어(S);

2. 주어(S)에 의해 목적어(O)에 수행된, 동작(A);

3. 주어(S)에 의해 동작(A)이 행해진, 목적어(O);

4. 주어(S) 또는 동작(A)을 기술하는 형용사(Adj)로서, 목적어(O)가 없는 eSAO에서 주어 뒤에 온다(예를 들면, "The invention is "efficient", "The water becomes "hot"");

5. 간접 목적어(IO)를 지배하는, 전치사(Prep)(예를 들면, "The lamp is placed "on" the table", "The device reduces friction "by" ultrasound");

6. 명사의 위치에 의해 규칙으로 명시된, 간접 목적어(IO)로서, 이는 전치사와 함께 동작을 기술하며, 부수적인 수식어구가 된다(예를 들면, "The lamp is placed on the "table"", "The device reduces friction by "ultrasound"");

7. 대체로 동작(A)의 수행 상태를 기술하는, 부사(Adv)(예를 들면, "The process is "slowly" modifie", "The driver must not turn wheel "in such a manner"").

상기 eSAO 형식의 적용예들이 하기의 표 1과 표 2에 도시된다.

[표 1]

[표 2]

(상기 원시 사용자 요청/텍스트 문서를 미리 형성하기 위한) 프리 포맷기(Preformatter)를 포함할 수 있고, (사용자 요청/문서의 품사 태깅, 파싱 및 시맨틱 분석을 위한) 언어 분석기(Linguistic Analyzer)를 포함할 수 있는, 사용자 NL 요청/텍스트 문서에서 자동 eSAO 인식의 바람직한 시스템 및 방법이, "Natural Language Processing and Query Driven Information Retrieval"로 표제된 미국특허출원공개공보 제20020010574호, 및 "Semantic Answering System and Method"로 표 제된, 미국특허출원공개공보 제20020116176호에 상세히 기술된다.

예를 들면, 상기 시스템이 입력 사용자 요청 "How to reduce the level of cholesterol in blood?"을 수신한다면, 그후 eSAO 인식 레벨에서, 그것은 표 3에 도시된 표현으로 변형될 것이다:

[표 3]

상기 시스템이 입력으로서, 예를 들면, "Atorvastaine reduces total cholesterol level in the blood by inhibiting HMG-CoA reductase activity"로 인용한 텍스트 문서로부터의 문장을 수신한다면, 그후 상기 문장이 프로세스된 이후, 상기 문장의 정식 표현은 표 4에 도시된 3개의 eSAO들을 포함할 것이다:

[표 4]

본 발명의 실시예들에 따른 시스템이 도 1에 도시된다. 도 1에 도시된 바와 같이, 상기 시스템은: (n개의 자연어 중에서 임의의 자연어(j)로 표현된, 사용자 요청 및 문서의 시맨틱 분석을 위한) 시맨틱 분석기(60); (자연어(k)로 표현된, 사용자 요청의 검색 패턴/시맨틱 인덱스 생성을 위한) 사용자 요청 패턴/인덱스 생성기(20); (n개의 자연어 중에서 임의의 자연어(j)의 형태로 상기 시스템에 입력되는 텍스트 문서의 검색 패턴/시맨틱 인덱스를 생성하고 {L_j}-지식 기반(80)을 수립하기 위한) 문서 패턴 인덱스 생성기(70); (n개의 모든 자연어 중에서 임의의 자연어(j)로 된 L_k 사용자 요청 검색 패턴/시맨틱 인덱스 번역을 위한(여기서 j≠k)) 요청 패턴 번역기(30); ({L_j}-지식 기반(80)에서 {L_j}-사용자 요청 검색 패턴/시맨틱 인덱스 상응 지식 및 문서 검색을 위한) 지식 기반 검색기(40)를 포함한다. 상기 시맨틱 프로세서(100)의 모든 모듈의 기능은 언어 지식 기반(60) 내에 유지될 수 있는 것으로, 사전, 분류자, 통계 데이터 등과 같은, 다양한 데이터베이스 및 (텍스트-대-단어 분열, 명사와 동사구 위치의 인식, 주어, 목적어, 동작 및 그들 속성, 인과 인식 등에 대한) 언어 모델들을 인식하기 위한 데이터베이스를 포함한다.

L_k-사용자 요청 및 {L_j}-문서들, L_k-사용자 요청 및 {L_j}-문서 시맨틱 인덱스 생성, 및 {L_j}-지식 기반 검색은 Natural Language Processing and Query Driven Information Retrieval로 표제된, 미국특허출원공개공보 제20020010574호, 및 Semantic Answering System and Method로 표제된, 미국특허출원공개공보 제 20020116176호에 자세히 기술된다. 본 발명의 실시예들은 바람직하게는 시맨틱 분석, 시맨틱 인덱스 생성, 및 지식 기반 검색을 위한 이러한 참조 문서들에 기술된 방법들, 시스템들 및 기법들을 사용한다.

L_k-사용자 요청 및 텍스트 문서의 시맨틱 인덱스/검색 패턴은 {L_j}-시맨틱 분석기(60)의 도움으로 상기 사용자 요청/텍스트 문서로부터 추출되는 제약들뿐만 아니라 다수의 eSAO들을 나타낸다는 점이 지적되어야 한다. 모든 eSAO 요소들의 인 식은 상기 언어 지식 기반(100)의 일부인 해당 인식 언어 모델들에 의해 구현된다. 이러한 모델들은 품사 태그들, 어휘 항목들 및 구문상 카테고리들로서 한정 동작들, 비-한정 동작들, 동사적 명사들을 가진 상기 파싱된 텍스트 eSAO들로부터 추출하기 위해 사용되는 규칙들을 기술한다. 동작 추출 규칙의 일례는 다음과 같다:

<HVZ><BEN><VBN>=>(<A>=<VBN>)

이러한 규칙은 "입력 문장이 HVZ, BEN, VBN 태그들 각각 획득된 품사 태깅의 단계에서 단어들(w1, w2, w2)의 순서를 포함한다면, 그 후 이 문장에서 VBN을 갖는 단어는 동작이다"라는 것을 의미한다. 예를 들어, 상기 구 "has been produced"는 "has_HVZ been_BEN produced_VBN"으로 품사 태깅될 것이며 상기 규칙은 "produce"가 동작, 즉, (A=produce)임을 나타낼 것이다. 게다가, 상기 동작의 보이스(능동태 또는 수동태)는 주어와 목적어의 추출에 대한 규칙들로 고려된다. 제약들은 eSAO의 부분이 아닌 상기 사용자 요청/텍스트 문서의 유익한 어휘 유닛들이다. 동시에, 상기 시맨틱 인덱스의 모든 요소들(어휘 유닛들)은 해당 품사 태그와 함께 간다.

따라서, 예를 들면, 상술된 사용자 요청 "How to reduce the level of cholesterol in blood?"에 대해 상기 시맨틱 인덱스는 표 5에 도시된 결합 필드에 대응할 것이다:

[표 5]

각 NL이 개별적이지만 기능면에서 유사한 시맨틱 분석기(60)를 가질 것이라는 점에 주목할 필요가 있다. 그러므로, 본 발명의 실시예는 다중 시맨틱 분석기(60)를 가질 수 있으며, 여기서 각 시맨틱 분석기는 개별 NL을 위해 사용된다. 품사가 예를 들어, 표 5에서 "VB, NN, IN" 태그들로 도시된다는 점 또한 주목하라. 상기 POS 태그들의 추가 설명을 위해 미국특허출원공개공보 제20020010574호 및 미국특허출원공개공보 제20020116176호를 참조할 수 있다.

상기 사용자 요청(10)은: (예를 들면, 그들의 정의 또는 파라미터); 개별 팩드들(예를 들면, 특정 목적어에 대한 특정 동작의 이행의 방법 또는 방식, 상기 특정 팩트 이행의 시간 및 장소); 팩트들 사이의 특정 관계들(예를 들면, 특정 팩트의 원인); 및/또는 다른 항목들에 대해 존재할 수 있다.

상기 요청 패턴/인덱스 생성기(20)는, 소스 언어(L_k)로 작성된 쿼리에 해당하는 시맨틱 검색 패턴을 상기 요청 패턴 번역기(30)에 제공하는데, 상기 요청 패턴 번역기(30)는 소스 언어 L_k로 작성된 쿼리에 상응하는 시맨틱 검색 패턴을, 임의 의 타겟 언어(L_j, j=1,2,...,n, j≠k)에 상응하는 시맨틱 검색 패턴으로 번역한다. 따라서, 예를 들면, 프랑스어가 타겟 언어로서 주어지면 상기 요청 패턴 번역기(30)는 상술된 사용자 요청 예로서 표 6에 도시된 "프랑스어" 시맨틱 인덱스를 수립할 것이다:

[표 6]

이렇게, 본 발명의 실시예에 따른 요청 패턴 번역기(30)는 사용자 요청의 개별 단어들의 단순한 번역에 좌우하지 않는 대신, 사용자 요청의 POS 태그들, 시맨틱 역할 및 시맨틱 관계들을 보존하면서, 사용자 요청의 유익한 단어들의 특정 결합을 번역한다.

상기 번역된 검색 패턴은 그 후 지식 기반 검색기(40)에 제공되는데, 상기 지식 기반 검색기(40)는 타겟 언어(L_j)(프랑스어로 주어진 예에서)에 상응하는 {L_j}-지식 기반(80)에 포함된 의미론적으로 인덱스된 텍스트 문서들의 서브세트 내에서, 적절한 사용자 요청 지식/문서들의 검색을 실시한다. 상기 검색은 검색 패턴에 대한 동의어 또는 계층적 관계를 고려하여, 원래 소스 언어에 나타난 사용자 요 청 시맨틱 인덱스와, 상기 {L_j}-지식 기반(80)의 시맨틱 인덱스들의 해당 서브세트에서 선택된 타겟 언어들을 매칭시키는 과정을 통상적으로 포함한다.

상기 요청 패턴 번역기(30)는 바람직하게는 동작들의 바이링귀얼 사전 및 개념/목적어의 바이링귀얼 사전을 포함하는 다수의 유일한 바이링귀얼 사전을 사용한다. 상기 소스 언어가 영어이고 상기 타겟 언어가 프랑스어일 경우의 동작 사전의 예인 도 2A를 참조할 수 있다. 도 2B는 또한 상기 소스 언어가 영어이고 상기 타겟 언어가 프랑스어인 경우 개념/목적어 바이링귀얼 사전의 예를 도시한다.

도 3은 본 발명의 일부 실시예들에 따른 그런 사전들의 수립을 도시한다. 그러한 사전들의 수립은 병행 코퍼스들의 사용에 기초한다. 두 개의 병행 코퍼스들 T_s(110) 및 T_t(120)은 먼저 시맨틱 분석기(130)에 의해 프로세스된다. - 각 코퍼스들(110,120)의 언어에 상응하는 시맨틱 분석기(130)에 의해 각 코퍼스들(110, 120)이 프로세스된다. 상기 병행 코퍼스들 T_s(110) 및 T_t(120)은 바람직하게는 서로의 문장 번역에 의한 문장을 나타내는 문서들을 포함하며, 여기서 하나의 코퍼스 T_s(110)는 언어(s)에 존재하고 나머지 코퍼스 T_t(120)는 언어(t)에 존재한다. 상기 시맨틱 분석기(130)(하나는 언어(s)를 위한 것이고, 하나는 언어(t)를 위한 것임)는 각 코퍼스(110, 120)를 병행 eSAO의 수로서 표현되는 시맨틱 인덱스로 변환한다. 사전 생성기ictionary Builder)(150)는 상기 병행 eSAO들로부터 병행 주어와 목적어 쌍을 추출하고 바이링귀얼 개념 사전을 수립한다. 마찬가지로, 상기 사전 생성기(150)는 바이링귀얼 동작 사전을 수립하기 위해 병행 동작들을 추출한다. 각 병행 쌍이 동일한 시맨틱 요소들을 나타내므로, 각 쌍은 기본적으로 동동한 어휘 언어 유닛들을 포함한다. 상기 사전 생성기(15)에 의해 생성된 사전은 그 후 편집(예를 들면, 반복되는 어휘 유닛 쌍의 삭제)을 위한 툴을 제공하는 사전 편집기(160)에 의해 더 처리된다. 상기 편집된 사전은 그 후 상기 시맨틱 분석기(130)에 의해 사용된 다른 언어 자원들과 함께 상기 언어 지식 기반(140)에 추가된다.

(도 1의 패턴 번역기(30)에 의해 도시된 바와 같은) 사용자 요청 검색 패턴을 번역하는 동안 개념 및 동작 사전의 사용법은 사용자 요청에 있어서 다중 단어 개념의 모호성(ambiguity)을 상당히 줄여야 한다. 상기 시맨틱 인덱스의 상술한 모든 필드에 의해 제공된 콘텍스트로 인해 검색시 상기 모호성이 감소되거나 제거되어야 한다. 따라서, 본 발명에 따른 상기 시스템 및 방법은 다중 언어들의 소스들로부터 지식의 추출의 개선을 위해 그리고 상응 지식을 포함하는 문서들의 지정 및 추출의 개선을 위해 제공한다.

본 발명의 실시예들에 따른 상기 시스템 및 방법은 하나 이상의 컴퓨터, 마이크로프로세서, 마이크로컨트롤러, 또는 다른 프로세싱 장치들에 상주하는 컴퓨터 수행가능 명령들에 의해 제공될 수 있다. 상기 시스템 및 방법을 수행하기 위한 상기 컴퓨터-수행가능 명령들은 프로세싱 장치들 안의 메모리에 존재할 수 있으며 또는 플로피 디스크, 하드 디스크, 컴팩트 디스크(CD들), 디지털 다기능 디스크(DVD들), 롬(ROM), 또는 기타 저장 매체에 의한 프로세싱 장치들에 제공될 수 있다.

대표적이고 바람직한 실시예들의 전술한 상세설명은 법률 조항들에 따라 도시 및 개시를 목적으로 제시된다. 본 발명이 정확한 형태(들)로 국한되어서는 안되 며, 단지 본 발명에 속하는 기술분야에서 통상의 지식을 가진 자들이 본 발명이 특정 사용 또는 구현을 위해 어떻게 적응되는 지를 이해하게 할 뿐이다. 변형 및 변경의 가능성은 본 발명의 기술분야에 속하는 통상의 지식을 가진 자들에게 명백해질 것이다. 대표적인 실시예들의 설명에 의해 국한되는 것으로 의도하지 않으며, 이에는 허용치, 특정 규격들, 특정 동작 조건들, 엔지니터링 사양 등이 포함될 수 있으며, 구체에들 간에 또는 기술의 상태에 대한 변경들로 변할 수 있으며, 그것으로부터 국한되어서는 안 된다. 상기 개시물은 기술의 현재 상태에 관해 작성되었으나, 또한 장점들을 심사숙고하고 기술의 현재 상태에 따른 장래 개조에 있어서 그러한 발전을 고려할 수도 있다. 본 발명의 범위는 작성된 청구항들 및 적용가능한 것으로서의 상응물에 의해 규정되는 것으로 의도된다. 단일의 주장 요소에 대한 참조는 명백하게 그렇다고 하지 언급하지 않는 한 "하나 및 단지 하나"를 의미하는 것으로 의도되지 않는다. 게다가, 본 개시물에 없는 요소, 컴포넌트, 또는 방법 또는 프로세스 단계는 상기 요소, 컴포넌트, 또는 단계가 청구항들에 명백하게 인용되는지에 상관없이 공개적으로 전용된 것으로 의도된다. 본원에 주장 요소가 구문 "...을 위한 수단"을 사용하여 확실히 언급되지 않는 한 법조항 35 U.S.C. Sec.112, 6번째 문단에 의해 구성될 수 없다.

Claims

제1 언어의 입력식을 제공하는 단계;

상기 입력식에 대한 시맨틱 분석을 수행하는 단계;

상기 시맨틱 분석에 기초하여 상기 입력식에 대한 제1 언어 시맨틱 인덱스를 생성하는 단계;

상기 제1 언어 시맨틱 인덱스를 제2 언어에 기초한 제2 언어 시맨틱 인덱스로 번역하는 단계; 및

상기 입력식에 상응하는 지식에 접근하기 위해 상기 제2 언어 시맨틱 인덱스에 기초하여 상기 제2 언어의 지식 기반 소스들의 검색을 수행하는 단계를 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
제 1 항에 있어서, 상기 지식 기반은 상기 제1 언어와 상기 제2 언어의 일부 소스들을 포함하며 상기 방법은,

상기 입력식에 상응하는 지식에 접근하기 위해 상기 제1 언어 시맨틱 인덱스에 기초하여 상기 제1 언어의 지식 기반 소스들의 검색을 수행하는 단계를 더 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
제 1 항에 있어서, 시맨틱 분석을 수행하는 단계는 상기 입력식의 확장형 주어-동작-목적어(eSAO)를 식별하는 단계를 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
제 3 항에 있어서, 제1 언어 시맨틱 인덱스를 생성하는 단계는 각 식별된 eSAO 유닛에서 하나 이상의 eSAO를 식별하는 단계를 포함하며 상기 제1 시맨틱 인덱스는 상기 하나 이상의 eSAO 컴포넌트들을 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
제 4 항에 있어서, 상기 제1 언어 시맨틱 인덱스를 상기 제2 언어 시맨틱 인덱스로 번역하는 단계는 상기 제2 언어 시맨틱 인덱스를 제공하기 위해 상기 제1 언어로부터 상기 제1 시맨틱 인덱스의 각 eSAO 컴포넌트를 상기 제2 언어의 적어도 하나의 해당 eSAO 컴포넌트로 번역하는 단계를 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
제 5 항에 있어서, 상기 제1 언어로부터 각 eSAO 컴포넌트를 번역하는 단계는 하나 이상의 바이링귀얼(bilingual) 동작 및/또는 개념 사전들에 접근하는 단계를 포함하며, 상기 바이링귀얼 사전들은 상기 제1 언어의 eSAO 컴포넌트를 상기 제2 언어의 하나 이상의 eSAO 컴포너트들에 매치시키는 단계를 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
제 6 항에 있어서, 상기 바이링귀얼 사전들은 바이링귀얼 동작 사전과 바이 링귀얼 개념/목적어 사전을 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
제 6 항에 있어서, 하나 이상의 바이링귀얼 사전들을 수립하는 단계를 더 포함하며, 상기 하나 이상의 바이링귀얼 사전들을 수립하는 단계는,

두 개의 병행 코퍼스들을 제공하는 단계로서, 하나의 코퍼스는 상기 제1 언어의 소스들을 포함하고 나머지 코퍼스는 상기 제2 언어의 소스들을 포함하는, 단계;

각 코퍼스로부터 eSAO들을 생성하기 위해 각 코퍼스에 대한 시맨틱 분석을 수행하는 단계; 및

병행 eSAO 컴포넌트 쌍을 제공하기 위해 상기 eSAO들로부터 병행 eSAO 컴포넌트들을 추출하는 단계를 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
제 8 항에 있어서, 하나의 코퍼스는 나머지 코퍼스의 상기 제2 언어의 소스들을 상기 제1 언어의 소스들의 문장별(sentence-by-sentence) 번역을 포함하는 소스들을 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
제 8 항에 있어서, 상기 병행 eSAO 컴포넌트 쌍을 편집하는 단계를 더 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
제 2 항에 있어서, 상기 제1 및 제2 언어의 소스들의 지식 기반을 수립하는 단계를 더 포함하며, 상기 지식 기반을 수립하는 단계는,

상기 제1 및 상기 제2 언어의 다수의 소스들에 대한 시맨틱 분석을 수행하는 단계; 및

상기 시맨틱 분석에 대한 다수의 소스들을 위한 시맨틱 인덱스들을 생성하는 단계를 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
제 1 항에 있어서, 상기 입력식은 사용자 요청을 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
제 1 항에 있어서,

상기 제1 언어 시맨틱 인덱스를 상기 제1 언어와 다른 다수의 언어들에 대한 다수의 시맨틱 인덱스들로 번역하는 단계; 및

상기 표현식에 상응하는 지식에 접근하기 위해 상기 다수의 시맨틱 인덱스들에 기초한 상기 다수의 모든 언어들이 소스들의 지식 기반 검색을 수행하는 단계를 더 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
제 2 항에 있어서, 상기 입력식에 상응하는 지식에 접근하기 위해 상기 입력식에 상응하는 상기 제1 및 상기 제2 언어의 하나 이상의 문서들을 제공하는 단계 또는 상기 입력식에 상응하는 하나 이상의 출력식들을 제공하는 단계를 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
인과 지식 기반을 생성하기 위해 자연어 문서에서 인과 관계들을 인식하기 위한 방법을 수행하기 위한 컴퓨터-실행가능한 명령들을 포함하는 컴퓨터 프로그램 제품에 있어서, 상기 방법은,

제1 언어의 입력식을 제공하는 단계;

상기 입력식에 대한 시맨틱 분석을 수행하는 단계;

상기 시맨틱 분석에 기초한 상기 입력식에 대한 제1 언어 시맨틱 인덱스를 생성하는 단계;

상기 제1 언어 시맨틱 인덱스를 제2 언어 시맨틱 인덱스로 번역하는 단계로서, 상기 제2 언어 시맨틱 인덱스는 제2 언어에 기초하는, 단계; 및

상기 입력식에 상응하는 지식에 접근하기 위해 상기 제2 언어 시맨틱 인덱스에 기초한 상기 제2 언어의 소스들의 지식 기반 검색을 수행하는 단계를 포함하는, 컴퓨터 프로그램 제품.
제1 언어의 입력식을 수신하고 상기 입력식에 상응하는 지식을 찾기 위해 하나 이상의 소스들의 지식 기반을 검색하는 교차-언어 검색을 위한 시스템에 있어서,

상기 제2 언어에 존재하는, 상기 입력식의 시맨틱 컴포넌트들을 식별하기 위 한, 언어 지식 기반에 커플되는 표현식 시맨틱 분석기;

상기 시맨틱 컴포넌트들을 제1 언어 표현식 시맨틱 인덱스로 배열하기 위한 표현식 인덱서;

상기 제1 언어 표현식 시맨트 인덱스를 상기 제1 언어와 다른 하나 이상의 다른 언어 표현식 시맨틱 인덱스들로 번역하기 위한, 상기 언어 지식 기반에 커플되는 번역기; 및

상기 하나 이상의 다른 언어 표현식 시맨틱 인덱스들에 기초한 상기 제1 언어와 다른 상기 하나 이상의 다른 언어의 상기 하나 이상의 소스들의 지식 기반으로부터 지식을 추출하기 위한 검색기를 포함하는, 시스템.
제 16 항에 있어서, 지식을 추출하기 위한 상기 검색기는 상기 제1 언어 표현식 시맨틱 인덱스에 기초한 상기 제1 언어의 하나 이상의 소스들의 지식 기반으로부터 지식을 추출하는, 시스템.
제 17 항에 있어서, 상기 시스템은,

상기 제1 언어와 하나 이상의 다른 언어들의 소스들의 시맨틱 컴포넌트들을 식별하기 위한 하나 이상의 소스 시맨틱 분석기들로서, 각 소스 시맨틱 분석기는 상기 제1 언어와 상기 하나 이상의 다른 언어들 중 하나에 상응하는, 분석기; 및

상기 소스들의 상기 식별된 시맨틱 컴포넌트들을 상기 제1 언어와 하나 이상의 다른 언어들의 소스들의 소스 시맨틱 인덱스들로 배열하기 위한 하나 이상의 소 스 인덱서들로서, 상기 하나 이상의 지식 기반은 상기 소스 시맨틱 인덱스들을 포함하는, 인덱서를 더 포함하는, 시스템.
제 18 항에 있어서, 상기 하나 이상의 소스 시맨틱 분석기들은 상기 언어 지식 기반에 커플되는, 시스템.
제 16항에 있어서, 상기 시맨틱 컴포넌트들은 확장형 주어-동작-목적어(eSAO) 컴포넌트들을 포함하는, 시스템.
제 20 항에 있어서, 상기 언어 기반은 다수의 eSAO 컴포넌트 쌍을 포함하며, 하나의 eSAO 컴포넌트 쌍은 한 언어의 하나 이상의 eSAO 컴포넌트들을 포함하고 나머지 eSAO 컴포넌트 쌍은 다른 언어의 하나 이상의 eSAO 컴포넌트들을 포함하는, 시스템.
제 21 항에 있어서, 상기 다수의 eSAO 컴포넌트 쌍들은 하나 이상의 바이링귀얼 사전들로 구성되는, 시스템.
제 21 항에 있어서, 상기 번역기는 하나의 eSAO 컴포넌트 쌍의 상기 제1 언어 표현식 시맨틱 인덱스의 각 eSAO 컴포넌트를 위치시키는고 나머지 eSAO 컴포넌트 쌍에 기초한 다른 언어 표현식 시맨틱 인덱스를 생산하는, 시스템.
제 16 항에 있어서, 상기 입력식은 사용자 요청을 포함하는, 시스템.
제 21 항에 있어서, 상기 하나 이상의 바이링귀얼 사전은 바이링귀얼 동작 사전 및 바이링귀얼 개념/목적어 사전을 포함하는, 시스템.
제 22 항에 있어서, 상기 하나 이상의 바이링귀얼 사전은,

두 개의 병행 코퍼스들을 제공하는 단계로서, 하나의 코퍼스는 상기 제1 언어의 소스들을 포함하고 나머지 코퍼스는 제2 언어의 소스들을 포함하는, 단계;

각 코퍼스들로부터 eSAO들을 생성하기 위한 각 코퍼스에 대한 시맨틱 분석을 수행하는 단계; 및

병행 eSAO 컴포넌트 쌍들을 제공하기 위해 상기 eSAO들로부터 병행 eSAO 컴포넌트들을 추출하는 단계로서, 각 병행 eSAO 컴포넌트 쌍은 동일한 시맨틱 요소를 나타내는, 단계에 의해 생성되는, 시스템.
제 26 항에 있어서, 하나의 코퍼스는 나머지 코퍼스의 상기 제2 언어의 소스들을 상기 제1 언어의 소스들의 문장별(sentence-by-sentence) 번역을 포함하는 소스들을 포함하는, 시스템.
제 26 항에 있어서, 상기 병행 eSAO 컴포넌트 쌍들은 편집되는, 시스템.