KR20080084803A - 교차-언어 지식 검색을 위한 시스템 및 방법 - Google Patents

교차-언어 지식 검색을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20080084803A
KR20080084803A KR1020087012584A KR20087012584A KR20080084803A KR 20080084803 A KR20080084803 A KR 20080084803A KR 1020087012584 A KR1020087012584 A KR 1020087012584A KR 20087012584 A KR20087012584 A KR 20087012584A KR 20080084803 A KR20080084803 A KR 20080084803A
Authority
KR
South Korea
Prior art keywords
language
semantic
knowledge
sources
esao
Prior art date
Application number
KR1020087012584A
Other languages
English (en)
Inventor
제임스 토드헌터
이고르 소브펠
헤오르히 지할코
Original Assignee
인벤션 머신 코포레이션
이고르 소브펠
제임스 토드헌터
헤오르히 지할코
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인벤션 머신 코포레이션, 이고르 소브펠, 제임스 토드헌터, 헤오르히 지할코 filed Critical 인벤션 머신 코포레이션
Publication of KR20080084803A publication Critical patent/KR20080084803A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

교차-언어 지식 검색을 위한 시스템 및 방법. 상기 시스템은 시맨틱 분석기, 자연어 사용자 요청/문서 검색 패턴/시맨틱 인덱스 생성기, 사용자 요청 검색 패턴 번역기 및 지식 기반 검색기를 갖는다. 상기 시스템은 또한 자동 시맨틱 분석 및 사용자 요청 지식 추출/검색에 상응하는 지식 인식 및 교차-언어에 대한 자연어 사용자 요청/문서의 시맨틱 인덱싱을 제공한다. 시스템 기능은 다수의 유일한 바이링귀얼 개념/목적어 및 동작 사전들에 의해서뿐만 아니라 언어 지식 기반에 의해 보장된다.
교차-언어 검색, 지식 기반, 시맨틱, 바이링귀얼

Description

교차-언어 지식 검색을 위한 시스템 및 방법{SYSTEM AND METHOD FOR CROSS-LANGUAGE KNOWLEDGE SEARCHING}
본 발명은 텍스트 문서에서 자동 지식 인식의 시스템 및 방법 그리고 사용자 요청에 상응하는, 교차-언어 지식/문서 추출에 목적을 둔 사용자 지식 기반에 접근하기 위한 자연어 인터페이스에 관한 것이다.
하기의 미국특허 및 미국특허공개공보 문서들은 본 발명에 관련된 기술의 설명을 제공한다: Katz 등에 의해 1995년 4월에 발행된, 미국특허번호 제5,404,295호(이하 Katz 등 이라 함); Driscoll에 의해 1997년 12월에 발행된, 미국특허번호 제5,694,592호(이하 Driscoll 이라 함); Woods에 의해 1998년 3월에 발행된, 미국특허번호 제 5,724,571호(이하 Woods 라 함); Dahlgren 등에 의해 1998년 8월에 발행된, 미국특허번호 제5,794,050호(이하 Dahlgren 등 이라 함); Braden-Harder 등에 의해 1999년 8월에 발행된, 미국특허번호 제5,933,822호(이하 Braden-Harder 등 이라 함); Heidorn 등에 의해 1999년 10월에 발행된, 미국특허번호 제5,966,686호(이하 Heidorn 등 이라 함); Williamowski 등에 의해 2002년 4월에 발행된, 미국특허번호 제6,381,598호(이하 Williamowski 등 이라 함); 및 Mittal 등에 의해 2004년 12월에 공개된, 미국공개공보 제20040261021호(이하 Mittal 등 이라 함).
다음의 비특허 문서들 또한 본 출원서에 관련된 기술의 설명을 제공한다:
Radev D.R. 등의 "Ranking Suspected Answers to Natural Language Question Using Predictive Annotation", 2000년 4월 29일 - 5월 4일, 6차 응용 자연어 프로세싱 컨퍼런스의 회보, 페이지 150-157 (이하 Radev 등 이라 함);
Srihari R. 등의 "A Question Answering System Supported by Information Extrcation", 2000년 4월 29일 - 5월 4일, 6차 응용 자연어 프로세싱 컨퍼런스의 회보, 페이지 166-172 (이하 Srihari 등 이라 함);
Cardie C. 등의 "Examining the Role of Statistical and Linguistic Knowledge Sources in a General-Knowledge Question-Answering System", 2000년 4월 29일 - 5월 4일, 6차 응용 자연어 프로세싱 컨퍼런스의 회보, 페이지 180-187 (이하 Cardie 등 이라 함);
Abney S. 등의 "Answer Extraction", 2000년 4월 29일 - 5월 4일, 6차 응용 자연어 프로세싱 컨퍼런스의 회보, 페이지 296-301 (이하 Abney 등 이라 함);
정보-제공 시스템에 있어서, 정보 또는 지식은 사용자 요청 또는 쿼리에 따라 회수되거나 추출될 수 있다. 상기 사용자 요청은 자연어(natural language: NL)로 공식화되는 것이 바람직하다. 그러한 쿼리가 주어지면, 상기 시스템은 특별 분석에 의한 정식 방법으로 그것들을 제시하려 한다. 그러한 시도는 NL 이해 시스템으로 불린다. 프리젠테이션의 제1 형태는 키워드 순서, 키워드로 구성된 부울식(boolean expression), 특정 어휘 단위(lexical units) 등이었다.
상기 기술에 있어서 한층 더한 연구가 필요로 될 것이란 점을 아는 것은 어렵지 않다. 새로운 컴퓨터-기반 기술이 발전되어 왔다. 그러한 기술들은, 예를 들면, 이용가능한 정보를 미리 프로세싱하고 언어 수단으로 사용자 요청을 분석하는 것을 다루었다.
전처리(preprocessing)를 위해, 코퍼스 텍스트(courpus texts)는 태깅(tagging), 파싱(parsing) 및 시맨틱 분석(semantic analysis)을 요할 수 있다. 상기 태깅 단계 또는 형태학적 분석은 상기 텍스트로부터 단어 및 구두점을 추출하는 과정과, 뒤이어 각 단어의 사전 정보, 즉 그 단어가 문장에서 가지는 모든 가능한 형태, 센스 및 문법적 역할을 첨부하는 과정으로 이루어진다.
상기 파싱 단계 동안, 상기 문장의 언어학상 구조는 구문 파싱 트리의 형태로 제시되며 여기서 각 리프 노드(leaf node)는 한 단어 또는 상기 문장의 구두점 마크를 나타낸다. 중간-레벨 리프들은 다양한 언어학상 구성-예를 들면, 명사구, 동사구, 전치사구 등-다른 언어학상 구성 또는 일상어 및 구두점 마크로 번갈아 구성되는 다양한 언어학상 구성을 나타낸다; 이러한 노드들의 구성은 하기에서 하나 이상의 기존 노드들로 그들을 링크함으로써 반영된다. 완전한 언어학상 파싱 트리의 단일 루트 노드(root node)는 전체 문장을 나타낸다. 상기 시맨틱 분석 단계는 상기 텍스트 이해의 보다 심층적인 레벨, 즉 사람에 의해 달성되는 것과 동등한 정도의 레벨을 가정한다. 상기 마지막 단계는 심층 주어, 심층 목적어, 절(clause), 상위어(hypernym), 수단 등과 같은, 텍스트에서 재생시 다양한 시맨틱 역할 단어 및 언어학상 구성을 얻는다.
사용자 요청은 또한, 유사한 3 단계 분석을 요할 수 있다. 특별히 전체 문장 질문의 형태로 된 입력 스트링과 함께 동작하도록 발전된 시스템들이 존재한다. 이러한 시스템들은 사용자 질문의 시맨틱 구조를 태깅, 파싱 및 분석한다.
상기 코퍼스 텍스트와 사용자 요청 둘 모두의 상기 시맨틱 구조에 대한 기계의 이해도는 입력 질문에 대한 적당한 응답을 갖추는데 도움을 준다. 즉, 이러한 이해도는 사용자 요청을 최대한 이행하는 상기 코퍼스 텍스트들에 구현된 지식의 제공을 허용할 것이다.
품사(POS) 태깅, 파싱, 및 시맨틱 분석의 사용은 사용자 쿼리의 보다 정확한 정식 표현의 구성을 허용하나, 일부 시스템들은 또한 사용자와의 대화(dialog)를 사용한다. 태깅, 파싱 및 시맨틱 분석을 사용하는 시스템들은 종래기술에 공지된다. 예를 들면, Katz 등은 사용자 요청(그러나 그것들 모두는 아님)을 구조 형태(structured form)로 번역한다. Dahlgren 등은 NL 입력을 수신하고 1차 논리(first order logic: FOL) 출력을 생성하는 (나이브(naive)한 시맨틱 어휘집, 명사 및 동사구 인식을 포함하는) NL 이해 모듈을 사용한다. Braden-Harder 등 및 Heidorn 등 둘 모두는 사용자 요청을 논리 형식 그래프(logical form graph: LFG), 즉, 한 세트의 논리 형태 트리플(triples)로 번역한다. 상기 Braden-Harder 및 Heidorn 방법은 통계-기반 검색 엔진을 두드러지게 개선하나, 단지 단문 또는 문장 단편의 형태의 쿼리들을 위해서만 설계된다. 상기 LFG는 구문에서(심층 주어, 심층 목적어 등) 중요한 단어들 사이의 시맨틱 관계들을 판단하나, 사실상, 그것은 문법상 주어, 목적어 등을 의미한다. 또한, 트리플로의 쿼리 분리는 그것의 통합 시맨 틱 표현을 파괴한다. 상기 질문이 요청되는 상기 LFG 요소는 등록되지 않는다. 그 결과, 상기 시스템은 상응 문서들을 검색하나, 상기 사용자 질문에 대한 답변들을 추출하지 않는다.
이러한 자연어 프로세싱(NLP) 시스템의 결점은, 새로운 시맨틱 규칙들을 상기 시스템에 추가하는 것이 점점 더 어렵게 된다는 점이다. 새로운 규칙의 추가는 일반적으로, 상기 시맨틱 서브시스템에 이미 프로그램된 것과 상충할 수 있는 새로운 절차 논리를 수반한다. LGF 또는 FOL의 크기 및 복잡성은 그들의 사용을 상당히 어렵게 하며 심지어 많은 업무를 해결하는데 비효율적이다.
NL 인터페이스의 발전에 대한 또 다른 접근법은 상기 사용자 쿼리의 철저한 언어 분석을 수행한다는 데에 있지는 않고, 검색 능력 레벨에 버금가는 계산에 의하여, 문서 내의 쿼리를 형성하는 분리된 단어들의 검색을 위한 특정 알고리즘을 구현하는 데에 있다. 예를 들면, Driscoll과 Woods는 특정 메시지들을 찾기 위해 "랭킹 완화(relaxation ranking)"로 불리는 기법의 사용을 설명하며, 여기서 쿼리 요소(element)의 최대수가 함께, 바람직하게는 동일한 형태 및 순서로 발견된다. Radev 등 및 Shirai 등은 질의 응답(QA) 및 NLP 기법들을 결합함으로써 유사한 접근법을 개발했다. Radev 등 및 Shirai 등은 전체-스케일 NLP를 사용하지 않으나, 질문들의 일부 요소 및 텍스트 문서들은 시맨틱 카테고리들, 예를 들면, Radev 등에 기술된 바와 같은 Q/A 토큰(Tokens)에 의해 인덱싱된다. Cardie 등은 표준 ad-hoc 정보 회수(IR), 쿼리-종속(query-dependent) 텍스트 요약 및 피상적인 시맨틱 문장 분석을 결합한다. 하지만, 상기 Cardie 시스템은 명사구들의 추출에 초점을 맞추며 사용자와의 대화를 사용한다. Abney 등은 IR 및 NLP 기술 둘 모두를 사용한다; 이는 순수한 IR 시스템보다 더 큰 정확성을 갖질 수 있게 하면서, 순수한 NLP 방법에 비해 상기 Abney 시스템을 보다 견고하게 한다. 그러나 상기 Abney 제작자들은 스스로 상기 시스템의 비교적 낮은 품질이 상기 NLP 컴포넌트의 개선, 더 큰 질문 코퍼스의 발전 등을 필요로 한다는 점을 인정한다.
따라서, 텍스트의 분석/ 이해의 시스템을 수립하기 위해, 많은 다양한 접근법들이 존재한다는 사실에 상관없이, 그들 중 아무도 이상적인 NL 사용자 인터페이스를 제공하지 않는다. 게다가, 사용자 쿼리의 NL 분석, 또는 피상적인 분석의 수행 실패는 불충분한 결과들을 가져올 수 있다. Woods는 "언어 지식은 정보 검색을 향상시킬 수 있다"고 설명한다 - 그리하여 상기 논제는 상기 문제를 해결하는데 적절한 점으로 고려되어야 한다. 사용자는 질문을 하면서 적절한 정보, 즉, 지식을 받기를 원한다. 상기 지식의 주요 요소들은: 목적어/개념, (예를 들면: 발명, 찬 물); 팩트들(불이 물을 가열한다); 및 외부/주어 영역의 규정들을 반영하는 규칙들의 형태로 공식화된 상기 팩트들 사이의 인과 관계들(예를 들면: F1(불이 물을 100도로 가열한다)이면 그 후 F2(물이 끓는다)임)이다.
텍스트 문서에서 상기 언어 지식의 인식에 기초한, "Natural Language Processing and Query Driven Information Retrieval"로 표제된, 미국특허출원공개공보 제20020010574호; "Semantic Answering System and Method"로 표제된, 미국특허출원공개공보 제20020116176호; 및 "Computer-based Summarization fo Natural Language Documents"로 표제된, 미국특허출원공개공보 제20030130837호는, NL의 완 전하고 정확한 POS 태깅, 파싱 및 시맨틱 분석에 기초하여, NL 사용자 요청 및 텍스트 문서들의 분석에 대한 또 다른 접근법을 기술한다. 상기 접근법은 임의의 사용자 NL 요청 및/또는 텍스트 문서의 분석, 및 외부/주어 영역의 목적어, 팩트 및 규정들에 관한 지식의 검색, 및 상기 지식의 임의의 요소들(속성들, 관계들)을 제공한다.
문제들 및 지식 엔지니어링을 검색하기 위한 효율적 해결책의 새로운 가능성이 텍스트 자원들의 사용에 있어 한층 더한 성장을 야기했다. 하지만, 사용자에게 필요한 지식은 다양한 언어들의 문서들에 포함될 수 있는 반면, 상기 사용자는 그의 본래 언어로 소통하는 것을 더 선호한다. 이는 결국 교차-언어 지식 검색 및 추출의 문제로 귀결된다. 상기에 언급된 문제점들을 포함하는 기존 시스템들은 지식 검색이 아니라 정보 검색을 목표로 한다. 그러므로, "교차-언어 문제점"은 전형적으로 바이링귀얼(bilingual) 사전을 사용하는 사용자 쿼리로부터 키워드를 간단히 번역함으로써 그것을 해결한다. 예를 들면, Williamowski 등은 사용자 쿼리로서 키워드(기본 단어) 및 부울 연산자(Boolean operator)에 의해 형성된 표현을 사용한다. 이러한 단어들은 그 후 영역 특정 사전을 사용하여 번역되고 스템되어(stemmed), 결국 스템 및 번역된 기본 단어들의 결합 세트가 된다. 상기 사용자 쿼리 검색 표현 세트를 사용하는, 상기 Williamowski 등의 시스템은 상기 회수된 문서들에서 상기 검색 키워드들의 정확한 언어 구조를 증명하는, 해당 자연어의 문서들에서 종래 키워드 검색을 수행한다. Mittal 등은 제1 형식으로 작성된 사용자 쿼리로부터 획득된 용어들을 개연성이 있는 사전을 사용하여 제2 형식으로 번역한 다; 상기 번역된 쿼리에 상응하는 정보에 대한 데이터베이스를 검색하고 사용자에게 상기 제2 형식으로 작성된 검색 결과들을 리턴한다. 상기 Williamowski 등의 방법과 달리, Mittal 등은 구글TM 앵커-기반 코퍼스들을 사용하는 개연성 있는 사전을 수립하기 위한 방법을 제시한다. 그러한 코퍼스들의 종류는 일반적으로 문장들에 있어서 불충분한 시맨틱 구조들을 가지며, 정확한 시맨틱 비교를 위해 사용되지 않을 수 있으며, 따라서 결국 기본적으로 키워드 검색이 된다.
따라서, 사용자 쿼리 및 텍스트 문서의 심층적인 언어(시맨틱을 포함하는) 분석의 필요성이 있을 때, 본 발명의 실시예들은 심지어 사전 수립 단계에서조차, 그러한 분석 결과들을 고려하여, "교차-언어 문제"를 언급한다.
본 발명은 자연어 문서들에서 자동으로 지식을 인식하고 교차-언어 지식 검색 및 추출 동안 NL 사용자 요청을 해석하기 위한 컴퓨터에 대한 능력을 제공한다. 사용자 요청은 개별 목적어/개념, 지식 영역의 팩트 및 그들 사이의 관계들에 관련할 수 있다. 이러한 능력은 우선 시맨틱 분석기에 의해, NL 사용자 요청 및 NL 문서들을 의미론적으로 분석함으로써 제공되며, 또한 eSAO, 이를테면, 7-필드 시맨틱 유닛(주어-동작-목적어-형용사-전치사-간접목적어-부사) 및 제약(constraints)의 형태로 그들의 검색 패턴/시맨틱 인덱스를 생성하는 것을 용이하게 한다.
사용자 요청 시맨틱 인덱스는 번역기 모듈에 들어가고, 상기 번역기 모듈은 데이터베이스에 저장되는 상기 문서들에 존재하는 NL의 수로부터 임의의 다른 NL 에 대한 번역을 수행하는 반면에, 상기 시맨틱 인덱스의 모든 구성요소들, 어휘 및 문법 특성들, 시맨틱 역할 및 관계들이 보존된다. 사용자 요청에 상응하는 상응 지식 및 문서들의 검색은 지식 기반의 시맨틱 인덱스들의 해당 서브세트에 대한 소스 및 타겟 언어 모두에서 사용자 요청 시맨틱 인덱스의 매칭을 이룬다.
사용자 요청 및 텍스트 문서들의 언어 분석은 다른 종류의 사전, 분류자, 문법, 통계 데이터 및 텍스트-대-단어 분할을 위한 언어 모델의 인식, 주어, 목적어, 동작(action) 등의 인식을 포함하는, 언어 지식 기반의 의해 보장된, 품사 태깅, 파싱 및 시맨틱 분석을 포함한다. 상기 언어 지식 기반은 또한 병렬 텍스트 코퍼스들로부터 자동으로 생성되고 교차-언어 지식 검색 및 추출의 레벨에서 사용자 요청 시맨틱 인덱스를 번역하기 위해 사용된 동작 및 개념의 유일한 바이링귀얼 사전을 포함한다.
도 1은 상기 시스템의 구조적이고 기능적인 체제.
도 2A는 동작의 바이링귀얼(bilingual) 사전의 단편.
도 2B는 개념/목적어의 바이링귀얼 사전의 단편.
도 3은 상기 사전 편찬자의 구조적이고 기능적인 체제.
본 발명은 지식 인식에 대한 NL 문서/사용자 요청의 시맨틱 분석 및 NL 사용자 요청에 따른 교차-언어 지식 검색/추출을 위한 시스템 및 방법에 관한 것이다.
본 발명의 일부 실시예들은 사용자 요청 및 문서들의 정식 콘텐츠 표현을 위 해 확장형 주어-동작-목적어(SAO) 형식을 사용한다. 상기 확장형 SAO들(또는 eSAO들) 유닛들은 다음의 7개의 컴포넌트들을 포함할 수 있다:
1. 목적어(O)에 동작(A)을 수행하는, 주어(S);
2. 주어(S)에 의해 목적어(O)에 수행된, 동작(A);
3. 주어(S)에 의해 동작(A)이 행해진, 목적어(O);
4. 주어(S) 또는 동작(A)을 기술하는 형용사(Adj)로서, 목적어(O)가 없는 eSAO에서 주어 뒤에 온다(예를 들면, "The invention is "efficient", "The water becomes "hot"");
5. 간접 목적어(IO)를 지배하는, 전치사(Prep)(예를 들면, "The lamp is placed "on" the table", "The device reduces friction "by" ultrasound");
6. 명사의 위치에 의해 규칙으로 명시된, 간접 목적어(IO)로서, 이는 전치사와 함께 동작을 기술하며, 부수적인 수식어구가 된다(예를 들면, "The lamp is placed on the "table"", "The device reduces friction by "ultrasound"");
7. 대체로 동작(A)의 수행 상태를 기술하는, 부사(Adv)(예를 들면, "The process is "slowly" modifie", "The driver must not turn wheel "in such a manner"").
상기 eSAO 형식의 적용예들이 하기의 표 1과 표 2에 도시된다.
Figure 112008037435251-PCT00001
[표 1]
Figure 112008037435251-PCT00002
[표 2]
(상기 원시 사용자 요청/텍스트 문서를 미리 형성하기 위한) 프리 포맷기(Preformatter)를 포함할 수 있고, (사용자 요청/문서의 품사 태깅, 파싱 및 시맨틱 분석을 위한) 언어 분석기(Linguistic Analyzer)를 포함할 수 있는, 사용자 NL 요청/텍스트 문서에서 자동 eSAO 인식의 바람직한 시스템 및 방법이, "Natural Language Processing and Query Driven Information Retrieval"로 표제된 미국특허출원공개공보 제20020010574호, 및 "Semantic Answering System and Method"로 표 제된, 미국특허출원공개공보 제20020116176호에 상세히 기술된다.
예를 들면, 상기 시스템이 입력 사용자 요청 "How to reduce the level of cholesterol in blood?"을 수신한다면, 그후 eSAO 인식 레벨에서, 그것은 표 3에 도시된 표현으로 변형될 것이다:
Figure 112008037435251-PCT00003
[표 3]
상기 시스템이 입력으로서, 예를 들면, "Atorvastaine reduces total cholesterol level in the blood by inhibiting HMG-CoA reductase activity"로 인용한 텍스트 문서로부터의 문장을 수신한다면, 그후 상기 문장이 프로세스된 이후, 상기 문장의 정식 표현은 표 4에 도시된 3개의 eSAO들을 포함할 것이다:
Figure 112008037435251-PCT00004
[표 4]
본 발명의 실시예들에 따른 시스템이 도 1에 도시된다. 도 1에 도시된 바와 같이, 상기 시스템은: (n개의 자연어 중에서 임의의 자연어(j)로 표현된, 사용자 요청 및 문서의 시맨틱 분석을 위한) 시맨틱 분석기(60); (자연어(k)로 표현된, 사용자 요청의 검색 패턴/시맨틱 인덱스 생성을 위한) 사용자 요청 패턴/인덱스 생성기(20); (n개의 자연어 중에서 임의의 자연어(j)의 형태로 상기 시스템에 입력되는 텍스트 문서의 검색 패턴/시맨틱 인덱스를 생성하고 {Lj}-지식 기반(80)을 수립하기 위한) 문서 패턴 인덱스 생성기(70); (n개의 모든 자연어 중에서 임의의 자연어(j)로 된 Lk 사용자 요청 검색 패턴/시맨틱 인덱스 번역을 위한(여기서 j≠k)) 요청 패턴 번역기(30); ({Lj}-지식 기반(80)에서 {Lj}-사용자 요청 검색 패턴/시맨틱 인덱스 상응 지식 및 문서 검색을 위한) 지식 기반 검색기(40)를 포함한다. 상기 시맨틱 프로세서(100)의 모든 모듈의 기능은 언어 지식 기반(60) 내에 유지될 수 있는 것으로, 사전, 분류자, 통계 데이터 등과 같은, 다양한 데이터베이스 및 (텍스트-대-단어 분열, 명사와 동사구 위치의 인식, 주어, 목적어, 동작 및 그들 속성, 인과 인식 등에 대한) 언어 모델들을 인식하기 위한 데이터베이스를 포함한다.
Lk-사용자 요청 및 {Lj}-문서들, Lk-사용자 요청 및 {Lj}-문서 시맨틱 인덱스 생성, 및 {Lj}-지식 기반 검색은 Natural Language Processing and Query Driven Information Retrieval로 표제된, 미국특허출원공개공보 제20020010574호, 및 Semantic Answering System and Method로 표제된, 미국특허출원공개공보 제 20020116176호에 자세히 기술된다. 본 발명의 실시예들은 바람직하게는 시맨틱 분석, 시맨틱 인덱스 생성, 및 지식 기반 검색을 위한 이러한 참조 문서들에 기술된 방법들, 시스템들 및 기법들을 사용한다.
Lk-사용자 요청 및 텍스트 문서의 시맨틱 인덱스/검색 패턴은 {Lj}-시맨틱 분석기(60)의 도움으로 상기 사용자 요청/텍스트 문서로부터 추출되는 제약들뿐만 아니라 다수의 eSAO들을 나타낸다는 점이 지적되어야 한다. 모든 eSAO 요소들의 인 식은 상기 언어 지식 기반(100)의 일부인 해당 인식 언어 모델들에 의해 구현된다. 이러한 모델들은 품사 태그들, 어휘 항목들 및 구문상 카테고리들로서 한정 동작들, 비-한정 동작들, 동사적 명사들을 가진 상기 파싱된 텍스트 eSAO들로부터 추출하기 위해 사용되는 규칙들을 기술한다. 동작 추출 규칙의 일례는 다음과 같다:
<HVZ><BEN><VBN>=>(<A>=<VBN>)
이러한 규칙은 "입력 문장이 HVZ, BEN, VBN 태그들 각각 획득된 품사 태깅의 단계에서 단어들(w1, w2, w2)의 순서를 포함한다면, 그 후 이 문장에서 VBN을 갖는 단어는 동작이다"라는 것을 의미한다. 예를 들어, 상기 구 "has been produced"는 "has_HVZ been_BEN produced_VBN"으로 품사 태깅될 것이며 상기 규칙은 "produce"가 동작, 즉, (A=produce)임을 나타낼 것이다. 게다가, 상기 동작의 보이스(능동태 또는 수동태)는 주어와 목적어의 추출에 대한 규칙들로 고려된다. 제약들은 eSAO의 부분이 아닌 상기 사용자 요청/텍스트 문서의 유익한 어휘 유닛들이다. 동시에, 상기 시맨틱 인덱스의 모든 요소들(어휘 유닛들)은 해당 품사 태그와 함께 간다.
따라서, 예를 들면, 상술된 사용자 요청 "How to reduce the level of cholesterol in blood?"에 대해 상기 시맨틱 인덱스는 표 5에 도시된 결합 필드에 대응할 것이다:
Figure 112008037435251-PCT00005
[표 5]
각 NL이 개별적이지만 기능면에서 유사한 시맨틱 분석기(60)를 가질 것이라는 점에 주목할 필요가 있다. 그러므로, 본 발명의 실시예는 다중 시맨틱 분석기(60)를 가질 수 있으며, 여기서 각 시맨틱 분석기는 개별 NL을 위해 사용된다. 품사가 예를 들어, 표 5에서 "VB, NN, IN" 태그들로 도시된다는 점 또한 주목하라. 상기 POS 태그들의 추가 설명을 위해 미국특허출원공개공보 제20020010574호 및 미국특허출원공개공보 제20020116176호를 참조할 수 있다.
상기 사용자 요청(10)은: (예를 들면, 그들의 정의 또는 파라미터); 개별 팩드들(예를 들면, 특정 목적어에 대한 특정 동작의 이행의 방법 또는 방식, 상기 특정 팩트 이행의 시간 및 장소); 팩트들 사이의 특정 관계들(예를 들면, 특정 팩트의 원인); 및/또는 다른 항목들에 대해 존재할 수 있다.
상기 요청 패턴/인덱스 생성기(20)는, 소스 언어(Lk)로 작성된 쿼리에 해당하는 시맨틱 검색 패턴을 상기 요청 패턴 번역기(30)에 제공하는데, 상기 요청 패턴 번역기(30)는 소스 언어 Lk로 작성된 쿼리에 상응하는 시맨틱 검색 패턴을, 임의 의 타겟 언어(Lj, j=1,2,...,n, j≠k)에 상응하는 시맨틱 검색 패턴으로 번역한다. 따라서, 예를 들면, 프랑스어가 타겟 언어로서 주어지면 상기 요청 패턴 번역기(30)는 상술된 사용자 요청 예로서 표 6에 도시된 "프랑스어" 시맨틱 인덱스를 수립할 것이다:
Figure 112008037435251-PCT00006
[표 6]
이렇게, 본 발명의 실시예에 따른 요청 패턴 번역기(30)는 사용자 요청의 개별 단어들의 단순한 번역에 좌우하지 않는 대신, 사용자 요청의 POS 태그들, 시맨틱 역할 및 시맨틱 관계들을 보존하면서, 사용자 요청의 유익한 단어들의 특정 결합을 번역한다.
상기 번역된 검색 패턴은 그 후 지식 기반 검색기(40)에 제공되는데, 상기 지식 기반 검색기(40)는 타겟 언어(Lj)(프랑스어로 주어진 예에서)에 상응하는 {Lj}-지식 기반(80)에 포함된 의미론적으로 인덱스된 텍스트 문서들의 서브세트 내에서, 적절한 사용자 요청 지식/문서들의 검색을 실시한다. 상기 검색은 검색 패턴에 대한 동의어 또는 계층적 관계를 고려하여, 원래 소스 언어에 나타난 사용자 요 청 시맨틱 인덱스와, 상기 {Lj}-지식 기반(80)의 시맨틱 인덱스들의 해당 서브세트에서 선택된 타겟 언어들을 매칭시키는 과정을 통상적으로 포함한다.
상기 요청 패턴 번역기(30)는 바람직하게는 동작들의 바이링귀얼 사전 및 개념/목적어의 바이링귀얼 사전을 포함하는 다수의 유일한 바이링귀얼 사전을 사용한다. 상기 소스 언어가 영어이고 상기 타겟 언어가 프랑스어일 경우의 동작 사전의 예인 도 2A를 참조할 수 있다. 도 2B는 또한 상기 소스 언어가 영어이고 상기 타겟 언어가 프랑스어인 경우 개념/목적어 바이링귀얼 사전의 예를 도시한다.
도 3은 본 발명의 일부 실시예들에 따른 그런 사전들의 수립을 도시한다. 그러한 사전들의 수립은 병행 코퍼스들의 사용에 기초한다. 두 개의 병행 코퍼스들 Ts(110) 및 Tt(120)은 먼저 시맨틱 분석기(130)에 의해 프로세스된다. - 각 코퍼스들(110,120)의 언어에 상응하는 시맨틱 분석기(130)에 의해 각 코퍼스들(110, 120)이 프로세스된다. 상기 병행 코퍼스들 Ts(110) 및 Tt(120)은 바람직하게는 서로의 문장 번역에 의한 문장을 나타내는 문서들을 포함하며, 여기서 하나의 코퍼스 Ts(110)는 언어(s)에 존재하고 나머지 코퍼스 Tt(120)는 언어(t)에 존재한다. 상기 시맨틱 분석기(130)(하나는 언어(s)를 위한 것이고, 하나는 언어(t)를 위한 것임)는 각 코퍼스(110, 120)를 병행 eSAO의 수로서 표현되는 시맨틱 인덱스로 변환한다. 사전 생성기ictionary Builder)(150)는 상기 병행 eSAO들로부터 병행 주어와 목적어 쌍을 추출하고 바이링귀얼 개념 사전을 수립한다. 마찬가지로, 상기 사전 생성기(150)는 바이링귀얼 동작 사전을 수립하기 위해 병행 동작들을 추출한다. 각 병행 쌍이 동일한 시맨틱 요소들을 나타내므로, 각 쌍은 기본적으로 동동한 어휘 언어 유닛들을 포함한다. 상기 사전 생성기(15)에 의해 생성된 사전은 그 후 편집(예를 들면, 반복되는 어휘 유닛 쌍의 삭제)을 위한 툴을 제공하는 사전 편집기(160)에 의해 더 처리된다. 상기 편집된 사전은 그 후 상기 시맨틱 분석기(130)에 의해 사용된 다른 언어 자원들과 함께 상기 언어 지식 기반(140)에 추가된다.
(도 1의 패턴 번역기(30)에 의해 도시된 바와 같은) 사용자 요청 검색 패턴을 번역하는 동안 개념 및 동작 사전의 사용법은 사용자 요청에 있어서 다중 단어 개념의 모호성(ambiguity)을 상당히 줄여야 한다. 상기 시맨틱 인덱스의 상술한 모든 필드에 의해 제공된 콘텍스트로 인해 검색시 상기 모호성이 감소되거나 제거되어야 한다. 따라서, 본 발명에 따른 상기 시스템 및 방법은 다중 언어들의 소스들로부터 지식의 추출의 개선을 위해 그리고 상응 지식을 포함하는 문서들의 지정 및 추출의 개선을 위해 제공한다.
본 발명의 실시예들에 따른 상기 시스템 및 방법은 하나 이상의 컴퓨터, 마이크로프로세서, 마이크로컨트롤러, 또는 다른 프로세싱 장치들에 상주하는 컴퓨터 수행가능 명령들에 의해 제공될 수 있다. 상기 시스템 및 방법을 수행하기 위한 상기 컴퓨터-수행가능 명령들은 프로세싱 장치들 안의 메모리에 존재할 수 있으며 또는 플로피 디스크, 하드 디스크, 컴팩트 디스크(CD들), 디지털 다기능 디스크(DVD들), 롬(ROM), 또는 기타 저장 매체에 의한 프로세싱 장치들에 제공될 수 있다.
대표적이고 바람직한 실시예들의 전술한 상세설명은 법률 조항들에 따라 도시 및 개시를 목적으로 제시된다. 본 발명이 정확한 형태(들)로 국한되어서는 안되 며, 단지 본 발명에 속하는 기술분야에서 통상의 지식을 가진 자들이 본 발명이 특정 사용 또는 구현을 위해 어떻게 적응되는 지를 이해하게 할 뿐이다. 변형 및 변경의 가능성은 본 발명의 기술분야에 속하는 통상의 지식을 가진 자들에게 명백해질 것이다. 대표적인 실시예들의 설명에 의해 국한되는 것으로 의도하지 않으며, 이에는 허용치, 특정 규격들, 특정 동작 조건들, 엔지니터링 사양 등이 포함될 수 있으며, 구체에들 간에 또는 기술의 상태에 대한 변경들로 변할 수 있으며, 그것으로부터 국한되어서는 안 된다. 상기 개시물은 기술의 현재 상태에 관해 작성되었으나, 또한 장점들을 심사숙고하고 기술의 현재 상태에 따른 장래 개조에 있어서 그러한 발전을 고려할 수도 있다. 본 발명의 범위는 작성된 청구항들 및 적용가능한 것으로서의 상응물에 의해 규정되는 것으로 의도된다. 단일의 주장 요소에 대한 참조는 명백하게 그렇다고 하지 언급하지 않는 한 "하나 및 단지 하나"를 의미하는 것으로 의도되지 않는다. 게다가, 본 개시물에 없는 요소, 컴포넌트, 또는 방법 또는 프로세스 단계는 상기 요소, 컴포넌트, 또는 단계가 청구항들에 명백하게 인용되는지에 상관없이 공개적으로 전용된 것으로 의도된다. 본원에 주장 요소가 구문 "...을 위한 수단"을 사용하여 확실히 언급되지 않는 한 법조항 35 U.S.C. Sec.112, 6번째 문단에 의해 구성될 수 없다.

Claims (28)

  1. 제1 언어의 입력식을 제공하는 단계;
    상기 입력식에 대한 시맨틱 분석을 수행하는 단계;
    상기 시맨틱 분석에 기초하여 상기 입력식에 대한 제1 언어 시맨틱 인덱스를 생성하는 단계;
    상기 제1 언어 시맨틱 인덱스를 제2 언어에 기초한 제2 언어 시맨틱 인덱스로 번역하는 단계; 및
    상기 입력식에 상응하는 지식에 접근하기 위해 상기 제2 언어 시맨틱 인덱스에 기초하여 상기 제2 언어의 지식 기반 소스들의 검색을 수행하는 단계를 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
  2. 제 1 항에 있어서, 상기 지식 기반은 상기 제1 언어와 상기 제2 언어의 일부 소스들을 포함하며 상기 방법은,
    상기 입력식에 상응하는 지식에 접근하기 위해 상기 제1 언어 시맨틱 인덱스에 기초하여 상기 제1 언어의 지식 기반 소스들의 검색을 수행하는 단계를 더 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
  3. 제 1 항에 있어서, 시맨틱 분석을 수행하는 단계는 상기 입력식의 확장형 주어-동작-목적어(eSAO)를 식별하는 단계를 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
  4. 제 3 항에 있어서, 제1 언어 시맨틱 인덱스를 생성하는 단계는 각 식별된 eSAO 유닛에서 하나 이상의 eSAO를 식별하는 단계를 포함하며 상기 제1 시맨틱 인덱스는 상기 하나 이상의 eSAO 컴포넌트들을 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
  5. 제 4 항에 있어서, 상기 제1 언어 시맨틱 인덱스를 상기 제2 언어 시맨틱 인덱스로 번역하는 단계는 상기 제2 언어 시맨틱 인덱스를 제공하기 위해 상기 제1 언어로부터 상기 제1 시맨틱 인덱스의 각 eSAO 컴포넌트를 상기 제2 언어의 적어도 하나의 해당 eSAO 컴포넌트로 번역하는 단계를 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
  6. 제 5 항에 있어서, 상기 제1 언어로부터 각 eSAO 컴포넌트를 번역하는 단계는 하나 이상의 바이링귀얼(bilingual) 동작 및/또는 개념 사전들에 접근하는 단계를 포함하며, 상기 바이링귀얼 사전들은 상기 제1 언어의 eSAO 컴포넌트를 상기 제2 언어의 하나 이상의 eSAO 컴포너트들에 매치시키는 단계를 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
  7. 제 6 항에 있어서, 상기 바이링귀얼 사전들은 바이링귀얼 동작 사전과 바이 링귀얼 개념/목적어 사전을 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
  8. 제 6 항에 있어서, 하나 이상의 바이링귀얼 사전들을 수립하는 단계를 더 포함하며, 상기 하나 이상의 바이링귀얼 사전들을 수립하는 단계는,
    두 개의 병행 코퍼스들을 제공하는 단계로서, 하나의 코퍼스는 상기 제1 언어의 소스들을 포함하고 나머지 코퍼스는 상기 제2 언어의 소스들을 포함하는, 단계;
    각 코퍼스로부터 eSAO들을 생성하기 위해 각 코퍼스에 대한 시맨틱 분석을 수행하는 단계; 및
    병행 eSAO 컴포넌트 쌍을 제공하기 위해 상기 eSAO들로부터 병행 eSAO 컴포넌트들을 추출하는 단계를 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
  9. 제 8 항에 있어서, 하나의 코퍼스는 나머지 코퍼스의 상기 제2 언어의 소스들을 상기 제1 언어의 소스들의 문장별(sentence-by-sentence) 번역을 포함하는 소스들을 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
  10. 제 8 항에 있어서, 상기 병행 eSAO 컴포넌트 쌍을 편집하는 단계를 더 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
  11. 제 2 항에 있어서, 상기 제1 및 제2 언어의 소스들의 지식 기반을 수립하는 단계를 더 포함하며, 상기 지식 기반을 수립하는 단계는,
    상기 제1 및 상기 제2 언어의 다수의 소스들에 대한 시맨틱 분석을 수행하는 단계; 및
    상기 시맨틱 분석에 대한 다수의 소스들을 위한 시맨틱 인덱스들을 생성하는 단계를 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
  12. 제 1 항에 있어서, 상기 입력식은 사용자 요청을 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
  13. 제 1 항에 있어서,
    상기 제1 언어 시맨틱 인덱스를 상기 제1 언어와 다른 다수의 언어들에 대한 다수의 시맨틱 인덱스들로 번역하는 단계; 및
    상기 표현식에 상응하는 지식에 접근하기 위해 상기 다수의 시맨틱 인덱스들에 기초한 상기 다수의 모든 언어들이 소스들의 지식 기반 검색을 수행하는 단계를 더 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
  14. 제 2 항에 있어서, 상기 입력식에 상응하는 지식에 접근하기 위해 상기 입력식에 상응하는 상기 제1 및 상기 제2 언어의 하나 이상의 문서들을 제공하는 단계 또는 상기 입력식에 상응하는 하나 이상의 출력식들을 제공하는 단계를 포함하는, 다중 언어로 소스들의 지식에 접근하기 위한 방법.
  15. 인과 지식 기반을 생성하기 위해 자연어 문서에서 인과 관계들을 인식하기 위한 방법을 수행하기 위한 컴퓨터-실행가능한 명령들을 포함하는 컴퓨터 프로그램 제품에 있어서, 상기 방법은,
    제1 언어의 입력식을 제공하는 단계;
    상기 입력식에 대한 시맨틱 분석을 수행하는 단계;
    상기 시맨틱 분석에 기초한 상기 입력식에 대한 제1 언어 시맨틱 인덱스를 생성하는 단계;
    상기 제1 언어 시맨틱 인덱스를 제2 언어 시맨틱 인덱스로 번역하는 단계로서, 상기 제2 언어 시맨틱 인덱스는 제2 언어에 기초하는, 단계; 및
    상기 입력식에 상응하는 지식에 접근하기 위해 상기 제2 언어 시맨틱 인덱스에 기초한 상기 제2 언어의 소스들의 지식 기반 검색을 수행하는 단계를 포함하는, 컴퓨터 프로그램 제품.
  16. 제1 언어의 입력식을 수신하고 상기 입력식에 상응하는 지식을 찾기 위해 하나 이상의 소스들의 지식 기반을 검색하는 교차-언어 검색을 위한 시스템에 있어서,
    상기 제2 언어에 존재하는, 상기 입력식의 시맨틱 컴포넌트들을 식별하기 위 한, 언어 지식 기반에 커플되는 표현식 시맨틱 분석기;
    상기 시맨틱 컴포넌트들을 제1 언어 표현식 시맨틱 인덱스로 배열하기 위한 표현식 인덱서;
    상기 제1 언어 표현식 시맨트 인덱스를 상기 제1 언어와 다른 하나 이상의 다른 언어 표현식 시맨틱 인덱스들로 번역하기 위한, 상기 언어 지식 기반에 커플되는 번역기; 및
    상기 하나 이상의 다른 언어 표현식 시맨틱 인덱스들에 기초한 상기 제1 언어와 다른 상기 하나 이상의 다른 언어의 상기 하나 이상의 소스들의 지식 기반으로부터 지식을 추출하기 위한 검색기를 포함하는, 시스템.
  17. 제 16 항에 있어서, 지식을 추출하기 위한 상기 검색기는 상기 제1 언어 표현식 시맨틱 인덱스에 기초한 상기 제1 언어의 하나 이상의 소스들의 지식 기반으로부터 지식을 추출하는, 시스템.
  18. 제 17 항에 있어서, 상기 시스템은,
    상기 제1 언어와 하나 이상의 다른 언어들의 소스들의 시맨틱 컴포넌트들을 식별하기 위한 하나 이상의 소스 시맨틱 분석기들로서, 각 소스 시맨틱 분석기는 상기 제1 언어와 상기 하나 이상의 다른 언어들 중 하나에 상응하는, 분석기; 및
    상기 소스들의 상기 식별된 시맨틱 컴포넌트들을 상기 제1 언어와 하나 이상의 다른 언어들의 소스들의 소스 시맨틱 인덱스들로 배열하기 위한 하나 이상의 소 스 인덱서들로서, 상기 하나 이상의 지식 기반은 상기 소스 시맨틱 인덱스들을 포함하는, 인덱서를 더 포함하는, 시스템.
  19. 제 18 항에 있어서, 상기 하나 이상의 소스 시맨틱 분석기들은 상기 언어 지식 기반에 커플되는, 시스템.
  20. 제 16항에 있어서, 상기 시맨틱 컴포넌트들은 확장형 주어-동작-목적어(eSAO) 컴포넌트들을 포함하는, 시스템.
  21. 제 20 항에 있어서, 상기 언어 기반은 다수의 eSAO 컴포넌트 쌍을 포함하며, 하나의 eSAO 컴포넌트 쌍은 한 언어의 하나 이상의 eSAO 컴포넌트들을 포함하고 나머지 eSAO 컴포넌트 쌍은 다른 언어의 하나 이상의 eSAO 컴포넌트들을 포함하는, 시스템.
  22. 제 21 항에 있어서, 상기 다수의 eSAO 컴포넌트 쌍들은 하나 이상의 바이링귀얼 사전들로 구성되는, 시스템.
  23. 제 21 항에 있어서, 상기 번역기는 하나의 eSAO 컴포넌트 쌍의 상기 제1 언어 표현식 시맨틱 인덱스의 각 eSAO 컴포넌트를 위치시키는고 나머지 eSAO 컴포넌트 쌍에 기초한 다른 언어 표현식 시맨틱 인덱스를 생산하는, 시스템.
  24. 제 16 항에 있어서, 상기 입력식은 사용자 요청을 포함하는, 시스템.
  25. 제 21 항에 있어서, 상기 하나 이상의 바이링귀얼 사전은 바이링귀얼 동작 사전 및 바이링귀얼 개념/목적어 사전을 포함하는, 시스템.
  26. 제 22 항에 있어서, 상기 하나 이상의 바이링귀얼 사전은,
    두 개의 병행 코퍼스들을 제공하는 단계로서, 하나의 코퍼스는 상기 제1 언어의 소스들을 포함하고 나머지 코퍼스는 제2 언어의 소스들을 포함하는, 단계;
    각 코퍼스들로부터 eSAO들을 생성하기 위한 각 코퍼스에 대한 시맨틱 분석을 수행하는 단계; 및
    병행 eSAO 컴포넌트 쌍들을 제공하기 위해 상기 eSAO들로부터 병행 eSAO 컴포넌트들을 추출하는 단계로서, 각 병행 eSAO 컴포넌트 쌍은 동일한 시맨틱 요소를 나타내는, 단계에 의해 생성되는, 시스템.
  27. 제 26 항에 있어서, 하나의 코퍼스는 나머지 코퍼스의 상기 제2 언어의 소스들을 상기 제1 언어의 소스들의 문장별(sentence-by-sentence) 번역을 포함하는 소스들을 포함하는, 시스템.
  28. 제 26 항에 있어서, 상기 병행 eSAO 컴포넌트 쌍들은 편집되는, 시스템.
KR1020087012584A 2005-10-24 2006-10-24 교차-언어 지식 검색을 위한 시스템 및 방법 KR20080084803A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/258,248 US7672831B2 (en) 2005-10-24 2005-10-24 System and method for cross-language knowledge searching
US11/258,248 2005-10-24

Publications (1)

Publication Number Publication Date
KR20080084803A true KR20080084803A (ko) 2008-09-19

Family

ID=37887754

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087012584A KR20080084803A (ko) 2005-10-24 2006-10-24 교차-언어 지식 검색을 위한 시스템 및 방법

Country Status (4)

Country Link
US (1) US7672831B2 (ko)
EP (1) EP1941405A2 (ko)
KR (1) KR20080084803A (ko)
WO (1) WO2007051109A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011065617A1 (ko) * 2009-11-27 2011-06-03 한국과학기술정보연구원 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
KR101480837B1 (ko) * 2014-10-27 2015-01-13 국방과학연구소 링크 구조 기반의 교차 언어간의 비정의 개체 추출 및 연결 방법

Families Citing this family (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US7146358B1 (en) * 2001-08-28 2006-12-05 Google Inc. Systems and methods for using anchor text as parallel corpora for cross-language information retrieval
US7707161B2 (en) * 2006-07-18 2010-04-27 Vulcan Labs Llc Method and system for creating a concept-object database
US8892423B1 (en) 2006-10-10 2014-11-18 Abbyy Infopoisk Llc Method and system to automatically create content for dictionaries
US9471562B2 (en) 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9189482B2 (en) * 2012-10-10 2015-11-17 Abbyy Infopoisk Llc Similar document search
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US9075864B2 (en) 2006-10-10 2015-07-07 Abbyy Infopoisk Llc Method and system for semantic searching using syntactic and semantic analysis
US9588958B2 (en) 2006-10-10 2017-03-07 Abbyy Infopoisk Llc Cross-language text classification
US9098489B2 (en) 2006-10-10 2015-08-04 Abbyy Infopoisk Llc Method and system for semantic searching
US9053090B2 (en) 2006-10-10 2015-06-09 Abbyy Infopoisk Llc Translating texts between languages
US9069750B2 (en) 2006-10-10 2015-06-30 Abbyy Infopoisk Llc Method and system for semantic searching of natural language texts
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
CA2675208A1 (en) * 2007-01-10 2008-07-17 National Research Council Of Canada Means and method for automatic post-editing of translations
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8812296B2 (en) * 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US20090083026A1 (en) * 2007-09-24 2009-03-26 Microsoft Corporation Summarizing document with marked points
US20090182547A1 (en) * 2008-01-16 2009-07-16 Microsoft Corporation Adaptive Web Mining of Bilingual Lexicon for Query Translation
JP2009189796A (ja) * 2008-02-13 2009-08-27 Aruze Gaming America Inc ゲーミングマシン
JP2009189797A (ja) * 2008-02-13 2009-08-27 Aruze Gaming America Inc ゲーミングマシン
US8123615B2 (en) * 2008-02-14 2012-02-28 Aruze Gaming America, Inc. Multiplayer gaming machine capable of changing voice pattern
US20090209345A1 (en) * 2008-02-14 2009-08-20 Aruze Gaming America, Inc. Multiplayer participation type gaming system limiting dialogue voices outputted from gaming machine
US8189814B2 (en) * 2008-02-14 2012-05-29 Aruze Gaming America, Inc. Multiplayer participation type gaming system having walls for limiting dialogue voices outputted from gaming machine
US20090209326A1 (en) * 2008-02-14 2009-08-20 Aruze Gaming America, Inc. Multi-Player Gaming System Which Enhances Security When Player Leaves Seat
US8182331B2 (en) * 2008-03-12 2012-05-22 Aruze Gaming America, Inc. Gaming machine
US20090233690A1 (en) * 2008-03-12 2009-09-17 Aruze Gaming America, Inc. Gaming Machine
US8972432B2 (en) * 2008-04-23 2015-03-03 Google Inc. Machine translation using information retrieval
CN106845645B (zh) 2008-05-01 2020-08-04 启创互联公司 用于产生语义网络和用于媒体合成的方法及系统
KR100956413B1 (ko) 2008-05-21 2010-05-06 한국과학기술정보연구원 언어 교차 검색 방법 및 시스템
US8364462B2 (en) 2008-06-25 2013-01-29 Microsoft Corporation Cross lingual location search
US8457441B2 (en) * 2008-06-25 2013-06-04 Microsoft Corporation Fast approximate spatial representations for informal retrieval
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US8135580B1 (en) 2008-08-20 2012-03-13 Amazon Technologies, Inc. Multi-language relevance-based indexing and search
US8326785B2 (en) * 2008-09-30 2012-12-04 Microsoft Corporation Joint ranking model for multilingual web search
WO2010105214A2 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation Question-answering system and method based on semantic labeling of text documents and user questions
US8577909B1 (en) * 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8572109B1 (en) 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8577910B1 (en) 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8538957B1 (en) 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
CN102460437B (zh) * 2009-06-26 2014-10-15 乐天株式会社 信息检索装置、信息检索方法、信息检索程序及记录了信息检索程序的记录介质
WO2011016078A1 (ja) * 2009-08-04 2011-02-10 株式会社 東芝 機械翻訳装置および翻訳プログラム
US9646079B2 (en) 2012-05-04 2017-05-09 Pearl.com LLC Method and apparatus for identifiying similar questions in a consultation system
US20140114986A1 (en) * 2009-08-11 2014-04-24 Pearl.com LLC Method and apparatus for implicit topic extraction used in an online consultation system
US9904436B2 (en) 2009-08-11 2018-02-27 Pearl.com LLC Method and apparatus for creating a personalized question feed platform
TW201109948A (en) * 2009-09-01 2011-03-16 Inventec Corp Word interpretation displaying system for integrating different dictionary databases and method thereof
US8498972B2 (en) * 2010-12-16 2013-07-30 Sap Ag String and sub-string searching using inverted indexes
US8965750B2 (en) 2011-11-17 2015-02-24 Abbyy Infopoisk Llc Acquiring accurate machine translation
US20130138421A1 (en) * 2011-11-28 2013-05-30 Micromass Uk Limited Automatic Human Language Translation
US9251223B2 (en) * 2012-02-29 2016-02-02 Google Inc. Alternative web pages suggestion based on language
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US9501580B2 (en) 2012-05-04 2016-11-22 Pearl.com LLC Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website
US9275038B2 (en) 2012-05-04 2016-03-01 Pearl.com LLC Method and apparatus for identifying customer service and duplicate questions in an online consultation system
WO2014003543A1 (en) * 2012-06-29 2014-01-03 Sopheon N.V. Method, system and computer program for generating a query representation of a document, and querying a document retrieval system using said query representation
US9280520B2 (en) * 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval
CN103678270B (zh) * 2012-08-31 2016-08-24 富士通株式会社 语义单元抽取方法和语义单元抽取设备
US8914419B2 (en) 2012-10-30 2014-12-16 International Business Machines Corporation Extracting semantic relationships from table structures in electronic documents
US9501469B2 (en) 2012-11-21 2016-11-22 University Of Massachusetts Analogy finder
US20140278349A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Language Model Dictionaries for Text Predictions
US9792276B2 (en) 2013-12-13 2017-10-17 International Business Machines Corporation Content availability for natural language processing tasks
US9396235B1 (en) * 2013-12-13 2016-07-19 Google Inc. Search ranking based on natural language query patterns
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US9286290B2 (en) 2014-04-25 2016-03-15 International Business Machines Corporation Producing insight information from tables using natural language processing
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
KR102094934B1 (ko) * 2014-11-19 2020-03-31 한국전자통신연구원 자연어 질의 응답 시스템 및 방법
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
US10545958B2 (en) 2015-05-18 2020-01-28 Microsoft Technology Licensing, Llc Language scaling platform for natural language processing systems
US9606990B2 (en) 2015-08-04 2017-03-28 International Business Machines Corporation Cognitive system with ingestion of natural language documents with embedded code
KR20170122505A (ko) 2016-04-27 2017-11-06 삼성전자주식회사 부가 정보를 제공하는 단말 장치 및 제공 방법
US10042846B2 (en) * 2016-04-28 2018-08-07 International Business Machines Corporation Cross-lingual information extraction program
US11449744B2 (en) 2016-06-23 2022-09-20 Microsoft Technology Licensing, Llc End-to-end memory networks for contextual language understanding
US10366163B2 (en) * 2016-09-07 2019-07-30 Microsoft Technology Licensing, Llc Knowledge-guided structural attention processing
CN109960812B (zh) 2017-12-23 2021-05-04 华为技术有限公司 语言处理方法及设备
US11948582B2 (en) 2019-03-25 2024-04-02 Omilia Natural Language Solutions Ltd. Systems and methods for speaker verification
US11200415B2 (en) * 2019-08-20 2021-12-14 International Business Machines Corporation Document analysis technique for understanding information
CA3156718A1 (en) * 2019-10-04 2021-04-08 Omilia Natural Language Solutions Ltd. UNSUPERVISED INDUCTION OF USER INTENT FROM CORPUS OF CONVERSATIONAL CUSTOMER SERVICES
US11126793B2 (en) 2019-10-04 2021-09-21 Omilia Natural Language Solutions Ltd. Unsupervised induction of user intents from conversational customer service corpora
CN113627171A (zh) * 2021-07-14 2021-11-09 内蒙古师范大学 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404295A (en) 1990-08-16 1995-04-04 Katz; Boris Method and apparatus for utilizing annotations to facilitate computer retrieval of database material
US5418889A (en) 1991-12-02 1995-05-23 Ricoh Company, Ltd. System for generating knowledge base in which sets of common causal relation knowledge are generated
US5576954A (en) 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5799268A (en) 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
US5794050A (en) 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US5724571A (en) 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
EP0856175A4 (en) 1995-08-16 2000-05-24 Univ Syracuse SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON
US6076088A (en) 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5966686A (en) 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
US6056428A (en) 1996-11-12 2000-05-02 Invention Machine Corporation Computer based system for imaging and analyzing an engineering object system and indicating values of specific design changes
US6202043B1 (en) 1996-11-12 2001-03-13 Invention Machine Corporation Computer based system for imaging and analyzing a process system and indicating values of specific design changes
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6055528A (en) * 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval
US6185592B1 (en) 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
EP0962873A1 (en) 1998-06-02 1999-12-08 International Business Machines Corporation Processing of textual information and automated apprehension of information
US6167370A (en) 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6381598B1 (en) 1998-12-22 2002-04-30 Xerox Corporation System for providing cross-lingual information retrieval
CN1176432C (zh) * 1999-07-28 2004-11-17 国际商业机器公司 提供本国语言查询服务的方法和系统
US6823325B1 (en) 1999-11-23 2004-11-23 Trevor B. Davies Methods and apparatus for storing and retrieving knowledge
US20010021934A1 (en) * 2000-03-08 2001-09-13 Takeshi Yokoi Processing device for searching information in one language using search query in another language, and recording medium and method thereof
US20020010574A1 (en) 2000-04-20 2002-01-24 Valery Tsourikov Natural language processing and query driven information retrieval
US7962326B2 (en) 2000-04-20 2011-06-14 Invention Machine Corporation Semantic answering system and method
US20040006560A1 (en) * 2000-05-01 2004-01-08 Ning-Ping Chan Method and system for translingual translation of query and search and retrieval of multilingual information on the web
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US7251781B2 (en) 2001-07-31 2007-07-31 Invention Machine Corporation Computer based summarization of natural language documents
US9009590B2 (en) 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US7146358B1 (en) * 2001-08-28 2006-12-05 Google Inc. Systems and methods for using anchor text as parallel corpora for cross-language information retrieval
US6754654B1 (en) 2001-10-01 2004-06-22 Trilogy Development Group, Inc. System and method for extracting knowledge from documents
US7260570B2 (en) * 2002-02-01 2007-08-21 International Business Machines Corporation Retrieving matching documents by queries in any national language
JP2003288360A (ja) * 2002-03-28 2003-10-10 Toshiba Corp 言語横断情報検索装置及び方法
US7536368B2 (en) 2003-11-26 2009-05-19 Invention Machine Corporation Method for problem formulation and for obtaining solutions from a database
US20050131874A1 (en) 2003-12-15 2005-06-16 Mikhail Verbitsky Method and system for obtaining solutions to contradictional problems from a semantically indexed database

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011065617A1 (ko) * 2009-11-27 2011-06-03 한국과학기술정보연구원 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
KR101480837B1 (ko) * 2014-10-27 2015-01-13 국방과학연구소 링크 구조 기반의 교차 언어간의 비정의 개체 추출 및 연결 방법

Also Published As

Publication number Publication date
EP1941405A2 (en) 2008-07-09
WO2007051109A3 (en) 2007-06-14
US20070094006A1 (en) 2007-04-26
US7672831B2 (en) 2010-03-02
WO2007051109A2 (en) 2007-05-03

Similar Documents

Publication Publication Date Title
US7672831B2 (en) System and method for cross-language knowledge searching
Dimitrakis et al. A survey on question answering systems over linked data and documents
Levow et al. Dictionary-based techniques for cross-language information retrieval
Alwaneen et al. Arabic question answering system: a survey
Andrenucci et al. Automated question answering: Review of the main approaches
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
AlAgha et al. AR2SPARQL: an arabic natural language interface for the semantic web
Vo et al. Open information extraction
Kumar et al. A Comparative Analysis of Pre-Processing Time in Summary of Hindi Language using Stanza and Spacy
Kuo et al. Learning transliteration lexicons from the web
Kaur et al. Natural language processing interface for synonym
Hosseini Pozveh et al. FNLP‐ONT: A feasible ontology for improving NLP tasks in Persian
AbuTaha et al. An ontology-based arabic question answering system
Alkım et al. Machine translation infrastructure for Turkic languages (MT-Turk)
Benajiba et al. Arabic question answering
Rahat et al. A recursive algorithm for open information extraction from Persian texts
Boiński et al. Nlp questions answering using dbpedia and yago
Zuhori et al. Ontological knowledge extraction from natural language text
Belyaev et al. Solution of the answer formation problem in the question-answering system in Russian
Bindu et al. Design and development of a named entity based question answering system for Malayalam language
Singh Interfaces to query relational databases in natural language
Soudani et al. MOSSA: a morpho-semantic knowledge extraction system for Arabic information retrieval
Rudrappa et al. HiTEK Pre-processing for Speech and Text: NLP
Gondal et al. No Sql-Not Obligatory Sql (Natural Language To Sql Conversion)
Vileiniškis et al. An approach for Semantic search over Lithuanian news website corpus

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E601 Decision to refuse application