KR101139903B1 - 자연어 문서들에서 전체 부분 관계들을 인식하는 시만틱 프로세서 - Google Patents
자연어 문서들에서 전체 부분 관계들을 인식하는 시만틱 프로세서 Download PDFInfo
- Publication number
- KR101139903B1 KR101139903B1 KR1020097020885A KR20097020885A KR101139903B1 KR 101139903 B1 KR101139903 B1 KR 101139903B1 KR 1020097020885 A KR1020097020885 A KR 1020097020885A KR 20097020885 A KR20097020885 A KR 20097020885A KR 101139903 B1 KR101139903 B1 KR 101139903B1
- Authority
- KR
- South Korea
- Prior art keywords
- esao
- text
- full
- relationship
- sets
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
적어도 하나의 자연어로 된 전자 문서 또는 디지털 문서에서 전체-부분 관계들을 자동으로 인식하는 시만틱 프로세서 및 방법은, 텍스트 내의 하나 또는 그 이상의 확장된 주어-동작-목적어(eSAO) 세트들을 인식하고(각각의 eSAO 세트는 하나 또는 그 이상의 eSAO 컴포넌트들을 가짐), 전체-부분 관계 패턴들에 대하여 하나 또는 그 이상의 eSAO 세트들을 매칭시키며, 상기 매칭에 근거하여 하나 또는 그 이상의 eSAO 전체-부분 관계들을 생성하는데, 상기 eSAO 전체-부분 관계는 전체 eSAO 및 부분 eSAO를 포함한다.
자연어 문서, 시만틱 프로세서, eSAO
Description
본 출원은 전자 또는 디지털 형태의 문서들로부터 자동 지식 인식 및 추출을 위한 시스템들 및 방법들에 관한 것이다. 이 시스템들 및 방법들은 목적어들/개념들 및 외부 세계(주어 도메인)의 사실들 사이의 전체-부분 시만틱 관계들을 반영한다.
다음의 미국 특허 문서들은 본 출원과 관련된 기술의 설명을 제공한다:
Ito 명의로 1995년 5월에 등록된 미국 특허 5,418,889호(이하 Ito); Hitach 명의로 1997년 12월에 등록된 미국 특허 5,696,916호(이하 Hitachi); Liddy 등의 명의로 2000년 2월에 등록된 미국 특허 6,026,388호(이하 Liddy); Boguraev 등의 명의로 2001년 2월에 등록된 미국 특허 6,185,592호(이하 Boguraev 1); Boguraev 명의로 2001년 4월에 등록된 미국 특허 6,212,494호(이하 Bogureav 2); Paik 등의 명의로 2001년 7월에 등록된 미국 특허 6,263,335호(이하 Paik); Kim 등의 명의로 2004년 6월에 등록된 미국 특허 6,754,654호(이하 Kim); Davies 등의 명의로 2004년 11월에 등록된 미국 특허 6,823,325호(이하 Davies); 및 Binnig 등의 명의로 2005년 3월에 등록된 미국 특허 6,871,199호(이하 Binnig).
지식 베이스들 및 지식 엔지니어링은 현대의 정보 시스템들 및 대응되는 기술들의 핵심 컴포넌트들이다. 지식 엔지니어링은 전통적으로, 서로 다른 지식 도메인들에서의 전문가들로부터 얻어지는 지식의 일반화에 기반을 두었다. 그러나, 분석의 결과, 이러한 접근법은 적절한 실생활(산업상) 어플리케이션들을 생성하는 데에는 사용될 수 없다. 두 가지의 질문이 제기된다: 첫째, 이러한 지식의 가장 신뢰성 있고 효율적인 소스는 무엇인가와, 둘째, 이러한 지식이 어떻게 인식되고, 추출된 후, 공식화될 것인가이다. 분석의 결과는, 글로벌 컴퓨팅의 시대인 현재에는, 가장 신뢰성 있는 지식의 소스는 워드(word)의 광의의 의미에서의 텍스트이다. 즉, 자연어로 된 문서들(책들, 기사들, 특허들, 보고서들 등)의 세트로서의 텍스트이다. 따라서, 상기 두 번째 질문의 관점에서 지식 엔지니어링의 기본 전제들은 다음과 같다:
1. 텍스트는 지식 표현의 이상적으로 자연스럽고 지적인 모델이다.
2. 텍스트 내에서는 모든 것을 발견할 수 있다
상기 두 번째 전제는 과도하게 단언적인 것처럼 보이지만, 매우 많은 경우에 있어서 상기 텍스트 범주를 증가시키는 경향이 있다. 지식의 어떠한 종류들이 텍스트로부터 얻어질 수 있으며, 자동이란 무엇인가? 몇몇 기존의 방법들은 엄격한 구조를 가지고 수동으로 컴파일 된 데이터베이스들, 또는 엄격히 정의된 필드들을 갖는 텍스트들에 주안점을 둔다. 일반적으로 텍스트의 피상적인 언어적 분석이 수행된다. Kim은 고정된 구조를 갖는 텍스트(주로 이메일들)의 처리를 기재한다. Kim의 프로세스는 소스 문서들의 이전에 알려진 분야들로부터 대응되는 정보를 추출하고, 데이터베이스(DB)의 미리 정의된 필드들에 그것을 배치한다. 상기 DB는 조직의 구조를 반영하는데, 이러한 DB는 예를 들어, 조직 내에서의 이름 및 직책의 필드들을 갖는다. Kim에 기재된 언어적 처리는 소위 필터들에 따라, 문서들로부터 핵심 용어들을 추출하기 위하여만 사용된다.
Davies는 동사들로부터 명사들을 구별하고, "how," "why," "what," 및 "what is" 관계들에 따라 미리 정의되고 구조화된 데이터베이스에서 강력하게 정의된 검색을 이러한 방식으로 수행하기 위하여, 텍스트의 어휘적(lexical) 분석 및 문법적(grammatical) 분석의 실행을 기재한다.
Binnig는 또한, 프랙탈(fractal) 계층적 네트워크의 형태로 된 미리 정의된 데이터베이스(즉, 지식 데이터베이스)의 사용을 기재한다. 이것은 입력 문자열로부터 자동적으로 정보를 확장하기 위하여 외부 세계(지식 도메인)의 지식을 반영한다. 초기에 상기 입력 문자열(예를 들어, 문장의 부분 또는 문장 전체 등)은 시만틱(semantic) 프로세서에 의하여 처리된다. 상기 시만틱 프로세서는 입력 네트워크를 생성하기 위하여, 신택틱(syntactic) 파싱 및 문법적 파싱과 변환을 수행한다. 그 후, 이러한 네트워크는 상기 입력 정보를 확장하기 위하여 상기 지식 데이터베이스에 포함(immerse)된다. 상기 입력 정보는 객체, 그 관계들 및 속성들과 관련된 외부 세계의 모델을 사용함에 의한, 기록 및 추후 확장의 몇몇 종류이다.
Boguraev 1은 깊은 텍스트 분석의 수행을 기재하는데, 텍스트 세그먼트들에 대하여, 가장 중요한 명사 그룹들이, 가중치가 적용된 시만틱 역할들에서 그들의 사용 빈도에 기초하여 표시된다.
상기 언급된 모든 케이스들은 개념들에 관한 특정 지식에 관련된다. 이것은 텍스트로부터 추출될 수 있는 지식의 엔트리 레벨이다.
Boguraev 2는 기술 분야들에서의 핵심 용어들의 카탈로그를 생성하고, 기술적 기능들(동사-목적어)의 행위자(solver)를 결정하기 위하여, 컴퓨터가 매개하는 언어적 분석의 사용을 기재한다.
Hitachi는 높고-낮은 관계들을 갖는 미리 정의된 개념 사전을 사용하는 시스템을 기재한다. 즉, 개념들 사이의 관계들 및 부분-전체 관계들이다.
Liddy는 정보 검색 시스템에서 사용자 쿼리 확장을 위한 유사한 기술을 사용한다.
Ito는 캐주얼(casual) 모델 베이스 및 디바이스 모델 베이스를 포함하는 지식 베이스의 사용을 기재한다. 상기 디바이스 모델 베이스는 상기 목적 머신의 디바이스들의 계층을 설명하는 디바이스 지식의 세트들을 갖는다. 상기 캐주얼 모델 베이스는 상기 디바이스 모델 베이스의 기초에서 형성되고, 상기 목적 머신 내의 오류 이벤트들의 우연한 관계들의 세트들을 갖는다. 따라서, 상기 디바이스의 각각의 요소 내에서 가능한 실패의 원인은 상기 디바이스의 서로 다른 요소들과 관련된 구조적 연결들에 관한 정보에 기초하여 예측된다. 일반적으로, 이것들은 가장 " 연결성이 높은" 요소들로서, 상기 원인으로서 결정된다.
Paik은 도메인에 독립적이며 자신의 주어 지식 베이스를 자동으로 생성한다. 상기 시스템은 그들 사이에서 개념들(사람, 장소, 사물 또는 조식과 같이 명명된 실체 또는 아이디어) 및 관계들을 인식한다. 이러한 관계들은 개념-관계-개념 트리플들의 생성을 허용한다. 따라서, Paik에서 인식된 상기 지식은 다음으로 중요한 지식 레벨-사실들(주어-동작-목적어)과 가깝다. 그렇지만, 그것들은 아직 이러한 중요한 시만틱 관계들을 전체-부분 관계들로 인식하기에 적합한 사실들이 아니다.
사실, 상기 접근법들의 어떤 것도 목적어들/개념들 및 외부 세계(주어 도메인)의 사실들 사이의 전체-부분 시만틱 관계들을 결정하기 위하여, 전자 문서들 또는 디지털 정보 내의 텍스트를 처리하는 것을 개시하거나 시사하지 않는다.
본 발명의 측면들에 따라서, 자연어 문서들 내의 전체-부분 관계들을 자동으로 인식하기 위한 방법이 제공된다.
상기 방법은, 적어도 하나의 자연어 문서로부터 텍스트를 제공하는 단계; 상기 텍스트에서 하나 또는 그 이상의 eSAO(확장된 주어-동작-목적어) 세트들을 인식하는 단계로서, 각각의 eSAO는 하나 또는 그 이상의 eSAO 컴포넌트들을 갖는 단계; 상기 하나 또는 그 이상의 eSAO 세트들을 전체-부분 관계 패턴들에 대하여 매칭시키는 단계; 및 상기 매칭에 기초하여 하나 또는 그 이상의 eSAO 전체-부분 관계들을 생성하는 단계로서, 상기 eSAO 전체-부분 관계는 전체 eSAO 및 부분 eSAO로 이루어지는 단계를 포함한다.
상기 하나 또는 그 이상의 eSAO 컴포넌트들은, 주어들, 목적어들, 동작들, 형용사들, 전치사들, 간접 목적어들 및 부사어들로 이루어진 그룹에서 하나 또는 그 이상일 수 있다.
상기 전체 eSAO는 하나 또는 그 이상의 eSAO 컴포넌트들 또는 상기 하나 또는 그 이상의 eSAO 세트들의 단일의 eSAO 컴포넌트의 일부를 포함하고; 상기 부분 eSAO는 하나 또는 그 이상의 eSAO 컴포넌트들 또는 상기 하나 또는 그 이상의 eSAO 세트들의 단일의 eSAO 컴포넌트의 일부를 포함한다.
상기 eSAO 전체-부분 관계들은 상기 전체 eSAO를 상기 부분 eSAO의 eSAO 컴포넌트들과 연관시키는 순차적 연산자를 포함하는데, 상기 연산자는 하나 또는 그 이상의 어휘적, 문법적 및 시만틱 언어 지시자를 포함한다.
상기 방법은 상기 텍스트의 태그된 부분들을 생성하기 위하여, 부분-음성(parts-of-speech) 태그들을 상기 텍스트의 적어도 일부에 적용하는 단계; 및 상기 텍스트의 파싱되고 태그된 부분들을 생성하기 위하여, 상기 텍스트의 태그된 부분들을 파싱하는 단계를 더 포함하는데, 상기 텍스트에서 상기 eSAO 세트들을 인식하는 단계는 상기 텍스트의 파싱되고 태그된 부분들에 대하여 수행된다.
상기 부분-음성 태그들 적용하는 단계는, 상기 텍스트의 프리포맷된(preformatted) 부분들에 대하여 수행되고, 이에 따라 상기 텍스트의 프리포맷된 부분은 비자연어 심볼들이 제거된 텍스트를 포함한다.
상기 하나 또는 그 이상의 eSAO 세트들을 전체-부분 관계 패턴들에 대하여 매칭시키는 단계는 단일의 eSAO 세트를 매칭시키는 단계를 포함하고; 상기 매칭에 기초하여 하나 또는 그 이상의 eSAO 전체-부분 관계들을 생성하는 단계는 단일의 eSAO 전체-부분 관계를 생성하는 단계를 포함한다.
상기 하나 또는 그 이상의 eSAO 세트들을 전체-부분 관계 패턴들에 대하여 매칭시키는 단계는 한 쌍의 eSAO 세트를 매칭시키는 단계를 포함하고; 상기 매칭에 기초하여 하나 또는 그 이상의 eSAO 전체-부분 관계들을 생성하는 단계는 상기 한 쌍의 eSAO 세트의 매칭에 기초하여 단일의 eSAO 전체-부분 관계를 생성하는 단계를 포함한다.
상기 하나 또는 그 이상의 eSAO 세트들을 전체-부분 관계 패턴들에 대하여 매칭시키는 단계는, 텍스트 문서들의 코퍼스에서 eSAO 세트들을 인식하는 단계; 문장들의 코퍼스를 생성하는 단계로서, 각각의 문장은 적어도 하나의 인식된 eSAO 세트들을 포함하는 단계; 상기 문장들에서 전체-부분 관계들의 특정 케이스들을 인식하는 단계; eSAO 전체-부분 패턴들에서 전체-부분 관계들의 상기 특정 케이스들을 생성하는 단계; 및 상기 전체-부분 패턴 데이터베이스에서 상기 eSAO 전체 부분 패턴들을 저장하는 단계를 포함하는 방법에 의하여 생성되는 전체-부분 패턴 데이터베이스에 접근하는 단계를 포함한다.
상기 텍스트에서 하나 또는 그 이상의 eSAO를 인식하는 단계는, eSAO 컴포넌트들을 정의하는 데이터베이스를 갖는 언어 지식 베이스에 접근하는 단계를 포함한다.
상기 텍스트에서 하나 또는 그 이상의 eSAO를 인식하는 단계는, 상기 텍스트의 하나 또는 그 이상의 문장들에서, 하나 또는 그 이상의 주어들, 목적어들, 동작들, 형용사들, 전치사들, 간접 목적어들 및 부사어들을 인식하는 단계를 포함한다.
본 발명의 또 다른 측면에 따르면, 자연어 문서들에서 전체-부분 관계들을 자동으로 인식함에 의하여 전체-부분 지식 베이스를 생성하는 방법이 제공된다. 상기 방법은, 적어도 하나의 자연어 문서로부터 텍스트를 제공하는 단계; 상기 텍스트에서 하나 또는 그 이상의 eSAO(확장된 주어-동작-목적어) 세트들을 인식하는 단계로서, 각각의 eSAO 세트는 하나 또는 그 이상의 eSAO 컴포넌트들을 갖는 방법; 상기 하나 또는 그 이상의 eSAO 세트들을 전체-부분 관계 패턴들에 매칭시키는 단계; 상기 매칭에 기초하여 하나 또는 그 이상의 eSAO 전체-부분 관계를 생성하는 단계로서, 상기 eSAO 전체-부분 관계는 전체 eSAO 및 부분 eSAO를 포함하는 단계; 및 상기 하나 또는 그 이상의 eSAO 전체-부분 관계들을 상기 전체-부분 지식 베이스에 저장하는 단계를 포함한다.
본 발명의 또 다른 측면에 따르면, 자연어 문서들에서 전체-부분 관계들을 자동으로 인식하는 방법을 수행하는 컴퓨터로 실행 가능한 명령어들을 갖는 컴퓨터로 읽을 수 있는 매체를 포함하는 컴퓨터 프로그램 제품이 제공된다. 상기 방법은, 적어도 하나의 자연어 문서로부터 텍스트를 제공하는 단계; 상기 텍스트에서 하나 또는 그 이상의 eSAO(확장된 주어-동작-목적어) 세트들을 인식하는 단계로서, 각각의 eSAO는 하나 또는 그 이상의 eSAO 컴포넌트들을 갖는 단계; 상기 하나 또는 그 이상의 eSAO 세트들을 전체-부분 관계 패턴들에 대하여 매칭시키는 단계; 및 상기 매칭에 기초하여 하나 또는 그 이상의 eSAO 전체-부분 관계들을 생성하는 단계로서, 상기 eSAO 전체-부분 관계는 전체 eSAO 및 부분 eSAO로 이루어지는 단계를 포함한다.
상기 방법은, 상기 하나 또는 그 이상의 eSAO 전체-부분 관계들을 전체-부분 지식 베이스에 저장하는 단계를 더 포함한다.
본 발명의 또 다른 측면에 따르면, 전자 또는 디지털 형태의 텍스트에서 전체-부분 관계들을 자동으로 인식하는 시만틱 프로세서가 제공되는데, 상기 시만틱 프로세서는 언어 지식 베이스 및 시만틱 분석기를 포함한다. 상기 시만틱 분석기는, 상기 텍스트를 기초로 하나 또는 그 이상의 eSAO 세트들을 생성하는 eSAO(확장된 주어-동작-목적어) 인식기로서, 상기 eSAO 세트들은 상기 언어 지식 베이스 내에 저장된 eSAO 정의들에 기초하는, eSAO 인식기; 및 상기 하나 또는 그 이상의 eSAO 세트들을 상기 언어 지식 베이스 내에 저장된 알려진 전체-부분 관계 패턴과 매칭시키고, 상기 매칭을 기초로 하나 또는 그 이상의 eSAO 전체-부분 관계들을 생성하는 전체-부분 인식기를 포함한다.
상기 시만틱 프로세서는 상기 시만틱 분석기를 포함하는 언어 분석기를 포함한다. 상기 언어 분석기는, 음성 태그들의 부분을 상기 텍스트의 적어도 일부에 적용하도록 구성된 부분-음성 태거(part-of-speech tagger); 및 상기 부분-음성 태거에 의하여 태그된 상기 텍스트를 파싱하고 상기 파싱되고 태그된 텍스트를 상기 eSAO 인식기에 제공하도록 구성된 파서를 포함한다.
상기 시만틱 프로세서는, 전자 또는 디지털 포맷으로 된 텍스트를 수신하고, 상기 언어 지식 베이스에 저장된 데이터에 기초하여, 상기 부분-음성 태거로의 입력을 위한 프리포맷된 텍스트를 생성하도록 구성된 프리포맷기; 및 상기 언어 분석기에 의하여 생성된 하나 또는 그 이상의 eSAO 전체-부분 관계들로부터 전체-부분 지식 베이스를 생성하도록 구성된 지식 베이스 생성기를 더 포함한다.
상기 프리포맷기는, 자연어 텍스트의 페일(pail)을 형성하지 않는 상기 텍스트의 디지털 또는 전자 표현으로 된 심볼들을 제거하는 기능; 상기 텍스트 내의 미스매치들 또는 오류들을 감지하고 정정하는 기능; 및 상기 텍스트를 문장들 및 말들의 구조로 분할하는 기능 중에서 적어도 하나를 수행하도록 구성된다.
상기 시만틱 프로세서는, 알려진 전체-부분 관계 패턴들을 생성하고 저장하도록 구성된 전체-부분 관계 생성기를 더 포함한다. 상기 전체-부분 관계 생성기는, 상기 텍스트 문서들의 코퍼스 내에 설정된 eSAO를 인식하도록 구성된 코퍼스 언어 분석기; 문장들의 코퍼스를 생성하도록 구성된 코퍼스 eSAO 생성기로서, 각각의 문장은 적어도 하나의 상기 인식된 eSAO 세트들을 포함하는, 코퍼스 eSAO 생성기; 상기 문장들에서 전체-부분 관계들의 특정 케이스들을 인식하도록 구성된 관계 인식기; 상기 전체-부분 관계들의 특정 케이스들을 eSAO 전체-부분 패턴들로 일반화하도록 구성된 패턴 생성기; 및 상기 eSAO 전체-부분 패턴들을 전체-부분 패턴 데이터베이스에 저장하도록 구성된 패턴 테스트기를 포함한다.
상기 하나 또는 그 이상의 eSAO 전체-부분 관계들의 각각은 전체 eSAO, 부분 eSAO 및 상기 전체 eSAO를 상기 부분 eSAO에 연관시키는 적어도 하나의 순차적 연산자를 포함한다.
상기 텍스트에 기초한 각각의 eSAO 세트는 eSAO 컴포넌트들을 포함하고, 상기 전체 eSAO는 하나 또는 그 이상의 eSAO 컴포넌트들을 포함하며, 상기 부분 eSAO는 상기 전체 eSAO의 하나 또는 그 이상의 eSAO 컴포넌트들과 다른 하나 또는 그 이상의 eSAO 컴포넌트들을 포함한다.
상기 eSAO 컴포넌트들은 주어들, 목적어들, 동작들, 형용사들, 전치사들, 간접 목적어들 및 부사어들로 이루어진 그룹에서 하나 또는 그 이상의 요소를 포함한다.
상기 전체-부분 인식기는 단일의 eSAO 전체-부분 관계를 생성하기 위하여, 단일의 eSAO 세트를 알려진 전체-부분 관계 패턴에 매칭시키도록 더 구성될 수 있다.
상기 전체-부분 인식기는 단일의 eSAO 전체-부분 관계를 형성하기 위하여, 한 쌍의 eSAO 세트를 알려진 전체-부분 관계 패턴에 매칭시키도록 더 구성될 수 있다.
제1, 제2 등의 용어는 다양한 요소들을 설명하기 위하여 사용될 수 있지만, 이러한 요소들은 이러한 용어들에 의하여 제한되지 않는다는 점은 이해되어야 할 것이다. 이러한 용어들은 서로 다른 요소들을 구별하기 위하여 사용되는 것이고, 상기 요소들의 필요적 순서를 의미하는 것은 아니다. 예를 들어, 제1 요소는 제2 요소로 명명될 수 있고, 마찬가지로, 제2 요소는 제1 요소로 명명될 수 있는데, 이는 본 발명의 범주를 벗어나지 않는다. 여기서 사용된 바와 같이, "및/또는"은 상기 관련된 항목들의 하나 또는 그 이상의 모든 조합을 포함한다.
어떤 요소가 다른 요소들에 대하여 "그 상에(on)"로 표시되거나, "연결된(connected)" 또는 "결합(coupled)"로 표시될 때에는, 그것은 직접 상기 다른 요소 상에 있거나, 상기 다른 요소에 연결되거나 결합되거나, 매개 요소들이 존재할 수 있다는 점은 이해될 수 있을 것이다. 반면에, 어떤 요소가 직접 다른 요소의 상에 있거나, 상기 다른 요소에 직접 연결되거나 결합된다고 언급될 때에는, 매개 요소들이 존재하지 않는 것이다. 요소들 사이의 관계를 설명하기 위하여 사용되는 다른 언어들은 동일한 방식(예를 들어, "사이에" 대 "직접 상이에", "근처에" 대 "직접 근처에" 등)으로 해석되어야 한다
여기에서 사용된 용어는 특정 실시예들을 설명하기 위한 목적이며, 본 발명을 한정하기 위하여 의도된 것이 아니다. 여기서 사용된 바와 같이, 단수인 "a"m "an" 및 "the"는, 문장에서 명확하게 반대로 언급되지 않는 한, 복수 또한 포함하도록 의도되어 있다. "포함한다", "포함하는" 등의 용어가 사용되면, 기술된 특징들, 단계들, 동작들, 요소들 및/또는 컴포넌트들이 존재함을 의미하지만, 추가적인 하나 이상의 다른 특징들, 단계들, 동작들, 요소들, 컴포넌트들 및/또는 그들의 그룹들의 존재 또는 추가를 배제하는 것은 아니다.
다양한 실시예들에 있어서, 목적어들/개념들 및 사실들 사이의 "전체-부분" 시만틱 관계들을 반영하는 매우 중요한 지식의 전자적 또는 디지털 형태의 문서들로부터 자동으로 인식하고 추출하는 시스템 및 방법이 제공된다. 예를 들면, 목적어들/개념들 사이의 전체-부분 시만틱 관계들은 어떤 기술적 디바이스가 어떤 컴포넌트들을 포함하는가를 보여준다. 또한, 사실들 간의 전체-부분 시만틱 관계들은, 예를 들어, 어떤 기술적 프로세스가 포함하는 동작들과 상기 동작들의 순서를 보여준다.
본 발명의 개시의 측면들에 따라, SAO들 사이에서 시만틱 관계들을 감지할 뿐인 이전의 접근법들과는 달리, 확장된 SAO들(eSAO들)이 사용된다. 바람직한 실시예에 있어서, eSAO들은 7개의 컴포넌트들을 포함하고, 다시, 적어도 하나의 eSAO 컴포넌트가 정의된다. 상기 추가적인 컴포넌트들은 상당한 분석의 깊이 및 품질을 제공한다. 다른 실시예들에 있어서, eSAO들은 추가적인 컴포넌트들을 포함하도록 확장될 수 있다. 본 문서에 있어서, "eSAO" 및 "eSAO 세트"라는 용어들이 번갈아 사용되는데, 이 두 용어들은 eSAO 컴포넌트들의 모음을 의미한다.
바람직한 실시예에 있어서, 상기 eSAO 컴포넌트들은 다음을 포함한다:
1. 주어(S)는 목적어(O)에 대하여 동작(A)를 수행한다;
2. 동작(A)은 목적어(O)에 대하여 주어(S)에 의하여 수행된다;
3. 목적어(O)는 동작(A)과 함께, 주어(S)에 의하여 수행된다;
4. 형용사(Adj)는 주어(S)나, 빈 목적어(O)를 갖는 eSAO 내에서 상기 주어를 뒤따르는 동작(A)을 묘사한다; (예: "상기 발명은 효율적이다(The invention is efficient)" 또는 "상기 물은 뜨거워진다(The water becomes hot)")
5. 전치사(Prep)는 간접 목적어(10)를 지배한다; (예: "상기 램프는 상기 테이블 상에 놓여있다(The lamp is placed on the table)" 또는 "상기 디바이스는 초음파에 의하여 마찰을 감소시킨다(The device reduces friction by ultrasound)")
6. 간접 목적어(IO)는 대개, 전치사와 함께 동작(A)을 묘사하는 명사구에 의하여 표현되며, 부사 수식어(adverbial modifier)가 된다; (예: "상기 램프는 상기 테이블 상에 놓여있다(The lamp is placed on the table)" 또는 "상기 디바이스는 초음파에 의하여 마찰을 감소시킨다(The device reduces friction by ultrasound)")
7. 부사(Adv)는 대개, 동작(A)을 수행하는 조건들을 묘사한다. (예를 들어, 상기 프로세스는 느리게 수정된다(The process is slowly modified)" 또는 "상기 운전자는 이러한 방식으로 휠을 돌려서는 아니 된다(The driver must not turn wheel in such a manner)")
eSAO 포맷의 어플리케이션의 예들이 표 1 및 표 2에 보여진다.
입력 문장: | |
탈위 요소 가이드는 원하지 않는 모드들을 완전히 억제한다. (A dephasing element guide completely suppresses unwanted modes.) |
|
출력: | |
주어 | 탈위 요소 가이드 (dephasing element guide) |
동작 | 억제한다 (Suppress) |
목적어 | 원하지 않는 모드들 (unwanted mode) |
전치사 | - |
간접 목적어 | - |
형용사 | - |
부사 | 완전히 (completely) |
입력 문장: | |
상기 x의 최대 값은 상기 란탄족 원소의 이온 반경에 의존한다. (The maximum value of x is dependent on the ionic radius of the lanthanide element.) |
|
출력: | |
주어 | x의 최대 값 (maximum value of x) |
동작 | 이다 (be) |
목적어 | - |
전치사 | 상에서 (on) |
간접 목적어 | 란탄족 원소의 이온 반경 (ionic radius of the lanthanide element) |
형용사 | 의존하는 (dependent) |
부사 | - |
사실들 사이, 즉 eSAO 사이의 시만틱 관계들의 하나의 종류는, "자연어 문서들의 컴퓨터 기반의 요약" 이라는 제목을 가지는 미국 공개 공보 20030130837호에서 설명된 바와 같은 인과관계들이다. 인과관계들의 인식이 또한, 상기 공개 공보에 기재되어 있다. 예를 들어, "오늘 사용자는 '스크린'이라는 단어를 타이핑함으로써 상기 웹으로부터 1만 개의 문서들을 다운로드 할 수 있다(Today the user can download 10,000 papers from the web by typing the word screen)"라는 입력 문자은 다음의 표 3과 같은 eSAO들간의 인과관계로 이어질 것이다.
원인: | |
원인주어 (CauseSubject) | 사용자 (user) |
원인동작 (CauseAction) | 타이핑한다 (type) |
원인목적어 (CauseObject) | 스크린이라는 단어 (word "screen") |
원인전치사 (CausePreposition) | - |
원인간접목적어 (CauseIndirectObject) | - |
원인형용사 (CauseAdjective) | - |
원인부사 (CauseAdverbial) | - |
결과: | |
결과주어 (EffectSubject) | 사용자 (user) |
결과동작 (EffectAction) | 다운로드한다 (download) |
결과목적어 (EffectObject) | 1만 개의 문서들 (10,000 papers) |
결과전치사 (EffectPreposition) | 으로부터 (from) |
결과간접목적어 (EffectIndirectObject) | 웹 (web) |
결과형용사 (EffectAdjective) | - |
결과부사 (EffectAdverbial) | - |
시만틱 프로세싱은 자연어 문서들 내에서 eSAO들로부터, 상기 지식에 존재하는 전체-부분 관계들을 수립하기 위하여 사용된다. 목적어들이 사실들을 구성하는 부분들(완전하거나 완전하지 못하거나 간에)이라고 가정하면, 상기 eSAO 포맷은 여기서 문서 내용의 공식적인 지식 표현을 위한 포맷으로 간주된다.
설명되는 실시예들에 있어서, 전자적 또는 디지털 형태로 된 텍스트 내의 전체-부분 관계들을 인식하기 위한 상기 시만틱 프로세싱은 다음을 포함한다:
상기 텍스트를 프리포맷하는 단계;
언어적 분석을 수행하는 단계; 및
전체-부분 지식 베이스를 생성하는 단계.
본 발명의 측면들에 따른, 전체-부분 시만틱 프로세서(이하 시만틱 프로세서(SP)라고 함)의 실시예는, 도 1을 참조하여 이해될 수 있을 것이다.
상기 시만틱 프로세서(100)는 전체-부분 지식 베이스(50)을 생성하기 위하여 원문 텍스트(10)를 처리한다. 이 실시예에 있어서, 상기 시만틱 프로세서(100)는 프리포맷기(20)(상기 원문 텍스트를 프리포맷하기 위함), 언어 분석기(30)(언어적 분석을 수행하기 위함) 및 지식 베이스 생성기(40)(전체-부분 지식 베이스(50)를 생성하기 위함)을 포함한다. 상기 시만틱 프로세서(100)의 모든 모듈들의 기능은 언어 지식 베이스(60) 내에서 유지될 수 있다. 상기 언어 지식 베이스(60)는 사전들, 선별기들, 통계적 데이터 등과 같은 다양한 데이터베이스들과 언어적 모델들을 인식하기 위한 데이터베이스(명사구 및 동사구, 주어, 목적어, 동작 및 그들의 속성들, 인과 인식 등을 텍스트에서 언어로 분리하여 인식함)를 포함한다. 상기 언어 분석기(30) 및 상기 지식 베이스 생성기(40)는 이하에서 추가적으로 설명된다. 상기 프리포맷기(20)에 의하여 수행되는 텍스트 프리포맷은 바람직하게는, 미국 공개 공보 20030130837호에 설명된 기술들에 따라 수행될 수 있다. 바람직하게는, 상기 텍스트를 프리포맷하는 것은 비자연어 심볼들, 예들 들어 구두점을 상기 텍스트로부터 제거하는 것을 포함한다.
도 2는 상기 언어 분석기(30)을 포함하는 모듈들의 실시예를 도시한다.
상기 언어 분석기(30)는 프리포맷기(20)로부터 프리포맷된 텍스트를 처리하여, 의미론적으로 분석된 텍스트(16)을 생성한다. 상기 프리포맷된 텍스트(12)는 부분-음성 태거(32, part-of-speech tagger)에 의하여 수신된다. 상기 태거는 부분-음성 태그들을 결정하고 상기 프리포맷된 텍스트(12)에 이를 적용한다. 그 다음, 상기 파서(34)는 상기 시만틱 분석기(300)에 의하여 처리를 위하여, 상기 POS(part-of-speech) 태그된 텍스트를 파싱한다. 상기 POS 태거 및 파서(34)에 의하여 수행되는 기능들은 바람직하게는, 미국 공개 공보 20030130837호에 설명된 기술들에 따라 수행된다.
도 3은 상기 시만틱 분석기(300)를 포함하는 모듈들의 일 실시예를 도시한다.
상기 시만틱 분석기(300)는 파싱된 텍스트(14)를 수신하고, 상기 의미론적으로 분석된 텍스트(16)를 생성한다. 상기 시만틱 분석기(300)는 eSAO 인식을 수행하는 eSAO 인식기(310)를 포함한다. eSAO 인식은 바람직하게는, 미국 공개 공보 20020010574호 및 20020116176호에 설명된 기술들에 따라 수행된다. 모든 eSAO 요소들의 인식은 지식 베이스(100)의 일부인, 대응되는 언어적 모델들을 인식함에 의하여 구현될 수 있다. 이러한 모델들은 부분-음성 태그들, 어휘소들(lexemes) 및 신택틱 카테고리들을 사용하는 규칙들을 설명한다. 그 후, 이것들은 한정된 동작들, 한정되지 않은 동작들, 음성 언어의 명사들을 갖는 파싱된 텍스트 eSAO들로부터 추출하기 위하여 사용된다. 동작 추출 규칙의 일 예는 다음과 같다:
<HVZ><BEN><VBN> => (<A>=<VBN>)
이러한 규칙은 "입력 문장이, 부분-음성 태그 단계에서 HVZ, BEN, VBN 태그를 각각 얻는 단어 시퀀스 w1, w2, w3을 포함한다면, 이 시퀀스에서 VBN 태그를 갖는 상기 단어는 동작에 속한다"는 것을 의미한다. 예를 들어, "has _HVZ been_BEN produced_VBN => (A=produce)"이다. 또한, 상기 동작의 태(능동 또는 수동태)는 주어 및 목적어의 추출을 위한 규칙들에서 고려된다.
eSAO들 내에서 또는 그 사이에서의 전체-부분 관계들의 인식은 전체-부분 인식기(320, W-P 인식기)에 의하여 수행된다. 그 후, 상기 W-P 인식기는 상기 의미론적으로 분석된 텍스트(16)을 생성한다. 이 과정의 실시예는 본 발명의 측면에 따라 이하에서 보다 자세히 설명된다.
상기 전체-부분 인식기(320)는 서로 다른 eSAO들 사이에서 뿐만 아니라 단일의 eSAO 내에서, 텍스트 문장들 내의 전체-부분 관계를 감지하기 위한 알고리즘들을 사용한다. 이러한 알고리즘들은 언어적 모델들 또는 패턴들을 생성하도록 카테고리화될 수 있다. 첫째, 상기 패턴들은 상기 사용 환경, 즉, 문장에서 전체-부분 관계들의 존재의 지시자를 설명한다. 둘째, 상기 패턴들은 단일의 eSAO의 어떤 컴포넌트들이 상기 관계의 전체 요소로서 동작하고, 상기 단일의 eSAO 또는 eSAO들의 세트의 어떤 컴포넌트들이 상기 관계의 부분 요소로서 동작하는가에 관한 정보를 설명한다. 전체-부분 지시자들은 분리된 eSAO 컴포넌트들을 나타내고, 언어적 유닛들, 그들의 어휘적 및 문법적 태그들, 시만틱 클래스들 등을 설명한다.
상기 전체-부분 인식기(320)는 바람직하게는, 공통 리스트로부터 상기 패턴들의 하나와 부합되도록 하기 위하여, 모든 eSAO들과, eSAO들의 세트들을 분석한다. 만약, eSAO 또는 eSAO들의 세트가 패턴과 부합되면, 상기 전체-부분 인식기(320)는 전체-부분 관계의 존재를 등록하고, 상기 패턴에 따라서, 상기 eSAO 또는 eSAO들의 세트의 어떤 컴포넌트들이 전체 종류의 시만틱 유닛들이고, 어떤 시만틱 유닛들이 부분 종류의 것인지를 표시한다. 그 후, 이러한 방식으로 표시된 상기 eSAO들 및 eSAO들의 세트들은 지식 베이스 생성기(40)(도 1 참조)로 향한다. 지식 베이스 생성기(40)는 목적어들/개념들의 리스트와, 사실들 사이의 전체-부분 관계를 갖는 사실들의 리스트를 형성하고, 상기 전체-부분 지식 베이스(50)에 상기 리스트들을 저장한다.
이러한 실시예에 따라, 텍스트 내의 전체-부분 관계들을 인식하기 위한 바람직한 패턴들이 이하에서 제시된다. 그러나, 다른 패턴들 또한 다른 실시예들에 따라서는 사용될 수 있을 것이다.
파트 I. 단일의 eSAO 내에서의 전체-부분 관계들의 인식을 위한 패턴들.
패턴 1: "주어/목적어 + 동작" 유형
만약, eSAO가 상기 텍스트 내에서 인식되고, 상기 eSAO가 주어, 동작 및 목적어에 대하여 적어도 세 개의 채워진 필드들을 가진다면 이러한 패턴이 발생된다. 이 실시예에 있어서, 이 패턴에 대하여 두 개의 케이스들이 가능하다. 제1 케이스에서는, 주어는 "부분의(PART-OF)" 센스를 가지고, 상기 목적어는 비어 있지 않으며, 상기 주어를 상기 목적어에 연결하는 동작은 "링크-동사(LINK-VERB)" 센스를 가진다. 제2 케이스에서는, 상기 동작은 동일한 센스를 가지고, 상기 주어는 비어있지 않으며, 상기 목적어는 "부분의" 센스를 가진다. 어떤 케이스에 있어서든, "부분의" 센스를 갖는 eSAO 컴포넌트(주어 또는 목적어)의 어떤 부분은 상기 출력 관계의 전체 컴포넌트로서 인식되고, 컴포넌트들의 지시된 쌍들의 다른 컴포넌트는 상기 부분으로서 인식된다.
이 패턴에서, 상기 "부분의" 주어/목적어 센스는 거기에 "of"라는 단어를 가지지 않는 단어 또는 구문을 표시하고, 다음의 리스트 중의 적어도 하나의 단어와 매칭되는 단어 또는 구문으로 종료되는 비-종료 심볼이다:
"part | component | constituent | element | unit | construct | ingredient | interior | inside" ("of"가 뒤따르고 다른 단어 또는 구문이 추가로 뒤따름). 상기 단어 "of"를 뒤따르는 상기 주어/목적어의 부분은 상기 출력 관계의 "전체" 부분으로 인식된다. 바람직한 실시예에 있어서, 상기 "링크-동사(LINK-VERB)" 센스는 단어들 또는 구들 "be | present | represent" 와는 적어도 매칭된다. 표 4는 상기 제1 케이스에 대한 패턴 1의 일반적인 형태를 보여준다.
주어 | ~의 부분 (PART-OF) | 전체 |
동작 | 링크-동사 | |
목적어 | 비어있지 않음 | 부분 |
전치사 | - | |
간접목적어 | - | |
형용사 | - | |
부사 | - |
예를 들어, "상기 차량의 주요 부분은 운전자의 휠이다(The principal part of the car is the driver's wheel)"라는 입력 문장을 고려한다. 표 5는 상기 문장으로부터 추출된 eSAO를 보여준다:
주어 | 상기 차량의 주요 부분 (principal part of the car) |
동작 | 이다 (be) |
목적어 | 운전자의 휠 (driver's wheel) |
전치사 | - |
간접목적어 | - |
형용사 | - |
부사 | - |
이러한 eSAO는 상기 패턴 1의 조건들을 만족시키기 때문에, 다음의 전체-부분 관계가 얻어진다:
전체 = 차량(car)
부분 = 운전자의 휠(driver's wheel)
표 6은 상기 제2 케이스에 대한 패턴 1의 일반적인 형태를 보여준다.
주어 | 비어있지 않음 | 부분 |
동작 | 링크-동사 | |
목적어 | ~의 부분 (PART-OF) | 전체 |
전치사 | - | |
간접목적어 | - | |
형용사 | - | |
부사 | - |
예를 들어, "운전자의 휠은 상기 차량의 주요 부분을 나타낸다(The driver's wheel represents the principal part of the car)"라는 입력 문장은 표 7에 보여지는 eSAO로서 귀결될 것이다.
주어 | 운전자의 휠 (driver's wheel) |
동작 | 나타낸다 (represent) |
목적어 | 상기 차량의 주요 부분 (principal part of the car) |
전치사 | - |
간접목적어 | - |
형용사 | - |
부사 | - |
바람직한 실시예에 따른 상기 입력 문장으로부터의 전체-부분 관계는 다음과 같다:
전체 = 차량
부분 = 운전자의 휠
[0071] 패턴 2: "동작(Action)" 유형
[0072] 동작 필드가 "포함한다(COMPRISE)" 센스를 갖거나, "가진다(have)" 또는 "구비한다(include)"와 같은 동사들로 표현되는 경우 패턴 2는 발생된다. 이러한 패턴에서, "포함한다" 동작 센스는 적어도 "comprise | contain | incorporate | consist of"와 같은 단어들 또는 구문들을 지시하는 비-종료 심볼이다. 표 8은 패턴 2의 일반적인 형태를 보여준다.
주어 | 비어있지 않음 | 전체 |
동작 | COMPRISE | have | include | |
목적어 | 비어있지 않음 | 부분 |
전치사 | - | |
간접목적어 | - | |
형용사 | - | |
부사 | - |
동작이 동사 "have"에 의하여 표현되는 경우에, 그것은 상기 원래 문장에서는 "have"의 형태로 제시되어야 한다. 상기 동사 "include"에 의하여 표현되고 원래 문장에서 "include"의 형태로 제시되는 동작은 단수의 주어를 갖는 관련된 eSAO를 가져야 한다.
[0074] 예를 들어, 입력 문장 "상기 내부 연소 엔진 15b는 상기 캠샤프트17a를 가진다(The internal combustion engine 15b contains the camshaft 17a)", "상기 캠샤프트 17a를 가지는 상기 내부 연소 엔진 15b(The internal combustion engine 15b having the camshaft 17a)", " 상기 내부 연소 엔진 15b는 상기 캠샤프트17a를 구비한다(The internal combustion engine 15b includes the camshaft 17a)", "상기 캠샤프트17a를 구비하는 상기 내부 연소 엔진 15b(The internal combustion engine 15b including the camshaft 17a)"는 표 9에 나타낸 바와 같이 대응되는 eSAO들로 각각 귀결된다.
주어 | 내부 연소 엔진 15b (internal combustion engine 15b) |
동작 | contain |have | include | include |
목적어 | 캠샤프트 17a (camshaft 17a) |
전치사 | - |
간접목적어 | - |
형용사 | - |
부사 | - |
모든 이러한 eSAO가 상기 패턴 2의 조건들을 만족시키기 때문에, 다음의 전체-부분 관계가 얻어진다:
전체 = 내부 연소 엔진 15b(internal combustion engine 15b)
부분 = 캠샤프트 17a(camshaft 17a)
패턴 3: "동작+전치사" 유형
이러한 패턴에는 두 가지 종류가 존재한다. 첫 번째 케이스에 있어서, 상기 동작 필드가 "갖추다(EQIUP)" 센스를 가지고, 전치사 필드가 "와 함께(WITH)" 센서를 가질 때 상기 패턴이 발생된다. 이러한 경우에서, 상기 "EQUIP" 동작 센스는 적어도 "equip | provide | supply | instrument"와 같은 단어들 또는 구문들을 표시하는 비-종료 심볼이다. 상기 "WITH" 전치사 센스는 적어도 "with"라는 단어를 표시하는 비-종료 심볼이다. 도 10은 이러한 케이스에 대한 패턴 3의 일반적인 형태를 보여준다.
주어 | - | |
동작 | 갖춘다 (EQUIP) | |
목적어 | 비어있지 않음 | 전체 |
전치사 | ~와 함께 (WITH) | |
간접목적어 | 비어있지 않음 | 부분 |
형용사 | - | |
부사 | - |
예를 들어, "상기 차량은 상기 엔진을 갖춘다(The car is equipped with the engine)"라는 입력 문장은 표 1에 나타낸 eSAO로 귀결된다.
주어 | - |
동작 | 갖춘다 (equip) |
목적어 | 차량 (car) |
전치사 | ~와 함께 (with) |
간접목적어 | 엔진 (engine) |
형용사 | - |
부사 | - |
바람직한 실시예에 있어서, 이러한 입력 문장으로부터 유래하는 상기 전체-부분 관계는 다음과 같다:
전체 = 차량(car)
부분 = 엔진(engine)
상기 제2 케이스에 있어서, 상기 동작 필드가 "둔다(POSITION)" 센서를 가지며 상기 원래 문장 내에서 수동태 동사에 의해 표현되고, 상기 전치사 필드가 "INSIDE" 센스를 가질 때, 패턴 3이 발생된다. 이러한 패턴에서, 상기 "POSITION" 동작 센스는 "equip | provide | supply | instrument"와 같은 단어들 또는 구문들과 적어도 매칭되는 비-종료 심볼이다. 상기 "INSIDE" 전치사 센스는 "inside | within"과 같은 단어들 또는 구문들과 적어도 매칭되는 비-종료 심볼이다. 표 12는 이러한 케이스에 대한 패턴 3의 일반적인 형태를 보여준다.
주어 | - | |
동작 | 둔다 (POSITION) | |
목적어 | 비어있지 않음 | 전체 |
전치사 | ~의 내부에 (INSIDE) | |
간접목적어 | 비어있지 않음 | 부분 |
형용사 | - | |
부사 | - |
예를 들어, "상기 엔진은 상기 차량 내부에 위치한다(The engine is located inside the car)"라는 입력 문장은 표 13에 나타낸 eSAO로 귀결될 것이다.
주어 | - |
동작 | 위치하다 (locate) |
목적어 | 엔진 (engine) |
전치사 | ~의 내부에 (inside) |
간접목적어 | 차량 (car) |
형용사 | - |
부사 | - |
바람직한 실시예에 있어서, 이러한 입력 문장으로부터 유래되는 상기 전체-부분 관계는 다음과 같다:
전체 = 차량(car)
부분 = 엔진(engine)
패턴 4: "명사구(NounPhrase)" 유형
어떤 eSAO의 주어 컴포넌트 또는 목적어 컴포넌트를 나타내는 명사구가 다음과 같은 구조를 포함할 때, 패턴 4가 발생된다:
NGl- CONTAINING |RICH NG2
이러한 패턴에서, NG1 및 NG2는 명사 그룹들을 표시하는 비-종료 심볼들이다; "구비하는(CONTAINING)"은 적어도 "containing | comprising | incorporating"라는 단어들과 적어도 매칭되는 비-종료 심볼이다; "부유한(RICH)"은 적어도 "rich | based | laden | enriched | reduced | fortified"와 같은 단어들을 표시하는 비-종료 심볼이다. 이 케이스에서, NG2는 전체-부분 관계의 전체 컴포넌트로서 인식되고, NG1은 부분 컴포넌트로서 인식된다.
예를 들어, "금을 함유하는 코드는...(Gold-containing cord is...)" 및 "산소가 풍부한 물은...(Oxygen-rich water is...)"과 같은 입력 문장들은 (이 예제는 패턴 설명을 위하여 필요한 문장 부분들만을 포함한다) 패턴 4의 조건들을 만족시키고 따라서, 다음의 전체-부분 관계들이 얻어진다:
전체 = 코드(cord) 전체 = 물(water)
부분 = 금(gold) 부분 = 산소(oxygen)
파트 II. eSAO들의 세트로부터 전체-부분 관계들을 인식하기 위한 패턴들
패턴 5: "동명사구(Gerund phrase)" 유형
패턴 5는 eSAO들 사이에서 전체-부분 관계들의 추출하는 것을 목적으로 한다. 여기서, 하나의 eSAO는 관계의 전체 컴포넌트를 표시하고, 다른 eSAO들은 부분 컴포넌트들을 표시한다. 원래 문장에서 동명사(VBG) 구에 의하여 표현된 동작 필드를 갖는 eSAO의 다음에, 동작 필드가 "포함한다(COMPRISE)" 센스를 가지는 eSAO가 뒤따르고, 그 다음에 ";" 또는 "," 또는 다른 구두점 표시 또는 접속사에 의하여 분리되는 동명사에 의하여 표현되는 하나 또는 그 이상의 eSAO들이 뒤따를 때, 패턴 5가 발생된다. 상기 제1 eSAO는 전체 eSAO로 표시되고, 상기 제3 eSAO로부터 시작되는 다른 eSAO들은 부분 eSAO들로 표시된다. 이상에서 언급된 적어도 세 개의 eSAO들 사이에는, 필요하다면 eSAO의 속성들로서 표시될 수 있는, 이른 바, 속성적(attributive) eSAO이 존재할 수 있다. 이러한 패턴에서, 상기 "COMPRISE" 동작 센스는 "comprise | include | contain | incorporate | consist of"와 같은 단어들 또는 구문들과 적어도 매칭되는 비-종료 심볼이다. 표 14는 속성적 eSAO들을 포함하지 않는 패턴 5의 일반적인 형태를 보여준다.
eSAO-1 | eSAO-2 | {eSAO-i}, i≥3 | |
주어 | - | - | - |
동작 | VBG (-ing 형태) | COMPRISE | VBG (-ing 형태) |
목적어 | - | - | - |
전치사 | - | - | - |
간접목적어 | - | - | - |
형용사 | - | - | - |
부사 | - | - | - |
예를 들어, "데이터 흐름을 생성하는 것은 다음의 단계들을 구비한다: 파일들 및 데이터베이스들로부터 데이터를 추출하기 위하여 하나 또는 그 이상의 소스들을 추가하는 단계; 상기 영업 조건들을 충족하는 변형을 추가하는 단계(Creating a data flow includes the following steps: adding one or more sources to extract data from files and databases; adding the transformations that meet the business requirements)"와 같은 입력 문장으로부터 추출되는 eSAO의 세트는 표 15에 나타난다.
eSAO-1 | eSAO-2 | eSAO-3 | eSAO-4 | eSAO-5 | eSAO-6 | |
주어 | - | - | - | - | - | - |
동작 | 생성한다 (create) |
구비한다 (include) |
더한다 (add) |
추출한다 (extract) |
더한다 (add) |
충족한다 (meet) |
목적어 | 데이터 흐름 (data flow) |
다음 단계 (following step) |
하나 이상의 소스들 (one or more sources) |
데이터 (data) |
변환 (transformations) |
영업 조건들 (business requirements) |
전치사 | - | - | - | ~로부터 (from) |
- | - |
간접목적어 | - | - | - | 파일들 및 데이터베이스들 (files and databases) |
- | - |
형용사 | - | - | - | - | - | - |
부사 | - | - | - | - | - | - |
이러한 모든 eSAO들이 패턴 5의 조건들을 충족하기 때문에, 다음의 전체-부분 관계가 얻어진다:
전체 = eSAO-1
부분 = { eSAO-3 / attr. eSAO-4 , eSAO-5 / attr. eSAO-6 }
패턴 6: "조건절(IF clause)" 유형
원래 문장에서 조건절에 의하여 표현되는 동작 필드를 가지고, 적어도 "if | when"과 같은 접속사들에 의하여 유도되는 eSAO의 다음에, "수행한다(PERFORM)" 센스를 갖는 동작 필드를 갖는 eSAO가 뒤따르고, 그 다음에 ";" 또는 "," 또는 다른 구두점 표시 또는 접속사에 의하여 분리되는 하나 또는 그 이상의 eSAO들이 뒤따를 때, 패턴 6이 발생된다. 상기 제1 eSAO는 전체 eSAO로서 표시되고, 상기 제3 eSAO로부터 시작되는 다른 eSAO들은 부분 eSAO들로 표시된다. 이러한 패턴에서, 상기 "PERFORM" 동작 센스는 "follow | complete | do | perform | take"와 같은 단어들 또는 구문들과 적어도 매칭되는 비-종료 심볼이다. 표 16은 패턴 6의 일반적인 형태를 보여준다.
eSAO-1 | eSAO-2 | {eSAO-i}, i≥3 | |
주어 | - | - | - |
동작 | 조건절 (IF-clause) | PERFORM | 비어있지 않음 |
목적어 | - | - | - |
전치사 | - | - | - |
간접목적어 | - | - | - |
형용사 | - | - | - |
부사 | - | - | - |
예를 들어, "처음에 연장을 생성할 때, 다음의 조치들을 취하라: 연장의 사용을 판매자와 조정하라; 연장 명세서를 기록하라(When initially creating an extension, take the following steps: coordinate the use of extension with the vendor; write an extension specification)"라는 입력 문장으로부터 추출된 eSAO들의 세트는 표 17에 나타난다.
eSAO-1 | eSAO-2 | eSAO-3 | eSAO-4 | |
주어 | - | - | - | - |
동작 | 생성한다 (create) |
취한다 (take) |
조정한다 (coordinate) |
기록한다 (write) |
목적어 | 연장 (extension) |
다음 조치들 (following steps) |
연장의 사용 (use of extension) |
연장 명세서 (extension specification) |
전치사 | - | - | ~와 함께 (with) |
- |
간접목적어 | - | - | 판매자 (vendor) |
- |
형용사 | - | - | - | - |
부사 | 처음에 (initially) |
- | - | - |
이러한 모든 eSAO들은 패턴 6의 조건들을 충족하기 때문에, 다음의 전체-부분 관계가 얻어진다:
전체 = eSAO-1
부분 = { eSAO-3, eSAO-4 }
패턴 7: "부정사구(Infinitive phrase)" 유형
원래 문장에서 파티클 "to" 또는 적어도 구문 "in order to"에 의하여 유도되는 부정사구에 의하여 표현되는 eSAO의 다음에, "수행한다(PERFORM)" 센스를 갖는 동작 필드를 갖는 eSAO가 뒤따르고, 그 다음에 ";" 또는 "," 또는 다른 구두점 표시 또는 접속사에 의하여 분리되는 하나 또는 그 이상의 eSAO들이 뒤따를 때, 패턴 7이 발생된다.
상기 제1 eSAO는 전체 eSAO로서 표시되고, 상기 제3 eSAO로부터 시작되는 다른 eSAO들은 부분 eSAO들로 표시된다. 이러한 패턴에서, 상기 "PERFORM" 동작 센스는 "follow | complete | do | perform | take"와 같은 단어들 또는 구문들과 적어도 매칭되는 비-종료 심볼이다. 표 18은 패턴 7의 일반적인 형태를 보여준다
eSAO-1 | eSAO-2 | {eSAO-i}, i≥3 | |
주어 | - | - | - |
동작 | 부정사구 (Infinitive phrase, TO VB) |
PERFORM | 비어있지 않음 |
목적어 | - | - | - |
전치사 | - | - | - |
간접목적어 | - | - | - |
형용사 | - | - | - |
부사 | - | - | - |
예를 들어, "마이크로소프트 인터넷 익스플로러에서 당신의 여백들을 변경하기 위해서는 다음의 단계들을 따르시오: 상기 파일 메뉴를 클릭하라; 페이지 설정을 선택하라(To change your margins in Microsoft Internet Explorer follow these steps: Click on the File menu; Select Page Setup)"라는 입력 문장으로부터 추출된 eSAO들의 세트는 표 19에 나타난다.
eSAO-1 | eSAO-2 | eSAO-3 | eSAO-4 | |
주어 | - | - | - | - |
동작 | 변경한다 (change) |
따른다 (follow) | 클릭한다 (click) | 선택한다 (select) |
목적어 | 당신의 여백들 (your margins) |
단계들 (steps) | - | 페이지 설정 (Page Setup) |
전치사 | - | - | ~ 상에서 (on) | - |
간접목적어 | - | - | 파일 메뉴 (File menu) |
- |
형용사 | ~ 안에 (in) | - | - | - |
부사 | 마이크로소프트 인터넷 익스플로러 (Microsoft Internet Explorer ) |
- | - | - |
이러한 모든 eSAO들은 패턴 7의 조건들을 충족하기 때문에, 다음의 전체-부분 관계가 얻어진다:
전체 = eSAO-1
부분 = { eSAO-3 , eSAO-4 }
도 4는 여기에 개시된 실시예들에서 사용될 수 있는 관계 모델들을 생성하기 위하여 사용될 수 있는 모듈들을 보여준다.
도 4에 도시된 바와 같이, 텍스트 문서들(170)의 충분히 큰 코퍼스가 상기 모델들 또는 패턴들을 수립하고 형성하기 위하여 바람직하게 사용된다. 상기 코퍼스 언어 분석기(180)는 eSAO들을 인식하기 위하여 상기 코퍼스(170)에 대한 언어 분석을 수행한다. 상기 코퍼스 eSAO 생성기(190)는 적어도 하나의 eSAO(완전 또는 불완전)을 포함하는 문장들의 코퍼스를 생성한다. 상기 관계 인식기(200)는 적어도 하나의 eSAO를 포함하는 문장들에서, 전체-부분 관계들의 몇몇 특정 케이스들을 인식하는 과정을 수행한다. 상기 패턴 생성기(210)는 특정 케이스들을 더욱 일반화된 패턴들로 일반화한다. 상기 패턴 테스트기(220)는 전체-부분 관계들의 존재를 체크하고 승인된 패턴들을 전체-부분 관계 인식을 위한 데이터베이스(230)에 배치한다.
바람직하게는, 상기 관계 인식기(200)의 기능은 전문가들에 의하여 수동으로 수행된다. 예를 들어, 전문가는 eSAO 텍스트 코퍼스로부터 "상기 엔진은 상기 차량의 내부에 위치한다(The engine is located inside the car)"라는 문장을 분석한다. 여기서, 상기 언어 분석기는 부분-음성 태깅, 파싱 및 시만틱 분석을 수행하고, eSAO(표 13을 보라)를 인식하며, 이러한 eSAO의 목적어 및 간접 목적어가 전체-부분 관계를 형성하는 것을 나타내는 특별한 태그들을 부여한다. 상기 간접 목적어는 상기 관계의 전체 컴포넌트이고, 목적어는 상기 부분 컴포넌트이다. 이러한 역할의 배분은 전치사 "inside" 의 센스에 기초하여 가능하게 된다. 그 다음, 이 문장은 상기 패턴 생성기(210)로 입력된다.
상기 패턴 생성기(210)는 분석을 수행하고, 상기 전체-부분 관계들을 패턴들의 레벨로 일반화한다. 상기 패턴 생성기의 기능은 또한, 바람직하게는, 전문가들에 의하여 수동으로 수행된다. 이러한 방식으로, 전문가는 언어 지식 베이스에 포함된 지식뿐만 아니라, 자신의 경험도 고려하게 된다. 이전의 예제들로 돌아가면, 상기 전문가는 전치사 "within"은 전치사 "inside"와 동일한 의미를 가지며, 적어도 situate | contain | position | dispose | fix | install | mount | house"와 같은 동사들은 동사 "locate"와 동일한 의미를 갖는다는 결론에 도달하여야 할 것이다. 따라서, 상기 전문가는 표 12에 나타낸 방식으로 상기 패턴의 표준(prototype)을 등록한다
표준의 패턴들을 사용하는 상기 패턴 테스트기(220)는, eSAO 텍스트 코퍼스 내에서 전체-부분 관계들의 예들을 찾는다. 상기 전문가는 획득된 예들을 분석하고 상기 패턴을 승인한다(일부 수정들이 가해질 수 있음). 그 후, 상기 패턴 테스트기(220)는 전체-부분 인식을 위한 패턴들의 데이터 베이스(230)에 이러한 승인된 패턴을 입력한다.
상기 나타낸 바와 같이, 상기 시만틱 분석기(180) 및 상기 패턴 생성기(210)는 그들의 기능 수행을 위한 언어 지식 베이스에 접근할 수 있다. 또한, 몇몇 실시예들에 있어서는, 상기 패턴들의 데이터 베이스(230)는 도 1 내지 3과 관련하여 상기 설명된 전체-부분 시만틱 프로세스를 지원하기 위하여, 상기 언어 지식 베이스(60) 내에 병합될 수 있다.
본 발명의 측면들에 따른 실시예들은 하나 또는 그 이상의 컴퓨터들, 마이크로프로세서들, 마이크로 컨트롤러들 또는 다른 프로세싱 디바이스들 상에 상주하는 컴퓨터로 실행 가능한 인스트럭션들에 의하여 제공될 수 있다. 상기 시스템 및 방법을 실행하기 위한 상기 컴퓨터로 실행 가능한 인스트럭션들은 상기 프로세싱 디바이스들 내의 메모리 내에 상주할 수도 있고, 플로피 디스크, 하드 디스크, 컴팩트 디스크(CD), 디지털 만능 디스크(DVD), 읽기 전용 메모리(ROM) 또는 다른 저장 매체에 의하여 상기 프로세싱 디바이스들에 제공될 수 있다.
전술한 예제의 상세한 설명 및 바람직한 실시예들은 예시적인 목적으로 제시된 것이다. 그것은 설명된 부분에 본 발명을 한정하려는 의도가 아니며, 단지 당해 업계에서 숙련된 자들로 하여금, 상기 발명이 구현의 특정 용도에 어떻게 적합하게 될 수 있는가를 이해시킬 수 있도록 하기 위한 것이다. 가능한 변경 및 다양화는, 여기에서 설명된 내용을 이해한 당해 업계에서 숙련된 자에게는 자명할 것이다. 예시적인 실시예들의 설명에 있어서, 공차들, 특징 치수들, 특정 동작 조건들, 엔지니어링 명세사항들 등은 한정의 의도로 기재된 것이 아니며, 구현 예들에 따라 다양화되거나 변경될 수 있다. 거기에는 어떠한 한정도 암시되어 있지 않다.
본 개시는 현재의 기술 분야의 수준에 대하여 작성된 것이지만, 상기 기술 분야의 현재 수준에 따른 미래의 진보나 개량도 고려한 것이다. 본 발명의 범주는 문언적으로 또는 적용 가능한 균등론적으로 청구항들에 의하여 정의되는 것에 의하여 의도된 것이다. 또한, 본 개시에서 어떠한 요소, 컴포넌트, 방법 또는 프로세스 단계도, 청구항에 의하여 명백히 언급되어 있는가와 상관없이, 일반 공중에게 헌납하기 위한 의도를 갖지 않는다.
도 1은 본 발명의 측면들에 따른, 상기 시만틱 프로세서의 구조적 및 기능적 고안의 실시예이다.
도 2는 본 발명의 측면들에 따른, 상기 언어 분석기의 구조적 및 기능적 고안의 실시예이다.
도 3은 본 발명의 측면들에 따른, 상기 시만틱 분석기의 구조적 및 기능적 고안의 실시예이다.
도 4는 본 발명의 측면들에 따른, 전체-부분 패턴들의 데이터베이스를 생성하는 주요 고안의 일 실시예이다.
Claims (24)
- 자연어 문서들에서 전체-부분(Whole-Part) 관계들을 자동으로 인식하는 방법에 있어서,적어도 하나의 자연어 문서로부터 텍스트를 제공하는 단계;상기 텍스트에서 하나 또는 그 이상의 eSAO(확장된 주어-동작-목적어) 세트들을 인식하는 단계로서, 각각의 eSAO는 하나 또는 그 이상의 eSAO 컴포넌트들을 갖는 단계;상기 하나 또는 그 이상의 eSAO 세트들을 전체-부분 관계 패턴들에 대하여 매칭시키는 단계; 및상기 매칭에 기초하여 하나 또는 그 이상의 eSAO 전체-부분 관계들을 생성하는 단계로서, 상기 eSAO 전체-부분 관계는 전체 eSAO 및 부분 eSAO로 이루어지는 단계를 포함하는데,상기 전체-부분 관계는 전체를 나타내는 개념에 부분을 나타내는 개념이 포함되어 있는 관계이고,상기 텍스트의 태그된 부분들을 생성하기 위하여, 부분-음성(parts-of-speech) 태그들을 상기 텍스트의 적어도 일부에 적용하는 단계; 및상기 텍스트의 파싱되고 태그된 부분들을 생성하기 위하여, 상기 텍스트의 태그된 부분들을 파싱하는 단계를 더 포함하며,상기 텍스트에서 상기 eSAO 세트들을 인식하는 단계는 상기 텍스트의 파싱되고 태그된 부분들에 대하여 수행되는 방법.
- 제1항에 있어서,상기 하나 또는 그 이상의 eSAO 컴포넌트들은, 주어들, 목적어들, 동작들, 형용사들, 전치사들, 간접 목적어들 및 부사어들로 이루어진 그룹에서 하나 또는 그 이상인 방법.
- 제1항에 있어서,상기 전체 eSAO는 하나 또는 그 이상의 eSAO 컴포넌트들 또는 상기 하나 또는 그 이상의 eSAO 세트들의 단일의 eSAO 컴포넌트의 일부를 포함하고;상기 부분 eSAO는 하나 또는 그 이상의 eSAO 컴포넌트들 또는 상기 하나 또는 그 이상의 eSAO 세트들의 단일의 eSAO 컴포넌트의 일부를 포함하는 방법.
- 제2항에 있어서,상기 eSAO 전체-부분 관계들은 상기 전체 eSAO를 상기 부분 eSAO의 eSAO 컴포넌트들과 연관시키는 순차적 연산자를 포함하는데,상기 연산자는 하나 또는 그 이상의 어휘적, 문법적 및 시만틱 언어 지시자를 포함하는 방법.
- 삭제
- 제1항에 있어서,상기 부분-음성 태그들 적용하는 단계는, 상기 텍스트의 프리포맷된(preformatted) 부분들에 대하여 수행되고, 이에 따라 상기 텍스트의 프리포맷된 부분은 비자연어 심볼들이 제거된 텍스트를 포함하는 방법.
- 제1항에 있어서,상기 하나 또는 그 이상의 eSAO 세트들을 전체-부분 관계 패턴들에 대하여 매칭시키는 단계는 단일의 eSAO 세트를 매칭시키는 단계를 포함하고;상기 매칭에 기초하여 하나 또는 그 이상의 eSAO 전체-부분 관계들을 생성하는 단계는 단일의 eSAO 전체-부분 관계를 생성하는 단계를 포함하는 방법.
- 제1항에 있어서,상기 하나 또는 그 이상의 eSAO 세트들을 전체-부분 관계 패턴들에 대하여 매칭시키는 단계는 한 쌍의 eSAO 세트를 매칭시키는 단계를 포함하고;상기 매칭에 기초하여 하나 또는 그 이상의 eSAO 전체-부분 관계들을 생성하는 단계는 상기 한 쌍의 eSAO 세트의 매칭에 기초하여 단일의 eSAO 전체-부분 관계를 생성하는 단계를 포함하는 방법.
- 제1항에 있어서,상기 하나 또는 그 이상의 eSAO 세트들을 전체-부분 관계 패턴들에 대하여 매칭시키는 단계는,텍스트 문서들의 코퍼스에서 eSAO 세트들을 인식하는 단계;문장들의 코퍼스를 생성하는 단계로서, 각각의 문장은 적어도 하나의 인식된 eSAO 세트들을 포함하는 단계;상기 문장들에서 전체-부분 관계들의 특정 케이스들을 인식하는 단계;eSAO 전체-부분 패턴들에서 전체-부분 관계들의 상기 특정 케이스들을 생성하는 단계; 및전체-부분 패턴 데이터베이스에 상기 eSAO 전체 부분 패턴들을 저장하는 단계를 포함하는 방법에 의하여 생성되는 상기 전체-부분 패턴 데이터베이스에 접근하는 단계를 포함하는 방법.
- 제1항에 있어서,상기 텍스트에서 하나 또는 그 이상의 eSAO를 인식하는 단계는, eSAO 컴포넌트들을 정의하는 데이터베이스를 갖는 언어 지식 베이스에 접근하는 단계를 포함하는 방법.
- 제1항에 있어서,상기 텍스트에서 하나 또는 그 이상의 eSAO를 인식하는 단계는, 상기 텍스트의 하나 또는 그 이상의 문장들에서, 하나 또는 그 이상의 주어들, 목적어들, 동작들, 형용사들, 전치사들, 간접 목적어들 및 부사어들을 인식하는 단계를 포함하는 방법.
- 자연어 문서들에서 전체-부분 관계들을 자동으로 인식함에 의하여 전체-부분 지식 베이스를 생성하는 방법에 있어서,적어도 하나의 자연어 문서로부터 텍스트를 제공하는 단계;상기 텍스트에서 하나 또는 그 이상의 eSAO(확장된 주어-동작-목적어) 세트들을 인식하는 단계로서, 각각의 eSAO 세트는 하나 또는 그 이상의 eSAO 컴포넌트들을 갖는 단계;상기 하나 또는 그 이상의 eSAO 세트들을 전체-부분 관계 패턴들에 매칭시키는 단계;상기 매칭에 기초하여 하나 또는 그 이상의 eSAO 전체-부분 관계를 생성하는 단계로서, 상기 eSAO 전체-부분 관계는 전체 eSAO 및 부분 eSAO를 포함하는 단계; 및상기 하나 또는 그 이상의 eSAO 전체-부분 관계들을 상기 전체-부분 지식 베이스에 저장하는 단계를 포함하는데,상기 전체-부분 관계는 전체를 나타내는 개념에 부분을 나타내는 개념이 포함되어 있는 관계이고,상기 텍스트의 태그된 부분들을 생성하기 위하여, 부분-음성(parts-of-speech) 태그들을 상기 텍스트의 적어도 일부에 적용하는 단계; 및상기 텍스트의 파싱되고 태그된 부분들을 생성하기 위하여, 상기 텍스트의 태그된 부분들을 파싱하는 단계를 더 포함하며,상기 텍스트에서 상기 eSAO 세트들을 인식하는 단계는 상기 텍스트의 파싱되고 태그된 부분들에 대하여 수행되는 방법.
- 자연어 문서들에서 전체-부분 관계들을 자동으로 인식하는 방법을 수행하는 컴퓨터로 실행 가능한 명령어들을 갖는 컴퓨터로 읽을 수 있는 매체를 포함하는 컴퓨터 프로그램 제품에 있어서, 상기 방법은적어도 하나의 자연어 문서로부터 텍스트를 제공하는 단계;상기 텍스트에서 하나 또는 그 이상의 eSAO(확장된 주어-동작-목적어) 세트들을 인식하는 단계로서, 각각의 eSAO는 하나 또는 그 이상의 eSAO 컴포넌트들을 갖는 단계;상기 하나 또는 그 이상의 eSAO 세트들을 전체-부분 관계 패턴들에 대하여 매칭시키는 단계; 및상기 매칭에 기초하여 하나 또는 그 이상의 eSAO 전체-부분 관계들을 생성하는 단계로서, 상기 eSAO 전체-부분 관계는 전체 eSAO 및 부분 eSAO로 이루어지는 단계를 포함하는데,상기 전체-부분 관계는 전체를 나타내는 개념에 부분을 나타내는 개념이 포함되어 있는 관계이고,상기 텍스트의 태그된 부분들을 생성하기 위하여, 부분-음성(parts-of-speech) 태그들을 상기 텍스트의 적어도 일부에 적용하는 단계; 및상기 텍스트의 파싱되고 태그된 부분들을 생성하기 위하여, 상기 텍스트의 태그된 부분들을 파싱하는 단계를 더 포함하며,상기 텍스트에서 상기 eSAO 세트들을 인식하는 단계는 상기 텍스트의 파싱되고 태그된 부분들에 대하여 수행되는 컴퓨터 프로그램 장치.
- 제13항에 있어서, 상기 방법은상기 하나 또는 그 이상의 eSAO 전체-부분 관계들을 전체-부분 지식 베이스에 저장하는 단계를 더 포함하는 컴퓨터 프로그램 장치.
- 전자 또는 디지털 형태의 텍스트에서 전체-부분 관계들을 자동으로 인식하는 시만틱 프로세서에 있어서,언어 지식 베이스; 및시만틱 분석기를 포함하는데, 상기 시만틱 분석기는상기 텍스트를 기초로 하나 또는 그 이상의 eSAO 세트들을 생성하는 eSAO(확장된 주어-동작-목적어) 인식기로서, 상기 eSAO 세트들은 상기 언어 지식 베이스 내에 저장된 eSAO 정의들에 기초하는, eSAO 인식기; 및상기 하나 또는 그 이상의 eSAO 세트들을 상기 언어 지식 베이스 내에 저장된 알려진 전체-부분 관계 패턴과 매칭시키고, 상기 매칭을 기초로 하나 또는 그 이상의 eSAO 전체-부분 관계들을 생성하는 전체-부분 인식기를 포함하는데,상기 전체-부분 관계는 전체를 나타내는 개념에 부분을 나타내는 개념이 포함되어 있는 관계이고,상기 시만틱 프로세서는 상기 시만틱 분석기를 포함하는 언어 분석기를 포함하는데, 상기 언어 분석기는음성 태그들의 부분을 상기 텍스트의 적어도 일부에 적용하도록 구성된 부분-음성 태거(part-of-speech tagger); 및상기 부분-음성 태거에 의하여 태그된 상기 텍스트를 파싱하고 상기 파싱되고 태그된 텍스트를 상기 eSAO 인식기에 제공하도록 구성된 파서를 포함하는 시만틱 프로세서.
- 삭제
- 제15항에 있어서,전자 또는 디지털 포맷으로 된 텍스트를 수신하고, 상기 언어 지식 베이스에 저장된 데이터에 기초하여, 상기 부분-음성 태거로의 입력을 위한 프리포맷된 텍스트를 생성하도록 구성된 프리포맷기; 및상기 언어 분석기에 의하여 생성된 하나 또는 그 이상의 eSAO 전체-부분 관계들로부터 전체-부분 지식 베이스를 생성하도록 구성된 지식 베이스 생성기를 더 포함하는 시만틱 프로세서.
- 제17항에 있어서, 상기 프리포맷기는자연어 텍스트의 페일(pail)을 형성하지 않는 상기 텍스트의 디지털 또는 전자 표현으로 된 심볼들을 제거하는 기능;상기 텍스트 내의 미스매치들 또는 오류들을 감지하고 정정하는 기능; 및상기 텍스트를 문장들 및 말들의 구조로 분할하는 기능 중에서 적어도 하나를 수행하도록 구성되는, 시만틱 프로세서.
- 제15항에 있어서,상기 알려진 전체-부분 관계 패턴들을 생성하고 저장하도록 구성된 전체-부분 관계 생성기를 더 포함하는데, 상기 전체-부분 관계 생성기는상기 텍스트 문서들의 코퍼스 내에 설정된 eSAO를 인식하도록 구성된 코퍼스 언어 분석기;문장들의 코퍼스를 생성하도록 구성된 코퍼스 eSAO 생성기로서, 각각의 문장은 적어도 하나의 상기 인식된 eSAO 세트들을 포함하는, 코퍼스 eSAO 생성기;상기 문장들에서 전체-부분 관계들의 특정 케이스들을 인식하도록 구성된 관계 인식기;상기 전체-부분 관계들의 특정 케이스들을 eSAO 전체-부분 패턴들로 일반화하도록 구성된 패턴 생성기; 및상기 eSAO 전체-부분 패턴들을 전체-부분 패턴 데이터베이스에 저장하도록 구성된 패턴 테스트기를 포함하는, 시만틱 프로세서.
- 제15항에 있어서,상기 하나 또는 그 이상의 eSAO 전체-부분 관계들의 각각은 전체 eSAO, 부분 eSAO 및 상기 전체 eSAO를 상기 부분 eSAO에 연관시키는 적어도 하나의 순차적 연산자를 포함하는, 시만틱 프로세서.
- 제20항에 있어서,상기 텍스트에 기초한 각각의 eSAO 세트는 eSAO 컴포넌트들을 포함하고, 상기 전체 eSAO는 하나 또는 그 이상의 eSAO 컴포넌트들을 포함하며, 상기 부분 eSAO는 상기 전체 eSAO의 하나 또는 그 이상의 eSAO 컴포넌트들과 다른 하나 또는 그 이상의 eSAO 컴포넌트들을 포함하는, 시만틱 프로세서.
- 제21항에 있어서,상기 eSAO 컴포넌트들은 주어들, 목적어들, 동작들, 형용사들, 전치사들, 간접 목적어들 및 부사어들로 이루어진 그룹에서 하나 또는 그 이상의 요소인, 시만틱 프로세서.
- 제15항에 있어서,상기 전체-부분 인식기는 단일의 eSAO 전체-부분 관계를 생성하기 위하여, 단일의 eSAO 세트를 알려진 전체-부분 관계 패턴에 매칭시키도록 더 구성되는, 시만틱 프로세서.
- 제15항에 있어서,상기 전체-부분 인식기는 단일의 eSAO 전체-부분 관계를 형성하기 위하여, 한 쌍의 eSAO 세트를 알려진 전체-부분 관계 패턴에 매칭시키도록 더 구성되는, 시만틱 프로세서.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/686,660 | 2007-03-15 | ||
US11/686,660 US8799776B2 (en) | 2001-07-31 | 2007-03-15 | Semantic processor for recognition of whole-part relations in natural language documents |
PCT/US2008/057183 WO2008113065A1 (en) | 2007-03-15 | 2008-03-17 | Semantic processor for recognition of whole-part relations in natural language documents |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090130854A KR20090130854A (ko) | 2009-12-24 |
KR101139903B1 true KR101139903B1 (ko) | 2012-04-30 |
Family
ID=39760720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020097020885A KR101139903B1 (ko) | 2007-03-15 | 2008-03-17 | 자연어 문서들에서 전체 부분 관계들을 인식하는 시만틱 프로세서 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8799776B2 (ko) |
EP (1) | EP2135175A4 (ko) |
JP (1) | JP2010521750A (ko) |
KR (1) | KR101139903B1 (ko) |
CN (1) | CN101702944A (ko) |
WO (1) | WO2008113065A1 (ko) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8799776B2 (en) | 2001-07-31 | 2014-08-05 | Invention Machine Corporation | Semantic processor for recognition of whole-part relations in natural language documents |
US9009590B2 (en) * | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
WO2008141673A1 (en) * | 2007-05-21 | 2008-11-27 | Ontos Ag | Semantic navigation through web content and collections of documents |
US8868562B2 (en) * | 2007-08-31 | 2014-10-21 | Microsoft Corporation | Identification of semantic relationships within reported speech |
US8316036B2 (en) * | 2007-08-31 | 2012-11-20 | Microsoft Corporation | Checkpointing iterators during search |
US8463593B2 (en) * | 2007-08-31 | 2013-06-11 | Microsoft Corporation | Natural language hypernym weighting for word sense disambiguation |
US8229970B2 (en) * | 2007-08-31 | 2012-07-24 | Microsoft Corporation | Efficient storage and retrieval of posting lists |
KR101524889B1 (ko) * | 2007-08-31 | 2015-06-01 | 마이크로소프트 코포레이션 | 간접 화법 내에서의 시맨틱 관계의 식별 |
US8280721B2 (en) * | 2007-08-31 | 2012-10-02 | Microsoft Corporation | Efficiently representing word sense probabilities |
US8712758B2 (en) | 2007-08-31 | 2014-04-29 | Microsoft Corporation | Coreference resolution in an ambiguity-sensitive natural language processing system |
US8209321B2 (en) * | 2007-08-31 | 2012-06-26 | Microsoft Corporation | Emphasizing search results according to conceptual meaning |
US8346756B2 (en) * | 2007-08-31 | 2013-01-01 | Microsoft Corporation | Calculating valence of expressions within documents for searching a document index |
US8229730B2 (en) * | 2007-08-31 | 2012-07-24 | Microsoft Corporation | Indexing role hierarchies for words in a search index |
US20090070322A1 (en) * | 2007-08-31 | 2009-03-12 | Powerset, Inc. | Browsing knowledge on the basis of semantic relations |
US20090255118A1 (en) * | 2008-04-11 | 2009-10-15 | General Electric Company | Method of manufacturing mixers |
US8185509B2 (en) * | 2008-10-15 | 2012-05-22 | Sap France | Association of semantic objects with linguistic entity categories |
KR20110134909A (ko) * | 2009-03-13 | 2011-12-15 | 인벤션 머신 코포레이션 | 텍스트 문서들 및 사용자 질문들의 의미적 라벨링에 기초한 질문-응답 시스템 및 방법 |
US8311999B2 (en) * | 2009-03-13 | 2012-11-13 | Invention Machine Corporation | System and method for knowledge research |
JP5536518B2 (ja) * | 2009-04-23 | 2014-07-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | システムの自然言語仕様から当該システム用のシステム・モデル化メタモデル言語モデルを自動的に抽出するための方法、装置及びコンピュータ・ |
JP5398007B2 (ja) * | 2010-02-26 | 2014-01-29 | 独立行政法人情報通信研究機構 | 関係情報拡張装置、関係情報拡張方法、及びプログラム |
CN102262632B (zh) * | 2010-05-28 | 2014-03-19 | 国际商业机器公司 | 进行文本处理的方法和系统 |
US9400778B2 (en) * | 2011-02-01 | 2016-07-26 | Accenture Global Services Limited | System for identifying textual relationships |
US20130013616A1 (en) * | 2011-07-08 | 2013-01-10 | Jochen Lothar Leidner | Systems and Methods for Natural Language Searching of Structured Data |
WO2014000263A1 (en) * | 2012-06-29 | 2014-01-03 | Microsoft Corporation | Semantic lexicon-based input method editor |
US9280520B2 (en) | 2012-08-02 | 2016-03-08 | American Express Travel Related Services Company, Inc. | Systems and methods for semantic information retrieval |
US9342489B2 (en) * | 2014-04-03 | 2016-05-17 | GM Global Technology Operations LLC | Automatic linking of requirements using natural language processing |
EP3143519A1 (en) * | 2014-05-12 | 2017-03-22 | Google, Inc. | Automated reading comprehension |
CN104317890B (zh) * | 2014-10-23 | 2018-05-01 | 苏州大学 | 一种文本连接词的识别方法及装置 |
US10409909B2 (en) * | 2014-12-12 | 2019-09-10 | Omni Ai, Inc. | Lexical analyzer for a neuro-linguistic behavior recognition system |
US10169452B2 (en) * | 2015-06-30 | 2019-01-01 | International Business Machines Corporation | Natural language interpretation of hierarchical data |
CN105138631B (zh) * | 2015-08-20 | 2019-10-11 | 小米科技有限责任公司 | 知识库的构建方法及装置 |
US11514244B2 (en) * | 2015-11-11 | 2022-11-29 | Adobe Inc. | Structured knowledge modeling and extraction from images |
US11449744B2 (en) | 2016-06-23 | 2022-09-20 | Microsoft Technology Licensing, Llc | End-to-end memory networks for contextual language understanding |
WO2018000272A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种语料生成装置和方法 |
US10366163B2 (en) * | 2016-09-07 | 2019-07-30 | Microsoft Technology Licensing, Llc | Knowledge-guided structural attention processing |
CN106570002B (zh) * | 2016-11-07 | 2021-09-14 | 网易(杭州)网络有限公司 | 自然语言处理方法和装置 |
US10552847B2 (en) | 2017-03-23 | 2020-02-04 | International Business Machines Corporation | Real-time pattern matching of database transactions and unstructured text |
WO2020261944A1 (ja) * | 2019-06-27 | 2020-12-30 | ソニー株式会社 | 情報処理装置および情報処理方法 |
US10990879B2 (en) | 2019-09-06 | 2021-04-27 | Digital Asset Capital, Inc. | Graph expansion and outcome determination for graph-defined program states |
US11481548B2 (en) | 2019-12-05 | 2022-10-25 | Tencent America LLC | Zero pronoun recovery and resolution |
CN111046675A (zh) * | 2019-12-26 | 2020-04-21 | 深圳市东恒达智能科技有限公司 | 一种文本识别方法、存储介质及终端 |
CN111597779B (zh) * | 2020-04-23 | 2022-05-27 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、设备以及存储介质 |
US11238240B2 (en) | 2020-06-03 | 2022-02-01 | Digital Asset Capital, Inc. | Semantic map generation from natural-language-text documents |
US20230334253A1 (en) * | 2020-09-25 | 2023-10-19 | Soul Machines Limited | Event representation in embodied agent |
CN113255364A (zh) * | 2021-05-28 | 2021-08-13 | 华斌 | 基于知识融合的政务信息化项目多专家意见机器整合方法 |
US12008322B2 (en) * | 2021-07-26 | 2024-06-11 | Atlassian Pty Ltd | Machine learning techniques for semantic processing of structured natural language documents to detect action items |
CN114254158B (zh) * | 2022-02-25 | 2022-06-10 | 北京百度网讯科技有限公司 | 视频生成方法及其装置、神经网络的训练方法及其装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
US20020010574A1 (en) * | 2000-04-20 | 2002-01-24 | Valery Tsourikov | Natural language processing and query driven information retrieval |
US7120574B2 (en) * | 2000-04-03 | 2006-10-10 | Invention Machine Corporation | Synonym extension of search queries with validation |
Family Cites Families (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5696916A (en) * | 1985-03-27 | 1997-12-09 | Hitachi, Ltd. | Information storage and retrieval system and display method therefor |
US5418889A (en) * | 1991-12-02 | 1995-05-23 | Ricoh Company, Ltd. | System for generating knowledge base in which sets of common causal relation knowledge are generated |
US5638543A (en) * | 1993-06-03 | 1997-06-10 | Xerox Corporation | Method and apparatus for automatic document summarization |
US5331556A (en) * | 1993-06-28 | 1994-07-19 | General Electric Company | Method for natural language data processing using morphological and part-of-speech information |
US5774845A (en) * | 1993-09-17 | 1998-06-30 | Nec Corporation | Information extraction processor |
US5748973A (en) * | 1994-07-15 | 1998-05-05 | George Mason University | Advanced integrated requirements engineering system for CE-based requirements assessment |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
JP3571408B2 (ja) * | 1995-03-31 | 2004-09-29 | 株式会社日立製作所 | 文書加工方法および装置 |
US5708825A (en) * | 1995-05-26 | 1998-01-13 | Iconovex Corporation | Automatic summary page creation and hyperlink generation |
US5631466A (en) * | 1995-06-16 | 1997-05-20 | Hughes Electronics | Apparatus and methods of closed loop calibration of infrared focal plane arrays |
US5963940A (en) | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
US6026388A (en) * | 1995-08-16 | 2000-02-15 | Textwise, Llc | User interface and other enhancements for natural language information retrieval system and method |
US5867164A (en) * | 1995-09-29 | 1999-02-02 | Apple Computer, Inc. | Interactive document summarization |
US6076088A (en) * | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
US5924108A (en) * | 1996-03-29 | 1999-07-13 | Microsoft Corporation | Document summarizer for word processors |
JP3579204B2 (ja) * | 1997-01-17 | 2004-10-20 | 富士通株式会社 | 文書要約装置およびその方法 |
US6076051A (en) * | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
WO1998041930A1 (de) * | 1997-03-18 | 1998-09-24 | Siemens Aktiengesellschaft | Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner |
JP3001047B2 (ja) * | 1997-04-17 | 2000-01-17 | 日本電気株式会社 | 文書要約装置 |
US6171109B1 (en) * | 1997-06-18 | 2001-01-09 | Adin Research, Inc. | Method for generating a multi-strata model and an intellectual information processing device |
US6185592B1 (en) * | 1997-11-18 | 2001-02-06 | Apple Computer, Inc. | Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds |
US6128634A (en) * | 1998-01-06 | 2000-10-03 | Fuji Xerox Co., Ltd. | Method and apparatus for facilitating skimming of text |
JP3614648B2 (ja) * | 1998-03-13 | 2005-01-26 | 富士通株式会社 | 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3429184B2 (ja) * | 1998-03-19 | 2003-07-22 | シャープ株式会社 | テキスト構造解析装置および抄録装置、並びにプログラム記録媒体 |
EP0962873A1 (en) * | 1998-06-02 | 1999-12-08 | International Business Machines Corporation | Processing of textual information and automated apprehension of information |
US6094652A (en) * | 1998-06-10 | 2000-07-25 | Oracle Corporation | Hierarchical query feedback in an information retrieval system |
US6167370A (en) * | 1998-09-09 | 2000-12-26 | Invention Machine Corporation | Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures |
US6789230B2 (en) * | 1998-10-09 | 2004-09-07 | Microsoft Corporation | Creating a summary having sentences with the highest weight, and lowest length |
US6363378B1 (en) * | 1998-10-13 | 2002-03-26 | Oracle Corporation | Ranking of query feedback terms in an information retrieval system |
US6442566B1 (en) * | 1998-12-15 | 2002-08-27 | Board Of Trustees Of The Leland Stanford Junior University | Frame-based knowledge representation system and methods |
US6317708B1 (en) * | 1999-01-07 | 2001-11-13 | Justsystem Corporation | Method for producing summaries of text document |
US6976243B2 (en) * | 1999-10-05 | 2005-12-13 | Borland Software Coporation | Method and system for developing source code and displaying linked elements found within the source code |
US6823325B1 (en) * | 1999-11-23 | 2004-11-23 | Trevor B. Davies | Methods and apparatus for storing and retrieving knowledge |
US6829603B1 (en) * | 2000-02-02 | 2004-12-07 | International Business Machines Corp. | System, method and program product for interactive natural dialog |
EP1275042A2 (en) * | 2000-03-06 | 2003-01-15 | Kanisa Inc. | A system and method for providing an intelligent multi-step dialog with a user |
US6701345B1 (en) * | 2000-04-13 | 2004-03-02 | Accenture Llp | Providing a notification when a plurality of users are altering similar data in a health care solution environment |
US20020103793A1 (en) * | 2000-08-02 | 2002-08-01 | Daphne Koller | Method and apparatus for learning probabilistic relational models having attribute and link uncertainty and for performing selectivity estimation using probabilistic relational models |
US6823331B1 (en) * | 2000-08-28 | 2004-11-23 | Entrust Limited | Concept identification system and method for use in reducing and/or representing text content of an electronic document |
US6557011B1 (en) * | 2000-10-31 | 2003-04-29 | International Business Machines Corporation | Methods for analyzing dynamic program behavior using user-defined classifications of an execution trace |
US20020111784A1 (en) * | 2001-02-12 | 2002-08-15 | Keller S. Brandon | Method of suggesting configuration commands based on E-CAD tool output |
DE10122756A1 (de) * | 2001-05-10 | 2002-11-21 | Daimler Chrysler Ag | Verfahren zur Generierung von Daten für die semantische Sprachanalyse |
US7251781B2 (en) * | 2001-07-31 | 2007-07-31 | Invention Machine Corporation | Computer based summarization of natural language documents |
US8799776B2 (en) | 2001-07-31 | 2014-08-05 | Invention Machine Corporation | Semantic processor for recognition of whole-part relations in natural language documents |
US9009590B2 (en) | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
US6754654B1 (en) * | 2001-10-01 | 2004-06-22 | Trilogy Development Group, Inc. | System and method for extracting knowledge from documents |
GB0127551D0 (en) * | 2001-11-16 | 2002-01-09 | Abb Ab | Analysing events |
US7035877B2 (en) * | 2001-12-28 | 2006-04-25 | Kimberly-Clark Worldwide, Inc. | Quality management and intelligent manufacturing with labels and smart tags in event-based product manufacturing |
US20040001099A1 (en) * | 2002-06-27 | 2004-01-01 | Microsoft Corporation | Method and system for associating actions with semantic labels in electronic documents |
US7676452B2 (en) * | 2002-07-23 | 2010-03-09 | International Business Machines Corporation | Method and apparatus for search optimization based on generation of context focused queries |
US7441219B2 (en) * | 2003-06-24 | 2008-10-21 | National Semiconductor Corporation | Method for creating, modifying, and simulating electrical circuits over the internet |
US7552149B2 (en) * | 2003-09-06 | 2009-06-23 | Oracle International Corporation | Querying past versions of data in a distributed database |
US7536368B2 (en) * | 2003-11-26 | 2009-05-19 | Invention Machine Corporation | Method for problem formulation and for obtaining solutions from a database |
AU2005217413B2 (en) | 2004-02-20 | 2011-06-09 | Factiva, Inc. | Intelligent search and retrieval system and method |
US8126890B2 (en) * | 2004-12-21 | 2012-02-28 | Make Sence, Inc. | Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms |
US20060142907A1 (en) * | 2004-12-28 | 2006-06-29 | Snap-On Incorporated | Method and system for enhanced vehicle diagnostics using statistical feedback |
WO2006111401A2 (en) * | 2005-04-22 | 2006-10-26 | Ubs Ag | A technique for platform-independent service modeling |
US7805496B2 (en) * | 2005-05-10 | 2010-09-28 | International Business Machines Corporation | Automatic generation of hybrid performance models |
US7668825B2 (en) * | 2005-08-26 | 2010-02-23 | Convera Corporation | Search system and method |
US20070073651A1 (en) * | 2005-09-23 | 2007-03-29 | Tomasz Imielinski | System and method for responding to a user query |
US8832064B2 (en) | 2005-11-30 | 2014-09-09 | At&T Intellectual Property Ii, L.P. | Answer determination for natural language questioning |
CN1794233A (zh) * | 2005-12-28 | 2006-06-28 | 刘文印 | 一种网上用户交互问答方法及其系统 |
US20080219735A1 (en) * | 2007-03-08 | 2008-09-11 | Fargo Electronics, Inc. | Printhead Assembly for a Credential Production Device |
US8527262B2 (en) * | 2007-06-22 | 2013-09-03 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
CN105045777A (zh) | 2007-08-01 | 2015-11-11 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
KR20110134909A (ko) * | 2009-03-13 | 2011-12-15 | 인벤션 머신 코포레이션 | 텍스트 문서들 및 사용자 질문들의 의미적 라벨링에 기초한 질문-응답 시스템 및 방법 |
US8311999B2 (en) * | 2009-03-13 | 2012-11-13 | Invention Machine Corporation | System and method for knowledge research |
-
2007
- 2007-03-15 US US11/686,660 patent/US8799776B2/en active Active
-
2008
- 2008-03-17 KR KR1020097020885A patent/KR101139903B1/ko not_active IP Right Cessation
- 2008-03-17 WO PCT/US2008/057183 patent/WO2008113065A1/en active Application Filing
- 2008-03-17 EP EP08732326A patent/EP2135175A4/en not_active Withdrawn
- 2008-03-17 CN CN200880014918A patent/CN101702944A/zh active Pending
- 2008-03-17 JP JP2009553837A patent/JP2010521750A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
US7120574B2 (en) * | 2000-04-03 | 2006-10-10 | Invention Machine Corporation | Synonym extension of search queries with validation |
US20020010574A1 (en) * | 2000-04-20 | 2002-01-24 | Valery Tsourikov | Natural language processing and query driven information retrieval |
Also Published As
Publication number | Publication date |
---|---|
US20070156393A1 (en) | 2007-07-05 |
WO2008113065A9 (en) | 2009-07-30 |
WO2008113065A1 (en) | 2008-09-18 |
JP2010521750A (ja) | 2010-06-24 |
EP2135175A1 (en) | 2009-12-23 |
EP2135175A4 (en) | 2011-05-04 |
US8799776B2 (en) | 2014-08-05 |
KR20090130854A (ko) | 2009-12-24 |
CN101702944A (zh) | 2010-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101139903B1 (ko) | 자연어 문서들에서 전체 부분 관계들을 인식하는 시만틱 프로세서 | |
US12050874B2 (en) | System for knowledge acquisition | |
US6269189B1 (en) | Finding selected character strings in text and providing information relating to the selected character strings | |
Miłkowski | Developing an open‐source, rule‐based proofreading tool | |
US7774198B2 (en) | Navigation system for text | |
CA2546896C (en) | Extraction of facts from text | |
JP2012520528A (ja) | 自然言語テキストの自動的意味ラベリングのためのシステム及び方法 | |
EP1941394A2 (en) | Semantic processor for recognition of cause-effect relations in natural language documents | |
Forst et al. | Computational implementations and applications | |
Todirascu et al. | Vulcain—an ontology-based information extraction system | |
Rinaldi et al. | Towards answer extraction: An application to technical domains | |
Daille et al. | Applications of computational morphology | |
Delmonte | Deep & shallow linguistically based parsing | |
Dimitrova et al. | Bulgarian-Polish online dictionary—Design and development | |
Alansary et al. | IAN: An Automatic tool for Natural Language Analysis | |
Schwitter | Creating and querying linguistically motivated ontologies | |
Ide et al. | Toward a unified docuverse: Standardizing document markup and access without procrustean bargains | |
Motta et al. | Populating a domain ontology from web historical dictionaries and encyclopedias | |
Ciddi | Processing of Turkic Languages | |
Al-Ansary | An Affix Grammar for a Comparative Corpus-Based Study of Spoken and Written NPs in MSA | |
Butt et al. | Computational Grammar Development: What is it good for? | |
Kiyota | Dialog navigator: A navigation system from vague questions to specific answers based on real-world text collections | |
Butt et al. | XLE: Grammar Development Platform Parser/Generator/Rewrite System | |
Auvil et al. | 4.4 Report of Working Group on Literature, Lexicon, Diachrony | |
Solheim et al. | Ontological representation of texts, and its applicationsin text analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |