KR101524889B1 - 간접 화법 내에서의 시맨틱 관계의 식별 - Google Patents

간접 화법 내에서의 시맨틱 관계의 식별 Download PDF

Info

Publication number
KR101524889B1
KR101524889B1 KR1020107006570A KR20107006570A KR101524889B1 KR 101524889 B1 KR101524889 B1 KR 101524889B1 KR 1020107006570 A KR1020107006570 A KR 1020107006570A KR 20107006570 A KR20107006570 A KR 20107006570A KR 101524889 B1 KR101524889 B1 KR 101524889B1
Authority
KR
South Korea
Prior art keywords
semantic
identified
elements
document
relationship
Prior art date
Application number
KR1020107006570A
Other languages
English (en)
Other versions
KR20100075454A (ko
Inventor
리차드 크라우치
마틴 반 덴 버그
데이비드 안
올리야 구레비치
바니 펠
리비아 폴라니
스콧 프레보스트
지오바니 로렌조 티오네
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Priority claimed from US12/201,675 external-priority patent/US8868562B2/en
Publication of KR20100075454A publication Critical patent/KR20100075454A/ko
Application granted granted Critical
Publication of KR101524889B1 publication Critical patent/KR101524889B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Abstract

내용의 시맨틱 표현을 생성하기 위해 집합적으로 사용된 시맨틱 관계를 형성하기 위해 문서의, 간접 화법 또는 태도 보고와 같은 내용으로부터 추출된 단어들 또는 단어 그룹들을 연관시키는 방법 및 컴퓨터 판독가능 매체가 제공된다. 시맨틱 표현은 내용의 텍스트 부분으로부터 식별된 또는 구문 분석된 요소를 포함할 수 있는데, 그 요소는 행위자, 위치 또는 토픽 관계와 같은 시맨틱 관계를 공유하는 다른 요소와 연관될 수 있다. 관계는 또한, 다른 요소에 관한 또는 다른 요소에 대한 한 요소를 연관시킴으로써 밝혀질 수 있고, 이로 인해 상기 쿼리로부터 도출된 연관성과 시맨틱 표현에서 찾아낸 연관성을 신속하고 효과적으로 비교할 수 있게 한다. 시맨틱 관계는 내용의 텍스트 부분 내의 각 요소의 잠재적 의미 및 문법적 기능과 같은 시맨틱 정보에 기초하여 판정될 수 있다.

Description

간접 화법 내에서의 시맨틱 관계의 식별{IDENTIFICATION OF SEMANTIC RELATIONSHIPS WITHIN REPORTED SPEECH}
온라인 검색 엔진은 조사를 행하거나, 인터넷을 통해 액세스 가능한 문서를 탐색하는데 점점 더 중요한 도구가 되었다. 종종, 온라인 검색 엔진은 사용자에 의해 제출된 쿼리를 이용하는, 가능한 문서 또는 이러한 문서 내의 텍스트를 검출하는 매칭 프로세스를 실행한다. 처음에, 구글(Google) 또는 야후(Yahoo)에 의해 유지 관리된 것들과 같은 종래의 온라인 검색 엔진에 의해 제공된 매칭 프로세스는 사용자가 찾고 있는 정보를 설명하기 위해 사용자가 쿼리 내의 하나 이상의 키워드를 지정할 수 있게 한다. 다음에, 종래의 온라인 검색 엔진은 문서들이 통상적으로 쿼리에 응답하여 관련성 있는 또는 의미 있는 결과를 제공하진 못하더라도, 키워드와 정확히 일치하는 것을 포함하는 모든 문서를 찾기 시작한다.
현존하는 종래의 온라인 검색 엔진은 매칭 프로세스에 의해 생성된 정확히 일치한 것 이외에는 쿼리 내의 키워드에 대응하는 검색 문서 내의 단어를 인식하지 못한다는 점에서 제한된다. 또한, 종래의 온라인 검색 엔진은 사용자가, 일치되어야 할 쿼리 내의 키워드에 제한받기 때문에 한정적이고, 따라서, 정보가 알려져 있지 않은 경우에 사용자가 원하는 정보를 정확히 표현할 수 없게 한다. 따라서, 쿼리의 키워드와 검색 문서 내의 단어 사이의 시맨틱(semantic) 관계를 인식하기 위한 자연 언어 검색 엔진의 구현은 유일하게 검색 결과의 정확도를 증가시킬 수 있을 것이다.
<요약>
이 요약은 아래의 상세한 설명에서 더욱 설명되는 개념들 중의 선택된 개념을 소개하기 위해 제공된다. 이 요약은 청구된 주제의 핵심 특징이나 필수 특징을 식별하고자 하는 것도 아니고, 청구된 주제의 범위를 판정하는데 보조적으로 사용되고자 하는 것도 아니다.
본 발명의 실시예는 쿼리 검색 용어뿐만 아니라, 웹 또는 어떤 다른 리포지토리로부터 검색된 문서의 내용에서 찾아낸 다양한 단어들 사이의 연관성을 밝혀내는 컴퓨터 구현 방법 및 컴퓨터 판독가능 매체에 관한 것이다. 의미론적으로 표현될 수 있는 내용은, 내용의 시맨틱 표현이 의미 있고 매우 관련성 있는 결과를 사용자에게 제공하기 위해 수신된 자연 언어 쿼리에 대해 비교될 수 있도록, 간접 화법(reported speech) 및 기타 태도 보고(attitude report)일 수 있다. "어바웃(about)" 관계와 같은 시맨틱 관계는 특정 단어 연관성이 형성되도록 하기 위해 특정 요소들 또는 검색 용어들 사이에서 식별될 수 있다. 일단 시맨틱 관계가 형성되면, 시맨틱 표현은 문서의 내용에 대해 생성되고, 명제(proposition)는 검색 쿼리에 대해 생성될 수 있는데, 이 둘은 가장 관련성 있는 검색 결과를 판정하기 위해 하나 이상의 시맨틱 관계와 명제를 빠르게 비교할 수 있게 한다.
본 발명의 실시예는 첨부된 도면을 참조하여 아래에 상세하게 설명된다.
도 1은 본 발명의 실시예의 구현시에 사용하기 적합한 예시적인 컴퓨팅 환경의 블록도.
도 2는 본 발명의 실시예의 구현시에 사용하기 적합한 예시적인 시스템 아키텍처의 개략도.
도 3은 본 발명의 실시예에 따라, 문서 내의 텍스트 부분으로부터 생성된 시맨틱 표현의 도면.
도 4는 본 발명의 실시예에 따라, 문서 내의 텍스트 부분으로부터 생성된 시맨틱 표현의 도면.
도 5는 본 발명의 실시예에 따라, 문서 내의 텍스트 부분으로부터 생성된 시맨틱 표현의 도면.
도 6은 본 발명의 실시예에 따라, 문서 내의 텍스트 부분으로부터 생성된 시맨틱 표현의 도면.
도 7은 본 발명의 실시예에 따라, 검색 쿼리로부터 생성된 명제의 도면.
도 8은 본 발명의 실시예에 따라, 문서 내의 2개의 문장으로 이루어진 텍스트 부분으로부터 생성된 시맨틱 표현의 도면.
도 9는 본 발명의 실시예에 따라, 문서의 내용으로부터 추출된 요소들 사이의 시맨틱 관계를 밝혀내는 방법을 나타낸 흐름도.
도 10은 본 발명의 실시예에 따라, 쿼리의 수신에 응답하여, 명제를 생성하기 위해 쿼리로부터 추출된 다양한 용어들 사이의 연관성을 생성하는 방법을 나타낸 흐름도.
도 11은 본 발명의 실시예에 따라, 문서의 내용으로부터 추출된 요소들 사이의 시맨틱 관계를 밝혀내는 방법을 나타낸 흐름도.
본 발명의 주제는 법적 요구사항을 충족시키도록 여기에서 특이성을 갖고 설명된다. 그러나, 설명 자체는 이 특허의 범위를 제한하고자 하는 것이 아니다. 오히려, 발명자는 청구된 주제가 그외 다른 현재 또는 미래의 기술과 관련하여, 이 문서에서 설명된 것과 다른 단계, 또는 유사한 단계의 조합을 포함하도록 다른 방식으로 실시될 수도 있다는 것을 고려했다. 더구나, "단계" 및/또는 "블록"이라는 용어는 이용된 방법의 상이한 요소를 내포하도록 여기에서 사용될 수 있긴 하지만, 용어들은 개별 단계의 순서가 명시적으로 설명되지 않는 한, 그리고 명시적으로 설명된 경우를 제외하고는, 여기에 개시된 다양한 단계들 사이의 임의의 특정 순서를 암시하는 것으로 해석되어서는 안 된다.
따라서, 한 실시양상에서, 인덱싱하기 위한 내용의 시맨틱 표현을 생성하기 위해 문서의 내용으로부터 추출된 요소들 사이의 시맨틱 관계를 밝혀내는 컴퓨터 구현 방법이 제공된다. 처음에, 방법은 인덱싱될 문서의 텍스트 부분을 식별하는 단계 및 텍스트 부분에서 식별된 다수의 요소에 대한 시맨틱 정보를 판정하는 단계를 포함한다. 시맨틱 정보는 식별된 요소의 의미, 또는 식별된 요소들 사이의 문법 및/또는 시맨틱 관계 중의 하나 또는 둘 다를 포함할 수 있다. 식별된 요소들 중의 최소한 하나는 화법 보고 또는 태도 보고에 대응하는 보고 행위(reporting act)로서 식별될 수 있다. 방법은 식별된 요소들의 각 연관성이 식별된 요소들의 판정된 시맨틱 정보에 기초하여 특정 시맨틱 관계를 나타내도록 식별된 요소들을 연관시키는 단계를 더 포함한다. 게다가, 방법은 식별된 요소들의 연관성들을 포함하는 시맨틱 표현을 생성하는 단계를 포함한다.
다른 실시양상에서, 컴퓨터 구현 방법은 자연 언어 쿼리의 수신에 응답하여, 명제를 생성하기 위해 쿼리로부터 추출된 다양한 용어들 사이의 연관성을 생성하기 위해 제공된다. 명제는 관련성 있는 검색 결과를 제공하기 위해 시맨틱 인덱스 내에 저장된 문서로부터의 내용의 시맨틱 표현을 조회하는데 사용될 수 있다. 방법은 또한 쿼리 내에서 찾아낸 하나 이상의 검색 용어에 대한 연관된 시맨틱 정보를 판정하는 단계를 포함한다. 제1 보고 행위는 쿼리 내에서 판정될 수 있고, 시맨틱 관계는 해당 검색 용어에 대한 판정된 시맨틱 정보에 기초하여 검색 용어들 중의 최소한 하나와 제1 보고 행위 사이에 형성될 수 있다. 제1 보고 행위와 검색 용어 사이의 생성된 연관성은 시맨틱 관계를 설명하는 관계 요소를 통해 이루어진다. 마지막으로, 형성된 연관성을 포함하는 명제가 생성될 수 있고, 이 명제는 또한 매우 관련성 있는 검색 결과를 판정하기 위해 시맨틱 표현과 비교될 수 있다.
또 다른 실시양상에서, 인덱싱될 내용의 시맨틱 표현을 생성하기 위해 문서의 내용으로부터 추출된 요소들 사이의 시맨틱 관계를 밝혀내는 방법을 실행하는 컴퓨터 사용 가능 명령어들이 구현되어 있는 하나 이상의 컴퓨터 판독가능 매체가 제공된다. 처음에, 방법은 인덱싱될, 문서의 최소한 일부, 또는 텍스트 부분을 식별하는 단계를 포함한다. 그 다음, 텍스트 부분은 의미론적으로 표현되어야 할 요소를 식별하기 위해 구문 분석될 수 있다. 텍스트 부분 내의 하나 이상의 연관성 레벨의 판정 이외에, 식별된 요소들 사이의 잠재적 의미 및 문법 또는 시맨틱 관계가 판정될 수 있다. 방법은 또한 제1 보고 행위가 제1의 식별된 요소 집합과 연관될 수 있도록 하나 이상의 판정된 연관성 레벨의 각각에 대한 텍스트 부분 내의 보고 행위를 식별하는 단계를 포함한다. 제1 보고 행위는 제1 연관성 레벨과 연관될 수 있다. 이와 유사하게, 제2 보고 행위는 제2의 식별된 요소 집합과 연관될 수 있는데, 제2 보고 행위는 제2 연관성 레벨과 연관된다. 더 나아가, 제1 보고 행위에 대한 제1의 식별된 요소 집합과 제2 보고 행위에 대한 제2의 식별된 요소 집합 사이의 연관성을 설명하는 관계 요소를 통해 연관성을 포함하는 시맨틱 표현이 생성될 수 있다.
본 발명의 실시예의 개요 및 몇몇 특징을 간략하게 설명했으므로, 본 발명을 구현하기 적합한 예시적인 운영 환경이 아래에 설명된다.
일반적으로 도면을 참조하면, 특히, 도 1을 처음에 참조하면, 본 발명의 실시예를 구현하기 적합한 예시적인 운영 환경이 도시되고, 일반적으로 컴퓨팅 장치(100)라 불린다. 컴퓨팅 장치(100)는 적합한 컴퓨팅 환경의 일례에 불과하며, 본 발명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니다. 컴퓨팅 장치(100)가 도시된 컴포넌트들 중 임의의 하나 또는 그 컴포넌트들의 임의의 조합과 관련하여 어떤 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안 된다.
본 발명은 컴퓨터 또는 그외 다른 기계, 이를테면 PDA(personal data assistant) 또는 기타 핸드헬드 장치에 의해 실행되는 프로그램 컴포넌트와 같은 컴퓨터 실행가능 명령어를 포함하는 컴퓨터 코드 또는 컴퓨터 사용 가능 명령어와 일반적으로 관련하여 기술될 수 있다. 일반적으로, 루틴, 프로그램, 개체, 컴포넌트, 데이터 구조 등을 포함하는 프로그램 컴포넌트는 특정 작업을 수행하거나 특정 추상 데이터 유형을 구현하는 코드를 나타낸다. 본 발명의 실시예는 핸드헬드 장치, 소비자 전자제품, 범용 컴퓨터, 특수 컴퓨팅 장치 등을 포함하는 각종 시스템 구성에서 실시될 수 있다. 본 발명의 실시예는 또한 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 작업이 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다.
도 1을 계속 참조하면, 컴퓨팅 장치(100)는 다음 장치-메모리(112), 하나 이상의 프로세서(114), 하나 이상의 프레젠테이션 컴포넌트(116), 입/출력(I/O) 포트(118), I/O 컴포넌트(120) 및 예시적인 전원 공급 장치(122)-를 직접 또는 간접으로 연결하는 버스(110)를 포함한다. 버스(110)는 (주소 버스, 데이터 버스 또는 그 조합과 같은) 하나 이상의 버스일 수 있다는 것을 나타낸다. 도 1의 다양한 블록이 명확성을 위해 선으로 도시되었지만, 실제로, 다양한 컴포넌트의 윤곽은 그렇게 뚜렷하지 않고, 비유적으로, 선들은 더욱 정확하게 말하자면, 흐릿하거나 희미할 것이다. 예를 들어, 우리는 표시 장치와 같은 프레젠테이션 컴포넌트를 I/O 컴포넌트로 생각할 수 있다. 또한, 프로세서는 메모리를 갖는다. 본 발명의 발명가들은 이것이 이 분야의 본질이라는 것을 인식하고, 도 1의 도면이 본 발명의 하나 이상의 실시예와 관련하여 사용될 수 있는 예시적인 컴퓨팅 장치를 나타낸 것일 뿐이라는 것을 재차 말한다. "워크스테이션", "서버", "랩톱", "핸드헬드 장치" 등이 모두 "컴퓨터" 또는 "컴퓨팅 장치"와 관련하여 도 1의 범위 내에 있는 것으로 고려되기 때문에, 이들과 같은 범주들의 사이를 구별하지는 않는다.
컴퓨팅 장치(100)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 예시적이고 비제한적으로, 컴퓨터 판독가능 매체는 RAM(Random Access Memory); ROM(Read Only Memory); EEPROM(Electronically Erasable Programmable Read Only Memory); 플래시 메모리 또는 기타 메모리 기술; CDROM, DVD(digital versatile disks) 또는 기타 광 또는 홀로그래픽 매체; 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치; 또는 원하는 정보를 인코딩하기 위해 사용될 수 있고 컴퓨팅 장치(100)에 의해 액세스될 수 있는 임의의 기타 매체를 포함할 수 있다.
메모리(112)는 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 메모리는 이동식, 비이동식 또는 그 조합일 수 있다. 예시적인 하드웨어 장치는 고상(solid-state) 메모리, 하드 드라이브, 광-디스크 드라이브 등을 포함한다. 컴퓨팅 장치(100)는 메모리(112) 또는 I/O 컴포넌트(120)와 같은 다양한 엔티티로부터 데이터를 판독하는 하나 이상의 프로세서를 포함한다. 프레젠테이션 컴포넌트(들)(116)는 데이터 표시를 사용자 또는 기타 장치에 나타낸다. 예시적인 프레젠테이션 컴포넌트는 표시 장치, 스피커, 프린팅 컴포넌트, 진동 컴포넌트 등을 포함한다. I/O 포트(118)는 컴퓨팅 장치(100)가 I/O 컴포넌트(120)를 포함하는 기타 장치에 논리적으로 연결될 수 있게 하는데, 그 일부는 기본적으로 포함될 수 있다. 예시적인 컴포넌트는 마이크, 조이스틱, 게임 패드, 위성 안테나, 스캐너, 프린터, 무선 장치 등을 포함한다.
이제, 도 2를 참조하면, 본 발명의 실시예의 구현시에 사용하기 적합한 예시적인 시스템 아키텍처(200)의 개략도가 본 발명의 실시예에 따라 도시된다. 본 분야에 숙련된 기술자들이라면, 도 2에 도시된 예시적인 시스템 아키텍처(200)는 한 가지 적합한 컴퓨팅 환경의 예일 뿐이고, 본 발명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니라는 것을 이해하고 알 수 있을 것이다. 예시적인 시스템 아키텍처(200)가 여기에 도시된 컴포넌트들 중 임의의 하나의 컴포넌트 또는 그 컴포넌트들의 임의의 조합과 관련하여 어떤 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안 된다.
도시된 바와 같이, 시스템 아키텍처(200)는 클라이언트 장치(215)가 자연 언어 엔진(290)에 동작가능하게 결합되고, 그 다음에 자연 언어 엔진(290)이 데이터 저장소(220)에 동작가능하게 결합되는 분산 컴퓨팅 환경을 포함할 수 있다. 분산 컴퓨팅 환경에서 실시되는 본 발명의 실시예에서, 동작가능한 결합은 클라이언트 장치(215) 및 데이터 저장소(220)를, 적절한 접속을 통해 자연 언어 엔진(290) 및 기타 온라인 컴포넌트에 연결하는 것을 나타낸다. 이들 접속은 유선 또는 무선일 수 있다. 본 발명의 범위 내에서 특정 유선 실시예의 예는 단일 기계 내의 컴포넌트들을 상호접속시키는 버스 또는 기타 채널, 또는 네트워크(도시 생략)를 통한 USB 접속 및 케이블 접속을 포함한다. 본 발명의 범위 내에서 특정 무선 실시예의 예는 근거리 무선 네트워크 및 무선 주파수 기술을 포함한다.
"근거리 무선 네트워크"의 지정은 제한하고자 하는 것이 아니고, 최소한 다음과 같은 기술 - NWP(negotiated wireless peripheral) 장치; 단거리 무선 에어 간섭 네트워크(예를 들어, 무선 개인 통신망(wPAN), 무선 근거리 통신망(wLAN), 무선 원거리 통신망(wWAN), 블루투스(BluetoothTM) 등); 무선 피어 투 피어 통신(예를 들어, 초광대역(Ultra Wideband)); 및 장치들 사이의 무선 데이터 통신을 지원하는 임의의 프로토콜-을 포함하는 것으로 광범위하게 해석되어야 한다는 것을 이해하고 알 수 있을 것이다. 게다가, 본 발명의 분야에 익숙한 사람들은 근거리 무선 네트워크가 다양한 데이터 전송 방법(예를 들어, 위성 전송, 텔레커뮤니케이션 네트워크 등)에 의해 실시될 수 있다는 것을 알 수 있을 것이다. 그러므로, 예를 들어, 클라이언트 장치(215), 데이터 저장소(220)와 자연 언어 엔진(290) 사이의 접속의 실시예는 설명된 예에 의해 제한되는 것이 아니라, 광범위한 통신 방법을 포함한다는 점이 강조된다. 다른 실시예에서, 컴퓨팅 장치는 시맨틱 해석 컴포넌트(250)의 기능을 내부에 수용함으로써, 무선 또는 유선 접속 의존성을 경감시킬 수 있다.
예시적인 시스템 아키텍처(200)는 부분적으로 프레젠테이션 장치(275)의 동작을 지원하는 클라이언트 장치(215)를 포함한다. 예시적인 실시예에서, 클라이언트 장치(215)가 예를 들어 모바일 장치인 경우에, 프레젠테이션 장치(예를 들어, 터치스크린 디스플레이)는 클라이언트 장치(215) 상에 배치될 수 있다. 게다가, 클라이언트 장치(215)는 다양한 유형의 컴퓨팅 장치 형태를 취할 수 있다. 단지 예시적으로, 클라이언트 장치(215)는 개인용 컴퓨팅 장치(예를 들어, 도 1의 컴퓨팅 장치(100)), 핸드헬드 장치(예를 들어, PDA), 모바일 장치(예를 들어, 랩톱 컴퓨터, 휴대폰, 미디어 플레이어), 소비자 전자 장치, 다양한 서버 등일 수 있다. 부수적으로, 컴퓨팅 장치는 그들 사이의 정보를 공유하도록 구성된 2개 이상의 전자 장치를 포함할 수 있다.
실시예에서, 위에서 설명된 바와 같이, 클라이언트 장치(215)는 프레젠테이션 장치(275) 상에 UI 디스플레이(295)를 표시하도록 구성되는 프레젠테이션 장치(275)를 포함하거나, 그러한 프레젠테이션 장치(275)에 동작가능하게 결합된다. 프레젠테이션 장치(275)는 모니터, 전자 디스플레이 패널, 터치 스크린, 액정 디스플레이(LCD), 플라즈마 스크린, 하나 이상의 발광 다이오드(LED), 백열 전구, 레이저, 전기발광(electroluminescent) 광원, 케미컬 라이트(chemical light), 플렉시블 라이트 와이어(flexible light wire), 및/또는 형광등, 또는 임의의 다른 디스플레이 유형과 같은, 사용자에게 정보를 표시할 수 있는 임의의 표시 장치로서 구성될 수 있고, 또는 시각적 정보가 투사되는 반사 표면을 포함할 수 있다. 프레젠테이션 장치(275)의 몇 가지 상이한 구성이 위에서 설명되었지만, 본 분야에 숙련된 기술자들이라면, 정보를 표시하는 다양한 유형의 프레젠테이션 장치는 프레젠테이션 장치(275)로서 이용될 수 있고, 본 발명의 실시예는 도시되고 설명된 이러한 프레젠테이션 장치(275)에 제한되지 않는다는 것을 이해하고 알 수 있을 것이다.
한 예시적인 실시예에서, 프레젠테이션 장치(275)에 의해 렌더링된 UI 디스플레이(295)는 자연 언어 엔진(290) 및/또는 콘텐트 게시자와 관련되는 웹 페이지(도시 생략)를 표시하도록 구성된다. 실시예에서, 웹 페이지는 쿼리를 수신하는 검색-엔트리 영역, 및 쿼리로 시맨틱 인덱스를 검색함으로써 발견되는 검색 결과를 나타낼 수 있다. 쿼리는 검색-엔트리 영역에서 사용자에 의해 수동으로 제공될 수 있고, 또는 소프트웨어에 의해 자동으로 생성될 수 있다. 게다가, 아래에 더욱 자세하게 설명되는 바와 같이, 쿼리는 제출시에, 쿼리 내의 키워드에 가장 잘 응답하는 적절한 검색 결과를 식별하기 위해 자연 언어 엔진(290)을 호출하는 하나 이상의 키워드를 포함할 수 있다.
도 2에 도시된 자연 언어 엔진(290)은 예를 들어, 도 1과 관련하여 위에서 설명된 컴퓨팅 장치(100)와 같은 다양한 유형의 컴퓨팅 장치 형태를 취할 수 있다. 단지 예시적이고 비제한적으로, 자연 언어 엔진(290)은 퍼스널 컴퓨터, 데스크톱 컴퓨터, 랩톱 컴퓨터, 소비자 전자 장치, 핸드헬드 장치(예를 들어, PDA), 다양한 원격 서버(예를 들어, 온라인 서버 클라우드(cloud)), 처리 장비 등일 수 있다. 그러나, 본 발명은 이러한 컴퓨팅 장치상의 구현에 제한되는 것이 아니라, 본 발명의 실시예의 범위 내의 각종 상이한 유형의 컴퓨팅 장치들 중의 임의의 장치상에서 구현될 수 있다는 점을 주의하기 바란다.
더욱이, 한 예에서, 자연 언어 엔진(290)은 클라이언트 장치(215)를 통한 쿼리의 제출에 응답하여, 인터넷 및/또는 데이터 저장소(220) 상에서 정보를 찾고, 검색 범위 내에서 상기 정보로부터의 검색 결과를 수집하도록 설계된 검색 엔진으로서 구성된다. 한 실시예에서, 검색 엔진은 인터넷을 통해 액세스 가능한 사용 가능 데이터(예를 들어, 뉴스그룹, 데이터베이스, 오픈 디렉토리, 데이터 저장소(220) 등)를 찾아내고, 의미 있는 형식으로 저장된 웹 페이지 또는 기타 문서의 주제와 함께 웹 주소를 포함하는 시맨틱 인덱스(260)를 형성한 하나 이상의 웹 크롤러(crawler)를 포함한다. 다른 실시예에서, 검색 엔진은 제출된 쿼리 내의 검색 용어에 관련되는 시맨틱 인덱스로부터의 검색 결과(예를 들어, 목록, 표, 웹 주소의 랭킹 순서 등)의 식별 및 검색을 용이하게 하도록 동작할 수 있다. 검색 엔진은 클라이언트 장치(215) 상에 배치된 웹 브라우저 애플리케이션을 통해 인터넷 사용자에 의해 액세스될 수 있다. 따라서, 사용자는 (검색 엔진과 관련된 웹 브라우저 애플리케이션에 의해 생성된 UI 디스플레이(295) 상에 떠있는) 검색-엔트리 영역에 검색 용어를 제출함으로써 인터넷 검색을 행할 수 있다. 다른 구성에서, 검색은 사용자의 하드 디스크와 같은 로컬 정보 저장소로부터 콘텐트를 검색하기 위해, 쿼리가 하나 이상의 시스템 인덱스에 제출됨으로써 행해질 수 있다.
데이터 저장소(220)는 일반적으로, 관련된 검색가능 콘텐트를 갖는 온라인 아이템 및/또는 자료(예를 들어, 위키피디아(Wikipedia) 웹사이트를 포함하는 문서)와 관련된 정보를 저장하도록 구성된다. 다양한 실시예에서, 이러한 정보는 문서; 웹 페이지/사이트의 콘텐트; 인터넷, 로컬 인트라넷 또는 사용자 기계의 메모리나 하드 디스크를 통해 액세스 가능한 전자 자료; 및 검색 엔진에 사용 가능한 그외 다른 통상적인 자원을 포함할 수 있는데, 이에 제한되는 것은 아니다. 게다가, 데이터 저장소(220)는 저장된 정보의 적합한 액세스를 검색 가능하도록 구성될 수 있다. 한 예에서, 적합한 액세스를 고려하는 것은 제공된 기준에 따라 데이터 저장소 내의 문서들의 부분집합을 선택하거나 필터링하는 것을 포함한다.
예를 들어, 데이터 저장소(220)는 자연 언어 엔진(290)에 의한 처리를 위해 선택된 하나 이상의 문서를 검색할 수 있게 될 수 있다. 실시예에서, 자연 언어 엔진(290)은 시맨틱 인덱스를 갱신하기 위해 최근에 추가되거나 수정된 문서를 찾기 위해 데이터 저장소를 자유롭게 조사할 수 있게 된다. 조사 프로세스는 연속적으로, 미리 정해진 간격으로, 또는 데이터 저장소(220)에 집계된 하나 이상의 문서에 변경이 발생했다는 표시시에 실행될 수 있다. 본 분야에 숙련된 기술자들이라면, 데이터 저장소(220)에 저장된 정보는 구성가능할 수 있고, 온라인 검색 범위 내의 임의의 정보를 포함할 수 있다는 것을 이해하고 알 수 있을 것이다. 이러한 정보의 콘텐트 및 볼륨은 어떤 방식으로든 본 발명의 실시예의 범위를 제한하고자 하는 것이 아니다. 더욱이, 단일의 독립적인 컴포넌트로서 도시되었지만, 데이터 저장소(220)는 실제로 다수의 데이터베이스, 예를 들어, 클라이언트 장치(215)에 그 일부들이 존재할 수 있는 데이터베이스 클러스터, 자연 언어 엔진(290), 다른 외부 컴퓨팅 장치(도시 생략) 및/또는 이들의 임의의 조합일 수 있다.
일반적으로, 자연 언어 엔진(290)은 온라인으로 정보를 조사하여 찾고자 열망하는 사용자를 돕는 도구를 제공한다. 실시예에서, 이 도구는 자연 언어 처리 기술을 적용함으로써, 데이터 저장소(220)로부터 빼낸 문서와 같은 문서 집합 내의 구절의 의미를 컴퓨팅하도록 동작한다. 이들 의미는 검색 실행시에 참조되는 시맨틱 인덱스(260) 내에 저장된다. 처음에, 사용자가 검색-엔트리 영역 내로 쿼리를 입력하면, 쿼리 검색 파이프라인(205)은 사용자의 쿼리(예를 들어, 문자열, 완전한 단어, 구, 영숫자 복합어, 기호 또는 질문)를 분석하고, 시맨틱 관계를 이용하여 쿼리를 구조적 표현으로 변환한다. 이후에 "명제"라 칭해지는 이 표현은 관련성 있는 검색 결과에 도달하기 위해 시맨틱 인덱스(260) 내에 저장된 정보를 문의하는데 이용될 수 있다.
한 예에서, 시맨틱 인덱스(260)에 저장된 정보는 데이터 저장소(220)에 유지 관리된 문서로부터 추출된 표현, 또는 온라인 검색 범위 내에 포함된 임의의 다른 자료를 포함한다. 이후에 "시맨틱 표현"이라 칭해지는 이 표현은 일반 텍스트로부터 추출된 내용의 직관적 의미에 관련이 있고, 시맨틱 인덱스(260) 내에 저장될 수 있다. 실시예에서, 시맨틱 표현은 용어 재작성 규칙의 규정된 순서를 이용하거나, 또는 관련 분야에 알려져 있는 임의의 다른 발견적 교수법을 이용하여 시맨틱 구조로부터 도출된다. 실시예에서, "시맨틱 구조"는 부분적으로 사전적 시맨틱 문법 규칙을 이용하여 문서의 내용을 시맨틱 구조로 변환하는 문서 구문 분석 컴포넌트에 의해 분석 파이프라인의 중간 단계에서 생성된다.
시맨틱 인덱스(260)의 아키텍처는 명제에 일치하는 시맨틱 표현을 찾고, 제출된 쿼리에 관련되는 시맨틱 표현에 매핑된 문서를 검색하기 위해, 도출된 명제에 대해 저장된 시맨틱 표현을 신속하게 비교할 수 있게 한다. 따라서, 자연 언어 엔진(290)은 검색 인터페이스(예를 들어, UI 디스플레이(295) 상에 떠있는 검색-엔트리 영역) 내로 제출된 쿼리로부터 사용자의 쿼리 요구사항의 의미를 판정한 다음에, 이들 요구를 충족시키는 대응하는 검색 결과를 찾기 위해 다량의 정보를 통해 가려낼 수 있다.
실시예에서, 상기 프로세스는 관련성 있는 검색 결과를 검색하기 위해 하나 이상의 단계를 실행하는 다양한 기능 요소에 의해 구현될 수 있다. 이들 기능 요소는 쿼리 구문 분석 컴포넌트(235), 문서 구문 분석 컴포넌트(240), 시멘틱 해석 컴포넌트(245), 시맨틱 해석 컴포넌트(250), 문법 명세 컴포넌트(255), 시맨틱 인덱스(260), 매칭 컴포넌트(265) 및 랭킹 컴포넌트(270)를 포함한다. 이러한 기능적 컴포넌트(235, 240, 245, 250, 255, 260, 265 및 270)는 일반적으로, 동적으로 연결되고 그외 다른 컴포넌트 또는 장치와 함께 사용할 준비가 되어 있는 개별 모듈러 소프트웨어 루틴 및 이와 관련된 하드웨어를 나타낸다.
처음에, 데이터 저장소(220), 문서 구문 분석 컴포넌트(240) 및 시맨틱 해석 컴포넌트(250)는 인덱싱 파이프라인(210)을 포함한다. 동작시에, 인덱싱 파이프라인(210)은 데이터 저장소(220)에서 액세스된 문서(230) 내의 내용으로부터 시맨틱 표현을 추출하고, 시맨틱 표현을 수집하면 시맨틱 인덱스(260)를 구성하는 일을 한다. 위에서 설명된 바와 같이, 시맨틱 인덱스(260)를 형성하기 위해 집계될 때, 시맨틱 표현은 문서(230)에 대한 매핑, 및/또는 이들이 얻어진 문서(230) 내의 내용의 위치를 보유할 수 있다. 달리 말하면, 시맨틱 인덱스(260)는 시맨틱 해석 컴포넌트(250)에 의해 생성되고 전달된 시맨틱 표현(문서 구문 분석 컴포넌트(240)에서 생성된 시맨틱 구조로부터 얻어짐)을 인코딩한다. 그러나, 다른 실시예에서, 문서 구문 분석 컴포넌트(240) 및 시맨틱 해석 컴포넌트(250)는 자연 언어 처리를 2개의 단계(즉, LFG 구문 분석 및 시맨틱 해석)로 나누지 않고, 그 대신에, 시맨틱 구조가 생성되는 분리된 단계를 갖지 않고 단일 단계에서 시맨틱 표현을 생성하는 단일 요소로서 구성될 수 있다.
일반적으로, 문서 구문 분석 컴포넌트(240)는 자연 언어 엔진(290)에 사용 가능한 데이터를 수집하도록 구성된다. 한 예에서, 데이터를 수집하는 것은 문서(230)의 내용, 또는 데이터 저장소에 저장된 그외 다른 정보를 스캔하기 위해 데이터 저장소(220)를 조사하는 것을 포함한다. 데이터 저장소(220) 내의 정보가 끊임없이 갱신될 수 있기 때문에, 데이터를 수집하는 프로세스는 정기적으로, 연속적으로, 또는 하나 이상의 문서(230)에 갱신이 이루어진다는 통지시에 실행될 수 있다.
문서(230) 및 기타 사용 가능한 소스로부터 내용을 수집하면, 문서 구문 분석 컴포넌트(240)는 시맨틱 분석을 위한 내용을 준비하기 위해 다양한 절차를 실행한다. 이들 절차는 텍스트 추출, 엔티티 인식 및 구문 분석을 포함할 수 있다. 텍스트 추출 절차는 문서(230)의 내용으로부터 표, 이미지, 템플릿, 및 데이터의 텍스트 부분을 추출하는 단계, 및 매핑을 용이하게 하기 위해 문서(230)가 추출되어온 그 문서로의 링크를 저장하면서, 이들을 원시 온라인 형식으로부터 사용 가능한 형식(예를 들어, HTML(HyperText Markup Language))으로 변환하는 단계를 사실상 포함한다. 그 다음, 내용의 사용 가능한 형식은 문장들로 나누어진다. 한 예에서, 내용을 문장들로 나누는 것은 입력으로서 문자열을 어셈블하는 것, 특정 속성에 대해 문자열을 테스트하기 위해 규칙 집합을 적용하는 것, 및 특정 속성에 기초하여, 내용을 문장들로 나누는 것을 포함한다. 단지 예시적으로, 테스트되는 내용의 특정 속성은 문장의 시작과 끝을 판정하기 위해 구두점 및 대문자 사용을 포함할 수 있다. 일단 일련의 문장이 확인되면, 각각의 개별 문장은 문장 내의 단어를 검출하여, 대상(예를 들어, "힌덴부르크(The Hindenburg)"), 사건(예를 들어, "2차 세계 대전(World War II)"), 시간(예를 들어, "9월(September)"), 동사 또는 임의의 기타 단어 범주(단어들 사이의 구분을 장려하거나 주제 문장의 의미를 이해하기 위해 이용될 수 있음)로서 각 단어를 잠재적으로 인식하기 위해 검사된다.
엔티티 인식 절차는 단어들이 쿼리의 질문 관련 키워드(예를 들어, 누가, 어디에서, 언제)에 대한 특정 응답을 제공할 때, 어느 단어가 이름인지 인식하는 것을 돕는다. 실시예에서, 단어를 인식하는 것은 단어를 이름으로 식별하는 것, 및 시맨틱 인덱스(260)를 조회할 때 검색을 용이하게 하기 위해 태그로 단어에 주석을 다는 것을 포함한다. 한 예에서, 단어를 이름으로 식별하는 것은 일치하는 것이 있는지 판정하기 위해 미리 정의된 이름 목록에서 단어를 조회하는 것을 포함한다. 일치하는 것이 없으면, 통계 정보는 그 단어가 이름인지 추측하기 위해 사용될 수 있다. 예를 들어, 통계 정보는 몇 가지 일반적인 철자 변화가 있을 수 있는, "USS Enterprise"와 같은 복잡한 이름의 변화를 인식하는 것을 도울 수 있다.
구문 분석 절차는 구현시에, 위에서 식별된 문장의 구조에 대한 통찰력을 제공한다. 한 예에서, 이들 통찰력은 문법 명세 컴포넌트(255)의 프레임워크 내에 유지된 규칙을 적용함으로써 제공된다. 적용시에, 이들 규칙 또는 문법은 문장 내의 단어들 사이의 관계의 표현을 추출하기 위해 문장을 분석하는 것을 진척시킨다. 위에 설명된 바와 같이, 이들 표현은 시맨틱 구조라 칭해지고, 시맨틱 해석 컴포넌트(250)가 문장의 문법 구조(예를 들어, 동사, 주어, 목적어 등)에 대한 중요한 정보를 획득할 수 있게 한다.
시맨틱 해석 컴포넌트(250)는 일반적으로, 단어들 사이의 시맨틱 관계를 인식함으로써 문서 구문 분석 컴포넌트(240)에 의해 생성된, 시맨틱 구조(들) 내의 각 단어의 역할을 진단하도록 구성된다. 처음에, 진단은 시맨틱 구조의 문법 조직을 분석하는 것, 및 이것을, 별개의 아이디어 및 특정 사실을 각각 표현하는 논리적 어설션(assertion)으로 분리하는 것을 포함한다. 이들 논리적 어설션은 어설션을 포함하는 일련의 단어들의 각각의 기능을 판정하기 위해 더욱 분석될 수 있다. 한 예에서, 일련의 단어들의 기능을 판정하는 것은 용어 재작성 규칙의 규정된 순서, 또는 관련 분야에 알려져 있는 임의의 다른 발견적 교수법을 이용하는 것을 포함한다.
적절한 경우에, 각 단어의 기능 또는 역할에 기초하여, 일련의 단어들 중의 하나 이상은 동의어(즉, 확장된 단어의 특정 의미에 대응하는 다른 단어로의 연결) 또는 상위어(즉, 확장된 단어의 일반 의미에 일반적으로 관련되는 다른 단어로의 연결)를 포함하기 위해 확장될 수 있다. 시맨틱 해석 컴포넌트(250)에 의해 인식된 이러한 단어 확장, (위에 설명된) 표현에서 각 단어가 쓰이는 기능, 일련의 단어들의 각각의 문법 관계, 및 시맨틱 표현에 대한 임의의 다른 정보는 시맨틱 표현으로서 시맨틱 인덱스(260)에 저장될 수 있는 시맨틱 표현을 구성한다.
시맨틱 인덱스(260)는 인덱싱 파이프라인(210)의 하나 또는 다수의 컴포넌트에 의해 얻어진 시맨틱 표현을 저장하는 일을 하고, 관련 분야에 알려져 있는 임의의 방식으로 구성될 수 있다. 예시적으로, 시맨틱 인덱스는 종래의 검색 엔진 인덱스와 구조적으로 유사한 역(inverted) 인덱스로서 구성될 수 있다. 이 예시적인 실시예에서, 역 인덱스는 엔트리가 문서(230)에 대한 포인터를 갖는 단어, 및 그 단어가 나오는 위치인 빠른 검색가능 데이터베이스이다. 따라서, 시맨틱 구조를 시맨틱 인덱스(260)에 기입할 때, 각 단어 및 관련된 기능은 시맨틱 단어가 나오는 문서 내의 문장에 대한 포인터와 함께 인덱싱된다. 이러한 시맨틱 인덱스(260)의 프레임워크는 매칭 컴포넌트(265)가 제출된 쿼리와 대응하는 의미 있는 검색 결과를 복구하기 위해 저장된 정보를 효율적으로 액세스하고, 탐색하며, 대조할 수 있게 한다.
클라이언트 장치(215), 쿼리 구문 분석 컴포넌트(235) 및 시맨틱 해석 컴포넌트(245)는 쿼리 조건부 파이프라인(205)을 포함한다. 인덱싱 파이프라인(210)과 유사하게, 쿼리 조건부 파이프라인(205)은 일련의 단어들로부터 의미 있는 정보를 추출한다. 그러나, 문서(230) 내의 구절을 처리하는 것과 대조적으로, 쿼리 조건부 파이프라인(205)은 쿼리(225) 내에 제출된 단어를 처리한다. 예를 들어, 쿼리 구문 분석 컴포넌트(235)는 쿼리(225)를 수신하고, 단어를 시맨틱 분석을 할 수 있게 준비하는 다양한 절차를 실행한다. 이들 절차는 텍스트 추출, 엔티티 인식 및 구문 분석과 같은 문서 구문 분석 컴포넌트(240)에 의해 이용된 절차와 유사할 수 있다. 게다가, 쿼리(225)의 구조는 문법 명세 컴포넌트(255)의 프레임워크 및 시맨틱 해석 컴포넌트(245) 내에 유지된 규칙을 적용함으로써 식별될 수 있으므로, 쿼리(225)의 의미 있는 표현 또는 명제를 얻을 수 있다.
실시예에서, 시맨틱 해석 컴포넌트(245)는 시멘틱 해석 컴포넌트(250)가 문서(230) 내의 텍스트의 구절로부터 얻은 시맨틱 구조를 해석할 때와 상당히 유사한 방식으로 쿼리 시맨틱 표현을 처리할 수 있다. 다른 실시예에서, 시맨틱 해석 컴포넌트(245)는 쿼리(225)를 포함하는 키워드(예를 들어, 질문 또는 구) 열 내의 키워드의 문법 및/또는 시맨틱 관계를 식별할 수 있다. 예시적으로, 문법 및/또는 시맨틱 관계를 식별하는 것은 단어 또는 구가 쿼리(225)의 명제의 주어(행동의 행위자), 목적어, 술어, 간접 목적어 또는 시제로서 기능을 하는지 식별하는 것을 포함한다. 다른 예에서, 명제는 각각의 키워드와 관련된 논리적 언어 구조를 식별하기 위해 평가된다. 예시적으로, 평가는 다음 단계들 중의 하나 이상: 키워드들 중의 최소한 하나의 기능을 판정하는 단계; 기능에 기초하여, 키워드를, 다수의 의미를 포함하는 논리적 변수로 대체하는 단계(예를 들어, 다수의 의미를 기능과 관련시키는 단계); 및 쿼리의 명제에 이들 의미를 기입하는 단계 중의 하나 이상을 포함할 수 있다. 그 다음, 이러한 쿼리(225)의 명제, 키워드, 및 명제 및/또는 키워드로부터 추출된 정보는 문서(230)로부터 추출되고 시맨틱 인덱스(260)에 저장된 시맨틱 표현에 대해 비교하기 위해 매칭 컴포넌트(265)에 보내진다.
예시적인 실시예에서, 매칭 컴포넌트(265)는 일치하는 시맨틱 표현을 확인하기 위해 시맨틱 인덱스(260)에서의 시맨틱 표현에 대해 쿼리(225)의 명제를 비교한다. 이들 일치하는 시맨틱 표현은 문서(230), 및 시맨틱 표현이 얻어진 이 문서 내의 위치를 연관시킴으로써 이들 시맨틱 표현이 추출된 문서(230)에 다시 매핑될 수 있다. 연관된 위치에 의해 표적이 된 이들 문서(230)는 수집되고, 랭킹 컴포넌트(270)에 의해 정렬된다. 정렬은 관련된 분야에 알려져 있는 임의의 방법으로 실행될 수 있고, 일치 근사도에 따라 순위 정하기, 반환된 문서(230)의 인기도에 기초하여 목록 만들기, 또는 쿼리(225)를 제출하는 사용자의 속성에 기초하여 정렬하기를 포함할 수 있는데, 이에 제한되는 것은 아니다. 이들 순위가 정해진 문서(230)는 검색 결과(285)를 포함하고, UI 디스플레이(295) 상에 적절한 포맷으로 떠있게 하기 위해 프레젠테이션 장치(275)에 전달된다.
도 2를 계속 참조하면, 이 예시적인 시스템 아키텍처(200)는 본 발명의 실시양상을 실행하도록 구현될 수 있는 적합한 환경의 일례에 불과하고, 본 발명의 용도 또는 기능성에 관해 어떤 제한을 암시하고자 하는 것이 아니다. 도시된 예시적인 시스템 아키텍처(200) 또는 자연 언어 엔진(290)은 도시된 컴포넌트(235, 240, 245, 250, 255, 260, 265 및 270) 중의 임의의 하나 또는 그 조합과 관련하여 어떤 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안 된다. 몇몇 실시예에서, 컴포넌트(235, 240, 245, 250, 255, 260, 265 및 270)의 하나 이상은 독립 실행형 장치로서 구현될 수 있다. 다른 실시예에서, 컴포넌트(235, 240, 245, 250, 255, 260, 265 및 270)의 하나 이상은 클라이언트 장치(215) 내에 직접 통합될 수 있다. 본 분야에 숙련된 기술자들이라면, 도 2에 도시된 컴포넌트(235, 240, 245, 250, 255, 260, 265 및 270)는 특징 및 수적인 면에서 예시적인 것이고, 제한적으로 해석되어서는 안 된다는 것을 이해할 것이다.
따라서, 임의의 수의 컴포넌트는 본 발명의 실시예의 범위 내에서 원하는 기능을 달성하기 위해 이용될 수 있다. 도 2의 다양한 컴포넌트가 명확성을 위해 선으로 도시되었지만, 실제로, 다양한 컴포넌트의 윤곽은 그렇게 뚜렷하지 않고, 비유적으로, 선들은 더욱 정확하게 말하자면, 흐릿하거나 희미할 것이다. 더욱이, 도 2의 몇몇 컴포넌트가 단일 블록으로 도시되지만, 도시는 특징 및 수적인 면에서 예시적인 것이고, 제한적으로 해석되어서는 안 된다(예를 들어, 하나의 프레젠테이션 장치(275)만이 도시되었지만, 더 많은 수가 클라이언트 장치(215)에 통신 가능하게 결합될 수 있다).
이제, 도 3을 참조하면, 본 발명의 실시예에 따라, 문서 내의 텍스트 부분으로부터 생성된 시맨틱 표현의 도면(300)이 도시된다. 텍스트 부분은 예를 들어, 인덱싱 동안 용이한 액세스를 위해 데이터 저장소에 저장될 수 있는 하나 이상의 문서의 내용으로부터 추출될 수 있다. 한 실시예에서, 텍스트 부분이 추출되는 문서는 웹 문서이지만, 다른 실시예에서의 문서는 임의의 유형의 문서 컬렉션으로부터의 임의의 종류의 텍스트 기반 문서일 수 있다. 임의의 문서 컬렉션으로부터 검색된 문서, 또는 심지어, 컬렉션을 갖는 특정 문서의 분석을 위한 문서와 같은 임의의 유형의 문서가 검색될 수 있다는 것은 본 분야에 숙련된 기술자에게 명백해질 것이다. 텍스트 부분은 denounce, say, believe, desire, deny 등과 같은(하지만 반드시 이것에 제한되지는 않음) 텍스트 부분에서 찾아낸 다수의 단어에 의해 식별될 수 있는 간접 화법 및 기타 태도 보고를 포함할 수 있다. 이들 단어는 특정 토픽에 관한 사람의 태도를 설명하기 때문에 태도 보고로 식별된다. 간접 화법은 사람으로부터의 직접 인용의 형태를 취할 수 있고, 또는 간접적인 간접 화법일 수 있다. 다음 예가 도시되고 설명됨에 따라, 위에서 설명된 것들을 포함하여 각종 형태의 간접 화법 및 기타 태도 보고가 명백해질 것이다.
시맨틱 표현은 일반적으로, 다양한 단어의 의미, 단어들 사이의 관계 및 컨텍스트를 포함하는(이에 제한되지는 않음) 3가지 주요 객체를 포함한다. 시맨틱 표현은 예를 들어, 문서(예를 들어, 웹 문서) 내의 단어와 일치된 쿼리로부터의 키워드에만 의존하는 것보다 더 완전한 텍스트의 이해를 허용한다. 여기에서, 관계는 텍스트의 더 깊은 분석을 할 수 있게 하기 위해 판정된다. 도면(300)은 텍스트 부분(305), 제1 연관성 레벨(310), 제2 연관성 레벨(320) 및 제3 연관성 레벨(330)을 포함한다. 각 연관성 레벨(310, 320 및 330)은 하나 이상의 요소 및 하나 이상의 관계 요소를 포함한다. 관계 요소는 도 3의 실시예에서 아이템(312, 314, 316, 322, 332 및 334)에 의해 표현된다. 요소는 단어 "denounce", "Bush", "Washington", "calls", "withdraw", "US" 및 "Iraq"를 포함한다. 또한, 각 연관성 레벨에 대해 도시된 것은 여기에서, 단어 "denounce", "calls" 및 "withdraw"인 보고 행위이다. 이와 같이, 몇몇 실시예에서, 요소이지만, "denounce", "calls" 및 "withdraw"와 같은 보고 행위로서 분류되는 몇 개의 단어가 있다.
도 3의 실시예를 명확하게 나타내기 위해, 시맨틱 표현은 다음과 같이, "In Washington, George Bush denounced calls for the US to withdraw from Iraq"인 텍스트 부분(305)에 대해 도시된다. 주의할 점은 도 3이 아래에 재현되는 시맨틱 표현의 도면이라는 것이다. 이 예는 단지 도시 목적을 위해 도면 형식과 시맨틱 표현으로 제공된다. 몇몇 실시예에서, 시맨틱 표현은 생성되어, 도 2의 시맨틱 인덱스(260)와 같은 시맨틱 인덱스 내에 저장되지만, 도면들은 생성되지 않는다. 이들 실시예에서, 도면은 단지 도시 및 예시 목적을 위해 재현된다.
Figure 112010019116621-pct00001
도시된 바와 같이, 텍스트 부분(즉, 도 3의 아이템(305))에서 식별된, 여기에서 컨텍스트라고도 칭해지는 3개의 연관성 레벨이 있다. 연관성 레벨, 또는 컨텍스트는 Context(top), Context(3) 및 Context(5)이다. 연관성 레벨은 일반적으로는 동작 단어이고, 몇몇 실시예에서는 동사인 보고 행위의 토픽으로 식별된다. 여기에서, "denounce"는 제1 연관성 레벨(310)과 연관된 보고 행위이다. 제2 연관성 레벨(320)은 제1 연관성 레벨(310)에서 식별된 보고 행위인 "denounce"의 토픽으로 생각될 수 있다. 이와 유사하게, 제3 연관성 레벨(330)은 제2 연관성 레벨(320)에서 식별된 보고 행위인 "calls"의 토픽일 수 있다.
연관성 레벨은 동일한 방식으로 모두 들어맞는 관계들의 묶음을 함께 모으기 위해 형성된다. Context(top)과 같은 상위 연관성 레벨은 문장의 모든 질문에 따라 들어맞는 것일 수 있다. 예를 들어, 도 3의 실시예에서, 부시가 무엇을 비난했든 워싱톤에서 성명을 발표한 것은 사실일 수 있다. 부시가 비난한 그 성명은 삽입된 컨텍스트이고, 삽입된 컨텍스트는 이 실시예에서 "calls for the US to withdraw from Iraq"이다. 이라크로부터의 철수가 일어나지 않았기 때문에, 이 예에 따르면, 이 문장은 여기에서 가설 컨텍스트라 칭해질 수 있는 제2 연관성 레벨에 위치한다. 위에서 설명한 컨텍스트 구조 또는 연관성 레벨을 사용하면, 상이한 시맨틱 관계는 상이한 상황에서 또는 상이한 방식으로 들어맞는 것으로 식별될 수 있다.
보고 행위는 다수의 요인에 기초하여 판정될 수 있고, 보고 행위는 각 연관성 레벨에 대해 식별될 수 있다. 몇몇 경우에, 보고 행위는 도 3의 실시예에서, "denounce", "calls" 및 "withdraw"와 같은 동작 단어이다. 보고 행위는 예를 들어, 동사, 명사 등일 수 있고, 통상적으로 주변 텍스트에 의해, 또는 문장 안에서 단어가 어떻게 사용되는지에 의해 판정된다. 이러한 유형의 문법 정보는 예를 들어, 도 2의 문법 명세 컴포넌트(255)의 프레임워크에 유지될 수 있는 규칙 집합을 적용함으로써 판정될 수 있다. 규칙 집합 또는 문법을 적용함으로써, 단어들의 관계가 판정되어, 보고 행위를 식별하게 한다.
도 3에 도시된 바와 같이, 보고 행위는 단어 또는 구와 같은 요소에 연결되고, 또는 상이한 연관성 레벨에 연결될 수 있다. 보고 행위는 이 예에서, 비난 이벤트라 칭해질 수 있는 이벤트의 역할로 식별될 수 있다. 예를 들어, "denounce"는 제1 연관성 레벨(310)에 대한 보고 행위로 식별된다. 단어 "denounce"는 단어 "Bush" 및 단어 "Washington"에 연결되는데, 이 두 단어는 의미론적으로 분석되는 텍스트 부분에 나온다. Bush가 실제로 비난하고 있어서, "Bush"가 단어 "denounce"의 행위자이기 때문에, "denounce"는 "Bush"에 연결된다. 그러므로, 행위자(312)는 2개의 단어를 함께 연결하는 관계 요소이므로, 시맨틱 관계를 형성한다. 이와 마찬가지로, 위치(314)는 "denounce" 및 "Washington"을 포함하는 2개의 단어를 함께 연결하는 관계 요소이다. 상이한 계층의 컨텍스트 내의 단어(들)와 관계 요소를 연결하기 위해, 2개를 함께 연결하는 토픽이 발견될 수 있다. 예를 들어, 어떤 이벤트가 비난받고 있는지 판정될 수 있고, 그것이 보고 행위 "denounce"의 토픽일 수 있다. 여기에서, 무엇인가에 대한 요구는 "denounce"의 토픽(316)일 수 있고, 심지어 더 나아가, 이라크로부터의 US의 철수는 제2 연관성 레벨 내의 보고 행위인 "calls" 또는 요구하는 이벤트의 토픽(322)으로 식별될 수 있다. 제3 연관성 레벨(330) 내에서, "US"는 철수의 행위자(332)로 식별되고, "Iraq"는 철수의 위치(334)이다.
요소는 원시 내용으로부터 구문 분석되고, 여기에서는 "denounce", "Bush", "Washington", "calls", "withdraw", "US" 및 "Iraq"와 같은 단어를 포함한다. 이들 단어 중의 하나 이상은 논리 변수에 의해 시맨틱 표현으로 표현될 수 있는 유사한 의미를 가질 수 있다. 이 논리 변수는 요소가 속하는 범주들인, 요소와 유사한 의미를 갖는 다수의 동의어를 표시할 수 있고, 또한 요소가 가질 수 있는 다수의 의미를 표시할 수 있다. 몇몇 요소는 정확한 의미를 판정하기가 다른 요소보다 쉽다. 의미는 한 예에서, 요소가 텍스트 부분의 컨텍스트 내에서 어떻게 사용되는지에 기초하여 판정될 수 있다. 위에 나타낸 바와 같이, "Bush"는 사람으로 식별되는 "George Bush"로 식별된다. 보고 행위인 "denounce"는 단지 예시적으로 여기에 제공된 "criticize" 및 "say"와 관련된다. "denounce"와 유사한 의미를 갖는 다수의 다른 단어가 있을 수 있고, 또한 그것과 관련되는 것으로 판정될 수 있다. 또한, "Washington"은 도시를 포함하는 범주들, 및 위치와 관련된다. "withdraw"는 "move"와 관련되고, "US" 및 "Iraq"는 나라 및 위치로 분류된다.
도 3에 도시된 것과 같은 시맨틱 표현은 사용자의 쿼리가 수신되어 분석된 후에, 더욱 양호하고, 더욱 정확하며, 더욱 관련성 있는 검색 결과가 사용자에게 반환될 수 있게 한다. 예를 들어, 텍스트(예를 들어, 타깃 문장)인 "In Washington, George Bush denounced calls for the US to withdraw from Iraq"를 구문 분석하고, 위에서 설명된 바와 같이 시맨틱 관계를 밝혀냄으로써, 이 텍스트는 "What did Bush say about Washington"이 아니라 "What did Bush say about Iraq"와 같은 자연 언어 쿼리를 수신하면 사용자에게 반환될 수 있다. 종래의 키워드 검색은 "denouncing"을 "saying"의 형태로 식별할 수 있다는 가정 아래, 타깃 문장 내에서 용어 "Washington", "US" 및 "Iraq"에 동일한 두드러짐을 부여하여, "say Bush Washington"과 같은 키워드 쿼리에 의한 검색을 초래할 수 있다. 용어 "denounced"를 그 직접 인자인 "calls"에 연결한, 하지만 더 이상 나아가지는 않는, 더욱 향상된 인덱싱 방식은 비난이 이라크에 대한 것이었다는 것을 검출하지 못할 것이다. 용어 "Washington"은 분석되고 있는 텍스트 부분 내에 포함되는 것으로 식별되지 않기 때문에, 위치(314)의 보고 행위에 의한 것 외에는 "denounce"에의 연결에서 제외된다.
도 4는 본 발명의 실시예에 따라, 문서 내의 텍스트 부분으로부터 생성된 시맨틱 표현의 도면(400)을 도시한 것이다. 다시, 텍스트 부분은 denounce, say, believe, desire, deny 등과 같은(하지만 반드시 이것에 제한되지는 않음) 텍스트 부분에서 찾아낸 다수의 단어에 의해 식별될 수 있는 간접 화법 및 기타 태도 보고를 포함할 수 있다. 도 3의 실시예가 단어들 사이의 시멘틱 관계를 분석한 결과로서 시멘틱 표현을 제공하지만, 이 표현은 동사 "denounce"에 대한 인자가 비난의 내용을 전한다는 것에 대한 정보가 보충될 수 있다. 추가 사전 정보는 비난이 무엇에 대한 것인지 나타내기 위해 추가될 수 있다. 아래는 다음과 같이, "In Washington, George Bush denounced calls for the US to withdraw from Iraq"인 도 3에서 사용된 것과 동일한 텍스트의 시맨틱 표현이다. 그러나, 여기에서, "어바웃(about)" 관계는 쿼리를 수신한 후에 훨씬 더 관련성 있는 검색 결과를 준비하기 위해 도 3의 실시예에서 형성된 관계 이외에 형성된다.
Figure 112010019116621-pct00002
"어바웃니스(aboutness)" 연결이 계산되고 기록될 수 있는 여러 가지 방법이 있다. 한 가지 방법은 컨텍스트의 이행적 폐쇄부분(transitive closure) 및 인자 연결부분(argument linkage)을 계산하는 것인데, 인자 연결부분은 토픽 인자에서부터 시작하고, 이 폐쇄부분 내의 임의의 용어에 보고가 무엇에 대한 것이라는 표시를 한다. 이것은 위의 시맨틱 표현으로 도시되고, 도 4에도 도시된다.
도 4는 의미론적으로 표현되는 텍스트 부분(405)을 도시한 것이다. 도 3에서와 마찬가지로, 도 4는 3개의 연관성 레벨, 즉 제1 연관성 레벨(410), 제2 연관성 레벨(430) 및 제3 연관성 레벨(440)을 도시한 것이다. "denounce"는 제1 연관성 레벨(410)의 보고 행위이고, "calls"는 제2 연관성 레벨(430)의 보고 행위이며, "withdraw"는 제3 연관성 레벨(440)의 보고 행위이다. 도시된 바와 같이, "denounce"는 이제, 이전의 관계 이외에 "어바웃" 관계가 도시되기 때문에, 도 3의 실시예에서 갖는 것보다 더 많은 시맨틱 관계를 갖는다. 시맨틱 관계는 관계 요소 행위자(412)를 갖는 "Bush", 관계 요소 위치(414)를 갖는 "Washington" 및 비난 이벤트의 관계 요소 토픽(416)을 갖는 제2 연관성 계층(430)의 각각과 "denounce" 사이에서 판정되었다. 더욱이, 제3 연관성 계층(440)은 calls의 토픽(432)이고, "US"는 철수의 행위자(442)이며, "Iraq"는 철수의 위치(444)이다.
이들 관계 이외에, 몇 가지 "어바웃" 관계가 도시되는데, 제3 연관성 계층(440) 내의 "withdraw"에 연결된 어바웃(418), 제2 연관성 계층(430) 내의 "calls"에 연결된 어바웃(420), 제3 연관성 계층(440) 내의 "US"에 연결된 어바웃(422) 및 또한 제3 연관성 계층(440) 내의 "Iraq"에 연결된 어바웃(424)을 포함한다. 이와 같이, 비판 이벤트는 철수에 대한 것이고, 요구에 대한 것이며, US에 대한 것이고, 이라크에 대한 것이다. 도시된 바와 같이, 비판 이벤트는 부시에 대한 것도 아니고, 워싱턴에 대한 것도 아니다. 이들 "어바웃" 관계를 판정하고, 부시 및 워싱턴과의 "어바웃" 관계를 막는 것은 예를 들어, 사용자에게 반환되는 관련성 없는 검색 결과를 제거한다.
도 5를 참조하면, 본 발명의 실시예에 따라, 문서 내의 텍스트 부분으로부터 생성된 시맨틱 표현의 도면(500)이 도시된다. 이 실시예의 시맨틱 표현은 다음과 같은 텍스트 부분(505): "In Washington, George Bush denounced calls for the US to withdraw from Iraq"에 대해 아래에 도시된다.
Figure 112010019116621-pct00003
위에 나타낸 바와 같이, 도 4의 경우에서와 마찬가지로, 보고가 어바웃인 각 요소를 표시하는 대신에, 인덱스는 각 보고된 사실의 헤드만을 표시한다. 예를 들어, 도 5는 "denounce"가 제1 연관성 레벨(510)의 보고 행위로 식별되었고, 관계 요소 행위자(512)에 의한 "Bush" 및 관계 요소 위치(514)에 의한 "Washington"과 같은 다양한 요소에 연결된다는 것을 도시하고 있다. 더욱이, "denounce"의 토픽(516)은 일부가 제2 연관성 레벨(530) 내에 포함되고, 일부가 제3 연관성 레벨(540) 내에 포함되는 "calls for the US to withdraw from Iraq"로 식별되었다. "calls"는 관계 요소 토픽(532)에 의해 제3 연관성 레벨(540)에 연결된다. 제3 연관성 레벨(540) 내에서, "withdraw"는 각각 관계 요소 행위자(542) 및 위치(544)에 의해 "US" 및 "Iraq"에 연결된다.
위에서 정의된 관계 이외에, 그리고 "어바웃" 관계 대신에, 스포큰(spoken)이라고 불리는 2개의 관계 요소가 있고, "withdraw"에 연결된 스포큰(518) 및 "calls"에 연결된 스포큰(520)으로 도시된다. 이 프레임워크도 여전히 "withdraw", "US" 및 심지어 "Iraq"와 "denounce" 사이의 접속을 허용한다. 차이점은 도 5의 실시예에서의 관계가 직접 관계가 아니라 간접 관계라는 것이다. 위에서 설명된 바와 같이, 이 실시예를 이용하는데 있어서의 상반되는 점은 인덱스 내의 메모리 사용이 감소되는 반면, 쿼리가 수신된 후의 계산에 필요한 시간이 증가된다는 것이다.
도 5를 계속 참조하면, 예를 들어, 공간-시간 상반성의 개념을 설명하는, 도 4의 실시예에 대한 대안적인 실시예가 도시된다. 도 4의 도면과 도 5의 도면을 비교하면 알 수 있는 바와 같이, 도 5의 도면은 "어바웃" 관계 요소를 사용하는 어떠한 "어바웃" 관계 요소도 명시적으로 포함하지 않기 때문에, 더욱 단순해 보인다. 도 5가 더 적은 수의 식별된 관계를 포함하기 때문에, 인덱스 내의 더 작은 양의 공간을 차지하므로, 인덱스가 저장되는 데이터 저장소도 더 작게 차지한다. 더 작은 메모리 및 저장 공간이 도 5의 실시예에서 사용될 수 있지만, "어바웃" 관계가 미리 식별되지 않았기 때문에, 쿼리 명제를 인덱스 내의 시맨틱 표현과 대조하는데 더 많은 시간이 요구될 수 있다. 달리 말하면, "어바웃" 관계는 신속한 비교를 할 수 있게 하기 위해 인덱스 내에 명시적으로 부호화되지는 않았다. 이것은 후단에서 훨씬 더 많은 컴퓨팅을 필요로 하여, 사용자의 대기 시간을 증가시킬 수 있다. 대안적으로, 도 4의 실시예는 미리 "어바웃" 관계를 명시적으로 계산하고, 이들 관계를 인덱스 내에 저장하여, 쿼리 명제와 시맨틱 표현의 신속한 비교를 가능하게 해서, 사용자가 쿼리를 입력한 후 계산에 필요한 시간을 줄어들게 한다.
도 6은 본 발명의 실시예에 따라, 문서 내의 텍스트 부분으로부터 생성된 시맨틱 표현의 도면(600)을 도시한 것이다. 도 6의 실시예는 도 3 및 4의 실시예와 유사하지만, 그보다 더욱 단순한 예를 도시한다. 텍스트 부분(605)은 다음: "John believes that Mary went to Washington"을 나타내고 있다. 아래는 텍스트 부분(605)의 시맨틱 표현이다.
Figure 112010019116621-pct00004
원시 내용으로부터 구문 분석된 요소는 "John", "believe", "go", "Mary" 및 "Washington"을 포함한다. "believe"는 제1 연관성 레벨(610) 내의 보고 행위로 식별되고, "go"는 제2 연관성 레벨(630) 내의 보고 행위이다. 위에서 정의된 바와 같이, 함께 요소들을 연결하고, 연관성 유형을 설명하는 관계 요소는 행위자(612), 토픽(614), 어바웃(616), 어바웃(618), 어바웃(620), 행위자(632) 및 위치(634)를 포함한다. 제2 연관성 레벨(630)은 "believe"의 토픽인데, "believe"의 보고 행위인, "어바웃"인 3개의 단어가 있다. "believe"는 "Mary"에 대한 것이고, Mary가 "간(went)" 곳(예를 들어, go)에 대한 것이며, 및 Mary가 간 곳(예를 들어, "Washington")에 대한 것이다. 다시, 몇몇 실시예에서, 논리 변수는 요소로 대체될 수 있고, 논리 변수는 다수의 동의어, 그 요소 또는 단어의 다양한 의미, 또는 기타 등등과 관련될 수 있다.
이제, 도 7을 참조하면, 본 발명의 실시예에 따라, 검색 쿼리로부터 생성된 명제의 도면(700)이 도시된다. 명제는 시맨틱 표현(예를 들어, 웹 문서로부터 얻은 내용의 표현)과 유사한 방식으로 생성된다. 여기에서, 쿼리(705)는 다음과 같다: "Who said something about Iraq?". 명제는 아래에 표시된다.
Figure 112010019116621-pct00005
쿼리의 구문 분석 및 쿼리에 관한 시맨틱 분석의 실행은 도 7에 도시된 바와 같이, 쿼리의 길이가 일반적으로 짧고, 쿼리가 하나의 연관성 레벨만을 포함하기 때문에, 문서의 내용에 관한 동일한 분석을 실행하는 것보다 통상적으로 훨씬 더 단순하다. 연관성 레벨(710)은 "Person", "say" 및 "Iraq"를 포함하여, 구문 분석되거나 식별된 몇 개의 요소를 포함한다. 추가 요소가 있지만, 이것은 단 하나의 단어가 아니라 많은 것들이 있을 수 있기 때문에 와일드 카드(wild card)와 유사하다. 이 추가 요소는 쿼리로부터의 단어 "something"을 나타낸다. 한 실시예에서, 임의의 것(anything)에 일치할 수 있는 "something"과 같은 요소는 명제가 시맨틱 표현과 대조되고 있을 때 제한을 두지 않기 위해, 쿼리가 구문 분석되고 있을 때 쿼리로부터 추출될 수 있다.
도 7에 도시된 명제는 또한 몇몇 관계 요소 이외에, 보고 행위 "say"를 포함한다. 행위자(712)는 "person"을 "say"에 연결한다. 어바웃(714)은 "say"를 "Iraq"에 연결하고, 토픽(716)은 "say"를, 위에서 설명된 바와 같이 임의의 것일 수 있는 와일드 카드 요소에 연결한다. 도시된 바와 같이, 단어 "who"는 명제 내의 "person"으로 대체된다.
도 3 및 4와 관련하여 위에 도시된 것들과 같은 문서(예를 들어, 웹 문서)의 내용으로부터 생성된 시맨틱 표현, 및 도 6과 관련하여 위에 도시된 것과 같은 쿼리로부터 생성된 명제는 수신된 쿼리로부터 가장 관련성 있는 검색 결과를 판정하기 위해 대조되거나 연결될 수 있다. 예를 들어, 아래의 시맨틱 표현은 시맨틱 표현과 명제의 매칭을 도시한 것이다. 일치하는 것들은 서로 인접하게 도시된다.
Figure 112010019116621-pct00006
행위자 대 행위자의 일치와 같은 관계 요소들의 일치가 있으면, 관계 요소와 연관된 요소는 단어가 동일한지, 심지어 유사한지 판정하기 위해 조사된다. 위에서, "denounce"는 검색을 넓게 하기 위해 "say"와 연관되고, "Bush"는 동일한 이유로 "person"과 연관된 것으로 언급되었다. 그러므로, Context(top): DNC agent : B와 Context(top): SY-2 agent : P-2 사이에서 일치가 발견된다.
도 8은 본 발명의 실시예에 따라, 문서 내의 2개의 문장으로 이루어진 텍스트 부분으로부터 생성된 시맨틱 표현의 도면(800)을 도시한 것이다. 도 8의 실시예는 특히 문장들이 관련되는 경우에, 2개 이상의 문장이 단일 시맨틱 표현으로 표현될 수 있다는 것을 도시하고 있다. 여기에서, 동일한 사람인 Bush에 의한 2개의 문장이 작성된다. 그러므로, 그것은 뜻이 통하고, 2개의 문장을 하나의 표현으로 하는 것이 적절하다. 주의할 점은 임의의 수의 문장 또는 심지어 구가 시맨틱 표현을 생성하기 위해 함께 그룹화될 수 있다는 것이다. 예를 들어, 문서(예를 들어, 웹 문서)로부터 추출된 내용을 구문 분석하는 프로세스는 사용된 구두점 및 대문자 사용과 같은 특정 속성에 대해 문자열을 테스트하기 위해 규칙 집합을 적용함으로써 실행될 수 있다. 이들 속성을 이해함으로써, 이러한 규칙 집합은 텍스트 부분(805 및 810)으로서 도 8에 도시된 것들과 같은, 함께 속하는 다양한 문장 또는 구를 판정할 수 있다. 이 프로세스는 도 2의 컴포넌트(240)와 같은 문서 구문 분석 컴포넌트에 의해 실행될 수 있다.
제1 텍스트 부분(805)에 대해, 2개의 연관성 레벨이 도시된다. 제1 연관성 레벨(820)(예를 들어, Top Context(t)), 및 제2 연관성 레벨(840)(예를 들어, Context(ctx-7))은 제1 연관성 레벨(820) 내에 위치한 보고 행위 "say"에 의해 직접 연결된다. "say"와 제2 연관성 레벨(840)은 "calls to withdraw are bad" 문장이 Bush가 말한 것의 토픽이 되도록, 토픽 관계 요소(824)에 의해 연관된다. 다수의 "어바웃" 관계가 또한 형성되어, 위에서 설명된 바와 같이, 검색 결과의 정확도를 더 높일 수 있다. 제1 연관성 레벨(820) 내에서, "say"는 Bush가 이들 단어를 이야기하거나 말한 사람 또는 행위자이기 때문에, 행위자 관계 요소(822)를 통해 "Bush"에 연결된다. 더욱이, 어바웃 관계 요소(826, 828 및 830)는 각각 "say"에서 "withdraw", "calls" 및 "bad"로 연결된다. 이들 "어바웃" 관계 또는 연관성은 이들 관계와 쿼리 명제에서 찾아낸 유사한 관계의 매칭을 효율적이고 효과적일 수 있게 한다. 제2 연관성 계층(840) 내의 추가 보고 행위 "calls"는 직접, 관계 요소 토픽(842)에 의해 "withdraw"에 연결되고, 관계 요소 변경자(844)에 의해 "bad"에 연결된다.
주의할 점은 우리가 제1 텍스트 부분(805)과 관련된 도면을 통해 조작해 내려갈 수 있는 다수의 방법이 있다는 것이다. 예를 들어, "withdraw"에 도달하기 위해, 한 가지 경로는 "어바웃니스" 관계(예를 들어, 관계 요소 어바웃(826))를 이용함으로써 "say"에서 직접 "withdraw"로 가는 것이다. 다른 경로는 "calls"에 도달하기 위해 관계 요소 어바웃(828)을 먼저 이용한 다음에, "withdraw"가 "calls"의 토픽이기 때문에 관계 요소 토픽(842)에 의해 "withdraw"에 연결함으로써, 간접적으로 "withdraw"에 도달한다. 더욱이, 관계 요소 토픽(824)을 사용하여, 제2 연관성 계층(840)에 도달될 수 있고, 이 제2 연관성 계층(840) 내에서 "withdraw"가 발견된다.
제1 텍스트 부분과 따로 제2 텍스트 부분(810)을 보면, 보고 행위 "stay"는 그 텍스트 부분에서 식별된다. 텍스트 부분은 상당히 단순하고 짧으므로, 하나의 연관성 레벨(850)만이 식별된다(예를 들어, Context(ctx-12)). "stay"는 관계 요소 행위자(858)에 의해 "US"와 연관되거나 연결되고, 관계 요소 위치(862)에 의해 "Iraq"에 연관되거나 연결된다. 게다가, 용어 "should"가 텍스트 부분(810)에서 발견된다. 언어학적으로, "should"는 광범위하게 가능성 및 필연성의 개념과 관련된 표현인 조동사라 칭해질 수 있다. 이와 같이, 조동사(예를 들어, should)는 이 실시예에서 관계 요소(860)로서 사용되고, "stay"와 관련된다. 2개의 텍스트 부분(805 및 810)은 이제, 제1 텍스트 부분(805)과 제2 텍스트 부분(810) 사이의 "어바웃니스" 관계를 판정하기 위해 서로 뒤얽힐 수 있다. 도 8은 각각 관계 요소 어바웃(852), 어바웃(854) 및 어바웃(856)을 통해 "US", "stay" 및 "Iraq"와 "say" 사이에서 "어바웃" 관계가 형성되는 것을 도시하고 있다.
이제, 도 9를 참조하면, 본 발명의 실시예에 따라, 내용의 시맨틱 표현을 생성하기 위해 문서의 내용으로부터 추출된 요소들 사이의 시맨틱 관계를 밝혀내는 방법을 도시하는 흐름도(900)가 도시된다. 처음에, 단계(910)에서, 문서의 텍스트 부분이 식별되는데, 이것은 식별된 텍스트 부분이 인덱싱되어, 예를 들어 도 2의 시맨틱 인덱스(260) 내에 저장될 수 있게 한다. 텍스트 부분은 도 2의 데이터 저장소(220)와 같은 데이터 저장소에 저장될 수 있는 웹 페이지와 같은 하나 이상의 문서의 내용으로부터 얻어질 수 있다. 내용이 문서로부터 추출될 때, 내용의 형식은 변환을 필요로 하는 원시 온라인 형식일 수 있다. 한 실시예에서, 내용은 텍스트 부분을 생성하기 위해 원시 온라인 형식에서 HTML(HyperText Markup Language)로 변환된다. 내용은 하나 이상의 문장 또는 구, 표, 템플릿 또는 다수의 데이터의 형태로 추출될 수 있다. 텍스트 부분은 denounce, say, believe, desire, deny 등과 같은(반드시 이것에 제한되는 것은 아님) 텍스트 부분에서 찾아낸 다수의 단어에 의해 식별될 수 있는 간접 화법 및 기타 태도 보고를 포함할 수 있다. 이들 단어는 특정 토픽에 관한 사람의 태도를 설명하기 때문에 태도 보고로 식별된다. 간접 화법은 사람으로부터의 직접 인용의 형태를 취할 수 있고, 또는 간접적인 간접 화법일 수 있다.
한 실시예에서, 텍스트 부분은 더욱 인덱싱하기 위해 의미론적으로 표현되어야 할 하나 이상의 요소를 식별하기 위해 구문 분석될 수 있다. 구문 분석은 또한 텍스트 추출 및 엔티티 인식을 포함할 수 있는데, 엔티티는 예를 들어, 데이터 저장소(220)에 저장된 미리 정의된 단어 목록을 검색함으로써 인식된다. 이 절차는 사람 또는 물건의 이름일 수 있는 단어를 인식하는 것을 돕는다. 단계(920)에서, 식별된 요소들의 각각에 대한 시맨틱 정보가 판정된다. 시맨틱 정보는 식별된 요소의 하나 이상의 의미 및/또는 문법적 기능을 포함할 수 있다. 한 실시예에서, 동의어 또는 상위어가 또한 판정되어, 시맨틱 정보로서 포함될 수 있다. 더욱이, 몇몇 실시예에서, 하나 이상의 단어는 유사한 의미를 지닐 수 있고, 이들 단어 및 의미는 소정의 요소를 논리 변수로 대체함으로써 논리 변수에 의해 시맨틱 표현으로 표시될 수 있다. 이 논리 변수는 요소가 속하는 범주들인, 요소와 유사한 의미를 갖는 다수의 동의어를 표시할 수 있고, 또한 요소가 가질 수 있는 다수의 의미를 표시할 수 있어서, 넓어졌지만 더욱 정확한 검색을 가능하게 한다. 논리 변수는 데이터 저장소에 저장될 수 있다.
단계(930)에서, 식별된 요소들 중의 최소한 하나는 화법 보고 또는 태도 보고에 대응하는 보고 행위로 식별된다. 단계(940)는 식별된 요소가 시맨틱 관계를 형성하기 위해 서로 연관되고, 형성된 연관성은 상기 단계(920)에서 판정된 시맨틱 정보에 기초한다는 것을 나타낸다. 한 실시예에서, 하나 이상의 연관성 레벨 또는 컨텍스트가 판정될 수 있고, 각 연관성 레벨은 식별된 요소들 중의 하나 이상을 포함할 수 있다. 상이한 연관성 레벨 내의 요소는 서로 연관될 수 있고, 보고 행위를 통해 연관될 수 있다. 보고 행위는 예를 들어, 동사, 명사 등일 수 있고, 통상적으로 주변의 텍스트, 또는 단어가 문장 내에서 어떻게 사용되는지에 의해 판정된다. 이러한 유형의 문법 정보는 예를 들어, 도 2의 문법 명세 컴포넌트(255)의 프레임워크 내에 유지될 수 있는 규칙 집합을 적용함으로써 판정될 수 있다. 단지 예시적으로, 텍스트 부분이 "In Washington, Bush denounced calls for the US to withdraw from Iraq"를 열거하고 있다고 가정하자. 여기에서, 3개의 연관성 레벨이 식별될 수 있는데, 각 레벨은 보고 행위를 포함한다. 3개의 각 연관성 레벨에 대한 보고 행위는 "denounced", "calls" 및 "withdraw"로 식별될 수 있다.
연관성 레벨(예를 들어, 컨텍스트) 및 보고 행위 외에, 관계 요소가 또한 판정될 수 있는데, 이것은 보고 행위와 요소 또는 연관성 레벨 사이의 관계를 설명한다. 예를 들어, 위의 예를 계속 참조하면, "Bush"는 Bush가 비난을 하고 있는 행위자이기 때문에, 관계 요소 행위자를 통해 "denounced"에 연관되거나 연결될 수 있다. 관계 요소는 다양한 관계 형태를 취할 수 있지만, 행위자, 위치, 토픽 또는 어바웃과 같은(이에 제한되지는 않음) 단어일 수 있다. "어바웃" 관계는 보고 행위가 무엇에 관한 것인지 또는 무엇에 대한 것인지 나타낸다. 단계(950)에서, 상기 설명된 식별된 요소의 연관성을 포함하는 시맨틱 표현이 생성된다. 그 다음, 시맨틱 표현은 도 2의 시맨틱 인덱스(260)와 같은 인덱스 내에 저장될 수 있다.
도 10은 본 발명의 실시예에 따라, 쿼리의 수신에 응답하여, 관련성 있는 검색 결과를 제공하기 위해 인덱스 내에 저장된 정보를 조회하는데 사용되는 명제를 생성하기 위해 쿼리로부터 추출된 다양한 용어들 사이의 연관성을 생성하는 방법을 도시한 흐름도(1000)이다. 명제는 문서로부터의 내용의 시맨틱 표현 내에 포함된 시맨틱 관계를 조회하는데 사용되는 쿼리의 개념적 의미의 논리적 표현이다. 쿼리로부터 명제를 생성하는 프로세스는 문서의 내용의 시맨틱 표현을 생성하기 위해 여기에 설명된 프로세스와 매우 유사하다. 처음에, 쿼리는 사용자로부터 입력으로서 수신되고, 한 실시예에서, 수신된 쿼리는 쿼리 내의 하나 이상의 검색 용어를 판정하기 위해 구문 분석된다. 검색 용어는 텍스트 부분에서 식별된 요소와 유사하다.
단계(1010)에서, 하나 이상의 검색 용어의 각각에 대한 시맨틱 정보가 판정되고, 이 시맨틱 정보는 검색 용어의 하나 이상의 의미 및/또는 문법적 기능을 포함할 수 있다. 시맨틱 정보의 판정 이외에, 논리 변수가 식별될 수 있고, 하나 이상의 검색 용어와 연관될 수 있으며, 또는 심지어 하나 이상의 검색 용어를 대체할 수 있다. 논리 변수는 숫자, 문자, 또는 이 둘의 시리즈 또는 조합일 수 있고, 검색 용어와 유사한 의미를 갖는 다수의 단어를 나타낼 수 있다. 이것은 넓어졌지만, 더욱 관련성 있는 검색 결과를 사용자에게 반환할 수 있게 한다. 단계(1020)에서, 제1 보고 행위가 쿼리 내에서 식별된다. 보고 행위는 동사, 명사, 또는 임의의 다른 품사일 수 있고, "say", "call", "denounce", "believe" 등과 같은 행위를 포함할 수 있다. 한 실시예에서, 제2 보고 행위와 같은 2개 이상의 보고 행위가 쿼리 내에서 식별될 수 있다.
시맨틱 관계는 단어들 사이의 연관성을 생성하기 위해 각 보고 행위와, 다른 검색 용어 사이에서 판정될 수 있고, 단계(1030)에 표시된다. 시맨틱 관계는 위에서 설명된 바와 같이, 판정된 시맨틱 정보에 기초할 수 있다. 연관성은 행위자, 위치, 토픽 또는 어바웃과 같은(이에 제한되지는 않음) 연관성을 설명하는 관계 요소에 의해 연결된다. 그외 다른 관계 요소도 물론 본 발명의 범위 내에서 고려된다. 단계(1040)에서, 쿼리로부터 구문 분석된 하나 이상의 검색 용어와 각 보고 행위 사이에서 형성된 연관성을 포함하는 명제가 생성된다. 일단 명제가 생성되면, 명제(예를 들어, 명제 내의 연관성)는 명제에 가장 관련성 있는 일치하는 것을 판정하기 위해, 예를 들어 시맨틱 인덱스(260) 내에 저장된 하나 이상의 시맨틱 표현에 대해 비교되거나 대조될 수 있다. 한 실시예에서, 쿼리는 위에서 설명된 바와 같이, 2개 이상의 연관성 레벨을 포함할 수 있으므로, 보고 행위는 각 연관성 레벨에 대해 식별될 수 있다.
도 11을 참조하면, 본 발명의 실시예에 따라, 내용의 시맨틱 표현을 생성하기 위해, 더 나아가 내용의 인덱싱을 할 수 있게 하기 위해, 문서의 내용으로부터 추출된 요소들 사이의 시맨틱 관계를 밝혀내는 방법을 나타낸 흐름도(1100)가 도시된다. 단계(1110)에서, 인덱싱될 문서(예를 들어, 웹 문서)의 최소한 일부가 식별된다. 문서의 텍스트 부분은 단계(1120)에 나타낸 바와 같이, 의미론적으로 표현되어야 할 요소를 식별하기 위해 구문 분석된다. 단계(1130)에서, 데이터 저장소는 식별된 요소의 잠재적 의미 및 문법적 기능을 판정하기 위해 액세스된다.
도 11을 계속 참조하면, 단계(1140)에서, 텍스트 부분 내의 하나 이상의 연관성 레벨이 판정된다. 텍스트 부분 내의 보고 행위는 단계(1150)에 나타낸 바와 같이, 하나 이상의 판정된 연관성 레벨의 각각에 대해 식별된다. 다음에, 단계(1160)에서, 제1 보고 행위는 위의 단계(1120)에서 판정된 요소들과 판정된 보고 행위 사이의 시맨틱 관계를 분석함으로써 판정되는 제1의 식별된 요소 집합과 연관된다. 제1 보고 행위는 제1 연관성 레벨과 연관된다. 제2 보고 행위는 단계(1170)에서, 제2의 식별된 요소 집합과 연관되고, 제2 보고 행위는 제2 연관성 레벨과 연관된다. 그 다음, 연관성의 시맨틱 표현은 위에서 설명된 바와 같이, 쿼리 명제와의 비교를 포함한 추후 분석을 위해, 예를 들어 시맨틱 인덱스(260) 내에 저장될 수 있도록, 단계(1180)에서 생성될 수 있다.
본 발명은 모든 점에서 제한적이기보다는 예시적으로 나타내고자 하는 특정 실시예와 관련하여 설명되었다. 대안적인 실시예는 본 발명의 범위를 벗어나지 않고서 본 발명이 속하는 본 분야에 숙련된 기술자들에게 명백해질 것이다.
상기 설명으로부터, 본 발명은 본 발명의 방법에 명백하고 고유한 다른 장점들과 함께, 상기 설명된 모든 목적 및 목표를 달성하도록 잘 적응된 것이라는 것을 알 수 있을 것이다. 소정의 특징 및 부조합(subcombination)은 유용하고, 그외 다른 특징 및 부조합에 관계없이 이용될 수 있다는 것을 이해할 것이다. 이것은 청구 범위에 의해 고려되고, 청구 범위 내에 속한다.

Claims (21)

  1. 내용(content)의 시맨틱 표현(semantic representation)을 생성하기 위해 문서의 내용으로부터 추출된 요소들 사이의 시맨틱 관계들을 전개(develop)하는 컴퓨터 구현 방법으로서,
    프로세서 및 메모리를 포함하는 컴퓨팅 장치를 통해, 상기 문서의 텍스트 부분을 식별하는 단계;
    상기 텍스트 부분에서 식별된 다수의 요소에 대한 시맨틱 정보를 판정하는 단계 - 상기 시맨틱 정보는 상기 식별된 요소들의 의미들 또는 상기 식별된 요소들의 문법적 기능들 중의 하나 이상을 포함함 -;
    상기 식별된 요소들 중의 적어도 하나를 상기 텍스트 부분의 주어(subject)로 식별하는 단계;
    상기 텍스트 부분으로부터 다수의 연관성 레벨들을 판정하고, 상기 식별된 요소들 중의 적어도 하나를 상기 다수의 연관성 레벨들 각각에 대한 태도 보고(attitude report)에 대응하는 보고 행위로 식별하는 단계 - 상기 보고 행위는 주변의 텍스트를 부분적으로 이용하는 규칙 집합에 기초하여 식별되고, 상기 태도 보고는 상기 텍스트 부분의 특정 토픽에 대한 상기 주어의 태도를 기술함 -;
    상기 식별된 요소들에 대한 상기 판정된 시맨틱 정보에 기초하여, 식별된 요소들의 각 연관성이 특정 시맨틱 관계를 나타내도록 상기 식별된 요소들을 연관시키는 단계;
    상기 식별된 요소들 서로 간의 연관성들을 나타내는 시맨틱 표현을 상기 컴퓨팅 장치를 통해 생성하는 단계 - 상기 연관성들은 상기 연관성들을 기술하는 관계 요소들을 통해 표현됨 -; 및
    상기 식별된 요소들 및 상기 관계 요소들을 포함하는 상기 시맨틱 표현을 검색용 인덱스에서 인덱싱하는 단계 - 상기 인덱스는 검색가능한 것이고, 상기 시맨틱 표현으로부터 그와 연관된 텍스트 부분으로의 포인터를 포함함 -
    를 포함하는 컴퓨터 구현 방법.
  2. 제1항에 있어서, 상기 텍스트 부분은 하나 이상의 문장, 표, 템플릿 또는 다수의 데이터 중의 적어도 하나를 포함하는 컴퓨터 구현 방법.
  3. 제1항에 있어서, 상기 문서로부터의 상기 내용의 적어도 일부를 검색하기 위해 데이터 저장소를 액세스하는 단계를 더 포함하는 컴퓨터 구현 방법.
  4. 제1항에 있어서, 상기 시맨틱 표현 내에 포함될 상기 다수의 요소를 식별하기 위해 상기 문서의 텍스트 부분을 구문 분석(parsing)하는 단계를 더 포함하는 컴퓨터 구현 방법.
  5. 제1항에 있어서, 상기 텍스트 부분 내의 하나 이상의 엔티티를 인식하는 단계를 더 포함하고, 상기 하나 이상의 엔티티는 데이터 저장소에 저장된 미리 정의된 단어 목록을 검색함으로써 인식되는 컴퓨터 구현 방법.
  6. 제1항에 있어서, 유사한 의미를 갖는 다수의 단어를 상기 식별된 요소들의 각각과 연관시키는 단계를 더 포함하는 컴퓨터 구현 방법.
  7. 제1항에 있어서, 상기 식별된 요소들을 연관시키는 단계는 상기 텍스트 부분 내에서 하나 이상의 연관성 레벨을 식별하는 단계를 포함하고, 상기 하나 이상의 연관성 레벨의 각각은 상기 식별된 요소들 중의 하나 이상을 포함하는 컴퓨터 구현 방법.
  8. 제7항에 있어서,
    상기 하나 이상의 연관성 레벨 중의 적어도 하나에 대한 보고 행위(reporting act)를 식별하는 단계; 및
    제1 보고 행위를 제1의 식별된 요소 집합의 각각과 연관시키는 단계
    를 더 포함하고, 상기 제1 보고 행위는 제1 연관성 레벨과 연관되는 컴퓨터 구현 방법.
  9. 제8항에 있어서, 제2 보고 행위를 제2의 식별된 요소 집합의 각각과 연관시키는 단계를 더 포함하고, 상기 제2 보고 행위는 제2 연관성 레벨과 연관되는 컴퓨터 구현 방법.
  10. 제8항에 있어서, 상기 제1 보고 행위와 상기 제1의 식별된 요소 집합의 각각은 상기 연관성을 설명하는 관계 요소를 통해 연관되는 컴퓨터 구현 방법.
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 내용(content)의 시맨틱 표현을 생성하기 위해 문서의 내용으로부터 추출된 요소들 사이의 시맨틱 관계들을 전개(develop)하고 상기 내용의 인덱싱을 가능하게 하는 방법을 실행하는 컴퓨터 사용 가능 명령어들이 구현되어 있는 하나 이상의 컴퓨터 저장 매체로서, 상기 방법은,
    인덱싱될 상기 문서의 적어도 일부를 식별하는 단계 - 상기 문서의 적어도 일부는 텍스트 부분임 -;
    의미론적으로 표현되어야 할 요소들을 식별하기 위해 상기 문서의 텍스트 부분을 구문 분석(parsing)하는 단계;
    상기 식별된 요소들의 잠재적 의미들 및 문법적 기능들을 판정하기 위해 데이터 저장소를 액세스하는 단계;
    상기 텍스트 부분 내의 다수의 연관성 레벨들을 판정하고 상기 다수의 연관성 레벨들 각각에 대해 보고 행위를 식별하는 단계 - 상기 보고 행위는 주변의 텍스트를 부분적으로 이용하는 규칙 집합에 기초하여 식별되고, 상기 다수의 연관성 레벨은 제1 연관성 레벨의 문장이 제2 연관성 레벨의 문장과 무관하게 참(true)이 되도록 상기 제1 연관성 레벨 및 상기 제2 연관성 레벨을 포함하고, 상기 제1 연관성 레벨 및 상기 제2 연관성 레벨은 상기 제1 연관성 레벨과 연관된 상기 식별된 보고 행위를 통해 서로 연관됨 -;
    제1 보고 행위를 제1의 식별된 요소 집합과 연관시키는 단계 - 상기 제1 보고 행위는 제1 연관성 레벨과 연관됨 -;
    제2 보고 행위를 제2의 식별된 요소 집합과 연관시키는 단계 - 상기 제2 보고 행위는 제2 연관성 레벨과 연관됨 -;
    상기 제1 보고 행위에 대한 상기 제1의 식별된 요소 집합과 상기 제2 보고 행위에 대한 상기 제2의 식별된 요소 집합 사이의 연관성들을 포함하는 시맨틱 표현을, 상기 연관성들을 기술하는 관계 요소들을 통해 생성하는 단계; 및
    상기 식별된 요소들 및 상기 관계 요소들을 포함하는 상기 시맨틱 표현을 검색용 인덱스에서 인덱싱하는 단계 - 상기 인덱스는 검색가능한 것이고, 상기 시맨틱 표현으로부터 그와 연관된 텍스트 부분으로의 포인터를 포함함 -
    를 포함하는 컴퓨터 판독가능 매체.
  21. 내용(content)의 시맨틱 표현을 생성하기 위해 문서의 내용으로부터 추출된 요소들 사이의 시맨틱 관계들을 전개(develop)하고 상기 내용의 인덱싱을 가능하게 하는 방법을 실행하는 컴퓨터 사용 가능 명령어들이 구현되어 있는 하나 이상의 컴퓨터 저장 매체로서, 상기 방법은,
    인덱싱될 상기 문서의 텍스트 부분을 식별하는 단계;
    상기 텍스트 부분에서 식별된 다수의 요소에 대한 시맨틱 정보를 판정하는 단계 - 상기 시맨틱 정보는 상기 식별된 요소들의 의미들 또는 상기 식별된 요소들의 문법적 기능들 중의 하나 이상을 포함함 -;
    상기 텍스트 부분 내의 다수의 연관성 레벨들을 판정하고 상기 다수의 연관성 레벨들 각각에 대해 상기 텍스트 부분 내의 보고 행위를 식별하는 단계 - 상기 보고 행위는 주변의 텍스트를 부분적으로 이용하는 규칙 집합에 기초하여 식별되고, 상기 다수의 연관성 레벨은 제1 연관성 레벨의 문장이 제2 연관성 레벨의 문장과 무관하게 참(true)이 되도록 상기 제1 연관성 레벨 및 상기 제2 연관성 레벨을 포함하고, 상기 제1 연관성 레벨 및 상기 제2 연관성 레벨은 상기 제1 연관성 레벨과 연관된 상기 식별된 보고 행위를 통해 서로 연관됨 -;
    상기 다수의 연관성 레벨 각각에서의 상기 식별된 보고 행위에 대해, 상기 텍스트 부분 내의 하나 이상의 상기 식별된 요소와 상기 보고 행위 사이의 하나 이상의 어바웃(about) 관계를 식별하는 단계;
    상기 어바웃 관계를 형성하기 위해 상기 식별된 보고 행위 각각을 상기 하나 이상의 식별된 요소와 연관시키는 단계 - 상기 하나 이상의 식별된 요소는 각각의 개별적인 보고 행위가 무엇에 관한 것인지를 기술함 -;
    상기 보고 행위 및 상기 식별된 요소 서로 간의 연관성을 나타내는 시맨틱 표현을 상기 연관성을 기술하는 관계 요소를 통해 생성하는 단계; 및
    상기 식별된 요소 및 상기 관계 요소를 포함하는 상기 시맨틱 표현을 검색용 인덱스에서 인덱싱하는 단계 - 상기 인덱스는 검색가능한 것이고, 상기 시맨틱 표현으로부터 그와 연관된 텍스트 부분으로의 포인터를 포함함 -
    를 포함하는 컴퓨터 판독가능 매체.
KR1020107006570A 2007-08-31 2008-08-29 간접 화법 내에서의 시맨틱 관계의 식별 KR101524889B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US96943407P 2007-08-31 2007-08-31
US60/969,434 2007-08-31
US12/201,675 2008-08-29
US12/201,675 US8868562B2 (en) 2007-08-31 2008-08-29 Identification of semantic relationships within reported speech
PCT/US2008/074938 WO2009029905A2 (en) 2007-08-31 2008-08-29 Identification of semantic relationships within reported speech

Publications (2)

Publication Number Publication Date
KR20100075454A KR20100075454A (ko) 2010-07-02
KR101524889B1 true KR101524889B1 (ko) 2015-06-01

Family

ID=42041477

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107006570A KR101524889B1 (ko) 2007-08-31 2008-08-29 간접 화법 내에서의 시맨틱 관계의 식별

Country Status (11)

Country Link
EP (1) EP2183686A4 (ko)
JP (1) JP5501967B2 (ko)
KR (1) KR101524889B1 (ko)
CN (1) CN101796511B (ko)
AU (1) AU2008292781B2 (ko)
BR (1) BRPI0816088A2 (ko)
CA (1) CA2698105C (ko)
IL (1) IL204108A (ko)
MX (1) MX2010002350A (ko)
RU (1) RU2488877C2 (ko)
WO (1) WO2009029905A2 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
WO2012135157A2 (en) * 2011-03-31 2012-10-04 Microsoft Corporation Task driven user intents
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
JP6176017B2 (ja) * 2013-09-17 2017-08-09 富士通株式会社 検索装置、検索方法、およびプログラム
RU2544739C1 (ru) * 2014-03-25 2015-03-20 Игорь Петрович Рогачев Способ преобразования структурированного массива данных
KR20170102262A (ko) * 2014-12-10 2017-09-08 킨디 인코포레이티드 가중화된 하위기호 데이터 인코딩
US10503832B2 (en) * 2016-07-29 2019-12-10 Rovi Guides, Inc. Systems and methods for disambiguating a term based on static and temporal knowledge graphs
CN107818076B (zh) * 2016-09-12 2021-11-12 微软技术许可有限责任公司 针对自然语言的语义处理
US10798027B2 (en) * 2017-03-05 2020-10-06 Microsoft Technology Licensing, Llc Personalized communications using semantic memory
JP7176233B2 (ja) * 2018-06-04 2022-11-22 富士通株式会社 検索方法、検索プログラムおよび検索装置
CN110895657B (zh) * 2018-09-11 2023-05-26 慧捷(上海)科技股份有限公司 一种基于口语对话特征的语义逻辑表达和分析方法
US11630824B2 (en) * 2018-10-16 2023-04-18 Shimadzu Corporation Document search method and document search system
CN109871428B (zh) * 2019-01-30 2022-02-18 北京百度网讯科技有限公司 用于确定文本相关度的方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001513243A (ja) * 1997-03-07 2001-08-28 マイクロソフト コーポレイション テキストの意味論的表現を利用した情報の検索
JP2005284723A (ja) * 2004-03-30 2005-10-13 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0962873A1 (en) * 1998-06-02 1999-12-08 International Business Machines Corporation Processing of textual information and automated apprehension of information
US6901402B1 (en) 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
RU2273879C2 (ru) * 2002-05-28 2006-04-10 Владимир Владимирович Насыпный Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем
CN100392644C (zh) * 2002-05-28 2008-06-04 弗拉迪米尔·叶夫根尼耶维奇·涅博利辛 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法
US7424420B2 (en) * 2003-02-11 2008-09-09 Fuji Xerox Co., Ltd. System and method for dynamically determining the function of a lexical item based on context
US7593845B2 (en) * 2003-10-06 2009-09-22 Microsoflt Corporation Method and apparatus for identifying semantic structures from text
US20050182617A1 (en) * 2004-02-17 2005-08-18 Microsoft Corporation Methods and systems for providing automated actions on recognized text strings in a computer-generated document
US20070073533A1 (en) * 2005-09-23 2007-03-29 Fuji Xerox Co., Ltd. Systems and methods for structural indexing of natural language text

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001513243A (ja) * 1997-03-07 2001-08-28 マイクロソフト コーポレイション テキストの意味論的表現を利用した情報の検索
JP2005284723A (ja) * 2004-03-30 2005-10-13 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Also Published As

Publication number Publication date
MX2010002350A (es) 2010-07-30
CA2698105A1 (en) 2009-03-05
JP2010538375A (ja) 2010-12-09
RU2488877C2 (ru) 2013-07-27
WO2009029905A3 (en) 2009-05-14
RU2010107150A (ru) 2011-09-10
AU2008292781B2 (en) 2012-08-09
CA2698105C (en) 2016-07-05
IL204108A (en) 2013-09-30
CN101796511B (zh) 2012-11-14
WO2009029905A2 (en) 2009-03-05
CN101796511A (zh) 2010-08-04
EP2183686A4 (en) 2018-03-28
KR20100075454A (ko) 2010-07-02
AU2008292781A1 (en) 2009-03-05
BRPI0816088A2 (pt) 2015-03-03
EP2183686A2 (en) 2010-05-12
JP5501967B2 (ja) 2014-05-28

Similar Documents

Publication Publication Date Title
KR101524889B1 (ko) 간접 화법 내에서의 시맨틱 관계의 식별
US9449081B2 (en) Identification of semantic relationships within reported speech
US8209321B2 (en) Emphasizing search results according to conceptual meaning
US8229730B2 (en) Indexing role hierarchies for words in a search index
US10713571B2 (en) Displaying quality of question being asked a question answering system
US9645993B2 (en) Method and system for semantic searching
US7882097B1 (en) Search tools and techniques
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
US10552467B2 (en) System and method for language sensitive contextual searching
US20150278198A1 (en) Method of clustering search results
US9720962B2 (en) Answering superlative questions with a question and answer system
WO2010107327A1 (en) Natural language processing method and system
KR101238927B1 (ko) 전자도서컨텐츠 검색 서비스 시스템 및 전자도서컨텐츠 검색 서비스 방법
Fareed et al. Syntactic open domain Arabic question/answering system for factoid questions
WO2009035871A1 (en) Browsing knowledge on the basis of semantic relations
CA2914398A1 (en) Identification of semantic relationships within reported speech
EP2181403B1 (en) Indexing role hierarchies for words in a search index
EP2185999A2 (en) Emphasizing search results according to conceptual meaning
WO2009029922A2 (en) Fact-based indexing for natural language search

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee