KR20010109206A

KR20010109206A - 네트워크 정보 통합 질의 인터페이스를 위한 방법 및장치

Info

Publication number: KR20010109206A
Application number: KR1020010030438A
Authority: KR
Inventors: 강재우
Original assignee: 박준석, 유인청; 주식회사 와이즈엔진
Priority date: 2000-06-01
Filing date: 2001-05-31
Publication date: 2001-12-08
Also published as: WO2001093599A3; AU2001260758A1; WO2001093599A2

Abstract

본 발명은 매우 많은 질의가능한 정보 소스들에 대하여 확장성 있고 통합된 뷰 또는 검색을 제공하기 위한 것으로, 본 발명에 의하면 정보의 표준화된 뷰(view)를 제공하는 전역 스키마(global schema); 상기 전역 스키마로 정의되고 정보를 추출하기 위하여 소스와 어떻게 상호작용할 것인지를 기술하는 온톨로지(ontologies)를 사용하여 정보 소스들의 뷰를 정의하는 소스 기술(source description); 및 SQL에 기초한 서술적 질의어(declarative query language)로 사용자 질의들을 처리하는 질의 엔진을 포함하는 IDB 질의 엔진이 제공된다.

Description

네트워크 정보 통합 질의 인터페이스를 위한 방법 및 장치{METHOD AND APPARATUS FOR UNIFIED QUERY INTERFACE FOR NETWORK INFORMATION}

본 발명은 네트워크상에 존재하는 정보를, 여러 가지 정보 포맷으로 그리고공공 네트워크를 통한 접근 등의 방식으로 찾아내거나 검색하기 위한 방법 및 시스템에 관한 것이다.

웹상의 유용한 정보소스들의 수가 지속적으로 증가함에 따라, 우수한 정보통합 기술에 대한 요구도 더불어 증가하고 있다. 이러한 이유로, 정보통합의 문제는 연구계와 상업계로부터 공히 많은 주목을 받아 왔다. 그러나, 연구계와 상업계들에 의해 행해진 접근방식간에는 현저한 차이를 보이고 있다. 다소 지나치게 단순화한 감은 있지만, 연구계에서는 접근방식의 확장성(scalability)을 감수하더라도 통합기술의 의미력(semantic power)을 얻는 데 중점을 둔 반면, 상업계에서는 반대로 의미력을 감수하더라도 확장성을 얻는 데 중점을 두어 왔다.

TSIMMIS, 인포메이션 매니폴더(Information Manifold), 인포마스터 (Infomaster) 등과 같은 연구용 시스템들은 다수의 데이터 소스들의 통합 뷰에 대한 일반적인 질의의 편의를 제공한다. 이 시스템들은 뷰 포함 테스트(view containment test)의 사용을 통해 강력한 질의를 처리함과 동시에 함축적 결합(implicit join)들을 추론해 낼 수가 있다. 이러한 기능은 사용자가 해답을 구성하는 데 결합이 요구된다는 사실을 모르더라도 질의에 대한 해답을 얻을 수 있다는 매우 유리한 점을 제공하는 반면에, 질의 계획(query planning)과 실행을 비효율적으로 만든다는 문제가 있다. 이러한 시스템들에 있어서 질의 계획과 실행이 비효율적인 것은 랩핑된(wrapped) 소스들의 수가 증가함에 따라 검색되어야 할 플랜 스페이스(plan space)와 이에 의해 생성된 질의 플랜의 사이즈가 급속히 증가하기 때문이다. 이러한 이유로, 상기한 연구용 시스템들은 비교적 적은 수의 사이트상에서 복잡한 질의들을 처리하는 데 있어 가장 효과적이다.

상업계에서의 정보통합 공간은 주로 비교 쇼핑 서비스에 치중되어 있다. 연구용 시스템들과는 반대로, 상업용 시스템들은 일반적인 목적의 질의처리 기능을 제공하지는 않는다. 즉, 이들의 목표는 미리 정해진(사용자에게 제공된 형태로 표현된) 적은 수의 질의들을 다수의 사이트상에서 수행할 수 있도록 하는 데에 있다.

통합 시스템에서 의미력에 대체로 반비례하는 확장성에 대한 실제적인 또다른 장벽은 새로운 사이트들의 랩핑이 어렵다는 것, 즉 새로운 정보 소스들을 시스템에 추가하기가 매우 어렵다는 것이다. 연구계에서는 이러한 확장성 문제를 실제로 다루지 않았던 반면에(연구 표본에서는 수백개의 사이트들을 랩핑할 필요가 거의 없었음), 상업계에서는 많은 프로그래머들을 채용하여 이들이 일종의 랩퍼(wrapper) 생성용 툴킷을 활용하여 랩퍼들을 작성하도록 함으로써 이러한 문제를 해결해 왔다.

본 발명의 목적은 매우 많은 질의가능한 정보 소스들에 대하여 확장성 있고 통합된 뷰 또는 검색을 제공하는 데 있다.

본 발명의 또다른 목적은 계층적 네임스페이스로 조직화된 일련의 온톨로지를 이용하여 일반적인 질의 편의성을 제공하는 데 있다.

도 1은 본 발명의 실시예에 따른 시스템 개요를 설명하기 위한 블록도이고,

도 2는 본 발명의 실시예에 따른 네임스페이스(namespace)에 대한 예시도이고,

도 3은 본 발명의 실시예에 따른 소스 기술어(source description language)의 신택스(syntax)에 대한 예시도이고,

도 4는 샘플 소스들을 등록한 후 전치 인덱스(inverted index)의 스냅샷(snapshot)을 보여주는 블록도이며,

도 5는 본 발명을 구현하기 위한 대표적인 장치의 예를 보여주는 구성도이다.

상기한 바와 같이 본 발명은 여러가지 측면에서 매우 많은 질의가능한 정보 소스들에 대하여 확장성 있고 통합된 뷰 또는 검색을 제공하기 위한 장치, 시스템 및 방법을 포함한다. 구체적인 실시예에서, 본 발명은 제공된 질의들의 설정에 있어 부분적으로 일부 표현력(expressive power)을 희생함으로써 달성된다.

본 발명의 실시예에 따른 시스템은 세 가지 주요 기술들을 통해 확장성을 제공한다. 첫번째로, 본 시스템은 데이터 의미를 표현하는 매체로서 계층적 네임스페이스로 조직화된 일련의 온톨로지(collection of ontologies)를 이용한다. 두번째로, 본 시스템은 시스템 속에서 미리 컴파일하지 않고 런타임(run-time)에 소스 기술(source descriptions)이 실행될 수 있도록 정보 소스들을 설명하는 서술적 질의 언어(declarative query language)를 사용한다. 세번째로, 본 시스템은 특정 사용자 질의에 관련되어 있는 정보 소스들의 부분집합을 식별하는 데 전치 인덱스(inverted index) 스타일 연산자들을 이용한다.

본 발명의 보다 명확한 이해를 위해 아래의 바람직한 실시예에서 상세히 설명한다. 구체적으로, 본 설명은 특정 예제들로 장치, 방법 및 개념을 언급한다. 하지만, 본 발명의 방법은 매우 다양한 분야에 적용될 수 있다. 따라서, 본 발명은 특허청구범위 이외에 달리 한정되어서는 안된다.

또한, 컴퓨터 시스템들이 모듈 형태로 매우 다양한 서로 다른 성분과 서로 다른 기능을 포함할 수 있다는 것은 당해 기술분야에서 잘 알려져 있다. 본 발명의 또 다른 실시예는 서로 다른 구성요소들과 서로 다른 기능들의 혼합을 포함할 수 있고 다양한 구성요소의 일부로서 여러 가지 기능을 그룹지을 수 있다. 보다 명확하게, 본 발명은 서로 상이한 혁신적인 성분들과 이들의 혁신적인 조합을 포함하는 시스템으로 설명된다. 다만, 본 명세서에서 설명하는 실시예에 나열된 혁신적인 모든 성분들의 조합으로 본 발명을 한정하고자 하는 것은 아니다.

더욱이, 개개의 파일 포맷, 언어 및 연산자의 우선 순위 방법을 변경하는 것은 인터넷 응용분야와 소프트웨어 시스템에 대한 당업자들에게 잘 알려져 있다. 구성요소의 특정 구현 언어 또는 포맷에 대한 개시는 특허청구범위에 기재되어 있지 않는 한 본 발명을 특히 한정하는 것이 아님은 명백하다.

<실시예>

1.시스템 개요

특정 구현예에서, 본 발명은 질의의 편의성에 따른 네임스페이스와 "소프트-랩핑(soft-wrapping)" 정보 소스들을 채택하는 검색 시스템 및 방법을 포함한다.

도 1은 본 발명의 실시예에 따른 시스템의 주요 구성을 나타낸다(본 발명에 따른 시스템의 구현방법은 일부 IDB 관련 문서에 언급되어 있다). 본 발명에 따른 시스템은 계층적 네임스페이스로 조직화된 일련의 온톨로지를 이용하여 일반적인 질의 편의성을 제공하는 것을 목적으로 한다. 네임스페이스의 각 온톨로지는 통상적인 개념을 설명하는 용어의 세트를 정의한다. 네임스페이스는 데이터 의미를 표현하는 매체로서 사용된다. 사용자 질의들과 소스 기술들은 모두 네임스페이스 내의 용어들을 사용하여 쓰여진다.

본 발명의 다른 관점에 따르면, 질의 언어는 SQL을 기초로 하여 제공된다(종종 IDBQL라 칭한다). 질의들은 네임스페이스에 정의된 용어를 사용하여 표현된다. 질의를 작성할 때, 사용자들은 각 단일 정보 소스의 반출된(exported) 뷰에 관하여 알 필요가 없다. 대신에, 질의 엔진이 전치 인덱스를 조사하도록 질의 내에 나타난 용어들을 사용하여 관련 정보 소스들의 세트를 식별하게 된다.

예를 들어, TSIMMIS, 인포메이션 매니폴드와 같은 종래 기술의 시스템과는 달리, 본 발명의 실시예에서 일반적으로 함축적 결합들을 추론하지는 않는다. 이는 본 발명이 결합(join)들을 이용하는 시스템에 의해 취급되는 질의들의 부분집합만에 대해 대답할 수 있다는 것을 의미한다. 하지만, 이는 또한 본 발명에 따른 질의 계획(query planning)이 종래의 시스템(본 발명의 시스템은 단순한 전치 리스트 조회 동작을 요구한다) 하에서보다 더욱 더 단순하고 많은 수의 사이트로 확장된다는 것을 의미하기도 한다.

2.소프트-랩핑(soft-wrapping)

또 다른 관점에서 본 발명은 정보 소스들을 랩핑하기 위해 소프트-랩핑이라는 신규한 접근법을 사용한다. 본 발명에 따르면, "랩퍼(wrapper)"는 런타임에 실행되는 서술적 질의(declarative query)이다. 소스 기술(source descriptions)은 시스템 내에서 미리 컴파일되는(또는 하드-랩핑되는) 대신에 런타임에서 실행되거나 평가될 수 있다. 하드-랩핑에 비해 소프트-랩핑의 이점은 많다. 첫째로, 소프트-랩핑은 소스 기술을 기재하는 것이 어떤 런타임 환경에 대해서도 독립적이므로 유연성과 이식성이 더 우수하다. 둘째로, 소프트-랩퍼는 시스템을 재시작하지않더라도 웹 인터페이스를 통해 런타임에서 동적인 테스트와 등록이 가능하다. 셋째로, 소프트-랩핑은 재컴파일을 필요로 하지 않기 때문에, 웹 데이터 소스들을 동적으로 변환시키는 데 적용하기가 쉽다. 마지막으로, 소프트-랩핑은 등록되어 있는 것이 서술적 질의이며, 랩퍼를 실행하는 누군가에 의해 결정되어야 하는 미리 컴파일된 랩퍼 프로그램이 아니라는 점에서 더욱 보안성이 높다.

3.네임스페이스(Namespaces)

본 발명의 실시예에서, 데이터 의미를 표현하는 매체로서 계층적 네임스페이스로 조직화된 일련의 온톨로지를 사용한다. 본 발명에 따른 온톨로지는 개념을 기술하는 용어를 그룹지어 놓은 것이다. 온톨로지 내의 용어는 재사용할 수 있다. 온톨로지를 정의함에 있어서, 하나의 온톨로지는 네임스페이스 내의 다른 온톨로지들에 존재하는 용어를 빌릴 수 있고 새로운 용어를 생성할 수도 있다. 온톨리지는 모(母) 온톨로지의 모든 부분집합을 선택적으로 계승받거나 재사용할 수 있다. 또한 복수개의 온톨리지로부터의 계승도 허용된다.

IDB 네임스페이스는 웹 상의 정보에 대해 균일한 뷰를 제공하는 전역 스키마(global schema)로서 작용한다. 이는 일부 종래 시스템의 포스테리오리 스키마(a posteriori schema)에 반대되는 것으로서 프리오리 스키마(a priori schema)이다.

TSIMMIS에서는, 예를 들어 사용자 질의들이 중개자(mediator)에 의해 반출된 뷰 위에 명확하게 나타내어진다. 다시 말해서, 중개된 뷰는 하위 레벨 중개자 또는데이터 소스들의 통합 뷰에 의해 차례로 생성된다. 결과적으로, 어떠한 소스 레벨의 변경, 예컨대 새로운 소스를 추가하거나 기존의 소스를 제거하는 것은 형식화되어 있는 상위 레벨 중개 뷰 사용자 질의들에 영향을 주게 된다.

본 발명에 따른 네임스페이스는 데이터 소스들의 뷰들로부터 독립적으로 정의된다. 실제로, 소스 뷰는 네임스페이스 내의 용어에 의해 한정된다. 이 때문에, 정보 소스 레벨의 변경은 전역 뷰에 영향을 미치지 않는다.

본 발명의 실시예에서는 전역 스키마로서 용어들의 단순 모음을 이용한다. 장래에, XML 네임스페이스가 널리 보급되면, 이들은 IDB 온톨로지를 대신하여 사용될 수도 있다. XML 네임스페이스를 채용함으로써, 본 발명은 네임스페이스를 재발명할 필요 없이 스키마로서 폭넓게 사용되는 다수의 네임스페이스를 재사용할 수 있게 될 것이다.

도 2는 본 발명의 실시예에 따른 네임스페이스의 두 가지 예를 보여준다. 영화 온톨로지는 영화를 설명하는 데 유용한 용어들로 이루어진다. 상품 네임스페이스(product namespace)에서의 product#name라는 용어는 영화 네임스페이스에서 movie#title로 재사용된다. 주어진 질의에 기여할 수 있는 정보 소스들의 개수를 증가시키기 때문에, 기존의 용어를 재사용하는 것은 유익하다. 예를 들어, 사용자가 상품 온톨로지를 사용하여 상품의 이름을 질의하면, 상품 온톨로지에 직접적으로 속하는 소스들뿐만 아니라 도서 및 영화 온톨로지에 속하는 정보 소스들도 질의된다. 이는 book#title 및 movie#title이라는 용어가 상품 네임스페이스 내의 product#title이라는 용어로부터 계승되기 때문이다.

4.본 발명의 실시예에 따른 소스 기술어

본 발명에 따른 질의 시스템은 소스 기술들을 사용하여 정보 소스들과 상호 작용한다. 소스 기술들의 역할에는 두 가지가 있다: (1) 소스 기술들은 정보 소스들의 뷰와 가능출력(capability)을 반출한다. (2) 소스 기술들은 기술된 소스 내의 로컬 데이터를 소스의 반출된 뷰로 추출하고 맵핑한다.

전통적인 "하드-랩핑(hard-wrapping)"과는 달리, 본 발명의 실시예에서는 질의 실행시에 실행되는 소스 기술들을 허용하는 "소프트-랩핑(soft-wrapping)" 방법을 이용한다. 실제로, 소스 기술은 원격 문서 또는 데이터베이스를 질의하는 질의어이다. 결과적으로, IDB는 소스와 교류함에 있어 하드-코드되거나 컴파일된 랩퍼들을 요구하지 않는다. 종래 기술의 "하드-랩퍼"는 일반적으로 정보 소스가 데이터 표현을 변화시킬 때마다 재컴파일될 것을 요구한다.

소스 기술어의 신택스 예는 다음과 같다:

SELECT list-of-terms

FROM url [post|get] [html|xml]

WHERE mapping-rule [[and|or] mapping-rule] ...,

여기서, SELECT 절은 반출된 뷰를 정의하고, FROM 절은 원격 데이터베이스의 위치 및 질의 가능출력을 특정하며, WHERE 절은 맵핑 규칙을 정의한다.

또 다른 예로서, 도 3은 아마존닷컴(amazon.com)에 대한 소스 기술을 보여준다. 아마존닷컴의 소스 기술을 실행한 후에, 판매자, 제목 등의 8열 테이블이 생성된다.

소스 기술의 실행은 FROM 절을 실행하는 것으로 시작한다. FROM 절은 아마존닷컴의 도서 데이터베이스의 위치와 받아들이는 질의 바인딩을 특정한다. 아마존닷컴의 도서 데이터베이스는 전위형 인터페이스(front-end form interface)를 통해 웹 상에 출판된다. 이러한 형태 인터페이스는 제목 및 저자 필드상의 사용자 입력을 받아들이고, 이 정보는 FROM 절의 URL 스트링으로 부호화(encoding)된다. 타겟 정보 소스가 문서인 경우에, 그 문서에 대한 URL은 어떠한 질의 바인딩 부호화 없이도 FROM 절 내에 간단히 배치될 수 있다.

일단 IDB가 사용자 질의를 로컬 질의들로 재구성하면, 플레이스홀더( placeholders) $book#title$ 및 $book#author$는 사용자 질의에서 대응하는 값들로 대체된다. IDB가 URL 접속을 열고 질의 스트링을 보낸 후에, 소스로부터 질의 결과가 HTML 페이지로 복귀된다. 이 HTML 페이지는 DOM 트리 [DOM98]로 파싱(parsing)된다. 만약 소스가 XML 페이지를 복귀시키면, IDB는 XML 파서(parser)를 대신 불러내어 DOM 트리를 생성한다. 이러한 파싱 단계 이후에, 남은 질의 처리 단계들은 DOM 인터페이스가 두 마크업 언어에 공통적이기 때문에 XML 및 HTML 모두에 대해 투명(transparent)하다.

WHERE 절은 경로 표현 및 펄 스타일(perl-style) 텍스트 연산자들의 세트로 구성된다. 경로 표현들은 결과 페이지로부터 생성된 DOM 트리에서 실행된다. 경로 표현의 신택스는 HEL[SA99a, SA99b] 및 WIDL[ALL97]과 유사하다. HEL은 또한 펄 스타일 패턴 매칭을 지원한다. 한편, IDB 소스 기술어는 경로 표현으로부터 반출된 뷰로의 직접적인 매핑을 허용하고 보다 큰 세트의 텍스트 연산자를 제공한다. 더욱이, IDB 소스 기술어는 경로 표현들의 결합과 분리를 허용한다. 예를 들어, 사용자 질의 바인딩에 따라서, 아마존닷컴 데이터베이스는 두 개의 서로 다른 형태의 HTML 페이지를 복귀시킨다. 사용자 질의 바인딩이 정확하게 하나의 도서 엔트리로 귀착되는 경우에, IDB 소스 기술어는 전체 도서 기술을 포함하는 HTML 페이지를 직접 복귀시킨다. 그렇지 않으면, 각 도서 엔트리가 도서 페이지에 대한 짧은 설명과 URL을 가진 매칭 도서 엔트리들의 리스트를 포함하는 HTML 페이지를 복귀시킨다. 도 3에 도시된 바와 같이, 본 발명에서는 이러한 각각의 경우에 대하여 서로 다른 경로 표현들을 필요로 한다.

본 발명의 실시예에 따른 소스 기술어는 예를 들어 일치(match), 바꾸기(substitute), 결합(join), 분할(split) 및 관용적인 스위치(switch) 연산자 등과 같이 널리 보급되어 있는 펄 스타일의 정규 표현 연산자들을 지원한다. 스위치 연산자는 복수 소스들로부터의 출력 데이터의 불규칙성을 정형화하는 데 이용된다. 예를 들어, 일부 소스들은 그래픽 심벌들로 제품 이용 가능성을 표현하며, 이들은 등가의 텍스트로 변환되어야 한다. 경로 표현에서 닷(.)은 DOM 트리의 모(母) 구성요소로부터 자(子) 구성요소로의 직접 경로를 나타내고, 화살표(->)는 그들 사이에 0 또는 그 이상의 단계가 존재함을 나타낸다.

SELECT 절은 로컬 데이터에 전역 의미(global schema)를 제공한다. 이는 소스 기술의 실행에 의해 생성되는 테이블의 스키마를 정의한다. 모든 도서 엔트리가 동일한 출처인 아마존닷컴으로부터 나온 것이므로 상수값 '아마존'이 book#vendor라는 용어로 실체화된 것에 주목할 필요가 있다. 속성 끝부분의 플러스(+) 기호는'IS NOT NULL'에 대한 약식 표현이다.

도 3의 반출된 뷰는 도서 온톨로지로부터의 용어들로만 이루어지지만, 이는 IDB 접근의 요구조건은 아니다. IDB 소스 기술은 하나 또는 그 이상의 온톨로지들로부터 용어들을 선택적으로 선정할 수 있다. 이러한 소스 기술은 어떠한 네임스페이스에도 부합할 필요가 없고 나아가 다양한 온톨로지로부터의 용어 세트를 선택함에 있어 어떠한 제약도 갖지 않는다. 이는 소스 기술어가 데이터의 본래 의미에 가능한 한 가장 근접한 용어를 사용하여 소스를 기술하는 것을 허용한다.

아마존닷컴의 경우에서와 같이, 결과 페이지로부터 추출된 데이터는 일부 중첩된 구조를 잠재적으로 가질 수도 있다. 이러한 중첩된 데이터를 단조로운 출력 테이블로 맵핑하기 위해, IDB는 각 출력 속성과 연관되어 있는 특정 반복자(iterator) 세트를 채용한다.

앞에서 지적한 바와 같이, IDB는 그 소스 기술에 대하여 서술적 질의 언어를 사용하기 때문에, 전통적인 미리 컴파일된 "랩퍼(wrapper)"가 더 이상 필요하지 않다. 이러한 "소프트-랩퍼" 접근법은 작성(writing), 테스트(testing) 및 랩퍼 등록(registering wrappers)의 절차가 하드웨어 및 소프트웨어 개발 환경에 의존적이지 않기 때문에 보다 큰 확장성을 가지며, 따라서 완전하게 분산화될 수 있다. 실제로, 소스 기술은 시스템을 다운시키지 않고 인터넷을 통해 런타임에 테스트되고 등록된다. 따라서, 누구든지 인터넷상의 임의의 장소에서 소스 기술을 쓰고 등록할 수가 있다. 또한, 소프트-랩퍼 접근법을 이용하면, 웹 소스들이 소스가 변경될 때마다 재컴파일될 필요가 없기 때문에 웹 소스들을 동적으로 변경하도록 조정하기가 보다 용이하다. 결론적으로, 등록되어 있는 것이 서술적 질의이고 미리 컴파일된 랩퍼 프로그램이 아니라는 점에서 더욱 보안성이 강하다. 즉, 소프트-랩퍼 접근법을 이용하면, "버기(buggy)" 랩퍼가 랩핑된 소스로부터의 데이터가 부정확하게 맵핑되는 것을 야기할 수도 있지만, 그것이 단지 서술적 질의이기 때문에 소프트-랩퍼 질의를 실행하는 사이트에 보안상의 위험성을 제공하지는 않는다.

5.본 발명의 실시예에 따른 질의 언어

이번 단락에서는 본 발명의 실시예에 따른 질의 언어(이하, 경우에 따라 IDBQL라고도 한다)에 대하여 주로 실례를 들어 설명한다. 본 발명의 실시예에서, 질의 언어는 부가적인 키워드 술어를 포함한 SQL의 부분집합으로서 이해될 수 있다. 키워드 술어들은 아마도 실제 세계의 웹 질의들 중에서 가장 인기있는 연산자인 키워드 일치 연산자를 지원하도록 추가된다.

질의는 온톨로지에서 정의된 용어들을 사용하여 형식화된다. 질의 작성자는 개개의 기초적인 정보 소스들 각각의 반출된 뷰에 관하여 알 필요가 없다. 본 발명의 실시예에 따른 질의 처리기는 다음 단락에 설명하는 바와 같이 질의에 사용되는 용어들을 사용하여 전치 인덱스를 탐색함으로써 관련 정보 소스들의 세트를 식별하게 된다.

질의 언어의 기본 구조와 키워드 술어를 사용한 첫번째 예제 질의를 아래에나타내었다.

위의 질의는 "book" 온톨로지를 이용하여 도서 제목이 키워드 'Database' 및 'Systems'을 포함하는 도서의 판매자, 제목, 저자, 가격, 연도 정보를 검색한다. 결과 테이블은 예를 들어 'Database Management Systems', 'Readigs in Database Systems' 등의 제목들을 갖는 도서 엔트리를 포함한다. 상술한 질의에 대한 부분적인 출력을 아래에 나타낸다.

키워드 연산자들은 데이터가 자율적인 정보 소스들로부터 나오기 때문에 특히 유용하다. 데이터의 프리젠테이션 포맷은 정보 소스들에 대하여 서로 다를 수 있고, 하나의 소스 내의 데이터인 경우에도 시간에 따라 서로 다른 프리젠테이션 포맷들을 가질 수도 있다. 하나의 통상적인 예로서 사람의 이름에 대한 포맷을 들 수 있다. 어떤 소스들은 이름 앞에 성을 놓고, 어떤 다른 소스들은 이름을 먼저 놓는다. 질의 언어는 표 1에 정의된 바와 같이 세 개의 키워드 연산자들과 그들의 의미를 지원한다.

첫번째 예제 질의는 다양한 온라인 도서 판매업체들로부터의 200 엔트리 이상을 복귀시키기 때문에 그다지 선택적이지 못하다. 두번째 예제 질의는 첫번째 질의에 두 개 이상의 선택 조건을 부가하여 고유의 속성들과 함께 도서의 가용성 정보를 검색한다.

이번 질의는 숫자상의 순서 술어(order predicates) 및 데이터 타입 자동 변환(data type coercion)의 사용을 나타낸다. 본 발명에 따른 데이터 모델은 기본적으로 자유로운 형태를 갖는다. 속성값은 스트링 리터럴(literal)로서 취급된다. 순서 술어(<, >, >=, <=, =)를 실행하기 위해, 시스템은 표 2에 도시된 Lore[MAG+97] 자동변환 규칙을 사용한다. 위의 질의에서, 예를 들어, 연도 속성이 영(null)이 아니고 숫자로 파싱될 수 있다면, 술어는 두 개의 숫자값들에 대해 실행될 것이다. 또한 book.year = movie.year 등의 결합 술어에서, 두 피연산자들 모두가 속성이 된다. 이러한 경우에, 속성들 중의 하나는 술어가 표 2의 규칙에 따라 실행되기 전에 먼저 적절한 타입으로 자동 변환된다. 두번째 질의에 대한 결과 테이블의 일부를 아래에 도시하였다.

예제 질의 3은 단순한 명시적 결합 질의이다. 여기에서 하나 이상의 온톨로지가 질의 내에 포함되어 있는 경우를 설명한다. 예제 질의 3에서는 '스티븐 스필버그(Steven Spielberg)'에 의해 제작된 영화와 '마이클 크라이튼(Michael Crichton)'에 의해 쓰여진 도서들 중에서 영화와 도서가 동일한 제목을 가진 것들에 대한 제목, 영화 배우와 도서들의 판매업체, URL, 도서 판형, 가격을 검색한다.이 질의에 대한 결과 테이블의 일부를 예제 질의 다음에 나타내었다.

6.질의 처리예

다음은 본 발명의 실시예에 따른 질의 처리에 대한 스텝이다.

· 사용자 질의는 하나 이상의 온톨로지 내의 용어들을 사용하여 형식화된다.

· 질의 엔진은 질의에 사용된 각 온톨로지에 대한 기준 테이블을 식별한다.기준 테이블은 사용자 질의를 실행하는 데 요구되는 소정 온톨로지 내의 용어에 대한 최소 부분집합을 식별하는 것으로 결정된다.

· 질의 엔진은 소스 기술 인덱스로부터 각 기준 테이블에 대한 소스 기술 세트를 검색한다. 실제로, 이러한 인덱스는 온톨로지 내의 용어를 관련 소스 기술들에 연관시키는 전치 인덱스이다.

· 질의 엔진은 이전 스텝에서 식별된 소스 기술 세트로부터 반출된 뷰를 사용하여 최초의 사용자 질의를 로컬 질의들로 번역한다.

· 질의 엔진은 각 소스에서 로컬 뷰들을 실체화하고, 기준 테이블에 의해 결과를 조합하며, 남은 술어들을 처리(예를 들면 기준 테이블들 간의 결합)한다.

상술한 스텝들은 질의 예제를 통해 아래에서 설명된다. 다음은 예제 질의가 참조로 하는 두 개의 온톨로지(도서 및 서평)이다. 각 용어들의 리스트는 단지 설명을 위해서 도시된 것이다. 본 예제에서 온톨로지는 도서 및 서평 등의 개념을 설명하는 용어들의 모음이고, 네임스페이스는 계층적 의미 그래프로 구성된 상술한 모든 온톨로지들의 모음이다.

예제 질의는 아래에 도시되어 있다. 여기에서는 제목이 키워드 'Database'및 'Systems'인 도서들의 판매업체, 제목, 가격 및 서평 속성을 검색한다.

상술한 질의 처리의 첫번째 스텝은 기준 테이블들과 기준 테이블들에 내포된 술어 바인딩을 식별하는 것이다. 이러한 처리를 설명하기 위해, 꾸밈(adornment)을 포함한 규칙으로 위의 질의를 표현한다.

술어 꾸밈은 바인딩 패턴이 관계없는 소스들을 제거해 내기 위해 필터로서 어떻게 작용하는가를 설명하는 데 이용된다. 위에 도시된 바와 같이, 제목은 query4 내에 묶여 있는 유일한 변수이다. 이러한 질의에서 기준 테이블은 book^fbff(vendor, title, author, price)와 review^bf(title, review)이다. 기준 테이블의 식별방식은 일목요연하고, SELECT 및 WHERE 절에 사용된 모든 용어들은 FROM 절에 나타나는 온톨로지들 내에 모아져 그룹지어진다.

기준 테이블은 예를 들어 인포메이션 매니폴드[LRO96a, LRO96b]에 관해 설명한 바와 같이 전역 술어와는 다르다는 점에 주목할 필요가 있다. 인포메이션 매니폴드에서 미리 정의된 술어 세트와는 달리, 본 발명의 실시예에 따른 기준 테이블은 개개의 사용자 질의로부터의 용어를 도출해 냄으로써 동적으로 생성된다. 또한, 다른 시스템들에 비해, 본 발명은 개개의 사용자 질의와 연관된 정보 소스들을 식별하기 위해 훨씬 더 단순한 방법을 사용한다. 인포메이션 매니폴드와 인포마스터[DG97, GKD97]를 포함한 종전의 시스템은, 질의 처리에 있어서 뷰 포함 테스트에 기초한 질의 재작성 방법을 통해 정보 소스들을 식별한다.

반면에, 상술한 관점에서 본 발명의 실시예는 질의 처리에 있어서 전치 인덱스 스타일 연산자들을 사용한다. 이를 설명하기 위해, 다음의 정보 소스들을 가정하자.

지면 관계상, 소스 기술 대신에 각 소스가 반출한 용어의 리스트만이 도시되어 있다. 전체 소스 기술에 대한 예제는 도 3을 참조하면 된다.

여기에서 꾸밈(adornment)은 질의에서의 꾸밈과는 약간 다른 의미를 갖는다. 여기에서는 각 소스의 질의 능력을 지정하기 위해 사용된다. 예를 들어, amazon의 꾸밈 fbbff는 amazon이 제목 또는 저자에 관한 질의들을 받아들이고 판매업체, 제목, 저자, 연도 및 가격을 포함한 칼럼 테이블을 복귀시킬 수 있다는 것을 의미한다. 이와 유사하게, 꾸밈 bff를 갖는 nytimes는 제목에 관한 질의들에 대답하고 제목, 저자 및 서평에 대한 테이블을 복귀시킬 수 있다.

소스 기술이 등록되면, 본 발명의 실시예에 따른 시스템은 소스를 두 개의 전치 인덱스들로 인덱스한다. 제1 전치 인덱스 A는 소스 기술에 사용된 모든 용어들과 소스 기술 자체의 식별자와의 관계를 유지한다. 제2 전치 인덱스 B는 묶여진 변수들(용어들)만을 인덱스한다. 두 개의 예제 인덱스에 대한 스냅샷이 도 4에 도시되어 있다.

상술한 질의에서의 각 기준 테이블에 대하여, 본 발명에 따른 방법은 인덱스들을 사용하여 소스 기술의 부분집합을 식별한다. 본 예제 질의에서, 먼저 판매업체, 제목, 저자 및 가격을 포함하는 도서 기준 테이블 내의 모든 용어들을 사용하여 인덱스 A를 탐색한다. 그 결과인 amazon 및 borders가 4개의 결과 전치 리스트를 교집합하여 얻어진다. 다음으로, 도서 기준 테이블 내에 묶여진 변수들을 사용하여 인덱스 B를 탐색한다. 여기에서, 제목은 사용자 질의 내에 묶여진 유일한 변수이다. 이후에 amazon, borders 및 book3이 복귀된다. 마지막으로, 두 결과들이 교집합되어 특히 도서 기준 테이블에 대한 사용자 질의와 연관된 소스들의 부분집합이 얻어진다. 동일한 처리를 반복하여 서평 기준 테이블에 대한 nytimes 및 wpost를 얻는다.

결과 내의 모든 소스들은 제목 속성상에서 질의 능력을 갖고 각 기준 테이블에서 도출된 컬럼 테이블을 생성할 수 있다. 질의 처리의 남은 스텝들은 일목요연하다. 시스템은 기준 테이블에서 소스 기술을 그룹짓고 그것들을 실행한다. 소스 기술을 실행하면, FROM 절 내의 플레이스홀더(placeholders)는 질의 바인딩으로 대체되고 적법한 URL 질의 스트링으로 부호화된다. 본 예에서는, amazon 및 borders의 소스 기술이 실행되고 양 소스들로부터 얻은 결과를 결합하여 도서 테이블을 생성한다. 이와 유사하게, nytimes 및 wpost의 소스 기술이 실행되어 서평 테이블을 생성한다.

뷰 포함 테스트에 기초한 초기의 통합 시스템은 상술한 과정보다 더 많은 결과를 찾을 수도 있다. 예를 들면, 인포메이션 매니폴드는 속성 isbn에 따라 결합함으로써 소스들 book3 및 book4로부터 튜플(tuples)을 생성한다. 본 발명은 그러한 인터페이스를 사용하지 않기 때문에 상술한 함축적 결합을 찾지 못한다. 하지만, 일부 의미력(semantic power)를 포기함으로써 본 발명은 유연성(flexibility)과 확장성(scalability)을 얻는다.

질의 처리의 마지막 스텝은 온톨로지들 전역에서 결합 술어들을 실행하는 것이다. 본 예제에서 도서 및 서평 테이블들은 제목 속성에 따라 결합된다.

다른 실시예에서 고려된 또 다른 예제에 의하면, 제1 전치 인덱스는 그 반출된 용어들에 기초하여 소스 기술들을 인덱스한다. 제2 전치 인덱스는 그 입력된 용어들에 기초하여 소스 기술을 인덱스한다. 예로서, 사용자 질의가 용어1의 입력을 갖고 용어2와 용어3이 반출되도록 요구한다고 가정하면, 모든 용어들은 단순성으로 인해 단일 온톨로지로부터 나온다. 연관 소스들을 식별하기 위해, 제1 전치 인덱스는 용어1, 용어2 및 용어3으로 되고 소스들의 결과 리스트가 교집합된다. 이 스텝에서는 필요한 세 용어들 모두를 반출하는 모든 소스들을 식별한다. 그런 다음, 제2 전치 인덱스는 용어1에 관한 질의에 대답할 수 있는 모든 소스들만을 식별하기 위해서 용어1로 된다. 마지막으로, 제1 전치 인덱스와 제2 전치 인덱스로부터 얻어진 두 결과가 교집합되어 용어1에 관한 질의들에 대답할 수 있고 용어2 및 용어3을 반출할 수 있는 소스들을 얻는다.

7.구현상의 문제

본 명세서에서 제공되는 개시로부터, 하나에 평균 10분 정도 소요되는 몇개의 구현으로도 새로운 소스를 랩핑하는 것이 매우 효율적으로 이루어질 수 있음을 알 수 있다. 질의 계획 단계는 질의 실행시 정보 소스가 응답하기를 기다리는 데에 따른 지연시간만을 가지고 매우 순간적으로 행해진다. 질의 엔진에 관한 본 발명에 따른 시스템에서의 다중스레딩(multithreading)에 의하면, 사이트의 응답을 기다리는 지연시간이 중첩된다.

8.프로그램된 디지털 장치에서의 실시

본 발명 또는 그 실시예는, 적절하게 구성된 컴퓨터 장치 내에 탑재될 경우 그 장치가 본 발명에 따른 보간(interpolation)을 실행하도록 하는 로직 명령 또는 데이터를 포함한 고정 매체 또는 전송가능한 프로그램으로 구현될 수 있다. 도 5는 본 발명의 다양한 실시예가 구현될 수 있는 대표적인 로직 장치예를 보여주는 구성도이다.

도 5는 매체(717) 및 네트워크 포트(719)로부터 명령을 읽어들일 수 있는 로직 장치로서 이해될 수 있는 디지털 장치(700)를 보여준다. 장치(700)는 상기한 명령을 사용하여 본 발명에 따른 방법을 실행할 수 있다. 본 발명을 구현할 수 있는로직 장치 중 한 형태는 CPU(707), 입력 장치(709, 711), 디스크 드라이브(715) 및 모니터(705)를 포함한 컴퓨터 시스템(700)이다. 고정 매체(717)는 상술한 시스템을 프로그램하는 데 사용될 수 있으며, 디스크 타입 광 또는 자기 매체 또는 메모리 등이 될 수 있다. 통신 포트(719) 역시 상술한 시스템을 프로그램하는 데 사용될 수 있으며, 어떠한 형태의 통신 접속도 가능하다.

또한 본 발명은 주문형 집적 회로(ASIC) 또는 프로그래머블 로직 장치(PLD)의 회로 내에서 구현될 수도 있다. 이러한 경우에, 본 발명은 앞에 설명한 대로 동작하는 ASIC 또는 PLD를 생성하는 데 사용되는 컴퓨터 이해가능 기술 언어(descriptor language)로 구현될 수 있다.

또한 본 발명은 예를 들어 카메라, 디스플레이, 이미지 편집 장치 등의 다른 디지털 장치의 로직 프로세스 또는 회로 내에서 구현될 수 있다.

이상에서, 본 발명은 특정 실시예들을 참조하여 설명되었다. 상술한 실시예들에 대한 변형과 또다른 실시예들의 구현이 당업자에게 용이함은 명백하다. 따라서, 본 발명은 특허청구범위에 기재된 사항 이외로 한정되어서는 안된다.

본 발명에 의하면, 매우 많은 질의가능한 정보 소스들에 대하여 확장성 있고 통합된 뷰 또는 검색을 제공할 수 있다는 이점이 있다.

또한 본 발명에 의하면, 계층적 네임스페이스로 조직화된 일련의 온톨로지를 이용하여 일반적인 질의 편의성을 제공할 수 있다는 이점이 있다.

본 명세서에서 기술된 예제 및 실시예들은 단지 설명의 목적으로 기재된 것이며, 따라서 당업자들에 의한 이들의 다양한 변형 내지는 사소한 변경은 본 발명의 기술적 사상의 범주에 포함되며 나아가 본 특허청구범위에 속하는 것으로 이해되어야 할 것이다.

Claims

정보의 표준화된 뷰(view)를 제공하는 전역 스키마(global schema);

상기 전역 스키마로 정의되고 정보를 추출하기 위하여 소스와 어떻게 상호작용할 것인지를 기술하는 온톨로지(ontologies)를 사용하여 정보 소스들의 뷰를 정의하는 소스 기술(source description); 및

SQL에 기초한 서술적 질의어(declarative query language)로 사용자 질의들을 처리하는 질의 엔진을 포함하는 것을 특징으로 하는 IDB 질의 엔진.
계층적 네임스페이스(namespace)로 조직화된 일련의 온톨로지(collection of ontologies);

상기 온톨로지들을 사용하여 데이터 관계를 표현할 수 있는 서술적 질의어(declarative query language); 및

개개의 질의와 연관된 정보 소스들을 식별하기 위한 전치 인덱스(inverted index)를 포함하는 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
제2항에 있어서,

상기 질의들 및 정보 소스 기술들은 모두 상기 네임스페이스의 하나 이상의 온톨로지 내의 용어들을 사용하여 표현되는 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
제2항에 있어서,

상기 질의들 및 정보 소스 기술들은 모두 상기 서술적 질의어를 통해 표현되는 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
제2항에 있어서,

상기 서술적 질의어는 런타임에서 실행되는 정보 소스 기술들을 표현할 수 있는 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
제2항에 있어서,

상기 전치 인덱스를 탐색하기 위한 질의에 나타나는 용어들을 사용하여 연관 정보 소스 세트를 식별하는 질의 엔진을 더 포함하는 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
제2항에 있어서,

상기 온톨로지들 중의 하나의 온톨로지 내의 용어들이 다른 온톨로지들 내에서 재사용가능한 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
제2항에 있어서,

온톨로지가 모(母) 온톨로지 내의 용어들의 소정 부분집합을 선택적으로 계승 또는 재사용할 수 있는 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
제2항에 있어서,

네임스페이스가 다중 정보 소스들로부터 얻은 정보에 대해 균일한 뷰를 제공하는 전역 스키마(global schema)로서 기능하는 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
제2항에 있어서,

네임스페이스가 용어들의 계층 그래프로 조직화된 일련의 온톨로지인 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
제2항에 있어서,

네임스페이스가 다양한 정보 소스들에 의해 제공된 뷰로부터 독립적으로 정의되고, 그로 인해 정보 소스 레벨 변화가 상기 네임스페이스에 의해 제공된 전역 뷰에 영향을 미치지 않는 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
제2항에 있어서,

소스 뷰가 네임스페이스 내의 용어들에 의해 정의되는 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
제2항에 있어서,

상기 정보 소스들 중의 적어도 하나를 위한 소프트-랩퍼(soft-wrapper)를 더 포함하고,

상기 소프트-랩퍼는 런타임에서 실행되는 서술적 질의인 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
제2항에 있어서,

상기 정보 소스 기술이 어떠한 런타임 환경에 대해서도 독립적으로 작성되는 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
제2항에 있어서,

소프트-랩퍼가 시스템을 재시작하지 않더라도 네트워크 인터페이스를 통해 런타임에 동적으로 테스트되고 등록될 수 있는 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
제2항에 있어서,

등록되는 것이 서술적 질의이고 미리 컴파일된 랩퍼 프로그램이 아니기 때문에 소프트-랩핑이 더욱 안전한 것을 특징으로 하는 다중 정보 소스들을 질의하기 위한 로직 시스템.
네임스페이스 내의 하나 이상의 온톨로지로부터의 용어를 사용하여 형식화된 사용자 질의를 받는 단계;

상기 사용자 질의를 실행하는 데 요구되는 온톨로지 내의 용어들의 최소 부분집합을 식별함으로써 결정되는, 상기 질의에 사용된 온톨로지들에 대한 기준 테이블을 식별하는 단계;

상기 기준 테이블과 이 기준 테이블에 대해 암시된 술어 바인딩을 식별하는 단계;

각각의 식별된 기준 테이블에 대한 소스 기술 세트를 검색하는 단계;

상기 소스 기술 세트로부터 반출된 뷰를 사용하여 상기 사용자 질의를 번역하는 단계;

각각의 소스에서 로컬 뷰를 실체화하는 단계; 및

결과를 받는 단계를 포함하는 것을 특징으로 하는 질의 처리 방법.
제17항에 있어서,

둘 이상의 기준 테이블로부터 제공된 결과를 결합하는 단계를 더 포함하는 것을 특징으로 하는 질의 처리 방법.
제17항에 있어서,

상기 소스 기술 세트는 용어들을 관련 소스 기술들에 연관시키는 전치 인덱스인 소스 기술 인덱스로부터 검색되는 것을 특징으로 하는 질의 처리 방법.
제17항에 있어서,

질의가 꾸밈(adornments)을 포함한 규칙으로 표현되며, 상기 꾸밈은 관련 없는 소스들을 제거해 내기 위한 필터 역할을 특정하는 것을 특징으로 하는 질의 처리 방법.
제17항에 있어서,

기준 테이블이 상기 질의의 SELECT 및 WHERE 절에 사용된 용어들을 모음으로써 식별되고 상기 질의의 FROM 절에 나타난 온톨로지들로 그룹지어지는 것을 특징으로 하는 질의 처리 방법.
제17항에 있어서,

기준 테이블이 개개의 사용자 질의로부터 용어들을 도출해 냄으로써 동적으로 생성되는 것을 특징으로 하는 질의 처리 방법.
제17항에 있어서,

소스 기술이 등록될 때, 상기 소스 기술이 다중 전치 인덱스들로 인덱스되는 것을 특징으로 하는 질의 처리 방법.
제17항에 있어서,

상기 전치 인덱스들은

상기 소스 기술에 사용된 모든 용어들과 상기 소스 기술 사이의 관계를 저장하는 제1 전치 인덱스; 및

상기 소스 기술에 사용된 묶여진 용어들과 상기 소스 기술 사이의 관계를 저장하는 제2 전치 인덱스를 포함하는 것을 특징으로 하는 질의 처리 방법.
제17항에 있어서,

사용자 질의와 연관된 소스들의 부분집합을 얻기 위해 두개의 결과를 교집합하는 단계를 더 포함하는 것을 특징으로 하는 질의 처리 방법.
제17항에 있어서,

소스 기술을 실행할 때, FROM 절 내의 플레이스홀더(placeholders)가 질의 바인딩으로 대체되고 적법한 URL 질의 스트링으로 부호화되는 것을 특징으로 하는 질의 처리 방법.