KR101095866B1

KR101095866B1 - 웹 기반의 정보 저장 및 검색 방법, 이를 위한 정보 관리 시스템

Info

Publication number: KR101095866B1
Application number: KR1020080125436A
Authority: KR
Inventors: 김현기; 황이규; 최미란; 임수종; 허정; 이충희; 오효정; 이창기; 윤여찬; 장명길
Original assignee: 한국전자통신연구원
Priority date: 2008-12-10
Filing date: 2008-12-10
Publication date: 2011-12-21
Also published as: KR20100066919A

Abstract

본 발명은 정보검색, 질의응답, 시맨틱 웹(semantic web) 등에서 튜플(tuple) 또는 트리플(triple) 형태의 정보를 인덱싱(indexing)하여 저장하고 검색하는 기술에 관한 것이다. 이를 위해 본 발명은, 인덱싱의 대상이 되는 문서로부터 형태소 분석, 명사구 청킹(chunking) 등을 수행하고, 언어분석 결과를 입력받아 사람, 장소, 조직 등의 개체명을 인식하며, 문장으로부터 주어와 목적어를 인식하고 주어와 목적어의 관계를 추출하고, 추출된 정보들을 트리플 인덱스에 인코딩하여 저장하며, 사용자의 키워드 또는 자연어질의를 분석하여 개체명 및 관계추출 정보를 분석하는 것을 특징으로 한다. 본 발명으로 인해, 시맨틱 웹 및 정보검색 분야에서 튜플 또는 트리플 형태의 정보를 효율적으로 저장하고 빠르게 검색할 수 있다.

정보검색, 질의응답, 시맨틱 웹, 온톨로지(Ontology), 튜플, 트리플, 색인저장 하부구조

Description

웹 기반의 정보 저장 및 검색 방법, 이를 위한 정보 관리 시스템{TRIPLE INDEXING AND SEARCHING SCHEME FOR EFFICIENT INFORMATION RETRIEVAL}

본 발명은 웹 기반의 정보 관리 기술에 관한 것으로, 정보 검색, 의미기반 검색, 질의응답, 시맨틱 웹(semantic web) 분야 등에서 튜플(tuple)(개체명-개체명 유형) 또는 트리플(triple)(주어(Subject)-서술어(Property)-목적어(Object))로 표현되는 정보를 인덱싱하여 저장하는데 적합한 웹 기반의 정보 저장 및 검색 기술에 관한 것이다.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT 신성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-020-01, 과제명: 웹 QA 기술개발].

시맨틱 웹 온톨로지(semantic web ontology)를 기술하기 위한 표준언어로는 W3C에서 제안한 RDF(Resource Description Framework), OWL(Web Ontology Language) 그리고 ISO에서 제안한 토픽맵(TopicMaps) 등이 널리 사용되고 있으며, 이들 언어에서는 주어(Subject)-서술어(Property)-목적어(Object) 형태로 표현되는 트리플(Triple)이 정보의 기본단위로 사용된다.

시맨틱 웹을 위한 응용프로그램 개발을 위해 웹 문서로부터 의미정보를 자동 또는 반자동으로 추출하고, 추출되는 의미정보에서 트리플 정보를 추출하여 관계형 데이터베이스에 테이블의 칼럼으로 주어, 서술어, 목적어를 저장하며, SQL과 유사한 SPARQL(SPARQL Protocol and RDF Query Language)을 사용한 트리플 정보에 대한 검색 및 숨겨진 정보를 찾기 위한 추론에 대한 연구는 활발하게 이루어져 왔다.

시맨틱 웹의 트리플 저장소로 널리 사용되고 있는“Jena”,“Sesame”에서도범용적인 저장소로 활용하기 위해 트리플을 테이블로 모델링 하여 저장하므로, 수억 개 이상의 대용량 트리플에 대해서는 속도문제가 발생한다. 그러나 정보검색을 위한 효율적이고 빠른 트리플 저장 방법과 검색방법 및 그 시스템은 현재까지 발명되지 않고 있다.

정보검색분야에서는 차세대 검색 시스템을 개발하기 위해 의미기반 검색과 사용자의 질의에 대해 정답을 찾아주는 질의응답 시스템에 대한 연구가 활발하게 진행 중이다. 이와 같은 차세대 검색 분야에서는 형태소 분석 이외의 구문분석, 의미분석, 개체명 인식, 관계추출 등과 같은 언어분석을 수행하여 고품질 정보를 추출한다. 관계추출의 결과는 트리플 형태의 정보로 표현되므로, 차세대 정보검색분야에서 트리플 정보를 효율적으로 인덱싱하여 저장하고, 빠르게 검색할 수 있는 트리플 인덱싱 저장 및 검색 방법이 필수적이다.

관계형 데이터베이스에서는 트리플(Triple) 정보를 테이블에 저장할 때, 주어, 서술어, 목적어 등으로 칼럼을 구성하여 저장한다. 이와 같은 트리플 정보를 검색하고자 할 때, 검색의 키가 한 개 이상이 되는 경우, 예컨대 주어와 서술어, 서술어와 목적어 등과 같은 검색키가 발생할 수 있다.

이렇게 검색의 키가 한 개 이상이 되는 경우, 대용량 트리플을 검색함에 있어 검색 속도가 저하될 수 있다는 문제가 발생한다.

이에 본 발명에서는, 트리플 형태의 정보를 역인덱스 구조에 인코딩 및 저장하여 효율적이고 빠른 트리플 정보에 대한 검색 기술을 마련코자 한다.

또한 본 발명에서는, 정보 검색, 의미기반 검색, 질의응답 및 시맨틱 웹 등에서 키워드 및 자연어 질의로 표현된 사용자 질의에 대해 의미적으로 관련되는 검색 결과를 제공하여 정보 검색의 정확도를 높일 수 있는 웹 기반의 정보 저장 및 검색 기술을 마련코자 한다.

본 발명의 과제를 해결하기 위한 일 관점의 일 실시예에 따르면, 입력되는 문서에 대해 형태소 분석 및 명사구 청킹(chunking)을 수행하는 언어분석 과정과, 상기 언어분석 과정의 언어분석 결과를 토대로 상기 문서의 개체명을 인식하는 개체명 인식 과정과, 상기 문서로부터 주어와 목적어를 인식하고 상기 인식되는 주어와 목적어와의 관계를 추출하는 관계추출 과정과, 상기 관계추출 과정에서 추출된 정보를 인덱스(index) 정보로 데이터베이스화하여 인코딩 저장하는 저장 과정을 포함하는 웹 기반의 정보 저장 방법을 제공한다.

본 발명의 과제를 해결하기 위한 일 관점의 다른 실시예에 따르면, 트리플 인덱스 정보로 데이터베이스화된 웹 기반의 정보 검색 방법으로서, 사용자의 키워드 또는 자연어 질의를 분석하여 개체명 및 관계추출 정보를 분석하는 과정과, 상기 분석하는 과정의 결과에 따라 상기 데이터베이스화된 인덱스 정보를 검색하여 검색 결과를 제공하는 과정을 포함하는 웹 기반의 정보 검색 방법을 제공한다.

본 발명의 과제를 해결하기 위한 다른 관점에 따르면, 인덱스 대상이 되는 문서로부터 형태소 분석, 명사구 청킹을 수행하는 언어분석 블럭과, 상기 언어분석 블럭의 언어분석 결과를 토대로 개체명(예컨대, 사람, 장소, 조직 등)을 인식하는 개체명 인식 블럭과, 상기 문서로부터 주어와 목적어를 인식하고, 상기 인식되는 주어와 목적어와의 관계를 추출하는 관계추출 블럭과, 상기 관계추출 모듈에서 추출된 인덱스 정보를 인덱스 데이터베이스에 인코딩하여 저장하는 저장 블럭과, 사용자의 키워드 또는 자연어 질의를 분석하여 개체명 및 관계추출 정보를 분석하는 질의분석 블럭과, 상기 인덱스 데이터베이스에 저장된 인덱스 정보를 검색하는 검색 블럭을 포함하는 웹 기반의 정보 관리 시스템을 제공한다.

본 발명으로 인해, 시맨틱 웹(semantic web)에서 널리 사용되는 정보의 형태인 트리플 및 개체명 인식과 관계추출 등의 고품질 언어분석을 통해 추출된 튜 플(tuple) 및 트리플(triple) 정보를 역인덱스 구조에 저장하여 검색 시간을 단축시킬 수 있다. 더불어, 본 발명을 이용함으로써, 정보 검색, 의미기반 검색, 질의응답 및 시맨틱 웹 등에서 키워드 및 자연어 질의로 표현된 사용자 질의에 대해 의미적으로 관련되는 검색결과를 제공함으로써 정보 검색의 정확도를 최대한 높일 수 있다.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하게 설명한다.

도 1은 본 발명에 따른 웹 기반의 정보 관리, 예컨대 트리플 인덱스 정보 저장 및 검색을 위한 시스템 구성도이다.

도 1에 도시한 바와 같이, 트리플 인덱스 정보 관리 시스템은, 언어분석 블럭(100), 개체명 인식 블럭(110), 관계추출 블럭(120), 트리플 저장 블럭(130), 질의분석 블럭(140), 트리플 검색 블럭(150), 트리플 인덱스 DB(Data-Base)(160)를 포함한다. 이때의 시스템 환경은 정보검색을 사용하는 기업용 문서검색, 웹 검색, 의미기반검색, 질의응답 등에 적합하다.

도 1에서 언어분석 블럭(100)은 구조/비구조 문서를 읽어 들여 형태소 분석, 명사구 청킹(chunking) 등의 언어분석을 수행하여 분석된 결과를 출력한다.

개체명 인식 블럭(110)에서는 문서에 포함된 인명, 지명, 조직명 등과 같은 개체명을 인식하여 해당 개체명 태그를 부착한다. 개체명으로 추출된 정보는 개체 명으로 추출된 단어와 추출단어의 개체명 유형의 튜플(tuple)로 표현되며, 일반적으로 온톨로지(Ontology)에서 "Data-type Property"를 갖는 클래스는 튜플 형태로 표현된다. 예를 들어, "홍길동의 직업은 회사원이다."라는 문장으로부터 추출되는 개체명은 홍길동:사람이름, 회사원:직업이다. 그러므로 튜플은 아래와 같이 표현될 수 있다.

튜플 ::= 개체명:개체명유형

관계추출 블럭(120)에 의해 추출된 정보는 주어-서술어-목적어의 트리플 형태로 표현되며, 온톨로지에서 "Object Property"를 갖는 클래스는 트리플 형태로 표현된다. 예를 들어, "리니지는 2005년3월1일 발매되었다."라는 문장으로부터 추출되는 관계 정보는 주어(리니지:게임명)-서술어(발매일)-목적어(2005년3월1일:날짜)와 같다. 그러므로 트리플은 아래와 같이 표현될 수 있다.

트리플 ::= 주어:주어유형, 서술어, 목적어:목적어유형

트리플 저장 블럭(130)은 개체명으로 추출된 튜플 형태의 정보와 관계추출로 추출된 트리플 형태 정보를 효율적으로 빠른 검색을 위해 역인덱스 구조를 확장하여 저장한다. 트리플을 역인덱스 구조에 저장하는 방법은 도 3과 도 4에서 자세하게 다루기로 한다.

질의분석 블럭(140)은 사용자가 입력한 키워드 또는 자연어 형태의 질의를 언어분석 블럭(100), 개체명 인식 블럭(120) 및 관계추출 블럭(130)을 활용하여 분석한 후, 튜플 또는 트리플 형태의 검색하고자 하는 정보의 패턴을 추출한다.

트리플 검색 블럭(150)은 질의분석 블럭(140)의 결과를 입력받아 역인덱스 구조로부터 검색을 수행하여, 벡터 검색 모델 등과 같은 랭킹 방법을 적용하여 사용자에게 검색결과를 반환한다.

도 2는 정보 검색에서 사용되는 역인덱스 구조를 예시한 도면이다.

도 2에 예시한 바와 같이, 역인덱스 구조는 텀(term) 사전(200)과 포스팅 파일(posting file)(202)로 구분된다.

텀 사전(200)은 인덱싱되는 텀을 정렬하여 저장되며, 텀이 포함된 문서의 빈도와 해당 텀에 랭킹을 계산하기 위해 필요한 정보를 포함하고 있는 포스팅 파일(202)에서의 위치를 포함한다. 포스팅 파일(202)은 일반적으로 문서의 번호, 문서에서 텀의 발생 빈도, 부가적인 텀 정보(위치정보)로 구성된다.

도 3과 도 4는 본 발명에서 제안하는 정보 저장 방법, 예컨대 트리플 인덱스 정보 저장을 위한 역인덱스 구성을 예시한 도면이다.

도 3에서는 정보 검색의 텀 값을 나타내는 컬럼 이외에 별도의 컬럼을 추가하여 2단계 역인덱스 구조를 사용한다. 튜플과 트리플 정보 저장 방법은 아래에 예시한 바와 같다.

- 튜플 저장 방법

1. 텀 사전(300)의 필드이름에 개체명 유형 값 저장.

2. 텀 사전(300)의 필드 값에 개체명 값 저장.

3. 포스팅 파일(302)의 텀 정보에 문서 내에서의 개체명 값의 위치정보 저장.

- 트리플 저장 방법

1. 텀 사전(300)의 필드이름에 주어의 개체명 유형 값과 서술어의 값을 특정문자(예컨대, ':'로 연결하여 저장.

2. 텀 사전(300)의 필드 값에 주어의 개체명 값 저장.

3. 포스팅 파일(302)의 텀정보에 목적어의 개체명 값 또는 문서 내에서의 위치정보 저장.

한편, 도 4에서는 기존 정보 검색의 텀 값을 저장하는 컬럼에 튜플과 트리플에 대한 별도의 정보를 인코딩하여 접두사로 텀값에 추가하여 사용하는 구조를 사용한다. 튜플과 트리플 정보 저장방법은 아래에 예시하는 바와 같다.

- 튜플 저장 방법

텀사전의 텀 컬럼에 개체명 유형 값과 개체명 값을 특정문자(예: ':')로 구분하여 연결하여 저장.

포스팅 파일의 텀정보에 문서 내에서의 개체명 값의 위치정보 저장.

-트리플 저장 방법

1. 텀 사전(400)의 텀 컬럼에 주어의 개체명 유형 값과 서술어의 값을 특정문자(예컨대, ':')로 연결하여 접두사를 구성하고, 접두사와 주어의 개체명 값을 특정문자(예컨대, '&')로 구분하여 저장.

2. 포스팅 파일(400)의 텀 정보에 목적어의 개체명 값 또는 문서 내에서의 위치정보 저장.

다른 한편, 도 5는 사용자가 임의의 자연어 질의, 예컨대 "넷마블의 발매일은?"이라는 자연어 질의를 입력하였을 때의 정보 검색 과정을 예시한 흐름도이다.

도 5에 예시한 바와 같이, 임의의 자연어 질의가 입력되면(S500), 질의분석 블럭(140)에서는, 예컨대 "주어(넷마블:게임명)-서술어(발매일)-목적어(?)"의 질의어 분석 결과를 출력하며, 사용자가 넷마블 게임의 발매일을 찾고자 한다는 의미를 분석한다(S502).

이후, 트리플 검색 블럭(150)에서는 도 3 또는 도 4에서 제시된 트리플 저장 방법에 따라 검색을 수행한다(S504).

먼저, 도 3에 따른 검색 방법은 필드 이름이 "게임명:발매일"이고, 필드값이 "넷마블"인 문서를 검색하여 랭킹을 수행하여 검색결과를 사용자에게 제공한다(S506).

그리고, 도 4에 따른 검색 방법은 트리플 접두사 "게임명:발매일"을 만들고 주어의 값 "넷마블"을 연결하여 "게임명:발매일&넷마블"이 텀으로 저장되어 있는 문서를 검색하여 랭킹을 수행하여 검색결과를 사용자에게 제공한다(S508).

이상 설명한 바와 같이, 본 발명은 시맨틱 웹(semantic web)에서 널리 사용되는 정보의 형태인 트리플 및 개체명 인식과 관계추출 등의 언어분석을 통해 추출된 튜플 및 트리플 정보를 역인덱스 구조에 저장하였으며, 정보 검색, 의미기반 검색, 질의응답 및 시맨틱 웹 등에서 키워드 및 자연어 질의로 표현된 사용자 질의에 대해 의미적으로 관련되는 검색결과를 제공하도록 구현한 것이다.

이상과 같이, 본 발명의 실시예에 대해 상세히 기술하였으나 본 발명은 이러한 실시예에 국한되는 것은 아니며, 후술하는 청구범위에 기재된 본 발명의 기술적 사상과 범주 내에서 본 발명의 특징이 이해되어져야 할 것이며, 또한 이로부터 당 업자라면 여러 가지 변형으로도 운용 가능함을 주지해야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 웹 기반의 정보 관리를 위한 트리플 인덱스 저장 및 검색 시스템의 구성 블럭도,

도 2는 정보검색에서 널리 사용되는 역인덱스 구조를 예시한 도면,

도 3은 정보검색의 텀값을 나타내는 컬럼 이외에 별도의 컬럼을 추가하여 2단계 역인덱스 구조를 사용하여 튜플과 트리플 정보를 저장하는 방법을 예시한 도면,

도 4는 본 발명의 바람직한 실시예에 따라 정보검색의 텀값을 저장하는 칼럼에 튜플과 트리플에 대한 별도의 정보를 인코딩하여 접두사로 텀값에 추가하여 사용하는 구조를 예시한 도면,

도 5에서는 사용자가 임의의 자연어 질의를 입력하였을 때의 정보 검색 과정을 예시한 흐름도.

<도면의 주요 부분에 대한 부호의 설명>

100 : 언어분석 블럭 110 : 개체명 인식 블럭

120 : 관계추출 블럭 130 : 트리플 저장 블럭

140 : 질의 분석 블럭 150 : 트리플 검색 블럭

160 : 트리플 인덱스 DB

Claims

입력되는 문서에 대해 형태소 분석 및 명사구 청킹(chunking)을 수행하는 언어분석 과정과,

상기 언어분석 과정의 언어분석 결과를 토대로 상기 문서의 개체명을 인식하는 개체명 인식 과정과,

상기 문서로부터 주어와 목적어를 인식하고 상기 인식되는 주어와 목적어와의 관계를 추출하는 관계추출 과정과,

상기 관계추출 과정에서 추출된 정보를 인덱스(index) 정보로 데이터베이스화하여 인코딩 저장하는 저장 과정

을 포함하되,

상기 저장 과정은, 상기 입력되는 문서 중 비구조 문서의 언어분석 결과 또는 구조 문서의 튜플(tuple) 형태의 정보를 역인덱스 구조에 인코딩하여 저장하는 과정이며,

상기 튜플 형태의 정보를 역인덱스 구조에 인코딩하여 저장하는 과정은, 두 가지 단계의 역인덱스를 구성하고 상기 개체명의 유형 값 및 개체명 값을 구분하여 저장하는 과정인 것을 특징으로 하는

웹 기반의 정보 저장 방법.
삭제
제 1 항에 있어서,

상기 저장 과정은, 상기 입력되는 문서 중 비구조 문서의 언어분석 결과 또는 시맨틱 웹에서의 트리플(triple) 형태의 정보를 역인덱스 구조에 인코딩하여 저장하는 과정인 것을 특징으로 하는 웹 기반의 정보 저장 방법.
삭제
제 1 항에 있어서,

상기 튜플 형태의 정보를 역인덱스 구조에 인코딩하여 저장하는 과정은, 상기 개체명의 유형 값 및 개체명 값을 연결하여 저장하는 것을 특징으로 하는 웹 기반의 정보 저장 방법.
제 3 항에 있어서,

상기 트리플 형태의 정보를 역인덱스 구조에 인코딩하여 저장하는 과정은, 두 가지 단계의 역인덱스를 구성하고 상기 문서의 주어의 개체명 유형 값과 서술어 의 값과 주어의 개체명 값을 각각 구분하여 저장하는 것을 특징으로 하는 웹 기반의 정보 저장 방법.
제 3 항에 있어서,

상기 트리플 형태의 정보를 역인덱스 구조에 인코딩하여 저장하는 과정은,

상기 문서의 주어의 개체명 유형 값과 서술어의 값을 연결하여 접두사를 구성하는 과정과,

상기 접두사와 주어의 개체명 값을 연결하여 저장하는 과정

을 포함하는 웹 기반의 정보 저장 방법.
튜플 또는 트리플 인덱스 정보로 데이터베이스화된 웹 기반의 정보 검색 방법으로서,

사용자의 키워드 또는 자연어 질의를 분석하여 튜플 형태의 개체명 및 트리플 형태의 관계추출 정보를 분석하는 과정과,

상기 분석하는 과정의 결과에 따라 상기 데이터베이스화된 튜플 또는 트리플 인덱스 정보를 검색하여 검색 결과를 제공하는 과정

을 포함하는 웹 기반의 정보 검색 방법.
인덱스 대상이 되는 문서로부터 형태소 분석 및 명사구 청킹을 수행하는 언어분석 블럭과,

상기 언어분석 블럭의 언어분석 결과를 토대로 개체명을 인식하는 개체명 인식 블럭과,

상기 문서로부터 주어와 목적어를 인식하고, 상기 인식되는 주어와 목적어와의 관계를 추출하는 관계추출 블럭과,

상기 관계추출 모듈에서 추출된 인덱스 정보를 인덱스 데이터베이스에 인코딩하여 저장하는 저장 블럭과,

사용자의 키워드 또는 자연어 질의를 분석하여 개체명 및 관계추출 정보를 분석하는 질의분석 블럭과,

상기 인덱스 데이터베이스에 저장된 인덱스 정보를 검색하는 검색 블럭을 포함하되,

상기 검색 블럭은,

상기 질의분석 블럭의 질의분석 결과를 토대로 역인덱스 구조로부터 검색을 수행하여 그 검색 결과를 제공하는 것을 특징으로 하는 웹 기반의 정보 관리 시스템.
제 9 항에 있어서,

상기 질의분석 블럭은,

상기 분석되는 개체명 및 관계추출 정보에 대해 튜플 또는 트리플 형태의 검색하고자 하는 정보의 패턴을 추출하는 것을 특징으로 하는 웹 기반의 정보 관리 시스템.
삭제