WO2010134752A2

WO2010134752A2 - 다수 분류 체계를 연동한 시멘틱 검색 방법 및 시스템

Info

Publication number: WO2010134752A2
Application number: PCT/KR2010/003156
Authority: WO
Inventors: 최현정; 신창호; 이유진; 이승범; 이민정
Original assignee: 주식회사 아이네크
Priority date: 2009-05-21
Filing date: 2010-05-19
Publication date: 2010-11-25
Also published as: WO2010134752A3; KR20100125682A; KR101079769B1

Abstract

본 발명에 따른 시멘틱 검색 방법은, 복수의 분류 카테고리를 갖는 분류 체계를 두 가지 이상으로 구분하여 구분된 각각의 분류 체계에 대하여 각 분류 카테고리에 대응된 리소스들을 데이터베이스화하고, 각 키워드에 대하여 제1 분류 체계의 제1 분류 카테고리와 제2 분류 체계의 제2 분류 카테고리가 갖는 유사도값에 기초하여 두 분류 카테고리 사이의 연관 관계를 설정하며, 입력 키워드에 대한 검색 결과의 제공 시에, 상기 연관 관계에 기초하여 복수의 분류 체계에 속한 리소스들을 각 분류 체계별 또는 각 분류 카테고리별로 구분하여 검색 결과를 제공할 수 있다.

Description

다수 분류 체계를 연동한 시멘틱 검색 방법 및 시스템

본 발명은 시멘틱(semantic) 검색 방법 및 시스템에 관한 것으로서, 특히, 다양한 분야에서 각기 다른 분류 체계로 데이터베이스화된 리소스들을 통합하여 온톨로지(ontology) 분류 스키마(schema)를 이용하여 다른 분야의 다른 분류 개념에 있는 분류와도 연관성 정도에 따라 매핑시켜서 데이터베이스화함으로써 사용자 접근성이 향상된 분류 카테고리의 추천 및 의미론적 리소스 검색 서비스를 실현할 수 있는 시멘틱 검색 방법 및 시스템에 관한 것이다.

오늘날 각종 정보의 홍수 속에서 사용자가 찾고자 하는 정보를 신속하고 정확하게 검색할 수 있는 시스템이 많은 분야에서 요구되고 있다. 예를 들어, 도서관의 도서 검색 시스템, 웹(web) 사이트의 정보 검색 시스템, LAN으로 연결된 소규모 네트워크나 개인용 PC의 저장 장치에 관리되는 리소스들에 대한 검색 시스템 등 검색에 유용한 시스템이 관리되는 많은 정보, 예를 들어, 문서 파일, 이미지 파일, 비디오 파일, 데이터베이스 정보, 텍스트 데이터 등 다양한 형태의 정보를 보다 빠르고 지능화된 방법으로 검색하기 위한 많은 방법들이 개발되고 있다.

일반적인 검색 시스템에서는 하나의 분류 체계 내에서 검색 대상 자료로부터 검색어에 해당하는 문자열을 추출하고 추출된 문자열에 대한 검색어와의 일치도 비교를 통하여 검색 결과를 제공할 수 있다. 예를 들어, 인터넷 서점이나 도서관에서 사용하는 검색 시스템에서는 KDC(Korea Decimal Classification) 분류 체계에 따른 도서의 목록이나 요약 정보를 제공할 수 있다. 이와 같은 검색 시스템은 인터넷 쇼핑몰이나 학술 정보 제공 사이트에서도 유사하게 검색어에 유사한 각종 자료를 제공할 수 있다.

그러나, 다양한 분류 체계에 따라 데이터베이스화된 리소스들을 운영하는 경우에, 검색 대상 범위가 증가하여 일일이 리소스들을 검색하여 검색어에 해당하는 유사 자료를 제공하는 데에는 어려움이 있다. 예를 들어, 도서 검색 시스템의 경우에, 사용자에 따라서는 KDC의 분류 체계뿐만 아니라, 학진(한국학술진흥재단: KRF: Korea Research Foundation), DDC(Dewey Decimal Classification), UDC(Univeral Decimal Classification) 등의 분류 체계에 따른 검색 결과를 희망할 수 있다. 그러나, 이와 같은 각각의 분류 체계에 따른 리소스들은 서로 산재되어 있어서 검색어에 해당하는 리소스를 일일이 검색하는 시간이 많이 소요될 수 있으며, 분류 체계별로 일목 요연한 검색 결과를 제공하지 못하므로, 사용자로서는 쉽게 필요한 정보에 접근할 수 없는 문제점이 있다.

본 발명은 상술한 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 사용자 접근성이 향상된 풍부하고 정확한 검색결과를 제공하기 위하여, 다양한 분야에서 각기 다른 분류 체계로 데이터베이스화된 리소스들을 통합하여 온톨로지(ontology) 분류 스키마(schema)를 이용하여 다른 분야의 다른 분류 개념에 있는 분류와도 연관성 정도에 따라 매핑시켜서 데이터베이스화하여 효율적으로 분류 카테고리를 추천하며 의미있는 리소스 검색 결과를 서비스할 수 있는 시멘틱 검색 방법 및 시스템을 제공하는 데 있다.

먼저, 본 발명의 특징을 요약하면, 상기의 목적을 달성하기 위한 본 발명의 일면에 따른 시멘틱 검색 방법, 복수의 분류 카테고리를 갖는 분류 체계를 두 가지 이상으로 구분하여 구분된 각각의 분류 체계에 대하여 각 분류 카테고리에 대응된 리소스들을 데이터베이스화하고, 각 키워드에 대하여 제1 분류 체계의 제1 분류 카테고리와 제2 분류 체계의 제2 분류 카테고리가 갖는 유사도값에 기초하여 두 분류 카테고리 사이의 연관 관계를 설정하며, 입력 키워드에 대한 검색 결과의 제공 시에, 상기 연관 관계에 기초하여 복수의 분류 체계에 속한 리소스들을 각 분류 체계별 또는 각 분류 카테고리별로 구분하여 검색 결과를 제공하는 것을 특징으로 한다.

상기 연관 관계는, 제1 분류 체계와 제2 분류 체계 중 어느 하나의 리소스에 포함된 각 키워드를 추출하여, 상기 각 리소스의 미리 정해진 분류 정보에 기초하여 상기 각 키워드가 상기 제1 분류 체계의 분류 카테고리에 대하여 갖는 제1 유사도값과 상기 제2 분류 체계의 분류 카테고리에 대하여 갖는 제2 유사도값을 계산하며, 각 분류 카테고리의 레벨을 고려한 상기 제1 유사도값과 상기 제2 유사도값의 차이에 기초하여 설정될 수 있다.

상기 시멘틱 검색 방법은, 각 분류 카테고리에 포함된 키워드의 집합을 미리 추출해 두고, 각 키워드에 대하여 문서 파일, 데이터베이스 정보, 텍스트 데이터, 이미지, 또는 동영상을 포함한 리소스에 대한 메타 데이터에서 추출되는 키워드와 매칭되는 분류 카테고리들의 연관 관계를 설정하여 조합함으로써 시멘틱 검색을 제공할 수 있다.

상기 각 리소스의 미리 정해진 분류 정보는 리소스 또는 해당 메타데이터에 포함된 해당 분류 체계의 분류 카테고리에 대한 정보를 포함하고, 상기 분류 카테고리는 적어도 한 레벨 이상의 세부 카테고리를 포함한 계층 구조를 갖는다.

상기 제1 유사도 값 또는 상기 제2 유사도 값은, 키워드가 각 분류 카테고리의 리소스에서 출현하는 빈도수와 해당 리소스가 속하는 분류 카테고리에 대하여 미리 설정한 가중치의 곱에 기초하여 계산될 수 있다.

상기 해당 리소스가 속하는 분류 카테고리가 없는 경우에 상기 키워드가 해당 리소스에서 출현하는 빈도수만을 이용하기 위하여, 상기 분류 카테고리들에 대하여 미리 설정한 가중치를 모두 같은 값으로 하여 다른 분류 체계와 연관 관계를 채택할 수 있다.

상기 검색 결과의 제공 시에, 상기 입력 키워드가 포함된 해당 분류 체계의 리소스들을 우선적으로 디스플레이 수단에 각 분류 카테고리별로 표시하고, 상기 우선하여 표시된 리소스들과 인접하게 상기 해당 분류 체계와 상기 연관 관계가 가장 많이 설정된 다른 분류 체계의 리소스들을 각 분류 카테고리별로 표시할 수 있다.

그리고, 본 발명의 다른 일면에 따른 시멘틱 검색 시스템은, 복수의 분류 카테고리를 갖는 분류 체계를 두 가지 이상으로 구분하여 구분된 각각의 분류 체계에 대하여 각 분류 카테고리에 대응된 리소스들을 저장하고 관리하는 데이터베이스; 각 키워드에 대하여 제1 분류 체계의 제1 분류 카테고리와 제2 분류 체계의 제2 분류 카테고리가 갖는 유사도 값에 기초하여 두 분류 카테고리 사이의 연관 관계를 설정하는 관계 모델 설정 수단; 및 입력 키워드에 대한 검색 결과의 제공 시에, 상기 연관 관계에 기초하여 복수의 분류 체계에 속한 리소스들을 각 분류 체계별 또는 각 분류 카테고리별로 구분하여 검색 결과를 제공하는 검색 결과 제공 수단을 포함할 수 있다.

본 발명에 따른 시멘틱 검색 방법 및 시스템에 따르면, 다양한 분야에서 각기 다른 분류 체계로 데이터베이스화된 리소스들을 통합하여 온톨로지(ontology) 분류 스키마(schema)를 이용하여 다른 분야의 다른 분류 개념에 있는 분류와도 연관성 정도에 따라 매핑시켜서 데이터베이스화하여 효율적으로 분류 카테고리를 추천하며 의미론적 리소스 검색 서비스를 수행함으로써, 사용자에게 쉽고 편리하게 풍부하고 정확한 검색 결과를 제공할 수 있다.

도 1은 본 발명의 일실시예에 따른 시멘틱 검색 시스템을 설명하기 위한 도면이다.

도2는 분류체계간의 계층구조와 다수분류간의 연관관계 구성을 설명하기 위한 도면이다.

도 3은 제1 분류 체계와 키워드들 간의 연관성 매핑 방법을 설명하기 위한 도면이다.

도 4은 제2 분류 체계와 키워드들 간의 연관성 매핑 방법을 설명하기 위한 도면이다.

도 5은 키워드들과 분류 카테고리들의 간의 연관성 매핑 결과를 설명하기 위한 도면이다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다.

이하에서 언급하는 본 발명의 일실시예에 따른 시멘틱 검색 시스템은, 컴퓨터, PDA, 셀룰러 폰이나 기타 전용 기기 등에서 하드웨어, 소프트웨어 또는 이들의 조합으로 동작되도록 구현될 수 있으며, 또한, 인터넷, 이동 통신망, 무선 인터넷 망 등을 통하여 웹(WEB)서버, 왑(WAP)서버 등에서 사용자에게 쉽고 편리하게 풍부하고 정확한 검색 결과를 제공하도록 동작할 수 있다.

도 1을 참조하면, 본 발명의 일실시예에 따른 시멘틱 검색 시스템은, 학진 분류, KDC, DCC, UCC, 인터넷 포털의 상품이나 기사의 분류, 인터넷 서점에서의 도서 분류 등 서로 다른 분류 체계를 갖는 리소스들이 저장 관리된 데이터베이스의 정보에 대하여, 소정 연관 관계 설정 수단을 통하여 서로 다른 분류 체계의 분류 카테고리들 간의 연관 관계를 미리 설정하여 구축하여 둠으로써, 입력 키워드에 대한 검색 결과의 제공 시에, 위와 같은 연관 관계에 기초하여 복수의 분류 체계에 속한 리소스들을 각 분류 체계별 또는 각 분류 카테고리별로 구분하여 검색 결과를 제공할 수 있다.

예를 들어, 학진 분류는 A000000인문학, B000000사회과학, C000000자연과학, D000000공학, E000000의약학, F000000농수해양, G000000예술체육, H000000복합학 등으로 학문 기타 관련 분야의 리소스들을 데이터베이스화하여 관리하기 위하여 사용되고 있으며, KDC 분류는 000 총류, 100 철학, 200 종교, 300 사회과학, 400 순수과학, 500 기술과학, 600 예술, 700 어학, 800 문학, 900 역사 등으로 도서 기타 관련 분야의 리소스들을 데이터베이스화하여 관리하기 위하여 사용되고 있고, DDC 분류는 000 서지정보학, 총서, 전집, 100철학, 200 종교, 300 사회과학, 400 언어학, 500 자연과학, 600 기술과학(의학, 공학, 농학, 가정학 등), 700 예술, 800 문학, 900 역사, 지리, 인물 등으로 도서 기타 관련 분야의 리소스들을 데이터베이스화하여 관리하기 위하여 사용되고 있다. 이외에도, 인터넷 포털이나 서점 등에서도 위와 같은 분류 체계를 응용하여 사이트 운영 목적에 맞는 독자적인 분류 체계를 갖추어 사용자의 키워드 검색에 필요한 검색 결과를 용이하게 제공하고자 하고 있다.

이와 같은 각 분야의 리소스들은 문서 파일, 이미지 파일, 비디오 파일, 데이터베이스 정보, 또는 텍스트 데이터 형식을 취할 수 있는 데, 각 분류 체계에 따라 위와 같은 대분류 하위에 세부 분류 카테고리가 적어도 한 레벨 이상, 예를 들어, 중분류, 소분류, 세분류 등으로 구분되는 계층(hierarchical) 구조의 분류 카테고리에 대하여 미리 정해진 분류 정보가 해당 리소스나 해당 리소스의 메타데이터에 대응되어 데이터베이스에 관리되고 있다. 해당 리소스의 속성 정보를 지칭하는 메타데이터는 위와 같은 해당 분류 체계의 분류 카테고리에 대한 정보를 포함할 뿐만 아니라, 리소스의 위치, 키워드, 타입(텍스트, 이미지, 비디오 등), 작성자 정보, 권리조건, 이용조건, 이용로그 등에 관한 정보가 포함될 수 있다.

특히, 본 발명에서는 각 분야의 해당 분류 체계에서 리소스들은 RDF/OWL(Resource Description Framework /Web Ontology Language) 구문에 기초한 온톨로지(ontology) 형태로 구축될 수 있다. 문서, 이미지, 비디오(동영상), 데이터베이스 정보, 텍스트 데이터 등의 다양한 리소스들은 메타데이터를 제공하고 있으며, 이러한 메타데이터들은 분류나 키워드 컨셉(concept)을 중심으로 한 의미론적 연관 관계의 맵(map)으로 연결되어 온톨로지로 구축될 수 있으며, 본 발명에 따른 연관 관계 설정에 따라 통합적으로 시멘틱한 검색을 통하여 보다 사용자에게 정확하고 풍부한 정보를 제공할 수 있다.

한편, 도 1의 점선과 같이, 본 발명의 일실시예에 따른 시멘틱 검색 시스템은, 소정 연관 관계 설정 수단을 통하여 각각의 분류 체계에 대하여 각 분류 카테고리에 대응된 리소스들이 저장 관리되는 데이터베이스의 정보로부터 각 키워드에 대하여 분류 체계가 다른 분류 카테고리 간의 연관 관계를 미리 설정하여 구축할 수 있다.

도 2와 같이, 각 분류 체계에는 계층구조를 가진 분류 카테고리를 지니고 있으며, 다수의 분류 체계를 모두 열거하였을 때에도 서로 다른 분류체계의 카테고리 간에 연관관계가 나타남을 알 수 있다. 본 발명에서는 이러한 연관관계를 시맨틱한 관계 알고리즘을 통하여 다양한 성격의 연관관계를 생성시켜주는 시스템을 제안하는 것이다. 본 발명의 일실시예에 따른 시멘틱 검색 시스템에서는, 각 분류 카테고리에 자주 이용되는 키워드의 집합을 미리 추출해 두고, 각 키워드에 대하여 문서 파일, 데이터베이스 정보, 텍스트 데이터, 이미지, 또는 동영상을 포함한 리소스에 대한 메타 데이터에서 추출되는 키워드와 매칭되는 분류 카테고리들의 연관 관계를 설정하여 조합한다. 예를 들어, 도 2와 같이 각 분류 카테고리마다 포함하고 있는, 예를 들어, 인명을 포함한 키워드 집합이 생성될 수 있으며, 동일한 키워드가 여러 분류 카테고리에도 포함될 수 있다. 이들 간의 의미적 관계가 연관 관계로 설정 부여되어 시맨틱 검색을 제공하도록 한다.

예를 들어, 입력될 각각의 키워드가 제1 분류 체계의 제1 분류 카테고리와 제2 분류 체계의 제2 분류 카테고리에서 갖는 연관성 정도에 따라 두 카테고리 간의 연관 관계를 미리 설정해 놓을 수 있다. 각 분류 체계에서는 해당 분야에 적합한 컨셉(concept)으로 접근하여 각 분류 카테고리를 정해놓고 있으며, 본 발명의 일실시예에 따른 시멘틱 검색 시스템에서는 이와 같은 분류 카테고리간 연관성을 미리 파악하여 스키마를 설정 구성해 놓음으로써 입력 키워드에 대하여 해당 검색 대상 리소스의 접근성을 향상시킬 수 있고, 검색 결과에 대한 유사도, 정확도, 상하위 개념 등 관계 모델 설정이 용이하여 분류 카테고리의 추천 서비스에도 크게 기여할 수 있다.

예를 들어, 위와 같이 각 키워드에 대하여 분류 체계가 다른 분류 카테고리 간의 연관 관계가 미리 설정되어 구축되면, 본 발명의 일실시예에 따른 시멘틱 검색 시스템에서는 소정의 검색 결과 제공 수단(예를 들어, 검색 엔진)을 통하여, 입력 키워드에 대하여 위와 같은 연관 관계를 적용한 시멘틱 검색을 이용해 복수의 분류 체계에 속한 리소스들을 각 분류 체계별 또는 각 분류 카테고리별로 구분하여 검색 결과를 제공할 수 있게 된다. 일례로, 검색할 키워드가 입력되면, 입력 키워드에 해당하는 각 분류 체계의 해당 분류 카테고리를 우선적으로 검색하고, 이에 따라 각 분류 체계별로 구분하여 디스플레이 수단에 검색 결과를 제공하되, 해당 키워드에 대한 일치도가 높은 리소스를 갖는 분류 카테고리의 리소스에 대한 정보를 우선적으로 추천하여 검색 결과를 제공하는 것이 가능하다. 또한, 검색 결과의 제공 시에, 해당 입력 키워드가 가장 많이 포함된 해당 분류 체계의 리소스들을 각 분류 카테고리별로 가장 먼저 표시하고, 해당 분류 체계와 위와 같은 연관 관계가 가장 많이 설정된 다른 분류 체계의 리소스들을 각 분류 카테고리별로 표시할 수도 있다.

이하, 도 3 내지 도 5을 참조하여, 본 발명의 일실시예에 따른 시멘틱 검색 시스템에서의 분류 카테고리간 연관 관계 설정 방법을 좀더 자세히 설명한다.

수 많은 리소스들에 대한 검색을 용이하게 할 수 있도록 기본적으로 리소스에는 미리 정해진 분류 정보가 포함될 수 있는데, 이와 같은 분류 정보에는 다양한 분야에서 사용되고 있는 도 1과 같은 각 분류 체계에서 계층 구조의 분류 카테고리에 대한 정보가 포함될 수 있다. 이와 같은 분류 정보는 해당 리소스의 속성 정보 중의 하나로서 리소스에 부여되는 메타데이터에 포함될 수 있다.

이와 같이 리소스 또는 메타데이터에는 분류정보가 포함되지만, 각 분류 체계 상에서는 서로 다른 분류 컨셉을 적용하여 분류 카테고리를 정하고 있기 때문에, 타 분류 체계의 분류 카테고리 간 연관성을 파악하기는 쉽지 않다. 예를 들어, 도서 등의 분류를 위하여 서지학에서 사용하는 KDC나 DDC분류 체계에서, 대분류, 중분류, 소분류, 세분류 등의 해당 분류 카테고리들 간에 정확히 일치되는 동일한 분류 카테고리인지 또는 어느 정도 유사성을 가지고 연관성이 있는 분류 카테고리 인지 여부를 파악하기 위하여, 검색 결과를 보고 사용자가 자신의 지식을 바탕으로 구분해 내야만 하는 어려움이 있다. 따라서, 본 발명에서는 분류 체계를 구분하여 연관 관계가 가장 많이 설정된 다른 분류 체계의 리소스들을 검색 결과로서 자동으로 제공하지 못하는 어려움을 극복하고자 하였다. 또한, 본 발명에서는 해당 리소스가 속하는 분류 카테고리가 없는 경우(예를 들어, 분류 정보가 없는 경우)에도 다른 분류 체계의 분류 카테고리와 연관 관계를 맺어 주어 자동 분류함으로써 연관성 있는 검색 결과가 일목 요연하게 정리되어 제시될 수 있도록 지원할 수 있다.

도 3 또는 도 4에서, 리소스 또는 해당 메타데이터에는 미리 정해진 분류 카테고리(분류 1-1, 1-2.../분류 2-1, 2-2...)를 포함한 분류 정보가 포함된다. 제1 분류 체계의 각 분류 카테고리(분류 1-1, 1-2...1-n)를 제2 분류 체계의 어느 하나 이상의 분류 카테고리(분류 2-1, 2-2...2-k)와 연관 관계를 설정하기 위하여, 먼저, 소정 관계 모델 설정 수단은 리소스의 언어 정보, 예를 들어, 제목, 주제, 내용 등 형태소 분석이 가능한 정보로부터 필요한 키워드들(키워드 1,2..m)을 추출하여 학습 셋(set)을 준비할 수 있다. 키워드들(키워드 1,2..m)은 각 품사별, 예를 들어, 명사, 부사, 형용사, 동사 등으로 구분하여 대량으로 자동 추출될 수 있다.

키워드들(키워드 1,2..m)이 추출되면, 관계 모델 설정 수단은 각 키워드가 제1 분류 체계의 분류 카테고리(예를 들어, 분류 1-1)에 대하여 갖는 제1 유사도값(S1)과 제2 분류 체계의 분류 카테고리(예를 들어, 분류 2-1)에 대하여 갖는 제2 유사도값(S2)을 계산하며, 제1 유사도값(S1)과 제2 유사도값(S2)의 차이에 기초하여 연관 관계를 설정할 수 있다.

[수학식 1]

S1 = f_1-1*W_1-1+f_1-2*W_1-2+ f_1-3*W_1-3+ .. + f_1-n*W_1-n..

[수학식 2]

S2 = f_2-1*W_2-1+f_2-2*W_2-2+ f_2-3*W_2-3+ .. + f_2-n*W_2-n..

제1 유사도값(S1)과 제2 유사도값(S2) 각각은 위의 식들과 같이, 키워드가 각 분류 카테고리의 리소스에서 출현하는 빈도수(f_1-1, f_1-2, f_1-3.. f_1-n/ f_2-1, f_2-2, f_2-3.. f_2-n)와 해당 리소스가 속하는 분류 카테고리에 대하여 미리 설정한 가중치(W_1-1, W_1-2, W_1-3.. W_1-n/ W_2-1, W_2-2, W_2-3.. W_2-n)의 곱으로 계산될 수 있다. 각 분류체계에서의 해당 분류 카테고리의 레벨을 고려하여 위와 같은 가중치가 적절히 설정될 수 있다.

이와 같은 방법으로 각 키워드(키워드 1,2..m)에 대하여 제1 분류 체계의 분류 카테고리(예를 들어, 분류 1-1)와 제2 분류 체계의 분류 카테고리(예를 들어, 분류 2-1)의 연관 관계를 설정할 수 있다. 예를 들어, 제1 유사도값(S1)과 제2 유사도값(S2)의 차이가 임계치(T%), 예를 들어, 10% 이하인 경우에, 제1 분류 체계의 분류 카테고리(예를 들어, 분류 1-1) 리소스들의 키워드들과 제2 분류 체계의 분류 카테고리(예를 들어, 분류 2-1) 리소스들의 키워드들 사이에 많은 일치하는 키워드들이 있는 것으로 보아 제1 분류 체계의 분류 카테고리(예를 들어, 분류 1-1)와 제2 분류 체계의 분류 카테고리(예를 들어, 분류 2-1)는 연관 관계가 있는 것으로 설정된다. 또한, 제1 유사도값(S1)과 제2 유사도값(S2)의 차이가 임계치(T%), 예를 들어, 10%를 초과하는 경우에는, 제1 분류 체계의 분류 카테고리(예를 들어, 분류 1-1) 리소스들의 키워드들은 제2 분류 체계의 분류 카테고리(예를 들어, 분류 2-1) 리소스들의 키워드들과 대부분 일치하지 않는 것으로 보아 제1 분류 체계의 분류 카테고리(예를 들어, 분류 1-1)와 제2 분류 체계의 분류 카테고리(예를 들어, 분류 2-1)는 연관 관계가 없는 것으로 결정된다. 여기서, 연관 관계 설정의 기초가 되는 제1 유사도값(S1)과 제2 유사도값(S2)의 차이에 대한 임계치(T%)는 10%에 한정되는 것이 아니라, 경우에 따라서는 그 이상 또는 그 이하의 값으로 설정될 수 있다.

이와 같은 방식으로 제1 분류 체계의 분류 카테고리와 제2 분류 체계의 분류 카테고리의 연관 관계를 설정할 수 있고, 각 키워드에 대한 위와 같은 유사도값에 기초하여 연관 관계 모델 설정 수단을 통하여 도 5과 같이 두 분류 체계간 카테고리의 연관 관계의 셋을 자동으로 구축하여 데이터베이스화하고 관리하는 것이 가능하다. 이에 따라, 본 발명의 일시예예 따른 시멘틱 검색 서비스 시스템에서는, 다양한 분야에서 각기 다른 분류 체계로 온톨로지(ontology) 분류 스키마에 기초하여 데이터베이스화된 리소스들을 통합하여 다른 분야의 다른 분류 개념에 있는 분류와도 매핑된 연관 관계를 토대로 효율적으로 분류 카테고리를 추천하며 의미론적 리소스 검색 서비스를 수행할 수 있고, 사용자에게 쉽고 편리하게 풍부하고 정확한 검색 결과를 제공할 수 있게 된다.

도 3 내지 도 5과 같은 방식으로 연관 관계의 설정에 있어서, 해당 리소스가 속하는 분류 카테고리가 없는 경우, 예를 들어, 분류 카테고리와 같은 분류 정보를 포함한 메타 데이터가 없는 경우에도, 키워드가 해당 리소스에서 출현하는 빈도수만을 [수학식 1] 및 [수학식 2]에 적용하여 위와 같은 방식으로 연관 관계를 설정하여 줄 수 있다. 예를 들어, 해당 리소스가 속하는 분류 카테고리들에 대하여 미리 설정한 가중치(W_1-1, W_1-2, W_1-3.. W_1-n/ W_2-1, W_2-2, W_2-3.. W_2-n)를 모두 같은 값으로 하고 키워드가 해당 리소스에서 출현하는 빈도수(f_1-1, f_1-2, f_1-3.. f_1-n/ f_2-1, f_2-2, f_2-3.. f_2-n)를 [수학식 1] 및 [수학식 2]에 적용하여 두 분류 카테고리에 대한 제1 유사도값(S1)과 제2 유사도값(S2)을 계산할 수 있다. 이에 따라, 제1 유사도값(S1)과 제2 유사도값(S2)의 차이가 임계치(T%), 예를 들어, 10% 이하인 경우에, 제1 분류 체계의 분류 카테고리에 속한 해당 리소스는 제2 분류 체계의 분류 카테고리와 연관 관계가 있는 것으로 채택되어 설정될 수 있다. 또한, 위와 같이 분류 카테고리가 없는 해당 리소스에서 새로운 키워드를 추출하여 반영하는 경우에도, 해당 새로운 키워드가 포함된 리소스를 위와 같이 채택된 다른 분류 체계와 연관 관계가 설정되도록 포함시킬 수 있다.

이와 같은 타 분류 체계의 분류 카테고리 간 연관 관계의 설정은 리소스의 추가 시마다 위와 같은 방식으로 학습되도록 업데이트될 수 있으며, 업데이트마다 카테고리 간 연관 관계가 정확해져서 검색의 접근성이 더욱 향상된다. 이에 따라, 검색 결과 제공 수단에서는 입력되는 키워드가 포함된 해당 분류 체계의 리소스들을 디스플레이 수단에 각 분류 카테고리별로 표시하는 데 있어서, 입력 키워드와 일치도가 높은 분류 체계의 리소스들을 각 분류 카테고리별로 우선적으로 표시하여 추천할 수 있으며, 이때, 해당 분류 체계와 위와 같은 연관 관계가 가장 많이 설정된 다른 분류 체계의 리소스들을 상기 우선하여 표시된 리소스들과 인접하게 각 분류 카테고리별로 표시하여 추천하는 것도 가능하다.

이상에서와 같이 도면과 명세서에서 최적 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

복수의 분류 카테고리를 갖는 분류 체계를 두 가지 이상으로 구분하여 구분된 각각의 분류 체계에 대하여 각 분류 카테고리에 대응된 리소스들을 데이터베이스화하고,

각 키워드에 대하여 제1 분류 체계의 제1 분류 카테고리와 제2 분류 체계의 제2 분류 카테고리가 갖는 유사도값에 기초하여 두 분류 카테고리 사이의 연관 관계를 설정하며,

입력 키워드에 대한 검색 결과의 제공 시에, 상기 연관 관계에 기초하여 복수의 분류 체계에 속한 리소스들을 각 분류 체계별 또는 각 분류 카테고리별로 구분하여 검색 결과를 제공하는 것을 특징으로 하는 시멘틱 검색 방법.
제1항에 있어서, 상기 연관 관계는,

제1 분류 체계와 제2 분류 체계 중 어느 하나의 리소스에 포함된 각 키워드를 추출하여,

상기 각 리소스의 미리 정해진 분류 정보에 기초하여 상기 각 키워드가 상기 제1 분류 체계의 분류 카테고리에 대하여 갖는 제1 유사도값과 상기 제2 분류 체계의 분류 카테고리에 대하여 갖는 제2 유사도값을 계산하며,

각 분류 카테고리의 레벨을 고려한 상기 제1 유사도값과 상기 제2 유사도값의 차이에 기초하여 설정되는 것을 특징으로 하는 시멘틱 검색 방법.
제1항에 있어서,

각 분류 카테고리에 포함된 키워드의 집합을 미리 추출해 두고, 각 키워드에 대하여 문서 파일, 데이터베이스 정보, 텍스트 데이터, 이미지, 또는 동영상을 포함한 리소스에 대한 메타 데이터에서 추출되는 키워드와 매칭되는 분류 카테고리들의 연관 관계를 설정하여 조합함으로써 시멘틱 검색을 제공하는 것을 특징으로 하는 시멘틱 검색 방법.
제2항에 있어서, 상기 각 리소스의 미리 정해진 분류 정보는 리소스 또는 해당 메타데이터에 포함된 해당 분류 체계의 분류 카테고리에 대한 정보를 포함하고,

상기 분류 카테고리는 적어도 한 레벨 이상의 세부 카테고리를 포함한 계층 구조를 갖는 것을 특징으로 하는 시멘틱 검색 방법.
제2항에 있어서, 상기 제1 유사도값 또는 상기 제2 유사도값은,

키워드가 각 분류 카테고리의 리소스에서 출현하는 빈도수와 해당 리소스가 속하는 분류 카테고리에 대하여 미리 설정한 가중치의 곱에 기초하여 계산되는 것을 특징으로 하는 시멘틱 검색 방법.
제5항에 있어서, 상기 해당 리소스가 속하는 분류 카테고리가 없는 경우에 상기 키워드가 해당 리소스에서 출현하는 빈도수만을 이용하기 위하여, 상기 분류 카테고리들에 대하여 미리 설정한 가중치를 모두 같은 값으로 하여 다른 분류 체계와 연관 관계를 채택하는 것을 특징으로 하는 시멘틱 검색 방법.
제5항에 있어서,

상기 검색 결과의 제공 시에, 상기 입력 키워드가 포함된 해당 분류 체계의 리소스들을 우선적으로 디스플레이 수단에 각 분류 카테고리별로 표시하고, 상기 우선하여 표시된 리소스들과 인접하게 상기 해당 분류 체계와 상기 연관 관계가 가장 많이 설정된 다른 분류 체계의 리소스들을 각 분류 카테고리별로 표시하는 것을 특징으로 하는 시멘틱 검색 방법.
복수의 분류 카테고리를 갖는 분류 체계를 두 가지 이상으로 구분하여 구분된 각각의 분류 체계에 대하여 각 분류 카테고리에 대응된 리소스들을 저장하고 관리하는 데이터베이스;

각 키워드에 대하여 제1 분류 체계의 제1 분류 카테고리와 제2 분류 체계의 제2 분류 카테고리가 갖는 유사도값에 기초하여 두 분류 카테고리 사이의 연관 관계를 설정하는 관계 모델 설정 수단; 및

입력 키워드에 대한 검색 결과의 제공 시에, 상기 연관 관계에 기초하여 복수의 분류 체계에 속한 리소스들을 각 분류 체계별 또는 각 분류 카테고리별로 구분하여 검색 결과를 제공하는 검색 결과 제공 수단

를 포함하는 것을 특징으로 하는 시멘틱 검색 시스템.