WO2012070840A2

WO2012070840A2 - 컨센서스 검색 장치 및 방법

Info

Publication number: WO2012070840A2
Application number: PCT/KR2011/008916
Authority: WO
Inventors: 강재우
Original assignee: 고려대학교 산학협력단
Priority date: 2010-11-22
Filing date: 2011-11-22
Publication date: 2012-05-31
Also published as: US20130254209A1; WO2012070840A3; US9679001B2; KR20120054986A; KR101192439B1

Abstract

본 발명에 따른 컨센서스 검색 장치는, 하나 이상의 객체에 대한 내용을 포함하는 전자 문서에 작성된 텍스트 데이터를 세그먼트 단위로 분할하고, 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출한뒤, 추출된 시맨틱 기술어에 대하여 상기 객체 및 상기 세그먼트 단위의 텍스트 데이터를 매칭한 시맨틱 데이터 인덱스를 생성하는 시맨틱 데이터 인덱싱부 및 상기 시맨틱 데이터 인덱스에 기초하여 쿼리와 관련된 객체를 검색하는 시맨틱 검색 처리부를 포함하되, 상기 세그먼트 단위의 텍스트 데이터는 의미 단위를 기준으로 분할된 것이다.

Description

컨센서스 검색 장치 및 방법

본 발명은 검색조건에 따라 컨센서스를 검색하는 컨센서스 검색 장치 및 방법에 관한 것이다.

다양한 디지털 콘텐츠나 상품 또는 사회적 이슈에 대하여 검색하고자 하는 사용자의 욕구가 증대되면서, 포털 검색 사이트 등의 검색 제공 웹(web) 사이트들은 사용자가 원하는 콘텐츠를 좀더 정확하게 검색하여 제공하기 위한 시맨틱 검색 서비스를 제공하고 있다.

일반적으로, 종래의 시맨틱 검색을 구현하는 방식은, 콘텐츠 제공자가 제공하는 태그 및 메타 데이터 등의 사실적 정보에 기초하여 콘텐츠를 검색한다. 특히, 동영상과 같은 디지털 컨텐츠의 경우, 화면 분석, 대사 추출, 음성 및 목소리 분류 등 콘텐츠 자체에서 직접 추출한 기술어(descriptor)에 기초하여 콘텐츠를 검색할 수 있다.

그러나, 이와 같은 종래의 컨텐츠 기반 시맨틱 검색 구현 방식에서는 특정 분야(domain)의 지식을 풍부하게 모델링하는 것이 매우 어려운 작업일 뿐만 아니라, 단순히 콘텐츠 제공자가 작성한 사실적 기술어나 컨텐츠 자체로부터 추출할 수 있는 제한적인 컨텐츠 추출 기술어에 기초하여 콘텐츠를 검색함으로써 실제의 의미와는 다른 콘텐츠를 검색하여 제공하게 될 가능성이 높았다.

즉, 종래의 컨텐츠 기반 시맨틱 검색 구현 방식에서는, 콘텐츠에 대한 검색에 이용되는 정보 데이터가 부족함에 따라, 사용자의 검색 요구에 대하여 제한적이고 부정확한 검색 결과를 제공하게 되는 문제점이 있었다.

또한, 최근 들어 SNS(Social Network Service)등의 보급에 따라 각 사용자들이 디지털 콘텐츠, 상품 또는 사회적 이슈 등에 대하여 다양한 의견을 기록한 전자 문서들이 축적되고 있는 상황임에도, 이러한 다양한 의견을 충분히 반영하여 검색 결과로서 활용할 수 있는 방법이 나타나지 않고 있다.

본 발명은 상술한 문제점을 해결하기 위한 것으로서, 사용자들에 의하여 전자 문서에 기록된 객체에 대한 다양한 의견을 검색의 자료로 사용함으로써 검색의 정확도를 높일 수 있는 컨센서스 검색 장치 및 방법을 제공하고자 한다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 컨센서스 검색 장치는, 하나 이상의 객체에 대한 내용을 포함하는 전자 문서에 작성된 텍스트 데이터를 세그먼트 단위로 분할하고, 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출한뒤, 추출된 시맨틱 기술어에 대하여 상기 객체 및 상기 세그먼트 단위의 텍스트 데이터를 매칭한 시맨틱 데이터 인덱스를 생성하는 시맨틱 데이터 인덱싱부 및 상기 시맨틱 데이터 인덱스에 기초하여 쿼리와 관련된 객체를 검색하는 시맨틱 검색 처리부를 포함하되, 상기 세그먼트 단위의 텍스트 데이터는 의미 단위를 기준으로 분할된 것이다.

그리고, 본 발명의 제 2 측면에 따른 컨센서스 검색을 위한 인덱스 생성 방법은 (a) 하나 이상의 객체에 대한 내용을 포함하는 전자 문서에 작성된 텍스트 데이터를 세그먼트 단위로 분할하는 단계; (b) 상기 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출하는 단계 및 (c) 상기 추출된 시맨틱 기술어에 대하여 상기 객체 및 상기 세그먼트 단위의 텍스트 데이터를 매칭한 시맨틱 데이터 인덱스를 생성하는 단계를 포함하되, 상기 (a) 단계는 상기 텍스트 데이터를 의미 단위를 기준으로 세그먼트 단위의 텍스트 데이터로 분할한다.

또한, 본 발명의 제 3 측면에 따른 컨센서스 검색 방법은 (a) 하나 이상의 객체에 대한 내용을 포함하는 전자 문서를 세그먼트 단위의 텍스트 데이터로 분할하여 인덱싱한 시맨틱 데이터 인덱스가 제공되는 단계 및 (b) 상기 시맨틱 데이터 인덱스에 기초하여 쿼리와 관련된 객체를 검색하는 단계를 포함하되, 상기 시맨틱 데이터 인덱스는 상기 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출한뒤, 추출된 시맨틱 기술어에 대하여 상기 객체 및 상기 세그먼트 단위의 텍스트 데이터를 매칭하여 생성된 것이다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 각 객체에 대하여 다양한 사용자들이 생성한 텍스트 데이터를 이용하여, 쿼리에 대하여 적합한 검색 결과를 제시할 수 있다는 효과가 있다. 즉, 종래의 콘텐츠의 사실적 정보에만 기초한 시맨틱 검색 시 보다, 사용자가 요구하는 검색어에 대해 더욱 근접한 콘텐츠를 검색하여 검색 정확도를 높일 수 있다. 특히, 특정 객체에 대한 평가 의견을 묻는 질문과 같이 정답이 명확하지 않은 주관적인 질의(subjective query)에 대하여, 온라인 상의 여러 의견들을 종합한 결과에 따라 질의에 대한 가장 최적의 결과를 실시간으로 반환하는 검색 방법을 제공할 수 있다.

도 1은 본 발명의 일실시예에 따른 컨센서스 검색 장치의 구조를 나타내는 블록도이다.

도 2는 본 발명의 일실시예에 따른 시맨틱 검색 처리부의 구성을 나타내는 블록도이다.

도 3은 본 발명의 일실시예에 따른 도메인 온톨로지 및 메타 데이터가 맵핑된 도메인 온톨로지의 구조의 일례를 설명하기 위한 도면이다.

도 4는 본 발명의 일실시예에 따른 시맨틱 세그먼트를 설명하기 위한 도면이다.

도 5는 본 발명의 일실시예에 따른 시맨틱 데이터 인덱스를 나타내는 도면이다.

도 6은 본 발명의 일실시예에 따른 검색어 확장 방법을 설명하기 위한 도면이다.

도 7은 본 발명의 일실시예에 따른 시맨틱 검색 인덱스를 나타내는 도면이다.

도 8은 본 발명의 일실시예에 따른 사용자 생성 텍스트 데이터를 이용한 시맨틱 검색 방법을 설명하기 위한 순서도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 명세서에 기재된 “객체”는 여러 전자 문서를 통해 사용자가 기술하고자 하는 주제 또는 엔티티를 나타내는 것으로, 하나의 전자 문서에 하나 이상의 객체가 포함될 수 있으며, 예를 들면, 상품, 서비스, 인물, 회사, 지역, 사회적 이슈 등 다양한 형태의 개체명(named entity)으로 표현될 수 있다.

또한, 본 명세서에 기재된 “컨센서스 검색(consensus search)”은 특정 객체에 대한 평가 의견을 묻는 질문과 같이 정답이 명확하지 않은 주관적인 질의(subjective query)에 대하여, 온라인 상의 여러 의견들을 종합한 결과에 따라 질의에 대한 가장 최적의 결과를 반환하는 검색 방법을 의미할 수 있다.

그리고, 도 2는 본 발명의 일실시예에 따른 시맨틱 검색 처리부의 구성을 나타내는 블록도이다.

도 1에서 나타낸 바와 같이, 본 발명의 일실시예에 따른 컨센서스 검색 장치(100)는 웹(web) 또는 SNS 메시지 등 다양한 형태의 전자 문서상에 존재하는 각종 객체에 대한 메타 데이터(111) 및 사용자 생성 텍스트 데이터(112)를 포함하는 데이터베이스(110), 메타 데이터 인덱싱부(120), 도메인 온톨로지(Domain Ontology)(121), 시맨틱 데이터 인덱싱부(130), 언어 온톨로지(Linguistic Ontology)(132) 및 시맨틱 검색 처리부(140)를 포함한다.

데이터베이스(110)에 저장되는 메타 데이터(111)는 객체에 대하여 규정된 사실적 정보이다. 예를 들어, 전자 문서가 나타내고자하는 객체의 카테고리가 ‘영화’인 경우, 메타 데이터는 감독, 배우, 개봉일, 배급사 등의 사실적 정보를 포함할 수 있다. 즉, 메타 데이터는 콘텐츠 또는 객체를 설명하기 위한 적어도 하나의 사실적 기술어(factual descriptor)를 포함하여 구성된다. 참고로, 본 발명의 일례에 따른 데이터베이스(110)는 웹 상에 존재하는 메타 데이터(111)들을 획득하여 각 객체 별로 저장한 데이터베이스 형태일 수 있으며, 메타 데이터가 필요 할 때 마다 웹 상에서 다수의 메타 데이터를 검색, 획득, 및 수집하여 제공하는 모듈 형태일 수 있다.

데이터베이스(110)에 저장되는 사용자 생성 텍스트 데이터(112)는 각종 객체에 대해서 경험한 사용자가 생성한(또는 작성한) 텍스트 데이터이다. 예를 들어, 객체의 카테고리가 ‘영화’인 경우, 사용자 생성 텍스트 데이터는 영화 정보를 제공하는 웹 사이트의 게시판, 블로그 또는 SNS 메시지 등에 복수의 사용자가 작성한 영화 감상 리뷰, 코멘트 등의 텍스트 데이터일 수 있다.

참고로, 사용자 생성 텍스트 데이터는, 사용자가 웹 상에서 검색할 수 있는 멀티미디어 콘텐츠(예를 들어, 영화, 음악, 소설, 사진 등)뿐만 아니라 사용자가 의견 및 리뷰 등의 주관적 정보를 텍스트 데이터로 작성할 수 있는 상품 및 서비스 등을 포함한 임의의 객체들에 대한 것일 수 있다. 즉, 본 발명의 실시예에 따른 사용자 생성 텍스트 데이터는 하나 이상의 문장으로 구성되는 문서 형태이며, 이러한 사용자 생성 텍스트 데이터가 존재하는 모든 대상 객체에 대하여 본 발명이 실시될 수 있음을 의미한다.

또한, 본 발명의 일예에 따른 데이터베이스(110)는 각 사용자 생성 텍스트 데이터(112)들을 획득하여 객체 별로 저장한 데이터베이스 형태일 수 있으며, 사용자 생성 텍스트 데이터 필요 시마다 웹 상에서 해당 객체의 사용자 생성 텍스트 데이터를 검색, 획득, 및 수집하여 제공하는 모듈 형태일 수 있다.

이때, 데이터베이스(110)는 웹 크롤러(web crawler)를 포함할 수 있으며, 웹 크롤러는 웹 상의 기설정된 주소의 웹 사이트에 방문하여 웹 문서를 크롤링(crawling)하여 사용자 생성 텍스트 데이터를 생성할 수 있다. 참고로, 크롤러는 웹 문서 페이지로부터 특정 정보를 수집하며, 본 발명의 일실시예에 따른 크롤러는 특정 주제의 사이트(예를 들어, 영화 관련 웹 사이트 또는 블로그 등)의 게시판 등에 업로드 된 텍스트 데이터 페이지를 수집하여 저장할 수 있다.

메타 데이터 인덱싱부(120)는 데이터베이스(110)로부터 객체 별 메타 데이터를 획득하여 해당 객체의 카테고리에 상응하는 도메인 온톨로지에 맵핑하고, 각 메타 데이터가 맵핑된 도메인 온톨로지를 이용하여 메타 데이터 인덱스를 생성한다. 참고로, 온톨로지는 단어와 관계들로 구성된 일종의 사전으로서, 도메인 온톨로지(121)는 특정 도메인(분야)에 관련된 단어들이 계층적으로 표현되어 있고 추가적으로 이를 확장할 수 있는 추론 규칙이 포함되어 있어, 웹 기반의 지식 처리나 응용 프로그램 간의 지식 공유 및 재사용이 가능토록 하는 개념이다. 이때, 본 발명의 실시예에 따른 도메인 온톨로지(121)는 객체의 카테고리 별로 기정의되어 저장될 수 있다.

예를 들어, 도 3은 본 발명의 일실시예에 따른 도메인 온톨로지 및 메타 데이터가 맵핑된 도메인 온톨로지의 구조의 일례를 설명하기 위한 도면이다.

도 3의 (a)에서는, 객체의 카테고리가 “영화(Movie)”일 때, “영화” 카테고리에 대해 기정의된 도메인 온톨로지를 나타내었다. 이때, 도 3의 (a)에서는 “영화” 계충의 하위 계층으로서 “장르(Genres)”, “스태프(Staff)”, “스튜디오(Studios)”, “기술적 스팩(Technical Specs)” 등이 정의된 것을 나타내었다.

이때, 본 발명의 일실시예에 따른 메타 데이터 인덱싱부(120)는 기정의된 도메인 온톨로지에 해당 객체의 메타 데이터를 맵핑한다.

구체적으로, 메타 데이터 인덱싱부(120)는 데이터베이스(110)로부터 객체 별로 기저장되어 있는 메타 데이터(111)를 획득하고, 해당 카테고리에 따른 도메인 온톨로지(121)를 획득한 후, 메타 데이터에 포함된 사실적 기술어들을 해당 카테고리의 도메인 온톨로지의 해당 계층에 맵핑한다.

예를 들어, 도 3의 (b)에서는, 메타 데이터 인덱싱부(120)가 ‘A’라는 영화에 관련된 메타 데이터를 ‘영화’ 카테고리의 도메인 온톨로지에 맵핑한 것을 나타내었다.

즉, 도 3의 (b)에서 나타낸 바와 같이, 도메인 온톨로지 구조에 ‘A’라는 영화의 메타 데이터를 맵핑하면, 장르(Genres) 계층에 액션(Action), 어드벤쳐(Adventure) 등의 메타 데이터의 사실적 기술어가 맵핑될 수 있다.

다시 도 1로 돌아가서, 메타 데이터 인덱싱부(120)는 각 객체 별 메타 데이터가 맵핑된 도메인 온톨로지에 기반하여 메타 데이터 인덱스를 생성 및 저장한다.

구체적으로, 메타 데이터 인덱싱부(120)는 도메인 온톨로지의 하위 카테고리 별로 저장된 사실적 기술어 별로 적어도 하나의 객체 식별정보(예를 들어, ID, 콘텐츠 이름 등)가 매칭된 메타 데이터 인덱스를 생성한다. 즉, 동일한 사실적 기술어를 포함하는 다수의 객체 식별정보가 해당 사실적 기술어에 매칭되어 저장된다.

시맨틱 데이터 인덱싱부(130)는 사용자 생성 텍스트 데이터로부터 시맨틱 기술어를 추출하고, 각 시맨틱 기술어를 기준으로한 시맨틱 데이터 인덱스를 생성한다. 이때, 시맨틱 기술어는 본 발명의 실시예에 따른 컨센서스 검색 시 검색의 기준으로서 사용된다.

구체적으로, 시맨틱 데이터 인덱싱부(130)는 데이터베이스(110)로부터 하나 이상의 객체에 대한 내용을 포함하는 전자 문서에 작성된 텍스트 데이터를 세그먼트 단위로 분할하고, 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출한뒤, 추출된 시맨틱 기술어에 대하여 객체 및 세그먼트 단위의 텍스트 데이터를 매칭하여 시맨틱 데이터 인덱스를 생성한다.

이때, 시맨틱 데이터 인덱싱부(130)는 사용자 생성 텍스트 데이터(112)를 의미 단위(semantic unit)로 분할하여 다수의 시맨틱 세그먼트로 분할할 수 있다. 여기서, 의미 단위는 동일 범주의 의미적 관계를 갖는 최소의 단어, 구, 절, 문장 또는 문단 등의 단위를 나타내는 것이다. 또한, 하나의 전자 문서는 의미 단위로 분할되는 여러 개의 세그먼트로 논리적으로 분할된다.

이러한 세그먼트 단위의 텍스트 데이터는 하나의 문장안에 복수개가 포함될 수 있다. 예를 들어, “연기는 좋았으나, 각본이 현실성이 떨어진다”라는 문장은 “연기는 좋았으나”와 “각본이 현실성이 떨어진다”라는 서로 다른 의미 단위로 분할될 수 있으므로, 서로 다른 세그먼트의 텍스트 데이터로 분할될 수 있다.

또한, 세그먼트 단위의 텍스트 데이터는 하나 이상의 문단, 하나 이상의 문장, 하나 이상의 절, 하나 이상의 구 또는 하나 이상의 단어 등을 포함하도록 분할될 수 있다.

한편, “iPhone4의 디자인은 좋으나, 통화품질은 떨어진다”라는 문장은 “iPhone4의 디자인은 좋으나”와 “iPhone4의 통화품질은 떨어진다”라는 서로 다른 의미 단위로 분할될 수 있으므로, 서로 다른 세그먼트의 텍스트 데이터로 분할될 수 있다.

이러한 텍스트 데이터를 의미 단위로 분할하는 과정은 이미 알려진 자연어 처리 알고리즘 등을 사용하여 수행할 수 있으며, 구체적인 알고리즘에 대한 상세한 설명은 생략한다.

예를 들어, 도 4 는 본 발명의 일실시예에 따른 시맨틱 세그먼트를 설명하기 위한 도면이다.

도 4 에서는, 시맨틱 데이터 인덱싱부(130)가,‘영화’ 카테고리에 포함되는 콘텐츠 중 ‘Knight and Day’라는 영화 콘텐츠 및 ‘Inception’이라는 영화 콘텐츠에 대해 각각 기생성된 사용자 생성 텍스트 데이터인 영화 시놉시스 데이터, 제 1 사용자의 리뷰 데이터 및 제 2 사용자의 리뷰 데이터를 획득하여 시맨틱 세그먼트를 생성한 것을 나타내었다.

그리고, 도 4 에서는 시맨틱 데이터 인덱싱부(130)가 의미 단위인 ‘문장’을 기준으로 사용자 생성 텍스트 데이터(즉, 문서)를 분할하여 시맨틱 세그먼트들 생성한 것을 나타내었다.

참고로, 본 발명의 일실시예에 따른 시맨틱 데이터 인덱싱부(130)는 시맨틱 검색의 정확도를 높이기 위해, ‘구’ 및 ‘절’ 단위로 사용자 생성 텍스트 데이터(즉, 문서)를 분할하여 시맨틱 세그먼트를 생성하는 것도 가능하다.

또한, 본 발명의 실시예에 따른 시맨틱 데이터 인덱싱부(130)는 최소 의미 단위로서의 ‘구’ 또는 ‘절’을 접속사를 기준으로 구분하거나, 긍정어 구간 또는 부정어 구간을 기준으로 구분하여 시맨틱 세그먼트를 생성할 수 있다. 이처럼, 최소 의미 단위가 접속사를 기준으로 한 ‘구’또는 ‘절’인 경우, 사용자 생성 텍스트 데이터에서 하나의 문장 내에 상반된 의미의 구 또는 절이 포함되더라도, 하나의 시맨틱 세그먼트 내의 어휘 간 관계도는 긴밀해지게 된다. 따라서, 사용자가 입력한 검색어(즉, 쿼리(query))가 사실적 정보뿐만 아니라 주관적인 정보를 의미하는 어휘들을 포함할 경우, 검색어 내의 어휘들과 가장 연관도가 높은 시맨틱 세그먼트에 기반한 시맨틱 검색이 가능하게 된다.

또한, 시맨틱 데이터 인덱싱부(130)는 콘텐츠 별로 생성된 시맨틱 세그먼트들을 각각 시맨틱 세그먼트의 식별정보(이하, ‘시맨틱 세그먼트 식별정보’라고 함)에 매칭하여 저장한다.

도 4에서는 시맨틱 데이터 인덱싱부(130)가 각 객체 별로 시맨틱 세그먼트를 문장 순서에 따라 넘버링하여, 각 시맨틱 세그먼트의 식별정보(즉, 시맨틱 세그먼트 식별정보)로서 번호(1, 2, 3, 4……)를 생성한 것을 나타내었다. 참고로, 시맨틱 세그먼트 식별정보는 번호뿐만 아니라 ID 등의 다양한 형태로 생성되는 것이 가능하다.

다시 도 1로 돌아가서, 시맨틱 데이터 인덱싱부(130)는 각 시맨틱 세그먼트들을 어휘 단위로 분할하여 다수의 시맨틱 기술어(semantic descriptor)를 추출한다.

그리고, 시맨틱 데이터 인덱싱부(130)는 각 시맨틱 기술어가 포함된 적어도 하나의 객체 식별정보 및 시맨틱 세그먼트의 식별정보를 매칭한 시맨틱 데이터 인덱스를 생성한다.

참고로, 본 발명의 실시예에 따른 시맨틱 데이터 인덱싱부(130)는 언어 온톨로지(132)를 이용하여 각 시맨틱 기술어에 대한 전처리를 수행한 후 시맨틱 데이터 인덱스를 생성한다. 여기서, 언어 온톨로지(132)는 텍스트, 단어 묶음(word bundle) 등에서 추출된 데이터나 정보에 대한 자연어 인터페이스를 지원하는 온톨로지를 의미한다. 그리고, 어휘의 전처리는 불용어 제거(stop word removal), 어미 제거(stemming) 등의 처리를 포함하는 개념이다.

예를 들어, 도 5는 본 발명의 일실시예에 따른 시맨틱 데이터 인덱스를 나타내는 도면이다.

도 5의 (a)에서 나타낸 바와 같이, 시맨틱 데이터 인덱싱부(130)는 객체 별로 각각 식별정보(도 5에서는 ‘ID’인 것을 나타냄)를 부여한다. 이때, 시맨틱 데이터 인덱싱부(130)는 메타 데이터 인덱싱부(120)가 각 객체 별로 부여한 식별정보와 동일한 식별정보를 사용할 수 있다. 즉, 동일한 객체에 대해서는 메타 데이터 인덱싱부(120) 및 시맨틱 데이터 인덱싱부(130)에서 하나의 식별정보를 부여한다. 도 5의 (a)에서는 객체의 카테고리가 ‘영화’일 때, ‘A’ 내지 ‘D’ 영화에 대해‘M1042’ 내지 ‘M1045’가 ID로서 부여된 것을 나타내었다.

그리고, 시맨틱 데이터 인덱싱부(130)는 객체 별 사용자 생성 텍스트 데이터로부터 추출한 시맨틱 기술어를 기준으로 하여, 해당하는 객체 식별정보 및 각 객체 별 시맨틱 세그먼트 식별정보를 매칭하여 저장한다.

이때, 도 5의 (b)에서 나타낸 바와 같이, 시맨틱 기술어 중 하나인 ‘Wichita’(P51)가 포함된 객체가 영화 ‘B’(P53)이며, 영화 ‘B’의 시맨틱 세그먼트 중 번호‘2,3’(P54)에 ‘Wichita’가 포함되어 있는 것을 알 수 있다.

다시 도 1로 돌아가서, 시맨틱 검색 처리부(140)는 입력되는 검색어에 대해 메타 데이터 인덱스 및 시맨틱 데이터 인덱스를 이용한 컨센서스 검색 처리를 수행하고, 검색된 객체의 정보를 출력한다. 이때, 검색어는 사용자가 검색 포털 사이트 등의 웹 사이트에서 입력할 수 있으며, 문장, 절, 구, 단어 등의 형태로 입력될 수 있다. 한편, 컨센서스 검색은 앞서 설명한 바와 같이 “A 라는 영화에 출연하는 배우는 누구인가?”라는 객관적인 사실을 검색하는 수준을 넘어서, “가장 재미있는 액션 영화는 무엇인가?”라는 사람들의 주관에 따라 결과가 상이해지고, 정답을 확정할 수 없는 질문에 대한 최적의 결과를 검색하도록 한다.

구체적으로, 도 2에서 나타낸 바와 같이, 본 발명의 일실시예에 따른 시맨틱 검색 처리부(140)는 검색어 전처리 모듈(141), 검색어 확장 모듈(142) 및 시맨틱 검색 모듈(143)을 포함한다.

검색어 전처리 모듈(141)은 사용자가 입력하는 검색어를 어휘 단위로 분할하여 검색 키워드를 추출하고, 추출된 검색 키워드에 대해 불용어 제거 및 어미 제거 등의 전처리를 수행한다. 참고로, 검색어 전처리 모듈(141)은 언어 온톨로지(132)를 이용하여 검색어를 전처리할 수 있다.

또한, 검색어 전처리 모듈(141)은 사용자가 입력한 검색어가 하나 이상의 최소 의미 단위를 포함할 때 입력된 검색어를 시맨틱 세그먼트로 분할해 질의를 처리하도록 할 수 있다. 참고로, 본 발명의 일실시예에 따른 검색어 전처리 모듈(141)은 시맨틱 데이터 인덱싱부(130)에서와 같은 방법으로 검색어를 검색어 시맨틱 세그먼트로 분할할 수 있다.

검색어 확장 모듈(142)은 검색 키워드에 대해 개념 확장 처리를 수행하여 확장 키워드를 생성한다. 참고로, 검색어 확장 모듈(142)은 언어 온톨로지(132)를 이용하여 검색 키워드를 확장할 수 있으며, 여기서 언어 온톨로지(132)는 사전 기반 확장 기법을 더 포함하는 개념일 수 있다. 이때, 검색어 확장 모듈(142)은 검색 키워드 별로 유의어(synonyms), 하의어(hyponyms) 및 상의어(hypernyms) 중 적어도 하나의 개념으로 확장 키워드를 생성할 수 있다.

예를 들어, 도 6은 본 발명의 일실시예에 따른 검색어 확장 방법을 설명하기 위한 도면이다.

도 6에서는 카(car)라는 하나의 검색 키워드의 개념이 확장되어 복수의 확장 키워드(cable car, automobile, railway 등)가 생성되는 것을 나타내었다.

다시 도 2로 돌아가서, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스 또는 메타 데이터 인덱스를 이용하여, 사용자가 입력한 검색어에 대해 연관도가 높은 적어도 하나의 객체를 추출하여 검색 결과 객체로 결정한다. 그리고, 시맨틱 검색 모듈(143)은 상기 검색 결과 객체의 정보를 사용자가 확인할 수 있도록 화면 등에 출력한다. 이때, 시맨틱 검색 모듈(143)은 상기 검색 결과 및 상기 검색 결과에 관련된 사용자 생성 텍스트 데이터의 자체 또는 연결 정보 등을 출력하는 것도 가능하다.

본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 사용자가 입력한 검색어의 속성에 따라 메타 데이터 인덱스 및 시맨틱 데이터 인덱스 중 적어도 하나의 인덱스를 이용하여 검색 결과 객체를 결정할 수 있다. 즉, 시맨틱 검색 모듈(143)은 사용자가 입력한 검색어와 객체와의 직접적인 관련도(즉, 검색어와 메타 데이터 간의 관련도)와, 검색어와 사용자 의견 정보와의 간접적인 관련도(즉, 검색어와 사용자 생성 텍스트 데이터 간의 관련도) 중 적어도 하나를 이용하여 검색 결과 객체를 결정한다. 이때, 시맨틱 검색 모듈(143)은 상기 직접적인 관련도와 간접적인 관련도 중 어느 하나에 대해 가중치를 더 높게 설정하여 검색 결과 객체를 결정할 수 있다.

참고로, 검색어의 속성은 검색어에 포함된 어휘의 정보 종류를 의미하며, 본 발명의 실시예에서는 사실적 정보 및 주관적 정보를 의미한다. 예를 들어, 검색어가 ‘A 감독의 영화’일 경우, 검색어는 ‘A’,‘감독’, ‘영화’의 검색 키워드로 분할되며, ‘A’,‘감독’은 일반적으로 사실적 정보에 속한다. 그리고, 검색어가 ‘A 감독의 감성이 돋보이는 영화’일 경우, 검색어는 ‘A’,‘감독’,’감성’, ‘돋보임’,‘영화’의 검색 키워드로 분할되며, ‘감성’,‘돋보임’은 일반적으로 주관적 정보에 속한다.

이때, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)에 입력되는 검색어가 사실적 정보만을 포함한 경우 메타 데이터 인덱스를 이용하여 상기 검색어에 적합한 객체가 검색된다. 그리고, 시맨틱 검색 모듈(143)에 입력되는 검색어가 주관적 정보만을 포함한 경우 시맨틱 데이터 인덱스를 이용하여 상기 검색어에 적합한 객체가 검색된다. 또한, 시맨틱 검색 모듈(143)에 입력되는 검색어가 사실적 정보 및 주관적 정보를 모두 포함한 경우 메타 데이터 인덱스 및 시맨틱 데이터 인덱스를 이용하여 검색어에 적합한 객체가 검색된다.

구체적으로, 시맨틱 검색 모듈(143)은 메타 데이터 인덱스 또는 시맨틱 데이터 인덱스 중 어느 하나를 이용하여 객체를 검색한 후 검색어에 적합한 객체가 검색되지 않는 경우 나머지 하나를 이용하여 객체를 검색할 수 있다.

또한, 시맨틱 검색 모듈(143)은 메타 데이터 인덱스 및 시맨틱 데이터 인덱스를 동시에 이용하여 객체를 검색하는 것도 가능하다.

이때, 시맨틱 검색 모듈(143)은 메타 데이터 인덱스 및 시맨틱 데이터 인덱스를 모두 이용하여 동일 검색어에 대한 객체를 검색하고, 메타 데이터 검색 인덱스와 시맨틱 데이터 인덱스에 대해 동일한 가중치 또는 상이한 가중치를 적용하여 검색 결과 객체를 결정할 수 있다.

예를 들어, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스(또는 메타 데이터 인덱스)에 기반하여 추출된 객체 중 메타 데이터 인덱스(또는 시맨틱 데이터 인덱스)에도 포함된 객체를 상기 검색 결과 객체로 결정할 수 있다. 또는, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인텍스(또는 메타 데이터 인덱스)에 기반하여 추출된 객체를 우선적으로 상기 검색 결과 객체로 결정할 수도 있다.

먼저, 시맨틱 검색 모듈(143)이 메타 데이터 인덱스를 기반으로 검색하는 방법에 대해서 설명하도록 한다.

본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 메타 데이터 인덱스로부터 상기 검색 키워드 및 확장 키워드 중 적어도 하나에 매칭되는 사실적 기술어를 추출한다. 그리고, 시맨틱 검색 모듈(143)은 메타 데이터 인덱스에 포함된 요소(엔트리) 중 상기 추출된 사실적 기술어 및 그에 매칭된 객체 식별 정보를 메타 데이터 검색 인덱스로서 생성한다.

그리고, 시맨틱 검색 모듈(143)은 메타 데이터 검색 인덱스에 포함된 객체 식별정보에 따른 객체를 검색 결과로서 반환한다.

다음으로, 시맨틱 검색 모듈(143)이 시맨틱 데이터 인덱스를 기반으로 객체를 검색하는 방법에 대해서 설명하도록 한다.

본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스로부터 상기 검색 키워드 및 확장 키워드에 매칭되는 시맨틱 기술어를 추출하고, 상기 추출된 시맨틱 기술어에 대한 객체 식별정보와 각 객체 별 시맨틱 세그먼트 식별정보가 매칭되는 시맨틱 검색 인덱스를 생성한다.

예를 들어, 도 7은 본 발명의 일실시예에 따른 시맨틱 검색 인덱스를 나타내는 도면이다.

이때, 도 7에서는, 객체를 검색하고자 하는 사용자가 ‘데이트할 때 보기 좋은 톰 크루즈 영화’라는 검색어를 입력했을 때 생성되는 시맨틱 검색 인덱스를 나타내었다.

이와 같은 경우, 먼저 검색어 전처리 모듈(141)은, ‘데이트할 때 보기 좋은 톰 크루즈 영화’라는 검색어를 ‘톰(Tom), 크루즈(Cruise), 영화(movie), 데이트(date)’라는 어휘로 분할하여 검색 키워드를 추출한다.

그리고, 검색어 확장 모듈(142)은 상기 추출된 검색 키워드 별로 검색어 확장을 수행하여, ‘필름(film), 모션-픽쳐(motion-picture), 고 아웃(go out)’라는 확장 키워드를 생성한다.

그러면, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스로부터, 상기 검색 키워드인‘톰(Tom), 크루즈(Cruise), 영화(movie), 데이트(date)’및 확장 키워드인 ‘필름(film), 모션-픽쳐(motion-picture), 고 아웃(go out)’에 매칭되는 시맨틱 기술어를 추출한다.

그리고, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스로부터, 상기 추출된 시맨틱 기술어인 ‘톰(Tom), 크루즈(Cruise), 영화(movie), 데이트(date), 필름(film), 모션-픽쳐(motion-picture), 고 아웃(go out)’ 별로 해당하는 객체 식별정보와, 각 객체 별 시맨틱 세그먼트 식별정보를 추출한다.

그런 후, 시맨틱 검색 모듈(143)은 도 7에서 나타낸 바와 같이, 상기 추출된 시맨틱 기술어 별로 상기 추출된 객체 식별정보 및 시맨틱 세그먼트 식별정보를 매칭하여 시맨틱 검색 인덱스를 생성한다.

또한, 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스에 포함된 시맨틱 기술어 별로 각각 검색어와 해당 객체 간의 연관도를 계산한다.

구체적으로, 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스에 포함된 시맨틱 기술어들에 대한 객체 및 시맨틱 세그먼트의 교집합을 검출하고, 검출된 객체 및 시맨틱 세그먼트의 교집합에 대해 연관도 점수를 부여할 수 있다

참고로, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 검색 키워드에 매칭된 시맨틱 기술어와 확장 키워드에 매칭된 시맨틱 기술어에 대해 상이한 가중치를 적용하여 연관도 점수를 계산할 수 있다. 이때, 시맨틱 검색 모듈(143)은 검색 키워드에 따른 시맨틱 기술어에 매칭되는 객체 및 시맨틱 세그먼트에 부여하는 점수의 가중치를, 확장 키워드에 따른 시맨틱 기술어에 매칭되는 객체 및 시맨틱 세그먼트에 부여하는 점수의 가중치보다 높게 설정할 수 있다.

예를 들어, 도 7에서는 시맨틱 검색 모듈(143)이 시맨틱 검색 인덱스에 포함된 시맨틱 기술어 중 검색 키워드에 매칭되는 톰(Tom), 크루즈(Cruise), 영화(movie), 데이트(date)에 대해서 객체 식별정보인 ‘M1043’을 교집합으로 추출하고, ‘M1043’에 매칭되는 시맨틱 세그먼트 식별정보 중 ‘[2, 13]’을 교집합으로 추출한 것을 나타내었다.

그리고, 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스에 포함된 시맨틱 기술어 중 확장 키워드에 매칭되는 필름(film), 고 아웃(go out)에 대해서 콘텐츠 식별정보인 ‘M1042’를 교집합으로 추출하고, ‘M1042’에 매칭되는 시맨틱 세그먼트 식별정보 중 ‘[5]’를 교집합으로 추출한 것을 나타내었다.

이상의 설명에서는 사용자의 검색어가 하나의 최소 의미 단위만을 포함하는 경우를 가정하였다. 그런데, 사용자의 검색어가 한 개 이상의 최소 의미 단위를 포함할 때 검색어 전처리 모듈(141)은 검색어를 복수의 검색어 시맨틱 세그먼트로 분할한다. 그리고, 검색어 확장 모듈(142)은 각 검색어 시맨틱 세그먼트들을 확장한다. 또한, 시맨틱 검색 모듈(143)은 확장된 각 검색어 시맨틱 세그먼트 별로 상기한 방법과 같이 질의를 처리할 수 있다.

예를 들어, “각본은 좋으나 배우들의 연기가 최악이었던 영화”라는 사용자 검색어는 ‘각본이 좋은’과 ‘연기가 최악’ 이라는 두 개의 상반된 감성을 표현하는 두 개의 검색어 시맨틱 세그먼트를 포함한다. 이때, 각 검색어 시맨틱 세그먼트 별로 얻어진 객체 식별정보와 시맨틱 세그먼트 식별정보들은, 객체 식별정보를 교집합 한 후 같은 콘텐츠에 대한 시맨틱 세그먼트들을 합집합하는 방법으로 통합할 수 있다.

이러한 과정을 거친 후, 시맨틱 검색 모듈(143)은 추출된 객체 별 시맨틱 세그먼트의 개수에 따라 해당 객체에 대해 연관도 점수를 부여한다. 참고로, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 토폴로지 거리(topological distance) 방식에 기반하여 추출된 객체 별 연관도 점수를 계산할 수 있다.

예를 들어, 본 발명의 실시예에 따른 시맨틱 검색 모듈(143)은 검색 키워드에 따라 추출된 시맨틱 세그먼트의 경우 점수를 ‘1‘ 값으로 정의하고, 확장 키워드에 따라 추출된 시맨틱 세그먼트의 경우 점수를 ‘1’보다 적은 ‘0.5’ 값으로 설정할 수 있다. 즉, 검색 키워드와 확장 키워드에 대한 점수 가중치를 상이하게 부여한다. 따라서, 도 7에서는 객체 식별정보 ‘M1043’에 대해 2점이 부여되고, ‘M1042’에 대해 0.5점이 부여된다.

도 7에서는 시맨틱 검색 모듈(143)이 사용자가 입력한 검색어에 대해, ‘M1043’, ‘M1042’에 대한 객체를 검색 결과로써 출력하는 것을 나타내었다. 이때, 시맨틱 검색 모듈(143)은 ‘M1043’, ‘M1042’의 순서로 검색 결과를 출력할 수 있다. 즉, 시맨틱 검색 모듈(143)은 사용자가 입력한 검색어에 대해 가장 적합한 객체로서 ‘M1043’객체와, 그 다음으로 적합한 객체로서 ‘M1042’객체를 구별할 수 있도록 검색 결과 정보를 생성할 수 있다.

이러한, 본 발명의 일실시예에 따른 시맨틱 검색 결과 순위 결정 방법은 사용자들의 의견을 바탕으로 순위를 결정하는 방법으로서, 사용자 검색어에 대한 유사도에만 의존하던 종래의 검색 결과 순위 결정 방법과는 근본적으로 상이하다.

또한, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 시맨틱 검색 결과 순위 결정 시, 사용자가 입력한 검색어에 포함된 적어도 하나의 어휘(즉, 검색 키워드 및 확장 키워드)가 감성(sentiment)을 포함하는 경우, 감성의 극성(polarity) 및 정도(degree)에 따라 해당 키워드를 포함하는 시맨틱 세그먼트에 상이한 가중치를 적용할 수 있다. 예를 들어, 사용자가 입력한 검색어가 ‘데이트할 때 보기 좋은 영화’인 경우, 영화 카테고리의 시맨틱 데이터 인덱스 중‘최고’와 ‘좋음’을 포함하는 시맨틱 세그먼트 중 ‘최고’를 포함하는 시맨틱 세그먼트에 가중치를 더 높게 설정하여 상기에서 설명한 시맨틱 검색 처리를 수행할 수 있다. 이때, ‘최고’와 ‘좋음’은 둘 다 긍정의 극성을 가지나, ‘최고’가 사용자의 의견을 더욱 강하게 피력하는 것이므로 영화 카테고리의 시맨틱 데이터 인덱스 중‘최고’라는 시맨틱 기술어를 포함하는 시맨틱 세그먼트에 대해 가중치를 더 높게 설정될 수 있다.

또한, 세그먼트 데이터가 추출된 텍스트 데이터가 게시된 사이트의 권위, 저자의 저명성, 텍스트 데이터의 최신성 또는 텍스트 데이터에 대한 사용자들의 추천횟수와 같은 평가 정보등을 추가적으로 고려하여 가산점 또는 가중치를 추가적으로 부여할 수 있다. 예를 들어, 해당 분야에서 저명성을 인정받은 저자에 대한 정보나 저명성을 인정 받은 사이트에 대한 정보를 미리 저장하여, 세그먼트 데이터가 이러한 정보에 매칭되는 경우 가산점을 부가한다. 또한, 텍스트 데이터가 게시된 시점에 대한 정보를 기초로 각각 상이한 가중치를 적용할 수 있다. 또한, 텍스트 데이터에 대하여 “xx명중 yy명이 좋아합니다”와 같은 추천 정보 또는 평가 정보등을 추가적으로 고려하여 가산점을 적용할 수 있다.

이와 같은 방식으로, 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스로부터 사용자가 입력한 검색어에 관련된 적어도 하나의 객체 식별정보를 검출하고, 검출된 객체 식별정보 중 높은 연관도 점수 순으로 기설정된 개수의 객체 식별정보를 추출한다. 그리고 시맨틱 검색 모듈(143)은 추출된 적어도 하나의 객체 식별정보에 따른 객체를 검색 결과로서 반환한다.

이때, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스에 기초하여 점수를 계산한 객체 중 검색어에 대한 관련도 점수가 높은 수순에 따라 추출되는 적어도 하나의 객체와, 메타 데이터 검색 인덱스에 포함된 객체 중 적어도 하나를 검색 결과로서 반환한다. 이하, 도 8을 참조하여 본 발명의 일실시예에 따른 컨센서스 검색 방법에 대해서 상세히 설명하도록 한다.

먼저, 사용자가 검색어를 입력하면(S810), 입력된 검색어를 확장한다(S820).

구체적으로, 입력된 검색어를 어휘 단위로 분할하여 검색 키워드를 추출하고, 생성된 검색 키워드를 언어 온톨로지를 이용하여 유의어, 상의어, 하의어 중 적어도 하나의 개념에 따라 확장하여 확장 키워드를 생성한다. 이때, 사용자가 입력하는 검색어는, 단어, 절, 구, 문장 등의 단위로 구성될 수 있다.

그런 다음, 검색 키워드 및 확장 키워드 중 적어도 하나에 기초하여, 사용자 생성 텍스트 데이터 및 메타 데이터 중 적어도 하나를 이용한 시맨틱 검색을 수행한다(S830).

단계(S830)에서는 검색 대상이 되는 객체 별로 사용자가 기생성한 텍스트 데이터에 기초하여 생성되는 시맨틱 데이터 인덱스, 및 객체 별 메타 데이터를 도메인 온톨로지에 맵핑하여 생성되는 메타 데이터 인덱스를 이용하여 상기 검색어 키워드 및 확장 키워드와 관련도가 높은 객체를 검색한다.

이와 같은, 시맨틱 데이터 인덱스 및 메타 데이터 인덱스는 앞서 도 1 내지 도 7에서 설명한 방법을 통해서 생성될 수 있다.

구체적으로, 단계(S830)에서는 시맨틱 데이터 인덱스 별 시맨틱 기술어 중 상기 검색 키워드 및 확장 키워드에 매칭되는 시맨틱 기술어에 기준한 시맨틱 검색 인덱스를 생성한다. 그리고, 메타 데이터 인덱스 별 사실적 기술어 중 상기 검색 키워드 및 확장 키워드에 매칭되는 사실적 기술어에 기준한 메타 데이터 검색 인덱스를 생성한다. 이때, 시맨틱 검색 인덱스는 시맨틱 기술어 별로 적어도 하나의 객체 식별정보 및 각 객체 별 시맨틱 세그먼트 식별정보가 매칭된 형태이고, 메타 데이터 검색 인덱스는 사실적 기술어 별로 적어도 하나의 객체 식별정보가 매칭된 형태이다.

이처럼, 단계(S830)에서 시맨틱 검색 인덱스 및 메타 데이터 검색 인덱스 중 적어도 하나를 이용하여 검색어에 적합한 객체를 검색하는 방법은 상기 도 1 내지 도 7을 통해 설명한 방법을 통해서 수행될 수 있다.

그런 다음, 단계(S830)에서 사용자 생성 텍스트 데이터 및 메타 데이터를 이용하여 시맨틱 검색된 객체의 정보를 사용자가 확인할 수 있는 정보 형태로 생성하여 출력한다(S840).

예를 들어, 사용자가 확인할 수 있는 정보의 형태는 웹 사이트 등을 통해 출력되는 웹 페이지 형태로 생성될 수 있다.

한편, 상기 도 1 내지 도 8을 통해 설명한 본 발명의 일실시예에서는 객체에 관련된 사실적 정보로서 메타 데이터를 설명하였다. 그런데, 본 발명의 일실시예에 따른 컨센서스 검색 장치 및 방법에서는 객체에 관련된 사실적 정보로서 객체 추출 데이터를 더 포함하는 객체 관련 사실적 정보를 이용하여 시맨틱 검색을 수행할 수 있다.

예를 들어, 객체의 카테고리가 영화, 음악 등에 대한 디지털 콘텐츠인 경우 영상 분석, 목소리 분석, 대사 추출, 음악 무드 분석, 악기 추출 등 객체 자체를 분석하여 객체 추출 데이터를 획득할 수 있다. 이와 같은 객체 추출 데이터는 객체 추출 기술어를 포함하여 구성되며, 본 발명의 일실시예에 따른 컨센서스 검색 장치 및 방법에서는 메타 데이터 인덱싱과 더불어 객체 추출 데이터 인덱싱을 수행할 수 있다. 이때, 본 발명의 일실시예에 따른 시맨틱 검색 처리부(140)는 메타 데이터 인덱스, 객체 추출 데이터 인덱스, 및 시맨틱 데이터 인덱스에 기초하여 시맨틱 검색을 수행할 수 있다.

한편 전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

그리고 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

컨센서스(Consensus) 검색 장치에 있어서,

하나 이상의 객체에 대한 내용을 포함하는 전자 문서에 작성된 텍스트 데이터를 세그먼트 단위로 분할하고, 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출한뒤, 추출된 시맨틱 기술어에 대하여 상기 객체 및 상기 세그먼트 단위의 텍스트 데이터를 매칭한 시맨틱 데이터 인덱스를 생성하는 시맨틱 데이터 인덱싱부 및

상기 시맨틱 데이터 인덱스에 기초하여 쿼리와 관련된 객체를 검색하는 시맨틱 검색 처리부를 포함하되,

상기 세그먼트 단위의 텍스트 데이터는 의미 단위를 기준으로 분할된 것인 컨센서스 검색 장치.
제 1 항에 있어서,

상기 전자 문서에 포함된 메타 데이터로부터 상기 객체에 대한 사실적 기술어를 추출하고, 추출된 사실적 기술어에 대하여 상기 객체의 식별정보를 매칭한 메타 데이터 인덱스를 생성하는 메타 데이터 인덱싱부를 더 포함하되,

상기 시맨틱 검색 처리부는,

상기 시맨틱 데이터 인덱스 및 상기 메타 데이터 인덱스 중 적어도 하나를 이용하여 상기 쿼리와 관련된 적어도 하나의 객체를 검색하는 컨센서스 검색 장치.
제 1 항 또는 제 2 항에 있어서,

상기 세그먼트 단위의 텍스트 데이터는 문단, 문장, 절, 구 및 단어 중 어느 하나의 단위로 분할된 것인 컨센서스 검색 장치.
제 3 항에 있어서,

분할된 상기 세그먼트 단위의 텍스트 데이터는 하나 이상의 문단, 하나 이상의 문장, 하나 이상의 절, 하나 이상의 구 또는 하나 이상의 단어를 포함하는 것인 컨센서스 검색 장치.
제 1 항 또는 제 2 항에 있어서,

상기 세그먼트 단위의 텍스트 데이터는 접속어를 기준으로 분할되거나, 긍정 의미 구간 및 부정 의미 구간에 기준하여 분할된 것인 컨센서스 검색 장치.
제 1 항 또는 제 2 항에 있어서,

상기 시맨틱 검색 처리부는,

상기 쿼리와 관련된 세그먼트 단위의 텍스트 데이터의 개수를 각 세그먼트 단위의 텍스트 데이터가 나타내는 상기 객체 단위로 합산하고, 합산한 값의 크기에 기초하여 검색 결과를 반환하는 컨센서스 검색 장치.
제 6 항에 있어서,

상기 시맨틱 검색 처리부는,

상기 쿼리를 어휘 단위로 분할하여 적어도 하나의 검색 키워드를 생성하고, 상기 검색 키워드의 유의어, 상의어 및 하의어 중 적어도 하나를 포함하는 확장 키워드를 생성하고,

상기 검색 키워드 및 확장 키워드 중 적어도 하나에 해당하는 시맨틱 기술어에 매칭된 상기 세그먼트 단위의 텍스트 데이터의 개수를 상기 객체 단위로 합산하는 것인 컨센서스 검색 장치.
제 7 항에 있어서,

상기 시맨틱 검색 처리부는,

상기 검색 키워드에 해당하는 시맨틱 기술어에 매칭된 객체와 상기 확장 키워드에 해당하는 시맨틱 기술어에 매칭된 객체에 대해 상이한 가중치를 적용하되, 상기 검색 키워드에 해당하는 시맨틱 기술어에 매칭된 객체의 가중치를 더 높게 설정하는 것인 컨센서스 검색 장치.
제 7 항에 있어서,

상기 시맨틱 검색 처리부는,

상기 쿼리에 감성을 표현하는 어휘가 포함된 경우, 감성을 표현하는 시맨틱 기술어에 매칭된 객체에 대해 감성의 극성 및 정도 중 적어도 하나를 기준으로 상이한 가중치를 적용하는 컨센서스 검색 장치.
제 7 항에 있어서,

상기 시맨틱 검색 처리부는,

상기 세그먼트 단위의 텍스트 데이터의 저자, 상기 텍스트 데이터가 게시된 사이트, 텍스트 데이터가 개시된 시점 및 상기 텍스트 데이터에 대한 사용자들의 평가 정보 중 하나 이상에 따라 가산점을 적용하는 컨센서스 검색 장치.
제 7 항에 있어서,

상기 시맨틱 검색 처리부는,

상기 쿼리를 의미 단위로 분할하여 상기 검색 키워드를 생성하되,

상기 의미 단위는 문장, 절, 구 및 단어 중 적어도 하나인 것인 컨센서스 검색 장치.
컨센서스(Consensus) 검색을 위한 인덱스 생성 방법에 있어서,

(a) 하나 이상의 객체에 대한 내용을 포함하는 전자 문서에 작성된 텍스트 데이터를 세그먼트 단위로 분할하는 단계;

(b) 상기 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출하는 단계 및

(c) 상기 추출된 시맨틱 기술어에 대하여 상기 객체 및 상기 세그먼트 단위의 텍스트 데이터를 매칭한 시맨틱 데이터 인덱스를 생성하는 단계를 포함하되,

상기 (a) 단계는 상기 텍스트 데이터를 의미 단위를 기준으로 세그먼트 단위의 텍스트 데이터로 분할하는 것인 인덱스 생성 방법.
제 12 항에 있어서,

(d) 상기 전자 문서에 포함된 메타 데이터로부터 상기 객체에 대한 사실적 기술어를 추출하는 단계 및

(e) 상기 추출된 사실적 기술어에 대하여 상기 객체의 식별정보를 매칭한 메타 데이터 인덱스를 생성하는 단계를 더 포함하는 인덱스 생성 방법.
제 12 항에 있어서,

상기 (a) 단계는 상기 텍스트 데이터를 문단, 문장, 절, 구 및 단어 중 어느 하나의 단위로 분할하는 것인 인덱스 생성 방법.
제 12 항에 있어서,

분할된 상기 세그먼트 단위의 텍스트 데이터는 하나 이상의 문단, 하나 이상의 문장, 하나 이상의 절, 하나 이상의 구 또는 하나 이상의 단어를 포함하는 것인 인덱스 생성 방법.
제 12 항에 있어서,

상기 (a) 단계는 상기 텍스트 데이터를 접속어를 기준으로 분할하거나, 긍정 의미 구간 및 부정 의미 구간에 기준하여 분할하는 것인 인덱스 생성 방법.
컨센서스(Consensus) 검색 방법에 있어서,

(a) 하나 이상의 객체에 대한 내용을 포함하는 전자 문서를 세그먼트 단위의 텍스트 데이터로 분할하여 인덱싱한 시맨틱 데이터 인덱스가 제공되는 단계 및

(b) 상기 시맨틱 데이터 인덱스에 기초하여 쿼리와 관련된 객체를 검색하는 단계를 포함하되,

상기 시맨틱 데이터 인덱스는 상기 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출한뒤, 추출된 시맨틱 기술어에 대하여 상기 객체 및 상기 세그먼트 단위의 텍스트 데이터를 매칭하여 생성된 것인 컨센서스 검색 방법.
제 17 항에 있어서,

상기 (b) 단계는,

(b1) 상기 쿼리와 관련된 세그먼트 단위의 텍스트 데이터의 개수를 각 세그먼트 단위의 텍스트 데이터가 나타내는 상기 객체 단위로 합산하는 단계,

(b2) 상기 합산한 값의 크기에 기초하여 관련도를 산출하는 단계 및

(b3) 상기 관련도가 큰 순서에 따라 해당 객체를 검색 결과로서 반환하는 단계를 포함하는 컨센서스 검색 방법.
제 18 항에 있어서,

상기 (b1) 단계는,

상기 쿼리를 어휘 단위로 분할하여 적어도 하나의 검색 키워드를 생성하는 단계,

상기 검색 키워드의 유의어, 상의어 및 하의어 중 적어도 하나를 포함하는 확장 키워드를 생성하는 단계 및

상기 검색 키워드 및 확장 키워드 중 적어도 하나에 해당하는 시맨틱 기술어에 매칭된 상기 세그먼트 단위의 텍스트 데이터의 개수를 상기 객체 단위로 합산하는 컨센서스 검색 방법.
제 19 항에 있어서,

상기 (b2) 단계는,

상기 검색 키워드에 해당하는 시맨틱 기술어에 매칭된 객체와 상기 확장 키워드에 해당하는 시맨틱 기술어에 매칭된 객체에 대해 상이한 가중치를 적용하여 상기 관련도를 산출하되, 상기 검색 키워드에 해당하는 시맨틱 기술어에 매칭된 객체의 가중치를 더 높게 설정하는 것인 컨센서스 검색 방법.
제 18 항에 있어서,

상기 (b2) 단계는,

상기 쿼리에 감성을 표현하는 어휘가 포함된 경우, 감성을 표현하는 시맨틱 기술어에 매칭된 객체에 대해 감성의 극성 및 정도 중 적어도 하나를 기준으로 상이한 가중치를 적용하는 컨센서스 검색 방법.
제 18 항에 있어서,

상기 (b2) 단계는,

상기 세그먼트 단위의 텍스트 데이터의 저자, 상기 텍스트 데이터가 게시된 사이트, 상기 텍스트 데이터가 개시된 시점 및 상기 텍스트 데이터에 대한 사용자들의 평가 정보 중 하나 이상에 따라 가산점을 적용하는 컨센서스 검색 방법.