KR20120088632A - 디지털 콘텐츠 검색 장치 및 방법 - Google Patents

디지털 콘텐츠 검색 장치 및 방법 Download PDF

Info

Publication number
KR20120088632A
KR20120088632A KR1020120068757A KR20120068757A KR20120088632A KR 20120088632 A KR20120088632 A KR 20120088632A KR 1020120068757 A KR1020120068757 A KR 1020120068757A KR 20120068757 A KR20120068757 A KR 20120068757A KR 20120088632 A KR20120088632 A KR 20120088632A
Authority
KR
South Korea
Prior art keywords
semantic
search
content
user
data
Prior art date
Application number
KR1020120068757A
Other languages
English (en)
Inventor
강재우
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020120068757A priority Critical patent/KR20120088632A/ko
Publication of KR20120088632A publication Critical patent/KR20120088632A/ko

Links

Images

Classifications

    • G06F17/30

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

시맨틱 검색 시, 콘텐츠의 내용에 대해 작성된 사용자 생성 텍스트 데이터를 수집하고, 사용자 생성 텍스트 데이터로부터 적어도 하나의 시맨틱 기술어를 추출하고, 시맨틱 기술어 별로 각각 포함되어 있던 사용자 생성 텍스트 데이터의 정보 및 사용자 생성 텍스트 데이터에 대응되는 콘텐츠의 정보를 매칭하여 시맨틱 데이터 인덱스를 생성하고, 시맨틱 데이터 인덱스를 시맨틱 검색 조건으로 사용한다.

Description

디지털 콘텐츠 검색 장치 및 방법{APPARATUS AND METHOD FOR SERCHING DIGITAL CONTENTS}
본 발명은 디지털 콘텐츠를 검색하는 콘텐츠 검색 장치 및 방법에 관한 것이다.
다양한 디지털 콘텐츠를 검색 및 이용하고자 하는 사용자의 욕구가 증대되면서, 포털 검색 사이트 등의 검색 제공 웹(web) 사이트들은 사용자가 원하는 콘텐츠를 좀더 정확하게 검색하여 제공하기 위한 시맨틱 검색 서비스를 제공하고 있다.
일반적으로, 종래의 디지털 콘텐츠 시맨틱 검색을 구현하는 방식은, 콘텐츠 제공자가 제공하는 태그 및 메타 데이터 등의 사실적 정보와, 동영상의 경우, 화면 분석, 대사 추출, 음성 및 목소리 분류 등 콘텐츠 자체에서 직접 추출한 콘텐츠 추출 기술어에 기초하여 콘텐츠를 검색하는 방식이었다.
그러나, 이와 같은 종래의 컨텐츠 기반 시맨틱 검색 구현 방식에서는 특정 분야(domain)의 지식을 풍부하게 모델링하는 것이 매우 어려운 작업일 뿐만 아니라, 단순히 콘텐츠 제공자가 작성한 사실적 기술어나 컨텐츠 자체로부터 추출할 수 있는 제한적인 컨텐츠 추출 기술어에 기초하여 콘텐츠를 검색함으로써 실제의 의미와는 다른 콘텐츠를 검색하여 제공하게 될 가능성이 높았다.
즉, 종래의 컨텐츠 기반 시맨틱 검색 구현 방식에서는, 콘텐츠에 대한 검색에 이용되는 정보 데이터가 부족함에 따라, 사용자의 검색 요구에 제한적이고 부정확한 검색 결과를 제공하게 되는 문제점이 있었다.
본 발명은 상술한 문제점을 해결하기 위한 것으로서, 콘텐츠에 관련된 사실적 기술어나 컨텐츠 추출 기술어 뿐만 아니라 해당 콘텐츠를 기사용한 사용자가 사용한 콘텐츠에 대해 생성한 데이터를 콘텐츠 검색의 자료로 사용함으로써 검색의 정확도를 높일 수 있는 콘텐츠 검색 장치 및 방법을 제공하고자 한다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 측면에 따른 시맨틱 검색 장치는, 콘텐츠의 내용에 대해 작성된 사용자 생성 텍스트 데이터를 제공하는 데이터 베이스; 및 상기 사용자 생성 텍스트 데이터로부터 적어도 하나의 시맨틱 기술어를 추출하고, 상기 시맨틱 기술어 별로 각각 포함되어 있던 사용자 생성 텍스트 데이터의 정보 및 상기 사용자 생성 텍스트 데이터에 대응되는 콘텐츠의 정보를 매칭하여 시맨틱 데이터 인덱스를 생성하는 시맨틱 데이터 인덱싱부를 포함하되, 상기 시맨틱 데이터 인덱스는 시맨틱 검색 조건으로 사용된다.
그리고, 본 발명의 다른 측면에 따른 시맨틱 검색 장치를 통한 시맨틱 검색 방법은, 콘텐츠의 내용에 대해 작성된 사용자 생성 텍스트 데이터를 수집하는 단계; 상기 사용자 생성 텍스트 데이터로부터 적어도 하나의 시맨틱 기술어를 추출하는 단계; 및 상기 시맨틱 기술어 별로 각각 포함되어 있던 사용자 생성 텍스트 데이터의 정보 및 상기 사용자 생성 텍스트 데이터에 대응되는 콘텐츠의 정보를 매칭하여 시맨틱 데이터 인덱스를 생성하는 단계를 포함하되, 상기 시맨틱 데이터 인덱스는 시맨틱 검색 조건으로 사용된다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 콘텐츠 별 메타 데이터뿐 아니라 콘텐츠에 대한 사용자 생성 텍스트 데이터를 이용하여 사용자가 입력한 검색어에 적합한 콘텐츠를 검색함으로써, 콘텐츠 별로 풍부한 정보 데이터에 기초한 시맨틱 검색을 수행할 수 있다는 효과가 있다. 즉, 종래의 콘텐츠의 사실적 정보에만 기초한 시맨틱 검색 시 보다, 사용자가 요구하는 검색어에 대해 더욱 근접한 콘텐츠를 검색하여 검색 정확도를 높일 수 있다.
또한, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 사용자가 입력한 검색어가 콘텐츠에 대한 사실적 정보에만 관련된 것이 아니라 주관적인 정보를 포함하는 검색어일 때 콘텐츠 검색의 정확도를 높일 수 있는 효과가 있다.
그리고, 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 사용자 생성 텍스트 데이터를 최소 의미 단위로 분할하여 시맨틱 세그먼트를 생성함으로써, 사용자가 입력한 검색어에 포함된 어휘들과 연관성이 높은 시맨틱 세그먼트에 기반한 콘텐츠 검색을 수행할 수 있다. 즉, 사용자 생성 텍스트 데이터의 전체를 대상으로 한 콘텐츠 검색에 비해, 검색어에 포함된 어휘들과의 연관성이 더욱 높은 콘텐츠를 검색할 수 있는 효과가 있다.
도 1은 본 발명의 일실시예에 따른 콘텐츠 검색 장치의 구조를 나타내는 블록도이다.
도 2는 본 발명의 일실시에에 따른 시맨틱 검색 처리부의 구성을 나타내는 블록도이다.
도 3은 본 발명의 일실시예에 따른 도메인 온톨로지 및 메타 데이터가 맵핑된 도메인 온톨로지의 구조의 일례를 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 시맨틱 세그먼트를 설명하기 위한 도면이다.
도 5는 본 발명의 일실시예에 따른 시맨틱 데이터 인덱스를 나타내는 도면이다.
도 6은 본 발명의 일실시예에 따른 검색어 확장 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 일실시예에 따른 시맨틱 검색 인덱스를 나타내는 도면이다.
도 8은 본 발명의 일실시예에 따른 사용자 생성 텍스트 데이터를 이용한 시맨틱 검색 방법을 설명하기 위한 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 콘텐츠 검색 장치의 구조를 나타내는 블록도이다.
그리고, 도 2는 본 발명의 일실시예에 따른 시맨틱 검색 처리부의 구성을 나타내는 블록도이다.
도 1에서 나타낸 바와 같이, 본 발명의 일실시예에 따른 콘텐츠 검색 장치(100)는 웹 상에 존재하는 콘텐츠에 대한 메타 데이터(111) 및 사용자 생성 텍스트 데이터(112)를 포함하는 데이터베이스(110), 메타 데이터 인덱싱부(120), 도메인 온톨로지(Domain Ontology)(121), 시맨틱 데이터 인덱싱부(130), 언어 온톨로지(Linguistic Ontology)(132), 및 시맨틱 검색 처리부(140)를 포함한다.
데이터베이스(110)에 저장되는 메타 데이터(111)는 웹 상에 존재하는 콘텐츠에 대한 사실적 정보이다. 예를 들어, 콘텐츠의 카테고리가 ‘영화’인 경우, 메타 데이터는 감독, 배우, 개봉일, 배급사 등의 사실적 정보를 포함할 수 있다. 즉, 메타 데이터는 콘텐츠를 설명하기 위한 적어도 하나의 사실적 기술어(factual descriptor)를 포함하여 구성된다. 참고로, 본 발명의 일례에 따른 데이터베이스(110)는 웹 상에 존재하는 콘텐츠 별 메타 데이터(111)들을 획득하여 콘텐츠 별로 저장한 데이터베이스 형태일 수 있으며, 메타 데이터 필요 시마다 웹 상에서 다수의 콘텐츠의 메타 데이터를 검색, 획득, 및 수집하여 제공하는 모듈 형태일 수 있다.
데이터베이스(110)에 저장되는 사용자 생성 텍스트 데이터(112)는 콘텐츠에 대해서 해당 콘텐츠를 기사용 또는 경험한 사용자가 생성한(또는 작성한) 텍스트 데이터이다. 예를 들어, 콘텐츠의 카테고리가 ‘영화’인 경우, 사용자 생성 텍스트 데이터는 영화 정보를 제공하는 웹 사이트의 게시판 또는 웹 블로그 등에 복수의 사용자가 작성한 영화 감상 리뷰, 코멘트 등의 텍스트 데이터일 수 있다.
참고로, 사용자 생성 텍스트 데이터는, 사용자가 웹 상에서 검색할 수 있는 멀티미디어 콘텐츠(예를 들어, 영화, 음악, 소설, 사진 등)뿐만 아니라 사용자가 의견 및 리뷰 등의 주관적 정보를 텍스트 데이터로 작성할 수 있는 상품 및 서비스 등을 포함한 임의의 객체들에 대한 것일 수 있다. 즉, 본 발명의 실시예에 따른 사용자 생성 텍스트 데이터는 복수의 문장으로 구성되는 문서 형태이며, 이러한 사용자 생성 텍스트 데이터가 존재하는 모든 대상 객체에 대하여 본 발명이 실시될 수 있음을 의미한다.
또한, 본 발명의 일예에 따른 데이터베이스(110)는 각 사용자 생성 텍스트 데이터(112)들을 획득하여 콘텐츠 별로 저장한 데이터베이스 형태일 수 있으며, 사용자 생성 텍스트 데이터 필요 시마다 웹 상에서 해당 콘텐츠의 사용자 생성 텍스트 데이터를 검색, 획득, 및 수집하여 제공하는 모듈 형태일 수 있다.
이때, 데이터베이스(110)는 웹 크롤러(web crawler)를 포함할 수 있으며, 웹 크롤러는 웹 상의 기설정된 주소의 웹 사이트에 방문하여 웹 문서를 크롤링(clawling)하여 사용자 생성 텍스트 데이터를 생성할 수 있다. 참고로, 크롤러는 웹 문서 페이지로부터 특정 정보를 수집하며, 본 발명의 일실시예에 따른 크롤러는 특정 주제의 사이트(예를 들어, 영화 관련 웹 사이트 또는 블로그 등)의 게시판 등에 업로드 된 텍스트 데이터 페이지를 수집하여 저장한다.
메타 데이터 인덱싱부(120)는 데이터베이스(110)로부터 콘텐츠 별 메타 데이터를 획득하여 해당 콘텐츠의 카테고리에 상응하는 도메인 온톨로지에 맵핑하고, 각 메타 데이터가 맵핑된 도메인 온톨로지를 이용하여 메타 데이터 인덱스를 생성한다. 참고로, 온톨로지는 단어와 관계들로 구성된 일종의 사전으로서, 도메인 온톨로지(121)는 특정 도메인(분야)에 관련된 단어들이 계층적으로 표현되어 있고 추가적으로 이를 확장할 수 있는 추론 규칙이 포함되어 있어, 웹 기반의 지식 처리나 응용 프로그램 간의 지식 공유 및 재사용이 가능토록 하는 개념이다. 이때, 본 발명의 실시예에 따른 도메인 온톨로지(121)는 콘텐츠의 카테고리 별로 기정의되어 저장될 수 있다.
예를 들어, 도 3은 본 발명의 일실시예에 따른 도메인 온톨로지 및 메타 데이터가 맵핑된 도메인 온톨로지의 구조의 일례를 설명하기 위한 도면이다.
도 3의 (a)에서는, 콘텐츠의 카테고리가 영화(Movie)일 때, 영화(Movie) 카테고리에 대해 기정의된 도메인 온톨로지를 나타내었다. 이때, 도 3의 (a)에서는 영화(Movie) 계충의 하위 계층으로서 장르(Genres), 스태프(Staff), 스튜디오(Studios), 기술적 스팩(Technical Specs) 등이 정의된 것을 나타내었다.
이때, 본 발명의 일실시예에 따른 메타 데이터 인덱싱부(120)는 기정의된 도메인 온톨로지에 해당 콘텐츠의 메타 데이터를 맵핑한다.
구체적으로, 메타 데이터 인덱싱부(120)는 데이터베이스(110)로부터 콘텐츠 별로 기저장되어 있는 메타 데이터(111)를 획득하고, 해당 카테고리에 따른 도메인 온톨로지(121)를 획득한 후, 메타 데이터에 포함된 사실적 기술어들을 해당 카테고리의 도메인 온톨로지의 해당 계층에 맵핑한다.
예를 들어, 도 3의 (b)에서는, 메타 데이터 인덱싱부(120)가 ‘A’라는 영화에 관련된 메타 데이터를 ‘영화’ 카테고리의 도메인 온톨로지에 맵핑한 것을 나타내었다.
즉, 도 3의 (b)에서 나타낸 바와 같이, 도메인 온톨로지 구조에 ‘A’라는 영화의 메타 데이터를 맵핑하면, 장르(Genres) 계층에 액션(Action), 어드벤쳐(Adventure) 등의 메타 데이터의 사실적 기술어가 맵핑될 수 있다.
다시 도 1로 돌아가서, 메타 데이터 인덱싱부(120)는 각 콘텐츠 별 메타 데이터가 맵핑된 도메인 온톨로지에 기반하여 메타 데이터 인덱스를 생성 및 저장한다.
구체적으로, 메타 데이터 인덱싱부(120)는 도메인 온톨로지의 하위 카테고리 별로 저장된 사실적 기술어 별로 적어도 하나의 콘텐츠 식별정보(예를 들어, ID, 콘텐츠 이름 등)가 매칭된 메타 데이터 인덱스를 생성한다. 즉, 동일한 사실적 기술어를 포함하는 다수의 콘텐츠의 식별정보(즉, 콘텐츠 식별정보)가 해당 사실적 기술어에 매칭되어 저장된다.
시맨틱 데이터 인덱싱부(130)는 사용자 생성 텍스트 데이터로부터 시맨틱 기술어를 추출하고, 각 시맨틱 기술어를 기준으로한 시맨틱 데이터 인덱스를 생성한다. 이때, 시맨틱 기술어는 본 발명의 실시예에 따른 콘텐츠 검색 시 검색의 기준으로서 사용된다.
구체적으로, 시맨틱 데이터 인덱싱부(130)는 데이터베이스(110)로부터 콘텐츠 별 사용자 생성 텍스트 데이터(112)를 획득하고, 획득한 사용자 생성 텍스트 데이터를 시맨틱 세그먼트들로 분할한다.
이때, 시맨틱 데이터 인덱싱부(130)는 사용자 생성 텍스트 데이터(112)를 최소 의미 단위(minimal semantic unit)로 분할하여 다수의 시맨틱 세그먼트로 분할한다. 여기서, 최소 의미 단위는 동일 범주의 의미적 관계를 갖는 최소의 구, 절, 문장 등의 언어학적 단위를 의미한다.
예를 들어, 도 4는 본 발명의 일실시예에 따른 시맨틱 세그먼트를 설명하기 위한 도면이다.
도 4에서는, 시맨틱 데이터 인덱싱부(130)가,‘영화’ 카테고리에 포함되는 콘텐츠 중 ‘Knight and Day’라는 영화 콘텐츠 및 ‘Inception’이라는 영화 콘텐츠에 대해 각각 기생성된 사용자 생성 텍스트 데이터인 영화 시놉시스 데이터, 제 1 사용자의 리뷰 데이터 및 제 2 사용자의 리뷰 데이터를 획득하여 시맨틱 세그먼트를 생성한 것을 나타내었다.
그리고, 도 4에서는 시맨틱 데이터 인덱싱부(130)가 최소 의미 단위로서 ‘문장’을 기준으로 사용자 생성 텍스트 데이터(즉, 문서)를 분할하여 시맨틱 세그먼트들 생성한 것을 나타내었다.
참고로, 본 발명의 일실시예에 따른 시맨틱 데이터 인덱싱부(130)는 시맨틱 검색의 정확도를 높이기 위해, ‘구’ 및 ‘절’ 단위로 사용자 생성 텍스트 데이터(즉, 문서)를 분할하여 시맨틱 세그먼트를 생성하는 것도 가능하다.
또한, 본 발명의 실시예에 따른 시맨틱 데이터 인덱싱부(130)는 최소 의미 단위로서의 ‘구’ 또는 ‘절’을 접속사 및 긍부정어 구간을 기준으로 구분하여 시맨틱 세그먼트를 생성할 수 있다. 이처럼, 최소 의미 단위가 접속사를 기준으로 한 ‘구’또는 ‘절’인 경우, 사용자 생성 텍스트 데이터에서 하나의 문장 내에 상반된 의미의 구 또는 절이 포함되더라도, 하나의 시맨틱 세그먼트 내의 어휘 간 관계도는 긴밀해지게 된다. 따라서, 사용자가 입력한 검색어(즉, 쿼리(query))가 사실적 정보뿐만 아니라 주관적인 정보를 의미하는 어휘들을 포함할 경우, 검색어 내의 어휘들과 가장 연관도가 높은 시맨틱 세그먼트에 기반한 시맨틱 검색이 가능하게 된다.
또한, 시맨틱 데이터 인덱싱부(130)는 콘텐츠 별로 생성된 시맨틱 세그먼트들을 각각 시맨틱 세그먼트의 식별정보(이하, ‘시맨틱 세그먼트 식별정보’라고 함)에 매칭하여 저장한다.
도 4에서는 시맨틱 데이터 인덱싱부(130)가 각 콘텐츠 별 시맨틱 세그먼트를 문장 순서에 따라 넘버링하여, 각 시맨틱 세그먼트의 식별정보(즉, 시맨틱 세그먼트 식별정보)로서 번호(1, 2, 3, 4……)를 생성한 것을 나타내었다. 참고로, 시맨틱 세그먼트 식별정보는 번호뿐만 아니라 ID 등의 다양한 형태로 생성되는 것이 가능하다.
다시 도 1로 돌아가서, 시맨틱 데이터 인덱싱부(130)는 각 시맨틱 세그먼트들을 어휘 단위로 분할하여 다수의 시맨틱 기술어(semantic descriptor)를 추출한다.
그리고, 시맨틱 데이터 인덱싱부(130)는 각 시맨틱 기술어가 포함된 적어도 하나의 콘텐츠의 식별정보(즉, 콘텐츠 식별정보) 및 시맨틱 세그먼트의 식별정보(즉, 시맨틱 세그먼트 식별정보)를 매칭한 시맨틱 데이터 인덱스를 생성한다.
참고로, 본 발명의 실시예에 따른 시맨틱 데이터 인덱싱부(130)는 언어 온톨로지(132)를 이용하여 각 시맨틱 기술어에 대한 전처리를 수행한 후 시맨틱 데이터 인덱스를 생성한다. 여기서, 언어 온톨로지(132)는 텍스트, 단어 묶음(word bundle) 등에서 추출된 데이터나 정보에 대한 자연어 인터페이스를 지원하는 온톨로지를 의미한다. 그리고, 어휘의 전처리는 불용어 제거(stop word removal), 어미 제거(stemming) 등의 처리를 포함하는 개념이다.
예를 들어, 도 5는 본 발명의 일실시예에 따른 시맨틱 데이터 인덱스를 나타내는 도면이다.
도 5의 (a)에서 나타낸 바와 같이, 시맨틱 데이터 인덱싱부(130)는 콘텐츠 별로 각각 식별정보(도 5에서는 ‘ID’인 것을 나타냄)를 부여한다. 이때, 시맨틱 데이터 인덱싱부(130)는 메타 데이터 인덱싱부(120)가 각 콘텐츠 별로 부여한 식별정보와 동일한 식별정보를 사용한다. 즉, 동일한 콘텐츠에 대해서는 메타 데이터 인덱싱부(120) 및 시맨틱 데이터 인덱싱부(130)에서 하나의 식별정보를 부여한다. 도 5의 (a)에서는 콘텐츠의 카테고리가 ‘영화’일 때, ‘A’ 내지 ‘D’ 영화에 대해‘M1042’ 내지 ‘M1045’가 ID로서 부여된 것을 나타내었다.
그리고, 시맨틱 데이터 인덱싱부(130)는 콘텐츠 별 사용자 생성 텍스트 데이터로부터 추출한 시맨틱 기술어를 기준으로 하여, 해당하는 콘텐츠 식별정보 및 각 콘텐츠 별 시맨틱 세그먼트 식별정보를 매칭하여 저장한다.
이때, 도 5의 (b)에서 나타낸 바와 같이, 시맨틱 기술어 중 하나인 ‘Wichita’(P51)가 포함된 콘텐츠가 영화 ‘B’(P53)이며, 영화 ‘B’의 시맨틱 세그먼트 중 번호‘2,3’(P54)에 ‘Wichita’가 포함되어 있는 것을 알 수 있다.
다시 도 1로 돌아가서, 시맨틱 검색 처리부(140)는 입력되는 검색어에 대해 메타 데이터 인덱스 및 시맨틱 데이터 인덱스를 이용한 콘텐츠 검색 처리를 수행하고, 검색된 콘텐츠의 정보를 출력한다. 이때, 검색어는 사용자가 검색 포털 사이트 등의 웹 사이트에서 입력할 수 있으며, 문장, 절, 구, 단어 등의 형태로 입력될 수 있다.
구체적으로, 도 2에서 나타낸 바와 같이, 본 발명의 일실시예에 따른 시맨틱 검색 처리부(140)는 검색어 전처리 모듈(141), 검색어 확장 모듈(142) 및 시맨틱 검색 모듈(143)을 포함한다.
검색어 전처리 모듈(141)은 사용자가 입력하는 검색어를 어휘 단위로 분할하여 검색 키워드를 추출하고, 추출된 검색 키워드에 대해 불용어 제거 및 어미 제거 등의 전처리를 수행한다. 참고로, 검색어 전처리 모듈(141)은 언어 온톨로지(132)를 이용하여 검색어를 전처리할 수 있다.
또한, 검색어 전처리 모듈(141)은 사용자가 입력한 검색어가 하나 이상의 최소 의미 단위를 포함할 때 입력된 검색어를 시맨틱 세그먼트(이하, ‘검색어 시맨틱 세그먼트’라고 함)로 분할해 질의를 처리하도록 할 수 있다. 참고로, 본 발명의 일실시예에 따른 검색어 전처리 모듈(141)은 시맨틱 데이터 인덱싱부(130)에서와 같은 방법으로 검색어를 검색어 시맨틱 세그먼트로 분할할 수 있다.
검색어 확장 모듈(142)은 검색 키워드에 대해 개념 확장 처리를 수행하여 확장 키워드를 생성한다. 참고로, 검색어 확장 모듈(142)은 언어 온톨로지(132)를 이용하여 검색 키워드를 확장할 수 있으며, 여기서 언어 온톨로지(132)는 사전 기반 확장 기법을 더 포함하는 개념일 수 있다. 이때, 검색어 확장 모듈(142)은 검색 키워드 별로 유의어(synonyms), 하의어(hyponyms) 및 상의어(hypernyms) 중 적어도 하나의 개념으로 확장 키워드를 생성할 수 있다.
예를 들어, 도 6은 본 발명의 일실시예에 따른 검색어 확장 방법을 설명하기 위한 도면이다.
도 6에서는 카(car)라는 하나의 검색 키워드의 개념이 확장되어 복수의 확장 키워드(cable car, automobile, railway 등)가 생성되는 것을 나타내었다.
다시 도 2로 돌아가서, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스 및 메타 데이터 인덱스를 이용하여, 사용자가 입력한 검색어에 대해 연관도가 높은 적어도 하나의 콘텐츠를 추출하여 검색 결과 콘텐츠로 결정한다. 그리고, 시맨틱 검색 모듈(143)은 상기 검색 결과 콘텐츠의 정보를 사용자가 확인할 수 있도록 화면 등에 출력한다. 이때, 시맨틱 검색 모듈(143)은 상기 검색 결과 콘텐츠 및 상기 검색 결과 콘텐츠에 관련된 사용자 생성 텍스트 데이터의 자체 또는 연결 정보 등을 출력하는 것도 가능하다.
본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 사용자가 입력한 검색어의 속성에 따라 메타 데이터 인덱스 및 시맨틱 데이터 인덱스 중 적어도 하나의 인덱스를 이용하여 검색 결과 콘텐츠를 결정할 수 있다. 즉, 시맨틱 검색 모듈(143)은 사용자가 입력한 검색어와 콘텐츠와의 직접적인 관련도(즉, 검색어와 메타 데이터 간의 관련도)와, 검색어와 사용자 의견 정보와의 간접적인 관련도(즉, 검색어와 사용자 생성 텍스트 데이터 간의 관련도) 중 적어도 하나를 이용하여 검색 결과 콘텐츠를 결정한다. 이때, 시맨틱 검색 모듈(143)은 상기 직접적인 관련도와 간접적인 관련도 중 어느 하나에 대해 가중치를 더 높게 설정하여 검색 결과 콘텐츠를 결정할 수 있다.
참고로, 검색어의 속성은 검색어에 포함된 어휘의 정보 종류를 의미하며, 본 발명의 실시예에서는 사실적 정보 및 주관적 정보를 의미한다. 예를 들어, 검색어가 ‘A 감독의 영화’일 경우, 검색어는 ‘A’,‘감독’, ‘영화’의 검색 키워드로 분할되며, ‘A’,‘감독’은 일반적으로 사실적 정보에 속한다. 그리고, 검색어가 ‘A 감독의 감성이 돋보이는 영화’일 경우, 검색어는 ‘A’,‘감독’,’감성’, ‘돋보임’,‘영화’의 검색 키워드로 분할되며, ‘감성’,‘돋보임’은 일반적으로 주관적 정보에 속한다.
이때, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)에 입력되는 검색어가 사실적 정보만을 포함한 경우 메타 데이터 인덱스를 이용하여 상기 검색어에 적합한 콘텐츠가 검색된다. 그리고, 시맨틱 검색 모듈(143)에 입력되는 검색어가 주관적 정보만을 포함한 경우 시맨틱 데이터 인덱스를 이용하여 상기 검색어에 적합한 콘텐츠가 검색된다. 또한, 시맨틱 검색 모듈(143)에 입력되는 검색어가 사실적 정보 및 주관적 정보를 모두 포함한 경우 메타 데이터 인덱스 및 시맨틱 데이터 인덱스를 이용하여 상기 검색어에 적합한 콘텐츠가 검색된다.
구체적으로, 시맨틱 검색 모듈(143)은 메타 데이터 인덱스 또는 시맨틱 데이터 인덱스 중 어느 하나를 이용하여 콘텐츠를 검색한 후 검색어에 적합한 콘텐츠가 검색되지 않는 경우 나머지 하나를 이용하여 콘텐츠를 검색할 수 있다.
또한, 시맨틱 검색 모듈(143)은 메타 데이터 인덱스 및 시맨틱 데이터 인덱스를 동시에 이용하여 콘텐츠를 검색하는 것도 가능하다.
이때, 시맨틱 검색 모듈(143)은 메타 데이터 인덱스 및 시맨틱 데이터 인덱스를 모두 이용하여 동일 검색어에 대한 콘텐츠를 검색하고, 메타 데이터 검색 인덱스와 시맨틱 데이터 인덱스에 대해 동일한 가중치 또는 상이한 가중치를 적용하여 검색 결과 콘텐츠를 결정할 수 있다.
예를 들어, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스(또는 메타 데이터 인덱스)에 기반하여 추출된 콘텐츠 중 메타 데이터 인덱스(또는 시맨틱 데이터 인덱스)에도 포함된 콘텐츠를 상기 검색 결과 콘텐츠로 결정할 수 있다. 또는, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인텍스(또는 메타 데이터 인덱스)에 기반하여 추출된 콘텐츠를 우선적으로 상기 검색 결과 콘텐츠로 결정할 수도 있다.
먼저, 시맨틱 검색 모듈(143)이 메타 데이터 인덱스를 기반으로 콘텐츠를 검색하는 방법에 대해서 설명하도록 한다.
본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 메타 데이터 인덱스로부터 상기 검색 키워드 및 확장 키워드 중 적어도 하나에 매칭되는 사실적 기술어를 추출한다. 그리고, 시맨틱 검색 모듈(143)은 메타 데이터 인덱스에 포함된 요소(엔트리) 중 상기 추출된 사실적 기술어 및 그에 매칭된 콘텐츠 식별 정보를 메타 데이터 검색 인덱스로서 생성한다.
그리고, 시맨틱 검색 모듈(143)은 메타 데이터 검색 인덱스에 포함된 콘텐츠 식별정보에 따른 콘텐츠를 상기 검색 결과 콘텐츠로 결정한다.
다음으로, 시맨틱 검색 모듈(143)이 시맨틱 데이터 인덱스를 기반으로 콘텐츠를 검색하는 방법에 대해서 설명하도록 한다.
본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스로부터 상기 검색 키워드 및 확장 키워드에 매칭되는 시맨틱 기술어를 추출하고, 상기 추출된 시맨틱 기술어에 대한 콘텐츠 식별정보와 각 콘텐츠 별 시맨틱 세그먼트 식별정보가 매칭되는 시맨틱 검색 인덱스를 생성한다.
예를 들어, 도 7은 본 발명의 일실시예에 따른 시맨틱 검색 인덱스를 나타내는 도면이다.
이때, 도 7에서는, 콘텐츠를 검색하고자 하는 사용자가 ‘데이트할 때 보기 좋은 톰 크루즈 영화’라는 검색어를 입력했을 때 생성되는 시맨틱 검색 인덱스를 나타내었다.
이와 같은 경우, 먼저 검색어 전처리 모듈(141)은, ‘데이트할 때 보기 좋은 톰 크루즈 영화’라는 검색어를 ‘톰(Tom), 크루즈(Cruise), 영화(movie), 데이트(date)’라는 어휘로 분할하여 검색 키워드를 추출한다.
그리고, 검색어 확장 모듈(142)은 상기 추출된 검색 키워드 별로 검색어 확장을 수행하여, ‘필름(film), 모션-픽쳐(motion-picture), 고 아웃(go out)’라는 확장 키워드를 생성한다.
그러면, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스로부터, 상기 검색 키워드인‘톰(Tom), 크루즈(Cruise), 영화(movie), 데이트(date)’및 확장 키워드인 ‘필름(film), 모션-픽쳐(motion-picture), 고 아웃(go out)’에 매칭되는 시맨틱 기술어를 추출한다.
그리고, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스로부터, 상기 추출된 시맨틱 기술어인 ‘톰(Tom), 크루즈(Cruise), 영화(movie), 데이트(date), 필름(film), 모션-픽쳐(motion-picture), 고 아웃(go out)’ 별로 해당하는 콘텐츠의 식별정보와, 각 콘텐츠 별 시맨틱 세그먼트 식별정보를 추출한다.
그런 후, 시맨틱 검색 모듈(143)은 도 7에서 나타낸 바와 같이, 상기 추출된 시맨틱 기술어 별로 상기 추출된 콘텐츠 식별정보 및 시맨틱 세그먼트 식별정보를 매칭하여 시맨틱 검색 인덱스를 생성한다.
또한, 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스에 포함된 시맨틱 기술어 별로 각각 검색어와 해당 콘텐츠 간의 연관도를 계산한다.
구체적으로, 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스에 포함된 시맨틱 기술어들에 대한 콘텐츠 및 시맨틱 세그먼트의 교집합을 검출하고, 검출된 콘텐츠 및 시맨틱 세그먼트의 교집합에 대해 연관도 점수를 부여한다
참고로, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 검색 키워드에 매칭된 시맨틱 기술어와 확장 키워드에 매칭된 시맨틱 기술어에 대해 상이한 가중치를 적용하여 연관도 점수를 계산할 수 있다. 이때, 시맨틱 검색 모듈(143)은 검색 키워드에 따른 시맨틱 기술어에 매칭되는 콘텐츠 및 시맨틱 세그먼트에 부여하는 점수의 가중치를, 확장 키워드에 따른 시맨틱 기술어에 매칭되는 콘텐츠 및 시맨틱 세그먼트에 부여하는 점수의 가중치보다 높게 설정할 수 있다.
예를 들어, 도 7에서는 시맨틱 검색 모듈(143)이 시맨틱 검색 인덱스에 포함된 시맨틱 기술어 중 검색 키워드에 매칭되는 톰(Tom), 크루즈(Cruise), 영화(movie), 데이트(date)에 대해서 콘텐츠 식별정보인 ‘M1043’을 교집합으로 추출하고, ‘M1043’에 매칭되는 시맨틱 세그먼트 식별정보 중 ‘[2, 13]’을 교집합으로 추출한 것을 나타내었다.
그리고, 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스에 포함된 시맨틱 기술어 중 확장 키워드에 매칭되는 필름(film), 모션-픽쳐(motion-picture), 고 아웃(go out)에 대해서 콘텐츠 식별정보인 ‘M1042’를 교집합으로 추출하고, ‘M1042’에 매칭되는 시맨틱 세그먼트 식별정보 중 ‘[5]’를 교집합으로 추출한 것을 나타내었다.
이상의 설명에서는 사용자의 검색어가 하나의 최소 의미 단위만을 포함하는 경우를 가정하였다. 그런데, 사용자의 검색어가 한 개 이상의 최소 의미 단위를 포함할 때 검색어 전처리 모듈(141)은 검색어를 복수의 검색어 시맨틱 세그먼트로 분할한다. 그리고, 검색어 확장 모듈(142)은 각 검색어 시맨틱 세그먼트들을 확장한다. 또한, 시맨틱 검색 모듈(143)은 확장된 각 검색어 시맨틱 세그먼트 별로 상기한 방법과 같이 질의를 처리할 수 있다.
예를 들어, “각본은 좋으나 배우들의 연기가 최악이었던 영화”라는 사용자 검색어는 ‘각본이 좋은’과 ‘연기가 최악’ 이라는 두 개의 상반된 감성을 표현하는 두 개의 검색어 시맨틱 세그먼트를 포함한다. 이때, 각 검색어 시맨틱 세그먼트 별로 얻어진 콘텐츠 식별정보와 시맨틱 세그먼트 식별정보들은, 콘텐츠 식별정보를 교집합 한 후 같은 콘텐츠에 대한 시맨틱 세그먼트들을 합집합하는 방법으로 통합할 수 있다.
이러한 과정을 거친 후, 시맨틱 검색 모듈(143)은 추출된 콘텐츠 별 시맨틱 세그먼트의 개수에 따라 해당 콘텐츠에 대해 연관도 점수를 부여한다. 참고로, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 토폴로지 거리(topological distance) 방식에 기반하여 추출된 콘텐츠 별 연관도 점수를 계산할 수 있다.
이때, 본 발명의 실시예에 따른 시맨틱 검색 모듈(143)은 검색 키워드에 따라 추출된 시맨틱 세그먼트의 경우 점수를 ‘1‘ 값으로 정의하고, 확장 키워드에 따라 추출된 시맨틱 세그먼트의 경우 점수를 ‘1’보다 적은 ‘0.5’ 값으로 설정할 수 있다. 즉, 검색 키워드와 확장 키워드에 대한 점수 가중치를 상이하게 부여한다. 따라서, 도 7에서는 콘텐츠 식별정보 ‘M1043’에 대해 2점이 부여되고, ‘M1042’에 대해 0.5점이 부여된다.
도 7에서는 시맨틱 검색 모듈(143)이 사용자가 입력한 검색어에 대해, ‘M1043’, ‘M1042’에 대한 콘텐츠를 검색 결과로써 출력하는 것을 나타내었다. 이때, 시맨틱 검색 모듈(143)은 ‘M1043’, ‘M1042’의 순서로 검색 결과를 출력할 수 있다. 즉, 시맨틱 검색 모듈(143)은 사용자가 입력한 검색어에 대해 가장 적합한 콘텐츠로서 ‘M1043’콘텐츠와, 그 다음으로 적합한 콘텐츠로서 ‘M1042’콘텐츠를 구별할 수 있도록 검색 결과 정보를 생성할 수 있다.
이러한, 본 발명의 일실시예에 따른 시맨틱 검색 결과 순위 결정 방법은 콘텐츠 사용자들의 해당 콘텐츠에 대한 의견을 바탕으로 순위를 결정하는 방법으로서, 사용자 검색어에 대한 콘텐츠 기반 데이터(즉, 메타데이터 또는 콘텐츠 추출 데이터)의 유사도에만 의존하던 종래의 검색 결과 순위 결정 방법과는 근본적으로 상이하다.
또한, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 시맨틱 검색 결과 순위 결정 시, 사용자가 입력한 검색어에 포함된 적어도 하나의 어휘(즉, 검색 키워드 및 확장 키워드)가 감성(sentiment)을 포함하는 경우, 감성의 극성(polarity) 및 정도(degree)에 따라 해당 키워드를 포함하는 시맨틱 세그먼트에 상이한 가중치를 적용할 수 있다. 예를 들어, 사용자가 입력한 검색어가 ‘데이트할 때 보기 좋은 영화’인 경우, 영화 카테고리의 시맨틱 데이터 인덱스 중‘최고’와 ‘좋음’을 포함하는 시맨틱 세그먼트 중 ‘최고’를 포함하는 시맨틱 세그먼트에 가중치를 더 높게 설정하여 상기에서 설명한 시맨틱 검색 처리를 수행할 수 있다. 이때, ‘최고’와 ‘좋음’은 둘 다 긍정의 극성을 가지나, ‘최고’가 사용자의 의견을 더욱 강하게 피력하는 것이므로 영화 카테고리의 시맨틱 데이터 인덱스 중‘최고’라는 시맨틱 기술어를 포함하는 시맨틱 세그먼트에 대해 가중치를 더 높게 설정될 수 있다.
이와 같은 방식으로, 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스로부터 사용자가 입력한 검색어에 관련된 적어도 하나의 콘텐츠 식별정보를 검출하고, 검출된 콘텐츠 식별정보 중 높은 연관도 점수 순으로 기설정된 개수의 콘텐츠 식별정보를 추출한다. 그리고 시맨틱 검색 모듈(143)은 추출된 적어도 하나의 콘텐츠 식별정보에 따른 콘텐츠를 검색 결과 콘텐츠로서 결정한다.
이때, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스에 기초하여 점수를 계산한 콘텐츠 중 검색어에 대한 관련도 점수가 높은 수순에 따라 추출되는 적어도 하나의 콘텐츠와, 메타 데이터 검색 인텍스에 포함된 콘텐츠 중 적어도 하나를 상기 검색 결과 콘텐츠로 결정한다.이하, 도 8을 참조하여 본 발명의 일실시예에 따른 콘텐츠 검색 방법에 대해서 상세히 설명하도록 한다.
도 8은 본 발명의 일실시예에 따른 사용자 생성 텍스트 데이터를 이용한 시맨틱 검색 방법을 설명하기 위한 순서도이다.
먼저, 사용자가 검색어를 입력하면(S810), 입력된 검색어를 확장한다(S820).
구체적으로, 입력된 검색어를 어휘 단위로 분할하여 검색 키워드를 추출하고, 생성된 검색 키워드를 언어 온톨로지를 이용하여 유의어, 상의어, 하의어 중 적어도 하나의 개념에 따라 확장하여 확장 키워드를 생성한다. 이때, 사용자가 입력하는 검색어는, 단어, 절, 구, 문장 등의 단위로 구성될 수 있다.
그런 다음, 검색 키워드 및 확장 키워드 중 적어도 하나에 기초하여, 사용자 생성 텍스트 데이터 및 메타 데이터 중 적어도 하나를 이용한 시맨틱 검색을 수행한다(S830).
단계 S830에서는 검색 대상이 되는 콘텐츠 별로 사용자가 기생성한 텍스트 데이터에 기초하여 생성되는 시맨틱 데이터 인덱스, 및 콘텐츠 별 메타 데이터를 도메인 온톨로지에 맵핑하여 생성되는 메타 데이터 인덱스를 이용하여 상기 검색어 키워드 및 확장 키워드와 관련도가 높은 콘텐츠를 검색한다.
이와 같은, 시맨틱 데이터 인덱스 및 메타 데이터 인덱스는 앞서 도 1 내지 도 7에서 설명한 방법을 통해서 생성될 수 있다.
구체적으로, 단계 S830에서는 시맨틱 데이터 인덱스 별 시맨틱 기술어 중 상기 검색 키워드 및 확장 키워드에 매칭되는 시맨틱 기술어에 기준한 시맨틱 검색 인덱스를 생성한다. 그리고, 메타 데이터 인덱스 별 사실적 기술어 중 상기 검색 키워드 및 확장 키워드에 매칭되는 사실적 기술어에 기준한 메타 데이터 검색 인덱스를 생성한다. 이때, 시맨틱 검색 인덱스는 시맨틱 기술어 별로 적어도 하나의 콘텐츠 식별정보 및 각 콘텐츠 별 시맨틱 세그먼트 식별정보가 매칭된 형태이고, 메타 데이터 검색 인덱스는 사실적 기술어 별로 적어도 하나의 콘텐츠 식별정보가 매칭된 형태이다.
이처럼, 단계 S830에서 시맨틱 검색 인덱스 및 메타 데이터 검색 인덱스 중 적어도 하나를 이용하여 검색어에 적합한 콘텐츠를 검색하는 방법은 상기 도 1 내지 도 7을 통해 설명한 방법을 통해서 수행될 수 있다.
그런 다음, 단계 S830에서 사용자 생성 텍스트 데이터 및 메타 데이터를 이용하여 시맨틱 검색된 콘텐츠의 정보를 사용자가 확인할 수 있는 정보 형태로 생성하여 출력한다(S840).
예를 들어, 사용자가 확인할 수 있는 정보의 형태는 웹 사이트 등을 통해 출력되는 웹 페이지 형태로 생성될 수 있다.
한편, 상기 도 1 내지 도 8을 통해 설명한 본 발명의 일실시예에서는 콘텐츠에 관련된 사실적 정보로서 메타 데이터를 설명하였다. 그런데, 본 발명의 일실시예에 따른 콘텐츠 검색 장치 및 방법에서는 콘텐츠에 관련된 사실적 정보로서 콘텐츠 추출 데이터를 더 포함하는 콘텐츠 관련 사실적 정보를 이용하여 시맨틱 검색을 수행할 수 있다.
예를 들어, 콘텐츠의 카테고리가 영화, 음악 등에 대한 디지털 콘텐츠인 경우 영상 분석, 목소리 분석, 대사 추출, 음악 무드 분석, 악기 추출 등 콘텐츠 자체를 분석하여 콘텐츠 추출 데이터를 획득할 수 있다. 이와 같은 콘텐츠 추출 데이터는 콘텐츠 추출 기술어를 포함하여 구성되며, 본 발명의 일실시예에 따른 콘텐츠 검색 장치 및 방법에서는 메타 데이터 인덱싱과 더불어 콘텐츠 추출 데이터 인덱싱을 수행할 수 있다. 이때, 본 발명의 일실시예에 따른 시맨틱 검색 처리부(140)는 메타 데이터 인덱스, 콘텐츠 추출 데이터 인덱스, 및 시맨틱 데이터 인덱스에 기초하여 시맨틱 검색을 수행할 수 있다.
한편 전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
그리고 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
110: 데이터베이스
111: 메타 데이터
112: 사용자 생성 텍스트 데이터
120: 메타 데이터 인덱싱부
121: 도메인 온톨로지
130: 시맨틱 데이터 인덱싱부
131: 언어 온톨로지
140: 시맨틱 검색 처리부
141: 검색어 전처리 모듈
142: 검색어 확장 모듈
143: 시맨틱 검색 모듈

Claims (6)

  1. 시맨틱 검색 장치에 있어서,
    콘텐츠의 내용에 대해 작성된 사용자 생성 텍스트 데이터를 제공하는 데이터 베이스; 및
    상기 사용자 생성 텍스트 데이터로부터 적어도 하나의 시맨틱 기술어를 추출하고, 상기 시맨틱 기술어 별로 각각 포함되어 있던 사용자 생성 텍스트 데이터의 정보 및 상기 사용자 생성 텍스트 데이터에 대응되는 콘텐츠의 정보를 매칭하여 시맨틱 데이터 인덱스를 생성하는 시맨틱 데이터 인덱싱부를 포함하되,
    상기 시맨틱 데이터 인덱스는 시맨틱 검색 조건으로 사용되는 것인, 시맨틱 검색 장치.
  2. 제 1 항에 있어서,
    상기 시맨틱 데이터 인덱싱부는,
    상기 사용자 생성 텍스트 데이터를 기설정된 최소 의미 단위로 분할하여 시맨틱 세그먼트를 생성하고, 상기 시맨틱 세그먼트를 어휘 단위로 분할하여 상기 시맨틱 기술어를 추출하되,
    상기 사용자 생성 텍스트 데이터의 정보는 상기 시맨틱 기술어가 포함되어 있던 상기 시맨틱 세그먼트의 정보이며,
    상기 최소 의미 단위는 문장, 절, 구 및 단어 중 적어도 하나인 것인 시맨틱 검색 장치.
  3. 제 1 항에 있어서,
    시맨틱 검색을 위한 검색어를 입력받으면 상기 검색어와 매칭되는 적어도 하나의 시맨틱 기술어를 추출하고, 상기 추출된 시맨틱 기술어에 따른 상기 시맨틱 데이터 인덱스에 기초하여 상기 검색어에 관련된 콘텐츠를 검색하는 시맨틱 검색 처리부를 더 포함하는 시맨틱 검색 장치.
  4. 시맨틱 검색 장치를 통한 시맨틱 검색 방법에 있어서,
    콘텐츠의 내용에 대해 작성된 사용자 생성 텍스트 데이터를 수집하는 단계;
    상기 사용자 생성 텍스트 데이터로부터 적어도 하나의 시맨틱 기술어를 추출하는 단계; 및
    상기 시맨틱 기술어 별로 각각 포함되어 있던 사용자 생성 텍스트 데이터의 정보 및 상기 사용자 생성 텍스트 데이터에 대응되는 콘텐츠의 정보를 매칭하여 시맨틱 데이터 인덱스를 생성하는 단계를 포함하되,
    상기 시맨틱 데이터 인덱스는 시맨틱 검색 조건으로 사용되는 것인, 시맨틱 검색 방법.
  5. 제 4 항에 있어서,
    상기 시맨틱 데이터 인덱스를 생성하는 단계는,
    상기 사용자 생성 텍스트 데이터를 기설정된 상기 사용자 생성 텍스트 데이터를 기설정된 최소 의미 단위로 분할하여 시맨틱 세그먼트를 생성하는 단계; 및
    상기 시맨틱 세그먼트를 어휘 단위로 분할하여 상기 시맨틱 기술어를 추출하는 단계를 포함하되,
    상기 사용자 생성 텍스트 데이터의 정보는 상기 시맨틱 기술어가 포함되어 있던 상기 시맨틱 세그먼트의 정보이며,
    상기 최소 의미 단위는 문장, 절, 구 및 단어 중 적어도 하나인 것인 시맨틱 검색 방법.
  6. 제 4 항에 있어서,
    상기 시맨틱 데이터 인덱스를 생성하는 단계 이전에,
    시맨틱 검색을 위한 검색어를 입력받는 단계; 및
    상기 검색어와 매칭되는 적어도 하나의 시맨틱 기술어를 추출하는 단계를 더 포함하되,
    상기 시맨틱 데이터 인덱스를 생성하는 단계는,
    상기 추출된 시맨틱 기술어에 따른 상기 시맨틱 데이터 인덱스를 생성하는 시맨틱 검색 방법.
KR1020120068757A 2012-06-26 2012-06-26 디지털 콘텐츠 검색 장치 및 방법 KR20120088632A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120068757A KR20120088632A (ko) 2012-06-26 2012-06-26 디지털 콘텐츠 검색 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120068757A KR20120088632A (ko) 2012-06-26 2012-06-26 디지털 콘텐츠 검색 장치 및 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020100116421A Division KR101192439B1 (ko) 2010-11-22 2010-11-22 디지털 콘텐츠 검색 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20120088632A true KR20120088632A (ko) 2012-08-08

Family

ID=46873870

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120068757A KR20120088632A (ko) 2012-06-26 2012-06-26 디지털 콘텐츠 검색 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20120088632A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10817786B2 (en) 2014-10-22 2020-10-27 Baidu Online Network Technology (Beijing) Co., Ltd. Multi-round session interaction method and system, and computer device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10817786B2 (en) 2014-10-22 2020-10-27 Baidu Online Network Technology (Beijing) Co., Ltd. Multi-round session interaction method and system, and computer device

Similar Documents

Publication Publication Date Title
KR101192439B1 (ko) 디지털 콘텐츠 검색 장치 및 방법
US11720572B2 (en) Method and system for content recommendation
Bharti et al. Sarcastic sentiment detection in tweets streamed in real time: a big data approach
JP6014725B2 (ja) 単文/複文構造の自然言語クエリに対する検索および情報提供方法並びにシステム
US9965726B1 (en) Adding to a knowledge base using an ontological analysis of unstructured text
US20090292685A1 (en) Video search re-ranking via multi-graph propagation
US20130060769A1 (en) System and method for identifying social media interactions
US20110307485A1 (en) Extracting topically related keywords from related documents
KR101873873B1 (ko) 속성 정보 분석을 통한 멀티미디어 컨텐츠 검색장치 및 검색방법
CN103229223A (zh) 使用多个候选答案评分模型提供问题答案
CN103229162A (zh) 使用候选答案逻辑综合提供问题答案
Dong et al. A survey in semantic search technologies
US20120136870A1 (en) Systems and methods for two stream indexing of audio content
US11693900B2 (en) Method and system for providing resegmented audio content
AU2020103004A4 (en) Method to build a document semantic and entity relationship model
Mertoğlu et al. Automated fake news detection in the age of digital libraries
Koperwas et al. Intelligent information processing for building university knowledge base
Moncla et al. Automated geoparsing of paris street names in 19th century novels
KR101602342B1 (ko) 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템
US20230090601A1 (en) System and method for polarity analysis
CN111259136A (zh) 一种基于用户偏好自动生成主题评价摘要的方法
Lee et al. Ontology based user query interpretation for semantic multimedia contents retrieval
KR20120088632A (ko) 디지털 콘텐츠 검색 장치 및 방법
JP2014191777A (ja) 語義解析装置、及びプログラム
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム

Legal Events

Date Code Title Description
A107 Divisional application of patent
WITN Withdrawal due to no request for examination