KR20160093488A

KR20160093488A - 키워드 인스턴스 기반 온톨로지 데이터 생성 시스템 및 방법

Info

Publication number: KR20160093488A
Application number: KR1020150014591A
Authority: KR
Inventors: 이경일; 함영경; 정교성
Original assignee: 주식회사 솔트룩스
Priority date: 2015-01-29
Filing date: 2015-01-29
Publication date: 2016-08-08
Also published as: WO2016122043A1; KR101693783B1

Abstract

키워드 인스턴스 기반 온톨로지 데이터 생성 시스템 및 방법이 개시된다. 본 발명의 예시적 실시예에 따른 온톨로지 데이터 생성 시스템은 수신된 아이템 데이터로부터 키워드 추출 영역을 판별하는 데이터 수신부, 키워드 추출 영역에서 키워드를 추출하는 키워드 추출부, 및 키워드에 대응하는 키워드 인스턴스와 아이템 인스턴스 사이의 관계를 설정함으로써 온톨로지 데이터를 출력하는 온톨로지 변환부를 포함할 수 있다.

Description

키워드 인스턴스 기반 온톨로지 데이터 생성 시스템 및 방법{SYSTEM AND METHOD FOR GENERATING ONTOLOGY DATA BASED ON KEYWORD INSTANCE}

본 발명의 기술적 사상은 온톨로지 데이터 생성 시스템 및 방법에 관한 것으로서, 자세하게는 키워드 인스턴스를 포함하는 온톨로지 데이터를 생성하는 시스템 및 방법에 관한 것이다.

본 발명은 문화체육관광부 문화기술연구개발지원사업의 일환으로 (주)다우인큐브에서 주관하고 (주)솔트룩스가 연구하여 수행된 연구로부터 도출된 것이다. [연구기간: 2014.06.01~2015.03.31, 연구관리 전문기관: 한국콘텐츠진흥원, 연구과제명: 개방적 업데이트, 리믹스, 맞춤형 저작/소비가 가능한 스마트미디어 환경에서의 전자책 플랫폼 개발, 과제 고유번호: R2014040054]

사용자는 수많은 아이템들 중에서 자신이 원하는 아이템을 얻기 위하여 다양한 방법을 통해서 아이템에 대한 정보를 취득하여 분석할 수 있다. 그러나 아이템의 수가 무한하게 증가하면서 사용자가 모든 아이템들에 대한 정보를 취득하여 분석하는 것은 현실적으로 불가능하다. 이에 따라, 아이템 검색은 무한한 아이템들로부터 사용자가 원하는 아이템을 얻기 위한 필수적인 방법들 중 하나일 수 있고, 양질의 검색 결과를 제공하기 위한 수단이 요구된다.

본 발명의 기술적 사상은, 효과적인 아이템 검색을 위하여 키워드 인스턴스를 포함하는 온톨로지 데이터를 생성하는 시스템 및 방법을 제공한다.

상기와 같은 목적을 달성하기 위하여, 본 발명의 기술적 사상에 따른 온톨로지 데이터 생성 시스템은, 외부로부터 아이템에 대응하는 아이템 데이터를 수신하고, 상기 아이템 데이터로부터 키워드 추출 영역을 판별하는 데이터 수신부, 상기 키워드 추출 영역에서 적어도 하나의 키워드를 추출하는 키워드 추출부, 및 상기 키워드에 대응하는 키워드 인스턴스와 상기 아이템에 대응하는 아이템 인스턴스 사이의 관계를 설정함으로써 상기 키워드를 온톨로지 데이터로서 변환하고, 상기 온톨로지 데이터를 출력하는 온톨로지 변환부를 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 데이터 수신부는, 데이터 서버에 엑세스하여 상기 아이템 데이터를 수신하는 데이터 로더, 및 상기 아이템 데이터의 형식에 기초하여 상기 아이템 데이터로부터 복수개의 필드를 식별하고 적어도 하나의 필드에 대응하는 데이터를 상기 키워드 추출 영역으로서 제공하는 설정 로더를 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 설정 로더는, 상기 아이템 데이터가 온톨로지 포맷과 다른 포맷을 가지는 경우 적어도 하나의 필드를 인스턴스에 대응시키기 위한 온톨로지 변환 정보를 제공할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 키워드 추출부는, 상기 키워드 추출 영역의 텍스트를 일련의 토큰(token)으로 변환하는 형태 분석기, 상기 일련의 토큰으로부터 적어도 하나의 단어를 추출하는 데이터 파서(parser), 상기 적어도 하나의 단어를 정규화하는 정규화 모듈, 및 상기 정규화된 단어를 필터링함으로써 상기 키워드를 생성하는 데이터 필터를 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 데이터 필터는 상기 정규화된 단어의 빈도, TF-IDF(Term Frequency-Inverse Document Frequency)값 또는 불용어(stopword) 여부에 기초하여 상기 정규화된 단어를 필터링할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 키워드 추출부는 상기 아이템에 대한 상기 키워드의 가중치를 계산하여 제공하는 가중치 계산기를 포함할 수 있고, 상기 온톨로지 변환부는 상기 가중치, 상기 키워드 인스턴스 및 상기 아이템 인스턴스에 기초하여 가중치 인스턴스를 생성할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 온톨로지 변환부는, 상기 키워드에 기초하여 상기 키워드 인스턴스를 선택적으로 생성하는 키워드 인스턴스 생성 모듈, 및 상기 키워드 인스턴스, 상기 아이템 인스턴스 및 다른 키워드 인스턴스 사이의 관계를 설정하는 인스턴스 관계 설정 모듈을 포함할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 키워드 인스턴스 생성 모듈은 상기 키워드에 대응하는 키워드 인스턴스가 상기 아이템 데이터과 다른 아이템 데이터로부터 생성된 경우 외부로부터 상기 키워드 인스턴스를 수신할 수 있다.

본 발명의 예시적 실시예에 따라, 상기 아이템은 전자책일 수 있고, 상기 키워드 추출 영역은 상기 전자책의 제목, 소개글, 머리말 또는 본문을 포함할 수 있다.

본 발명의 기술적 사상에 따른 온톨로지 데이터 생성 시스템에 의하면, 아이템의 키워드 검색을 효과적으로 지원함으로써 사용자에게 적합한 아이템이 검색될 수 있다.

또한, 본 발명의 기술적 사상에 따른 온톨로지 데이터 생성 시스템에 의하면, 키워드의 중요도에 따라 검색된 아이템의 노출 순서를 결정함으로써 사용자에게 양질의 검색 결과를 제공할 수 있다.

도 1은 본 발명의 예시적 실시예에 따른 온톨로지 데이터 생성 시스템을 나타내는 블록도이다.
도 2는 본 발명의 예시적 실시예에 따라 키워드 인스턴스를 포함하는 온톨로지 데이터를 설명하기 위한 도면이다.
도 3은 본 발명의 예시적 실시예에 따른 도 1의 데이터 수신부의 구현예를 나타내는 블록도이다.
도 4는 본 발명의 예시적 실시예에 따른 도 1의 키워드 추출부의 구현예를 나타내는 블록도이다.
도 5는 본 발명의 예시적 실시예에 따른 도 1의 온톨로지 변환부의 구현예를 나타내는 블록도이다.
도 6은 본 발명의 예시적 실시예에 따라 도 5의 가중치 인스턴스 생성 모듈의 동작을 설명하기 위한 도면이다.
도 7은 본 발명의 예시적 실시예에 따라 온톨로지 데이터를 생성하는 방법을 나타내는 순서도이다.
도 8은 본 발명의 예시적 실시예에 따라 도 7의 단계(S70)의 예시를 구체적으로 나타내는 순서도이다.

이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대해 상세히 설명한다. 본 발명의 실시 예는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되는 것이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다. 첨부된 도면에 있어서, 구조물들의 치수는 본 발명의 명확성을 기하기 위하여 실제보다 확대하거나 축소하여 도시한 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수개의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하 도면 및 설명에서, 하나의 블록으로 표시 또는 설명되는 구성요소는 하드웨어 블록 또는 소프트웨어 블록일 수 있다. 예를 들면, 구성요소들 각각은 서로 신호를 주고 받는 독립적인 하드웨어 블록일 수도 있고, 또는 하나의 프로세서에서 실행되는 소프트웨어 블록일 수도 있다.

도 1은 본 발명의 예시적 실시예에 따른 온톨로지 데이터 생성 시스템(100)을 나타내는 블록도이다.

온톨로지(ontology)는 인간이 인식할 수 있는 것들을 컴퓨터에서 다룰 수 있는 형태로 표현한 모델을 지칭할 수 있고, 온톨로지 데이터는 온톨로지에 따라 정의된 데이터를 지칭할 수 있다. 사용자가 선택할 수 있는 방대한 수의 아이템들에 관한 정보를 온톨로지 데이터로서 정의할 수 있고, 온톨로지 데이터에 엑세스하는 방법을 통해서 아이템들에 관한 정보를 이용할 수 있다.

아이템은 하나의 도메인에서 독립적인 콘텐츠를 가지는 단위를 지칭할 수 있다. 예를 들면, 서적 도메인에서 하나의 아이템은 한 권의 책이 될 수 있고, 영화 도메인에서 하나의 아이템은 한편의 영화가 될 수 있으며, 전자책 도메인에서 하나의 아이템은 한 개의 전자책(E-book)이 될 수 있다. 하나의 도메인에서 아이템의 개수는 방대할 수 있고, 본 발명의 예시적 실시예에 따른 온톨로지 데이터 생성 시스템은 하나의 도메인에서 사용자가 원하는 콘텐츠를 가지는 아이템(또는 그 아이템에 관한 정보)에 대응하는 온톨로지 데이터를 생성할 수 있다. 본 발명의 예시적 실시예에 따라 생성된 온톨로지 데이터는 키워드 인스턴스를 포함할 수 있고, 키워드의 가중치 정보를 가질 수 있다. 이하에서, 설명의 편의를 위하여 아이템은 전자책 도메인에서 독립적인 콘텐츠를 가지는 단위인 전자책인 것으로 설명되지만 본 발명의 기술적 사상이 이에 제한되지 않은 점은 이해될 것이다.

도 1에 도시된 바와 같이, 온톨로지 데이터 생성 시스템(100)은 데이터 서버(200)와 데이터를 주고 받을 수 있다. 온톨로지 시스템(100)은 데이터 서버(200)와 통신 채널(5)을 통해서 데이터를 주고 받을 수 있다. 통신 채널(5)은, 예컨대 엑스트라넷(extranet), 인트라넷(intranet) 등과 같이 인터넷 프로토콜을 사용하는 통신망일 수도 있고, 직렬 또는 병렬 인터페이스를 사용하는 일대일 채널일 수도 있다.

데이터 서버(200)는 아이템 데이터(220) 및 키워드 인스턴스 온톨로지 데이터(240)를 포함, 즉 저장할 수 있다. 아이템 데이터(220)는 복수개의 아이템들에 관한 정보를 포함할 수 있다. 예컨대, 아이템 데이터(220)는 복수개의 전자책들에 관한 정보, 예컨대 가격, 쪽수, 전자파일 형식, 제목, 저자, 출판사, 목차, 본문 등과 같은 아이템 속성 및 사용자들로부터 선택된 횟수, 특정 기간에 선택된 횟수, 선택 횟수의 증가율 등과 같은 파생 정보를 포함할 수 있다. 아이템 데이터(220)는 각각의 정보에 대응하는 필드를 가질 수 있고, 하나의 아이템에 대한 정보는 각각의 필드에서 고유한 값을 가질 수 있다.

데이터 서버(200)에 저장된 아이템 데이터(220)는 온톨로지 포맷을 가질 수도 있고(즉, 온톨로지 데이터일 수도 있고), 온톨로지 포맷과 다른 포맷을 가질 수도 있다. 예를 들면, 아이템 데이터(220)는 아이템 및 아이템과 관련된 정보를 온톨로지 포맷으로서 포함할 수도 있다. 다른 예시로서, 아이템 데이터(220)는 아이템 및 아이템과 관련된 정보를 복수개의 컬럼들과 행들을 포함하는 테이블 포맷으로서 포함할 수도 있다. 후술되는 바와 같이, 본 발명의 예시적 실시예에 따른 온톨로지 데이터 생성 시스템(100)은 데이터 서버(200)로부터 수신되는 아이템 데이터(220)의 형식에 무관하게 키워드 인스턴스를 포함하는 온톨로지 데이터를 생성할 수 있다.

데이터 서버(200)에 저장된 키워드 인스턴스 온톨로지 데이터(240)는 아이템에 관한 정보를 온톨로지 포맷으로 정의한 데이터로서, 키워드 인스턴스를 포함할 수 있다. 즉, 키워드 인스턴스 온톨로지 데이터(240)는 본 발명의 예시적 실시예에 따른 온톨로지 데이터 생성 시스템(100)이 출력하는 온톨로지 데이터를 포함할 수 있다. 아이템에 관한 정보가 키워드 인스턴스를 포함하는 온톨로지 데이터로서 정의됨으로써, 데이터 서버(200)에 엑세스하여 아이템을 검색하는 검색 엔진은 키워드 인스턴스 온톨로지 데이터(240)로부터 사용자에게 보다 적합한 아이템을 효과적으로 검색할 수 있다. 온톨로지 데이터는 도 2에서 상세하게 설명된다.

비록 도 1은 하나의 데이터 서버(200)에 아이템 데이터(220) 및 키워드 인스턴스 온톨로지 데이터(240)가 함께 저장된 예시를 도시하나, 본 발명의 기술적 사상이 이에 제한되지 않는 점은 이해될 것이다. 즉, 본 발명의 예시적 실시예에 따라, 아이템 데이터(220) 및 키워드 인스턴스 온톨로지 데이터(240)는 별개의 데이터 서버들에 각각 존재할 수 있고, 온톨로지 데이터 생성 시스템(100)은 각각의 데이터 서버를 엑세스할 수 있다.

도 1에 도시된 바와 같이, 본 발명의 예시적 실시예에 따른 온톨로지 데이터 생성 시스템(100)은 데이터 수신부(120), 키워드 추출부(140) 및 온톨로지 변환부(160)를 포함할 수 있다.

데이터 수신부(120)는 아이템 데이터(220)로부터 키워드 추출 영역을 판별할 수 있다. 본 발명의 예시적 실시예에 따라, 데이터 수신부(120)는 데이터 서버(200)에 엑세스할 수 있고, 데이터 서버(200)로부터 아이템 데이터(220)를 수신할 수 있다. 데이터 수신부(120)는 수신된 아이템 데이터(220)의 형식에 기초하여 키워드가 추출될 수 있는 키워드 추출 영역을 판별할 수 있다. 예를 들면, 데이터 수신부(120)는 아이템 데이터(220)로부터 제목, 소개글, 머리말 또는 본문을 키워드 추출 영역으로서 제공할 수도 있고, 그것들 중 2개 이상을 키워드 추출 영역으로서 제공할 수 있다. 또한, 도메인이 이미지나 동영상인 경우, 데이터 수신부(120)는 아이템, 즉 이미지나 동영상의 메타 데이터를 키워드 추출 영역으로서 제공할 수 있다.

키워드 추출부(140)는 키워드 추출 영역에서 적어도 하나의 키워드를 추출할 수 있다. 본 발명의 예시적 실시예에 따라, 키워드 추출부(140)는 키워드 추출 영역의 텍스트로부터 적어도 하나의 키워드를 추출할 수 있고, 추출된 키워드의 가중치를 계산할 수 있다. 가중치는 추출된 키워드들의 중요도를 나타내는 것으로서, 높은 가중치를 가지는 키워드가 낮은 가중치를 가지는 키워드 보다 아이템의 콘텐츠에 더 부합하는 것으로 이해될 수 있다. 본 발명의 예시적 실시예에 따른 키워드 추출부(140)는 키워드를 추출할 뿐만 아니라 키워드의 가중치를 계산함으로써, 검색엔진이 동일한 키워드를 가지는 아이템들 중에서 보다 높은 가중치에 대응하는 아이템을 우선적으로 사용자에게 제공하도록 지원할 수 있다.

온톨로지 변환부(160)는 키워드에 대응하는 키워드 인스턴스 및 아이템에 대응하는 아이템 인스턴스 사이의 관계를 설정함으로써 키워드를 온톨로지 데이터로서 변환하고, 온톨로지 데이터를 출력할 수 있다. 본 발명의 예시적 실시예에 따라, 온톨로지 변환부(160)는 데이터 서버(200)에 엑세스할 수 있고, 데이터 서버(200)로부터 키워드 인스턴스 온톨로지 데이터(240)를 수신하거나, 출력하는 온톨로지 데이터를 키워드 인스턴스 온톨로지 데이터(240)에 추가할 수 있다. 예를 들면, 온톨로지 변환부(160)는 데이터 서버(200)에 엑세스하여 키워드 추출부(140)에서 추출한 키워드에 대응하는 키워드 인스턴스가 키워드 인스턴스 온톨로지 데이터(240)에 존재하는지 판단할 수 있고, 키워드에 대응하는 키워드 인스턴스가 이전에 생성되지 않은 경우, 즉 키워드 인스턴스 온톨로지 데이터(240)에 존재하지 않는 경우 키워드에 대응하는 키워드 인스턴스를 생성할 수 있다.

온톨로지 변환부(160)는 새롭게 생성되거나 외부로부터 수신된 키워드 인스턴스와 아이템 인스턴스 사이의 관계를 설정할 수 있다. 예를 들면, 데이터 수신부(120)가 수신한 아이템 데이터(220)가 온톨로지 포맷과 다른 포맷을 가지는 경우 온톨로지 변환부(160)는 아이템에 대응하는 아이템 인스턴스를 생성할 수 있고, 키워드 인스턴스 및 아이템 인스턴스 사이의 관계를 설정할 수 있다. 이에 따라, 키워드는 키워드 인스턴스를 포함하는 온톨로지 데이터로 변환되고, 변환된 온톨로지 데이터는 데이터 서버(200)의 키워드 인스턴스 온톨로지 데이터(240)에 추가될 수 있다.

한편, 도 1에서 온톨로지 데이터 생성 시스템(100) 및 데이터 서버(200)가 분리된 예시가 도시되었으나, 이는 본 발명의 기술적 사상을 제한하지 않는다. 즉, 본 발명의 예시적 실시예에 따라 아이템 데이터(220) 및 키워드 인스턴스 온톨로지 데이터(240)는 온톨로지 데이터 생성 시스템(100)의 내부, 예컨대 아이템 데이터 저장부(미도시) 및 온톨로지 데이터 저장부(미도시)에 각각 저장될 수 있고, 온톨로지 데이터 생성 시스템(100)은 아이템 데이터 저장부 및 온톨로지 데이터 저장부에 저장된 아이템 데이터(220) 및 키워드 인스턴스 온톨로지 데이터(240)를 이용하여 온톨로지 데이터를 생성할 수 있다.

도 2는 본 발명의 예시적 실시예에 따라 키워드 인스턴스를 포함하는 온톨로지 데이터를 설명하기 위한 도면이다. 구체적으로, 도 2의 상단은 키워드 인스턴스를 제외한 온톨로지 데이터를 나타내고, 도 2의 하단은 키워드 인스턴스를 포함하는 온톨로지 데이터를 나타낸다.

본 발명의 예시적 실시예에 따라 아이템 및 아이템에 관한 정보는 온톨로지 포맷을 가질 수 있다. 도 2의 상단에 도시된 바와 같이 아이템 "전자책 A"는 하나의 인스턴스(10)로 정의될 수 있고, "전자책 A"에 관한 각각의 정보는 복수개의 인스턴스들(21~26)로서 정의될 수 있다. 예를 들면, "전자책 A"의 제목인 "멕베스"는 인스턴스(24)로 정의될 수 있고, 인스턴스(10) 및 인스턴스(24) 사이는 "제목" 관계로 설정된다.

온톨로지 검색, 즉 온톨로지 데이터에 대한 검색은 시맨틱 질의어, 예컨대 SPARQL(Simple Protocol and RDF Query Language)을 사용하여 수행될 수 있다. SPARQL은 RDF(Resource Description Framework) 포맷으로 저장된 데이터를 검색하거나 다루기 위한 RDF 질의(query) 언어의 일종이다. SPARQL은 목적에 따라 SELECT, CONSTRUCT, ASK, DESCRIBE의 총 4개 종류의 질의 형태로 구성될 수 있다. 그 중 SELECT 질의는 직접적으로 온톨로지 데이터를 표현하는 형식으로서 가장 빈번하게 사용될 수 있다. 온톨로지 검색의 조건은 WHERE절을 사용하며, 트리플(triple) 형식으로 표현될 수 있다. 텍스트, 즉 문자열에 대한 부분 검색을 하고자 하는 경우, WHERE절 안에 CONTAINS나 REGEX 함수 등을 사용하여 기존 질의에서 도출된 결과에 대한 추가적인 필터링이 부가될 수 있다.

이러한 문자열 필터링은 전자책과 같이 텍스트의 양이 많은 도메인에서 효과적이지 못할 수 있다. 예를 들면, 전자책과 같이 텍스트의 양이 많은 도메인에서 특정 텍스트가 아이템에 포함되었는지 여부보다 아이템의 콘텐츠를 대표할 수 있는 텍스트, 즉 키워드가 원하는 검색 결과를 얻기 위해서 보다 유용할 수 있다. 도 2의 상단에 도시된 바와 같이, "전자책 A"의 소개글 및 본문에서 특정 텍스트를 검색하고, 한번이라도 특정 텍스트가 소개글 또는 본문에 등장한 경우, 상기와 같은 문자열 필터링에 따라 "전자책 A"가 검색 결과로서 제공될 수 있고, "전자책 A"는 특정 텍스트와 관련성이 부족할 수 있다.

또한, 한 아이템의 콘텐츠를 대표할 수 있는 키워드는 복수개로서 존재할 수 있고, 복수개의 키워드들 각각의 중요도를 검색 결과에 반영하는 것이 유용할 수 있다. 예를 들면, 전자책과 같이 많은 양의 콘텐츠를 포함하는 아이템의 경우 콘텐츠를 대표하는 복수개의 키워드가 존재할 수 있고, 복수개의 키워드들은 아이템의 콘텐츠를 대표하는 수준에 따라 중요도가 다를 수 있다. 이에 따라, 온톨로지 검색에 사용된 특정 텍스트에 매칭되는 키워드를 포함하는 아이템들 중 높은 중요도를 가지는 키워드를 포함하는 아이템을 우선적으로 제공함으로써 양질의 검색 결과가 제공될 수 있다.

본 발명의 예시적 실시예에 따라, 도 1의 온톨로지 데이터 생성 시스템(100)은 키워드 인스턴스를 생성할 수 있고, 키워드 인스턴스를 포함하는 온톨로지 데이터를 생성할 수 있다. 예를 들면, 도 2에 도시된 바와 같이 온톨로지 데이터는 키워드 인스턴스들(31~36)을 포함할 수 있고, "전자책 A"는 기존의 인스턴들(21~26)뿐만 아니라 키워드 인스턴스들(31~36)과 "키워드" 관계를 가질 수 있다. 키워드 인스턴스들(31~36)은 "전자책 A"의 인스턴스들(24~26)으로부터 추출될 수 있다. 키워드 인스턴스들(31~36)은 "전자책 A" 인스턴스(10)와 다른 아이템의 인스턴스와 관계를 가질 수 있다. 이와 같이, 키워드가 인스턴스로 생성됨으로써 키워드를 포함하는 아이템들이 효과적으로 검색될 수 있다.

도 3은 본 발명의 예시적 실시예에 따른 도 1의 데이터 수신부(120)의 구현예(120')를 나타내는 블록도이다. 전술한 바와 같이, 데이터 수신부(120')는 아이템 데이터(220')를 수신할 수 있고, 키워드 추출 영역을 판별할 수 있다. 도 3에 도시된 바와 같이, 본 발명의 예시적 실시예에 따라 데이터 수신부(120')는 데이터 로더(122) 및 설정 로더(124)를 포함할 수 있다.

도 1을 함께 참조하면, 데이터 로더(122)는 데이터 서버(220)에 엑세스하여 아이템 데이터(220')를 수신할 수 있다. 데이터 로더(122)가 수신하는 아이템 데이터(220')는 다양한 형식(또는, 포맷)을 가질 수 있으며, 아이템에 관한 정보를 포함할 수 있다.

설정 로더(124)는 아이템 데이터의 형식에 기초하여 아이템 데이터로부터 복수개의 필드를 식별하고, 적어도 하나의 필드에 대응하는 데이터를 키워드 추출 영역으로서 제공할 수 있다. 필드는 테이블 포맷을 가지는 아이템 데이터의 경우 하나의 컬럼에 대응할 수 있고, 온톨로지 포맷을 가지는 아이템 데이터의 경우 아이템 인스턴스가 다른 인스턴스와 가지는 관계에 대응할 수 있다. 예컨대, 도 2의 상단을 함께 참조하면, 설정 로더(124)는 "전자책 A" 인스턴스(10)에 연결된 복수개의 관계들을 식별하고, 복수개의 관계들 중 중 "제목", "소개글" 및 "본문"에 대응하는 데이터인 "맥베스", "영국이 낳은 최고의..." 및 "고운 건 더럽고..."를 키워드 추출 영역으로서 제공할 수 있다.

본 발명의 예시적 실시예에 따라, 설정 로더(124)는 아이템 데이터가 온톨로지 포맷과 다른 포맷을 가지는 경우 적어도 하나의 필드를 인스턴스에 대응시키기 위한 온톨로지 변환 정보를 제공할 수 있다. 아이템에 관한 정보는 최종적으로 키워드 인스턴스를 포함하는 온톨로지 데이터로서 정의될 수 있으므로, 아이템 데이터가 온톨로지 포맷과 다른 포맷을 가지는 경우 설정 로더(124)는 아이템 데이터를 온톨로지 데이터로 변환하는데 필요한 온톨로지 변환 정보를 제공할 수 있다. 예를 들면, 테이블 포맷을 가지는 아이템 데이터에 대하여 설정 로더(124)는 테이블의 각 컬럼에 대응하는 온톨로지 상의 관계를 포함하는 온톨로지 변환 정보를 제공할 수 있다.

도 4는 본 발명의 예시적 실시예에 따른 도 1의 키워드 추출부(140)의 구현예(140')를 나타내는 블록도이다. 도 1을 참조하면, 키워드 추출부(140')는 데이터 수신부(120)로부터 키워드 추출 영역을 수신할 수 있고, 키워드 추출 영역에서 키워드를 추출할 수 있고, 키워드의 가중치를 계산할 수 있다. 도 4에 도시된 바와 같이, 키워드 추출부(140')는 형태 분석기(141), 데이터 파서(143), 정규화 모듈(145), 데이터 필터(147) 및 가중치 계산기(149)를 포함할 수 있다.

형태 분석기(141)는 키워드 추출 영역의 텍스트를 일련의 토큰(token)으로 변환할 수 있다. 토큰(token)은 텍스트를 특정 기준에 따라 분할한 단위를 지칭할 수 있다. 예를 들면, 형태 분석기(141)는 키워드 추출 영역의 텍스트를 공백을 기준으로 분할할 수도 있고, 또는 마침표 기준으로 분할할 수도 있고, 또는 미리 정의된 조사 등을 기준으로 분할할 수도 있다.

데이터 파서(143)는 일련의 토큰으로부터 적어도 하나의 단어를 추출할 수 있다. 예를 들면, 데이터 파서는 형태소 분석기를 포함할 수 있고, 형태소 분석기를 사용하여 분석된 명사 또는 동사의 어근으로부터 적어도 하나의 단어를 추출할 수 있다. 본 발명의 예시적 실시예에 따라, 데이터 파서(143)가 추출한 단어는 명사일 수 있다.

정규화 모듈(145)은 데이터 파서(143)가 추출한 적어도 하나의 단어를 정규화할 수 있다. 즉, 정규화 모듈(145)은 적어도 하나의 단어 중 유사한 의미를 가지는 단어들을 대표 단어로 통합할 수 있다. 예를 들면, 정규화 모듈(145)은 사전 데이터 또는 사용자가 미리 정의한 매핑 테이블 등을 이용하여 유사한 의미를 가지는 단어들을 대표 단어로 통합할 수 있다.

데이터 필터(147)는 정규화된 단어를 필터링함으로써 키워드를 생성할 수 있다. 예를 들면, 데이터 필터(147)는 정규화된 단어의 빈도, 즉 키워드 추출 영역에서 정규화된 단어가 등장한 횟수가 미리 정해진 기준값 이상인 경우 키워드로서 추출할 수 있다. 다른 예시로서, 데이터 필터(147)는 정규화된 단어의 TF-IDF(Term Frequency-Inverse Document Frequency)값이 미리 정해진 기준값 이상인 경우 키워드로서 추출할 수 있다. 또 다른 예시로서, 데이터 필터(147)는 미리 정해진 불용어(stopword)에 대응하는 정규화된 단어를 제거함으로써 정규화된 단어를 필터링할 수 있다.

비록 도 4는 데이터 필터(147)가 정규화 모듈(145)로부터 정규화된 단어를 수신하고 정규화된 단어를 필터링하는 예시를 도시하였으나, 본 발명의 기술적 사상은 이에 제한되지 않는다. 즉, 본 발명의 예시적 실시예에 따라 데이터 필터(147)는 정규화 모듈(145)의 전단에서 데이터 파서(143)가 추출한 적어도 하나의 단어에 대하여 필터링을 수행할 수 있고, 필터링한 단어를 정규화 모듈(145)에 제공할 수도 있다. 이에 따라, 정규화 모듈(145)은 필터링된 단어를 정규화함으로써 키워드를 생성할 수 있다.

가중치 계산기(149)는 아이템에 대한 키워드의 가중치를 계산하여 제공할 수 있다. 예를 들면, 가중치 계산기(149)는 데이터 파서(143)로부터 추출된 단어를 수신할 수 있고, 추출된 단어가 아이템 내에서 사용된 횟수를 계산함으로써, 또는 키워드의 TF-IDF값을 계산함으로써 키워드의 가중치를 계산할 수 있다. 가중치 계산기(149)가 제공하는 키워드의 가중치가 높을수록 키워드가 아이템을 대표하는 수준이 높은 것을 의미할 수 있고, 높은 가중치를 가지는 키워드가 검색되는 경우 키워드에 대응하는 아이템은 검색 결과에서 우선적으로 제공될 수 있다.

비록 도 4는 가중치 게산기(149)가 데이터 파서(143)의 출력을 수신하는 예시를 도시하였으나, 본 발명의 기술적 사상은 이에 제한되지 않는다. 즉, 본 발명의 예시적 실시예에 따라, 가중치 계산기(149)는 형태 분석기(141)로부터 일련의 토큰을 수신할 수도 있고, 또는 정규화 모듈(145)에서 단어의 정규화시 단어의 빈도를 분석하는 경우 정규화 모듈(145)로부터 단어의 빈도에 대한 데이터를 수신할 수도 있다.

도 5는 본 발명의 예시적 실시예에 따른 도 1의 온톨로지 변환부(160)의 구현예(160')를 나타내는 블록도이다. 전술한 바와 같이, 온톨로지 변환부(160')는 키워드 인스턴스 온톨로지 데이터(240')를 수신할 수 있고, 온톨로지 데이터를 출력하여 키워드 인스턴스 온톨로지 데이터(240')에 추가할 수도 있다. 도 5에 도시된 바와 같이, 온톨로지 변환부(160')는 키워드 인스턴스 생성 모듈(162), 인스턴스 관계 설정 모듈(164) 및 가중치 인스턴스 생성 모듈(166)을 포함할 수 있다.

키워드 인스턴스 생성 모듈(162)은 키워드에 기초하여 키워드 인스턴스를 선택적으로 생성할 수 있다. 도 1을 참조하면, 키워드 인스턴스 생성 모듈(162)은 키워드 추출부(140)로부터 키워드를 수신할 수 있고, 수신된 키워드에 대응하는 인스턴스를 선택적으로 생성할 수 있다. 예를 들면, 키워드 인스턴스 생성 모듈(164)은 데이터 서버(200)에 엑세스하여 키워드 추출부(140)로부터 수신한 키워드에 대응하는 키워드 인스턴스가 키워드 인스턴스 온톨로지 데이터(240')에 존재하는지 판단할 수 있고, 키워드 인스턴스가 존재하지 않는 경우, 즉 키워드에 대응하는 키워드 인스턴스가 이전에 생성되지 않은 경우, 키워드에 대응하는 키워드 인스턴스를 생성할 수 있다. 반면, 키워드에 대응하는 키워드 인스턴스가 존재하는 경우, 인스턴스 온톨로지 데이터(240')로부터 키워드 인스턴스를 수신할 수 있다.

비록 도 5에 도시되지 않았지만, 온톨로지 변환부(160')는 아이템 인스턴스 생성 모듈(미도시)을 포함할 수 있다. 즉, 도 3을 함께 참조하면, 데이터 수신부(120')(즉, 데이터 로더(122))가 수신한 아이템 데이터(220')가 온톨로지 포맷과 다른 포맷을 가지는 경우, 아이템 인스턴스 생성 모듈은 수신된 아이템 데이터(220')로부터 아이템 인스턴스를 생성할 수 있다. 이 때, 아이템 인스턴스 생성 모듈은 설정 로더(124')가 제공한 온톨로지 변환 정보를 사용할 수 있다. 아이템 인스턴스 생성 모듈이 생성한 아이템 인스턴스는 키워드 인스턴스와 함께 키워드 인스턴스 온톨로지 데이터(240')에 추가될 수 있다.

인스턴스 관계 설정 모듈(164)은 키워드 인스턴스, 아이템 인스턴스 및 다른 키워드 인스턴스 사이의 관계를 설정할 수 있다. 예를 들면, 인스턴스 관계 설정 모듈(164)은 키워드 인스턴스 생성 모듈(164)로부터 키워드 인스턴스를 수신할 수 있고, 키워드 인스턴스 온톨로지 데이터(240') 또는 아이템 인스턴스 생성부로부터 아이템 인스턴스를 수신할 수 있다. 인스턴스 관계 설정 모듈(164)은 키워드 인스턴스 및 아이템 인스턴스 사이의 관계를 "키워드"로서 설정할 수 있다. 또한, 본 발명의 예시적 실시예에 따라 인스턴스 관계 설정 모듈(164)은 키워드 인스턴스 온톨로지 데이터(240')로부터 다른 키워드 인스턴스를 수신할 수 있고, 키워드 인스턴스 생성 모듈(162)로부터 수신한 키워드 인스턴스와 다른 키워드 인스턴스 사이의 관계를 설정할 수 있다. 예컨대, 도 2를 참조하면, 인스턴스(34) 및 인스턴스(35) 사이의 관계는 "국적"으로서 설정할 수 있다. 키워드 인스턴스와 다른 인스턴스들과의 관계가 설정되면, 인스턴스 관계 설정 모듈(164)은 키워드 인스턴스 온톨로지 데이터(240')에 키워드 인스턴스를 추가할 수 있다.

가중치 인스턴스 생성 모듈(166)은 키워드의 가중치, 키워드 인스턴스 및 아이템 인스턴스에 기초하여 가중치 인스턴스를 생성할 수 있다. 즉, 도 4를 함께 참조하면, 가중치 인스턴스 생성 모듈(166)은 키워드 추출부(140')의 가중치 계산기(149)로부터 키워드의 가중치를 수신할 수 있고, 가중치를 온톨로지 데이터로서 변환하기 위하여 가중치 인스턴스를 생성할 수 있다. 가중치 인스턴스 생성 모듈(166)의 동작은 도 6에서 상세하게 설명된다.

도 6은 본 발명의 예시적 실시예에 따라 도 5의 가중치 인스턴스 생성 모듈(166)의 동작을 설명하기 위한 도면이다. 도 5를 함께 참조하면, 가중치 인스턴스 생성 모듈(166)은 키워드의 가중치, 키워드 인스턴스 및 아이템 인스턴스에 기초하여 가중치 인스턴스를 생성할 수 있다. 예컨대, 도 3을 함께 참조하면, 가중치 인스턴스 생성 모듈(166)은 "전자책 A" 인스턴스(10)와 "키워드" 관계인 "셰익스피어" 인스턴스(34)를 포함하는 가중치 인스턴스(41)를 생성할 수 있고, 값 "32.501"을 가지는 인스턴스(42)와 "가중치" 관계로 설정할 수 있다. 가중치 인스턴스 생성 모듈(166)은 생성된 가중치 인스턴스를 키워드 인스턴스 온톨로지 데이터(240')에 추가할 수 있다.

도 7은 본 발명의 예시적 실시예에 따라 온톨로지 데이터를 생성하는 방법(300)을 나타내는 순서도이다. 이하에서 온톨로지 데이터를 생성하는 방법(300)은 도 1을 참조하여 설명된다.

도 7에 도시된 바와 같이, 온톨로지 데이터를 생성하는 방법(300)은 아이템 데이터를 수신하는 단계(S10)를 포함할 수 있다. 예를 들면, 온톨로지 데이터 생성 시스템(100)의 데이터 수신부(120)는 데이터 서버(200)로부터 형식에 무관하게 아이템 데이터를 수신할 수 있다. 그 다음에, 온톨로지 데이터를 생성하는 방법(300)은 키워드 추출 영역을 판별하는 단계(S30)를 포함할 수 있다. 예를 들면, 온톨로지 데이터 생성 시스템(100)의 데이터 수신부(120)는 아이템 데이터의 형식에 기초하여 아이템 데이터로부터 복수개의 필드를 식별할 수 있고, 적어도 하나의 필드에 대응하는 데이터를 키워드 추출 영역으로서 제공할 수 있다.

도 7에 도시된 바와 같이, 온톨로지 데이터를 생성하는 방법(300)은 키워드를 추출하고 가중치를 계산하는 단계(S50)를 포함할 수 있다. 예를 들면, 온톨로지 데이터 생성 시스템(100)의 키워드 추출부(140)는 키워드 추출 영역에서 키워드를 추출할 수 있고, 키워드의 가중치를 계산할 수 있다. 그 다음에, 온톨로지 데이터를 생성하는 방법(300)은 키워드를 온톨로지 데이터로 변환하는 단계(S70) 및 온톨로지 데이터를 출력하는 단계(S90)를 포함할 수 있다. 예를 들면, 온톨로지 변환부(160)는 키워드 인스턴스를 선택적으로 생성할 수 있고, 키워드 인스턴스를 포함하는 온톨로지 데이터를 출력할 수 있다.

도 8은 본 발명의 예시적 실시예에 따라 도 7의 단계(S70)의 예시(S70')를 구체적으로 나타내는 순서도이다. 도 8에서, 단계(S70')는 도 7의 단계(S70)의 일예이며, 단계(S70')는 도 5를 참조하여 설명된다.

도 8에 도시된 바와 같이, 단계(S70')는 키워드 인스턴스가 존재하는지 판단하는 단계(S71)를 포함할 수 있다. 예를 들면, 온톨로지 변환부(160')의 키워드 인스턴스 생성 모듈(162)은 키워드 인스턴스 온톨로지 데이터(240')에 수신된 키워드에 대응하는 키워드 인스턴스가 존재하는지, 즉 수신된 키워드에 대응하는 키워드 인스턴스가 이전에 생성되었는지 판단할 수 있다. 그 다음에, 단계(S70')는, 키워드 인스턴스 온톨로지 데이터(240')에 이전에 생성된 키워드 인스턴스가 존재하지 않는 경우 키워드에 대응하는 키워드 인스턴스를 생성하는 단계(S73)를 포함할 수 있고, 키워드 인스턴스 온톨로지 데이터(240')에 이전에 생성된 키워드 인스턴스가 존재하는 경우 키워드 인스턴스 온톨로지 데이터(240')로부터 키워드에 대응하는 키워드 인스턴스를 수신하는 단계(S75)를 포함할 수 있다.

도 8에 도시된 바와 같이, 단계(S70')는 키워드 인스턴스의 관계를 설정하는 단계(S77)를 포함할 수 있다. 예를 들면, 온톨로지 변환부(160')의 인스턴스 관계 설정 모듈(164)은 키워드 인스턴스, 아이템 인스턴스 및 다른 키워드 인스턴스 사이의 관계를 설정할 수 있다. 그 다음에, 온톨로지 변환부(160')는 아이템 인스턴스를 포함하는 온톨로지 데이터를 출력할 수 있다.

도 8에 도시된 바와 같이, 단계(S70')는 가중치 인스턴스를 생성하는 단계(S79)를 포함할 수 있다. 예를 들면, 온톨로지 변환부(160')의 가중치 인스턴스 생성 모듈(166)은 수신된 가중치, 키워드 인스턴스 및 아이템 인스턴스에 기초하여 가중치 인스턴스를 생성할 수 있고, 키워드 인스턴스 온톨로지 데이터(240')에 추가할 수 있다.

이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들을 설명되었으나, 이는 단지 본 발명의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

외부로부터 아이템에 대응하는 아이템 데이터를 수신하고, 상기 아이템 데이터로부터 키워드 추출 영역을 판별하는 데이터 수신부;
상기 키워드 추출 영역에서 적어도 하나의 키워드를 추출하는 키워드 추출부; 및
상기 키워드에 대응하는 키워드 인스턴스와 상기 아이템에 대응하는 아이템 인스턴스 사이의 관계를 설정함으로써 상기 키워드를 온톨로지 데이터로서 변환하고, 상기 온톨로지 데이터를 출력하는 온톨로지 변환부를 포함하는 온톨로지 데이터 생성 시스템.
제1항에 있어서,
상기 데이터 수신부는,
데이터 서버에 엑세스하여 상기 아이템 데이터를 수신하는 데이터 로더; 및
상기 아이템 데이터의 형식에 기초하여 상기 아이템 데이터로부터 복수개의 필드를 식별하고, 적어도 하나의 필드에 대응하는 데이터를 상기 키워드 추출 영역으로서 제공하는 설정 로더를 포함하는 것을 특징으로 하는 온톨로지 데이터 생성 시스템.
제2항에 있어서,
상기 설정 로더는, 상기 아이템 데이터가 온톨로지 포맷과 다른 포맷을 가지는 경우 적어도 하나의 필드를 인스턴스에 대응시키기 위한 온톨로지 변환 정보를 제공하는 것을 특징으로 하는 온톨로지 데이터 생성 시스템.
제1항에 있어서,
상기 키워드 추출부는,
상기 키워드 추출 영역의 텍스트를 일련의 토큰(token)으로 변환하는 형태 분석기;
상기 일련의 토큰으로부터 적어도 하나의 단어를 추출하는 데이터 파서(parser);
상기 적어도 하나의 단어를 정규화하는 정규화 모듈; 및
상기 정규화된 단어를 필터링함으로써 상기 키워드를 생성하는 데이터 필터를 포함하는 것을 특징으로 하는 온톨로지 데이터 생성 시스템.
제4항에 있어서,
상기 데이터 필터는 상기 정규화된 단어의 빈도, TF-IDF(Term Frequency-Inverse Document Frequency)값 또는 불용어(stopword) 여부에 기초하여 상기 정규화된 단어를 필터링하는 것을 특징으로 하는 온톨로지 데이터 생성 시스템.
제1항에 있어서,
상기 키워드 추출부는 상기 아이템에 대한 상기 키워드의 가중치를 계산하여 제공하는 가중치 계산기를 포함하고,
상기 온톨로지 변환부는 상기 가중치, 상기 키워드 인스턴스 및 상기 아이템 인스턴스에 기초하여 가중치 인스턴스를 생성하는 것을 특징으로 하는 온톨로지 데이터 생성 시스템.
제1항에 있어서,
상기 온톨로지 변환부는,
상기 키워드에 기초하여 상기 키워드 인스턴스를 선택적으로 생성하는 키워드 인스턴스 생성 모듈; 및
상기 키워드 인스턴스, 상기 아이템 인스턴스 및 다른 키워드 인스턴스 사이의 관계를 설정하는 인스턴스 관계 설정 모듈을 포함하는 것을 특징으로 하는 온톨로지 데이터 생성 시스템.
제7항에 있어서,
상기 키워드 인스턴스 생성 모듈은 상기 키워드에 대응하는 키워드 인스턴스가 상기 아이템 데이터과 다른 아이템 데이터로부터 생성된 경우 외부로부터 상기 키워드 인스턴스를 수신하는 것을 특징으로 하는 온톨로지 데이터 생성 시스템.
제1항에 있어서,
상기 아이템은 전자책이고,
상기 키워드 추출 영역은 상기 전자책의 제목, 소개글, 머리말 또는 본문을 포함하는 것을 특징으로 하는 아이템 추천 시스템.