KR20150032141A - 스마트 기기 내 시맨틱 검색 시스템 및 검색방법 - Google Patents

스마트 기기 내 시맨틱 검색 시스템 및 검색방법 Download PDF

Info

Publication number
KR20150032141A
KR20150032141A KR20130157368A KR20130157368A KR20150032141A KR 20150032141 A KR20150032141 A KR 20150032141A KR 20130157368 A KR20130157368 A KR 20130157368A KR 20130157368 A KR20130157368 A KR 20130157368A KR 20150032141 A KR20150032141 A KR 20150032141A
Authority
KR
South Korea
Prior art keywords
semantic
context
category
search
search word
Prior art date
Application number
KR20130157368A
Other languages
English (en)
Other versions
KR101508583B1 (ko
Inventor
이상근
이정현
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to PCT/KR2014/005081 priority Critical patent/WO2015037815A1/ko
Publication of KR20150032141A publication Critical patent/KR20150032141A/ko
Application granted granted Critical
Publication of KR101508583B1 publication Critical patent/KR101508583B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 스마트 기기 내에서 적용되는 공개 디렉토리 프로젝트(Open Directory Project) 기반의 주제 분류 트리, 시맨틱(Semantic) 태그 시스템, 시맨틱 인덱스 시스템, 및 시맨틱 매치 시스템을 포함하는 시맨틱 검색 시스템에 대해 개시한다. 특히, 스마트 기기 내 시맨틱 태그 시스템이 시맨틱 태그를 생성하는 방법은, 상기 스마트 기기에서 수집된 디지털 콘텐츠에 대한 원시 문맥을 추출하는 단계; 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로, 상기 추출된 원시 문맥이 해당되는 타겟 카테고리를 결정하는 단계; 상기 결정된 타겟 카테고리를 이용하여 상기 추출된 원시 문맥과 의미적으로 연관성을 가지는 확장 문맥을 획득하는 단계; 및 상기 획득된 확장 문맥 및 상기 추출된 원시 문맥을 포함하는 상기 디지털 콘텐츠에 대한 시맨틱 태그를 생성하는 단계를 포함한다.

Description

스마트 기기 내 시맨틱 검색 시스템 및 검색방법{SEMANTIC SEARCHING SYSTEM AND METHOD FOR SMART DEVICE}
본 발명은 스마트 기기 내 시맨틱 검색 시스템 및 검색방법에 관한 것이다.
사용자는 자신이 필요로 하거나 궁금해하는 것과 관련된 정보를 얻기 위해 스마트 기기를 이용하여 웹페이지 등에서 검색을 수행한다. 검색을 수행함에 있어서, 사용자는 각자 기준을 가지고 키워드를 선정하고, 선정된 키워드는 검색 엔진에 입력된다.
최근에는 종래 단순한 키워드 검색이 아닌, 키워드 내 단어 혹은 키워드 간의 의미를 파악하는 시맨틱 검색(Semantic Search)이 가능해지고 있다. 국내에서는 네이버(Naver), 다음(Daum), 네이트(Nate) 등의 포탈 검색 사이트에서 이러한 시맨틱 검색 서비스를 제공하고 있다.
또한, 시맨틱 웹(Semantic Web)은 웹상의 정보에 잘 정의된 의미를 부여함으로써, 사람뿐만 아니라 컴퓨터도 쉽게 문서의 의미를 해석할 수 있도록 하여 컴퓨터를 이용한 정보의 검색 및 해석, 통합 등의 업무를 자동화하기 위한 목적으로 제안된 것이다.
한편, 이와 관련하여 한국공개특허 제2010-0107948호(발명의 명칭: 시맨틱 정보를 활용한 직답형 검색 시스템 및 검색 방법)는 시맨틱 정보를 활용하여 명령어와 키워드를 입력하면 화면 전환없이 바로 검색결과를 보여주는 기술에 대해 개시하고 있다.
다만, 기존의 시맨틱 검색은 스마트 기기를 통해 포탈 검색 사이트에 접속하여 이루어지는 방식이었고, 각각의 사용자의 스마트 기기 내부에 수집된 각종 디지털 콘텐츠를 검색하기 위한 것은 아니었다.
또한, 최근 별도의 저장소인 클라우드에 저장된 디지털 콘텐츠를 검색하는 서비스가 제공되고 있지만, 스마트 기기가 클라우드에 연결될 수 있어야 한다는 점과, 스마트 기기 내부에 저장되어 있는 디지털 콘텐츠를 검색할 수는 없다는 점에서 새로운 검색 기술에 대한 연구가 필요한 실정이었다.
본 발명의 일부 실시예는 외부 통신망과의 접속 없이 스마트 기기 자체에서 스마트 기기 내부에 저장된 디지털 콘텐츠에 대한 시맨틱 검색이 가능한 시스템을 제공하는 데에 그 목적이 있다.
또한, 본 발명의 일부 실시예는 공개 디렉토리 프로젝트 기반의 주제 분류 트리를 활용하여 원시 문맥으로부터 의미적으로 연관된 확장 문맥을 얻을 수 있고, 그에 따라 시맨틱 태그를 생성할 수 있는 방법을 제공하는 데에 다른 목적이 있다.
또한, 본 발명의 일부 실시예는 입력된 키워드에 대한 시맨틱 검색이 빠르게 이루어질 수 있도록 지원하는 역 색인 구조를 저장하는 시맨틱 인덱스 시스템을 제공하는 데에 또 다른 목적이 있다.
또한, 본 발명의 일부 실시예는 공개 디렉토리 프로젝트 기반의 주제 분류 트리를 기초로 생성된 시맨틱 태그를 이용하여 키워드 검색에 대한 결과를 제공하는 방법을 제공하는 데에 또 다른 목적이 있다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예에 따른 스마트 기기 내 시맨틱(Semantic) 태그 시스템이 시맨틱 태그를 생성하는 방법은, 상기 스마트 기기에서 수집된 디지털 콘텐츠에 대한 원시 문맥을 추출하는 단계; 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로, 상기 추출된 원시 문맥이 해당되는 타겟 카테고리를 결정하는 단계; 상기 결정된 타겟 카테고리를 이용하여 상기 추출된 원시 문맥과 의미적으로 연관성을 가지는 확장 문맥을 획득하는 단계; 및 상기 획득된 확장 문맥 및 상기 추출된 원시 문맥을 포함하는 상기 디지털 콘텐츠에 대한 시맨틱 태그를 생성하는 단계를 포함한다.
또한, 본 발명의 일 실시예에 따른 적어도 하나 이상의 검색단어를 포함하는 키워드에 의한 키워드 검색을 지원하는 스마트 기기 내 시맨틱(Semantic) 인덱스 시스템은, 상기 스마트 기기에서 수집된 디지털 콘텐츠의 식별 값, 물리적 위치, 및 텍스트를 상기 수집된 디지털 콘텐츠마다 저장하는 제 1 테이블; 상기 검색단어가 포함된 텍스트를 가지는 디지털 콘텐츠, 상기 수집된 디지털 콘텐츠마다 미리 생성된 시맨틱 태그에 포함된 원시 문맥 중 상기 검색단어가 포함된 원시 문맥을 가지는 디지털 콘텐츠, 및 상기 시맨틱 태그에 포함된 확장 문맥 중 상기 검색단어가 포함된 확장 문맥을 가지는 디지털 콘텐츠를 검색 가능한 제 1 역 색인(Inverted Index) 구조를 저장하는 제 2 테이블; 및 상기 검색단어가 해당되는 카테고리가 포함된 확장 문맥을 가지는 디지털 콘텐츠를 검색 가능한 제 2 역 색인(Inverted Index) 구조를 저장하는 제 3 테이블을 포함하고, 상기 시맨틱 태그에 포함된 원시 문맥은 상기 수집된 디지털 콘텐츠로부터 추출된 것이고, 상기 시맨틱 태그에 포함된 확장 문맥은 상기 시맨틱 태그에 포함된 원시 문맥과 의미적으로 연관성을 가지면서 상기 시맨틱 태그에 포함된 원시 문맥이 해당되는 카테고리를 이용하여 획득된 것이며, 상기 시맨틱 태그에 포함된 원시 문맥 및 상기 검색단어가 각각 해당되는 카테고리는 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것이다.
또한, 본 발명의 일 실시예에 따른 스마트 기기 내 시맨틱(Semantic) 매치 시스템이 적어도 하나 이상의 검색단어를 포함하는 키워드에 의한 키워드 검색에 대한 결과를 제공하는 방법은, 상기 검색단어가 상기 스마트 기기에서 수집된 디지털 콘텐츠의 텍스트와 일치하는 정도를 나타내는 유사도를 계산하는 단계; 상기 검색단어가 해당되는 카테고리가 상기 수집된 디지털 콘텐츠마다 미리 생성된 시맨틱 태그에 포함된 확장 문맥과 일치하는 정도를 나타내는 시맨틱 유사도를 계산하는 단계; 상기 유사도 및 시맨틱 유사도에 기초하여 상기 키워드에 대한 상기 수집된 디지털 콘텐츠의 연관 정도를 산출하는 단계; 및 상기 산출된 연관 정도에 따라 상기 수집된 디지털 콘텐츠의 순위를 결정하고, 최고 순위에 해당되는 디지털 콘텐츠부터 소정의 순위에 해당되는 디지털 콘텐츠까지 상기 키워드 검색에 대한 결과로서 제공하는 단계를 포함하고, 상기 확장 문맥은 상기 시맨틱 태그에 포함되고 상기 수집된 디지털 콘텐츠로부터 추출된 원시 문맥과 의미적으로 연관성을 가지면서 상기 원시 문맥이 해당되는 카테고리를 이용하여 획득된 것이고, 상기 원시 문맥 및 상기 검색단어가 각각 해당되는 카테고리는 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것이다.
전술한 본 발명의 과제 해결 수단 중 일부인 스마트 기기 내 시맨틱 태그 시스템 및 시맨틱 태그 생성방법은 공개 디렉토리 프로젝트 기반 주제 분류 트리를 활용함으로써, 스마트 기기로부터 수집된 디지털 콘텐츠를 효율적으로 분류할 수 있고, 각각의 디지털 콘텐츠의 원시 문맥과 의미적으로 연관성을 가지는 확장 문맥까지 고려한 시맨틱 태그를 생성함으로써, 스마트 기기 내부의 디지털 콘텐츠에 대해서도 사용자 중심의 키워드 검색을 지원할 수 있다.
또한, 본 발명에서 제안하는 스마트 기기 내 시맨틱 인덱스 시스템은 복수의 역 색인 구조를 저장하는 테이블을 포함함으로써, 단순 키워드 검색이 아닌 스마트 기기 자체에서의 의미 확장형 시맨틱 검색을 지원할 수 있다.
또한, 본 발명의 과제 해결 수단 중 일부인 스마트 기기 내 시맨틱 매치 시스템 및 키워드 검색에 대한 검색 결과 제공방법은 주제 분류 트리, 시맨틱 태그 및 각종 테이블을 활용함으로써, 키워드 검색시 입력된 키워드와 의미적으로 연관성을 가지는 스마트 기기 내부의 디지털 콘텐츠를 정확하고 빠르게 검색하여 제공해줄 수 있다.
도 1은 본 발명의 일 실시예에 따른 스마트 기기 내 시맨틱 검색 시스템의 각 구성을 설명하기 위한 도면,
도 2a는 도 1에 도시된 공개 디렉토리 프로젝트 기반의 주제 분류 트리의 일 예를 개략적으로 나타낸 도면,
도 2b 및 도 2c는 카테고리의 일 예를 설명하기 위한 도면,
도 3은 도 1에 도시된 시맨틱 태그 시스템을 보다 상세하게 설명하기 위한 도면,
도 4는 본 발명의 일 실시예에 따른 시맨틱 태그 생성방법의 각 단계를 설명하기 위한 순서도,
도 5는 도 1에 도시된 시맨틱 인덱스 시스템을 보다 상세하게 설명하기 위한 도면,
도 6은 본 발명의 일 실시예에 따른 시맨틱 태그 시스템 및 시맨틱 인덱스 시스템의 동작을 보다 상세하게 설명하기 위한 흐름도,
도 7은 도 1에 도시된 시맨틱 매치 시스템을 보다 상세하게 설명하기 위한 도면,
도 8은 본 발명의 일 실시예에 따른 키워드 검색에 대한 결과 제공방법의 각 단계를 설명하기 위한 순서도,
도 9는 본 발명의 일 실시예에 따른 시맨틱 매치 시스템의 동작을 보다 상세하게 설명하기 위한 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 본 발명의 구체적인 실시예를 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다. 다만, 본 발명의 사상은 제시되는 일 실시예에 제한되지 아니하며, 본 발명의 사상을 이해하는 동일한 사상의 범위 내에서 구성요소의 부가, 변경, 삭제, 추가 등에 의해서 다른 실시예를 쉽게 발명할 수 있을 것이나, 이 또한 본 발명의 사항의 범위 내에 포함된다고 할 것이다.
<스마트 기기 내 시맨틱 검색 시스템>
도 1은 본 발명의 일 실시예에 따른 스마트 기기 내 시맨틱 검색 시스템의 각 구성을 설명하기 위한 도면이다.
스마트 기기 내 시맨틱 검색(Semantic Search) 시스템(100)은 사용자 질의에 대하여 의미 정보에 기초한 높은 정확도의 검색 결과(스마트 기기 내부의 디지털 콘텐츠 중 사용자 질의에 대응되는 디지털 콘텐츠)를 제공하기 위한 것으로서, 주제 분류 트리(110), 시맨틱 태그 시스템(120), 시맨틱 인덱스 시스템(130), 및 시맨틱 매치 시스템(140)을 포함한다.
이하에서 설명될 시맨틱 검색 시스템(100)은 다양한 종류의 스마트 기기 내부에 저장된 디지털 콘텐츠에 대한 검색을 위한 것이고, 네트워크 통신이 이루어지지 않더라도 스마트 기기 자체에서 수행되는 시맨틱 검색을 통해 검색의 정확도를 향상시키기 위한 것이다.
여기서, 스마트 기기는 컴퓨터나 휴대용 단말기로 구현될 수 있다. 이때, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop), 태블릿 PC, 슬레이트 PC 등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), WiBro(Wireless Broadband Internet) 단말, 스마트 폰(Smart Phone) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
주제 분류 트리(110)는 공개 디렉토리 프로젝트(Open Directory Project; ODP)의 데이터를 가공하여 생성되고, 복수의 카테고리를 포함한다. 이때, 각각의 상위 카테고리는 주제 별로 분류된 트리 구조의 하위 카테고리를 포함한다. (http://www.dmoz.org/ 참조)
공개 디렉토리 프로젝트란 인간의 손에 의해 편집되는 가장 포괄적인 웹 디렉토리에 관한 것으로서, 세계규모의 거대한 자원 커뮤니티에 의해 구축 및 관리되고 있다.
공개 디렉토리 프로젝트에서 공개하는 데이터는 웹 사이트를 분류하기 위한 복수의 카테고리, 각각의 상위 카테고리 내 트리 구조를 이루며 포함된 하위 카테고리의 구조, 및 각 카테고리마다 사람에 의해 분류된 웹 사이트들의 리스트를 포함한다.
즉, 본 발명에서는 수집된 디지털 콘텐츠의 의미를 나타내기 유용한 카테고리에 대한 데이터를 공개 디렉토리 프로젝트로부터 추출하여 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 생성한다.
도 2a는 도 1에 도시된 공개 디렉토리 프로젝트 기반의 주제 분류 트리의 일 예를 개략적으로 나타낸 도면이고, 도 2b 및 도 2c는 카테고리의 일 예를 설명하기 위한 도면이다.
예를 들어, 도 2a의 경우 "Recreation"은 공개 디렉토리 프로젝트 기반으로 생성된 복수의 상위 카테고리 중 하나일 수 있고, 그 하위에 주제 별로 분류된 복수의 하위 카테고리를 포함할 수 있다. "Theme Parks"는 제 1 상위 카테고리인 "Recreation"의 하위 카테고리 중 하나인 제 1 하위 카테고리일 수 있다.
또한, "Theme Parks"는 제 1 하위 카테고리임과 동시에 제 2 상위 카테고리일 수 있는데, 이는 전체적으로 트리 구조이기 때문이다. "Disney"는 제 2 상위 카테고리인 "Recreation"의 하위 카테고리 중 하나인 제 2 하위 카테고리일 수 있다.
도 2b의 경우 "Arts", "Games", "Kids and Teens" 등과 같이 공개 디렉토리 프로젝트 기반으로 생성된 복수의 카테고리가 표시되어 있다. 각각의 카테고리는 그 하위에 주제 별로 분류된 트리 구조의 카테고리를 포함한다. 일 예로, 상위 카테고리인 "Arts"는 "Movies", "Television", "Music" 등과 같은 하위 카테고리를 포함하고, 다른 상위 카테고리인 "Movies", "Actors and Actresses", "Directors", "Filmmaking" 등과 같은 하위 카테고리를 포함한다. 전체적으로, 생각해낼 수 있는 모든 주제가 트리 구조로 분류될 수 있다.
도 2c의 경우 상위 카테고리인 "Science"는 "Astronomy", "Biology", "Social Sciences" 등과 같은 하위 카테고리를 포함하고, 이들 하위 카테고리도 각각 다음 단계(레벨)의 상위 카테고리로서 트리 구조의 하위 카테고리를 포함할 수 있다.
또한, 주제 분류 트리(110) 내 분류기(미도시)는 공개 디렉토리 프로젝트의 데이터를 기초로 학습되고, 후술할 것처럼 스마트 기기로부터 수집된 디지털 콘텐츠를 주제 별로 자동 분류할 수 있다. 이때, 분류기는 각 카테고리마다 분류되어 있는 웹 사이트들의 리스트에 의해 반복적으로 학습될 수 있다.
일 예로, 공개 디렉토리 프로젝트와 분류기를 스마트 기기에 내장하기 위한 디렉토리 추출 과정과 분류기 학습 과정은 본 특허의 발명자의 등록특허 제10-1095069호(발명의 명칭: 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법)에 개시된 내용을 활용할 수 있다.
이와 같이 본 발명에서 제안하는 스마트 기기 내 시맨틱 검색 시스템(100)은 상술한 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 포함하고, 시맨틱 태그 시스템(120), 시맨틱 인덱스 시스템(130), 및 시맨틱 매치 시스템(140)은 주제 분류 트리(110) 내 데이터를 활용한다.
이하에서는 이들 각각의 시스템에 대해 상세히 설명하고자 한다.
< 시맨틱 태그 시스템>
도 3은 도 1에 도시된 시맨틱 태그 시스템을 보다 상세하게 설명하기 위한 도면이다.
스마트 기기 내 시맨틱 태그(S-Tag) 시스템(120)은 주제 분류 트리(110)와 함께 키워드 검색시 사용되는 태그를 각종 디지털 콘텐츠에 대해 붙이는 역할을 수행하는 시스템으로서, 디지털 콘텐츠 수집기(122), 원시 문맥 추출기(124), 및 확장 문맥 생성기(126)를 포함할 수 있다.
디지털 콘텐츠 수집기(122)는 적어도 하나 이상의 루트를 통해 해당 스마트 기기에서 발생되는 다양한 타입의 디지털 콘텐츠를 자동으로 수집한다.
예를 들어, 디지털 콘텐츠는 촬영된 사진, 즐겨찾기에 저장된 웹사이트 목록, 전송된 문자, 자주 재생된 음악 및 비디오, 자주 실행된 어플리케이션 등과 같이 스마트 기기의 사용자에 의해 생성되거나 자주 사용되는 것일 수 있다.
이러한 디지털 콘텐츠를 수집하기 위해서, 디지털 콘텐츠 수집기(122)는 백그라운드 서비스를 통해 미리 정해진 이벤트를 등록해두고, 해당 이벤트가 발생되었을 때마다 디지털 콘텐츠에 대한 수집 및 저장 동작을 수행할 수 있다.
수집된 디지털 콘텐츠의 정보는 디지털 콘텐츠의 종류에 따라 달라지며, 기본적으로 디지털 콘텐츠에 대한 "ID", "물리적 위치", "텍스트(제목, 설명 등)"를 포함할 수 있다. 예를 들어, 사용자가 스마트 기기를 이용하여 사진 촬영을 하고 "여행"이라는 제목으로 사진 파일을 "Photo" 폴더에 저장한 경우, 디지털 콘텐츠 수집기(122)는 ["ID": "1", "물리적 위치": "Photo", "텍스트": "여행"]와 같은 디지털 콘텐츠의 정보를 자동으로 수집할 수 있다.
원시 문맥 추출기(124)는 스마트 기기로부터 수집된 디지털 콘텐츠의 원시 문맥을 추출한다.
구체적으로, 원시 문맥 추출기(124)는 디지털 콘텐츠 수집기(122)에 수집된 디지털 콘텐츠의 원시 문맥을 추출하는 역할을 수행하고, 디지털 콘텐츠 수집기(122)가 디지털 콘텐츠를 수집할 때마다 실행될 수 있다.
스마트 기기는 적어도 하나 이상의 센서를 포함할 수 있고, 각각의 센서는 디지털 콘텐츠 수집기(122)와 동기화되어 다양한 센싱 정보 위치 정보, 시간 정보, 날씨 정보 등)를 생성할 수 있다.
즉, 디지털 콘텐츠의 원시 문맥은 해당 디지털 콘텐츠가 생성된 타이밍마다 추출될 수 있고, GPS 또는 네트워크를 통해 획득된 "현재 위치 정보", 해당 타이밍과 관련된 "생성 시간", 위치 및 시간에 따른 "계절 정보", 위치 및 시간에 따른 "날씨 정보"를 포함할 수 있다. 예를 들어, 상술한 사진 촬영을 통해 수집된 사진 파일에 대한 원시 문맥은 ["위치": "Disneyland", "시간": "2013-08-05", "계절": "여름", "날씨": "맑음"]일 수 있다.
또한, 확장 문맥 생성기(126)는 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 이용하여 원시 문맥과 의미적으로 연관성을 가지는 문맥을 반복적으로 확장하고, 일련의 과정을 거쳐 시맨틱 태그(S-Tag)를 생성한다.
디지털 콘텐츠의 원시 문맥과 의미적으로 연관성을 가지는 확장 문맥은 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)에 의해 획득될 수 있고, 확장 과정에서 상위 카테고리 내 주제 별로 분류된 트리 구조의 하위 디렉토리가 사용될 수 있다.
예를 들어, 상술한 사진 촬영에서 "Disneyland"라는 위치 관련 원시 문맥에 대한 주제 분류 트리(110) 내 트리 구조의 카테고리가 "Recreation/Theme Parks/Disney/Disneyland Resort"라면, 해당 원시 문맥과 의미적으로 연관성을 가지는 확장 문맥은 다음과 같이 4개일 수 있다.
"Recreation", "Recreation/Theme Parks", "Recreation/Theme Parks/Disney", "Recreation/Theme Parks/Disney/Disneyland Resort"
따라서, "Disneyland"라는 위치 관련 원시 문맥을 포함하고 사진 촬영과 관련된 소정의 디지털 콘텐츠에 대한 시맨틱 태그(S-Tag)는 확장 문맥 생성기(126)에 의해 {"Disneyland", {"Recreation", "Recreation/Theme Parks", "Recreation/Theme Parks/Disney", "Recreation/Theme Parks/Disney/Disneyland Resort"}}와 같이 생성될 수 있다.
이처럼 위치 관련 원시 문맥인 "Disneyland"로부터 "Recreation", "Theme parks" 등과 같은 의미적으로 연관된 확장 문맥이 획득될 수 있다.
확장 문맥을 획득하는 보다 구체적인 과정과 관련해서는 후술하기로 한다.
한편, 상술한 시맨틱 태그 시스템(120)이 시맨틱 태그를 생성하는 방법에 대해 도 4를 참고하여 설명하기로 한다. 참고로, 설명의 편의를 위해 도 3에 도시된 각 구성의 식별번호를 인용한다.
도 4는 본 발명의 일 실시예에 따른 시맨틱 태그 생성방법의 각 단계를 설명하기 위한 순서도이다.
스마트 기기 내 시맨틱 태그 시스템(120)은 해당 스마트 기기에서 수집된 디지털 콘텐츠에 대한 원시 문맥을 추출한다(S210).
특히, 추출하는 단계(S210)는 해당 스마트 기기의 적어도 하나 이상의 센서로부터 센싱된 센싱 정보 중 수집된 디지털 콘텐츠와 관련된 타겟 센싱 정보를 기초로 이루어질 수 있다.
구체적으로, 시맨틱 태그 시스템(120)은 해당 스마트 기기에서 수집된 디지털 콘텐츠의 종류를 식별할 수 있다. 예를 들어, 소정의 타이밍에 수집된 사진 파일이 사진 촬영에 의해 생성된 것인지, 사진 편집에 의해 생성된 것인지 등을 식별할 수 있다.
또한, 시맨틱 태그 시스템(120)은 벡터 스페이스 모델(VSM)을 이용하여 추출된 원시 문맥의 텍스트(s)를 단어 벡터(
Figure pat00001
)로 변환할 수 있다. 이 과정에서 단어빈도수-역문서빈도수(Term Frequency-Inverse Document Frequency; FTF-IDF) 방식을 통해 아래의 수학식 1처럼 단어 벡터(
Figure pat00002
)의 각 단어(t)에 대한 가중치(wt)가 부여될 수 있다.
Figure pat00003
여기서, tft는 원시 문맥의 텍스트(s) 내에서 단어 t가 발생한 빈도수를 의미하고, N은 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110) 내 분류기가 학습될 때 사용된 전체 학습 문서 수를 의미하며, dft는 전체 학습 문서 내에서 단어 t가 발생한 문서 빈도수를 의미한다.
계속해서, 시맨틱 태그 시스템(120)은 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로, 단계 S210에서 추출된 원시 문맥이 해당되는 타겟 카테고리를 결정한다(S220).
구체적으로, 시맨틱 태그 시스템(120)은 공개 디렉토리 프로젝트의 데이터를 기초로 학습된 분류기가 단계 S210에서 식별된 디지털 콘텐츠의 종류, 및 변환된 단어 벡터(
Figure pat00004
)와 카테고리 간 연관 정도를 계산한 결과를 기초로 타겟 카테고리를 결정할 수 있다.
보다 구체적으로, 주제 분류 트리(110) 내 분류기는 아래 수학식 2를 이용하여 복수의 카테고리 중 단어 벡터(
Figure pat00005
)와 가장 연관성이 높은 타겟 카테고리를 결정할 수 있다.
Figure pat00006
여기서,
Figure pat00007
는 단어 벡터,
Figure pat00008
는 소정의 카테고리 ci의 학습 데이터로부터 학습된 중심 벡터를 의미하고, V는 전체 학습 데이터에서 사용된 전체 단어의 집합을 의미하며, st는 단어 벡터(
Figure pat00009
)의 단어 t에 대한 가중치, ci ,t는 중심 벡터(
Figure pat00010
)의 단어 t에 대한 가중치를 의미한다.
참고로, 중심 벡터는 카테고리 ci의 학습 데이터를 대표하는 단어 벡터로서, 공개 디렉토리 프로젝트 내에 존재하는 카테고리 ci에 분류된 웹 페이지들이 카테고리 ci의 학습 데이터로 사용되는 경우 다음과 같은 수학식 3에 의해 계산될 수 있다.
Figure pat00011
여기서, Pi는 공개 디렉토리 프로젝트 내에 존재하는 카테고리 ci에 분류된 웹 페이지들의 집합이고,
Figure pat00012
는 집합 Pi 내의 웹 페이지 p의 단어 벡터를 의미한다.
다음으로, 시맨틱 태그 시스템(120)은 단계 S220에서 결정된 카테고리의 디렉토리를 이용하여 추출된 원시 문맥과 의미적으로 연관성을 가지는 확장 문맥을 획득한다(S230).
앞서 설명한 것처럼, 확장 문맥은 단계 S220에서 결정된 타겟 카테고리(트리 구조의 상위 카테고리, 하위 카테고리 포함)에 의해 획득될 수 있다.
이어서, 시맨틱 태그 시스템(120)은 단계 S230에서 획득된 확장 문맥 및 추출된 원시 문맥을 포함하는 디지털 콘텐츠에 대한 시맨틱 태그를 생성한다(S240). 이때, 시맨틱 태그는 디지털 콘텐츠의 기본 정보, 쌍을 이루는 원시 문맥과 확장 문맥을 포함할 수 있다.
이와 같이 시맨틱 태그(S-Tag) 시스템(120)은 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 이용하여 스마트 기기에서 수집된 디지털 콘텐츠에 대한 시맨틱 태그를 생성할 수 있다.
< 시맨틱 인덱스 시스템>
도 5는 도 1에 도시된 시맨틱 인덱스 시스템을 보다 상세하게 설명하기 위한 도면이다.
스마트 기기 내 시맨틱 인덱스(S-Index) 시스템(130)은 적어도 하나 이상의 검색단어를 포함하는 키워드에 의한 키워드 검색을 지원하고, 키워드 검색의 효율 및 속도 향상을 위하여 시맨틱 태그가 붙은 디지털 콘텐츠에 대한 인덱싱(색인) 작업을 수행하는 시스템으로서, 시맨틱 인덱스 생성기(132) 및 시맨틱 인덱스 테이블(134)을 포함할 수 있다.
시맨틱 인덱스 생성기(132)는 시맨틱 태그 시스템(120)에서 수집된 디지털 콘텐츠의 기본 정보를 후술할 시맨틱 인덱스 테이블(134)의 제 1 테이블에 저장할 수 있다.
또한, 시맨틱 인덱스 생성기(132)는 원시 문맥 및 확장 문맥을 포함하는 시맨틱 태그(S-Tag) 내 텍스트 내 검색단어를 포함하는 디지털 콘텐츠, 및 디지털 콘텐츠의 텍스트 내 검색단어를 포함하는 디지털 콘텐츠를 검색 가능한 역 색인 구조를 후술할 시맨틱 인덱스 테이블(134)의 제 2 테이블에 저장할 수 있다.
또한, 시맨틱 인덱스 생성기(132)는 검색단어가 해당되는 카테고리가 포함된 확장 문맥을 가지는 디지털 콘텐츠를 검색 가능한 역 색인 구조를 후술할 시맨틱 인덱스 테이블(134)의 제 3 테이블에 저장할 수 있다.
나아가, 시맨틱 인덱스 테이블(134)은 다음과 같은 3가지 테이블로 구성된다.
제 1 테이블인 디지털 콘텐츠 정보 테이블은 스마트 기기에서 수집된 복수의 디지털 콘텐츠의 기본 정보(식별 값, 물리적 위치, 및 텍스트 등)를 수집된 디지털 콘텐츠마다 저장하는 테이블이다. 일 예에 따른 테이블의 구조는 ["디지털 콘텐츠의 식별 값(ID)", "물리적 위치", 및 "텍스트"]와 같고, 디지털 콘텐츠 정보 테이블은 "디지털 콘텐츠 식별 값"을 키워드 검색시 키(Key) 값으로 사용할 수 있다.
제 2 테이블인 키워드 역 색인 테이블은, 검색단어가 포함된 텍스트를 가지는 디지털 콘텐츠, 스마트 기기에서 수집된 디지털 콘텐츠마다 미리 생성된 시맨틱 태그에 포함된 원시 문맥 중 검색단어가 포함된 원시 문맥을 가지는 디지털 콘텐츠, 및 시맨틱 태그에 포함된 확장 문맥 중 검색단어가 포함된 확장 문맥을 가지는 디지털 콘텐츠를 검색 가능한 제 1 역 색인(Inverted Index) 구조를 저장하는 테이블이다.
여기서, 시맨틱 태그에 포함된 원시 문맥은 스마트 기기에서 수집된 디지털 콘텐츠로부터 추출된 것이고, 시맨틱 태그에 포함된 확장 문맥은 시맨틱 태그에 포함된 원시 문맥과 의미적으로 연관성을 가지면서 시맨틱 태그에 포함된 원시 문맥이 해당되는 카테고리를 이용하여 획득된 것이다.
또한, 시맨틱 태그에 포함된 원시 문맥이 해당되는 카테고리는 상술한 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것이다. 즉, 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트의 데이터 혹은 주제 분류 트리(110)가 이용될 수 있다.
일 예에 따른 테이블의 구조는 ["단어", "빈도수", "단어 위치 구분", "디지털 콘텐츠의 식별 값"]과 같고, 키워드 역 색인 테이블은 "단어"를 키워드 검색시 키 값으로 사용할 수 있다.
이때, "단어 위치 구분"은 검색단어가 디지털 콘텐츠의 텍스트, 상술한 시맨틱 태그 시스템(120)에서 생성된 시맨틱 태그에 포함된 원시 문맥, 및 시맨틱 태그에 포함된 확장 문맥 중 어디에 포함되는가를 구분하기 위한 정보이다.
참고로, 키워드 역 색인 테이블은 후술할 시맨틱 매치 시스템(140)의 빠른 키워드 매칭 검색을 위하여 사용될 수 있다.
제 3 테이블인 카테고리 역 색인 테이블은, 검색단어가 해당되는 카테고리가 포함된 확장 문맥을 가지는 디지털 콘텐츠를 검색 가능한 제 2 역 색인(Inverted Index) 구조를 저장하는 테이블이다.
여기서, 검색단어가 해당되는 카테고리는 상술한 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것이다. 즉, 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트의 데이터 혹은 주제 분류 트리(110)가 이용될 수 있다.
일 예에 따른 테이블의 구조는 ["카테고리의 식별 값", "디지털 콘텐츠의 식별 값"]과 같고, 카테고리 역 색인 테이블은 "카테고리의 식별 값"을 키워드 검색시 키 값으로 사용할 수 있다.
참고로, 카테고리 역 색인 테이블은 후술할 시맨틱 매치 시스템(140)의 빠른 시맨틱 매칭 검색을 위하여 사용될 수 있다.
이와 같이 시맨틱 인덱스(S-Index) 시스템(130)은 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 이용하여 스마트 기기에서 수집된 디지털 콘텐츠에 대한 시맨틱 인덱싱 작업을 수행할 수 있다.
한편, 지금까지 설명한 시맨틱 태그 시스템(120) 및 시맨틱 인덱스 시스템(130)과 관련된 데이터/신호의 순서는 도 6에 도시된 일 예처럼 진행될 수 있다. 도 6은 본 발명의 일 실시예에 따른 시맨틱 태그 시스템 및 시맨틱 인덱스 시스템의 동작을 보다 상세하게 설명하기 위한 흐름도이다.
스마트 기기의 사용자에 의해 사진을 찍는 이벤트가 발생한 경우(S21), 시맨틱 태그 시스템(120) 내 디지털 콘텐츠 수집기(122)는 디지털 콘텐츠의 기본 정보를 수집한다(S22). 원시 문맥 추출기(124)에서 디지털 콘텐츠로부터 원시 문맥이 추출되고(S23), 확장 문맥 생성기(126)는 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 이용하여 확장 문맥을 생성한다(S24).
인덱스 수행을 위한 신호가 전달되면(S25), 시맨틱 인덱스 시스템(130) 내 시맨틱 인덱스 생성기(132)가 동작하고, 생성된 결과물이 시맨틱 인덱스 테이블(134)에 저장된다. 시맨틱 인덱스 생성기(132)는 디지털 콘텐츠의 기본 정보(식별 값, 물리적 위치, 및 텍스트 등)를 디지털 콘텐츠 정보 테이블에 저장하고(S26), 제 1 역 색인 구조를 키워드 역 색인 테이블에 저장하며(S27), 제 2 역 색인 구조를 카테고리 역 색인 테이블에 저장한다(S28).
이와 같은 일련의 과정은 키워드 검색이 이루어지기 전에 완료되는 것이 바람직하나, 학습 데이터 및 주제 분류 트리(110) 내 분류기 등은 키워드 검색이 이루어지는 도중에도 검색의 정확도 향상을 위해 지속적으로 업데이트될 수 있다.
< 시맨틱 매치 시스템>
도 7은 도 1에 도시된 시맨틱 매치 시스템을 보다 상세하게 설명하기 위한 도면이다.
스마트 기기 내 시맨틱 매치(S-Match) 시스템(140)은 주제 분류 트리(110) 및 시맨틱 인덱스 테이블(134)과 함께, 사용자가 입력한 검색 키워드와 의미적으로 연관되고 시맨틱 태그가 붙은 디지털 콘텐츠를 검색하는 시스템으로서, 검색 키워드 분석기(142), 시맨틱 랭커(144), 및 검색 결과 생성기(146)를 포함할 수 있다.
검색 키워드 분석기(142)는 입력된 키워드 검색을 분석하고, 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 이용하여 검색 키워드의 의미를 확장한다.
구체적으로, 검색 키워드 분석기(142)는 상술한 주제 분류 트리(110) 내 복수의 카테고리 중 입력된 키워드가 해당되는 카테고리를 결정할 수 있다. 보다 구체적으로, 입력된 키워드 내 단어는 상기 수학식 1을 통해 단어 벡터로 변환될 수 있고, 수학식 2를 이용한 분류기를 통해 복수의 카테고리 중 변환된 단어 벡터와 가장 연관성이 높은 타겟 카테고리가 결정될 수 있다.
시맨틱 랭커(144)는 시맨틱 인덱스 테이블(134) 내 각각의 디지털 콘텐츠와 검색 키워드 간의 의미적 연관 정도를 산출하여 디지털 콘텐츠의 순위(랭킹)를 결정한다. 이때, 시맨틱 랭커(144)는 시맨틱 인덱스 시스템(130)에 포함된 시맨틱 인덱스 테이블(134)의 제 1 역 색인 구조 및 제 2 역 색인 구조를 활용할 수 있다.
의미적 연관 정도를 산출하는 보다 구체적인 과정과 관련해서는 후술하기로 한다.
검색 결과 생성기(146)는 순위 결과에 따라, 키워드 검색시 입력된 키워드와 매칭되는 디지털 콘텐츠 뿐만 아니라 의미적으로 연관되는 디지털 콘텐츠도 검색 결과로서 제공한다.
이처럼 시맨틱 매치 시스템(140)은 스마트 기기를 이용하여 "롯데월드"를 검색한 사용자에게 "롯데월드"에 대한 디지털 콘텐츠를 검색 결과로서 제공할 수 있을 뿐만 아니라, "롯데월드"와 의미적으로 연관성을 가지면서 해당 스마트 기기 내부에 저장되어 있는 "Disneyland", "Recreation" 혹은 "Theme parks"에 대한 디지털 콘텐츠(예를 들어, "디즈니랜드에서 찍은 사진")도 검색 결과로서 제공할 수 있다.
한편, 상술한 시맨틱 매치 시스템(140)이 적어도 하나 이상의 검색단어를 포함하는 키워드에 의한 키워드 검색에 대한 결과를 제공하는 방법에 대해 도 8을 참고하여 설명하기로 한다. 참고로, 설명의 편의를 위해 도 7에 도시된 각 구성의 식별번호를 인용한다.
도 8은 본 발명의 일 실시예에 따른 키워드 검색에 대한 결과 제공방법의 각 단계를 설명하기 위한 순서도이다.
시맨틱 매치 시스템(140)은 입력된 키워드 내 검색단어와, 스마트 기기에서 수집된 복수의 디지털 콘텐츠 간의 유사도를 각각 계산한다(S310). 여기서, 유사도는, 검색단어가 스마트 기기에서 수집된 디지털 콘텐츠의 텍스트와 일치하는 정도를 나타내는 값이다.
구체적으로, 시맨틱 매치 시스템(140)은 아래의 수학식 4를 이용하여 유사도인
Figure pat00013
를 계산할 수 있다.
Figure pat00014
여기서, t는 사용자에 의해 입력된 키워드 q내 검색단어,
Figure pat00015
는 검색단어 t의 키워드 q 내 빈도수,
Figure pat00016
는 검색단어 t의 디지털 콘텐츠의 텍스트 내 빈도수, sw(t, di) 는 검색단어 t가 상기 텍스트, 원시 문맥, 및 확장 문맥 중 어느 것에 포함되어 있는가에 따라 달라지는 가중치 값을 나타낸다.
예를 들어, 가중치 값과 관련하여, 검색단어 t가 디지털 콘텐츠 di의 텍스트 내에 포함되는 경우의 sw(t,di) 값은 검색단어 t가 원시 문맥과 확장 문맥 내에 포함되는 경우의 sw(t,di) 값보다 높게 설정될 수 있다.
따라서, 입력된 키워드 q내의 검색단어 t를 많이 포함하는 디지털 콘텐츠 di일수록 유사도의 값이 증가한다. 일반적으로, 스마트 기기에서 발생되는 디지털 콘텐츠의 텍스트는 적은 개수의 단어만을 포함하고, 키워드 검색시 입력된 키워드도 1~2개 정도의 제한적인 검색단어를 포함하므로, 유사도는 0에서 1 사이의 값을 가지게 된다.
참고로, 상술한 바와 같이, 확장 문맥은 시맨틱 태그 시스템(120)에서 생성된 시맨틱 태그에 포함된 것이고, 스마트 기기에서 수집된 디지털 콘텐츠로부터 추출된 원시 문맥과 의미적으로 연관성을 가지면서 원시 문맥이 해당되는 카테고리를 이용하여 획득된 것이다.
또한, 원시 문맥이 해당되는 카테고리는 상술한 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것이다. 즉, 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 주제 분류 트리의 데이터 혹은 주제 분류 트리(110)가 이용될 수 있다.
덧붙여, 시맨틱 매치 시스템(140)은, 시맨틱 매치 시스템(140)과 연결된 시맨틱 인덱스 시스템(130)에 저장된 제 1 역 색인 구조를 이용하여 유사도를 계산할 수 있다. 앞서 설명한 것과 같이, 제 1 역 색인 구조는 검색단어가 포함된 텍스트를 가지는 디지털 콘텐츠, 원시 문맥 중 검색단어가 포함된 원시 문맥을 가지는 디지털 콘텐츠, 및 시맨틱 태그에 포함된 확장 문맥 중 검색단어가 포함된 확장 문맥을 가지는 디지털 콘텐츠에 대한 검색이 가능한 것이다. 따라서, 시맨틱 매치 시스템(140)은 제 1 역 색인 구조에 의해 보다 빠른 검색을 수행할 수 있다.
또한, 시맨틱 매치 시스템(140)은 키워드 검색시 입력된 키워드 내 검색단어가 해당되는 카테고리와, 시맨틱 태그 내 확장 문맥 간의 시맨틱 유사도를 각각 계산한다(S320). 여기서, 시맨틱 유사도는, 검색단어가 해당되는 카테고리가 스마트 기기에서 수집된 디지털 콘텐츠마다 미리 생성된 시맨틱 태그에 포함된 확장 문맥과 일치하는 정도를 나타내는 값이다.
구체적으로, 시맨틱 매치 시스템(140)은 아래의 수학식 5를 이용하여 시맨틱 유사도인
Figure pat00017
를 계산할 수 있다.
Figure pat00018
여기서, cq는 복수의 카테고리 중 사용자에 의해 입력된 키워드 q가 해당되는 카테고리를 의미하고, s(di)는 디지털 콘텐츠 di에 대한 시맨틱 태그 내 확장 문맥들의 집합을 의미하며, cs(cq, ck)는 두 카테고리 cq와 ck가 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110) 내에서 얼마나 의미적으로 유사한지를 나타내는 카테고리 유사도를 나타낸다.
이때, 카테고리 유사도는 다양한 방식에 의하여 측정될 수 있다.
일 예로, 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110) 내에서 두 카테고리 간 거리를 기초로 카테고리 유사도를 측정할 수 있다.
즉, 확장 문맥 내에서 키워드 q 내 검색단어가 해당되는 카테고리cq가 포함되는 위치에 따라 카테고리 유사도를 계산할 수 있다. cq와 cq가 일치하는 경우 1 값을 가지고, 하나의 카테고리가 다른 카테고리의 하위 카테고리에 해당하는 경우 거리 증가로 인해 1보다 낮은 값을 가질 수 있다.
다른 예로, 본 특허의 발명자의 등록특허 제10-1083274호(발명의 명칭: 유사도 그래프를 활용한 문맥 광고 시스템)에 개시된 wPPR 알고리즘을 이용하여 카테고리 유사도를 측정할 수 있다.
참고로, 검색단어가 해당되는 카테고리는 상술한 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것이다. 즉, 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 주제 분류 트리의 데이터 혹은 주제 분류 트리(110)가 이용될 수 있다.
덧붙여, 시맨틱 매치 시스템(140)은, 시맨틱 매치 시스템(140)과 연결된 시맨틱 인덱스 시스템(130)에 저장된 제 2 역 색인 구조를 이용하여 시맨틱 유사도를 계산할 수 있다. 앞서 설명한 것과 같이, 제 2 역 색인 구조는 검색단어가 해당되는 카테고리가 포함된 확장 문맥을 가지는 디지털 콘텐츠에 대한 검색이 가능한 것이다. 이를테면, 수학식 5의 cs(cq, ck)를 이용하여 카테고리 cq와 유사도가 높은 n개의 ck를 먼저 선택한 이후에, 선택된 카테고리 ck에 해당되는 확장 문맥을 포함하는 디지털 콘텐츠는 제 2 역 색인 구조에 의해 획득되고, 획득된 디지털 콘텐츠는 시맨틱 유사도의 계산을 위해 사용될 수 있다. 따라서, 시맨틱 매치 시스템(140)은 제 2 역 색인 구조에 의해 보다 빠른 검색을 수행할 수 있다.
나아가, 경우에 따라, 시맨틱 매치 시스템(140)은 검색단어가 해당되는 카테고리를 이용하여 검색단어와 의미적으로 연관성을 가지는 확장된 검색단어를 획득하는 과정을 추가적으로 수행할 수 있다. 이러한 과정은 앞서 설명한 단계 S310 및 단계 S320보다 먼저 수행될 수 있다.
이러한 경우 단계 S310은 검색단어 및 상기 확장된 검색단어에 대한 유사도를 계산할 수 있다. 즉, 단계 S310와 별도로, 상기 확장된 검색단어와 수집된 디지털 콘텐츠 간의 유사도가 각각 추가적으로 계산될 수 있고, 계산 방식은 수학식 4 및 그에 대한 설명과 같이 이루어질 수 있다.
또한, 이러한 경우 단계 S320은 검색단어 및 상기 확장된 검색단어에 대한 시맨틱 유사도를 계산할 수 있다. 즉, 단계 S320과 별도로, 상기 확장된 검색단어가 해당되는 카테고리와 시맨틱 태그 내 확장 문맥 간의 시맨틱 유사도가 각각 추가적으로 계산될 수 있고, 계산 방식은 수학식 5 및 그에 대한 설명과 같이 이루어질 수 있다.
다음으로, 도 8을 다시 참고하면, 시맨틱 매치 시스템(140)은 단계 S310에서 계산된 유사도와 단계 S320에서 계산된 시맨틱 유사도에 기초하여, 키워드 검색시 입력된 키워드에 대한 디지털 콘텐츠의 연관 정도를 각각 산출한다(S330)
구체적으로, 시맨틱 매치 시스템(140)은 아래의 수학식 6을 이용하여, 입력된 키워드와 스마트 기기에서 수집된 디지털 콘텐츠 간의 연관 정도를 산출할 수 있다.
Figure pat00019
여기서, q는 사용자에 의해 입력된 검색 키워드를 의미하고, di는 스마트 기기 내에 수집된 임의의 디지털 콘텐츠를 의미하고, β는 유사도 및 시맨틱 유사도의 선형 조합에 대한 가중치를 나타내며, tw(di)는 디지털 콘텐츠 di의 생성 시간에 대한 가중치를 나타낸다. β와 tw(di)는 0에서 1까지의 값을 나타내는 변수이다.
상술한 유사도인
Figure pat00020
을 통해 검색 키워드 q와 임의의 디지털 콘텐츠 di 간의 일치 정도가 산출되고, 상술한 시맨틱 유사도인
Figure pat00021
를 통해 검색 키워드 q와 디지털 콘텐츠 di의 확장 문맥 간의 일치 정도가 산출될 수 있다.
계속해서, 시맨틱 매치 시스템(140)은 단계 S330에서 산출된 연관 정도에 따라 스마트 기기에서 수집된 디지털 콘텐츠의 순위를 결정하고, 최고 순위에 해당되는 디지털 콘텐츠부터 소정의 순위에 해당되는 디지털 콘텐츠까지 키워드 검색에 대한 결과로서 제공한다(S340).
이때, 순위 결정 및 정렬은 기본적으로 수학식 6의
Figure pat00022
에 따라 이루어지지만, 디지털 콘텐츠의 생성 시간에 따라 이루어질 수도 있다.
이처럼 키워드 검색시 입력된 키워드 내 검색단어가 일치하고 수학식 4의 유사도가 높은 디지털 콘텐츠 뿐만 아니라, 검색단어와 의미적으로 연관성을 가지고 수학식 5의 시맨틱 유사도가 높은 디지털 콘텐츠도 상위 순위에 랭크될 수 있다. 따라서 상술한 수학식 4, 5, 6을 통해, 시맨틱 매치 시스템(140)의 검색 결과에 대한 신뢰도 및 정확도가 향상될 수 있다.
이와 같이 시맨틱 매치(S-Match) 시스템(140)은 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 이용하여 스마트 기기 내 디지털 콘텐츠에 대한 키워드 검색시 사용자가 입력한 키워드에 대한 정확도 높은 시맨틱 결과를 제공할 수 있다.
한편, 지금까지 설명한 시맨틱 매치 시스템(140)과 관련된 데이터/신호의 순서는 도 9에 도시된 일 예처럼 진행될 수 있다. 도 9는 본 발명의 일 실시예에 따른 시맨틱 매치 시스템의 동작을 보다 상세하게 설명하기 위한 흐름도이다.
스마트 기기의 사용자가 키워드를 입력하여(S31) 키워드 검색을 시도한 경우(S32), 시맨틱 매치 시스템(140) 내 검색 키워드 분석기(142)는 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 이용하여 키워드의 의미를 확장한다(S33). 계산 수행이 시작되면(S34), 시맨틱 랭커(144)는 시맨틱 인덱스 시스템(130) 내 시맨틱 인덱스 테이블(134)을 이용하여 유사도 매칭(S35) 및 시맨틱 유사도 매칭(S36)을 수행하고, 연관 정도에 따라 각각의 디지털 콘텐츠의 순위를 결정한다.
순위에 따라 검색 결과가 생성되면(S37), 시맨틱 매치 시스템(140) 내 검색 결과 생성기(146)는 시맨틱 인덱스 테이블(134)로부터 디지털 콘텐츠 정보를 수신하고(S38), 최종 검색 결과를 사용자에게 제공한다(S39).
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 스마트 기기 내 시맨틱 검색 시스템 110: 주제 분류 트리
120: 시맨틱 태그 시스템 130: 시맨틱 인덱스 시스템
140: 시맨틱 매치 시스템

Claims (11)

  1. 스마트 기기 내 시맨틱(Semantic) 태그 시스템이 시맨틱 태그를 생성하는 방법에 있어서,
    상기 스마트 기기에서 수집된 디지털 콘텐츠에 대한 원시 문맥을 추출하는 단계;
    주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로, 상기 추출된 원시 문맥이 해당되는 타겟 카테고리를 결정하는 단계;
    상기 결정된 타겟 카테고리를 이용하여 상기 추출된 원시 문맥과 의미적으로 연관성을 가지는 확장 문맥을 획득하는 단계; 및
    상기 획득된 확장 문맥 및 상기 추출된 원시 문맥을 포함하는 상기 디지털 콘텐츠에 대한 시맨틱 태그를 생성하는 단계를 포함하는 시맨틱 태그 생성방법.
  2. 제 1 항에 있어서,
    상기 추출하는 단계는 상기 스마트 기기의 적어도 하나 이상의 센서로부터 센싱된 센싱 정보 중 상기 수집된 디지털 콘텐츠와 관련된 타겟 센싱 정보를 기초로 상기 원시 문맥을 추출하는 시맨틱 태그 생성방법.
  3. 제 1 항에 있어서,
    상기 추출하는 단계는
    상기 수집된 디지털 콘텐츠의 종류를 식별하는 단계;
    벡터 스페이스 모델을 이용하여 상기 추출된 원시 문맥의 텍스트를 단어 벡터로 변환하는 단계; 및
    단어빈도수-역문서빈도수(TF- IDF) 방식을 통해 상기 변환된 단어 벡터의 각 단어에 대한 가중치를 부여하는 단계를 포함하는 시맨틱 태그 생성방법.
  4. 제 3 항에 있어서,
    상기 결정하는 단계는
    상기 공개 디렉토리 프로젝트의 데이터를 기초로 학습된 분류기가 상기 식별된 디지털 콘텐츠의 종류, 및 상기 변환된 단어 벡터와 카테고리 간 연관 정도를 계산한 결과를 기초로 상기 타겟 카테고리를 결정하는 시맨틱 태그 생성방법.
  5. 적어도 하나 이상의 검색단어를 포함하는 키워드에 의한 키워드 검색을 지원하는 스마트 기기 내 시맨틱(Semantic) 인덱스 시스템에 있어서,
    상기 스마트 기기에서 수집된 디지털 콘텐츠의 식별 값, 물리적 위치, 및 텍스트를 상기 수집된 디지털 콘텐츠마다 저장하는 제 1 테이블;
    상기 검색단어가 포함된 텍스트를 가지는 디지털 콘텐츠, 상기 수집된 디지털 콘텐츠마다 미리 생성된 시맨틱 태그에 포함된 원시 문맥 중 상기 검색단어가 포함된 원시 문맥을 가지는 디지털 콘텐츠, 및 상기 시맨틱 태그에 포함된 확장 문맥 중 상기 검색단어가 포함된 확장 문맥을 가지는 디지털 콘텐츠를 검색 가능한 제 1 역 색인(Inverted Index) 구조를 저장하는 제 2 테이블; 및
    상기 검색단어가 해당되는 카테고리가 포함된 확장 문맥을 가지는 디지털 콘텐츠를 검색 가능한 제 2 역 색인(Inverted Index) 구조를 저장하는 제 3 테이블을 포함하고,
    상기 시맨틱 태그에 포함된 원시 문맥은 상기 수집된 디지털 콘텐츠로부터 추출된 것이고, 상기 시맨틱 태그에 포함된 확장 문맥은 상기 시맨틱 태그에 포함된 원시 문맥과 의미적으로 연관성을 가지면서 상기 시맨틱 태그에 포함된 원시 문맥이 해당되는 카테고리를 이용하여 획득된 것이며,
    상기 시맨틱 태그에 포함된 원시 문맥 및 상기 검색단어가 각각 해당되는 카테고리는 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것인, 시맨틱 인덱스 시스템.
  6. 스마트 기기 내 시맨틱(Semantic) 매치 시스템이 적어도 하나 이상의 검색단어를 포함하는 키워드에 의한 키워드 검색에 대한 결과를 제공하는 방법에 있어서,
    상기 검색단어가 상기 스마트 기기에서 수집된 디지털 콘텐츠의 텍스트와 일치하는 정도를 나타내는 유사도를 계산하는 단계;
    상기 검색단어가 해당되는 카테고리가 상기 수집된 디지털 콘텐츠마다 미리 생성된 시맨틱 태그에 포함된 확장 문맥과 일치하는 정도를 나타내는 시맨틱 유사도를 계산하는 단계;
    상기 유사도 및 시맨틱 유사도에 기초하여 상기 키워드에 대한 상기 수집된 디지털 콘텐츠의 연관 정도를 산출하는 단계; 및
    상기 산출된 연관 정도에 따라 상기 수집된 디지털 콘텐츠의 순위를 결정하고, 최고 순위에 해당되는 디지털 콘텐츠부터 소정의 순위에 해당되는 디지털 콘텐츠까지 상기 키워드 검색에 대한 결과로서 제공하는 단계를 포함하고,
    상기 확장 문맥은 상기 시맨틱 태그에 포함되고 상기 수집된 디지털 콘텐츠로부터 추출된 원시 문맥과 의미적으로 연관성을 가지면서 상기 원시 문맥이 해당되는 카테고리를 이용하여 획득된 것이고,
    상기 원시 문맥 및 상기 검색단어가 각각 해당되는 카테고리는 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것인, 키워드 검색에 대한 결과 제공방법.
  7. 제 6 항에 있어서,
    상기 검색단어가 해당되는 카테고리를 이용하여 상기 검색단어와 의미적으로 연관성을 가지는 확장된 검색단어를 획득하는 단계를 더 포함하고,
    상기 유사도를 계산하는 단계는 상기 검색단어 및 상기 확장된 검색단어에 대한 유사도를 계산하고,
    상기 시맨틱 유사도를 계산하는 단계는 상기 검색단어 및 상기 확장된 검색단어에 대한 시맨틱 유사도를 계산하는 키워드 검색에 대한 결과 제공방법.
  8. 제 6 항에 있어서,
    상기 유사도를 계산하는 단계는 상기 검색단어가 상기 텍스트, 상기 원시 문맥, 및 상기 확장 문맥 중 어느 것에 포함되어 있는가에 따라 달라지는 가중치 값, 상기 검색단어의 상기 키워드 내 빈도수, 및 상기 검색단어의 상기 텍스트 내 빈도수를 기초로 계산하는 키워드 검색에 대한 결과 제공방법.
  9. 제 6 항에 있어서,
    상기 유사도를 계산하는 단계는 상기 시맨틱 매치 시스템과 연결된 시맨틱 인덱스 시스템에 저장된 제 1 역 색인(Inverted Index) 구조를 이용하여 계산하고,
    상기 제 1 역 색인 구조는 상기 검색단어가 포함된 텍스트를 가지는 디지털 콘텐츠, 상기 원시 문맥 중 상기 검색단어가 포함된 원시 문맥을 가지는 디지털 콘텐츠, 및 상기 시맨틱 태그에 포함된 확장 문맥 중 상기 검색단어가 포함된 확장 문맥을 가지는 디지털 콘텐츠에 대한 검색이 가능한 것인, 키워드 검색에 대한 결과 제공방법.
  10. 제 6 항에 있어서,
    상기 시맨틱 유사도를 계산하는 단계는 상기 확장 문맥 내에 상기 검색단어가 해당되는 카테고리가 포함되는 위치에 따라 계산하는 키워드 검색에 대한 결과 제공방법.
  11. 제 6 항에 있어서,
    상기 시맨택 유사도를 계산하는 단계는 상기 시맨틱 매치 시스템과 연결된 시맨틱 인덱스 시스템에 저장된 제 2 역 색인(Inverted Index) 구조를 이용하여 계산하고,
    상기 제 2 역 색인 구조는 상기 검색단어가 해당되는 카테고리가 포함된 확장 문맥을 가지는 디지털 콘텐츠에 대한 검색이 가능한 키워드 검색에 대한 결과 제공방법.
KR20130157368A 2013-09-16 2013-12-17 스마트 기기 내 시맨틱 검색 시스템 및 검색방법 KR101508583B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2014/005081 WO2015037815A1 (ko) 2013-09-16 2014-06-10 스마트 기기 내 시맨틱 검색 시스템 및 검색방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020130111351 2013-09-16
KR20130111351 2013-09-16

Publications (2)

Publication Number Publication Date
KR20150032141A true KR20150032141A (ko) 2015-03-25
KR101508583B1 KR101508583B1 (ko) 2015-04-14

Family

ID=53025480

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130157368A KR101508583B1 (ko) 2013-09-16 2013-12-17 스마트 기기 내 시맨틱 검색 시스템 및 검색방법

Country Status (1)

Country Link
KR (1) KR101508583B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170086386A (ko) * 2015-04-22 2017-07-26 삼성전자주식회사 콘텐츠를 추적하는 방법 및 이를 사용하는 전자 장치
CN111368153A (zh) * 2020-03-23 2020-07-03 百度在线网络技术(北京)有限公司 搜索方法及装置
CN116541427A (zh) * 2023-06-30 2023-08-04 腾讯科技(深圳)有限公司 数据查询方法、装置、设备及存储介质
KR102628460B1 (ko) * 2022-11-14 2024-01-23 세종대학교산학협력단 메타버스를 위한 가상 공간 검색 방법 및 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102225088B1 (ko) * 2015-10-26 2021-03-08 에스케이텔레콤 주식회사 상황 정보 기반의 태그 생성 방법 및 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090062548A (ko) * 2007-12-13 2009-06-17 삼성전자주식회사 콘텐츠 검색 방법 및 이를 이용하는 이동통신 단말기
KR101095069B1 (ko) * 2010-02-03 2011-12-20 고려대학교 산학협력단 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법
KR101192439B1 (ko) * 2010-11-22 2012-10-17 고려대학교 산학협력단 디지털 콘텐츠 검색 장치 및 방법
KR101404644B1 (ko) * 2012-01-18 2014-07-01 고려대학교 산학협력단 지식 베이스 확장 장치 및 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170086386A (ko) * 2015-04-22 2017-07-26 삼성전자주식회사 콘텐츠를 추적하는 방법 및 이를 사용하는 전자 장치
CN111368153A (zh) * 2020-03-23 2020-07-03 百度在线网络技术(北京)有限公司 搜索方法及装置
CN111368153B (zh) * 2020-03-23 2023-08-29 百度在线网络技术(北京)有限公司 搜索方法及装置
KR102628460B1 (ko) * 2022-11-14 2024-01-23 세종대학교산학협력단 메타버스를 위한 가상 공간 검색 방법 및 시스템
CN116541427A (zh) * 2023-06-30 2023-08-04 腾讯科技(深圳)有限公司 数据查询方法、装置、设备及存储介质
CN116541427B (zh) * 2023-06-30 2023-11-14 腾讯科技(深圳)有限公司 数据查询方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR101508583B1 (ko) 2015-04-14

Similar Documents

Publication Publication Date Title
JP6266080B2 (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
JP6423845B2 (ja) 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム
KR101667232B1 (ko) 의미기반 검색 장치 및 그 방법과, 의미기반 메타데이터 제공 서버 및 그 동작 방법
US8880559B2 (en) Location activity search engine computer system
US9195717B2 (en) Image result provisioning based on document classification
US20090299990A1 (en) Method, apparatus and computer program product for providing correlations between information from heterogenous sources
JP2017157192A (ja) キーワードに基づいて画像とコンテンツアイテムをマッチングする方法
CN107766399B (zh) 用于使图像与内容项目匹配的方法和系统及机器可读介质
KR101508583B1 (ko) 스마트 기기 내 시맨틱 검색 시스템 및 검색방법
CN107784059A (zh) 用于搜索和选择图像的方法和系统以及机器可读媒体
JP5469046B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
JP6363682B2 (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
CN107463592B (zh) 用于将内容项目与图像匹配的方法、设备和数据处理系统
CN110019645A (zh) 索引库构建方法、搜索方法及装置
JP6185379B2 (ja) レコメンド装置およびレコメンド方法
KR20160043601A (ko) 디지털 컨텐츠 추천 단말 및 방법
CN105159976A (zh) 图像文件的处理方法和系统
CN103778116A (zh) 一种信息的推荐方法和系统
CN112784142A (zh) 一种信息推荐方法及装置
WO2015037815A1 (ko) 스마트 기기 내 시맨틱 검색 시스템 및 검색방법
CN109521888A (zh) 一种输入方法、装置和介质
KR101867421B1 (ko) 소셜 데이터를 이용한 서비스 제공업체 추천 방법 및 장치
KR101318130B1 (ko) 트랙백 구조를 이용하여 콘텐츠를 검색하기 위한 방법,시스템 및 서버
KR101734533B1 (ko) 다국가 뉴스 서비스 제공 방법
Hattori et al. Activity-based query refinement for context-aware information retrieval

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20180108

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190211

Year of fee payment: 5