KR20180082035A - 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법 - Google Patents

문맥 정보에 기반한 콘텐츠 제공 서버 및 방법 Download PDF

Info

Publication number
KR20180082035A
KR20180082035A KR1020170003097A KR20170003097A KR20180082035A KR 20180082035 A KR20180082035 A KR 20180082035A KR 1020170003097 A KR1020170003097 A KR 1020170003097A KR 20170003097 A KR20170003097 A KR 20170003097A KR 20180082035 A KR20180082035 A KR 20180082035A
Authority
KR
South Korea
Prior art keywords
content
subject
verb
similarity
candidate
Prior art date
Application number
KR1020170003097A
Other languages
English (en)
Other versions
KR101928074B1 (ko
Inventor
이상근
류우종
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020170003097A priority Critical patent/KR101928074B1/ko
Priority to US15/866,029 priority patent/US10380244B2/en
Publication of KR20180082035A publication Critical patent/KR20180082035A/ko
Application granted granted Critical
Publication of KR101928074B1 publication Critical patent/KR101928074B1/ko

Links

Images

Classifications

    • G06F17/30654
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/2755
    • G06F17/30023
    • G06F17/30864
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 콘텐츠 제공 프로그램이 저장된 메모리, 및 메모리에 저장된 프로그램을 실행하는 프로세서를 포함한다. 이때, 프로세서는 프로그램의 실행에 따라, 대상 콘텐츠로부터 주제 및 주제에 대응하는 복수의 동사를 포함하는 동사적 속성을 추출하고, 주제 및 동사적 속성에 기초하여 대상 콘텐츠에 대한 동사 수준의 주제를 추론하며, 대상 콘텐츠에 대한 동사 수준의 주제에 기초하여 복수의 후보 콘텐츠 중 대상 콘텐츠와 매칭되는 하나 이상의 콘텐츠를 추출한다. 그리고 주제에 대응하는 복수의 동사는 연관 동사 집합으로부터 추출된다.

Description

문맥 정보에 기반한 콘텐츠 제공 서버 및 방법{SERVER AND METHOD FOR CONTENT PROVIDING BASED ON CONTEXT INFORMATION}
본 발명은 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법에 관한 것이다.
콘텐츠 검색 시스템 또는 콘텐츠 추천 시스템과 같은 콘텐츠 제공 시스템은 수많은 콘텐츠 중 사용자가 원하는 콘텐츠를 자동으로 선택하여 제공한다. 이때, 콘텐츠 제공 시스템은 사용자의 콘텐츠 사용에 대한 히스토리, 해당 사용자의 인구통계학적 정보 및 사용자가 선택한 콘텐츠의 내용 정보 등과 같은 명시적인 정보에 대한 분석을 통하여 해당 사용자에게 콘텐츠를 제공한다.
종래의 콘텐츠 제공 시스템은 사용자가 원하는 정보를 빠르게 제공할 수 있다는 장점이 있다. 그러나 종래의 콘텐츠 제공 시스템은 명시적인 정보만을 이용하므로, 사용자의 요구를 반영하지 못한다는 단점이 있다.
이와 관련되어, 한국 등록특허공보 제10-1536520호(발명의 명칭: "토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버")는 분류 정보에 따라 구성된 분류 별 문서 집합으로부터 명사를 추출하고, 명사에 대해 가중치를 계산하여 분류 별 문서 집합을 대표하는 단어인 핵심어를 추출하고, 추출된 핵심어에 대해 가중치를 계산하여 핵심어들을 관련 단어들로 군집화하고, 군집들 중 유사한 군집들을 병합하여 분류별 토픽 집합을 추출하는 방법 및 이를 이용한 서버를 개시하고 있다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 콘텐츠로부터 추출된 동사 수준의 주제에 기초하여 해당 콘텐츠와 매칭되는 하나 이상의 콘텐츠를 추출하는 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법을 제공한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 문맥 정보에 기반한 콘텐츠 제공 서버는 콘텐츠 제공 프로그램이 저장된 메모리, 및 메모리에 저장된 프로그램을 실행하는 프로세서를 포함한다. 이때, 프로세서는 프로그램의 실행에 따라, 대상 콘텐츠로부터 주제 및 주제에 대응하는 복수의 동사를 포함하는 동사적 속성을 추출하고, 주제 및 동사적 속성에 기초하여 대상 콘텐츠에 대한 동사 수준의 주제를 추론하며, 대상 콘텐츠에 대한 동사 수준의 주제에 기초하여 복수의 후보 콘텐츠 중 대상 콘텐츠와 매칭되는 하나 이상의 콘텐츠를 추출한다. 그리고 주제에 대응하는 복수의 동사는 연관 동사 집합으로부터 추출된다.
또한, 본 발명의 제 2 측면에 따른 콘텐츠 제공 서버에서의 문맥 정보에 기초한 콘텐츠 추출 방법은 대상 콘텐츠로부터 주제 및 주제에 대응하는 복수의 동사를 포함하는 동사적 속성을 추출하는 단계; 주제 및 동사적 속성에 기초하여 대상 콘텐츠에 대한 동사 수준의 주제를 추론하는 단계; 및 대상 콘텐츠에 대한 동사 수준의 주제에 기초하여 복수의 후보 콘텐츠 중 대상 콘텐츠와 매칭되는 하나 이상의 콘텐츠를 추출하는 단계를 포함한다. 이때, 주제에 대응하는 복수의 동사는 연관 동사 집합으로부터 추출된다.
본 발명은 콘텐츠로부터 추출된 주제적 연관성 및 동사적 연관성에 기초하여 사용자에 대한 맞춤형 콘텐츠를 추출할 수 있다. 또한, 본 발명은 구문적 유사도 및 의미적 유사도를 상호보완적으로 고려할 수 있다. 그러므로 본 발명은 사용자가 원하는 콘텐츠를 빠르고 정확하게 제공할 수 있다.
도 1은 종래의 콘텐츠 제공 서버를 설명하기 위한 예시도이다.
도 2는 본 발명의 일 실시예에 따른 콘텐츠 제공 시스템의 블록도이다.
도 3은 본 발명의 일 실시예에 따른 콘텐츠 제공 프로그램의 블록도이다.
도 4는 본 발명의 일 실시예에 따른 콘텐츠 집합 관리 모듈의 블록도이다.
도 5는 본 발명의 일 실시예에 따른 동사 수준의 주제 추론 모듈의 블록도이다.
도 6은 본 발명의 일 실시예에 따른 콘텐츠 추출 모듈의 블록도이다.
도 7은 본 발명의 일 실시예에 따른 콘텐츠 제공 서버에서의 문맥 정보에 기초한 콘텐츠 매칭 방법의 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
다음은 도 1을 참조하여 종래의 콘텐츠 제공 서버를 설명한다.
도 1은 종래의 콘텐츠 제공 서버를 설명하기 위한 예시도이다.
종래의 콘텐츠 제공 서버는 사용자가 사용자 단말을 통하여 선택하거나, 소비하는 콘텐츠로부터 연관 콘텐츠를 추출하여 제공한다. 이때, 소비는 해당 사용자가 해당 콘텐츠를 구입하거나, 사용하는 것을 의미할 수 있다.
구체적으로 종래의 콘텐츠 제공 서버는 사용자가 소비한 콘텐츠에 포함된 명사에 대하여 주제(subject)를 추출할 수 있다. 그리고 종래의 콘텐츠 제공 서버는 주제에 기초하여 연관 콘텐츠를 추출하여 사용자 단말(260)을 통하여 사용자에게 제공할 수 있다.
예를 들어, 도 1을 참조하면, 종래의 콘텐츠 제공 서버는 제 1 사용자(U1)가 소비한 "buy a car"를 포함하는 콘텐츠(p1)로부터 주제를 추출한다. 종래의 콘텐츠 제공 서버는 제 1 사용자의 콘텐츠에 포함된 "car"에 기초하여, 연관된 주제인 "shopping", "vehicles" 및 "autos"를 추출할 수 있다. 그리고 종래의 콘텐츠 제공 서버는 추출된 주제에 기초하여 제 1 사용자의 콘텐츠와 연관된 콘텐츠를 추출하여 제 1 사용자에게 전달할 수 있다.
또한, 종래의 콘텐츠 제공 서버는 제 2 사용자(U2)가 소비한 "rent a car"를 포함하는 콘텐츠(p2)로부터 주제를 추출한다. 종래의 콘텐츠 제공 서버는 제 2 사용자의 콘텐츠에 포함된 "car"에 기초하여 연관된 주제인 "shopping", "vehicles" 및 "autos"를 추출할 수 있다. 그리고 종래의 콘텐츠 제공 서버는 추출된 주제에 기초하여 제 2 사용자의 콘텐츠와 연관된 콘텐츠를 추출하여 제 2 사용자에게 전달할 수 있다.
이와 같이, 종래의 콘텐츠 제공 서버는 콘텐츠에 포함된 주제 만을 고려한다. 그러므로 종래의 콘텐츠 제공 서버는 주제가 동일한 콘텐츠를 소비한 제 1 사용자 및 제 2 사용자에게 동일한 주제에 기초하여 추출되는 동일한 콘텐츠가 제공될 수 있다.
그러나 도 1을 참조하여 설명한 바와 같이, 제 1 사용자 및 제 2 사용자가 주제를 소비한 의도가 다른 경우에도 주제만을 고려하여 콘텐츠를 제공하므로, 동일한 콘텐츠가 제공될 수 밖에 없는 문제가 있다. 즉, 종래의 콘텐츠 제공 서버는 사용자의 의도를 판단하고, 해당 사용자의 의도에 적합한 맞춤형 콘텐츠를 제공하는데 한계가 있다.
다음은 도 2 내지 도 7을 참조하여 본 발명의 일 실시예에 따른 콘텐츠 제공 서버(210)를 설명한다.
도 2는 본 발명의 일 실시예에 따른 콘텐츠 제공 시스템(200)의 블록도이다.
본 발명의 일 실시예에 따른 콘텐츠 제공 시스템(200)은 콘텐츠 제공 서버(210)를 통하여 사용자 단말(260)이 선택하거나 사용한 콘텐츠로부터 문맥 정보를 추출하고, 추출한 문맥 정보에 기초하여 유사한 콘텐츠를 매칭하여 해당 사용자 단말(260)에 전달한다. 이때, 콘텐츠 제공 시스템(200)은 콘텐츠 제공 서버(210), 제공자 서버(250), 사용자 단말(260) 및 데이터베이스(270)를 포함한다.
콘텐츠 제공 서버(210)는 사용자 단말(260)이 선택하거나 소비한 대상 콘텐츠(370)의 문맥 정보를 추출한다. 그리고 콘텐츠 제공 서버(210)는 추출된 문맥 정보에 기초하여 하나 이상의 콘텐츠를 추출하여 해당 사용자 단말(260)로 전달한다.
제공자 서버(250)는 콘텐츠 제공 서버(210)에 콘텐츠를 제공할 수 있다. 이때, 제공자 서버(250)는 콘텐츠를 생성하여 콘텐츠 제공 서버(210)에 전달하는 것일 수 있다. 또한, 제공자 서버(250)는 사용자 단말(260) 또는 제공자 단말을 통하여 생성된 콘텐츠를 수집하여 콘텐츠 제공 서버(210)에 전달할 수 있다.
사용자 단말(260)은 콘텐츠 제공 서버(210)로부터 자신이 선택한 콘텐츠를 수신하거나, 사용자 맞춤형 콘텐츠를 수신할 수 있다.
데이터베이스(270)는 제공자 서버(250)로부터 수신한 콘텐츠를 저장할 수 있다. 이때, 데이터베이스(270)는 콘텐츠를 저장하기 위한 콘텐츠 데이터베이스(340)를 통하여 콘텐츠를 저장할 수 있다. 또한, 데이터베이스(270)는 콘텐츠 제공 서버(210)가 콘텐츠 추출을 위하여 사용하는 연관 동사 집합(350), 주제 분류 트리(360) 등을 저장할 수 있다.
이때, 데이터베이스(270)는 콘텐츠 제공 서버(210)에 탑재되는 것일 수 있다. 예를 들어, 데이터베이스(270)는 콘텐츠 제공 서버(210)에 포함된 서비스 형태로 실행될 수 있다. 또는, 데이터베이스(270)는 콘텐츠 제공 서버(210)의 통신 모듈(220)을 통하여 연결된 것일 수 있으나, 이에 한정된 것은 아니다.
콘텐츠는 사용자가 사용자 단말(260)을 통하여 사용할 수 있는 웹 페이지, 멀티미디어 콘텐츠 또는 광고 콘텐츠 등이 될 수 있다. 또한, 콘텐츠는 디지털화되어 사용자가 사용자 단말(260)을 통하여 서비스받을 수 있는 신문 기사, 잡지 및 도서 등이 될 수 있으나, 이에 한정된 것은 아니다.
이때, 콘텐츠는 하나 이상의 단어 또는 하나 이상의 문장으로 구성된 텍스트일 수 있다. 또는, 콘텐츠는 해당 콘텐츠에 대한 단어 또는 문장으로 구성된 관련 설명을 포함하는 것일 수 있다.
한편, 콘텐츠 제공 서버(210)는 통신 모듈(220), 메모리(230) 및 프로세서(240)를 포함한다.
통신 모듈(220)은 사용자 단말(260)과 데이터 통신을 수행할 수 있다.
메모리(230)는 콘텐츠 제공 프로그램(300)이 저장된다. 이때, 메모리(230)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치를 통칭하는 것이다. 또한, 콘텐츠 제공 프로그램(300)은 도 3을 참조하여 상세하게 설명한다.
도 3은 본 발명의 일 실시예에 따른 콘텐츠 제공 프로그램(300)의 블록도이다.
콘텐츠 제공 프로그램(300)은 콘텐츠 집합 관리 모듈(310), 동사 수준의 주제 추론 모듈(320), 콘텐츠 추출 모듈(330)을 포함할 수 있다.
프로세서(240)는 콘텐츠 집합 관리 모듈(310)을 통하여, 연관 동사 집합(350)을 생성할 수 있다. 이때, 연관 동사 집합(350)은 콘텐츠 데이터베이스(340)에 수집되어 저장된 콘텐츠를 이용하여 생성될 수 있다. 콘텐츠 집합 관리 모듈(310)은 콘텐츠 수집 모듈(410) 및 연관 동사 추출 모듈(420)을 포함할 수 있다.
도 4는 본 발명의 일 실시예에 따른 콘텐츠 집합 관리 모듈(310)의 블록도이다.
프로세서(240)는 콘텐츠 수집 모듈(410)을 통하여 복수의 콘텐츠를 수집할 수 있다. 그리고 프로세서(240)는 콘텐츠 데이터베이스(340)에 수집된 콘텐츠를 저장할 수 있다. 이때, 콘텐츠는 주제 분류 트리(360)에 포함되는 것이거나, 수집된 후 주제 분류 트리(360)에 의하여 분류되어 저장되는 것일 수 있다.
프로세서(240)는 주제 분류 트리(360)를 통하여 주제별로 기 분류된 콘텐츠를 이용하여 연관 동사 집합(350)을 추출할 수 있다.
예를 들어, 주제 분류 트리(360)는 오픈 디렉터리 프로젝트(open directory project)일 수 있다. 오픈 디렉터리 프로젝트는 일종의 웹상의 텍스트 데이터베이스(270)이다. 오픈 디렉터리 프로젝트는 월드 와이드 웹(world wide web)상의 웹 문서 등의 텍스트를 계층적 온톨로지(hierarchical ontology)를 이용하여 카테고리(category)로 세분화하고, 트리(tree) 자료 구조(data structure)를 이용하여 분류한 것일 수 있다.
또한, 주제 분류 트리(360)는 웹 검색 엔진에서 카테고리별로 분류된 이거나, 콘텐츠 제공 서버(210)가 수집한 후 생성된 것일 수 있으나, 이에 한정되는 것은 아니다.
그리고 프로세서(240)는 연관 동사 추출 모듈(420)을 통하여 수집된 주제에 대응하는 복수의 콘텐츠로부터 품사가 명사 및 동사인 단어를 추출할 수 있다. 이때, 프로세서(240)는 연관 동사 추출 모듈(420)에 포함되거나, 연관 동사 추출 모듈(420)과 연결된 형태소 분석기를 이용하여 콘텐츠로부터 단어를 추출하고, 단어 중 품사가 명사 또는 동사인 단어를 추출할 수 있다. 예를 들어, 형태소 분석기는 Stanford Natural Language Processing 도구에 포함된 Stanford Parser일 수 있으나, 이에 한정된 것은 아니다.
또한, 형태소 분석기를 통하여 추출되는 단어는 해당 단어의 어근일 수 있다. 예를 들어, 프로세서(240)는 형태소 분석기에 포함된 Poter Stemmer 등을 이용하여 추출되는 동사에서 어미를 제거하여 단어의 어근을 추출할 수 있다. 또는, 프로세서(240)는 워드넷(Wordnet) 및 시소러스(thesaurus) 등의 미리 정의된 사전을 통하여 해당 단어의 어근 또는 해당 단어를 대표하는 대표 단어 등을 추출할 수 있다.
프로세서(240)는 해당 주제와 매칭되는 동사에 기초하여 주제에 대응하는 연관 동사를 생성할 수 있다. 이때, 연관 동사는 문장에 포함된 단어 간의 문법적 관계에 기초하여 추출되는 것일 수 있다. 그리고 연관 동사는 품사가 동사인 단어뿐만 아니라, 동사를 활용하여 생성할 수 있는 동명사 등의 단어를 포함할 수 있다.
예를 들어, 프로세서(240)는 콘텐츠에 포함된 문장으로부터 추출된 명사 및 해당 명사와 직접 목적어(direct object) 관계를 가지는 동사를 추출할 수 있다. 그리고 프로세서(240)는 이를 이용하여 주제에 대응하는 하나 이상의 동사를 추출할 수 있다. 이때, 프로세서(240)는 의존성 트리(dependency tree)에 기초하여 해당 주제와 대응하는 하나 이상의 동사를 추출할 수 있다. 의존성 트리(dependency tree)는 단어 간의 관계가 정의된 것이다.
그리고 프로세서(240)는 추출된 하나 이상의 동사를 해당 주제에 대응하는 연관 동사로 생성할 수 있다. 프로세서(240)는 주제 및 주제에 대응하는 연관 동사를 추출한 이후, 연관 동사 집합(350)을 생성할 수 있다.
예를 들어, "coffee" 주제에 대응하는 특정 콘텐츠에 포함된 문장 "Order Ganocafe healthy coffee from us and save 25% of retail price"가 있다고 가정하면, 프로세서(240)는 해당 문장으로부터 명사인 "coffee" 및 "price"를 추출할 수 있다. 그리고 프로세서(240)는 명사 "coffee"에 대응하는 동사로 "order"를 추출할 수 있다. 프로세서(240)는 명사 "price"에 대응하는 동사로 "save"를 추출할 수 있다. 프로세서(240)는 명사 및 해당 명사에 대응하는 동사를 이용하여 쌍(pair)을 생성할 수 있다. 즉, 프로세서(240)는 "<order, coffee>" 및 "<save, price>"를 생성할 수 있다.
그리고 프로세서(240)는 해당 문장이 포함된 콘텐츠의 주제인 "coffee"와 연관 동사로 "order"를 추출할 수 있다. 프로세서(240)는 "coffee" 주제에 포함된 다른 콘텐츠에 앞에서 설명한 방법을 반복할 수 있다. 그리고 프로세서(240)는 이러한 과정을 통하여 "coffee"와 연관된 동사를 "order", "drink" 및 "make" 등을 추출할 수 있다. 그리고 프로세서(240)는 추출된 주제 및 복수의 연관 동사를 매칭하여 연관 동사 집합(350)인 <"coffee", {"order", "drink", "make"}>을 생성할 수 있다.
앞에서 설명한 방법에 따라, 프로세서(240)는 주제 분류 트리에 포함된 복수의 주제에 대한 연관 동사를 생성할 수 있다. 그리고 프로세서(240)는 생성된 복수의 주제에 대응하는 연관 동사를 각 주제와 매칭하여 연관 동사 집합(350)에 저장할 수 있다.
한편, 프로세서(240)는 동사 수준의 주제 추론 모듈(320)을 통하여 대상 콘텐츠(370)로부터 주제 및 주제에 대응하는 동사 수준 주제를 추출할 수 있다. 동사 수준의 주제 추론 모듈(320)은 도 5를 참조하여 상세히 설명한다.
도 5는 본 발명의 일 실시예에 따른 동사 수준의 주제 추론 모듈(320)의 블록도이다.
동사 수준의 주제 추론 모듈(320)은 주제 분류 모듈(500), 동사적 속성 생성 모듈(510) 및 동사 수준의 주제 추론 모듈(530)를 세부 모듈로 포함할 수 있다.
프로세서(240)는 주제 분류 모듈(500)을 통하여 대상 콘텐츠(370)에 포함된 복수의 문장으로부터 주제를 추출할 수 있다. 예를 들어, 대상 콘텐츠(370)가 주제 분류 트리(360)의 "college" 노드(node) 및 "college life" 노드에 포함되는 경우 프로세서(240)는 대상 콘텐츠(370)의 주제로 "college" 및 "college life"를 추출할 수 있다.
이때, 주제는 주제 분류 트리(360)에 기초하여 산출된 것으로 주제 분류 트리(360)의 루트(root) 노드부터 대상 콘텐츠(370)가 포함된 노드까지의 경로(path)가 될 수 있다. 예를 들어, 대상 콘텐츠(370)가 주제 분류 트리(360)의 "college" 노드에 포함되는 경우 프로세서(240)는 주제 분류 트리(360)에서 "college" 노드의 부모 노드 또는 조상 노드에 포함된 주제를 모두 추출할 수 있다. 그리고 프로세서(240)는 각 노드 간의 계층구조에 따라, 대상 콘텐츠(370)의 주제로 "top/reference/education/college"를 추출할 수 있다. 동일한 방법으로 대상 콘텐츠(370)가 주제 분류 트리(360)의 "college life" 노드에 포함되면, 프로세서(240)는 주제로 "university/college life"를 추출할 수 있다.
그리고 프로세서(240)는 동사적 속성 생성 모듈(510)을 통하여 대상 콘텐츠(370)로부터 추출된 주제에 대한 동사적 속성을 추출할 수 있다.
구체적으로 프로세서(240)는 연관 동사 집합(350)으로부터 주제와 연관된 연관 동사를 추출할 수 있다. 그리고 프로세서(240)는 연관 동사 중 해당 콘텐츠에 포함된 동사를 추출할 수 있다. 프로세서(240)는 추출된 동사의 벡터를 생성하여 대상 콘텐츠(370)로부터 동사적 속성을 추출할 수 있다. 이때, 동사적 속성은 대상 콘텐츠(370)를 소비하는 사용자가 주제에 대해 수행하고자 하는 의도가 될 수 있다.
Figure pat00001
예를 들어, 대상 콘텐츠(370)와 대상 콘텐츠(370)로부터 추출된 주제가 있을 때, 프로세서(240)는 대상 콘텐츠(370)로부터 [수학식 1]과 같이 m개의 동사에 대한 가중치를 산출하고 이를 이용하여 동사적 속성을 생성할 수 있다. 이때, [수학식 1]에서 p는 대상 콘텐츠(370), c는 대상 콘텐츠(370)로부터 추출된 특정 주제이다. 또한,
Figure pat00002
는 동사적 속성이다. 또한, w n w n 는 동사적 속성에 포함된 n번째 동사(v n )의 가중치이다.
Figure pat00003
예를 들어, 동사적 속성에 포함된 특정 동사에 대한 가중치는 [수학식 2]와 같이 코사인 유사도(cosine similarity)에 기초하여 산출될 수 있다. 이외에도 프로세서(240)는 자카드 상관계수(jaccard coefficient), 다이스 상관계수(dice coefficient) 및 허밍 거리(Humming distance) 등을 이용하여 가중치를 산출될 수 있으나, 이에 한정된 것은 아니다.
이때, [수학식 2]에서
Figure pat00004
는 대상 콘텐츠(370)에 포함된 복수의 단어 벡터, d n 는 의미론적으로 확장된 콘텐츠를 포함하는 동사 문서(verb document)의 집합이다.
동사 문서는 특정 동사의 문맥(context)에 기초하여 생성되는 것이다. 예를 들어, 동사 문서는 특정 동사와 의미론적으로 유사한 단어에 대한 문서를 포함할 수 있다. 그러므로 프로세서(240)는 해당 동사를 의미론적으로 확장하여 동사 문서를 생성할 수 있다. 이때, 프로세서(240)는 미리 정의된 사전 또는 을 사용할 수 있다.
예를 들어, 프로세서(240)는 워드넷에서 해당 동사와 매칭되는 동의어(synonym), 정의(definition) 및 예제문(example sentence)를 추출할 수 있다. 그리고 프로세서(240)는 추출된 동의어, 정의 및 예제문 등을 이용하여 동사 문서를 생성할 수 있다.
이와 같이, 가중치를 측정하고자 하는 동사에 대한 동사 문서를 이용하므로, 프로세서(240)는 대상 페이지 내에 가중치를 산출하고자 하는 특정 동사가 포함되지 않더라도, 의미론적으로 유사한 단어에 기초하여 가중치를 산출할 수 있다.
예를 들어, 특정 콘텐츠 "Ramapo College of New Jersey Search for collages online"와 주제 "top/reference/education/college" 및 "university/college life"가 있고, 해당 주제에 연관된 동사 "apply"가 있을 때, 특정 콘텐츠는 연관된 동사를 포함하고 있지 않다. 그러나 프로세서(240)는 연관된 동사로부터 추출된 동사 문서를 이용하여, 특정 콘텐츠와 동사 "apply" 간의 가중치를 산출할 수 있다.
프로세서(240)는 동사 수준의 주제 추론 모듈(520)을 통하여, 대상 콘텐츠(370)로부터 추출된 주제와 해당 주제에 매칭되는 동사적 속성을 이용하여 대상 콘텐츠(370)에 대한 동사 수준의 주제를 생성할 수 있다.
한편, 대상 콘텐츠(370)의 동사 수준의 주제가 생성된 이후, 프로세서(240)는 콘텐츠 추출 모듈(330)을 통하여 복수의 후보 콘텐츠 중 대상 콘텐츠(370)와 매칭되는 하나 이상의 콘텐츠를 추출할 수 있다.
이때, 후보 콘텐츠는 콘텐츠 데이터베이스(340)에 저장된 것일 수 있다. 예를 들어, 후보 콘텐츠는 콘텐츠 데이터베이스(340)에 저장된 복수의 콘텐츠 중 사용자가 아직 소비하지 않은 콘텐츠이거나, 신규 콘텐츠일 수 있다. 또는, 후보 콘텐츠는 콘텐츠 제공 서버(210)의 관리자가 미리 설정한 콘텐츠 일 수 있으나, 이에 한정된 것은 아니다. 또한, 후보 콘텐츠는 앞에서 도 5를 참조하여 설명한 바와 같은 과정을 통하여 동사 수준의 주제가 추론된 것일 수 있다.
콘텐츠 추출 모듈(330)은 이하에서 도 6을 참조하여 상세히 설명한다.
도 6은 본 발명의 일 실시예에 따른 콘텐츠 추출 모듈(330)의 블록도이다.
콘텐츠 추출 모듈(330)은 세부 모듈로 주제적 유사도 산출 모듈(600), 동사적 유사도 산출 모듈(610), 동사 수준의 주제적 유사도 산출 모듈(620) 및 스코어 산출 모듈(630)을 포함할 수 있다.
프로세서(240)는 주제적 유사도 산출 모듈(600)을 통하여 대상 콘텐츠(370) 및 후보 콘텐츠 간의 주제적 유사도를 산출할 수 있다.
예를 들어, 프로세서(240)는 수학식 3에 기초하여, 주제적 유사도를 산출할 수 있다.
Figure pat00005
[수학식 3]에서 p는 대상 콘텐츠(370), PC는 대상 콘텐츠(370)로부터 추출된 하나 이상의 주제를 포함하는 주제 집합이다. 또한, a는 후보 콘텐츠, AC는 후보 콘텐츠로부터 추출된 하나 이상의 주제를 포함하는 주제 집합이다.
또한, sim t는 대상 콘텐츠(370)로부터 추출된 주제 및 후보 콘텐츠로부터 추출된 주제 간의 유사도를 산출하는 함수이다. 예를 들어, sim t는 PageRank 알고리즘 또는 가중치가 고려된 PageRank 알고리즘에 기초한 것일 수 있으나, 이에 한정된 것은 아니다.
또한, cw는 각 주제에 대한 분류 점수를 산출하는 함수이다. 이때, 분류 점수는 주제 분류 트리(360)를 통하여 기생성된 분류기(classify)를 통하여 산출되는 것일 수 있다. 또는, 분류 점수는 주제 분류 트리(360)에 포함된 각 주제 및 각 주제에 대응하는 복수의 콘텐츠에 기초하여 기설정된 것일 수 있으나, 이에 한정된 것은 아니다.
예를 들어, 분류 점수는 기계학습(machine learning) 알고리즘 또는 분류(classification) 기법에 기초하여 생성된 분류기를 통하여 산출될 수 있다. 또는, 분류 점수는 TF-IDF(term frequency - inverse document frequency) 등에 기초하여 산출될 수 있다.
또한, 프로세서(240)는 동사적 유사도 산출 모듈(610)을 통하여, 대상 콘텐츠(370) 및 후보 콘텐츠 간의 동사적 유사도를 산출할 수 있다. 예를 들어, 프로세서(240)는 [수학식 4]에 기초하여 대상 콘텐츠(370) 및 후보 콘텐츠 간의 동사적 유사도를 산출할 수 있다.
Figure pat00006
[수학식 4]에서 sim v는 대상 콘텐츠(370)로부터 추출된 주제에 대한 동사적 속성 및 후보 콘텐츠로부터 추출된 주제에 대한 동사적 속성 간의 유사도를 산출하는 함수이다. 예를 들어, sim t는 cos 유사도일 수 있으나, 이에 한정된 것은 아니다.
이때, 동사적 속성은 주제와 연관되어 추출되는 것이다.
예를 들어, 제 1 콘텐츠의 주제가 "basketball"이고 동사가 "play"이며, 제 1 후보 콘텐츠의 주제가 "music"이고 동사가 "play"인 경우, 제 1 콘텐츠 및 제 1 후보 콘텐츠는 동사 간의 유사성은 높지만, 주제 간의 유사성이 낮을 수 있다. 또한, 제 2 후보 콘텐츠의 주제가 "baseball"이고, 동사가 "play"이면, 제 1 콘텐츠 및 제 2 후보 콘텐츠는 주제 및 동사적 속성 간 유사도가 모두 높을 수 있다.
그러므로 본 발명의 일 실시예에 따른 동사적 유사도는 주제와 연관 되는 동사뿐만 아니라 해당 동사적 속성을 산출하기 위하여 사용되는 주제에 대한 유사도를 반영할 수 있다.
프로세서(240)는 [수학식 4]에 기초하여, 주제 간의 유사도 및 동사적 속성 간의 유사도를 모두 반영하여 동사적 유사도를 산출할 수 있다. 즉, [수학식 4]를 참조하면, 프로세서(240)는 동사적 속성 간의 유사도에 주제 간의 유사도를 곱하여 대상 콘텐츠(370)의 주제에 대한 연관성이 동사적 유사도에 반영되도록 할 수 있다.
한편, 대상 콘텐츠(370) 및 후보 콘텐츠에 대한 주제적 유사도 및 동사적 유사도가 산출되면, 프로세서(240)는 동사 수준의 주제적 유사도 산출 모듈(620)을 통하여, 대상 콘텐츠(370) 및 후보 콘텐츠 간의 동사 수준의 주제적 유사도를 산출할 수 있다. 이때, 프로세서(240)는 [수학식 5]에 기초하여 동사 수준의 주제적 유사도를 산출할 수 있다.
Figure pat00007
[수학식 5]에서 β는 동사적 유사도에 대한 가중치이다. 이때, β는 0과 1 사이의 실수가 될 수 있다. 예를 들어, β는 0.2가 될 수 있다.
즉, [수학식 5]를 참조하면, 프로세서(240)는 대상 콘텐츠(370) 및 후보 콘텐츠 간의 주제적 유사도에 대한 가중치를 1로 설정하고, 동사적 유사도에 대한 가중치를 주제적 유사도에 대한 가중치보다 작은 값인 0 초과, 1 미만의 실수 값으로 설정할 수 있다. 그러므로 프로세서(240)는 [수학식 5]를 통하여 주제적 유사도가 높은 후보 콘텐츠의 동사 수준의 주제적 유사도가 동사적 유사도가 높은 후보 콘텐츠의 동사 수준의 주제적 유사도보다 높게 산출될 수 있도록 설정할 수 있다.
이를 통하여, 프로세서(240)는 대상 콘텐츠(370)와 주제가 매칭되는 후보 콘텐츠가 충분히 존재하는 경우 주제적 유사도를 동사적 유사도보다 비중 높게 고려하여 후보 콘텐츠 중 사용자 단말(260)에 제공할 콘텐츠를 선택할 수 있다.
또한, 프로세서(240)는 대상 콘텐츠(370)의 주제와 매칭되는 후보 콘텐츠가 적거나, 존재하지 않더라도 동사적 유사도에 기초하여 사용자 단말(260)에 제공할 콘텐츠를 선택할 수 있다.
한편, 프로세서(240)는 스코어 산출 모듈(630)을 통하여, 최종적인 후보 콘텐츠에 대한 스코어를 산출할 수 있다. 그리고 프로세서(240)는 스코어가 산출된 복수의 후보 콘텐츠 중 스코어가 높은 순으로 미리 정해진 개수를 선택하여 사용자 단말(260)에 제공할 수 있다.
예를 들어, 프로세서(240)는 대상 콘텐츠(370) 및 후보 콘텐츠 간의 묵시적(implicit) 정보인 의미적 유사도(semantic relevance) 및 명시적(explicit) 정보인 구문적 유사도(syntactic relevance)의 선형 결합을 통하여 최종적인 스코어를 산출할 수 있다. 이때, 의미적 유사도는 앞에서 설명한 동사 수준의 주제적 유사도가 될 수 있다.
스코어는 [수학식 6]을 통하여 산출될 수 있다.
Figure pat00008
[수학식 6]에서 score keyword 는 대상 콘텐츠(370) 및 후보 콘텐츠에 각각 포함된 키워드에 기초하여 산출되는 구문적 유사도일 수 있다. 예를 들어, score keyword 는 TF-IDF에 기초하여 산출된 스코어일 수 있다.
또한, α는 의미적 유사도 및 구문적 유사도의 상대적 가중치이다. 이때, α는 0 이상 1 이하의 실수 값을 가질 수 있다. 예를 들어, α는 0.8이 될 수 있다.
한편, 본 발명의 다른 실시예에 다른 콘텐츠는 멀티미디어 콘텐츠일 수 있다.
예를 들어, 멀티미디어 콘텐츠는 동영상 콘텐츠, 이미지 콘텐츠, 사진 콘텐츠, 음악 콘텐츠 및 사운드 콘텐츠 등을 포함할 수 있다. 또한, 멀티미디어 콘텐츠는 해당 멀티미디어 콘텐츠의 설명, 제목, 주제, 생성자 정보, 크기 정보, 해상도 정보, 장비 정보 등의 메타 정보를 포함할 수 있다.
프로세서(240)는 사용자가 선택한 대상 멀티미디어 콘텐츠의 메타 정보로부터 주제 및 해당 주제에 대응하는 동사적 속성을 추출할 수 있다. 프로세서(240)는 주제 및 동사적 속성에 기초하여 동사 수준의 주제를 추론할 수 있다.
그리고 프로세서(240)는 복수의 후보 멀티미디어 콘텐츠의 메타 정보를 통하여 추출된 동사 수준의 주제와 대상 멀티미디어 콘텐츠의 동사 수준 주제에 기초하여, 하나 이상의 후보 멀티미디어 콘텐츠를 추출할 수 있다. 프로세서(240)는 추출된 하나 이상의 후보 멀티미디어 콘텐츠를 사용자 단말(260)을 통하여 사용자에게 제공할 수 있다.
다음은 도 7을 참조하여 본 발명의 일 실시예에 따른 콘텐츠 제공 서버(210)에서의 문맥 정보에 기초한 콘텐츠 매칭 방법을 설명한다.
도 7은 본 발명의 일 실시예에 따른 콘텐츠 제공 서버(210)에서의 문맥 정보에 기초한 콘텐츠 매칭 방법의 순서도이다.
콘텐츠 제공 서버(210)는 대상 콘텐츠(370)로부터 주제 및 주제에 대응하는 복수의 동사를 포함하는 동사적 속성을 추출한다(S800). 이때, 주제에 대응하는 복수의 동사는 연관 동사 집합(350)으로부터 추출된다.
구체적으로 콘텐츠 제공 서버(210)는 주제에 대응하는 각 동사에 대한 동사 문서를 생성할 수 있다. 이때, 동사 문서는 동사에 대한 정의, 동사에 대한 동의어, 및 동사에 대한 예제문을 포함할 수 있다.
또한, 콘텐츠 제공 서버(210)는 대상 콘텐츠(370) 및 각 동사에 대한 동사 문서에 기초하여 각 동사에 대한 유사도를 산출할 수 잇다. 콘텐츠 제공 서버(210)는 각 동사에 대하여 산출된 유사도가 포함되도록 동사적 속성을 생성할 수 있다.
그리고 콘텐츠 제공 서버(210)는 주제 및 동사적 속성에 기초하여 대상 콘텐츠(370)에 대한 동사 수준의 주제를 추론한다(S810).
콘텐츠 제공 서버(210)는 대상 콘텐츠(370)에 대한 동사 수준의 주제에 기초하여 복수의 후보 콘텐츠 중 대상 콘텐츠(370)와 매칭되는 하나 이상의 콘텐츠를 추출한다(S820).
한편, 콘텐츠 제공 서버(210)는 동사적 속성을 추출하는 단계 이전에, 주제 분류 트리(360)에 포함된 각 주제에 대한 콘텐츠로부터 하나 이상의 동사를 추출할 수 있다. 그리고 콘텐츠 제공 서버(210)는 각 주제 및 각 주제로부터 추출된 하나 이상의 동사를 매칭하여, 연관 동사 집합(350)을 생성할 수 있다.
본 발명의 일 실시예에 따른 문맥 정보에 기반한 콘텐츠 제공 서버(210) 및 방법은 콘텐츠로부터 추출된 주제적 연관성 및 동사적 연관성에 기초하여 사용자에 대한 맞춤형 콘텐츠를 추출할 수 있다. 또한, 문맥 정보에 기반한 콘텐츠 제공 서버(210) 및 방법은 구문적 유사도 및 의미적 유사도를 상호보완적으로 고려할 수 있다. 그러므로 문맥 정보에 기반한 콘텐츠 제공 서버(210) 및 방법은 사용자가 원하는 콘텐츠를 빠르고 정확하게 제공할 수 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
200: 콘텐츠 제공 시스템
210: 콘텐츠 제공 서버
220: 통신 모듈
230: 메모리
240: 프로세서
250: 제공자 서버
260: 사용자 단말
270: 데이터베이스

Claims (14)

  1. 문맥 정보에 기반한 콘텐츠 제공 서버에 있어서,
    콘텐츠 제공 프로그램이 저장된 메모리, 및
    상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하되,
    상기 프로세서는 상기 프로그램의 실행에 따라, 대상 콘텐츠로부터 주제 및 상기 주제에 대응하는 복수의 동사를 포함하는 동사적 속성을 추출하고,
    상기 주제 및 상기 동사적 속성에 기초하여 상기 대상 콘텐츠에 대한 동사 수준의 주제를 추론하며,
    상기 대상 콘텐츠에 대한 동사 수준의 주제에 기초하여 복수의 후보 콘텐츠 중 상기 대상 콘텐츠와 매칭되는 하나 이상의 콘텐츠를 추출하되,
    상기 주제에 대응하는 복수의 동사는 연관 동사 집합으로부터 추출되는 것인, 콘텐츠 제공 서버.
  2. 제 1 항에 있어서,
    상기 프로세서는 주제 분류 트리에 포함된 각 주제에 대한 콘텐츠로부터 하나 이상의 동사를 추출하고,
    상기 각 주제 및 상기 각 주제로부터 추출된 하나 이상의 동사를 매칭하여, 상기 연관 동사 집합을 생성하는, 콘텐츠 제공 서버.
  3. 제 1 항에 있어서,
    상기 프로세서는 상기 주제에 대응하는 각 동사에 대한 동사 문서를 생성하고,
    상기 대상 콘텐츠 및 상기 각 동사에 대한 동사 문서에 기초하여 상기 각 동사에 대한 유사도를 산출하고, 상기 각 동사에 대하여 산출된 유사도가 포함되도록 상기 동사적 속성을 생성하되,
    상기 동사 문서는 상기 동사에 대한 정의, 상기 동사에 대한 동의어, 및 상기 동사에 대한 예제문을 포함하는, 콘텐츠 제공 서버.
  4. 제 1 항에 있어서,
    상기 프로세서는 각 후보 콘텐츠의 동사 수준의 주제와 상기 대상 콘텐츠의 동사 수준의 주제에 기초하여 상기 각 후보 콘텐츠에 대한 제 1 유사도를 산출하고,
    상기 각 후보 콘텐츠의 제 1 유사도에 기초하여 상기 대상 콘텐츠와 매칭되는 하나 이상의 후보 콘텐츠를 추출하는 것인, 콘텐츠 제공 서버.
  5. 제 4 항에 있어서,
    상기 프로세서는 상기 각 후보 콘텐츠에 대응하는 주제 및 상기 대상 콘텐츠에 대응하는 주제에 기초하여 상기 각 후보 콘텐츠에 대한 제 2 유사도를 산출하고,
    상기 각 후보 콘텐츠에 대응하는 동사적 속성 및 상기 대상 콘텐츠에 대응하는 동사적 속성에 기초하여 상기 각 후보 콘텐츠에 대한 제 3 유사도를 산출하고,
    상기 각 후보 콘텐츠에 대한 제 2 유사도 및 상기 각 후보 콘텐츠에 대한 제 3 유사도에 기초하여, 상기 각 후보 콘텐츠에 대한 제 1 유사도를 산출하는, 콘텐츠 제공 서버.
  6. 제 5 항에 있어서,
    상기 프로세서는 상기 각 후보 콘텐츠에 대한 제 3 유사도에 미리 정해진 가중치를 적용한 이후, 상기 각 후보 콘텐츠에 대한 제 2 유사도 및 상기 가중치가 적용된 각 후보 콘텐츠에 대한 제 3 유사도를 병합하여 상기 각 후보 콘텐츠에 대한 제 1 유사도를 산출하되,
    상기 미리 정해진 가중치는 0 초과 1 미만의 실수 값인, 콘텐츠 제공 서버.
  7. 제 6 항에 있어서,
    상기 제 1 유사도는 상기 제 2 유사도, 상기 제 3 유사도 및 하기 수학식에 기초하여 산출되는 것인, 콘텐츠 제공 서버.
    [수학식]
    Figure pat00009

    이때, p는 상기 대상 콘텐츠,
    a는 후보 콘텐츠,
    relevance(p, a)는 상기 제 1 유사도,
    relevance t (p, a)는 상기 제 2 유사도,
    relevance v (p, a): 상기 제 3 유사도,
    β는 미리 설정된 가중치임.
  8. 제 4 항에 있어서,
    상기 프로세서는 상기 각 후보 콘텐츠와 상기 대상 콘텐츠에 대한 구문적 유사도를 산출하고,
    상기 각 후보 콘텐츠에 대한 제 1 유사도 및 상기 각 후보 콘텐츠에 대응하여 구문적 유사도에 기초하여 상기 각 후보 콘텐츠에 대응하는 스코어를 산출하고,
    상기 스코어가 큰 순으로 상기 대상 콘텐츠와 매칭되는 하나 이상의 후보 콘텐츠를 추출하는 것인, 콘텐츠 제공 서버.
  9. 제 1 항에 있어서,
    상기 대상 콘텐츠는 웹 페이지 콘텐츠이고,
    상기 후보 콘텐츠는 웹 페이지 콘텐츠, 멀티미디어 콘텐츠 및 광고 콘텐츠 중 적어도 하나인, 콘텐츠 제공 서버.
  10. 제 1 항에 있어서,
    상기 대상 콘텐츠 및 상기 후보 콘텐츠는 멀티미디어 콘텐츠이며,
    상기 프로세서는 상기 대상 콘텐츠에 포함된 메타 정보로부터 상기 대상 콘텐츠에 대한 동사 수준의 주제를 추론하여 상기 대상 콘텐츠와 매칭되는 하나 이상의 후보 콘텐츠를 추출하는 것인, 콘텐츠 제공 서버.
  11. 콘텐츠 제공 서버에서의 문맥 정보에 기초한 콘텐츠 추출 방법에 있어서,
    대상 콘텐츠로부터 주제 및 상기 주제에 대응하는 복수의 동사를 포함하는 동사적 속성을 추출하는 단계;
    상기 주제 및 상기 동사적 속성에 기초하여 상기 대상 콘텐츠에 대한 동사 수준의 주제를 추론하는 단계; 및
    상기 대상 콘텐츠에 대한 동사 수준의 주제에 기초하여 복수의 후보 콘텐츠 중 상기 대상 콘텐츠와 매칭되는 하나 이상의 콘텐츠를 추출하는 단계를 포함하되,
    상기 주제에 대응하는 복수의 동사는 연관 동사 집합으로부터 추출되는 것인, 콘텐츠 추출 방법.
  12. 제 11 항에 있어서,
    상기 동사적 속성을 추출하는 단계 이전에, 주제 분류 트리에 포함된 각 주제에 대한 콘텐츠로부터 하나 이상의 동사를 추출하는 단계; 및
    상기 각 주제 및 상기 각 주제로부터 추출된 하나 이상의 동사를 매칭하여, 상기 연관 동사 집합을 생성하는 단계를 더 포함하는, 콘텐츠 추출 방법.
  13. 제 11 항에 있어서,
    상기 동사적 속성을 추출하는 단계는,
    상기 주제에 대응하는 각 동사에 대한 동사 문서를 생성하는 단계;
    상기 대상 콘텐츠 및 상기 각 동사에 대한 동사 문서에 기초하여 상기 각 동사에 대한 유사도를 산출하는 단계;
    상기 각 동사에 대하여 산출된 유사도가 포함되도록 상기 동사적 속성을 생성하는 단계를 포함하되,
    상기 동사 문서는 상기 동사에 대한 정의, 상기 동사에 대한 동의어, 및 상기 동사에 대한 예제문을 포함하는, 콘텐츠 추출 방법.
  14. 제 11 항 내지 제 13 항 중 어느 한 항에 기재된 방법을 컴퓨터 상에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020170003097A 2017-01-09 2017-01-09 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법 KR101928074B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170003097A KR101928074B1 (ko) 2017-01-09 2017-01-09 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법
US15/866,029 US10380244B2 (en) 2017-01-09 2018-01-09 Server and method for providing content based on context information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170003097A KR101928074B1 (ko) 2017-01-09 2017-01-09 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법

Publications (2)

Publication Number Publication Date
KR20180082035A true KR20180082035A (ko) 2018-07-18
KR101928074B1 KR101928074B1 (ko) 2019-02-26

Family

ID=62782927

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170003097A KR101928074B1 (ko) 2017-01-09 2017-01-09 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법

Country Status (2)

Country Link
US (1) US10380244B2 (ko)
KR (1) KR101928074B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102314007B1 (ko) * 2020-12-01 2021-10-15 남상훈 인공지능을 이용한 사용자 맞춤형 강의 제공 시스템
KR102596842B1 (ko) * 2023-05-19 2023-11-02 주식회사 코딧 규제정보를 포함하는 이슈별 정보계층트리를 생성하는 방법, 컴퓨터-판독가능 기록매체 및 이를 수행하는 컴퓨팅시스템
KR102625553B1 (ko) * 2023-05-19 2024-01-16 주식회사 코딧 입력된 쿼리와 관련된 규제법률조항을 도출하는 방법, 컴퓨터-판독가능 기록매체 및 이를 수행하는 컴퓨팅시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150032147A (ko) * 2013-09-16 2015-03-25 고려대학교 산학협력단 사용자 의도 추론에 기반한 휴대용 단말 장치 및 이를 이용한 컨텐츠 추천 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010107327A1 (en) * 2009-03-20 2010-09-23 Syl Research Limited Natural language processing method and system
KR101712988B1 (ko) * 2010-09-10 2017-03-07 삼성전자주식회사 이동통신 단말기에서 인터넷 서비스 제공 방법 및 장치
US20140046976A1 (en) * 2012-08-11 2014-02-13 Guangsheng Zhang Systems, methods, and user interface for effectively presenting information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150032147A (ko) * 2013-09-16 2015-03-25 고려대학교 산학협력단 사용자 의도 추론에 기반한 휴대용 단말 장치 및 이를 이용한 컨텐츠 추천 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102314007B1 (ko) * 2020-12-01 2021-10-15 남상훈 인공지능을 이용한 사용자 맞춤형 강의 제공 시스템
KR102596842B1 (ko) * 2023-05-19 2023-11-02 주식회사 코딧 규제정보를 포함하는 이슈별 정보계층트리를 생성하는 방법, 컴퓨터-판독가능 기록매체 및 이를 수행하는 컴퓨팅시스템
KR102625553B1 (ko) * 2023-05-19 2024-01-16 주식회사 코딧 입력된 쿼리와 관련된 규제법률조항을 도출하는 방법, 컴퓨터-판독가능 기록매체 및 이를 수행하는 컴퓨팅시스템

Also Published As

Publication number Publication date
US20180196794A1 (en) 2018-07-12
KR101928074B1 (ko) 2019-02-26
US10380244B2 (en) 2019-08-13

Similar Documents

Publication Publication Date Title
Kolomiyets et al. A survey on question answering technology from an information retrieval perspective
Bethard et al. Who should I cite: learning literature search models from citation behavior
KR101040119B1 (ko) 콘텐츠 검색 장치 및 방법
US20090254540A1 (en) Method and apparatus for automated tag generation for digital content
Atkinson et al. Rhetorics-based multi-document summarization
Bellot et al. INEX Tweet Contextualization task: Evaluation, results and lesson learned
US20190205385A1 (en) Method of and system for generating annotation vectors for document
Boston et al. Wikimantic: Toward effective disambiguation and expansion of queries
KR101928074B1 (ko) 문맥 정보에 기반한 콘텐츠 제공 서버 및 방법
Li et al. A novel methodology for retrieving infographics utilizing structure and message content
Kalloubi et al. Harnessing semantic features for large-scale content-based hashtag recommendations on microblogging platforms
Babekr et al. Personalized semantic retrieval and summarization of web based documents
Mizzaro et al. Short text categorization exploiting contextual enrichment and external knowledge
Wijaya et al. A random walk on the red carpet: rating movies with user reviews and pagerank
Bahloul et al. ArA* summarizer: An Arabic text summarization system based on subtopic segmentation and using an A* algorithm for reduction
Fauzi et al. Image understanding and the web: a state-of-the-art review
Makrynioti et al. PaloPro: a platform for knowledge extraction from big social data and the news
JP6106489B2 (ja) 語義解析装置、及びプログラム
Kanakaraj et al. NLP based intelligent news search engine using information extraction from e-newspapers
Zhuhadar A synergistic strategy for combining thesaurus-based and corpus-based approaches in building ontology for multilingual search engines
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
Ermakova et al. IRIT at INEX: question answering task
Nakatani et al. Quality evaluation of search results by typicality and speciality of terms extracted from wikipedia
Layfield et al. Experiments with document retrieval from small text collections using latent semantic analysis or term similarity with query coordination and automatic relevance feedback
Meiyappan et al. Interactive query expansion using concept-based directions finder based on Wikipedia

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant