KR20180027312A

KR20180027312A - 문서 추천 정보를 제공하는 방법 및 이를 이용하는 문서 추천 정보 제공 장치

Info

Publication number: KR20180027312A
Application number: KR1020170001474A
Authority: KR
Inventors: 송기범; 이연창; 김상욱; 이기천; 염정완; 여장호
Original assignee: 한양대학교 산학협력단; (주)누리미디어
Priority date: 2016-09-06
Filing date: 2017-01-04
Publication date: 2018-03-14
Also published as: KR101866411B1

Abstract

본 발명의 실시 예에 따른 문서 추천 정보를 제공하는 방법은 타겟 사용자가 열람한 전자문서의 내용을 기반으로 제1문서 추천 정보를 생성하는 단계, 상기 전자문서의 인용관계를 기반으로 제2문서 추천 정보를 생성하는 단계 및 상기 제1문서 추천 정보 및 상기 제2문서 추천 정보에 기초하여, 통합 문서 추천 정보를 제공하는 단계를 포함한다.

Description

문서 추천 정보를 제공하는 방법 및 이를 이용하는 문서 추천 정보 제공 장치{METHOD FOR PROVIDING DOCUMENT RECOMMANDATION INFORMATION, AND DEVICE USING THE SAME}

본 발명의 기술적 사상은 문서 추천 정보를 제공하는 방법 및 이를 이용하는 문서 추천 정보 제공 장치에 관한 것으로, 보다 상세하게는 전자문서의 내용을 기반으로 생성된 문서 추천 정보와 상기 전자문서의 인용관계를 기반으로 생성된 문서 추천 정보를 함께 이용하여 통합 문서 추천 정보를 제공할 수 있는 문서 추천 정보를 제공하는 방법 및 이를 이용하는 문서 추천 정보 제공 장치에 관한 것이다.

연구자들은 자신이 연구하고 있는 연구 분야의 동향을 파악하기 위하여 논문, 서적 등의 다양한 전자문서를 검색한다.

하지만, 키워드 검색만으로는 연구자들이 참고하기에 적절한 전자문서를 검색하는 데에 한계가 있다. 이에, 키워드를 통하여 직접 검색하지 못한 전자문서에 대해서도 연구자들이 확인할 수 있도록, 문서 추천 정보를 제공해 주는 기능에 대한 필요성이 대두되고 있다.

본 발명의 기술적 사상에 따른 문서 추천 정보를 제공하는 방법 및 이를 이용하는 문서 추천 정보 제공 장치가 이루고자 하는 기술적 과제는, 전자문서의 내용을 기반으로 생성된 문서 추천 정보와 상기 전자문서의 인용관계를 기반으로 생성된 문서 추천 정보를 함께 이용하여 통합 문서 추천 정보를 제공할 수 있는 문서 추천 정보를 제공하는 데 있다.

본 발명의 기술적 사상에 의한 일 양태에 따른 문서 추천 정보를 제공하는 방법은, 타겟 사용자가 열람한 전자문서의 내용을 기반으로 제1문서 추천 정보를 생성하는 단계, 상기 전자문서의 인용관계를 기반으로 제2문서 추천 정보를 생성하는 단계 및 상기 제1문서 추천 정보 및 상기 제2문서 추천 정보에 기초하여, 통합 문서 추천 정보를 제공하는 단계를 포함할 수 있다.

예시적인 실시 예에 따르면, 상기 통합 문서 추천 정보를 제공하는 단계는, 상기 제1문서 추천 정보와 상기 제2문서 추천 정보 각각에 가중치를 반영함으로써, 상기 통합 문서 추천 정보를 제공할 수 있다.

예시적인 실시 예에 따르면, 상기 가중치는, 상기 전자문서의 내용 및 상기 전자문서의 인용관계 중에서 적어도 어느 하나에 기초하여 결정될 수 있다.

예시적인 실시 예에 따르면, 상기 가중치는, 상기 타겟 사용자에 의해 설정된 추천 모드에 따라 결정될 수 있다.

예시적인 실시 예에 따르면, 상기 제1문서 추천 정보를 생성하는 단계는, 상기 전자문서의 메타데이터(meta data)를 추출하는 단계, 추출된 상기 메타데이터에 기초하여 상기 전자문서와 타 전자문서 간의 유사도를 계산하는 단계 및 계산된 유사도에 기초하여 상기 제1문서 추천 정보를 생성하는 단계를 포함할 수 있다.

예시적인 실시 예에 따르면, 상기 전자문서가 논문인 경우, 상기 메타데이터는 논문의 제목, 초록, 키워드, 및 목차 중의 적어도 어느 하나를 포함할 수 있다.

예시적인 실시 예에 따르면, 상기 제1문서 추천 정보를 생성하는 단계는, 상기 전자문서의 메타데이터를 추출하는 단계 이후에, 추출된 상기 메타데이터의 형태소를 분석하는 단계를 더 포함하고, 상기 유사도를 계산하는 단계는, 분석된 형태소에 기초하여 상기 유사도를 계산할 수 있다.

예시적인 실시 예에 따르면, 상기 유사도를 계산하는 단계는 분석된 형태소를 이용하여 TF-IDF(Term Frequency-Inverse Document Frequency) 값을 계산하고, 계산된 TF-IDF 값에 따라 상기 유사도를 계산할 수 있다.

예시적인 실시 예에 따르면, 상기 제1문서 추천 정보를 생성하는 단계는, 상기 타겟 사용자와 타 사용자 간의 상관 계수를 계산하는 단계, 계산된 상관 계수에 기초하여, 타 사용자들 중에서 상기 타겟 사용자와 전자문서의 열람 패턴이 유사한 유사 사용자를 선택하는 단계, 선택된 유사 사용자가 열람한 전자문서들 중에서 상기 타겟 사용자가 열람하지 않은 전자문서들과, 상기 타겟 사용자가 열람한 상기 전자문서의 유사도를 계산하는 단계 및 계산된 유사도에 기초하여 상기 제1문서 추천 정보를 생성하는 단계를 포함할 수 있다.

예시적인 실시 예에 따르면, 상기 타겟 사용자가 열람한 전자문서들과 상기 타 사용자들이 열람한 전자문서들 간의 공통되는 전자문서의 개수에 기초하여 상기 상관 계수를 결정하는 단계를 더 포함할 수 있다.

예시적인 실시 예에 따르면, 상기 상관 계수를 결정하는 단계는 상기 타겟 사용자가 각 접속 세션(session)의 접속시간 내에서 열람한 전자문서들 각각을 열람한 순서에 기초하여 가중치를 반영시키는 단계를 더 포함할 수 있다.

예시적인 실시 예에 따르면, 상기 제2문서 추천 정보를 생성하는 단계는, 상기 전자문서의 인용관계에 기초하여 상기 전자문서와 상기 전자문서에 의해 인용된 전자문서들 간의 관계를 그래프로 모델링하는 단계, 신뢰 전파 알고리즘(belief propagation algorithm)을 이용하여 모델링 된 그래프를 분석하는 단계, 및 분석 결과에 따른 신뢰값에 기초하여 상기 제2문서 추천 정보를 생성하는 단계를 포함할 수 있다.

예시적인 실시 예에 따르면, 상기 타겟 사용자의 전자문서 열람 정보에 기초하여 상기 모델링 된 그래프의 노드 프라이어를 설정할 수 있다.

예시적인 실시 예에 따르면, 상기 전자문서 열람 정보는, 상기 타겟 사용자가 직접 열람한 전자문서 그룹, 상기 직접 열람한 전자문서와 함께 열람한 전자문서 그룹, 및 그 외 전자문서 그룹 각각에 대한 정보로 구분될 수 있다.

본 발명의 기술적 사상에 의한 일 양태에 따른 문서 추천 정보 제공 장치는 타겟 사용자가 열람한 전자문서의 내용을 기반으로 제1문서 추천 정보를 생성하는 제1추천정보 생성모듈, 상기 전자문서의 인용관계를 기반으로 제2문서 추천 정보를 생성하는 제2추천정보 생성모듈 및 상기 제1문서 추천 정보 및 상기 제2문서 추천 정보에 기초하여, 통합 문서 추천 정보를 제공하는 통합 추천정보 생성모듈을 포함할 수 있다.

본 발명의 기술적 사상에 의한 실시 예들에 따른 방법과 장치는 전자문서의 내용을 기반으로 생성된 문서 추천 정보와 상기 전자문서의 인용관계를 기반으로 생성된 문서 추천 정보를 함께 이용하여 통합 문서 추천 정보를 제공함으로써 전자문서의 내용과 인용관계에 따른 최적의 추천 정보를 제공할 수 있는 효과가 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 기술적 사상에 의한 일 실시 예에 따른 문서 추천 정보 제공 시스템의 블록도이다.
도 2는 본 발명의 기술적 사상에 의한 일 실시 예에 따른 문서 추천 정보 제공 방법의 플로우차트이다.
도 3은 도 1의 문서 추천 정보 제공 장치가 일 실시 예에 따라 전자문서의 내용을 기반으로 제1문서 추천 정보를 생성하는 방법을 설명하기 위한 도면이다.
도 4는 도 1의 문서 추천 정보 제공 장치가 일 실시 예에 따라 전자문서의 인용 관계를 기반으로 제2문서 추천 정보를 생성하기 위해 모델링한 그래프이다.
도 5는 도 4의 모델링된 그래프를 통하여 제2문서 추천 정보를 생성하기 위해 사용되는 파급 행렬을 나타낸 도면이다.

본 발명의 기술적 사상은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명의 기술적 사상을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 기술적 사상의 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 발명의 기술적 사상을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 기술적 사상의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

또한, 본 명세서에 기재된 "~부", "~기", "~자", "~모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

그리고 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.

이하, 본 발명의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.

도 1은 본 발명의 기술적 사상에 의한 일 실시 예에 따른 문서 추천 정보 제공 시스템의 블록도이다.

도 1을 참조하면, 문서 추천 정보 제공 시스템(10)은 사용자 단말(100)과 문서 추천 정보 제공 장치(200)를 포함할 수 있다.

사용자 단말(100)은 문서 추천 정보 제공 장치(200)와 유, 무선 통신을 통하여 전자문서를 열람할 수 있으며, 문서 추천 정보 제공 장치(200)로부터 문서 추천 정보를 제공받을 수 있다.

본 명세서에서 '열람'은 온라인 상의 전자문서의 내용을 확인하기 위한 모든 동작을 폭넓게 의미할 수 있으며, 단순히 온라인 상에서 전자문서를 확인하는 동작 뿐 아니라 온라인 상의 전자문서를 다운로드(download)하는 동작도 포함할 수 있다.

실시 예에 따라, 사용자 단말(100)은 PC, 태블릿(tablet) PC, 스마트폰 등의 문서 추천 정보 제공 장치(200)와 통신 가능한 장치로 구현될 수 있으며, 이에 한정되는 것은 아니다.

문서 추천 정보 제공 장치(200)는 전자문서 데이터베이스(210), 열람정보 데이터베이스(220), 제1추천정보 생성모듈(230), 제2추천정보 생성모듈(240), 가중치 설정모듈(250), 및 통합 추천정보 생성모듈(260)을 포함할 수 있다.

전자문서 데이터베이스(210)는 다양한 문서, 예컨대 논문 등을 전자문서 형태로 저장할 수 있다. 이 때, 사용자 단말(100)은 전자문서 데이터베이스(210)에 액세스하여 전자문서를 열람할 수 있다.

열람정보 데이터베이스(220)는 사용자 단말(100)의 액세스를 통하여 사용자가 열람한 전자문서에 관한 열람정보를 저장할 수 있다.

실시 예에 따라, 문서 추천 정보 제공 장치(200)는 전자문서 데이터베이스(210)에 저장되어 있는 전자문서 중에서 어떤 전자문서에 사용자 단말(100)이 액세스 하였는지를 판단하기 위한 모듈을 더 포함할 수도 있다.

제1추천정보 생성모듈(230)은 타겟 사용자가 열람한 전자문서에 관한 열람정보 및 타겟 사용자가 열람한 전자문서 각각을 열람정보 데이베이스(220) 및 전자문서 데이터베이스(210) 각각으로부터 수신할 수 있다.

제1추천정보 생성모듈(230)은 타겟 사용자가 열람한 전자문서의 내용을 기반으로 제1문서 추천 정보를 생성하고, 생성된 제1문서 추천 정보를 통합 추천정보 생성모듈(260)로 전송할 수 있다.

제2추천정보 생성모듈(240)은 타겟 사용자가 열람한 전자문서의 인용관계를 기반으로 제2문서 추천 정보를 생성하고, 생성된 제2문서 추천 정보를 통합 추천정보 생성 모듈(260)로 전송할 수 있다.

가중치 설정모듈(250)은 제1추천정보 생성모듈(230)에 의해 생성된 제1문서 추천 정보와 제2추천정보 생성모듈(240)에 의해 생성된 제2문서 추천 정보에 적용할 가중치 값을 생성할 수 있다.

실시 예에 따라, 가중치 설정모듈(250)은 타겟 사용자가 열람한 전자문서의 내용 및 인용관계 중에서 적어도 어느 하나에 기초하여 가중치 값을 생성할 수 있다.

예컨대, 가중치 설정모듈(250)은 전자문서의 인용관계에 기초하여 해당 전자문서를 인용한 타 전자문서의 개수에 따라 가중치 값을 생성할 수 있다. 이 경우, 가중치 설정모듈(250)은 해당 전자문서를 인용한 타 전자문서의 개수가 많을수록 제2문서 추천 정보에 상대적으로 높은 가중치를 부여하고, 해당 전자문서를 인용한 타 전자문서의 개수가 적을수록 제1문서 추천 정보에 상대적으로 낮은 가중치를 부여할 수 있다.

예컨대, 가중치 설정모듈(250)이 전자문서의 내용에 기초하여 가중치 값을 생성하는 경우, 전자문서의 내용의 구체도에 따라 가중치 값을 생성할 수 있다. 이 경우, 가중치 설정모듈(250)은 해당 전자문서의 내용의 구체도가 높을수록 제1문서 추천 정보에 상대적으로 높은 가중치를 부여하고, 해당 전자문서의 내용의 구체도가 낮을수록 제2문서 추천 정보에 상대적으로 높은 가중치를 부여할 수 있다. 전자문서의 내용의 구체도는 해당 전자문서와 타 전자문서를 비교하였을 때 해당 전자문서에만 포함되어 있는 키워드의 개수 등에 기반하여 다양한 방법으로 계산될 수 있다.

다른 실시 예에 따라, 가중치 설정모듈(250)은 타겟 사용자에 의해 설정된 추천 모드에 따라 가중치 값을 생성할 수 있다.

예컨대, 타겟 사용자가 내용 위주의 추천 모드를 선택한 경우 가중치 설정모듈(250)은 제1문서 추천 정보에 상대적으로 높은 가중치를 부여하고, 타겟 사용자가 인용관계 위주의 추천 모드를 선택한 경우 가중치 설정모듈(250)은 제2문서 추천 정보에 상대적으로 높은 가중치를 부여할 수 있다.

통합 추천정보 생성모듈(260)은 제1추천정보 생성모듈(230)로부터 전송된 제1문서 추천 정보와 제2추천정보 생성모듈(240)로부터 전송된 제2문서 추천 정보에 기초하여 통합 문서 추천 정보를 사용자 단말(100)로 제공할 수 있다.

실시 예에 따라, 통합 추천정보 생성모듈(260)은 제1문서 추천 정보와 제2문서 추천 정보 각각에 가중치 설정모듈(250)로부터 전송된 가중치 값을 반영하여 통합 문서 추천 정보를 생성할 수 있다.

제1추천정보 생성모듈(230), 제2추천정보 생성모듈(240), 통합 추천정보 생성모듈(260)의 구체적인 동작에 대해서는 도 2 내지 도 5를 참조하여 상세히 설명된다.

도 2는 본 발명의 기술적 사상에 의한 일 실시 예에 따른 문서 추천 정보 제공 방법의 플로우차트이다. 도 3은 도 1의 문서 추천 정보 제공 장치가 일 실시 예에 따라 전자문서의 내용을 기반으로 제1문서 추천 정보를 생성하는 방법을 설명하기 위한 도면이다. 도 4는 도 1의 문서 추천 정보 제공 장치가 일 실시 예에 따라 전자문서의 인용 관계를 기반으로 제2문서 추천 정보를 생성하기 위해 모델링한 그래프이다. 도 5는 도 4의 모델링된 그래프를 통하여 제2문서 추천 정보를 생성하기 위해 사용되는 파급 행렬을 나타낸 도면이다.

도 1과 도 2를 참조하면, 제1추천정보 생성모듈(230)은 타겟 사용자가 열람한 전자문서의 메타데이터를 추출할 수 있다(S10). 실시 예에 따라, 전자문서가 논문인 경우, 메타데이터는 논문의 제목, 초록, 키워드, 또는 목차 중에서 적어도 어느 하나를 포함할 수 있다.

제1추천정보 생성모듈(230)은 추출된 메타데이터의 형태소를 분석할 수 있다(S12). 실시 예에 따라, 제1추천정보 생성모듈(230)은 해당 전자문서에 사용된 언어의 종류에 따라 서로 다른 방법으로 형태소를 분석할 수 있다.

예컨대, 제1추천정보 생성모듈(230)은, 전자문서에 사용된 언어가 한글인 경우 메타데이터의 명사를 구분하여 분석하며, 전자문서에 사용된 언어가 영어인 경우 메타데이터의 모든 품사의 단어를 스테밍(stemming) 처리하여 분석하고, 전자문서에 사용된 언어가 그 외의 언어인 경우 메타데이터의 어절을 구분하여 분석할 수 있다.

제1추천정보 생성모듈(230)은 S12 단계에서 분석된 형태소에 기초하여 타겟 사용자가 열람한 전자문서와 타 전자문서를 비교하고, 비교 결과에 따라 사용자가 열람한 전자문서와 타 전자문서 간의 유사도를 계산할 수 있다(S14).

실시 예에 따라, 제1추천정보 생성모듈(230)은 하기의 과정을 통하여 TF-IDF(Term Frequency-Inverse Document Frequency) 값을 계산하고, 계산된 TF-IDF 값에 따라 유사도를 계산할 수 있다.

제1추천정보 생성모듈(230)은 S12 단계에서 분석된 형태소에 기초하여 해당 논문의 TF-IDF 하기의 (수학식 1)을 통하여 계산할 수 있다.

(수학식 1)

Wi,j = TFi,j * log(N/DFi)

(수학식 1)에서, i는 키워드, j는 논문, Wi,j는 키워드와 논문의 TF-IDF 값, TFi,j는 논문 j 내에 포함된 키워드 i의 수, N은 전체 논문의 수, DFi는 키워드 (i)가 포함된 논문 j의 수를 의미할 수 있다.

전자문서 데이터베이스(210)에 저장된 모든 논문의 TF-IDF 값을 추출한 뒤, 논문간 유사도를 구하기 위해 TF-IDF를 이용한 유사도를 하기의 (수학식 2)를 통하여 계산할 수 있다.

(수학식 2)

(수학식 2)에서, sim(A,B)는 논문 A와 논문 B의 유사도, VA는 A논문에서 나온 모든 키워드의 TF-IDF값, VB는 B논문에서 나온 모든 키워드의 TF-IDF값을 의미할 수 있다.

제1추천정보 생성 모듈(230)은 S14단계를 통하여 계산된 유사도에 기초하여 제1문서 추천 정보를 생성할 수 있다(S16).

실시 예에 따라, 제1추천정보 생성 모듈(230)은 S14 단계를 통하여 계산된 유사도가 높은 순서로 정렬하고, 유사도가 높은 임의의 개수의 전자문서를 제1문서 추천 정보에 포함시킬 수 있다.

실시 예에 따라, 제1추천정보 생성 모듈(230)은 하기의 과정을 통하여 타겟 사용자와 타 사용자 간의 상관 계수에 기초하여, 타 사용자가 열람한 전자문서 정보를 제1문서 추천 정보에 포함시킬 수 있다.

상기 상관 계수는, 타겟 사용자가 열람한 전자문서들과 타 사용자가 열람한 전자문서들과의 유사도에 관한 정보를 포함할 수 있다.

도 3을 함께 참조하면, 제1추천정보 생성 모듈(230)은 타겟 사용자와 타 사용자 간의 상관 계수를 계산하기 위하여, 전자문서 데이터베이스(210)에 저장된 모든 논문과 모든 사용자에 대하여 도 3과 같은 행렬을 생성할 수 있다. 예컨대, 제1추천정보 생성 모듈(230)은 사용자가 열람한 전자문서에 대해서는 1, 사용자가 열람하지 않은 전자문서에 대해서는 0 값으로 행렬을 구성할 수 있다.

실시 예에 따라, 제1추천정보 생성 모듈(230)은 사용자가 열람한 전자문서에 대한 행렬 성분에 가중치를 반영할 수 있다.

예컨대, 제1추천정보 생성 모듈(230)은 사용자가 각 접속 세션(session)의 접속시간 내에서 열람한 전자문서들 각각을 열람한 순서에 기초하여 가중치를 반영할 수 있다. 상기 접속 세션은 사용자가 전자문서의 열람을 위하여 문서 추천 정보 제공 장치(200)에 접속(또는 로그인)하여 전자문서의 열람 후 문서 추천 정보 제공 장치(200)로의 접속을 완료(또는 로그아웃)하기까지의 과정을 의미할 수 있다.

이 때, 제1추천정보 생성 모듈(230)은 각 접속 세션 내에서 상대적으로 나중에 열람한 전자문서에 대하여 높은 가중치를 부여할 수 있다.

실시 예에 따라, 제1추천정보 생성 모듈(230)은 하기의 (수학식 3)에 따라 가중치를 부여할 수 있다.

(수학식 3)

(수학식 3)에서 Pu',j는 각 접속 세션 내에서 사용자 u'가 논문 j를 다운받은 시간적 순서, sw(Pu',j)는 가중치를 의미할 수 있다.

제1추천정보 생성 모듈(230)은 생성된 행렬에 기초하여 상관 계수를 계산하고, 계산된 상관 계수에 따라 타 사용자들 중에서 타겟 사용자와 전자문서 열람 패턴이 유사한 유사 사용자를 선택할 수 있다.

제1추천정보 생성 모듈(230)은 하기의 (수학식 4)를 통하여 유사 사용자가 열람한 전자문서들 중에서 타겟 사용자가 열람하지 않은 전자문서들과, 타겟 사용자가 열람한 전자문서의 유사도를 계산할 수 있다.

(수학식 4)

(수학식 4)에서

는 타겟 유저 u가 열람하지 않은 논문 j의 유사도 점수, F(u)는 타겟 유저 u의 유사 사용자들,

는 타겟 사용자 u가 열람하지 않은 나머지 전자문서들의 집합,

는 유사 사용자 u'가 열람한 전자문서들의 집합,

는 타겟 사용자 u가 열람하지 않은 논문들 중 유사 사용자 u'가 열람한 논문들의 집합을 의미할 수 있다.

제1추천정보 생성 모듈(230)은 (수학식 4)에 따라 계산된 유사도 점수에 따라 상대적으로 높은 점수를 획득한 임의의 개수의 전자문서들을 제1문서 추천 정보에 포함하여 제공할 수 있다.

행렬에 (수학식 3)에 따라 가중치가 반영된 경우, 제1추천정보 생성 모듈(230)은 (수학식 4) 대신에 하기의 (수학식 5)에 따라 유사도를 계산할 수 있다.

(수학식 5)

(수학식 5)에서

는 타겟 사용자 u가 열람하지 않은 전자문서 j에 대한 유사도 점수이며, (수학식 3)에 따른 가중치 sw(Pu',j)가 반영되어 있는 것을 확인할 수 있다.

제2추천정보 생성 모듈(240)은 전자문서 내에 포함되어 있거나, 전자문서에 링크되어 있는 전자문서들 간의 인용관계를 분석할 수 있다(S20).

제2추천정보 생성 모듈(240)은 분석된 인용관계에 기초하여, 전자문서들 간의 관계를 그래프로 모델링할 수 있다(S22).

실시 예에 따라, 제2추천정보 생성 모듈(240)은 신뢰 전파 알고리즘(belief propagation algorithm)을 이용하기 위한 그래프를 모델링 할 수 있다.

도 4를 함께 참조하면, 제2추천정보 생성 모듈(240)은 각 전자문서(A, B, C, D, E, F)는 노드(NODE)로 모델링하고, 전자문서들(A, B, C, D, E, F) 간의 인용관계는 에지(EDGE)로 모델링 하며, 각 인용관계에 대해서는 비방향성 그래프로 모델링 할 수 있다.

제2추천정보 생성 모듈(240)은 각 인용관계를 비방향성 그래프로 모델링함으로써 피인용정보와 인용정보를 동시에 사용할 수 있다.

도 5를 함께 참조하면, 제2추천정보 생성 모듈(240)은 모델링된 그래프에서, 각 노드(A, B, C, D, E, F)의 노드 프라이어(노드 상태)는 관심(like) 상태 또는 비관심(dislike) 상태로 구분될 수 있다. 상기 노드 프라이어는 사용자가 해당 전자문서에 관심을 가질 확률과 관심을 갖지 않을 확률을 의미할 수 있다.

실시 예에 따라, 제2추천정보 생성 모듈(240)은 타겟 사용자의 전자문서 열람 정보에 기초하여 상기 노드 프라이어를 설정할 수 있다. 상기 전자문서 열람 정보는 타겟 사용자가 직접 열람한 전자문서 그룹, 직접 열람한 전자문서와 함께 열람한 전자문서 그룹, 그 외 전자문서 그룹 각각에 대한 정보로 구분될 수 있다.

예컨대, 직접 열람한 전자문서 그룹에 대해서는 노드 프라이어에 가장 높은 값의 노드 포텐셜(node potential), 예컨대 0.9를 할당하고, 함께 열람한 전자문서 그룹에 대해서는 노드 프라이어에 다음으로 높은 값을 가지는 노드 포텐셜, 예컨대 0.6~0.9를 할당하고, 그 외 전자문서 그룹에 대해서는 노드 프라이어에 상대적을 ㅗ낮은 값의 노드 포텐셜, 예컨대 0.5를 할당할 수 있다.

제2추천정보 생성 모듈(240)은 신뢰 전파 알고리즘을 이용하여, 모델링된 그래프를 분석할 수 있다(S24).

실시 예에 따라, 제2추천정보 생성 보듈(240)은 하기의 (수학식 6)에 따라 메시지 패싱(message passing) 과정을 메시지가 수렴할 때까지 수행하며, (수학식 7)에 따라 각 노드에 대한 신뢰값을 계산할 수 있다.

(수학식 6)

(수학식 6)에서

는 노드 i에서 노드 j로 전파되는 메시지를 의미하며, 노드 j가 σ상태일 가능성에 대한 노드 i의 신뢰를 의미할 수 있다.

는 노드 초기 값으로 노드 i의 상태가 σ' 상태 확률을 의미한다.

는 노드 i의 상태가 σ' 상태일 경우 이웃 노드 j가 σ 상태일 확률을 의미하며, 도 5의 파급 행렬과 같은 형태를 가질 수 있다.

는 노드 i를 제외한 노드 j의 주변 노드들을 의미한다.

(수학식 7)

(수학식 7)에서 bi(σ)는 신뢰값, k는 신뢰값의 각 요소의 합이 1이 되도록 하기 위한 정규화 상수를 의미할 수 있다.

제2추천정보 생성 보듈(240)은 계산된 신뢰값을 해당 노드, 즉 해당 전자문서에 대한 타겟 사용자의 선호도로 판단할 수 있으며, 이에 따라 높은 선호도를 가지는 전자문서들에 관한 정보를 포함하는 제2문서 추천 정보를 생성할 수 있다(S26).

통합 추천정보 생성모듈(260)은 제1추천정보 생성모듈(230)에 의해 생성된 제1문서 추천 정보와 제2추천정보 생성모듈(240)에 의해 생성된 제2문서 추천 정보에 기초하여 통합 문서 추천 정보를 생성하고, 생성된 통합 문서 추천 정보를 사용자 단말(100)로 제공할 수 있다(S30).

실시 예에 따라, 통합 추천정보 생성모듈(260)은 제1문서 추천 정보와 제2문서 추천 정보 각각에 가중치를 반영하여 통합 문서 추천 정보를 생성할 수 있다.

이상, 본 발명의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명의 기술적 사상은 상기 실시예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.

10 : 문서 추천 정보 제공 시스템
100 : 사용자 단말
200 : 문서 추천 정보 제공 장치
210, 220 : 데이터베이스
230, 240, 260 : 추천정보 생성 모듈
250 : 가중치 설정모듈

Claims

타겟 사용자가 열람한 전자문서의 내용을 기반으로 제1문서 추천 정보를 생성하는 단계;
상기 전자문서의 인용관계를 기반으로 제2문서 추천 정보를 생성하는 단계; 및
상기 제1문서 추천 정보 및 상기 제2문서 추천 정보에 기초하여, 통합 문서 추천 정보를 제공하는 단계를 포함하는 문서 추천 정보를 제공하는 방법.
제1항에 있어서,
상기 통합 문서 추천 정보를 제공하는 단계는,
상기 제1문서 추천 정보와 상기 제2문서 추천 정보 각각에 가중치를 반영함으로써, 상기 통합 문서 추천 정보를 제공하는, 문서 추천 정보를 제공하는 방법.
제2항에 있어서,
상기 가중치는,
상기 전자문서의 내용 및 상기 전자문서의 인용관계 중에서 적어도 어느 하나에 기초하여 결정되는, 문서 추천 정보를 제공하는 방법.
제3항에 있어서,
상기 가중치는,
상기 타겟 사용자에 의해 설정된 추천 모드에 따라 결정되는, 문서 추천 정보를 제공하는 방법.
제1항에 있어서,
상기 제1문서 추천 정보를 생성하는 단계는,
상기 전자문서의 메타데이터(meta data)를 추출하는 단계;
추출된 상기 메타데이터에 기초하여 상기 전자문서와 타 전자문서 간의 유사도를 계산하는 단계; 및
계산된 유사도에 기초하여 상기 제1문서 추천 정보를 생성하는 단계를 포함하는, 문서 추천 정보를 제공하는 방법.
제5항에 있어서,
상기 전자문서가 논문인 경우,
상기 메타데이터는 논문의 제목, 초록, 키워드, 및 목차 중의 적어도 어느 하나를 포함하는, 문서 추천 정보를 제공하는 방법.
제5항에 있어서,
상기 제1문서 추천 정보를 생성하는 단계는,
상기 전자문서의 메타데이터를 추출하는 단계 이후에, 추출된 상기 메타데이터의 형태소를 분석하는 단계를 더 포함하고,
상기 유사도를 계산하는 단계는, 분석된 형태소에 기초하여 상기 유사도를 계산하는, 문서 추천 정보를 제공하는 방법.
제7항에 있어서,
상기 유사도를 계산하는 단계는
분석된 형태소를 이용하여 TF-IDF(Term Frequency-Inverse Document Frequency) 값을 계산하고, 계산된 TF-IDF 값에 따라 상기 유사도를 계산하는, 문서 추천 정보를 제공하는 방법.
제1항에 있어서,
상기 제1문서 추천 정보를 생성하는 단계는,
상기 타겟 사용자와 타 사용자 간의 상관 계수를 계산하는 단계;
계산된 상관 계수에 기초하여, 타 사용자들 중에서 상기 타겟 사용자와 전자문서의 열람 패턴이 유사한 유사 사용자를 선택하는 단계;
선택된 유사 사용자가 열람한 전자문서들 중에서 상기 타겟 사용자가 열람하지 않은 전자문서들과, 상기 타겟 사용자가 열람한 상기 전자문서의 유사도를 계산하는 단계; 및
계산된 유사도에 기초하여 상기 제1문서 추천 정보를 생성하는 단계를 포함하는, 문서 추천 정보를 제공하는 방법.
제9항에 있어서,
상기 타겟 사용자가 열람한 전자문서들과 상기 타 사용자들이 열람한 전자문서들 간의 공통되는 전자문서의 개수에 기초하여 상기 상관 계수를 결정하는 단계를 더 포함하는, 문서 추천 정보를 제공하는 방법.
제10항에 있어서,
상기 상관 계수를 결정하는 단계는,
상기 타겟 사용자가 각 접속 세션(session)의 접속시간 내에서 열람한 전자문서들 각각을 열람한 순서에 기초하여 가중치를 반영시키는 단계를 더 포함하는, 문서 추천 정보를 제공하는 방법.
제1항에 있어서,
상기 제2문서 추천 정보를 생성하는 단계는,
상기 전자문서의 인용관계에 기초하여 상기 전자문서와 상기 전자문서에 의해 인용된 전자문서들 간의 관계를 그래프로 모델링하는 단계;
신뢰 전파 알고리즘(belief propagation algorithm)을 이용하여 모델링 된 그래프를 분석하는 단계; 및
분석 결과에 따른 신뢰값에 기초하여 상기 제2문서 추천 정보를 생성하는 단계를 포함하는, 문서 추천 정보를 제공하는 방법.
제12항에 있어서,
상기 타겟 사용자의 전자문서 열람 정보에 기초하여 상기 모델링 된 그래프의 노드 프라이어를 설정하는, 문서 추천 정보를 제공하는 방법.
제13항에 있어서,
상기 전자문서 열람 정보는,
상기 타겟 사용자가 직접 열람한 전자문서 그룹, 상기 직접 열람한 전자문서와 함께 열람한 전자문서 그룹, 및 그 외 전자문서 그룹 각각에 대한 정보로 구분되는, 문서 추천 정보를 제공하는 방법.
타겟 사용자가 열람한 전자문서의 내용을 기반으로 제1문서 추천 정보를 생성하는 제1추천정보 생성모듈;
상기 전자문서의 인용관계를 기반으로 제2문서 추천 정보를 생성하는 제2추천정보 생성모듈; 및
상기 제1문서 추천 정보 및 상기 제2문서 추천 정보에 기초하여, 통합 문서 추천 정보를 제공하는 통합 추천정보 생성모듈을 포함하는 문서 추천 정보 제공 장치.