KR101122329B1 - 문서 간의 유사도 계산 시스템 및 방법 - Google Patents

문서 간의 유사도 계산 시스템 및 방법 Download PDF

Info

Publication number
KR101122329B1
KR101122329B1 KR1020100041571A KR20100041571A KR101122329B1 KR 101122329 B1 KR101122329 B1 KR 101122329B1 KR 1020100041571 A KR1020100041571 A KR 1020100041571A KR 20100041571 A KR20100041571 A KR 20100041571A KR 101122329 B1 KR101122329 B1 KR 101122329B1
Authority
KR
South Korea
Prior art keywords
document
interest
linked
documents
similarity
Prior art date
Application number
KR1020100041571A
Other languages
English (en)
Other versions
KR20110122013A (ko
Inventor
김상욱
윤석호
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020100041571A priority Critical patent/KR101122329B1/ko
Publication of KR20110122013A publication Critical patent/KR20110122013A/ko
Application granted granted Critical
Publication of KR101122329B1 publication Critical patent/KR101122329B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문서 간의 유사도 계산 시스템이 제공된다. 문서 간의 유사도 계산 시스템은 관심 문서와 대상 문서 사이의 유사도를 링크 기반 유사도 계산 방법에 의해 계산한다. 문서 간의 유사도 계산 시스템은, 참조 문서 및 피참조 문서를 모두 대등한 연결 문서로 간주한다.

Description

문서 간의 유사도 계산 시스템 및 방법{SYSTEM AND METHOD FOR CALCULATING SIMILARITY BETWEEN DOCUMENTS}
문서 간의 유사도 계산 시스템 및 방법에 연관되며, 보다 특정하게는 논문 간의 참조 관계를 이용한 논문 간의 유사도 계산 시스템 및 방법에 연관된다.
DB(Data base)화 된 학술 정보의 검색 서비스에 대한 관심이 높아지고 있다. 대표적인 학술 정보 검색 서비스 중 하나는 사용자가 관심을 갖는 논문과 유사한 주제의 논문을 검색하여 제공하는 유사 논문 검색 서비스이다.
이러한 유사 논문 검색 서비스를 위해서는 DB 내의 논문들 사이의 유사도를 계산하는 방법이 요구된다.
기존의 유사 논문 검색 서비스 중에는 논문에 포함되어 있는 참조(reference) 정보를 링크(link)로 간주하고 이러한 링크에 기초하여 논문들 사이의 유사도 계산하였는데 이를 링크 기반 유사도 계산 방법이라고 한다.
논문에 포함되어 있는 참조 정보 링크는, 해당 논문이 다른 논문을 참조하는 out-link와 다른 논문이 해당 논문을 참조하는 in-link가 있다.
종래의 링크 기반의 유사도 계산 방법에는, 논문들 사이의 공통된 out-link가 많을수록 유사도를 높게 계산하는 Bibliographic coupling(이하에서는 "Coupling"이라 한다) 방법, 논문들 사이의 공통된 in-link가 많을수록 유사도를 높게 계산하는 Co-citation 방법이 있다.
또한 Amsler 방법은 Coupling 방법과 Co-citation 방법으로 계산한 각각의 유사도에 가중치를 준 합(weighted sum)을 이용하여 논문들 간의 유사도를 계산하였다.
한편, SimRank 방법은 Co-citation 방법을 확장하여 두 논문을 직접 참조하는 논문들뿐만 아니라 간접적으로 참조하는 논문들까지 이용한다. 즉, 두 논문의 유사도에 대한 recursive한 iteration을 수행하는 유사도 계산 방법이다.
종래의 방법들 중에는 SimRank 방법이 Co-citation 방법을 확장한 것과 같이 Coupling 방법을 확장한 rvs-SimRank(reverse-SimRank) 방법과 Amsler를 확장한 P-Rank 방법 등이 있다.
그런데, 공통 out-link 수에 기초하여 유사도를 계산하는 Coupling 방법이나 rvs-SimRank 방법의 경우, 발행연도가 매우 빠른 논문은 중요하거나 연관도가 높더라도 다른 논문들에 의해 참조를 적게 받거나 거의 받지 못해서 유사도 계산 값이 낮아지는 문제가 있다.
반대로 공통 in-link 수에 기초하여 유사도를 계산하는 Co-citation 방법이나 SimRank 방법의 경우, 최근에 발표된 논문은 중요도가 높더라도 논문 데이터베이스에 존재하지 않거나 저장되었다고 하더라도 그 수가 적어서 유사도 계산 값이 낮아지는 문제가 있다.
Amsler 방법이나 이를 확장한 P-Rank 방법은 in-link와 out-link를 모두 반영한다고 하나, 공통 in-link와 공통 out-link 각각에 적용하는 가중치 값에 따라 유사도 계산이 부정확할 수 있는 점이 문제된다.
본 발명은 논문과 같은 문서들 사이에 링크 기반의 유사도 계산을 수행하는 경우, 논문 간의 발행 연도 차이에 따른 유사도 계산의 오류를 최소화 한 문서 간 유사도 계산 시스템 및 방법을 제공한다.
본 발명은 문서들 사이에 링크 기반의 유사도 계산을 수행하는 경우, 공통 in-link와 공통 out-link를 동시에 고려함으로써 문서 간의 유사도 계산의 정확성을 높인 문서 간 유사도 계산 시스템 및 방법을 제공한다.
본 발명의 일실시예에 따르면, 관심 문서 및 상기 관심 문서와의 유사도 계산의 대상이 되는 대상 문서 각각에 대해, 피참조 문서 및 참조 문서를 연결 문서로 간주하여 상기 관심 문서의 연결 문서와 상기 대상 문서의 연결 문서를 비교하는 연결 문서 비교부, 및 상기 관심 문서의 연결 문서 중 상기 대상 문서의 연결 문서와 공통되는 것의 개수를 이용하여 상기 관심 문서와 상기 대상 문서 사이의 유사도를 계산하는 유사도 계산부를 포함하는 문서 간의 유사도 계산 시스템이 제공된다.
여기서 상기 관심 문서의 연결 문서는, 상기 관심 문서가 참조하는 피참조 문서 및 상기 관심 문서를 참조하는 참조 문서를 포함할 수 있다. 그리고 상기 대상 문서의 연결 문서는, 상기 대상 문서가 참조하는 피참조 문서 및 상기 대상 문서를 참조하는 참조 문서를 포함할 수 있다.
본 발명의 일실시예에 따르면, 상기 연결 문서 비교부는, 상기 관심 문서의 연결 문서의 연결 문서와 상기 대상 문서의 연결 문서의 연결 문서를 더 비교한다.
이 경우, 상기 유사도 계산부는, 상기 관심 문서의 연결 문서의 연결문서 중 상기 대상 문서의 연결 문서의 연결 문서와 공통되는 것의 개수를 이용하여 상기 관심 문서와 상기 대상 문서 사이의 유사도를 계산한다.
본 발명의 다른 일실시예에 따르면, 관심 문서 및 상기 관심 문서와의 유사도 계산의 대상이 되는 대상 문서 각각에 대해, 피참조 문서 및 참조 문서를 연결 문서로 간주하여 상기 관심 문서의 연결 문서와 상기 대상 문서의 연결 문서를 비교하는 단계, 및 상기 관심 문서의 연결 문서 중 상기 대상 문서의 연결 문서와 공통되는 것의 개수를 이용하여 상기 관심 문서와 상기 대상 문서 사이의 유사도를 계산하는 단계를 포함하는 문서 간의 유사도 계산 방법이 제공된다.
본 발명의 또 다른 일실시예에 따르면, 복수 개의 문서 각각의 사이에서 참조 관계를 나타내는 방향성 링크를 무방향성 링크로 간주하는 단계, 및 상기 복수 개의 문서 중에 선택되는 관심 문서로부터 무방향성 링크로 연결되는 연결 문서들과, 상기 관심 문서와 유사도 계산의 대상이 되는 대상 문서로부터 무방향성 링크로 연결되는 연결 문서들 간의 공통 개수를 이용하여 상기 관심 문서 및 상기 대상 문서 사이의 유사도를 반복적으로 계산하는 단계를 포함하는 문서 간의 유사도 계산 방법이 제공된다.
이 경우, 상기 k 번째 이터래이션에서의 상기 관심 문서 및 상기 대상 문서 사이의 유사도 값이 k의 증가에 따라 상수인 값으로 수렴하는 경우, 상기 상수인 값이 상기 관심 문서와 상기 대상 문서 사이의 유사도로서 결정될 수 있다.
본 발명의 일실시예에 따르면, 논문과 같은 문서들 사이에 링크 기반의 유사도 계산을 수행하는 경우, 논문 간의 발행 연도 차이에 따른 유사도 계산의 오류가 최소화된다.
본 발명의 일실시예에 따르면, 문서들 사이에 링크 기반의 유사도 계산을 수행하는 경우, 공통 in-link와 공통 out-link를 동시에 고려함으로써 문서 간의 유사도 계산의 정확성이 향상된다.
도 1은 본 발명의 일실시예에 따른 문서 간의 유사도 계산 시스템을 도시한다.
도 2는 본 발명의 일실시예에 따른 유사도 계산 시스템에 입력되는 문서들의 참조 관계를 그래프 타입의 자료 구조로 도시한 개념도이다.
도 3은 본 발명의 일실시예에 따라 도 2의 그래프 타입의 자료 구조의 각 링크 에지의 방향성을 제거한 결과에서 문서들 간의 연결 관계를 자료 구조로 도시한 개념도이다.
도 4는 본 발명의 일실시예에 따른 문서 간의 유사도 계산 방법을 도시한다.
도 5는 본 발명의 일실시예에 따라 k 회 이터래이션을 포함하는 문서 간의 유사도 계산 방법을 도시한다.
이하에서, 본 발명의 일부 실시예를, 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일실시예에 따른 문서 간의 유사도 계산 시스템(100)을 도시한다.
문서 간의 유사도 계산 시스템(100)은 연결 문서 비교부(110) 및 유사도 계산부(120)를 포함한다.
문서 간의 유사도 계산을 위해 문서 DB(101) 내에서 선택되는 관심 문서는, 상기 문서 DB(101) 내의 적어도 하나의 다른 문서를 참조한다. 이렇게 관심 문서가 참조하는 문서를 관심 문서의 피참조 문서라고 한다.
반대로 상기 문서 DB(101) 내의 문서 중에는 상기 관심 문서를 참조하는 문서가 있을 수 있다. 이렇게 관심 문서를 참조하는 문서를 관심 문서의 참조 문서라고 한다.
본 발명의 일실시예에 따르면, 문서 DB(101) 내의 문서들 중 선택되는 대상 문서에 대해 상기 관심 문서와의 사이에서 유사도가 계산된다. 이하에서는 유사도 계산의 대상이 되는 두 개의 문서 중, 하나를 관심 문서라고 하고 다른 하나를 대상 문서라고 한다.
연결 문서 비교부(110)는 관심 문서의 피참조 문서 및 관심 문서의 참조 문서를 참조/피참조를 구분하지 않고 모두 관심 문서의 연결 문서로 간주한다. 즉, 문서 간의 참조 링크에 있어서, out-link 및 in-link가 모두 방향성이 없는 링크(undirected-link)로 간주된다.
또한 연결 문서 비교부(110)는 대상 문서의 피참조 문서 및 대상 문서의 참조 문서를 참조/피참조를 구분하지 않고 모두 대상 문서의 연결 문서로 간주한다.
그리고, 연결 문서 비교부(110)는 관심 문서의 연결 문서와 대상 문서의 연결 문서 사이의 공통 연결 문서 개수를 카운트 한다.
그러면, 유사도 계산부(120)는 이렇게 카운트 된 공통 연결 문서 개수에 기초하여 상기 관심 문서와 대상 문서 사이의 유사도를 계산한다.
종래의 Coupling 방법이나 rvs-SimRank 방법은 out-link만을 고려하여, 관심 문서와 대상 문서 사이의 공통 피참조 문서, 또는 피참조 문서들 간의 공통 피참조 문서를 이용하여 유사도를 계산하였다.
그리고, CoCitation 방법이나 SimRank 방법은 in-link만을 고려하여, 관심 문서와 대상 문서 사이의 공통 참조 문서, 또는 참조 문서들 간의 공통 참조 문서를 이용하여 유사도를 계산하였다.
또한, Amsler 방법은 Coupling 방법에 의해 계산된 유사도 값과, CoCitation 방법에 의해 계산된 유사도 값의 각각에 가중치를 준 합(weighted sum)을 이용하여 유사도를 계산하였다.
Amsler 방법을 확장한 P-Rank 방법 또한 out-link와 in-link를 별도로 고려한 다음 가중치를 이용하여 out-link를 고려한 계산 값과 in-link를 이용한 계산 값의 weighted sum으로 유사도를 계산하는 점은 Amsler와 같다.
그러나, 본 발명의 일실시예에 따른 문서 간의 유사도 계산 시스템(100)은 out-link와 in-link를 구별하지 않고 이를 모두 방향성이 없는 링크(undirected-link)로 간주하므로, 참조 문서와 피참조 문서를 구별하지 않고 이 두 가지 모두가 단순히 연결 문서로만 취급된다.
종래의 방법에 의한 문서 간의 유사도 계산과 본 발명의 일실시예에 따른 문서 간의 유사도 계산 시스템에 의한 유사도 계산 과정의 차이는 이하에서 수학식을 참조하여 상술한다.
먼저 종래의 방법들에 의한 문서 간의 유사도 계산 방법은 다음 수학식들을 참조하여 이해될 수 있다.
Figure 112010028655102-pat00001
Figure 112010028655102-pat00002
여기서 수학식 1의 R0(a, b)는 두 문서 a 및 b 사이의 동일성 여부를 판단하는 것이다. 이하에서, a는 DB(101) 내의 관심 문서이고, b는 a와 유사도 판단 대상이 되는 대상 문서인 것으로 가정하여 설명한다.
그리고, R1(a, b)는 문서 a와 b의 참조 문서들 사이의 동일성(공통 참조 문서 개수) 및 문서 a와 b의 피참조 문서들 사이의 동일성(공통 피참조 문서 개수)에 의해 결정된다.
파라미터 λ, C 및 iteration 넘버 k의 값에 따른 수학식 2의 의미는 아래 표에 의해 이해될 수 있다.
Figure 112010028655102-pat00003
상기 수학식 2에서 I i (a)는 a 문서의 |i| 개의 참조 문서 중 i 번째 참조 문서이고, O i (a)는 a 문서의 |i| 개의 피참조 문서 중 i 번째 피참조 문서이다.
한편, 본 발명의 일실시예에 따른 유사도 계산 방법은 아래 수학식에 의해 표현될 수 있다.
Figure 112010028655102-pat00004
수학식 3에서 L i (a)는 본 발명의 일실시예에 따라 참조(in-link)/피참조(out-link)의 구분 없이 a 문서의 참조 문서 및 a 문서의 피참조 문서를 모두 a 문서의 연결 문서로 고려하는 경우, |i| 개의 연결 문서 중 i 번째 연결 문서이다.
여기서, R0(a, b)는 상기 수학식 1과 같다.
그리고 C는 변경 가능한 설정 값으로서, k 번째 iteration이 계속되는 경우의 감쇄(damping) 정도를 나타낸다. 그리고, 수학식 3에는 수학식 2에서와 같은 파라미터 λ는 포함되지 않는다.
본 발명의 일실시예에 따르면, 연결 문서 비교부(110)는 문서 DB(101) 내의 각 문서들의 연결 정보의 링크의 방향성을 무시하고, in-link 및 out-link 모두를 단순히 undirected-link로 간주하여, 문서 간의 연결 관계를 그래프 구조로 파악한다.
그리고, 연결 문서 비교부(110)는 상기 수학식 3에서 k를 1부터 차례대로 늘려 나가면서, k-th iteration에서의 Rk+1(a, b)를 구해 나간다.
그리고, 유사도 계산부는, 이렇게 구해진 Rk+1(a, b) 값이 상수인 값으로 수렴하는 경우, 이 상수인 값을 상기 a 문서와 b 문서 사이의 유사도로서 계산한다.
본 발명의 일실시예에 따르면, 만약 k=1인 경우만 계산하여, R1(a, b) 값을 바로 a 문서와 b 문서 사이의 유사도로서 계산할 수도 있다.
그러나, SimRank 방법, rvs-SimRank 방법 및 P-Rank 방법이 각각 Co-Citation 방법, Coupling 방법 및 Amsler 방법을 k-th iteration으로 확장했듯이, 본 발명의 다른 일실시예에 따르면, 수학식 3에 대해서도 k 값을 늘려 가며, Rk+1(a, b) 값이 수렴되는 상수인 값을 최종적인 a 문서와 b 문서 사이의 유사도로 계산한다.
본 발명의 일실시예에 따른 문서 간의 유사도 계산 시스템의 동작 방법은 도 2 이하를 참조하여 보다 상세히 후술한다.
도 2는 본 발명의 일실시예에 따른 문서 간의 유사도 비교 시스템의 동작을 설명하기 위한 예시적인 문서 들의 참조 관계를 그래프 타입의 자료 구조(200)로 도시하는 개념도이다.
문서들의 참조 관계를 그래프(Graph) 타입의 자료 구조(200)로 표현하는 경우, 각 문서들(210, 211, 212, 220, 221, 222, 223, 231, 232, 233)은 그래프(200)의 노드로써 표현 되고, 참조 정보는 한 노드와 다른 노드 사이를 연결하는 링크 에지(edge)로써 표현 된다.
본 실시예에서는 관심 문서(210)와 대상 문서(220) 사이의 유사도를 계산하는 것으로 가정한다.
이 경우, 관심 문서(210)의 out-link 에지들은 상기 관심 문서(210)의 피참조 문서들(211, 231 및 232)을 향한다. 그리고, 관심 문서(210)의 in-link 에지들은 관심 문서(210)의 참조 문서들(212 및 233)로부터 관심 문서(210)를 향한다.
마찬가지로, 상기 관심 문서(210)와의 유사도 계산의 대상인 대상 문서(220)의 out-link 에지들은 대상 문서(220)의 피참조 문서들(231, 221 및 222)을 향한다. 그리고, 대상 문서(220)의 in-link 에지들은 대상 문서(220)의 참조 문서들(232, 233 및 223)로부터 대상 문서(220)를 향한다.
이러한 예시적 그래프 구조(200)에, 종래의 링크 기반의 유사도 계산 방법들 중 coupling 방법에 의해 유사도를 계산하는 경우, 관심 문서(210)와 대상 문서(220)에 공통적으로 out-link 에지로 연결되는 피참조 문서(231)만이 유사도 계산에 고려된다.
따라서, 관심 문서(210)와 대상 문서(220)에 공통되는 참조 문서(233) 및 관심 문서(210)의 피참조 문서이면서 대상 문서(220)의 참조 문서인 문서(232)는 유사도 계산에 고려되지 않는다.
이는 coupling 방법을 피참조 문서들, 나아가 피참조 문서들의 피참조 문서들 등으로 확대한 rvs-SimRank 방법 또한 마찬가지이다.
한편, 반대로 이러한 예시적 그래프 구조(200)에, 종래의 CoCitation 방법에 의해 유사도를 계산하는 경우, 관심 문서(210)와 대상 문서(220)에 공통되는 참조 문서(233)만이 유사도 계산에 고려된다.
따라서, 관심 문서(210)와 대상 문서(220)에 공통되는 피참조 문서(231) 및 관심 문서(210)의 피참조 문서이면서 대상 문서(220)의 참조 문서인 문서(232)는 유사도 계산에 고려되지 않는다.
이는 CoCitation 방법을 참조 문서들, 나아가 참조 문서들의 참조 문서들 등으로 확대한 SimRank 방법 또한 마찬가지이다.
한편, 이러한 예시적 그래프 구조(200)에, 종래의 Amsler 방법에 의해 유사도를 계산하는 경우, 관심 문서(210)와 대상 문서(220)에 공통되는 참조 문서(233), 공통되는 피참조 문서(231)를 모두 고려한다.
그런데, Amsler 방법에서 in-link와 out-link 들에 가중치를 똑 같이 0.5씩 할당한다면(위의 수학식 2에서 λ=0.5) in-link 연결이 굉장히 많더라도 문서 간의 유사도가 높아지지 않는 문제가 있다. 이론상 최대 값이 0.5로 제한된다.
또한, 예시적 그래프 구조(200) 내의 문서(232)와 같이, 관심 문서(210)에 대해서는 out-link에 의한 피참조 문서이고, 대상 문서(220)에 대해서는 in-link에 의한 참조 문서인 문서는, CoCitation 방법, Coupling 방법뿐만 아니라, Amsler 방법에 의한 경우에도 유사도에 기여하지 못한다. 이러한 문서(232)와 같은 문서를 관심 문서(210)와 대상 문서(220) 사이의 Passer 라고 하는데, 이러한 Passer가 고려되지 않는 문제가 있다.
따라서, 본 발명의 일실시예에 따르면, in-link 및 out-link 모두를 undirected-link로 간주함으로써, 관심 문서(210)에 대해서 out-link에 의한 피참조 문서였던 문서(211, 231 및 232), in-link에 의한 참조 문서였던 문서(212 및 233) 모두는 단순히 관심 문서(210)의 연결 문서로 간주된다.
그리고 대상 문서(220)에 대해서 out-link에 의한 피참조 문서였던 문서(231, 221 및 222), in-link에 의한 참조 문서였던 문서(232, 233 및 223) 모두는 단순히 대상 문서(220)의 연결 문서로 간주된다.
그리고, 본 발명의 일실시예에 따르면, 관심 문서(210)의 연결 문서(211, 231, 232, 212 및 233)과 대상 문서(220)의 연결 문서(231, 221, 222, 232, 233 및 223)이 비교되고, 이들 사이의 공통점을 이용하여 관심 문서(210)와 대상 문서(220)의 유사도가 계산된다.
이러한 계산의 구체적인 내용이 도 3을 참조하여 설명된다.
도 3은 본 발명의 일실시예에 따라 도 2의 그래프 타입의 자료 구조(200)의 각 링크 에지의 방향성을 제거한 결과에서 문서들 간의 연결 관계를 자료 구조(300)로 도시한 개념도이다.
관심 문서(310)은 도 2의 관심 문서(210)에 대응하고, 대상 문서(320)은 도 2의 대상 문서(220)에 대응한다. 다른 문서들(311, 312, 321, 322, 323, 331, 332 및 333) 또한 도 2의 동일 위치의 문서들(211, 212, 221, 222, 223, 231, 232 및 233)에 각각 대응한다.
본 발명의 일실시예에 따르면, 연결 문서 비교부(110)에 의해 도 2의 자료 구조(200)가 도 3의 자료 구조(300)와 같이 변경된다. 도 3에서 각 문서들은 방향성이 없는 링크(undirected-link)로 구성된다.
그리고, 연결 문서 비교부(110)는 수학식 3을 이용하여, R1(관심 문서, 대상 문서), R2(관심 문서, 대상 문서), R3(관심 문서, 대상 문서) 등을 회귀적으로 계산한다.
그리고, Rk(관심 문서, 대상 문서) 값이 상수인 값으로 수렴하는 경우, 유사도 계산부는 상기 상수인 값을 관심 문서(310)와 대상 문서(320)의 유사도로서 계산한다.
물론, k-th iteration을 Rk(관심 문서, 대상 문서) 값이 수렴할 때까지 수행할 수도 있지만, 미리 지정된 일정한 k-th iteration까지만 수행할 수도 있다.
여기서 k=1인 경우는, 단순히 관심 문서(310)와 대상 문서(320) 사이의 연결 문서의 공통성만을 기초로 유사도를 계산하는 실시예가 된다.
도 4는 본 발명의 일실시예에 따른 문서 간의 유사도 계산 방법을 도시한다.
단계(S410)에서 관심 문서 및 대상 문서를 포함하는 문서 DB 내의 전체 문서의 in-link 및 out-link가 모두 undirected-link로 간주된다. 따라서, 관심 문서의 참조 문서 및 피참조 문서는 모두 대등한 연결 문서로 간주된다. 관심 문서와 유사도 계산의 대상이 되는 대상 문서도 마찬가지이다.
그리고, 단계(S420)에서 상기 관심 문서와 상기 대상 문서 사이의 공통된 연결 문서가 카운트 된다. 공통된 연결 문서의 개수가 많을수록 유사도는 높게 계산된다.
그러면 단계(S430)에서 공통된 연결 문서의 개수에 기초하여 상기 관심 문서와 상기 대상 문서 사이의 유사도가 계산되며, 구체적으로는 수학식 3을 이용하여 계산이 수행된다.
이 경우, k=1인 경우 까지만 계산될 수도 있으나, 상기한 바와 같이 k-th iteration을 k 값을 늘려가면서 회귀적으로 수행하는 실시예도 가능하다.
이 실시예는 도 5를 참조하여 보다 상세히 후술된다.
도 5는 본 발명의 일실시예에 따라 k 회 이터래이션을 포함하는 문서 간의 유사도 계산 방법을 도시한다.
도 4의 단계(S410)에서 in-link와 out-link가 단순한 undirected-link로 간주되면, 단계(S510)에서 k의 초기 값이 0으로 주어지고 회귀적인 iteration이 시작된다.
단계(S520)에서 k-th iteration인 Rk(a, b) 값이 계산된다. 여기서 a는 관심 문서, b는 대상 문서이고, Rk(a, b) 값이 계산은 수학식 1 및 수학식 3에 의한다.
그리고, 단계(S530)에서 이렇게 계산된 Rk(a, b) 값이 미리 설정된 유사도 값으로 수렴하는지의 여부가 판단된다.
Rk(a, b) 값이 미리 설정된 유사도 값으로 수렴하지 않는다면, 단계(S540)에서 k 값을 1 증가 시켜서, 다음 iteration을 더 수행할 수 있다. 만약, 미리 설정된 유사도 값으로 수렴한다면, 미리 설정된 유사도 값이 관심 문서 a와 대상 문서 b 간의 유사도 값으로 결정된다.
이러한 본 발명의 실시예들에 의해, in-link와 out-link의 참조 관계가 단순히 undirected-link로 간주되므로, 논문과 같은 문서 간에 참조 관계를 이용한 유사도 계산을 수행하는 경우, 문서의 생성 연도에 관계 없이 높은 정확도를 갖는 유사도 값이 계산된다.
본 발명의 일실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 시스템이 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 시스템은 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100: 문서 간의 유사도 계산 시스템
110: 연결 문서 비교부
120: 유사도 계산부
101: 문서 DB (Database)

Claims (16)

  1. 관심 문서 및 상기 관심 문서와의 유사도 계산의 대상이 되는 대상 문서 각각에 대해, 무방향성 링크를 갖는 문서를 연결 문서로 간주하여 상기 관심 문서의 연결 문서와 상기 대상 문서의 연결 문서를 비교하는 연결 문서 비교부; 및
    상기 관심 문서의 연결 문서 중 상기 대상 문서의 연결 문서와 공통되는 것의 개수 계산하고, 상기 연결 문서의 범위인 링크를 확장해가며 회귀적으로 상기 관심 문서와 상기 대상 문서 사이의 유사도를 계산하는 유사도 계산부
    를 포함하는 문서 간의 유사도 계산 시스템.
  2. 제1항에 있어서,
    상기 관심 문서의 연결 문서는, 상기 관심 문서가 참조하는 피참조 문서 및 상기 관심 문서를 참조하는 참조 문서를 포함하는 것을 특징으로 하는 문서 간의 유사도 계산 시스템.
  3. 제1항에 있어서,
    상기 대상 문서의 연결 문서는, 상기 대상 문서가 참조하는 피참조 문서 및 상기 대상 문서를 참조하는 참조 문서를 포함하는 것을 특징으로 하는 문서 간의 유사도 계산 시스템.
  4. 제1항에 있어서,
    상기 연결 문서 비교부는,
    상기 관심 문서의 연결 문서의 연결 문서와 상기 대상 문서의 연결 문서의 연결 문서를 더 비교하는 것을 특징으로 문서 간의 유사도 계산 시스템.
  5. 제4항에 있어서,
    상기 유사도 계산부는,
    상기 관심 문서의 연결 문서의 연결문서 중 상기 대상 문서의 연결 문서의 연결 문서와 공통되는 것의 개수를 이용하여 상기 관심 문서와 상기 대상 문서 사이의 유사도를 계산하는 것을 특징으로 문서 간의 유사도 계산 시스템.
  6. 제1항에 있어서,
    상기 문서는 논문인 것을 특징으로 하는 문서 간의 유사도 계산 시스템.
  7. 복수 개의 문서 각각의 사이에서 참조 관계를 나타내는 방향성 링크를 무방향성 링크로 변환하는 연결 문서 비교부; 및
    상기 복수 개의 문서 중에 선택되는 관심 문서로부터 무방향성 링크로 연결되는 연결 문서들과, 상기 관심 문서와 유사도 계산의 대상이 되는 대상 문서로부터 무방향성 링크로 연결되는 연결 문서들 간의 공통 개수를 이용하여 상기 관심 문서 및 상기 대상 문서 사이의 유사도를 반복적으로 계산하는 유사도 계산부
    를 포함하는 문서 간의 유사도 계산 시스템.
  8. 제7항에 있어서,
    상기 유사도 계산부는,
    상기 관심 문서 및 상기 대상 문서 사이의 유사도 값이 미리 설정된 유사도 값으로 수렴하는 경우, 상기 수렴된 유사도 값을 상기 관심 문서와 상기 대상 문서 사이의 유사도로 계산하는 것을 특징으로 하는 문서 간의 유사도 계산 시스템.
  9. 관심 문서 및 상기 관심 문서와의 유사도 계산의 대상이 되는 대상 문서 각각에 대해, 무방향성 링크를 갖는 문서를 연결 문서로 간주하여 상기 관심 문서의 연결 문서와 상기 대상 문서의 연결 문서를 비교하는 단계; 및
    상기 관심 문서의 연결 문서 중 상기 대상 문서의 연결 문서와 공통되는 것의 개수 계산하고, 상기 연결 문서의 범위인 링크를 확장해가며 회귀적으로 상기 관심 문서와 상기 대상 문서 사이의 유사도를 계산하는 단계
    를 포함하는 문서 간의 유사도 계산 방법.
  10. 제9항에 있어서,
    상기 관심 문서의 연결 문서는, 상기 관심 문서가 참조하는 피참조 문서 및 상기 관심 문서를 참조하는 참조 문서를 포함하는 것을 특징으로 하는 문서 간의 유사도 계산 방법.
  11. 제9항에 있어서,
    상기 대상 문서의 연결 문서는, 상기 대상 문서가 참조하는 피참조 문서 및 상기 대상 문서를 참조하는 참조 문서를 포함하는 것을 특징으로 하는 문서 간의 유사도 계산 방법.
  12. 제9항에 있어서,
    상기 연결 문서를 비교하는 단계는,
    상기 관심 문서의 연결 문서의 연결 문서와 상기 대상 문서의 연결 문서의 연결 문서를 더 비교하는 것을 특징으로 문서 간의 유사도 계산 방법.
  13. 제12항에 있어서,
    상기 유사도를 계산하는 단계는,
    상기 관심 문서의 연결 문서의 연결문서 중 상기 대상 문서의 연결 문서의 연결 문서와 공통되는 것의 개수를 이용하여 상기 관심 문서와 상기 대상 문서 사이의 유사도를 계산하는 것을 특징으로 문서 간의 유사도 계산 방법.
  14. 복수 개의 문서 각각의 사이에서 참조 관계를 나타내는 방향성 링크를 무방향성 링크로 변환하는 단계; 및
    상기 복수 개의 문서 중에 선택되는 관심 문서로부터 무방향성 링크로 연결되는 연결 문서들과, 상기 관심 문서와 유사도 계산의 대상이 되는 대상 문서로부터 무방향성 링크로 연결되는 연결 문서들 간의 공통 개수를 이용하여 상기 관심 문서 및 상기 대상 문서 사이의 유사도를 반복적으로 계산하는 단계
    를 포함하는 문서 간의 유사도 계산 방법.
  15. 제14항에 있어서,
    상기 유사도를 반복적으로 계산하는 단계는,
    상기 관심 문서 및 상기 대상 문서 사이의 유사도 값이 미리 설정된 유사도 값으로 수렴하는 경우, 상기 수렴된 유사도 값을 상기 관심 문서와 상기 대상 문서 사이의 유사도로 계산하는 것을 특징으로 하는 문서 간의 유사도 계산 방법.
  16. 제9항 내지 제15항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터 판독 가능 기록 매체.
KR1020100041571A 2010-05-03 2010-05-03 문서 간의 유사도 계산 시스템 및 방법 KR101122329B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100041571A KR101122329B1 (ko) 2010-05-03 2010-05-03 문서 간의 유사도 계산 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100041571A KR101122329B1 (ko) 2010-05-03 2010-05-03 문서 간의 유사도 계산 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20110122013A KR20110122013A (ko) 2011-11-09
KR101122329B1 true KR101122329B1 (ko) 2012-03-23

Family

ID=45392717

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100041571A KR101122329B1 (ko) 2010-05-03 2010-05-03 문서 간의 유사도 계산 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101122329B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101684136B1 (ko) * 2015-06-26 2016-12-07 한국과학기술원 시맨틱 처리 및 클러스터링을 사용한 운영 및 유지 가이드 라인
KR101866411B1 (ko) * 2016-09-06 2018-06-19 한양대학교 산학협력단 문서 추천 정보를 제공하는 방법 및 이를 이용하는 문서 추천 정보 제공 장치
KR102650202B1 (ko) 2024-01-24 2024-03-21 (주)누리미디어 인공지능 기반의 투고 저널 추천 서버, 방법 및 프로그램
KR102650207B1 (ko) 2024-01-24 2024-03-21 (주)누리미디어 시각적 효과를 제공하는 투고 저널 추천 서버, 방법 및 프로그램
KR102650209B1 (ko) 2024-01-24 2024-03-21 (주)누리미디어 뷰어 기능을 제공하는 투고 저널 추천 서버, 방법 및 프로그램
KR102650206B1 (ko) 2024-01-24 2024-03-21 (주)누리미디어 논문 유사도가 높은 투고 저널을 추천하는 서버, 방법 및 프로그램

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010108845A (ko) * 2000-05-31 2001-12-08 기민호 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
KR20020016056A (ko) * 2000-08-24 2002-03-04 모리시타 요이찌 문서 검색 및 분류 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010108845A (ko) * 2000-05-31 2001-12-08 기민호 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
KR20020016056A (ko) * 2000-08-24 2002-03-04 모리시타 요이찌 문서 검색 및 분류 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Calado 외 5명, "Combining Link-Based and Content-Based Methods for Web Document Classification", CIKM '03, 2003년 11월.*

Also Published As

Publication number Publication date
KR20110122013A (ko) 2011-11-09

Similar Documents

Publication Publication Date Title
KR101122329B1 (ko) 문서 간의 유사도 계산 시스템 및 방법
KR101099908B1 (ko) 문서 간 유사도 계산 시스템 및 방법
CN110390396B (zh) 用于估计观测变量之间的因果关系的方法、装置和系统
US20160307113A1 (en) Large-scale batch active learning using locality sensitive hashing
CN103210368A (zh) 软件应用程序识别
JP5527027B2 (ja) スキーマ定義生成装置、スキーマ定義生成方法およびスキーマ定義生成プログラム
KR20170062290A (ko) 공간-물체 관계 그래프에 기반한 객체 인식 방법 및 그 장치
US20120102057A1 (en) Entity name matching
KR101977231B1 (ko) 커뮤니티 검출 방법 및 커뮤니티 검출 프레임워크 장치
Gal et al. From diversity-based prediction to better ontology & schema matching
JP5532189B2 (ja) ルール発見システムと方法と装置並びにプログラム
Sahillioğlu et al. Multiple shape correspondence by dynamic programming
JP5761029B2 (ja) 辞書作成装置、単語収集方法、及び、プログラム
US9542502B2 (en) System and method for XML subdocument selection
KR20070061347A (ko) 정보추출 군집화 시스템 및 그 방법
Elbatta et al. A vibration method for discovering density varied clusters
KR20100105080A (ko) 엔-그램 기반의 질의 처리 장치 및 그 방법
KR101122335B1 (ko) 블로그 월드에서의 주제별 정보 파급 분석 장치 및 방법
JP7148809B2 (ja) 文献群解析装置、文献群解析方法及びプログラム
KR101363335B1 (ko) 문서 분류모델 생성장치 및 방법
JP2012113716A (ja) カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法
US20190278785A1 (en) Computer-readable recording medium storing search program and search method
KR101096418B1 (ko) 핵심 문서 추출 시스템 및 방법
JP5411823B2 (ja) 推定値高精度化システム、推定値高精度化方法および推定値高精度化プログラム
US20240202408A1 (en) System design learning apparatus, system designlearning method, and computer-readable recording medium

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151223

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170117

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 9