KR101099908B1 - 문서 간 유사도 계산 시스템 및 방법 - Google Patents

문서 간 유사도 계산 시스템 및 방법 Download PDF

Info

Publication number
KR101099908B1
KR101099908B1 KR1020100036894A KR20100036894A KR101099908B1 KR 101099908 B1 KR101099908 B1 KR 101099908B1 KR 1020100036894 A KR1020100036894 A KR 1020100036894A KR 20100036894 A KR20100036894 A KR 20100036894A KR 101099908 B1 KR101099908 B1 KR 101099908B1
Authority
KR
South Korea
Prior art keywords
document
keyword
similarity
documents
keywords
Prior art date
Application number
KR1020100036894A
Other languages
English (en)
Other versions
KR20110117440A (ko
Inventor
윤석호
황원석
김상욱
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020100036894A priority Critical patent/KR101099908B1/ko
Publication of KR20110117440A publication Critical patent/KR20110117440A/ko
Application granted granted Critical
Publication of KR101099908B1 publication Critical patent/KR101099908B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문서 간의 유사도 계산 시스템 및 방법이 제공된다. 문사 간의 유사도 제공 시스템은 유사 문서 검색 요청에 연관되는 제1 문서의 제목 및 요약으로부터 키워드를 추출한다. 또한, 문서 간의 유사도 계산 시스템은 상기 제1 문서가 참조하는 문서 및 상기 제1 문서를 참조하는 문서 중 적어도 하나로부터, 키워드를 추가로 추출할 수 있다.

Description

문서 간 유사도 계산 시스템 및 방법{SYSTEM AND METHOD FOR CALCULATING SIMILARITY BETWEEN DOCUMENTS}
문서 간의 유사도 계산 시스템 및 방법에 연관되며, 보다 특정하게는 키워드 비교를 통한 논문 간의 유사도 계산 시스템 및 방법에 연관된다.
DB(Data base)화 된 학술 정보의 검색 서비스에 대한 관심이 높아지고 있다. 대표적인 학술 정보 검색 서비스 중 하나는 사용자가 관심을 갖는 논문과 유사한 주제의 논문을 검색하여 제공하는 유사 논문 검색 서비스이다.
이러한 유사 논문 검색 서비스를 위해서는 DB 내의 논문들 사이의 유사도를 계산하는 방법이 요구된다.
기존의 유사 논문 검색 서비스는 텍스트 기반에서 논문들의 키워드를 도출하고 비교함으로써 수행되었는데, 이를 텍스트 기반 유사도 계산 방법이라고 한다.
그런데, 논문 DB에는 크롤링(crawling)과 파싱(parsing)의 어려움 때문에 논문 본문이 텍스트로 저장되어 있지 않은 경우가 많다. 따라서, 이러한 키워드들 간의 유사도 계산에 있어서, 논문의 제목 및 요약(abstract)에서 추출된 키워드들이 사용된다. 여기서, 논문의 제목 및 요약으로부터 추출된 키워드들은 개수가 적거나 논문 주제와의 연관도가 낮은 경우 논문 유사도 계산에 어려움이 있다.
본 발명은 논문의 본문 전체를 텍스트로 추출하는 과정을 거치지 않더라도 주제와의 연관도가 높은 키워드를 추출할 수 있는 시스템 및 방법을 제공한다.
본 발명은 DB를 변경하지 않고도 논문 유사도 계산의 품질을 높일 수 있는 시스템 및 방법을 제공한다.
본 발명은 논문 유사도 계산에 있어서 비교의 대상이 되는 키워드의 수를 증가시켜 논문 간 유사 판단의 정확도를 향상시킬 수 있는 시스템 및 방법을 제공한다.
본 발명의 일측에 따르면, 제1 문서로부터 상기 제1 문서의 키워드를 추출하고, 상기 제1 문서를 참조하는 문서 및 상기 제1 문서가 참조하는 문서 중 적어도 하나로부터 상기 제1 문서의 키워드를 추가로 추출하는 키워드 추출부, 및 상기 추출된 키워드를 이용하여 상기 제1 문서와 제2 문서 사이의 유사도를 계산하는 유사도 계산부를 포함하는 문서 간의 유사도 계산 시스템이 제공된다.
상기 키워드 추출부는, 상기 제2 문서로부터 상기 제2 문서의 키워드를 추출하고, 상기 제2 문서를 참조하는 문서 및 상기 제2 문서가 참조하는 문서 중 적어도 하나로부터 상기 제2 문서의 키워드를 추출할 수 있다.
본 발명의 일실시예에 따르면, 상기 유사도 계산부는, 상기 추출된 제1 문서의 키워드를 이용하여 계산되는 제1 벡터 및 상기 제2 문서의 키워드를 이용하여 계산되는 제2 벡터 사이의 유사도를 상기 제1 문서와 상기 제2 문서의 유사도로서 계산한다.
또한, 상기 키워드 추출부는, 상기 제1 문서의 제목 및 요약으로부터 상기 제1 문서의 키워드를 추출하고, 상기 제1 문서를 참조하는 문서의 제목 및 요약, 상기 제1 문서가 참조하는 문서의 제목 및 요약 중 적어도 하나로부터 상기 제1 문서의 키워드를 추가로 추출할 수 있다.
본 발명의 일실시예에 따르면, 상기 키워드 추출부는, 상기 제1 문서를 참조하는 문서를 참조하는 문서, 및 상기 제1 문서를 참조하는 문서가 참조하는 제1 문서 이외의 다른 문서 중 적어도 하나로부터 상기 제1 문서의 키워드를 추가로 추출한다.
또한 본 발명의 다른 일실시예에 따르면, 상기 키워드 추출부는, 상기 제1 문서가 참조하는 문서를 참조하는 제1 문서 이외의 다른 문서, 및 상기 제1 문서가 참조하는 문서가 참조하는 문서 중 적어도 하나로부터 상기 제1 문서의 키워드를 추가로 추출한다.
본 발명의 또 다른 일측에 따르면, 제1 문서로부터 상기 제1 문서의 키워드를 추출하는 단계, 상기 제1 문서를 참조하는 문서 및 상기 제1 문서가 참조하는 문서 중 적어도 하나로부터 상기 제1 문서의 키워드를 추가로 추출하는 단계, 및 상기 추출된 키워드를 이용하여 상기 제1 문서와 제2 문서 사이의 유사도를 계산하는 단계를 포함하는 문서 간의 유사도 계산 방법이 제공된다.
본 발명의 일실시예에 따르면, 논문의 본문 전체를 텍스트로 추출하는 과정을 거치지 않더라도 주제와의 연관도가 높은 키워드를 추출할 수 있다.
본 발명의 일실시예에 따르면, DB를 변경하지 않고도 논문 유사도 계산의 품질을 높일 수 있다.
본 발명의 일실시예에 따르면, 논문 유사도 계산에 있어서 비교의 대상이 되는 키워드의 수를 증가시켜 논문 간 유사 판단의 정확도를 향상시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 문서 간의 유사도 계산 시스템을 도시한다.
도 2는 본 발명의 일실시예에 따른 문서 간의 유사도 계산 시스템에서 제1 문서의 키워드를 추출하는 과정을 나타내는 과정을 도시하는 개념도이다.
도 3은 본 발명의 일실시예에 따른 문서 간의 유사도 계산 시스템에서 제1 문서 및 비교 대상이 되는 제2 문서의 키워드를 추출하는 과정을 나타내는 과정을 도시하는 개념도이다.
도 4는 본 발명의 일실시예에 따라 유사도 계산의 대상 문서가 논문인 경우에, 논문 사이의 유사도 계산 방법을 도시한다.
도 5는 본 발명의 일실시예에 따라 유사도 계산의 대상 문서가 논문인 경우에, 논문 사이의 유사도 계산 방법을 도시한다.
이하에서, 본 발명의 일부 실시예를, 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일실시예에 따른 문서 간의 유사도 계산 시스템(100)를 도시한다.
문서 간의 유사도 계산 시스템(100)는 키워드 추출부(110) 및 유사도 계산부(120)를 포함한다.
본 발명의 일실시예에 따르면, 문서 간의 유사도 계산 시스템(100)는 사용자에 의해 선택되는 제1 문서와 문서 DB(Database)(101) 내에 저장된 임의의 제2 문서 사이의 유사도 계산을 수행할 수 있다. 이러한 과정은 학술 정보 제공 시스템(도시되지 않음)에서 제공되는 유사 논문 검색 서비스의 일부로서 수행될 수 있다.
또한, 문서 간의 유사도 계산 시스템(100)는 사용자에 의해 선택되는 제1 문서와 문서 DB(Database)(101) 내에 저장된 문서 중 사용자에 의해 선택된 제2 문서 사이의 유사도 계산을 수행할 수도 있다. 이러한 과정은 상기 유사 논문 검색 서비스의 일부로서, 유사 논문 검색 서비스와 별개로 수행되는 논문 간의 유사도 계산을 위한 것일 수 있다.
이하에서는, 본 발명의 일실시예에 따른 문서 간의 유사도 계산 시스템(100)가 학술 정보 제공 시스템에서 제공되는 유사 논문 검색 서비스에 적용되는 실시예를 설명하나, 문서 간의 유사도 계산이 필요한 경우라면, 문서 간의 유사도 계산 시스템(100)는 다른 어떤 응용을 위해서도 제공될 수 있다.
한편, 본 발명의 일실시예에 따르면, 상기 제1 문서 및 상기 제2 문서는 논문이다. 그러나, 제1 문서 및 제2 문서의 종류가 논문에 한정되는 것으로 해석되어서는 안 된다.
따라서 이하에서 별다른 언급이 없이 제1 문서 및/또는 제2 문서가 논문인 예시적 실시예를 언급하더라도 이는 본 발명의 일실시예에 불과하며, 제1 문서 및/또는 제2 문서는 본 발명의 사상을 변경하지 않는 한도에서 다른 문서 형태, 이를테면 기술 표준 문서, 특허 문서, 저널의 기사, 웹 문서 등 다양한 형태의 문서로 해석될 수 있다.
상기한 바와 같이 문서 사이의 유사도 계산을 위한 기존 연구로는 텍스트 기반 유사도 계산 방법들이 수행될 수 있다.
텍스트 기반 유사도 계산 방법은 문서를 상기 문서 내에 포함된 키워드의 집합으로서 표현하고, 문서 간의 키워드 집합들 사이의 매칭(matching) 여부를 비교하여 얼마나 많은 공통 키워드를 가지고 있는 지에 기초하여 문서 간의 유사도를 계산한다.
본 발명의 일실시예에 따르면, 이렇게 비교 대상이 되는 키워드들을 비교 대상이 되는 문서뿐만 아니라, 상기 비교 대상이 되는 문서가 참조하는 문서, 및/또는 상기 문서를 참조하는 문서로부터 추출한다.
이를 테면, 키워드 추출부(110)에 사용자에 의해 선택되는 제1 문서가 입력되면, 상기 키워드 추출부(110)는 상기 제1 문서로부터 상기 제1 문서의 키워드를 추출한다. 또한 키워드 추출부(110)는 상기 제1 문서가 참조하는 문서(이하에서는 "제1 문서의 피참조 문서"라고도 한다) 및/또는 상기 제1 문서를 참조하는 문서(이하에서는 "제1 문서를 피참조 문서로 하는 문서"라고도 한다)로부터, 상기 제1 문서의 키워드를 더 추출한다.
이렇게 제1 문서, 그리고 제1 문서의 피참조 문서 및/또는 제1 문서를 피참조 문서로 하는 문서부터 추출된 키워드들 전체가 상기 제1 문서의 키워드로 결정된다.
종래에 학술 정보 시스템 등에서는 유사 논문 검색 서비스가 제공되는 경우에, 논문의 유사도 검색을 위해서 선택되는 키워드들은 비교 대상이 되는 논문 자체의 제목(title) 및 요약(abstract)의 텍스트로부터 선택되었다.
논문의 본문의 경우에는 크롤링(crawling)과 파싱(parsing)에 어려움이 있기 때문에 논문 DB 내에 텍스트로 저장되어 있지 않은 경우가 많다. 따라서, 논문 본문의 텍스트 정보 없이 제목 및 요약의 텍스트로부터 추출된 키워드는 개수가 비교적 적고, 논문의 세부 주제와 상관도가 낮은 경우도 많다.
따라서, 본 발명의 일실시예에 따른 키워드 추출부(110)는, 유사 논문 검색 서비스 등에서 이용되기 위해 문서의 키워드를 추출하는 경우, 입력되는 제1 문서뿐만 아니라, 상기 제1 문서가 참조하는 문서들 및/또는 상기 제1 문서를 참조하는 문서들의 텍스트로부터도 상기 제1 문서의 키워드를 추출한다.
이 경우, 추출된 제1 문서의 키워드들은, 개수가 많고 논문의 세부 주제와의 상관도가 높은 키워드들도 보다 많이 포함되므로, 유사도 계산의 정확도를 높일 수 있다.
이렇게 제1 문서뿐만 아니라 상기 제1 문서의 피참조 문서 및/또는 제1 문서를 피참조 문서로 하는 문서로부터 상기 제1 문서의 키워드가 추출되는 경우, 유사도 계산부(120)는 추출된 제1 문서의 키워드들을 이용하여, 문서 DB(101) 내에 포함된 문서들과 제1 문서 사이의 유사도를 계산한다.
문서 DB(101) 내의 문서들 중 임의의 제2 문서에 대해 상기 제1 문서와의 사이의 유사도를 계산하는 방법에는 다양한 실시예가 있을 수 있다.
상기한 바와 같이, 문서들 각각의 텍스트로부터 추출된 키워드들 사이의 매칭을 이용해 문서들 사이의 유사도를 계산하는 텍스트 기반 유사도 계산 방법에는 불리언 모델, 벡터 모델, 그리고 확률 모델 등이 있다.
본 발명의 일실시예에 따르면, 유사도 계산부(120)는 추출된 제1 문서의 키워드들 및 추출된 제2 문서의 키워드 사이의 유사도를 계산하기 위해 상기 벡터 모델을 이용한다.
물론, 본 발명의 다른 실시예들에서는, 상기 불리언 모델, 확률 모델 등이 이용될 수 있으며, 이하에서 벡터 모델을 참조하여 설명하더라도 본 발명이 일부 실시예에 한정되어 해석되어서는 안 된다.
벡터 모델의 실시예에서, 유사도 계산부(120)는, 제1 문서에 대해 추출된 키워드들을 제1 벡터로 표현한다. 그리고, 유사도 계산부(120)는 제1 문서와 비교 대상이 되는 제2 문서에 대해 추출된 키워드들을 제2 벡터로 표현한다.
그리고 본 발명의 일실시예에 따르면, 유사도 계산부(120)는 상기 제1 벡터와 제2 벡터 사이의 유사도를 아래 수학식에 의해 계산한다.
[수학식 1]
Figure 112010025529828-pat00001
여기서, 벡터 A는 제1 문서의 키워드들을 대표하는 제1 벡터이고, 벡터 B는 제2 문서의 키워드들을 대표하는 제2 벡터이다.
그리고 유사도 Sim(A, B)는 제1 벡터 A와 제2 벡터 B의 유사도를 계산한 결과 값이다. 이러한 계산 방법을 벡터 모델 방법에서는 cosine measure 라고도 한다.
이 유사도 Sim(A, B)의 값은 제1 문서의 키워드들과 제2 문서의 키워드들 간에 매칭되는 키워드의 수가 많을수록 커진다.
한편, 상기한 바와 같이 유사도 계산부(120)가 벡터 모델 및 상기 수학식 1을 이용하여 제1 문서와 제2 문서 사이의 유사도를 계산하는 과정은 본 발명의 일실시예에 불과하므로, 본 발명의 사상을 변경하지 않는 범위에서 구체적인 계산 모델이나 계산 식이 변경될 수도 있다.
그리고, DB(101) 내의 문서들 각각에 대해 유사도 계산부(120)가 제1 문서와의 유사도를 계산한 경우, 문서 간의 유사도 계산 시스템(100)는 유사도가 높은 순서로 미리 저정된 개수의 문서들을 유사 문서(유사 논문)으로서 제공할 수 있다.
이상에서 서술한 키워드 추출부(110) 및 유사도 계산부(120)의 동작은 도 2 이하를 참조하여 보다 상세히 후술된다.
도 2는 본 발명의 일실시예에 따른 문서 간의 유사도 계산 시스템에서 제1 문서의 키워드를 추출하는 과정을 나타내는 과정을 도시하는 개념도이다.
제1 문서(200)은 이를 테면 논문일 수 있다.
도 1의 문서 간의 유사도 계산 시스템(100)에 제1 문서(200)가 입력되는 경우, 키워드 추출부(110)는 제1 문서(200)의 참조문서(Reference) 목록(204)로부터 상기 제1 문서(200)가 참조하는 피참조 문서인 문서(210) 및 문서(220)를 식별한다.
또한, 키워드 추출부(110)는 문서 DB(101) 내의 문서들 중 적어도 일부의 문서들 각각의 참조문서(Reference) 목록을 참조하여 상기 제1 문서(200)를 참조하는 제1 문서를 피참조 문서로 하는 문서(230) 및 문서(240)를 식별한다.
그리고, 키워드 추출부(110)는 제1 문서(200) 중 텍스트 정보를 포함하지 않는 본문(203)을 제외하고 텍스트 정보를 포함하는 제목(201), 요약(202) 및 참조문서 목록(204)로부터 키워드 {"Mining", "Tree", "Clustering", "Frequent"}(251)를 추출한다.
이러한 키워드 추출 과정에서는 텍스트 내에서 가능한 모든 키워드를 추출한 다음 불필요한 요소들, 이를테면 조사, 특수 기호, stopword 등을 제거하는 방법이 이용될 수 있다.
종래의 방법에 의하면, 제1 문서(200)로부터만 키워드가 추출되었기 때문에, 이렇게 추출된 키워드 {"Mining", "Tree", "Clustering", "Frequent"}(251)가 제1 문서(200)의 키워드로서 다른 문서의 키워드들과 비교 대상이 되었다.
그러나 본 발명의 일실시예에 따르면, 제1 문서(200)가 참조하는 피참조 문서인 문서(210) 및 문서(220) 등으로부터도 키워드 {"Data", "Pattern"}(252)가 추출된다.
이 경우, 문서(210) 내에서 텍스트 정보가 포함된 제목(211), 요약(213), 참조문서 목록(214), 그리고 문서(220) 내에서 텍스트 정보가 포함된 제목(221), 요약(223), 참조문서 목록(224)으로부터 키워드가 추출되었다.
이 경우, 텍스트 정보가 포함되지 않은 본문 부분(213 및 223)은 이용되지 않을 수 있다. 다만, 문서에 따라서는 본문 중의 일부가 텍스트 정보를 포함하는 경우도 있는데, 이러한 경우에는 본문으로부터도 키워드가 추출될 수 있음은 물론이다(이하 같다).
또한, 본 발명의 일실시예에 따르면, 상기 제1 문서(200)를 피참조 문서로 참조하는 문서(230) 및 문서(240) 등으로부터도 키워드 {"Association", "Apriori", "Candidate"}(253)가 추출된다.
이 경우에도, 텍스트 정보를 포함하지 않는 본문 부분(233 및 243)을 제외하고, 텍스트 정보가 포함된 제목(231 및 241), 요약(233 및 243) 및 참조문서 목록(234 및 244)로부터 키워드가 추출될 수 있다.
따라서, 본 실시예에서 키워드 추출부(110)에 의해 추출된 제1 문서(200)의 키워드(250)는 {"Data", "Pattern", "Mining", "Tree", "Clustering", "Frequent", "Association", "Apriori", "Candidate"}이다.
이렇게 추출된 제1 문서의 키워드(250)이 제1 문서와 다른 문서 사이의 유사도를 계산하는 데에 활용된다.
도 3은 본 발명의 일실시예에 따른 문서 간의 유사도 계산 시스템에서 제1 문서(200) 및 비교 대상이 되는 제2 문서(300)의 키워드를 추출하는 과정을 나타내는 과정을 도시하는 개념도이다.
제1 문서(200), 제1 문서가 참조하는 피참조 문서인 문서(210 및 220), 및 제1 문서를 피참조 문서로 하는 문서(230 및 240)으로부터 제1 문서의 키워드(250)가 추출되는 과정은 도 2를 참조하여 상술한 바와 같다.
본 발명의 일실시예에 따르면, 도 1의 문서 DB(101) 내의 임의의 제2 문서(300)에 대한 키워드(350) 추출 과정 또한 제1 문서(200)의 키워드(250) 추출 과정과 유사한 과정에 의해 수행될 수 있다.
키워드 추출부(110)는 제2 문서(300)로부터, 키워드 {"Hash", "Graph", "Network", "Clustering", Frequent"}(351)를 추출한다. 그리고, 키워드 추출부(110)는 제2 문서(300)의 참조문서 목록을 참조하여, 제2 문서(300)가 참조하는 피참조 문서(310 및 320)으로부터 키워드 {"Candidate", "Minsup"}(352)를 추출한다.
또한, 키워드 추출부(110)는 제2 문서(300)를 피참조 문서로 하는 문서(330 및 340)으로부터 키워드 {"Pattern", "Data"}(353)를 추출한다.
이러한 과정을 통해 제2 문서(300)의 키워드 {"Candidate", "Minsup", "Hash", "Graph", "Network", "Clustering", Frequent", "Pattern", "Data"}(350)가 추출되었다.
종래의 방법에 따라 제1 문서(200)으로부터만 추출된 키워드 {"Mining", "Tree", "Clustering", "Frequent"}(251)와 제2 문서(300)로부터만 추출된 키워드 {"Hash", "Graph", "Network", "Clustering", Frequent"}(351)가 비교되는 경우, 매칭되는 공통 키워드는 {"Clustering", "Frequent"}의 두 개에 불과하기 때문에, 유사도가 두 개의 키워드 매칭에 대응한 값으로 계산되었다.
그러나, 본 발명의 일실시예에 따라 추출된 제1 문서(200)의 키워드 {"Data", "Pattern", "Mining", "Tree", "Clustering", "Frequent", "Association", "Apriori", "Candidate"}(250)와 제2 문서(300)의 키워드 {"Candidate", "Minsup", "Hash", "Graph", "Network", "Clustering", Frequent", "Pattern", "Data"}(350)가 비교되는 경우, 매칭되는 공통 키워드는 {"Data", "Pattern", "Clustering", "Frequent", "Candidate"}의 다섯 개이다. 따라서, 본 발명의 일실시예에 따르면, 제1 문서(200)와 제2 문서(300) 사이의 유사도는 다섯 개의 키워드 매칭에 대응한 값으로 계산된다.
따라서, 본 발명의 일실시예에 따르면 유사도 계산부(120)에 의해 계산되는 제1 문서(200)와 제2 문서(300) 사이의 유사도 값이 종래의 방법에 비해 높아질 수 있다. 이러한 실시예에 의하면, 비교의 대상이 되는 키워드 수가 증가되고, 문서의 세부 주제를 대표하는 구체적인 내용의 키워드들이 많이 추출될 수 있으므로, 문서 간의 유사도 계산의 정확성이 크게 향상될 수 있다.
도 4는 본 발명의 일실시예에 따라 유사도 계산의 대상 문서가 논문인 경우에, 논문 사이의 유사도 계산 방법을 도시한다.
단계(S410)에서 제1 논문으로부터 제1 논문의 키워드가 추출된다. 이를테면 도 2를 참조하여 상술한 바와 같이, 제1 문서(200)으로부터 키워드(251)를 추출하는 과정에 의해 제1 논문의 키워드가 추출될 수 있다.
이러한 과정에서 제1 논문의 키워드 추출은 도 1의 키워드 추출부(110)에 의해 수행되는 텍스트 기반의 키워드 추출일 수 있다.
그리고, 단계(S420)에서 상기 제1 논문이 참조하는 피참조 논문들로부터 제1 논문의 키워드가 추가적으로 추출된다. 이를테면, 도 2에서 제1 문서(200)가 참조하는 피참조 문서들(210 및 220)로부터 키워드(252)를 추출하는 과정에 의해 제1 논문의 키워드가 추가적으로 추출될 수 있다.
또한, 단계(S430)에서 상기 제1 논문을 피참조 논문으로 참조하는 논문들로부터 제1 논문의 키워드가 추가적으로 추출된다. 이를테면, 도 2에서 제1 문서(200)를 피참조 문서로서 참조하는 문서들(230 및 240)로부터 키워드(253)를 추출하는 과정에 의해 제1 논문의 키워드가 추가적으로 추출될 수 있다.
이렇게 추출된 키워드들 전체가 상기 제1 논문의 키워드로서 논문 사이의 유사도 계산에 이용된다.
단계(S440)에서 제2 논문에 대해 추출된 키워드와 상기 추출된 제1 논문의 키워드들을 비교함으로써 제1 논문과 제2 논문 사이의 유사도가 계산될 수 있다. 이러한 유사도 계산은 도 1의 유사도 계산부(120)에 의해 수행될 수 있다.
한편, 상기 제2 논문에 대해 추출된 키워드 역시, 도 3을 참조하여 상술한 바와 같이 제2 논문, 제2 논문이 참조하는 피참조 논문, 및 제2 논문을 피참조 논문으로서 참조하는 논문 등으로부터 추출된 것일 수 있다.
단계(S440)에서 제1 논문과 제2 논문의 유사도를 계산하는 과정은 도 5를 참조하여 보다 상세히 후술한다.
도 5는 본 발명의 일실시예에 따라 유사도 계산의 대상 문서가 논문인 경우에, 논문 사이의 유사도 계산 방법을 도시한다.
단계(S510)에서는 도 4의 단계(S410 내지 S430)를 통해 추출된 제1 논문의 키워드를 이용하여, 유사도 계산부(120)에 의해 제1 논문의 키워드의 제1 벡터가 계산된다. 이러한 벡터 계산은 도 1 및 수학식 1을 참조하여 상술한 벡터 모델에 의해 수행될 수 있다.
그리고 단계(S520)에서는 제2 논문의 키워드를 이용하여, 유사도 계산부(120)에 의해 제2 논문의 키워드의 제2 벡터가 계산된다. 제2 벡터의 계산 또한 도 1 및 수학식 1을 참조하여 상술한 벡터 모델에 의해 수행될 수 있다.
그리고, 단계(S530)에서는 유사도 계산부(120)에 의해 제1 벡터 및 제2 벡터의 유사도가 상기 수학식 1을 이용하여 계산될 수 있다. 이렇게 계산된 제1 벡터 및 제2 벡터의 유사도는 제1 논문 및 제2 논문 사이의 유사도로서 결정될 수 있다.
이 경우, 단계(S520) 내지 단계(S530)은 논문이 저장된 DB 내의 다른 논문들 각각에 대해서도 수행되어, 이들 각각의 논문들과 상기 제1 문서 사이의 유사도가 계산될 수 있다.
그러면, 문서 간의 유사도 계산 시스템(100)는 DB 내의 여러 논문 중, 상기 제1 논문과의 유사도가 높게 계산된 순서로, 미리 지정된 수의 논문을 유사 논문 검색 결과로서 제공할 수 있다.
이러한 키워드 추출 및 유사도 계산의 보다 상세한 내용은 도 1 내지 도 3을 참조하여 상술한 바와 같다.
본 발명의 일실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 시스템이 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 시스템은 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100: 문서 간 유사도 계산 시스템
110: 키워드 추출부
120: 유사도 계산부
101: 문서 DB (Database)

Claims (11)

  1. 제1 문서로부터 상기 제1 문서의 키워드를 추출하고, 상기 제1 문서를 참조하는 문서 및 상기 제1 문서가 참조하는 문서 중 적어도 하나로부터 상기 제1 문서의 키워드를 추가로 추출하는 키워드 추출부; 및
    상기 추출된 키워드를 이용하여 상기 제1 문서와 유사 판단 대상이 되는 제2 문서 사이의 유사도를 계산하는 유사도 계산부
    를 포함하는 문서 간의 유사도 계산 시스템.
  2. 제1항에 있어서,
    상기 키워드 추출부는,
    상기 제2 문서로부터 상기 제2 문서의 키워드를 추출하고, 상기 제2 문서를 참조하는 문서 및 상기 제2 문서가 참조하는 문서 중 적어도 하나로부터 상기 제2 문서의 키워드를 추가로 추출하는 것을 특징으로 하는 문서 간의 유사도 계산 시스템.
  3. 제1항에 있어서,
    상기 유사도 계산부는,
    상기 추출된 제1 문서의 키워드를 이용하여 계산되는 제1 벡터 및 상기 제2 문서의 키워드를 이용하여 계산되는 제2 벡터 사이의 유사도를 상기 제1 문서와 상기 제2 문서의 유사도로서 계산하는 것을 특징으로 하는 문서 간의 유사도 계산 시스템.
  4. 제1항에 있어서,
    상기 키워드 추출부는,
    상기 제1 문서의 제목 및 요약으로부터 상기 제1 문서의 키워드를 추출하고, 상기 제1 문서를 참조하는 문서의 제목 및 요약, 상기 제1 문서가 참조하는 문서의 제목 및 요약 중 적어도 하나로부터 상기 제1 문서의 키워드를 추가로 추출하는 것을 특징으로 하는 문서 간의 유사도 계산 시스템.
  5. 제1항에 있어서,
    상기 키워드 추출부는,
    상기 제1 문서를 참조하는 문서를 참조하는 문서, 및 상기 제1 문서를 참조하는 문서가 참조하는 제1 문서 이외의 다른 문서 중 적어도 하나로부터 상기 제1 문서의 키워드를 추가로 추출하는 것을 특징으로 하는 문서 간의 유사도 계산 시스템.
  6. 제1항에 있어서,
    상기 키워드 추출부는,
    상기 제1 문서가 참조하는 문서를 참조하는 제1 문서 이외의 다른 문서, 및 상기 제1 문서가 참조하는 문서가 참조하는 문서 중 적어도 하나로부터 상기 제1 문서의 키워드를 추가로 추출하는 것을 특징으로 하는 문서 간의 유사도 계산 시스템.
  7. 제1 문서로부터 상기 제1 문서의 키워드를 추출하는 단계;
    상기 제1 문서를 참조하는 문서 및 상기 제1 문서가 참조하는 문서 중 적어도 하나로부터 상기 제1 문서의 키워드를 추가로 추출하는 단계; 및
    상기 추출된 키워드를 이용하여 상기 제1 문서와 제2 문서 사이의 유사도를 계산하는 단계
    를 포함하는 문서 간의 유사도 계산 방법.
  8. 제7항에 있어서,
    상기 제2 문서로부터 상기 제2 문서의 키워드를 추출하는 단계; 및
    상기 제2 문서를 참조하는 문서 및 상기 제2 문서가 참조하는 문서 중 적어도 하나로부터 상기 제2 문서의 키워드를 추가로 추출하는 단계
    를 더 포함하고,
    상기 유사도를 계산하는 단계는, 상기 추출된 제1 문서의 키워드 및 상기 추출된 제2 문서의 키워드를 이용하여 상기 제1 문서와 제2 문서 사이의 유사도를 계산하는 것을 특징으로 하는 문서 간의 유사도 계산 방법.
  9. 제7항에 있어서,
    상기 유사도를 계산하는 단계는,
    상기 추출된 제1 문서의 키워드를 이용하여 제1 벡터를 계산하는 단계;
    상기 추출된 제2 문서의 키워드를 이용하여 제2 벡터를 계산하는 단계; 및
    상기 제1 벡터 및 상기 제2 벡터 사이의 유사도를 상기 제1 문서와 상기 제2 문서 사이의 유사도로서 계산하는 단계
    를 포함하는 문서 간의 유사도 계산 방법.
  10. 제7항에 있어서,
    상기 제1 문서의 키워드는, 상기 제1 문서의 제목 및 요약, 상기 제1 문서를 참조하는 문서의 제목 및 요약, 및 상기 제1 문서가 참조하는 문서의 제목 및 요약 중 적어도 하나를 이용하여 추출되는 것을 특징으로 하는 문서 간의 유사도 계산 방법.
  11. 제7항 내지 제10항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.
KR1020100036894A 2010-04-21 2010-04-21 문서 간 유사도 계산 시스템 및 방법 KR101099908B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100036894A KR101099908B1 (ko) 2010-04-21 2010-04-21 문서 간 유사도 계산 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100036894A KR101099908B1 (ko) 2010-04-21 2010-04-21 문서 간 유사도 계산 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20110117440A KR20110117440A (ko) 2011-10-27
KR101099908B1 true KR101099908B1 (ko) 2011-12-28

Family

ID=45031362

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100036894A KR101099908B1 (ko) 2010-04-21 2010-04-21 문서 간 유사도 계산 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101099908B1 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101356948B1 (ko) * 2012-04-17 2014-01-29 한국과학기술원 Sns에서 사회적 이웃의 관심사와 사회적 활동의 토픽을 통해 사용자 관심사를 추론하는 방법 및 그 시스템
KR101413444B1 (ko) * 2013-04-05 2014-07-01 한국과학기술원 문서 분석 방법
KR101508849B1 (ko) * 2013-10-24 2015-04-08 한양대학교 산학협력단 내용 정보 및 참조 정보를 활용하는 문서들 간의 유사도 측정 방법 및 장치
KR102370044B1 (ko) * 2015-03-20 2022-03-02 아이피루씨 주식회사 선행 기술 정보 자동 검색 및 유사도 측정 시스템 및 그 방법
KR101931859B1 (ko) * 2016-09-29 2018-12-21 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
KR102045574B1 (ko) * 2018-02-13 2019-11-18 고려대학교 산학협력단 기술 문서 키워드를 도출하는 장치 및 방법
CN109933647A (zh) * 2019-02-12 2019-06-25 北京百度网讯科技有限公司 确定描述信息的方法、装置、电子设备和计算机存储介质
KR102594926B1 (ko) * 2021-10-18 2023-10-27 (주)아이와즈 치안정보 문서 작성 가이드 시스템 및 그 방법
KR102487820B1 (ko) * 2022-03-23 2023-01-13 최미선 유사한 비교콘텐츠들과의 차별점을 제공하는 콘텐츠 기획과 제작을 위한 통합 플랫폼 서비스 제공 장치, 방법 및 프로그램
KR102616955B1 (ko) * 2022-08-05 2023-12-28 주식회사 아이피풀 딥러닝을 활용한 기술 키워드 유사도 판단 및 산학연 매칭 방법 및 장치
KR102651469B1 (ko) * 2023-01-30 2024-03-27 고려대학교 산학협력단 Ai기반 맞춤형 논문 추천 장치 및 방법
KR102650207B1 (ko) * 2024-01-24 2024-03-21 (주)누리미디어 시각적 효과를 제공하는 투고 저널 추천 서버, 방법 및 프로그램
KR102650206B1 (ko) * 2024-01-24 2024-03-21 (주)누리미디어 논문 유사도가 높은 투고 저널을 추천하는 서버, 방법 및 프로그램
KR102650209B1 (ko) * 2024-01-24 2024-03-21 (주)누리미디어 뷰어 기능을 제공하는 투고 저널 추천 서버, 방법 및 프로그램
KR102650202B1 (ko) * 2024-01-24 2024-03-21 (주)누리미디어 인공지능 기반의 투고 저널 추천 서버, 방법 및 프로그램

Also Published As

Publication number Publication date
KR20110117440A (ko) 2011-10-27

Similar Documents

Publication Publication Date Title
KR101099908B1 (ko) 문서 간 유사도 계산 시스템 및 방법
US10997256B2 (en) Webpage classification method and apparatus, calculation device and machine readable storage medium
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
EP2798540B1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
WO2019085236A1 (zh) 检索意图识别方法、装置、电子设备及可读存储介质
US7769751B1 (en) Method and apparatus for classifying documents based on user inputs
US8661049B2 (en) Weight-based stemming for improving search quality
US20150356091A1 (en) Method and system for identifying microblog user identity
CN109145110B (zh) 标签查询方法和装置
JP2009031931A (ja) 検索語クラスタリング装置、検索語クラスタリング方法、検索語クラスタリングプログラム及び記録媒体
KR102345401B1 (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
KR101615164B1 (ko) 엔-그램 기반의 질의 처리 장치 및 그 방법
JP5670293B2 (ja) 単語追加装置、単語追加方法、およびプログラム
KR102045574B1 (ko) 기술 문서 키워드를 도출하는 장치 및 방법
Masumura et al. Language Model Expansion Using Webdata for Spoken Document Retrieval.
JP2012113716A (ja) カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法
Duan et al. Research on Enterprise Track of TREC 2007 at SJTU APEX Lab.
JP6632564B2 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム
Kumar et al. IRISM@ NTCIR-12 Temporalia Task: Experiments with MaxEnt, Naive Bayes and Decision Tree Classifiers.
Granitzer et al. Context based wikipedia linking
Boukhers et al. Bib2auth: deep learning approach for author disambiguation using bibliographic data
KR101096418B1 (ko) 핵심 문서 추출 시스템 및 방법
Tu et al. Semantic query expansion and context-based discriminative term modeling for spoken document retrieval
KR100986404B1 (ko) 블로그 환경에서 중복포스트의 검출 방법 및 그 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140925

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151102

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20161024

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20171011

Year of fee payment: 7