KR101508849B1 - 내용 정보 및 참조 정보를 활용하는 문서들 간의 유사도 측정 방법 및 장치 - Google Patents

내용 정보 및 참조 정보를 활용하는 문서들 간의 유사도 측정 방법 및 장치 Download PDF

Info

Publication number
KR101508849B1
KR101508849B1 KR20130127065A KR20130127065A KR101508849B1 KR 101508849 B1 KR101508849 B1 KR 101508849B1 KR 20130127065 A KR20130127065 A KR 20130127065A KR 20130127065 A KR20130127065 A KR 20130127065A KR 101508849 B1 KR101508849 B1 KR 101508849B1
Authority
KR
South Korea
Prior art keywords
document
term
score
documents
contribution
Prior art date
Application number
KR20130127065A
Other languages
English (en)
Inventor
이상철
레이하니 하메다니 마수드
김상욱
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR20130127065A priority Critical patent/KR101508849B1/ko
Application granted granted Critical
Publication of KR101508849B1 publication Critical patent/KR101508849B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

문서들 간의 유사도를 측정하기 위한 방법 및 장치가 제공된다. 문서들 간의 유사도를 측정하기 위해 문서의 내용 정보 및 참조 정보가 활용될 수 있다. 내용 정보는 문서의 콘텐츠를 나타내고, 참조 정보는 콘텐츠를 풍부하게 하기 위해 사용된 피참조 문서의 권위를 나타낼 수 있다. 내용 정보는 문서의 용어에 대응할 수 있다. 문서의 내용 정보 및 참조 정보를 함께 고려함으로써 문서들 간의 유사도를 더욱 정확하게 측정할 수 있다.

Description

내용 정보 및 참조 정보를 활용하는 문서들 간의 유사도 측정 방법 및 장치{METHOD AND APPARATUS FOR MEASURING SIMILARITY BETWEEN DOCUMENTS ON EXPLOITING CONTENT AND CITATIONS}
기술 분야는 문서들 간의 유사도를 측정하는 기술에 관한 것으로, 특히 문서의 내용 정보 및 참조 정보를 활용함으로써 문서들 간의 유사도를 측정하는 방법 및 장치에 관한 것이다.
논문들은 학자들 사이에서 정보와 지식을 공유하는 기본 소스일 수 있다. 논문의 검색자는 논문지를 검색할 수 있는 엔진들을 이용할 수 있다. 검색 엔진들은 검색자의 관심 범위 내의 논문들을 검색할 수 있다.
검색 엔진들은 관심 범위 내의 논문들을 검색하기 위해 논문들의 유사도를 측정할 수 있다. 측정된 유사도가 높은 논문들은 동일한 관심 범위 내의 논문들로서 검색자에게 제공될 수 있다. 검색자는 제공된 논문들을 바탕으로 검색자의 리서치가 신규한지 여부를 확인할 수 있다.
한국공개특허 제10-2010-0064297호(공개일 2010년 06월 14일)에는 문서 간 유사도 산출 시스템 및 방법이 공개되어있다. 공개 발명은 제 1 문서의 데이터와 제 2 문서의 데이터를 형태소 분석을 통해 각각 2 이상의 같은 수의 그룹으로 분리할 수 있다. 상기 분리에 의하여 분리된 제 1 문서와 제 2 문서의 그룹별 데이터를 같은 종류의 그룹끼리 모두 비교할 수 있다. 또한 문서 간 유사도 산출 방법은 제 1 문서의 데이터와 제 2 문서의 데이터를 각각 2 이상의 같은 수의 그룹으로 분리하는 제 1 단계, 상기 제 1 단계에 의하여 분리된 제 1 문서와 제 2 문서의 그룹별 데이터를 같은 종류의 그룹끼리 비교하는 제 2 단계 및 상기 제 2 단계에 의한 각 그룹별 비교결과를 종합하여 제 1 문서와 제 2 문서의 유사도를 산출하는 제 3 단계를 포함할 수 있다.
일 실시예는 문서들 간의 유사도를 측정하는 장치 및 방법을 제공할 수 있다.
일 실시예는 문서의 내용 정보 및 참조 정보를 동시에 활용함으로써 문서들 간의 유사도를 측정하는 장치 및 방법을 제공할 수 있다.
일 측면에 있어서, 전자 장치에 의해 수행되는 문서들 간의 유사도 측정 방법에 있어서, 제1 문서 내에서의 제1 용어의 비중을 나타내는 제1 관련 점수를 계산하는 단계, 상기 제1 문서 내의 상기 제1 용어의 상기 제1 문서를 참조하는 제2 문서 내의 상기 제1 용어에 대한 기여(contribution)의 정도를 나타내는 제1 기여 점수를 계산하는 단계 - 상기 제1 용어는 상기 제1 문서 및 상기 제2 문서 간의 공통 용어임 -, 상기 계산된 제1 기여 점수 및 상기 계산된 제1 관련 점수에 기반하여 상기 제1 문서 내의 상기 제1 용어에 대한 제1 값을 계산하는 단계 및 상기 제2 문서 내의 상기 제1 용어의 비중을 나타내는 제2 관련 점수 및 상기 제1 값에 기반하여 상기 제1 문서 및 상기 제2 문서 간의 유사도를 측정하는 단계를 포함하고, 상기 제1 문서 및 상기 제2 문서 각각은 상기 문서들 중 하나인, 문서들 간의 유사도 측정 방법이 제공된다.
상기 유사도 측정 방법은 상기 제1 문서를 나타내는 제1 벡터 및 상기 제2 문서를 나타내는 제2 벡터를 생성하는 단계를 더 포함할 수 있다.
상기 제1 벡터는 상기 제1 값에 기반하여 생성될 수 있다.
상기 제2 벡터는 상기 제2 관련 점수에 기반하여 생성될 수 있다.
상기 유사도를 측정하는 단계는 상기 제1 벡터 및 상기 제2 벡터에 기반하여 상기 유사도를 측정할 수 있다.
상기 측정되는 유사도는 상기 제1 벡터 및 상기 제2 벡터 간의 각도의 차이에 기반하여 측정될 수 있다.
상기 제1 값은 상기 제1 기여 점수 및 상기 제1 관련 점수의 가중치가 부여된 합(weighted sum)일 수 있다.
상기 제1 값은 하기 [수학식 1]과 같이 계산되고,
Figure 112013096305135-pat00001
p는 상기 제1 문서를 나타내고, q는 상기 제2 문서를 나타내고, t는 상기 제1 용어를 나타내고, SimCCt(p)는 상기 제1 값이고, Rt(p)는 상기 제1 관련 점수이고, Ct(p,q)는 상기 제1 기여 점수이고, λ는 상기 제1 관련 점수의 가중치이고, D(p,d)는 상기 문서들 중 상기 제1 문서와 d개의 단계로 연결된 문서들의 제1 집합일 수 있다.
상기 제1 기여 점수는 하기 [수학식 2]와 같이 계산되고,
Figure 112013096305135-pat00002
p는 상기 제1 문서를 나타내고, q는 상기 제2 문서를 나타내고, t는 상기 제1 용어를 나타내고, Ct(p,q)는 상기 제1 기여 점수이고, d는 상기 제2 문서가 상기 제1 문서를 참조하기 위해 상기 문서들 중 적어도 하나 이상의 문서들을 참조하는 최소 단계의 개수이고,
Figure 112013096305135-pat00003
는 상기 제1 문서 내의 상기 제1 용어의 상기 제2 문서 내의 상기 제1 용어에 대한 기여 비율이고, Rt(q)는 상기 제2 문서 내에서의 상기 제1 용어의 비중을 나타내는 제2 관련 점수일 수 있다.
상기 제1 기여 점수는 상기 제1 문서 내의 상기 제1 용어의 상기 제2 문서 내의 상기 제1 용어에 대한 기여 비율 및 상기 제2 문서 내에서의 상기 제1 용어의 비중을 나타내는 제2 관련 점수 중 적어도 하나에 기반하여 계산될 수 있다.
상기 기여 비율은 상기 제2 문서가 참조한 하나 이상의 문서들의 각각의 문서 내에서의 상기 제1 용어의 비중을 나타내는 관련 점수에 기반하여 계산될 수 있다.
상기 제2 문서가 상기 제1 문서를 직접적으로 참조한 경우, 상기 기여 비율은 하기 [수학식 3]과 같이 계산되고,
Figure 112013096305135-pat00004
p는 상기 제1 문서를 나타내고, q는 상기 제2 문서를 나타내고, t는 상기 제1 용어를 나타내고,
Figure 112013096305135-pat00005
는 상기 기여 비율이고, Rt(p)는 상기 제1 관련 점수이고, Rt(q)는 상기 제2 관련 점수이고, references(q)는 상기 문서들 중 상기 제2 문서가 참조한 문서들의 제2 집합이고, r은 상기 제2 집합 내의 제3 문서를 나타내고, Rt(r)은 상기 제3 문서 내에서의 상기 제1 용어의 비중을 나타내는 제3 관련 점수일 수 있다.
상기 제2 문서가 상기 제1 문서를 간접적으로 참조한 경우, 상기 기여 비율은 하기 [수학식 4]와 같이 계산되고,
Figure 112013096305135-pat00006
p는 상기 제1 문서를 나타내고, q는 상기 제2 문서를 나타내고, t는 상기 제1 용어를 나타내고, d는 상기 제2 문서가 상기 제1 문서를 간접적으로 참조하기 위해 상기 제2 문서가 상기 문서들 중 적어도 하나 이상의 문서들을 참조하는 최소의 단계의 개수이고, i는 1 이상의 정수이고, ri는 상기 제2 문서가 상기 제1 문서를 상기 간접적으로 참조하기 위해 상기 문서들 중 적어도 하나 이상의 문서들을 참조하는 i 단계의 문서를 나타내고,
Figure 112013096305135-pat00007
는 상기 제1 문서 내의 상기 제1 용어의 상기 제1 문서를 직접적으로 참조하는 d-1단계의 문서 내의 상기 제1 용어에 대한 부분 기여 비율이고,
Figure 112013096305135-pat00008
는 부분 기여 비율들의 곱으로 표현된 상기 기여 비율일 수 있다.
상기 유사도 측정 방법은 상기 제1 문서의 최신성을 계산하는 단계를 더 포함할 수 있다.
상기 제1 값을 계산하는 단계는 상기 제1 기여 점수, 상기 제1 관련 점수 및 상기 최신성에 기반하여 상기 제1 값을 계산할 수 있다.
상기 최신성은 하기 [수학식 5]와 같이 계산되고,
Figure 112013096305135-pat00009
p는 상기 제1 문서를 나타내고, age(p)는 상기 제1 문서의 출판된 연차이고, recency(p)는 상기 최신성일 수 있다.
상기 제1 값을 계산하는 단계는 상기 제1 기여 점수, 상기 제1 관련 점수 및 상기 최신성 각각에 가중치를 부여함으로써 상기 제1 값을 계산할 수 있다.
상기 제1 기여 점수, 상기 제1 관련 점수 및 상기 최신성에 각각 부여된 가중치들의 합은 1일 수 있다.
상기 제1 값은 하기 [수학식 6]과 같이 계산되고,
Figure 112013096305135-pat00010
p는 상기 제1 문서를 나타내고, q는 상기 제2 문서를 나타내고, t는 상기 제1 용어를 나타내고, SimCCt(p)는 상기 제1 값이고, Rt(p) 상기 제1 관련 점수이고, Ct(p,q)는 상기 제1 기여 점수이고, D(p,d)는 상기 문서들 중 상기 제1 문서와 d개의 단계로 연결된 문서들의 제1 집합이고, recency(p)는 상기 최신성이고, λ1, λ2 및 λ3는 상기 제1 기여 점수, 상기 제1 관련 점수 및 상기 최신성 각각에 부여된 가중치들일 수 있다.
상기 제1 관련 점수는 티에프-아이디에프(Term Frequency-Inverse Document Frequency; TF-IDF)의 값일 수 있다.
상기 문서는 과학 논문(scientific paper)이고, 상기 참조는 논문 내의 선행 논문의 인용일 수 있다.
다른 일 측면에 있어서, 제1 문서 내의 제1 용어에 대한 비중을 나타내는 제1 관련 점수를 계산하고, 상기 제1 문서 내의 상기 제1 용어가 상기 제1 문서를 참조하는 제2 문서 내의 상기 제1 용어에 기여하는 정도를 나타내는 제1 기여 점수를 계산하고, 상기 계산된 제1 기여 점수 및 상기 계산된 제1 관련 점수에 기반하여 상기 제1 문서 내의 상기 제1 용어에 대한 제1 값을 계산하고, 상기 제2 문서 내의 상기 제1 용어에 대한 비중을 나타내는 제2 관련 점수 및 상기 제1 값에 기반하여 상기 제1 문서 및 상기 제2 문서 간의 유사도를 측정하는 처리부를 포함하고, 상기 제1 문서 및 상기 제2 문서 각각은 상기 문서들 중 하나인, 문서들 간의 유사도 측정 장치가 제공된다.
처리부는 상기 제1 문서를 나타내는 제1 벡터 및 상기 제2 문서를 나타내는 제2 벡터를 생성하고, 상기 제1 벡터 및 상기 제2 벡터에 기반하여 상기 유사도를 측정할 수 있다.
상기 제1 벡터는 상기 제1 값에 기반하여 생성될 수 있다.
상기 제2 벡터는 상기 제2 관련 점수에 기반하여 생성될 수 있다.
상기 제1 기여 점수는 상기 제1 문서 내의 상기 제1 용어의 상기 제2 문서 내의 상기 제1 용어에 대한 기여 비율 및 상기 제2 문서 내의 상기 제1 용어에 대한 제2 관련 점수 중 적어도 하나에 기반하여 계산될 수 있다.
상기 처리부는 상기 제1 문서의 최신성을 계산할 수 있다.
상기 처리부는 상기 제1 기여 점수, 제1 관련 점수 및 상기 최신성에 기반하여 상기 제1 값을 계산할 수 있다.
문서들 간의 유사도를 측정하는 방법 및 장치가 제공된다.
문서의 내용 정보 및 참조 정보를 동시에 활용함으로써 문서들 간의 유사도를 측정하는 방법 및 장치가 제공된다.
문서의 내용 정보, 참조 정보 및 문서의 최신성을 고려하여 문서들 간의 유사도를 측정하는 방법 및 장치가 제공된다.
도 1은 일 실시예에 따른 문서들 간의 유사도를 측정하는 유사도 측정 장치의 구성도를 도시한다.
도 2는 일 실시예에 따른 문서들 간의 유사도를 측정하는 방법의 흐름도를 도시한다.
도 3은 일 예에 따른 문서들 간의 참조의 관계를 도시한다.
도 4는 일 예에 따른 베이스라인 방법의 최적의 참조 단계 및 최적의 가중치를 얻기 위한 유사도 측정의 결과를 도시한다.
도 5는 일 예에 따른 종래의 문서들 간의 유사도 측정 방법들과 결과를 비교한 그래프들을 도시한다.
도 6은 일 예에 따른 문서의 최신성을 고려한 결과 및 최신성을 고려하지 않은 결과를 비교한 그래프를 도시한다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
실시예에는 다양한 변경이 가해질 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 실시예를 실시 형태에 대해 한정하려는 것이 아니며, 실시예는 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
문서들 간의 유사도를 측정하는데 있어서, 문서 내의 내용 정보 및 참조 정보가 함께 고려될 수 있다. 예를 들어, 내용 정보는 텍스트일 수 있다.
문서의 텍스트는 문서의 콘텐츠를 나타낼 수 있다. 텍스트는 문서와 유사한 문서들을 찾기 위해 이용될 수 있다.
반면, 문서의 참조는 문서의 콘텐츠를 보충하고, 콘텐츠를 풍부하게 할 수 있다. 문서의 참조가 되는 문서는 저자에 의해 선택될 수 있다. 예를 들어, 문서의 참조가 되는 문서로 권위(authority) 있는 문서가 선택될 수 있다.
따라서, 문서들 간의 유사도를 측정하기 위해서는 단순히 문서의 내용 정보 및 참조 정보를 독립적으로 고려하는 것이 아니라, 내용 정보 및 참조 정보를 효율적으로 결합해야 할 필요가 있을 수 있다.
내용 정보 및 참조 정보를 효율적으로 결합하는 방법은 문서의 권위 및 콘텍스트(context) 모두를 동시에 효과적으로 나타낼 수 있다.
하기의 도 1 내지 도 6을 참조하여 문서들의 유사도를 측정하기 위해, 내영 정보 및 참조 정보를 효율적으로 결합하는 방법이 상세히 설명된다.
이하에서, 용어 "유일 자원 지시기(Uniform Resource Locator; URL)" 및 "통합 자원 식별자(Uniform Resource Identifier; URI)"는 동일한 의미로 사용되며, 상호 대체될 수 있다.
도 1은 일 실시예에 따른 문서들 간의 유사도를 측정하는 유사도 측정 장치의 구성도를 도시한다.
문서들 간의 유사도를 측정하는 유사도 측정 장치(100)(이하, 유사도 측정 장치(100)는 장치(100)로 약술된다)는 처리부(110), 저장부(120) 및 입출력부(130)를 포함할 수 있다.
처리부(110)는 장치(100)를 전반적으로 제어할 수 있으며, 문서들 간의 유사도를 측정하기 위해 필요한 처리를 할 수 있다. 예를 들어, 처리부(110)는 저장부(120)에 저장된 정보 또는 데이터를 이용하여 문서들 간의 유사도를 측정할 수 있다.
예를 들어, 제2 문서가 제1 문서를 참조하는 경우, 유사도가 측정되는 문서들은 제1 문서 및 제2 문서일 수 있다. 제1 문서는 피참조 문서이고, 제2 문서는 참조 문서일 수 있다.
문서는 과학 문서(scientific paper)일 수 있다. 또한, 참조는 논문 내의 선행 논문의 인용일 수 있다.
일 실시예에 따르면, 처리부(110)는 입출력부(130)를 통해 과학 논문들이 저장되어 있는 데이터 베이스에 접근할 수 있다.
저장부(120)는 문서들을 저장할 수 있다. 유사도가 측정되는 제1 문서 및 제2 문서 각각은 문서들 중 하나일 수 있다.
예를 들어, 저장부(120)는 처리부(110)가 입출력부(130)를 통해 접근한 데이터 베이스의 과학 논문들을 저장할 수 있다. 또한, 저장부(120)는 과학 논문들 및 과학 논문들에 관한 데이터 중 적어도 하나를 저장한 데이터 베이스일 수 있다.
저장부(120)는 처리부(110)가 생성한 문서들 간의 유사도를 측정하기 위한 중간 처리의 결과 및 처리부(110)가 측정한 문서들 간의 유사도 중 적어도 하나를 저장할 수 있다.
입출력부(130)는 인터페이스를 통해 다른 장치와 연결되어, 다른 장치의 입력을 수신할 수 있다. 또한, 입출력부(130)는 인터넷에 연결될 수 있다.
예를 들어, 처리부(110)는 입출력부(130)를 이용하여 인터넷을 통해 문서들이 저장된 데이터 베이스에 접근할 수 있다.
입출력부(130)는 처리부(110)가 처리한 결과를 출력할 수 있다.
처리부(110), 저장부(120) 및 입출력부(130)에 대해, 하기에서 도 2 내지 도 3을 참조하여 상세히 설명된다.
도 2는 일 실시예에 따른 문서들 간의 유사도를 측정하는 방법의 흐름도를 도시한다.
단계(210)에서, 처리부(110)는 제1 문서를 참조하는 하나 이상의 문서들에 대한 참조 그래프를 생성할 수 있다. 제1 문서는 유사도가 측정되는 문서들 중 하나일 수 있다.
참조는 문서를 인용하는 관계일 수 있다.
참조 및 참조 그래프에 대해, 하기에서 도 3을 참조하여 상세히 설명된다.
처리부(110)는 참조 그래프를 생성함으로써 문서들 간의 참조의 관계를 형성할 수 있다.
단계(210)가 수행되지 않을 수 있다. 예를 들어, 단계(210)가 수행되지 않고, 하기의 단계(220)가 수행될 수 있다.
단계(210)가 수행되지 않는 경우, 문서들 간의 참조의 관계는 기 형성되어 있을 수 있다.
단계(220)에서, 처리부(110)는 문서들 내의 용어들을 추출할 수 있다. 예를 들어, 처리부(110)는 제1 문서 및 제2 문서 내의 용어들을 추출할 수 있다.
처리부(110)는 문서의 제목 및 요약서를 기반으로 용어들을 추출할 수 있다.
처리부(110)는 문서 내에서의 추출한 용어의 비중을 나타내는 관련 점수를 계산할 수 있다. 예를 들어, 처리부(110)는 제1 문서 내에서의 제1 용어의 비중을 나타내는 제1 관련 점수를 계산할 수 있다. 다른 예로, 처리부(110)는 제2 문서 내에의 제2 용어의 비중을 나타내는 관련 점수를 계산할 수 있다. 제1 용어 및 제2 용어는 추출된 용어들 중 하나일 수 있다.
제1 관련 점수는 티에프-아이디에프(Term Frequency-Inverse Document Frequency; TF-IDF)의 값일 수 있다.
TF(Term Frequency)는 특정한 용어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값일 수 있다. TF의 값이 높은 용어일수록 문서에서 중요한 용어라고 생각될 수 있다. 그러나, 용어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 용어가 흔하게 등장한다는 것을 의미할 수 있다.
예를 들어, 문서군이란 문서가 속한 카테고리 내의 문서들일 수 있다.
용어가 문서군 내에서 흔하게 등장하는 정도를 나타낸 값이 DF(document frequency)일 수 있다. DF의 역수는 IDF(inverse document frequency)일 수 있다. TF-IDF는 TF 및 IDF를 곱한 값일 수 있다.
처리부(110)는 제2 문서 내에서의 제1 용어의 비중을 나타내는 제2 관련 점수를 계산할 수 있다. 제1 용어는 제1 문서 및 제2 문서 간의 공통 용어일 수 있다.
제2 문서는 제1 문서를 직접적으로 또는 간접적으로 참조하는 문서일 수 있다.
여기서, 제2 문서가 제1 문서를 직접적으로 참조하는 것은 명시적으로, 제2 문서 내에서 제1 문서를 참조하는 참조 정보가 있는 경우를 의미할 수 있다.
또한, 제2 문서가 제1 문서를 간접적으로 참조하는 것은 제2 문서가 직접적으로 참조하는 제3 문서가 제1 문서를 직접적으로 참조하는 경우를 의미할 수 있다. 예를 들어, 제2 문서가 제3 문서를 참조하고, 제3 문서가 제4 문서를 참조하고, 제4 문서가 제1 문서를 참조하는 경우, 제2 문서는 제1 문서를 간접적으로 참조하는 것일 수 있다.
일 실시예에 따르면, 제2 문서가 제1 문서를 참조하는 경우, 제1 문서를 참조하기 위한 제2 문서의 참조의 단계가 정의될 수 있다. 예를 들어, 제2 문서가 제1 문서를 직접적으로 참조하는 경우, 제2 문서가 제1 문서를 참조하기 위한 단계는 1개일 수 있다.
다른 예로, 제2 문서가 제3 문서를 직접적으로 참조하고, 제3 문서가 직접적으로 제1 문서를 참조하는 경우, 제2 문서가 제1 문서를 참조하기 위한 단계는 2개일 수 있다.
또한, 처리부(110)는 제1 문서를 참조하는 하나 이상의 문서들 내에서의 제1 용어의 비중을 나타내는 관련 점수들을 각각 계산할 수 있다.
처리부(110)는 추출된 용어들에 기반하여 제1 문서를 나타내는 벡터 및 제2 문서를 나타내는 벡터를 생성할 수 있다. 각각의 벡터는 추출된 용어들의 계산된 관련 점수에 기반하여 표현될 수 있다.
예를 들어, 제1 문서에서 추출된 용어들이 "논문", "문서", "유사도" 및 "점수"이고, 제2 문서에서 추출된 용어들이 "논문", "문서", "참조", "유사도" 및 "벡터"인 경우, 생성되는 벡터들은 (논문, 문서, 참조, 유사도, 점수, 벡터)의 차원을 가질 수 있다. 벡터의 각 차원의 성분의 값은 해당 용어의 관련 점수일 수 있다.
문서 내에서 추출된 용어가 아닌 차원의 성분의 값은 0일 수 있다. 상기의 예에서, 제1 문서에서 "참조" 및 "벡터"가 추출되지 않았으므로, 제1 문서를 나타내는 벡터의 "참조" 및 "벡터"에 대한 성분의 값들은 각각 0일 수 있다.
단계(230)에서, 처리부(110)는 제1 문서 내의 제1 용어의 제1 문서를 참조하는 제2 문서 내의 제1 용어에 대한 기여(contribution)의 정도를 나타내는 제1 기여 점수를 계산할 수 있다.
기여 점수는 피참조 문서의 용어가 피참조 문서를 참조하는 참조 문서의 용어에 대해 기여하는 정도를 나타내는 점수일 수 있다. 피참조 문서가 참조 문서에 기여하는 정도가 큰 경우, 기여 점수는 높을 수 있다. 즉, 기여 점수는 참조 문서에 대한 피참조 문서의 권위(authority)를 나타낼 수 있다.
일 실시예에 따르면, 제2 문서가 제1 용어에 대해 권위적인 문서인 경우, 제1 용어에 대해 제1 문서는 중요하고 가치있는 문서일 확률이 증가할 수 있다.
제1 용어에 대해 제1 문서가 제2 문서보다 더 가치있는 경우, 제1 문서는 제2 문서보다 더 제1 용어에 대해 기여하는 것일 수 있다.
제1 용어에 대해 제2 문서가 제1 문서보다 더 가치있는 경우, 제1 용어에 대해 제1 문서가 가치있는 경우라고 해도 제2 문서에 대한 제1 문서의 기여도는 적을 수 있다.
제1 용어에 대해 제2 문서가 제1 문서를 포함하여 복수의 문서들을 참조하는 경우, 제2 문서의 저자가 제1 용어에 대한 제2 문서의 콘텐츠를 보충하기 위해 복수의 문서들을 참조하였기 때문에, 제2 문서에 대한 제1 문서의 기여도는 감소할 수 있다.
기여 점수는 위와 같은 상황들이 반영되어 계산될 수 있다.
기여 점수는 피참조 문서 내의 모든 용어에 대해 계산될 수 있다. 또한, 기여 점수는 피참조 문서 내의 추출된 용어들에 대해 계산될 수도 있다.
제1 기여 점수는 제1 문서 내의 제1 용어의 제2 문서 내의 제1 용어에 대한 기여 비율 및 제2 문서 내의 제1 용어에 대한 제2 관련 점수 중 적어도 하나에 기반하여 계산될 수 있다.
참조 문서는 복수 개의 피참조 문서들을 참조할 수 있다. 따라서, 이러한 경우를 위해 고려되는 요소가 기여 비율일 수 있다.
예를 들어, 제1 기여 점수는 하기의 [수학식 7]과 같이 계산될 수 있다.
Figure 112013096305135-pat00011
[수학식 7]에서, p는 제1 문서를 나타내낼 수 있다. q는 제2 문서를 나타낼 수 있다. t는 제1 용어를 나타낼 수 있다. Ct(p,q)는 제1 기여 점수일 수 있다. d는 제2 문서가 제1 문서를 참조하기 위해 문서들 중 적어도 하나 이상의 문서들을 참조하는 최소 단계의 개수일 수 있다.
Figure 112013096305135-pat00012
는 기여 비율일 수 있다. Rt(q)는 제2 관련 점수일 수 있다.
기여 비율은 제2 문서가 참조한 하나 이상의 문서들의 각각의 제1 용어에 대한 관련 점수에 기반하여 계산될 수 있다.
예를 들어, 제2 문서가 제1 문서를 직접적으로 참조한 경우, 기여 비율은 하기의 [수학식 8]과 같이 계산될 수 있다.
Figure 112013096305135-pat00013
[수학식 8]에서,
Figure 112013096305135-pat00014
는 기여 비율일 수 있다. references(q)는 문서들 중 제2 문서가 참조한 문서들의 제2 집합일 수 있다. r은 상기 제2 집합 내의 제3 문서를 나타낼 수 있다. Rt(r)은 제3 문서 내의 제1 용어에 대한 제3 관련 점수일 수 있다. 제3 관련 점수는 전술된 단계(220)에서, 처리부(110)에 의해 계산된 값일 수 있다.
즉, 기여 비율은 제2 문서 내의 제1 용어에 대한 제1 문서 내의 제1 용어의 기여도를 의미할 수 있다.
다른 예로, 제2 문서가 제1 문서를 간접적으로 참조한 경우, 기여 비율은 하기의 [수학식 9]와 같이 계산될 수 있다.
Figure 112013096305135-pat00015
[수학식 9]에서
Figure 112013096305135-pat00016
는 기여 비율일 수 있다.
[수학식 9]에서, d는 제2 문서가 제1 문서를 간접적으로 참조하기 위해 제2 문서가 문서들 중 적어도 하나 이상의 문서들을 참조하는 최소의 단계의 개수일 수 있다. 예를 들어, 제2 문서 및 제3 문서가 제1 문서를 직접적으로 참조하지 않고, 제2 문서가 제3 문서를 직접적으로 참조하고, 제3 문서가 제4 문서를 직접적으로 참조하고, 제4 문서가 제2 문서를 직접적으로 참조하는 경우, 제2 문서가 제1 문서를 참조하는 최소의 단계는 3개일 수 있다.
[수학식 9]에서, i는 1 이상의 정수일 수 있다. ri는 제2 문서가 제1 문서를 간접적으로 참조하기 위해 문서들 중 적어도 하나 이상의 문서들을 참조하는 i 단계의 문서를 나타낼 수 있다. 상기의 예에서, 1단계의 문서는 제3 문서이고, 2단계의 문서는 제4 문서일 수 있다.
Figure 112013096305135-pat00017
는 상기 제1 문서 내의 상기 제1 용어의 상기 제1 문서를 직접적으로 참조하는 d-1단계의 문서 내의 상기 제1 용어에 대한 부분 기여 비율일 수 있다.
즉, 제2 문서 내의 제1 용어에 대한 제1 문서 내의 제1 용어의 기여 비율이, 제2 문서가 제1 문서를 참조하기 위한, 각 단계의 피참조 문서를 참조하는 참조 문서에 대한 피참조 문서의 부분 기여 비율들의 곱으로 계산될 수 있다.
처리부(110)는 제1 문서 내의 추출된 용어들의 각각이 제2 문서에 기여하는 정도를 나타내는 기여 점수들을 계산할 수 있다. 처리부(110)는 추출된 용어들의 전부 또는 일부에 대한 기여 점수들을 계산할 수 있다.
단계(240)에서, 처리부(110)는 제1 문서의 최신성을 계산할 수 있다. 최신 성은 문서가 출판된 연차를 고려하는 값일 수 있다.
제1 문서의 최신성은 하기의 [수학식 10]과 같이 계산될 수 있다.
Figure 112013096305135-pat00018
[수학식 10]에서, recency(p)는 제1 문서의 최신성일 수 있다.
age(p)는 제1 문서의 출판된 연차일 수 있다. 예를 들어, 현재가 2013년이고, 제1 문서가 2009년에 출판된 경우, age(p)는 5일 수 있다. 상기의 예에서, 연차를 계산하는 방법에 따라, age(p)는 4일 수도 있다.
즉, [수학식 10]에 의하면, 제1 문서의 연차가 클수록 제1 문서의 최신성은 작아질 수 있다.
단계(240)가 수행되지 않을 수 있다. 예를 들어, 단계(230)가 수행된 후, 하기의 단계(250)가 수행될 수 있다.
또한, 단계(240)는 단계(220) 및 단계(230)와 병렬적으로 수행될 수 있다.
단계(250)에서, 단계(240)가 수행되지 않은 경우, 처리부(110)는 제1 기여 점수 및 제1 관련 점수에 기반하여 제1 문서 내의 제1 용어에 대한 제1 값을 계산할 수 있다.
제1 값은 제1 기여 점수 및 제1 관련 점수의 가중치가 부여된 합(weighted sum)일 수 있다.
일 실시예에 따르면, 제1 값은 에스아이엠씨씨(SimCC) 점수로 명명될 수 있다.
예를 들어, 제1 값은 하기의 [수학식 11]과 같이 계산될 수 있다.
Figure 112013096305135-pat00019
[수학식 11]에서, SimCCt(p)는 제1 값일 수 있다. p는 제1 문서를 나타낼 수 있다. q는 제2 문서를 나타낼 수 있다. t는 제1 용어를 나타낼 수 있다. Rt(p)는 제1 관련 점수일 수 있다. Ct(p,q)는 제1 기여 점수일 수 있다. λ는 제1 관련 점수의 가중치일 수 있다. D(p,d)는 문서들 중 제1 문서와 d개의 단계로 연결된 문서들의 제1 집합일 수 있다.
예를 들어, 제2 문서가 제1 문서를 직접적으로 참조하지 않고, 제2 문서가 제3 문서를 직접적으로 참조하고, 제3 문서가 제1 문서를 직접적으로 참조하는 경우, D(제1 문서, 1) = {제3 문서}일 수 있다. 상기의 예에서, D(제1 문서, 2) = {제2 문서}일 수 있다.
단계(250)에서, 단계(240)가 수행된 경우, 처리부(110)는 제1 기여 점수, 제1 관련 점수 및 상기 제1 문서의 최신성에 기반하여 제1 문서 내의 제1 용어에 대한 제1 값을 계산할 수 있다.
처리부(110)는 제1 기여 점수, 제1 관련 점수 및 제1 문서의 최신성 각각에 가중치를 부여함으로써 제1 값을 계산할 수 있다.
제1 기여 점수, 제1 관련 점수 및 제1 문서의 최신성에 각각 부여된 가중치들의 합은 1일 수 있다.
제1 값은 하기의 [수학식 12]와 같이 계산될 수 있다.
Figure 112013096305135-pat00020
[수학식 12]에서, p는 제1 문서를 나타낼 수 있다. q는 제2 문서를 나타낼 수 있다. t는 제1 용어를 나타낼 수 있다. SimCCt(p)는 제1 값일 수 있다. Rt(p) 제1 관련 점수일 수 있다. Ct(p,q)는 제1 기여 점수일 수 있다. D(p,d)는 문서들 중 제1 문서와 d개의 단계로 연결된 문서들의 제1 집합일 수 있다. recency(p)는 제1 문서의 최신성일 수 있다. λ1, λ2 및 λ3는 제1 기여 점수, 제1 관련 점수 및 제1 문서의 최신성 각각에 부여된 가중치들일 수 있다.
단계(260)에서, 처리부(110)는 추출된 용어들에 기반하여 제1 문서를 나타내는 제1 벡터 및 제2 문서를 나타내는 제2 벡터를 각각 생성할 수 있다. 각각의 벡터는 추출된 용어들의 계산된 값에 기반하여 표현될 수 있다. 예를 들어, 제1 벡터는 제1 용어에 대한 제1 값에 기반하여 생성될 수 있다. 다른 예로, 제2 벡터는 제1 용어에 대한 제2 관련 점수에 기반하여 생성될 수 있다.
처리부(110)는 단계(220)에서 생성된 벡터들을 이용하여 제1 벡터 및 제2 벡터를 생성할 수 있다.
예를 들어, 처리부(110)는 단계(220)의 제1 문서를 나타내는 벡터의 각 성분이 각 용어에 대한 관련 점수, 기여 점수 및 최신성에 기반하여 계산된 값으로 대체함으로써 제1 벡터를 생성할 수 있다.
다른 예로, 처리부(110)는 단계(220)의 제2 문서를 나타내는 벡터를 이용하여 제2 벡터를 생성할 수 있다.
단계(270)에서, 처리부(110)는 제1 벡터 및 제2 벡터를 기반으로 제1 문서 및 제2 문서의 유사도를 측정할 수 있다. 제1 문서 및 제2 문서의 유사도는 제1 문서의 벡터 및 제2 문서의 벡터의 길이에 기반하여 측정될 수 있다. 또한, 제1 문서 및 제2 문서의 유사도는 제1 벡터 및 제2 벡터 간의 각도의 차이에 기반하여 측정될 수 있다.
도 3은 일 예에 따른 문서들 간의 참조의 관계를 도시한다.
전술된 도 2의 단계(210)에서, 처리부(110)는 도 3과 같은 참조 그래프를 생성할 수 있다.
화살표가 출발하는 문서는 화살표가 도착하는 문서를 참조하는 문서일 수 있다. 예를 들어, 제3 문서 및 제4 문서가 제1 문서를 참조하는 경우, 제3 문서 및 제4 문서는 참조 문서이고, 제1 문서는 피참조 문서일 수 있다.
피참조 문서란, 참조 문서 내에 명시적으로 표시된 문서일 수 있다. 예를 들어, 피참조 문서는 참조 문서 내의 용어를 설명하기 위해 참조 문서에서 언급된 문서일 수 있다.
다른 예로, 피참조 문서는 참조 문서에 기재된 URL에 해당하는 문서일 수 있다.
또 다른 예로, 피참조 문서는 참조 문서와 링크로 연결된 문서일 수 있다. 링크의 연결은 일방적일 수 있다. 예를 들어, 제4 문서는 제1 문서의 링크를 포함하나, 제1 문서는 제4 문서의 링크를 포함하지 않을 수 있다.
피참조 문서를 참조하는 방법에는 간접적 참조 및 직접적 참조가 있을 수 있다. 간접적 참조 및 직접적 참조에 대한 내용은 전술된 단계(220)에서 상세히 설명된다.
도 3에서, 제2 문서는 간접적으로 제1 문서를 참조할 수 있다. 제2 문서가 제1 문서를 참조하기 위한 최소의 단계의 개수는 3개이다.
제2 문서가 제1 문서를 참조하기 위한 1단계의 문서는 제6 문서일 수 있다.
제2 문서가 제1 문서를 참조하기 위한 2단계의 문서는 제4 문서일 수 있다.
제2 문서가 제1 문서를 참조하기 위한 3단계의 문서는 제1 문서일 수 있다.
또한, 제2 문서는 제1 문서를 간접적으로 참조하는 것 이외에, 제 8문서를 직접적으로 참조할 수 있다.
제2 집합은 문서들 중 제2 문서가 참조한 문서들의 집합일 수 있다. 도 3에서 제2 집합의 원소는 제6 문서 및 제8 문서이다.
참조 문서는 복수 개의 피참조 문서들을 참조할 수 있다. 따라서, 이러한 경우를 위해 고려되는 요소는 기여 비율일 수 있다.
앞서 도 1 내지 도 2를 참조하여 설명된 기술적 내용들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 이하 생략하기로 한다.
도 4는 일 예에 따른 베이스라인 방법의 최적의 참조 단계 및 최적의 가중치를 얻기 위한 유사도 측정의 결과를 도시한다.
일 실시예에 따르면, 논문들 간의 유사도 측정을 위해 데이터 베이스 내의 11 가지의 주제들이 선정되었다. 저장부(120)는 데이터 베이스일 수 있다. 11 가지의 주제는 데이터 처리(data processing), 빈발 패턴 마이닝(mining frequent patterns) 및 연관 규칙(association rules), 분류(classification), 클러스터링(clustering), 마이닝 데이터 스트림(mining data streams), 링크 마이닝(link mining), 그래프 마이닝(graph mining), 데이터 큐브(data cubes), 공간 데이터 베이스(spatial database), 오엘에이피 및 데이터 웨어하우스(OLAP(On-Line Analytical Processing) and data warehouse) 및 웹 마이닝(web mining)이다.
논문들 간의 유사도를 측정하기 위해 논문들의 제목, 요약서 및 참조 정보가 이용될 수 있다.
일 실시예에 따르면, 코사인 유사도(Cosine similarity)를 계산하는 방법(이하, 코사인 유사도를 계산하는 방법은 Cosine으로 약술된다)이 베이스라인 방법(baseline method)로서 이용될 수 있다.
도 4에서, 베이스라인 방법의 최적의 참조 단계 및 최적의 가중치를 얻기 위해 실험의 참조 단계는 1에서 5까지의 범위로, 가중치는 0.1에서 0.9까지의 범위로 설정되었다.
일 실시예에 따르면, Cosine은 제안된 문서들 간의 유사도를 판단하는 방법에 적용될 수 있다. d1, d2, d3, d4 및 d5의 결과들은 Cosine이 적용된 제안된 문서들 간의 유사도를 판단하는 방법의 결과들일 수 있다.
도 4의 각 결과들은 평균 정확도의 평균(Mean Average Precision; MAP), 정확도(precision) 및 재현율(recall)을 나타낸다.
결과(410 내지 430)들에서 d1, d2, d3, d4 및 d5는 제2 문서가 제1 문서를 참조하기 위해 문서들 중 적어도 하나 이상의 문서들을 참조하는 최소 단계의 개수이다. d1, d2, d3, d4 및 d5는 각각 1, 2, 3,4 및 5개를 나타낸다. λ는 가중치이다.
MAP의 결과(410)를 제외하고, 정확도의 결과(420) 및 재현율의 결과(430)에서 최적의 참조 단계는 3이고, 최적의 가중치는 0.7로 나타난다. MAP의 결과(410)에서는 최적의 참조 단계는 2이고, 최적의 가중치는 0.5로 나타난다.
일 실시예에 따르면, 최소의 참조 단계의 개수가 증가할수록 최적의 가중치도 증가한다. 그 이유는 참조 그래프에서 최소의 참조 단계가 증가할수록 제1 문서의 기여 점수가 작아지기 때문일 수 있다. 따라서, 최소의 참조 단계의 개수가 증가하면, 유사도 점수는 기여 점수보다 관련 점수에 더 의존할 수 있다.
일 실시예에 따르면, 제안된 유사도 측정 방법의 결과들은 베이스라인 방법의 결과보다 향상된 것일 수 있다.
일 실시예에 따르면, 최적의 최소의 참조 단계의 개수는 3개일 수 있다.
일 실시예에 따르면, 최적의 가중치는 0.5 내지 0.7로 제한될 수 있다.
도 5는 일 예에 문서들 간의 유사도 측정 결과 및 종래의 유사도 측정 방법들의 결과를 비교한 그래프들을 도시한다.
SimCC는 일 실시예에 따른, 제안된 논문들 간의 유사도 측정 방법일 수 있다.
도 5의 결과들(510 내지 540)은 씨이비씨(CEBC), 더블유씨오(WCO), 플러스피랭크(+Prank) 및 SimCC의 방법에 다이스 계수(Dice coeffienct; Dice), Cosine, 비엠(BM)25 및 케이엘디(Kullaback-Leibler Distance; KLD)의 방법을 각각 적용한 결과를 각각 도시한다. 또한, 도 5는 피-랭크(P-rank)와 선형적으로 결합된 Cosine, Dice, BM25 및 KLD의 결과를 각각 도시한다.
도 5의 피앳텐(precision at top 10 results; P@10)은 상위 10개의 정확도들을 나타낼 수 있다. 알앳텐(recall at top 10 results; R@10)은 상위 10개의 재현율들을 나타낼 수 있다.
일 실시예에 따르면, SimCC 방법에 의한 얻어진 MAP, P@10 및 R@10의 값이 다른 방법들에 비해 클 수 있다.
도 6은 일 예에 따른 문서의 최신성을 고려한 결과 및 최신성을 고려하지 않은 결과를 비교한 그래프를 도시한다.
최신성이 고려된 유사도 점수를 계산하는 경우, 최적의 가중치를 찾기 위해 전술된 도 4를 참조하여 설명된 과정이 수행될 수 있다. 예를 들어, 전술된 [수학식 12]의 λ1, λ2 및 λ3는 각각의 값이 0.1씩 조정되면서 각각의 최적의 값이 계산될 수 있다. λ1, λ2 및 λ3의 총 합은 1일 수 있다.
에스아이엠씨씨 플러스 에이(SimCC+A)는 일 실시예에 따른, 최신성이 고려된 문서들 간의 유사도 점수를 계산하는 방법일 수 있다. SimCC 또는 SimCC+A의 괄호 내의 Cosine, Dice, BM25 및 KLD는 SimCC 또는 SimCC+A에 적용한 방법들을 의미할 수 있다.
일 실시예에 따르면, MAP만이 향상된 Cosine을 제외하고, 모든 유사도 측정 방법들은 최신성을 고려함으로써 MAP, P@10 및 R@10이 향상될 수 있다.
앞서 도 1 내지 도 3을 참조하여 설명된 기술적 내용들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 이하 생략하기로 한다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
100: 유사도 측정 장치
110: 처리부
120: 저장부
130: 입출력부

Claims (17)

  1. 전자 장치에 의해 수행되는 문서들 간의 유사도 측정 방법에 있어서,
    제1 문서 내에서의 제1 용어의 비중을 나타내는 제1 관련 점수를 계산하는 단계
    상기 제1 문서 내의 상기 제1 용어의 상기 제1 문서를 참조하는 제2 문서 내의 상기 제1 용어에 대한 기여(contribution)의 정도를 나타내는 제1 기여 점수를 계산하는 단계 - 상기 제1 용어는 상기 제1 문서 및 상기 제2 문서 간의 공통 용어임 -;
    상기 제1 문서의 최신성을 계산하는 단계;
    상기 계산된 최신성, 상기 계산된 제1 기여 점수 및 상기 계산된 제1 관련 점수에 기반하여 상기 제1 문서 내의 상기 제1 용어에 대한 제1 값을 계산하는 단계; 및
    상기 제2 문서 내의 상기 제1 용어의 비중을 나타내는 제2 관련 점수 및 상기 제1 값에 기반하여 상기 제1 문서 및 상기 제2 문서 간의 유사도를 측정하는 단계
    를 포함하고,
    상기 제1 문서 및 상기 제2 문서 각각은 상기 문서들 중 하나인, 문서들 간의 유사도 측정 방법.
  2. 제1항에 있어서,
    상기 제1 문서를 나타내는 제1 벡터 및 상기 제2 문서를 나타내는 제2 벡터를 생성하는 단계
    를 더 포함하고,
    상기 제1 벡터는 상기 제1 값에 기반하여 생성되고,
    상기 제2 벡터는 상기 제2 관련 점수에 기반하여 생성되고,
    상기 유사도를 측정하는 단계는 상기 제1 벡터 및 상기 제2 벡터에 기반하여 상기 유사도를 측정하는, 문서들 간의 유사도 측정 방법.
  3. 제2항에 있어서,
    상기 측정되는 유사도는 상기 제1 벡터 및 상기 제2 벡터 간의 각도의 차이에 기반하여 측정되는, 문서들 간의 유사도 측정 방법.
  4. 제1항에 있어서,
    상기 제1 값은 상기 제1 기여 점수 및 상기 제1 관련 점수의 가중치가 부여된 합(weighted sum)인, 문서들 간의 유사도 측정 방법.
  5. 제1항에 있어서,
    상기 제1 값은 하기 [수학식 1]과 같이 계산되고,
    [수학식 1]
    Figure 112013096305135-pat00021

    p는 상기 제1 문서를 나타내고, q는 상기 제2 문서를 나타내고, t는 상기 제1 용어를 나타내고, SimCCt(p)는 상기 제1 값이고, Rt(p)는 상기 제1 관련 점수이고, Ct(p,q)는 상기 제1 기여 점수이고, λ는 상기 제1 관련 점수의 가중치이고, D(p,d)는 상기 문서들 중 상기 제1 문서와 d개의 단계로 연결된 문서들의 제1 집합인, 문서들 간의 유사도 측정 방법.
  6. 제1항에 있어서,
    상기 제1 기여 점수는 하기 [수학식 2]와 같이 계산되고,
    [수학식 2]
    Figure 112013096305135-pat00022

    p는 상기 제1 문서를 나타내고, q는 상기 제2 문서를 나타내고, t는 상기 제1 용어를 나타내고, Ct(p,q)는 상기 제1 기여 점수이고, d는 상기 제2 문서가 상기 제1 문서를 참조하기 위해 상기 문서들 중 적어도 하나 이상의 문서들을 참조하는 최소 단계의 개수이고,
    Figure 112013096305135-pat00023
    는 상기 제1 문서 내의 상기 제1 용어의 상기 제2 문서 내의 상기 제1 용어에 대한 기여 비율이고, Rt(q)는 상기 제2 문서 내에서의 상기 제1 용어의 비중을 나타내는 제2 관련 점수인, 문서들 간의 유사도 측정 방법.
  7. 제1항에 있어서,
    상기 제1 기여 점수는 상기 제1 문서 내의 상기 제1 용어의 상기 제2 문서 내의 상기 제1 용어에 대한 기여 비율 및 상기 제2 문서 내에서의 상기 제1 용어의 비중을 나타내는 제2 관련 점수 중 적어도 하나에 기반하여 계산되는, 문서들 간의 유사도 측정 방법.
  8. 제7항에 있어서,
    상기 기여 비율은 상기 제2 문서가 참조한 하나 이상의 문서들의 각각의 문서 내에서의 상기 제1 용어의 비중을 나타내는 관련 점수에 기반하여 계산되는, 문서들 간의 유사도 측정 방법.
  9. 제7항에 있어서,
    상기 제2 문서가 상기 제1 문서를 직접적으로 참조한 경우, 상기 기여 비율은 하기 [수학식 3]과 같이 계산되고,
    [수학식 3]
    Figure 112013096305135-pat00024

    p는 상기 제1 문서를 나타내고, q는 상기 제2 문서를 나타내고, t는 상기 제1 용어를 나타내고,
    Figure 112013096305135-pat00025
    는 상기 기여 비율이고, Rt(p)는 상기 제1 관련 점수이고, Rt(q)는 상기 제2 관련 점수이고, references(q)는 상기 문서들 중 상기 제2 문서가 참조한 문서들의 제2 집합이고, r은 상기 제2 집합 내의 제3 문서를 나타내고, Rt(r)은 상기 제3 문서 내에서의 상기 제1 용어의 비중을 나타내는 제3 관련 점수인, 문서들 간의 유사도 측정 방법.
  10. 제7항에 있어서,
    상기 제2 문서가 상기 제1 문서를 간접적으로 참조한 경우, 상기 기여 비율은 하기 [수학식 4]와 같이 계산되고,
    [수학식 4]
    Figure 112013096305135-pat00026

    p는 상기 제1 문서를 나타내고, q는 상기 제2 문서를 나타내고, t는 상기 제1 용어를 나타내고, d는 상기 제2 문서가 상기 제1 문서를 간접적으로 참조하기 위해 상기 제2 문서가 상기 문서들 중 적어도 하나 이상의 문서들을 참조하는 최소의 단계의 개수이고, i는 1 이상의 정수이고, ri는 상기 제2 문서가 상기 제1 문서를 상기 간접적으로 참조하기 위해 상기 문서들 중 적어도 하나 이상의 문서들을 참조하는 i 단계의 문서를 나타내고,
    Figure 112013096305135-pat00027
    는 상기 제1 문서 내의 상기 제1 용어의 상기 제1 문서를 직접적으로 참조하는 d-1단계의 문서 내의 상기 제1 용어에 대한 부분 기여 비율이고,
    Figure 112013096305135-pat00028
    는 부분 기여 비율들의 곱으로 표현된 상기 기여 비율인, 문서들 간의 유사도 측정 방법.
  11. 삭제
  12. 제1항에 있어서,
    상기 최신성은 하기 [수학식 5]와 같이 계산되고,
    [수학식 5]
    Figure 112015025815652-pat00029

    p는 상기 제1 문서를 나타내고, age(p)는 상기 제1 문서의 출판된 연차이고, recency(p)는 상기 최신성인, 문서들 간의 유사도 측정 방법.
  13. 제1항에 있어서,
    상기 제1 값을 계산하는 단계는 상기 제1 기여 점수, 상기 제1 관련 점수 및 상기 최신성 각각에 가중치를 부여함으로써 상기 제1 값을 계산하고,
    상기 제1 기여 점수, 상기 제1 관련 점수 및 상기 최신성에 각각 부여된 가중치들의 합은 1인, 문서들 간의 유사도 측정 방법.
  14. 제1항에 있어서,
    상기 제1 값은 하기 [수학식 6]과 같이 계산되고,
    [수학식 6]
    Figure 112015025815652-pat00030

    p는 상기 제1 문서를 나타내고, q는 상기 제2 문서를 나타내고, t는 상기 제1 용어를 나타내고, SimCCt(p)는 상기 제1 값이고, Rt(p) 상기 제1 관련 점수이고, Ct(p,q)는 상기 제1 기여 점수이고, D(p,d)는 상기 문서들 중 상기 제1 문서와 d개의 단계로 연결된 문서들의 제1 집합이고, recency(p)는 상기 최신성이고, λ1, λ2 및 λ3는 상기 제1 기여 점수, 상기 제1 관련 점수 및 상기 최신성 각각에 부여된 가중치들인, 문서들 간의 유사도 측정 방법.
  15. 제1항에 있어서,
    상기 제1 관련 점수는 티에프-아이디에프(Term Frequency-Inverse Document Frequency; TF-IDF)의 값인, 문서들 간의 유사도 측정 방법.
  16. 제1항에 있어서,
    상기 문서는 과학 논문(scientific paper)이고, 상기 참조는 논문 내의 선행 논문의 인용인, 문서들 간의 유사도 측정 방법.
  17. 제1 문서 내의 제1 용어에 대한 비중을 나타내는 제1 관련 점수를 계산하고, 상기 제1 문서 내의 상기 제1 용어가 상기 제1 문서를 참조하는 제2 문서 내의 상기 제1 용어에 기여하는 정도를 나타내는 제1 기여 점수를 계산하고, 상기 제1 문서의 최신성을 계산하고, 상기 계산된 최신성, 상기 계산된 제1 기여 점수 및 상기 계산된 제1 관련 점수에 기반하여 상기 제1 문서 내의 상기 제1 용어에 대한 제1 값을 계산하고, 상기 제2 문서 내의 상기 제1 용어에 대한 비중을 나타내는 제2 관련 점수 및 상기 제1 값에 기반하여 상기 제1 문서 및 상기 제2 문서 간의 유사도를 측정하는 처리부
    를 포함하고,
    상기 제1 문서 및 상기 제2 문서 각각은 상기 문서들 중 하나인, 문서들 간의 유사도 측정 장치.
KR20130127065A 2013-10-24 2013-10-24 내용 정보 및 참조 정보를 활용하는 문서들 간의 유사도 측정 방법 및 장치 KR101508849B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20130127065A KR101508849B1 (ko) 2013-10-24 2013-10-24 내용 정보 및 참조 정보를 활용하는 문서들 간의 유사도 측정 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130127065A KR101508849B1 (ko) 2013-10-24 2013-10-24 내용 정보 및 참조 정보를 활용하는 문서들 간의 유사도 측정 방법 및 장치

Publications (1)

Publication Number Publication Date
KR101508849B1 true KR101508849B1 (ko) 2015-04-08

Family

ID=53033725

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130127065A KR101508849B1 (ko) 2013-10-24 2013-10-24 내용 정보 및 참조 정보를 활용하는 문서들 간의 유사도 측정 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101508849B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102004145B1 (ko) * 2018-11-29 2019-07-29 한국과학기술정보연구원 콘텐츠 추천 방법 및 장치
KR20200063841A (ko) * 2018-11-28 2020-06-05 삼성생명보험주식회사 문서 이미지로부터 인식된 용어를 표준화하기 위한 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060095565A (ko) * 2003-10-21 2006-08-31 가부시키가이샤 아이.피.비. 조사 대상 문서의 문서 특징 분석 장치
KR20080005208A (ko) * 2005-04-25 2008-01-10 가부시키가이샤 아이.피.비. 정보해석 보고서 자동 작성 장치, 정보해석 보고서 자동작성 프로그램 및 정보해석 보고서 자동 작성 방법
KR20110117440A (ko) * 2010-04-21 2011-10-27 엔에이치엔(주) 문서 간 유사도 계산 시스템 및 방법
KR20120124581A (ko) * 2011-05-04 2012-11-14 엔에이치엔(주) 개선된 유사 문서 탐지 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060095565A (ko) * 2003-10-21 2006-08-31 가부시키가이샤 아이.피.비. 조사 대상 문서의 문서 특징 분석 장치
KR20080005208A (ko) * 2005-04-25 2008-01-10 가부시키가이샤 아이.피.비. 정보해석 보고서 자동 작성 장치, 정보해석 보고서 자동작성 프로그램 및 정보해석 보고서 자동 작성 방법
KR20110117440A (ko) * 2010-04-21 2011-10-27 엔에이치엔(주) 문서 간 유사도 계산 시스템 및 방법
KR20120124581A (ko) * 2011-05-04 2012-11-14 엔에이치엔(주) 개선된 유사 문서 탐지 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200063841A (ko) * 2018-11-28 2020-06-05 삼성생명보험주식회사 문서 이미지로부터 인식된 용어를 표준화하기 위한 방법
KR102145858B1 (ko) 2018-11-28 2020-08-19 삼성생명보험주식회사 문서 이미지로부터 인식된 용어를 표준화하기 위한 방법
KR102004145B1 (ko) * 2018-11-29 2019-07-29 한국과학기술정보연구원 콘텐츠 추천 방법 및 장치

Similar Documents

Publication Publication Date Title
Hoffart et al. KORE: keyphrase overlap relatedness for entity disambiguation
US8171031B2 (en) Index optimization for ranking using a linear model
Ljubešić et al. hrWaC and slWaC: Compiling web corpora for Croatian and Slovene
US8161036B2 (en) Index optimization for ranking using a linear model
US8095538B2 (en) Annotation index system and method
JP2009525520A (ja) 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン
US8812504B2 (en) Keyword presentation apparatus and method
Jiang et al. Chronological citation recommendation with information-need shifting
US20150134652A1 (en) Method of extracting an important keyword and server performing the same
US8914359B2 (en) Ranking documents with social tags
Thijs Using neural-network based paragraph embeddings for the calculation of within and between document similarities
KR101508849B1 (ko) 내용 정보 및 참조 정보를 활용하는 문서들 간의 유사도 측정 방법 및 장치
Wang et al. A semantic query expansion-based patent retrieval approach
Mathew et al. A novel approach for near-duplicate detection of web pages using TDW matrix
Ramya et al. DRDLC: discovering relevant documents using latent dirichlet allocation and cosine similarity
Bennett et al. A comparative study of probabilistic and language models for information retrieval
MacAvaney et al. Overcoming low-utility facets for complex answer retrieval
Liu et al. A topic detection and tracking system with TF-Density
Laclavík et al. Search query categorization at scale
Zhang et al. VMPSP: Efficient skyline computation using VMP-based space partitioning
Buscaldi et al. A comparison of methods for the automatic identification of locations in wikipedia
Al-Dallal et al. Achieving high recall and precision with HTLM documents: an innovation approach in information retrieval
Jangid et al. Computing the prestige of a journal: A revised multiple linear regression approach
Tannier et al. Grawltcq: terminology and corpora building by ranking simultaneously terms, queries and documents using graph random walks
Granitzer et al. Context based wikipedia linking

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180102

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190102

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 6