KR20120088171A - 검색을 위한 논문 랭킹 방법 및 장치 - Google Patents

검색을 위한 논문 랭킹 방법 및 장치 Download PDF

Info

Publication number
KR20120088171A
KR20120088171A KR1020110009326A KR20110009326A KR20120088171A KR 20120088171 A KR20120088171 A KR 20120088171A KR 1020110009326 A KR1020110009326 A KR 1020110009326A KR 20110009326 A KR20110009326 A KR 20110009326A KR 20120088171 A KR20120088171 A KR 20120088171A
Authority
KR
South Korea
Prior art keywords
article
score
articles
reputation
reflecting
Prior art date
Application number
KR1020110009326A
Other languages
English (en)
Other versions
KR101282577B1 (ko
Inventor
김상욱
채수민
황원석
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020110009326A priority Critical patent/KR101282577B1/ko
Publication of KR20120088171A publication Critical patent/KR20120088171A/ko
Application granted granted Critical
Publication of KR101282577B1 publication Critical patent/KR101282577B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

논문의 점수를 계산하고, 논문에게 랭크를 부여하기 위한 방법 및 장치가 제공된다. 권위 있는 논문 및 최신의 연구 동향을 반영하는 논문에게 높은 랭크를 부여하는 랭킹 방법 및 장치가 개시된다. 논문의 권위는 논문들 간의 참조 관계 및 논문의 출처의 평판을 통해 평가된다. 출처의 평판을 측정함에 있어서 발생하는 평판의 인플레이션을 해결하는 방법이 개시된다. 또한, 논문의 최신 연구 동향 반영 정도를 측정하기 위해 연도별 참조 및 논문의 중요도를 측정하는 척도가 개시된다.

Description

검색을 위한 논문 랭킹 방법 및 장치{METHOD AND APPARATUS FOR RANKING ARTICLE FOR SEARCH}
아래의 실시예들은 검색의 대상인 논문에게 랭킹을 부여하기 위한 방법 및 장치에 관한 것이다.
인터넷과 웹 기술의 발전으로 대부분의 논문 자료는 웹에 데이터베이스의 형태로 존재한다.
따라서 논문을 찾고자 하는 연구자들은 도서관을 이용하기 보다는 논문 검색 엔진을 이용하여 웹에 저장된 논문들을 검색하는 경우가 많다.
연구자는 자신이 찾고자 하는 논문이 무엇인지 불명확할 경우, 포괄적인 질의어(query)를 이용하여 검색을 한다. 이 때, 포괄적인 질의어와 연관된 논문의 수가 많기 때문에 다수의 논문이 검색 결과로 반환된다.
이렇게 많은 수의 논문이 검색 결과로 나타날 경우, 연구자가 검색된 논문들을 검토하여 그 중 자신이 원하는 논문을 찾는 것은 현실적으로 매우 어렵다.
따라서, 이러한 문제점을 해결하기 위하여, 연구자들의 관심을 반영하여 검색 결과로 나타난 논문에 랭킹을 부여하는 논문 랭킹 방법이 필요하다.
논문에 랭킹을 부여하기 위해, 다양한 방법들이 사용될 수 있다.
이러한 랭킹 방법들 중 일부는, 논문, 저자, 학회 및 저널들, 그리고 그들 사이의 참조(citation) 관계 및 다양한 관계들을 그래프를 사용하여 모델링하고, 모델링된 그래프를 이용하여 논문의 랭킹을 계산한다.
모델링 된 그래프에서 노드(node)는 논문, 저자, 학회 및 저널을 나타내고, 링크(link)는 그들 사이의 다양한 관계를 나타낸다.
이러한 랭킹 방법들은 모델링 된 그래프의 노드에 점수를 부여하고, 링크의 방향에 따라 점수를 파급시키는 방식으로 논문의 랭킹 점수를 계산한다.
이와 같은 점수의 파급이 반복되다 보면, 각 노드의 점수가 변하지 않게 된다. 이러한 상태를 수렴이라 부르며, 노드의 수렴 상태의 점수를 통해 랭크가 결정된다.
점수의 파급 과정은 모델링 된 그래프를 행렬로 표현한 행렬식을 통해 나타내어 질 수 있다.
본 발명의 일 실시에는 논문의 권위에 기반하여 논문에게 랭크를 부여하는 장치 및 방법을 제공할 수 있다.
본 발명의 일 실시에는 논문의 최신의 연구 동향 반영 정도에 기반하여 논문에게 랭크를 부여하는 장치 및 방법을 제공할 수 있다.
본 발명의 일측에 따르면, 제1 논문의 출처의 평판을 정량적으로 측정하는 평판 측정부 및 상기 출처의 평판을 반영하여 상기 제1 논문의 점수를 계산하는 점수 계산부를 포함하고, 상기 평판 측정부는 상기 출처의 평판이 시간에 따라 인플레이션되는 것을 반영하여 상기 출처의 평판을 정량적으로 측정하는, 논문 점수 계산 장치가 제공된다.
상기 논문 점수 계산 장치는, 상기 제1 논문의 점수에 기반하여 상기 제1 논문을 포함하는 검색 리스트 내에서의 상기 제1 논문의 랭크를 계산하는 랭크 계산부를 더 포함할 수 있다.
상기 출처는 상기 제1 논문이 개제된 저널 또는 학회일 수 있다.
상기 논문 점수 계산 장치는, 복수 개의 논문들 간의 참조 관계를 생성하는 참조 관계 생성부를 더 포함할 수 있다.
상기 점수 계산부는 상기 참조 관계에 기반하여 상기 제1 논문을 참조하는 제2 논문들의 점수들을 반영하여 상기 제1 논문의 점수를 계산할 수 있다.
상기 점수 계산부는 상기 참조 관계에 기반하여 상기 제2 논문들을 참조하는 제3 논문들의 점수들을 반영하여 상기 제1 논문의 점수를 계산할 수 있다.
상기 평판 측정부는 상기 출처의 임팩트 팩터를 정규화함으로써 상기 출처의 평판이 시간에 따라 인플레이션되는 것을 반영하여 상기 출처의 평판을 정량적으로 측정할 수 있다. 상기 임펙트 팩터는 특정 연도의 출처에 최근 n년간 게재된 논문들이 상기 연도에 받은 평균 참조 수이며, n은 2 이상의 정수이고, 상기 정규화는 상기 출처에 게재된 논문이 받은 참조 수를 상기 연도의 논문 당 평균 참조 수로 나눈 값을 상기 임팩트 팩터에 곱하는 것일 수 있다.
상기 점수 계산부는 상기 제1 논문을 참조하는 논문들 각각의 발행 시기들을 반영하여 상기 제1 논문의 점수를 계산할 수 있다.
상기 점수 계산부는 상기 제1 논문의 발행 시기를 반영하여 상기 제1 논문의 점수를 계산할 수 있다.
상기 점수 계산부는 상기 참조 관계를 사용하는 랜덤 워크 위드 리스타트(random walk with restart)에 기반하여 상기 제1 논문을 참조하는 제2 논문들의 점수 및 상기 제2 논문들을 참조하는 제3 논문들의 점수들을 반영하여 상기 제1 논문의 점수를 계산할 수 있다.
상기 점수 계산부는 상기 랜덤 워크 위드 리스타트의 리스타트 벡터의 각 요소의 값을 상기 요소에 대응하는 논문의 출처의 평판에 비례하게 부여함으로써 상기 출처의 평판을 반영할 수 있다.
상기 점수 계산부는 연도들 각각에 대한 참조의 중요도를 0 내지 1의 실수 값으로 정규화하고, 상기의 정규화된 중요도를 상기 랜덤 워크 위드 리스타트의 댐핑 팩터에 적용함으로써 상기 제1 논문을 참조하는 논문들 각각이 발행된 상기 연도들을 반영하여 상기 제1 논문의 점수를 계산할 수 있다.
상기 점수 계산부는 상기 복수 개의 논문들 중 하나의 논문이 참조하는 논문들에 대한 연도별 논문의 중요도의 합이 1이 되도록 정규화함으로써 상기 제1 논문의 발행 시기를 반영하여 상기 제1 논문의 점수를 계산할 수 있다.
본 발명의 다른 일측에 따르면, 제1 논문의 출처의 평판을 정량적으로 측정하는 평판 측정 동작 및 상기 출처의 평판을 반영하여 상기 제1 논문의 점수를 계산하는 점수 계산동작을 포함하고, 상기 평판 측정 동작에서 상기 출처의 평판은 시간에 따른 인플레이션을 반영하여 정량적으로 측정되는, 논문 점수 계산 방법이 제공된다.
상기 논문 점수 계산 방법은, 상기 제1 논문의 점수에 기반하여 상기 제1 논문을 포함하는 검색 리스트 내에서의 상기 제1 논문의 랭크를 계산하는 랭크 계산 동작을 더 포함할 수 있다.
상기 논문 점수 계산 방법은, 복수 개의 논문들 간의 참조 관계를 생성하는 참조 관계 생성 동작을 더 포함할 수 있다.
상기 점수 계산 동작에서 상기 제1 논문의 점수는 상기 참조 관계에 기반하여 상기 제1 논문을 참조하는 제2 논문들의 점수들을 반영하여 계산될 수 있다.
상기 점수 계산 동작에서 상기 제1 논문의 점수는 상기 참조 관계에 기반하여 상기 제2 논문들을 참조하는 제3 논문들의 점수들을 반영하여 계산될 수 있다.
상기 평판 측정 동작에서 상기 출처의 평판은 상기 출처의 임팩트 팩터를 정규화함으로써 상기 출처의 평판이 시간에 따라 인플레이션되는 것을 반영하여 정량적으로 측정될 수 있다.
상기 점수 계산 동작에서 상기 제1 논문의 점수는 상기 제1 논문을 참조하는 논문들 각각의 발행 시기들을 반영하여 계산될 수 있다.
상기 점수 계산 동작에서 상기 제1 논문의 점수는 상기 제1 논문의 발행 시기를 반영하여 계산될 수 있다.
상기 점수 계산 동작에서 상기 제1 논문의 점수는 참조 관계를 사용하는 랜덤 워크 위드 리스타트(random walk with restart)에 상기 제1 논문을 참조하는 제2 논문들의 점수들 및 상기 제2 논문들을 참조하는 제3 논문들의 점수들을 반영하여 계산될 수 있다.
상기 점수 계산 동작에서 상기 제1 논문의 점수는 연도들 각각에 대한 참조의 중요도를 0 내지 1의 실수 값으로 정규화하고, 상기의 정규화된 중요도를 상기 랜덤 워크 위드 리스타트의 댐핑 팩터에 적용함으로써 상기 제1 논문을 참조하는 논문들 각각이 발행된 상기 연도들을 반영하여 계산될 수 있다.
상기 점수 계산 동작에서 상기 제1 논문의 점수는 상기 복수 개의 논문들 중 하나의 논문이 참조하는 논문들에 대한 연도별 논문의 중요도의 합이 1이 되도록 정규화함으로써 상기 제1 논문의 발행 시기를 반영하여 계산될 수 있다.
논문의 권위에 기반하여 논문에게 랭크를 부여하는 장치 및 방법이 제공된다.
논문의 최신의 연구 동향 반영 정도에 기반하여 논문에게 랭크를 부여하는 장치 및 방법이 제공된다.
도 1은 본 발명의 일 실시예에 따른 논문 검색 방법의 목표를 도시한다.
도 2는 본 발명의 일 실시예에 따는 논문 점수 계산 장치의 구조도이다.
도 3은 본 발명의 일 예에 따른 참조 관계를 나타낸다.
도 4는 본 발명의 일 예에 따른 논문의 점수 계산을 설명한다.
도 5는 본 발명의 일 예에 따른 학회 또는 저널의 평판 및 상기 평판의 인플레이션을 설명하는 도이다.
도 6은 본 발명의 일 예에 따른 논문의 출판 수 및 참조 수를 연도 별로 도시한다.
도 7은 본 발명의 일 예에 따른 연도 별 출판물 당 평균 참조 수를 도시한다.
도 8은 본 발명의 일 예에 따른 연도 별 임팩트 팩터의 평균 및 NormIF의 평균을 나타낸다.
도 9는 본 발명의 일 예에 따른 출처들 각각의 임팩트 팩터 및 NormIF를 연도 별로 비교한 도이다.
도 10은 본 발명의 일 예에 따른 연도별 참조의 중요도를 나타내는 도이다.
도 11은 본 발명의 일 예에 따른 연도별 누적 출판물의 수 및 출판물 당 평균 참조 논문의 수를 나타낸다.
도 12은 본 발명의 일 예에 따른 연도별 논문의 중요도를 반영하여 모델링한 그래프이다.
도 13은 본 발명의 일 예에 따른 논문 점수 계산 방법의 흐름도이다.
이하에서, 본 발명의 일 실시예를, 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일 실시예에 따른 논문 검색 방법의 목표를 도시한다.
논문 데이터베이스에는 논문에 대한 다양한 종류의 데이터가 저장되어 있고, 이는 연구자가 중요하게 생각하는 논문을 찾는데 큰 도움이 될 수 있다.
논문 데이터베이스에는 논문의 제목, 저자 등과 같이 논문을 구분하는데 유용하게 이용될 수 있는 정보가 저장되어 있다. 또한, 논문 데이터베이스에는 논문 랭킹에 도움이 되는 정보가 저장되어 있다. 논문 랭킹에 도움이 되는 정보에는, 논문과 논문 사이의 참조 관계, 논문이 게재된 학회 및 저널, 논문의 출판 연도 등이 있다.
특히, 논문 사이의 참조 관계와 논문이 게재된 학회 및 저널 정보는 권위 있는 논문을 찾을 때에 유용하게 사용될 수 있고, 논문이 출판된 연도 및 논문 사이의 참조 관계는 최신 동향을 잘 반영하는 권위 있는 논문을 찾을 때에 유용하게 사용될 수 있다.
본 발명의 일 실시예에 따른 랭킹 방법은, 논문 데이터베이스의 특성을 분석하고, 상기의 분석을 바탕으로 연구자들이 원하는 논문에 높은 랭킹을 부여함으로써 연구자들의 요구를 만족시킬 수 있다.
본 발명의 일 실시예에 따른 랭킹 방법의 목표들은 하기의 제1 목표 내지 제3 목표와 같이 나타낼 수 있다.
1) 제1 목표 : 다른 논문들로부터 인정받는 권위 있는 논문들을 상위에 랭크 시킨다.
논문이 다른 연구자들로부터 인정 받은 정도는 그 논문을 참조한 다른 논문들의 권위를 통해 알 수 있다.
논문의 귄위는 논문들 사이의 참조 관계에 기반하여 계산될 수 있다. 즉, 논문 사이의 참조 관계는 한 논문이 다른 논문들로부터 인정 받는 정도를 나타낼 수 있다.
한 논문이 다른 논문들로부터 많은 참조를 받았다는 것은 그 논문이 권위 있는 논문이라는 것을 의미한다.
또한, 권위가 높은 논문은 다른 논문들의 수준을 더 까다롭게 판단하여 참조하려 하기 때문에 권위가 높은 논문으로부터 참조를 받은 논문은 평범한 논문으로부터 참조 받은 논문에 비해 높은 권위를 갖는다고 볼 수 있다.
2) 제2 목표 : 평판(reputation)이 높은 학회 또는 저널(journal)에 게재된 논문들을 상위에 랭크 시킨다.
연구자가 포괄적인 질의어를 통해 논문 검색을 하는 경우, 연구자는 권위 있는 논문 또는 최신의 연구동향을 잘 반영하는 논문을 찾고자 할 수 있다. 따라서, 전술된 제1 목표 및 제2 목표가 충족될 필요가 있다.
3) 제3 목표 : 최근의 연구동향을 잘 반영하는 권위 있는 논문을 상위에 랭크 시킨다.
최신의 연구동향을 잘 반영하는 논문은 최근에 출판된 논문이거나 최근에 출판된 논문들에 의해 참조를 많이 받은 논문을 말한다.
도 2는 본 발명의 일 실시예에 따는 논문 점수 계산 장치의 구조도이다.
논문 점수 계산 장치(200)는 논문 데이터베이스(210), 참조 관계 생성부(220), 평판 측정부(230), 점수 계산부(240) 및 랭크 계산부(250)를 포함할 수 있다.
논문 랭크 계산 장치(200)는, 제1 목표를 충족시키기 위하여, 랜덤 워크 위드 리스타트(random walk with restart, RWR)에 기반하여 제1 논문의 권위를 측정할 수 있다.
RWR은 그래프(graph)를 분석하여 노드들 각각에게 점수를 부여한다. 따라서, 논문 데이터베이스에 따른 논문들 및 상기 논문들 간의 참조 관계가 그래프로 모델링되어야 한다.
모델링의 대상이 되는 논문들을 전체 논문들로 명명한다. 전체 논문들은 논문 데이터베이스(210) 내의 모든 논문들일 수 있다. 전체 논문들은 논문 데이터베이스(210) 내의 모든 논문들 중 특정한 일부(예컨대, 같은 주제의 논문들)일 수 있다.
또한, 점수 계산의 대상인 논문을 대상 논문으로 명명한다.
참조 관계 생성부(220)는 논문 데이터베이스(210) 내의 전체 논문들 및 전체 논문들 간의 참조 정보를 사용하여 전체 논문들에 대한 참조 관계를 생성한다.
참조 관계에 대해 하기에서 도 3을 참조하여 상세히 설명된다.
평판 측정부(230)는 대상 논문의 출처의 평판을 정량적으로 측정한다.
대상 논문의 출처는 대상 논문이 개제된 저널 또는 학회를 나타낼 수 있다.
평판 측정부(230)는 출처의 평판이 시간에 따라 인플레이션되는 것을 반영하여 출처의 평판을 정량적으로 측정한다.
점수 계산부(240)는 대상 논문의 점수를 계산한다. 상기의 점수는 대상 논문의 랭크를 측정하기 위한 점수이다. 따라서, 상기의 점수를 랭킹 점수로 명명할 수 있다.
점수 계산부(240)는 RWR에 기반하여 대상 논문의 점수를 계산할 수 있다.
RWR은 일종의 확률 모델이다. 따라서, 모델 중 일부를 수정함으로써, RWR 은 본 발명의 실시예들에 의해 요구되는 다양한 목표가 충족되도록 용이하게 확장된다.
본 발명의 일 예에 따른 변경된 RWR을 사용하는 점수 계산 방법이 도 4를 참조하여 하기에서 상세히 설명된다.
점수 계산부(240)는 참조 관계 생성부(210)에 의해 생성된 참조 관계에 기반하여 대상 논문이 전체 논문들로부터 받는 참조의 개수를 반영하여 대상 논문의 점수를 계산할 수 있다.
또한, 점수 계산부(240)는 참조 관계 생성부(210)에 의해 생성된 참조 관계에 기반하여 대상 논문을 참조하는 논문들이 전체 논문들로부터 받는 참조의 개수를 반영하여 대상 논문의 점수를 계산할 수 있다.
점수 계산부(240)는 참조 관계 생성부(210)에 의해 생성된 참조 관계에 기반하여 대상 논문이 전체 논문들 중 대상 논문을 참조하는 참조 논문들의 점수들을 반영하여 대상 논문의 점수를 계산할 수 있다.
점수 계산부(240)는 참조 관계 생성부(210)에 의해 생성된 참조 관계에 기반하여 상기의 참조 논문들을 참조하는 2차 참조 논문들의 점수들을 반영하여 대상 논문의 점수를 계산할 수 있다.
즉, 점수 계산부(240)는 대상 논문의 권위 또는 대상 논문을 참조하는 논문들의 권위를 반영하여 대상 논문의 점수를 계산할 수 있다.
점수 계산부(240)는 대상 논문의 출처의 평판을 반영하여 대상 논문의 점수를 계산할 수 있다.
랭크 계산부(240)는 대상 논문의 점수에 기반하여, 대상 논문을 포함하는 검색 리스트 내에서의 대상 논문의 랭크를 계산한다.
도 3은 본 발명의 일 예에 따른 참조 관계를 나타낸다.
참조 관계 생성부(210)는 전체 논문들 중 각각의 논문을 노드(310, 320, 330 및 340)로, 논문 및 논문 간의 참조 관계를 방향성 링크(directional link)(350, 360, 370 및 380)로 표현함으로써 그래프(300)를 모델링한다.
예컨대, 제1 노드(310)는 전체 논문들 중 제1 논문을 나타낸다. 즉, 제1 노드(310)는 제1 논문에 대응한다. 마찬가지로, 제1 논문은 제1 노드(310)에 대응한다.
또한, 제1 노드(310)로부터 제2 노드(320)로의 제1 링크(350)는 제1 논문이 제2 논문을 참조함을 나타낸다.
도 4는 본 발명의 일 예에 따른 논문의 점수 계산을 설명한다.
전술된 것처럼, 점수 계산부(240)는 모델링 된 그래프를 RWR에 적용함으로써, 많은 논문들로부터 참조 받거나 권위가 높은 논문으로부터 참조 받은 논문의 권위를 높게 평가할 수 있다.
도 4에서, 본 발명의 일 예에 의해 사용될 수 있는 변경된 RWR(즉, 점수 계산 방법)(400)이 도시되었다.
본 발명의 일 실시예에 따른 점수 계산 방법(400)은 하기의 수학식 1로 나타낼 수 있다.
Figure pat00001
여기서, ri(430)는 i 번째 반복 단계에서의 전체 논문들의 점수를 포함하는 벡터(vector)이다.
(CT + e × dt)(440)는 RWR에서 랜덤워크(random walk)라 불리는 부분이다. (CT + e × dt)(440)는 참조 관계인 링크를 따라 각 노드의 점수가 다른 노드로 파급 되는 과정을 나타낸다.
C(460)는 노드 간의 참조 관계를 나타내는 행렬이다. C(460)의 각 인자인 Cij의 값은 1/Oi이다. Oi는 노드 i의 외부 차수(out-degree)이다.
e(410)는 RWR에서 리스타트(restart)라 부르는 부분으로, 링크와 무관하게 노드가 가지고 있는 점수 중 일부를 e(410)에서 지정한 노드로 파급하는 과정을 나타낸다. e(410)의 요소에 지정된 값의 크기에 비례하여 리스타트를 통해 얻는 점수의 양이 결정된다.
e(410)의 모든 요소는 동일한 값을 가질 수 있으며, 경우에 따라 서로 상이한 값을 가질 수 있다.
d(450)는 댕글링(dangling) 노드를 나타내는 벡터이다. 벡터의 요소는, 요소에 해당하는 노드에서 다른 노드로 향하는 링크가 있으면 1, 없으면 0이다.
α(420)는 댐핑 팩터(damping factor)로, 랜덤워크 할 확률에 해당한다. 일반적으로, α(420)는 0.85일 수 있다.
점수 계산부(240)가 RWR에 기반하여 점수를 계산할 경우, 점수 계산부(240)는 한 번에 점수를 결정하지 않고, 반복을 통해 점수를 계산한다.
점수 계산부(240)는 Ri+1(470)이 수렴할 때까지 반복을 수행할 수 있다. 수렴할 때란 ri(430) 및 Ri+1(470) 간의 차이가 없어지거나 매우 작아질 때를 말한다
점수 계산부(240)(즉, RWR)는 수렴 상태에서의 Ri+1(470) 값을 논문들의 최종 점수로 간주할 수 있다.
도 3의 참조 관계(300)에 대한, c(460)의 행렬 값(465), d(450)의 벡터 값(455) 및 e(410)의 벡터 값(415) 이 도시되었다.
점수 계산부(240)는 전술된 방법을 통해 권위 있는 논문들을 찾아냄으로써 제1 목표를 만족시킬 수 있다.
도 5는 본 발명의 일 예에 따른 학회 또는 저널의 평판 및 상기 평판의 인플레이션을 설명하는 도이다.
점수 계산부(240)는 제2 목표를 만족시키기 위해 각 논문이 게재된 학회 및 저널의 평판을 이용한다.
논문이 어떠한 학회 및 저널에 게재되기 위해서는 논문에 대한 리뷰어의 품질 평가가 있어야 한다는 점에서 학회 및 저널의 평판은 논문의 품질을 평가하기 위한 중요한 지표이다. 또한, 학회 및 저널의 평판이 높을수록 리뷰어의 심사 기준 또한 높아지기 때문에 게재된 학회 및 저널의 평판과 논문의 권위는 비례한다고 할 수 있다.
점수 계산부(240)는 학회 및 저널의 평판을 정량적으로 측정하기 위해 임팩트 팩터를 사용할 수 있다.
임팩트 팩터는 과학 분야의 저널들에 대해 각 저널에 게재된 논문들이 평균적으로 어느 정도 참조 받았는지를 반영하여 저널의 평판을 측정하는 방법이다.
임팩트 팩터는 하기의 수학식 2와 같이 정의될 수 있다.
Figure pat00002
여기서, IF(v, y)는 y 년도 학회 및 저널 v의 임팩트 팩터 값이고, V y y 년도 학회 및 저널 v에 게재된 논문의 집합이다. Cited(A, y)는 A에 속한 논문들이 y 년도에 받은 참조 수이다.
점수 계산부(240)는, 수학식 2에 따라, 특정 연도의 출처(즉, 저널 또는 학회)에 최근 n 년간 게재된 논문들이 그 연도에 받은 평균 참조 수를 계산함으로써 출처의 평판(즉, 임팩트 팩터)을 계산할 수 있다. n은 2일 수 있으며, 또는 2 이상의 정수일 수 있다.
임팩트 팩터는 저널에 대해서 평판을 측정하는 방법이지만, 본 발명의 일 실시예의 점수 계산부(240)는, 학회에도 임팩트 팩터를 적용하여 평판을 측정할 수 있다.
임팩트 팩터를 그대로 논문의 점수에 적용하는 데에는 문제가 있다. 그 이유는 하나의 학회 및 저널은 해마다 새로운 임팩트 팩터를 갖게 되는데 이 임팩트 팩터가 최근 연도일수록 높아지는 인플레이션 현상이 발생하기 때문이다.
이러한 인플레이션 현상은 동일한 연도에서 서로 다른 학회 및 저널의 상대적인 평판을 비교하는 데에는 문제가 되지 않는다.
그러나, 본 발명의 실시예들에서와 같이, 서로 다른 연도의 학회 및 저널의 평판이 동시에 고려되어야 하는 경우에는 문제가 될 수 있다. 인플레이션에 의해, 최근의 학회 및 저널의 평판이 예전의 학회 및 저널의 평판에 비해 높게 측정되고, 이에 따라, 논문들의 평판이 공정하게 비교될 수 없기 때문이다.
도 5는 임팩트 팩터의 인플레이션 현상을 관찰한 결과를 나타낸다. x축은 연도를 나타내고, y축은 각 연도에 포함된 모든 학회 및 저널의 임팩트 팩터의 평균을 나타낸다.
도 5에서, 각 연도별 임팩트 팩터의 평균이 시간이 지남에 따라 지속적으로 증가함을 볼 수 있다.
도 6은 본 발명의 일 예에 따른 논문의 출판 수 및 참조 수를 연도 별로 도시한다.
논문의 출판 수 및 참조 수는 임팩트 팩터의 인플레이션 현상의 원인을 파악하기 위해 도시되었다.
도 6에서 x축은 연도를, y축은 각 해에 출판된 논문 수 또는 참조 수를 나타낸다.
도 6에서, 최근일수록 그 해에 출편된 출판물의 수 및 그 해에 발생한 참조의 수가 모두 증가하는 경항이 나타난다. 특히, 매년 출판물의 수가 증가하는 폭보다 참조의 수가 증가하는 폭이 더 큰 경향이 나타난다.
논문의 출판 수 및 참조 수가 모두 시간에 따라 증가하기 때문에, 각 연도별 임팩트 팩터의 평균도 시간이 지남에 따라 지속적으로 증가한다.
도 7은 본 발명의 일 예에 따른 연도 별 출판물 당 평균 참조 수를 도시한다.
도 7은 각 연도 별로 한 편의 논문이 참조하는 논문의 평균적인 수를 확인한 결과를 나타낸다.
x축은 연도를 나타내고 y축은 각 해에 출판된 논문들이 평균적으로 참조하는 논문의 수를 나타낸다.
도 7에 의해, 연도에 따라 한 편의 논문이 참조하는 논문의 수가 증가하는 것이 확인될 수 있다. 이러한 증가는 수학식 2의 분모의 연도별 증가량에 비해 분자의 증가량을 더 크게 만드는 문제를 야기한다.
도 8은 본 발명의 일 예에 따른 연도 별 임팩트 팩터의 평균 및 NormIF의 평균을 나타낸다.
임팩트 팩터 인플레이션을 해결하기 위해서는 최근일수록 한 편의 논문이 참조하는 논문의 수가 증가한다는 점이 고려되어야 한다.
임팩트 팩터에서, 평균적으로 참조 받은 수가 계산에 이용되는 것은 참조가 추천의 의미를 담고 있기 때문이다. 최근에 출판된 논문의 참조의 수가 지속적으로 증가하고 있지만, 이러한 증가가 다른 논문들을 더 많이 추천하기 때문에 발생하는 것은 아니다.
본 발명의 일 실시예에서, 점수 계산부(240)는 논문 한 편당 추천하는 양이 동일하게 되도록 조절할 수 있고, 서로 다른 연도에서 발생하는 참조에 의한 추천의 정도를 공정하게 조절할 수 있다.
추천의 정도를 공정하게 하기 위해, 점수 계산부(240)는 학회 및 저널에 게재된 논문이 받은 참조 수를 그 해의 논문당 평균 참조 수로 나누어 정규화한다. 이러한 정규화를 통해 임팩트 팩터의 인플레이션 문제가 해결 된다.
상기의 정규화에 따른 임팩트 팩터의 생성은 하기의 수학식 3과 같이 정의될 수 있다.
Figure pat00003
여기서, NormIF(v, y)는 y 년도 학회 및 저널 v의 인플레이션 현상을 제거한 정규화된 임팩트 팩터이다.
Figure pat00004
y 년도의 모든 학회 및 저널에 게재된 논문의 집합이다. Cited(A, y)는 A에 속한 논문들이 y 년도에 참조하는 수이다.
즉, 점수 계산부(240)는 출처의 임팩트 팩터를 정규화함으로써 출처의 평판이 시간에 따라 인플레이션되는 것을 반영하여 출처의 평판을 정량적으로 측정하고, 상기의 정규화는 상기의 출처에 게재된 논문이 받은 참조 수
Figure pat00005
를 상기 연도의 논문 당 평균 참조 수
Figure pat00006
로 나눈 값을 상기의 임팩트 팩터 IF(v, y)에 곱하는 것이다.
도 8은 연도 별로 학회 및 저널들의 임팩트 팩터의 평균 및 NormIF의 평균을 비교한 그래프이다.
x축은 연도를 나타내고, y축은 임팩트 팩터 및 NormIF의 평균을 나타낸다.
결과적으로, NormIF는 임팩트 팩터의 인플레이션 현상을 제거하였다. 따라서, 학회 및 저널들의 정규화된 평균 임팩트 팩터는 연도와 무관하게 비슷한 수준을 유지한다.
도 9는 본 발명의 일 예에 따른 출처들 각각의 임팩트 팩터 및 NormIF를 연도 별로 비교한 도이다.
도 9에서, 학회 SIGMOD, VLDB 및 KDD 각각의 임팩트 팩터 및 NormIF가 연도 별로 비교되었다. 여기서 x축은 연도를, y축은 학회 및 저널에 대한 각 해의 임팩트 팩터 또는 NormIF를 나타낸다.
도 9에서, 세 가지 학회의 임팩트 팩터는 지속적으로 증가하나, NormIF는 증가하는 모습을 보이지 않는다. 따라서, 개별 학회 및 저널의 NormIF를 보더라도 정규화에 의해 연도에 따른 출처의 인플레이션이 해결되었다.
점수 계산부(240)는 평판이 높은 학회 및 저널에 게재된 논문에 높은 랭크를 부여하기 위해 NormIF를 이용할 수 있다.
단순히 평판이 높은 학회 및 저널에 게재된 논문뿐 아니라, 참조를 많이 받은 논문 또한 고려하기 위해, 점수 계산부(240)는 수학식 1에 따른 점수 계산 방법에 NormIF를 적용할 수 있다.
이를 위해, 점수 계산부(240)는 리스타트 벡터 e(410)의 각 요소의 값을 상기 요소에 대응하는 논문이 게재된 학회 및 저널의 평판에 비례하게 부여함으로써 출처의 평판을 반영할 수 있다.
리스타트 벡터 e(410)의 각 요소의 값은 하기의 수학식 4에 따라 계산될 수 있다.
Figure pat00007
여기서, ei는 e(410)의 i 번째 논문에 대응하는 요소(또는, 인자)이다.
논문 i는 출처(즉, 학회 또는 저널) v i y i 년도에 게재되었다.
N은 출처(즉, 학회 및 저널)의 수이다. n은 전체 논문의 수이다.
하기의 수학식 5는 도 2의 제1 논문 내지 제4 논문의 출처의 NormIF가 각각 1, 2, 1 및 4 일때 e(410)를 나타낸 것이다.
Figure pat00008
이러한 점수 계산 방법을 통해, 논문 점수 계산 장치(100)는 논문의 참조 관계와 함께 출처의 평판을 고려하여 논문에 랭킹을 부여함으로써 제1 목표 및 제2 목표를 동시에 충족시킬 수 있다.
도 10은 본 발명의 일 예에 따른 연도별 참조의 중요도를 나타내는 도이다.
제3 목표를 만족시키기 위해서는, 논문의 점수(또는, 랭킹)을 결정할 때 각 논문이 최신의 연구동향을 어느 정도 반영하는지가 고려되어야 한다.
최근의 연구동향을 잘 반영하는 논문은 최근에 출판된 논문들에 의해 참조를 받는 논문이다. 최근에 참조를 많이 받았다는 것은 최근에 이 논문과 관련된 연구가 활발히 진행되고 있기 때문이다. 또한, 최신의 연구 동향은 오래된 논문보다는 최근 논문에 잘 나타나 있기 때문에, 최근에 출판된 논문일수록 최신의 연구 동향을 잘 반영한다.
최근의 연구동향을 잘 반영하는 논문을 찾으려는 연구자는 다음과 같은 패턴을 보일 수 있다.
1) 첫 번째로, 연구자는 최근에 출판된 논문이 참조하는 논문을 찾기 위해 최신 논문일수록 해당 논문의 참고문헌을 더 중요하게 생각하고 따라 읽으려 하는 패턴을 보일 수 있다. 이는 논문이 참조를 할 때, 되도록 최근에 인기 있는 논문들을 참조하기 때문이다.
2) 두 번째로, 연구자는 최근에 출판된 논문을 찾기 위해 논문의 참고문헌들 중 상대적으로 최신 논문을 읽으려 하는 패턴을 보일 수 있다. 이는 연구자가 최근 논문에 더 관심을 가지기 때문이다.
점수 계산부(240)는 최근의 연구동향을 잘 반영하는 논문을 찾으려는 연구자의 첫 번째 패턴을 반영하여 논문의 점수를 계산할 수 있다. 또한, 점수 계산부(240)는 두 번째 패턴을 반영하여 논문의 점수를 계산함으로써 전술된 제1 목표 내지 제3 목표를 모두 만족시키는 점수 계산 방법을 제공할 수 있다.
최근에 출판된 논문의 참고문헌을 중요하게 생각하는 연구자의 패턴을 적용하기 위해서는, 연도별 참조의 중요도가 계산되어야 한다.
하기에서, 연도별 참조의 중요도가 설명된다.
연도별 참조의 중요도는 그 연도까지의 누적 출판물 수에 비례하고, 그 연도의 논문 당 평균 참고문헌의 수에 반비례한다.
참조할 수 있는 논문의 수가 많아지면, 저자는 자신의 논문에 참조할 논문을 고를 때 더 신중을 기하게 된다. 이러한 경우, 참조의 중요도가 증가한다.
또한, 저자가 자신의 논문에 많은 논문들을 참조하려 할수록 참조할 논문을 좀 더 쉽게 고르게 된다. 이러한 경우, 참조의 중요도가 감소한다.
따라서, 논문이 참조할 수 있는 논문이 많을수록, 그리고 해당 논문에 달린 참고문헌의 수가 적을수록 참조의 중요도가 높아진다고 볼 수 있다.
본 실시예에서는, 이러한 개념을 이용하여 연도별 참조의 중요도를 정의한다.
논문의 출판연도가 최신일수록 해당 논문이 참조할 수 있는 논문의 수는 많아지기 때문에 연도별 참조의 중요도는 증가한다.
일반적으로 논문은 자신이 해당하는 분야의 논문들만을 참조하지만, 논문의 분야를 정확히 구분하는 일은 쉽지 않다. 따라서, 본 실시예에서는, 각 분야의 논문의 수가 전체 논문의 수에 비례한다고 가정하고, 논문 별로 참조할 수 있는 논문의 수는 해당 논문이 출판되기 이전까지의 전체 누적 출판물 수로 본다.
또한, 도 7을 참조하여 전술된 것과 같이, 최근일수록 논문 당 참조하는 논문의 수가 증가한다. 따라서, 연도별 참조의 중요도는 감소한다.
y년도 참조의 중요도는 하기의 수학식 6과 같이 정의될 수 있다.
Figure pat00009
수학식 6에 따라, 연도별 참조의 중요도를 계산한 결과가 도 10에서 도시되었다. 여기서 x축은 연도를, y축은 각 연도의 연도별 참조의 중요도를 나타낸다. 전체적으로 연도별 참조의 중요도는 최근일수록 높게 평가된다.
도 11은 본 발명의 일 예에 따른 연도별 누적 출판물의 수 및 출판물 당 평균 참조 논문의 수를 나타낸다.
도 11은 연도별 참조의 종요도가 최근일수록 높게 평가되는 원인을 설명한다.
도 11에서 누적 출판물의 수 및 출판물 당 평균 참고 문헌의 수 양자는 모두 증가하는 양상을 보인다. 그러나, 누적 출판물의 수가 더 큰 폭으로 증가하므로, 최근일수록 연도별 참조의 중요도가 높게 평가된다.
이러한 결과는, 연구자가 최신의 연구 동향을 파악하기 위해 최근 논문의 참조를 중요하게 생각하는 것과 맥을 같이한다.
점수 계산부(240)는 연도별 참조의 중요도를 반영하여 대상 논문의 점수를 계산할 수 있다. 점수 계산부(240)는 전체 논문들 중 최근 논문에 의해 많이 참조되는 논문에 높은 점수를 부여할 수 있다.
즉, 점수 계산부(240)는 대상 논문을 참조하는 논문들 각각의 발행 시기들을 반영하여 대상 논문의 점수를 계산할 수 있다. 여기서, 논문의 발행 시기는 논문이 출처에 게재된 연도, 즉 발행 연도를 의미할 수 있다.
점수 계산부(240)는 연도들 각각에 대한 참조의 중요도를 0 내지 1의 실수 값으로 정규화하고, 상기의 정규화된 중요도를 변형된 RWR(400)의 댐핑 팩터 α(420)에 적용함으로써 대상 논문을 참조하는 논문들 각각이 발행된 상기 연도들을 반영하여 대상 논문의 점수를 계산할 수 있다.
점수 계산부(240)가 기반하는 변형된 RWR(400)은 일종의 확률 모델이므로, 변형된 연도들 각각에 대한 참조의 중요도(즉, 연도별 참조의 중요도)는 정규화된다.
도 10을 참조하여 전술된 것과 같이, 연도별 참조의 중요도는 선형으로 증가하는 양상을 보이기 때문에, 참조의 중요도는 하기의 수학식 7과 같이 정규화될 수 있다.
Figure pat00010
여기서, NormYCI(y)는 정규화된 y 년도의 연도별 참조의 중요도이다.
Max(A)는 집합 A 중 가장 큰 값을 반환하는 함수이다.
MaxDF는 최대 댐핑 팩터 값이다. 예컨대, MaxDF는 0.5일 수 있다.
댐핑 팩터 값은 논문의 독자들이 논문의 참조를 따라 읽을 회수에 반비례하는 것을 나타낸다. 일반적으로, 연구자들은 논문의 참고문헌을 2번 정도만 따라 읽는 경향을 보이기 때문이다. 따라서, 참조의 중요도가 가장 높은 경우를 가정하여, 댐핑 팩터의 최대값은 0.5로 부여될 수 있다.
도 4를 참조하여 전술된 변형된 RWR(400)에서는, 모든 노드(즉, 논문)에게 동일한 댐핑 팩터가 사용되었다. 그러나, 본 예에 의한 점수 계산 방법에서는 노드의 출판 연도에 따라, 댐핑 팩터가 상이하다.
따라서, 논문의 출판 연도에 따라 상이한 댐핑 팩터를 사용하는 변형된 RWR은 하기의 수학식 8과 같이 정의될 수 있다.
Figure pat00011
여기서, a ij 는 행렬 A의 인자를 나타낸다. A는 변형된 RWR(400)의 랜덤 워크 부분(440)에 연도별 참조의 중요도를 적용한 행렬이다. 즉, 점수 계산부(240)는 RWR의 랜덤 워크 부분에 연도별 참조의 중요도를 적용함으로써 대상 논문을 참조하는 논문들 각각의 발행 시기들을 반영하여 대상 논문의 점수를 계산할 수 있다.
y i 는 노드 i에 해당하는 논문의 출판 연도이다.
j i 는 노드 i로 리스타트 할 확률에 연도별 참조의 중요도를 적용한 벡터이다. 즉, 점수 계산부(240)는 전체 노드들 중 하나의 노드로 리스타트 할 확률에 연도별 참조의 중요도를 적용함으로써 대상 논문을 참조하는 논문들 각각의 발행 시기들을 반영하여 대상 논문의 점수를 계산할 수 있다.
도 12은 본 발명의 일 예에 따른 연도별 논문의 중요도를 반영하여 모델링한 그래프이다.
동일 논문에서 발생한 참조들에 대한 연도별 참조의 중요도는 모두 동일하게 평가될 경우, 하나의 논문에서 참조를 통해 각 논문으로 파급되는 점수는 모두 동일하다.
그러나, 전술된 것과 같이, 연구자는 논문의 참고문헌을 확인할 때, 상대적으로 최근 연도의 논문을 더 중요하게 생각한다. 따라서 하나의 논문에서 참조를 통해 점수가 전달될 때, 최근 연도에 출판된 논문으로 더 많은 점수가 파급되어야 한다.
이는, 점수 계산부(240)가 대상 논문의 발행 시기를 반영하여 대상 논문의 점수를 계산할 수 있음을 의미한다.
본 예에서는, 참조 받는 논문의 출판연도에 따라 연도별 논문의 중요도를 부여하고, 참조를 통해 점수를 파급할 때 연도별 논문의 중요도에 따라 점수를 다르게 파급한다. 참조 받는 논문의 출판연도가 최신일수록 연도별 논문의 중요도는 상대적으로 높게 부여된다.
논문이 참조하는 각 논문의 출판 연도를 지수함수형 붕괴 법칙(exponential decay)에 적용함으로써 연도별 논문의 중요도가 계산될 수 있다. 지수함수형 붕괴 법칙은 시계열 분석에서 흔히 사용되며, 수학식 9와 같이 정의될 수 있다.
Figure pat00012
여기서, AF(i)는 참조 받는 논문 i의 중요도이다.
y i 는 논문 i의 출판 연도이다.
now는 현재 연도이다.
t는 붕괴되는 정도를 조절하는 값으로, 실험을 통해 결정된다.
연도별 논문의 중요도가 수학식 8에 따른 변형된 RWR에 적용되기 위해서는, 논문의 점수가 참조 받는 논문 각각에 파급될 때, 참조 받는 논문 각각에 파급되는 논문의 점수들이 연도별 논문의 중요도에 비례하여야 한다.
이를 위해, 하나의 논문이 참조하는 논문들에 대한 연도별 논문의 중요도의 합이 1이 되도록 정규화되어야 한다. 즉, 점수 계산부(240)는 전체 논문들 중 하나의 논문이 참조하는 논문들에 대한 연도별 논문의 중요도의 합이 1이 되도록 정규화함으로써 대상 논문의 발행 시기를 반영하여 대상 논문의 점수를 계산할 수 있다.
상기의 연도별 논문의 중요도에 대한 정규화는 하기의 수학식 10과 같이 정의될 수 있다.
Figure pat00013
여기서, ref ij 는 논문 i가 참조하는 논문 j에 대한 정규화된 논문의 중요도이다.
OUT(i)는 논문 i가 참조하는 모든 논문을 의미한다.
전술된 방법으로 계산된 연도별 논문의 중요도를 수학식 8에 따른 변형된 RWR에 적용함으로써, 점수 계산부(240)는 최근 출판된 논문이 참조하는 논문 중에서도 최신 논문에게 높은 점수를 부여한다.
점수 계산부(240)는 수학식 8의 행렬 A를 수정함으로써 참조 받는 논문의 중요도를 반영할 수 있다.
연도별 논문의 중요도까지 반영한 변형된 RWR은 하기의 수학식 11과 같이 정의될 수 있다.
Figure pat00014
여기서, a ij 는 수학식 8의 a ij 에 참조 받는 논문의 중요도를 반영한 행렬이다.
점수 계산부(240)가 전술된 수학식 10과 같은 정규화를 사용하였을 때, 연도별로 부여된 연도별 논문의 중요도의 차이가 무시될 수 있다. 그러나, 점수 계산부(240)가, 수학식 11과 같이, 연도별 참조의 중요도를 동시에 고려한 경우, 연도별 논문의 중요도는 정규화 이후에도 보존될 수 있다.
오래된 논문이 참조할 수 있는 논문은 역시 오래된 논문들이다. 따라서, 참조 하는 논문들 사이의 연도별 논문의 중요도 각각의 차가 크지 않다.
반면, 최신 논문이 참조할 수 있는 논문은 최신 논문부터 오래된 논문들까지 다양하다. 따라서 오래된 논문에 비해 최신 논문은 참조 하는 논문 중 최근 논문과 예전 논문에 대한 연도별 논문의 중요도의 차이가 클 수 있다. 이러한 큰 중요도의 차이는 최근 논문을 참조하는 것에 상대적으로 높은 가중치를 부여할 수 있게 한다.
도 12는 전술된 것과 같이 참조하는 논문과 참조 받는 논문의 출판 연도에 따라 연도별 논문의 중요도가 상대적으로 어떻게 달라지는지를 설명한다.
도 12는 도 3과 같이 논문과 논문 사이의 참조 관계를 도시한다. 단, 참조 관계에 해당하는 화살의 두께는 정규화된 연도별 논문의 중요도에 비례한다.
전술된 변형된 RWR은 권위 있는 논문을 찾기 위한 기존의 RWR에, 각 논문이 게재된 학회 및 저널의 평판을 반영할 뿐 아니라 최신 연구동향을 잘 반영하는 논문을 우대함으로써 제1 목표 내지 제3 목표 모두를 충족시킬 수 있다.
도 13은 본 발명의 일 예에 따른 논문 점수 계산 방법의 흐름도이다.
동작(1310)에서, 예컨대 평판 측정부(230)에 의해, 제1 논문의 출처의 평판이 정량적으로 측정된다.
제1 논문은 랭크가 부여되는 대상 논문이다. 따라서, 랭크가 부여되기 위해 제1 논문의 점수가 계산된다.
출처의 평판은 시간에 따른 인플레이션을 반영하여 정량적으로 측정된다.
출처의 평판은 출처의 임팩트 팩터를 정규화함으로써, 출처의 평판이 시간에 따라 인플레이션되는 것을 반영하여 정량적으로 측정될 수 있다.
임펙트 팩터는 특정 연도의 출처에 최근 n년간 게재된 논문들이 상기 특정 연도에 받은 평균 참조 수일 수 있다. n은 2 이상의 정수이다. 상기의 정규화는 상기의 출처에 게재된 논문이 받은 참조 수를 상기의 특정 연도의 논문 당 평균 참조 수로 나눈 값을 상기의 임팩트 팩터에 곱하는 것일 수 있다.
동작(1320)에서, 예컨대 참조 관계 생성부(220)에 의해, 복수 개의 논문들 간의 참조 관계가 생성된다.
동작(1330)에서, 예컨대 점수 계산부(240)에 의해, 제1 논문의 점수가 계산된다.
제1 논문의 점수는 출처의 평판을 반영하여 계산될 수 있다.
제1 논문의 점수는 생성된 참조 관계에 기반하여 제1 논문이 전체 논문들로부터 받는 참조의 개수를 반영하여 계산될 수 있다.
제1 논문의 점수는 생성된 참조 관계에 기반하여 제1 논문을 참조하는 논문들이 전체 논문들로부터 받는 참조의 개수를 반영하여 계산될 수 있다.
제1 논문의 점수는 생성된 참조 관계에 기반하여 제1 논문을 참조하는 제2 논문들의 점수들을 반영하여 계산될 수 있다.
제1 논문의 점수는 생성된 참조 관계에 기반하여 제2 논문들을 참조하는 제3 논문들의 점수들을 반영하여 계산될 수 있다.
제1 논문의 점수는 생성된 참조 관계를 사용하는 랜덤 워크 위드 리스타트에 기반하여 제1 논문이 전체 논문들로부터 받는 참조의 개수 및 상기 제1 논문을 참조하는 논문들이 전체 논문들로부터 받는 참조의 개수를 반영하여 계산될 수 있다.
제1 논문의 점수는 생성된 참조 관계를 사용하는 랜덤 워크 위드 리스타트에 기반하여 제1 논문을 참조하는 제2 논문들의 점수 및 상기 제2 논문들을 참조하는 제3 논문들의 점수를 반영하여 계산될 수 있다.
출처의 평판은 상기의 랜덤 워크 위드 리스타트의 리스타트 벡터의 각 요소의 값을 상기의 요소에 대응하는 논문의 출처의 평판에 비례하게 부여함으로써 반영될 수 있다.
제1 논문의 점수는 상기 제1 논문을 참조하는 논문들 각각의 발행 시기들을 반영하여 계산될 수 있다. 제1 논문의 점수는 연도들 각각에 대한 참조의 중요도를 0 내지 1의 실수 값으로 정규화하고, 상기의 정규화된 중요도를 랜덤 워크 위드 리스타트의 댐핑 팩터에 적용함으로써, 제1 논문을 참조하는 논문들 각각이 발행된 연도들을 반영하여 계산될 수 있다.
제1 논문의 점수는 제1 논문의 발행 시기를 반영하여 계산될 수 있다. 제1 논문의 점수는 전체 논문들 중 하나의 논문이 참조하는 논문들에 대한 연도별 논문의 중요도의 합이 1이 되도록 정규화함으로써, 제1 논문의 발행 시기를 반영하여 계산될 수 있다.
동작(1340)에서, 예컨대 랭크 계산부(250)에 의해, 제1 논문의 점수에 기반하여 제1 논문을 포함하는 검색 리스트 내에서의 제1 논문의 랭크가 계산된다.
앞서 도 1 내지 도 12를 참조하여 설명된 본 발명의 일 실시예에 따른 기술 적 내용들이 본 실시예에도 그대로 적용될 수 있다. 따라서 보다 상세한 설명은 이하 생략하기로 한다.
본 발명의 일 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
200: 논문 점수 계산 장치
210: 논문 데이터베이스
220: 참조 관계 생성부
230: 평판 측정부
240: 점수 계산부
250: 랭크 계산부

Claims (18)

  1. 제1 논문의 출처의 평판을 정량적으로 측정하는 평판 측정부; 및
    상기 출처의 평판을 반영하여 상기 제1 논문의 점수를 계산하는 점수 계산부
    를 포함하고,
    상기 평판 측정부는 상기 출처의 평판이 시간에 따라 인플레이션되는 것을 반영하여 상기 출처의 평판을 정량적으로 측정하는, 논문 점수 계산 장치.
  2. 제1항에 있어서,
    상기 제1 논문의 점수에 기반하여 상기 제1 논문을 포함하는 검색 리스트 내에서의 상기 제1 논문의 랭크를 계산하는 랭크 계산부
    를 더 포함하는, 논문 점수 계산 장치.
  3. 제1항에 있어서,
    상기 출처는 상기 제1 논문이 개제된 저널 또는 학회인, 논문 점수 계산 장치.
  4. 제1항에 있어서,
    복수 개의 논문들 간의 참조 관계를 생성하는 참조 관계 생성부
    를 더 포함하고,
    상기 점수 계산부는 상기 참조 관계에 기반하여 상기 제1 논문을 참조하는 제2 논문들의 점수들을 반영하여 상기 제1 논문의 점수를 계산하는, 논문 점수 계산 장치.
  5. 제4항에 있어서,
    상기 점수 계산부는 상기 참조 관계에 기반하여 상기 제2 논문들을 참조하는 제3 논문들의 점수들을 반영하여 상기 제1 논문의 점수를 계산하는, 논문 점수 계산 장치.
  6. 제1항에 있어서,
    상기 평판 측정부는 상기 출처의 임팩트 팩터를 정규화함으로써 상기 출처의 평판이 시간에 따라 인플레이션되는 것을 반영하여 상기 출처의 평판을 정량적으로 측정하고,
    상기 임펙트 팩터는 특정 연도의 출처에 최근 n년간 게재된 논문들이 상기 연도에 받은 평균 참조 수이며, n은 2 이상의 정수이고, 상기 정규화는 상기 출처에 게재된 논문이 받은 참조 수를 상기 연도의 논문 당 평균 참조 수로 나눈 값을 상기 임팩트 팩터에 곱하는 것인, 논문 점수 계산 장치.
  7. 제1항에 있어서,
    상기 점수 계산부는 상기 제1 논문을 참조하는 논문들 각각의 발행 시기들을 반영하여 상기 제1 논문의 점수를 계산하는, 논문 점수 계산 장치.
  8. 제1항에 있어서,
    상기 점수 계산부는 상기 제1 논문의 발행 시기를 반영하여 상기 제1 논문의 점수를 계산하는, 논문 점수 계산 장치.
  9. 제1항에 있어서,
    복수 개의 논문들 간의 참조 관계를 생성하는 참조 관계 생성부
    를 더 포함하고,
    상기 점수 계산부는 상기 참조 관계를 사용하는 랜덤 워크 위드 리스타트(random walk with restart)에 기반하여 상기 제1 논문을 참조하는 제2 논문들의 점수들 및 상기 상기 제2 논문들을 참조하는 제3 논문들의 점수들을 반영하여 상기 제1 논문의 점수를 계산하는, 논문 점수 계산 장치.
  10. 제9항에 있어서,
    상기 점수 계산부는 상기 랜덤 워크 위드 리스타트의 리스타트 벡터의 각 요소의 값을 상기 요소에 대응하는 논문의 출처의 평판에 비례하게 부여함으로써 상기 출처의 평판을 반영하는, 논문 점수 계산 장치.
  11. 제9항에 있어서,
    상기 점수 계산부는 연도들 각각에 대한 참조의 중요도를 0 내지 1의 실수 값으로 정규화하고, 상기의 정규화된 중요도를 상기 랜덤 워크 위드 리스타트의 댐핑 팩터에 적용함으로써 상기 제1 논문을 참조하는 논문들 각각이 발행된 상기 연도들을 반영하여 상기 제1 논문의 점수를 계산하는, 논문 점수 계산 장치.
  12. 제9항에 있어서,
    상기 점수 계산부는 상기 복수 개의 논문들 중 하나의 논문이 참조하는 논문들에 대한 연도별 논문의 중요도의 합이 1이 되도록 정규화함으로써 상기 제1 논문의 발행 시기를 반영하여 상기 제1 논문의 점수를 계산하는, 논문 점수 계산 장치.
  13. 제1 논문의 출처의 평판을 정량적으로 측정하는 평판 측정 동작; 및
    상기 출처의 평판을 반영하여 상기 제1 논문의 점수를 계산하는 점수 계산동작
    을 포함하고,
    상기 평판 측정 동작에서 상기 출처의 평판은 시간에 따른 인플레이션을 반영하여 정량적으로 측정되는, 논문 점수 계산 방법.
  14. 제13항에 있어서,
    상기 제1 논문의 점수에 기반하여 상기 제1 논문을 포함하는 검색 리스트 내에서의 상기 제1 논문의 랭크를 계산하는 랭크 계산 동작
    을 더 포함하는, 논문 점수 계산 방법.
  15. 제13항에 있어서,
    복수 개의 논문들 간의 참조 관계를 생성하는 참조 관계 생성 동작
    을 더 포함하고,
    상기 점수 계산 동작에서 상기 제1 논문의 점수는 상기 참조 관계에 기반하여 상기 제1 논문을 참조하는 제2 논문들의 점수들을 반영하여 계산되는, 논문 점수 계산 방법.
  16. 제15항에 있어서,
    상기 점수 계산 동작에서 상기 제1 논문의 점수는 상기 참조 관계에 기반하여 상기 제2 논문들을 참조하는 제3 논문들의 점수들을 반영하여 계산되는, 논문 점수 계산 방법.
  17. 제13항에 있어서,
    상기 점수 계산 동작에서 상기 제1 논문의 점수는 상기 제1 논문을 참조하는 논문들 각각의 발행 시기들을 반영하여 계산되는, 논문 점수 계산 방법.
  18. 제13항에 있어서,
    상기 점수 계산 동작에서 상기 제1 논문의 점수는 상기 제1 논문의 발행 시기를 반영하여 계산되는, 논문 점수 계산 방법.
KR1020110009326A 2011-01-31 2011-01-31 검색을 위한 논문 랭킹 방법 및 장치 KR101282577B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110009326A KR101282577B1 (ko) 2011-01-31 2011-01-31 검색을 위한 논문 랭킹 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110009326A KR101282577B1 (ko) 2011-01-31 2011-01-31 검색을 위한 논문 랭킹 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20120088171A true KR20120088171A (ko) 2012-08-08
KR101282577B1 KR101282577B1 (ko) 2013-07-04

Family

ID=46873498

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110009326A KR101282577B1 (ko) 2011-01-31 2011-01-31 검색을 위한 논문 랭킹 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101282577B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101376112B1 (ko) * 2012-08-23 2014-03-19 한국과학기술정보연구원 경쟁자 논문 분석 서비스 시스템 및 그 방법
CN103729432A (zh) * 2013-12-27 2014-04-16 河海大学 一种引文数据库中主题文献学术影响力的分析与排序方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7493320B2 (en) * 2004-08-16 2009-02-17 Telenor Asa Method, system, and computer program product for ranking of documents using link analysis, with remedies for sinks

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101376112B1 (ko) * 2012-08-23 2014-03-19 한국과학기술정보연구원 경쟁자 논문 분석 서비스 시스템 및 그 방법
CN103729432A (zh) * 2013-12-27 2014-04-16 河海大学 一种引文数据库中主题文献学术影响力的分析与排序方法
CN103729432B (zh) * 2013-12-27 2017-01-25 河海大学 一种引文数据库中主题文献学术影响力的分析与排序方法

Also Published As

Publication number Publication date
KR101282577B1 (ko) 2013-07-04

Similar Documents

Publication Publication Date Title
Zheng et al. Interactive top-k spatial keyword queries
Webber et al. A similarity measure for indefinite rankings
Smucker et al. Time-based calibration of effectiveness measures
He et al. Context-aware citation recommendation
KR100963623B1 (ko) 시맨틱 웹 자원의 랭킹처리방법
US8065184B2 (en) Estimating ad quality from observed user behavior
Forsati et al. Effective page recommendation algorithms based on distributed learning automata and weighted association rules
Anagnostopoulos et al. An optimization framework for query recommendation
US20090276414A1 (en) Ranking model adaptation for searching
Kumar et al. Supervised language modeling for temporal resolution of texts
KR20080106190A (ko) 문서 랭킹 컴포넌트 트레이닝 시스템 및 컴퓨터 판독 가능 매체
BRPI0708074A2 (pt) propagação de releváncia de documentos rotulados para documentos não rotulados
Smucker et al. Modeling user variance in time-biased gain
US20090281975A1 (en) Recommending similar content identified with a neural network
Jiang et al. Chronological citation recommendation with information-need shifting
Kowald et al. Evaluating tag recommender algorithms in real-world folksonomies: A comparative study
JP2016058082A (ja) 公開データ源を選択する方法およびシステム
US9547718B2 (en) High precision set expansion for large concepts
KR101282577B1 (ko) 검색을 위한 논문 랭킹 방법 및 장치
JP2009244981A (ja) 解析装置、解析方法及び解析プログラム
Dhyani et al. Modelling and predicting a web page accesses using Markov processes
Gündüz et al. A poisson model for user accesses to web pages
KR101208828B1 (ko) 논문 검색 랭킹 시스템 및 방법
Jangid et al. Ranking of journals in science and technology domain: a novel and computationally lightweight approach
Fortunato et al. How to make the top ten: Approximating PageRank from in-degree

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E601 Decision to refuse application
AMND Amendment
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160418

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee