KR101119691B1 - 개미군락시스템을 이용한 문서 스코어링 시스템 및 방법 - Google Patents

개미군락시스템을 이용한 문서 스코어링 시스템 및 방법 Download PDF

Info

Publication number
KR101119691B1
KR101119691B1 KR1020090016454A KR20090016454A KR101119691B1 KR 101119691 B1 KR101119691 B1 KR 101119691B1 KR 1020090016454 A KR1020090016454 A KR 1020090016454A KR 20090016454 A KR20090016454 A KR 20090016454A KR 101119691 B1 KR101119691 B1 KR 101119691B1
Authority
KR
South Korea
Prior art keywords
node
pheromone
document
amount
ants
Prior art date
Application number
KR1020090016454A
Other languages
English (en)
Other versions
KR20090092252A (ko
Inventor
최영식
김기주
강문수
Original Assignee
주식회사 지식과지혜
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 지식과지혜 filed Critical 주식회사 지식과지혜
Publication of KR20090092252A publication Critical patent/KR20090092252A/ko
Application granted granted Critical
Publication of KR101119691B1 publication Critical patent/KR101119691B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

이 발명은 적어도 문서들 중 일부는 다른 문서를 가리키는 링크(link)를 포함하고 있는 문서 데이터베이스에서 문서를 스코어링 (scoring) 하는 문서 스코어링 시스템 및 방법에 관한 것이다. 본 발명에서는, 문서의 링크를 이용하여 데이터베이스를 방향 그래프(directed graph)로 표현하고, 문서의 신뢰성 또는 문서에 대한 사용자 성향 등과 같이 선험적(a priori)으로 결정할 수 있는 휴리스틱정보(heuristic information)를 노드특성함수로 표현하는 방법, 그 위에 개미군락시스템(ant colony system)을 적용하여 개미들을 이동시킴으로써, 개미들이 문서에 남겨진 페로몬(pheromone)을 계산하는 방법, 계산된 페로몬의 양에 따라 문서를 스코어링 (scoring) 하는 방법을 포함하는 것을 특징으로 한다. 이렇게 함으로써, 문서의 링크 구조(link structure)는 물론 선험적(a priori)으로 측정할 수 있는 휴리스틱정보(heuristic information)를 반영하여 문서를 스코어링 (scoring) 할 수 있게 된다.
문서중요도, 문서스코어링, 개미, 페로몬, 휴리스틱, 개미군락

Description

개미군락시스템을 이용한 문서 스코어링 시스템 및 방법 {System and Meth od For Scoring Linked Documents Using Ants Colony System}
본 발명은 적어도 문서들 중 일부는 다른 문서를 가리키는 링크(link)를 포함하고 있는 문서 데이터베이스의 문서 스코어링 시스템 및 방법에 관한 것이다.
전 세계적으로 인터넷이 보급됨에 따라 일어난 변화 중 가장 큰 변화는 웹(Web)의 급격한 성장이다. 급격한 웹의 성장은 인터넷을 통한 정보 제공자와 그 이용자의 수 및 정보의 양을 폭발적으로 증가시켰다.
이러한 정보폭발로 인터넷 정보검색 엔진은 매우 영향력 있는 인터넷 사업으로 자리 잡게 되었다. 종래의 정보검색 엔진은 웹 문서에 대한 질의어가 나타나는 빈도수와 위치 등 웹 문서에서 질의어가 얼마나 중요한가를 측정하여 질의어와 문서의 유사도를 계산한 후 유사도 순위에 따라서 검색 결과를 보여주었다. 하지만, 종래의 방법은 검색된 문서의 수가 너무 많기 때문에 검색 엔진 사용자를 만족시키지 못하였다. 뿐만 아니라 문서의 내용과 상관없는 검색 빈도수가 높은 단어들을 포함시키거나, 임의 적으로 특정 단어의 빈도수를 높여, 질의어와의 유사도를 고의적으로 높여 검색 결과의 질을 떨어트리는 웹스팸(web spam)에 대한 취약점을 드러 냈다.
이러한 문제를 해결하기 위해 종래의 검색 방법으로는 수집된 데이터를 미리 분류하여 검색의 범위를 제한하는 방법이나, 관련 있는 다른 검색 질의어를 제공하여 재검색을 통해 검색 결과의 수를 줄이는 방법 등이 있다.
그러나 이러한 방법들은 사용자 의도와 무관하게 중요한 정보를 발견할 기회를 줄이는 위험성이 있고, 보다 다양하고 객관적인 정보를 제공할 수 없다는 문제가 있다.
한편, 상기한 문제점들을 해결하는 효과적인 방법으로서, 문서를 연결하는 하이퍼링크(hyperlink)를 이용하여, 문서를 스코어링 하는 방법이 제안되었다. 기본적인 원리는, 다른 문서로부터 하이퍼링크를 많이 받으면 받을수록 그 문서의 스코어가 높아지게 하는 것이다. 이 방법은 지금 까지 문서의 중요도를 스코어링 하는데 매우 효과적인 것으로 알려져 왔다.
그러나 이러한 방법은 문서들의 연결 구조는 반영하였지만, 문서 자체의 다른 특성, 예를 들어, 문서의 신뢰성 혹은 사용자 성향 등 문서에 대한 휴리스틱 (heuristic) 정보를 반영하기 어려운 점이 있다.
본 발명이 이루고자 하는 기술적 과제는 문서들 중 일부는 다른 문서를 가리키는 링크(link)를 포함하고 있는 문서 데이터베이스에서 문서들의 링크 구조(link structure) 뿐만 아니라, 문서의 신뢰성 또는 문서에 대한 사용자 성향 등과 같이 선험적(a priori)으로 결정할 수 있는 휴리스틱정보(heuristic information)를 고려하여 문서를 스코어링하는 문서 스코어링 시스템 및 방법을 제공하는 것이다.
상기 기술적 과제를 해결하기 위한 본 발명의 특징에 따른 문서 스코어링 시스템은,
스코어링 하고자 하는 문서들을 입력받아 저장하는 문서 저장부;
상기 문거 저장부에 저장된 문서들의 링크를 이용하여 문서 저장부의 전체 문서를 방향 그래프(directed graph)로 표현하고, 문서의 신뢰성 또는 문서에 대한 사용자 성향 등과 같이 선험적(a priori)으로 결정할 수 있는 휴리스틱정보(heuristic information)를 노드특성함수로 표현하고, 그 위에 개미들이 페로몬을 통해 다른 개미들과 통신하는 성질(stigmergy)을 이용하는 개미군락시스템(ant colony system)을 적용하여 개미들을 이동시키고 개미들이 문서에 남긴 페로몬 양에 따라 문서를 스코어링 하는 스코어 연산부;
상기 스코어 연산부에서 계산된 문서의 스코어(score) 및 순위(ranking)를 출력하는 출력부를 포함한다.
이러한 과제를 해결하기 위한 본 발명의 특징에 따른 링크드(linked) 문서 스코어링 방법은,
링크드(linked) 문서들을 입력받아 문서 저장부에 저장하는 단계;
상기 문서의 링크를 이용하여 문서 저장부의 모든 문서를 방향 그래프(directed graph)로 표현하고, 문서의 신뢰성 또는 문서에 대한 사용자 성향 중 적어도 하나를 포함하는 선험적(a priori)으로 결정할 수 있는 휴리스틱정보(heuristic information)를 노드특성함수로 표현하는 단계;
상기 표현된 방향 그래프 위에 개미들이 페로몬을 통해 다른 개미들과 통신하는 성질(stigmergy)을 이용하는 개미군락시스템(ant colony system)을 적용하여 개미들을 이동시키는 단계;
개미들이 문서에 남긴 페로몬(pheromone)을 계산하는 단계;
상기 계산된 페로몬의 양에 따라서 문서를 스코어링 하는 단계를 포함한다.
상기 개미 군락 시스템을 적용하여 개미들을 이동시키는 단계는.
상기 방향 그래프에 적용될 개미를 생성시키는 제1 단계;
현재 노드에 있는 개미가 그 인접(adjacent) 노드에 남아 있는 페로몬의 양과 휴리스틱정보를 나타내는 특성함수의 값에 따라 확률적으로 인접(adjacent) 노드로 이동하는 제2 단계;
상기 확률적 개미 이동에 따라 자기 노드에 유입되는 개미들의 수와 자기 노드에 존재하는 페로몬의 양에 대응하여 해당 노드의 페로몬 양을 다시 계산하는 단 제3 단계;
상기 개미의 이동 회수를 판단하여 노화를 판단하고 소정 기준회수 이상 이동한 개미를 소멸시키는 제4 단계;
상기 제1 단계 내지 제4 단계를 상기 방향 그래프에 존재하는 노드의 페로몬이 수렴할 때 까지 반복적으로 수행하여 노드의 페로몬을 계산하는 단계를 포함한다.
이상에서와 같이 본 발명의 실시 예가 응용분야에 미치는 효과는 다음과 같이 설명될 수 있다.
인터넷 정보검색엔진에서, 웹 문서와 같은 링크로 연결되어 있는 문서들의 스코어를 계산하고, 스코어에 따라 웹 문서 검색 결과의 순위를 결정할 수 있다. 특히, 이 발명의 주요 특징 중의 하나인 휴리스틱정보 활용은 검색엔진에 다양한 기능을 부가할 수 있다. 예를 들어, 문서의 특성을 특정주제와의 상관도로 설정하면, 검색엔진은 설정된 주제를 포함하고 있는 문서를 위주로 검색 결과를 보여 주게 되고, 만약 문서의 특성을 개인 사용자 성향에 맞추게 되면, 검색엔진의 일종의 개인화 검색 엔진으로 전환된다. 이와 같은 기능을 기존 검색엔진에서 구현하게 되면 모두 같은 패러다임에서 구현될 수 있다는 장점이 있고, 그 성능도 기존의 방법에 비해 탁월하다.
또한, 웹 문서 뿐만 아니라, 블로그 등과 같이 사회 연결망(social network)에서 본 발명을 적용 시키면 블로그 그래프나 사회 연결망에서 중요한 역할을 하는 블로그 또는 객체를 찾거나 연결망 자체를 분석하기 위한 정보로 활용될 수 있다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설 명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
본 발명의 실시예에서 사용되는 휴리스틱정보는 다음과 같이 정의된다. 휴리스틱정보(heuristic information)는 측정할 수 있는 문서가 가진 고유한 성질 값이다. 예를 들면, 의학 주제 관련 정보 검색에서는 문서의 중요도를 의학 주제와의 상관도 및 권위도를 가지고 문서에 스코어를 줄 수 있다. 이 때, 문서와 의학 주제와의 상관도가 휴리스틱정보에 해당한다. 또한, 개인화 정보검색에서는 특정 개인의 웹 사용 성향을 반영하여 문서에 스코어를 주는 것이 필요하다. 이 때, 문서와 개인의 성향과의 상관도가 휴리스틱정보에 해당한다.
도 1은 본 발명의 실시 예에 따른 문서 스코어링 시스템의 구성도이다.
도 1을 참조하면, 본 발명의 실시 예에 따른 문서 스코어링 시스템은, 문서 저장부(110), 문서 스코어 연산부(100), 문서의 스코어 및 순위 출력부(140)를 포함한다.
문서 저장부(110)는 점수화하기를 원하는 링크를 포함하거나 추출할 수 있는 문서들을 입력받아 문서 데이터베이스에 저장한다. 문서의 입력은 컴퓨터나 다른 통신 수단 등을 통해 이루어질 수 있으며, 이외에도 다양한 방법이 이용될 수 있다.
문서 스코어 연산부(100)는 개미 군락 시스템 모듈(120) 및 문서 스코어??링 모듈(130)을 포함한다. 개미군락시스템모듈(120)은 상기 문서 데이터베이스를 그래프로 표현한 후, 상기 표현된 방향 그래프 위에 개미들이 페로몬을 통해 다른 개미들과 통신하는 성질(stigmergy)을 이용하는 개미군락시스템(ant colony system)을 적용하여 개미들을 이동시킴으로써 개미들이 문서에 페로몬(pheromone)을 남기도록 한다.
문서 스코어링 모듈(130)은 상기 개미군락시스템모듈(120)에서 측정한 각 문서의 페로몬의 양에 따라 문서를 스코어링 한다. 그리고, 이러한 스코어링된 점수가 일정한 상태 또는 변동이 적은 상태 즉, 수렴할때까지 상기 개미 군락시스템 모듈(120)을 동작하도록 한다.
문서의 스코어 및 순위 출력부(140)는 스코어링 된 문서의 스코어 또는 순위 등을 출력한다.
도 2는 도 1의 개미 군락 시스템 모듈의 상세도이다.
도 2를 참조하면, 개미군락 시스템 모듈(120)은 개미생성 모듈(121), 개미 이동 모듈(122), 개미 소멸 모듈(123)을 포함한다. 개미 생성 모듈(121)은 소정의 수의 개미를 생성하고 수명을 부여한다. 예를 들면 수명이 10이라면 10회 동안 각 문서를 이동후 소멸하게 된다. 개미 이동 모듈(122)은 개미를 이동시키는 역할을 하게 된다. 개미 소멸 모듈(123)은 수명이 다한 개미를 소멸시키는 역할을 한다. 이때, 개미들은 이동을 하며 페로몬을 남기며 많은 개미들이 지나간 문서에는 많은 양의 페로몬이 존재하게 된다.
이러한 구성을 가진 본 발명의 실시예에 따른 본 발명의 실시 예에 따른 문서를 스코어링 하는 시스템의 동작을 설명하면 다음과 같다.
도 3은 본 발명의 실시 예에 따른 문서 스코어링 방법의 동작 흐름도이다.
도 3을 참조하면, 선 작업 단계(S210), 개미 생성 및 노화 관리 단계(S220), 개미 이동 단계(S230), 페로몬 계산 단계(S240), 수렴 확인 단계(S250)를 포함한다.
선 작업 단계(S210)는 문서의 링크를 이용하여 데이터베이스 형태인 문서저장부(110)의 데이터를 방향 그래프로 표현하고, 문서의 신뢰성 또는 문서에 대한 사용자 성향 등과 같이 선험적(a priori)으로 결정할 수 있는 휴리스틱정보(heuristic information)를 노드특성함수로 표현한다. 이러한 그래프의 일부분을 도 4에 도시하였으며 문서간의 링크된 관계를 나타내도록 한다.
개미 생성 및 노화 관리 단계(220)는 상기 방향 그래프의 모든 개미의 수를 일정하게 유지하기 위하여, 개미를 생성하고 제거하는 단계이다. 이를 위하여, 개미생성모듈(121)은 상기 그래프의 모든 노드에 대하여 일정한 수명(life time)을 갖는 일정한 수의 개미를 일정한 주기마다 생성하고, 개미 소멸 모듈(123)은 한 노드에서 다른 노드로 이동할 때 마다 그 수명을 일정하게 감소하여, 정해진 수명이 다하면 해당 개미를 방향 그래프에 제거한다. 이렇게 함으로써, 전체 개미의 생성 및 세대를 관리한다. 예를 들면, 모든 개미들의 수명을 10 으로 할 경우, 개미들은 처음 생성할 때의 나이는 0 이다. 그 후에 한번 씩 이동할 때 마다 나이는 1씩 증가한다. 개미의 나이가 10이 되었을 때, 개미는 더 이상 이동하지 못하고 죽게 된다. 만일, 개미의 수명 없이 개미들이 이동하게 할 경우, 개미들이 루프(loop)와 같은 그래프의 특정 구조를 만났을 때 넓게 퍼져 이동하는 것이 아니라, 루프를 형성하는 특정 노드들에서 벗어나지 못하는 현상이 나타난다. 더욱이, 개미들이 루프에 한 번 유입되면 루프를 빠져 나오지 못하여 루프를 형성하는 노드의 개미수가 증가하고, 반대로 다른 노드의 개미의 수는 점점 줄어든다. 결국에는 개미들이 루프를 형성하는 노드에만 존재하게 된다. 이러한 현상은 루프를 형성하는 특정 노드의 페로몬을 비정상적으로 크게 증가 시키고, 결과적으로는 루프를 형성하는 노드에 대응하는 문서를 비정상적으로 높게 스코어링하게 한다. 따라서 개미의 노화를 관리하게 되면, 개미 생성 단계를 반복적으로 수행함으로써 모든 노드에서 지속적으로 개미를 생성하기 때문에 그래프 전 지역에서 개미들이 이동하면서 모든 노드에 대하여 페로몬을 계산할 수 있게 된다. 또한, 이것은 상기 방향 그래프의 모든 개미의 수를 일정하게 유지 시켜주기 때문에 일정 시간이 지나면 각 노드가 가지는 페로몬의 양을 수렴시키는 역할을 한다.
개미 이동 단계(S230)는 개미 이동 모듈(122)이 상기 방향 그래프의 각 노드가 가지고 있는 페로몬(pheromone)을 가지고 개미들이 이동할 경로를 확률적으로 결정하여 개미들을 이동시킨다. 예를 들어, 한 노드에서 인접(adjacent) 노드로의 확률적 개미 이동은, 노드 i에 있는 개미 k가 인접 노드 집합
Figure 112011010336605-pat00001
에서 노드 j를 선택할 확률로서 결정되며, 그 확률은 다음과 같이 인접(adjacent) 노드에 남아 있는 페로몬을 이용하여 계산한다.
Figure 112011010336605-pat00040
여기서, pij k는 노드 i에서 노드 j로 개미 k가 이동할 확률,
Figure 112009012074782-pat00003
은 노드 i의 인접(adjacent) 노드 집합,
Figure 112009012074782-pat00004
는 l 번째 인접(adjacent) 노드에 남아 있는 페로몬 양,
Figure 112009012074782-pat00005
는 페로몬 양의 가중치이다.
또한, 상기 그래프의 각 노드의 휴리스틱 정보(heuristic information)를 고려하여 확률을 계산할 때에는 다음 식과 같이 노드특성함수 값을 이용하여 계산한다.
Figure 112009012074782-pat00006
여기서,
Figure 112009012074782-pat00007
는 l 번째 인접(adjacent) 노드의 노드특성함수 값,
Figure 112009012074782-pat00008
Figure 112009012074782-pat00009
는 페로몬 양과 휴리스틱 정보의 상대적 가중치이다.
개미 한 마리가 노드 i에서 이동할 때, 노드 i 의 인접해 있는 노드 중 하나의 노드로 이동할 확률은 인접해 있는 노드들의 확률결정값에 대한 상대적인 값으로 확률을 계산한다. 확률결정값은 개미군락시스템 모듈(120)에서 지속적으로 모든 문서에 대하여 계산하는 페로몬값 이나 문서의 고유 특성을 나타내는 문서의 휴리스틱정보값을 사용한다.
필요에 따라서는 페로몬과 휴리스틱정보를 각각에 대한 가중치를 부여한후 덧셈이나 곳셈 또는 다른 연산 등을 적용하여 결합하여 확률결정값으로 사용할 수 있다.
폐로몬 계산 단계(S240)는 문서 스코어링 모듈(130)이 상기 그래프의 각 노드에 유입되는 개미들의 수와 그 노드에 존재하는 페로몬의 양에 따라 노드의 페로몬 양을 다음 식과 같이 계산하는 단계이다.
Figure 112009012074782-pat00010
여기서,
Figure 112009012074782-pat00011
는 갱신되는 노드 j의 페로몬 양,
Figure 112009012074782-pat00012
는 가중치 (0 <
Figure 112009012074782-pat00013
<1),
Figure 112009012074782-pat00014
는 개미가 유입되기 전까지 노드 j에 축적되었던 페로몬 양, Ij는 노드 j를 가리키는 링크를 가지고 있는 노드들의 집합, 함수 h(?)는 단조 증가(monotonic increasing) 함수, aij는 노드 i에서 노드 j로 이동하는 개미의 수이다. 여기서, 함수 h(a)는 하나의 노드로부터 다른 노드로 이동하는 개미의 양에 적용되어지는 함수이다. 예를 들면, 웹 문서의 경우 함수 h(a)는 로그(log) 함수를 적용 할 수 있다. 수학식 4는 함수 h(a) 대신 로그함수를 적용한 페로몬 계산 식이다.
Figure 112009012074782-pat00015
또한, 수학식 3과 4에서는 페로몬의 증발(evaporation)을 표현하고 있다.
Figure 112009012074782-pat00016
의 값이 작으면 이전 단계까지 계산된 페로몬들을 많이 증발시켜 최근에 계산된 페로몬의 비중을 크게 한다. 반대로
Figure 112009012074782-pat00017
값이 1에 가까울수록 이전에 계산된 페로몬의 값이 많이 누적되어 이전의 페로몬의 양이 현 시점에서 개미가 이동하는 데에 지속적으로 영향을 준다. 페로몬의 증발은 개미군락시스템 모듈(120)에서 초기에 계산된 페로몬 양에 의해 결정된 개미들의 확률적 이동을 점점 퇴색시키고, 시간이 지나면서 각 노드의 페로몬의 값을 수렴시키는 역할을 한다. 일반적으로
Figure 112009012074782-pat00018
는 0.8~0.95를 사용한다.
하나의 문서에 대한 페로몬은 현 단계에서 그 문서로 이동한 개미의 양과 이전 단계에서 계산된 페로몬의 가중치 합으로써 계산할 수 있다. 여기서, 가중치는 이전 단계의 페로몬의 증발 양을 결정한다. 또한, 문서에 남겨진 페로몬은 그 문서로 이동한 개미들이 어느 노드로부터 온 것인지를 구분하여 계산할 수 있다. 즉, 노드 i에서 노드 j로 이동한 개미의 양을 aij라고 할 때 현 단계에서 노드 j에서 개미의 이동으로 얻어지는 페로몬은 h(a1j)+h(a2j)+...+h(anj) 이다. 여기서, h(a)는 개미의 양에 따른 페로몬 계산 함수이다.
수렴 확인 단계(S250)는 문서 스코어링 모듈(130)이 상기 (S220) ~ (S240) 단계를 반복적으로 수행할 때 마다 결과값이 수렴되어 종료 할 것인지를 체크 하게 된다. 즉, 상기 방향 그래프의 모든 노드에 대하여 각 노드로 유입되는 개미의 양 또는 페로몬의 값이 일정한 값으로 수렴하게 되면 종료하게 된다.
이제까지 본 발명에 대하여 그 바람직한 실시예를 살펴보았다. 본 발명은 상술한 실시예로만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위 내에서 수정 및 변형하여 실시할 수 있다. 이상 설명한 내용을 통해 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 기술 사상을 일탈하지 않는 범위에서 다양한 변경과 수정 실시가 가능함을 알 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
도 1은 이 발명의 실시 예에 따른 문서를 스코어링 하는 문서 스코어링 시스템의 구성도이다.
도 2은 이 발명의 실시 예에 따른 문서 스코어링 시스템의 개미군락시스템 모듈의 상세도이다.
도 3는 이 발명의 실시 예에 따른 문서 스코어링 방법의 동작 흐름도이다.
도 4은 방향 그래프의 일예를 나타낸 도면이다.

Claims (12)

  1. 적어도 문서들 중 일부는 다른 문서를 가리키는 링크(links)를 포함하고 있는 문서 데이터베이스에서 문서를 스코어링 하는 컴퓨터 구현 방법으로서,
    (a) 문서의 링크를 이용하여 데이터베이스를 방향 그래프(directed graph)로 표현하는 단계;
    (b) 상기 방향 그래프 위에 개미들이 페로몬을 통해 다른 개미들과 통신하는 성질(stigmergy)을 이용하는 개미군락시스템(ant colony system)을 적용하여 개미들을 이동시키고, 개미들이 문서에 남긴 페로몬(pheromone)을 계산하는 단계;
    (c) 계산된 페로몬의 양에 따라 문서의 중요도를 결정하는 단계를 포함하고,
    상기 (a) 단계는 상기 방향 그래프를 표현함에 있어서, 선험적(a priori)으로 결정할 수 있는 문서의 신뢰성 또는 문서에 대한 사용자 성향을 포함하는 휴리스틱정보(heuristic information)를 노드특성함수로 표현하는 것을 특징으로 하고,
    상기 (b) 단계는,
    (d) 상기 방향 그래프의 개미의 생성 및 노화(aging) 관리 단계;
    (e) 현재 노드에서 인접 노드로의 개미 이동은 그 인접 노드에 남아 있는 페로몬의 양과 상기 휴리스틱 정보를 나타내는 노드특성함수 값에 따라 확률적으로 이동시키는 단계;
    (f) 상기 확률적 개미 이동 방법에 따라 노드에 유입되는 개미들의 수와 그 노드에 존재하는 페로몬의 양에 따라 노드의 페로몬 양을 새로이 계산하는 단계;
    상기 (d) ~ (f) 단계의 과정을 상기 방향 그래프에 존재하는 노드의 페로몬이 수렴할 때까지 반복적으로 수행하는 것을 특징으로 하고,
    상기 (e) 단계는
    한 노드에서 인접 노드로의 확률적 개미 이동은, 노드 i에 있는 개미 k가 인접 노드 집합
    Figure 112011070760477-pat00041
    에서 노드 j를 선택할 확률로서 결정되며, 그 확률은 다음과 같이 인접 노드에 남아 있는 페로몬 양과 휴리스틱 정보를 표현하는 노드특성함수를 이용하여 계산하는 것을 특징으로 하는 문서 스코어링 방법.
    Figure 112011070760477-pat00042
    여기서, pij k는 노드 i에서 노드 j로 개미 k가 이동할 확률,
    Figure 112011070760477-pat00043
    은 노드 i의 인접 노드 집합,
    Figure 112011070760477-pat00044
    는 l 번째 인접 노드에 남아 있는 페로몬 양,
    Figure 112011070760477-pat00045
    는 l 번째 인접 노드의 휴리스틱 정보에 따른 노드특성함수 값,
    Figure 112011070760477-pat00046
    는 페로몬 양과 휴리스틱 정보의 상대적 가중치이다.
  2. 삭제
  3. 적어도 문서들 중 일부는 다른 문서를 가리키는 링크(links)를 포함하고 있는 문서 데이터베이스에서 문서를 스코어링 하는 컴퓨터 구현 방법으로서,
    (a) 문서의 링크를 이용하여 데이터베이스를 방향 그래프(directed graph)로 표현하는 단계;
    (b) 상기 방향 그래프 위에 개미들이 페로몬을 통해 다른 개미들과 통신하는 성질(stigmergy)을 이용하는 개미군락시스템(ant colony system)을 적용하여 개미들을 이동시키고, 개미들이 문서에 남긴 페로몬(pheromone)을 계산하는 단계;
    (c) 계산된 페로몬의 양에 따라 문서의 중요도를 결정하는 단계를 포함하고,
    상기 (b) 단계는,
    (d) 상기 방향 그래프의 개미의 생성 및 노화(aging) 관리 단계;
    (e) 현재 노드에서 인접(adjacent) 노드로의 개미 이동은 그 인접 노드에 남아 있는 페로몬의 양에 따라 확률적으로 이동시키는 단계;
    (f) 상기 확률적 개미 이동 방법에 따라 노드에 유입되는 개미들의 수와 그 노드에 존재하는 페로몬의 양에 따라 노드의 페로몬 양을 새로이 계산하는 단계;
    상기 (d) ~ (f) 단계의 과정을 상기 방향 그래프에 존재하는 노드의 페로몬이 수렴할 때 까지 반복적으로 수행하는 것을 특징으로 하고,
    상기 (e) 단계는
    한 노드에서 인접 노드로의 확률적 개미 이동은, 노드 i에 있는 개미 k가 인접 노드 집합
    Figure 112011010336605-pat00019
    에서 노드 j를 선택할 확률로서 결정되며, 그 확률은 다음과 같이 인접 노드에 남아 있는 페로몬을 이용하여 계산하는 것을 특징으로 하는 문서 스코어링 방법.
    Figure 112011010336605-pat00048
    여기서, pij k는 노드 i에서 노드 j로 개미 k가 이동할 확률,
    Figure 112011010336605-pat00021
    은 노드 i의 인접 노드 집합,
    Figure 112011010336605-pat00022
    는 l 번째 인접 노드에 남아 있는 페로몬 양,
    Figure 112011010336605-pat00023
    는 페로몬 양의 가중치이다.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 적어도 문서들 중 일부는 다른 문서를 가리키는 링크(links)를 포함하고 있는 문서 데이터베이스에서 문서를 스코어링 하는 컴퓨터 구현 방법으로서,
    (a) 문서의 링크를 이용하여 데이터베이스를 방향 그래프(directed graph)로 표현하는 단계;
    (b) 상기 방향 그래프 위에 개미들이 페로몬을 통해 다른 개미들과 통신하는 성질(stigmergy)을 이용하는 개미군락시스템(ant colony system)을 적용하여 개미들을 이동시키고, 개미들이 문서에 남긴 페로몬(pheromone)을 계산하는 단계;
    (c) 계산된 페로몬의 양에 따라 문서의 중요도를 결정하는 단계를 포함하고,
    상기 (b) 단계는,
    (d) 상기 방향 그래프의 개미의 생성 및 노화(aging) 관리 단계;
    (e) 현재 노드에서 인접(adjacent) 노드로의 개미 이동은 그 인접 노드에 남아 있는 페로몬의 양에 따라 확률적으로 이동시키는 단계;
    (f) 상기 확률적 개미 이동 방법에 따라 노드에 유입되는 개미들의 수와 그 노드에 존재하는 페로몬의 양에 따라 노드의 페로몬 양을 새로이 계산하는 단계;
    상기 (d) ~ (f) 단계의 과정을 상기 방향 그래프에 존재하는 노드의 페로몬이 수렴할 때 까지 반복적으로 수행하는 것을 특징으로 하고,
    상기 (f) 단계는
    노드에 유입되는 개미들의 수와 그 노드에 존재하는 페로몬의 양에 따라 노드의 페로몬 양을 다음과 같은 식에 의하여 노드의 페로몬 양을 계산하는 문서 스코어링 방법.
    Figure 112011010336605-pat00049
    여기서,
    Figure 112011010336605-pat00050
    는 새로이 계산된 노드 j의 페로몬 양,
    Figure 112011010336605-pat00051
    는 가중치 (0 <
    Figure 112011010336605-pat00052
    <1),
    Figure 112011010336605-pat00053
    는 개미가 유입되기 전까지 노드 j에 축적되었던 페로몬 양, Ij는 노드 j를 가리키는 링크를 가지고 있는 노드들의 집합, aij는 노드 i에서 노드 j로 이동하는 개미의 수이다.
  8. 적어도 문서들 중 일부는 다른 문서를 가리키는 링크(links)를 포함하고 있는 문서 데이터베이스에서 문서를 스코어링 하는 컴퓨터 구현 방법으로서,
    (a) 문서의 링크를 이용하여 데이터베이스를 방향 그래프(directed graph)로 표현하는 단계;
    (b) 상기 방향 그래프 위에 개미들이 페로몬을 통해 다른 개미들과 통신하는 성질(stigmergy)을 이용하는 개미군락시스템(ant colony system)을 적용하여 개미들을 이동시키고, 개미들이 문서에 남긴 페로몬(pheromone)을 계산하는 단계;
    (c) 계산된 페로몬의 양에 따라 문서의 중요도를 결정하는 단계를 포함하고,
    상기 (a) 단계는 상기 방향 그래프를 표현함에 있어서, 선험적(a priori)으로 결정할 수 있는 문서의 신뢰성 또는 문서에 대한 사용자 성향을 포함하는 휴리스틱정보(heuristic information)를 노드특성함수로 표현하는 것을 특징으로 하고,
    상기 (b) 단계는,
    (d) 상기 방향 그래프의 개미의 생성 및 노화(aging) 관리 단계;
    (e) 현재 노드에서 인접 노드로의 개미 이동은 그 인접 노드에 남아 있는 페로몬의 양과 상기 휴리스틱 정보를 나타내는 노드특성함수 값에 따라 확률적으로 이동시키는 단계;
    (f) 상기 확률적 개미 이동 방법에 따라 노드에 유입되는 개미들의 수와 그 노드에 존재하는 페로몬의 양에 따라 노드의 페로몬 양을 새로이 계산하는 단계;
    상기 (d) ~ (f) 단계의 과정을 상기 방향 그래프에 존재하는 노드의 페로몬이 수렴할 때 까지 반복적으로 수행하는 것을 특징으로 하는 문서 스코어링 방법.
    상기 (f) 단계는
    노드에 유입되는 개미들의 수와 그 노드에 존재하는 페로몬의 양에 따라 노드의 페로몬 양을 다음과 같은 식에 의하여 노드의 페로몬 양을 새로이 계산하는 문서 스코어링 방법.
    Figure 112011070760477-pat00054
    여기서,
    Figure 112011070760477-pat00032
    는 새로이 계산된 노드 j의 페로몬 양,
    Figure 112011070760477-pat00033
    는 가중치 (0 <
    Figure 112011070760477-pat00034
    <1),
    Figure 112011070760477-pat00035
    는 개미가 유입되기 전까지 노드 j에 축적되었던 페로몬 양, Ij는 노드 j를 가리키는 링크를 가지고 있는 노드들의 집합, aij는 노드 i에서 노드 j로 이동하는 개미의 수이다.
  9. 스코어링 하고자 하는 문서들을 입력받아 저장하는 문서 저장부;
    상기 문서 저장부에 저장된 문서들의 링크를 이용하여 문서 저장부의 전체 문서를 방향 그래프(directed graph)로 표현하고, 선험적(a priori)으로 결정할 수 있는 문서의 신뢰성 또는 문서에 대한 사용자 성향을 포함하는 휴리스틱정보(heuristic information)를 노드특성함수로 표현하고, 그 위에 개미들이 페로몬을 통해 다른 개미들과 통신하는 성질(stigmergy)을 이용하는 개미군락시스템(ant colony system)을 적용하여 개미들을 이동시키고 개미들이 문서에 남긴 페로몬 양에 따라 문서를 스코어링 하는 스코어 연산부를 포함하고,
    문서 스코어 연산부는,
    상기 스코어 연산부에서 계산된 문서의 스코어(score) 및 순위(ranking)를 출력하는 출력부를 더 포함하며,
    상기 문서 스코어 연산부는,
    문서들의 링크 구조와 상기 휴리스틱정보를 개미들이 페로몬을 통해 다른 개미들과 통신하는 성질을 이용하는 개미군락시스템에 적용하여 개미들을 움직이게 한 후, 문서에 남겨진 페로몬 양을 계산하는 모듈;
    문서에 남겨진 페로몬 양에 따라서 문서를 스코어링하는 모듈을 포함하는 것을 특징으로 하고,
    상기 스코어 연산부는 현재 노드에서 인접(adjacent) 노드로의 개미 이동시에 그 인접 노드에 남아 있는 페로몬의 양에 따라 확률적으로 이동시키며, 한 노드에서 인접 노드로의 확률적 개미 이동은, 노드 i에 있는 개미 k가 인접 노드 집합
    Figure 112011070760477-pat00055
    에서 노드 j를 선택할 확률로서 결정되며, 그 확률은 다음과 같이 인접 노드에 남아 있는 페로몬 양과 상기 휴리스틱 정보를 표현하는 노드특성함수를 이용하여 계산하는 것을 특징으로 하는 문서 스코어링 시스템.
    Figure 112011070760477-pat00056
    여기서, pij k는 노드 i에서 노드 j로 개미 k가 이동할 확률,
    Figure 112011070760477-pat00057
    은 노드 i의 인접 노드 집합,
    Figure 112011070760477-pat00058
    는 l 번째 인접 노드에 남아 있는 페로몬 양,
    Figure 112011070760477-pat00059
    는 l 번째 인접 노드의 휴리스틱 정보에 따른 노드특성함수 값,
    Figure 112011070760477-pat00060
    Figure 112011070760477-pat00061
    는 페로몬 양과 휴리스틱 정보의 상대적 가중치이다.
  10. 삭제
  11. 삭제
  12. 적어도 문서들 중 일부는 다른 문서를 가리키는 링크(links)를 포함하고 있는 문서 데이터베이스에서 문서를 스코어링 하는 방법을 기록한 기록매체로서,
    (a)문서의 링크를 이용하여 데이터베이스를 방향 그래프로 표현하는 기능,
    (b)상기 방향 그래프 위에 개미군락시스템을 적용하여 개미들을 이동시킴으로써, 개미들이 문서에 남긴 페로몬을 계산하는 (b)기능;
    (c)계산된 페로몬의 양에 따라서 문서의 스코어를 연산하는 기능을 포함하고,
    상기 (b) 기능은,
    (d) 상기 방향 그래프의 개미의 생성 및 노화(aging) 관리 기능;
    (e) 현재 노드에서 인접(adjacent) 노드로의 개미 이동은 그 인접 노드에 남아 있는 페로몬의 양에 따라 확률적으로 이동시키는 기능;
    (f) 상기 확률적 개미 이동 방법에 따라 노드에 유입되는 개미들의 수와 그 노드에 존재하는 페로몬의 양에 따라 노드의 페로몬 양을 새로이 계산하는 기능;
    상기 (d) ~ (f) 기능을 상기 방향 그래프에 존재하는 노드의 페로몬이 수렴할 때까지 반복적으로 수행하는 것을 특징으로 하고,
    상기 (f) 기능은
    노드에 유입되는 개미들의 수와 그 노드에 존재하는 페로몬의 양에 따라 노드의 페로몬 양을 다음과 같은 식에 의하여 노드의 페로몬 양을 계산하는 기능이 구현된 프로그램을 저장한 기록매체.
    Figure 112011010336605-pat00062
    여기서,
    Figure 112011010336605-pat00063
    는 새로이 계산된 노드 j의 페로몬 양,
    Figure 112011010336605-pat00064
    는 가중치 (0 <
    Figure 112011010336605-pat00065
    <1),
    Figure 112011010336605-pat00066
    는 개미가 유입되기 전까지 노드 j에 축적되었던 페로몬 양, Ij는 노드 j를 가리키는 링크를 가지고 있는 노드들의 집합, aij는 노드 i에서 노드 j로 이동하는 개미의 수이다.
KR1020090016454A 2008-02-26 2009-02-26 개미군락시스템을 이용한 문서 스코어링 시스템 및 방법 KR101119691B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020080017469 2008-02-26
KR20080017469 2008-02-26

Publications (2)

Publication Number Publication Date
KR20090092252A KR20090092252A (ko) 2009-08-31
KR101119691B1 true KR101119691B1 (ko) 2012-06-12

Family

ID=41209373

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090016454A KR101119691B1 (ko) 2008-02-26 2009-02-26 개미군락시스템을 이용한 문서 스코어링 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR101119691B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092881A (ja) 2003-09-16 2005-04-07 Microsoft Corp 構造的に相互関係のある情報に基づいて文書をランク付けするための改善されたシステムおよび方法
KR20070047784A (ko) * 2004-08-16 2007-05-07 텔레노어 아사 링크 분석을 이용하여 도큐먼트의 순위를 위한 싱커용치료법을 구비한 방법, 시스템 및 컴퓨터 프로그램
KR20070101217A (ko) * 2004-09-16 2007-10-16 텔레노어 아사 개인 웹에서의 문서의 검색, 항행, 및 순위 부여를 위한방법, 시스템, 컴퓨터 프로그램 제품

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092881A (ja) 2003-09-16 2005-04-07 Microsoft Corp 構造的に相互関係のある情報に基づいて文書をランク付けするための改善されたシステムおよび方法
KR20070047784A (ko) * 2004-08-16 2007-05-07 텔레노어 아사 링크 분석을 이용하여 도큐먼트의 순위를 위한 싱커용치료법을 구비한 방법, 시스템 및 컴퓨터 프로그램
KR20070101217A (ko) * 2004-09-16 2007-10-16 텔레노어 아사 개인 웹에서의 문서의 검색, 항행, 및 순위 부여를 위한방법, 시스템, 컴퓨터 프로그램 제품

Also Published As

Publication number Publication date
KR20090092252A (ko) 2009-08-31

Similar Documents

Publication Publication Date Title
JP5369154B2 (ja) クリックディスタンスを用いて検索結果をランク付けするシステムおよび方法
JP4996300B2 (ja) ファイルシステムの検索ランキング方法および関連の検索エンジン
Menczer et al. Adaptive retrieval agents: Internalizing local context and scaling up to the Web
Fuxman et al. Using the wisdom of the crowds for keyword generation
KR101311050B1 (ko) 문서 사용 통계치를 사용한 랭킹 함수
JP4965086B2 (ja) タイプ内およびタイプ間の関係に基づいてオブジェクトを格付けする方法およびシステム
JP4763354B2 (ja) 検索結果のランク付けへのアンカーテキストの組込みシステムおよび方法
KR101130533B1 (ko) 이종 관계에 기초하여 객체들의 유사성을 결정하기 위한방법 및 시스템
JP4714156B2 (ja) 記事情報を用いて検索ランク付けを改良するための方法およびシステム
KR101557294B1 (ko) 편집 거리 및 문서 정보를 이용한 검색 결과 랭킹
US7577650B2 (en) Method and system for ranking objects of different object types
US7480667B2 (en) System and method for using anchor text as training data for classifier-based search systems
US20060200460A1 (en) System and method for ranking search results using file types
US20080313123A1 (en) Using a Browser Plug-In to Implement a Behavioral Web Graph
EP1717720A1 (en) Discovery of related documents based on a proximal neighborhood measure
US20060294100A1 (en) Ranking search results using language types
JP2010524141A (ja) 履歴重要度のファクタリングによるドキュメントの重要度の計算
JP2005327293A5 (ko)
Drechsler et al. Rapid viability analysis for metapopulations in dynamic habitat networks
Kim et al. Topic-Driven SocialRank: Personalized search result ranking by identifying similar, credible users in a social network
Papadakis et al. Methods for web revisitation prediction: survey and experimentation
Wu et al. Using anchor text for homepage and topic distillation search tasks
Lin Association rule mining for collaborative recommender systems.
Fan et al. An integrated two-stage model for intelligent information routing
KR101119691B1 (ko) 개미군락시스템을 이용한 문서 스코어링 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150216

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160316

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee