KR101356193B1

KR101356193B1 - 온톨로지 정보를 이용한 문서 주제어 생성 방법 및 그 장치

Info

Publication number: KR101356193B1
Application number: KR1020110108081A
Authority: KR
Inventors: 황규백; 봉성용; 백은옥; 우정헌
Original assignee: 숭실대학교산학협력단; 서울시립대학교 산학협력단; 건국대학교 산학협력단
Priority date: 2011-10-21
Filing date: 2011-10-21
Publication date: 2014-01-27
Also published as: KR20130043905A

Abstract

본 발명은 온톨로지 정보를 이용한 문서 주제어 생성 방법 및 그 장치에 관한 것으로, 본 발명의 일 실시예에 따른 문서 주제어 생성 방법은 문서에 포함된 단어를 이용하여 상기 문서에 온톨로지 용어를 설정하는 단계와, 상기 문서에 포함된 적어도 하나의 단어로 구성되는 후보 주제어를 추출하는 단계와, 상기 온톨로지 용어와 상기 후보 주제어 간의 연관관계를 이용하여 상기 후보 주제어를 확장하는 단계와, 상기 확장된 후보 주제어를 기계학습 알고리즘을 이용하여 순위를 설정하고, 미리 설정된 순위 이상의 후보 주제어를 최종 주제어로 선택하는 단계를 포함함으로써, 주제어가 제시되지 않은 문서에 대한 주제어를 생성할 수 있다.

Description

온톨로지 정보를 이용한 문서 주제어 생성 방법 및 그 장치{METHOD AND APPARATUS FOR DETERMINIG KEYPHRASES OF DOCUMENT USING ONTOLOGY INFORMATION}

본 발명은 온톨로지 정보를 이용한 문서 주제어 생성 방법 및 그 장치에 관한 것으로, 보다 구체적으로 온톨로지 정보를 이용하여 문서에 포함되는 단어에 기반한 주제어를 생성하는 기술에 관한 것이다.

문서에 할당된 주제어(keyphrase)는 해당 문서의 핵심 내용을 압축하여 나타낸다. 예를 들어, 논문의 경우 주제어는 초록보다도 더욱 간결하게 표현되어 있다. 따라서 독자들은 단시간 내로 문서의 내용을 이해하거나 대량의 문서들로부터 특정문서를 찾는 경우에 주제어를 사용하게 되면 많은 이점을 얻을 수 있다. 일반적으로 주제어는 문서의 색인 또는 요약에 사용된다. 이러한 주제어의 장점 때문에 많은 과학 학술지와 학술대회에서는 저자들에게 자신들의 논문과 관련된 주제어들을 제공하도록 요구하고 있다. 하지만 주제어가 제공되지 않는 학술지와 학술대회가 많은 것이 사실이다. 예를 들면 생의학 분야에서 유명한 학술지인 Journal of Computational Biology는 여러 개의 저자 주제어가 할당되어 있는 반면에 다른 유명 학술지인 Bioinformatics 는 저자 주제어가 할당되어 있지 않다.

주제어 자동 생성에 관해서는 두 가지의 범주가 존재한다. 하나는 주제어 추출이고 다른 하나는 주제어 할당이다. 전자에서는 문서에 포함된 단어와 문구에서 적합한 주제어들이 추출된다. 후자에서는 통제된 어휘 중에서 주제어를 선택한다. 저자는 자신의 문서 안에서 주제어를 선택하는 경우가 많고, 저자 주제어를 구성하는 어휘에 대한 일관성을 유지하는 것이 매우 힘들기 때문에 저자 주제어 생성에 관해서는 주제어 추출이 보다 적합한 방식이라 할 수 있다. 대부분의 전통적인 주제어 추출 방식들이 가지고 있는 단점 중의 하나는 문서에 나타나 있지 않은 주제어는 추출할 수가 없다는 것이다.

온톨로지(Ontology)란 사람들이 사물에 대해 생각하는 바를 추상화하고 공유한 모델로, 정형화되어 있고 개념의 타입이나 사용상의 제약 조건들이 명시적으로 정의된 기술을 말한다. 특히, 전산학과 정보 과학에서는 특정 영역을 표현하는 데이터 모델로서, 특정한 영역(Domain)에 속하는 개념과, 개념 사이의 관계를 기술하는 정형(Formal) 어휘의 집합으로 정의된다. 최근 인터넷 등의 발달로 인하여 온라인을 중심으로 문서의 수가 급격히 늘어나고 있다. 따라서 원하는 정보를 얻기 위해서는 이러한 수 많은 문서들 중 필요로 하는 정보를 포함하는 문서를 쉽게 검색 및 추출하는 방법이 필요하게 되었으며, 특히 상술한 온톨로지를 이용하여 문서의 주제어 및 관련어를 알아내기 위한 방법들이 필요하게 되었다.
본 발명의 배경이 되는 기술은 대한민국 국내공개특허 제2011-0049178호(2011.05. 12 공개)에 개시되어 있다.

본 발명이 이루고자 하는 기술적인 과제는, 문서와 관련이 있는 온톨로지 정보를 이용하여 문서의 주제어를 생성하는 문서 주제어 생성 방법 및 그 장치를 제공하기 위한 것이다.

본 발명의 일 실시예에 따른 온톨로지 정보를 이용한 문서 주제어 생성 방법은 문서에 포함된 단어를 이용하여 상기 문서에 온톨로지 용어를 설정하는 단계와, 상기 문서에 포함된 적어도 하나의 단어로 구성되는 후보 주제어를 추출하는 단계와, 상기 온톨로지 용어와 상기 후보 주제어 간의 연관관계를 이용하여 상기 후보 주제어를 확장하는 단계와, 상기 확장된 후보 주제어를 기계학습 알고리즘을 이용하여 순위를 설정하고, 미리 설정된 순위에 해당하는 후보 주제어를 최종 주제어로 선택하는 단계를 포함한다.

또한, 상기 후보 주제어를 확장하는 단계는 상기 후보 주제어와 기 설정된 저자 주제어 간의 연관관계를 이용하여 확장 후보 주제어를 설정하고, 상기 온톨로지 용어와 상기 확장 후보 주제어 간의 연관관계를 이용하여 상기 후보 주제어를 확장할 수 있다.

또한, 상기 기계학습 알고리즘은 상기 문서에 설정된 상기 온톨로지 용어들의 신뢰도 평균값과, 상기 문서에 설정된 상기 온톨로지 용어들과 상기 후보 주제어 간의 향상도 평균값을 이용하여 상기 확장된 후보 주제어의 순위를 설정할 수 있다.

또한, 상기 후보 주제어를 구성하는 단어들 간의 동시 출현 빈도를 이용하여, 상기 후보 주제어의 순위를 재설정하는 단계를 더 포함할 수 있다.

또한, 상기 후보 주제어의 순위를 재설정하는데 이용되는 순위 재배열 지수(RankScore)를 다음의 수학식을 이용하여 계산할 수 있다:

여기서, C는 후보 주제어를, supp_k(C)는 상기 문서의 저자로부터 설정된 저자 주제어에 후보 주제어가 포함되는 문서의 비율을, n_w는 상기 후보 주제어를 구성하는 단어의 개수를, supp_k(W_i)는 상기 저자 주제어에서 상기 후보 주제어를 구성하는 i 번째 단어(W_i)가 포함되는 문서의 비율을, r_c는 상기 기계학습 알고리즘에 의해 설정된 순위를 나타낸다.

본 발명의 또 다른 실시예에 따른 온톨로지 정보를 이용한 문서 주제어 생성 장치는 문서에 포함된 단어를 이용하여 상기 문서에 온톨로지 용어를 설정하는 온톨로지 설정부와, 상기 문서에 포함된 적어도 하나의 단어로 구성되는 후보 주제어를 추출하는 후보 주제어 추출부와, 상기 온톨로지 용어와 상기 후보 주제어 간의 연관관계를 이용하여 상기 후보 주제어를 확장하는 후보 주제어 확장부와, 상기 확장된 후보 주제어를 기계학습 알고리즘을 이용하여 순위를 설정하고, 미리 설정된 순위에 해당하는 후보 주제어를 최종 주제어로 선택하는 최종 주제어 선택부를 포함한다.

이와 같은 본 발명에 따른 온톨로지 정보를 이용한 문서 주제어 생성 방법 및 그 장치는 문서에 포함되는 단어에 설정된 온톨로지 정보를 이용하여 주제어를 생성함으로써, 주제어가 제시되지 않은 문서에 대한 주제어를 생성할 수 있다. 또한, 기존의 주제어 생성 방법과 달리 문서 내에 포함되지 않은 주제어를 확장하고, 생성된 후보 주제어의 순위를 온톨로지 정보를 이용하여 재배열함으로써 보다 정확한 주제어를 생성할 수 있다.

도 1은 본 발명의 일 실시예에 따른 문서 주제어 생성 방법의 흐름도,
도 2는 도 1에 따른 문서 주제어 생성 방법이 적용되는 문서 주제어 생성 장치의 구성도,
도 3은 도 1에 따른 문서 주제어 생성 방법 중 온톨로지 정보와 확장 후보 주제어 간의 연관관계를 이용하여 후보 주제어를 확장하는 것을 설명하기 위한 예시도,
도 4a 내지 도 4c는 도 1에 따른 문서 주제어 생성 방법에 따른 성능을 비교 설명하기 위한 그래프이다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있다. 그러므로 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에서 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우에는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 문서 주제어 생성 방법의 흐름도이고, 도 2는 도 1에 따른 문서 주제어 생성 방법이 적용되는 문서 주제어 생성 장치의 구성도이다.

도 1 및 도 2를 참조하면, 문서 주제어 생성 장치(200)는 온톨로지 설정부(210), 온톨로지 DB(220), 후보 주제어 추출부(230), 후보 주제어 확장부(240), 최종 주제어 선택부(250), 순위 재설정부 (260)를 포함한다. 먼저, 온톨로지 설정부(210)는 입력된 문서 내에 포함된 단어를 이용하여 온톨로지 DB(220)에 저장된 온톨로지 정보를 문서에 맵핑한다(S100). 예를 들어, 온톨로지 DB(220)에는 MeSH(Medical Subject Headings) 온톨로지와 같은 생물학 관련 온톨로지나, INSPEC 온톨로지와 같은 과학기술 분야의 온톨로지 등이 포함되며, 반드시 이에 한정하는 것은 아니다. 온톨로지 설정부(210)는 벡터 스페이스 모델을 이용하여 각 문서당 10 ~ 20 개의 특정한 온톨로지에 포함되어 있는 용어(이하, "온톨로지 용어"라 함)들을 설정할 수 있으며, 이는 사용자 설정에 따라 달리 설정될 수 있다.

다음으로, 후보 주제어 추출부(230)는 입력된 문서에 포함된 적어도 하나의 단어로 구성되는 복수의 후보 주제어들을 추출한다(S110). 이 경우, 후보 주제어 추출부(230)는 후보 주제어들을 추출하기 전에 입력된 문서에 대해 불용어나 불용 기호 등을 제거하는 전처리 과정을 수행할 수 있다. 예를 들어, 후보 주제어 추출부(230)는 문서에 제목이나 초록에 포함되는 단어들로 구성되는 어절(phrase)들을 복수의 후보 주제어들을 추출할 수 있다. 이 경우, 후보 주제어에는 문서의 저자로부터 미리 설정된 저자 주제어도 포함될 수 있다. 후보 주제어 추출부(230)는 추출된 복수 개의 후보 주제어들을 후보 주제어 확장부(240)로 출력한다.

다음으로, 후보 주제어 확장부(240)는 온톨로지 용어들과 후보 주제어들 간의 연관관계를 이용하여 후보 주제어들을 확장한다(S120). 이 경우, 후보 주제어 추출부(230)에서 추출된 후보 주제어들과 기 설정된 저자 주제어들 간의 연관관계를 이용하여 후보 주제어의 집합이 확장될 수 있다. 즉, 추출된 후보 주제어들과 동시 출현 빈도가 높은 저자 주제어들이 후보 주제어 집합을 확장하는데 이용되는 연관 후보 주제어로 설정된다. 여기서, 저자 주제어는 문서의 저자에 의해 설정된 주제어를 의미한다. 후보 주제어 집합을 확장하기 위해 연관 규칙 학습을 통한 신뢰도를 이용할 수 있다. 저자 주제어에 대한 후보 주제어의 신뢰도는 다음의 수학식 1을 이용하여 계산된다.

수학식 1에서, C는 후보 주제어를, K는 저자 주제어를 나타내고, 'supp'는 특정 저자 주제어 또는 특정 후보 주제어를 포함하는 문서의 비율을 나타낸다. 이러한 신뢰도 값을 이용하여 계산된 복수 개의 저자 주제어들의 순위를 설정하게 된다. 저자 주제어의 신뢰도 순위 중 기 설정된 순위 내의 확장 주제어들은 후보 주제어의 확장에 이용된다.

이하, 후보 주제어 확장을 위해 온톨로지 용어들과 연관 후보 주제어들 간의 연관관계를 이용하여 후보 주제어를 확장하는 것을 도 3을 통해 후술하도록 한다.

도 3은 도 1에 따른 문서 주제어 생성 방법 중 온톨로지 정보와 연관 후보 주제어 간의 연관관계를 이용하여 후보 주제어를 확장하는 것을 설명하기 위한 예시도이다.

도 3을 참조하면, 후보 주제어를 확장하기 위해서는 온톨로지 용어들(M₁, M₂, M₃,…, M_m)와 연관 후보 주제어들(C₁, C₂, C₃,…, C_n) 간의 결합 확률 분포를 나타내는 베이지안 네트워크를 구축하여 사용할 수 있다. 이러한, 베이지안 네트워크(Bayesian network) 혹은 신념 네트워크(belief network) 또는 유향 비순환 그래프 모델(directed acyclic graphical model)은 확률 변수의 집합과 유향 비순환 그래프를 통하여 그 확률분포를 조건부 독립에 기반하여 효율적으로 표현하는 확률그래프모델이다. 온톨로지 용어들에 대한 집합이 주어졌을 때 문서로부터 추출된 연관 후보 주제어들의 출현 확률은 Noisy-OR 모델을 사용한 다음의 수학식 2를 통해 계산할 수 있다.

수학식 2에서, C_i는 i번째 연관 후보 주제어의 존재 여부를 나타내는 이진 변수이고, M_j는 온톨로지 용어의 설정 여부를 나타내는 이진 변수이다. 또한, m은 문서에 설정된 온톨로지에 포함된 모든 용어의 개수를 나타낸다. 따라서, 후보 주제어는 연관 후보 주제어 중 각각의 출현 확률을 기반으로 추가된다.

다시, 도 1 및 도 2를 참조하면, 다음으로 최종 주제어 선택부(250)는 후보 주제어 확장부(240)로부터 확장된 후보 주제어들을 기계학습 알고리즘을 이용하여 순위를 설정하고, 확장된 후보 주제어들 중 미리 설정된 순위 이상의 후보 주제어들을 최종 주제어로 선택한다(S130). 기계학습 알고리즘은 사용자에 의해 미리 설정된 문서 주제어 생성 알고리즘을 이용한 것으로, 적게는 수천 건에서 많게는 수십만 건의 문서들을 기초로 하여 각 문서에 적용된 온톨로지 용어와 저자가 설정한 저자 주제어들 간의 관계 등을 파악하여 기계학습 모델을 생성하여 이용한 것이다. 이 경우, 각 문서에 생성된 후보 주제어들은 실제 저자 주제어인지 여부에 따라 긍정(Positive) 또는 부정(Negative)으로 레이블링된다.

또한, 확장된 후보 주제어는 문서에 설정된 온톨로지 용어들의 신뢰도 평균값과, 상기 문서에 설정된 온톨로지 용어들과 후보 주제어들 간의 향상도 평균값 등을 자질로 이용하여 확장된 후보 주제어들의 순위를 설정할 수 있다. 예를 들어, 기계학습 알고리즘에 사용되는 자질들은 다음의 표 1로 나타낼 수 있다.

자질	내용
TF	문서에서 해당 용어의 출현 빈도(0~1)
DF	해당 용어를 포함하는 문서들의 빈도(0~1)
TL	용어를 구성하는 알파벳의 수(1, 2, 3,...)
TW	용어를 구성하는 단어의 수(1, 2, 3,...)
TI	제목에서 해당 용어의 출현 여부(O, 1)
DB	해당 용어의 문서 상의 최초 출현 위치(0~1)
DE	해당 용어의 문서 상의 마지막 출현 위치(0~1)
CF	문서 별로 설정된 온톨로지 용어들의 신뢰도 평균
LF	문서 별로 설정된 향상도 값의 평균

표 1에서, 문서에 설정된 온톨로지 용어들의 신뢰도 평균값인 CF는 앞에서 설명한 수학식 1을 통해 계산될 수 있다. 또한, 문서 별로 설정된 향상도(lift) 값은 다음의 수학식 3을 이용하여 계산할 수 있다.

수학식 3에서, C는 후보 주제어를, M은 온톨로지 용어를 의미한다. 향상도 값의 평균인 LF는 log(1+lift)의 수식으로 계산할 수 있다.

표 1의 자질들은 미리 설정된 학습 문서 집합 및 입력되는 문서에 의해 계산되는 값이며, 학습 문서집합을 통해 학습된 기계학습 모델은 입력된 문서에 대하여 기계학습 알고리즘을 적용하여 최종 주제어를 선택하는 데 사용된다.

한편, 본 발명의 일 실시예에 따른 문서 주제어 생성 장치(200)는 후보 주제어를 구성하는 단어들 간의 동시 출현 빈도를 이용하여 확장된 후보 주제어들의 순위를 재설정하는 순위 재설정부 (260)를 더 포함할 수 있다. 후보 주제어 확장부(240)에서 확장된 후보 주제어들은 최종 주제어 선택부(250)에서 기계학습 알고리즘을 통해 순위가 설정된다. 이 경우, 순위 재설정부 (260)는 후보 주제어를 구성하는 단어들의 동시 출현 빈도를 이용하여 확장된 후보 주제어들의 순위를 재설정할 수 있다. 동시 출현 빈도는 후보 주제어를 구성하는 단어들이 기계학습 모델에 사용된 문서들에서의 저자 주제어들처럼 얼마나 자주 동시에 출현하는지를 나타낸다. 후보 주제어를 구성하는 단어들의 동시 출현 빈도를 이용하여 계산되는 재배열 순위 지수(RankScore)를 다음의 수학식 4를 이용하여 계산할 수 있다.

수학식 4에서, C는 후보 주제어를, supp_k(C)는 상기 문서들의 저자로부터 설정된 저자 주제어에 후보 주제어가 포함되는 문서의 비율을, n_W는 후보 주제어를 구성하는 단어의 개수를, supp_k(W_i)는 저자 주제어에 후보 주제어를 구성하는 i번째 단어(W_i)가 포함되는 문서의 비율을, r_c는 기계학습 알고리즘에 의해 설정된 순위를 나타낸다. 또한, 수학식 4에서는 실수값을 [0, 1] 사이의 구간으로 맵핑하기 위해 하이퍼 볼릭 탄젠트 함수를 이용한다.

도 4a 내지 도 4c는 도 1에 따른 문서 주제어 생성 방법에 따른 성능을 비교 설명하기 위한 그래프이다.

도 4a는 주제어 생성 알고리즘 별로 후보 주제어 개수에 따른 정확률을 나타낸 그래프이다. 이 경우, KEA는 Witten 등이 제안한 실용 자동 주제어 추출 알고리즘을 이용한 결과를 나타내며, 베이스 라인은 후보 주제어 확장과 후보 주제어의 순위 재배열 알고리즘을 사용하지 않은 결과를 나타낸다. 도 4a에서는 후보 주제어 확장 알고리즘을 사용하는 경우와 후보 주제어 확장 및 순위 재배열 알고리즘을 사용하였을 경우의 정확률이 그렇지 않은 경우보다 더욱 높다는 것을 확인할 수 있다. 또한, 도 4b, 도 4c에서 후보 주제어 개수에 따른 재현율(recall)이나 F1-측정에서도 후보 주제어 확장 알고리즘이나 후보 주제어 확장 및 순위 재배열 알고리즘을 사용한 경우에 성능이 향상되었음을 알 수 있다. 다만, 후보 주제어들의 개수가 많아질수록 본 발명의 후보 주제어 확장 알고리즘이나 후보 주제어 확장 및 순위 재배열 알고리즘의 경우 성능이 저하됨을 알 수 있는데, 이는 후보 주제어들의 개수가 많아질수록 불필요한 후보 주제어가 포함될 가능성이 높기 때문이다.

이상에서 본 발명은 도면을 참조하면서 기술되는 바람직한 실시예를 중심으로 설명되었지만 이에 한정되는 것은 아니다. 따라서 본 발명은 기재된 실시예로부터 도출 가능한 자명한 변형예를 포괄하도록 의도된 특허청구범위의 기재에 의해 해석되어져야 한다.

200 : 문서 주제어 생성 장치 210 : 온톨로지 설정부
220 : 온톨로지 DB 230 : 후보 주제어 추출부
240 : 후보 주제어 확장부 250 : 최종 주제어 선택부
260 : 순위 재설정부

Claims

온톨로지 정보를 이용하여 문서 주제어를 생성하는 장치의 문서 주제어 생성 방법에 있어서,
문서에 포함된 단어를 이용하여 상기 문서에 대하여 온톨로지에 포함된 온톨로지 용어들을 설정하는 단계;
상기 문서에 포함된 적어도 하나의 단어로 구성되는 복수의 기본 후보 주제어들을 추출하는 단계;
상기 온톨로지 용어들과 상기 기본 후보 주제어들 간의 연관관계를 이용하여 상기 기본 후보 주제어들을 확장하는 단계; 및
상기 확장된 후보 주제어들을 기계학습 알고리즘을 이용하여 순위를 설정하고, 상기 확장된 후보 주제어들 중 기 설정된 순위 이상에 해당하는 적어도 하나의 최종 주제어를 선택하는 단계를 포함하는 온톨로지 정보를 이용한 문서 주제어 생성 방법.
제1항에 있어서, 상기 후보 주제어를 확장하는 단계는,
상기 기본 후보 주제어들과 기 설정된 저자 주제어들 간의 연관관계를 이용하여 연관 후보 주제어들을 설정하고, 상기 온톨로지 용어들과 상기 연관 후보 주제어들 간의 연관관계를 이용하여 상기 기본 후보 주제어들을 확장하는 온톨로지 정보를 이용한 문서 주제어 생성 방법.
제1항에 있어서, 상기 기계학습 알고리즘은,
상기 문서에 설정된 상기 온톨로지 용어들의 신뢰도 평균값과, 상기 문서에 설정된 상기 온톨로지 용어들과 상기 기본 후보 주제어들 간의 향상도 평균값을 이용하여 상기 확장된 후보 주제어들의 순위를 설정하는 온톨로지 정보를 이용한 문서 주제어 생성 방법.
제1항에 있어서,
상기 기본 후보 주제어들 각각을 구성하는 단어들 간의 동시 출현 빈도를 이용하여, 상기 확장된 후보 주제어의 순위를 재설정하는 단계를 더 포함하는 온톨로지 정보를 이용한 문서 주제어 생성 방법.
제4항에 있어서,
상기 확장된 후보 주제어의 순위를 재설정하는데 이용되는 순위 재배열 지수(RankScore)를 다음의 수학식을 이용하여 계산하는 온톨로지 정보를 이용한 문서 주제어 생성 방법:

여기서, C는 기본 후보 주제어를, supp_k(C)는 상기 문서의 저자로부터 설정된 저자 주제어에 기본 후보 주제어가 포함되는 문서의 비율을, n_w는 상기 기본 후보 주제어를 구성하는 단어의 개수를, supp_k(W_i)는 상기 저자 주제어에서 상기 기본 후보 주제어를 구성하는 i 번째 단어(W_i)가 포함되는 문서의 비율을, r_c는 상기 기계학습 알고리즘에 의해 설정된 순위를 나타낸다.
문서에 포함된 단어를 이용하여 상기 문서에 온톨로지에 포함된 온톨로지 용어들을 설정하는 온톨로지 설정부;
상기 문서에 포함된 적어도 하나의 단어로 구성되는 복수의 기본 후보 주제어들을 추출하는 후보 주제어 추출부;
상기 온톨로지 용어들과 상기 기본 후보 주제어들 간의 연관관계를 이용하여 상기 기본 후보 주제어들을 확장하는 후보 주제어 확장부; 및
상기 확장된 후보 주제어들을 기계학습 알고리즘을 이용하여 순위를 설정하고, 기 설정된 순위 이상에 해당하는 적어도 하나의 최종 주제어를 선택하는 최종 주제어 선택부를 포함하는 온톨로지 정보를 이용한 문서 주제어 생성 장치.
제6항에 있어서, 상기 후보 주제어 확장부는,
상기 기본 후보 주제어들과 기 설정된 저자 주제어들 간의 연관관계를 이용하여 연관 후보 주제어를 설정하고, 상기 온톨로지 용어들과 상기 연관 후보 주제어 간의 연관관계를 이용하여 상기 기본 후보 주제어들을 확장하는 온톨로지 정보를 이용한 문서 주제어 생성 장치.
제6항에 있어서, 상기 기계학습 알고리즘은,
상기 문서에 설정된 상기 온톨로지 용어들의 신뢰도 평균값과, 상기 문서에 설정된 상기 온톨로지 용어들과 상기 기본 후보 주제어들 간의 향상도 평균값을 이용하여 상기 확장된 후보 주제어들의 순위를 설정하는 온톨로지 정보를 이용한 문서 주제어 생성 장치.
제6항에 있어서,
상기 기본 후보 주제어들 각각을 구성하는 단어들 간의 동시 출현 빈도를 이용하여, 상기 확장된 후보 주제어들의 순위를 재설정하는 순위 재설정부를 더 포함하는 온톨로지 정보를 이용한 문서 주제어 생성 장치.
제9항에 있어서,
상기 확장된 후보 주제어의 순위를 재설정하는데 이용되는 순위 재배열 지수(RankScore)를 다음의 수학식을 이용하여 계산하는 온톨로지 정보를 이용한 문서 주제어 생성 장치:

여기서, C는 기본 후보 주제어를, supp_k(C)는 상기 문서의 저자로부터 설정된 저자 주제어에 기본 후보 주제어가 포함되는 문서의 비율을, n_w는 상기 기본 후보 주제어를 구성하는 단어의 개수를, supp_k(W_i)는 상기 저자 주제어에서 상기 기본 후보 주제어를 구성하는 i 번째 단어(W_i)가 포함되는 문서의 비율을, r_c는 상기 기계학습 알고리즘에 의해 설정된 순위를 나타낸다.