KR20110031532A

KR20110031532A - 문서집합 순위화 시스템

Info

Publication number: KR20110031532A
Application number: KR1020090088831A
Authority: KR
Inventors: 최기선; 나종열
Original assignee: 한국과학기술원
Priority date: 2009-09-21
Filing date: 2009-09-21
Publication date: 2011-03-29

Abstract

본 발명은 문서집합 순위화 시스템에 관한 것으로, 문서들간의 링크 관계 및 문서의 내용 그리고 문서의 카테고리 정보 등을 구할 수 있도록 정보를 제공하는 문서 DB, 상기 문서들간의 링크 구조를 이용하여 단어/문서 행렬, 문서별 인-링크(in-link) 개수 정보, 허브-페이지(hub-page) 군집화 결과, 번역문서 링크 정보등을 만든 다음, 상기 허브-페이지(hub-page) 군집화 결과와 상기 단어/문서 행렬을 이용하여 LDA 군집화 결과를 생성하고, 상기 문서별 인-링크(in-link) 개수 정보와 상기 번역문서 링크 정보를 이용해 문서들의 중요도를 계산하는 오프라인부, 사용자의 선택 분야와 상기 LDA 군집화 결과를 이용하여 문서집합을 순위화하고, 상기 순위화된 문서집합들의 문서들을 각각 문서 중요도 내림차순으로 정렬하여 출력하는 온라인부, 텍스트에서 OWL을 만들기 위해 문장에서 트리플렛(Tri -plet)을 추출한 텍스트 주석의 결과를 수정할 수 있으며, 상기 온라인부와 정보를 교환하는 웹-주석 도구를 포함하며, 문서집합 순위화에 따른 주석 작업의 효율성이 향상되고, 문서를 중요도에 의해 제공했을 때보다 주석 작업시간이 단축되며, 작업량이 높이 향상되는 효과가 있다.

문서집합 순위화, 온톨로지, 어노테이션, 문서 중요도

Description

문서집합 순위화 시스템{A system for sequencing documents}

본 발명은 문서집합 순위화 시스템에 관한 것으로, 특히 인간 작업자가 일관성을 유지하면서 효율적으로 작업할 수 있도록 작업 문서의 순서를 나열해 주는 문서집합 순위화 시스템에 관한 것이다.

텍스트 주석(text annotation)은 텍스트의 구성요소인 단어, 구, 문장과 같은 언어학적 구성요소, 혹은 임의의 기준에 맞는 덩어리(chunk) 등의 정보처리용 구성요소의 범위나 해석에 필요한 추가적인 정보를 각 해당 구성요소에 부가적으로 기재하는 것이다.

구성요소와 주석의 예로서는 단어열 구성요소에 대하여 용어(term) 및 고유명사 주석, 용어가 어느 개념인가를 나타내는 개념 클래스 주석, 용어와 술어(predicate)의 3항 구성요소(트리플렛, triplet)에 대한 개념 간의 관계설정 주석, 그리고 대명사 구성요소에 대한 동일 지시어(anaphora) 정보를 기록하는 일을 일컫는다.

도 1은 문서 간 연계와 텍스트 주석 관계를 도시한 도면이다.

도 1에 도시된 것과 같이, 온톨로지는 복잡화된 현대의 지식, 정보, 관습, 체계를 표현하는데 있어서, 가장 적절한 방법으로 널리 사용되고 있다. 이런 온톨로지의 구축은 사람이 온톨로지의 목적에 따라 설계를 하여 구축하여 나가는 방법을 우선적으로 생각할 수 있겠으나, 한 사람이 모든 지식을 가지지 못하므로 온톨로지의 목적에 맞는 문서들을 구하여, 텍스트 주석을 통하여 문서에 있는 지식과 정보를 논리적인 형태로 바꾸어 온톨로지화를 하는 일에서 시작된다.

후자의 경우, 작업 방식으로는 (반)자동화된 프로그램을 이용하여 그 결과를 사람이 직접 편집하여 작성하는 방법이 존재한다. 이런 추세 중에서도 사람이 행하는 주석 작업은 그 정확도나 자세함에 있어서 기계로 하는 주석보다 우위에 있다.

여기서 풀어야 할 과제가 크게 나누어 두가지가 있다:

(1) 온톨로지화 깊이문제(ontologization completeness): 텍스트에서 나타난 용어가 정의가 안 되었을 경우, 그 용어 정의를 온톨로지화 하기 위하여 다른 문서의 텍스트 주석을 먼저 하여야 하는 과제이다. 텍스트 주석을 위한 문서 선택 옵션으로는 다음의 두가지가 있겠다:

(1.1) 온-디멘드 페이지 어노테이션(On-Demand Page Annotation) : 새로운 용어가 등장할 경우, 그때에 필요한 문서를 찾아서 텍스트 주석을 하는 방법;

(1.2) 클로우즈드 다큐먼트 스페이스 시퀀싱(Closed Document Space Sequen -cing) : 문서 공간의 범위가 알려져 있을 경우, 전체 문서공간에서 문서의 순위를 미리 정하는 방법.

(2) 텍스트 주석의 난이도를 줄이는 문제(knowledge reuse): 두가지 과제로 나누어서 진행할 수가 있다:

(2.1) 텍스트 주석이 이미 잘 성공한 문장이나 패턴을 활용하는 문제;

(2.2) 텍스트 주석 전문가의 전문지식이 맞는 용어나 장르나 전문분야를 모아서 하도록 하는 과제이다.

위의 (2.1)의 문제는 유사한 문장이나 패턴을 이미 트리플렛(triplet) 등으로 잘 해석한 적이 있는 문장과 비교하는 문제(similarity of sentences)가 될 수가 있다.

그 다음, (2.2)의 문제는 문서를 비슷한 토픽으로 묶는 문제이므로 "문서 군집화"(document clustering)"의 문제이다.

(1.1)의 문제는 온톨로지화의 범위의 문제이지만, (1.2)의 문제는 전체 문서공간에서 문서순위를 정하여 전체를 텍스트 주석을 할 경우, 가장 효율적으로 텍스트 주석을 하는 문제이다.

다시 (2)의 문제로 돌아가서, 사람이 하는 주석 작업은 기계로 하는 자동 주석 작업보다 일관성의 유지가 힘들고, 전체적인 평가를 하며 작성하기 힘들고, 많은 양을 처리하기도 힘들다. 그러므로, 인간의 주석 작업을 도와주기 위한 문제 해결 방법이 필요한 실정이다.

상기한 바와 같은 문제점을 해결하기 위해 안출된 본 발명은 인간 작업자가 일관성을 유지하면서 효율적으로 작업할 수 있도록 작업 문서의 순서를 나열해 주는 문서집합 순위화 시스템을 제공함을 그 목적으로 한다.

상기 목적을 달성하기 위한 본 발명의 문서집합 순위화 시스템은 문서들간의 링크 관계 및 문서의 내용 그리고 문서의 카테고리 정보 등을 구할 수 있도록 정보를 제공하는 문서 DB, 상기 문서들간의 링크 구조를 이용하여 단어/문서 행렬, 문서별 인-링크(in-link) 개수 정보, 허브-페이지(hub-page) 군집화 결과, 번역문서 링크 정보등을 만든 다음, 상기 허브-페이지(hub-page) 군집화 결과와 상기 단어/문서 행렬을 이용하여 LDA 군집화 결과를 생성하고, 상기 문서별 인-링크(in-link) 개수 정보와 상기 번역문서 링크 정보를 이용해 문서들의 중요도를 계산하는 오프라인부, 사용자의 선택 분야와 상기 LDA 군집화 결과를 이용하여 문서집합을 순위화하고, 상기 순위화된 문서집합들의 문서들을 각각 문서 중요도 내림차순으로 정렬하여 출력하는 온라인부, 텍스트에서 OWL을 만들기 위해 문장에서 트리플렛(Tri -plet)을 추출한 텍스트 주석의 결과를 수정할 수 있으며, 상기 온라인부와 정보를 교환하는 웹-주석 도구를 포함한다.

본 발명에 따른 방법은, 무작위로 문서를 나열하는 방법보다, 더욱 주제를 일관성 있게 제시하여 텍스트 주석의 효율을 높일 수 있는 효과가 있다.

또한, 본 발명에 따라 문서를 집합화하여 주제 단위로 묶고, 묶여진 문서집합을 사용자의 선택분야에서부터 가장 영향력이 큰 순서대로 나열하며, 그 세부 문서들을 문서 중요도 내림차순으로 재나열하는 방식을 사용함으로써, 문서집합 순위화에 따른 주석 작업의 효율성이 향상되고, 문서를 중요도에 의해 제공했을 때보다 주석 작업시간이 단축되며, 작업량이 높이 향상되는 효과가 있다.

따라서, 본 발명은 인간이 문서를 이용하여 작업하는 여러 컴퓨터 작업 환경에 적용될 수 있으므로, 일반적인 자연언어 문서 처리의 여러 시스템에 적용될 수 있는 효과가 있다.

또한, 본 발명의 시스템을 통해 제공되는 정의문들은 그 단어들이 익숙하여 문장 내용을 파악하고 분석하는 것이 매우 용이하다는 효과가 있다.

그리고, 본 발명의 시스템은 사용자의 관심분야에 해당하는 문서들을 제공해주어서 주석 작업이 수월하다는 효과가 있다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다.

도 2는 본 발명에 따른 문서집합 순위화 시스템의 구성을 도시한 블록도이고, 도 3은 본 발명에 따른 문서집합 순위화 시스템의 외부 모듈과의 입출력 구조를 도시한 블록도이다.

도 2 및 도 3에 도시된 바와 같이, 본 발명에 따른 문서집합 순위화 시스템은 문서들간의 링크 관계 및 문서의 내용 그리고 문서의 카테고리 정보 등을 구할 수 있도록 정보를 제공하는 문서 DB(10), 상기 문서들간의 링크 구조를 이용하여 단어/문서 행렬, 문서별 인-링크(in-link) 개수 정보, 허브-페이지(hub-page) 군집화 결과, 번역문서 링크 정보등을 만든 다음, 상기 허브-페이지(hub-page) 군집화 결과와 상기 단어/문서 행렬을 이용하여 LDA 군집화 결과를 생성하고, 상기 문서별 인-링크(in-link) 개수 정보와 상기 번역문서 링크 정보를 이용해 문서들의 중요도를 계산하는 오프라인부(100), 사용자의 선택 분야와 상기 LDA 군집화 결과를 이용하여 문서집합을 순위화하고, 상기 순위화된 문서집합들의 문서들을 각각 문서 중요도 내림차순으로 정렬하여 출력하는 온라인부(200), 텍스트에서 OWL을 만들기 위해 문장에서 트리플렛(Triplet)을 추출한 텍스트 주석의 결과를 수정할 수 있으며, 상기 온라인부(200)와 정보를 교환하는 웹-주석 도구(30)를 포함한다.

부연 설명하자면 다음과 같다.

본 발명에 따른 시스템은 오프라인 과정에서는 문서들 간의 링크 구조가 입력으로 주어졌을 때 군집화된 문서들의 결과를 출력으로 내놓는다. 그런 다음, 온라인 과정에서는 사용자의 선택 분야가 입력으로 주어졌을 때 순위화된 문서집합들과 순위화된 문서들을 출력으로 내놓는다.

상기 오프라인부(100)는 문서들 간의 링크 구조를 이용하여 1) 단어/문서 행렬, 2) 문서별 인-링크(in-link) 개수, 3) 허브-페이지(hub-page) 군집화 결과 그리고 3) 번역문서 링크 등을 만든다. 다음 단계에서는, 허브-페이지(hub-page) 군집화 결과와 단어/문서 행렬을 이용하여 LDA 군집화 결과를 생성한다. 또한, 문서별 인-링크(in-link) 개수 정보와 번역문서 링크 정보를 이용해 문서들의 중요도를 계산한다.

상기 온라인부(200)는 사용자의 선택 분야와 LDA 군집화 결과를 이용하여 문서집합을 순위화한다. 상기 순위화가 된 문서집합들의 문서들은 각각 문서 중요도 내림차순으로 정렬이 되어 사용자에게 주어진다.

본 발명에 따른 문서 순위화 시스템은 도 3에 도시된 바와 같은 외부 모듈과의 입출력 구조를 가진다.

상기 문서 DB(10)는 특정 웹페이지에서 제공하는 문서 호출 API이다. 이 모듈을 이용하여 문서들간의 링크 관계 및 문서의 내용 그리고 문서의 카테고리 정보 등을 구할 수 있다.

본 발명에서 제안하는 문서집합 순위화 시스템은 실제의 웹-주석 도구(웹 어노테이션 툴)(30)에 쓰이는 것으로서, 유용성을 지니고 있고, 모듈로서 부착이 되 기 때문에 수정성 및 확장성을 가지고 있다. 여기서, 상기 웹-주석 도구(30)는 텍스트에서 웹 온톨로지 언어(OWL, Ontology Web Language)을 만들기 위해 문장에서 트리플렛(Triplet)을 추출한 텍스트 주석의 결과를 사람이 수정할 수 있는 웹 기반 온라인 주석 도구이다.

도 3에 도시된 바와 같이, 본 발명의 문서집합 순위화 시스템은 상기 웹-주석 도구(30)의 앞단에 부착이 되어 주석 작업자에게 문서를 제공하는 기능을 한다. 본 발명의 문서집합 순위화 시스템의 온라인 부분이 사용되며, 사용자의 선택 분야가 상기 온라인 부분의 입력으로 주어졌을 때, 본 발명의 문서집합 순위화 시스템은 순위화된 문서들을 출력으로 내놓는다.

도 1은 문서 간 연계와 텍스트 주석 관계를 도시한 도면,

도 2는 본 발명에 따른 문서집합 순위화 시스템의 구성을 도시한 블록도, 및

도 3은 본 발명에 따른 문서집합 순위화 시스템의 외부 모듈과의 입출력 구조를 도시한 블록도이다.

Claims

문서들간의 링크 관계 및 문서의 내용 그리고 문서의 카테고리 정보 등을 구할 수 있도록 정보를 제공하는 문서 DB;

상기 문서들간의 링크 구조를 이용하여 단어/문서 행렬, 문서별 인-링크(in-link) 개수 정보, 허브-페이지(hub-page) 군집화 결과, 번역문서 링크 정보등을 만든 다음, 상기 허브-페이지(hub-page) 군집화 결과와 상기 단어/문서 행렬을 이용하여 LDA 군집화 결과를 생성하고, 상기 문서별 인-링크(in-link) 개수 정보와 상기 번역문서 링크 정보를 이용해 문서들의 중요도를 계산하는 오프라인부;

사용자의 선택 분야와 상기 LDA 군집화 결과를 이용하여 문서집합을 순위화하고, 상기 순위화된 문서집합들의 문서들을 각각 문서 중요도 내림차순으로 정렬하여 출력하는 온라인부; 및

텍스트에서 OWL을 만들기 위해 문장에서 트리플렛(Triplet)을 추출한 텍스트 주석의 결과를 수정할 수 있으며, 상기 온라인부와 정보를 교환하는 웹-주석 도구를 포함하는 문서집합 순위화 시스템.
제1항에 있어서,

상기 오프라인부는 상기 문서들간의 링크 구조가 입력으로 주어졌을 때 군집화된 문서들의 결과를 출력하는 문서집합 순위화 시스템.
제1항에 있어서,

상기 온라인부는 사용자의 선택 분야가 입력으로 주어졌을 때 상기 순위화된 문서집합들과 순위화된 문서들을 출력하는 문서집합 순위화 시스템.
제1항에 있어서,

상기 문서 DB는 특정 웹페이지에서 제공하는 문서 호출 API 인 문서집합 순위화 시스템.
제1항에 있어서,

상기 문서집합 순위화 시스템은 실제의 웹-주석 도구(웹 어노테이션 툴)에 쓰이는 것으로서, 유용성을 지니고 있고, 모듈로서 부착이 되기 때문에 수정성 및 확장성을 갖는 문서집합 순위화 시스템.