KR20020042944A - 지능형 문서 관리 장치 및 그 방법 - Google Patents

지능형 문서 관리 장치 및 그 방법 Download PDF

Info

Publication number
KR20020042944A
KR20020042944A KR1020000072305A KR20000072305A KR20020042944A KR 20020042944 A KR20020042944 A KR 20020042944A KR 1020000072305 A KR1020000072305 A KR 1020000072305A KR 20000072305 A KR20000072305 A KR 20000072305A KR 20020042944 A KR20020042944 A KR 20020042944A
Authority
KR
South Korea
Prior art keywords
document
tree
hierarchical
category
documents
Prior art date
Application number
KR1020000072305A
Other languages
English (en)
Other versions
KR100416477B1 (ko
Inventor
이상구
김한준
Original Assignee
김한준
(주)코어로직스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김한준, (주)코어로직스 filed Critical 김한준
Priority to KR10-2000-0072305A priority Critical patent/KR100416477B1/ko
Publication of KR20020042944A publication Critical patent/KR20020042944A/ko
Application granted granted Critical
Publication of KR100416477B1 publication Critical patent/KR100416477B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 지능형 문서 관리 장치 및 그 방법에 관한 것으로서, 운영자의 판별에 의해 기 설정된 카테고리들을 노드로 하는 계층 분류 트리를 정의하고, 외부로부터 유입되는 임의의 문서들을 그 계층 분류 트리에 자동으로 분류하고, 방대한 문서의 유입 등으로 상기 계층 분류 트리를 재구성하여야 하는 경우, 상기 계층 분류 트리의 영역 중 재구성해야 하는 영역에 포함된 문서들을 운영자의 의도에 의해 클러스터링하고, 그 결과 생성된 클러스터들을 새로운 카테고리로 정의하고, 그 카테고리들을 노드로 하는 부분 계층 트리를 형성하고, 상기 부분 계층 트리를 카테고리간 포함관계에 의해 기존의 계층 분류 트리에 병합하는 일련의 과정을 수행함으로써, 인터넷의 보급으로 인해 대용량화되고 있는 문서들을 적은 수의 인력으로 체계적으로 관리할 수 있다는 장점이 있다.

Description

지능형 문서 관리 장치 및 그 방법{Apparatus and method for managing document intelligently}
본 발명은 지능형 문서 관리 장치 및 그 방법에 관한 것으로서, 특히, 문서들을 계층 분류 트리에 의해 보다 체계적으로 관리하고, 새롭게 유입되는 문서들을 그 계층 구조에 의해 자동으로 분류함으로써, 적은 수의 인력으로 대용량 문서를 효율적으로 관리하도록 하는 지능형 문서 관리 장치 및 그 방법에 관한 것이다.
최근 인터넷의 급속한 팽창과 보급으로 인해, 조직이 필요로 하는 문서 중에서 인터넷을 통해 획득된 문서와 지식의 양은 그 증가 속도가 갈수록 커지고 있다. 이로 인해 대용량 문서 정보 시스템에서 내용 기반 검색, 필터링, 라우팅 등의 정보 검색을 하기 위해 선행되어야 할 문서 구조화 기법이 매우 중요해지고 있다.
현재까지 대용량의 문서 정보를 조직화하는데 가장 일반적인 방법은 그 문서들을 주제에 따라 계층적으로 분류하고, 인덱싱하는 것이다. 현재 대부분의 정보 시스템들은 이러한 계층적 분류 트리(이하, 계층 분류 트리)를 통한 문서 인덱스를 구축하기 위해 대부분 사람의 노동력을 이용하고 있다.
즉, 문서 도메인 전문가들에 의해 카테고리별로 기초적인 계층 분류 트리의 구조가 제공되면, 문서 분류자들은 현재 시스템 내에 보관하고 있거나 새로 유입되는 문서들로부터 속성을 추출한 후, 그 속성에 의해 해당 문서들을 상기 계층 분류 트리내의 각 카테고리들로 할당하는 작업을 수행한다.
그리고, 상기 도메인 전문가들에 의해 초기에 주어졌던 상기 계층 분류 트리는 지속적으로 문서가 할당됨에 따라 그 구조가 변화될 필요가 있는데, 이를 위해 도메인 전문가들은 각 카테고리에 할당된 문서들의 내용을 면밀히 검토하여 그 구조를 변형시켜 나간다. 즉, 기존의 계층 분류 트리에 포함되어 있지 않은 문서 집합이 유입되어 그 문서 집합을 포함시킬 수 있는 새로운 카테고리를 생성한 경우 이를 상기 계층 분류 트리의 적당한 위치에 병합시키거나, 또는 각 카테고리에 포함된 문서들간 내용의 이질성이 높아져 새로운 카테고리에 의해 묶을 수 있는 문서 집합이 발생한 경우 그 카테고리를 두 개 이상의 카테고리로 분할하는 작업을 수행하여야 한다.
그러나, 이러한 문서의 집합들이 계속적으로 변화하고, 그 문서량도 빠른 속도로 증가하는 최근의 작업 환경에서, 문서 분류 및 그 계층 분류 트리의 관리 작업들을 사람의 노력에 의존하는 종래의 문서 관리 방법은 그 활용에 한계가 있다.
또한, 각 문서 분류자가 가지고 있는 경험과 지식이 모두 다르기 때문에 문서 분류가 지속적으로 일관성을 유지하지 못할 가능성도 커진다는 단점이 있다.
따라서, 본 발명은 상기한 바와 같은 종래의 제반 문제점을 해결하기 위하여 안출된 것으로서, 운영자가 정의한 카테고리들간 계층 구조에 의거하여, 외부로부터 유입되는 문서들을 자동으로 분류하고, 그 계층 구조를 지능적으로 관리함으로써, 적은 수의 인력으로 대용량 문서 집합을 효율적으로 관리하도록 하는 지능형 문서 관리 장치 및 그 방법을 제공하는 것을 목적으로 한다.
도 1은 본 발명의 일 실시예에 따른 지능형 문서 관리 장치에 대한 개략적인 블록도,
도 2는 본 발명의 일 실시예에 따라 문서를 관리하기 위한 처리 과정에 대한 처리 흐름도,
도 3은 본 발명의 일 실시예에 따른 계층 분류 트리에 대한 예시도,
도 4는 본 발명의 일 실시예에 따라 학습을 수행하기 위한 처리 과정에 대한 처리 흐름도,
도 5는 본 발명의 일 실시예에 따른 개략적인 학습 과정을 설명하기 위한 예시도,
도 6은 본 발명의 일 실시예에 따른 구체적인 학습 과정을 설명하기 위한 예시도,
도 7은 본 발명의 일 실시예에 따른 문서 자동 분류 과정을 수행하기 위한 처리 과정에 대한 처리 흐름도,
도 8은 본 발명의 일 실시예에 따라 외부로부터 유입된 문서가 임의의 카테고리에 분류되는 과정을 설명하기 위한 예시도,
도 9는 본 발명의 일 실시예에 따라 클러스터링을 수행하기 위한 처리 과정에 대한 처리 흐름도,
도 10은 본 발명의 일 실시예에 따라 새롭게 생성된 카테고리들간 계층 구조를 정의하는 과정을 설명하기 위한 예시도.
♣ 도면의 주요 부분에 대한 부호의 설명 ♣
100 : 인터넷 200 : 지능형 문서 관리 장치
210 : 계층 구조 관리 DB 220 : 학습부
230 : 문서 자동 분류부 240 : 문서 원본 관리 DB
250 : 계층 분류 트리 관리부 260 : 문서 속성 추출부
270 : 문서 수집부 280 : 사용자 인터페이스
상기 목적을 달성하기 위해 본 발명에서 제공하는 지능형 문서 관리 장치는 기 설정된 카테고리들간 계층 구조에 의해, 각 카테고리들을 노드로 하여 운영자가 정의한 계층 분류 트리 정보를 저장하고 관리하는 제1 저장부와, 운영자가 선정한 소정의 학습 문서에 의해 상기 계층 분류 트리를 구성하는 각 서브 트리별 학습을 수행하고, 상기 계층 분류 트리의 갱신에 따른 재학습을 수행하고 그 결과를 저장/관리하는 학습부와, 외부로부터 유입되는 문서에서 추출된 문서의 속성에 의해, 상기 학습부에 저장된 학습 결과를 참조하여, 상기 제1 저장부에 저장된 계층 분류 트리의 계층 구조를 따라가면서, 각 서브트리들과 상기 문서간 관계성을 예측하고, 상기 문서와 관계성이 가장 높은 서브 트리의 카테고리로 상기 문서를 자동 분류하는 문서 자동 분류부와, 상기 문서 자동 분류부에 의해 자동 분류된 문서들 및 그인덱싱 정보들을 저장하는 제2 저장부와, 운영자의 요청 또는 자체 판단에 의해 상기 제1 저장부에 저장된 계층 분류 트리의 임의의 영역에 대한 재구성이 요구된 경우 그 영역에 대한 부분 클러스터링에 의해 새로운 카테고리들을 정의하고, 그에 따라 기존의 계층 분류 트리를 재구성하는 계층 분류 트리 관리부를 포함하여 구성된다.
또한, 상기 목적을 달성하기 위해 본 발명에서 제공하는 지능형 문서 관리 방법은 운영자의 판별에 의해 다수개의 카테고리들 간 계층 구조를 정의하고, 그 각각의 카테고리들을 노드로 하는 계층 분류 트리를 정의한 후, 운영자가 선정한 학습 문서에 의해 그 계층 분류 트리를 구성하는 각 서브 트리들에 대한 학습을 수행하는 제1 과정과, 외부로부터 임의의 문서가 유입될 경우 그 문서에서 추출된 속성에 의해 상기 제1 과정에서 정의된 계층 분류 트리의 계층 구조를 따라가면서, 각 서브트리들과 상기 문서간 관계성을 예측하고, 상기 문서와 관계성이 가장 높은 서브트리의 카테고리로 상기 문서를 자동 분류하는 제2 과정과, 상기 제1 과정에서 정의한 계층 분류 트리의 임의의 영역에 대한 재구성이 요구된 경우 그 재구성 영역에 포함된 문서들을 클러스터링하여 새로운 카테고리들을 정의하는 제3 과정과, 상기 새로운 카테고리들의 속성별 포함관계에 의해 그 카테고리들간 계층 관계를 정의하고, 그 계층 관계를 적용하여 부분 계층 트리를 생성하는 제4 과정과, 상기 부분 계층 트리를 기존의 계층 분류 트리에 병합시켜 상기 기존의 계층 분류 트리를 재구성한 후, 그 계층 분류 트리에 대한 학습을 수행하는 제5 과정을 포함하여 구성된다.
이하, 본 발명에 따른 지능형 문서 관리 장치 및 방법에 대한 바람직한 실시예를 첨부된 도면에 의거하여 상세하게 설명하면 다음과 같다.
먼저, 도 1은 본 발명의 일 실시예에 따른 지능형 문서 관리 장치에 대한 개략적인 블록도로서, 도 1을 참조하면, 본 발명의 일 실시예에 따른 지능형 문서 관리 장치(200)는 계층 구조 관리 데이터 베이스(210)와, 학습부(220)와, 문서 자동 분류부(230)와, 문서 원본 관리 데이터 베이스(240)와, 계층 분류 트리 관리부(250)와, 문서 속성 추출부(260)와, 문서 수집부(270)와, 사용자 인터페이스(280)로 구성된다.
상기 계층 구조 관리 데이터 베이스(210)는 운영자의 판별에 의해 정의된 계층 분류 트리 정보를 저장하고 관리하는데, 상기 계층 분류 트리는 기 설정된 카테고리들의 속성에 의해 그 카테고리들을 노드로 하여 운영자에 의해 정의된다.
상기 학습부(220)는 상기 운영자가 선정한 소정의 학습 문서에 의해 상기 계층 구조 관리 데이터 베이스(210)에 저장된 계층 분류 트리를 구성하는 각 서브 트리별 학습을 수행하고, 상기 계층 분류 트리가 재구성된 경우 그에 대한 재학습을 수행하며, 그 학습 결과를 별도로 저장/관리한다.
이를 위해, 상기 학습부(220)는 각 카테고리별로 선정된 소정의 학습 문서들에 포함된 주요어들을 추출한 후, 그 주요어들이 해당 카테고리를 부모 노드로 하는 트리에 출현할 확률값을 계산하는 학습 과정을 수행하고, 그 학습 결과로 발생된 상기 확률값들을 주요어별로 저장 관리한다.
상기 문서 자동 분류부(230)는 외부로부터 유입되는 문서에서 추출된 문서의속성에 의해, 상기 학습부(220)에 저장된 학습 결과를 참조하여, 상기 계층 분류 트리의 계층 구조를 따라가면서, 각 서브트리들과 상기 문서간 관계성을 예측하고, 상기 문서와 관계성이 가장 높은 서브트리의 카테고리로 상기 문서를 자동 분류한다.
이 때, 상기 문서 자동 분류부(230)는 상기 문서와 카테고리들간 관계성 여부를 판별하기 위해 기 설정된 관계성 판별 기준 임계값을 가지고, 상기 예측된 관계성이 그 관계성 판별 기준 임계값 이하인 경우 그 문서를 상기 서브 트리들의 부모 노드에 해당되는 카테고리로 자동 분류한다.
상기 문서 원본 관리 데이터 베이스(240)는 상기 문서 자동 분류부(230)에 의해 자동 분류된 문서들 및 그 문서들이 포함되는 계층 분류 트리에서의 위치를 파악하기 위한 인덱싱 정보들을 저장한다.
상기 계층 분류 트리 관리부(250)는 상기 계층 구조 관리 데이터 베이스(210)에 저장된 계층 분류 트리의 임의의 영역에 대한 재구성이 요구된 경우 그 영역에 대한 부분 클러스터링에 의해 새로운 카테고리들을 정의하고, 그에 따라 기존의 계층 분류 트리를 재구성한다.
이 때, 상기 운영자는 재구성하고자 하는 영역에 포함된 문서들간 관계성이 인위적으로 설정된 문서 집합을 정의한다. 즉, 문서간 거리 함수값에 무관하게 동일한 클러스터에 포함되어야 하는 문서들 또는 문서간 거리 함수값에 무관하게 다른 클러스터에 들어가야 하는 문서들에 대한 문서 집합을 정의한다.
이를 위해, 그 문서들에 포함되는 주요어들에 대한 가중치를 설정한다. 즉,동일 클러스터에 포함되어야 하는 문서들에 포함된 주요어들은 그 거리 함수값이 적어지도록 하기 위해 그 가중치를 상대적으로 적은 값으로 설정하고, 다른 클러스터에 포함되어야 하는 문서들에 포함된 주요어들은 그 거리 함수값이 커지도록 하기 위해 그 가중치를 상대적으로 큰 값으로 설정한다. 이러한 가중치 설정에 대한 보다 구체적인 방법은 이후에 언급될 본 발명의 일 실시예에 따른 지능형 문서 관리 방법의 설명에서 다루겠다.
또한, 상기 계층 분류 트리 관리부는 클러스터링에 의해 새롭게 정의된 카테고리들간 포함관계에 의해 그 카테고리들간의 계층 구조를 정의하고, 그에 따른 부분 계층 트리를 생성한 후, 그 부분 계층 트리를 기존의 계층 분류 트리에 병합한다. 이 때, 상기 부분 계층 트리의 각 노드들과 그 부분 계층 트리가 포함될 기존 계층 분류 트리의 주변 노드들간 포함관계에 의해 그들간 계층 구조를 파악하고, 그에 따라 상기 부분 계층 트리가 포함될 위치를 식별한 후, 해당 위치에 상기 부분 계층 트리를 병합한다.
보다 구체적인 내용은 이후에 언급될 본 발명의 지능형 문서 관리 방법에 자세히 설명하겠다.
한편, 상기 사용자 인터페이스(280)는 운영자와의 인터페이스를 통해 운영자의 작업 내용을 본 발명의 지능형 문서 관리 장치로 입력한다.
상기 문서 수집부(270)는 인터넷(WWW)(100)등과 같이 외부로부터 유입되는 문서들을 수집하여 상기 문서 속성 추출부(260)로 전달한다.
상기 문서 속성 추출부(260)는 상기 문서 수집부(270)로부터 전달된 문서들에 포함된 주요어들에 의해 그 문서의 속성을 추출한다.
이와 같은 본 발명의 지능형 문서 관리 장치에 의해 자동으로 문서를 분류하고 관리하는 구체적인 방법을 도 2 내지 도 10을 참조하여 설명하면 다음과 같다.
도 2는 본 발명의 일 실시예에 따라 문서를 관리하기 위한 처리 과정에 대한 처리 흐름도로서, 도 2를 참조하면, 본 발명의 지능형 문서 관리 방법은 먼저, 운영자의 판별에 의해 계층 분류 트리를 정의한 후, 그 각각의 카테고리들을 노드로하는 계층 분류 트리를 정의하는 과정을 수행한다(s100).
그리고, 운영자가 선정한 학습 문서에 의해 상기 계층 분류 트리를 구성하는 각 서브 트리들에 대한 학습을 수행한다(s200). 즉, 상기 학습 문서들이 상기 계층 분류 트리를 구성하는 각 서브 트리들에 포함될 확률값을 계산하여 그 확률값을 주요어별로 저장한다.
상기 확률값들은 외부로부터 유입되는 문서가 각 서브 트리에 포함될 확률을 계산하기 위해 필요한 값들로서, 외부로부터 임의의 문서가 유입될 경우, 상기 과정(s100)에서 정의된 계층 분류 트리의 계층 구조를 따라가면서, 상기 확률값에 의해 상기 문서와 각 서브트리들간 관계성을 예측한 후, 그 관계성이 가장 높은 서브트리의 카테고리로 상기 문서를 자동 분류한다(s300).
그리고, 상기 지능형 문서 관리 방법에 의해 외부의 문서를 지속적으로 관리하는 도중, 상기 과정(s100)에서 정의한 계층 분류 트리의 임의의 영역에 대한 재구성이 요구된 경우 그 재구성 영역에 포함된 문서들을 클러스터링하여 새로운 카테고리들을 정의한다(s400, s500).
즉, 기존의 계층 분류 트리에 포함되어 있지 않은 문서 집합이 유입되어 그 문서 집합을 포함시킬 수 있는 새로운 카테고리를 생성한 경우 이를 상기 계층 분류 트리의 적당한 위치에 병합시키거나, 또는 각 카테고리에 포함된 문서들간 내용의 이질성이 높아져 새로운 카테고리에 의해 묶을 수 있는 문서 집합이 발생한 경우 그 카테고리를 두 개 이상의 카테고리로 분할하여야 하는데, 이 때, 그 카테고리들이 포함된 영역을 재구성 영역으로 설정한 후, 그 영역에 포함된 문서들을 클러스터링하고, 그 결과 생성된 클러스터들을 새로운 카테고리로 정의한다.
상기와 같이 새로운 카테고리들을 정의하였으면, 그 카테고리들의 속성별 포함관계에 의해 그 카테고리들의 계층 관계를 정의하고, 그 계층 관계를 적용하여 부분 계층 트리를 생성한다(s600).
그리고, 상기 부분 계층 트리를 기존의 계층 분류 트리에 병합시킨(s700) 후, 그 계층 분류 트리에 대한 재학습을 수행한다(s800).
도 3은 본 발명의 일 실시예에 따른 계층 분류 트리에 대한 예시도로서, 도 2의 계층 분류 트리 정의 과정(s100)에 의해 생성된 계층 분류 트리의 예가 나타나 있다. 도 3을 참조하면, 상기 계층 분류 트리는 일반적인 트리의 형태를 가지며, 상기 트리의 노드들은 임의의 카테고리들에 의해 구성되는데, 초기 계층 분류 트리는 운영자의 판별에 의해 정의된 계층 관계에 의해 그 계층 분류 트리가 생성된다.
이 때, 상기 트리의 각 노드들은 기 설정된 카테고리들을 의미하고, 노드 안에는 그 카테고리에 할당된 문서들을 표시한다.
도 4는 본 발명의 일 실시예에 따라 학습을 수행하기 위한 처리 과정에 대한처리 흐름도이다. 도 4를 참조하면, 상기 계층 분류 트리의 노드를 구성하는 카테고리별로 운영자가 선정한 학습 문서에 의해 상기 계층 분류 트리를 학습하는 과정은 먼저, 해당 카테고리별로 선정된 학습 문서에 포함된 주요어들을 추출하고(s210), 상기 주요어들이 해당 카테고리를 부모 노드로 하는 트리에 출현할 확률값을 계산한다(s220). 즉, 상기 주요어들이 포함된 카테고리를 부모 노드로 하는 트리의 서브 트리들에 출현할 확률값을 순환적으로 계산한 후, 그 값을 모두 합하여 그 트리에 출현할 확률값으로 계산한다.
그리고, 그 확률값들을 주요어별로 저장/관리한다(s230).
도 5는 본 발명의 일 실시예에 따른 개략적인 학습 과정을 설명하기 위한 예시도로서, 이 때, 트리(Tr)는 카테고리(Cr)를 부모노드로 하는 트리를 나타내고, 트리(Tr1)는 카테고리(Cr1)를 부모 노드로 하는 트리(Tr)의 서브 트리를 나타내고, 트리(Tr2)는 카테고리(Cr2)를 부모 노드로 하는 트리(Tr)의 서브 트리를 나타내고, 트리(TrK)는 카테고리(CrK)를 부모 노드로 하는 트리(Tr)의 서브 트리를 나타낸다. 또한, 상기 트리(Tr1, Tr2,…, TrK)에 속하는 문서들은 트리(Tr)에도 속하게 된다.
도 5를 참조하여 상기 도 4의 과정(s220)을 보다 상세히 설명하면 다음과 같다. 임의의 트리(Tr)를 학습한다는 것은 상기 트리(Tr)에 임의의 주요어(w)가 출현할 확률값을 계산하여 그 확률값을 주요어별로 저장/관리하는 것을 말한다. 즉, 상기 트리(Tr)에 임의의 주요어(w)가 출현할 확률값(Pr(w|Tr))은, 상기 카테고리(Cr)에 주요어(w)가 출현할 제1 확률값(P1)에 상기 서브 트리(Tr)에서 그 카테고리(Cr)의 중요도를 나타내는 제1 비중값(W1)을 곱한 값과, 상기 주요어(w)가 상기트리(Tr)의 특정 서브 트리들(Tri)에 출현할 제2 확률값(P2)과 상기 서브트리(Tr)에서 각 하위 트리(Tri)에 대한 중요도를 나타내는 제2 비중값(W2)을 곱한 값 k개를 더하여 계산한다.
아래 수학식 1 내지 수학식 5에 다음과 같은 확률값 계산을 위한 수치들을 유출하기 위한 수식이 나타나 있다.
이 때, 상기 수학식 1은 제1 확률값(P1)을 구하기 위한 것이고, 상기 수학식 2는 제2 확률값(P2)을 구하기 위한 것이고, 상기 수학식 3은 제1 비중값(W1)을 구하기 위한 식이고, 상기 수학식 4는 제2 비중값(W2)을 구하기 위한 식이고, 수학식 5는 상기 수학식 1 내지 수학식 4에서 구해진 결과 값에 의해 최종적으로주요어(w)가 임의의 서브 트리(Tr)에 포함될 확률을 구하기 위한 것이다.
한편, 상기 제1 비중값(W1)은 상기 트리(Tr)에 포함된 문서의 개수(df(Tr), df:document frequency)에 대한 해당 카테고리(Cr)에 포함된 문서의 개수(df(Cr))의 비율() 및 상기 서브트리(Tr)에 포함된 전체 카테고리의 개수(cf(Tr), cf:category frequency)에 대한 해당 카테고리(cf(Cr))의 비율() 및 상기 서브트리(Tr)에 포함된 주요어의 개수(tf(Tr), tf:term frequency)에 대한 해당 카테고리(Cr)에 포함된 주요어의 개수(tf(Cr))의 비율() 중 어느 하나에 의해 결정할 수 있다.
또한, 상기 비중값(W2)도 상기 제1 비중값(W1)과 같이 상기 서브트리(Tr)에 포함된 문서의 개수(df(Tr))에 대한 상기 서브트리의 하위 서브트리들(Tri, i=1,2,…,K) 각각에 포함된 문서의 개수(df(Tri), i=1,2,…,K)의 비율() 및 상기 서브트리(Tr)에 포함된 전체 카테고리의 개수(cf(Tr))에 대한 상기 서브트리의 하위 서브 트리들(Tri, i=1,2,…,K) 각각에 포함된 카테고리의 개수(cf(Tri), i=1,2,…,K)의 비율() 및 상기 서브트리(Tr)에 포함된 주요어의 개수(tf(Tr))에 대한 상기 서브트리의 하위 트리들(Tri, i=1,2,…,K) 각각에 포함된 주요어의 개수(tf(Tri), i=1,2,…,K)의 비율()중 어느 하나의 방법에 의해 결정한다.
이 때, 상기 제1 및 제2 가중치를 구하는 방법은 본 발명의 장치에서도 동일하게 적용된다.
도 6은 본 발명의 일 실시예에 따른 구체적인 학습 과정을 설명하기 위한 예시도로서, 임의의 서브 트리(T5)가 도 6과 같이 구성되었을 때, 임의의 주요어(w)가 그 서브 트리(T5)에 포함될 확률(Pr(w|T5))을 구하는 방법을 상기 도 6을 참조하여 설명하면 다음과 같다. 이 때, 상기 노드들은 각 카테고리들(C5, C4, C3, C2, C1)을 의미하고, 그 노드의 괄호 안에 있는 숫자는 그 카테고리에 속한 문서의 개수를 의미한다.
상기 문서의 개수를 수학식 5에 대입하면 임의의 주요어(w)가 서브트리(T5)에서 출현할 확률은 수학식 6과 같다.
이 때, Pr(w|C5)는 주요어(w)가 카테고리(C5)에 출현할 확률값을 말하는 것으로서, 일반적인 문서 분류에서 사용하는 수학식 7에 의해 구할 수 있다.
이 때, V는 모든 주요어들의 집합, |V|는 그 주요어들의 개수, λ는 |V|값이 전체 확률값에 주는 영향을 조절하는 제어 변수, tf(w,Ci)는 카테고리 Ci에 존재하는 문서들에서 단어 w가 출현한 횟수를 나타낸다.
그리고, 아직 풀리지 않은 Pr(w|T4), Pr(w|T3)은 다시 수학식 6에 대입하여 계산이 가능한데, 수학식 8은 Pr(w|T4)를 구하는 식이고, 수학식 9는 Pr(w|T3)을 구하는 식이다.
이 때, 상기 카테고리(C4)는 그 카테고리(C4)를 부모 노드로 하는 서브트리가 존재하지 않기 때문에 Pr(T4의 서브트리|T4)가 '0'이 되어 시그마()부분이 '0'으로 계산된다.
이 때, 상기 수학식 8 및 수학식 9에서 Pr(w|C4), Pr(w|C3), Pr(w|C2), Pr(w|C1)도 상기 Pr(w|C5)와 마찬가지로, 수학식 7에 의해 계산한다.
이와 같이 서브 트리가 없는 단말 노드가 나올 때까지 상기 수학식 6이 재귀적으로 계산된다.
이러한 계산 방식은 문서 빈도(document frequency)를 비중값으로 채택한 경우에 대한 예로서, 이를 주요어 빈도(term frequency) 또는 카테고리빈도(category frequency)를 바꿔서 계산할 수도 있다.
도 7은 본 발명의 일 실시예에 따른 문서 자동 분류 과정을 수행하기 위한 처리 과정에 대한 처리 흐름도로서, 도 7을 참조하면 본 발명의 일 실시예에 따른 문서 자동 분류 과정은 다음과 같다.
먼저, 외부로부터 유입되는 문서가 있을 경우 그 문서에 포함된 주요어를 추출한다(s310). 그리고, 그 주요어에 의해 계층 분류 트리의 루트를 부모 노드로 하는 각각의 하위 서브 트리들과 상기 문서와의 관계성을 예측하여 상기 분서와의 관계성이 가장 높은 서브트리를 선택한 후, 그 선택된 서브트리의 루트가 단말 노드가 될 때까지 그 서브 트리의 루트를 부모 노드로 하는 각각의 하위 서브 트리들과 상기 문서와의 관계성을 예측하여 그 문서와의 관계성이 가장 높은 서브트리를 선택하는 일련의 과정을 반복 수행한다(s320, s330, s350).
이 때, 상기 관계성이 기 설정된 관계성 판별 기준 임계값 이하인 경우는 그 문서를 그 서브 트리들의 부모 노드에 해당되는 카테고리로 자동 분류하고(s340, s370), 상기 선택된 서브 트리의 루트가 단말 노드인 경우 그 노드에 해당되는 카테고리로 상기 문서를 자동 분류한다(s350, s360).
도 8은 본 발명의 일 실시예에 따라 외부로부터 유입된 문서가 임의의 카테고리에 분류되는 과정을 설명하기 위한 예시도로서, 도 8a와 같이 외부로부터 임의의 문서(d)가 유입된 경우, 상기 계층 분류 트리의 상위 레벨부터 하위 레벨로 그 계층 구조를 따라 가면서, 그 문서와 해당 카테고리들과의 관계성을 분석한다.
즉, 먼저, 서브 트리(T)의 서브 트리를 구성하는 카테고리들(C1, C2, C3)과상기 문서와의 관계성을 분석한 후, 그 중 가장 관계성이 높은 카테고리를 선택하는데, 도 8b의 예에서는 카테고리(C2)를 선택하였다. 그리고, 그 서브 트리인 트리(21)의 카테고리(C21)와 문서와의 관계성을 비교하여 그 관계성이 상기 관계성 판별 기준 임계값 이하인 경우 그 문서를 카테고리(C2)에 자동 분류하고, 그 관계성 판별 기준 임계값 이상인 경우 상기 문서를 카테고리(C21)에 자동 분류한다.
도 8b의 예에서는 상기 문서를 카테고리(C21)에 자동 분류한 경우에 대한 예를 나타낸다.
이 때, 상기 계층 분류 트리는 그 계층 분류 트리 상의 임의의 노드를 구성하는 카테고리에 할당 가능한 문서의 개수를 재구성 판별 기준 임계값으로 기 설정하고, 지속적으로 유입되는 문서들에 대한 분류 수행 시, 임의의 카테고리에 상기 재구성 판별 기준 임계값 이상의 문서가 할당될 경우 해당 노드 또는 그 주변 노드들을 포함한 영역을 재구성하기 위한 재구성 영역으로 설정한 후, 그 영역에 포함된 문서들에 대한 클러스터링을 수행하고, 그 결과 새롭게 정의된 카테고리들에 의해 상기 계층 분류 트리를 재구성하게 된다.
도 9는 이러한 클러스터링 과정에 대한 처리 흐름도를 나타낸 것으로서, 도 9를 참조하면, 상기 클러스터링은 먼저, 운영자의 판별에 의해 상기 재구성 영역에 포함된 문서들간 관계성이 인위적으로 설정된 문서 집합을 정의한다(s510). 이 때, 상기 관계성이 인위적으로 설정된다는 것은 클러스터링시 반드시 동일한 클러스터에 포함되어야 하는 문서들에 대한 집합(B+)과, 다른 클러스터에 포함되어야 하는문서들에 대한 집합(B-)을 운영자에 의해 정의하는 것을 말한다.
그리고, 상기와 같이 문서 집합이 정의되었으면, 그 문서 집합의 속성에 의해 그 문서 집합에 포함된 문서들간 인위적인 관계성을 반영시키기 위한 주요어별 가중치를 설정하고(s520), 그 가중치를 적용하여 상기 재구성 영역에 포함된 문서들간 거리 함수값을 계산한다(s530).
이 때, 상기 가중치는 수학식 10에 의해 설정하는 것이 가능하다.
이 때, D는 상기 운영자에 의해 인위적인 관계성을 가지도록 정의된 문서 집합(B+∪B-)을 나타내고, I는 그 문서 집합의 속성값을 나타낸다.
즉, 수학식 10에 의하면, 상기 문서 집합에 속한 문서들(di, dj)간 거리 계산시 그 거리 함수(dist_D (di, dj))에 상기 문서 집합의 속성값(I(di, dj))을 곱하여 계산하는데, 이 때, 상기 거리 함수(dist_D (di, dj))는 수학식 11과 같다.
이 때, 상기 wk는 가중치 벡터의 k 번째 성분값이고, dik는 문서 di의 k번째 성분값이다.
한편, 상기 문서 집합의 속성값(I(di, dj))은 상기 문서 집합에 포함된 문서들 중에서 임의의 두 개 문서(di, dj)가 같은 클러스터에 존재하는 속성을 가진 경우 '+1'값을 가지고, 상기 문서 집합에 포함된 문서들 중에서 임의의 두 개 문서(di, dj)가 다른 클러스터에 존재하는 속성을 가진 경우 '-1'값을 가진다.
따라서, 만일 다른 클러스터에 포함되도록 그 관계성이 정의된 문서들의 경우 그 거리함수값이 커지는 방향으로 그 가중치가 설정되고, 동일한 클러스터에 포함되도록 그 관계성이 정의된 문서들의 경우 그 거리 함수값이 작아지는 방향으로 가중치가 설정된다.
그리고, 이와 같이 하여 상기 문서집합에 포함된 문서들에 가중치를 적용하여 각 문서들에 대한 거리 함수를 계산하였으면, 그 거리 함수값이 기 설정된 소정의 범위 이내인 문서들을 하나의 클러스터로 병합하는 과정을 소정 개수(n)의 클러스터가 생성될 때까지 반복 수행한 후, 그 결과 생성된 소정 개수(n)의 클러스터들을 각각 카테고리로 정의한다(s540, s550, s560).
도 10은 본 발명의 일 실시예에 따라 새롭게 생성된 카테고리들간 계층 구조를 정의하는 과정을 설명하기 위한 예시도로서, 그 일련의 과정들을 도 10a 내지 도 10f에 순차적으로 나타내었다.
먼저, 도 10a는 기존의 계층 분류 트리를 재구성해야 할 필요가 발생한 경우, 운영자에 의해 설정된 재구성 영역(A)을 나타낸다.
도 10b는 상기 재구성 영역(A)에 포함된 다수개의 문서들에 대한 클러스터링에 의해 새롭게 정의된 5개의 카테고리들(Ca, Cb, Cc, Cd, Ce)을 나타낸다.
도 10c는 상기 카테고리들(Ca, Cb, Cc, Cd, Ce)간 포함관계를 판정하기 위해구현된 초기 포함관계 매트릭스를 나타낸다.
도 10d는 상기 포함관계 매트릭스에 의한 포함관계를 설정하기 위한 임계값이 0.8인 경우 그 최종적인 포함관계를 나타내는 포함관계 매트릭스를 나타낸다.
도 10e는 상기 최종적인 포함관계를 나타내는 포함관계 매트릭스에 의해 각 카테고리들간 포함 관계를 예측하고, 상기 포함 관계에 의해 그들간 계층 구조를 정의하여 생성된 부분 계층트리를 나타낸다.
도 10f는 상기 부분 계층 트리(A)가 기존의 계층 분류 트리에 병합된 상태를 나타낸다.
먼저, 도 10a와 같이 운영자가 재구성 영역(A)을 설정하면, 그 영역에 포함된 모든 문서들에 대한 클러스터링을 수행한다. 이 때, 결과로 발생되는 클러스터의 수에 대한 제한은 상기 운영자가 임의로 하는 것이 가능하다.
도 10b의 예에서는 상기 클러스터링에 의해 5개의 클러스터가 생성된 경우를 나타낸다.
이와 같이 클러스터가 생성되었으면, 그 클러스터들을 새로운 카테고리로 정의한 후, 상기 카테고리 내에 포함된 모든 속성들을 추출한 후, 그 속성들이 임의의 카테고리 내에서 가지는 중요도를 부여한다.
그리고, 임의의 두 카테고리 내에서 각 속성(주요어)들이 가지는 중요도를 각각 비교하여, 그 중요도가 높은 주요어를 더 많이 포함하는 하나의 카테고리가, 다른 하나의 카테고리에 포함된다고 간주한다.
즉, 상기 각 속성(주요어)들이 임의의 두 카테고리 내에서 갖는 중요도를 비교하여, 그 중요도가 높은 속성을, 기 설정한 포함 관계 판별기준 임계값 이상 포함한 카테고리가 다른 하나의 카테고리를 포함하는 것으로 정의한다.
도 10c에 나타난 초기 포함관계 매트릭스의 경우를 예로 살펴보면, 카테고리 Ca의 경우 그 포함 관계를 나타내는 수치가 카테고리 Cb의 경우 '0'이고, Cc와는 '0.5'이고, Cd인 경우 '0.1'이고, Ce인 경우 '0.1'을 나타낸다. 이와 같이 하여 각 카테고리들간 포함 관계를 나타내는 수치를 모두 확인하여, 그 수치가 상기 포함 관계 판별 기준 임계값 이상인 경우 하나의 카테고리가 다른 하나의 카테고리를 포함하는 것으로 정의한다.
도 10d는 상기 도 10c에 나타난 초기 포함관계 매트릭스의 포함 관계 판별 기준 임계값이 '0.8'인 경우 재구성된 포함관계 매트릭스로서, 도 10d를 참조하면, 카테고리(Cd)의 경우 모든 카테고리들(Ca, Cb, Cc, Ce)에 대한 포함 관계 수치가 모두 '1'이므로, 그 각 카테고리들을 모두 포함하는 것으로 판별되고, 상기 카테고리(Ce)의 경우 카테고리(Cc)만을 포함하는 것으로 판별된다.
이 때, 그 포함 관계가 적절한 지의 여부를 운영자 참여에 의해 결정하여, 부적절한 경우 그 포함 관계 판별 기준 임계값을 변경시켜 가면서, 그 결과를 운영자가 만족할 때까지 상기 포함관계 매트릭스의 재구성을 반복 수행한다.
그리고, 이와 같은 판별 결과를 적용하여 부분 계층 트리를 구성하면, 도 10e와 같다.
이와 같이 구성된 부분 계층 트리는 기존의 계층 분류 트리와의 계층 구조를 만족하도록 하는 방향으로 상기 기존의 계층 분류 트리의 일정 위치에 병합되는데,상기 부분 계층 트리의 노드를 구성하는 카테고리들 중 루트 및 단말 카테고리들과 기존 계층 분류 트리에서 상기 부분 계층 트리가 포함될 주변의 카테고리들간의 속성별 포함관계를 파악한 후, 그 결과에 의해 상기 부분 계층 트리를 기존의 계층 분류 트리에 병합한다.
이 때, 상기 부분 계층 트리와 기존의 계층 분류 트리의 각 노드들 간의 포함관계 식별은 상기 부분 계층 트리 생성시의 방법과 동일한 방법을 사용한다.
상기와 같은 본 발명의 지능형 문서 관리 장치 및 그 관리 방법은 인터넷의 보급으로 인해 대용량화되고 있는 문서들을 계층 분류 트리에 의해 관리함으로써, 그 문서들에 대한 보다 체계적인 관리가 가능하고, 새롭게 유입되는 문서들을 그 계층 구조에 의해 자동으로 분류하도록 한다. 따라서, 적은 수의 인력으로 대용량 문서를 효율적으로 관리할 수 있다는 장점이 있다.
그리고,운영자와의 대화식 작업을 통해 상기 계층 분류 트리의 구조를 자동으로 재구성할 수 있도록 하여, 문서의 분류를 자동화된 장치에만 의존함으로써 문서의 양이 방대해질 경우 발생될 수 있는 분류상의 오류를 방지할 수 있다.
또한, 향후 대폭 확대될 전자상거래 기업에서 사용될 고객 구매 정보, 고객 불만 정보 등과 같은 고객 관련 문서들을 보다 효율적으로 관리할 수 있도록 함으로써, 이를 데이터베이스 마케팅에 활용할 수 있으며, 계층적 분류가 필요한 모든 분야에서 관리해야 할 데이터의 양의 방대한 경우 상기 데이터의 관리에 응용하는 것이 가능하다.

Claims (19)

  1. 운영자의 판별에 의해 다수개의 카테고리들 간 계층 구조를 정의하고, 그 각각의 카테고리들을 노드로 하는 계층 분류 트리를 정의한 후, 운영자가 선정한 학습 문서에 의해 그 계층 분류 트리를 구성하는 각 서브트리들에 대한 학습을 수행하는 제1 과정과,
    외부로부터 임의의 문서가 유입될 경우 그 문서에서 추출된 속성에 의해 상기 제1 과정에서 정의된 계층 분류 트리의 계층 구조를 따라가면서, 각 서브트리들과 상기 문서간 관계성을 예측하고, 상기 문서와 관계성이 가장 높은 서브트리의 카테고리로 상기 문서를 자동 분류하는 제2 과정과,
    상기 제1 과정에서 정의한 계층 분류 트리의 임의의 영역에 대한 재구성이 요구된 경우 그 재구성 영역에 포함된 문서들을 클러스터링하여 새로운 카테고리들을 정의하는 제3 과정과,
    상기 새로운 카테고리들의 속성별 포함관계에 의해 그 카테고리들간 계층 관계를 정의하고, 그 계층 관계를 적용하여 부분 계층 트리를 생성하는 제4 과정과,
    상기 부분 계층 트리를 기존의 계층 분류 트리에 병합시켜 상기 기존의 계층 분류 트리를 재구성한 후, 그 계층 분류 트리에 대한 학습을 수행하는 제5 과정을 포함하는 것을 특징으로 하는 지능형 문서 관리 방법.
  2. 제1항에 있어서, 상기 제1 과정의 학습은
    해당 카테고리별로 선정된 학습 문서에 포함된 주요어들을 추출하는 제1-1 과정과,
    상기 주요어들이 해당 카테고리를 부모 노드로 하는 트리에 출현할 확률값을 계산하는 제1-2 과정과,
    그 확률값들을 주요어별로 저장/관리하는 제1-3 과정을 포함하는 것을 특징으로 하는 지능형 문서 관리 방법.
  3. 제2항에 있어서, 상기 제1-2 과정은
    상기 주요어(w)들이 해당 카테고리(Cr)에 출현할 제1 확률값()을 계산하는 제1-2-1 과정과,
    상기 주요어(w)들이 해당 카테고리(Cr)를 부모 노드로 하는 트리(Tr)의 특정 서브 트리들(Tri)에 포함될 제2확률값() 을 계산하는 제1-2-2 과정과,
    상기 서브 트리(Tr)에서 그 카테고리(Cr)의 중요도를 나타내는 제1 비중값()을 계산하는 제1-2-3 과정과,
    상기 서브 트리(Tr)에서 각 하위 트리 (Tri)에 대한 중요도를 나타내는 제2 비중값()을 계산하는 제1-2-4 과정과,
    상기 제1-2-1 내지 제1-2-4 과정에서 계산된 값들(P1, P2, W1, W2)에 의해 상기 주요어들(w)이 해당 카테고리(Cr)를 부모 노드로 하는 트리(Tr)에 출현할 확률값()을 계산하는 제1-2-5 과정을 포함하는 것을 특징으로 하는 지능형 문서 관리 방법.
  4. 제3항에 있어서, 상기 제1-2-3 과정은
    상기 제1 비중값(W1)을
    상기 서브트리(Tr)에 포함된 문서의 개수(df(Tr))에 대한 해당 카테고리(Cr)에 포함된 문서의 개수(df(Cr))의 비율() 및
    상기 서브트리(Tr)에 포함된 전체 카테고리의 개수(cf(Tr))에 대한 해당 카테고리(cf(Cr))의 비율() 및
    상기 서브트리(Tr)에 포함된 주요어의 개수(tf(Tr))에 대한 해당 카테고리(Cr)에 포함된 주요어의 개수(tf(Cr))의 비율() 중 어느 하나에 의해 결정하는 것을 특징으로 하는 지능형 문서 관리 방법.
  5. 제3항에 있어서, 상기 제1-2-4 과정은
    상기 제2 비중값(W2)을
    상기 서브트리(Tr)에 포함된 문서의 개수(df(Tr))에 대한 상기 서브트리의 하위 서브트리들(Ti, i=1,2,…,k) 각각에 포함된 문서의 개수(df(Ti), i=1,2,…,k)의 비율() 및
    상기 서브트리(Tr)에 포함된 전체 카테고리의 개수(cf(Tr))에 대한 상기 서브트리의 하위 서브 트리들(Ti, i=1,2,…,k) 각각에 포함된 카테고리의 개수(cf(Ti), i=1,2,…,k)의 비율() 및
    상기 서브트리(Tr)에 포함된 주요어의 개수(tf(Tr))에 대한 상기 서브트리의 하위 트리들(Ti, i=1,2,…,k) 각각에 포함된 주요어의 개수(tf(Ti), i=1,2,…,k)의 비율()중 어느 하나의 방법에 의해 결정하는 것을 특징으로 하는 지능형 문서 관리 방법.
  6. 제1항에 있어서, 상기 제2 과정은
    외부로부터 유입되는 문서에 포함된 주요어를 추출하는 제2-1 과정과,
    상기 계층 분류 트리의 루트를 부모 노드로 하는 각각의 하위 서브 트리들과 상기 문서와의 관계성을 예측하여 상기 문서와의 관계성이 가장 높은 서브트리를 선택하는 제2-2 과정과,
    상기 선택된 서브트리의 루트가 단말 노드가 될 때까지 그 서브 트리의 루트를 부모 노드로 하는 각각의 하위 서브 트리들과 상기 문서와의 관계성을 예측하여 그 문서와의 관계성이 가장 높은 서브트리를 선택하는 일련의 과정을 반복 수행하는 제2-3 과정과,
    상기 선택된 서브트리의 루트가 단말 노드인 경우 그 노드에 해당되는 카테고리로 상기 문서를 자동 분류하는 제2-4 과정을 포함하는 것을 특징으로 하는 지능형 문서 관리 방법.
  7. 제6항에 있어서, 상기 제2-2 과정 및 제2-3 과정은 각각
    상기 문서와 해당 하위 서브 트리들과의 관계성이, 기 설정된 관계성 판별 기준 임계값 이하인 경우 그 문서를 그 서브 트리들의 부모 노드에 해당되는 카테고리로 자동 분류하는 것을 특징으로 하는 지능형 문서 관리 방법.
  8. 제1항에 있어서, 상기 제3 과정은
    상기 계층 분류 트리 상의 임의의 노드를 구성하는 카테고리에, 기 설정된 재구성 판별 기준 임계값 이상의 문서가 분류된 경우 해당 노드 또는 그 주변 노드들을 포함한 영역을 재구성하기 위한 재구성 영역으로 설정하는 것을 특징으로 하는 지능형 문서 관리 방법.
  9. 제1항에 있어서, 상기 제3 과정의 클러스터링 과정은
    운영자의 판별에 의해 상기 재구성 영역에 포함된 문서들간 관계성이 인위적으로 설정된 문서 집합을 정의하는 제3-1 과정과,
    상기 문서 집합의 속성에 의해 그 문서 집합에 포함된 문서들간 인위적인 관계성을 반영시키기 위한 주요어별 가중치를 설정하고, 그 가중치를 적용하여 상기 재구성 영역에 포함된 문서들간 거리 함수값을 계산하는 제3-2 과정과,
    상기 제3-2 과정에서 계산된 거리 함수값이 기 설정된 소정의 범위 이내인문서들을 하나의 클러스터로 병합하는 과정을 소정 개수의 클러스터가 생성될 때까지 반복 수행하는 제3-3 과정과,
    상기 제3-3 과정에서 생성된 소정 개수의 클러스터들을 각각 카테고리로 정의하는 제3-4 과정을 포함하는 것을 특징으로 하는 지능형 문서 관리 방법.
  10. 제9항에 있어서, 상기 제3-2 과정은
    상기 문서 집합(D)에 포함된 임의의 문서들(di, dj)에 대하여, 그 문서들의 거리 함수값(distD(di,dj))과, 해당 문서 집합의 속성값(I(di, dj))을 곱한값을 가중치()로 설정하는 것을 특징으로 하는 지능형 문서 관리 방법.
  11. 제10항에 있어서, 상기 문서 집합의 속성값(I(di, dj))은
    상기 문서 집합에 포함된 문서들 중에서 임의의 두 문서(di, dj)가 같은 클러스터에 존재하는 속성을 가진 경우 '+1'값을 가지고,
    상기 문서 집합에 포함된 문서들 중에서 임의의 두 문서(di, dj)가 다른 클러스터에 존재하는 속성을 가진 경우 '-1'값을 가지는 것을 특징으로 하는 지능형 문서 관리 방법.
  12. 제1항에 있어서, 상기 제4 과정은
    상기 카테고리들에 포함된 모든 속성별로 그 속성들이 각 카테고리 내에서 가지는 중요도를 부여하고, 각 속성들이 임의의 두 카테고리 내에서 갖는 중요도를 비교하여, 그 중요도가 높은 속성을, 기 설정한 포함관계 판별기준 임계값 이상 포함한 카테고리가 다른 하나의 카테고리를 포함하는 것으로 정의하는 것을 특징으로 하는 지능형 문서 관리 방법.
  13. 제1항 또는 제12항에 있어서, 상기 제4 과정은
    운영자가 상기 포함관계 판별 기준 임계값을 변경하면서, 운영자가 원하는 최적의 부분 계층 트리를 생성하도록 하는 것을 특징으로 하는 지능형 문서 관리 방법.
  14. 제1항에 있어서, 상기 제5 과정은
    상기 부분 계층 트리의 루트 및 단말 카테고리들과 기존 계층 분류 트리에서 상기 부분 계층 트리가 포함될 주변의 카테고리들 간의 속성별 포함관계에 의해 상기 부분 계층 트리의 루트 및 단말 카테고리들과 기존 계층 분류 트리의 계층 관계를 파악하고, 그 계층 관계에 의거하여 상기 부분 계층 트리를 기존 계층 분류 트리에 병합하는 것을 특징으로 하는 지능형 문서 관리 방법.
  15. 기 설정된 카테고리들간 계층 구조에 의해, 각 카테고리들을 노드로 하여 운영자가 정의한 계층 분류 트리 정보를 저장하고 관리하는 제1 저장부와,
    운영자가 선정한 소정의 학습 문서에 의해 상기 계층 분류 트리를 구성하는 각 서브 트리별 학습을 수행하고, 상기 계층 분류 트리의 갱신에 따른 재학습을 수행하고 그 결과를 저장/관리하는 학습부와,
    외부로부터 유입되는 문서에서 추출된 문서의 속성에 의해, 상기 학습부에 저장된 학습 결과를 참조하여, 상기 제1 저장부에 저장된 계층 분류 트리의 계층 구조를 따라가면서, 각 서브트리들과 상기 문서간 관계성을 예측하고, 상기 문서와 관계성이 가장 높은 서브 트리의 카테고리로 상기 문서를 자동 분류하는 문서 자동 분류부와,
    상기 문서 자동 분류부에 의해 자동 분류된 문서들 및 그 인덱싱 정보들을 저장하는 제2 저장부와,
    상기 제1 저장부에 저장된 계층 분류 트리의 임의의 영역에 대한 재구성이 요구된 경우 그 영역에 대한 부분 클러스터링에 의해 새로운 카테고리들을 정의하고, 그에 따라 기존의 계층 분류 트리를 재구성하는 계층 분류 트리 관리부를 포함하여 구성된 것을 특징으로 하는 지능형 문서 관리 장치.
  16. 제15항에 있어서, 상기 학습부는
    상기 카테고리별로 선정된 소정의 학습 문서들에 포함된 주요어들을 추출한 후, 그 주요어들이 해당 카테고리를 부모 노드로 하는 트리에 출현할 확률값을 계산하는 학습 과정을 수행하고,
    그 학습 결과로 발생된 각 주요어들이 임의의 서브 트리에 포함될 확률값들을 주요어별로 저장 관리하는 것을 특징으로 하는 지능형 문서 관리 장치.
  17. 제15항에 있어서, 상기 문서 자동 분류부는
    상기 서브 트리들과 상기 문서간 관계성이 기 설정된 관계성 판별 기준 임계값 이하인 경우 그 문서를 상기 서브 트리들의 부모 노드에 해당되는 카테고리로 자동 분류하는 것을 특징으로 하는 지능형 문서 관리 장치.
  18. 제15항에 있어서, 상기 계층 분류 트리 관리부는
    상기 재구성하고자 하는 영역에 포함된 문서들간 관계성이 인위적으로 설정된 문서 집합을 정의하고, 그 문서 집합에 포함된 문서들간 인위적인 관계성을 반영시키기 위한 주요어별 가중치를 설정한 후, 상기 가중치를 적용하여 계산된 문서들간 거리 함수값에 의해 상기 영역에 포함된 문서들을 클러스터링하여 그 결과로 생성된 클러스터를 새로운 카테고리로 정의하는 것을 특징으로 하는 지능형 문서 관리 장치.
  19. 제15항 또는 제18항에 있어서, 상기 계층 분류 트리 관리부는
    상기 새로운 카테고리들의 속성별 포함관계에 의해 정의된 카테고리들간 계층 구조를 적용한 부분 계층 트리를 생성한 후, 그 부분 계층 트리의 각 노드들과 그 부분 계층 트리가 포함될 기존 계층 분류 트리의 주변 노드들간 계층 관계에 의해 상기 부분 계층 트리를 기존 계층 분류 트리에 병합하는 것을 특징으로 하는 지능형 문서 관리 장치.
KR10-2000-0072305A 2000-12-01 2000-12-01 지능형 문서 관리 장치 및 그 방법 KR100416477B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2000-0072305A KR100416477B1 (ko) 2000-12-01 2000-12-01 지능형 문서 관리 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0072305A KR100416477B1 (ko) 2000-12-01 2000-12-01 지능형 문서 관리 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20020042944A true KR20020042944A (ko) 2002-06-08
KR100416477B1 KR100416477B1 (ko) 2004-01-31

Family

ID=27678913

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0072305A KR100416477B1 (ko) 2000-12-01 2000-12-01 지능형 문서 관리 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100416477B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100902674B1 (ko) * 2007-10-10 2009-06-15 엔에이치엔(주) 문서 탐색 서비스 제공 방법 및 시스템
KR100902673B1 (ko) * 2007-10-10 2009-06-15 엔에이치엔(주) 제목 클러스터링에 기초한 문서 탐색 서비스 제공 방법 및시스템
KR100908301B1 (ko) * 2007-06-05 2009-07-17 성균관대학교산학협력단 리스트 기반 최대빈번 서브트리 추출 방법 및 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100908301B1 (ko) * 2007-06-05 2009-07-17 성균관대학교산학협력단 리스트 기반 최대빈번 서브트리 추출 방법 및 장치
KR100902674B1 (ko) * 2007-10-10 2009-06-15 엔에이치엔(주) 문서 탐색 서비스 제공 방법 및 시스템
KR100902673B1 (ko) * 2007-10-10 2009-06-15 엔에이치엔(주) 제목 클러스터링에 기초한 문서 탐색 서비스 제공 방법 및시스템

Also Published As

Publication number Publication date
KR100416477B1 (ko) 2004-01-31

Similar Documents

Publication Publication Date Title
US5854923A (en) Facility for the intelligent selection of information objects (persona)
US7574454B2 (en) Dynamic learning and knowledge representation for data mining
Ghosh et al. A tutorial review on Text Mining Algorithms
US6212526B1 (en) Method for apparatus for efficient mining of classification models from databases
CN109033387A (zh) 一种融合多源数据的物联网搜索系统、方法及存储介质
US7069264B2 (en) Stratified sampling of data in a database system
US20070162473A1 (en) Incremental Clustering Classifier and Predictor
US20120041979A1 (en) Method for generating context hierarchy and system for generating context hierarchy
CN110008259A (zh) 可视化数据分析的方法及终端设备
EP1170674A2 (en) Method and apparatus for ordering electronic data
CN101140588A (zh) 一种关联关系搜索结果的排序方法及装置
de Silva Garza et al. Design by interactive exploration using memory-based techniques
Qayyum Image retrieval through qualitative representations over semantic features
Kanagal et al. Indexing correlated probabilistic databases
Ramkumar et al. A survey on mining multiple data sources
KR100416477B1 (ko) 지능형 문서 관리 장치 및 그 방법
KR101693727B1 (ko) 소셜 네트워크를 활용한 연구개발 관점의 사회적 이슈 재구성 장치 및 방법
Chehreghani et al. Density link-based methods for clustering web pages
KR102389881B1 (ko) 방향 그래프 데이터의 위계적 군집화 방법 및 시스템
Lotfi et al. Scalable decision tree based on fuzzy partitioning and an incremental approach
CN110737731B (zh) 一种基于决策树的公积金用户数据细化分析系统及方法
Galcik et al. Advanced Priority Queues in the OPTICS Clustering Algorithm
Monaco Recursive data clustering through finding vague solutions
Mohammed Integration of FCA with fuzzy logic: A survey
Irfan et al. Evolving the taxonomy based on hierarchical clustering approach

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130114

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20140106

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20150107

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20170116

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20180112

Year of fee payment: 15

LAPS Lapse due to unpaid annual fee