KR20080041388A

KR20080041388A - 문서 분류 시스템 및 문서 분류 방법

Info

Publication number: KR20080041388A
Application number: KR1020060109423A
Authority: KR
Inventors: 구종만; 도관표
Original assignee: 엔에이치엔(주)
Priority date: 2006-11-07
Filing date: 2006-11-07
Publication date: 2008-05-13
Also published as: KR100835290B1

Abstract

대상 문서로부터 추출된 키워드 중에서 상호 연관성이 있는 키워드의 집합인 클러스터를 생성하고, 생성된 클러스터를 이용하여 상기 대상 문서를 분류하는 문서 분류 시스템 및 문서 분류 방법을 개시한다. 본 발명의 문서 분류 시스템은, 대상 문서로부터 복수의 키워드를 추출하고, 상기 추출된 키워드를 색인 키워드로서 순차적으로 식별하는 키워드 추출 수단과, 상기 식별된 색인 키워드와, 색인 키워드를 제외한 상기 추출된 키워드와의 연관도를 연산하는 연관도 연산 수단과, 상기 연관도가 허용치 이내로 연산되는 색인 키워드를 그룹핑하여 클러스터를 생성하는 클러스터 생성 수단, 및 상기 생성된 클러스터를 이용하여 상기 대상 문서를 분류하는 분류 학습 수단을 포함하는 것을 특징으로 한다.

문서 분류, 키워드 검색, 질의, 검색 엔진

Description

문서 분류 시스템 및 문서 분류 방법{SYSTEM AND METHOD FOR CLASSIFYING DOCUMENT}

도 1은 본 발명의 일실시예에 따른 문서 분류 시스템의 네트워크 연결을 도시한 도면이다.

도 2는 본 발명의 일실시예에 따른 문서 분류 시스템의 구성을 나타내는 구성도이다.

도 3은 본 발명의 연관도 연산 수단에 의해, 키워드 사이에서의 연관도를 연산하는 일례를 도시한 도면이다.

도 4는 본 발명에 따라, 클러스터를 이용하여 대상 문서를 분류하는 일례를 도시한 도면이다.

도 5는 본 발명의 일실시예에 따른 문서 분류 방법을 구체적으로 도시한 작업 흐름도이다.

도 6은 본 발명에 따라 대상 문서를 분류하는 작업 흐름도를 도시한 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

200 : 문서 분류 시스템 210 : 키워드 추출 수단

220 : 연관도 연산 수단 230 : 클러스터 생성 수단

240 : 분류 학습 수단 110 : 클러스터 검색 엔진

본 발명은 대상 문서로부터 추출된 키워드 중에서 상호 연관성이 있는 키워드의 집합인 클러스터를 생성하고, 생성된 클러스터를 이용하여 상기 대상 문서를 분류하는 문서 분류 시스템 및 문서 분류 방법에 관한 것이다.

검색 서비스를 제공하는 가장 일반적인 형태인 키워드 검색 서비스는, 사용자로부터 검색용 질의를 입력 받고, 입력된 질의를 포함하는 정보, 예컨대 상기 질의를 포함하는 웹 사이트에 관한 정보, 상기 질의를 포함하는 기사 정보, 상기 질의를 포함하는 파일명의 자료 정보 등을 사용자에게 검색 결과로서 제공하고 있다.

즉, 일반적인 키워드 검색 서비스는 사용자가 입력한 질의를 직접적으로 포함하는 정보 만을 검색 결과로서 검색할 뿐, 이외의 다른 정보를 검색 결과로 검색하는 것을 검색의 오류로 판단하여 금지하고 있다.

이러한 일반적인 키워드 검색 서비스 하에서는, 입력된 질의와 비록 밀접한 관련이 있는 정보일지라도, 해당 정보가 상기 질의를 직접적으로 포함하고 있지 않는 한, 상기 정보를 검색 결과로 검색하지 못하는 한계가 상존한다.

따라서, 검색용 질의를 직접 포함하지 않는 정보라도, 질의와의 연관성을 고려하여 상기 정보가 검색 결과로서 추출되도록 하는 새로운 개념의 키워드 검색 서비스 모델의 등장이 절실히 요구되고 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 대상 문서에서 함께 등장하는 빈도에 따른 연관도를 고려하여 복수의 키워드를 클러스터로 그룹핑 함으로써 키워드 사이의 연관 관계에 의한 대상 문서의 분류를 가능하게 하는 문서 분류 시스템 및 문서 분류 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은, 클러스터 내 키워드가 특정 분류에 소속될 확률에 따라 대상 문서에 연관하는 분류 키워드를 결정하고 있어, 추후 검색시 질의를 직접 포함하지 않더라도 상기 질의와 높은 연관성을 갖는 문서를 검색 결과로 제공하는 환경을 마련하는 문서 분류 시스템 및 문서 분류 방법을 제공하는 것을 목적으로 한다.

또한, 본 발명은, 질의의 직접적인 포함 여부와 무관하게 질의와 연관성이 있는 대상 문서를 검색할 수 있고, 또한 질의와의 연관 정도에 따라 노출 위치가 결정되는 대상 문서를 사용자에게 제공하는 문서 분류 시스템 및 문서 분류 방법을 제공하는 것을 목적으로 한다.

상기의 목적을 이루기 위한 문서 분류 시스템은, 대상 문서로부터 복수의 키워드를 추출하고, 상기 추출된 키워드를 색인 키워드로서 순차적으로 식별하는 키워드 추출 수단과, 상기 식별된 색인 키워드와, 색인 키워드를 제외한 상기 추출된 키워드와의 연관도를 연산하는 연관도 연산 수단과, 상기 연관도가 허용치 이내로 연산되는 색인 키워드를 그룹핑하여 클러스터를 생성하는 클러스터 생성 수단, 및 상기 생성된 클러스터를 이용하여 상기 대상 문서를 분류하는 분류 학습 수단을 포함하는 것을 특징으로 한다.

또한, 상기 목적을 달성하기 위한 문서 분류 방법은, 대상 문서로부터 복수의 키워드를 추출하고, 상기 추출된 키워드를 색인 키워드로서 순차적으로 식별하는 단계와, 상기 식별된 색인 키워드와, 색인 키워드를 제외한 상기 추출된 키워드와의 연관도를 연산하는 단계와, 상기 연관도가 허용치 이내로 연산되는 색인 키워드를 그룹핑하여 클러스터를 생성하는 단계, 및 상기 생성된 클러스터를 이용하여 상기 대상 문서를 분류하는 단계를 포함하는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여, 본 발명의 문서 분류 시스템 및 문서 분류 방법에 대하여 설명한다.

본 명세서에서 사용되는 '클러스터'라는 용어는, 소정 문서 상에서 추출된 하나의 키워드(색인 키워드)와 함께 등장하는, 일정 수준의 빈도수를 갖는 키워드들의 집합을 지칭할 수 있다. 즉, 클러스터는 추출되는 키워드 중에서 상호 연관성이 있게 상기 문서에 등장하는 키워드들을 그룹핑한 것이다. 단, 본 실시예에서는 대부분의 키워드와 비교적 높은 연관성을 가지며 문서에 등장하는 키워드에 대해 특이성이 없다고 판단하여 클러스터로 그룹핑하지 않는다.

예컨대, 특정 문서로부터, 추출된 키워드가 '박지성', '맨체스터 유나이티드, '홈경기'일 경우, 상기 문서에 대해서 클러스터는 기본적으로 추출된 3개의 키워드를 그룹핑하게 된다. 단, 추출된 키워드 뿐만 아니라 여타 키워드와 함께 등장하는 빈도가 비교적 높은 키워드 '홈경기'는, 본 실시예의 클러스터에 포함시키 지 않을 수 있다.

본 실시예에서 클러스터는 문서에 대한 분류 작업에 활용될 수 있으며, 클러스터를 이용하여 분류된 문서는, 추후 검색 과정에서, 입력되는 질의를 직접 포함하는 것과 무관하게 상기 질의와의 관련성을 고려하여 검색 결과로서 검색되도록 할 수 있다.

문서 분류 시스템(100)은 대상 문서로부터 추출된 키워드 중에서 임의 하나를 색인 키워드로 식별하고, 상기 식별된 색인 키워드와 함께 등장하는 빈도에 따른 연관도를 키워드 별로 연산하며, 연산된 연관도가 허용치 이내인 색인 키워드를 그룹핑하여 클러스터를 생성하는 역할을 한다. 상기 생성된 클러스터는 상기 대상 문서를 분류하는 데에 활용될 수 있다.

클러스터 검색 엔진(110)은 우선, 일반적인 검색 엔진의 기능을 충실히 수행하고 있다. 즉, 클러스터 검색 엔진(110)은 사용자(120)로부터 입력되는 질의를, 직접적으로 포함하는 문서를 검색하여 사용자(120)에게 제공한다. 상기 문서에 대한 검색에 있어서, 클러스터 검색 엔진(110)은 사용자(120)가 검색창에 입력한 질의를 직접적으로 포함하는 문서를 콘텐츠제공자(CP)로부터 획득하고, 획득한 문서를 적절하게 정렬하여 사용자(120)에게 노출되도록 한다.

또한, 클러스터 검색 엔진(110)은 상기 질의를 직접적으로 포함하지 않더라도, 상기 질의와 연관성이 높다고 판단되는, 본 발명의 문서 분류 시스템(100)에 의해 분류된 문서를 검색하여 사용자(120)에서 제공할 수 있다. 이를 위해, 문서 분류 시스템(100)은 상기 대상 문서와 연관된 클러스터를 분석하여, 상기 클러스터 내 키워드가 소속될 분류(그룹)와 관련한 확률 정보를 산출하고, 산출된 확률 정보에 근거하여 상기 대상 문서에 분류 키워드를 연관시켜 대상 문서를 분류하게 된다.

즉, 클러스터 검색 엔진(110)은 사용자(120)가 입력한 질의를 직접적으로 포함하고 있지 않지만, 상기 질의와 연관성이 높으며, 또한 상기 질의에 상응하는 분류 키워드가 연관되는 문서를 검색하여 사용자(120)에게 제공할 수도 있다.

사용자(120)는 클러스터 검색 엔진(110)과의 접속을 위한 사용자 단말기(130)를 보유하며, 클러스터 검색 엔진(110)에서 제공하는 검색창에 질의를 입력함으로써 획득하고자 하는 문서에 대한 검색 요청을 발생시키는 인터넷 이용자를 의미할 수 있다. 본 실시예에서, 사용자(120)는 자신이 입력한 질의를 직접적으로 포함하는 문서, 및 질의의 포함 여부와 무관하게 상기 질의와 높은 연관성을 갖는 문서를 클러스터 검색 엔진(110)으로부터 제공받을 수 있다.

사용자 단말기(130)는 인터넷 등의 통신망을 통해 클러스터 검색 엔진(110)과의 접속 상태를 유지하며, 클러스터 검색 엔진(110)에 의해 검색되는 문서를 시각화하여 사용자(120)에게 노출시키는 장치이다.

문서 분류 시스템(100)은 대상 문서에 대해 생성된 클러스터를 분석하여 상기 클러스터가 대표하는 분류 키워드를 결정하고, 상기 결정된 분류 키워드를 대상 문서에 연관시킴으로써 상기 대상 문서를 분류하는 역할을 한다.

또한, 문서 분류 시스템(100)은 내부 또는 외부에 위치하는 클러스터 검색 엔진(110)을 이용하여, 사용자(120)가 입력한 질의와의 연관성을 고려한 문서의 검색이 이루어지도록 할 수 있다.

이하, 도 2를 참조하여 본 발명의 문서 분류 시스템(200)의 구체적인 구성을 설명한다.

본 발명의 문서 분류 시스템(200)은 키워드 추출 수단(210), 연관도 연산 수단(220), 클러스터 생성 수단(230), 및 분류 학습 수단(240)을 포함할 수 있다.

우선, 키워드 추출 수단(210)은 대상 문서로부터 복수의 키워드를 추출하고, 추출된 키워드를 색인 키워드로서 순차적으로 식별한다. 즉, 키워드 추출 수단(210)은 형태소 분석을 통해 대상 문서 내에서, 의미있는 단어들을 확인하고 확인된 단어 중에서 임의 하나의 단어를 색인 키워드로서 식별하는 역할을 한다.

예컨대, 키워드 추출 수단(210)은 대상 문서로부터 의미있는 단어로, '박지성', '맨체스터 유나이티드', '홈경기'를 확인하여 추출할 수 있다. 또한, 키워드 추출 수단(210)은, 1 time에서 색인 키워드로 '박지성'을 식별하고, 이후 2, 3 time에서 '맨체스터 유나이티드', '홈경기'를 순차적으로 색인 키워드로 식별할 수 있다.

연관도 연산 수단(220)은 상기 식별된 색인 키워드와, 색인 키워드를 제외한 추출된 키워드와의 연관도를 연산한다. 즉, 연관도 연산 수단(220)은 대상 문 서에서 색인 키워드와 함께 등장하는 빈도에 따른 연관도를 키워드 별로 연산할 수 있다.

상술한 예에서, 1 time에서의 색인 키워드가 '박지성'일 경우, 연관도 연산 수단(220)은, 상기 '박지성'과 '맨체스터 유나이티드'가 함께 상기 대상 문서에 등장하는 빈도에 따른 연관도를 '37%'로, 상기 '박지성'과 '홈경기'가 함께 상기 대상 문서에 등장하는 빈도에 따른 연관도를 '68%'로 연산할 수 있다.

유사하게, 2 time에서의 색인 키워드가 '맨체스터 유나이티드'일 경우, 연관도 연산 수단(220)은, 상기 '맨체스터 유나이티드'와 '박지성'이 함께 상기 대상 문서에 등장하는 빈도에 따른 연관도를 '37%'로, 상기 '맨체스터 유나이티드'와 '홈경기'가 함께 상기 대상 문서에 등장하는 빈도에 따른 연관도를 '71%'로 연산할 수 있다.

또한, 3 time에서의 색인 키워드가 '홈경기'일 경우, 연관도 연산 수단(220)은, 상기 '홈경기'와 '박지성'이 함께 상기 대상 문서에 등장하는 빈도에 따른 연관도를 '68%'로, 상기 '홈경기'와 '맨체스터 유나이티드'가 함께 상기 대상 문서에 등장하는 빈도에 따른 연관도를 '71%'로 연산할 수 있다.

클러스터 생성 수단(230)은 연관도가 허용치 이내로 연산되는 색인 키워드를 그룹핑하여 클러스터를 생성한다. 여기서, 연관도의 허용치는 시스템 환경을 고려한 본 시스템의 운영자가 유연하게 설정하는 값일 수 있으며, 운영자는 예컨대, 높은 연관도를 연산하는 색인 키워드를 선별하기 위한 상한값, 낮은 연관도를 연산하는 색인 키워드를 선별하기 위한 하한값 등으로 유연하게 설정할 수 있다. 본 실시예에서는 대상 문서에서 다른 키워드와 함께 등장하는 빈도가 비교적 모두 높고, 연산되는 연관도 역시 항상 높게 유지되는 색인 키워드를 선별하는 허용치를 예시한다.

즉, 클러스터 생성 수단(230)은 다른 키워드와의 연관도가 대체로 높게 연산되는 색인 키워드를 제외한, 색인 키워드를 그룹핑하여, 상기 대상 문서에 대한 클러스터를 생성하는 역할을 한다.

상술한 예에서, 색인 키워드 '홈경기'는 다른 키워드 '박지성' 및 '맨체스터 유나이티드'에 대해 연관도를 모두 높게 연산하고 있으며, 이에 따라 클러스터 생성 수단(230)은 상기 색인 키워드 '홈경기'를 제외한, '박지성, 맨체스터 유나이티드'를 포함하는 클러스터를 생성할 수 있다.

분류 학습 수단(240)은 상기 생성된 클러스터를 이용하여 대상 문서를 분류한다. 즉, 분류 학습 수단(240)은 클러스터 내 키워드를 분석하여, 각 키워드가 소속될 분류(그룹)에 대한 확률을 계산하고, 최적한 하나(또는 복수)의 분류 키워드를 대상 문서에 연관시킴으로써 상기 대상 문서를 분류하는 역할을 한다.

대상 문서에 분류 키워드를 연관시키기 위해, 본 발명의 문서 분류 시스템(200)은 색인 키워드에 대응하여 분류 키워드 및 분류 확률을 저장하는 확률 데이터베이스(250)를 더 포함할 수 있다.

즉, 확률 데이터베이스(250)는 키워드 각각에 대해, 상기 키워드가 분류될 그룹과 관련한 분류 키워드와, 상기 키워드가 그룹으로 분류될 분류 확률을 기록한다.

상기 확률 데이터베이스(250)가 구비되는 조건하에서, 분류 학습 수단(240)은 클러스터에 포함되는 색인 키워드 각각에 대해, 확률 데이터베이스(250)로부터 분류 키워드 및 분류 확률을 추출하고, 특정 분류 키워드에 대해 추출된 모든 분류 확률을 곱셈함으로써 분류 키워드 별 확률 정보를 산출한다. 이후, 분류 학습 수단(240)은 산출된 확률 정보가 선정된 수준을 만족하는 분류 키워드를 상기 대상 문서에 연관시켜 대상 문서를 분류할 수 있다.

또한, 분류 학습 수단(240)은 클러스터에 포함되는 색인 키워드의 개수와 확률 정보 산출시 곱해지는 분류 확률의 개수와의 차 n이 '0'인지를 확인하고, 확인 결과 차가 발생하는 경우, 상기 산출된 확률 정보에 설정된 임계값을 더 곱하여 상기 분류 키워드 별 확률 정보를 갱신할 수 있다. 상기 확률 정보의 갱신에 있어서, 분류 학습 수단(240)은 상기 산출된 확률 정보에, 상기 차이 n번 만큼 설정된 임계값을 곱셈함으로써 확률 정보를 갱신할 수 있다. 여기서, 임계값을 본 시스템의 운영자에 의해 유연하게 설정하며, 본 실시예에서는 산출된 확률 정보의 크기를 줄일 수 있는, 예컨대 1 이하의 양의 정수로 설정되는 것을 예시한다.

이하, 도 3 및 도 4를 참조하여, 대상 문서의 분류에 대해 상세히 설명한다.

상술한 바와 같이, 키워드 추출 수단(210)은 대상 문서로부터 복수의 키워드를 추출하고, 추출된 키워드 중에서 임의 하나의 키워드를 색인 키워드로 식별한 다. 단, 식별된 색인 키워드에 관련하여 연관도 연산 수단(220)에 의해 연관도가 연산된 이후, 키워드 추출 수단(210)은 상기 추출된 키워드 중에서 이전에 색인 키워드로 식별되었던 키워드를 제외한 다른 키워드를 순차적으로 색인 키워드로 식별할 수 있다.

도 3에서는, 상기 키워드 추출 수단(210)에 의해, 대상 문서로부터 추출된 키워드가, '박지성, 맨체스터 유나이티드, 알렉스 퍼거슨, 축구, 홈경기, 관중'의 6개의 키워드임을 예시하고 있다.

연관도 연산 수단(220)은 순차적으로 식별되는 색인 키워드와 나머지 키워드 사이에서의 빈도에 따른 연관도를, 도 3에서와 같이 연산할 수 있다.

예컨대, 1 time에서 색인 키워드로 식별되는 '박지성'과 나머지 키워드에 대해, 연관도 연산 수단(220)은 그 각각의 연관도를, 맨체스터 유나이티드 37%, 알렉스 퍼거슨 14%, 축구 25%, 홈경기 68%, 관중 72%로 연산할 수 있다.

또한, 6 time에서 색인 키워드로 식별되는 '관중'과 나머지 키워드에 대해, 연관도 연산 수단(220)은 그 각각 연관도를, 박지성 72%, 맨체스터 유나이티드 89%, 알렉스 퍼거슨 58%, 축구 72%, 홈경기 65%로 연산할 수 있다.

이후, 클러스터 생성 수단(230)은 추출된 키워드 사이의 연산된 연관도를 통해, 다른 키워드와의 연관도가 모두 높게 연산되는 키워드 '홈경기' 및 '관중'을 제외한, '박지성, 맨체스터 유나이티드, 알렉스 퍼거슨, 축구'를 상기 대상 문서에 대한 클러스터로 생성할 수 있다.

도 4의 ⅰ)에서는 키워드 각각에 대응하여, 분류 키워드와 분류 확률을 저장하는 확률 데이터베이스(250)를 예시하고 있다.

도 4의 ⅰ)의 확률 데이터베이스(250)에서는, 키워드 '박지성'이, 분류 키워드 [박지성]으로 분류되는 확률인 분류 확률 45%와, 분류 키워드 [프리미어리그]로 분류되는 확률인 분류 확률 30%가 저장되고 있는 것을 예시한다.

유사하게, 확률 데이터베이스(250)는, 키워드 '축구'가, 분류 키워드 [축구]로 분류되는 확률인 분류 확률 '6%'와, 분류 키워드 [박지성]으로 분류되는 확률인 분류 확률 2%를 저장하고 있다.

이러한 분류 키워드에 대한 분류 확률은, 본 출원인이 다년간의 경험과 실험을 통해 획득한 데이터이며, 참고로하는 자료의 다양화를 통해 계속적인 갱신이 이루어질 수 있음은 물론이다.

도 3에서 클러스터 생성 수단(230)에 의해 '박지성, 맨체스터 유나이티드, 알렉스 퍼거슨, 축구'가 포함되는 클러스터가 생성되고, 또한 도 4의 ⅰ)과 같은 확률 데이터베이스(250)가 마련되는 환경하에서, 분류 학습 수단(240)은 클러스터를 분석하여 대상 문서에 연관한 하나(또는 복수)의 분류 키워드를 선별하여 대상 문서에 대한 분류 작업을 수행할 수 있다.

즉, 분류 학습 수단(240)은 클러스터에 포함되는 '박지성, 맨체스터 유나이티드, 알렉스 퍼거슨, 축구' 각각에 대해, 확률 데이터베이스(250)로부터 분류 키워드 및 분류 확률을 추출하고, 특정 분류 키워드에 기준하여 추출된 분류 확률을 모두 곱셈 함으로써 상기 분류 키워드에 대한 확률 정보를 생성할 수 있다. 이때, 곱해지는 분류 확률의 개수가, 클러스터에 포함되는 색인 키워드의 개수와 차이가 발생할 경우, 분류 학습 수단(240)은 설정된 임계값을 확률 정보에 곱하여 상기 확률 정보를 갱신할 수 있다.

도 4의 ⅱ)에서와 같이, 분류 학습 수단(240)은 분류 키워드 [박지성]과 관련하여, 도 4의 ⅰ)의 확률 데이터베이스(250)로부터 키워드 '박지성'에 대해 분류 확률 45%, 키워드 '맨체스터 유나이티드'에 대해 분류 확률 12%, 키워드 '알렉스 퍼거슨'에 대해 분류 확률 '7%'를 추출한다. 이에 따라, 분류 학습 수단(240)은 추출된 분류 확률들을 모두 곱셈한 3,780%를, 상기 분류 키워드 [박지성]의 확률 정보로 산출할 수 있다. 또한, 분류 학습 수단(240)은 확률 정보 산출에 관여한 분류 확률의 개수 3개가 클러스터에 포함되는 색인 키워드의 개수 4개와 차이가 있음을 확인하고, 설정된 임계값 '0.1'을 그 차에 해당하는 1(n=1)번 확률 정보에 곱셈하여, 상기 분류 키워드의 확률 정보를 378%로 갱신, 조정한다.

다른 예로서, 분류 키워드 [프리미어리그]와 관련하여 분류 학습 수단(240)은, 도 4의 ⅰ)의 확률 데이터베이스(250)로부터 키워드 '박지성'에 대해 분류 확률 30%, 키워드 '맨체스터 유나이티드'에 대해 분류 확률 10%, 키워드 '알렉스 퍼거슨'에 대해 분류 확률 '10%'를 추출하며, 키워드 '축구'에 대해 분류 확률을 추출하지 않는다. 이에 따라, 분류 학습 수단(240)은 추출된 분류 확률들과, 분류 확률 개수와 클러스터 내 색인 키워드 개수와의 차(n=1)에 상응하는 1개의 임계값 '0.1'을 모두 곱한 300%를, 상기 분류 키워드 [프리미어리그]의 확률 정보로 산출 할 수 있다.

따라서, 분류 학습 수단(240)은 확률 정보가 가장 높게 산출된 분류 키워드 [박지성]을 상기 대상 문서에 연관시켜 대상 문서에 대한 분류 작성을 마무리할 수 있다.

본 실시예에서의 분류 학습 수단(240)은 확률 정보가 가장 높은 하나의 분류 키워드 만이 상기 대상 문서에 연관되는 것을 한정하여 예시하고 있으나, 산출된 확률 정보를 고려하여 복수의 분류 키워드가 상기 대상 문서에 연관되도록 할 수 있음은 물론이다. 예컨대, 도 4의 ⅱ)의 예에서, 분류 학습 수단(240)은 산출된 확률 정보가 상대적으로 높은 300% 이상의 분류 키워드 [박지성] 및 [프리미어리그]를, 동시에 대상 문서에 연관시킬 수도 있다.

본 발명에 의하면, 대상 문서에서 함께 등장하는 빈도에 따른 연관도를 고려하여 복수의 키워드를 클러스터로 그룹핑 함으로써 키워드 사이의 연관 관계에 의한 대상 문서의 분류를 가능하게 할 수 있다.

또한, 본 발명에 의하면, 클러스터 내 키워드가 특정 분류에 소속될 확률에 따라 대상 문서에 연관하는 분류 키워드를 결정하고 있어, 추후 검색시 질의를 직접 포함하지 않더라도 상기 질의와 높은 연관성을 갖는 문서를 검색 결과로 제공하는 환경을 마련할 수 있다.

본 발명의 다른 실시예로서, 문서 분류 시스템(200)은 분류 키워드가 대상 문서에 연관되는 환경하에서, 클러스터 검색 엔진(110)을 이용하여 대상 문서를 검색 결과로 검색할 수 있다.

즉, 클러스터 검색 엔진(110)은 문서 분류 시스템(200)의 내부 또는 외부에 위치하면서, 사용자(120)로부터 입력되는 질의에 상응하는 분류 키워드를 식별하고, 식별된 분류 키워드와 연관되는 대상 문서를 검색하는 역할을 한다.

상술한 바와 같이, 클러스터 검색 엔진(110)은 검색 요청을 위해 사용자(120)가 입력하는 질의를 직접적으로 포함하는 문서, 및 문서 내 질의의 포함 여부와 무관하게 상기 질의에 상응하는 분류 키워드의 대상 문서를 검색 결과로서 검색할 수 있다.

특히, 본 실시예서의 클러스터 검색 엔진(110)은 분류 키워드에 기인하여 검색된 대상 문서를, 분류 키워드의 분류 확률에 따라 정렬하여 사용자(120)에게 노출시킬 수 있다. 예컨대, 사용자(120)가 질의 '박지성'을 입력하고, 분류 키워드 [박지성]이 연관되는 대상 문서 A의 확률 정보가 378%이며, 분류 키워드 [박지성]이 연관되는 대상 문서 B의 확률 정보가 300%인 조건에서, 클러스터 검색 엔진(110)은 분류 키워드 [박지성]이 연관되는 상기 대상 문서 A, B를 검색하고, 상기 확률 정보의 크기에 따라 대상 문서 A의 위치한 후 대상 문서 B가 위치되도록 대상 문서들의 노출 위치를 정렬할 수 있다.

따라서, 본 발명에 의하면, 질의의 직접적인 포함 여부와 무관하게 질의와 연관성이 있는 대상 문서를 검색할 수 있고, 또한 질의와의 연관 정도에 따라 노출 위치가 결정되는 대상 문서를 사용자(120)에게 제공할 수 있다.

이하, 본 발명의 실시예에 따른 문서 분류 시스템의 작업 흐름을 상세히 설명한다.

본 발명의 문서 분류 방법은 상술한 문서 분류 시스템(200)에 의해 수행될 수 있다.

우선, 문서 분류 시스템(200)은 대상 문서로부터 복수의 키워드를 추출하고, 상기 추출된 키워드를 색인 키워드로서 순차적으로 식별한다(S510). 본 단계(S510)는 형태소 분석을 통해 대상 문서 내에서, 의미있는 단어들을 확인하고 확인된 단어 중에서 임의 하나의 단어를 색인 키워드로서 식별하는 과정이다.

예컨대, 문서 분류 시스템(200)은 대상 문서로부터 의미있는 단어로, '이승엽', '요미우리 자이언츠', '도쿄돔'을 확인하여 추출할 수 있다. 또한, 문서 분류 시스템(200)은, 1 time에서 색인 키워드로 '이승엽'을 식별하고, 이후 2, 3 time에서 '요미우리 자이언츠', '도쿄돔'을 순차적으로 색인 키워드로 식별할 수 있다.

또한, 문서 분류 시스템(200)은 식별된 색인 키워드와, 색인 키워드를 제외한 상기 추출된 키워드와의 연관도를 연산한다(S520). 본 단계(S520)는 대상 문서에서 색인 키워드와 함께 등장하는 빈도에 따른 연관도를 키워드 별로 연산하는 과정이다.

상술한 예에서, 1 time에서의 색인 키워드가 '이승엽'일 경우, 문서 분류 시스템(200)은, 상기 '이승엽'과 '요미우리 자이언츠'가 함께 상기 대상 문서에 등장하는 빈도에 따른 연관도를 '29%'로, 상기 '이승엽'과 '도쿄돔'이 함께 상기 대 상 문서에 등장하는 빈도에 따른 연관도를 '60%'로 연산할 수 있다.

유사하게, 2 time에서의 색인 키워드가 '요미우리 자이언츠'일 경우, 문서 분류 시스템(200)은, 상기 '요미우리 자이언츠'와 '이승엽'이 함께 상기 대상 문서에 등장하는 빈도에 따른 연관도를 '29%'로, 상기 '요미우리 자이언츠'와 '도쿄돔'이 함께 상기 대상 문서에 등장하는 빈도에 따른 연관도를 '63%'로 연산할 수 있다.

또한, 3 time에서의 색인 키워드가 '도쿄돔'일 경우, 문서 분류 시스템(200)은, 상기 '도쿄돔'과 '이승엽'이 함께 상기 대상 문서에 등장하는 빈도에 따른 연관도를 '60%'로, 상기 '도쿄돔'과 '요미우리 자이언츠'가 함께 상기 대상 문서에 등장하는 빈도에 따른 연관도를 '63%'로 연산할 수 있다.

계속해서, 문서 분류 시스템(200)은 연관도가 허용치 이내로 연산되는 색인 키워드를 그룹핑하여 클러스터를 생성한다(S530). 본 단계(S530)는 다른 키워드와의 연관도가 대체로 높게 연산되는 색인 키워드를 제외한, 색인 키워드를 그룹핑하여, 상기 대상 문서에 대한 클러스터를 생성하는 과정이다.

상술한 예에서, 색인 키워드 '도쿄돔'은 다른 키워드 '이승엽' 및 '요미우리 자이언츠'에 대해 연관도를 모두 높게 연산하고 있으며, 이에 따라 문서 분류 시스템(200)은 상기 색인 키워드 '도쿄돔'을 제외한, '이승엽, 요미우리 자이언츠'를 포함하는 클러스터를 생성할 수 있다.

또한, 문서 분류 시스템(200)은 상기 생성된 클러스터를 이용하여 대상 문서를 분류한다(S540). 본 단계(S540)는 클러스터 내 키워드를 분석하여, 각 키워 드가 소속될 분류에 대한 확률을 계산하고, 최적한 하나(또는 복수)의 분류 키워드를 문서에 연관시킴으로써 상기 대상 문서를 분류하는 과정이다.

우선, 문서 분류 시스템(200)은 색인 키워드에 대응하여 분류 키워드 및 분류 확률을 저장하는 확률 데이터베이스(250)를 유지한다(S610). 본 단계(S610)는 키워드 각각에 대해, 상기 키워드가 분류될 그룹과 관련한 분류 키워드와, 상기 키워드가 그룹으로 분류될 분류 확률을, 확률 데이터베이스(250)에 기록하는 과정이다.

또한, 문서 분류 시스템(200)은 클러스터에 포함되는 색인 키워드 각각에 대해, 확률 데이터베이스(250)로부터 분류 키워드 및 분류 확률을 추출한다(S620). 본 단계(S620)는 클러스터 내 색인 키워드 각각으로, 분류 키워드 및 분류 확률을 확인하는 과정이다.

예컨대, 문서 분류 시스템(200)은 확률 데이터베이스(250)로부터, 키워드 '이승엽'에 대해, 분류 키워드 [이승엽]의 분류 확률 23%와, 분류 키워드 [센트럴리그]의 분류 확률 19%를 추출할 수 있고, 키워드 '요미우리 자이언츠'에 대해, 분류 키워드 [도쿄]의 분류 확률 14%와, 분류 키워드 [이승엽]의 분류 확률 13%를 추출할 수 있다.

계속해서, 문서 분류 시스템(200)은 특정 분류 키워드에 대해 추출된 모든 분류 확률을 곱셈하여 분류 키워드 별 확률 정보를 산출한다(S630). 특히, 본 단 계(S630)에서의 문서 분류 시스템(200)은 클러스터에 포함되는 색인 키워드의 개수와 확률 정보 산출시 곱해지는 분류 확률의 개수와의 차 n이 '0'인지를 확인하고, 확인 결과 차가 발생하는 경우, 상기 산출된 확률 정보에 설정된 임계값을 더 곱하여 상기 분류 키워드 별 확률 정보를 갱신할 수 있다.

상술한 예에서, 분류 키워드 [이승엽]에 대해, 문서 분류 시스템(200)은 키워드 '이승엽'과 관련한 분류 확률 '23%'와 키워드 '요미우리 자이언츠'와 관련한 '13%'를 곱셈하여, 확률 정보를 '299%'로 산출할 수 있다.

또한, 분류 키워드 [센트럴리그]에 대해, 문서 분류 시스템(200)은 키워드 '이승엽'과 관련한 분류 확률 '19%'를 확률 정보로 산출하되, 클러스터에 포함되는 색인 키워드의 개수 2와 분류 확률의 개수 1과 차(n=1)를 고려하여 상기 산출된 확률 정보에 설정된 임계값 '0.1'을 곱셈하여, 상기 분류 키워드 [센트럴리그]에 대한 확률 정보를 '1.9'로 갱신, 산출할 수 있다.

또한, 문서 분류 시스템(200)은 산출된 확률 정보가 선정된 수준을 만족하는 분류 키워드를 상기 대상 문서에 연관시킨다(S640). 본 단계(S640)는 산출된 확률 정보를 고려하여 하나(또는 복수)의 분류 키워드를 대상 문서에 연관시킴으로써 대상 문서를 분류하는 과정이다.

상술한 예에서, 문서 분류 시스템(200)은 산출된 확률 정보가 가장 큰 분류 키워드 [이승엽]을 상기 대상 문서에 연관시킬 수 있다.

다시 도 5를 살펴보면, 문서 분류 시스템(200)은 분류 키워드가 대상 문서에 연관된 환경하에서, 클러스터 검색 엔진(110)을 이용하여 대상 문서를 검색 결과로 검색한다(S550). 본 단계(S550)는 사용자(120)로부터 입력되는 질의에 상응하는 분류 키워드를 식별하고, 식별된 분류 키워드와 연관되는 대상 문서를 검색하는 과정이다. 즉, 문서 분류 시스템(200)은 검색 요청을 위해 사용자(120)가 입력하는 질의를 직접적으로 포함하는 문서, 및 문서 내 질의의 포함 여부와 무관하게 상기 질의에 상응하는 분류 키워드의 대상 문서를 검색 결과로서 검색한다.

특히, 본 단계(S550)에서의 문서 분류 시스템(200)은 분류 키워드에 기인하여 검색된 대상 문서를, 분류 키워드의 분류 확률에 따라 정렬하여 사용자(120)에게 노출시킬 수도 있다

따라서, 본 발명에 의하면, 질의의 포함 여부와 무관하게 질의와 관련되는 대상 문서를 검색할 수 있고, 또한 질의와의 연관 정도에 따라 정렬되는 대상 문서를 사용자(120)에게 제공할 수 있다.

본 발명의 실시예들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가 능 매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 로컬 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

지금까지 본 발명에 따른 구체적인 실시예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능함은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

이상의 설명에서 알 수 있는 바와 같이, 본 발명에 의하면, 대상 문서에서 함께 등장하는 빈도에 따른 연관도를 고려하여 복수의 키워드를 클러스터로 그룹핑 함으로써 키워드 사이의 연관 관계에 의한 대상 문서의 분류를 가능하게 하는 문서 분류 시스템 및 문서 분류 방법을 제공할 수 있다.

또한, 본 발명에 의하면, 클러스터 내 키워드가 특정 분류에 소속될 확률에 따라 대상 문서에 연관하는 분류 키워드를 결정하고 있어, 추후 검색시 질의를 직접 포함하지 않더라도 상기 질의와 높은 연관성을 갖는 문서를 검색 결과로 제공하는 환경을 마련하는 문서 분류 시스템 및 문서 분류 방법을 제공할 수 있다.

또한, 본 발명에 의하면, 질의의 직접적인 포함 여부와 무관하게 질의와 연관성이 있는 대상 문서를 검색할 수 있고, 또한 질의와의 연관 정도에 따라 노출 위치가 결정되는 대상 문서를 사용자에게 제공하는 문서 분류 시스템 및 문서 분류 방법을 제공할 수 있다.

Claims

문서 분류 시스템에 있어서,

대상 문서로부터 복수의 키워드를 추출하고, 상기 추출된 키워드를 색인 키워드로서 순차적으로 식별하는 키워드 추출 수단;

상기 식별된 색인 키워드와, 색인 키워드를 제외한 상기 추출된 키워드와의 연관도를 연산하는 연관도 연산 수단;

상기 연관도가 허용치 이내로 연산되는 색인 키워드를 그룹핑하여 클러스터를 생성하는 클러스터 생성 수단; 및

상기 생성된 클러스터를 이용하여 상기 대상 문서를 분류하는 분류 학습 수단

을 포함하는 것을 특징으로 하는 문서 분류 시스템.
제1항에 있어서,

상기 색인 키워드에 대응하여, 분류 키워드 및 분류 확률을 저장하는 확률 데이터베이스를 더 포함하고,

상기 분류 학습 수단은,

(1) 상기 클러스터에 포함되는 색인 키워드 각각에 대해, 상기 확률 데이터베이스로부터 분류 키워드 및 분류 확률을 추출하고,

(2) 특정 분류 키워드에 대해 상기 추출된 모든 분류 확률을 곱셈하여, 상 기 분류 키워드 별 확률 정보를 산출하며,

(3) 상기 산출된 확률 정보가 선정된 수준을 만족하는 분류 키워드를 상기 대상 문서에 연관시키는 것을 특징으로 하는 문서 분류 시스템.
제2항에 있어서,

상기 클러스터에 포함되는 색인 키워드의 개수와, 상기 확률 정보 산출시 곱해지는 분류 확률의 개수와의 차 n이 '0'이 아닐 경우,

상기 분류 학습 수단은,

상기 분류 키워드 별 확률 정보에, 설정된 임계값을 상기 n번 곱셈하는 것을 특징으로 하는 문서 분류 시스템.
제2항에 있어서,

사용자로부터 입력되는 질의에 상응하는 분류 키워드를 식별하고, 상기 식별된 분류 키워드와 연관하는 대상 문서를 검색하는 클러스터 검색 엔진

을 더 포함하는 것을 특징으로 하는 문서 분류 시스템.
제4항에 있어서,

상기 클러스터 검색 엔진은,

검색된 상기 대상 문서를, 상기 분류 키워드와 관련한 확률 정보에 따라 정렬하여 상기 사용자에게 노출시키는 것을 특징으로 하는 문서 분류 시스템.
문서 분류 방법에 있어서,

대상 문서로부터 복수의 키워드를 추출하고, 상기 추출된 키워드를 색인 키워드로서 순차적으로 식별하는 단계;

상기 식별된 색인 키워드와, 색인 키워드를 제외한 상기 추출된 키워드와의 연관도를 연산하는 단계;

상기 연관도가 허용치 이내로 연산되는 색인 키워드를 그룹핑하여 클러스터를 생성하는 단계; 및

상기 생성된 클러스터를 이용하여 상기 대상 문서를 분류하는 단계

를 포함하는 것을 특징으로 하는 문서 분류 방법.
제6항에 있어서,

대상 문서를 분류하는 상기 단계는,

상기 색인 키워드에 대응하여, 분류 키워드 및 분류 확률을 저장하는 확률 데이터베이스를 유지하는 단계;

상기 클러스터에 포함되는 색인 키워드 각각에 대해, 상기 확률 데이터베이스로부터 분류 키워드 및 분류 확률을 추출하는 단계;

특정 분류 키워드에 대해 상기 추출된 모든 분류 확률을 곱셈하여, 상기 분류 키워드 별 확률 정보를 산출하는 단계; 및

상기 산출된 확률 정보가 선정된 수준을 만족하는 분류 키워드를 상기 대상 문서에 연관시키는 단계

를 포함하는 것을 특징으로 하는 문서 분류 방법.
제7항에 있어서,

상기 클러스터에 포함되는 색인 키워드의 개수와, 상기 확률 정보 산출시 곱해지는 분류 확률의 개수와의 차 n이 '0'이 아닐 경우,

대상 문서를 분류하는 상기 단계는,

상기 분류 키워드 별 확률 정보에, 설정된 임계값을 상기 n번 곱셈하는 단계

를 더 포함하는 것을 특징으로 하는 문서 분류 방법.
제7항에 있어서,

사용자로부터 입력되는 질의에 상응하는 분류 키워드를 식별하고, 상기 식별된 분류 키워드와 연관하는 대상 문서를 검색하는 단계

를 더 포함하는 것을 특징으로 하는 문서 검색 방법.
제9항에 있어서,

대상 문서를 검색하는 상기 단계는,

검색된 상기 대상 문서를, 상기 분류 키워드와 관련한 확률 정보에 따라 정렬하여 상기 사용자에게 노출시키는 단계

를 포함하는 것을 특징으로 하는 문서 검색 방법.
제6항 내지 제10항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.