KR20150000092A

KR20150000092A - 자동문서분류시스템 성능개선을 위한 특징 정보 추상화 기법

Info

Publication number: KR20150000092A
Application number: KR20130072033A
Authority: KR
Inventors: 김한준; 노준호
Original assignee: 서울시립대학교 산학협력단
Priority date: 2013-06-24
Filing date: 2013-06-24
Publication date: 2015-01-02
Also published as: KR101562232B1

Abstract

본 발명은 문서 분류 시스템 및 방법에 관한 것으로, 더욱 세부적으로는 앵커텍스트와 주변단어간 연관도를 고려한 특징 정보 추출 및 특징의 추상화를 이용해 정확한 문서분류를 하는 것에 관한 것이다.

Description

자동문서분류시스템 성능개선을 위한 특징 정보 추상화 기법 {A WordNet based feature merge method for Automatic document classification system performance improvement}

본 발명은 문서 분류 시스템 및 방법에 관한 것으로, 더욱 세부적으로는 단어간 연관도를 고려한 특징 정보 추출 및 특징의 추상화를 이용해 자동문서분류를 하는 것에 관한 것이다.

본 발명은 교육과학기술부 및 한국연구재단의 기본연구지원사업(유형 II)의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 1345173486, 과제명: 대용량 텍스트정보의 조직화를 위한 자동진화형 자동분류시스템의 연구].

하이퍼 텍스트 문서는 일반 문서와 달리 하이퍼링크로 서로 연결된 구조를 가진다 이 하이퍼링크 정보는 대상문서와 연관도가 높은 정보를 가지고 있으며, 이러한 링크 정보로부터 특징을 보다 잘 선별하기 이해서는 보다 정밀한 접근법이 필요하다.

종래의 자동문서분류시스템의 한 예로 한국 등록특허 10-1158750호 "문서분류 장치 및 그것의 문서분류 방법"이 제안되었다. 상기 선행기술에서는 실행데이터와 학습데이터 사이의 유사 정도에 따라, 상기 학습데이터에 대한 가중치를 계산하는 단계와 계산된 학습데이터에 대한 가중치를 반영하여 데이터를 분류한다.

위와 같은 계산된 가중치를 반영해 데이터를 분류하는 종래의 기술의 경우 정보 손실이 발생하거나 대상문서와 연관도가 떨어지는 특징을 추출하는 문제점이 존재한다. 일반적인 자동문서분류기법은 기계학습(Machine learning) 기술을 사용하며, 기계학습의 방법으로는 나이브 베이즈(Naive bayes), 지지벡터기계(Support vector machine), 신경망(Neural network) 등이 있는데, 이러한 알고리즘은 모두 문서를 단어의 집합(Bag of words)으로 표현하고, 이를 기반으로 분류모델을 구축한다. 그러나 이러한 표현방식은 문서 내 모든 단어의 집합이, 집합을 구성하는 단어와 단어 사이의 의미를 고려하지 않고 단어 자체 텍스트 기반의 분류와 단순히 특정 키워드의 출현빈도와 무의미한 단어 매칭을 통한 것이기 때문에 분류의 폭이 방대하게 넓어지게 되어 정확한 분류가 어렵게 된다. 그러므로, 단어와 단어 사이의 의미적 특징을 고려하는 것이 중요하며 의미를 고려한 단어분류를 수행함으로써 분류의 대상이 되는 대상문서와 연관도가 높은 단어의 특징을 기준으로 분류를 수행해야 한다.

한국등록특허 제10-1158750호 (등록일 2012.06.15)

본 발명은 상기와 같은 종래 기술의 문제점을 해결하고자 도출된 것으로서, 하이퍼텍스트 문서의 분류성능을 높이기 위해 기존의 단어 특징 추출 방법에서 단어간 연관도를 고려한 새로운 특징 추출방법을 제공하는 것을 목적으로 한다.

구체적으로, 본 발명은 추출된 단어의 특징 집합 내에서 연관도가 높은 특징들을 묶어 이를 하나의 개념 수준의 특징으로 승화하고 이 개념 특징의 가공을 통해 보다 견고한 분류 모델을 구축하는 것을 목적으로 한다.

또한, 본 발명의 대상문서는 진입문서의 특징들로 표현되며 특징 추상화에 따라 어떤 목적을 가진 문서인지를 나타내는지를 보다 분명해지는 것을 목적으로 한다.

상기와 같은 목적을 달성하기 위하여, 본 발명의 일실시 예에 따른 자동문서분류시스템의 계층적 특징 개념화 방법에 있어서, 진입링크문서 내의 앵커 텍스트 및 하나 이상의 상기 앵커 텍스트 주변의 단어들을 선정하는 주변 단어 선정 단계; 유사도 함수를 사용하여 상기 앵커 텍스트와 상기 주변 단어간 연관도를 계산하는 주변 단어 연관도 계산 단계; 제 1 임계값 이상의 상기 연관도를 가진 단어를 하나 이상의 특징으로 추출하는 특징 추출 단계; 상기 추출된 모든 특징 상호간 상기 유사도 함수를 이용해 상기 특징간 연관도를 계산하는 단계; 상기 특징 중 제 2 임계값 이상의 연관도를 가지는 2개 이상의 특징을 평균 연결법을 이용하여 개념 특징으로 추상화하는 단계;를 포함할 수 있다.

이때 상기 제 1 임계값은, 상기 앵커 텍스트와 상기 주변단어의 유사도 함수를 이용한 계산 결과로 도출된 0에서 1사이의 상수 중 임의의 상수를 임계값으로 설정하는 것을 포함할 수 있다.

또한, 상기 추상화하는 단계는, 상기 특징 각각을 구성하는 단어의 빈도수가 포함된 중요도 정보를 모두 합하여 상기 개념특징의 중요도 정보로 하는 것을 포함할 수 있다.

본 발명의 일실시 예에 따른 자동문서분류시스템의 평면적 특징 개념화 방법에 있어서, 진입링크문서 내의 앵커 텍스트 및 하나 이상의 상기 앵커 텍스트 주변의 단어들을 선정하는 주변 단어 선정 단계; 유사도 함수를 사용하여 상기 앵커 텍스트와 상기 주변 단어간 연관도를 계산하는 주변 단어 연관도 계산 단계; 제 1 임계값 이상의 상기 연관도를 가진 상기 주변 단어를 하나 이상의 특징으로 추출하는 특징 추출 단계; 상기 추출된 모든 특징 상호간 상기 유사도 함수를 이용해 상기 특징간 연관도를 계산하는 단계;및 상기 특징 중 어느 하나를 기준 특징으로 설정하여 상기 기준 특징과 제 2 임계값 이상의 연관도를 가진 상기 추출된 특징들을 하나의 개념 특징으로 추상화하는 단계를 포함할 수 있다.

이때, 상기 제 1 임계값은 상기 앵커 텍스트와 상기 주변단어의 유사도 함수를 이용한 계산 결과로 도출된 0에서 1사이의 상수 중 임의의 상수를 임계값으로 설정하는 것을 포함할 수 있다.

또한, 상기 기준 특징은, 상기 추상화된 개념 특징을 제외하고 상기 추출된 모든 특징을 기준 특징으로 하여 추상화하는 것을 포함할 수 있다.

본 발명의 자동문서분류시스템 성능 개선을 위한 워드넷 기반 특징정보 추상화 기법에 따르면 종래의 기술보다 분류정확도가 높고 분류 대상 문서에 대하여 본래 보유한 특징 단어, 인접 문서의 단어, 그리고 추상화된 개념 특징 등 의미적으로 풍부한 특징집합으로 표현함으로써 보다 정확한 자동분류 모델을 구성하여 메일 분류, 스팸메일 차단, 콘텐츠 관리 솔루션 상품 등의 성능향상에 기여할 수 있다.

도 1은 본 발명의 일실시 예에 따른 전체적인 하이퍼텍스트 문서 특징 가공과정을 나타낸 도면이다.
도 2는 본 발명의 일실시 예에 따른 계층적 특징 추상화 과정을 도시한 흐름도이다.
도 3은 본 발명의 다른 일실시 예에 따른 평면적 특징 추상화 과정을 도시한 흐름도이다.
도 4는 본 발명의 일실시 예에 따른 워드넷 검색결과를 나타낸 도면이다
도 5는 본 발명의 일실시 예에 따른 워드넷에서의 계층 구조를 나타낸 도면이다.
도 6은 본 발명의 일실시 예에 따른 특징 추출을 나타낸 도면이다.
도 7은 본 발명의 일실시 예에 따른 계층적 특징 추상화 알고리즘을 도시한 도면이다.
도 8은 본 발명의 일실시 예에 따른 계층적 특징 추상화 그래프를 도시한 도면이다.
도 9는 본 발명의 다른 일실시 예에 따른 평면적 특징 추상화의 알고리즘을 나타낸 도면이다.
도 10은 본 발명의 다른 일실시 예에 따른 평면적 특징 추상화 그래프를 나타낸 도면이다.
도 11은 본 발명의 또 다른 일실시 예에 따른 특징 추상화의 예시를 도시한 도면이다.
도 12는 본 발명의 또 다른 일실시 예에 따른 특징 추출 방법에 따른 결과를 도시한 도면이다.
도 13은 본 발명의 일실시 예에 따른 평균 연결법에 대한 실시 예를 도시한 도면이다.

상기 목적 외에 본 발명의 다른 목적 및 특징들은 첨부 도면을 참조한 실시 예에 대한 설명을 통하여 명백히 드러나게 될 것이다.

본 발명의 바람직한 실시 예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1은 본 발명의 일실시 예에 따른 자동문서분류 시스템의 구조도이다.

본 발명에서 특징 가공 과정은 특징 추출(feature extraction), 특징 추상화(feature abstraction), 특징 선택(feature selection) 세 단계로 이루어진다. 특징 추출(120)단계는 하이퍼텍스트 문서(100)의 진입링크문서의 앵커 텍스트와 주변단어가 포함된 정보(110)를 사용하여 본 발명의 일실시 예인 어휘 사전의 일종인 워드넷(111)의 기능 중 단어와 단어간 의미적으로 연관된 정도를 나타내는 유사도 정보를 사용하여 연관도가 높은 단어를 특징으로 추출한다. 그 후 특징 추상화(130)단계는 추출된 특징 집합으로부터 마찬가지로 워드넷(111)의 유사도 정보를 이용하여, 유사한 개념의 특징들간의 연관도를 측정하여 높은 연관도를 가지는 특징을 하나로 묶어 개념수준의 특징으로 추상화한다. 마지막으로 특징 선택단계(140)는 단어 및 개념수준의 특징 전체집합(112)으로부터 특정 기준에 따라 주요특징을 선별한다. 본 발명의 일 실시예에서는 특징 선택을 위해 카이제곱 통계량(χ²-statistics)을 사용한다. 본 발명의 일실시 예로 사용된 어휘사전의 워드넷과 유사도 정보를 이용하여 특징 선정에 관한 내용 및 특징 추상화에 관한 상세한 설명 및 과정은 도2 내지 도8을 통해 후술하겠다. 본 발명에서는 계층적 특징 추상화 및 평면적 특징 추상화 두 가지 특징 추상화 방법을 제시한다. 상기 두 가지 특징 추상화 방법에 관한 상세한 설명은 도2 내지 도12를 참고하여 후술하겠다. 마지막으로 특징 선택을 수행하여 자동 분류를 위한 분류모델(150)을 구축한다. 카이제곱 통계량을 이용한 분류모델의 구축은 계층적 특징 추상화와 평면적 특징 추상화 두 방법 모두 동일한 방법으로 수행하므로 평면적 특징 추상화 방법에서 후술하겠다.

이하에서는, 본 발명의 일실시 예에 따른 특징정보 추상화 기법을 첨부된 도 2 내지 도 12를 참조하여 상세히 설명한다.

도 2는 본 발명의 일실시 예에 따른 계층적 특징 추상화 과정을 도시한 흐름도이다.

하이퍼링크는 대상문서로 들어오는 진입링크(In-coming link)문서와 대상문서에서 나가는 진출링크(Out-going link) 문서로 나뉜다. 진입링크문서와 진출링크문서 중 대상 문서를 나타내는 정보를 담고 있는 진입링크문서에서 앵커 텍스트와 주변 단어를 선정한다(S200).

앵커 텍스트란 하이퍼텍스트 생성 언어(HTML)로 작성된 하이퍼텍스트 문서에서 텍스트의 일부분이나 아이콘, 기타 요소를 그 문서 내의 다른 요소 또는 다른 하이퍼텍스트 문서 내의 다른 요소와 연결하는 하이퍼텍스트 링크로서 식별하는데 사용되는 태그를 뜻한다. 하이퍼링크 관계에 있는 진입링크문서에서 추출된 특징은 대상 문서와 연관성이 커야 한다. 그래서 보통 특징 추출 영역을 진입링크문서의 전체 영역으로 하기 보다는 클래스 이름, 앵커 텍스트, 앵커 텍스트 주변단어 등의 영역으로 한정한다. 하지만 클래스 이름 또는 앵커 텍스트의 경우 한 문서의 내용을 간단한 단어로 축약하거나 대표 단어만을 사용한 것이기 때문에 특징 개수가 많지 않다. 반면에 앵커 텍스트 주변단어 영역으로 확장하는 경우에 대상 문서와 무관한 특징들이 다수 포함될 가능성이 크다. 본 발명에서는 양질의 특징 단어를 적정 개수 추출하기 위해, 추출 영역을 앵커 텍스트 주변의 문단(paragraph) 영역으로 하되 앵커텍스트와 연관이 높은 용어만을 추출하는 방법을 제안한다.

먼저 진입링크문서에서 앵커 텍스트와 앵커 텍스트 주변의 문단 영역에서 주변 단어를 선정한다. 본 발명의 일실시 예에서는 주변단어를 문단영역에서 선정하는 것으로 한정하였으나 앵커 텍스트의 주변단어 선정 영역은 문단에 한정하지 않고 사용자의 설정에 의해 가감될 수 있다.

상술한 진입링크문서에서 주변단어를 선정할 때 아무 단어가 아닌 특징적인 단어를 파악하고 단어간 관계 정보가 고려될 필요가 있다. 이는 무분별한 단어의 선정을 통해 대상문서와 연관도가 떨어지는 단어를 선정하거나, 연관도가 높은 단어를 선정하지 못해 발생할 수 있는 정보손실을 방지하기 위함이다. 이를 방지하기 위해선 단어간 의미가 체계적으로 정리된 어휘사전을 이용할 필요가 있으며, 어휘사전을 이용해 단어간 의미정보를 고려하여 선정된 단어 중 연관도가 높은 단어는 특징으로 추출하고 각 특징마다 동의어 또는 상위어 등을 추가하여 특징의 질을 높일 필요가 있다. 본 발명의 일실시 예에서는 어휘사전의 하나인 워드넷을 이용할 수 있다. 어휘사전은 단어의 의미 어휘목록 관계정보를 담은 사전으로서 동의어집합 단위로 이루어져 있으며, 각 동의어집합에 대한 상위어, 하위어, 등위어, 전체어 등의 의미 관계들을 제공한다. 본 발명에서 사용된 워드넷의 단어간 의미 관계를 이용하여 진입링크문서와 대상 문서의 연관이 높은 앵커 텍스트와 주변단어 선정하는데 이용될 수 있다. 본 발명의 일실시 예에서 사용된 워드넷의 단어검색 결과와 상하위어 관계를 도 4 및 도 5를 참고로 설명하겠다.

도 4는 본 발명의 일실시 예에 따른 워드넷을 통한 단어 검색 결과를 나타낸 도면으로, 중의적 단어인 java를 검색한 결과이다. 검색 결과 java는 지역을 뜻하는 것과 커피 콩의 의미, 컴퓨터 용어로서의 의미를 가진다. 이렇듯 java는 3가지 의미(400)를 가지며 각 의미에 대한 동의어가 하나의 동의어 집합이 된다. 워드넷의 관계 정보 중 단어간 연관도를 계산하기 위해 상/하위어 의미 관계를 이용할 수도 있다.

도 5는 본 발명의 일실시 예에 따른 워드넷의 계층 구조를 나타낸 도면이다. 이는 상/하위어 의미 관계의 예를 나타낸 도면으로 Car(500)와 Bicycle(510) 두 단어간의 상/하위어 의미 관계를 나타낸다. 여기서 Vehicle(520)은 두 단어의 공통된 상위어이고 이 노드(530)를 통해 두 단어가 연결되어 있다. 때문에 단어간 거리는 연결된 노드를 지나는 최소거리로 정의할 수 있다.

상술한 과정에서 어휘사전의 단어관계를 이용하여 선정된 모든 앵커 텍스트와 모든 주변 단어간 연관도를 유사도 함수(식1)를 이용하여 계산한다(S210).

앵커 텍스트와 주변 단어간 연관도는 유사도 함수(식1)를 이용하여 구할 수 있다.

(식1)

이 식은 정규화된 식으로, 여기서 a는 앵커 텍스트를 나타내고 f는 앵커 텍스트 주변단어를 나타낸다 min dist는 워드넷 상/하위어 관계에서 최소 거리를 의미하고 common parent는 두 단어의 공통의 상위어를 의미한다. 마지막으로 root는 가장 최상위 개념의 단어를 의미한다. 이 식은 정규화된 식으로 두 단어가 동의어면 최소 거리가 0이 되어 연관도는 1의 값을 갖게 되며, 반대로 공통의 상위어가 없으면 최소거리가 무한이 되어 연관도는 0의 값을 갖게 된다.

위와 같은 유사도 함수(식1)를 이용해 선정된 앵커 텍스트와 주변단어간 연관도를 계산하고, 제 1 임계값 이상의 연관도를 가진 앵커 텍스트와 주변단어를 파악한다. 계산 결과, 제 1 임계값 이상의 연관도를 가진 앵커텍스트와 주변 단어는 특징으로 추출한다. 여기서 제 1 임계값은 어느 정도의 연관도를 가지는 특징들을 추출할 것인지 정하는 상수이며 유사도 함수(식1)의 결과값인 0에서 1사이의 값을 가진다. 임계값을 설정하는 이유는 대상문서와 무관한 특징들이 다수 존재할 가능성이 높다. 그러므로 임계값을 설정하여 양질의 특징을 추출하고 정보손실을 최소화 할 수 있고, 이를 통해 대상문서와 연관도가 높은 특징들을 추출하면서도 대상문서와 무관한 특징들은 제거할 수 있다.

상술한 유사도 함수(식1)를 이용해 앵커 텍스트와 주변단어간 연관도를 계산하고, 제 1 임계값 이상의 연관도를 가진 앵커 텍스트와 주변단어를 파악한다(S220).

계산 결과, 제 1 임계값 이상의 연관도를 가진 앵커텍스트와 주변 단어는 특징으로 추출한다(S230).

본 발명에서 특징 추출에 관한 일실시 예를 도 6을 통해 다음과 같이 설명하겠다.

도 6는 본 발명의 일실시 예에 따른 특징 추출에 대한 실시 예를 나타낸 도면이다. 진입링크문서 (600)의 앵커 텍스트[mary, vernon, computer](610)와 주변 단어[introduction, operating, system](611)가 있고 다른 앵커 텍스트[mary, vernon, professor](620)와 주변 단어[phone, number](621)가 있을 때, 연관도를 계산한 결과(630), 1과 가까운 값이 될수록 높은 연관도를 갖기 때문에 제 1 임계값을 0.8로 설정하면 0.8이상의 연관도를 가진 앵커 텍스트와 주변단어는 연관이 높은 특징으로 판단될 수도 있다. 결과적으로 [mary, vernon, computer, operating, system, professor](640)가 대상문서(650)를 표현하는 특징으로 추출되었다.

상기 과정에서 생성된 특징은 대상 문서와 연결된 링크 문서의 용어이기 때문에 대상문서를 표현함에 있어서 중요한 정보가 된다. 하지만 단순히 단어의 빈도를 표현한 것이기 때문에 단어간 의미관계를 고려하지 못한다. 이로 인해 문서 내 중요한 개념을 갖는 특징일지라도 단어의 빈도가 낮을 경우 중요한 정도가 낮게 책정될 수 있다. 예를 들어 컴퓨터 관련 문서에서 c, java, php 같은 단어들은 컴퓨터 언어라는 공통의 상위 개념을 가지고 있다. 만약 이러한 단어들이 한 문서에 존재한다면 단어들의 빈도가 낮더라도 중요도는 높다고 볼 수 있다. 그러므로 빈도수가 낮은 중요단어들의 가중치를 높여줄 필요가 있다.

따라서 본 발명에서는 이러한 단어들의 중요도를 높여주기 위해 워드넷을 사용해 추출된 특징으로부터 서로 연관도가 높은 단어들을 하나의 상위 개념으로 추상화하는 특징 추상화를 제시한다. 특징 추상화는 하나의 개념으로 묶인 특징에 포함된 단어의 빈도수, 즉 개념 특징의 중요도 정보를 모두 합하여 클래스(문서가 의미 하는 분야) 내의 개념에 속한 특징들의 가중치를 높이는 것을 의미한다.

위와 같은 특징 추상화를 실현하기 위해 각 특징에 대해 모든 특징간 연관도를 계산한다(S240). 특징 추상화에 관한 상세한 과정을 도 7을 참고로 후술하겠다.

특징간의 연관도를 상술한 유사도 함수(식1)를 이용하여 특징간의 연관도를 구할 수 있다.

이 과정에서 a와 f는 특징을 나타내고 그 외의 요소는 상술한 식의 설명과 동일하므로 생략하겠다.

계산결과 복수의 특징 중 연관도가 높은 상위 2개의 특징을 제 2 임계값 이상이면 하나의 개념으로 추상화 한다(S250). 여기서 제 2 임계값은 상술한 특징 추출 과정의 제 1 임계값과 같은 개념으로 추상화하는 단계에서 제 2 임계값을 설정하는 이유는 연관도가 높은 특징이더라도 양질의 특징을 선택하여 정보손실을 최소화 할 수 있고, 이를 통해 대상문서와 연관도가 높은 특징들을 선택하면서도 대상문서와 무관한 특징들은 제거하기 위함이다. 제 1 임계값과 제 2 임계값의 수치는 같을 수도 있다. 그러나 이들을 정의한 적용 영역은 상이하다. 제 1 임계값은 앵커 텍스트와 주변단어를 특징으로 추출하는 단계에 사용되는 임계값이고, 제2 임계값은 특징을 개념으로 추상화하는 단계에 사용되는 임계값 이다. 마찬가지로 제 2 임계값 역시 특징 사이에 어느 정도의 연관도를 가지는지를 정하는 상수이며 마찬가지로 0에서 1사이의 값을 가진다. 계층적 특징 추상화 방식은 특징의 군집을 생성해 나간다. 즉 초기에 1개의 특징으로 구성된 군집에 대하여 가장 가까운 2개의 특징을 하나의 군집으로 묶어나가며 군집 간의 연관도를 비교해가며 군집화를 진행한다. 즉 단어의 군집화는 개념을 생성하는 추상화를 의미한다. 각 개념은 하나이상의 특징들로 구성되며, 이를 분류모델의 요소로 삼는다. 상술한 특징 추상화에 관한 상세한 과정을 도 7을 참고로 설명한다.

도 7은 본 발명의 일실시 예에 따른 계층적 특징 추상화의 알고리즘을 도시한 도면이다.

이 알고리즘(700)의 구성은, 입력은 진입링크문서로부터 추출된 특징집합 (710)이며, 출력은 특징 추상화를 적용하여 개선된 특징집합(720)이다. 알고리즘은 우선 모든 특징 간 연관도를 유사도 함수(식1)을 이용해 계산한다. (730) 그 후 임의의 한 특징과 가장 연관도가 높은 특징을 찾고 두 특징을 기억한다. (740) 연관도가 제2 임계값 이상이면 두 특징을 추상화한다. 추상화하는 방식은 두 특징에 포함된 단어의 빈도를 합하여 하나의 개념으로 특징을 추상화한다. (750) 새로이 생성된 개념 특징은 특징 군집에 첨가되어 반복적으로 추상화에 참여한다. 중간 과정에서 생성되는 군집(개념)간의 거리는 average-linkage(평균연결법)방식으로 계산한다.

average-linkage방식이란 두 개 이상의 특징으로 구성된 개념 특징을 다른 군집의 개념 특징과 비교하려면 개념 특징과 다른 군집의 특징간 연관도를 계산할 필요가 있다. 따라서 개념 특징을 구성하는 특징들과 다른 군집에 포함된 특징간 연관도를 계산하여 연관도의 평균을 산출하고 마찬가지로 제 2 임계값 이상이면 하나의 군집으로 추상화 한다. 이를 도 13을 통해 자세히 설명하겠다.

도 13은 본 발명의 일실시 예에 따른 평균 연결법에 대한 실시 예를 도시한 도면이다.

X라는 군집에 a와 b라는 특징 인자가 있고 Y라는 군집에 c와 d라는 특징 인자가 있다(13-1). 우선 군집간 특징 추상화를 하기 위해 상술한 유사도 함수(식1)를 이용해 특징 인자간 연관도를 계산하고 연관도의 평균을 구한다. 먼저 a와 c의 연관도를 계산하여 평균을 구하고 b와 c의 연관도를 구하여 평균을 낸다(13-2). 마찬가지로 a와 d간 연관도의 평균을 구하고 b와 d의 연관도의 평균을 구한다(13-3). c와 d의 연관도 평균을 구하지 않는 이유는 Y군집 내에 특징간 연관도를 구하는 과정에서 c와 d는 연관도가 높은 상위 2개의 특징으로 구성된 것이기 때문에 반복하여 연관도를 구할 필요가 없다. 위의 과정에서 구한 4개의 평균값을 다시 평균을 내어 제 2 임계값 이상이면 하나의 군집으로 추상화 한다(13-4).

이 과정을 현재 연관도의 최대값이 제 2 임계값 미만일 때까지 반복 수행한다.

특징을 추상화하는 방식은 두 특징에 포함된 단어의 빈도수를 합하고 하나의 개념 특징으로 특징을 그룹화 한다. 단어의 빈도수를 합하는 이유는 위에서 설명하였듯이 중요한 단어임에도 불구하고 빈도수가 낮은 경우 특징으로 추출되지 못한 경우를 탈피하기 위함이다. 추상화된 특징을 포함하여 연관도가 높은 상위 2개의 특징의 추상화를 반복한다(S260). 이 과정을 가장 높은 연관도가 제 2 임계값 미만이 될 때까지 반복한다(S270).

상술한 특징의 추상화는 두 특징에 포함된 단어의 빈도를 합하고 하나의 개념 특징으로 특징을 그룹화한다. 이 과정을 가장 높은 연관도가 제 2 임계값 미만이 될 때까지 반복한다. 예를 들어 0.9의 연관도를 가지는 특징과 0.8의 연관도를 가지는 특징이 남았고 제 2 임계값을 0.7로 설정 했을 때 두 특징은 추상화하게 된다. 이 추상화를 끝으로 가장 높은 연관도가 제 2 임계값 미만이면, 추상화를 종료하게 된다.

위와 같은 계층적 특징 추상화의 일실시 예를 도 8을 참고로 설명하겠다.

도 8은 본 발명의 일실시 예에 따른 계층적 특징 추상화를 그래프로 나타낸 도면이다.

도 8의 (a)를 참고하면, 각각의 점(a811)은 특징을 의미하고 점 사이의 거리(a812)는 특징 간 의미적 거리를 의미한다. (a)는 초기에 입력으로 주어진 특징집합을 나타낸다. (b)는 첫 번째 특징 간 연관도를 모두 계산하고, 가장 연관도가 높은 두 특징을 추상화한 모습(b721)을 나타낸다. (c)는 두 번째 특징 간 연관도를 모두 계산하고 가장 연관도가 높은 특징을 추상화하여 개념 특징을 생성한 중간 결과(c831)를 나타낸다. (d)는 추상화 과정을 멈추어 최종적으로 2개의 개념 특징을 생성한 결과(d841)를 나타낸다.

특징의 추상화를 완료하면 카이제곱통계량(식3)을 이용한 특징 선택을 수행한다(S270).

일련의 과정을 거쳐 하이퍼텍스트 문서의 단어간 연관도를 이용한 특징을 생성하였다. 하지만 특징들을 추상화하였더라도 서로 다른 의미를 가진 특징의 수가 많을 수 있고 서로 다른 의미를 가지는 특징들이 문서마다 고루 분포되어 있을 수 있다. 이러한 성질은 분류모델의 악영향을 미치며 이를 해결하기 위해서 일반적으로 특징 선택 기법을 사용한다. 특징 추상화 과정에서 단어의 빈도수 즉 개념 특징의 중요도 정보를 모두 합하여 특징 추상화를 수행 하였다. 개념 특징의 중요도 정보는 자동문서분류시스템에서 분류모델을 구축할 시 주요정보로 사용되며, 본 발명에서는 카이제곱통계량(식3)을 이용한 특징 선택을 수행하여 자동문서분류시스템의 성능을 높일 수 있다.

카이제곱통계량(식3)을 이용한 특징 선택과 분류모델의 구축은 계층적 특징 추상화와 평면적 특징 추상화 두 방법 모두 동일한 방법으로 수행하므로 평면적 특징 추상화 방법에서 설명하겠다.

상술한 과정을 통해 본 발명의 두 가지 특징 추상화 방법 중 계층적 특징 추상화에 대해 설명하였다. 후술하는 평면적 특징 추상화의 과정은 상기 계층적 특징 추상화와 특징 추상화 부분을 제외한 단계는 일치하므로 자세한 설명은 생략하겠다.

도 3은 본 발명의 다른 일실시 예에 따른 평면적 특징 추상화 과정을 도시한 흐름도이다.

도 3를 참조하면 도2의 S200단계와 마찬가지로, 링크 관계 문서 중 대상 문서를 나타내는 정보를 담고 있는 진입링크문서에서 앵커 텍스트와 주변 단어를 추출한다(S300). 모든 앵커 텍스트와 주변 단어간 연관도를 유사도 함수(식1)를 이용하여 계산한다(S310). 앵커 텍스트와 주변 단어간 연관도는 상기 유사도 함수(식1)를 이용하여 구할 수 있다.

상술한 유사도 함수(식1)를 이용해 앵커 텍스트와 주변단어간 연관도를 계산하고, 제 1 임계값 이상의 연관도를 가진 앵커 텍스트와 주변단어를 파악한다(S320).

계산 결과, 제 1 임계값 이상의 연관도를 가진 앵커텍스트와 주변 단어는 특징으로 선정한다(S330). 여기서 임계값은 상술한 S230과정과 같은 개념의 제 1 임계값이며, 어느 정도의 연관도를 가지는 특징들을 추출할 것인지 정하는 상수이며 마찬가지로 0에서 1사이의 값을 가진다.

각 특징에 대해 모든 특징 상호간 연관도를 유사도 함수(식1)을 이용하여 계산한다(S340). 이 과정에서 a와 f는 특징을 나타내고 그 외의 요소는 상술한 유사도 함수(식1)의 설명과 동일하다. 계산된 특징 중 하나를 임의의 기준 특징으로 하여 기준 특징과 추출된 모든 특징을 비교하여 제 2 임계값 이상의 연관도를 가지면 하나의 개념 특징으로 추상화한다(S350).

기준 특징과 기준 특징을 제외한 다른 특징과 연관도를 비교하여 연관도가 제 2 임계값 이상인 경우 추상화한다. 여기서 제 2 임계값은 상술한 S250단계의 제 2 임계값과 같은 개념이므로 자세한 설명은 생략하겠다.

상술한 특징 추상화에 관한 상세한 과정을 도 9를 참고로 다음과 같이 설명한다.

도 9는 본 발명의 다른 일실시 예에 따른 평면적 특징 추상화의 알고리즘을 나타낸 도면이다. 이 알고리즘은(900) 입력 벡터는 진입링크문서로부터 추출된 특징(910)이며, 출력 벡터는 특징 추상화를 적용하여 개선된 특징(920)을 출력한다. 이 알고리즘은 특정 특징을 기준으로 모든 특징 간 연관도를 계산한다. (930) 그 후 기준 특징과 다른 특징과의 연관도가 임계값 이상이면 해당 특징에 포함된 단어의 빈도를 합한다. (940) 이 과정을 모든 특징을 기준으로 반복 수행한다. 평면적 특징 추상화 방법은 각 특징을 기준으로 일정 연관도 이내의 특징들을 하나의 개념 특징으로 묶는 것이다. 예를 들어 특징 집합 {A, B, C, D} 가 존재할 때, A를 기준으로 A를 제외한 모든 특징 B, C, D와의 연관도를 계산한다. 여기서 연관도를 거리의 개념으로 이용할 수 있고, 유사한 연관도를 가진 두 특징 사이의 가까운 정도를 나타낼 수 있다. 특징A를 기준으로 B와 C사이의 연관도 즉 가까운 정도를 측정한다. 또한, 가까운 정도에 대한 임계값을 설정할 수 있어 제 2 임계값 이내의 일정 거리를 가진 특징이라면 하나의 개념 특징으로 묶을 수 있다. 이 때 B, C가 일정 거리 이내라면 {A, B, C}가 하나의 개념 특징으로 묶인다. 마찬가지로 B를 기준으로 B를 제외한 A, C, D와의 거리를 계산하고, 그 결과 A, D가 일정 거리 이내이면 {B, A, D}가 하나의 개념 특징으로 묶인다. 특징의 추상화는, 특징 A를 기준으로 A와 B의 연관도가 제 2 임계값 이상이면 이 특징에 포함된 단어의 빈도를 합한다. 이 과정을 특징 집합 내의 모든 특징들을 기준으로 수행하여 특징 개수와 동일한 개수의 개념 특징을 생성한다. 즉 추출된 모든 특징을 기준 특징으로 하여 반복 수행한다. 그러나, 개념 특징에 포함된 특징을 기준 특징으로 하면 중복된 개념 특징이 발생하여 추상화의 혼란을 가져오기 때문에 개념 특징에 포함된 특징은 기준 특징으로 삼지 않는다.

위와 같은 평면적 특징 추상화의 일실시 예를 도 10을 참고로 설명하겠다.

도 10은 본 발명의 다른 일실시 예에 따른 평면적 특징 추상화를 그래프로 나타낸 도면이다. 도10의 (a)는 1번 특징(a1011)을 기준으로 다른 특징과의 연관도를 계산한 후 거리가 가까운 특징들을 모두 추상화한 모습을 나타낸다. (b)는 2번 특징(b1021)을 기준으로 위 과정을 반복한 모습을 나타낸다. (c)는 3번 특징(c1031)을 기준으로 반복 수행한 모습이다. (d)는 모든 특징에 대해 특징 추상화를 끝낸 모습(d1041)을 나타낸다. 평면적 특징 추상화 방식에서 특징 추상화를 통한 개념 특징의 가중치 수정을 수식화 하면 아래와 같다.

식(4)

여기서 H(c)는 단어 f와 일정 임계값 이상의 연관도를 가지는 특징들의 집합을 의미하고, tf(b, d)는 문서 d에서 단어 b의 빈도수를 의미한다. tf‘(f, d)는 특징 추상화 후 수정된 문서 d에서 단어 f의 빈도를 의미한다.

상술한 과정을 거쳐 모든 특징을 추상화한 후 카이제곱통계량(식3)을 이용한 특징 선택을 수행하여 자동 분류를 위한 분류모델을 구축한다(S360).

평면적 특징 추상화 방법도 마찬가지로 일련의 과정을 거쳐 하이퍼텍스트 문서의 단어간 연관도를 이용한 특징을 생성하였다. 하지만 특징들을 추상화하였더라도 서로 다른 의미를 가진 특징의 수가 많을 수 있고 서로 다른 의미를 가지는 특징들이 문서마다 고루 분포되어 있을 수 있다.

이러한 성질은 분류모델의 악영향을 미치며 이를 해결하기 위해서 일반적으로 특징 선택 기법을 사용한다. 앞선 과정을 거쳐, 특징 추상화 과정에서 단어의 빈도수를 합하여 개념 특징의 중요도 정보를 생성하였다. 개념 특징의 중요도 정보는 자동문서분류시스템에서 분류모델을 구축할 시 주요정보로 사용되며, 본 발명에서는 카이제곱통계량(식3)을 이용한 특징 선택을 수행하여 자동 분류를 위한 분류모델을 구축함으로써, 자동문서분류시스템의 성능을 높일 수 있다.

본 발명에서는 카이제곱통계량(식3)을 이용한 특징 선택을 수행하여 자동 분류를 위한 분류모델을 구축한다.

카이제곱통계량(식3)은 모든 특징에 대해 문서집합의 각 클래스(분야)의 주제와의 연관성을 평가하여 문서와 연관성이 큰 특징을 선택할 수 있게 된다. 아래 식은 χ²-statistics의 χ²(cow)을 표현한 것이다. 이 식을 사용하여 주어진 단어 w(word)와 클래스 c(class)의 관련성 정도를 산정하며, 값이 작을수록 서로 독립적인 것을 의미하고 값이 클수록 상호 연관성이 크다는 것을 나타낸다.

(식3)

여기서

는 w(단어)를 포함하는 문서 중 클래스 c에 속하는 문서의 빈도수를 나타내며,

는 클래스 c에 속하는 문서 중 w를 포함하지 않는 문서의 빈도수를 나타낸다.

는 w를 포함하는 문서 중 클래스 c에 속하지 않는 문서의 빈도수를 나타내며,

는 클래스 c에 속하지 않는 문서 중 w를 포함하지 않는 문서의 빈도수를 나타낸다. N은 총 문서의 수를 나타낸다.

위와 같은 과정을 거쳐 계층적 특징 추상화와 평면적 특징 추상화에 대해 살펴 보았다. 도11은 본 발명이 제시한 두 가지 특징 추상화의 이해를 돕기 위한 일실시 예를 나타낸 도면이다.

도 11은 본 발명의 또 다른 일실시 예에 따른 특징 추상화의 예시를 도시한 도면이다.

도 11은 임의의 특징이 입력될 때에 제안한 두 가지 특징 추상화 방식에서의 출력 결과 예시이다. 단어와 괄호 안에 숫자(1110)는 단어의 빈도를 의미한다.

계층적 특징 추상화(특징추상화 A) 방식에서는 첫 번째 특징 간 연관도를 계산한 후 {government, politics}가 하나의 개념 특징으로 묶인다(1120). 두 번째 특징 간 연관도를 계산한 후 {physics, science}가 하나의 개념 특징으로 묶인다(1121). 세 번째 특징 간 연관도를 계산한 후 개념 특징간 거리가 제 2 임계값 이상이 되어 특징추상화를 중단한다. 특징 추상화 결과 특징 집합에서의 개념 특징은 {government, politics}, {physics, science}, {math}(1122)가 되고, 각 개념 특징의 가중치는 개념 특징에 포함된 특징들의 빈도를 합하여 수정된다(1123). 여기서 가중치는 특징을 추상화 하기 위한 개념 특징의 중요도 정보로 인해 생성된다. 중요도 정보란 개념 특징의 출현 빈도수를 포함하는 개념으로 상술한 것과 같이 중요단어이나 빈도가 낮은 경우 이를 해결하기 위해 중요 단어의 가중치를 높여준다. 빈도수는 문서내의 단어의 출현 빈도를 나타내는 것이며, 하나의 개념으로 묶인 특징에 포함된 단어의 빈도수, 즉 개념 특징의 중요도 정보를 모두 합하여 클래스(문서가 의미 하는 분야) 내의 개념에 속한 특징들의 가중치를 높이는 것을 의미한다.

평면적 특징 추상화(특징추상화 B) 방식에서는 첫 번째 특징인 physics를 기준으로 science, math가 임계값 이상의 연관도를 가지므로 {physics, science, math}가 하나의 개념 특징으로 묶인다(1130). 이를 모든 특징을 기준으로 특징추상화를 수행하면 특징 추상화 결과 특징 집합에서의 개념 특징은 {physics, government, politics}(1130), {government, politics}(1131), {science, physics}(1132), {math, physics}(1133)이 된다. 개념 특징 {politics, government}은 개념 특징 {government, politics }와 중복되므로 삭제되었다.

이상으로 본 발명에서 제시한 두 가지 특징 추상화 방법에 대해 설명하였다. 또한, 본 발명에서 제안한 2가지 추상화 방법의 효율성을 검증하기 위해서, Web-KB 문서집합을 이용한 실험을 수행하였다. 이 문서집합은 여러 대학교의 웹 페이지를 7개의 클래스로 구분된 8,282개의 웹 페이지로 구성되어 있다. 본 논문에서는 서로 링크 관계가 존재하는 데이터가 필요하기 때문에 이 중 Wisconsin 대학의 문서집합을 대상으로 실험을 실시하였고, 클래스 간에 문서의 분포가 불균형한 문제로 인해 문서 수가 10개가 되지 않는 클래스의 문서는 실험에서 제외하였다. 이로 인해 4개의 클래스로 구분된 1,224개의 문서를 사용하여 실험을 수행하였고, 문서분류 알고리즘은 MALLET 시스템에서 제공하는 나이브 베이지안 알고리즘을 사용하였다. 실험은 기존 특징 추출 방법과 제안된 특징 추출 방법의 문서분류 정확도를 비교하였고, 추가로 워드넷 기반 특징 추상화의 효능을 알아보기 위해 2가지 특징 추상화 방식의 문서분류 정확도를 비교하였다.

도 12는 본 발명의 또 다른 일실시 예에 따른 추상화 방법 검증 실험 결과를 도시한 도면이다.

도 12는 특징 추출 방법에 따른 분류 정확도와 특징 추상화 전후의 분류 정확도를 보여주고 있다. 비 추상화 중 제안 방법인 워드넷 기반 확장된 앵커 텍스트를 사용하였을 때가 기존 방법을 사용했을 때보다 분류 정확도가 모두 높았고, 약 0.2-1.0％ 정도의 정확도 향상을 보였다. 특이한 점은 기존 방법에서 앵커 텍스트를 사용하였을 때가 확장된 앵커 텍스트를 사용할 때보다 분류 정확도가 높다는 점이다. 이는 웹 문서의 특성상 앵커 텍스트 주변 단어들에서 대상 문서와 연관도가 떨어지는 단어들이 많이 존재한다는 것을 반증한다. 하지만 제안 방법을 사용하였을 때는 오히려 정확도가 올라갔으며, 이는 링크 문서들이 분류에 도움이 되는 정보를 가지고 있다는 것을 의미한다.

비 추상화와 계층적 특징 추상화(특징추상화 A), 평면적 특징 추상화(특징추상화 B)를 적용하였을 때의 성능을 비교하면 특징 추상화를 하였을 때의 정확도가 비 추상화 일 때의 정확도보다 높은 것을 알 수 있다. 특히 특징 추상화 B를 적용하였을 때의 분류 정확도가 가장 높게 향상 됐다. 마지막으로 워드넷 기반 확장된 앵커 텍스트를 사용하고 특징 추상화 B를 수행할 때 78.94％로 가장 높은 정확도를 보였다. 이는 2가지 제안 방법인 특징 추출과 특징 추상화가 모두 긍정적으로 분류 시스템의 성능을 향상시켰다는 점에서 고무적이다.

본 발명의 일실시 예에 따른 특징정보 추상화 기법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시 예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시 예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

진입링크문서 내의 앵커 텍스트 및 하나 이상의 상기 앵커 텍스트 주변의 단어들을 선정하는 주변 단어 선정 단계;
유사도 함수를 사용하여 상기 앵커 텍스트와 상기 주변 단어간 연관도를 계산하는 주변 단어 연관도 계산 단계;
제 1 임계값 이상의 상기 연관도를 가진 단어를 하나 이상의 특징으로 추출하는 특징 추출 단계;
상기 추출된 모든 특징 상호간 상기 유사도 함수를 이용해 상기 특징간 연관도를 계산하는 단계;
상기 특징 중 제 2 임계값 이상의 연관도를 가지는 2개 이상의 특징을 평균 연결법을 이용하여 개념 특징으로 추상화하는 단계;를 포함하는, 자동문서분류시스템 성능 개선을 위한 특징 추상화 방법.
제 1항 있어서,
상기 제 1 임계값은, 상기 앵커 텍스트와 상기 주변단어의 유사도 함수를 이용한 계산 결과로 도출된 0에서 1사이의 상수 중 임의의 상수를 임계값으로 설정하는 것을 포함하는 자동문서분류시스템 성능 개선을 위한 특징 추상화 방법.
제 1항에 있어서,
상기 추상화하는 단계는, 상기 특징 각각을 구성하는 단어의 빈도수가 포함된 중요도 정보를 모두 합하여 상기 개념특징의 중요도 정보로 하는 것을 포함하는 자동문서분류시스템 성능 개선을 위한 특징 추상화 방법.
진입링크문서 내의 앵커 텍스트 및 하나 이상의 상기 앵커 텍스트 주변의 단어들을 선정하는 주변 단어 선정 단계;
유사도 함수를 사용하여 상기 앵커 텍스트와 상기 주변 단어간 연관도를 계산하는 주변 단어 연관도 계산 단계;
제 1 임계값 이상의 상기 연관도를 가진 상기 주변 단어를 하나 이상의 특징으로 추출하는 특징 추출 단계;
상기 추출된 모든 특징 상호간 상기 유사도 함수를 이용해 상기 특징간 연관도를 계산하는 단계;및
상기 특징 중 어느 하나를 기준 특징으로 설정하여 상기 기준 특징과 제 2 임계값 이상의 연관도를 가진 상기 추출된 특징들을 하나의 개념 특징으로 추상화하는 단계를 포함하는 자동문서분류시스템 성능 개선을 위한 특징 추상화 방법.
제 4항에 있어서,
상기 제 1 임계값은 상기 앵커 텍스트와 상기 주변단어의 유사도 함수를 이용한 계산 결과로 도출된 0에서 1사이의 상수 중 임의의 상수를 임계값으로 설정하는 것을 포함하는 자동문서분류시스템 성능 개선을 위한 특징 추상화 방법.
제 4항에 있어서,
상기 기준 특징은, 상기 추상화된 개념 특징을 제외하고 상기 추출된 모든 특징을 기준 특징으로 하여 추상화하는 것을 포함하는 자동문서분류시스템 성능 개선을 위한 특징 추상화 방법.
제 4항에 있어서,
상기 추상화하는 단계는, 상기 특징 각각을 구성하는 단어의 빈도수가 포함된 중요도 정보를 모두 합하여 상기 개념특징의 중요도 정보로 하는 것을 포함하는 자동문서분류시스템 성능 개선을 위한 특징 추상화 방법.
제1항 내지 7항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.