KR101752255B1

KR101752255B1 - 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치

Info

Publication number: KR101752255B1
Application number: KR1020160004976A
Authority: KR
Inventors: 김대원; 이재성
Original assignee: 중앙대학교 산학협력단
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2017-06-30

Abstract

다중 레이블로 분류가 가능한 다중 레이블 패턴의 분류를 위한 최적 특징 선별 방법이 개시된다. 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법은 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 중에서 선별된 제1 특징을 구성요소로 하여 구성되며, 상기 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합을 생성하는 단계; 상기 특징 전체 집합 중에서 상기 특징 하위 집합에 속하지 않는 복수의 제2 특징과 제1 레이블간의 제1 상관 관계와 상기 제1 특징, 상기 제2 특징 및 제2 레이블간의 제2 상관 관계에 기초하여, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계; 및 상기 특징 평가값에 기초하여, 상기 복수의 제2 특징 중 하나를 상기 특징 하위 집합에 추가할 최적 특징으로 선별하는 단계를 포함한다.

Description

다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치{Method and Apparatus for selecting an optimal feature in classifying multi-label pattern, Apparatus for classifying multi-category document}

본 발명은 다중 레이블 패턴 분류에 관한 것으로, 특히 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치에 관한 것이다.

최근 다중 레이블 데이터에 대해 많은 연구들이 진행되고 있다. 다중 레이블 데이터는 하나의 패턴이 하나 이상의 레이블을 가지는 데이터로, 문서 분류, 실시간 영상 분류, 유전자 정보 분류, 사용자 정서 분류 등의 많은 분야에서 발생되어 연구되고 있다.

대표적인 다중 레이블 데이터로 웹문서의 태그 정보가 있다. 웹문서를 분류하기 위해 하나의 웹문서는 태그 정보를 가지고 있고 이를 기반으로 카테고리가 나뉘게 되는데 많은 문서들이 하나의 카테고리에 속하지 않고 여러 카테고리에 속할 수 있다. 예를 들어, 종교적 신념의 문제를 담았던 영화 "다빈치 코드"와 관련된 기사는 영화 카테고리에도 속하면서 종교 카테고리에도 속할 수 있는 문서이다.

이와 관련하여, 다중 레이블 데이터(패턴)에서 레이블과 상관관계가 높은 특징들을 선별하기 위한 연구가 활발히 진행되어 왔다. 그러나, 특징의 중요도를 계산하기 위해 여러 레이블들을 고려해야하는 다중 레이블 문제의 특성상 고차원 레이블에 대한 정확한 상관관계를 추론하기 어려운 문제가 발생한다.

따라서, 다중 레이블 데이터의 분류 정확도를 높이기 위한 기술의 개발 필요성이 대두되고 있다.

본 발명의 목적은 다중 레이블 패턴의 분류 정확도를 향상시키기 위한 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치를 제공하는 것이다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 다중 레이블로 분류가 가능한 복수의 패턴 각각을 구성하는 복수의 특징 중에서 상기 패턴의 레이블 분류를 위한 최적의 특징을 선별하는 방법은 상기 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 중에서 선별된 제1 특징을 구성요소로 하여 구성되며, 상기 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합을 생성하는 단계; 상기 특징 전체 집합 중에서 상기 특징 하위 집합에 속하지 않는 복수의 제2 특징과 제1 레이블간의 제1 상관 관계와 상기 제1 특징, 상기 제2 특징 및 제2 레이블간의 제2 상관 관계에 기초하여, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계; 및 상기 특징 평가값에 기초하여, 상기 복수의 제2 특징 중 하나를 상기 특징 하위 집합에 추가할 최적 특징으로 선별하는 단계를 포함한다.

바람직하게는, 상기 특징 하위 집합을 생성하는 단계는 상기 제2 특징 중 하나가 최적 특징으로 선별되면, 상기 최적 특징으로 선별된 상기 제2 특징을 상기 특징 하위 집합의 구성 요소인 상기 제1 특징으로 추가함으로써 갱신된 특징 하위 집합을 생성하고, 상기 특징 하위 집합을 생성하는 단계, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계 및 상기 복수의 제2 특징 중 하나를 최적 특징으로 선별하는 단계는 상기 특징 하위 집합의 구성요소의 개수가 소정 임계치에 이를 때까지 반복 수행될 수 있다.

바람직하게는, 상기 특징 하위 집합을 생성하는 단계는 상기 특징 하위 집합이 공집합인 경우에, 상기 특징 하위 집합을 공집합으로 설정하고 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계 및 상기 복수의 제2 특징 중 하나를 최적 특징으로 선별하는 단계를 수행한 후,상기 최적 특징으로 선별된 상기 제2 특징을 상기 특징 하위 집합의 구성 요소인 상기 제1 특징으로 추가함으로써 상기 특징 하위 집합을 생성할 수 있다.

바람직하게는, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계는 제1 상호 정보 척도를 이용하여 상기 제2 특징과 상기 제1 레이블간의 상관 관계를 정의하는 상기 제1 상관 관계 함수에서 상기 제1 상호 정보 척도를 이용하여 상기 제1 특징, 상기 제2 특징 및 상기 제2 레이블간의 상관 관계를 정의하는 제2 상관 관계 함수를 차감한 특징 상관 함수에 기초하여 수행될 수 있다.

바람직하게는, 상기 특징 상관 함수는 하기 수학식 1에 의하여 정의될 수 있다.

[수학식 1]

여기서, I는 제1 상호 정보 척도로서 입력 변수들 간의 상관 관계를 나타내며, f_i는 제1 특징을 나타내고, f⁺는 제2 특징을 나타내고, l_i는 제1 레이블을 나타내고, l_j는 제2 레이블을 나타내고, S는 특징 하위 집합을 나타내고, L은 레이블의 전체 집합을 나타내고,

는 제1 상관 관계 함수를 나타내고,

는 제2 상관 관계 함수를 나타낸다.

바람직하게는, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계는 제2 상호 정보 척도를 이용하여 상기 제1 특징과 상기 제2 특징간의 상관 관계를 정의하는 제1 변환 함수 및 상기 제2 레이블 하에서의 상기 제1 특징과 상기 제2 특징간의 상관 관계를 정의하는 제2 변환 함수로 구성되는 변환 제2 상관 관계 함수를 생성하는 단계; 미리 정해진 조건하에서, 상기 제2 변환 함수를 최대 2개의 변수를 가지는 상관 관계로 구성되는 중간 변환 함수로 변환하는 단계; 상기 제1 변환 함수 및 상기 중간 변환 함수에 기초하여, 상기 변환 제2 상관 관계 함수를 상기 제1 특징에 대한 조인트 엔트로피 함수, 상기 제1 상호 정보 척도 기반으로 정의된 상기 제1 특징과 상기 제2 특징간의 상관관계 및 상기 제1 상호 정보 척도 기반으로 정의된 상기 제1 특징과 상기 제2 레이블간의 상관 관계로 구성되는 제3 변환 함수로 변환하는 단계; 및 상기 제1 상관 관계 함수 및 상기 제3 변환 함수를 이용하여 생성된 변환 특징 상관 함수를 이용하여 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계를 포함한다.

바람직하게는, 상기 미리 정해진 조건은 상기 제2 변환 함수와 제2 레이블 하에서의 제1 특징의 조인트 엔트로피 함수 간의 비율이 상기 제2 상호 정보 척도 M을 기반으로 한 제1 특징과 제2 특징간의 상관 관계와 제1 특징의 조인트 엔트로피 함수간의 비율과 동일하다는 조건일 수 있다.

바람직하게는, 상기 중간 변환 함수는 상기 제1 특징에 대한 조인트 엔트로피 함수, 상기 제2 레이블 하에서의 상기 제1 특징에 대한 조인트 엔트로피 함수 및 상기 제2 상호 정보 척도를 기반으로 한 상기 제1 특징과 상기 제2 특징간의 상관관계로 구성될 수 있다.

바람직하게는, 상기 변환 특징 상관 함수는 하기 수학식 9에 의하여 정의될 수 있다.

[수학식 9]

여기서, I는 제1 상호 정보 척도로서 입력 변수들 간의 상관 관계를 나타내고, f_i는 제1 특징을 나타내고, f⁺는 제2 특징을 나타내고, l_i는 제1 레이블을 나타내고, l_j는 제2 레이블을 나타내고, S는 특징 하위 집합을 나타내고, L은 레이블의 전체 집합을 나타내고, H는 조인트 엔트로피 함수를 나타내고,

는 제1 상관 관계 함수를 나타내고,

는 제3 변환 함수를 나타낼 수 있다.

또한, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 다중 레이블로 분류가 가능한 복수의 패턴 각각을 구성하는 복수의 특징 중에서 상기 패턴의 레이블 분류를 위한 최적의 특징을 선별하는 장치는 상기 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 중에서 선별된 제1 특징을 구성요소로 하여 구성되며, 상기 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합을 생성하는 집합 관리부; 상기 특징 전체 집합 중에서 상기 특징 하위 집합에 속하지 않는 복수의 제2 특징과 제1 레이블간의 제1 상관 관계와 상기 제1 특징, 상기 제2 특징 및 제2 레이블간의 제2 상관 관계에 기초하여, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 평가값 산출부; 및 상기 특징 평가값에 기초하여, 상기 복수의 제2 특징 중 하나를 상기 특징 하위 집합에 추가할 최적 특징으로 선별하는 특징 선별부를 포함한다.

또한, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 다중 카테고리로 분류가 가능한 복수의 문서 각각을 구성하는 복수의 단어 중에서 상기 문서의 카테고리 분류를 위한 최적의 단어를 선별하는 장치를 포함하는 다중 카테고리 문서 분류 장치는 상기 복수의 단어를 모두 구성요소로서 포함하는 단어 전체 집합 중에서 선별된 제1 단어를 구성요소로 하여 구성되며, 상기문서 각각의 카테고리 분류에 이용되는 단어 하위 집합을 생성하는 집합 관리부; 상기 단어 전체 집합 중에서 상기 단어 하위 집합에 속하지 않는 복수의 제2 단어와 제1 카테고리간의 제1 상관 관계와 상기 제1 단어, 상기 제2 단어 및 제2 카테고리간의 제2 상관 관계에 기초하여, 상기 제2 단어 각각에 대한 단어 평가값을 산출하는 평가값 산출부; 및 상기 단어 평가값에 기초하여, 상기 복수의 제2 단어 중 하나를 상기 단어 하위 집합에 추가할 최적 단어로 선별하는 단어 선별부를 포함한다.

본 발명의 일 실시예에 따르면 최적 특징으로 선별된 특징들만으로 구성된 특징 하위 집합을 이용하여 패턴의 레이블을 분류하게되므로, 다중 레이블 패턴의 분류 정확도가 향상되는 효과가 있다.

또한, 본 발명의 다른 실시예에 따르면 특징들의 특징 평가값 산출을 위한 연산량 및 연산 시간이 줄어들고, 패턴의 개수가 충분히 많지 않은 경우에도 종래에 비해 특징 평가값 산출 결과의 정확성이 높아 종래에 비해 다중 레이블 패턴의 분류 결과의 정확성이 향상되는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법을 설명하기 위하여 도시한 흐름도이다.
도 2는 본 발명의 다른 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법을 설명하기 위하여 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따라 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 과정을 설명하기 위하여 도시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 장치를 설명하기 위하여 도시한 도면이다.
도 5는 본 발명의 응용예에 따른 다중 카테고리 문서 분류를 위한 최적 단어 선별 장치를 설명하기 위하여 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법의 다중 레이블 분류 정확도를 설명하기 위하여 도시한 도면이다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하, 본 발명에 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대해 상세히 설명하면 다음과 같다.

도 1은 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법을 설명하기 위하여 도시한 흐름도이다.

단계 110에서는, 특징 선별 장치가 다중 레이블로 분류가 가능한 복수의 패턴 각각을 구성하는 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 중에서 제1 특징을 구성요소로 하여 구성되며, 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합(feature subset)을 생성한다.

이때, 복수의 패턴 각각은 다중 레이블로 분류가 가능하며, 패턴 각각은 복수의 특징들로 구성될 수 있다. 여기서, 패턴은 분류의 대상으로 문서 등일 수 있고, 레이블은 카테고리(장르)일 수 있고, 특징은 단어일 수 있다.

또한, 특징 하위 집합은 패턴 각각을 특정 레이블로 분류할 때 이용되는 데이터로서, 만일 복수의 패턴 각각을 구성하는 모든 특징들을 이용하여 패턴 각각을 분류하게 되면 분류에 있어 무관한 특징이나 중복되는 특징까지 모두 이용하게 되어 오히려 다중 레이블 분류 성능이 떨어지게 되므로, 본 발명에서는 중요도가 높은 특징들로 구성된 특징 하위 집합을 이용하여 패턴 각각의 레이블을 분류함으로써, 다중 레이블 분류 성능을 높이게 된다. 이때, 특징 하위 집합에 포함되는 특징들이 패턴을 잘 설명해주는 중요한 특징들로 구성된다면 패턴의 다중 레이블 분류 성능이 보다 향상될 것이다.

한편, 특징 하위 집합은 단계 110이 최초로 수행될 경우에는 공집합일 수 있다.

단계 120에서는, 특징 선별 장치가 특징 전체 집합 중에서 특징 하위 집합에 속하지 않는 복수의 제2 특징과 제1 레이블간의 제1 상관 관계와 제1 특징, 제2 특징 및 제2 레이블간의 제2 상관 관계에 기초하여, 복수의 제2 특징 각각에 대한 특징 평가값을 산출한다.

이때, 특징 평가값의 산출은 제1 상호 정보 척도 I를 이용하여 제2 특징과 제1 레이블간의 상관 관계를 정의하는 제1 상관 관계 함수에서 제1 상호 정보 척도I를 이용하여 제1 특징, 제2 특징 및 제2 레이블간의 상관 관계를 정의하는 제2 상관 관계 함수를 차감한 특징 상관 함수에 기초하여 수행될 수 있다.

특징 상관 함수는 하기 수학식 1과 같이 정의될 수 있고, 특징 상관 함수의 계산 결과가 특징 평가 값이 된다.

[수학식 1]

여기서, I는 제1 상호 정보 척도로서 입력 변수들 간의 상관 관계를 나타내며, f_i는 제1 특징을 나타내고, f⁺는 제2 특징을 나타내고, l_i는 제1 레이블을 나타내고, l_j는 제2 레이블을 나타내고, S는 특징 하위 집합(S는 n개의 제1 특징으로 구성)을 나타내고, L은 레이블의 전체 집합(L= {l₁, ... , l_t})을 나타낸다. 또한,

는 제1 상관 관계 함수를 나타내고,

는 제2 상관 관계 함수를 나타낸다.

한편, 특징 전체 집합은 F로 명명할 수 있는데, 특징 전체 집합 F는 d(d>0)개의 특징들로 구성될 수 있으며, d는 특징 하위 집합 S에 포함된 제1 특징들의 개수 n(

)에 비해 훨씬 큰 값이라고 가정한다. 또한, 복수의 패턴은 유한한 개수를 가지며, 제2 특징들은 특징 전체 집합 F에서 특징 하위 집합 S를 차감한 d-n개의 특징들이다.

또한, 제1 상호 정보 척도 I는 수학식 2와 같이 정의될 수 있다.

[수학식 2]

여기서, X'은 공집합을 제외한 멱집합(power set)을 나타내고, H는 조인트 엔트로피 함수를 나타내고, Y는 입력 변수를 나타낸다.

조인트 엔트로피 함수 H는 수학식 3과 같이 정의될 수 있다.

[수학식 3]

여기서, X는 입력 변수를 나타내고, P(X)는 입력 변수 X에 대한 확률질량함수(Probabilistic Mass Function:PMF)를 나타낸다.

한편, 수학식 1에서 제2 상관 관계 함수는 제1 특징, 제2 특징, 제2 레이블 등 3개 변수 간의 상관 관계를 계산해야하기 때문에 계산이 매우 복잡해진다. 또한, 패턴의 개수가 충분히 많은 경우에는 문제되지 않지만, 패턴의 개수가 충분히 많지 않은 경우(패턴의 개수가 소정 임계치 미만인 경우)에는 3개 변수 간의 상관 관계를 계산해야 하는 제2 상관 관계의 연산 결과가 부정확해지는 문제가 있다. 따라서, 제2 상관 관계에 대한 연산의 복잡성과 정확도를 개선하기 위한 알고리즘이 제안될 필요가 있는데, 이에 대해서는 도 3의 실시예에서 후술한다.

단계 130에서는, 특징 선별 장치가 그 특징 평가값에 기초하여, 복수의 제2 특징 중 하나를 특징 하위 집합에 추가할 최적 특징으로 선별한다.

이때, 특징 선별 장치는 복수의 제2 특징 중에서 가장 높은 특징 평가값을 가지는 제2 특징을 최적 특징으로서 선별하게 되는데, 최적 특징이란 패턴을 가장 잘 설명해줌으로써 패턴의 레이블 분류에 있어 중요한 특징을 말한다.

도 2는 본 발명의 다른 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법을 설명하기 위하여 도시한 흐름도이다.

단계 210에서는, 특징 선별 장치가 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 중에서 선별된 제1 특징을 구성요소로 하여 구성되며, 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합을 생성한다.

단계 215에서는, 특징 선별 장치가 특징 하위 집합의 구성요소의 개수가 소정 임계치보다 큰지를 판단한다.

만일, 특징 하위 집합의 구성요소의 개수가 소정 임계치 이하라면 특징 선별 장치는 단계 220으로 넘어가 다음 동작을 수행하게 되지만, 그렇지 않다면 모든 동작을 종료하게 된다.

단계 220에서는, 특징 하위 집합의 구성요소의 개수가 소정 임계치 이하라고 판단되는 경우, 특징 선별 장치가 특징 전체 집합 중에서 특징 하위 집합에 속하지 않는 복수의 제2 특징과 제1 레이블간의 제1 상관 관계와 제1 특징, 제2 특징 및 제2 레이블간의 제2 상관 관계에 기초하여, 복수의 제2 특징 각각에 대한 특징 평가값을 산출한다.

단계 230에서는, 특징 선별 장치가 그 특징 평가값에 기초하여, 복수의 제2 특징 중 하나를 특징 하위 집합에 추가할 최적 특징으로 선별한다.

다음으로, 특징 선별 장치는 단계 210으로 돌아가서 그 최적 특징으로 선별된 제2 특징을 특징 하위 집합의 구성 요소인 제1 특징으로 추가함으로써 갱신된 특징 하위 집합을 생성할 수 있다. 이를 통해, 특징 하위 집합에는 제1 특징이 하나 추가된다. 특징 선별 장치는 특징 하위 집합의 구성요소의 개수가 소정 임계치에 이를 때까지 단계 210 내지 단계 230을 반복해서 수행하게 된다.

한편, 단계 210 내지 단계 230을 최초로 수행하게 되면, 특징 하위 집합이 공집합인 상태에서 프로세스가 진행될 수 있는데, 이 경우에는 특징 하위 집합을 공집합으로 설정하고 단계 210 내지 단계 230을 수행하고 이를 통해 가장 높은 특징 평가값을 가지는 제2 특징을 최적 특징으로 선별하여 공집한인 특징 하위 집합의 구성요소로서 추가함으로써, 1개의 제1 특징을 포함하는 특징 하위 집합을 생성하게 된다.

이와 같은 과정을 통해, 한 번의 흐름도상의 동작 싸이클이 종료될 때마다 특징 하위 집합에는 평가값이 높은 제2 특징이 제1 특징으로서 한 개씩 추가되게 되고, 최종적으로 특징 하위 집합에 임계치에 해당하는 개수의 제1 특징이 포함되게 되면 특징 선별 장치는 동작을 종료하게 된다.

본 발명은 이와 같이 제2 특징들 중에서 최적 특징으로 선별된 제2 특징만으로 특징 하위 집합이 구성되게 되므로, 본 발명에 따른 특징 하위 집합을 이용하여 패턴의 레이블을 분류하게 되면 분류의 정확도가 향상되게 된다.

도 3은 본 발명의 일 실시예에 따라 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 과정을 설명하기 위하여 도시한 흐름도이다.

단계 310에서는, 특징 선별 장치가 제2 상호 정보 척도를 이용하여 제1 특징과 제2 특징간의 상관 관계를 정의하는 제1 변환 함수 및 제2 레이블 하에서의 제1 특징과 제2 특징간의 상관 관계를 정의하는 제2 변환 함수로 구성되는 변환 제2 상관 관계 함수를 생성한다.

제1 변환 함수 및 제2 변환 함수를 이용하여 생성된 변환 제2 상관 관계 함수는 수학식 4와 같이 표시될 수 있는데,이는 수학식 5와 같은 연산을 통해 산출될 수 있다.

[수학식 4]

[수학식 5]

여기서, M은 제2 상호 정보 척도를 나타내고,

은 제1 특징과 제2 특징간의 상관 관계를 정의하는 제1 변환 함수를 나타내고,

은 제2 레이블 하에서의 제1 특징과 제2 특징간의 상관 관계를 정의하는 제2 변환 함수를 나타낸다.

한편, 제2 상호 정보 척도 M은 하기의 수학식 6과 같이 정의될 수 있다.

[수학식 6]

여기서, H는 전술한 바와 같이 조인트 엔트로피 함수이고, X, Y, Z 각각은 입력 변수이다.

단계 320에서는, 특징 선별 장치가 미리 정해진 조건하에서, 제2 변환 함수를 최대 2개의 변수를 가지는 상관 관계로 구성되는 중간 변환 함수로 변환한다.

이와 관련하여, 미리 정해진 조건은 수학식 7의 가정이 성립한다는 조건으로 , 수학식 7의 수학식이 성립한다는 가정하에 수학식 8과 같이 제2 변환 함수가 중간 변환 함수로 변환된다.

[수학식 7]

수학식 7에 따르면, 왼쪽 텀의 분모의 제2 상호 정보 척도 M을 기반으로 한 제2 레이블 하에서의 제1 특징과 제2 특징간의 상관 관계를 정의하는 제2 변환 함수

와 분자의 제2 레이블 하에서의 제1 특징의 조인트 엔트로피 함수

간의 비율이 오른쪽 텀 분모의 제2 상호 정보 척도 M을 기반으로 한 제1 특징과 제2 특징간의 상관 관계

와 분자의 제1 특징의 조인트 엔트로피 함수간의 비율과 동일하다고 가정한다.

[수학식 8]

수학식 8을 참조하면, 중간 변환 함수는 분모에 제1 특징에 대한 조인트 엔트로피 함수

가 위치하고, 분자에 제2 레이블 하에서의 제1 특징에 대한 조인트 엔트로피 함수

가 위치하는 분수식에 제2 상호 정보 척도 M을 기반으로 한 제1 특징과 제2 특징간의 상관관계

가 곱해진 형태를 가지는 것을 알 수 있다. 즉, 수학식 8의 중간 변환 함수는 1개의 변수를 가지는

와 2개의 변수를 가지는

및

로 구성되는 것을 알 수 있다.

수학식 7의 조건이 성립한다는 것은 이하의 수학식 9 내지 13에 의하여 증명된다.

제2 상호 정보 척도 M을 기반으로 한 제1 특징 f_i 와 제2 특징 f⁺간의 상관 관계의 값은 수학식 9와 같은 범위를 가진다는 것이 이미 알려져 있다.

[수학식 9]

수학식 9를 참조하면,

의 값은 0 이상이면서 제1 특징 f_i 또는 제2 특징 f⁺의 조인트 엔트로피 값보다는 작거나 같은 범위를 가지는 것을 알 수 있다.

이때, 제1 특징 f_i와 제2 특징 f⁺가 제1 특징 f_i와 제2 특징 f⁺의 유사도를 조인트 엔트로피를 이용하여 정의하면 수학식 10과 같이 정의될 수 있다.

[수학식 10]

수학식 10에서

의 값이

의 값보다 커질수 없으므로

이며 제1 특징 f_i가 제2 특징 f⁺와 상이할수록 U의 값이 작아진다. 그런데 이미 선택된 제1 특징 f_i에 의해 제2 레이블 l_j의 정보량 중 이미 설명된 부분을 제2 특징 f+가 재차 설명하는 것은 의미가 없으므로, 제2 특징 f+가 제1 특징 f_i와 상이하여 U의 값이 0에 가까운 것이 바람직하다.

제2 레이블 l_j를 고려한 상황 하에서 제1 특징 f_i와 제2 특징 f⁺사이의 조인트 엔트로피 비율은 수학식 11과 같이 정의될 수 있다.

[수학식 11]

수학식 11에서도 수학식 10과 마찬가지로

의 값은

의 값보다 커질 수 없으므로,

이며, 제1 특징 f_i가 제2 특징 f⁺와 상이할수록 v의 값이 작아진다. 즉, u와 v는 동일한 범위를 가지고 있고, 제1 특징 f_i가 제2 특징 f⁺와 상이할수록 u와 v 모두 값이 작아지는 동일한 특성을 가지고 있으므로, 응용 수학 분야에서 근사값을 추정(approximation)하는 일반적인 방법을 적용하게 되면

와 같은 비례식이 성립함을 알 수 있다. . 이와 같은 비례식은 수학식 12의 과정을 거쳐 최종적으로 수학식 7이 산출되게 된다.

[수학식 12]

단계 330에서는, 특징 선별 장치가 제1 변환 함수 및 중간 변환 함수에 기초하여, 변환 제2 상관 관계 함수를 제1 특징에 대한 조인트 엔트로피 함수, 제1 상호 정보 척도 기반으로 정의된 제1 특징과 제2 특징간의 상관관계 및 제1 상호 정보 척도 기반으로 정의된 제1 특징과 제2 레이블간의 상관 관계로 구성되어, 최대 2개의 변수를 가지는 상관 관계로 구성된 제3 변환 함수로 변환한다.

보다 구체적으로, 특징 선별 장치는 수학식 13에서와 같이 제1 변환 함수 및 중간 변환 함수를 이용하여 변환 제2 상관 관계 함수를 제3 변환 함수로 변환하게 된다.

[수학식 13]

여기서,

는 제1 변환 함수를 나타내고,

는 중간 변환 함수를 나타내고,

는 제3 변환 함수를 나타낸다.

한편, 수학식 13의 마지막 줄에서

는

로 변환되는데, 이는 수학식 14에 의해 변환되는 것이다.

[수학식 14]

다만, 수학식 14가 성립하려면 제1 상호 정보 척도 I와 제2 상호 정보 척도 M의 입력 변수가 2개여야 한다. 만일, 제1 상호 정보 척도 I와 제2 상호 정보 척도 M의 입력 변수가 3개라면 수학식 14는 성립하지 않는다.

단계 340에서는, 특징 선별 장치가 제1 상관 관계 함수 및 제3 변환 함수를 이용하여 생성된 변환 특징 상관 함수를 이용하여 복수의 제2 특징 각각에 대한 특징 평가값을 산출한다.

이때, 변환 특징 상관 함수는 수학식 15와 같이 정의될 수 있다.

[수학식 15]

는 제1 상관 관계 함수를 나타내고,

는 제3 변환 함수를 나타낸다.

수학식 15를 참조하면, 변환 특징 상관 함수에서는 3개의 변수간의 상관 관계를 연산하는 부분이 없어진 것을 알 수 있다.

이와 같이, 본 발명의 다른 실시예에 따르면 수학식 16의 변환 특징 상관 함수를 이용하여 제2 특징의 특징 평가값을 산출함으로써, 특징 평가값 연산을 단순화하여 연산량 및 연산 시간을 줄일 수 있는 장점이 있다. 또한, 수학식 16의 변환 특징 상관 함수에서는 수학식 1의 특징 상관 함수에서의 3개 변수에 대한 함수인 제2 상관 관계 함수 대신 최대 2개 변수를 가지는 함수인 제3 변환 함수를 이용하기 때문에 패턴의 개수가 충분히 많지 않은 경우에도 제2 특징의 특징 평가값의 연산 결과의 정확성이 향상되는 장점이 있다. 결과적으로, 이를 통해 다중 레이블 패턴의 분류 결과의 정확성이 향상된다.

도 4는 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 장치를 설명하기 위하여 도시한 도면이다.

도 4를 참조하면, 본 발명의 일 실시예에 따른 최적 특징 선별 장치(400)는 집합 관리부(410), 평가값 산출부(420) 및 특징 선별부(430)를 포함한다.

집합 관리부(410)는 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 F 중에서 선별된 제1 특징 f_i를 구성요소로 하여 구성되며, 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합 S를 생성한다.

평가값 산출부(420)는 특징 전체 집합 F 중에서 특징 하위 집합 S에 속하지 않는 복수의 제2 특징 f⁺와 제1 레이블 l_i간의 제1 상관 관계와 제1 특징 f_i, 제2 특징 f⁺및 제2 레이블 l_j간의 제2 상관 관계에 기초하여, 복수의 제2 특징 f⁺각각에 대한 특징 평가값 Q(f⁺)를 산출한다.

특징 선별부(430)는 그 특징 평가값 Q(f⁺)에 기초하여, 복수의 제2 특징 f⁺ 중 하나를 특징 하위 집합 S에 추가할 최적 특징으로 선별한다.

다음으로, 특징 선별부(430)는 최적 특징으로 선별된 제2 특징 f⁺를 집합 관리부(410)에게 전달하고, 집합 관리부(410)는 그 최적 특징으로 선별된 제2 특징 f⁺를 특징 하위 집합의 구성 요소인 제1 특징 f_i로 추가함으로써 갱신된 특징 하위 집합 S를 생성하게 된다. 전술한 바와 같이, 집합 관리부(410)는 특징 하위 집합 S의 구성요소의 개수가 소정 임계치에 이를 때까지 특징 선별부(430)로부터 전달되는 최적 특징으로 선별된 제2 특징 f⁺를 1개씩 특징 하위 집합 S에 추가하게 된다.

다만, 다른 실시예에서는 최적 특징으로 선별된 제2 특징 f⁺가 2개 이상인 경우에는 특징 선별부(430)로부터 전달되는 최적 특징으로 선별된 2개 이상의 제2 특징 f⁺를 2개 이상씩 특징 하위 집합 S에 추가할 수도 있다.

도 5는 본 발명의 응용예에 따른 다중 카테고리 문서 분류를 위한 최적 단어 선별 장치를 설명하기 위하여 도시한 도면이다.

도 5를 참조하면, 본 발명의 응용예에 따른 최적 단어 선별 장치(500)는 집합 관리부(510), 평가값 산출부(520) 및 단어 선별부(530)를 포함한다.

집합 관리부(510)는 다중 카테고리로 분류가 가능한 복수의 문서 각각을 구성하는 복수의 단어를 모두 구성요소로서 포함하는 단어 전체 집합 중에서 선별된 제1 단어를 구성요소로 하여 구성되며, 복수의 문서 각각의 카테고리(장르) 분류에 이용되는 단어 하위 집합을 생성한다.

평가값 산출부(520)는 단어 전체 집합 중에서 단어 하위 집합에 속하지 않는 복수의 제2 단어와 제1 카테고리간의 제1 상관 관계와 제1 단어, 제2 단어 및 제2 카테고리간의 제2 상관 관계에 기초하여 제2 단어 각각에 대한 단어 평가값을 산출한다.

단어 선별부(530)는 그 단어 평가값에 기초하여, 복수의 제2 단어 중 하나를 단어 하위 집합에 추가할 최적 단어로 선별한다.

도 6은 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법의 다중 레이블 분류 정확도를 설명하기 위하여 도시한 도면이다.

도 6(a) 내지 도 6(f)를 참조하면, 다양한 케이스에서의 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법의 다중 레이블 분류 정확도가 표시되어 있는데, 도 6(a) Scene data set, 도 6(b) Genbase data set, 도 6(c) Medical data set, 도 6(d) Enron data set, 도 6(e) LLog data set, 도 6(f) Slashdot data set 등 6가지의 케이스에 대하여 ELA+CHI+MLNB(Multi-label Naive Bayes Classifier), PPT+CHI+MLNB 및 MF-Stat+MLNB 등의 3개의 종래 기술과 본 발명(Proposed+MLNB)의 정확도가 비교되어 있다.

이에 기초할 때, 6개의 모든 케이스에서 본 발명(Proposed+MLNB)의 정확도가 가장 높게 나타나고 있어, 다중 레이블 패턴의 분류에 있어 본 발명에 따른 알고리즘이 효과적임을 알 수 있다.

상기와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

다중 레이블로 분류가 가능한 복수의 패턴 각각을 구성하는 복수의 특징 중에서 상기 패턴의 레이블 분류를 위한 최적의 특징을 선별하는 방법에 있어서,
집합 관리부가, 상기 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 중에서 선별된 제1 특징을 구성요소로 하여 구성되며, 상기 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합을 생성하는 단계;
평가값 산출부가, 상기 특징 전체 집합 중에서 상기 특징 하위 집합에 속하지 않는 복수의 제2 특징과 제1 레이블간의 제1 상관 관계와 상기 제1 특징, 상기 제2 특징 및 제2 레이블간의 제2 상관 관계에 기초하여, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계; 및
특징 선별부가, 상기 특징 평가값에 기초하여, 상기 복수의 제2 특징 중 하나를 상기 특징 하위 집합에 추가할 최적 특징으로 선별하는 단계를 포함하는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
제1항에 있어서,
상기 특징 하위 집합을 생성하는 단계는 상기 집합 관리부에 의해 수행되고,
상기 특징 하위 집합을 생성하는 단계는 상기 제2 특징 중 하나가 최적 특징으로 선별되면, 상기 최적 특징으로 선별된 상기 제2 특징을 상기 특징 하위 집합의 구성 요소인 상기 제1 특징으로 추가함으로써 갱신된 특징 하위 집합을 생성하고,
상기 특징 하위 집합을 생성하는 단계, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계 및 상기 복수의 제2 특징 중 하나를 최적 특징으로 선별하는 단계는 상기 특징 하위 집합의 구성요소의 개수가 소정 임계치에 이를 때까지 반복 수행되는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
제1항에 있어서,
상기 특징 하위 집합을 생성하는 단계는 상기 집합 관리부에 의해 수행되고,
상기 특징 하위 집합을 생성하는 단계는
상기 특징 하위 집합이 공집합인 경우에, 상기 특징 하위 집합을 공집합으로 설정하고 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계 및 상기 복수의 제2 특징 중 하나를 최적 특징으로 선별하는 단계를 수행한 후,상기 최적 특징으로 선별된 상기 제2 특징을 상기 특징 하위 집합의 구성 요소인 상기 제1 특징으로 추가함으로써 상기 특징 하위 집합을 생성하는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
제1항에 있어서,
상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계는 상기 평가값 산출부에 의해 수행되고,
상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계는
제1 상호 정보 척도를 이용하여 상기 제2 특징과 상기 제1 레이블간의 상관 관계를 정의하는 상기 제1 상관 관계 함수에서 상기 제1 상호 정보 척도를 이용하여 상기 제1 특징, 상기 제2 특징 및 상기 제2 레이블간의 상관 관계를 정의하는 제2 상관 관계 함수를 차감한 특징 상관 함수에 기초하여 수행되는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
제4항에 있어서,
상기 특징 상관 함수는 하기 수학식 1에 의하여 정의되는 것을 특징으로 하는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
[수학식 1]

여기서, I는 제1 상호 정보 척도로서 입력 변수들 간의 상관 관계를 나타내며, f_i는 제1 특징을 나타내고, f⁺는 제2 특징을 나타내고, l_i는 제1 레이블을 나타내고, l_j는 제2 레이블을 나타내고, S는 특징 하위 집합을 나타내고, L은 레이블의 전체 집합을 나타내고,
는 제1 상관 관계 함수를 나타내고,
는 제2 상관 관계 함수를 나타낸다.
제4항에 있어서,
상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계는 상기 평가값 산출부에 의해 수행되고,
상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계는
제2 상호 정보 척도를 이용하여 상기 제1 특징과 상기 제2 특징간의 상관 관계를 정의하는 제1 변환 함수 및 상기 제2 레이블 하에서의 상기 제1 특징과 상기 제2 특징간의 상관 관계를 정의하는 제2 변환 함수로 구성되는 변환 제2 상관 관계 함수를 생성하는 단계;
미리 정해진 조건하에서, 상기 제2 변환 함수를 최대 2개의 변수를 가지는 상관 관계로 구성되는 중간 변환 함수로 변환하는 단계;
상기 제1 변환 함수 및 상기 중간 변환 함수에 기초하여, 상기 변환 제2 상관 관계 함수를 상기 제1 특징에 대한 조인트 엔트로피 함수, 상기 제1 상호 정보 척도 기반으로 정의된 상기 제1 특징과 상기 제2 특징간의 상관관계 및 상기 제1 상호 정보 척도 기반으로 정의된 상기 제1 특징과 상기 제2 레이블간의 상관 관계로 구성되는 제3 변환 함수로 변환하는 단계; 및
상기 제1 상관 관계 함수 및 상기 제3 변환 함수를 이용하여 생성된 변환 특징 상관 함수를 이용하여 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계를 포함하는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
제6항에 있어서,
상기 미리 정해진 조건은

상기 제2 변환 함수와 제2 레이블 하에서의 상기 제1 특징의 조인트 엔트로피 함수 간의 비율이 상기 제2 상호 정보 척도 M을 기반으로 한 상기 제1 특징과 상기 제2 특징간의 상관 관계와 상기 제1 특징의 조인트 엔트로피 함수간의 비율과 동일하다는 조건인 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
제6항에 있어서,
상기 중간 변환 함수는
상기 제1 특징에 대한 조인트 엔트로피 함수, 상기 제2 레이블 하에서의 상기 제1 특징에 대한 조인트 엔트로피 함수 및 상기 제2 상호 정보 척도를 기반으로 한 상기 제1 특징과 상기 제2 특징간의 상관관계로 구성되는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
제6항에 있어서,
상기 변환 특징 상관 함수는
하기 수학식 9에 의하여 정의되는 것을 특징으로 하는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
[수학식 9]

여기서, I는 제1 상호 정보 척도로서 입력 변수들 간의 상관 관계를 나타내고, f_i는 제1 특징을 나타내고, f⁺는 제2 특징을 나타내고, l_i는 제1 레이블을 나타내고, l_j는 제2 레이블을 나타내고, S는 특징 하위 집합을 나타내고, L은 레이블의 전체 집합을 나타내고, H는 조인트 엔트로피 함수를 나타내고,
는 제1 상관 관계 함수를 나타내고,
는 제3 변환 함수를 나타낸다.
다중 레이블로 분류가 가능한 복수의 패턴 각각을 구성하는 복수의 특징 중에서 상기 패턴의 레이블 분류를 위한 최적의 특징을 선별하는 장치에 있어서,
상기 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 중에서 선별된 제1 특징을 구성요소로 하여 구성되며, 상기 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합을 생성하는 집합 관리부;
상기 특징 전체 집합 중에서 상기 특징 하위 집합에 속하지 않는 복수의 제2 특징과 제1 레이블간의 제1 상관 관계와 상기 제1 특징, 상기 제2 특징 및 제2 레이블간의 제2 상관 관계에 기초하여, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 평가값 산출부; 및
상기 특징 평가값에 기초하여, 상기 복수의 제2 특징 중 하나를 상기 특징 하위 집합에 추가할 최적 특징으로 선별하는 특징 선별부를 포함하는 다중 레이블 패턴 분류를 위한 최적 특징 선별 장치.
다중 카테고리로 분류가 가능한 복수의 문서 각각을 구성하는 복수의 단어 중에서 상기 문서의 카테고리 분류를 위한 최적의 단어를 선별하는 장치를 포함하는 다중 카테고리 문서 분류 장치에 있어서,
상기 복수의 단어를 모두 구성요소로서 포함하는 단어 전체 집합 중에서 선별된 제1 단어를 구성요소로 하여 구성되며, 상기 문서 각각의 카테고리 분류에 이용되는 단어 하위 집합을 생성하는 집합 관리부;
상기 단어 전체 집합 중에서 상기 단어 하위 집합에 속하지 않는 복수의 제2 단어와 제1 카테고리간의 제1 상관 관계와 상기 제1 단어, 상기 제2 단어 및 제2 카테고리간의 제2 상관 관계에 기초하여, 상기 제2 단어 각각에 대한 단어 평가값을 산출하는 평가값 산출부; 및
상기 단어 평가값에 기초하여, 상기 복수의 제2 단어 중 하나를 상기 단어 하위 집합에 추가할 최적 단어로 선별하는 단어 선별부를 포함하는 다중 카테고리 문서 분류 장치.