KR101752255B1 - 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치 - Google Patents

다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치 Download PDF

Info

Publication number
KR101752255B1
KR101752255B1 KR1020160004976A KR20160004976A KR101752255B1 KR 101752255 B1 KR101752255 B1 KR 101752255B1 KR 1020160004976 A KR1020160004976 A KR 1020160004976A KR 20160004976 A KR20160004976 A KR 20160004976A KR 101752255 B1 KR101752255 B1 KR 101752255B1
Authority
KR
South Korea
Prior art keywords
feature
label
correlation
subset
features
Prior art date
Application number
KR1020160004976A
Other languages
English (en)
Inventor
김대원
이재성
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Priority to KR1020160004976A priority Critical patent/KR101752255B1/ko
Application granted granted Critical
Publication of KR101752255B1 publication Critical patent/KR101752255B1/ko

Links

Images

Classifications

    • G06F17/30705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • G06F17/218
    • G06F17/30011

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

다중 레이블로 분류가 가능한 다중 레이블 패턴의 분류를 위한 최적 특징 선별 방법이 개시된다. 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법은 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 중에서 선별된 제1 특징을 구성요소로 하여 구성되며, 상기 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합을 생성하는 단계; 상기 특징 전체 집합 중에서 상기 특징 하위 집합에 속하지 않는 복수의 제2 특징과 제1 레이블간의 제1 상관 관계와 상기 제1 특징, 상기 제2 특징 및 제2 레이블간의 제2 상관 관계에 기초하여, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계; 및 상기 특징 평가값에 기초하여, 상기 복수의 제2 특징 중 하나를 상기 특징 하위 집합에 추가할 최적 특징으로 선별하는 단계를 포함한다.

Description

다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치{Method and Apparatus for selecting an optimal feature in classifying multi-label pattern, Apparatus for classifying multi-category document}
본 발명은 다중 레이블 패턴 분류에 관한 것으로, 특히 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치에 관한 것이다.
최근 다중 레이블 데이터에 대해 많은 연구들이 진행되고 있다. 다중 레이블 데이터는 하나의 패턴이 하나 이상의 레이블을 가지는 데이터로, 문서 분류, 실시간 영상 분류, 유전자 정보 분류, 사용자 정서 분류 등의 많은 분야에서 발생되어 연구되고 있다.
대표적인 다중 레이블 데이터로 웹문서의 태그 정보가 있다. 웹문서를 분류하기 위해 하나의 웹문서는 태그 정보를 가지고 있고 이를 기반으로 카테고리가 나뉘게 되는데 많은 문서들이 하나의 카테고리에 속하지 않고 여러 카테고리에 속할 수 있다. 예를 들어, 종교적 신념의 문제를 담았던 영화 "다빈치 코드"와 관련된 기사는 영화 카테고리에도 속하면서 종교 카테고리에도 속할 수 있는 문서이다.
이와 관련하여, 다중 레이블 데이터(패턴)에서 레이블과 상관관계가 높은 특징들을 선별하기 위한 연구가 활발히 진행되어 왔다. 그러나, 특징의 중요도를 계산하기 위해 여러 레이블들을 고려해야하는 다중 레이블 문제의 특성상 고차원 레이블에 대한 정확한 상관관계를 추론하기 어려운 문제가 발생한다.
따라서, 다중 레이블 데이터의 분류 정확도를 높이기 위한 기술의 개발 필요성이 대두되고 있다.
본 발명의 목적은 다중 레이블 패턴의 분류 정확도를 향상시키기 위한 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치를 제공하는 것이다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 다중 레이블로 분류가 가능한 복수의 패턴 각각을 구성하는 복수의 특징 중에서 상기 패턴의 레이블 분류를 위한 최적의 특징을 선별하는 방법은 상기 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 중에서 선별된 제1 특징을 구성요소로 하여 구성되며, 상기 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합을 생성하는 단계; 상기 특징 전체 집합 중에서 상기 특징 하위 집합에 속하지 않는 복수의 제2 특징과 제1 레이블간의 제1 상관 관계와 상기 제1 특징, 상기 제2 특징 및 제2 레이블간의 제2 상관 관계에 기초하여, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계; 및 상기 특징 평가값에 기초하여, 상기 복수의 제2 특징 중 하나를 상기 특징 하위 집합에 추가할 최적 특징으로 선별하는 단계를 포함한다.
바람직하게는, 상기 특징 하위 집합을 생성하는 단계는 상기 제2 특징 중 하나가 최적 특징으로 선별되면, 상기 최적 특징으로 선별된 상기 제2 특징을 상기 특징 하위 집합의 구성 요소인 상기 제1 특징으로 추가함으로써 갱신된 특징 하위 집합을 생성하고, 상기 특징 하위 집합을 생성하는 단계, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계 및 상기 복수의 제2 특징 중 하나를 최적 특징으로 선별하는 단계는 상기 특징 하위 집합의 구성요소의 개수가 소정 임계치에 이를 때까지 반복 수행될 수 있다.
바람직하게는, 상기 특징 하위 집합을 생성하는 단계는 상기 특징 하위 집합이 공집합인 경우에, 상기 특징 하위 집합을 공집합으로 설정하고 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계 및 상기 복수의 제2 특징 중 하나를 최적 특징으로 선별하는 단계를 수행한 후,상기 최적 특징으로 선별된 상기 제2 특징을 상기 특징 하위 집합의 구성 요소인 상기 제1 특징으로 추가함으로써 상기 특징 하위 집합을 생성할 수 있다.
바람직하게는, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계는 제1 상호 정보 척도를 이용하여 상기 제2 특징과 상기 제1 레이블간의 상관 관계를 정의하는 상기 제1 상관 관계 함수에서 상기 제1 상호 정보 척도를 이용하여 상기 제1 특징, 상기 제2 특징 및 상기 제2 레이블간의 상관 관계를 정의하는 제2 상관 관계 함수를 차감한 특징 상관 함수에 기초하여 수행될 수 있다.
바람직하게는, 상기 특징 상관 함수는 하기 수학식 1에 의하여 정의될 수 있다.
[수학식 1]
Figure 112016004415342-pat00001
여기서, I는 제1 상호 정보 척도로서 입력 변수들 간의 상관 관계를 나타내며, fi는 제1 특징을 나타내고, f+는 제2 특징을 나타내고, li는 제1 레이블을 나타내고, lj는 제2 레이블을 나타내고, S는 특징 하위 집합을 나타내고, L은 레이블의 전체 집합을 나타내고,
Figure 112016004415342-pat00002
는 제1 상관 관계 함수를 나타내고,
Figure 112016004415342-pat00003
는 제2 상관 관계 함수를 나타낸다.
바람직하게는, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계는 제2 상호 정보 척도를 이용하여 상기 제1 특징과 상기 제2 특징간의 상관 관계를 정의하는 제1 변환 함수 및 상기 제2 레이블 하에서의 상기 제1 특징과 상기 제2 특징간의 상관 관계를 정의하는 제2 변환 함수로 구성되는 변환 제2 상관 관계 함수를 생성하는 단계; 미리 정해진 조건하에서, 상기 제2 변환 함수를 최대 2개의 변수를 가지는 상관 관계로 구성되는 중간 변환 함수로 변환하는 단계; 상기 제1 변환 함수 및 상기 중간 변환 함수에 기초하여, 상기 변환 제2 상관 관계 함수를 상기 제1 특징에 대한 조인트 엔트로피 함수, 상기 제1 상호 정보 척도 기반으로 정의된 상기 제1 특징과 상기 제2 특징간의 상관관계 및 상기 제1 상호 정보 척도 기반으로 정의된 상기 제1 특징과 상기 제2 레이블간의 상관 관계로 구성되는 제3 변환 함수로 변환하는 단계; 및 상기 제1 상관 관계 함수 및 상기 제3 변환 함수를 이용하여 생성된 변환 특징 상관 함수를 이용하여 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계를 포함한다.
바람직하게는, 상기 미리 정해진 조건은 상기 제2 변환 함수와 제2 레이블 하에서의 제1 특징의 조인트 엔트로피 함수 간의 비율이 상기 제2 상호 정보 척도 M을 기반으로 한 제1 특징과 제2 특징간의 상관 관계와 제1 특징의 조인트 엔트로피 함수간의 비율과 동일하다는 조건일 수 있다.
바람직하게는, 상기 중간 변환 함수는 상기 제1 특징에 대한 조인트 엔트로피 함수, 상기 제2 레이블 하에서의 상기 제1 특징에 대한 조인트 엔트로피 함수 및 상기 제2 상호 정보 척도를 기반으로 한 상기 제1 특징과 상기 제2 특징간의 상관관계로 구성될 수 있다.
바람직하게는, 상기 변환 특징 상관 함수는 하기 수학식 9에 의하여 정의될 수 있다.
[수학식 9]
Figure 112016004415342-pat00004
여기서, I는 제1 상호 정보 척도로서 입력 변수들 간의 상관 관계를 나타내고, fi는 제1 특징을 나타내고, f+는 제2 특징을 나타내고, li는 제1 레이블을 나타내고, lj는 제2 레이블을 나타내고, S는 특징 하위 집합을 나타내고, L은 레이블의 전체 집합을 나타내고, H는 조인트 엔트로피 함수를 나타내고,
Figure 112016004415342-pat00005
는 제1 상관 관계 함수를 나타내고,
Figure 112016004415342-pat00006
는 제3 변환 함수를 나타낼 수 있다.
또한, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 다중 레이블로 분류가 가능한 복수의 패턴 각각을 구성하는 복수의 특징 중에서 상기 패턴의 레이블 분류를 위한 최적의 특징을 선별하는 장치는 상기 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 중에서 선별된 제1 특징을 구성요소로 하여 구성되며, 상기 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합을 생성하는 집합 관리부; 상기 특징 전체 집합 중에서 상기 특징 하위 집합에 속하지 않는 복수의 제2 특징과 제1 레이블간의 제1 상관 관계와 상기 제1 특징, 상기 제2 특징 및 제2 레이블간의 제2 상관 관계에 기초하여, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 평가값 산출부; 및 상기 특징 평가값에 기초하여, 상기 복수의 제2 특징 중 하나를 상기 특징 하위 집합에 추가할 최적 특징으로 선별하는 특징 선별부를 포함한다.
또한, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 다중 카테고리로 분류가 가능한 복수의 문서 각각을 구성하는 복수의 단어 중에서 상기 문서의 카테고리 분류를 위한 최적의 단어를 선별하는 장치를 포함하는 다중 카테고리 문서 분류 장치는 상기 복수의 단어를 모두 구성요소로서 포함하는 단어 전체 집합 중에서 선별된 제1 단어를 구성요소로 하여 구성되며, 상기문서 각각의 카테고리 분류에 이용되는 단어 하위 집합을 생성하는 집합 관리부; 상기 단어 전체 집합 중에서 상기 단어 하위 집합에 속하지 않는 복수의 제2 단어와 제1 카테고리간의 제1 상관 관계와 상기 제1 단어, 상기 제2 단어 및 제2 카테고리간의 제2 상관 관계에 기초하여, 상기 제2 단어 각각에 대한 단어 평가값을 산출하는 평가값 산출부; 및 상기 단어 평가값에 기초하여, 상기 복수의 제2 단어 중 하나를 상기 단어 하위 집합에 추가할 최적 단어로 선별하는 단어 선별부를 포함한다.
본 발명의 일 실시예에 따르면 최적 특징으로 선별된 특징들만으로 구성된 특징 하위 집합을 이용하여 패턴의 레이블을 분류하게되므로, 다중 레이블 패턴의 분류 정확도가 향상되는 효과가 있다.
또한, 본 발명의 다른 실시예에 따르면 특징들의 특징 평가값 산출을 위한 연산량 및 연산 시간이 줄어들고, 패턴의 개수가 충분히 많지 않은 경우에도 종래에 비해 특징 평가값 산출 결과의 정확성이 높아 종래에 비해 다중 레이블 패턴의 분류 결과의 정확성이 향상되는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법을 설명하기 위하여 도시한 흐름도이다.
도 2는 본 발명의 다른 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법을 설명하기 위하여 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따라 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 과정을 설명하기 위하여 도시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 장치를 설명하기 위하여 도시한 도면이다.
도 5는 본 발명의 응용예에 따른 다중 카테고리 문서 분류를 위한 최적 단어 선별 장치를 설명하기 위하여 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법의 다중 레이블 분류 정확도를 설명하기 위하여 도시한 도면이다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
이하, 본 발명에 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대해 상세히 설명하면 다음과 같다.
도 1은 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법을 설명하기 위하여 도시한 흐름도이다.
단계 110에서는, 특징 선별 장치가 다중 레이블로 분류가 가능한 복수의 패턴 각각을 구성하는 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 중에서 제1 특징을 구성요소로 하여 구성되며, 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합(feature subset)을 생성한다.
이때, 복수의 패턴 각각은 다중 레이블로 분류가 가능하며, 패턴 각각은 복수의 특징들로 구성될 수 있다. 여기서, 패턴은 분류의 대상으로 문서 등일 수 있고, 레이블은 카테고리(장르)일 수 있고, 특징은 단어일 수 있다.
또한, 특징 하위 집합은 패턴 각각을 특정 레이블로 분류할 때 이용되는 데이터로서, 만일 복수의 패턴 각각을 구성하는 모든 특징들을 이용하여 패턴 각각을 분류하게 되면 분류에 있어 무관한 특징이나 중복되는 특징까지 모두 이용하게 되어 오히려 다중 레이블 분류 성능이 떨어지게 되므로, 본 발명에서는 중요도가 높은 특징들로 구성된 특징 하위 집합을 이용하여 패턴 각각의 레이블을 분류함으로써, 다중 레이블 분류 성능을 높이게 된다. 이때, 특징 하위 집합에 포함되는 특징들이 패턴을 잘 설명해주는 중요한 특징들로 구성된다면 패턴의 다중 레이블 분류 성능이 보다 향상될 것이다.
한편, 특징 하위 집합은 단계 110이 최초로 수행될 경우에는 공집합일 수 있다.
단계 120에서는, 특징 선별 장치가 특징 전체 집합 중에서 특징 하위 집합에 속하지 않는 복수의 제2 특징과 제1 레이블간의 제1 상관 관계와 제1 특징, 제2 특징 및 제2 레이블간의 제2 상관 관계에 기초하여, 복수의 제2 특징 각각에 대한 특징 평가값을 산출한다.
이때, 특징 평가값의 산출은 제1 상호 정보 척도 I를 이용하여 제2 특징과 제1 레이블간의 상관 관계를 정의하는 제1 상관 관계 함수에서 제1 상호 정보 척도I를 이용하여 제1 특징, 제2 특징 및 제2 레이블간의 상관 관계를 정의하는 제2 상관 관계 함수를 차감한 특징 상관 함수에 기초하여 수행될 수 있다.
특징 상관 함수는 하기 수학식 1과 같이 정의될 수 있고, 특징 상관 함수의 계산 결과가 특징 평가 값이 된다.
[수학식 1]
Figure 112016004415342-pat00007
여기서, I는 제1 상호 정보 척도로서 입력 변수들 간의 상관 관계를 나타내며, fi는 제1 특징을 나타내고, f+는 제2 특징을 나타내고, li는 제1 레이블을 나타내고, lj는 제2 레이블을 나타내고, S는 특징 하위 집합(S는 n개의 제1 특징으로 구성)을 나타내고, L은 레이블의 전체 집합(L= {l1, ... , lt})을 나타낸다. 또한,
Figure 112016004415342-pat00008
는 제1 상관 관계 함수를 나타내고,
Figure 112016004415342-pat00009
는 제2 상관 관계 함수를 나타낸다.
한편, 특징 전체 집합은 F로 명명할 수 있는데, 특징 전체 집합 F는 d(d>0)개의 특징들로 구성될 수 있으며, d는 특징 하위 집합 S에 포함된 제1 특징들의 개수 n(
Figure 112016004415342-pat00010
)에 비해 훨씬 큰 값이라고 가정한다. 또한, 복수의 패턴은 유한한 개수를 가지며, 제2 특징들은 특징 전체 집합 F에서 특징 하위 집합 S를 차감한 d-n개의 특징들이다.
또한, 제1 상호 정보 척도 I는 수학식 2와 같이 정의될 수 있다.
[수학식 2]
Figure 112016004415342-pat00011
여기서, X'은 공집합을 제외한 멱집합(power set)을 나타내고, H는 조인트 엔트로피 함수를 나타내고, Y는 입력 변수를 나타낸다.
조인트 엔트로피 함수 H는 수학식 3과 같이 정의될 수 있다.
[수학식 3]
Figure 112016004415342-pat00012
여기서, X는 입력 변수를 나타내고, P(X)는 입력 변수 X에 대한 확률질량함수(Probabilistic Mass Function:PMF)를 나타낸다.
한편, 수학식 1에서 제2 상관 관계 함수는 제1 특징, 제2 특징, 제2 레이블 등 3개 변수 간의 상관 관계를 계산해야하기 때문에 계산이 매우 복잡해진다. 또한, 패턴의 개수가 충분히 많은 경우에는 문제되지 않지만, 패턴의 개수가 충분히 많지 않은 경우(패턴의 개수가 소정 임계치 미만인 경우)에는 3개 변수 간의 상관 관계를 계산해야 하는 제2 상관 관계의 연산 결과가 부정확해지는 문제가 있다. 따라서, 제2 상관 관계에 대한 연산의 복잡성과 정확도를 개선하기 위한 알고리즘이 제안될 필요가 있는데, 이에 대해서는 도 3의 실시예에서 후술한다.
단계 130에서는, 특징 선별 장치가 그 특징 평가값에 기초하여, 복수의 제2 특징 중 하나를 특징 하위 집합에 추가할 최적 특징으로 선별한다.
이때, 특징 선별 장치는 복수의 제2 특징 중에서 가장 높은 특징 평가값을 가지는 제2 특징을 최적 특징으로서 선별하게 되는데, 최적 특징이란 패턴을 가장 잘 설명해줌으로써 패턴의 레이블 분류에 있어 중요한 특징을 말한다.
도 2는 본 발명의 다른 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법을 설명하기 위하여 도시한 흐름도이다.
단계 210에서는, 특징 선별 장치가 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 중에서 선별된 제1 특징을 구성요소로 하여 구성되며, 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합을 생성한다.
단계 215에서는, 특징 선별 장치가 특징 하위 집합의 구성요소의 개수가 소정 임계치보다 큰지를 판단한다.
만일, 특징 하위 집합의 구성요소의 개수가 소정 임계치 이하라면 특징 선별 장치는 단계 220으로 넘어가 다음 동작을 수행하게 되지만, 그렇지 않다면 모든 동작을 종료하게 된다.
단계 220에서는, 특징 하위 집합의 구성요소의 개수가 소정 임계치 이하라고 판단되는 경우, 특징 선별 장치가 특징 전체 집합 중에서 특징 하위 집합에 속하지 않는 복수의 제2 특징과 제1 레이블간의 제1 상관 관계와 제1 특징, 제2 특징 및 제2 레이블간의 제2 상관 관계에 기초하여, 복수의 제2 특징 각각에 대한 특징 평가값을 산출한다.
단계 230에서는, 특징 선별 장치가 그 특징 평가값에 기초하여, 복수의 제2 특징 중 하나를 특징 하위 집합에 추가할 최적 특징으로 선별한다.
다음으로, 특징 선별 장치는 단계 210으로 돌아가서 그 최적 특징으로 선별된 제2 특징을 특징 하위 집합의 구성 요소인 제1 특징으로 추가함으로써 갱신된 특징 하위 집합을 생성할 수 있다. 이를 통해, 특징 하위 집합에는 제1 특징이 하나 추가된다. 특징 선별 장치는 특징 하위 집합의 구성요소의 개수가 소정 임계치에 이를 때까지 단계 210 내지 단계 230을 반복해서 수행하게 된다.
한편, 단계 210 내지 단계 230을 최초로 수행하게 되면, 특징 하위 집합이 공집합인 상태에서 프로세스가 진행될 수 있는데, 이 경우에는 특징 하위 집합을 공집합으로 설정하고 단계 210 내지 단계 230을 수행하고 이를 통해 가장 높은 특징 평가값을 가지는 제2 특징을 최적 특징으로 선별하여 공집한인 특징 하위 집합의 구성요소로서 추가함으로써, 1개의 제1 특징을 포함하는 특징 하위 집합을 생성하게 된다.
이와 같은 과정을 통해, 한 번의 흐름도상의 동작 싸이클이 종료될 때마다 특징 하위 집합에는 평가값이 높은 제2 특징이 제1 특징으로서 한 개씩 추가되게 되고, 최종적으로 특징 하위 집합에 임계치에 해당하는 개수의 제1 특징이 포함되게 되면 특징 선별 장치는 동작을 종료하게 된다.
본 발명은 이와 같이 제2 특징들 중에서 최적 특징으로 선별된 제2 특징만으로 특징 하위 집합이 구성되게 되므로, 본 발명에 따른 특징 하위 집합을 이용하여 패턴의 레이블을 분류하게 되면 분류의 정확도가 향상되게 된다.
도 3은 본 발명의 일 실시예에 따라 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 과정을 설명하기 위하여 도시한 흐름도이다.
단계 310에서는, 특징 선별 장치가 제2 상호 정보 척도를 이용하여 제1 특징과 제2 특징간의 상관 관계를 정의하는 제1 변환 함수 및 제2 레이블 하에서의 제1 특징과 제2 특징간의 상관 관계를 정의하는 제2 변환 함수로 구성되는 변환 제2 상관 관계 함수를 생성한다.
제1 변환 함수 및 제2 변환 함수를 이용하여 생성된 변환 제2 상관 관계 함수는 수학식 4와 같이 표시될 수 있는데,이는 수학식 5와 같은 연산을 통해 산출될 수 있다.
[수학식 4]
Figure 112016004415342-pat00013
[수학식 5]
Figure 112016004415342-pat00014
여기서, M은 제2 상호 정보 척도를 나타내고,
Figure 112016004415342-pat00015
은 제1 특징과 제2 특징간의 상관 관계를 정의하는 제1 변환 함수를 나타내고,
Figure 112016004415342-pat00016
은 제2 레이블 하에서의 제1 특징과 제2 특징간의 상관 관계를 정의하는 제2 변환 함수를 나타낸다.
한편, 제2 상호 정보 척도 M은 하기의 수학식 6과 같이 정의될 수 있다.
[수학식 6]
Figure 112016004415342-pat00017
여기서, H는 전술한 바와 같이 조인트 엔트로피 함수이고, X, Y, Z 각각은 입력 변수이다.
단계 320에서는, 특징 선별 장치가 미리 정해진 조건하에서, 제2 변환 함수를 최대 2개의 변수를 가지는 상관 관계로 구성되는 중간 변환 함수로 변환한다.
이와 관련하여, 미리 정해진 조건은 수학식 7의 가정이 성립한다는 조건으로 , 수학식 7의 수학식이 성립한다는 가정하에 수학식 8과 같이 제2 변환 함수가 중간 변환 함수로 변환된다.
[수학식 7]
Figure 112016004415342-pat00018
수학식 7에 따르면, 왼쪽 텀의 분모의 제2 상호 정보 척도 M을 기반으로 한 제2 레이블 하에서의 제1 특징과 제2 특징간의 상관 관계를 정의하는 제2 변환 함수
Figure 112016004415342-pat00019
와 분자의 제2 레이블 하에서의 제1 특징의 조인트 엔트로피 함수
Figure 112016004415342-pat00020
간의 비율이 오른쪽 텀 분모의 제2 상호 정보 척도 M을 기반으로 한 제1 특징과 제2 특징간의 상관 관계
Figure 112016004415342-pat00021
와 분자의 제1 특징의 조인트 엔트로피 함수간의 비율과 동일하다고 가정한다.
[수학식 8]
Figure 112016004415342-pat00022
수학식 8을 참조하면, 중간 변환 함수는 분모에 제1 특징에 대한 조인트 엔트로피 함수
Figure 112016004415342-pat00023
가 위치하고, 분자에 제2 레이블 하에서의 제1 특징에 대한 조인트 엔트로피 함수
Figure 112016004415342-pat00024
가 위치하는 분수식에 제2 상호 정보 척도 M을 기반으로 한 제1 특징과 제2 특징간의 상관관계
Figure 112016004415342-pat00025
가 곱해진 형태를 가지는 것을 알 수 있다. 즉, 수학식 8의 중간 변환 함수는 1개의 변수를 가지는
Figure 112016004415342-pat00026
와 2개의 변수를 가지는
Figure 112016004415342-pat00027
Figure 112016004415342-pat00028
로 구성되는 것을 알 수 있다.
수학식 7의 조건이 성립한다는 것은 이하의 수학식 9 내지 13에 의하여 증명된다.
제2 상호 정보 척도 M을 기반으로 한 제1 특징 fi 와 제2 특징 f+간의 상관 관계의 값은 수학식 9와 같은 범위를 가진다는 것이 이미 알려져 있다.
[수학식 9]
Figure 112016004415342-pat00029
수학식 9를 참조하면,
Figure 112016004415342-pat00030
의 값은 0 이상이면서 제1 특징 fi 또는 제2 특징 f+의 조인트 엔트로피 값보다는 작거나 같은 범위를 가지는 것을 알 수 있다.
이때, 제1 특징 fi와 제2 특징 f+가 제1 특징 fi와 제2 특징 f+의 유사도를 조인트 엔트로피를 이용하여 정의하면 수학식 10과 같이 정의될 수 있다.
[수학식 10]
Figure 112016004415342-pat00031
수학식 10에서
Figure 112016004415342-pat00032
의 값이
Figure 112016004415342-pat00033
의 값보다 커질수 없으므로
Figure 112016004415342-pat00034
이며 제1 특징 fi가 제2 특징 f+와 상이할수록 U의 값이 작아진다. 그런데 이미 선택된 제1 특징 fi에 의해 제2 레이블 lj의 정보량 중 이미 설명된 부분을 제2 특징 f+가 재차 설명하는 것은 의미가 없으므로, 제2 특징 f+가 제1 특징 fi와 상이하여 U의 값이 0에 가까운 것이 바람직하다.
제2 레이블 lj를 고려한 상황 하에서 제1 특징 fi와 제2 특징 f+ 사이의 조인트 엔트로피 비율은 수학식 11과 같이 정의될 수 있다.
[수학식 11]
Figure 112016004415342-pat00035
수학식 11에서도 수학식 10과 마찬가지로
Figure 112016004415342-pat00036
의 값은
Figure 112016004415342-pat00037
의 값보다 커질 수 없으므로,
Figure 112016004415342-pat00038
이며, 제1 특징 fi가 제2 특징 f+와 상이할수록 v의 값이 작아진다. 즉, u와 v는 동일한 범위를 가지고 있고, 제1 특징 fi가 제2 특징 f+와 상이할수록 u와 v 모두 값이 작아지는 동일한 특성을 가지고 있으므로, 응용 수학 분야에서 근사값을 추정(approximation)하는 일반적인 방법을 적용하게 되면
Figure 112016004415342-pat00039
와 같은 비례식이 성립함을 알 수 있다. . 이와 같은 비례식은 수학식 12의 과정을 거쳐 최종적으로 수학식 7이 산출되게 된다.
[수학식 12]
Figure 112016004415342-pat00040
단계 330에서는, 특징 선별 장치가 제1 변환 함수 및 중간 변환 함수에 기초하여, 변환 제2 상관 관계 함수를 제1 특징에 대한 조인트 엔트로피 함수, 제1 상호 정보 척도 기반으로 정의된 제1 특징과 제2 특징간의 상관관계 및 제1 상호 정보 척도 기반으로 정의된 제1 특징과 제2 레이블간의 상관 관계로 구성되어, 최대 2개의 변수를 가지는 상관 관계로 구성된 제3 변환 함수로 변환한다.
보다 구체적으로, 특징 선별 장치는 수학식 13에서와 같이 제1 변환 함수 및 중간 변환 함수를 이용하여 변환 제2 상관 관계 함수를 제3 변환 함수로 변환하게 된다.
[수학식 13]
Figure 112016004415342-pat00041
여기서,
Figure 112016004415342-pat00042
는 제1 변환 함수를 나타내고,
Figure 112016004415342-pat00043
는 중간 변환 함수를 나타내고,
Figure 112016004415342-pat00044
는 제3 변환 함수를 나타낸다.
한편, 수학식 13의 마지막 줄에서
Figure 112016004415342-pat00045
Figure 112016004415342-pat00046
로 변환되는데, 이는 수학식 14에 의해 변환되는 것이다.
[수학식 14]
Figure 112016004415342-pat00047
다만, 수학식 14가 성립하려면 제1 상호 정보 척도 I와 제2 상호 정보 척도 M의 입력 변수가 2개여야 한다. 만일, 제1 상호 정보 척도 I와 제2 상호 정보 척도 M의 입력 변수가 3개라면 수학식 14는 성립하지 않는다.
단계 340에서는, 특징 선별 장치가 제1 상관 관계 함수 및 제3 변환 함수를 이용하여 생성된 변환 특징 상관 함수를 이용하여 복수의 제2 특징 각각에 대한 특징 평가값을 산출한다.
이때, 변환 특징 상관 함수는 수학식 15와 같이 정의될 수 있다.
[수학식 15]
Figure 112016004415342-pat00048
여기서, I는 제1 상호 정보 척도로서 입력 변수들 간의 상관 관계를 나타내고, fi는 제1 특징을 나타내고, f+는 제2 특징을 나타내고, li는 제1 레이블을 나타내고, lj는 제2 레이블을 나타내고, S는 특징 하위 집합을 나타내고, L은 레이블의 전체 집합을 나타내고, H는 조인트 엔트로피 함수를 나타내고,
Figure 112016004415342-pat00049
는 제1 상관 관계 함수를 나타내고,
Figure 112016004415342-pat00050
는 제3 변환 함수를 나타낸다.
수학식 15를 참조하면, 변환 특징 상관 함수에서는 3개의 변수간의 상관 관계를 연산하는 부분이 없어진 것을 알 수 있다.
이와 같이, 본 발명의 다른 실시예에 따르면 수학식 16의 변환 특징 상관 함수를 이용하여 제2 특징의 특징 평가값을 산출함으로써, 특징 평가값 연산을 단순화하여 연산량 및 연산 시간을 줄일 수 있는 장점이 있다. 또한, 수학식 16의 변환 특징 상관 함수에서는 수학식 1의 특징 상관 함수에서의 3개 변수에 대한 함수인 제2 상관 관계 함수 대신 최대 2개 변수를 가지는 함수인 제3 변환 함수를 이용하기 때문에 패턴의 개수가 충분히 많지 않은 경우에도 제2 특징의 특징 평가값의 연산 결과의 정확성이 향상되는 장점이 있다. 결과적으로, 이를 통해 다중 레이블 패턴의 분류 결과의 정확성이 향상된다.
도 4는 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 장치를 설명하기 위하여 도시한 도면이다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 최적 특징 선별 장치(400)는 집합 관리부(410), 평가값 산출부(420) 및 특징 선별부(430)를 포함한다.
집합 관리부(410)는 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 F 중에서 선별된 제1 특징 fi를 구성요소로 하여 구성되며, 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합 S를 생성한다.
평가값 산출부(420)는 특징 전체 집합 F 중에서 특징 하위 집합 S에 속하지 않는 복수의 제2 특징 f+와 제1 레이블 li간의 제1 상관 관계와 제1 특징 fi, 제2 특징 f+ 및 제2 레이블 lj간의 제2 상관 관계에 기초하여, 복수의 제2 특징 f+ 각각에 대한 특징 평가값 Q(f+)를 산출한다.
특징 선별부(430)는 그 특징 평가값 Q(f+)에 기초하여, 복수의 제2 특징 f+ 중 하나를 특징 하위 집합 S에 추가할 최적 특징으로 선별한다.
다음으로, 특징 선별부(430)는 최적 특징으로 선별된 제2 특징 f+를 집합 관리부(410)에게 전달하고, 집합 관리부(410)는 그 최적 특징으로 선별된 제2 특징 f+를 특징 하위 집합의 구성 요소인 제1 특징 fi로 추가함으로써 갱신된 특징 하위 집합 S를 생성하게 된다. 전술한 바와 같이, 집합 관리부(410)는 특징 하위 집합 S의 구성요소의 개수가 소정 임계치에 이를 때까지 특징 선별부(430)로부터 전달되는 최적 특징으로 선별된 제2 특징 f+를 1개씩 특징 하위 집합 S에 추가하게 된다.
다만, 다른 실시예에서는 최적 특징으로 선별된 제2 특징 f+가 2개 이상인 경우에는 특징 선별부(430)로부터 전달되는 최적 특징으로 선별된 2개 이상의 제2 특징 f+를 2개 이상씩 특징 하위 집합 S에 추가할 수도 있다.
도 5는 본 발명의 응용예에 따른 다중 카테고리 문서 분류를 위한 최적 단어 선별 장치를 설명하기 위하여 도시한 도면이다.
도 5를 참조하면, 본 발명의 응용예에 따른 최적 단어 선별 장치(500)는 집합 관리부(510), 평가값 산출부(520) 및 단어 선별부(530)를 포함한다.
집합 관리부(510)는 다중 카테고리로 분류가 가능한 복수의 문서 각각을 구성하는 복수의 단어를 모두 구성요소로서 포함하는 단어 전체 집합 중에서 선별된 제1 단어를 구성요소로 하여 구성되며, 복수의 문서 각각의 카테고리(장르) 분류에 이용되는 단어 하위 집합을 생성한다.
평가값 산출부(520)는 단어 전체 집합 중에서 단어 하위 집합에 속하지 않는 복수의 제2 단어와 제1 카테고리간의 제1 상관 관계와 제1 단어, 제2 단어 및 제2 카테고리간의 제2 상관 관계에 기초하여 제2 단어 각각에 대한 단어 평가값을 산출한다.
단어 선별부(530)는 그 단어 평가값에 기초하여, 복수의 제2 단어 중 하나를 단어 하위 집합에 추가할 최적 단어로 선별한다.
도 6은 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법의 다중 레이블 분류 정확도를 설명하기 위하여 도시한 도면이다.
도 6(a) 내지 도 6(f)를 참조하면, 다양한 케이스에서의 본 발명의 일 실시예에 따른 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법의 다중 레이블 분류 정확도가 표시되어 있는데, 도 6(a) Scene data set, 도 6(b) Genbase data set, 도 6(c) Medical data set, 도 6(d) Enron data set, 도 6(e) LLog data set, 도 6(f) Slashdot data set 등 6가지의 케이스에 대하여 ELA+CHI+MLNB(Multi-label Naive Bayes Classifier), PPT+CHI+MLNB 및 MF-Stat+MLNB 등의 3개의 종래 기술과 본 발명(Proposed+MLNB)의 정확도가 비교되어 있다.
이에 기초할 때, 6개의 모든 케이스에서 본 발명(Proposed+MLNB)의 정확도가 가장 높게 나타나고 있어, 다중 레이블 패턴의 분류에 있어 본 발명에 따른 알고리즘이 효과적임을 알 수 있다.
상기와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (11)

  1. 다중 레이블로 분류가 가능한 복수의 패턴 각각을 구성하는 복수의 특징 중에서 상기 패턴의 레이블 분류를 위한 최적의 특징을 선별하는 방법에 있어서,
    집합 관리부가, 상기 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 중에서 선별된 제1 특징을 구성요소로 하여 구성되며, 상기 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합을 생성하는 단계;
    평가값 산출부가, 상기 특징 전체 집합 중에서 상기 특징 하위 집합에 속하지 않는 복수의 제2 특징과 제1 레이블간의 제1 상관 관계와 상기 제1 특징, 상기 제2 특징 및 제2 레이블간의 제2 상관 관계에 기초하여, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계; 및
    특징 선별부가, 상기 특징 평가값에 기초하여, 상기 복수의 제2 특징 중 하나를 상기 특징 하위 집합에 추가할 최적 특징으로 선별하는 단계를 포함하는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
  2. 제1항에 있어서,
    상기 특징 하위 집합을 생성하는 단계는 상기 집합 관리부에 의해 수행되고,
    상기 특징 하위 집합을 생성하는 단계는 상기 제2 특징 중 하나가 최적 특징으로 선별되면, 상기 최적 특징으로 선별된 상기 제2 특징을 상기 특징 하위 집합의 구성 요소인 상기 제1 특징으로 추가함으로써 갱신된 특징 하위 집합을 생성하고,
    상기 특징 하위 집합을 생성하는 단계, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계 및 상기 복수의 제2 특징 중 하나를 최적 특징으로 선별하는 단계는 상기 특징 하위 집합의 구성요소의 개수가 소정 임계치에 이를 때까지 반복 수행되는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
  3. 제1항에 있어서,
    상기 특징 하위 집합을 생성하는 단계는 상기 집합 관리부에 의해 수행되고,
    상기 특징 하위 집합을 생성하는 단계는
    상기 특징 하위 집합이 공집합인 경우에, 상기 특징 하위 집합을 공집합으로 설정하고 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계 및 상기 복수의 제2 특징 중 하나를 최적 특징으로 선별하는 단계를 수행한 후,상기 최적 특징으로 선별된 상기 제2 특징을 상기 특징 하위 집합의 구성 요소인 상기 제1 특징으로 추가함으로써 상기 특징 하위 집합을 생성하는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
  4. 제1항에 있어서,
    상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계는 상기 평가값 산출부에 의해 수행되고,
    상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계는
    제1 상호 정보 척도를 이용하여 상기 제2 특징과 상기 제1 레이블간의 상관 관계를 정의하는 상기 제1 상관 관계 함수에서 상기 제1 상호 정보 척도를 이용하여 상기 제1 특징, 상기 제2 특징 및 상기 제2 레이블간의 상관 관계를 정의하는 제2 상관 관계 함수를 차감한 특징 상관 함수에 기초하여 수행되는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
  5. 제4항에 있어서,
    상기 특징 상관 함수는 하기 수학식 1에 의하여 정의되는 것을 특징으로 하는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
    [수학식 1]
    Figure 112016004415342-pat00051

    여기서, I는 제1 상호 정보 척도로서 입력 변수들 간의 상관 관계를 나타내며, fi는 제1 특징을 나타내고, f+는 제2 특징을 나타내고, li는 제1 레이블을 나타내고, lj는 제2 레이블을 나타내고, S는 특징 하위 집합을 나타내고, L은 레이블의 전체 집합을 나타내고,
    Figure 112016004415342-pat00052
    는 제1 상관 관계 함수를 나타내고,
    Figure 112016004415342-pat00053
    는 제2 상관 관계 함수를 나타낸다.
  6. 제4항에 있어서,
    상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계는 상기 평가값 산출부에 의해 수행되고,
    상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계는
    제2 상호 정보 척도를 이용하여 상기 제1 특징과 상기 제2 특징간의 상관 관계를 정의하는 제1 변환 함수 및 상기 제2 레이블 하에서의 상기 제1 특징과 상기 제2 특징간의 상관 관계를 정의하는 제2 변환 함수로 구성되는 변환 제2 상관 관계 함수를 생성하는 단계;
    미리 정해진 조건하에서, 상기 제2 변환 함수를 최대 2개의 변수를 가지는 상관 관계로 구성되는 중간 변환 함수로 변환하는 단계;
    상기 제1 변환 함수 및 상기 중간 변환 함수에 기초하여, 상기 변환 제2 상관 관계 함수를 상기 제1 특징에 대한 조인트 엔트로피 함수, 상기 제1 상호 정보 척도 기반으로 정의된 상기 제1 특징과 상기 제2 특징간의 상관관계 및 상기 제1 상호 정보 척도 기반으로 정의된 상기 제1 특징과 상기 제2 레이블간의 상관 관계로 구성되는 제3 변환 함수로 변환하는 단계; 및
    상기 제1 상관 관계 함수 및 상기 제3 변환 함수를 이용하여 생성된 변환 특징 상관 함수를 이용하여 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 단계를 포함하는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
  7. 제6항에 있어서,
    상기 미리 정해진 조건은

    상기 제2 변환 함수와 제2 레이블 하에서의 상기 제1 특징의 조인트 엔트로피 함수 간의 비율이 상기 제2 상호 정보 척도 M을 기반으로 한 상기 제1 특징과 상기 제2 특징간의 상관 관계와 상기 제1 특징의 조인트 엔트로피 함수간의 비율과 동일하다는 조건인 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
  8. 제6항에 있어서,
    상기 중간 변환 함수는
    상기 제1 특징에 대한 조인트 엔트로피 함수, 상기 제2 레이블 하에서의 상기 제1 특징에 대한 조인트 엔트로피 함수 및 상기 제2 상호 정보 척도를 기반으로 한 상기 제1 특징과 상기 제2 특징간의 상관관계로 구성되는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
  9. 제6항에 있어서,
    상기 변환 특징 상관 함수는
    하기 수학식 9에 의하여 정의되는 것을 특징으로 하는 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법.
    [수학식 9]
    Figure 112016004415342-pat00054

    여기서, I는 제1 상호 정보 척도로서 입력 변수들 간의 상관 관계를 나타내고, fi는 제1 특징을 나타내고, f+는 제2 특징을 나타내고, li는 제1 레이블을 나타내고, lj는 제2 레이블을 나타내고, S는 특징 하위 집합을 나타내고, L은 레이블의 전체 집합을 나타내고, H는 조인트 엔트로피 함수를 나타내고,
    Figure 112016004415342-pat00055
    는 제1 상관 관계 함수를 나타내고,
    Figure 112016004415342-pat00056
    는 제3 변환 함수를 나타낸다.
  10. 다중 레이블로 분류가 가능한 복수의 패턴 각각을 구성하는 복수의 특징 중에서 상기 패턴의 레이블 분류를 위한 최적의 특징을 선별하는 장치에 있어서,
    상기 복수의 특징을 모두 구성요소로서 포함하는 특징 전체 집합 중에서 선별된 제1 특징을 구성요소로 하여 구성되며, 상기 복수의 패턴 각각의 레이블 분류에 이용되는 특징 하위 집합을 생성하는 집합 관리부;
    상기 특징 전체 집합 중에서 상기 특징 하위 집합에 속하지 않는 복수의 제2 특징과 제1 레이블간의 제1 상관 관계와 상기 제1 특징, 상기 제2 특징 및 제2 레이블간의 제2 상관 관계에 기초하여, 상기 복수의 제2 특징 각각에 대한 특징 평가값을 산출하는 평가값 산출부; 및
    상기 특징 평가값에 기초하여, 상기 복수의 제2 특징 중 하나를 상기 특징 하위 집합에 추가할 최적 특징으로 선별하는 특징 선별부를 포함하는 다중 레이블 패턴 분류를 위한 최적 특징 선별 장치.
  11. 다중 카테고리로 분류가 가능한 복수의 문서 각각을 구성하는 복수의 단어 중에서 상기 문서의 카테고리 분류를 위한 최적의 단어를 선별하는 장치를 포함하는 다중 카테고리 문서 분류 장치에 있어서,
    상기 복수의 단어를 모두 구성요소로서 포함하는 단어 전체 집합 중에서 선별된 제1 단어를 구성요소로 하여 구성되며, 상기 문서 각각의 카테고리 분류에 이용되는 단어 하위 집합을 생성하는 집합 관리부;
    상기 단어 전체 집합 중에서 상기 단어 하위 집합에 속하지 않는 복수의 제2 단어와 제1 카테고리간의 제1 상관 관계와 상기 제1 단어, 상기 제2 단어 및 제2 카테고리간의 제2 상관 관계에 기초하여, 상기 제2 단어 각각에 대한 단어 평가값을 산출하는 평가값 산출부; 및
    상기 단어 평가값에 기초하여, 상기 복수의 제2 단어 중 하나를 상기 단어 하위 집합에 추가할 최적 단어로 선별하는 단어 선별부를 포함하는 다중 카테고리 문서 분류 장치.



KR1020160004976A 2016-01-14 2016-01-14 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치 KR101752255B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160004976A KR101752255B1 (ko) 2016-01-14 2016-01-14 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160004976A KR101752255B1 (ko) 2016-01-14 2016-01-14 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치

Publications (1)

Publication Number Publication Date
KR101752255B1 true KR101752255B1 (ko) 2017-06-30

Family

ID=59279849

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160004976A KR101752255B1 (ko) 2016-01-14 2016-01-14 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치

Country Status (1)

Country Link
KR (1) KR101752255B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102025280B1 (ko) * 2018-06-12 2019-09-25 중앙대학교 산학협력단 다중 레이블 패턴 분류를 위한 특징 선택 방법 및 그 장치
KR20210063061A (ko) 2019-11-22 2021-06-01 현대건설주식회사 공동주택의 하자보수 접수량 예측 시스템 및 그 방법
CN116680594A (zh) * 2023-05-05 2023-09-01 齐鲁工业大学(山东省科学院) 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法
CN117454154A (zh) * 2023-12-22 2024-01-26 江西农业大学 一种面向偏标记数据的鲁棒特征选择方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102025280B1 (ko) * 2018-06-12 2019-09-25 중앙대학교 산학협력단 다중 레이블 패턴 분류를 위한 특징 선택 방법 및 그 장치
KR20210063061A (ko) 2019-11-22 2021-06-01 현대건설주식회사 공동주택의 하자보수 접수량 예측 시스템 및 그 방법
CN116680594A (zh) * 2023-05-05 2023-09-01 齐鲁工业大学(山东省科学院) 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法
CN117454154A (zh) * 2023-12-22 2024-01-26 江西农业大学 一种面向偏标记数据的鲁棒特征选择方法

Similar Documents

Publication Publication Date Title
KR101752255B1 (ko) 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치
CN110415022B (zh) 处理用户行为序列的方法及装置
kumar Bokde et al. Role of matrix factorization model in collaborative filtering algorithm: A survey
US20180260414A1 (en) Query expansion learning with recurrent networks
Liu et al. Deep learning based recommendation: A survey
WO2018105194A1 (en) Method and system for generating multi-relevant label
JP6004016B2 (ja) 情報変換方法、情報変換装置および情報変換プログラム
US7769759B1 (en) Data classification based on point-of-view dependency
Da San Martino et al. Ordinal text quantification
US20100161527A1 (en) Efficiently building compact models for large taxonomy text classification
CN110555469A (zh) 处理交互序列数据的方法及装置
JP2008217589A (ja) 学習装置及びパターン認識装置
JP6763426B2 (ja) 情報処理システム、情報処理方法、及び、プログラム
JP2006338263A (ja) コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体
CN109284411A (zh) 一种基于有监督超图离散化图像二值编码方法
CN104361345A (zh) 基于约束极速学习机的脑电信号分类方法
CN113255908B (zh) 基于事件序列进行业务预测的方法、神经网络模型和装置
JPWO2020095357A1 (ja) 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法
CN111782928B (zh) 信息推送方法、装置和计算机可读存储介质
CN113868542B (zh) 基于注意力模型的推送数据获取方法、装置、设备及介质
KR101656604B1 (ko) 다중 레이블을 분류하기 위해 이용되는 특징 셋의 선택 방법 및 장치
Heyden et al. An integral projection-based semantic autoencoder for zero-shot learning
Keyvanpour et al. Detection of individual activities in video sequences based on fast interference discovery and semi-supervised method
Zhu et al. Multi-center convolutional descriptor aggregation for image retrieval
Masood et al. Adaptive differential evolution based feature selection and parameter optimization for advised SVM classifier

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200309

Year of fee payment: 4