KR20160099127A

KR20160099127A - 다중 레이블을 분류하기 위해 이용되는 특징 셋의 선택 방법 및 장치

Info

Publication number: KR20160099127A
Application number: KR1020150020625A
Authority: KR
Inventors: 김대원; 이재성; 임현기
Original assignee: 중앙대학교 산학협력단
Priority date: 2015-02-11
Filing date: 2015-02-11
Publication date: 2016-08-22
Also published as: KR101656604B1

Abstract

다중 레이블을 분류하기 위해 이용되는 특징 셋의 선택 방법 및 장치가 개시된다. 개시된 다중 레이블을 분류하기 위해 이용되는 특징 셋의 선택 방법은 N개의 특징 각각의 가중치를 나타내는 값을 구성요소로 하는 가중치 벡터를 변수로 하고, N개의 특징 간의 연관성과, N개의 특징 및 M개의 레이블 사이의 연관성을 포함하는 평가 함수를 산출하는 단계; 상기 평가 함수를 최소로 만드는 가중치 벡터인 최소 가중치 벡터를 산출하는 단계; 상기 최소 가중치 벡터를 구성하는 N개의 구성요소 중 상위의 구성요소 값을 가지는 n개의 구성요소를 추출하는 단계; 및 상기 n개의 구성요소와 각각 대응되는 n개의 특징을 상기 특징 셋으로 선택하는 단계;를 포함한다.

Description

다중 레이블을 분류하기 위해 이용되는 특징 셋의 선택 방법 및 장치{Method and apparatus for selecting feature used to classify multi-label}

본 발명의 실시예들은 다중 레이블링을 위한 특징 셋에 적합성을 평가하기 위한 평가 함수를 제공하고, 이를 통해 특징 셋을 선택하는 방법 및 장치에 관한 것이다.

최근 다중 레이블(multi-label) 데이터에 대해 많은 연구들이 진행되고 있다. 다중 레이블 데이터는 하나의 패턴이 하나 이상의 레이블을 가지는 데이터로서, 문서 분류，실시간 영상 분류, 유전자 정보 분류, 사용자 정서 분류 등의 많은 분야에서 사용되고 있다.

대표적인 다중 레이블 데이터로 웹 문서의 태그 정보가 있다. 웹 문서를 분류하기 위해 하나의 웹 문서는 태그 정보를 가지고 있고, 이를 기반으로 카테고리가 나뉘게 되는데, 많은 문서들이 하나의 카테고리에 속하지 않고 여러 카테고리에 속할 수 있다. 예를 들어, 종교적 신념의 문제를 담았던 영화 "다빈치 코드"와 관련된 기사는 영화 카테고리에도 속하면서 종교 카테고리에도 속할 수 있는 웹 문서이다.

하지만, 기존 기계 학습 분야의 기법들은 다중 레이블 데이터에 적용하기 적합하지 않는 문제점이 있다.

그 이유는 크게 두 가지로, 그 첫 번째 이유는 대부분의 기법들이 단일 레이블 데이터에 초점을 맞추어 만들어졌기 때문이다. 기존의 데이터들은 대부분이 단일 레이블 데이터였기 때문에 다중 레이블 데이터에 대한 고려를 할 필요가 없었다.

두 번째 이유로 다중 레이블 데이터의 특성을 활용하지 못하고 대부분의 연구들이 특징과 레이블 사이의 연관성에 초점을 맞추고 있기 때문에다. 또한, 많은 연구들이 다중 레이블 데이터를 단일 레이블로 변환하는 방법을 사용하고 있어 레이블 사이의 연관성은 고려하고 있지 않다.

상기한 바와 같은 종래기술의 문제점을 해결하기 위해, 본 발명에서는 다중 레이블링을 위한 특징 셋에 적합성을 평가하기 위한 평가 함수를 제공하고, 이를 통해 특징 셋을 선택하는 방법 및 장치를 제안하고자 한다.

본 발명의 다른 목적들은 하기의 실시예를 통해 당업자에 의해 도출될 수 있을 것이다.

상기한 목적을 달성하기 위해 본 발명의 바람직한 일 실시예에 따르면, 다중 레이블을 분류하기 위해 이용되는 특징 셋(feature set)의 선택 방법에 있어서, N개의 특징 각각의 가중치를 나타내는 값을 구성요소로 하는 가중치 벡터를 변수로 하고, N개의 특징 간의 연관성과, N개의 특징 및 M개의 레이블 사이의 연관성을 포함하는 평가 함수를 산출하는 단계; 상기 평가 함수를 최소로 만드는 가중치 벡터인 최소 가중치 벡터를 산출하는 단계; 상기 최소 가중치 벡터를 구성하는 N개의 구성요소 중 상위의 구성요소 값을 가지는 n개의 구성요소를 추출하는 단계; 및 상기 n개의 구성요소와 각각 대응되는 n개의 특징을 상기 특징 셋으로 선택하는 단계;를 포함하는 특징 셋의 선택 방법이 제공된다.

상기 최소 가중치 벡터를 산출하는 단계는 QP(Quadratic Programming) solver를 이용하여 최소 가중치 벡터를 산출하고, 상기 평가 함수는 아래의 수학식과 같이 표현될 수 있다.

여기서, f(x)는 상기 평가 함수, x는 상기 가중치 벡터, Q는 상기 N개의 특징 사이의 연관성(dependency)을 나타내는 N×N 행렬, c는 상기 N개의 특징 각각과 상기 M개의 레이블의 연관성을 나타내는 구성요소를 포함하는 벡터, T는 트랜스포즈를 각각 의미함.

상기 Q의 구성요소 중 i×j번째 구성요소인 Q_ij는 특징 i와 특징 j 간의 상호작용 정보(interaction information)와 대응되며, 상기 상호작용 정보는 상기 N개의 특징으로 구성된 특징 집합(F)의 총 연관성(total dependency of F)을 이용하여 산출되며, 상기 특징 집합(F)의 총 연관성은 아래의 수학식에 따라 표현될 수 있다.

여기서, C(F)는 상기 특징 집합(F)의 총 연관성, f는 상기 특징, I(T)는 특징 보집합 T에 대한 상호작용 정보, H(T)는 특징 보집합 T에 대한 조인트 엔트로피를 각각 의미함.

상기 c 중 i번째 구성요소 c_i는 아래의 수학식과 같이 표현될 수 있다.

여기서, y는 상기 레이블, Y는 상기 레이블의 집합,

는 상호 정보 척도(mutual information), C(Y)는 상기 레이블 집합의 총 연관성을 각각 의미함.

또한, 본 발명의 다른 실시예에 따르면, 다중 레이블을 분류하기 위해 이용되는 특징 셋(feature set)의 선택 장치에 있어서, N개의 특징 각각의 가중치를 나타내는 값을 구성요소로 하는 가중치 벡터를 변수로 하고, N개의 특징 간의 연관성과, N개의 특징 및 M개의 레이블 사이의 연관성을 포함하는 평가 함수를 산출하는 평가 함수 산출부; 상기 평가 함수를 최소로 만드는 가중치 벡터인 최소 가중치 벡터를 산출하는 최소 가중치 벡터 산출부; 및 상기 최소 가중치 벡터를 구성하는 N개의 구성요소 중 상위의 구성요소 값을 가지는 상위의 n개의 구성요소를 추출하고, 상기 n개의 구성요소와 각각 대응되는 n개의 특징을 상기 특징 셋으로 선택하는 선택부;를 포함하는 특징 셋의 선택 장치가 제공된다.

본 발명에 따르면, 다중 레이블링을 위한 특징 셋에 적합성을 평가하기 위한 평가 함수를 제공함으로써, 이를 통해 특징 셋을 효율적으로 선택할 수 있는 장점을 가진다.

도 1은 본 발명의 일 실시예에 따른 다중 레이블을 분류하기 위해 이용되는 특징 셋(feature set)의 선택 장치의 개략적인 구성을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 다중 레이블을 분류하기 위해 이용되는 특징 셋의 선택 방법의 흐름도를 도시한 도면이다.
도 3는 본 발명의 일 실시예에 따른 특징 셋의 선택 방법의 알고리즘을 도시한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 다중 레이블을 분류하기 위해 이용되는 특징 셋(feature set)의 선택 장치의 개략적인 구성을 도시한 도면이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 특징 셋의 선택 장치(100)는 평가 함수 산출부(110), 최소 가중치 벡터 산출부(120) 및 선택부(130)를 포함한다.

또한, 도 2는 본 발명의 일 실시예에 따른 다중 레이블을 분류하기 위해 이용되는 특징 셋의 선택 방법의 흐름도를 도시한 도면이다.

이하, 도 1 및 도 2를 참조하여, 각 구성 요소 별 기능 및 각 단계별로 수행되는 과정을 상세하게 설명한다.

먼저, 단계(210)에서, 평가 함수 산출부(110)는 N개의 특징 각각의 가중치를 나타내는 값을 구성요소로 하는 벡터인 가중치 벡터를 변수로 하는 평가 함수를 산출한다.

이 때, 평가 함수에는 N개의 특징 간의 연관성(dependency)을 나타내는 값과, N개의 특징 및 M개의 레이블 사이의 연관성을 나타내는 값이 포함된다.

본 발명의 일 실시예에 따르면, 평가 함수는 아래의 수학식 1과 같이 표현될 수 있다.

여기서, f(x)는 평가 함수, x는 가중치 벡터, Q는 대칭인 양의 준정부호 행렬(symmetric positive semidefinite matrix)로써, N개의 특징 사이의 연관성을 나타내는 N×N 행렬, c는 N개의 특징 각각과 M개의 레이블의 연관성을 나타내는 구성요소를 포함하는 벡터, T는 트랜스포즈를 각각 의미한다. 평가 함수의 각 텀(term)의 의미에 대해 상세하게 설명한다.

는 N개의 특징 간의 연관성(dependency)을 나타내는 값이다. 중복되지 않는 특징만을 선택하여 중복된 특징을 선택하는 것이 레이블을 좀 더 잘 설명할 수 있으며, 다중 레이블 데이터도 단일 레이블 데이터와 마찬가지로 여러 특징을 가지기 때문에 특징과 특징 간 연관성을 고려해야 한다. N개의 특징 간의 연관성의 값이 작을수록 평가 함수는 높은 값을 가진다.

그리고, 본 발명의 일 실시예에 따르면, Q의 구성요소 중 i×j번째 구성요소인 Q_ij는 특징 i와 특징 j 간의 상호작용 정보(interaction information)(

)와 대응된다. 이 때, 상호작용 정보는 N개의 특징으로 구성된 특징 집합(F)의 총 연관성(total dependency of F)을 이용하여 산출된다.

이 때, 특징 집합(F)의 총 연관성은 아래의 수학식 2에 따라 표현될 수 있다.

여기서, C(F)는 특징 집합(F)의 총 연관성, f는 특징, I(T)는 특징 보집합 T에 대한 상호작용 정보, H(T)는 특징 보집합 T에 대한 조인트 엔트로피(joint entropy)를 각각 의미한다.

는 음이 아닌 벡터(non-negative vector)로서, N개의 특징 및 M개의 레이블 사이의 연관성을 나타내는 값이다. 특징과 레이블이 연관 성이 크다는 것이 그 특징이 그 레이블을 충분히 설명 할 수 있는 의미 있는 특징이라 할 수 있다. 이 때, N개의 특징 및 M개의 레이블 사이의 연관성을 나타내는 값이 클수록 평가 함수는 높은 값을 가진다.

그리고, 본 발명의 일 실시예에 따르면, c 중 i번째 구성요소 c_i는 아래의 수학식 3과 같이 표현될 수 있다.

여기서, y는 레이블, Y는 레이블의 집합,

는 상호 정보 척도(mutual information), C(Y)는 레이블 집합의 총 연관성을 각각 의미한다.

계속하여, 단계(220)에서, 최소 가중치 벡터 산출부(120)는 평가 함수를 최소로 만드는 가중치 벡터인 최소 가중치 벡터를 산출한다.

본 발명의 일 실시예에 따르면, 최소 가중치 벡터 산출부(120)는 단계는 QP(Quadratic Programming) solver를 이용하여 최소 가중치 벡터를 산출할 수 있다.

이 후, 단계(130)에서, 선택부(130)는 최소 가중치 벡터를 구성하는 N개의 구성요소 중 상위의 구성요소 값을 가지는 n개의 구성요소를 추출한다. 즉, 최소 가중치 벡터를 구성하는 N의 가중치 값 중 상위의 n개의 가중치를 추출한다.

그리고, 단계(140)에서, 선택부(130)는 n개의 구성요소와 각각 대응되는 n개의 특징을 특징 셋으로 선택한다.

즉, 선택부(130)는 주어진 N개의 특징 중 n개의 구성요소와 각각 대응되는 n개의 특징을 다중 레이블을 분류하기 위해 이용되는 특징 셋(S)으로 선택한다.

따라서, 본 발명에 따른 특징 셋의 선택 방법 및 장치는 다중 레이블링을 위한 특징 셋에 적합성을 평가하기 위한 평가 함수를 제공하고, 이를 통해 효율적으로 특징 셋을 선택하는 장점이 있다.

한편, 도 3는 본 발명의 일 실시예에 따른 특징 셋의 선택 방법의 알고리즘을 도시하고 있다.

또한, 본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 일 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

다중 레이블을 분류하기 위해 이용되는 특징 셋(feature set)의 선택 방법에 있어서,
N개의 특징 각각의 가중치를 나타내는 값을 구성요소로 하는 가중치 벡터를 변수로 하고, N개의 특징 간의 연관성과, N개의 특징 및 M개의 레이블 사이의 연관성을 포함하는 평가 함수를 산출하는 단계;
상기 평가 함수를 최소로 만드는 가중치 벡터인 최소 가중치 벡터를 산출하는 단계;
상기 최소 가중치 벡터를 구성하는 N개의 구성요소 중 상위의 구성요소 값을 가지는 n개의 구성요소를 추출하는 단계; 및
상기 n개의 구성요소와 각각 대응되는 n개의 특징을 상기 특징 셋으로 선택하는 단계;를 포함하는 특징 셋의 선택 방법.
제1항에 있어서,
상기 최소 가중치 벡터를 산출하는 단계는 QP(Quadratic Programming) solver를 이용하여 최소 가중치 벡터를 산출하고,
상기 평가 함수는 아래의 수학식과 같이 표현되는 특징 셋의 선택 방법.

여기서, f(x)는 상기 평가 함수, x는 상기 가중치 벡터, Q는 상기 N개의 특징 사이의 연관성(dependency)을 나타내는 N×N 행렬, c는 상기 N개의 특징 각각과 상기 M개의 레이블의 연관성을 나타내는 구성요소를 포함하는 벡터, T는 트랜스포즈를 각각 의미함.
제2항에 있어서,
상기 Q의 구성요소 중 i×j번째 구성요소인 Q_ij는 특징 i와 특징 j 간의 상호작용 정보(interaction information)와 대응되며, 상기 상호작용 정보는 상기 N개의 특징으로 구성된 특징 집합(F)의 총 연관성(total dependency of F)을 이용하여 산출되며, 상기 특징 집합(F)의 총 연관성은 아래의 수학식에 따라 표현되는 특징 셋의 선택 방법.

여기서, C(F)는 상기 특징 집합(F)의 총 연관성, f는 상기 특징, I(T)는 특징 보집합 T에 대한 상호작용 정보, H(T)는 특징 보집합 T에 대한 조인트 엔트로피를 각각 의미함.
제3항에 있어서,
상기 c 중 i번째 구성요소 c_i는 아래의 수학식과 같이 표현되는 것을 특징 셋의 선택 방법.

여기서, y는 상기 레이블, Y는 상기 레이블의 집합,
는 상호 정보 척도(mutual information), C(Y)는 상기 레이블 집합의 총 연관성을 각각 의미함.
다중 레이블을 분류하기 위해 이용되는 특징 셋(feature set)의 선택 장치에 있어서,
N개의 특징 각각의 가중치를 나타내는 값을 구성요소로 하는 가중치 벡터를 변수로 하고, N개의 특징 간의 연관성과, N개의 특징 및 M개의 레이블 사이의 연관성을 포함하는 평가 함수를 산출하는 평가 함수 산출부;
상기 평가 함수를 최소로 만드는 가중치 벡터인 최소 가중치 벡터를 산출하는 최소 가중치 벡터 산출부; 및
상기 최소 가중치 벡터를 구성하는 N개의 구성요소 중 상위의 구성요소 값을 가지는 상위의 n개의 구성요소를 추출하고, 상기 n개의 구성요소와 각각 대응되는 n개의 특징을 상기 특징 셋으로 선택하는 선택부;를 포함하는 특징 셋의 선택 장치.