KR101638114B1

KR101638114B1 - 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법

Info

Publication number: KR101638114B1
Application number: KR1020150167463A
Authority: KR
Inventors: 김대원; 임현기; 이재성
Original assignee: 중앙대학교 산학협력단
Priority date: 2015-11-27
Filing date: 2015-11-27
Publication date: 2016-07-11

Abstract

본 발명은 레이블과의 연관성이 높은 특징만을 선택하여, 특징과 특징 사이의 연관성을 근사하여 다중레이블의 특징 선별의 가속화 장치 및 방법을 제공하기 위한 것으로서, 복수의 정보를 포함하는 매체로부터 자료 추출의 대상이 되는 다중 정보를 포함하는 원본 자료 데이터를 입력받는 데이터 입력부와, 상기 데이터 입력부로부터 입력되는 원본 자료 데이터로부터 각각의 정보별로 데이터의 특징을 추출하는 다중 레이블 추출부와, 상기 다중 레이블 추출부에서 추출된 데이터의 특징을 기반으로 레이블과 연관성이 높은 특징들을 선별한 후, 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하는 연관성 측정부와, 상기 연관성 측정부에서 분석된 데이터를 기반으로 연관성이 높은 특징들만을 이용하여 고유 특징 벡터를 산출하여 원본 자료 데이터에 대한 자료 분포 모델을 형성하는 특징 벡터 추출부를 포함하여 구성되는데 있다.

Description

근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법{Apparatus and method for accelerating multi-label feature selection based on low-rank approximation}

본 발명은 다양한 매체(이미지, 동영상, 음악 등)의 검색 방법에 관한 것으로, 특히 레이블과의 연관성이 높은 특징만을 선택하여, 특징과 특징 사이의 연관성을 근사하여 다중레이블의 특징 선별의 가속화 장치 및 방법에 관한 것이다.

최근 많은 응용에서 다중 레이블 데이터가 발생하고 있다. 하지만 이 데이터는 기존 기계 학습, 데이터 마이닝 분야의 방법 적용이 어렵다. 그 이유는 크게 두 가지로 기존 방법들이 단일 레이블 데이터에 초점을 맞추고 있다는 것과 다중 레이블 데이터의 특성을 반영하지 못하고 있다는 것이다.

대부분의 특정 선별 기법은 단일 레이블 데이터에 초점을 맞추고 있기 때문에 다중 레이블 데이터에는 기존 특징 선별 기법들을 적용할 수 없다.

또한, 다중 레이블 데이터에 특징 선형 기법을 적용하기 위해서 다중 레이블 데이터를 단일 레이블 데이터로 전환하는 방법들이 사용된다. 이에 따라 다중 레이블 데이터의 특징 선형 기법은 텍스트 분류(text categorization), 이미지 주석(image annotation), 음향 정보(acoustic information), 정정 분석(sentiment analysis) 등의 기법들이 다수 적용되어 사용되고 있다.

따라서 다수의 레이블을 위한 특징 선별 시에 특징의 개수가 많아짐에 따라 특징 선별을 위한 시간 소요가 큰 문제점이 있다. 또한 레이블 변환은 데이터 고유의 특성을 반영하지 못하고 정보 손실을 가져올 수 있음에 따라, 다수의 특징 선형 기법을 적용함에 따라 많은 문제점이 발생되게 된다.

등록특허공보 제10-1318923호 (등록일자 2013.10.10)

따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 레이블과의 연관성이 높은 특징만을 선택하여, 특징과 특징 사이의 연관성을 근사하여 다중레이블의 특징 선별의 가속화 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 근사치를 이용한 다중 레이블 특징 선별 가속화 장치의 특징은 복수의 정보를 포함하는 매체로부터 자료 추출의 대상이 되는 다중 정보를 포함하는 원본 자료 데이터를 입력받는 데이터 입력부와, 상기 데이터 입력부로부터 입력되는 원본 자료 데이터로부터 각각의 정보별로 데이터의 특징을 추출하는 다중 레이블 추출부와, 상기 다중 레이블 추출부에서 추출된 데이터의 특징을 기반으로 레이블과 연관성이 높은 특징들을 선별한 후, 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하는 연관성 측정부와, 상기 연관성 측정부에서 분석된 데이터를 기반으로 연관성이 높은 특징들만을 이용하여 고유 특징 벡터를 산출하여 원본 자료 데이터에 대한 자료 분포 모델을 형성하는 특징 벡터 추출부를 포함하여 구성되는데 있다.

바람직하게 상기 연관성 측정부는 수식

을 이용하여 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하며, 이때, 상기 x는 0보다 크거나 같은 자연수이며, 상기 Q는 특징과 특징 사이의 연관성을 나타내고, c는 특징과 레이블 사이의 연관성을 나타내는 것을 특징으로 한다.

바람직하게 상기 연관성 측정부는 특징과 레이블 사이의 연관성이 큰 것 중 순서대로 임의의 몇 개 만큼의 특징들로 분석하고, 나머지 계산하지 않은 부분들은 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 연관성들을 근사하는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 근사치를 이용한 다중 레이블 특징 선별 가속화 방법의 특징은 (A) 입력되는 복수의 정보를 포함하는 원본 자료 데이터로부터 다중 레이블 추출부를 통해 각각의 정보별로 데이터의 특징을 추출하는 단계와, (B) 연관성 측정부를 통해 상기 추출된 데이터의 특징을 기반으로 레이블과 연관성이 높은 특징들을 선별한 후, 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하는 단계와, (C) 특징 벡터 추출부를 통해 상기 분석된 데이터를 기반으로 연관성이 높은 특징들만을 이용하여 고유 특징 벡터를 산출하여 원본 자료 데이터에 대한 자료 분포 모델을 형성하는 단계를 포함하여 이루어지는데 있다.

바람직하게 상기 (B) 단계는 수식

바람직하게 상기 (B) 단계는 특징과 레이블 사이의 연관성이 큰 것 중 순서대로 임의의 몇 개 만큼의 특징들로 분석하는 단계와, 상기 분석되지 않은 나머지 부분들을 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 연관성들을 근사하는 단계를 포함하여 이루어지는 것을 특징으로 한다.

바람직하게 상기 로우-랭크 행렬에 의한 근사(low-rank approximation)는 커널 행렬(kernel matrix) 근사에 사용되는 'Nystrom' 방법을 사용하는 것을 특징으로 한다.

이상에서 설명한 바와 같은 본 발명에 따른 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법은 복잡하고 방대한 다중 레이블 자료에서 정확하게 특징을 추출할 수 있는 모델을 제공할 수 있다.

특히 본 발명에 의하면 레이블과 연관성이 높은 특징들을 통해 다중 레이블 특징을 선별함에 따라 특징과 특징 사이의 연관성 계산 소요 시간을 대폭 줄일 수 있어 다중 레이블 특징을 선별하는 속도를 높일 수 있다.

그리고 특징들 사이의 연관성을 빠르게 계산하기 때문에 대용량 데이터에 대해서도 적용 가능하며, 일정 수준 이상의 특징 선별 정확도도 기대할 수 있다.

도 1 은 본 발명의 실시예에 따른 근사치를 이용한 다중 레이블 특징 선별 가속화 장치를 나타내는 블록도

본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.

본 발명에 따른 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예는 본 발명의 개시가 완전하도록하며 통상의 지식을 가진자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

도 1 은 본 발명의 실시예에 따른 근사치를 이용한 다중 레이블 특징 선별 가속화 장치를 나타내는 블록도이다.

도 1에서 도시하고 있는 것과 같이, 복수의 정보를 포함하는 다양한 매체(이미지, 동영상, 음악 등)로부터 자료 추출의 대상이 되는 다중 정보를 포함하는 원본 자료 데이터를 입력받는 데이터 입력부(100)와, 상기 데이터 입력부(100)로부터 입력되는 원본 자료 데이터로부터 각각의 정보별로 데이터의 특징을 추출하는 다중 레이블 추출부(200)와, 상기 다중 레이블 추출부(200)에서 추출된 데이터의 특징을 기반으로 레이블과 연관성이 높은 특징들을 선별한 후, 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하는 연관성 측정부(300)와, 상기 연관성 측정부(300)에서 분석된 데이터를 기반으로 연관성이 높은 특징들만을 이용하여 고유 특징 벡터를 산출하여 원본 자료 데이터에 대한 자료 분포 모델을 형성하는 특징 벡터 추출부(400)로 구성된다.

이때, 상기 연관성 측정부(300)는 특징과 특징 사이의 연관성을 분석하기 때문에, 어떤 특징을 선택할 것인지에 따라 근사의 에러, 특징 선별의 정확도에 영향을 준다.

따라서 상기 연관성 측정부(300)는 특징 선택을 위해서 레이블과 연관성이 높은 특징들이 그렇지 않은 특징에 비해서 선별될 확률이 높을 것이기 때문에 상기 수학식 1을 이용하여 이 부분을 정확히 계산하고, 나머지 특징들은 근사로 계산한다. 이를 통해 특징과 특징 사이의 연관성 계산 소요 시간을 대폭 줄일 수 있다.

이때, 상기 x는 0보다 크거나 같은 자연수이며, 상기 Q는 특징과 특징 사이의 연관성을 나타내고, c는 특징과 레이블 사이의 연관성을 나타낸다. 예로서,

는 i번째 특징과 j번째 특징 사이의 연관성을 의미하며,

는 i번째 특징과 레이블 사이의 연관성을 의미한다.

즉, 상기 연관성 측정부(300)는 특징과 특징 사이의 연관성을 분석하기 위해서 특정 개수

만큼의 시간이 소요된다.

만큼의 모든 특징과 특징 사이이 연관성을 분석하지 않고, 특징과 레이블 사이의 연관성이 큰 것 중 순서대로 임의의 몇 개의 특징들로 선택된 n개 만큼 분석하고(n<N), 나머지 계산하지 않은 부분들은 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 연관성들을 근사한다. 로우-랭크 행렬에 의한 근사(low-rank approximation)들 중에서 커널 행렬(kernel matrix) 근사에 널리 사용되는 'Nystrom' 방법을 사용한다.

이에 따라, 상기 Q 행렬을 다음 수학식 2와 같이 표현 가능하다.

그리고 상기 수학식 2에서 A, B 부분을 실제 계산하고, E 부분은 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 연관성들을 근사하면, 다음 수학식 3과 같이 나타낼 수 있다.

상기 수학식 3에서 A, B 부분 선택의 기준은

가 큰 순서대로 특징들을 선택한다. 즉, 상기

는 i번째 특징과 레이블 사이의 연관성을 의미하므로 특징과 레이블 사이의 연관성이 큰 것 중 순서대로 임의의 몇 개의 특징들로 선택된다. 상기 임의의 몇 개는 사용자에 의해 설정되는 개수로서, 변경이 가능하다.

일 실시예로서 설명하면 다음과 같다.

먼저, 벡터 c를 다음 수학식 4와 같다고 가정한다.

상기 수학식 4에서와 같이, 벡터 c는 요소 값에 기초하여 정렬된다.

그러면, 벡터 c의 요소를 통하여 행렬 Q는 재배열되어, 다음 수학식 6에서 타나내고 있는 것과 같이 [AB]는 계산된다.

이때, 수학식 6에서 나타내고 있는 것과 같이 상기 수학식 2에서 행렬 Q 중 E 부분은 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 연관성들을 근사한 것으로, 수학식 3을 적용하면 행렬 Q 중 E 부분은 다음 수학식 7로 근사 될 수 있다.

그리고 특징 벡터 추출부(400)를 통해 상기 연관성 측정부(300)에서 분석된 데이터를 기반으로 연관성이 높은 특징들만을 이용하여 고유 특징 벡터를 산출하여 원본 자료 데이터에 대한 자료 분포 모델을 형성한다.

다음 표 1은 다중 레이블 기능 선택 방법을 Core15k, Delicious, Medical별로 비교한 것으로, 수학적 방법이 아닌 탐색을 통한 PMU 방법, 기존의 MLQPFS 방법 및 본 발명에 따른 근사치를 이용한 다중 레이블 특징 선별 가속화 방법을 통해 발생된 다중 레이블 특징의 선별시간(execution time), 특징 선별 정확도(ML Acc)를 각각 나타내고 있다. 이때, 상기 Core15k는 이미지 태그 데이터이며, 상기 Delicious 및 Medical는 문서분류에서 얻어진 데이터이다.

상기 표 1에서 나타내고 있는 것과 같이, 일정 수준 이상의 특징 선별 정확도를 가지면서도 다중 레이블 특징을 선별하는 속도를 현저히 높일 수 있는 것을 알 수 있다.

이와 같이 구성되는 근사치를 이용한 다중 레이블 특징 선별 가속화 장치 및 방법에 따른 활용 분야에 대해서 구체적으로 살펴보면 다음과 같다.

첫 번째 예로 문서 분류에 사용할 수 있다.

즉, 문서를 자동 분류하기 위해서 문서에 포함되어 있는 단어들을 분석하여 문서의 범주를 정하게 된다.

텍스트 데이터로 예를 들어보면 다음 표 2에서 나타내고 있는 것과 같이 이런 형태의 데이터가 들어온다.

	야구	이적	대통령	...
문서1	2	2	0
문서2	0	0	1
문서3	1	0	1
...

표 2에서 나타내는 전체 데이터는 행렬 형태로 들어오게 될 것이고, 하나의 행을 문서 1개를, 하나의 열을 단어 1개를 뜻하게 된다.

'야구'라고 하는 특징은 여러 문서들에서 각각 야구라는 단어가 몇 번 있었는지를 표현하는 벡터로서 들어오게 된다. 야구라는 특징과 이적이라는 특징은 이 각 벡터 사이의 공통의 정보(mutual information)라고 하는 연관성 계산식을 통해 얻어지게 된다.

특징을 추출하기 위해서 2가지를 동시에 고려한다.

1) 특징과 레이블 사이의 연관성

2) 특징과 특징 사이의 연관성

상기 1)은 높을수록 좋은 특징이라 여겨진다. 기본적으로 레이블과 연관성이 높은 특징들이 아무래도 레이블 예측에 도음을 줄 것이다.

상기 2)는 낮을수록 좋은 특징으로 여겨진다. 상기 1)만 고려할 경우, 선택되는 특징들이 비슷하다는 문제가 생긴다.

예를 들어 스포츠라는 레이블과 연관성이 높다고 가장 직접적인 야구, 배구, 축구 등의 종복 단어들만 선택이 되기보다는 레이블과 약간 차이가 있더라도 중복되지 않는 선수, 연봉, 월드컵 등의 직접적인 종목 이름들이 아닌 특징들로 추출되는게 성능 향상에 좋은 경우가 많다.

현재 기술에서 로우-랭크 행렬은 상기 2)를 위해서 구성이 된다. 이 행렬은 정방행렬인데, i번째 행과 j번째 열에 i번째 특징과 j번째 특징의 연관성이 계산되어 들어가게 된다. 이 행렬과 곱해져 있는 x값이 상기 2)가 낮을수록, 높은 가중치(weight)를 가지게 되는 방식으로 최적화 과정을 거치게 된다. 이렇게 얻어진 벡터 x가 최종적인 특징의 가중치이고, 높은 값들로 특징들을 선별하게 된다.

이처럼, 어떤 문서에 야구, 이적, 연봉 등의 단어들이 있으면 이 문서는 스포츠 범주로 나뉠 수 있을 것입니다. 이런 범주를 다중 레이블로 볼 수 있고, 단어들이 특징으로 여길 수 있다. 이 기술을 통해 정확한 문서 분류를 위한 단어들을 추출할 수 있다.

두 번째 예로 이미지 주석에 사용할 수 있다.

즉, 페이스북, 인스타그램과 같이 sns에서 많은 사진들이 공유되고 있으며, 포털에서도 이미지 검색이 많이 사용되고 있다.

그 검색에 이미지의 태그 정보들이 이용되고 있으며, 이 이미지의 태그 또한 자동으로 태깅 이미지 검색에 도움을 줄 수 있다. 즉, 하나의 이미지에 여러 개의 태그가 태깅될 수 있고 이는 다중 레이블로 볼 수 있을 것이며, 이미지가 담고 있는 물체나 혹은 색감 등이 특징이 될 수 있다.

따라서 이미지 태깅에 좀 더 유효하게 작용할 수 있는 물체나 색 등을 이 기술을 통해 선별해낼 수 있다.

상기에서 설명한 본 발명의 기술적 사상은 바람직한 실시예에서 구체적으로 기술되었으나, 상기한 실시예는 그 설명을 위한 것이며 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술적 분야의 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 실시예가 가능함을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

복수의 정보를 포함하는 매체로부터 자료 추출의 대상이 되는 다중 정보를 포함하는 원본 자료 데이터를 입력받는 데이터 입력부와,
상기 데이터 입력부로부터 입력되는 원본 자료 데이터로부터 각각의 정보별로 데이터의 특징을 추출하는 다중 레이블 추출부와,
상기 다중 레이블 추출부에서 추출된 데이터의 특징을 기반으로 상기 추출되는 데이터를 하나의 범주로 묶을 수 있도록 미리 정의되어 있는 레이블과 연관성이 높은 특징들을 각각 선별한 후, 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 상기 레이블과 연관성이 높은 특징들로 선별된 특징들 간의 연관성을 분석하는 연관성 측정부와,
상기 연관성 측정부에서 분석된 데이터를 기반으로 상기 선별된 특징들 간의 연관성이 높은 특징들만을 이용하여 고유 특징 벡터를 산출하여 원본 자료 데이터에 대한 자료 분포 모델을 형성하는 특징 벡터 추출부를 포함하여 구성되는 것을 특징으로 하는 근사치를 이용한 다중 레이블 특징 선별 가속화 장치.
제 1 항에 있어서,
상기 연관성 측정부는 수식
을 이용하여 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하며,
이때, 상기 x는 0보다 크거나 같은 자연수이며, 상기 Q는 특징과 특징 사이의 연관성을 나타내고, c는 특징과 레이블 사이의 연관성을 나타내는 것으로, 상기
는 선별된 i번째 특징과 j번째 특징 사이의 x번째 연관성을 나타낸 것이고, 상기 Cx는 x번째 특징과 레이블 사이의 연관성을 나타낸 것이며, 또한, 상기 T는 전치 행렬을 나타낸 것을 특징으로 하는 근사치를 이용한 다중 레이블 특징 선별 가속화 장치.
제 1 항에 있어서, 상기 연관성 측정부는
상기 선별되지 않은 특징들을 다시 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 미리 정의되어 있는 레이블들 중 가장 연관성이 높은 레이블을 검출하기 위해 선별되지 않은 특징들 간의 연관성을 분석하는 것을 특징으로 하는 근사치를 이용한 다중 레이블 특징 선별 가속화 장치.
(A) 입력되는 복수의 정보를 포함하는 원본 자료 데이터로부터 다중 레이블 추출부를 통해 각각의 정보별로 데이터의 특징을 추출하는 단계와,
(B) 연관성 측정부를 통해 상기 추출된 데이터의 특징을 기반으로 상기 추출되는 데이터를 하나의 범주로 묶을 수 있도록 미리 정의되어 있는 레이블과 연관성이 높은 특징들을 선별한 후, 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 상기 레이블과 연관성이 높은 특징들로 선별된 특징들 간의 연관성을 분석하는 단계와,
(C) 특징 벡터 추출부를 통해 상기 분석된 데이터를 기반으로 상기 선별된 특징들 간의 연관성이 높은 특징들만을 이용하여 고유 특징 벡터를 산출하여 원본 자료 데이터에 대한 자료 분포 모델을 형성하는 단계를 포함하여 이루어지는 것을 특징으로 하는 근사치를 이용한 다중 레이블 특징 선별 가속화 방법.
제 4 항에 있어서,
상기 (B) 단계는 수식
을 이용하여 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 선별된 특징과 특징 사이의 연관성을 분석하며,
이때, 상기 x는 0보다 크거나 같은 자연수이며, 상기 Q는 특징과 특징 사이의 연관성을 나타내고, c는 특징과 레이블 사이의 연관성을 나타내는 것으로, 상기
는 선별된 i번째 특징과 j번째 특징 사이의 x번째 연관성을 나타낸 것이고, 상기 Cx는 x번째 특징과 레이블 사이의 연관성을 나타낸 것이며, 또한, 상기 T는 전치 행렬을 나타낸 것을 특징으로 하는 근사치를 이용한 다중 레이블 특징 선별 가속화 방법.
제 4 항에 있어서, 상기 (B) 단계는
선별되지 않은 특징들을 다시 로우-랭크 행렬에 의한 근사(low-rank approximation)를 통해 미리 정의되어 있는 레이블들 중 가장 연관성이 높은 레이블을 검출하기 위해 선별되지 않은 특징들 간의 연관성을 분석하는 단계를 포함하여 이루어지는 것을 특징으로 하는 근사치를 이용한 다중 레이블 특징 선별 가속화 방법.
제 6 항에 있어서,
상기 로우-랭크 행렬에 의한 근사(low-rank approximation)는 커널 행렬(kernel matrix) 근사에 사용되는 'Nystrom' 방법을 사용하는 것을 특징으로 하는 근사치를 이용한 다중 레이블 특징 선별 가속화 방법.