KR20200010679A

KR20200010679A - 이질성 학습 기반의 정보 분류 장치

Info

Publication number: KR20200010679A
Application number: KR1020180080271A
Authority: KR
Inventors: 김남규; 윌리엄; 현윤진
Original assignee: 국민대학교산학협력단
Priority date: 2018-07-11
Filing date: 2018-07-11
Publication date: 2020-01-31
Also published as: KR102115973B1

Abstract

본 발명은 이질성 학습 기반의 정보 분류 장치에 관한 것으로, 제1 지도학습용 학습 데이터 모집단을 통해 제1 분류 규칙을 생성하는 지도학습 처리부, 제2 지도학습용 학습 데이터 모집단을 통해 초기 분류 규칙을 생성하고 상기 초기 분류 규칙에 대해 이질성 학습 데이터를 주입하여 제2 분류 규칙을 생성하는 이질성 학습 처리부 및 상기 제1 및 제2 분류 규칙들을 통해 생성된 적어도 하나의 후보 분류 규칙 중에서 최종 분류 규칙을 생성하는 분류 규칙 생성부를 포함한다. 따라서, 본 발명은 원 데이터에 이질적인 데이터를 추가하여 정보 분류의 정확도 향상에 기여할 수 있다.

Description

이질성 학습 기반의 정보 분류 장치{HETEROGENEITY LEARNING BASED INFORMATION CLASSIFICATION APPARATUS}

본 발명은 이질성 학습 기반의 정보 분류 기술에 관한 것으로, 보다 상세하게는 원 데이터에 이질적인 데이터를 추가하여 정보 분류의 정확도 향상에 기여할 수 있는 이질성 학습 기반의 정보 분류 장치에 관한 것이다.

문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naive Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우될 수 있다.

하지만, 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능에서 영향을 받을 수 있다.

한국공개특허 제10-2006-0016933(2006.02.23)호

본 발명의 일 실시예는 원 데이터에 이질적인 데이터를 추가하여 정보 분류의 정확도 향상에 기여할 수 있는 이질성 학습 기반의 정보 분류 장치를 제공하고자 한다.

본 발명의 일 실시예는 기준 정보와 동일한 데이터 소스의 정보뿐만 아니라, 상이한 형질을 갖는 데이터 소스로부터 이질적 데이터를 추출하여 이를 학습데이터로 보강함으로써 정보 분류기 구축에 활용할 수 있는 이질성 학습 기반의 정보 분류 장치를 제공하고자 한다.

본 발명의 일 실시예는 기존의 기계학습 기반 분류기와 이질성 분류기를 통한 분류 규칙 도출을 통해 데이터가 갖는 형질에 따라 적합한 분류 규칙을 선별적으로 적용함으로써 보다 정확한 정보 분류가 가능한 이질성 학습 기반의 정보 분류 장치를 제공하고자 한다.

실시예들 중에서, 이질성 학습 기반의 정보 분류 장치는 제1 지도학습용 학습 데이터 모집단을 통해 제1 분류 규칙을 생성하는 지도학습 처리부, 제2 지도학습용 학습 데이터 모집단을 통해 초기 분류 규칙을 생성하고 상기 초기 분류 규칙에 대해 이질성 학습 데이터를 주입하여 제2 분류 규칙을 생성하는 이질성 학습 처리부 및 상기 제1 및 제2 분류 규칙들을 통해 생성된 적어도 하나의 후보 분류 규칙 중에서 최종 분류 규칙을 생성하는 분류 규칙 생성부를 포함한다.

상기 지도학습 처리부는 기계학습 알고리즘을 통해 상기 제1 지도학습용 학습 데이터 모집단에 포함된 학습 데이터를 학습하여 상기 제1 분류 규칙을 생성할 수 있다.

상기 이질성 학습 처리부는 미분류된 복수의 학습 데이터들로 구성된 N개의(상기 N은 자연수) 학습 데이터 모집단들을 상기 이질성 학습 데이터로서 주입할 수 있다.

상기 이질성 학습 처리부는 상기 초기 분류 규칙을 적용하여 상기 이질성 학습 데이터를 분류하고 분류 결과를 기초로 상기 이질성 학습 데이터를 선별할 수 있다.

상기 이질성 학습 처리부는 상기 제2 지도학습용 학습 데이터 모집단에 선별된 상기 이질성 학습 데이터를 추가하고 재학습을 통해 이질성 분류기를 생성할 수 있다.

상기 이질성 학습 처리부는 상기 이질성 분류기가 M개(상기 M은 자연수)인 경우 상기 M개의 이질성 분류기들의 분류 결과를 결합하여 상기 제2 분류 규칙을 생성할 수 있다.

상기 분류 규칙 생성부는 상기 제1 분류 규칙에 의한 예측값과 상기 제2 분류 규칙에 의한 예측값 간의 비교를 통해 상기 적어도 하나의 후보 분류 규칙을 생성할 수 있다.

상기 분류 규칙 생성부는 상기 예측값들 간의 차이에 관한 특정 임계값을 포함하는 복수의 예비후보 분류 규칙들을 생성하고 상기 복수의 예비후보 분류 규칙들 각각의 분류 정확도를 기초로 상기 적어도 하나의 후보 분류 규칙을 생성할 수 있다.

상기 분류 규칙 생성부는 상기 적어도 하나의 후보 분류 규칙에 대해 유효성 검증을 수행하고 상기 유효성 검증을 통과한 후보 분류 규칙을 기초로 상기 최종 분류 규칙을 생성할 수 있다.

상기 분류 규칙 생성부는 유효성 검증용 데이터 모집단에 대해 상기 적어도 하나의 후보 분류 규칙을 적용하여 산출된 분류 정확도를 이용하여 상기 유효성 검증을 수행할 수 있다.

개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

본 발명의 일 실시예에 따른 이질성 학습 기반의 정보 분류 장치는 기준 정보와 동일한 데이터 소스의 정보뿐만 아니라, 상이한 형질을 갖는 데이터 소스로부터 이질적 데이터를 추출하여 이를 학습데이터로 보강함으로써 정보 분류기 구축에 활용할 수 있다.

본 발명의 일 실시예에 따른 이질성 학습 기반의 정보 분류 장치는 기존의 기계학습 기반 분류기와 이질성 분류기를 통한 분류 규칙 도출을 통해 데이터가 갖는 형질에 따라 적합한 분류 규칙을 선별적으로 적용함으로써 보다 정확한 정보 분류가 가능할 수 있다.

도 1은 본 발명의 일 실시예에 따른 이질성 학습 기반의 정보 분류 장치를 설명하는 도면이다.
도 2는 도 1에 있는 정보 분류 장치를 설명하는 블록도이다.
도 3은 도 1에 있는 정보 분류 장치에서 수행되는 정보 분류 과정을 설명하는 순서도이다.
도 4는 본 발명의 일 실시예에 따른 이질성 학습 기반의 정보 분류 장치의 전체적인 개요를 나타내는 도면이다.
도 5 및 6은 본 발명의 일 실시예에 따른 이질성 학습 기반의 정보 분류 장치에서 수행되는 데이터의 구조화 과정을 설명하는 도면이다.
도 7은 정보 분류 장치에서 수행되는 이질성 학습을 통해 이질성이 주입되는 과정의 일 실시예를 설명하는 예시도이다.
도 8은 정보 분류 장치에서 도 4의 타겟 데이터 A를 대상으로 분류 규칙을 적용한 결과와 복수의 예비후보 분류 규칙들 및 후보 분류 규칙의 일 실시예를 설명하는 예시도이다.
도 9는 본 발명의 일 실시예에 따른 이질성 학습 기반의 정보 분류 장치에서 사용되는 규칙 선별 알고리즘의 일 실시예를 설명하는 도면이다.

본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.

한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.

1) 데이터 이질성(Data Heterogeneity)

이질적 데이터는 (a) 데이터 유형, 파일 형식, 데이터 인코딩 방식, 데이터 모델 등의 차이를 의미하는 구문 이질성(Syntactic Heterogeneity), (b) 서로 다른 관점에 따라 구성된 데이터로 인한 해석의 차이를 의미하는 의미적 이질성(Semantic Heterogeneity), (c) 데이터의 통계적 특성의 차이를 의미하는 통계적 이질성(Statistical Heterogeneity)의 3가지 범주로 구분할 수 있다. 특히, 텍스트 데이터의 경우에는 문서에 포함된 어휘들에 의해 형질이 결정되기 때문에 데이터의 관점에 따라 서로 다른 형질을 갖게 되며, 이는 의미적 이질성의 특징을 갖는다고 볼 수 있다.

2) 준지도학습(Semi-supervised Learning)

준지도학습은 레이블을 갖는 분류데이터 수가 충분하지 않을 경우, 레이블이 없는 미분류 데이터를 학습데이터로 사용함으로써 더 높은 정확도를 갖는 양질의 분류기를 구축할 수 있다. 효과적인 준지도학습을 위해 EM(Empectation Maximization) 기반의 방법론, 자기훈련, 상호훈련(Co-Training), TSVM(Transductive Support Vector Machine), S3VM(Semi-Supervised SVM), 그래프 기반 방법론, 부스팅 기반 방법론 등 다양한 기술들이 활용될 수 있다.

특히, 자기훈련은 준지도학습의 가장 대표적인 기술로써 자연어 처리(Natural Language Processing), 객체 탐지, 원격 감지 영상(remote sensing imagery)의 분류 등 다양한 분야에서 활용될 수 있다. 자기훈련은 적은 양의 레이블을 갖는 분류데이터를 대상 데이터로 하여 학습을 수행하고, 이를 활용하여 레이블이 없는 미분류데이터를 예측하여 분류할 수 있다. 또한, 자기 훈련은 분류된 데이터의 예측값 중 가장 높은 확률값을 갖는 데이터를 학습데이터에 추가하고, 일련의 과정을 반복함으로써 최종적으로 분류기를 구축할 수 있다. 따라서, 원 데이터에 이질성을 주입하기 위하여 상기의 과정을 수행하는 방법을 이질성 학습이라 할 수 있다.

3) 앙상블 학습(Ensemble Learning)

앙상블 학습은 여러 개의 분류기를 구축하고 해당 예측 결과들을 결합함으로써 새로운 가설(Hypothesis)을 학습하는 기법으로, 단일 분류기의 성능을 향상시키기 위해 널리 사용되고 있는 기법에 해당한다. 이러한 앙상블 학습을 위해서 중요하게 고려되어야 할 사항은 크게 2가지로, (a) 가능한 다양한 분류기를 통해 (b) 예측 정확도가 높은 분류기 결과를 결합함으로써 앙상블 학습이 이루어져야 한다. 이 때, 다양한 분류기의 구축은 학습데이터, 형질, 파라미터(Parameter) 설정, 분류기의 유형 등을 달리함으로써 가능하며, 보다 많은 분류기를 구축함으로써 해당 결과들 중 단일 분류기보다 성능이 향상된 결과를 결합하는 방식을 통해 이루어질 수 있다.

도 1은 본 발명의 일 실시예에 따른 이질성 학습 기반의 정보 분류 장치를 설명하는 도면이다.

도 1을 참조하면, 이질성 학습 기반의 정보 분류 장치(이하, 정보 분류 장치라 한다.)(100)은 프로세서(110), 메모리(130), 사용자 입출력부(150) 및 네트워크 입출력부(170)를 포함할 수 있다.

정보 분류 장치(100)는 정보 분류기의 학습 과정에서 이질적 데이터소스를 추가한 이질성 학습을 통해 정보 분류의 정확성을 향상시킬 수 있는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 일 실시예에서, 정보 분류 장치(100)는 데이터베이스(도면에 미도시함)를 포함하여 구현될 수 있고, 데이터베이스와 별도로 구현될 수 있다. 데이터베이스와 별도로 구현된 경우 정보 분류 장치(100)는 데이터베이스와 연결되어 데이터를 송수신할 수 있다. 여기에서, 정보 분류 장치(100)는 문서 분류를 예로 들어 설명하고 있지만, 반드시 이에 한정되지 않고, 문서 외에 다양한 유형의 정보 분류에 적용할 수 있다.

일 실시예에서, 정보 분류 장치(100)는 정보 분류를 위한 전처리 단계로서 데이터의 구조화를 수행할 수 있다. 텍스트 데이터의 경우, 구조화되어 있지 않은 비정형 데이터이기 때문에 데이터 분석 가능한 형태로의 변환이 필수적이며, 정보 분류 장치(100)는 이를 위해 텍스트 마이닝의 대표적 기법인 토픽 모델링(Topic Modeling)을 활용할 수 있다. 토픽 모델링은 각 문서에 포함된 용어의 빈도수에 근거하여 유사 문서를 그룹화한 뒤 각 그룹을 대표하는 주요 용어들을 추출하여 해당 그룹의 토픽 키워드 집합을 제시하는 방식으로 수행될 수 있다. 데이터의 구조화에 대해서는 도 5 및 6에서 보다 자세히 설명한다.

데이터베이스는 정보 분류 장치(100)가 이질성 학습을 수행하여 정확도가 향상된 분류 규칙을 생성하는 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다. 데이터베이스는 특정 범위에 속하는 정보들을 저장하는 적어도 하나의 독립된 서브-데이터베이스들로 구성될 수 있고, 적어도 하나의 독립된 서브-데이터베이스들이 하나로 통합된 통합 데이터베이스로 구성될 수 있다.

프로세서(110)는 이질성 학습 기반의 정보 분류 프로시저를 실행할 수 있고, 그 과정 전반에서 읽혀지거나 작성되는 메모리(130)를 관리할 수 있으며, 메모리(130)에 있는 휘발성 메모리와 비휘발성 메모리 간의 동기화 시간을 스케줄할 수 있다. 프로세서(110)는 정보 분류 장치(100)의 동작 전반을 제어할 수 있고, 메모리(130), 사용자 입출력부(150) 및 네트워크 입출력부(170)와 전기적으로 연결되어 이들 간의 데이터 흐름을 제어할 수 있다. 프로세서(110)는 정보 분류 장치(100)의 CPU(Central Processing Unit)로 구현될 수 있다.

메모리(130)는 SSD(Solid State Disk) 또는 HDD(Hard Disk Drive)와 같은 비휘발성 메모리로 구현되어 정보 분류 장치(100)에 필요한 데이터 전반을 저장하는데 사용되는 보조기억장치를 포함할 수 있고, RAM(Random Access Memory)과 같은 휘발성 메모리로 구현된 주기억장치를 포함할 수 있다.

사용자 입출력부(150)는 사용자 입력을 수신하기 위한 환경 및 사용자에게 특정 정보를 출력하기 위한 환경을 포함하고, 예를 들어, 마우스, 트랙볼, 터치 패드, 그래픽 태블릿, 스캐너, 터치 스크린, 키보드 또는 포인팅 장치와 같은 어댑터를 포함하는 입력장치 및 모니터 또는 터치스크린과 같은 어댑터를 포함하는 출력장치를 포함할 수 있다. 일 실시예에서, 사용자 입출력부(150)는 원격 접속을 통해 접속되는 컴퓨팅 장치에 해당할 수 있고, 그러한 경우, 정보 분류 장치(100)는 서버로서 수행될 수 있다.

네트워크 입출력부(170)은 네트워크를 통해 외부 장치 또는 시스템과 연결하기 위한 환경을 포함하고, 예를 들어, LAN(Local Area Network), MAN(Metropolitan Area Network), WAN(Wide Area Network) 및 VAN(Value Added Network) 등의 통신을 위한 어댑터를 포함할 수 있다.

도 2는 도 1에 있는 정보 분류 장치를 설명하는 블록도이다.

도 2를 참조하면, 정보 분류 장치(100)는 지도학습 처리부(210), 이질성 학습 처리부(230), 분류 규칙 생성부(250) 및 제어부(270)를 포함할 수 있다.

지도학습 처리부(210)는 제1 지도학습용 학습 데이터 모집단을 통해 제1 분류 규칙을 생성할 수 있다. 학습 데이터 모집단은 학습에 사용되는 학습 데이터들의 집합에 해당할 수 있고, 지도학습용 학습 데이터 모집단은 지도학습에 해당하는 다양한 기계학습 알고리즘 중 어느 하나를 이용하여 학습하는 학습 데이터들의 집합에 해당할 수 있다. 예를 들어, 제1 지도학습용 학습 데이터 모집단은 뉴스, 블로그 또는 트위터 데이터 집합에 해당할 수 있다. 제1 분류 규칙은 지도학습 처리부(210)에 의해 수행되는 학습의 결과로서 생성될 수 있고, 예를 들어, 뉴스 데이터와 같은 텍스트로 구성된 문서들이 대상이 되는 경우 해당 문서들을 미리 정해진 복수의 카테고리들 중 하나로 분류하는 분류 규칙에 해당할 수 있다.

일 실시예에서, 지도학습 처리부(210)는 기계학습 알고리즘을 통해 제1 지도학습용 학습 데이터 모집단에 포함된 학습 데이터를 학습하여 제1 분류 규칙을 생성할 수 있다. 지도학습 처리부(210)는 학습을 위한 학습 알고리즘으로서 기계학습 알고리즘을 사용할 수 있다. 예를 들어, 지도학습 처리부(210)는 뉴스 데이터와 같은 텍스트로 구성된 문서들을 대상으로 전통적인 기계학습 알고리즘 중 하나인 인공신경망 알고리즘을 통해 제1 분류 규칙을 생성할 수 있다. 기계학습 알고리즘을 통해 생성된 제1 분류 규칙은 기계학습 기반의 분류기에 해당할 수 있다.

이질성 학습 처리부(230)는 제2 지도학습용 학습 데이터 모집단을 통해 초기 분류 규칙을 생성하고 초기 분류 규칙에 대해 이질성 학습 데이터를 주입하여 제2 분류 규칙을 생성할 수 있다. 이질성 학습 데이터는 미분류된 학습 데이터에 해당할 수 있고, 이질성 학습 처리부(230)는 분류된 학습 데이터의 학습 과정에 미분류된 학습 데이터를 삽입하여 제2 분류 규칙을 생성할 수 있다. 제2 지도학습용 학습 데이터 모집단은 제1 지도학습용 학습 데이터 모집단과 동일할 수 있으며, 제1 지도학습용 학습 데이터 모집단과 동일하게 사전에 분류된 학습 데이터 모집단에 해당할 수 있다. 이질성 학습 처리부(230)는 제2 지도학습용 학습 데이터 모집단을 학습하여 생성한 초기 분류 규칙을 이질성 학습 데이터에 적용할 수 있고, 분류 결과가 좋은 이질성 학습 데이터를 선별하여 학습 데이터에 추가하고 다시 학습을 수행하는 반복학습을 통해 최종 분류 규칙을 생성할 수 있다.

일 실시예에서, 이질성 학습 처리부(230)는 미분류된 복수의 학습 데이터들로 구성된 N개의(상기 N은 자연수) 학습 데이터 모집단들을 이질성 학습 데이터로서 주입할 수 있다. 이질성 학습 처리부(230)는 이질성 학습 데이터를 학습에 활용하여 원 데이터에 이질성을 주입할 수 있고, 반복 학습을 통해 최종 분류 규칙으로서 제2 분류 규칙을 생성하기 위하여 이질적 데이터의 원천 소스 수에 따라 복수의 학습 데이터 모집단들을 이질성 학습 데이터로서 주입할 수 있다.

일 실시예에서, 이질성 학습 처리부(230)는 초기 분류 규칙을 적용하여 이질성 학습 데이터를 분류하고 분류 결과를 기초로 이질성 학습 데이터를 선별할 수 있다. 보다 구체적으로, 이질성 학습 처리부(230)는 초기 분류 규칙에 따라 이질성 학습 데이터를 분류할 수 있고, 분류 결과 중 높은 예측값을 갖는 이질성 학습 데이터를 선별하여 반복학습에 사용할 수 있다. 예를 들어, 이질성 학습 처리부(230)는 분류 결과 중 예측값이 특정 임계값 이상인 이질적 데이터만을 선별하여 원 데이터에 이질성 학습 데이터로서 주입할 수 있다.

일 실시예에서, 이질성 학습 처리부(230)는 제2 지도학습용 학습 데이터 모집단에 선별된 이질성 학습 데이터를 추가하고 재학습을 통해 이질성 분류기를 생성할 수 있다. 이질성 학습 처리부(230)에 의해 선별된 이질성 학습 데이터는 초기 분류 규칙에 의해 분류된 결과를 포함하고 있기 때문에 분류된 데이터에 해당하고 분류된 데이터들로 구성된 제2 지도학습용 학습 데이터 모집단에 추가될 수 있다. 결과적으로, 이질성 학습 처리부(230)는 분류된 데이터들로 구성된 학습 데이터를 최종적으로 학습하여 분류 규칙에 해당하는 분류기를 생성할 수 있고, 이질성 분류기는 분류된 학습 데이터에 대한 학습 과정에 미분류된 학습 데이터를 주입하여 생성된 분류 규칙에 해당할 수 있다.

일 실시예에서, 이질성 학습 처리부(230)는 이질성 분류기가 M개(상기 M은 자연수)인 경우 M개의 이질성 분류기들의 분류 결과를 결합하여 제2 분류 규칙을 생성할 수 있다. 이질성 학습 처리부(230)에 의해 생성되는 이질성 분류기는 학습 과정에서 주입되는 이질성 학습 데이터에 따라 복수로 생성될 수 있다. 예를 들어, 미분류 뉴스 데이터, 블로그, 트위터 각각의 이질적 데이터소스로 구성된 학습 데이터 모집단들을 이질성 학습 데이터로서 주입하는 경우 이질성 학습 처리부(230)는 총 3개의 이질성 분류기들을 생성할 수 있다.

또한, 이질성 학습 처리부(230)는 이질성 분류기가 복수인 경우 각 분류기들의 분류 결과를 결합하여 제2 분류 규칙을 생성할 수 있다. 제2 분류 규칙은 원 데이터에 이질성을 주입하기 위한 이질성 학습을 통해 도출되는 최종 분류 규칙에 해당할 수 있고, 복수의 이질성 분류기들이 생성되는 경우에는 이질성 분류기별 예측값을 비교한 후 가장 높은 예측값만을 선별하는 방식을 통해 생성될 수 있다.

분류 규칙 생성부(250)는 제1 및 제2 분류 규칙들을 통해 생성된 적어도 하나의 후보 분류 규칙 중에서 최종 분류 규칙을 생성할 수 있다. 분류 규칙 생성부(250)는 기계학습 기반의 분류 규칙인 제1 분류 규칙과 이질성 학습 기반의 분류 규칙인 제2 분류 규칙을 이용하여 적어도 하나의 후보 분류 규칙을 생성할 수 있고, 각각의 후보 분류 규칙에 대한 검증을 통해 최종적으로 정보 분류에 사용될 최종 분류 규칙을 생성할 수 있다.

일 실시예에서, 분류 규칙 생성부(250)는 제1 분류 규칙에 의한 예측값과 제2 분류 규칙에 의한 예측값 간의 비교를 통해 적어도 하나의 후보 분류 규칙을 생성할 수 있다. 후보 분류 규칙은 최종 분류 규칙으로 선별될 가능성이 있는 분류 규칙에 해당할 수 있고, 제1 분류 규칙에 의한 분류 결과를 기준으로 하여 예측값들 간의 차이에 따라 제2 분류 규칙에 의한 분류 결과로의 대체를 규정한 대체 규칙을 포함할 수 있다. 예를 들어, 후보 분류 규칙 X가 대체 규칙 'B→C' 및 임계값 'A'를 포함하여 생성된 경우, 후보 분류 규칙 X는 예측값들 간의 차이가 임계값 A 이상인 경우 제1 분류 규칙에 의한 분류 결과 B를 제2 분류 규칙에 의한 분류 결과 C로 대체하는 것에 해당할 수 있다. 분류 규칙 생성부(250)는 제1 분류 규칙에 의한 예측값과 제2 분류 규칙에 의한 예측값을 기초로 임계값과 대체 규칙을 포함하는 후보 분류 규칙을 생성할 수 있다.

일 실시예에서, 분류 규칙 생성부(250)는 예측값들 간의 차이에 관한 특정 임계값을 포함하는 복수의 예비후보 분류 규칙들을 생성하고 복수의 예비후보 분류 규칙들 각각의 분류 정확도를 기초로 적어도 하나의 후보 분류 규칙을 생성할 수 있다. 예비후보 분류 규칙은 후보 분류 규칙으로 선별될 가능성이 있는 분류 규칙에 해당할 수 있다. 분류 규칙 생성부(250)는 동일한 데이터 모집단에 대하여 제1 분류 규칙 및 제2 분류 규칙을 각각 적용할 수 있고 데이터 모집단에 속한 각 데이터에 대해 분류 결과와 해당 분류 결과를 수치화한 예측값을 산출할 수 있다. 분류 규칙 생성부(250)는 제1 분류 규칙에 의한 예측값과 제2 분류 규칙에 의한 예측값 간의 차이를 기초로 다양한 임계값과 대체 규칙의 조합을 통해 복수의 예비후보 분류 규칙을 생성할 수 있다.

또한, 분류 규칙 생성부(250)는 예비후보 분류 규칙에 의해 분류된 결과를 실제 데이터와 비교하여 복수의 예비후보 분류 규칙들 각각의 분류 정확도를 산출할 수 있다. 분류 정확도는 분류 규칙에 의해 분류된 결과가 실제 데이터와 얼마나 일치하는지를 수치화한 것으로, 예를 들어, 분류 규칙에 의해 분류된 결과와 실제 데이터를 비교하여 정상적으로 분류된 개수와 비정상적으로 분류된 개수를 각각 산출하고 그 차이를 분류 정확도로서 결정할 수 있다. 분류 규칙 생성부(250)는 분류 정확도가 특정 기준을 충족하는 예비후보 분류 규칙만을 선별하여 적어도 하나의 후보 분류 규칙을 생성할 수 있다.

일 실시예에서, 분류 규칙 생성부(250)는 적어도 하나의 후보 분류 규칙에 대해 유효성 검증을 수행하고 유효성 검증을 통과한 후보 분류 규칙을 기초로 최종 분류 규칙을 생성할 수 있다. 유효성 검증은 후보 분류 규칙 중에서 분류 정확도 향상에 기여할 수 있는 분류 규칙들을 선별하는 작업에 해당할 수 있다. 분류 규칙 생성부(250)는 후보 분류 규칙을 생성하는데 활용된 학습 데이터 모집단과 다른 데이터 모집단을 이용하여 유효성 검증을 수행함으로써 유효성 검증의 정확도를 높일 수 있다. 최종 분류 규칙은 정보 분류 장치(100)가 정보 분류의 정확성을 향상시키기 위해 이질성 학습을 기초로 도출한 분류 규칙에 해당할 수 있다.

일 실시예에서, 분류 규칙 생성부(250)는 유효성 검증용 데이터 모집단에 대해 적어도 하나의 후보 분류 규칙을 적용하여 산출된 분류 정확도를 이용하여 유효성 검증을 수행할 수 있다. 유효성 검증용 데이터 모집단은 유효성 검증의 정확도를 높이기 위하여 제1 및 제2 분류 규칙 생성에 활용된 제1 및 제2 지도학습용 학습 데이터 모집단과 상이할 수 있고, 제2 지도학습용 학습 데이터 모집단에 이질성 학습 데이터를 주입한 학습 데이터 모집단과 상이할 수 있으며, 이전 과정에서 활용되지 않은 분류데이터로 구성된 데이터 모집단에 해당할 수 있다.

보다 구체적으로, 분류 규칙 생성부(250)는 적어도 하나의 후보 분류 규칙을 유효성 검증용 데이터 모집단에 적용하여 분류된 결과를 실제 데이터와 비교하여 각 후보 분류 규칙에 대한 분류 정확도를 산출할 수 있고 해당 분류 정확도가 특정 기준을 충족하는 경우 유효성 검증을 통과한 것으로 결정할 수 있다. 예를 들어, 분류 규칙 생성부(250)는 분류 결과와 실제 데이터를 비교하여 정상적으로 분류된 개수와 비정상적으로 분류된 개수 간의 차이를 순이득(Net Gain)으로 산출할 수 있고 해당 순이득을 분류 정확도로서 사용할 수 있다. 분류 규칙 생성부(250)는 순이득이 0보다 큰 후보 분류 규칙에 대해 유효성 검증을 통과한 것으로 결정할 수 있다.

제어부(270)는 정보 분류 장치(100)의 전체적인 동작을 제어하고, 지도학습 처리부(210), 이질성 학습 처리부(230) 및 분류 규칙 생성부(250) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.

도 3은 도 1에 있는 정보 분류 장치에서 수행되는 정보 분류 과정을 설명하는 순서도이다.

도 3을 참조하면, 정보 분류 장치(100)는 지도학습 처리부(210)를 통해 제1 지도학습용 학습 데이터 모집단을 통해 제1 분류 규칙을 생성할 수 있다(단계 S310). 정보 분류 장치(100)는 이질성 학습 처리부(230)를 통해 제2 지도학습용 학습 데이터 모집단을 통해 초기 분류 규칙을 생성하고 초기 분류 규칙에 대해 이질성 학습 데이터를 주입하여 제2 분류 규칙을 생성할 수 있다(단계 S330). 정보 분류 장치(100)는 분류 규칙 생성부(250)를 통해 제1 및 제2 분류 규칙들을 통해 생성된 적어도 하나의 후보 분류 규칙 중에서 최종 분류 규칙을 생성할 수 있다(단계 S350).

도 4는 본 발명의 일 실시예에 따른 이질성 학습 기반의 정보 분류 장치의 전체적인 개요를 나타내는 도면이다.

도 4를 참조하면, 정보 분류 장치(100)에서 수행되는 이질성 학습 기반의 정보 분류 과정을 확인할 수 있다. 원통형으로 표시된 부분은 분류 및 학습의 대상이 되는 뉴스 데이터(Train, Validate, Target_A, Target_B, Target_C), 레이블이 없는 미분류데이터인 이질성 데이터(Heterogeneous Data) 등의 데이터소스를 나타낸다. 또한, 직사각형으로 표시된 부분은 주요 프로세스를 나타내며, 점선으로 표시된 도형은 각 프로세스의 산출물을 나타낸다.

정보 분류 장치(100)에서 수행되는 이질성 학습 기반의 정보 분류 과정은 Module 1 이질성 주입(Phase 1)과 Module 2 분류 규칙 선별(Phase 2~4)의 2가지 모듈로 구성될 수 있다. Phase 1에 해당하는 Module 1의 이질성 주입은 분류 및 학습의 대상이 되는 원 데이터에 이질성을 인위적으로 주입시키기 위하여 이질성 학습을 수행할 수 있다. 보다 구체적으로, 정보 분류 장치(100)는 원 데이터를 학습하여 초기 분류기를 구축하고, 이를 이질적 데이터에 적용함으로써 가장 높은 예측값을 갖는 데이터만을 학습데이터에 추가할 수 있다.

이때, 활용되는 이질적 데이터의 원천 소스의 수에 따라 각각의 이질성 분류기가 생성되기 때문에 정보 분류 장치(100)는 앙상블 학습 이론을 적용하여 해당 분류기들의 예측 결과를 결합하여 가장 높은 예측값을 갖는 분류 규칙을 선정함으로써 이질성 학습 기반의 분류 규칙을 생성할 수 있다. 이렇게 도출된 이질성 학습 기반 분류 규칙은 원 데이터를 대상으로 하여 기존의 기계학습 알고리즘을 통해 도출된 기계학습 기반 분류 규칙과 함께 이후 Module 2에서 수행될 규칙 선별 기반 앙상블 준지도학습에 활용될 수 있다.

Phase 2 내지 Phase 4에 해당하는 Module 2의 분류 규칙 선별은 Module 1을 통해 도출된 기계학습 기반 분류 규칙과 이질성 학습 기반 분류 규칙을 활용하여 분류 규칙을 선별하고, 이에 기반하여 최종 문서 분류기를 구축하는 과정에 해당할 수 있다. 이때, 타겟 데이터를 A, B, C 3개의 데이터집합(뉴스 데이터)로 분리하여 사용하는 것은 문서 분류를 위한 분류 규칙을 선별하고, 검증 과정을 거쳐 최종 선정된 분류 규칙을 테스트하여 문서 분류기의 성능을 확인하기 위함이다.

보다 구체적으로, Phase 2에서 정보 분류 장치(100)는 타겟 데이터 A를 대상으로 기계학습 기반 분류 규칙과 이질성 학습 기반 분류 규칙을 적용하여 각각 스코어링을 수행하고, 해당 결과를 결합함으로써 가장 높은 예측값을 갖는 규칙들 만을 선별하여 분류 규칙 후보군을 생성할 수 있다. Phase 3에서 정보 분류 장치(100)는 Phase 2를 통해 도출된 분류 규칙 후보군 중에서 실제 문서 분류기 성능을 향상시키는데 기여하는 분류 규칙들을 선별할 수 있다. 정보 분류 장치(100)는 타겟 데이터 B를 대상으로 하여 Phase2와 같은 방식으로 스코어링을 수행하고, 해당 결과를 결합한 후 Phase 2를 통해 산출된 분류 규칙 후보군을 적용하여 타겟 데이터를 정확하게 분류해낸 분류 규칙들 만을 선별하여 문서 분류기 구축을 위한 최종 분류 규칙으로 선정할 수 있다.

도 5 및 6은 본 발명의 일 실시예에 따른 이질성 학습 기반의 정보 분류 장치에서 수행되는 데이터의 구조화 과정을 설명하는 도면이다.

도 5에서, 데이터 구조화는 각각의 분류기가 적용되는 대상 데이터를 통합하여 토픽 모델링을 수행함으로써 이루어질 수 있고, 정보 분류 장치(100)는 N개의 분류기가 구축될 경우 N번의 토픽 모델링을 통해 데이터 구조화를 수행할 수 있다. 이때, 데이터 구조화 프로세스를 분류기에 따라 분리하여 수행하는 것은 이질적 데이터로부터 추출된 형질의 차이가 토픽 가중치에 영향을 주기 때문이다. 예를 들어, 뉴스 데이터를 원 데이터로 한 기계학습 기반 분류기와 트위터, 블로그의 이질적 데이터를 활용한 이질성 분류기를 구축한다고 가정하면, 총 3개의 분류기가 구축되기 때문에 이에 따른 데이터 구조화도 3번의 토픽 모델링 수행을 통해 이루어질 수 있다.

도 6에서, 정보 분류 장치(100)에서 수행된 데이터 구조화 결과의 일 실시예를 확인할 수 있다. 정보 분류 장치(100)는 데이터를 구조화한 이후에 해당 데이터를 학습데이터로 활용하여 기존의 기계학습 기반 분류기와 자기훈련 기법을 통한 이질성 학습 기반의 이질성 분류기를 구축할 수 있다.

도 7은 정보 분류 장치에서 수행되는 이질성 학습을 통해 이질성이 주입되는 과정의 일 실시예를 설명하는 예시도이다.

도 7을 참조하면, 정보 분류 장치(100)는 (a) 원 데이터인 뉴스 데이터를 학습시켜 초기 분류 규칙을 생성하여 (b) 미분류된 이질적 데이터인 블로그와 트위터 데이터에 적용함으로써 (c) 예측값에 따라 이질적 데이터에 레이블을 부여할 수 있다. 정보 분류 장치(100)는 (c)의 결과 중 높은 예측값을 갖는 이질적 데이터들을 선별하여 학습데이터에 추가하여 다시 학습을 시킴으로써 새로운 분류 규칙을 생성하는 방식으로 반복학습을 통해 최종 분류 규칙을 선정하여 문서 분류기를 구축할 수 있다.

정보 분류 장치(100)는 미분류된 이질적 데이터를 학습에 활용해 원 데이터에 이질성을 주입함으로써 학습데이터의 재구성을 통해 이질성 분류기를 구축할 수 있다. 정보 분류 장치(100)는 이질적 데이터 원천 소스의 수에 따라 여러 개의 이질성 분류기를 생성할 수 있고, 해당 분류기들의 예측 결과들을 결합하여 가장 높은 예측값을 갖는 분류 규칙을 선정함으로써 최종적인 이질성 학습 기반의 분류 규칙을 도출할 수 있다.

도 8은 정보 분류 장치에서 도 4의 타겟 데이터 A를 대상으로 분류 규칙을 적용한 결과와 복수의 예비후보 분류 규칙들 및 후보 분류 규칙의 일 실시예를 설명하는 예시도이다.

도 8의 그림 (a)에서, 정보 분류 장치(100)는 도 4의 타겟 데이터 A를 대상으로 이질성 학습 기반의 분류 규칙(HC)과 기계학습 기반의 분류 규칙(SC)을 적용해 스코어링한 결과를 결합할 수 있다. 정보 분류 장치(100)는 결합된 스코어링 결과에 기반하여 각 분류 규칙에 의한 예측값(Confidence)의 차이(Difference)가 산출할 수 있다. 정보 분류 장치(100)는 기계학습 기반의 분류 규칙에 따른 예측값과 레이블(카테고리)를 기준으로 하여, 이질성 학습 기반의 분류 규칙에 따른 예측값과의 차이가 양수일 경우 이질성 학습 기반의 분류 규칙에 의해 부여된 레이블이 기준 레이블을 대체하도록 할 수 있다.

도 8의 그림 (b)에서, 정보 분류 장치(100)는 복수의 예비후보 분류 규칙들을 생성할 수 있고, 실제 레이블과 비교하여 제대로 분류된 개수(Correct)와 잘못 분류된 개수(Incorrect)에 따라 순이득(Net Gain)을 산출할 수 있다. 정보 분류 장치(100)는 순이득이 0보다 큰 분류 규칙을 선별하여 최종 분류 규칙 선정을 위한 후보 분류 규칙으로 선정할 수 있다. 정보 분류 장치(100)는 상기 과정을 통해 도출된 후보 분류 규칙 R1, R2, R5, R6, R7을 도 4의 타겟 데이터 B에 적용하여 Phase 2와 같은 방식으로 후보 분류 규칙에 대한 유효성 검증이 수행할 수 있다.

도 8의 그림 (c)에서, 정보 분류 장치(100)에 의해 수행된 유효성 검증 결과를 확인할 수 있다. 후보 분류 규칙 중 R7의 경우, 그림 (b)에서 예측값의 차이(Threshold)가 0.4로 양수이기 때문에 “SPORTS”가 “DIGITAL”로 대체되었으나 그림 (c)에서 타겟 데이터 B에서는 순이득이 0보다 작아 유효하지 않은 분류 규칙으로 구분되어 최종 분류 규칙에서는 제외된 것을 확인할 수 있다.

도 9는 본 발명의 일 실시예에 따른 이질성 학습 기반의 정보 분류 장치에서 사용되는 규칙 선별 알고리즘의 일 실시예를 설명하는 도면이다.

도 9를 참조하면, 정보 분류 장치(100)는 문서 분류의 성능 향상을 위한 분류 규칙을 생성하기 위해 (1) 예측값의 차이에 따른 임계값과 (2) 대체된 레이블의 정확도를 활용한 규칙 선별 알고리즘을 활용할 수 있다. 정보 분류 장치(100)는 도 9에서 구현된 규칙 선별 알고리즘을 통해 예비후보 분류 규칙을 생성할 수 있고, 도 8의 그림 (b)는 도 9의 규칙 선별 알고리즘을 통해 생성된 예비후보 분류 규칙의 일실시예에 해당할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

100: 이질성 학습 기반의 정보 분류 장치
110: 프로세서 130: 메모리
150: 사용자 입출력부 170: 네트워크 입출력부
210: 지도학습 처리부 230: 이질성 학습 처리부
250: 분류 규칙 생성부 270: 제어부

Claims

제1 지도학습용 학습 데이터 모집단을 통해 제1 분류 규칙을 생성하는 지도학습 처리부;
제2 지도학습용 학습 데이터 모집단을 통해 초기 분류 규칙을 생성하고 상기 초기 분류 규칙에 대해 이질성 학습 데이터를 주입하여 제2 분류 규칙을 생성하는 이질성 학습 처리부; 및
상기 제1 및 제2 분류 규칙들을 통해 생성된 적어도 하나의 후보 분류 규칙 중에서 최종 분류 규칙을 생성하는 분류 규칙 생성부를 포함하는 이질성 학습 기반의 정보 분류 장치.
제1항에 있어서, 상기 지도학습 처리부는
기계학습 알고리즘을 통해 상기 제1 지도학습용 학습 데이터 모집단에 포함된 학습 데이터를 학습하여 상기 제1 분류 규칙을 생성하는 것을 특징으로 하는 이질성 학습 기반의 정보 분류 장치.
제1항에 있어서, 상기 이질성 학습 처리부는
미분류된 복수의 학습 데이터들로 구성된 N개의(상기 N은 자연수) 학습 데이터 모집단들을 상기 이질성 학습 데이터로서 주입하는 것을 특징으로 하는 이질성 학습 기반의 정보 분류 장치.
제1항에 있어서, 상기 이질성 학습 처리부는
상기 초기 분류 규칙을 적용하여 상기 이질성 학습 데이터를 분류하고 분류 결과를 기초로 상기 이질성 학습 데이터를 선별하는 것을 특징으로 하는 이질성 학습 기반의 정보 분류 장치.
제4항에 있어서, 상기 이질성 학습 처리부는
상기 제2 지도학습용 학습 데이터 모집단에 선별된 상기 이질성 학습 데이터를 추가하고 재학습을 통해 이질성 분류기를 생성하는 것을 특징으로 하는 이질성 학습 기반의 정보 분류 장치.
제5항에 있어서, 상기 이질성 학습 처리부는
상기 이질성 분류기가 M개(상기 M은 자연수)인 경우 상기 M개의 이질성 분류기들의 분류 결과를 결합하여 상기 제2 분류 규칙을 생성하는 것을 특징으로 하는 이질성 학습 기반의 정보 분류 장치.
제1항에 있어서, 상기 분류 규칙 생성부는
상기 제1 분류 규칙에 의한 예측값과 상기 제2 분류 규칙에 의한 예측값 간의 비교를 통해 상기 적어도 하나의 후보 분류 규칙을 생성하는 것을 특징으로 하는 이질성 학습 기반의 정보 분류 장치.
제7항에 있어서, 상기 분류 규칙 생성부는
상기 예측값들 간의 차이에 관한 특정 임계값을 포함하는 복수의 예비후보 분류 규칙들을 생성하고 상기 복수의 예비후보 분류 규칙들 각각의 분류 정확도를 기초로 상기 적어도 하나의 후보 분류 규칙을 생성하는 것을 특징으로 하는 이질성 학습 기반의 정보 분류 장치.
제1항에 있어서, 상기 분류 규칙 생성부는
상기 적어도 하나의 후보 분류 규칙에 대해 유효성 검증을 수행하고 상기 유효성 검증을 통과한 후보 분류 규칙을 기초로 상기 최종 분류 규칙을 생성하는 것을 특징으로 하는 이질성 학습 기반의 정보 분류 장치.
제9항에 있어서, 상기 분류 규칙 생성부는
유효성 검증용 데이터 모집단에 대해 상기 적어도 하나의 후보 분류 규칙을 적용하여 산출된 분류 정확도를 이용하여 상기 유효성 검증을 수행하는 것을 특징으로 하는 이질성 학습 기반의 정보 분류 장치.