KR102632589B1

KR102632589B1 - 딥러닝 기반의 학습을 통한 데이터 분류 방법

Info

Publication number: KR102632589B1
Application number: KR1020220026325A
Authority: KR
Inventors: 배영훈; 김재훈; 김기성; 유형찬
Original assignee: 아이브스 주식회사
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2024-02-02
Also published as: KR20230128865A

Abstract

적은 데이터를 활용해서 많은 양의 데이터를 사람이 분류하기 쉽도록 미리 분류해주는 딥러닝 기반의 학습을 통한 데이터 분류 방법이 개시된다. 상기 방법은, (a) 데이터 취득부가 빅데이터를 취득하여 빅데이터 데이터셋 및 라벨링된 라벨 링 데이터셋을 생성하는 단계, (b) 특징값 추출부가 상기 빅데이터 데이터셋 및 상기 라벨링 데이터셋으로부터 각각 제 1 특징값 및 제 2 특징값을 추출하는 단계, (c) 학습부가 상기 제 1 특징값을 이용하여 신경망에 기반한 학습을 통해 사전 학습 모델(pre-trained model)을 생성하고, 상기 사전 학습 모델 및 상기 제 2 특징값을 이용하여 신경망 레이어 제거 모델을 생성하는 단계, 및 (d) 모델 생성부가 상기 신경망 레이어 제거 모델에 기반하여 가중치값을 적용하여 제 3 특징값을 추출하고, 상기 제 3 특징값을 이용하여 상기 신경망에 기반한 학습을 통해 상기 빅데이터를 분류하기 위한 최종 분류 모델을 생성하는 단계를 포함하는 것을 특징으로 한다.

Description

딥러닝 기반의 학습을 통한 데이터 분류 방법{Method for classifying data through recurrent learning transfer based on deep learning}

본 발명은 데이터 분류 기술에 관한 것으로서, 더 상세하게는 딥러닝 기반의 학습을 통한 데이터 분류 방법에 대한 것이다.

기계 학습(Machine Learning) 기술은 입력 데이터에 대한 일반화 과정으로부터 특정 문제를 해결할 수 있는 모델의 생성 기술을 의미한다. 우수한 성능을 갖는 모델을 생성하기 위해서는 양질의 학습 데이터와 일반화 과정을 위한 학습 알고리즘이 필요하다.

모델의 성능을 개선하기 위한 기법으로서 앙상블(Ensemble) 기법이 있다. 앙상블 기법은 다수의 약한 학습기(Weak Learner)를 결합하여 하나의 강한 학습기(Strong Learner)를 생성하는 기법이다.

이러한 앙상블 기법에는 투표(Voting) 방식을 이용한 배깅(Bagging) 기법, 가중 투표(Weighted Voting) 방식을 이용한 부스팅(Boosting) 기법 및 단일 모델(Sing Model)로부터 얻어낸 예측값을 학습 데이터로 이용하는 스태킹(Stacking) 기법이 있다.

또한, 최근 인공지능 기술이 발달함에 따라서 데이터의 가치가 상당히 높아지고 있다. 감독학습에 기반한 딥러닝 기술의 경우에는 정확한 라벨링(정답표기)이 되어있는 데이터가 상당히 중요하다.

하지만, 이러한 데이터에 따른 라벨링 작업의 경우에는 대부분 사람이 직접 하기 때문에 애매한 데이터에 대해서는 정확한 분류가 어려울 수 있으며, 데이터의 양이 상당히 많을 경우에는 그만큼의 분류 작업을 하는데 시간이 필요하다는 문제점이 있다.

1. 대한민국 공개특허번호 제10-2020-0097505호

본 발명은 위 배경기술에 따른 문제점을 해소하기 위해 제안된 것으로서, 적은 데이터를 활용해서 많은 양의 데이터를 사람이 분류하기 쉽도록 미리 분류해주는 딥러닝 기반의 학습을 통한 데이터 분류 방법을 제공하는데 그 목적이 있다.

본 발명은 위에서 제시된 과제를 달성하기 위해, 적은 데이터를 활용해서 많은 양의 데이터를 사람이 분류하기 쉽도록 미리 분류해주는 딥러닝 기반의 학습을 통한 데이터 분류 방법을 제공한다.

상기 방법은,

(a) 데이터 취득부가 빅데이터를 취득하여 빅데이터 데이터셋 및 라벨링된 라벨링 데이터셋을 생성하는 단계;

(b) 특징값 추출부가 상기 빅데이터 데이터셋 및 상기 라벨링 데이터셋으로부터 각각 제 1 특징값 및 제 2 특징값을 추출하는 단계;

(c) 학습부가 상기 제 1 특징값을 이용하여 신경망에 기반한 학습을 통해 사전 학습 모델(pre-trained model)을 생성하고, 상기 사전 학습 모델 및 상기 제 2 특징값을 이용하여 신경망 레이어 제거 모델을 생성하는 단계; 및

(d) 모델 생성부가 상기 신경망 레이어 제거 모델에 기반하여 가중치값을 적용하여 제 3 특징값을 추출하고, 상기 제 3 특징값을 이용하여 상기 신경망에 기반한 학습을 통해 상기 빅데이터를 분류하기 위한 최종 분류 모델을 생성하는 단계;를 포함하는 것을 특징으로 한다.

또한, 상기 신경망 레이어 제거 모델은 신경망 레이어를 제거하는 전이 학습을 이용하여 생성되는 것을 특징으로 한다.

또한, 상기 전이 학습은 CNN (Convolution Neural Network)에 기반한 학습에 통해 생성되는 상기 사전 학습 모델(pre-trained model)로부터 DNN (Deep Neural Network) 레이어를 제거하는 것을 특징으로 한다.

또한, 상기 분류는 음향 데이터 분류인 것을 특징으로 한다.

또한, 상기 가중치값은 상기 사전 학습 모델(pre-trained model)에 기반한 컨벌루션 레이어의 가중치값인 것을 특징으로 한다.

다른 한편으로, 본 발명의 다른 일실시예는, (a) 데이터 취득부가 빅데이터를 취득하여 미라벨링된 미라벨링 음원 데이터셋 및 라벨링된 제 1 라벨링 데이터셋을 생성하는 단계; (b) 특징값 추출부가 상기 제 1 라벨링 데이터셋으로부터 제 1 특징값을 추출하는 단계; (c) 학습부가 상기 제 1 특징값을 이용하여 신경망에 기반한 학습을 통해 사전 학습 모델(pre-trained model)을 생성하고, 상기 사전 학습 모델 및 상기 제 1 특징값을 이용하여 신경망 레이어 제거 모델을 생성하는 단계; (d) 모델 생성부가 상기 신경망 레이어 제거 모델에 기반하여 가중치값을 적용하여 제 2 특징값을 추출하고, 상기 제 2 특징값을 이용하여 상기 신경망에 기반한 학습을 통해 상기 미라벨링 음원 데이터셋을 분류하기 위한 임시 분류 모델을 생성하는 단계; 및 (e) 상기 모델 생성부가 상기 임시 분류 모델을 이용하여 상기 미라벨링 음원 데이터셋을 분류하고, 상기 분류 결과에 따라 재구성 제 2 라벨링 데이터셋을 이용하여 상기 빅데이터를 분류하기 위한 최종 분류 모델을 결정하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 기반의 학습을 통한 데이터 분류 방법을 제공한다.

또한, 상기 (e) 단계는, (e-1) 상기 모델 생성부가 상기 분류 결과에 따른 결과값과 미리 설정된 임계값을 비교하는 단계; (e-2) 상기 결과값이 상기 임계값보다 크면, 상기 모델 생성부가 다른 데이터셋으로 이동하고 라벨링을 하여 제 2 라벨링 데이터셋을 재구성하는 단계; 및 (e-3) 상기 제 2 라벨링 데이터셋을 상기 제 1 라벨링 데이터셋에 합하여 추가 데이터셋을 생성하는 단계;를 포함하는 것을 특징으로 한다.

또한, 상기 (e-3) 단계는, 상기 추가 데이터셋이 생성되면 상기 임계값에서 미리 설정되는 설정값만큼 감산하는 단계; 상기 임계값이 미리 설정되는 기준값에 도달할때까지 상기 단계 (a) 내지 상기 단계(e)를 반복 수행하는 단계; 및 상기 반복이 마지막 수행되는 때 생성되는 상기 임시 분류 모델을 상기 최종 분류 모델로 결정하는 단계;를 포함하는 것을 특징으로 한다.

또한, 상기 제 2 라벨링 데이터셋은 학습용 데이터셋과 테스트용 데이터셋으로 분할되는 것을 특징으로 한다.

또한, 상기 학습용 데이터셋 및 상기 테스트용 데이터셋의 비율은 90%:10%인 것을 특징으로 한다.

본 발명에 따르면, 적은 데이터를 활용해서 많은 양의 데이터를 사람이 분류하기 쉽도록 미리 분류할 수 있다.

도 1은 본 발명의 일실시예에 따른 데이터 분류 시스템의 구성 블럭도이다.
도 2는 본 발명의 일실시예에 따른 모델 생성 과정을 보여주는 흐름도이다.
도 3은 본 발명의 일실시예에 따른 최종 분류 및 라벨링 과정을 보여주는 흐름도이다.
도 4는 본 발명의 일실시예에 따른 새로운 추가 데이터 셋을 생성하는 과정을 보여주는 흐름도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다.

제 1, 제 2등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. "및/또는" 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미가 있는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 한다.

이하 첨부된 도면을 참조하여 본 발명의 일실시예에 따른 딥러닝 기반의 학습을 통한 데이터 분류 방법을 상세하게 설명하기로 한다.

도 1은 본 발명의 일실시예에 따른 데이터 분류 시스템(100)의 구성 블럭도이다. 도 1을 참조하면, 데이터 분류 시스템(100)은, 빅데이터를 취득하여 빅데이터 데이터셋 및 라벨링된 라벨링 데이터셋을 생성하는 데이터 취득부(110), 취득된 빅데이터 데이터셋 및 라벨링 데이터셋으로부터 각각 제 1 특징값 및 제 2 특징값을 추출하는 특징값 추출부(120), 데이터 셋, 제 1 특징값 및 제 2 특징값을 저장하는 데이터 저장소(130), 제 1 특징값을 이용하여 신경망에 기반한 학습을 통해 사전 학습 모델(pre-trained model)을 생성하고 사전 학습 모델 및 제 2 특징값을 이용하여 신경망 레이어 제거 모델을 생성하는 학습부(140), 신경망 레이어 제거 모델에 기반하여 가중치값을 적용하여 제 3 특징값을 추출하고 제 3 특징값을 이용하여 신경망에 기반한 학습을 통해 상기 빅데이터를 분류하기 위한 최종 분류 모델을 생성하는 모델 생성부(150) 등을 포함하여 구성될 수 있다.

데이터 취득부(110)는 데이터를 취득하는 기능을 수행한다. 데이터 취득부(110)는 현장에 설치되는 센서를 통해 생성된 데이터를 취득한다. 특히, 데이터 취득부(110)는 빅데이터를 취득하여 빅데이터 데이터셋을 생성하거나, 빅데이터에 라벨링을 하여 라벨링(정답 표기)된 라벨링 데이터셋을 생성할 수도 있다.

물론, 데이터 취득부(110)는 통신망(미도시)을 통해 센서들과 연결되어 데이터를 취득할 수도 있고, 직접 센서들과 연결될 수 있다. 이를 위해, 데이터 취득부(110)는 통신 모뎀, 메모리 등을 포함하여 구성될 수 있다. 데이터는 음향 데이터가 될 수 있으나, 이에 한정되는 것은 아니며 영상 데이터도 가능하다.

통신망은 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 공중교환 전화망(PSTN), 공중교환 데이터망(PSDN), 종합정보통신망(ISDN: Integrated Services Digital Networks), 광대역 종합 정보 통신망(BISDN: Broadband ISDN), 근거리 통신망(LAN: Local Area Network), 대도시 지역망(MAN: Metropolitan Area Network), 광역 통신망(WLAN: Wide LAN) 등이 될 수 있다.

그러나, 본 발명은 이에 한정되지는 않으며, 무선 통신망인 CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), Wibro(Wireless Broadband), WiFi(Wireless Fidelity), HSDPA(High Speed Downlink Packet Access) 망, 블루투쓰(bluetooth), NFC(Near Field Communication) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 될 수 있다. 또는, 이들 유선 통신망 및 무선 통신망의 조합일 수 있다.

특징값 추출부(120)는 데이터로부터 특징값을 추출하는 기능을 수행한다. 부연하면, 특징값 추출부(120)는 취득된 빅데이터 데이터셋 및 라벨링 데이터셋으로부터 각각 제 1 특징값 및 제 2 특징값을 추출하는 기능을 수행한다.

특징값은 로그-멜-스펙트로그램이며, 일반 오디오 파일의 RAW 데이터에 단시간 푸리에 트랜스폼을 진행한 후 멜필터, 로그 스케일을 적용하여 추출한다.

데이터 저장소(130)는 데이터 취득부(110)를 통해 획득된 데이터, 특정값 추출부(120)를 통해 획득된 특징값 등을 저장하는 기능을 수행한다. 이를 위해 데이터 저장소(130)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD(Secure Digital) 또는 XD(eXtreme Digital) 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read Only Memory), PROM(Programmable Read Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

또한, 인터넷(internet)상에서 저장 기능을 수행하는 웹 스토리지(web storage), 클라우드 서버와 관련되어 동작할 수도 있다.

학습부(140)는 제 1 특징값을 이용하여 신경망에 기반한 전이 학습을 통해 사전 학습 모델(pre-trained model)을 생성하고 사전 학습 모델 및 제 2 특징값을 이용하여 신경망 레이어 제거 모델을 생성하는 기능을 수행한다.

신경망은 입력층과 출력층 사이에 여러 층의 은닉층이 있는 구조로 되어 있다. 이는 인간이 데이터 처리에 대한 절차나 규칙을 제시해주지 않아도 기계가 스스로 데이터를 통해 처리규칙을 학습하여 처리하는 방식이다. 신경망은 DNN(Deep Neural Network), CNN(Convolution Neural Network), RNN(Recurrent Neural Network)이 사용될 수 있다.

본 발명의 일실시예에서는 학습부(140)가 특징값을 이용하여 CNN에 기반한 학습을 통해 사전 학습 모델(pre-trained model)을 생성한다. 그 후, 생성된 모델에서 DNN 레이어를 제거하여 새로운 특징값을 추출하기 위한 모델을 준비한다. 그리고, 분류되기를 원하는 클래스를 가진 데이터셋을 준비하며, 해당 데이터에서 특징값을 추출한다. 추출된 데이터는 기존에 만들어진 모델(즉, 사전 학습 모델(pre-trained model)에 기반한 컨벌루션(Convolution) 레이어의 가중치 값을 통해 재생성되며, 이것은 새로운 특징값이 된다.

전이 학습(Transfer Learning)은 특정 분야에서 학습된 신경망의 일부 능력을 유사하거나 전혀 새로운 분야에서 사용되는 신경망의 학습에 이용하는 것을 의미한다.

예로 들어 Resnet(Residual Networks)이나 VGG(Visual Geometry Group) 등과 같은 신경망의 구성 중 앞단은 일반적으로 CNN 레이어로 구성되어 있다. 이 CNN 레이어는 이미지의 특징을 추출하는 능력을 갖는다.

처음에는 신형성을 추출하고 다음에는 패턴을, 마지막에는 형상 등을 추출한다고 알려져 있다. 따라서, 수만에서 수천만장의 이미지를 통해 학습된 높은 성능을 갖는 Resnet이나 VGG 신경망의 특징 추출 능력을 그대로 이용하고, 마지막 출력 계층으로써, 주로 선형(Affine; 가중치와 편향에 대한 행렬 연산) 레이어만을 변경하여 이 변경된 레이어만을 재학습시키는 것이 전이 학습이다.

도 1을 참조하면, 모델 생성부(150)는 신경망 레이어 제거 모델에 기반하여 가중치값을 적용하여 제 3 특징값을 추출하고 제 3 특징값을 이용하여 신경망에 기반한 학습을 통해 최종 분류 모델을 생성한다.

전이 학습은 학습 데이터의 수가 적을때도 효과적이며, 학습 속도도 빠릅니다. 그리고 전이학습없이 학습하는 것보다 훨씬 높은 정확도를 제공한다는 장점이 있다.

도 1에 도시된 특징값 추출부(120), 학습부(140), 모델 생성 부(150)는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 소프트웨어 및/또는 하드웨어로 구현될 수 있다. 하드웨어 구현에 있어, 상술한 기능을 수행하기 위해 디자인된 ASIC(application specific integrated circuit), DSP(digital signal processing), PLD(programmable logic device), FPGA(field programmable gate array), 프로세서, 마이크로프로세서, 다른 전자 유닛 또는 이들의 조합으로 구현될 수 있다.

소프트웨어 구현에 있어, 소프트웨어 구성 컴포넌트(요소), 객체 지향 소프트웨어 구성 컴포넌트, 클래스 구성 컴포넌트 및 작업 구성 컴포넌트, 프로세스, 기능, 속성, 절차, 서브 루틴, 프로그램 코드의 세그먼트, 드라이버, 펌웨어, 마이크로 코드, 데이터, 데이터베이스, 데이터 구조, 테이블, 배열 및 변수를 포함할 수 있다. 소프트웨어, 데이터 등은 메모리에 저장될 수 있고, 프로세서에 의해 실행된다. 메모리나 프로세서는 당업자에게 잘 알려진 다양한 수단을 채용할 수 있다.

도 2는 본 발명의 일실시예에 따른 모델 생성 과정을 보여주는 흐름도이다. 도 2를 참조하면, 데이터 취득부(110)가 빅데이터를 취득하여 빅데이터 데이터셋을 생성한다(단계 S210).

이후, 특징값 추출부(120)는 빅데이터 데이터셋으로부터 제 1 특징값을 추출한다(단계 S211).

이후, 학습부(140)는 제 1 특징값을 이용하여 신경망에 기반한 학습을 통해 사전 학습 모델(pre-trained model)을 생성하고, 이 사전 학습 모델(pre-trained model)에서 신경망 레이어(예를 들면, DNN 레이어)를 제거하여 신경망 레이어 제거 모델을 생성한다(단계 S213,S215,S217,S223).

한편, 데이터 취득부(110)가 취득된 빅데이터를 이용하여 라벨링 데이터셋을 생성한다(단계 S220).

이후, 특징값 추출부(120)는 라벨링 데이터셋으로부터 제 2 특징값을 추출한다(단계 S221).

이후, 모델 생성부(150)는 신경망 레이어 제거 모델에 이전 컨벌루션 레이어의 가중치를 적용하여 새로운 제 3 특징값을 추출한다(단계 S225).

제 1,2 특징값은 멜스펙트로그램을 기반하여 추출된 특징값이며, 제 3특징값은 해당 스펙트로그램에 추가적으로 컨벌루션 필터를 사용한 특징값이다. 이전 컨벌루션 레이어는 빅데이터를 통해 사전에 학습되어진 가중치를 가지고 있는 컨벌루션 레이어이다.

이후, 모델 생성부(150)는 새로운 제 3 특징값을 활용하여 DNN기반의 학습을 통해 최종 분류 모델을 생성한다(단계 S229). 최종 분류모델은 분류하고자 하는 소수의 클래스를 정립하여 사용하기 때문에 다량의 클래스를 분류해야하는 사전 학습모델보다 높은 정확도를 가지게 된다.

도 2에 도시된 알고리즘을 적용할 경우, 원하는 라벨의 데이터셋의 개수가 많지 않더라도 좋은 성능을 가진 모델을 만들어 낼 수 있다 라는 장점이 있다.

데이터 라벨링에 관련된 예를 하나 들어보면, 분류하려 하는 데이터셋의 개수가 약 1만개라고 가정했을 때, 개발자가 5개의 클래스로 클래스당 50개까지 데이터셋을 만들어 놓았다고 하자. 하지만, 9750개의 데이터를 직접 들어가면서 분류를 할 시간적인 여유가 없다면, 해당 작업은 하기가 어렵다. 따라서 모델 생성 방법과 일련의 절차를 추가하여 적은 데이터로도 스스로 학습하여 데이터를 분류하여 라벨링하는 알고리즘이 가능하다. 이를 보여주는 도면이 도 3이다.

도 3은 본 발명의 일실시예에 따른 최종 분류 및 라벨링 과정을 보여주는 흐름도이다. 도 3을 참조하면, 데이터 취득부(110)가 빅데이터를 취득하여 라벨링된 라벨링 데이터셋을 생성한다(단계 S310).

이후, 특징값 추출부(120)는 제 1 라벨링 데이터셋으로부터 제 1 특징값을 추출한다(단계 S320).

이후, 학습부(140)는 제 1 특징값을 이용하여 신경망에 기반한 학습을 통해 사전 학습 모델(pre-trained model)을 생성하고, 이 사전 학습 모델(pre-trained model)에서 신경망 레이어(예를 들면, DNN 레이어)를 제거하여 신경망 레이어 제거 모델을 생성한다(단계 S330).

이후, 모델 생성부(150)는 이전 컨벌루션 레이어의 가중치를 적용하여 새로운 제 2 특징값을 추출한다(단계 S340).

이후, 제 2 특징값을 활용하여 DNN 기반의 학습을 통해 임시 분류 모델을 생성한다(단계 S301, S350,S360). 임시분류 모델은 많은 클래스를 학습하여 분류할 수 있으며, 그 대신 정확도가 많이 떨어지는 특징을 가지고 있다.

모델 생성부(150)는 임시 분류 모델에 미라벨링 음원 데이터셋을 적용하여 결과를 평가한다(단계 S301,S370). 부연하면, 분류한 결과값이 미리 설정된 임계값(N%)보다 큰지를 확인한다. 여기서, N은 90이 될 수 있다.

확인 결과, 단계 S370에서, 분류한 결과값이 임계값보다 작으면, 단계 S310 내지 S370이 다시 진행된다.

이와 달리, 단계 S370에서, 분류한 결과값이 임계값보다 크면, 다른 데이터셋으로 이동하고 라벨링을 하여 제 2 라벨링 데이터셋을 재구성한다(단계 S380,S381). 즉, 사전에 정해 놓은 임계값이상의 데이터만 걸러내도록 하여, 라벨링을 진행한다. 이렇게 되면 기존의 학습된 데이터들과 상당한 유사한 데이터만 걸러질 수 있다.

이후, 새롭게 재구성된 제1 라벨링 데이터셋과 기존의 제 2 라벨링 데이터셋을 합하여, 새롭게 추가된 추가 데이터셋을 생성하고, 임계값을 미리 설정되는 설정값 1%씩 낮춘다(즉, 감산)(단계 S382). 이후, 단계 S310 내지 S381을 진행한다.

단계 S382에서, 임계값이 미리 설정되는 기준값(N==70%)이면, 임시 분류 모델을 최종 분류 모델로 결정하고, 이 최종 분류 모델을 이용하여 미라벨링 음원 데이터셋을 최종 분류하고 라벨링한다(단계 S383,S390).

부연하면, 일정 임계값에 도달할 때까지 반복하도록 한다. 일정 임계값에 도달할 경우, 그 마지막 반복에서 얻어낸 전이 학습 모델을 최종 분류 모델로 결정하여 남은 미라벨링된 데이터를 해당 최종 분류 모델에 적용하여 최종 분류와 라벨링을 한다.

도 4는 본 발명의 일실시예에 따른 새로운 추가 데이터 셋을 생성하는 과정을 보여주는 흐름도이다. 도 4를 참조하면, 해당 알고리즘을 통하여 100% 정확한 분류는 어려울 수 있다. 하지만, 계속해서 데이터를 추가하여 트레이닝된 모델에 의해서 일정한 특징의 데이터 군이 형성되고, 형성된 데이터 군을 통해 데이터들이 라벨링 된다 라는 장점이 있다.

부연하면, 임시 분류 모델을 통해 새로이 라벨링된 제 2 라벨링 데이터를 생성하고, 이 제 2 라벨링 데이터셋은 학습용 데이터셋과 테스트용 데이터셋으로 분할한다(S410,S411). 학습용 데이터셋은 90%, 테스트용 데이터셋은 10%가 될 수 있다. 분류된 데이터 중 90%를 학습용으로 10%를 테스트용으로 나누어 기존 데이터셋과 함께 폴더링을 진행한다.

한편, 기존 학습에 사용된 데이터셋에 이 분할 데이터셋을 결합하여 추가 데이터셋을 생성한다(단계 S420,S421,S430).

해당 작업을 끝낸 데이터를 사람들이 재분류한다 해도 대부분의 데이터들은 정확하게 구성되어 있기 때문에 라벨과 관련 없는 몇 개의 데이터들만 제거하면 된다.

또한, 여기에 개시된 실시형태들과 관련하여 설명된 방법 또는 알고리즘의 단계들은, 마이크로프로세서, 프로세서, CPU(Central Processing Unit) 등과 같은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 (명령) 코드, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 매체에 기록되는 프로그램 (명령) 코드는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프 등과 같은 자기 매체(magnetic media), CD-ROM, DVD, 블루레이 등과 같은 광기록 매체(optical media) 및 롬(ROM: Read Only Memory), 램(RAM: Random Access Memory), 플래시 메모리 등과 같은 프로그램 (명령) 코드를 저장하고 수행하도록 특별히 구성된 반도체 기억 소자가 포함될 수 있다.

여기서, 프로그램 (명령) 코드의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

100: 데이터 분류 시스템
110: 데이터 취득부
120: 특징값 추출부
130: 데이터 저장소
140: 학습부
150: 모델 생성부

Claims

삭제
삭제
삭제
삭제
삭제
(a) 데이터 취득부(110)가 빅데이터를 취득하여 미라벨링된 미라벨링 음원 데이터셋 및 라벨링된 제 1 라벨링 데이터셋을 생성하는 단계;
(b) 특징값 추출부(120)가 상기 제 1 라벨링 데이터셋으로부터 제 1 특징값을 추출하는 단계;
(c) 학습부(140)가 상기 제 1 특징값을 이용하여 신경망에 기반한 학습을 통해 사전 학습 모델(pre-trained model)을 생성하고, 상기 사전 학습 모델 및 상기 제 1 특징값을 이용하여 신경망 레이어 제거 모델을 생성하는 단계;
(d) 모델 생성부(150)가 상기 신경망 레이어 제거 모델에 기반하여 가중치값을 적용하여 제 2 특징값을 추출하되, 상기 가중치값은 상기 사전 학습 모델(pre-trained model)에 기반한 컨벌루션 레이어의 가중치값이고, 상기 가중치값을 적용해 추출된 상기 제 2 특징값을 이용하여 상기 신경망에 기반한 학습을 통해 상기 미라벨링 음원 데이터셋을 분류하기 위한 임시 분류 모델을 생성하는 단계; 및
(e) 상기 모델 생성부(150)가 상기 임시 분류 모델을 이용하여 상기 미라벨링 음원 데이터셋을 분류하고, 상기 분류 결과에 따라 재구성 제 2 라벨링 데이터셋을 이용하여 상기 빅데이터를 분류하기 위한 최종 분류 모델을 결정하는 단계;
상기 (e) 단계는,
(e-1) 상기 모델 생성부(150)가 상기 분류 결과에 따른 결과값과 미리 설정된 임계값을 비교하는 단계;
(e-2) 상기 결과값이 상기 임계값보다 크면, 상기 모델 생성부(150)가 다른 데이터셋으로 이동하고 라벨링을 하여 제 2 라벨링 데이터셋을 재구성하는 단계; 및
(e-3) 상기 제 2 라벨링 데이터셋을 상기 제 1 라벨링 데이터셋에 합하여 추가 데이터셋을 생성하는 단계;
상기 (e-3)단계는,
상기 추가 데이터셋이 생성되면 상기 임계값에서 미리 설정되는 설정값만큼 감산하는 단계;
상기 임계값이 미리 설정되는 기준값에 도달할때까지 상기 단계 (a) 내지 상기 단계(e)를 반복 수행하는 단계; 및
상기 반복이 마지막 수행되는 때 생성되는 상기 임시 분류 모델을 상기 최종 분류 모델로 결정하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 기반의 학습을 통한 데이터 분류 방법.
삭제
삭제
제 6 항에 있어서,
상기 제 2 라벨링 데이터셋은 학습용 데이터셋과 테스트용 데이터셋으로 분할되는 것을 특징으로 하는 딥러닝 기반의 학습을 통한 데이터 분류 방법.
제 9 항에 있어서,
상기 학습용 데이터셋 및 상기 테스트용 데이터셋의 비율은 90%:10%인 것을 특징으로 하는 딥러닝 기반의 학습을 통한 데이터 분류 방법.