KR20200018154A

KR20200018154A - 브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템

Info

Publication number: KR20200018154A
Application number: KR1020180094034A
Authority: KR
Inventors: 김남수; 배수현
Original assignee: 서울대학교산학협력단
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2020-02-19
Also published as: KR102174189B1

Abstract

본 발명은 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법에 관한 것으로서, 보다 구체적으로는 음향 정보 인식 방법으로서, (1) 수집된 음향 정보 데이터를 사용하여 음향 정보 인식 모델을 학습하는 단계; 및 (2) 상기 단계 (1)에서 학습된 음향 정보 인식 모델을 이용하여 입력된 데이터에서 음향 정보를 인식하여 출력하는 단계를 포함하되, 상기 음향 정보 인식 모델은, 반지도 학습이 가능하도록 기존의 VAE(Variational Auto Encoder) 모델에서 label y를 추정하는 네트워크가 추가된 음향 정보 인식 모델인 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템에 관한 것으로서, 보다 구체적으로는 음향 정보 인식 시스템으로서, 수집된 음향 정보 데이터를 사용하여 음향 정보 인식 모델을 학습하는 음향 정보 학습 모듈(100); 및 상기 음향 정보 학습 모듈(100)에 의해 학습된 음향 정보 인식 모델을 이용하여 입력된 데이터에서 음향 정보를 인식하여 출력하는 음향 정보 출력 모듈(200)을 포함하되, 상기 음향 정보 인식 모델은, 반지도 학습이 가능하도록 기존의 VAE(Variational Auto Encoder) 모델에서 label y를 추정하는 네트워크가 추가된 음향 정보 인식 모델인 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템에 따르면, 기존의 VAE(Variational Auto Encoder) 모델에서 label y를 추정하는 네트워크가 추가된 음향 정보 인식 모델을 이용함으로써, 반지도 학습이 가능하도록 하여, 사용자가 직접 소리를 들어보고 labelling을 해주어야만 모델 훈련이 가능한 지도 학습의 단점을 해결 할 수 있다.
또한, 본 발명에서 제안하고 있는 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템에 따르면, 입력된 벡터를 여러 은닉층을 통과시켜 출력에서 재구성하는 딥 러닝(deep learning) 구조인 오토 인코더(auto encoder)의 일종으로, 가운데 은닉층에 랜덤 변수들을 가지고 있는 구조를 갖는 VAE(Variational Auto Encoder) 모델을 기반으로 함으로써, 입력 데이터 자체의 분포를 학습하여, 기존의 뉴럴 네트워크(Neural network) 모델보다 효과적으로 복원을 수행할 수 있으며, 학습된 데이터 분포를 통해서 새로운 형태의 데이터를 생성할 수 있고, 입력과 출력과의 복잡한 관계를 매개하는 알려지지 않은 특징 정보를 추출할 수 있을 뿐만 아니라, 데이터 자체의 분포를 의미하는 파라미터까지도 추정하는 효과적인 정보 추출기로 사용할 수 있다.

Description

브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템{ACOUSTIC INFORMATION RECOGNITION METHOD AND SYSTEM USING SEMI-SUPERVISED LEARNING BASED ON VARIATIONAL AUTO ENCODER MODEL}

본 발명은 음향 정보 인식 방법 및 시스템에 관한 것으로서, 보다 구체적으로는 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템에 관한 것이다.

최근 스마트폰, 태블릿 PC, 스마트 TV, AI 스피커 등의 디바이스들에는 수많은 인공지능 알고리즘이 적용되고 있다. 특히, 소리와 관련된 인공지능에는 대표적으로 음성 인식, 음성 합성, 자연어 처리 등의 분야에서 다양한 알고리즘이 적용되고 있지만, 상대적으로 음향 정보 인식은 아직 그 적용 사례가 많지 않다.

음향 정보 인식은 오디오를 통해 주변의 환경이나 상황을 인식하는 기술이다. 우리는 음향 정보를 활용하여 스마트 기기의 사용자가 현재 어떠한 환경(도심, 사무실, 해변 등)에 있는지 알 수 있고, 또한 특정 상황이나 위급 상황을 인식할 수 있다. 도 1은 음향 정보를 인식하여 분류하는 모습을 도시한 도면이다. 도 1에 도시된 바와 같이, 음향 정보 인식 알고리즘을 통해 음향 정보가 해변, 사무실, 고속도로에서 발생하는 소리인 것을 인식할 수 있다.

과거에는 주변의 음향 정보가 음성 인식이나 음성 향상에 있어서 제거해야할 노이즈로 여겨졌지만, 주변의 소리 또한 많은 정보를 담고 있기 때문에, 사람이 이러한 주변의 소리를 이용하여 주변 상황과 장소를 파악하듯이 인공지능도 이를 인식하여 활용할 가치가 있다. 이에 따라, 인공지능이 오디오를 통해 주변의 음향 정보를 인식할 수 있는 방법 및 시스템의 개발이 요구되고 있다.

한편, 본 발명과 관련된 선행기술로서, 등록특허 제10-1625304호(발명의 명칭: 음향 정보에 기초한 사용자 다수 행위 인식 방법) 등이 개시된 바 있다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 기존의 VAE(Variational Auto Encoder) 모델에서 label y를 추정하는 네트워크가 추가된 음향 정보 인식 모델을 이용함으로써, 반지도 학습이 가능하도록 하여, 사용자가 직접 소리를 들어보고 labelling을 해주어야만 모델 훈련이 가능한 지도 학습의 단점을 해결 할 수 있는, VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템을 제공하는 것을 그 목적으로 한다.

또한, 본 발명은, 입력된 벡터를 여러 은닉층을 통과시켜 출력에서 재구성하는 딥 러닝(Deep Learning) 구조인 오토 인코더(Auto Encoder)의 일종으로, 가운데 은닉층에 랜덤 변수들을 가지고 있는 구조를 갖는 VAE(Variational Auto Encoder) 모델을 기반으로 함으로써, 입력 데이터 자체의 분포를 학습하여, 기존의 뉴럴 네트워크(Neural network) 모델보다 효과적으로 복원을 수행할 수 있으며, 학습된 데이터 분포를 통해서 새로운 형태의 데이터를 생성할 수 있고, 입력과 출력과의 복잡한 관계를 매개하는 알려지지 않은 특징 정보를 추출할 수 있을 뿐만 아니라, 데이터 자체의 분포를 의미하는 파라미터까지도 추정하는 효과적인 정보 추출기로 사용할 수 있는, VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템을 제공하는 것을 다른 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법은,

음향 정보 인식 방법으로서,

(1) 수집된 음향 정보 데이터를 사용하여 음향 정보 인식 모델을 학습하는 단계; 및

(2) 상기 단계 (1)에서 학습된 음향 정보 인식 모델을 이용하여 입력된 데이터에서 음향 정보를 인식하여 출력하는 단계를 포함하되,

상기 음향 정보 인식 모델은,

반지도 학습이 가능하도록 기존의 VAE(Variational Auto Encoder) 모델에서 label y를 추정하는 네트워크가 추가된 음향 정보 인식 모델인 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 단계 (1)은,

(1-1) 수집된 음향 정보 데이터를 입력받는 단계;

(1-2) 상기 단계 (1-1)에서 입력받은 음향 정보 데이터에서 특징 벡터를 추출하는 단계; 및

(1-3) 상기 단계 (1-2)에서 추출된 특징 벡터를 이용하여 음향 정보 인식 모델을 학습하는 단계를 포함할 수 있다.

더욱 바람직하게는, 상기 단계 (1-1)에서는,

labeled된 음향 정보 데이터와 unlabeled된 음향 정보 데이터가 음파(wave) 형태로 수집될 수 있다.

더더욱 바람직하게는, 상기 단계 (1-2)에서는,

상기 음파를 미리 지정된 시간 단위의 프레임으로 나눌 수 있다.

더더더욱 바람직하게는, 상기 미리 지정된 시간 단위는,

10ms 또는 20ms의 시간 단위일 수 있다.

바람직하게는, 상기 단계 (2)는,

(2-1) 데이터를 수집하는 단계;

(2-2) 상기 단계 (2-1)에서 수집된 데이터를 입력하는 단계;

(2-3) 상기 단계 (2-2)에서 입력된 데이터에서 특징 벡터를 추출하는 단계;

(2-4) 상기 단계 (1)에서 학습된 음향 정보 인식 모델을 이용하여 상기 단계 (2-3)에서 추출된 특징 벡터를 인식하여 음향 정보를 인식하는 단계; 및

(2-5) 상기 단계 (2-4)의 음향 정보 인식 결과를 출력하는 단계를 포함할 수 있다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템은,

음향 정보 인식 시스템으로서,

수집된 음향 정보 데이터를 사용하여 음향 정보 인식 모델을 학습하는 음향 정보 학습 모듈; 및

상기 음향 정보 학습 모듈에 의해 학습된 음향 정보 인식 모델을 이용하여 입력된 데이터에서 음향 정보를 인식하여 출력하는 음향 정보 출력 모듈을 포함하되,

상기 음향 정보 인식 모델은,

바람직하게는, 상기 음향 정보 학습 모듈은,

수집된 음향 정보 데이터를 입력받는 학습 데이터 입력부;

상기 학습 데이터 입력부에 의해 입력된 음향 정보 데이터에서 특징 벡터를 추출하는 학습 특징 벡터 추출부; 및

상기 학습 특징 벡터 추출부에서 추출된 특징 벡터를 이용하여 음향 정보 인식 모델을 학습하는 모델 학습부를 포함할 수 있다.

바람직하게는, 상기 음향 정보 출력 모듈은,

데이터를 수집하는 데이터 수집부;

상기 데이터 수집부에 의해 수집된 데이터를 입력하는 데이터 입력부;

상기 데이터 입력부에 의해 입력된 데이터에서 특징 벡터를 추출하는 특징 벡터 추출부;

상기 음향 정보 학습 모듈에 의해 학습된 음향 정보 인식 모델을 이용하여 상기 특징 벡터 추출부에 의해 추출된 특징 벡터를 인식하여 음향 정보를 인식하는 음향 정보 인식부; 및

상기 음향 정보 인식부에서 음향 정보를 인식한 결과를 출력하는 인식 결과 출력부를 포함할 수 있다.

본 발명에서 제안하고 있는 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템에 따르면, 기존의 VAE(Variational Auto Encoder) 모델에서 label y를 추정하는 네트워크가 추가된 음향 정보 인식 모델을 이용함으로써, 반지도 학습이 가능하도록 하여, 사용자가 직접 소리를 들어보고 labelling을 해주어야만 모델 훈련이 가능한 지도 학습의 단점을 해결 할 수 있다.

또한, 본 발명에서 제안하고 있는 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템에 따르면, 입력된 벡터를 여러 은닉층을 통과시켜 출력에서 재구성하는 딥 러닝(Deep Learning) 구조인 오토 인코더(Auto Encoder)의 일종으로, 가운데 은닉층에 랜덤 변수들을 가지고 있는 구조를 갖는 VAE(Variational Auto Encoder) 모델을 기반으로 함으로써, 입력 데이터 자체의 분포를 학습하여, 기존의 뉴럴 네트워크(Neural network) 모델보다 효과적으로 복원을 수행할 수 있으며, 학습된 데이터 분포를 통해서 새로운 형태의 데이터를 생성할 수 있고, 입력과 출력과의 복잡한 관계를 매개하는 알려지지 않은 특징 정보를 추출할 수 있을 뿐만 아니라, 데이터 자체의 분포를 의미하는 파라미터까지도 추정하는 효과적인 정보 추출기로 사용할 수 있다.

도 1은 음향 정보를 인식하여 분류하는 모습을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법의 흐름도를 도시한 도면.
도 3은 Variational Inference 모델의 구조를 도시한 도면.
도 4는 VAE(Variational Auto Encoder) 모델의 인코더와 디코더의 노드를 도시한 도면.
도 5는 반지도 학습이 가능하도록 기존의 VAE(Variational Auto Encoder) 모델에서 label y를 추정하는 네트워크를 추가한 음향 정보 인식 모델의 구조를 도시한 도면.
도 6은 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법의 음향 인식 모델을 훈련할 때 사용되는 함수의 수식을 도시한 도면.
도 7은 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면.
도 8은 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면.
도 9는 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템의 구성을 도시한 도면.
도 10은 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템에 있어서 음향 정보 학습 모듈의 세부적인 구성을 도시한 도면.
도 11은 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템에 있어서 음향 정보 출력 모듈의 세부적인 구성을 도시한 도면.

이하에서는 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일 또는 유사한 부호를 사용한다.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법의 각각의 단계는 컴퓨터 장치에 의해 수행될 수 있다. 이하에서는 설명의 편의를 위해 각각의 단계에서 수행 주체가 생략될 수도 있다.

도 2는 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법의 흐름도를 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법은, 음향 정보 인식 방법으로서, 수집된 음향 정보 데이터를 사용하여 음향 정보 인식 모델을 학습하는 단계(S100), 및 단계 S100에서 학습된 음향 정보 인식 모델을 이용하여 입력된 데이터에서 음향 정보를 인식하여 출력하는 단계(S200)를 포함하여 구현될 수 있다.

이하에서는, 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법의 각 단계에 대해 설명하기 전에, 본 발명에서 사용되는 음향 정보 인식 모델에 대하여 먼저 상세히 설명하도록 한다.

도 3은 Variational Inference 모델의 구조를 도시한 도면이고, 도 4는 VAE(Variational Auto Encoder) 모델의 인코더와 디코더의 노드를 도시한 도면이다. 도 3을 참조하면, Variational Inference 모델은 입력층(input layer), 은닉층(hidden layer) 및 출력층(output layer)을 포함하며, 인코더와 디코더를 포함할 수 있다. Variational Inference 모델의 대표적인 예로, VAE(Variational Auto Encoder) 모델이 있다. 이때, 도 3에서, 입력층과 출력층의 노드 번호는 1부터 i까지가 될 수 있고, 은닉층의 노드 번호는 1부터 k까지가 될 수 있으며, 보통 잠재 변수(latent variable) 노드 수는 입력과 출력의 노드 수 보다 작게 사용하므로, k는 i보다 작은 값일 수 있다. VAE 모델은, 입력된 벡터를 출력에서 재구성하는 오토인코더(Auto Encoder)의 일종으로서, 가운데 은닉층(Hidden layer)을 랜덤 변수인 잠재 변수(Latent variable)로 가지고 있으며, 인코더 및 디코더로 구성될 수 있다.

VAE 모델은, 기존의 뉴럴 네트워크 모델과 같이 입력과 출력과의 복원 오류(reconstruction error) 뿐만 아니라 잠재 변수(latent variable)에 대한 사전 확률 분포(prior distribution)와 입력을 토대로 실제로 얻어진 사후 확률 분포(posterior distribution)와의 분포 오차를 동시에 최소화 시키는 방향으로 학습이 진행될 수 있다. 이와 같이 잠재 변수의 확률 분포를 기반으로 한 복원을 수행하기 때문에, 입력 데이터 자체의 분포를 학습함으로써 기존의 뉴럴 네트워크(Neural network) 모델보다 효과적으로 복원을 수행할 수 있으며, 학습된 데이터 분포를 통해서 새로운 형태의 데이터를 생성할 수도 있다. 또한 입력과 출력과의 복잡한 관계를 매개하는 알려지지 않은 특징 정보를 추출할 수 있을 뿐만 아니라, 데이터 자체의 분포를 의미하는 파라미터까지도 추정하는 효과적인 정보 추출기로 사용할 수 있다.

도 4를 참조하면, VAE 모델의 인코더는 입력 벡터를 받아서 입력이 조건으로 주어진 경우 잠재 변수의 사후 분포를 추정할 수 있다. 인코더는 잠재 변수가 따르는 추정된 분포(평균(μ)과 분산(σ²))로부터 샘플링을 통해 잠재 변수를 생성할 수 있다. 이러한 샘플링 된 잠재 변수는 디코더로 입력되며, 디코더의 출력으로 잠재 변수의 입력이 재구성될 수 있다.

VAE 모델에서 인코더와 디코더가 학습되는데, 그 목적 함수는 아래의 수학식 1로 정의될 수 있다.

여기서, q_φ(Z|X)는 인코더에서 주어진 입력 X로부터 잠재 변수 Z를 생성할 확률, p_θ(X|Z)는 디코더에서 잠재 변수로부터 입력 X를 재구성할 확률, p_θ(Z)는 디코더의 파라미터가 주어졌을 때, 잠재 변수 Z가 생성될 사전확률이다. D_KL(q_φ(Z|X)|p_θ(Z))은 입력 X가 주어졌을 때, 잠재 변수 Z의 사전 확률 분포의 차이를 나타내는 Kullback-Leibler Divergence를 나타내며, 생성되는 잠재 변수의 분포가 최대한 사전 확률 분포에 가깝도록 규제해주는 역할을 한다. 반면, E_qφ(Z|X)[logp_θ(X|Z)]는 재구성 오차로, 입력 X가 주어졌을 때 잠재 변수 Z의 생성 확률 분포와 잠재 변수 Z로부터 입력 X가 생성되는 확률 분포 간의 Cross-entropy 오차를 의미한다.

기존의 음향 정보 인식 알고리즘은 SVM(Support Vector Machine)이나 다양한 신경망(neural network)을 이용하여 지도 학습(Supervised Learning)을 통해 모델을 학습하는데, 여기서 지도 학습이란, 음향 특징 벡터(x라 칭함)와 그 특징 벡터에 해당하는 label(y라 칭함)이 모두 주어진 데이터를 가지고 학습을 하는 것을 말한다. 예를 들어, 버스 소리가 있을 때, 그 소리에서 추출한 특징 벡터(x)와 이 소리가 버스라는 정답(y)을 알고 있는 상태에서 학습을 하는 것이다.

비지도 학습(Unsupervised Learning)이란, 소리만 주어지고 이 소리가 어떠한 소리인지 정답을 모르는 데이터로 학습을 하는 것을 말한다. 즉, (x,y) 순서쌍을 가진 데이터로 학습을 하면 지도 학습이며, 오직 (x) 값만 가진 데이터로 학습을 하면 비지도 학습인 것이다.

최근 음향 정보 인식 알고리즘은 DNN(Deep Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network) 등의 다양한 인공 신경망을 통해 개발되어 왔다. 하지만, 앞서 언급한 인공 신경망들은 모두 지도 학습을 통해서만 모델 훈련이 가능하다. 즉, 입력으로 특징 벡터(x)를 넣고 출력으로 label(y)을 가지고 있어야 모델 훈련이 가능하다. 다만, 이러한 지도 학습은 대용량 데이터의 확보가 어렵다는 문제점이 있다. 구체적으로는, 다양한 음향 신호를 수집하였어도, 누군가 직접 소리를 들어보고 labelling을 해주어야만 모델 훈련이 가능하여, 모델 훈련을 할 데이터를 확보하는데 어려움이 있다는 문제점이 있다.

본 발명에서는 위와 같은 문제점을 극복하기 위해, 일부의 지도학습 데이터(x,y)와 다른 수많은 비지도 학습 데이터(x)를 동시에 활용하여 반지도 학습을 통해 음향 정보 인식 모델을 훈련할 수 있다. 본 발명에서는 반지도 학습을 위해 생성 모델(Generative Model)을 이용할 수 있다. 생성 모델은, 입력 데이터 자체의 확률분포를 학습하여 그 데이터를 샘플링을 통해 생성해 낼 수 있는 모델을 말한다. 대표적인 생성 모델인 VAE 모델은 데이터의 입력을 그대로 출력으로 똑같이 나오도록 학습하며, 동시에 중간에 잠재 변수(latent variable)를 학습하여, 결과적으로 잠재 변수(latent variable)와 디코더를 통해 새로운 데이터를 생성해 낼 수 있다.

도 5는 반지도 학습이 가능하도록 기존의 VAE(Variational Auto Encoder) 모델에서 label y를 추정하는 네트워크를 추가한 음향 정보 인식 모델의 구조를 도시한 도면이다. 도 5에 도시된 바와 같이, 기존의 VAE 모델에서 빨간 박스 부분이 추가되면 반지도 학습이 가능한 음향 정보 인식 모델이 될 수 있다. 기존의 VAE 모델은 학습을 수행할 때 잠재 변수(latent variable) Z를 추정하지만, 본 발명의 음향 정보 인식 모델은 기존의 VAE 모델에 label y를 추정하는 네트워크를 추가하여 label y를 추정하게 할 수 있다.

즉, 본 발명의 음향 정보 인식 모델의 학습은 기존 VAE 모델의 학습 방식에서 다음과 같은 방법을 추가할 수 있다.

(x,y)데이터 학습 시, y라는 label이 있기 때문에 정답 y와 추정된 y가 같은 값을 가지도록 훈련하고, (x)데이터 학습 시, label이 없기 때문에 추정해야하는 y를 잠재 변수(latent variable)로 취급하여 훈련할 수 있다.

이와 같이, 두 종류의 labeled된 음향 정보 데이터와 unlabeled된 음향 정보 데이터를 한 네트워크에 동시에 학습을 수행하게 되면, 음향 정보 인식 모델은 출력된 label y가 어떠한 값을 가지는지에 따라 음향 환경을 인식할 수 있다.

도 6은 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법의 음향 인식 모델을 훈련할 때 사용되는 함수의 수식을 도시한 도면이다. 도 6에 도시된 수식을 이용하여, 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법의 음향 인식 모델을 학습할 수 있다.

이하에서는, 전술한 바와 같은 음향 정보 인식 모델을 이용하는, 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법의 각각의 단계에 대해 상세히 설명하기로 한다.

단계 S100에서는, 수집된 음향 정보 데이터를 사용하여 음향 정보 인식 모델을 학습할 수 있다. 도 7은 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법에서, 단계 S100의 세부적인 흐름을 도시한 도면이다. 도 7에 도시된 바와 같이, 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법의 단계 S100은, 수집된 음향 정보 데이터를 입력받는 단계(S110), 단계 S110에서 입력받은 음향 정보 데이터에서 특징 벡터를 추출하는 단계(S120), 및 단계 S120에서 추출된 특징 벡터를 이용하여 음향 정보 인식 모델을 학습하는 단계(S130)를 포함하여 구현될 수 있다.

단계 S110에서는, 수집된 음향 정보 데이터를 입력받을 수 있다. 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법의 단계 S110에서는, labeled된 음향 정보 데이터와 unlabeled된 음향 정보 데이터가 음파(wave) 형태로 수집될 수 있다.

단계 S120에서는, 단계 S110에서 입력받은 음향 정보 데이터에서 특징 벡터를 추출할 수 있다. 보다 구체적으로, 단계 S110에서 labeled된 음향 정보 데이터와 unlabeled된 음향 정보 데이터가 음파(wave) 형태로 존재할 때, 음파를 미리 지정된 시간 단위의 프레임으로 나누어 특징 벡터를 추출할 수 있다. 이때, 미리 지정된 시간 단위는, 10ms 또는 20ms의 시간 단위일 수 있으나, 상기의 시간 단위로 한정하는 것은 아니다. 또한, 특징 벡터는 MFCC(Mel-Frequency Cepstral Coefficient)나 log mel energy 등 일반적으로 흔히 쓰이는 acoustic feature일 수 있다.

단계 S130에서는, 단계 S120에서 추출된 특징 벡터를 이용하여 음향 정보 인식 모델을 학습할 수 있다. 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법의 단계 S130에서는, labeled된 음향 정보 데이터와 unlabeled된 음향 정보 데이터에서 추출한 특징 벡터를 사용하여 음향 정보 인식 모델을 학습할 수 있다. 학습을 수행할 때, 데이터의 사이즈에 따라 여러 층의 은닉층을 사용할 수 있다. labeled된 음향 정보 데이터의 경우에는, 학습할 때 기존의 VAE 모델의 목적 함수를 토대로 출력되는 y값과 정답 y의 값이 같아지도록 목적 함수에 새로운 term을 추가할 수 있다. unlabeled된 음향 정보 데이터의 경우에는, 학습할 때 label y의 값이 존재하지 않기 때문에 y를 기존의 잠재 변수(latent variable) Z와 같이 잠재 변수(latent variable)로 놓고 학습을 수행 할 수 있다. 이렇게 하여, 두 가지 종류의 데이터에 대해서 음향 정보 인식 모델을 학습할 수 있다.

단계 S200에서는, 단계 S100에서 학습된 음향 정보 인식 모델을 이용하여 입력된 데이터에서 음향 정보를 인식하여 출력할 수 있다. 도 8은 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면이다. 도 8에 도시된 바와 같이, 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법의 단계 S200은, 데이터를 수집하는 단계(S210), 단계 S210에서 수집된 데이터를 입력하는 단계(S220), 단계 S220에서 입력된 데이터에서 특징 벡터를 추출하는 단계(S230), 단계 S100에서 학습된 음향 정보 인식 모델을 이용하여 단계 S230에서 추출된 특징 벡터를 인식하여 음향 정보를 인식하는 단계(S240), 및 단계 S240의 음향 정보 인식 결과를 출력하는 단계(S250)를 포함하여 구현될 수 있다.

단계 S210에서는, 현재의 데이터를 수집할 수 있다. 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법의 단계 S210은, 오디오를 통해 주변에서 발생하는 데이터를 수집할 수 있다.

단계 S220에서는, 단계 S210에서 수집된 데이터를 입력할 수 있고, 단계 S230에서는, 단계 S220에서 입력된 데이터에서 특징 벡터를 추출할 수 있다. 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법에서는 데이터가 음파(wave) 형태로 존재할 수 있으므로, 음파를 미리 지정된 시간 단위의 프레임으로 나누어 특징 벡터를 추출할 수 있다. 이때, 미리 지정된 시간 단위는, 10ms 또는 20ms의 시간 단위일 수 있으나, 상기의 시간 단위로 한정하는 것은 아니다.

단계 S240에서는, 단계 S100에서 학습된 음향 정보 인식 모델을 이용하여 단계 S230에서 추출된 특징 벡터를 인식하여 음향 정보를 인식할 수 있다. 보다 구체적으로, 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법의 단계 S100의 세부적인 단계를 통해 학습된 음향 정보 인식 모델을 이용하여 음향 정보의 인식을 수행할 수 있다.

단계 S250에서는, 단계 S240의 음향 정보 인식 결과를 출력할 수 있다. 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법은, 해변가 소리, 지하철 소리, 사무실 소리 등의 수집된 현재의 데이터에서 음향 정보를 인식하여 단계 S250에서 인식 결과를 출력할 수 있다.

도 9는 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템(10)의 구성을 도시한 도면이다. 도 9에 도시된 바와 같이, 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템(10)은, 음향 정보 학습 모듈(100) 및 음향 정보 출력 모듈(200)을 포함하여 구성될 수 있다.

보다 구체적으로는, 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템(10)은, 음향 정보 인식 시스템으로서, 수집된 음향 정보 데이터를 사용하여 음향 정보 인식 모델을 학습하는 음향 정보 학습 모듈(100) 및 음향 정보 학습 모듈(100)에 의해 학습된 음향 정보 인식 모델을 이용하여 입력된 데이터에서 음향 정보를 인식하여 출력하는 음향 정보 출력 모듈(200)을 포함하여 구성될 수 있다.

음향 정보 학습 모듈(100)은, 수집된 음향 정보 데이터를 사용하여 음향 정보 인식 모델을 학습할 수 있다. 도 10은 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템(10)에 있어서 음향 정보 학습 모듈(100)의 세부적인 구성을 도시한 도면이다. 도 10에 도시된 바와 같이, 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템(10)의 음향 정보 학습 모듈(100)은, 수집된 음향 정보 데이터를 입력받는 학습 데이터 입력부(110), 학습 데이터 입력부(110)에 의해 입력된 음향 정보 데이터에서 특징 벡터를 추출하는 학습 특징 벡터 추출부(120), 및 학습 특징 벡터 추출부(120)에서 추출된 특징 벡터를 이용하여 음향 정보 인식 모델을 학습하는 모델 학습부(130)를 포함하여 구성될 수 있다.

학습 데이터 입력부(110)는, 수집된 음향 정보 데이터를 입력받을 수 있다. 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템(10)의 학습 데이터 입력부(110)에서는, labeled된 음향 정보 데이터와 unlabeled된 음향 정보 데이터가 음파(wave) 형태로 수집될 수 있다.

학습 특징 벡터 추출부(120)는, 학습 데이터 입력부(110)에 의해 입력된 음향 정보 데이터에서 특징 벡터를 추출할 수 있다. 보다 구체적으로, labeled된 음향 정보 데이터와 unlabeled된 음향 정보 데이터가 음파(wave) 형태로 존재할 때, 음파를 미리 지정된 시간 단위의 프레임으로 나누어 특징 벡터를 추출할 수 있다. 이때, 미리 지정된 시간 단위는, 10ms 또는 20ms의 시간 단위일 수 있으나, 상기의 시간 단위로 한정하는 것은 아니다. 또한, 특징 벡터는 MFCC(Mel-Frequency Cepstral Coefficient)나 log mel energy 등 일반적으로 흔히 쓰이는 acoustic feature일 수 있다.

모델 학습부(130)는, 학습 특징 벡터 추출부(120)에서 추출된 특징 벡터를 이용하여 음향 정보 인식 모델을 학습할 수 있다. 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템(10)의 모델 학습부(130)에서는, labeled된 음향 정보 데이터와 unlabeled된 음향 정보 데이터에서 추출한 특징 벡터를 사용하여 음향 정보 인식 모델을 학습할 수 있다. 학습을 수행할 때, 데이터의 사이즈에 따라 여러 층의 은닉층을 사용할 수 있다. labeled된 음향 정보 데이터의 경우에는 학습할 때, 기존의 VAE 모델의 목적 함수를 토대로 출력되는 y값과 정답 y의 값이 같아지도록 목적 함수에 새로운 term을 추가할 수 있다. unlabeled된 음향 정보 데이터의 경우에는 학습할 때, label y의 값이 존재하지 않기 때문에 y를 기존의 잠재 변수(latent variable) Z와 같이 잠재 변수(latent variable)로 놓고 학습을 수행 할 수 있다. 이렇게 하여, 두 가지 종류의 데이터에 대해서 음향 정보 인식 모델을 학습할 수 있다.

음향 정보 출력 모듈(200)은, 음향 정보 학습 모듈(100)에 의해 학습된 음향 정보 인식 모델을 이용하여 입력된 데이터에서 음향 정보를 인식하여 출력할 수 있다. 도 11은 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템(10)에 있어서 음향 정보 출력 모듈(200)의 세부적인 구성을 도시한 도면이다. 도 11에 도시된 바와 같이, 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템(10)의 음향 정보 출력 모듈(200)은, 데이터를 수집하는 데이터 수집부(210), 데이터 수집부(210)에 의해 수집된 데이터를 입력하는 데이터 입력부(220), 데이터 입력부(220)에 의해 입력된 데이터에서 특징 벡터를 추출하는 특징 벡터 추출부(230), 음향 정보 학습 모듈(100)에 의해 학습된 음향 정보 인식 모델을 이용하여 특징 벡터 추출부(230)에 의해 추출된 특징 벡터를 인식하여 음향 정보를 인식하는 음향 정보 인식부(240), 및 음향 정보 인식부(240)에서 음향 정보를 인식한 결과를 출력하는 인식 결과 출력부(250)를 포함하여 구성될 수 있다.

데이터 수집부(210)는, 현재의 데이터를 수집할 수 있다. 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템(10)의 데이터 수집부(210)는, 오디오를 통해 주변에서 발생하는 데이터를 수집할 수 있다.

데이터 입력부(220)는, 데이터 수집부(210)에 의해 수집된 데이터를 입력할 수 있고, 특징 벡터 추출부(230)는, 데이터 입력부(220)에 의해 입력된 데이터에서 특징 벡터를 추출할 수 있다. 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템(10)에서는 데이터가 음파(wave) 형태로 존재할 수 있으므로, 음파를 미리 지정된 시간 단위의 프레임으로 나누어 특징 벡터를 추출할 수 있다. 이때, 미리 지정된 시간 단위는, 10ms 또는 20ms의 시간 단위일 수 있으나, 상기의 시간 단위로 한정하는 것은 아니다.

음향 정보 인식부(240)는, 음향 정보 학습 모듈(100)에 의해 학습된 음향 정보 인식 모델을 이용하여 특징 벡터 추출부(230)에 의해 추출된 특징 벡터를 인식하여 음향 정보를 인식할 수 있다. 보다 구체적으로, 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템(10)의 음향 정보 학습 모듈(100)의 세부적인 구성을 통해 학습된 음향 정보 인식 모델을 이용하여 음향 정보의 인식을 수행할 수 있다.

인식 결과 출력부(250)는, 음향 정보 인식부(240)에서 음향 정보를 인식한 결과를 출력할 수 있다. 본 발명의 일실시예에 따른 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템(10)은, 해변가 소리, 지하철 소리, 사무실 소리 등의 수집된 현재의 데이터에서 음향 정보를 인식하여 인식 결과 출력부(250)에서 인식한 음향 정보를 출력할 수 있다.

전술한 바와 같이, 본 발명에서 제안하고 있는 VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템에 따르면, 기존의 VAE(Variational Auto Encoder) 모델에서 label y를 추정하는 네트워크가 추가된 음향 정보 인식 모델을 이용함으로써, 반지도 학습이 가능하도록 하여, 사용자가 직접 소리를 들어보고 labelling을 해주어야만 모델 훈련이 가능한 지도 학습의 단점을 해결 할 수 있다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

10: 본 발명의 일실시예에 따른 음향 정보 인식 시스템
100: 음향 정보 학습 모듈
110: 학습 데이터 입력부
120: 학습 특징 벡터 추출부
130: 모델 학습부
200: 음향 정보 출력 모듈
210: 데이터 수집부
220: 데이터 입력부
230: 특징 벡터 추출부
240: 음향 정보 인식부
250: 인식 결과 출력부
S100: 수집된 음향 정보 데이터를 사용하여 음향 정보 인식 모델을 학습하는 단계
S110: 수집된 음향 정보 데이터를 입력받는 단계
S120: 단계 S110에서 입력받은 음향 정보 데이터에서 특징 벡터를 추출하는 단계
S130: 단계 S120에서 추출된 특징 벡터를 이용하여 음향 정보 인식 모델을 학습하는 단계
S200: 단계 S100에서 학습된 음향 정보 인식 모델을 이용하여 입력된 데이터에서 음향 정보를 인식하여 출력하는 단계
S210: 데이터를 수집하는 단계
S220: 단계 S210에서 수집된 데이터를 입력하는 단계
S230: 단계 S220에서 입력된 데이터에서 특징 벡터를 추출하는 단계
S240: 단계 S100에서 학습된 음향 정보 인식 모델을 이용하여 단계 S230에서 추출된 특징 벡터를 인식하여 음향 정보를 인식하는 단계
S250: 단계 S240의 음향 정보 인식 결과를 출력하는 단계

Claims

음향 정보 인식 방법으로서,
(1) 수집된 음향 정보 데이터를 사용하여 음향 정보 인식 모델을 학습하는 단계; 및
(2) 상기 단계 (1)에서 학습된 음향 정보 인식 모델을 이용하여 입력된 데이터에서 음향 정보를 인식하여 출력하는 단계를 포함하되,
상기 음향 정보 인식 모델은,
반지도 학습이 가능하도록 기존의 VAE(Variational Auto Encoder) 모델에서 label y를 추정하는 네트워크가 추가된 음향 정보 인식 모델인 것을 특징으로 하는, VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법.
제1항에 있어서, 상기 단계 (1)은,
(1-1) 수집된 음향 정보 데이터를 입력받는 단계;
(1-2) 상기 단계 (1-1)에서 입력받은 음향 정보 데이터에서 특징 벡터를 추출하는 단계; 및
(1-3) 상기 단계 (1-2)에서 추출된 특징 벡터를 이용하여 음향 정보 인식 모델을 학습하는 단계를 포함하는 것을 특징으로 하는, VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법.
제2항에 있어서, 상기 단계 (1-1)에서는,
labeled된 음향 정보 데이터와 unlabeled된 음향 정보 데이터가 음파(wave) 형태로 수집되는 것을 특징으로 하는, VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법.
제3항에 있어서, 상기 단계 (1-2)에서는,
상기 음파를 미리 지정된 시간 단위의 프레임으로 나누는 것을 특징으로 하는, VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법.
제4항에 있어서, 상기 미리 지정된 시간 단위는,
10ms 또는 20ms의 시간 단위인 것을 특징으로 하는, VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법.
제1항에 있어서, 상기 단계 (2)는,
(2-1) 데이터를 수집하는 단계;
(2-2) 상기 단계 (2-1)에서 수집된 데이터를 입력하는 단계;
(2-3) 상기 단계 (2-2)에서 입력된 데이터에서 특징 벡터를 추출하는 단계;
(2-4) 상기 단계 (1)에서 학습된 음향 정보 인식 모델을 이용하여 상기 단계 (2-3)에서 추출된 특징 벡터를 인식하여 음향 정보를 인식하는 단계; 및
(2-5) 상기 단계 (2-4)의 음향 정보 인식 결과를 출력하는 단계를 포함하는 것을 특징으로 하는, VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법.
음향 정보 인식 시스템으로서,
수집된 음향 정보 데이터를 사용하여 음향 정보 인식 모델을 학습하는 음향 정보 학습 모듈(100); 및
상기 음향 정보 학습 모듈(100)에 의해 학습된 음향 정보 인식 모델을 이용하여 입력된 데이터에서 음향 정보를 인식하여 출력하는 음향 정보 출력 모듈(200)을 포함하되,
상기 음향 정보 인식 모델은,
반지도 학습이 가능하도록 기존의 VAE(Variational Auto Encoder) 모델에서 label y를 추정하는 네트워크가 추가된 음향 정보 인식 모델인 것을 특징으로 하는, VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템.
제7항에 있어서, 상기 음향 정보 학습 모듈(100)은,
수집된 음향 정보 데이터를 입력받는 학습 데이터 입력부(110);
상기 학습 데이터 입력부(110)에 의해 입력된 음향 정보 데이터에서 특징 벡터를 추출하는 학습 특징 벡터 추출부(120); 및
상기 학습 특징 벡터 추출부(120)에서 추출된 특징 벡터를 이용하여 음향 정보 인식 모델을 학습하는 모델 학습부(130)를 포함하는 것을 특징으로 하는, VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템.
제7항에 있어서, 상기 음향 정보 출력 모듈(200)은,
데이터를 수집하는 데이터 수집부(210);
상기 데이터 수집부(210)에 의해 수집된 데이터를 입력하는 데이터 입력부(220);
상기 데이터 입력부(220)에 의해 입력된 데이터에서 특징 벡터를 추출하는 특징 벡터 추출부(230);
상기 음향 정보 학습 모듈(100)에 의해 학습된 음향 정보 인식 모델을 이용하여 상기 특징 벡터 추출부(230)에 의해 추출된 특징 벡터를 인식하여 음향 정보를 인식하는 음향 정보 인식부(240); 및
상기 음향 정보 인식부(240)에서 음향 정보를 인식한 결과를 출력하는 인식 결과 출력부(250)를 포함하는 것을 특징으로 하는, VAE 모델 기반의 반지도 학습을 이용한 음향 정보 인식 시스템.