KR102316537B1

KR102316537B1 - 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치

Info

Publication number: KR102316537B1
Application number: KR1020190073925A
Authority: KR
Inventors: 장준혁; 양준영
Original assignee: 한양대학교 산학협력단
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2021-10-22
Also published as: US11854554B2; KR20200145219A; WO2020256257A3; WO2020256257A2; US20220199095A1

Abstract

잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치가 제시된다. 일 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법은, 음성 신호를 입력 받아 심화신경망을 활용한 빔포밍 알고리즘 및 잔향제거 알고리즘 중 적어도 어느 하나 이상을 이용하여 잡음 또는 잔향 성분을 제거하도록 학습하는 전처리 단계; 심화신경망 기반의 화자 임베딩 모델을 사용하여 잡음 또는 잔향 성분이 제거된 상기 음성 신호에서 발화자를 분류하도록 학습하는 화자 임베딩 단계; 및 상기 빔포밍 알고리즘 및 잔향제거 알고리즘 중 적어도 어느 하나 이상에 포함되어 있는 심화신경망 모델과 화자 임베딩을 위한 상기 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습하는 단계를 포함하여 이루어질 수 있다.

Description

잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치{METHOD AND APPARATUS FOR COMBINED LEARNING USING FEATURE ENHANCEMENT BASED ON DEEP NEURAL NETWORK AND MODIFIED LOSS FUNCTION FOR SPEAKER RECOGNITION ROBUST TO NOISY ENVIRONMENTS}

아래의 실시예들은 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치에 관한 것이다.

화자 검증(speaker verification)이란 임의의 두 발화(utterance)에 대하여 두 발화를 발성한 발화자(speaker)의 일치 여부를 판별하는 문제이며, 임의의 길이를 갖는 각 발화로부터 고정된 길이의 화자 특징 벡터를 추출하기 위한 화자 임베딩 기술에 기반하고 있다. 특히, 최근에는 기존에 가장 많이 사용되던 I-벡터(vector) 기반의 화자 임베딩 기술에서 벗어나 심화신경망(Deep Neural Network, DNN) 기반의 화자 임베딩 기술이 많이 연구되고 있다.

심화신경망은 또한 화자 임베딩 기술만이 아닌 다양한 음성 처리 기술을 구현하기 위한 기반 기술로써 다양한 방식으로 활용되고 있는데, 그 중 하나로는 배경잡음(background-noise)과 잔향(reverberation)에 의해 열화(degraded)된 다채널(multi-channel) 음성 신호로부터 잡음과 잔향 성분을 제거하여 음성 신호의 처리를 더욱 용이하게 하기 위한 전처리(pre-processing) 기술이 있다. 이 때, 마이크로폰에 입력된 다채널 음성 신호로부터 잡음을 제거하는 기술을 빔포밍(beamforming)이라고 하고, 잔향을 제거하는 기술을 잔향제거(dereverberation)라고 칭할 수 있으며, 앞서 언급한 바와 같이 빔포밍과 잔향제거 알고리즘의 일부분으로써 심화신경망을 활용할 수 있다.

기존에 심화신경망 기반의 빔포밍과 잔향제거 모듈을 전처리 기술로써 사용하여 I-벡터 기반의 화자 검증 실험을 진행하였다(비특허문헌 1). 여기에서는 심화신경망 기반의 화자 임베딩 기술을 사용하지 않고 기존의 I-벡터를 이용하였다. 그러나, I-벡터는 최근에 많이 연구되고 있는 심화신경망 기반의 화자 임베딩 기술에 비해 배경잡음과 잔향이 존재하는 환경에서의 성능이 저하된다는 단점이 있다. 또한 I-벡터를 사용하였기 때문에 심화신경망을 활용한 빔포밍 및 잔향제거 모듈과의 결합 학습이 불가능하다. 그리고 심화신경망을 활용한 잔향제거 알고리즘을 사용하지 않고 심화신경망에 의존하지 않는 기존의 잔향제거 알고리즘을 사용하였기 때문에 잔향제거 알고리즘과의 결합 학습을 진행할 수 없다.

이와 같이, 기존 기술의 경우 앞 단(front-end)에 심화신경망을 활용한 빔포밍 알고리즘을 사용하였지만, 뒷 단(back-end)에서는 I-벡터 기반의 화자 임베딩 기술을 사용하였기 때문에 결합 학습을 통해 앞 단의 전처리 모듈과 뒷 단의 화자인식 모듈이 결합되었을 때의 성능을 극대화하는 것이 불가능하다. 또한, 기존 기술은 심화신경망을 활용한 잔향제거 기술을 사용하지 않았기 때문에 마찬가지로 결합 학습을 통한 성능 개선을 확인할 수 없다.

L. Mosner, P. Matejka, O. Novotny, and J. H. Cernocky, "Dereverberation and beamforming in robust far-field speaker recognition", Interspeech, 2018.

실시예들은 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치에 관하여 기술하며, 보다 구체적으로 심화신경망을 활용한 빔포밍 및 잔향제거 기술을 화자 검증 기술의 전처리 기술로써 사용하며 잡음과 잔향이 제거된 신호를 이용하여 심화신경망 기반의 화자 임베딩 네트워크를 학습함으로써, 전처리 모듈(module)과 화자 임베딩 모듈의 결합 효율을 극대화하기 위한 결합 학습(joint training) 기술을 제공한다.

실시예들은 앞 단(front-end)에서는 심화신경망을 활용한 빔포밍과 잔향제거 알고리즘을 사용하며, 뒷 단(back-end)에서는 심화신경망 기반의 화자 임베딩 모델인 x-벡터(vector) 모델을 사용함으로써, 빔포밍과 잔향제거 알고리즘에 포함되어 있는 심화신경망 모델과 화자 임베딩을 위한 x-벡터 모델을 화자 임베딩에 적합한 손실 함수를 이용하여 결합적으로 학습하여 화자 검증 성능을 극대화할 수 있는 결합 학습 방법 및 장치를 제공하는데 있다.

일 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법은, 음성 신호를 입력 받아 심화신경망을 활용한 빔포밍 알고리즘 및 잔향제거 알고리즘 중 적어도 어느 하나 이상을 이용하여 잡음 또는 잔향 성분을 제거하도록 학습하는 전처리 단계; 심화신경망 기반의 화자 임베딩 모델을 사용하여 잡음 또는 잔향 성분이 제거된 상기 음성 신호에서 발화자를 분류하도록 학습하는 화자 임베딩 단계; 및 상기 빔포밍 알고리즘 및 잔향제거 알고리즘 중 적어도 어느 하나 이상에 포함되어 있는 심화신경망 모델과 화자 임베딩을 위한 상기 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습하는 단계를 포함하여 이루어질 수 있다.

상기 전처리 단계는, 심화신경망을 활용한 MVDR(Minimum Variance Distortionless Response) 빔포머를 이용하여 입력 받은 음성 신호로부터 잡음 성분을 제거하도록 학습하는 단계이고, 상기 결합 학습하는 단계는, 상기 심화신경망을 활용한 MVDR 빔포머와 상기 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습하는 단계일 수 있다.

또한, 상기 전처리 단계는, 심화신경망을 활용한 WPE(Weighted Prediction Error) 잔향제거 알고리즘을 이용하여 입력 받은 음성 신호로부터 잔향 성분을 제거하도록 학습하는 단계이고, 상기 결합 학습하는 단계는, 상기 심화신경망을 활용한 WPE 잔향제거 알고리즘과 상기 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습하는 단계일 수 있다.

또한, 상기 전처리 단계는, 심화신경망을 활용한 WPE(Weighted Prediction Error) 잔향제거 알고리즘을 이용하여 입력 받은 음성 신호로부터 잔향 성분을 제거하도록 학습하는 단계; 및 심화신경망을 활용한 MVDR(Minimum Variance Distortionless Response) 빔포머를 이용하여 입력 받은 음성 신호로부터 잡음 성분을 제거하도록 학습하는 단계를 포함하고, 상기 결합 학습하는 단계는, 상기 심화신경망을 활용한 WPE 잔향제거 알고리즘, 상기 심화신경망을 활용한 MVDR 빔포머 및 상기 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습할 수 있다.

상기 화자 임베딩 단계는, 상기 심화신경망 기반의 화자 임베딩 모델인 x-벡터 모델을 사용하여 임의의 길이를 갖는 발화에서 추출한 음향 특징 열로부터 발화자를 분류하도록 학습할 수 있다.

상기 화자 임베딩 단계는, 상기 x-벡터 모델의 출력 레이어에서 음성 신호 내의 상기 발화자를 분류하도록 크로스-엔트로피(cross-entropy) 손실 함수를 이용하여 학습하며, 상기 결합 학습하는 단계는, 상기 x-벡터 모델의 출력 레이어에서 정의되는 상기 손실 함수를 이용하여 결합 학습할 수 있다.

상기 전처리 단계는, 잡음과 잔향에 의해 열화된 마이크로폰 입력 신호의 STFT(Short-Time Fourier Transform) 계수가 상기 심화신경망을 활용한 빔포밍 알고리즘 또는 잔향제거 알고리즘을 통과하면 잡음 또는 잔향이 제거된 STFT 계수로 변환될 수 있다.

상기 화자 임베딩 단계는, 상기 잡음 또는 잔향이 제거된 STFT 계수로부터 MFB(Mel-FilterBank)를 사용하여 상기 심화신경망 기반의 화자 임베딩 모델의 입력으로 사용하기 위한 MFBE(Mel FilterBank Energies) 특징을 추출할 수 있다.

상기 결합 학습하는 단계는, 추출된 상기 MFBE 특징을 상기 심화신경망 기반의 화자 임베딩 모델의 입력 레이어에 전달하여 전처리 부분과 화자 임베딩 부분을 연결하고, 결합 학습을 통해 각 발화들의 발화자 ID를 분류하도록 결합 학습을 진행할 수 있다.

다른 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치는, 음성 신호를 입력 받아 심화신경망을 활용한 빔포밍 알고리즘 및 잔향제거 알고리즘 중 적어도 어느 하나 이상을 이용하여 잡음 또는 잔향 성분을 제거하도록 학습하는 전처리 모듈; 심화신경망 기반의 화자 임베딩 모델을 사용하여 잡음 또는 잔향 성분이 제거된 상기 음성 신호에서 발화자를 분류하도록 학습하는 화자 임베딩 모듈; 및 상기 빔포밍 알고리즘 및 잔향제거 알고리즘 중 적어도 어느 하나 이상에 포함되어 있는 심화신경망 모델과 화자 임베딩을 위한 상기 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습하는 결합 학습부를 포함하여 이루어질 수 있다.

상기 전처리 모듈은, 심화신경망을 활용한 MVDR(Minimum Variance Distortionless Response) 빔포머를 이용하여 입력 받은 음성 신호로부터 잡음 성분을 제거하도록 학습하고, 상기 결합 학습부는, 상기 심화신경망을 활용한 MVDR 빔포머와 상기 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습할 수 있다.

또한, 상기 전처리 모듈은, 심화신경망을 활용한 WPE(Weighted Prediction Error) 잔향제거 알고리즘을 이용하여 입력 받은 음성 신호로부터 잔향 성분을 제거하도록 학습하고, 상기 결합 학습부는, 상기 심화신경망을 활용한 WPE 잔향제거 알고리즘과 상기 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습할 수 있다.

또한, 상기 전처리 모듈은, 입력 받은 음성 신호로부터 잔향 성분을 제거하도록 학습하는 심화신경망을 활용한 WPE(Weighted Prediction Error) 잔향제거 알고리즘; 및

입력 받은 음성 신호로부터 잡음 성분을 제거하도록 학습하는 심화신경망을 활용한 MVDR(Minimum Variance Distortionless Response) 빔포머를 포함하고, 상기 결합 학습부는, 상기 심화신경망을 활용한 WPE 잔향제거 알고리즘, 상기 심화신경망을 활용한 MVDR 빔포머 및 상기 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습할 수 있다.

상기 화자 임베딩 모듈은, 상기 심화신경망 기반의 화자 임베딩 모델인 x-벡터 모델을 사용하여 임의의 길이를 갖는 발화에서 추출한 음향 특징 열로부터 발화자를 분류하도록 학습할 수 있다.

상기 화자 임베딩 모듈은, 상기 x-벡터 모델의 출력 레이어에서 음성 신호 내의 상기 발화자를 분류하도록 크로스-엔트로피(cross-entropy) 손실 함수를 이용하여 학습하며, 상기 결합 학습부는, 상기 x-벡터 모델의 출력 레이어에서 정의되는 상기 손실 함수를 이용하여 결합 학습할 수 있다.

실시예들에 따르면 심화신경망을 활용한 빔포밍 및 잔향제거 기술을 화자 검증 기술의 전처리 기술로써 사용하며 잡음과 잔향이 제거된 신호를 이용하여 심화신경망 기반의 화자 임베딩 네트워크를 학습함으로써, 전처리 모듈(module)과 화자 임베딩 모듈의 결합 효율을 극대화하기 위한 결합 학습(joint training) 방법 및 장치를 제공할 수 있다.

실시예들에 따르면 앞 단(front-end)에서는 심화신경망을 활용한 빔포밍과 잔향제거 알고리즘을 사용하며, 뒷 단(back-end)에서는 심화신경망 기반의 화자 임베딩 모델인 x-벡터(vector) 모델을 사용함으로써, 빔포밍과 잔향제거 알고리즘에 포함되어 있는 심화신경망 모델과 화자 임베딩을 위한 x-벡터 모델을 화자 임베딩에 적합한 손실 함수를 이용하여 결합적으로 학습하여 화자 검증 성능을 극대화할 수 있는 결합 학습 방법 및 장치를 제공할 수 있다.

도 1은 일 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법을 나타내는 흐름도이다.
도 2는 일 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치를 나타내는 블록도이다.
도 3은 일 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치의 시스템 구조를 나타내는 도면이다.

이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

아래의 실시예에서는 심화신경망(Deep Neural Network, DNN)을 활용한 빔포밍 및 잔향제거 기술을 화자 검증 기술의 전처리 기술로써 사용하며, 잡음과 잔향이 제거된 신호를 이용하여 심화신경망 기반의 화자 임베딩 네트워크를 학습하는 방법으로써 전처리 모듈(module)과 화자 임베딩 모듈의 결합 효율을 극대화하기 위한 결합 학습(joint training) 방법을 제시한다.

보다 구체적으로, 실시예들은 배경잡음과 잔향에 의해 열화된 다채널 음성 신호를 입력 받고, 해당 음성 신호의 표현을 시간 영역(time-domain)에서 STFT(Short-Time Fourier Transform) 영역으로 변환하고, STFT 영역에서 심화신경망을 활용한 빔포밍 또는 잔향제거 또는 잔향제거에 이은 빔포밍을 수행하여 잡음과 잔향 성분을 제거하여, 잡음과 잔향 성분이 제거된 음성 신호의 STFT 영역 표현으로부터 화자 임베딩 네트워크 학습을 위한 특징 벡터(vector)를 추출하고, 이를 이용하여 화자 임베딩 네트워크를 학습할 수 있으며, 마지막으로 빔포밍 및 잔향제거에 이은 화자 임베딩 모듈 전체를 결합 학습하여 성능을 극대화할 수 있다. 이 때, 심화신경망을 활용한 빔포밍과 잔향제거 모듈은 배경잡음과 잔향에 의해 열화된 다채널 음성 신호를 이용하여 미리 학습해두어야 한다.

도 1은 일 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법을 나타내는 흐름도이다.

도 1을 참조하면, 일 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법은, 음성 신호를 입력 받아 심화신경망을 활용한 빔포밍 알고리즘 및 잔향제거 알고리즘 중 적어도 어느 하나 이상을 이용하여 잡음 또는 잔향 성분을 제거하도록 학습하는 전처리 단계(S110), 심화신경망 기반의 화자 임베딩 모델을 사용하여 잡음 또는 잔향 성분이 제거된 음성 신호에서 발화자를 분류하도록 학습하는 화자 임베딩 단계(S120), 및 빔포밍 알고리즘 및 잔향제거 알고리즘 중 적어도 어느 하나 이상에 포함되어 있는 심화신경망 모델과 화자 임베딩을 위한 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수(loss function)를 이용하여 결합 학습하는 단계(S130)를 포함하여 이루어질 수 있다.

여기서 전처리 단계(S110)는, 심화신경망을 활용한 WPE(Weighted Prediction Error) 잔향제거 알고리즘을 이용하여 입력 받은 음성 신호로부터 잔향 성분을 제거하도록 학습하는 단계, 및 심화신경망을 활용한 MVDR(Minimum Variance Distortionless Response) 빔포머를 이용하여 입력 받은 음성 신호로부터 잡음 성분을 제거하도록 학습하는 단계를 포함할 수 있다. 이에 따라 결합 학습하는 단계(S130)는, 심화신경망을 활용한 WPE 잔향제거 알고리즘, 심화신경망을 활용한 MVDR 빔포머 및 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습할 수 있다.

실시예들은 심화신경망의 학습에 사용되는 경사하강(gradient descent) 알고리즘을 이용하여 앞 단(front-end)과 뒷 단(back-end)에 있는 심화신경망 모델들을 동일한 손실 함수를 기준으로 한꺼번에 최적화하기 위한 방법으로, 앞 단에서는 심화신경망을 활용한 빔포밍과 잔향제거 알고리즘을 사용하며, 뒷 단에서는 심화신경망 기반의 화자 임베딩 모델인 x-벡터(vector) 모델을 사용할 수 있다. 따라서, 빔포밍과 잔향제거 알고리즘에 포함되어 있는 심화신경망 모델과 화자 임베딩을 위한 x-벡터 모델을 화자 임베딩에 적합한 손실 함수를 이용하여 결합적으로 학습하는 것이 가능하며, 이를 통해 화자 검증에 적합한 방향으로 모든 심화신경망 모델들을 학습함으로써 화자 검증 성능을 극대화할 수 있다.

아래에서 일 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법의 각 단계를 하나의 예를 들어 설명한다.

일 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법은 일 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치를 이용하여 보다 상세히 설명할 수 있다.

도 2는 일 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치를 나타내는 블록도이다.

도 2를 참조하면, 일 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치(200)는 전처리 모듈(210), 화자 임베딩 모듈(220) 및 결합 학습부(230)를 포함하여 이루어질 수 있으며, 실시예에 따라 전처리 모듈(210)은 MVDR 빔포머(211) 및 WPE 잔향제거 알고리즘(212)을 포함할 수 있다.

전처리 단계(S110)에서, 전처리 모듈(210)은 음성 신호를 입력 받아 심화신경망을 활용한 빔포밍 알고리즘 및 잔향제거 알고리즘 중 적어도 어느 하나 이상을 이용하여 잡음 또는 잔향 성분을 제거하도록 학습할 수 있다. 전처리 모듈(210)은 잡음과 잔향에 의해 열화된 마이크로폰 입력 신호의 STFT(Short-Time Fourier Transform) 계수가 심화신경망을 활용한 빔포밍 알고리즘 또는 잔향제거 알고리즘을 통과하면 잡음 또는 잔향이 제거된 STFT 계수로 변환될 수 있다.

화자 임베딩 단계(S120)에서, 화자 임베딩 모듈(220)은 심화신경망 기반의 화자 임베딩 모델을 사용하여 잡음 또는 잔향 성분이 제거된 음성 신호에서 발화자를 분류하도록 학습할 수 있다. 특히, 화자 임베딩 모듈(220)은 심화신경망 기반의 화자 임베딩 모델인 x-벡터 모델을 사용하여 임의의 길이를 갖는 발화에서 추출한 음향 특징 열로부터 발화자를 분류하도록 학습할 수 있다. 여기서, 화자 임베딩 모듈(220)은 x-벡터 모델의 출력 레이어에서 음성 신호 내의 발화자를 분류하도록 크로스-엔트로피(cross-entropy) 손실 함수를 이용하여 학습할 수 있다. 화자 임베딩 모듈(220)은 잡음 또는 잔향이 제거된 STFT 계수로부터 MFB(Mel-FilterBank)를 사용하여 심화신경망 기반의 화자 임베딩 모델의 입력으로 사용하기 위한 MFBE(Mel FilterBank Energies) 특징을 추출할 수 있다.

결합 학습하는 단계(S130)에서, 결합 학습부(230)는 빔포밍 알고리즘 및 잔향제거 알고리즘 중 적어도 어느 하나 이상에 포함되어 있는 심화신경망 모델과 화자 임베딩을 위한 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습할 수 있다. 여기서, 결합 학습부(230)는 x-벡터 모델의 출력 레이어에서 정의되는 손실 함수를 이용하여 결합 학습할 수 있다. 결합 학습부(230)는 추출된 MFBE 특징을 심화신경망 기반의 화자 임베딩 모델의 입력 레이어에 전달하여 전처리 부분과 화자 임베딩 부분을 연결하고, 결합 학습을 통해 각 발화들의 발화자 ID를 분류하도록 결합 학습을 진행할 수 있다.

일례로, 전처리 모듈(210)은 심화신경망을 활용한 MVDR(Minimum Variance Distortionless Response) 빔포머를 이용하여 입력 받은 음성 신호로부터 잡음 성분을 제거하도록 학습할 수 있다. 이에 따라 결합 학습부(230)는 심화신경망을 활용한 MVDR 빔포머(211)와 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습할 수 있다.

다른 예로, 전처리 모듈(210)은 심화신경망을 활용한 WPE(Weighted Prediction Error) 잔향제거 알고리즘을 이용하여 입력 받은 음성 신호로부터 잔향 성분을 제거하도록 학습할 수 있다. 이에 따라 결합 학습부(230)는 심화신경망을 활용한 WPE 잔향제거 알고리즘(212)과 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습할 수 있다.

또 다른 예로, 전처리 모듈(210)은 입력 받은 음성 신호로부터 잔향 성분을 제거하도록 학습하는 심화신경망을 활용한 WPE(Weighted Prediction Error) 잔향제거 알고리즘 및 입력 받은 음성 신호로부터 잡음 성분을 제거하도록 학습하는 심화신경망을 활용한 MVDR(Minimum Variance Distortionless Response) 빔포머를 포함할 수 있다. 이에 따라 결합 학습부(230)는 심화신경망을 활용한 WPE 잔향제거 알고리즘(212), 심화신경망을 활용한 MVDR 빔포머(211) 및 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습할 수 있다.

실시예들에 따른 MVDR 빔포머(211)와 WPE 잔향제거 알고리즘(212)를 이용한 화자 임베딩 모델과의 결합 학습 방법 및 장치를 이용하여 배경잡음과 잔향이 존재하는 환경에서 다수의 마이크로폰을 통해 음성을 수집하여 처리하는 경우에 대해 가정 환경에서 사용되는 인공지능 스피커, 공항에서 사용되는 로봇, 바깥 환경에서 사용되는 휴대용 단말의 화자 인식 시스템 등에서 배경 잡음에 의해 열화된 음성이 입력되는 경우의 화자 인식 성능을 개선시킬 수 있다. 또한, 실시예들에 따른 결합 학습 방법 및 장치는 음소(phoneme)의 상태를 분류하도록 학습되는 음향 모델의 학습에도 사용될 수 있기 때문에, 잡음 환경에 강인한 음성 인식기의 설계에도 도움이 될 수 있다. 아래에서 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치에 대해 보다 상세히 설명한다.

신호 모델

배경잡음과 잔향이 존재하는 방(room) 안에서 D 개의 마이크로폰을 통해 음성 신호를 수집한다고 가정할 때, 마이크로폰에 입력되는 음성 신호는 잔향이 있는 음성 신호와 잔향이 있는 배경잡음의 합으로 표현할 수 있으며, 다음 식과 같이 나타낼 수 있다.

[수학식 1]

여기서, x와 n은 각각 잔향에 의해 열화된 음성 신호와 잔향에 의해 열화된 잡음신호의 STFT(Short-Time Fourier Transform) 계수를 나타내고, t와 f는 각각 시간 프레임 인덱스(time frame index)와 주파수-빈 인덱스(frequency-bin index)를 의미하고, y는 음성 신호와 잡음신호를 더한 마이크로폰 입력 신호를 의미한다.

또한, 위첨자 (early)와 (late)는 각각 초기 반향(early reflection) 신호와 후기 잔향(late reverberation) 신호를 의미하며, 전자는 원신호(source signal)가 실내 충격 응답(Room Impulse Response, RIR)과 콘볼루션(convolution)될 때 RIR의 주 피크(main peak)로부터 50 ms만큼 떨어진 부분까지만을 이용하여 콘볼루션(convolution)된 신호를 나타내고, 후자는 RIR의 나머지 부분에 의해 콘볼루션(convolution)된 신호를 나타낸다. 즉, 후기 잔향(late reverberation) 신호는 비교적 길게 지속되는 RIR의 뒷(tail) 부분에 의해 원신호가 열화된 것으로, 원치 않는 잔향 성분이라고 볼 수 있으며, 초기 반향(early reflection) 신호는 비교적 짧은 RIR의 앞 부분에 의해 원신호가 열화된 것으로, 충분히 허용 가능한 열화로 볼 수 있다.

전처리 모듈(210)의 심화신경망을 활용한 MVDR 빔포머 (211)

일반적인 MVDR(Minimum Variance Distortionless Response) 빔포밍 기술은 빔포밍을 적용한 출력 음성 신호가 왜곡이 없게(distortionless) 하면서 출력 신호에 남아있는 잔여 잡음(residual noise)의 파워를 최소화하는 것을 목적으로 한다. 이와 같은 최소화 문제를 풀면 다음 식과 같은 MVDR 이득(gain)을 얻을 수 있다.

[수학식 2]

여기서,

와

는 각각 음성 성분과 잡음 성분의 파워 스펙트럼 밀도 (Power Spectral Density, PSD) 행렬을 나타내며, u_ref 는 출력 채널 선택을 위한 원-핫(one-hot) 벡터를 나타낸다. [수학식 2]에서 가독성을 위해 주파수-빈 인덱스(frequency-bin index) f는 생략되었다.

MVDR 빔포머의 출력은 MVDR 이득과 마이크로폰 입력 신호를 곱하여 얻을 수 있으며, 다음 식과 같이 나타낼 수 있다.

[수학식 3]

여기서,

은 TF 빈 인덱스(Time-Frequency bin index) (t, f)에서의 빔포머 출력 음성 신호를 의미한다.

반면, 심화신경망을 활용한 빔포머는 기존의 일반적인 빔포머 알고리즘의 일부분을 심화신경망을 활용한 로직으로 대체할 수 있다. 본 실시예에서는 스펙트럼 마스크(spectral mask) 기반 MVDR 빔포머를 사용하였으며, 스펙트럼 마스크(spectral mask) 기반 MVDR 빔포머는 음성 성분과 잡음 성분에 대한 TF 빈(bin)별 스펙트럼 마스크(spectral mask)를 심화신경망을 이용하여 추정한 뒤, 추정한 마스크(mask)를 이용하여 음성 성분과 잡음 성분에 대한 PSD(Positive Semi-Definite) 행렬을 계산할 수 있다.

이 때, 마스크 추정은 마이크로폰 채널 각각에 대해 독립적으로 이루어지기 때문에 마이크로폰의 개수와 같은 개수의 마스크가 음성 성분 및 잡음 성분에 대해 각각 계산될 수 있다. 마스크의 값이 0과 1 사이가 되도록 하기 위해서 마스크 추정을 위한 심화신경망의 출력 레이어에서는 시그모이드(sigmoid) 함수를 사용하여 출력 값이 0과 1 사이에서 나타나도록 모델을 설계할 수 있다. 이러한 마스크 추정을 위한 심화신경망을 학습하기 위해서는 신경망을 통해 추정한 마스크와 미리 준비한 타겟(target) 마스크 사이의 평균제곱오차(Mean Squared Error, MSE)를 최소화해야 하는데, 이 때 타겟 마스크로써 IBM(Ideal Binary Mask)를 사용하며, 계산 방식을 다음 식과 같이 표현할 수 있다.

[수학식 4]

여기서, d는 마이크로폰 채널 인덱스를 나타내고, v는 음성 성분 또는 잡음 성분에 해당하는 신호 성분을 나타내며,

는 주파수-빈 인덱스(frequency-bin index) f에서의 문턱 값(threshold)을 나타내고,

은 d 번째 마이크로폰 입력 신호의 STFT 계수 중 TF 빈(bin) (t, f)에서의 IBM을 나타낼 수 있다.

즉, 음성 성분과 잡음 성분에 해당하는 스펙트럼 마스크(spectral mask)를 각각 추정하기 때문에, 마스크 추정을 위한 심화신경망의 출력 레이어는 두 개로 구성될 수 있다. 마스크 추정을 위한 심화신경망의 학습이 끝나면, 아래의 식을 이용하여 음성 성분과 잡음 성분 신호의 PSD 행렬을 추정할 수 있다.

[수학식 5]

여기서,

은 심화신경망을 통해 각 마이크로폰 채널별로 얻은 마스크의 추정 값을 모든 채널에 대해 평균을 취한 평균(average) 마스크이다.

이와 같은 방식으로 얻은 PSD 행렬을 [수학식 2]에 대입하여 MVDR 이득을 구하고, 이를 이용하여 빔포밍을 수행하는 프레임워크를 심화신경망 기반의 마스크 기반 MVDR 빔포밍이라고 할 수 있다. 마스크 추정을 위한 심화신경망은 마이크로폰 입력 신호로부터 계산한 로그-스케일 파워 스펙트럼(Log-scale Power Spectra, LPS)을 입력 받아 [수학식 4]의 IBM을 추정하도록 학습되며, 학습은 출력 레이어의 출력 값과 [수학식 4]에서 정의된 IBM 사이의 바이너리 크로스-엔트로피 손실(binary cross-entropy loss)을 손실 함수로 하여 진행될 수 있다.

전처리 모듈(210)의 심화신경망을 활용한 WPE 잔향제거 알고리즘(212)

기존의 일반적인 가중 예측 오차(Weighted Prediction Error, WPE) 잔향제거 기술은 입력 신호의 후기 잔향(late reverberation) 성분을 추정하기 위한 선형 예측(linear prediction) 필터를 추정하고, 선형 예측을 통해 추정한 후기 잔향(late reverberation) 성분을 입력 신호로부터 빼줌으로써 초기 반향(early reflection) 신호의 최대 우도(Maximum Likelihood, ML) 추정 값을 계산해낼 수 있다. 이러한 선형 예측 필터를 추정하기 위한 닫힌 형식 해(closed form solution)는 존재하지 않기 때문에, 반복적인(iterative) 방식으로 필터의 계수를 추정해야 하며, 그 과정은 다음 식과 같이 표현될 수 있다.

[수학식 6]

[수학식 7]

[수학식 8]

[수학식 9]

[수학식 10]

여기서,

는 선형 예측 기법을 통해 추정한 초기 반향(early reflection) 신호의 추정 값을 나타내고,

는 추정한 초기 반향(early reflection) 신호의 TF 빈(bin) (t, f)에서의 파워(power)를 나타내며, K는 선형 예측 필터의 차수(order)를 나타내고,

는 선형 예측 알고리즘의 지연(delay)을 나타내며,

와 G는 각각 마이크로폰 입력 신호의 STFT 계수와 선형 예측 필터 계수를 현재 프레임 t를 기준으로 과거

번째 프레임부터 과거

번째 프레임까지 쌓아 놓은 쌓여진 표상(stacked representation)이다.

반면, 심화신경망을 활용한 WPE(Weighted Prediction Error) 잔향제거는 기존의 일반적인 WPE 알고리즘의 일부분을 심화신경망을 활용한 로직으로 대체할 수 있다. 보다 구체적으로, [수학식 6]에서의 초기 반향(early reflection) 신호의 파워를 추정하는 부분을 심화신경망으로 대체하게 되며, 이 때, 심화신경망은 마이크로폰 입력 신호

의 파워를 입력 받아 후기 잔향(late reverberation) 성분이 제거된

성분의 파워를 추정하도록 학습될 수 있다. 이는 음성 성분과 잡음 성분 모두에서 후기 잔향(late reverberation)을 제거하는 것을 목적으로 심화신경망을 학습하는 방법이라고 할 수 있다.

심화신경망의 학습이 끝나면 심화신경망을 이용하여 각 마이크로폰 채널별로 초기 반향(early reflection) 신호의 파워 추정 값을 계산한 뒤, 모든 채널에 대해 평균을 취하여 [수학식 6]의 좌변을 대신할 수 있는 파워 추정 값을 계산하고, [수학식 7] 내지 [수학식 10]의 과정을 거쳐 초기 반향(early reflection) 신호의 STFT 계수를 추정할 수 있다. 초기 반향(early reflection) 신호의 파워를 추정하기 위한 심화신경망은 추정한 초기 반향(early reflection) 신호의 파워와 정답 초기 반향(early reflection) 파워 사이의 평균제곱오차(MSE)를 최소화하도록 학습되고, 실제 입출력으로는 파워에 로그(log)를 취하여 로그-스케일(log-scale)로 변환한 LPS가 사용되며, WPE 알고리즘에 적용될 때에는 다시 지수(exponential) 연산을 통해 리니어-스케일(linear-scale)로 변환한 뒤에 적용할 수 있다.

화자 임베딩 모듈(220)의 심화신경망 기반의 화자 임베딩 모델

심화신경망 기반의 화자 임베딩 모델은 임의의 길이를 갖는 음향 특징 열(sequence)을 입력 받아 발화 단위로 발화자를 분류하는 방식으로 학습할 수 있으며, 음향 특징으로는 주로 MFBE(Mel FilterBank Energies) 또는 MFCC(Mel-Frequency Cepstral Coefficients) 등을 사용할 수 있다.

여기에서는 최근에 제안된 대표적인 심화신경망 기반의 화자 임베딩 모델인 x-벡터 모델을 사용하며, x-벡터 모델은 시간 순서대로 나열된 프레임 단위의 음향 특징 열에 대해 5개의 시간-지연 신경망(Time-Delay Neural Network, TDNN) 레이어를 사용하여 비선형 연산을 통해 발화자와 관련된 정보를 추출하는 역할을 수행하고, 그 다음에 위치한 통계적 특징 추출(statistics pooling) 레이어에서는 음향 특징 열에 대해 시간 축으로 평균(mean)과 표준편차(standard deviation)를 계산하여 이어 붙임으로써 임의의 길이를 갖는 발화로부터 고정된 길이의 벡터를 추출하는 역할을 할 수 있다.

이와 같이 계산된 평균과 표준편차 벡터는 2개의 은닉 레이어를 추가로 거친 뒤에, 마지막으로 출력 레이어에서 학습 데이터셋 내의 발화자를 분류하도록 크로스-엔트로피(cross-entropy) 손실 함수를 이용하여 학습될 수 있다. 즉, 임의의 길이를 갖는 발화에서 추출한 음향 특징 열로부터 발화자를 분류하도록 학습됨으로써 은닉 레이어에서 발화자의 정보가 구분적으로 표현될 수 있는 특징 공간을 학습하는 방식이다. 화자 임베딩 모델의 학습에 사용되는 손실 함수를 다음 식과 같이 표현할 수 있다.

[수학식 11]

여기서, C는 학습 데이터베이스 내 발화자의 수이며, S_i는 출력 레이어의 노드 중 j 번째 발화자의 위치에서 계산된 신경망의 출력 값이고, P_i는 S_i에 소프트맥스(softmax) 함수를 적용하여 확률적인 의미를 부여한 값이다. 또한, y_n은 미니-배치(mini-batch)를 구성하는 n 번째 학습 데이터 샘플의 발화자를 나타내는 인덱스이다.

학습을 끝마치고 난 후에는 통계적 특징 추출 레이어 바로 다음에 위치해 있는 은닉 레이어의 활성함수를 거치기 전 출력 값을 화자 특징 벡터인 x-벡터로 사용할 수 있다.

결합 학습부 (230)

심화신경망을 활용한 MVDR 빔포밍 알고리즘과 WPE 잔향제거 알고리즘의 연산들은 전부 미분 가능한(fully differentiable) 연산들이기 때문에, 이를 뒷 단에 있는 x-벡터 모델과 연결시킨 뒤 전체 시스템을 결합 학습하는 것이 가능하다.

보다 구체적으로, 잡음과 잔향에 의해 열화된 마이크로폰 입력 신호의 STFT 계수가 심화신경망을 활용한 MVDR 빔포머 또는 WPE 잔향제거 알고리즘을 통과하면 잡음 또는 잔향이 제거된 STFT 계수로 변환되고, 잡음 또는 잔향이 제거된 STFT 계수로부터 파워 스펙트럼을 계산할 수 있다. 또한, MFB(Mel-FilterBank)를 사용하여 x-벡터 모델의 입력으로 사용하기 위한 MFBE 특징을 추출하고, 이를 x-벡터 모델의 입력 레이어에 전달하는 방식으로 전처리 부분과 화자 임베딩 부분을 연결하는 것이 가능하다.

결합 학습은 MVDR 빔포머나 WPE 잔향제거 알고리즘을 구성하는 심화신경망 모델들과 x-벡터 모델의 개별적인 학습이 완료된 후에 앞서 언급한 방식으로 MVDR/WPE와 x-벡터 모델을 연결시키고, 손실 함수로써 x-벡터 모델의 출력 레이어에서 정의되는 손실 함수를 통해 이루어질 수 있다. 이는 심화신경망을 활용한 MVDR/WPE를 개별적으로 학습할 때에 사용한 손실 함수에서 벗어나서, 해당 전처리 모듈들을 최종 목적인 화자 임베딩에 적합하게 학습하는 의미를 가지고 있다.

즉, 화자 임베딩 모델과의 결합 학습을 통해 전처리 부분의 심화신경망들을 화자 임베딩에 더욱 적합하도록 변형시키는 것이다. 심화신경망을 활용한 WPE 잔향제거 알고리즘을 x-벡터와 같은 분류 모델과 함께 결합 학습하는 방법은 아직 제안된 적이 없으며, 특히, 화자인식 분야에서 심화신경망을 활용한 MVDR 빔포밍과 WPE 잔향제거 알고리즘을 x-벡터와 같은 심화신경망 기반 화자 임베딩 모델과 결합 학습한 연구도 아직 제안된 적이 없다.

한편, WPE 잔향제거에 이어 빔포밍을 수행하는 방법으로 전처리 모듈을 구성하는 경우 잡음과 잔향에 의해 열화된 마이크로폰 입력 신호로부터 먼저 잔향 성분을 제거하고, 그 다음에 빔포머를 통해 잡음 성분을 제거할 수 있다. 이 방식은 잡음을 먼저 제거하고 잔향을 그 다음에 제거하는 방식보다 더 효과적이며, 당연히 빔포머를 통해 잡음만 제거하거나 WPE를 통해 잔향만 제거하는 방법보다도 효과적이다. 따라서, 본 실시예에서는 WPE 잔향제거, MVDR 빔포머 및 x-벡터 화자 임베딩의 순서대로 총 3개의 모듈을 결합한 뒤에 결합 학습을 진행할 수 있다.

MVDR 빔포밍과 WPE 잔향제거 알고리즘은 모두 복소수 값을 갖는 STFT 계수들을 처리하는 연산들로 구성되어있기 때문에, 결합 학습을 실제로 구현하기 위해서는 복소수의 실수부와 허수부를 별도로 연산할 필요가 있다. 특히, [수학식 2]와 [수학식 9]에서 나타나는 복소수 행렬의 역(inverse) 연산은 아래와 같은 식을 통해 해결할 수 있다.

[수학식 12]

[수학식 13]

여기서, C=A+iB는 복소수 행렬이며, A와 B는 각각 역행렬이 존재하는 실수 행렬이다.

도 3은 일 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치의 시스템 구조를 나타내는 도면이다.

도 3을 참조하면, 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치(300)의 시스템 구조를 나타내며, 본 실시예의 실험에서 사용된 시스템 구성을 포괄적으로 나타낸다. 먼저, 입력으로는 잡음과 잔향에 의해 오염된 마이크로폰 입력 신호로부터 계산한 STFT 계수(301)가 사용될 수 있다. 도 3의 가운데를 기준으로 보았을 때, 좌측은 심화신경망을 활용한 WPE 알고리즘(310)의 구조를 나타내고, 우측은 심화신경망을 활용한 MVDR 빔포밍 알고리즘(320)의 구조를 나타낸다.

심화신경망들은 각각 초기 반향(early reflection) 신호의 LPS를 추정하기 위한 심화신경망(311)과 마스크를 추정하기 위한 심화신경망(321)이며, 입력으로는 STFT로부터 계산한 LPS(302)를 사용하되, 과거 3번째부터 미래 3번째까지의 프레임에서 추출한 LPS(302)를 연결(concatenate)하여 사용할 수 있다. 심화신경망의 출력 값들은 각각 PSD 행렬 추정(312, 322)을 위한 WPE 잔향제거(313) 및 MVDR 빔포머(323)의 수학식을 통해 계산되며, 앞에서 설명한 수학식들을 통해 마이크로폰 입력 신호의 STFT 계수(301)로부터 잡음 성분이나 잔향 성분을 제거한 STFT 계수(303, 304)를 계산할 수 있다.

도 3에서 위쪽 스위치는 각각 WPE를 사용하는 경우와 MVDR을 사용하는 경우를 구분하기 위한 용도이고, 아래쪽 스위치는 WPE 또는 MVDR을 단독으로 사용하는 경우와 WPE에 이어 MVDR을 적용하는 캐스케이드 구조를 사용하는 경우를 구분하기 위한 용도이다. 예를 들어 스위치가 cascade-WPE에 위치해있다면, WPE에 이어 MVDR 빔포밍을 적용하는 구조를 의미할 수 있다. 이와 같은 방식으로 전처리를 수행하고 나서 얻은 잡음 성분이나 잔향 성분을 제거한 STFT 계수(303, 304)로부터 x-벡터 모델 학습을 위한 MFBE 특징을 추출(330)하며, 이 때 미리 계산해놓은 MFB(mel-filterbank)(340)가 사용될 수 있다. MFBE 특징들은 3초 길이의 윈도우(window)를 이용하여 슬라이딩-윈도우 평균 정규화(sliding-window mean normalization)(350)를 적용 받고, x-벡터 모델(360)에 입력되어 미니-배치(mini-batch)를 구성하는 각 발화들의 발화자 ID(305)를 분류하도록 학습이 진행될 수 있다.

아래에서는 일 실시예에 따른 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치에 대한 실험 방법에 대해 설명한다.

모든 실험은 SiTEC 한국어 음성 데이터베이스(DB)를 이용하여 진행하였다. SiTEC DB는 16 kHz로 샘플링된 깨끗한 음성 신호로 이루어져 있으며, 각 발화자들은 약 103에서 105개의 발화들을 포함하고 있다. 발화들의 평균 길이는 5.18초 정도이다. 실험을 위해 DB를 두 개의 데이터셋으로 나누었으며, 학습용 데이터셋은 800명의 발화자로부터 수집한 84,103개의 발화로 구성하였고, 평가용 데이터셋은 200명의 발화자에 대해 각각 25개씩의 발화를 준비하였다.

잡음과 잔향에 의해 오염된 다채널 음성 신호를 생성해내기 위해서 시물레이션을 통해 특정 방(room) 환경에서 RIR을 생성해주는 RIR 발생기(generator) 툴킷을 이용하여 다양한 종류의 방(room) 환경을 시뮬레이션하여 RIR을 생성하였다. 학습용 데이터셋에 적용할 RIR을 5,000개, 평가용 데이터셋에 적용할 RIR을 1,000개 준비하였으며, RIR 생성을 위한 방(room) 환경을 설정하는 데에는 아래의 표의 설정에 따라 랜덤하게 방(room) 환경을 설정하였다.

표 1은 RIR 생성을 위한 RIR 발생기(generator) 파라미터 설정을 나타낸다.

[표 1]

RIR은 각 방(room)마다 4세트씩 생성되었으며, 각 세트는 음성 신호원과 콘볼루션(convolution)될 RIR 1개 및 잡음신호원과 콘볼루션(convolution)될 RIR 1개~3개로 구성되어 있다.

잡음 신호로는 2016년에 개최된 DCASE(Detection and Classiciation of Acoustic Scenes and Events) 챌린지의 domestic audio tagging 태스크의 데이터를 사용하였으며, 해당 데이터는 가정 내 방(room) 환경에서 발생할만한 아이/어른 음성, 비디오 게임 소리, TV 소리, 타격음 등으로 구성되어 있다. 학습과 평가를 위해 총 6,137개의 샘플을 4,091개와 2,046개로 나누어 각각 학습용 음성 데이터셋과 평가용 음성 데이터셋에 랜덤하게 더하였으며, 더할 때의 신호대잡음비(Signal-to-Noise Ratio, SNR)는 0 dB에서 20 dB 사이에서 랜덤하게 선택하였다. 즉, 어떤 하나의 깨끗한 음성 신호에 대하여 RIR을 랜덤하게 선택하여 잔향 성분을 갖도록 열화시키고, 잡음 샘플을 랜덤하게 선택하여 열화시킨 뒤에, 잔향에 열화된 음성과 잡음을 더하여 잡음과 잔향에 열화된 음성을 생성하였다. 심화신경망들을 학습할 때에는 다채널 음성 신호를 미니-배치(mini-batch) 단위로 묶어 학습에 사용해야 하며, 특히 심화신경망을 활용한 WPE, MVDR, x-벡터 모델을 모두 결합하여 학습하는 경우에는 미니-배치(mini-batch)의 크기가 너무 크면 GPU 메모리(memory)가 부족하여 학습이 불가능하다. 따라서, 본 실험에서는 오직 2채널 음성 데이터만을 생성하여 실험을 진행하였다.

위와 같이 시뮬레이션을 통해 생성한 RIR 외에 실제로 녹음한 RIR을 이용하여 실험을 진행하기 위해서 REVERB Challenge 2014 데이터셋에 포함되어 있는 실제(real) RIR을 또한 실험에 사용하였다. 해당 데이터셋은 총 8개의 마이크로폰으로 녹음되었기 때문에, 실험에서는 1번과 5번 마이크로폰으로 녹음한 RIR만 사용하였다.

본 실험에서는 결합 학습의 타당성 조사(feasibility study)가 주 목적이기 때문에, 심화신경망 기반의 MVDR과 WPE 알고리즘에 사용되는 심화신경망의 구조에 비교적 단순한 모델을 사용하였다. 마스크 추정을 위한 심화신경망과 초기 반향(early reflection) 신호의 LPS를 추정하기 위한 심화신경망 모두 입력으로는 257차원의 LPS를 과거 3번째 프레임부터 미래 3번째 프레임까지 연결(concatenate)하여 하나의 벡터로 만든 특징벡터를 사용하고, 은닉 레이어는 768개의 ReLU(Recitifed Linear Unit)로 구성된 3개의 레이어를 사용하였다. 마스크 추정을 위한 심화신경망의 출력 레이어는 음성과 잡음 성분 각각에 대한 마스크를 추정해야 하기 때문에 257개의 시그모이드 유닛(sigmoid unit)으로 구성된 두 개의 레이어로 이루어져 있으며, LPS 추정을 위한 심화신경망의 출력 레이어는 257개의 리니어 유닛(linear unit)으로 구성된 하나의 레이어로 이루어져 있다. MVDR과 WPE 알고리즘은 모두 발화를 통째로 처리하는 방식의 배치-모드(batch-mode)로 동작하며, WPE 알고리즘의 선형 예측 파라미터는

,

으로 설정하였다.

뒷 단의 x-벡터 화자 임베딩 모델은 24차원의 MFBE를 입력 받으며, MFBE에 3초 길이의 슬라이딩 윈도우(sliding window)를 이용하여 평균 정규화(mean normalization)을 적용한다. 출력 레이어는 학습 데이터셋 내에 포함되어 있는 발화자 수와 동일한 800개의 유닛을 가지는 소프트맥스(softmax) 레이어이다.

최종적으로 모든 심화신경망 모델의 결합 학습을 진행하기 위해서, 본 실시예에서는 다음과 같이 모든 심화신경망의 학습 과정에서 일부 설정들을 통일하는 방법을 제안한다. 첫 번째로, 프레임 길이와 프레임 이동(shift) 길이를 각각 32 ms와 8 ms로 설정하였다. 이는 음성인식이나 화자인식에서 많이 사용되는 25 ms, 10 ms의 설정과는 달리 주로 빔포밍이나 잔향제거와 같은 전처리 알고리즘에서 많이 사용되는 설정이며, 화자인식 모델에 비해 전처리 알고리즘이 프레임 길이 설정에 더 영향을 크게 받기 때문에 프레임 길이를 전처리에서 많이 사용하는 설정으로 통일한 것이다. 두 번째로, 심화신경망 모델 학습을 위한 미니-배치(mini-batch) 구성 방식을 뒷 단의 x-벡터 모델 학습 방식에 맞춰 통일시켰다. 즉, 하나의 미니-배치(mini-batch)는 다수의 발화로 구성되어 있으며, 각 발화는 동일한 길이를 가지도록 크롭(crop)되어 미니-배치(mini-batch)를 구성하게 된다. 크롭(crop)할 때에는 발화의 길이가 3초에서 8초 사이가 되도록 랜덤하게 크롭(crop)한다. 또한, 학습 단계가 끝나고 평가에 모델을 사용할 때에는 크롭(crop)하지 않고 발화 전체를 그대로 심화신경망에 입력해준다. 세 번째로, 심화신경망 모델 학습에 사용되는 초기 학습률(initial learning rate)과 최종 학습률(final learning rate)을 모든 모델의 학습에 대해 통일시켜주었다.

모든 심화신경망 모델은 아담(Adam) 알고리즘을 이용하여 학습되었으며, 전처리 부분의 심화신경망들은 미니-배치(mini-batch) 크기를 32로 설정하여 40번의 에폭(epoch)동안, x-벡터 모델은 미니-배치(mini-batch) 크기를 64로 설정하여 60번의 에폭(epoch)동안 학습되었다. 초기 학습률은 0.0001로 설정하였으며, 학습 도중에 총 3번을 1/3씩 감소되었다. Dropout은 20%로 설정하였고, 심화신경망 모델의 가중치 행렬에는 l2-regularization을 적용하였다.

결합 학습에는 총 20번의 에폭(epoch)동안 학습을 진행하였으며, 결합 학습에 사용한 초기 학습률은 개별 학습에 사용한 최종 학습률로 설정하였다. 결합 학습에서의 미니-배치(mini-batch) 크기는 64로 설정하였으며, 심화신경망 기반의 MVDR, WPE, x-벡터의 세 모델을 모두 결합 학습하는 경우에만 미니-배치(mini-batch) 크기를 52로 설정하였다. 이는 GPU memory의 크기를 고려하여 설정한 값이다.

학습이 모두 끝나면 x-벡터 모델을 이용하여 화자 임베딩(x-벡터)을 추출할 수 있으며, 학습 데이터셋에서 추출한 x-벡터들을 이용하여 화자 검증 점수를 계산하는 데에 사용되는 PLDA(Probabilistic Linear Discriminant Analysis) 모델을 학습한다. 보다 구체적으로는, 학습 데이터셋에서 추출한 x-벡터들로부터 먼저 global mean x-벡터를 빼서 zero-mean을 갖도록 하고, LDA를 이용하여 512차원의 x-벡터들을 200차원으로 사영시키고, x-벡터의 l2-norm이 1이 되도록 길이 정규화(length normalization)를 수행하고, 이를 이용하여 PLDA 모델의 한 종류인 두 개의 공분산(two-covariance) 모델을 학습한다.

평가를 위해, 평가 데이터셋에 포함된 발화들을 이용하여 60,000개의 타겟 시험(target trial)과 221,850개의 비타겟 시험(nontarget trial)을 구성하였다. 여기서 타겟 시험이란 발화자가 일치하는 두 발화 쌍이며, 비타겟 시험은 발화자가 일치하지 않는 두 발화 쌍이다. 발화자가 일치하는 정도가 높을수록 두 개의 공분산(two-covariance) 모델을 이용하여 계산한 로그 우도비(Log Likelihood Ratio, LLR)가 높은 값으로 나타나며, 발화자가 일치하는 정도가 낮을수록 로그 우도비(LLR)이 낮게 나타난다. 평가에 사용되는 측정(measure)은 동일 오류율(Equal Error Rate, EER)이다.

표 2는 시스템 구성 방법에 따른 EER을 나타낸다.

[표 2]

표 2는 시스템 구성 방법에 따른 동일 오류율(EER)을 비교한 결과이다. 결과를 나타내는 두 개의 세로줄(column) 중에서 왼쪽 세로줄(column)이 모의실험(simulated) RIR에 대한 결과를 나타내고 있다. 표 2에서 아래첨자 DNN은 심화신경망을 활용한 전처리 알고리즘을 의미하며, oracle은 심화신경망으로 추정한 것이 아니라 정답(MVDR의 경우 IBM, WPE의 경우 초기 반향(early reflection) 신호의 LPS)을 사용한 전처리 알고리즘을 의미한다. 또한, iterative는 기존의 일반적인 WPE 알고리즘을 사용하였음을 의미하고, JT는 결합 학습(Joint Training)을 의미한다.

먼저, MVDR 모델을 사용한 경우를 살펴보면, DNN MVDR(MVDR_DNN)과 oracle MVDR(MVDR_oracle)은 각각 전처리를 적용하지 않은 경우(Unprocessed)에 비해 19.0%와 30.1%만큼의 상대적인 EER 감소를 보이고 있으며, 결합 학습(JT)에 의해 DNN MVDR이 6.7%만큼 더 성능이 향상되었음을 알 수 있다.

반면, DNN WPE(WPE_DNN)는 전처리를 적용하지 않은 경우(Unprocessed)에 비해 12%의 상대적인 EER 감소를 나타냈으며, oracle WPE(WPE_oracle)와 iterative WPE(WPE_iterative)보다도 약간 우수한 성능을 나타내었다. 이는 WPE 알고리즘에서 사용한 선형 예측 파라미터들이 최적이 아니거나, LPS 추정을 위한 심화신경망의 목표 (oracle) LPS가 학습 용도의 목표로는 충분히 적합하지만, WPE 알고리즘에 그대로 사용하기에는 충분히 적합하지 않기 때문인 것으로 추측된다. DNN WPE에 결합 학습까지 진행한 경우가 WPE 모델 중에서는 가장 성능이 우수하였으며, 나머지 WPE 모델들에 비해 상당한 성능 향상을 보였다.

MVDR과 WPE의 성능을 비교해보면 MVDR 모델의 성능이 더 우수함을 알 수 있는데, 이는 MVDR 모델은 [수학식 4]에 의해 잡음 성분을 제거하면서 잔향 성분도 어느 정도 제거할 수 있도록 설계한 반면, WPE 알고리즘은 원래 잔향 성분만을 제거하도록 설계된 알고리즘이기 때문에 MVDR을 단독으로 사용한 경우가 WPE를 단독으로 사용한 경우보다 전체적으로 우수한 성능을 보인다. 그러나, WPE는 정답(oracle)을 사용한 경우에도 큰 성능 차이를 보이지 않는 반면, MVDR은 DNN으로 추정한 마스크와 oracle 마스크 사이의 성능 차이가 큰 것으로 보아 WPE가 미스매치(mismatch)에 더욱 강인함을 알 수 있다.

마지막으로 WPE과 MVDR을 모두 사용한 캐스케이드(cascade) 구조(WPE+MVDR)에 대한 결과를 보면, 단독으로 사용한 경우에 비해 DNN과 oracle 모두 상당한 성능 향상을 보임을 알 수 있다. 앞서 분석한 결과에 따르면 캐스케이드 구조에서 DNN과 oracle의 성능 차이는 주로 대부분이 MVDR에서 나타나는 성능 차이 때문인 것으로 보인다. 이와 같은 DNN과 oracle의 성능 차이는 결합 학습을 통해 85.2% 정도까지 극복되었다.

또한, 실제(real) RIR에 대한 실험 결과도 모의실험 RIR에 대한 결과와 유사한 양상을 보이기 때문에, 모의실험 RIR과 실제 RIR에서의 차이를 분석하는 데에 집중하였다. 먼저 MVDR 모델의 성능을 비교해보면, 실제 RIR에서의 성능이 모의실험 RIR에서의 성능보다 상대적으로 23.7%에서 26.5%정도 떨어진 것을 확인할 수 있으며, 성능 하락의 주 원인은 실제 RIR과 모의실험 RIR 사이의 미스매치(mismatch) 때문인 것으로 보인다.

반면, WPE 알고리즘은 실제 RIR에서 평가하였을 때에도 성능 저하가 매우 적음을 알 수 있다. DNN WPE와 iterative WPE는 각각 1.3%와 1.4%의 성능 하락을 보였으며, 결합 학습을 적용한 경우에는 8.2%의 상대적인 성능 하락을 보였다. 결합 학습을 진행한 WPE 모델의 성능 하락이 다른 WPE 모델의 성능 하락보다 상대적으로 큰 이유는 결합 학습 과정에서 뒷 단의 x-벡터 모델까지 모의실험 RIR 환경에 좀 더 피팅(fitting)되었기 때문에, 실제 RIR과의 미스매치(mismatch) 정도가 더 커졌기 때문일 것으로 예상된다. Oracle WPE는 오히려 실제 RIR에서의 성능이 조금 더 향상되었는데, 이는 아마도 실험에서 사용한 실제 RIR의 개수가 너무 적기 때문에 나타난 결과로 보인다. 결과적으로는 WPE 모델 중에서는 결합 학습을 적용한 WPE 모델이 실제 RIR에서도 가장 우수한 성능을 보였으며, 모의실험 RIR에서의 결과와 달리 실제 RIR에서는 단독 MVDR 전처리보다 더욱 우수한 성능을 보였다. 이는 MVDR은 모의실험 RIR과 실제 RIR 사이의 미스매치(mismatch)에 따라 상대적으로 성능이 많이 하락된 반면, WPE는 상대적으로 성능 하락이 매우 적게 나타났기 때문이다.

마지막으로, WPE와 MVDR을 순서대로 적용한 캐스케이드 구조들은 상대적으로 18.6%에서 21.6%의 성능 하락을 보였으며, 앞의 결과로 미루어 보아 이 성능 하락의 주요 원인은 WPE보다는 MVDR 때문에 생긴 것이라고 볼 수 있다. 모의실험 RIR에서의 결과와 유사하게 oracle과 DNN 사이의 성능 격차는 결합 학습을 통해 79.4%만큼 극복되었다.

이상과 같이, 실시예들은 배경잡음과 잔향이 존재하는 환경에서 여러 개의 마이크로폰을 이용하여 수집한 다채널 음성 신호를 이용하여 강인한 화자 검증 시스템을 구성하는 방법에 관한 것이다. 해당 시스템은 앞 단(front-end)의 전처리 모듈과 뒷 단(back-end)의 화자 임베딩 모듈로 구성되어 있다.

실시예들은 배경잡음과 잔향이 존재하는 환경에서 화자 인식을 수행해야 하는 인공지능 스피커, 로봇, 휴대 단말형 사용자 인증 시스템, 뱅킹 콜센터의 사기 방지용 사용자 인증 시스템, 화자 인식 기능이 포함된 스마트폰 애플리케이션 등에 적용되어 화자 인식기의 성능을 향상시킬 수 있으며, 실시예들에 따른 방법을 음성 인식 용도의 음향 모델(acoustic model)과 심화신경망을 활용한 빔포밍 및 잔향제거 기술의 결합 시 동일하게 적용함으로써 음성 인식률의 향상이 가능하다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로폰로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로폰로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터 장치로 구현된 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치에 의해 수행되는 결합 학습 방법에 있어서,
전처리 모듈은 음성 신호를 입력 받아 심화신경망을 활용한 빔포밍 알고리즘 및 잔향제거 알고리즘 중 적어도 어느 하나 이상을 이용하여 잡음 또는 잔향 성분을 제거하도록 학습하는 전처리 단계;
화자 임베딩 모듈은 심화신경망 기반의 화자 임베딩 모델을 사용하여 잡음 또는 잔향 성분이 제거된 상기 음성 신호에서 발화자를 분류하도록 학습하는 화자 임베딩 단계; 및
결합 학습부는 상기 빔포밍 알고리즘 및 잔향제거 알고리즘 중 적어도 어느 하나 이상에 포함되어 있는 심화신경망 모델과 화자 임베딩을 위한 상기 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습하는 단계
를 포함하고,
상기 전처리 모듈은 앞 단(front-end)에 구성되어 잡음 또는 잔향 성분을 제거하도록 학습되며, 상기 화자 임베딩 모듈은 상기 전처리 모듈과 결합되는 뒷 단(back-end)에 구성되어 잡음 또는 잔향 성분이 제거된 상기 음성 신호에서 발화자를 분류하도록 학습되고, 상기 전처리 모듈은 미분 가능한(fully differentiable) 연산인 상기 심화신경망을 활용한 WPE 잔향제거 알고리즘 또는 상기 심화신경망을 활용한 MVDR 빔포머로 이루어져, 상기 뒷 단에 있는 x-벡터 모델로 구성된 상기 화자 임베딩 모듈과 연결시킨 뒤, 상기 앞 단 및 상기 뒷 단에 있는 심화신경망 모델들을 동일한 상기 손실 함수를 이용하여 결합 학습하며,
상기 심화신경망을 활용한 MVDR 빔포머는 스펙트럼 마스크(spectral mask) 기반 MVDR 빔포머로 이루어져, 마이크로폰 채널 각각에 대해 음성 성분과 잡음 성분에 대한 TF 빈(bin)별 스펙트럼 마스크를 심화신경망을 이용하여 추정한 뒤, 추정한 상기 스펙트럼 마스크를 이용하여 음성 성분과 잡음 성분에 대한 PSD(Power Spectral Density) 행렬을 계산하되, 상기 스펙트럼 마스크의 추정을 위한 상기 심화신경망을 학습하기 위해 상기 심화신경망을 통해 추정한 상기 스펙트럼 마스크와 IBM(Ideal Binary Mask) 사이의 바이너리 크로스-엔트로피(binary cross-entropy)을 손실 함수로 하여 상기 심화신경망을 학습하며, 음성 성분과 잡음 성분 신호의 PSD(Power Spectral Density) 행렬을 계산하고 MVDR 이득을 구한 후, 상기 MVDR 이득을 이용하여 빔포밍을 수행하며,
상기 화자 임베딩 단계는,
상기 심화신경망 기반의 화자 임베딩 모델인 x-벡터 모델을 사용하여 임의의 길이를 갖는 발화에서 추출한 음향 특징 열로부터 발화자를 분류하도록 학습하되, 상기 x-벡터 모델의 출력 레이어에서 음성 신호 내의 상기 발화자를 분류하도록 크로스-엔트로피(cross-entropy) 손실 함수를 이용하여 학습하며,
상기 결합 학습하는 단계는,
상기 x-벡터 모델의 출력 레이어에서 정의되는 상기 손실 함수를 이용하여 결합 학습하고,
상기 전처리 단계는,
잡음과 잔향에 의해 열화된 마이크로폰 입력 신호의 STFT(Short-Time Fourier Transform) 계수가 상기 심화신경망을 활용한 빔포밍 알고리즘 또는 잔향제거 알고리즘을 통과하면 잡음 또는 잔향이 제거된 STFT 계수로 변환되며,
상기 화자 임베딩 단계는,
상기 잡음 또는 잔향이 제거된 STFT 계수로부터 MFB(Mel-FilterBank)를 사용하여 상기 심화신경망 기반의 화자 임베딩 모델의 입력으로 사용하기 위한 MFBE(Mel FilterBank Energies) 특징을 추출하고,
상기 결합 학습하는 단계는,
추출된 상기 MFBE 특징을 상기 심화신경망 기반의 화자 임베딩 모델의 입력 레이어에 전달하여 전처리 부분과 화자 임베딩 부분을 연결하고, 결합 학습을 통해 각 발화들의 발화자 ID를 분류하도록 결합 학습을 진행하는 것
을 특징으로 하는, 결합 학습 방법.
삭제
삭제
제1항에 있어서,
상기 전처리 단계는,
심화신경망을 활용한 WPE(Weighted Prediction Error) 잔향제거 알고리즘을 이용하여 입력 받은 음성 신호로부터 잔향 성분을 제거하도록 학습하는 단계; 및
심화신경망을 활용한 MVDR(Minimum Variance Distortionless Response) 빔포머를 이용하여 입력 받은 음성 신호로부터 잡음 성분을 제거하도록 학습하는 단계를 포함하고,
상기 결합 학습하는 단계는,
상기 심화신경망을 활용한 WPE 잔향제거 알고리즘, 상기 심화신경망을 활용한 MVDR 빔포머 및 상기 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습하는 것
을 특징으로 하는, 결합 학습 방법.
삭제
삭제
삭제
삭제
삭제
잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치에 있어서,
음성 신호를 입력 받아 심화신경망을 활용한 빔포밍 알고리즘 및 잔향제거 알고리즘 중 적어도 어느 하나 이상을 이용하여 잡음 또는 잔향 성분을 제거하도록 학습하는 전처리 모듈;
심화신경망 기반의 화자 임베딩 모델을 사용하여 잡음 또는 잔향 성분이 제거된 상기 음성 신호에서 발화자를 분류하도록 학습하는 화자 임베딩 모듈; 및
상기 빔포밍 알고리즘 및 잔향제거 알고리즘 중 적어도 어느 하나 이상에 포함되어 있는 심화신경망 모델과 화자 임베딩을 위한 상기 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습하는 결합 학습부
를 포함하고,
상기 전처리 모듈은 앞 단(front-end)에 구성되어 잡음 또는 잔향 성분을 제거하도록 학습되며, 상기 화자 임베딩 모듈은 상기 전처리 모듈과 결합되는 뒷 단(back-end)에 구성되어 잡음 또는 잔향 성분이 제거된 상기 음성 신호에서 발화자를 분류하도록 학습되고, 상기 전처리 모듈은 미분 가능한(fully differentiable) 연산인 상기 심화신경망을 활용한 WPE 잔향제거 알고리즘 또는 상기 심화신경망을 활용한 MVDR 빔포머로 이루어져, 상기 뒷 단에 있는 x-벡터 모델로 구성된 상기 화자 임베딩 모듈과 연결시킨 뒤, 상기 앞 단 및 상기 뒷 단에 있는 심화신경망 모델들을 동일한 상기 손실 함수를 이용하여 결합 학습하며,
상기 심화신경망을 활용한 MVDR 빔포머는 스펙트럼 마스크(spectral mask) 기반 MVDR 빔포머로 이루어져, 마이크로폰 채널 각각에 대해 음성 성분과 잡음 성분에 대한 TF 빈(bin)별 스펙트럼 마스크를 심화신경망을 이용하여 추정한 뒤, 추정한 상기 스펙트럼 마스크를 이용하여 음성 성분과 잡음 성분에 대한 PSD(Power Spectral Density) 행렬을 계산하되, 상기 스펙트럼 마스크의 추정을 위한 상기 심화신경망을 학습하기 위해 상기 심화신경망을 통해 추정한 상기 스펙트럼 마스크와 IBM(Ideal Binary Mask) 사이의 바이너리 크로스-엔트로피(binary cross-entropy)을 손실 함수로 하여 상기 심화신경망을 학습하며, 음성 성분과 잡음 성분 신호의 PSD(Power Spectral Density) 행렬을 계산하고 MVDR 이득을 구한 후, 상기 MVDR 이득을 이용하여 빔포밍을 수행하며,
상기 화자 임베딩 모듈은,
상기 심화신경망 기반의 화자 임베딩 모델인 x-벡터 모델을 사용하여 임의의 길이를 갖는 발화에서 추출한 음향 특징 열로부터 발화자를 분류하도록 학습하되, 상기 x-벡터 모델의 출력 레이어에서 음성 신호 내의 상기 발화자를 분류하도록 크로스-엔트로피(cross-entropy) 손실 함수를 이용하여 학습하며,
상기 결합 학습부는,
상기 x-벡터 모델의 출력 레이어에서 정의되는 상기 손실 함수를 이용하여 결합 학습하고,
상기 전처리 모듈은,
잡음과 잔향에 의해 열화된 마이크로폰 입력 신호의 STFT(Short-Time Fourier Transform) 계수가 상기 심화신경망을 활용한 빔포밍 알고리즘 또는 잔향제거 알고리즘을 통과하면 잡음 또는 잔향이 제거된 STFT 계수로 변환되며,
상기 화자 임베딩 모듈은,
상기 잡음 또는 잔향이 제거된 STFT 계수로부터 MFB(Mel-FilterBank)를 사용하여 상기 심화신경망 기반의 화자 임베딩 모델의 입력으로 사용하기 위한 MFBE(Mel FilterBank Energies) 특징을 추출하고,
상기 결합 학습부는,
추출된 상기 MFBE 특징을 상기 심화신경망 기반의 화자 임베딩 모델의 입력 레이어에 전달하여 전처리 부분과 화자 임베딩 부분을 연결하고, 결합 학습을 통해 각 발화들의 발화자 ID를 분류하도록 결합 학습을 진행하는 것
을 특징으로 하는, 결합 학습 장치.
삭제
삭제
제10항에 있어서,
상기 전처리 모듈은,
입력 받은 음성 신호로부터 잔향 성분을 제거하도록 학습하는 심화신경망을 활용한 WPE(Weighted Prediction Error) 잔향제거 알고리즘; 및
입력 받은 음성 신호로부터 잡음 성분을 제거하도록 학습하는 심화신경망을 활용한 MVDR(Minimum Variance Distortionless Response) 빔포머를 포함하고,
상기 결합 학습부는,
상기 심화신경망을 활용한 WPE 잔향제거 알고리즘, 상기 심화신경망을 활용한 MVDR 빔포머 및 상기 심화신경망 기반의 화자 임베딩 모델을 연결 후, 손실 함수를 이용하여 결합 학습하는 것
을 특징으로 하는, 결합 학습 장치.
삭제
삭제