WO2019004592A1

WO2019004592A1 - 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법

Info

Publication number: WO2019004592A1
Application number: PCT/KR2018/005647
Authority: WO
Inventors: 장준혁; 노경진
Original assignee: 한양대학교 산학협력단
Priority date: 2017-06-27
Filing date: 2018-05-17
Publication date: 2019-01-03
Also published as: KR20190001280A; US11238877B2; US20210166705A1; KR102002681B1

Abstract

생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법이 제시된다.　일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법은, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계; 상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계; 및 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계를 포함하여 이루어질 수 있다.

Description

생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법

아래의 실시예들은 음성 대역폭 확장기 및 확장 방법에 관한 것으로, 협대역 음성 신호를 광대역 음성 신호로 확장하여 음성 통화 품질을 향상시키는 기술에 관한 것이다.

기존의 음성 대역폭 확장기 기술은 다양한 기계학습 기법을 기반으로 하여 고주파 대역의 정보를 추정하는 방법들이 시도되어 왔으며, 특히 최근에는 심화 신경망을 이용한 방법들이 많이 시도되고 있다. 　심화 신경망(Deep Neural Network, DNN)은 머신 러닝(machine learning) 기법으로서, 다수의 은닉 층(layer)과 은닉 노드들을 이용하여 입력과 출력 간의 비선형적인 관계를 효과적으로 모델링하는 것이 가능하며, 최근 음성뿐 아니라 다양한 분야에서 뛰어난 성능을 보이고 있는 기술이다.

심화 신경망을 이용한 방법은 크게 두 가지로 나눠지는데, 하나는 기존의 기계학습 분류 모델을 심화 신경망 분류 모델로 단순 대체하는 방법이고, 다른 하나는 심화 신경망 생성 모델을 이용하여 고주파 대역의 성분을 직접적으로 추정하는 방법이다.

심화 신경망 분류 모델을 사용한 경우 기존의 기계학습 분류 모델을 사용했을 때 보다는 성능이 향상되었으나 모든 음성의 특징을 몇 개의 등급으로 나눠서 추정하는 방법에서 오는 추정 성능의 한계점이 있으며, 심화 신경망 생성 모델을 사용한 경우 실제 값을 제대로 추정하지 못하고 추정 값들이 평활화(smoothing)되는 한계점을 보여 왔다. 　이러한 한계점들을 원인으로, 특히 고주파 대역 스펙트럼에 대해 과추정이 발생하는 경우 듣기 싫은 잡음을 발생시키는 문제점이 있다.

한국등록특허 10-0762596호는 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출 방법에 관한 것으로, 신경망 인식 방법을 이용하여 음성 신호를 전처리하는 기술을 기재하고 있다.

실시예들은 음성 대역폭 확장기 및 확장 방법에 관하여 기술하며, 보다 구체적으로　생성적 대립 망을 이용하여 음성 신호의 고주파 대역을 추정하는 음성 대역폭 확장기 및 확장 방법을　제공한다. 　

실시예들은 분류 모델을 진짜 데이터인 광대역 신호와 생성 모델을 통해 고주파 대역을 생성해 낸 가짜 데이터를 구분할 수 있도록 충분히 학습시킨 후에, 분류 모델을 고정시키고 생성 모델이 실제 광대역 신호와 가까운 고주파 대역을 추정하여 분류 모델을 최대한 오분류하게 만들 수 있도록 학습하는 방법으로 생성적 대립 망을 음성 대역폭 확장 방법에 적용하여 향상된 음성 대역폭 확장 방법을 제공하는데 있다.

일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법은, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계; 상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계; 및 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계를 포함하여 이루어질 수 있다.

상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계는, 상기 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력할 수 있다.

학습된 상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 단계를 더 포함할 수 있다.

상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 단계는, 상기 심화 신경망 분류 모델이 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시킬 수 있다.

상기 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계는, 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 상기 심화 신경망 분류 모델을 학습시킬 수 있다.

상기 심화 신경망 생성 모델 또는 상기 심화 신경망 분류 모델은, DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나일 수 있다.

상기 심화 신경망 생성 모델은, 엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 상기 CNN(Convolutional Neural Networks)일 수 있다.

상기 심화 신경망 분류 모델을 상기 실제 광대역 신호의 특징벡터와 상기 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 상기 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 상기 심화 신경망 분류 모델을　고정시키고 상기 심화 신경망 생성 모델이 상기 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 상기 심화 신경망 분류 모델을　오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시킬 수 있다.

다른 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 장치는, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 특징벡터 추출부; 상기 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력하는 생성 모델링부; 및 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 분류 모델링부를 포함하여 이루어질 수 있다.

상기 생성 모델링부는, 학습된 상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델을 재학습시킬 수 있다.

상기 생성 모델링부는, 상기 심화 신경망 분류 모델이 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시킬 수 있다.

상기 분류 모델링부는,　추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 상기 심화 신경망 분류 모델을 학습시킬 수 있다.

실시예들에 따르면 음성 통신 환경에서 코덱 변환이나 전송비트율의 확장 없이 더 넓은 대역폭의 음성을 들을 수 있는 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법을 제공할 수 있다. 　특히, 생성적 대립 망을 이용하여 심화 신경망 기반 생성 모델의 추정 성능을 극대화함으로써 기존 심화 신경망 기반 생성 모델을 이용한 방법의 한계로 인해 발생되는 사람이 듣기 불편한 인위적인 소리의 합성 없이 향상된 음성 통화 품질을 기대할 수 있으며, 나아가서 음성인식기에 적용되어 기존 협대역 코덱을 사용했을 때와 같은 전송속도로 더 높은 수준의 음성인식률을 제공할 수 있다.

도 1은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법을 나타내는 흐름도이다.

도 2는 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 장치를 나타내는 블록도이다.

도 3은 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 학습 방법을 설명하기 위한 도면이다.

도 4는 일 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델(DNN) 구조의 예를 나타내는 도면이다.

도 5는 다른 실시예에 따른 음성 대역폭 확장을 위한 심화 신경망 생성 모델(CNN) 구조의 예를 나타내는 도면이다.

도 6은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장을 위한 심화 신경망 분류 모델의 학습 방법을 설명하기 위한 도면이다.

도 7은 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장을 위한 심화 신경망 생성 모델의 재학습 방법을 설명하기 위한 도면이다.

이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 　그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 　또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 　도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

아래의 실시예들은 음성 대역폭 확장기 및 확장 방법에 관한 것으로, 보다 구체적으로는 생성적 대립 망을 이용하여 음성 신호의 고주파 대역을 추정하는 음성 대역폭 확장기 및 확장 방법에 관한 것이다.

심화 신경망 기반 모델의 한계점을 극복하기 위하여 생성적 대립 망 기법이 도입되었으며, 생성적 대립 망 기법은 특히 심화 신경망 생성 모델에서 향상된 성능을 도출하였다. 　생성적 대립 망 기법은 분류 모델과 생성 모델을 학습시켜 서로 경쟁하게 함으로써 생성 모델의 성능을 극대화 하는 방법이다. 　먼저, 분류 모델을 진짜 데이터와 생성 모델을 통해 생성해 낸 가짜 데이터를 구분할 수 있도록 충분히 학습시킨 후에, 분류 모델을 고정시키고 생성 모델이 분류 모델을 최대한 오분류하게 만들 수 있도록 학습시킬 수 있다.

본 실시예들에서는 FFT(Fast Fourier Transform) 및 STFT(Short Time Fourier Transform) 변환을 이용하는 경우를 예로 들어 설명하나, 이는 실시예에 해당되며, FFT 및 STFT 이외에 ISTFT(Inverse Short Time Fourier Transform), DFT(Discrete Fourier Transform), IDFT(Inverse Discrete Fourier Transform) 변환, IFFT(Inverse Fast Fourier Transform) 변환 등이 이용될 수도 있다.

도 1을 참조하면, 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 방법은, 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계(110), 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계(120), 및 추출된 실제 광대역 신호의 특징벡터와 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계(130)를 포함하여 이루어질 수 있다.

여기에서, 학습된 심화 신경망 분류 모델에서 추정된 광대역 신호의 특징벡터가 실제 광대역 신호의 특징벡터로 오판별되도록 심화 신경망 생성 모델 재학습시키는 단계(140)를 더 포함하여 이루어질 수 있다.

종래에는 심화 신경망 생성 모델을 사용한 경우 실제 값을 제대로 추정하지 못하고 추정 값들이 평활화(smoothing)되는 한계점을 보여 왔다. 　이러한 한계점들을 원인으로, 특히 고주파 대역 스펙트럼에 대해 과추정이 발생하는 경우 듣기 싫은 잡음을 발생시키는 문제점이 있다. 　

실제 값의 분포를 제대로 추정하지 못하는 문제점을 해결하기 위하여, 첫 번째로 광대역 신호(정답)에서 특징벡터를 추출하여 심화 신경망 분류 모델을 학습시킬 수 있다. 　이 때, 특징벡터는 주파수 축의 스펙트럼 또는 스펙트럼에서 추출한 여러 가지 특징벡터가 되거나 시간 축의 광대역 신호 자체도 가능하다. 　

광대역 신호를 이용하여 분류 모델을 충분히 학습(정답 학습) 시킨 후에, 다음으로는 협대역 신호와 광대역 신호를 이용하여 심화 신경망 생성 모델을 학습시켜 협대역 신호를 입력으로 추정된 광대역 신호(오답)를 만들어 낼 수 있는 심화 신경망 생성 모델을 만들어 낼 수 있다. 　심화 신경망 생성 모델이 충분히 학습된 후, 이전에 협대역 신호와 광대역 신호를 이용하여 학습한 심화 신경망 분류 모델을 이번에는 협대역 신호와 추정된 광대역 신호를 이용하여 충분히 학습(오답 학습)시킬 수 있다. 　

마지막으로 정답과 오답을 충분히 학습시킨 심화 신경망 분류 모델은 고정시킨 상태로, 심화 신경망 생성 모델을 이용하여 협대역 신호의 특징벡터를 입력으로 하여 광대역 신호의 특징벡터 추정 성능을 향상시킬 수 있다. 　이 때, 광대역 신호의 특징벡터 추정 성능을 향상시키는 학습은 심화 신경망 분류 모델을 속이고 광대역 신호(정답)로 분류하게 만드는 방향으로 진행될 수 있다.

심화 신경망 분류 모델을 속일 수 있도록 충분히 학습된 심화 신경망 생성 모델 기반의 고주파 대역 특징벡터 추정 성능은 종래의 심화 신경망 생성 모델보다 향상된 추정 성능을 보이게 될 수 있다.

이와 같이, 실시예들은 분류 모델을 진짜 데이터인 광대역 신호와 생성 모델을 통해 고주파 대역을 생성해 낸 가짜 데이터를 구분할 수 있도록 충분히 학습시킨 후에, 분류 모델을 고정시키고 생성 모델이 실제 광대역 신호와 가까운 고주파 대역을 추정하여 분류 모델을 최대한 오분류하게 만들 수 있도록 학습하는 방법으로 생성적 대립 망을 음성 대역폭 확장 방법에 적용하여 향상된 음성 대역폭 확장 방법을 제공할 수 있다.

아래에서는 생성적 대립 망 기반의 음성 대역폭 확장 방법에 대해 하나의 예를 들어 보다 구체적으로 설명한다.

도 1에서 각 단계들(110~140)은 도 2의 구성요소인 특징벡터 추출부(210), 생성 모델링부(220) 및 분류 모델링부(230)에 의해 수행될 수 있다.

도 2에 따르면, 일 실시예에 따른 생성적 대립 망 기반의 음성 대역폭 확장 장치(200)는 특징벡터 추출부(210), 생성 모델링부(220) 및 분류 모델링부(230)를 포함할 수 있다.

단계(110)에서, 특징벡터 추출부(210)는 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출할 수 있다.

이 때, 광대역 신호를 다운샘플링(Down Sampling)하여 협대역 신호를 생성할 수 있으며, 실제 통신 환경에서의 성능 저하를 반영하기 위해 협대역 코덱(Adaptive Multi-Rate(AMR) 또는 Adaptive Multi-Rate Narrowband(AMR-NB))을 이용하여 협대역 신호를 변형시킬 수도 있다.

단계(120)에서, 생성 모델링부(220)는 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정할 수 있다. 　생성 모델링부(220)는 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력할 수 있다.

여기에서, 심화 신경망 생성 모델은 DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나일 수 있다. 　예컨대, 심화 신경망 생성 모델은 엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 CNN(Convolutional Neural Networks)일 수 있다.

단계(130)에서, 분류 모델링부(230)는 추출된 실제 광대역 신호의 특징벡터와 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시킬 수 있다.

여기에서, 심화 신경망 분류 모델은 DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나일 수 있다.

분류 모델링부(230)는 추출된 실제 광대역 신호의 특징벡터와 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 심화 신경망 분류 모델을 학습시킬 수 있다.

단계(140)에서, 생성 모델링부(220)는 학습된 심화 신경망 분류 모델에서 추정된 광대역 신호의 특징벡터가 실제 광대역 신호의 특징벡터로 오판별되도록 심화 신경망 생성 모델 재학습시킬 수 있다.

여기에서, 생성 모델링부(220)는 심화 신경망 분류 모델이 추정된 광대역 신호의 특징벡터가 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시킬 수 있다.

실시예들에 따르면 심화 신경망 분류 모델을 실제 광대역 신호의 특징벡터와 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 심화 신경망 분류 모델을 고정시키고 심화 신경망 생성 모델이 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 심화 신경망 분류 모델을 오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시킬 수 있다.

본 실시예에서 제안하는 생성적 대립 망의 학습 방법은 다음과 같다. 　먼저 협대역 신호의 특징벡터를 이용하여 광대역 신호를 추정할 수 있는 심화 신경망 생성 모델을 학습할 수 있다. 　이 때, 특징벡터는 일반적으로 주파수 축의 특징벡터를 사용하나, 시간 축의 신호를 사용하는 것도 가능하다. 　다음으로 실제 광대역 신호와 심화 신경망 생성 모델을 이용하여 추정된 광대역 신호를 판별할 수 있는 심화 신경망 분류 모델을 충분히 학습할 수 있다. 　심화 신경망 분류 모델이 실제 광대역 신호와 추정된 광대역 신호를 판별 가능하도록 충분히 학습되고 나면, 심화 신경망 생성 모델을 이용하여 추정된 광대역 신호가 심화 신경망 분류 모델을 속이고 실제 광대역 신호로 판별될 수 있도록 심화 신경망 생성 모델을 학습시킬 수 있다. 　

이하에서는 생성적 대립 망 기반의 음성 대역폭 확장 기술에 대해 보다 상세히 설명하기로 한다.

먼저, 특징벡터 추출부(210)는 음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출할 수 있다. 　협대역 신호는 광대역 신호를 다운샘플링(Down Sampling)하여 생성하며, 실제 통신 환경에서의 코덱으로 인한 성능 저하를 반영하기 위해 협대역 코덱을 이용하여 성능 저하를 시킬 수 있다. 　예컨대, 실제 통신 환경에서의 성능 저하를 반영하기 위해 협대역 코덱(Adaptive Multi-Rate(AMR) 또는 Adaptive Multi-Rate Narrowband(AMR-NB))을 이용하여 협대역 신호를 변형시킬 수도 있다.

협대역 신호와 광대역 신호에서 추출할 특징벡터는 시간 축의 음성 신호 자체가 될 수도 있고, 주파수 축의 로그 파워 스펙트럼(Log Power Spectrum, LPS)이 될 수도 있다.

시간 축의 음성 신호를 특징벡터로 사용할 경우, 협대역 음성 신호를 광대역 신호로 업샘플링(Up Sampling)한 후에 일정한 길이의 프레임으로 나눠서 사용할 수 있다. 　예를 들어, 1초 길이의 프레임을 0.5초 길이로 겹치게 나눠서 추출한 후 특징벡터로 사용할 수 있다.

그리고 주파수 축의 로그 파워 스펙트럼을 특징벡터로 사용할 경우, 협대역 음성 신호를 광대역 신호로 업생플링한 후에 일정한 길이의 프레임으로 나눠서 STFT(Short Time Fourier Transform)을 이용하여 주파수 성분의 값을 구할 수 있다. 　

고주파 대역 확장 방법에 주파수 축의 값을 사용할 경우, 주파수 성분 값을 크기와 위상으로 분리하여 크기 값만을 특징벡터로 사용할 수 있다. 　위상 값은 음성 신호의 음질에 크게 영향을 주지 않기 때문에, 위상 값의 일반적인 특성에 따라 협대역의 위상 값을 영점 대칭하여 광대역의 위상 값으로 추정해 사용할 수 있다. 　특징벡터로 사용되는 크기 값은 제곱한 후 로그를 취하여 최종적으로 특징벡터로 사용하게 될 수 있다. 　이는 사람의 청각적 특성을 잘 반영할 수 있는 범위로 값을 변환해 주기 위함이기도 하며, 심화 신경망 생성 모델의 추정 성능을 향상시키기 위함이기도 하다. 　일반적으로 심화 신경망 생성 모델은 값의 범위가 너무 넓을 경우 추정이 잘 되지 않는다.

도 3을 참조하면, 생성 모델링부(220)는 협대역 신호의 특징벡터(301)를 입력으로 광대역 신호의 특징벡터(302)를 추정하는 심화 신경망 생성 모델(310)을 학습시킬 수 있다. 　즉, 생성 모델링부(220)는 협대역 신호의 특징벡터(301)를 심화 신경망 생성 모델(310)에 입력하여 광대역 신호의 특징벡터(302)를 추정할 수 있다. 　여기에서, 추정된 광대역 신호의 특징벡터(302)는 음성 대역폭 확장(Bandwidth Extension,　BWE)이 처리된 신호이다.

이 때, 심화 신경망 생성 모델(310)은 DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 어느 것으로도 설계가 가능하다.

심화 신경망 생성 모델(310)의 비용함수는 평균제곱오차(Mean Squared Error, MSE)를 사용하여, 실제 값과 추정 값의 제곱의 평균이 작아지는 방향으로 학습할 수 있도록 설계할 수 있다.

도 4를 참조하면, 협대역 신호의 특징벡터(401)를 입력으로 광대역 신호의 특징벡터(402)를 추정하는 심화 신경망 생성 모델(410)을 학습할 수 있다. 　여기에서 심화 신경망 생성 모델(410)은 Deep Neural Networks (DNN)이 될 수 있다.

추정된 광대역 신호의 특징벡터(402)는 음성 대역폭 확장(Bandwidth Extension,　BWE)이 처리된 신호이고, 403은 실제 광대역 신호를 의미한다. 　

도 5를 참조하면, 협대역 신호의 특징벡터(501)를 입력으로 광대역 신호의 특징벡터(502)를 추정하는 심화 신경망 생성 모델(510)을 학습할 수 있다. 　여기에서 심화 신경망 생성 모델(510)은 Convolutional Neural Networks (CNN)이 될 수 있다.

다만, CNN으로 심화 신경망 생성 모델(510)을 설계할 경우, 일반적으로 Convolutional Layer, Pooling Layer, Fully Connected Layer로 구성되는 CNN 분류 모델과 달리 컨벌루셔널 레이어(Convolutional Layer)(511)와 디컨벌루셔널 레이어(De-Convolutional Layer)(512)의 대칭 구조를 사용할 수 있다. 　여기에서 컨벌루셔널 레이어(Convolutional Layer)(511)는 엔코딩(Encoding) 역할을 수행하며, 디컨벌루셔널 레이어(De-Convolutional Layer)(512)는 디코딩(Decoding) 역할을 수행할 수 있다.

도 6을 참조하면, 분류 모델링부(230)는 실제 광대역 신호의 특징벡터(601)와 심화 신경망 생성 모델(610)을 이용하여 추정된 광대역 신호의 특징벡터(603)를 잘 판별할 수 있는 심화 신경망 분류 모델(620)을 학습시킬 수 있다. 　추정된 광대역 신호의 특징벡터(603)는 협대역 신호의 특징벡터(602)로부터 음성 대역폭 확장(Bandwidth Extension,　BWE)이 처리된 신호이다.

여기에서, 심화 신경망 생성 모델(610) 또는 심화 신경망 분류 모델(620)은 DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 어느 것으로도 설계가 가능하다.

비용함수는 아래 식과 같이 실제 광대역 신호 x의 분류 결과인 D(x)를 1로, 추정된 광대역 신호 G(z)의 분류 결과인 D(G(z))를 0으로 판별하도록 설계할 수 있다.

[식 1]

여기에서, z는 협대역 신호의 특징벡터이고, x는 실제 광대역 신호의 특징벡터일 수 있다. 　그리고 D(x)는 심화 신경망 분류 모델의 결과를 나타내고, G(z)는 심화 신경망 생성 모델의 결과를 나타낼 수 있다. 　또한, x~p(x), z~p(z)는 데이터의 샘플링을 의미하며 E는 기댓값을 나타낼 수 있다. 　LSGAN은 Least-Square Generative Adversarial Networks를 의미하는 것으로, 심화 신경망 분류 모델이 위의 비용함수를 최소화하도록 모델을 학습시키는 과정이다.

도 7을 참조하면, 생성 모델링부(220)는 학습된 심화 신경망 분류 모델(720)에서 추정된 광대역 신호의 특징벡터(702)가 실제 광대역 신호로 오판별되도록 심화 신경망 생성 모델(710)을 추가 학습시킬 수 있다. 　즉, 생성 모델링부(220)는 학습된 심화 신경망 분류 모델(720)에서 추정된 광대역 신호의 특징벡터(702)가 실제 광대역 신호로 오판별되도록 심화 신경망 생성 모델(710)을 재학습시킬 수 있다.

이 때, 생성 모델링부(220)는 심화 신경망 분류 모델(720)은 업데이트 하지 않고 고정된 상태이며, 오직 심화 신경망 생성 모델(710)만 심화 신경망 분류 모델(720)을 속일 수 있는 방향으로 학습시킬 수 있다. 　

비용함수는 아래와 같이 G(z)의 분류 결과인 D(G(z))가 1에 가까운 값을 가지도록 설계할 수 있다.

[식 2]

여기에서, z는 협대역 신호의 특징벡터이고, x는 실제 광대역 신호의 특징벡터일 수 있다. 　그리고 D(x)는 심화 신경망 분류 모델의 결과를 나타내고, G(z)는 심화 신경망 생성 모델의 결과를 나타낼 수 있다. 　또한, x~p(x), z~p(z)는 데이터의 샘플링을 의미하며 E는 기댓값을 나타낼 수 있다. 　LSGAN은 Least-Square Generative Adversarial Networks를 의미하는 것으로, 심화 신경망 생성 모델의 결과가 심화 신경망 분류 모델에서 실제 광대역 신호로 판별되어 위의 비용함수가 최소화되도록 모델을 학습시키는 과정이다.

아래에서는 고주파 대역 확장 방법의 평가 방법을 설명한다.

고주파 대역 확장 방법의 주요 평가 방법으로는 MOS(Mean Opinion Score)가 있다. 　실제 목표 신호인 광대역 신호를 비롯하여, 광대역 코덱 기반의 광대역 음성 신호, 협대역 코덱 기반의 협대역 음성 신호, 레퍼런스(Reference) 고주파 대역 확장 방법, 제안하는 고주파 대역 확장 방법을 듣고 평가하는 방식이다. 　MOS 평가는 크게 ACR(Absolute Category Rating), DCR(Degradation Category Rating) 방식으로 나눌 수 있는데, ACR은 소리를 한번 듣고 1~5점의 점수로 소리가 얼마나 좋게 들리는지 평가하는 방법이며, DCR은 광대역 음성 신호 (5점)를 한 번 듣고, 평가할 소리를 듣고 광대역 신호에 비해 소리가 얼마나 좋지 않은지 1~5점의 점수로 평가하는 방법이다.

표 1은 일 실시예에 따른 음성 대역폭 확장 방법 주관적 평가 방법(MOS)의 예를 나타낸다.

표 1에서, MOS 측정 결과 조용한 환경(Clean)에서는 일 실시예에 따른 기술(BWE-GAN)이 종래 고주파 대역 확장 기술(Ref-BWE)보다 약 0.21점, 노이즈 환경(Babble)에서는 약 0.22점이 상승하였으며, 전체 데이터 상으로는 상승하는 것을 확인할 수 있다.

고주파 대역 확장 방법의 보조 평가 방법으로는 PESQ(Perceptual Evaluation of Speech Quality)가 있다. 　이 방법은 객관적 평가 방법으로, 알고리즘에 음성 신호를 입력하여 점수로 평가하는 방법이다. 　예컨대, 알고리즘에 음성 신호를 입력하여 -0.5~4.5의 점수로 평가할 수 있다. 　객관적 평가 방법으로 얻은 점수는 고주파 대역 확장 방법에 있어서 점수와 음질이 비례하지 않는 경향을 보여 보조적인 평가 방법으로 사용되고 있으며, PESQ 이외에 Segmental SNR 등이 사용될 수 있다.

표 2는 일 실시예에 따른 음성 대역폭 확장 방법 객관적 평가 방법(PESQ)의 예를 나타낸다.

표 2에서, PESQ 측정 결과 조용한 환경(Clean)에서는 일 실시예에 따른 기술(BWE-GAN)이 종래 고주파 대역 확장 기술(Ref-BWE)보다 약 0.24점, 노이즈 환경(Babble)에서는 약 0.13점이 상승하였으며, 전체 데이터 상으로는 상승하는 것을 확인할 수 있다.

이와 같이, 실시예들에 따르면 음성대역폭 확장기 및 확장 방법을 사용하여, 음성 통신 환경에서 코덱 변환이나 전송비트율의 확장 없이 더 넓은 대역폭의 음성을 들을 수 있다. 　특히, 생성적 대립 망을 이용하여 심화 신경망 기반 생성 모델의 추정 성능을 극대화함으로써 기존 심화 신경망 기반 생성 모델을 이용한 방법의 한계로 인해 발생되는 사람이 듣기 불편한 인위적인 소리의 합성 없이 향상된 음성 통화 품질을 기대할 수 있으며, 나아가서 음성인식기에 적용되어 기존 협대역 코덱을 사용했을 때와 같은 전송속도로 더 높은 수준의 음성인식률을 제공할 수 있다.

이러한 본 실시예에 따른 기술은 유무선 음성통신 단말기, 인터넷 망 음성통화 서비스, 모바일 인터넷 망 음성통화 서비스, 음성인식 어플리케이션, 스마트폰 블루투스 통신 시스템, 음성 향상 시스템, 무선 통신 시스템 등에 적용 가능하다. 　

또한, 기존에 협대역 통신망을 사용하는 유무선전화기, 스마트폰, VoIP 등의 통신 시스템에 적용되어 통화 음성 품질을 향상시킬 수 있으며, 또한 서버 기반의 음성인식기에서 음성 대역폭의 확장을 통한 음성인식률 향상이 가능하다. 　더욱이, 협대역 통신망 기반의 유무선전화기, 스마트폰, VoIP, 블루투스 음성 송수신 시스템, 음성인식기가 필요한 스마트폰 어플리케이션에 적용 가능하다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 　예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 　처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 　또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 　이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 　예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 　또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 　소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 　소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 　소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 　상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 　상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 　컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 　프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 　

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 　예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 단계;

상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계; 및

추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계

를 포함하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
제1항에 있어서,

상기 협대역 신호의 특징벡터로부터 광대역 신호의 특징벡터를 추정하는 단계는,

상기 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력하는 것

을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
제2항에 있어서,

학습된 상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 단계

를 더 포함하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
제3항에 있어서,

상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 단계는,

상기 심화 신경망 분류 모델이 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시키는 것

을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
제1항에 있어서,

상기 추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 단계는, 　

추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 상기 심화 신경망 분류 모델을 학습시키는 것

을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
제1항 또는 제2항에 있어서,

상기 심화 신경망 생성 모델 또는 상기 심화 신경망 분류 모델은,

DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나인 것

을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
제6항에 있어서,

상기 심화 신경망 생성 모델은,

엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 상기 CNN(Convolutional Neural Networks)인 것

을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
제2항에 있어서,

상기 심화 신경망 분류 모델을 상기 실제 광대역 신호의 특징벡터와 상기 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 상기 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 상기 심화 신경망 분류 모델을　고정시키고 상기 심화 신경망 생성 모델이 상기 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 상기 심화 신경망 분류 모델을　오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시키는 것

을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 방법.
음성의 협대역(Narrowband, NB) 신호와 광대역(Wideband, WB) 신호에서 특징벡터를 추출하는 특징벡터 추출부;

상기 협대역 신호의 특징벡터를 입력으로 심화 신경망 생성 모델을 학습시켜 추정된 광대역 신호의 특징벡터를 출력하는 생성 모델링부; 및

추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별하는 심화 신경망 분류 모델을 학습시키는 분류 모델링부

를 포함하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
제9항에 있어서,

상기 생성 모델링부는,

학습된 상기 심화 신경망 분류 모델에서 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별되도록 상기 심화 신경망 생성 모델 재학습시키는 것

을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
제10항에 있어서,

상기 생성 모델링부는,

상기 심화 신경망 분류 모델이 상기 추정된 광대역 신호의 특징벡터가 상기 실제 광대역 신호의 특징벡터로 오판별하는 것을 목적으로 비용함수를 설계하여 학습시키는 것

을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
제10항에 있어서,

상기 분류 모델링부는,　

추출된 실제 상기 광대역 신호의 특징벡터와 상기 협대역 신호의 특징벡터로부터 추정된 광대역 신호의 특징벡터를 판별할 수 있도록 비용함수를 설계하여 상기 심화 신경망 분류 모델을 학습시키는 것

을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
제10항에 있어서,

상기 심화 신경망 생성 모델 또는 상기 심화 신경망 분류 모델은,

DNN(Deep Neural Networks), CNN(Convolutional Neural Networks), RNN(Recurrent Neural Networks) 및 LSTM(Long-Short Term Memory) 중 적어도 어느 하나인 것

을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
제13항에 있어서,

상기 심화 신경망 생성 모델은,

엔코딩(Encoding) 역할을 수행하는 컨벌루셔널 레이어(Convolutional Layer)와 디코딩(Decoding) 역할을 수행하는 디컨벌루셔널 레이어(De-Convolutional Layer)의 대칭 구조의 상기 CNN(Convolutional Neural Networks)인 것

을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.
제10항에 있어서,

상기 심화 신경망 분류 모델을 상기 실제 광대역 신호의 특징벡터와 상기 심화 신경망 생성 모델을 통해 고주파 대역을 생성해 낸 상기 추정된 광대역 신호의 특징벡터를 구분할 수 있도록 충분히 학습시킨 후, 상기 심화 신경망 분류 모델을　고정시키고 상기 심화 신경망 생성 모델이 상기 실제 광대역 신호의 특징벡터와 가까운 고주파 대역을 추정하여 상기 심화 신경망 분류 모델을　오분류하도록 학습시키는 생성적 대립 망을 통해 음성 대역폭을 확장시키는 것

을 특징으로 하는 생성적 대립 망 기반의 음성 대역폭 확장 장치.