KR101862982B1

KR101862982B1 - LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법

Info

Publication number: KR101862982B1
Application number: KR1020170021568A
Authority: KR
Inventors: 김홍국; 이정혁
Original assignee: 국방과학연구소
Priority date: 2017-02-17
Filing date: 2017-02-17
Publication date: 2018-05-30

Abstract

본 발명은 보코더의 음질 개선 기술에 관한 것으로서, 더 상세하게는 음원의 프레임별로 레이블된 유성음과 무성음의 기계 학습을 이용한 보다 정확한 유무성음 판별을 통해 합성 음원의 왜곡을 감쇄하는 유무성음 판별 방법에 대한 것이다.
본 발명에 따르면, 정확히 판별된 유무성음을 통해 합성된 음성의 경우, 합성 소음이 크게 감소하여, 합성 음성에서 보다 높은 음질을 달성할 수 있다.

Description

LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법{Voiced/Unvoiced Decision Method Using Deep Neural Network for Linear Predictive Coding-10e Vocoder}

본 발명은 보코더의 음질 개선 기술에 관한 것으로서, 더 상세하게는 음원의 프레임별로 레이블된 유성음과 무성음의 기계 학습을 이용한 보다 정확한 유무성음 판별을 통해 합성 음원의 왜곡을 감쇄하는 유무성음 판별 방법에 대한 것이다.

보코더는 음성의 특징적인 파라미터를 분석하고 이를 전달하며, 전달된 파라미터를 다시 합성하여 음성을 재조합하는 방식을 통해 비트 전송률 (bitrate) 을 줄이는 기법이다.

LPC(Linear Predictive Coding)-10e 보코더의 특징 파라미터는 음성의 주기성, 에너지, 유무성음, 예측계수 등으로 이루어져있으며, 여기서 유무성음 정보는 음질에 크게 영향을 끼치는 파라미터이다.

기존의 표준 LPC-10e 보코더에서는 각 프레임의 절반 크기의 부프레임 (subframe) 마다 1번, 프레임 당 2번씩 추출된 7가지 특징(feature)을 피셔 선형판별식(Fisher linear discriminative function)의 계수로 적용하는 선형적인 판별법을 통하여 해당 부프레임의 유무성음 여부를 결정한다.

상기된 7가지 특징은 음성의 에너지, 영점 교차율(zero crossing rate), 1차, 2차 반사계수(reflection coefficient), 음성 신호의 증감(gain)으로, 각기 유성음과 무성음 사이에서 크게 차이를 보이는 수치이다.

그러나, 음성의 특성상 선형적인 판별은 정확한 유무성음 판단에 적합하지 않기 때문에 오류가 발생할 확률이 높다는 단점이 있다.

또한, 해당 판별식에서는 유성음을 무성음으로 판별할 시 나타나는 음질의 손상을 줄이기 위하여 판별식을 유성음에 유리하도록 조정하였고, 이로 인해 판별 정확도가 크게 떨어지는 단점이 있다.

또한, 이로 인해 발생하는 합성 소음(synthetic noise)에 의해 음질 역시 크게 감소한다는 단점이 있다.

따라서, 이를 개선하기 위해 보다 정확히 유무성음을 판별할 수 있는 비선형적 판별 기법이 필요하다.

1.한국공개특허번호 제10-2010-0022894호(발명의 명칭: 가우시안 혼합 모델을 이용한 3세대 파트너십 프로젝트2의 선택 모드 보코더를 위한 실시간 유무성음 분류 방법) 2.한국공개특허번호 제10-2013-0095843호(발명의 명칭: 보코더 패킷에 임베딩된 비음성 데이터를 획득하는 방법, 장치, 및 컴퓨터-판독가능 매체)

1. J. P. Campbell and Jr., T. E. Tremain, "Voiced/unvoiced classification of speech with applications to the U.S. Government LPC-10e algorithm," in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, Tokyo, Japan, pp. 473-476, 1986. 2. S. Thomas, M. L. Seltzer, K. Church, and H. Hermansky, "Deep neural network features and semi-supervised training for low resource speech recognition," in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, Vancouver, Canada, pp. 6704-6708, 2013. 3. ITU_T Recommendation P.800, Methods for Objective and Subjective Assessment of Quality, June 1998.

본 발명은 상기된 선형 판별식을 통한 유무성음 판별의 문제점을 해결하기 위한 것으로, 기계학습을 통한 비선형적 판별 방법을 통해 정확한 유무성음 판별을 수행할 수 있는 LPC(Linear Predictive Coding)-10e 보코더에서 깊은 신경망(DNN, deep neural network)을 이용한 유무성음 판별 방법을 제공하는데 그 목적이 있다.

또한, 본 발명은 TIMIT 데이터베이스(DB)에 표시된 음소 레이블을 통하여 유무성음 데이터베이스를 형성하고, 이를 깊은 신경망 (DNN, deep neural network)에 활용하여 개선된 유무성음 판별 모델을 구성할 수 있는 유무성음 판별 방법을 제공하는데 다른 목적이 있다.

본 발명은 위에서 제시된 과제를 달성하기 위해, 기계학습을 통한 비선형적 판별 방법을 통해 정확한 유무성음 판별을 수행할 수 있는 LPC(Linear Predictive Coding)-10e 보코더에서 깊은 신경망(DNN, deep neural network)을 이용한 유무성음 판별 방법을 제공한다.

상기 유무성 판별 방법은,

LPC(Linear Predictive Coding)-10e 보코더에서 DNN을 이용한 유무성음 판별 방법으로서,

(a) TIMIT 데이터베이스(DB)를 이용하여 딥러닝 훈련을 위한 훈련 기준 설정값인 유/무성음 레이블 정보를 생성하는 단계; 및 유/무성음 레이블을 2차원의 판별 기준값으로 결정하는 단계;

(b) 미리 정해진 입력 음원에 대하여 음성 특징 추출부를 통해 제 1 음성 특징값을 추출하고, DNN(deep neural network) 모델의 입력부에 상기 제 1 음성 특징값을, 모델의 출력부에 상기된 2차원의 유/무성음 판별 기준값 정보를 입력하는 단계; 및 입력된 정보를 이용하여 지도 학습(supervised learning)을 통해 DNN(deep neural network) 모델 내부의 가중치(weight)값 및 바이어스(bias)값을 훈련(training)하는 단계;

(c) 임의 입력 음원에 대하여 상기 음성 특징 추출부를 통해 제 2 음성 특징값을 추출하고, 상기 DNN(deep neural network) 모델부가 상기 제 2 음성 특징값을 상기 DNN 모델에 입력하여 2개의 출력값을 산출하는 단계; 및

(d) 상기 DNN 모델부에서 출력된 상기 2개의 출력값을 상기 판별 기준값과 비교하여 유성음 또는 무성음으로 판정하는 단계;를 포함한다.

또한, 상기 2개의 출력값은 확률로 표시되는 것을 특징으로 할 수 있다.

또한, 상기 유/무성음 레이블 정보는 TIMIT 데이터베이스의 포님(phoneme) 정보를 포님 코드 테이블(phoneme code table)의 음소 분류 및 음소별 유/무성음 특성에 따라 포님 정보를 유/무성음 판별 기준값으로 치환하여 생성되는 것을 특징으로 할 수 있다.

또한, 상기 음성 특징값은 7개의 음성 특징값으로 이루어지는 것을 특징으로 할 수 있다.

또한, 상기 (b) 단계는, 입력 레이어가 전후 부프레임 및 현재 부프레임의 연관성을 고려하여 3개의 부프레임에 해당하는 21개의 음성 특징값을 생성하는 단계; 및 상기 음성 특징값과 유/무성음 레이블을 이용한 지도 학습(supervised learning)을 통하여, 은닉층에 존재하는 가중치(weight)값과 바이어스(bias)값을 훈련하는 단계; 를 포함하는 것을 특징으로 할 수 있다.

또한, 상기 2개의 출력값은 소프트맥스(softmax)를 이용하여 확률로 표시되는 것을 특징으로 할 수 있다.

본 발명에 따르면, 정확히 판별된 유무성음을 통해 합성된 음성의 경우, 합성 소음이 크게 감소하여, 합성 음성에서 보다 높은 음질을 달성할 수 있다.

도 1은 일반적인 LPC(Linear Predictive Coding)-10e의 인코더의 구성 블럭도이다.
도 2는 본 발명의 일실시예에 따른 DNN 모델이 적용된 인코더의 구성 블록도이다.
도 3은 본 발명의 일실시예에 따른 유무성음 판별을 위한 딥러닝 훈련 개념을 보여주는 블록도이다.
도 4는 본 발명의 일실시예에 따른 임의 음성 입력에 대한 유무성음 판별 개념을 보여주는 블록도이다.
도 5는 기존 LPC-10e 보코더의 선형 판별 방식과 본 발명의 일실시예에 따른 비선형적 판별방식의 판별 정확도 및 합성된 음성의 음질을 MOS (Mean Opinion Score) 실험을 통해 비교한 도표이다.
도 6은 본 발명의 일실시예에 따른 레퍼런스(reference) 음성의 파형, 레퍼런스(reference) 음성의 유무성음 레이블, 상기 레퍼런스(reference) 음성에 대하여, DNN 모델을 통한 유무성음 판별 결과, 상기 레퍼런스(reference) 음성에 대하여, 표준 LPC-10e 보코더의 유무성음 판별 결과를 통해 두 가지 판별기의 성능을 가시적으로 비교한 도면이다.
도 7은 본 발명의 일실시예에 따른 임의의 입력 음원에 대해 딥러닝 모델을 이용하여 유/무성음을 판별하는 과정을 보여주는 흐름도이다.
도 8은 일반적인 가중치 및 바이어스 개념을 보여주는 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야한다.

각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용한다.

제 1, 제 2등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. "및/또는" 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다.

일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 한다.

이하 첨부된 도면을 참조하여 본 발명의 일실시예에 따른 LPC-10e 보코더에서 DNN(Deep Neural Network)을 이용한 유무성음 판별 방법에 대하여 상세하게 설명하기로 한다.

도 1은 일반적인 LPC(Linear Predictive Coding)-10e의 인코더(100)의 구성 블럭도이다. 도 1을 참조하면, 입력 음원(input speech)은 음원으로부터 선형 예측 계수(LPC: Linear Prediction Coefficient)를 생성하는 LPC 예측부(110) 및 선행 예측 계수로 이루어진 분석 필터(analysis filter)(120)를 통과하여 여기신호(residual)로 형성되며, 해당 여기신호와 입력 음성은 음성 특징 추출(Voicing Feature Extraction)부(140)를 통하여 7개의 음성 특징값을 계산하는데 쓰여진다.

여기서 추출된 7개의 음성 특징값은 각각의 피셔 선형 판별기(170)를 거쳐 유무성음 판별을 내리는 데에 사용된다. 이러한 선형 판별기(170)는 다음 수학식을 통하여 해당 프레임의 유/무성음 여부를 판별한다.

여기서, N개의 파라미터에 대한 M단계의 선형 판별식으로,

와

는 실험적으로 획득된 가중치(weight)이며, p_i는 상기 특징 추출부에서 추출된 음성의 특징값이다. LPC-10e에 적용된 선형 판별식은 N=7에 해당한다. j값은 환경 잡음과 음성 신호의 비 (signal-to-noise ratio, SNR) 에 따라 결정되는 값이다.

이외에도, 선형 예측 계수(LPC)를 인코딩하는 LPC 인코더(160), 여기신호 및 음성 특징값을 이용하여 음성의 피치(pitch: 음조)를 생성하는 피치 예측부(130), 피치를 인코딩하는 피치 인코더(190), 피치 및 음성 특징값을 이용하여 피치의 증감을 예측하는 게인 예측부(150), 게인을 인코딩하는 게인 인코더(180) 등이 구성된다. 인코딩된 LPC, 유무성음 판별, 인코딩된 게인, 인코딩된 피치 등의 정보가 채널(10)로 출력된다.

강조된 블록으로 표시된 피셔 선형 판별기(170)는 일반적인 피셔 선형 판별식을 적용한 판별기를 나타낸다.

도 2는 본 발명의 일실시예에 따른 DNN 모델이 적용된 인코더의 구성 블록도이다. 도 2를 참조하면, 강조된 블록으로 표시된 비선형적 판별기(270)는 기계학습을 적용한 비선형적 판별기를 나타낸다. 이외에, LPC 예측부(210), 분석필터(220), 피치 예측부(230), 음성 특징 추출부(240), 게인 예측부(250), LPC 인코더(260), 게인 인코더(280), 피치 인코더(290)은 도 1에 도시된 구성 블록들과 그 기능 및 역할이 동일하므로 이에 대한 설명은 생략하기로 한다.

도 2를 기반으로, 본 발명의 일실시예에서는 TIMIT 데이터베이스(Database)의 음소 레이블을 유성음 및 무성음으로 치환하고, 유성음과 무성음에 각기 지도 학습(supervised learning)을 위한 판별 기준값을 부여하며, 기존 LPC-10e에서 사용된 7가지 음성 특징을 추출하여 훈련 데이터로 사용하는 방식으로 유무성음 판별 모델을 형성한다.

도 3은 본 발명의 일실시예에 따른 유무성음 판별을 위한 딥러닝 훈련 개념을 보여주는 블록도이다. 부연하면, 도 3은 딥러닝 훈련 과정으로서 유/무성음 판별을 위한 은닉층의 가중치(weight)와 바이어스(bias)값을 훈련하는 개념을 보여준다.

우선, TIMIT 데이터베이스로부터 훈련 목표로 유/무성음 레이블에 지정된 판별 기준값을 입력한다. 이러한 판별 기준값은 DNN 모델 모듈(300)에서 입력된 파라미터가 속한 부프레임의 유성음 및 무성음 여부를 판별하는 기준이 된다. 여기서, V는 Voiced이고, UV는 UnVoiced를 나타낸다. 또한, TIMIT는 텍사스 인스트루먼트(Texas Instrument)사와 MIT 대학이 연합하여 생성한 데이터베이스의 약칭을 나타낸다.

부연하면, TIMIT 데이터베이스의 포님(phoneme) 정보를 포님 코드 테이블 (phoneme code table)에서 주어진 음소별 분류에 따라, 각 분류마다 가진 유/무성음 특징을 통해 유/무성음 레이블(즉 레이블링)로 치환하고, 각 유/무성음 레이블을 훈련 기준값이 될 수 있는 2차원 값인 [0 1]/[1 0]으로 설정한다.

부연하면, 포님 코드 테이블에서, 각 음소는 파열음, 비음, 전이음 등의 여러 가지 분류를 가지며, 각 분류는 유성음 혹은 무성음으로 구분될 수 있다. 이 분류에 따라 각 음소를 유성음 및 무성음으로 구분함으로써 유/무성음 레이블을 획득한다. 각 레이블을 2차원 값으로 지정함으로써, 이를 유/무성음 판단의 기준이 되도록 한다.

이러한 유/무성음 레이블이 설정되면, 음성 데이터(

)(301)가 음성 특징 추출부(도 2의 240)에 입력되어 특징값(

)(311)으로 추출된다. 여기서

과

은 음성이 총

개의 부프레임으로 이루어져 있을 때,

번째 부프레임의 음성 데이터와 특징 값을 나타낸다. 음성 데이터(

)(301)는 훈련을 위해 미리 정해진 입력 음원이다. 도면에서 표시할 때, N번째 값을 중간 값으로 표시하고, M 번째 값을 마지막 값으로 표현하기 때문에 N이 M보다 작게 표현된다.

이때 각 훈련 데이터는 전후 부프레임과 현재 부프레임의 연관성을 고려하여 3개의 부프레임에 해당하는 총 21개의 음성 특징값으로 기계학습의 입력 레이어(input layer)(320)를 구성한다. 부연하면, 해당 음성 특징 값은 도 2의 인코더(200)에 표기된 음성 특징 추출부(270)에서 계산되어 출력된 값으로, 현재 부프레임과, 현재 부프레임의 전후 부프레임에서 출력된 값과 함께 21개의 입력값을 21차원의 입력층에 입력한다.

은닉 레이어(330,340)는 제 1 은닉 레이어(330) 및 제 2 은닉 레이어(340)로 구성된다. 제 1 은닉 레이어(330)은 30차원(D)이고, 제 2 은닉 레이어(340)은 40차원(D)이다. 이러한 은닉 레이어(330,340)에 대한 가중치(weight)와 바이어스(bias)는 21개의 음성 특징값과 유/무성음 레이블 값을 이용한 지도 학습(supervised learning) 방식을 통해 훈련하게 되며, 이로 인해 DNN 모델부(300)의 입력 레이어, 제 1 은닉 레이어, 제 2 은닉 레이어 및 출력 레이어는 훈련된 가중치와 바이어스 값을 가지게 된다.

출력 레이어(output layer)(350)는 소프트맥스(softmax)를 로직 함수(logistic function)로 사용할 수 있으며, 이에 따라 2개의 출력값을 확률값으로 표시한다. 즉, 해당 출력값이 [1 0]에 가까울 경우 유성음, [0 1]에 가까울 경우 무성음으로 취급한다.

마지막으로, 출력값과 판별 비교값 사이의 오차로 인해 나타나는 비용 함수(cost function)의 수치를 최소화하기 위한 방법으로 경사 하강법(gradient descent)을 사용하여 전체적인 가중치(weight)와 바이어스(bias) 값을 최적화하여, 최종적으로 도 4의 DNN 모델(400)과 같은 역할을 할 수 있는 상태로 형성한다.

가중치(W) 및 바이어스(b)의 개념을 보여주는 도면이 도 8에 도시된다. 도 8을 참조하면, 가중치(W)와 바이어스(b) 값은 각각의 노드 간에 가지는 값으로, 특징값이 입력층에 입력되면(x1, x2) 각 개별의 특징값들은 은닉층에 있는 모든 노드들에 대한 각각의 가중치와 곱하여 더해지고 이에 바이어스 값이 더해진다. 이를 표현하면, W₁₂x₁+W₂₂x₂+b₁이다.

은닉층에서 출력층으로 값을 보내 계산하는 과정은 이와 완전히 같다. 이때 출력층에서 주어진 출력값을 0에서 1 사이의 확률값과 유사한 형태로 조절하는 함수(도 8의 사각형 박스)가 softmax이며, 출력값이 2개일 경우 이는 각 출력값의 합이 1이 되도록 하여, 예를 들어 0.3/0.7, 0.5/0.5와 같은 확률값으로 나타난다.

여기에서 유/무성음 레이블을 각기 0/1, 1/0과 같이 지정하고 훈련하였을 경우, 출력값이 0/1에 가까우면 유성음, 1/0에 가까우면 무성음으로 판별하게 된다.

이와 같은 과정을 거친 후, 출력값과 레이블 값의 비용 함수(cost function)를 최소화하는 방향으로 가중치와 바이어스를 최적화 하기 위해 경사 하강법을 사용한다. 여기서 비용 함수는 오차의 크기를 나타내는 함수로, 오차를 어떠한 비용을 나타내는 값으로 치환하기 때문에 이와 같은 표현을 사용한다.

이러한 비용 함수는 가중치와 바이어스에 따라 변화하며, 이러한 변화를 통해 최소의 비용 값을 나타내는 가중치와 바이어스를 찾는 과정이 경사 하강법이다.

도 3을 계속 참조하면, DNN 모델부(300)는 Kaldi DNN 툴키트(toolkit)가 사용될 수 있다.

도 4는 본 발명의 일실시예에 따른 임의 음성 입력에 대한 유무성음 판별 개념을 보여주는 블록도이다. 도 4를 참조하면, 임의 음성 데이터(

) 및 음성 특징값(

)은 임의의 입력 음원에 대하여

번째 부프레임의 음성 데이터와 특징 값을 나타내는 것이다. 임의의 입력 음원에 대하여 음성 특징 추출부(240)에 의해 추출된 음성 특징 값들을 도 3의 딥러닝 훈련에서 취득한 가중치(weight) 및 바이어스(bias)로 구성된 DNN 모델부(300)에 입력하여 유성음 또는 무성음으로 판별을 수행한다.

도 5는 기존 LPC-10e 보코더의 선형 판별 방식과 본 발명의 일실시예에 따른 비선형적 판별방식의 판별 정확도 및 합성된 음성의 음질을 MOS(Mean Opinion Score) 실험을 통해 비교한 도표이다. 도 5에서, Accuracy는 LPC-10e 보코더의 유무성음 판별 정확도와 제안된 DNN 모델의 판별 정확도를 비교한 것으로, 총 3076 부프레임만큼의 판별 내에서 유무성음의 판별이 기준(reference)와 일치하는 비율을 측정한 것이다.

MOS는 음성 관련 연구원 6명을 대상으로, 기존 LPC-10e를 통해 합성된 음성과 제안된 DNN 모델을 거쳐 합성된 음성 각 10개에 대한 MOS Test의 평균 점수이다.

도 5를 계속 참조하면, MOS(Mean Opinion Score) 테스트(Test)를 통해 비교한 도표에서, 선형적 판별방식의 경우, 정확도(%)는 67.62%이고, MOS는 2.000이다. 이와 달리, 비선형적 판별방식의 경우, 정확도(%)는 88.46%이고, MOS는 3.283이다. 위에 비교한 바와 같이, 본 발명의 일실시예에 따른 비선형적 판별방식이 우수함을 알 수 있다.

도 6은 본 발명의 일실시예에 따른 레퍼런스(reference) 음성의 파형, 레퍼런스 음성의 유무성음 레이블, DNN 모델을 통한 유무성음 판별 결과, 표준 LPC-10e 보코더의 유무성음 판별 결과를 통해 두가지 판별기의 성능을 가시적으로 비교한 도면이다. 도 6을 참조하면, 각기 예시로 사용된 레퍼런스 음성 샘플의 파형(610), 레퍼런스 음성 샘플의 유무성음 레이블링(620), DNN 모델을 통한 유무성음 판별 결과(630), LPC-10e의 피셔 선형 판별기를 통한 유무성음 판별 결과(640) 등을 나타낸 것이다.

도 6의 도표에서 가시적으로 드러나듯이, LPC-10e의 선형 판별기의 경우 레퍼런스 유무성음 레이블과 비교하였을 때 많은 구간에서 잘못된 판별 결과를 내는 데에 반하여, DNN 모델을 통한 비선형 판별의 경우, 레퍼런스의 레이블에 보다 유사함을 알 수 있다.

도 7은 본 발명의 일실시예에 따른 임의의 입력 음원을 딥러닝 훈련에 의해 형성된 모델에 입력됨에 따라 이를 확률값으로 표시하는 과정을 보여주는 흐름도이다. 도 7은 도 3에 도시된 딥러닝 훈련에 의해 생성된 딥러닝 모델을 이용하여, 임의의 입력 음원에 대하여 유성음 또는 무성음으로 판정하는 과정을 설명한다. 물론, 이러한 딥러닝 모델이 생성되기 위해서는 도 3에 도시된 과정들이 먼저 진행된다.

도 7을 계속 참조하면, 임의의 음원을 인코더(200)에 입력한다(단계 S710. 이후, 이 임의의 음원에 대한 음성 데이터를 생성하고, 음성 특징 추출부(도 2의 240)를 통해 음성 특징값을 추출한다(단계 S720,S730).

이후, 추출된 음성 특징값을 DNN 모델에 입력하여 2개의 출력값을 산출한다(단계 S740).

최종적으로, 2차원의 출력 레이어(즉, 출력층)에서 2개의 출력값을 통해, 이를 기존 음성 레이블의 기준값과 비교하여 유성음 또는 무성음으로 판별한다(단계 S750).

명세서에 기재된 "…부", "…레이어(층)" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

하드웨어 구현에 있어, 상술한 기능을 수행하기 위해 디자인된 ASIC(application specific integrated circuit), DSP(digital signal processing), PLD(programmable logic device), FPGA(field programmable gate array), 프로세서, 제어기, 마이크로프로세서, 다른 전자 유닛 또는 이들의 조합으로 구현될 수 있다. 소프트웨어 구현에 있어, 상술한 기능을 수행하는 모듈로 구현될 수 있다. 소프트웨어는 메모리 유닛에 저장될 수 있고, 프로세서에 의해 실행된다. 메모리 유닛이나 프로세서는 당업자에게 잘 알려진 다양한 수단을 채용할 수 있다.

10: 채널
100,200: 인코더
110,210: LPC(Linear Predictive Coding) 예측부
120,220: 분석 필터
130,230: 피치 예측부
140,240: 음성 특징 추출부
150,250: 게인 예측부
160,260: LPC 인코더
170: 선형 판별기
180,280: 게인 인코더
190,290: 피치 인코더
270: 비선형적 판별기
300: DNN(deep neural network) 모델부
320: 입력 레이어
330: 제 1 은닉 레이어
340: 제 2 은닉 레이어
350: 출력 레이어

Claims

LPC(Linear Predictive Coding)-10e 보코더에서 DNN을 이용한 유무성음 판별 방법에 있어서,
(a) TIMIT 데이터베이스(DB)를 이용하여 딥러닝 훈련을 위한 훈련 기준 설정값인 유/무성음 레이블 정보와, 이에 대한 판별 기준값을 생성하여 입력하는 단계;
(b) 미리 정해진 입력 음원에 대하여 음성 특징 추출부를 통해 제 1 음성 특징값을 추출하고, 상기 제 1 음성 특징값과 상기 판별 기준값을 DNN(deep neural network) 모델에 입력하여 가중치(weight)와 바이어스(bias)를 훈련하는 단계;
(c) 임의 입력 음원에 대하여 상기 음성 특징 추출부를 통해 제 2 음성 특징값을 추출하고, 상기 DNN(deep neural network) 모델부가 상기 제 2 음성 특징값을 상기 DNN 모델에 입력하여 2개의 출력값을 산출하는 단계; 및
(d) 상기 2개의 출력값을 상기 판별 기준값과 비교하여 상기 임의 입력 음원에 대하여 유성음 또는 무성음으로 판정하는 단계;
를 포함하는 것을 특징으로 하는 LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법.
제 1 항에 있어서,
상기 2개의 출력값이 확률로 표시되는 것을 특징으로 하는 LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법.
제 1 항에 있어서,
상기 유/무성음 레이블 정보는 TIMIT 데이터베이스의 포님(phoneme) 정보를 포님 코드 테이블(phoneme code table)을 통해 유무성음 레이블링으로 치환하며, 각기 판별 기준값을 부여하여 이를 훈련과 판별의 기준값으로 사용하는 것을 특징으로 하는 LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법.
제 1 항에 있어서,
상기 음성 특징값은 7개의 음성 특징값으로 이루어지는 것을 특징으로 하는 LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법.
제 4 항에 있어서,
상기 (b) 단계는,
입력 레이어가 전후 부프레임 및 현재 부프레임의 연관성을 고려하여 3개의 부프레임에 해당하는 21개의 음성 특징값을 생성하는 단계;
은닉 레이어가 상기 음성 특징값을 이용한 지도 학습(supervised learning)을 수행함으로써 모델 내의 가중치(weight)와 바이어스(bias)를 훈련하는 단계; 를 포함하는 것을 특징으로 하는 DNN을 이용한 유무성음 판별 방법.
제 4 항에 있어서,
상기 2개의 출력값이 확률로 표시되는 것을 특징으로 하는 DNN을 이용한 유무성음 판별 방법.