KR100422266B1

KR100422266B1 - 음성신호로부터의특성값도출방법

Info

Publication number: KR100422266B1
Application number: KR1019970015176A
Authority: KR
Inventors: 루츠 벨링; 헤르만 나이
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 1996-04-23
Filing date: 1997-04-23
Publication date: 2004-08-04
Also published as: EP0803861B1; KR970071463A; EP0803861A3; DE59709419D1; JPH1069296A; EP0803861A2; US6041296A; CN1120468C; CN1167308A; DE19616103A1

Abstract

목소리 출력을 위해 종종 사용되는 음성 합성에서 여기 신호(excitation signal)가 다수의 공명기(resonator)로 인가되고 이 공명기의 주파수와 진폭은 생성된 사운드에 따라 조정된다. 공명기를 조정하기 위한 이들 파라메터는 자연음 신호에서 얻어질 것이다. 자연음 신호에서 얻어진 이러한 파라메터는 또한 음성 인식에서 사용될 것인데, 음성 인식에서 이들 파라메터 값은 비교값(comparison value)과 비교된다. 본 발명에 의하면, 파라메터, 특히 포르만트 주파수는 분리된 주파수를 통해 전력 밀도 스펙트럼을 형성함으로서 결정되고, 상기 분리된 주파수로부터 전력 밀도 스펙트럼의 연속 주파수 세그먼트에 대한 자동상관 계수가 형성되고 이것으로 에러값이 차례로 형성되며, 한편 에러 값의 합은 전체 세그먼트에 걸쳐서 최소화되고 세그먼트의 최적의 경계 주파수는 이 최소값에서 결정된다. 자동상관 계수를 통해, LPC 예측자 계수가 계산될 수 있고, 상기 계수로부터 포르만트 주파수가 계산된다. 개개의 세그먼트에 대한 에러 합의 최소값은 동적 프로그래밍에 의해 발견되는데, 여기에서 보조값은 전력 밀도 스펙트럼에서 초기에 계산되고 테이블로서 저장되며 동적 프로그래밍 처리의 계산에서 요구되는 개개의 주파수 세그먼트에 대한 자동상관 계수가 이 테이블로부터 쉽게 결정된다.

Description

음성 신호로부터의 특성값 도출 방법

본 발명은 일반적으로 음성 신호 처리 분야에 관한 것으로, 특히 음성 인식 및 음성 출력에 관한 것이다.

음성 출력에서, 자연음(natural speech)으로 발음된 표현과 아주 닮은 음성신호를 시간 순서적으로 발생시키는 개개의 짧은 음성 세그먼트(speech segment)들이 생성된다. 개개의 음성 세그먼트들을 생성하기 위해, 음성 세그먼트를 가능하면 정확하게 모델링하는 파라메터들을 최소로 사용하는 것이 바람직하다. 이들 파라메터는 상이한 사운드를 생성하는 일반적으로 상이한 대역폭의 상이한 공명 주파수를갖는 자연음 트랙에 기초한다. 음성 신호에서 상이한 공명 주파수는 포르만트 주파수(formant frequencies)로 불리는데, 이들의 지시(indication) 및 대역폭은 상이한 사운드를 생성하는데 충분하다. 이들 파라메터는 유리하게는 자연음 신호로부터 얻어질 수 있다.

그러나, 자연음 신호에서 이들 파라메터를 얻는 것은 음성 인식에서도 또한 사용될 것이다. 이 경우에, 음성 신호는 짧은 기간들로 분할되고, 각 기간에서 특성 값들이 도출되어 소정의 사운드에 대응하는 기준 값들과 비교된다. 상기 비교의 결과를 더 처리함으로서, 어떤 표현이 가장 가능성 있게 발음되었는지가 거의 결정될 수 있다. 예를 들면 상기 특성 값들은 연속적인 주파수 세그먼트의 에너지일 수도 있다. 그러나, 포르만트 주파수가 특성값으로서 사용될 때 양호한 결과가 얻어질 수 있다. 이들 주파수와 관련하여, 인식에 사용되는 기준 값에서 실제로 발음된 표현들의 대다수의 일탈(deviation)들이 더 잘 고려될 수 있다.

본 발명의 목적은 포르만트 주파수 또는 이들 포르만트 주파수를 나타내는 특성값들이 신뢰가능한 방식 및 비교적 적은 횟수의 계산으로 음성 신호로부터 결정될 수 있어 본질적으로 실시간 처리가 가능한 방법을 제공하는데 있다.

본 발명에 의하면, 상기 목적은 전력 밀도 스펙트럼(power density spectrum)이 음성 신호의 연속적인 기간의 이산적 주파수들을 통해 초기에 형성된다는 점에서 달성된다. 전력 밀도 스펙트럼의 미리 정해진 제 1의 수의 연속 세그먼트들에 대해서, 처음 세 개의 자동상관 계수(autocorrelation coefficient)들이각각의 상기 기간에 형성된다. 이 목적을 위해, 세그먼트들의 수에 대응하는 다수의 포르만트 주파수들을 갖는 모델 기능에 의해서 근사치에 대해 최적인 세그먼트들의 경계 주파수들이 결정되어야 한다. 경계 주파수의 이러한 결정에 대해, 에러값이 각 세그먼트에 대한 자동상관 계수들로부터 형성되고, 모든 세그먼트들의 에러값들이 합산되고, 자동상관 계수 및 에러값의 형성은 에러값과 그와 관련된 최적의 경계 주파수들의 합의 최소값이 결정될 때까지 세그먼트들 간의 상이한 경계 주파수들에 대해서 반복된다. 최종적으로, 각 세그먼트에 대해 최적의 경계 주파수들을 갖는 세그먼트들의 자동상관 계수들로부터 적어도 하나의 특성값이 도출된다. 이들 값들은 자동상관 계수들로부터 직접 결정될 수 있는 예측 계수(prediction coefficeint)들, 또는 예측 계수들로부터 명백하게 다시 결과로 얻어지는 대역폭 및 공명 주파수일 수도 있다.

전력 밀도 스펙트럼의 소정의 주파수 세그먼트에 대한 자동상관 계수의 직접적인 형성은 약간의 계산을 필요로 한다. 본 발명의 실시예에 따르면, 이러한 자동상관 계수를 전력 밀도 스펙트럼으로부터 형성하는 보다 더 간단한 모드가 각 기간에 대한 전력 밀도 스펙트럼에서 보조값(auxiliary value)들의 그룹을 결정하고, 상기 보조값은 최저 주파수에서 소정의 더 높은 주파수까지의 자동 상관계수를 나타낸다. 이들 보조값은 테이블에 저장되고 각각의 더 높은 주파수와 연관된다. 다음으로 소정의 주파수 세그먼트에 대한 자동상관 계수는 테이블내의 두 값 사이의 차로부터 결정된다. 나중의 프로세스는 단지 간단한 계산만을 필요로 하지만, 테이블은 경계지어진 계산 시간을 갖는 각 기간에 단 한번으로 결정된다.

에러 값들의 합이 최소가 되는 최적의 경계 주파수는 본질적으로 동적 프로그래밍(dynamic programming)의 원리에 따라 결정된다. 이 목적을 위해, 최저 주파수에서 더 높은 주파수까지의 주파수 세그먼트를 소정 수의 세그먼트로 최적으로 분할하는 것에 대한 에러를 나타내는 추가적인 보조값이 사용된다. 연속적이고 더 높은 주파수들은 두개의 주파수 인터벌로 세분되고, 인터벌 경계는 계단식으로 모든 주파수를 취하며, 이 보조값이 세그먼트의 이전의 경계에서 얻어진 보조값과 인터벌 경계와 순간적인 더 높은 주파수(instantaneous higher frequency) 간의 영역에 대한 에러값의 합보다 더 크면, 새로운 에러 값이 이 합의 값에 설정되고 관련된 인터벌 경계는 동시에 저장된다. 이것이 최대 주파수까지의 모든 더 높은 주파수에 대해 영향을 미치면, 절대적이고 최적인 세그먼트 경계가 역추적(traceback)에 의해 얻어진다.

도 1은 최소 에러합을 갖는 세그먼트에 대한 최적의 경계 주파수를 결정하는 전체적인 순서도.

※ 도면의 주요 부분에 대한 부호의 설명 ※

α_kβ_k: 예측자 계수 φ_k: 포르만트 주파수

ω_k-1및 ω_k: 경계 주파수 T(n,i) : 보조값

수학적으로, 본 발명에 따른 방법은 다음과 같이 진행한다.

시작 위치는 예측자 계수들(α_k, β_k)을 갖는 LPC 예측자 다항식(predictor polynomial)

이고, 상기 식에서 포르만트 주파수(φ_k)는 다음과 같이 주어진다.

다수(K)의 포르만트 주파수들을 결정하기 위해서, 주파수 스펙트럼은 K 세그먼트로 분할되어야 하고, 여기에서 세그먼트에 대한 경계 주파수는 소정의 짧은 시간의 전력 밀도 스펙트럼 │s(e^jw)│²에 대해서 에러가 최소가 되는 방식으로 선택되어야 한다. 『L. Rabiner, R.-W. Schafer의 "Digital Processing of Speech Signals", Prentice Hall, Englewood Cliffs, NJ, 1978』에 따르면, 최소 에러값은 다음 식을 유도한다.

이 식에서, r_k(n)는 n=0, 1, 2의 경우에 세그먼트 k의 자동상관 계수이다. 이들 자동상관 계수들은 음성 신호의 전력 밀도 스펙트럼에서 계산될 수 있다. 경계 주파수 ω_k-1및 ω_k를 갖는 세그먼트에 대한 최소 에러값은 다음 식으로 표현될 수 있다.

모든 세그먼트들에 대한 최적의 경계 주파수들을 결정하기 위해서, 모든 세그먼트들에 대한 에러값들의 합은 최소가 되어야 한다. 이 최소값을 계산하기 위해서, 자동상관 계수들은 전력 밀도 스펙트럼의 상이한 주파수 세그먼트들을 위해 사용되어야 한다. 이 계산을 간단히 하기 위해서, 보조값 T(n,i)가 도입된다.

여기서 이산적 주파수들의 시퀀스로서 n=0,1,2, i=0,1,2 ..., 2I이다.

따라서 이 보조값은 주파수 i를 독립적 값으로서 갖는 테이블의 형태에 저장되는 값들의 그룹을 형성한다. 단일 세그먼트에 대한 자동상관 계수는 테이블내의 두 값 사이의 차에 의해 이 테이블로부터 결정될 수 있다

두 테이블의 값의 사용과 이들 차의 형성은 아주 짧은 시간만을 필요로 하므로 최소 에러 합의 결정은 그에 의해 크게 영향 받지 않는다.

최소 에러합은 본질적으로 동적 프로그래밍의 원칙에 따라 결정된다. 이 목적을 위해, 보조값 F(k,i)이 도입되는데, 이것은 1에서 i까지의 주파수 인터벌을 k세그먼트로의 최적 분할에 대한 에러를 나타낸다. 1에서 i까지의 주파수 인터벌을, 1에서 j까지와 j+1에서 i까지의 두 주파수 인터벌로 세분하는 것으로 인해, 보조값 F(k,i)이 일종의 에러값을 나타내고 최소화되는 것을 고려하면, 동적 프로그래밍의 다음과 같은 순환 관계가 얻어진다.

상기 관계는 1에서 i의 주파수 인터벌을 k 세그먼트로 세분하는 것을 결정하기 위해서 1에서 j의 주파수 인터벌의 (k-1) 세그먼트로의 최상의 분할이 사용됨을 나타낸다.

동적 프로그래밍을 이용해서, 최소 에러합을 갖는 세그먼트에 대한 최적의 경계 주파수를 결정하는 전체적인 순서는 도 1에 도시되어 있다. 이 절차는 시간의미리 정해진 기간에 대해 음성 신호로부터 전력 밀도 스펙트럼을 결정하고 상이한 주파수 세그먼트에 대해 자동상관 계수를 결정하는 상기 언급된 테이블에 대한 값을 계산한 후에 시작하고, 도 1에서 나타내어진 경계 내에서 j 및 i의 상이한 값들에 대한 각각의 에러값들 E_min(j+1,i)의 결정을 최초에 포함한다. 최소 에러값의 이 결정은 α_k ^opt및 β_k ^opt가 r_k(n)만으로 표현되는 앞서 나타내어진 관계에 의해 실현되고, 저장되는 값들의 매트릭스를 생성한다. 주파수(i), 세그먼트(k) 및 세분 주파수 j를 통한 그 다음 루프에서는, 보조값 F(k,i)은, 역방향(backward) 표시자(indicator) B(k,i))가 매번 저장되는 동안, 인터벌 경계 j까지의 이전 세그먼트에 대한 보조값과, 인터벌의 나머지 부분에 대한 에러값의 합 보다 클 때 항상 대체된다. 최고 주파수 I까지의 모든 루프가 다 실행되면, 각 세그먼트에 대한 최적의 경계 주파수는 이들 역방향 표시자의 역추적에 의해 판독되고, 예측 계수 α_k, 및 β_k는 이들 최적의 경계 주파수에 대한 자동상관 계수로부터 계산되고, 이것으로부터 개개의 세그먼트에 대한 포르만트 주파수가 계산될 수 있다.

포르만트 주파수들의 시간 시퀀스들이 음성 신호로부터 얻어지도록 이 절차가 시간의 연속적인 기간들중 각 기간에 대해 반복되어야 하는 것은 명백하다.

본 발명에 따르면, 포르만트 주파수 또는 이들 포르만트 주파수를 나타내는 특성값들이 신뢰가능한 방식 및 비교적 적은 횟수의 계산으로 음성 신호로부터 결정될 수 있어 본질적으로 실시간 처리가 가능한 방법이 제공된다

Claims

음성 신호로부터 특성값들을 도출해내는 방법에 있어서,

상기 음성 신호의 시간의 기간들의 이산적 주파수들을 통해 전력 밀도 스펙트럼을 형성하는 단계와;

상기 전력 밀도 스펙트럼의 미리 정해진 제 1 수(K)의 연속 세그먼트들에 대해 제 1의 세 개의 자동상관 계수들을 형성하는 단계와;

각 세그먼트에 대한 자동상관 계수들로부터 에러값을 형성하고 모든 세그먼트들의 에러값들을 합산하는 단계와;

상기 세그먼트들 사이의 상이한 경계들에 대한 자동상관 계수들 및 에러값들의 형성을 반복하고 상기 에러값들의 합이 최소치를 갖는 최적 경계 주파수들을 결정하는 단계와;

상기 최적 경계 주파수들의 세그먼트들의 자동상관 계수들로부터 적어도 각 세그먼트에 대한 특성값을 도출하는 단계를 포함하는, 음성 신호로부터의 특성값 도출 방법.
제 1 항에 있어서,

시간의 각 기간에 대해서, 최저 주파수에서 연속의 더 높은 주파수까지 시작하는 전력 밀도 스펙트럼의 일부분에 대한 보조값들의 수가 결정되어 테이블로서 저장되고, 상기 자동상관 계수들은 동적 프로그램밍 동안 상기 테이블내의 값들 사이의 차들로부터 결정되는, 음성 신호로부터의 특성값 도출 방법.
제 1 항 또는 제 2 항에 있어서,

상기 에러값들의 합의 최소값은 동적 프로그래밍의 방법에 따라 결정되고, 상기 동적 프로그래밍에서 두 세그먼트들로의 최적의 분할은, 최저의 주파수로부터 연속적 주파수들중 실제적인 한 주파수까지 세그먼트를 분할하는 최소 에러를 나타내는 동적 보조값을 이용함으로써 연속하는 이산적 주파수들에 대해서 연속적으로 결정되고 최저 및 실제 주파수 사이의 상이한 경계 주파수들에 대해서 이 경계 주파수에 대한 보조값과 경계 주파수와 실제 주파수 사이의 세그먼트에 새한 에러값의 합의 최소값이 결정되며, 이 합은 새로운 보조값으로서 이용되는, 음성 신호로부터의 특성값 도출 방법.