KR100578265B1

KR100578265B1 - 개선된 고조파 스피치 인코더를 갖는 송신기

Info

Publication number: KR100578265B1
Application number: KR1019997002060A
Authority: KR
Inventors: 타오리라케스; 슬루이즈터로베르트요한네스; 게르리트스안드레아스요한네스
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 1997-07-11
Filing date: 1998-06-05
Publication date: 2006-05-11
Also published as: JP2001500284A; EP1002312B1; WO1999003095A1; CN1231050A; EP1002312A1; DE69836081D1; KR20010029497A; US6078879A

Abstract

고조파 스피치 인코더(16)에 있어서, 인코딩될 스피치 신호는 피치값, 이득값, LPC 파라미터 컴퓨터(30)에 의해 결정되는 복수의 LPC 파라미터에 의해 표현된다. 스피치 인코더는 거친 피치를 결정하기 위한 (거친) 피치 추정기, 거친 피치값으로부터 정련된 피치를 결정하기 위하여 정련된 피치 컴퓨터(32)를 포함한다. 정련된 피치값의 이러한 결정은 합성 방법에 의한 분석 방식으로 행해지는데, 선택된 정련된 피치값은 원래의 스피치 신호의 표현과 합성 스피치 신호의 표현 사이의 최저 에러 측정이 된다.

스피치 디코더, 유성음 디코더, 무성음 디코더, 송신기, 송신 수단, 수신 수단

Description

개선된 고조파 스피치 인코더를 갖는 송신기{Transmitter with an improved harmonic speech encoder}

본 발명은 스피치 인코더를 갖는 송신기에 관한 것으로서, 상기 스피치 인코더는 스피치 신호로부터 복수의 선형 예측 계수들(linear prediction coefficients)을 결정하기 위한 분석 수단을 포함하고, 상기 분석 수단은 상기 스피치 신호의 기본 주파수를 결정하기 위한 피치(pitch) 결정 수단을 포함하고, 상기 분석 수단은 또한 상기 기본 주파수 및 상기 복수의 선형 예측 계수들로부터 상기 스피치 신호를 표현하는 복수의 고조파 관련 사인 신호(harmonically related sinusoidal signal)들의 주파수 및 진폭을 결정하기 위해 배열된다.

또한, 본 발명은 스피치 인코더, 스피치 인코딩 방법 및 상기 방법을 구현하는 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 기록 매체에 관한 것이다.

서두에 따른 송신기는 유럽 특허 제 EP 259 950 호로부터 공지되어 있다.

이러한 송신기들 및 스피치 인코더들은 스피치 신호들이 제한된 전송 용량을 갖는 전송 매체를 통해서 전송되거나, 또는 제한된 저장 용량을 갖는 저장 매체에 저장되어야 하는 애플리케이션들에서 사용된다. 이러한 애플리케이션들의 예들은 인터넷을 통한 스피치 신호의 전송, 이동 전화에서 기지국으로 및 기지국에서 이동 전화의 스피치 신호들의 전송, 및 CD-ROM, 솔리드 상태 메모리 또는 하드 디스크 드라이브상의 스피치 신호들의 저장이다.

적당한 비트율로 적당한 스피치 품질(speech quality)을 달성하기 위하여 스피치 인코더들의 다른 동작 원리들이 시도되었다. 이러한 동작 원리들 중 한 원리에 있어서, 스피치 신호는 복수의 고조파 관련 사인 신호들에 의해 표현된다. 송신기는 상기 사인 신호들의 기본 주파수를 표현하는 스피치 신호의 피치를 결정하기 위한 분석 수단을 갖는 스피치 인코더를 포함한다. 또한, 분석 수단은 상기 복수의 사인 신호들의 진폭을 결정하기 위해서 배열된다.

상기 복수의 사인 신호들의 진폭들은 예측 계수들을 결정하고, 상기 예측 계수들로부터 주파수 스펙트럼을 계산하며, 상기 주파수 스펙트럼을 피치 주파수로 샘플링함으로써 얻어질 수 있다.

상기한 알려진 송신기들이 갖는 문제점은 재구성된 스피치 신호의 품질이 기대치보다 낮다는 것이다.

본 발명의 목적은 개선된 품질의 재구성된 스피치를 전달하는 서두에 따른 송신기를 제공하는 것이다.

따라서, 본 발명에 따른 송신기는, 분석 수단이 상기 복수의 고조파 관련 사인 신호들의 표현 및 상기 스피치 신호의 표현 사이의 측정을 최소화하도록 상기 복수의 고조파 관련 신호들의 기본 주파수를 튜닝(tunning)하기 위한 튜닝 수단을 포함하고, 상기 송신기는 상기 기본 주파수 및 상기 진폭들의 표현을 송신하기 위한 송신 수단을 포함한다는 것을 특징으로 한다.

본 발명은 분석 수단에 의해 결정되는 바와 같은 사인 신호들의 진폭들과 피치 결정 수단에 의해 결정되는 바와 같은 피치의 조합이 스피치 신호의 최적의 표현을 구성하지 않는다는 인식에 기초된다. 합성-분석 방식(analysis-by-like fashion)으로 피치를 튜닝함으로써, 인코딩된 스피치 신호의 비트율을 증가시키지 않고 재구성된 스피치 신호의 증가된 품질을 달성하는 것이 가능하다.

상기 "합성-분석 방식"은 실제 피치값 및 진폭에 기초해서 재구성되는 스피치 신호를 원래의 스피치 신호와 비교함으로써 실행될 수 있다. 원래의 스피치 신호의 스펙트럼을 결정하고, 피치값과 사인 신호의 진폭으로부터 결정되는 스펙트럼과 비교하는 것이 가능하다.

본 발명의 실시예는 복수의 고조파 관련 스피치 신호들의 주파수 및 진폭의 결정이 실질적으로 비양자화된 예측 계수들에 기초하고, 상기 진폭들의 표현은 양자화된 예측 계수들과, 상기 기본 주파수와 양자화된 예측 계수들에 기초하여 결정되는 이득 요소(gain factor)를 포함하는 것을 특징으로 한다.

실험들로부터, 양자화된 예측 계수들에 기초한 "합성-분석 방식"의 수행이 재구성된 스피치에서의 원하지 않는 아티팩트(artifact)들을 일으킨다는 것이 명확해진다. 후속적으로 수행된 실험들은 "합성-분석 방식"에서 비양자화된 예측 계수를 이용하고, (정련된: refined) 기본 주파수 및 양자화된 예측 계수로부터 이득 요소를 계산함으로써, 이들 아티팩트들이 회피될 수 있다는 것을 보여준다.

본 발명의 또다른 실시예는 분석 수단이 피치 튜닝 수단에 대한 적어도 초기 피치값을 제공하기 위한 초기 피치 결정 수단을 구비하는 것을 특징으로 한다.

초기 피치 결정 수단을 이용함으로써, 최적 피치값에 가까운 합성-분석 방식에 대한 초기값들을 결정할 수 있는 것이다. 이것은 결과적으로 상기 최적 피치값을 검색하는데 요구되는 계산량을 줄일 수 있게 되는 것이다.

이제 도면을 참조하여 본 발명이 설명될 것이다.

도 1은 본 발명에 이용할 수 있는 전송 시스템을 도시한 도면.

도 2는 본 발명에 따른 스피치 인코더(4)를 도시한 도면.

도 3은 본 발명에 따른 유성음의 스피치 인코더(16)를 도시한 도면.

도 4는 도 3에 따른 유성음의 스피치 인코더(16)에 이용하기 위한 LPC 계산 수단(30)을 도시한 도면.

도 5는 도 3에 따른 스피치 인코더에 이용하기 위한 피치 튜닝 수단(32)을 도시한 도면.

도 6은 도 2에 따른 스피치 인코더에 이용하기 위한 무성음의 스피치 인코더(14)를 도시한 도면.

도 7은 도 1에 따른 시스템에서 이용하기 위한 스피치 디코더(14)를 도시한 도면.

도 8은 스피치 디코더(14)에 이용하기 위한 유성음의 스피치 디코더(94)를 도시한 도면.

도 9는 유성음의 스피치 디코더(94) 내의 다수의 지점들에 제공된 신호들의 그래프.

도 10은 스피치 디코더(14)에서 이용하기 위한 무성음의 스피치 디코더(96)를 도시한 도면.

도 1에 따른 전송 시스템에 있어서, 스피치 신호는 송신기(2)의 입력에 인가된다. 송신기(2)에 있어서, 스피치 신호는 스피치 인코더(4)에서 인코딩된다. 스피치 인코더(4)의 출력에서 인코딩된 스피치 신호는 송신 수단(6)을 통과한다. 송신 수단(6)은 코딩된 스피치 신호의 채널 코딩, 인터리빙(interleaving) 및 변조를 수행하기 위해 배열된다.

송신 수단(6)의 출력 신호는 송신기의 출력을 통과하고, 송신 매체(8)를 통해 수신기(5)에 운반된다. 수신기(5)에서, 채널의 출력 신호는 수신 수단(7)을 통과한다. 이러한 수신 수단(7)은 디인터리빙(적용 가능한 경우) 채널 코딩, 튜닝 및 복조와 같은, RF 처리를 제공한다. 수신 수단(7)의 출력 신호는 이것의 입력 신호를 재구성된 스피치 신호로 변환하는 스피치 디코더(9)를 통과한다.

도 2에 따른 스피치 인코더(4)의 입력 신호 S_S[n]는 입력으로부터의 원하지 않는 DC 오프셋(offset)들을 제거하기 위해 DC 노치(notch) 필터(10)에 의해 필터링된다. 상기 DC 노치 필터는 15 ㎐의 컷 오프(cut-off) 주파수(-3 ㏈)를 가지고 있다. DC 노치 필터(10)의 출력 신호는 버퍼(11)의 입력에 인가된다. 버퍼(11)는 400 DC 필터링된 스피치 샘플들의 블록들을 본 발명에 따른 유성음(voiced)의 스피치 인코더(16)에 제공한다. 400개의 샘플들의 블록은 10 ㎳ 스피치(각각 80개 샘플들)의 5개의 프레임들을 포함한다. 이것은 현재 인코딩될 프레임, 2개의 선행 및 2개의 후속 프레임들을 포함한다. 버퍼(11)는 각각의 프레임 기간에 가장 최근에 수신된 80개 샘플들의 프레임을 200 ㎐ 고역 통과 필터(high pass filter)(12)의 입력에 제공한다. 고역 통과 필터(12)의 출력은 무성음(unvoiced)의 스피치 인코더(14)의 입력 및 유성음/무성음의 스피치 검출기(28)의 입력에 접속된다. 고역 통과 필터(12)는 360개의 샘플들의 블록들을 유성음/무성음의 스피치 검출기(28)에 제공하고, 160개의 샘플들의 블록들(스피치 인코더(4)가 5.2 kbit/sec 방식으로 동작하는 경우) 또는 240개의 샘플들 블록들(스피치 인코더(4)가 3.2 kbit/sec 방식으로 동작하는 경우)을 무성음의 스피치 인코더(14)에 제공한다. 상기에 제공되는 상이한 샘플들의 블록들과 버퍼(11)의 출력 사이의 관계가 아래 테이블 내에 제공된다.

유성음/무성음 검출기(28)는 현재 프레임이 유성음 또는 무성음의 스피치를 포함하는지, 유성음/무성음 플래그(flag)로서의 결과를 제공하는지의 여부를 결정한다. 이러한 플래그는 멀티플렉서(22), 무성음의 스피치 인코더(14) 및 유성음의 스피치 인코더(16)를 통과한다. 유성음/무성음 플래그의 값에 의존하여 유성음의 스피치 인코더(16) 또는 무성음의 스피치 인코더(15)가 활성화된다.

유성음의 스피치 인코더(16)에 있어서, 입력 신호는 복수의 고조파 관련 사인 신호들로서 표현된다. 유성음의 스피치 인코더의 출력은 피치값, 이득값 및 16개의 예상 파라미터들의 표현을 제공한다. 피치값 및 이득값은 멀티플렉서(22)의 대응하는 입력들에 인가된다.

5.2 kbit/sec 방식에 있어서, LPC 계산은 10 ㎳마다 수행된다. 3.2 kbit/sec에 있어서, LPC 계산은 무성음에서 유성음의 스피치 또는 유성음에서 무성음의 스피치 사이에 천이가 발생될 때를 제외하고, 20 ㎳마다 수행된다. 이러한 천이가 발생할 경우, 3.2 kbit/sec 방식에 있어서, LPC 계산은 또한 10 msec 마다 수행된다.

유성음의 스피치 인코더의 출력에서의 LPC 계수들은 허프만(Huffman) 인코더(24)에 의해 인코딩된다. 허프만 인코더(24)내의 비교기에 의해 대응하는 입력 시퀀스의 길이와 비교된다. 허프만 인코딩된 시퀀스의 길이가 입력 시퀀스보다 길면, 코딩되지 않은 시퀀스를 송신하는 것이 결정된다. 그렇지 않은 경우, 허프만 인코딩된 시퀀스를 송신하는 것이 결정된다. 상기 결정은 멀티플렉서(26) 및 멀티플렉서(22)에 인가되는 "허프만 비트"에 의해 표현된다. 멀티플렉서(26)는 "허프만 비트"에 의존하여 허프만 인코딩된 시퀀스 또는 입력 시퀀스를 멀티플렉서(22)로 통과시키도록 배열된다. 멀티플렉서(26)와 조합하여 "허프만 비트"를 이용하는 것은 예측 계수들의 표현의 길이가 미리 규정된 값을 초과하지 않는 것이 보장되는 이점을 가진다. "허프만 비트" 및 멀티플렉서(26)의 이용 없이도, 제한된 수의 비트들이 LPC 계수들의 전송을 위해 예약된 송신 프레임 내에 허프만 인코딩된 시퀀스가 더이상 적합하지 않은 정도로 입력 시퀀스의 길이를 허프만 인코딩된 시퀀스의 길이가 초과하는 것이 발생될 수 있다.

무성음의 스피치 인코더(14)에 있어서, 이득값 및 6개의 예측 계수들은 무성음 스피치 신호를 표현하기 위해 결정된다. 6개의 LPC 계수들은 허프만 인코딩된 시퀀스 및 "허프만 비트"를 이것의 출력에 제공하는 허프만 인코더(18)에 의해 인코딩된다. 허프만 인코더(18)의 허프만 인코딩된 시퀀스 및 입력 시퀀스는 "허프만 비트"에 의해 제어되는 멀티플렉서(20)에 인가된다. 허프만 인코더(18)와 멀티플렉서(20)와의 조합에 따른 동작은 허프만 인코더(24)와 멀티플렉서(20)의 동작과 동일하다.

멀티플렉서(20)의 출력 신호 및 "허프만 비트"는 멀티플렉서(22)의 대응하는 입력에 인가된다. 멀티플렉서(22)는 유성음-무성음 검출기(28)의 결정에 의존하여, 인코딩된 유성음의 스피치 신호 또는 인코딩된 무성음의 스피치 신호를 선택하기 위해 배열된다. 멀티플렉서(22)의 출력에서 인코딩된 스피치 신호가 이용 가능하다.

도 3에 따른 유성음의 스피치 인코더(16)에 있어서, 본 발명에 따른 분석 수단은 LPC 파라미터 컴퓨터(30), 정련된 피치 컴퓨터(32) 및 피치 추정기(38)에 의해 구성된다. 유성음의 스피치 신호(s[n])는 LPC 파라미터 컴퓨터(30)의 입력에 인가된다. LPC 파라미터 컴퓨터(30)는 i 가 0-15의 값을 가지는 예측 계수(a[i]), 양자화, 코딩 및 디코딩 (a[i]) 후 얻어진 양자화된(quantized) 예측 계수(aq[i]), 및 LPC 코드들(C[i])을 결정한다.

본 발명의 개념에 따른 피치 결정 수단은 여기에서 피치 추정기(38)인 초기 피치 결정 수단, 여기서 피치 범위 컴퓨터(34) 및 정련된 피치 컴퓨터(32)인 피치 튜닝 수단을 포함한다. 피치 추정기(38)는 최종 피치값을 결정하기 위한 정련된 피치 컴퓨터(32)로 불릴 피치 튜닝 수단에서 시도될 피치값들을 결정하기 위한 피치 범위 컴퓨터(34)에 사용되는 거친(coarse) 피치값을 결정한다. 피치 추정기(38)는 다수의 샘플들로 표현되는 거친 피치 기간(period)을 제공한다. 정련된 피치 컴퓨터(32)에 사용될 피치값들은 피치 범위 컴퓨터(34)에 의해 아래 테이블에 따른 거친 피치 기간으로부터 결정된다.

진폭 스펙트럼 컴퓨터(36)에 있어서, 윈도우(windowed) 스피치 신호 (S_HAM)는 다음 식에 따라서 신호(s[i])로부터 결정된다.

(1)

식(1)에서, W_HAM[i]는 다음과 같다.

(2)

원도우 스피치 신호 (S_HAM[i])는 512 포인트 FFT를 사용하는 주파수 영역으로 변형된다.

(3)

정련된 피치 컴퓨터(32)에 사용될 진폭 스펙트럼은 다음 식에 따라서 계산된다.

(4)

정련된 피치 컴퓨터(32)는 진폭들이 상기 정련된 피치 기간에 의해 LPC 스펙트럼을 샘플링함으로써 결정되는 복수의 고조파 관련 사인 신호들을 포함하는 신호의 진폭 스펙트럼과 식(4)에 따른 진폭 스펙트럼 사이의 최소 에러 신호가 되는 정련된 피치값을 LPC 파라미터 컴퓨터(30)에 의해 제공되는 a-파라미터들 및 거친 피치값으로부터 결정한다.

이득 컴퓨터(40)에 있어서, 타겟 스펙트럼을 정확하게 매칭하기 위한 최적 이득이 정련된 피치 컴퓨터(12)에서 행해지는 바와 같은 비양자화된 a-파라미터를 사용하는 대신에, 양자화된 a-파라미터를 사용하여 재합성된 스피치 신호의 스펙트럼으로부터 계산된다.

유성음의 스피치 인코더(40)의 출력에서, 16 개의 LPC 코드들, 정련된 피치 및 이득 컴퓨터(40)에 의해 계산되는 이득이 이용 가능하다. LPC 파라미터 컴퓨터(30) 및 정련된 피치 컴퓨터(32)의 동작은 보다 상세하게 후술된다.

도 4에 따른 LPC 컴퓨터(30)에 있어서, 윈도우 동작은 원도우 프로세서(50)에 의해 신호 (s[n]) 상에서 수행된다. 본 발명의 하나의 양상에 따르면, 분석 길이는 유성음/무성음 플래그의 값에 의존한다. 5.2 kbit/sec 방식에 있어서, LPC 계산은 10 msec 마다 수행된다. 3.2 kbit/sec 방식에 있어서, LPC 계산은 유성음에서 무성음으로 또는 무성음에서 유성음으로의 천이들 동안의 것은 제외하고, 20 msec 마다 수행된다. 이러한 천이가 제공되면, LPC 계산이 10 msec 마다 수행된다.

다음 테이블에 있어서, 예측 계수들의 결정에 포함되는 샘플들의 수는 다음과 같이 주어진다.

삭제

천이가 제공되는 5.2 kbit/s의 경우 및 3.2 kbit/sec 경우의 윈도우에 대해서는 다음과 같이 쓸 수 있다.

(5)

윈도우 스피치 신호에 대해서는 다음 식이 발견된다.

(6)

3.2 kbit/s의 경우에 천이가 존재하지 않으면, 80 개의 샘플들의 평탄한 상부 윈도우의 중간에 도입되고, 그것에 의해 샘플(120)에서 시작하여 샘플(360) 전에 종료되는 240 개의 샘플들을 연장한다. 이러한 방식에 있어서, 윈도우(w'HAM)는 다음 식에 따라서 얻어진다.

(7)

윈도우 스피치 신호에 대해 다음 식을 다시 쓸 수 있다.

(8)

자기상관 함수(Autocorrelation Function) 컴퓨터(58)는 윈도우 스피치 신호의 자기상관 함수(R_ss)를 결정한다. 계산될 상관 계수들의 수는 예측 계수들(+1)의 수와 동일하다. 유성음의 스피치 프레임이 존재하면, 계산될 자기상관 계수들의 수는 17이다. 무성음 프레임이 제공되는 경우, 계산될 자기상관 계수의 수는 7이다. 유성음 또는 무성음 스피치 프레임의 존재는 유성음/무성음의 스피치 플래그에 의해 자기상관 함수 컴퓨터(58)에 시그널링된다.

자기상관 계수들은 상기 자기상관 계수에 의해 표현되는 스펙트럼의 일부 스펙트럼 스무씽(spectral smoothing)을 얻기 위해서 소위 래그 윈도우(lag-window)로 윈도우된다. 스무씽 자기상관 계수들(ρ[i])은 다음 식에 따라서 계산된다.

(9)

식(9)에서, fμ는 46.4 ㎐의 값을 가지는 스펙트럼 스무씽 상수이다. 윈도우 자동 상관값(ρ[i])은 재귀적(recursive) 방식으로 반사 계수들(k[1] 내지 k[P])을 계산하는 숴(Schur) 재귀 모듈(62)로 통과한다. 재귀는 이 기술의 숙련자들에게 잘 알려져 있다.

변환기(66)에 있어서, P 반사 계수들(ρ[i])은 도 3에 정련된 피치 컴퓨터(32)에서 이용하기 위한 a-파라미터로 변환된다. 양자화기(64)에 있어서, 반사 계수들은 로그 영역비(Log Area Ratio)들로 변환되고, 이들 로그 영역비들은 후속적으로 균일하게 양자화된다. 만들어진 LPC 코드(C[I]....C[P])는 전송을 위해 LPC 파라미터 컴퓨터의 출력으로 통과한다. 숴 재귀는 이 기술분야에 당업자들에게 잘 알려진다.

로컬 디코더(54)에 있어서, LPC 코드들(C[I]....C[P])은 반사 계수 재구성기(54)에 의해 재구성된 반사 계수들(k[i])로 변환된다. 후속적으로, 재구성된 반사 계수들(k(i))은 반사 계수 a-파라미터 변환기(56)에 의해 (양자화된) a-파라미터들로 변환된다.

이러한 로컬 디코딩은 스피치 인코더(4) 및 스피치 디코더(14)에서 이용 가능한 동일한 a-파라미터들을 갖도록 수행된다.

도 5에 따른 정련된 피치 컴퓨터(32)에 있어서, 피치 주파수 후보자 선택기(70)는 피치 범위 컴퓨터(34)로부터 수신됨에 따라 후보들의 수, 개시값(start value) 및 스텝 크기로부터 정련된 피치 컴퓨터에서 사용되는 후보 피치값들을 결정한다. 각각의 후보들에 대해, 피치 주파수 후보 선택기(70)는 기본 주파수(f_0,i)를 결정한다.

후보 주파수(f_0,i)를 사용하여, LPC 계수들에 의해 발생되는 스펙트럼 엔벨로프(spectral envelope)는 스펙트럼 엔벨로프 샘플러(Sampler : 72)에 의해 고조파 위치들에서 샘플링된다. i 번째 중 k 번째 고조파의 진폭인 m_i,k에 대해, 후보(f_0,i)는 아래에 쓸 수 있다.

(10)

식(10)에서, A(z)는 다음 식과 같다.

(11)

z=e^jθi,k = cosθ_i,k + j·sinθ_i,k 및 θ_i,k = 2πkf_O,i 로, 식(11)은 다음 식과 같이 변경된다.

(12)

식(12)을 실수 및 허수 부분들로 분리함으로써, 진폭(m_i,k)은 다음 식에 따라서 얻어질 수 있다.

(13)

여기에서,

(14)

및

(15)

후보 스펙트럼

은 인코더의 현재 동작 모드에 의존하는 식(5) 또는 식(7)에 따라서 160 포인트들의 해밍 윈도우(hamming window)의 8192 포인트 FFT인 스펙트럼 윈도우 함수[W]로 스펙트럼 라인들 m_i,k(1≤k≤L)을 컨볼빙(convolving)함으로써 결정된다. 8192 포인트들의 FFT는 미리 계산될 수 있고, 결과는 ROM 내에 저장될 수 있다는 것이 알려진다. 컨볼빙 처리에 있어서, 256 포인트들보다 많은 계산을 쓸모없게 만드는, 후보 스펙트럼이 기준 스펙트럼의 256 포인트들과 비교되어야 하기 때문에 다운 샘플링 동작이 수행된다. 따라서,

의 경우에 대해서 다음과 식과 같이 다시 쓸 수 있다.

(16)

식(16)은 피치 후보(i)에 대한 진폭 스펙트럼의 일반적인 형태만을 제공하지만, 이것의 진폭은 제공하지 않는다. 따라서, 스펙트럼

은 다음 식에 따라서 MSE-이득 계산기(78)에 의해 계산되는 이득 인자(g_i)에 의해 정정되어야 한다.

(17)

멀티플라이어(82)는 이득 인자(g_i)로 스펙트럼

을 스케일링하기 위해 배열된다. 감산기(84)는 진폭 스펙트럼 컴퓨터(36)에 의해 결정되는 타겟 스펙트럼의 계수들과 멀티플리어(82)의 출력 신호 사이의 차를 계산한다. 후속적으로, 합산 제곱기(summing squarer)는 다음 식에 따라서 제곱 에러(squared error) 신호(Ei)를 계산한다.

(18)

최저치가 되는 후보 기본 주파수(f_o,i)는 정련된 기본 주파수 또는 정련된 피치로서 선택된다. 본 예에 따른 인코더에 있어서, 인코딩하기 위해 9 개의 비트들을 요구하는 총 368 피치 기간들이 있다. 피치는 스피치 인코더의 방식에 독립적으로 10 msec 마다 갱신된다. 도 3에 따른 이득 계산기(40)에 있어서, 디코더에 송신될 이득은 이득(g_i)에 관련하여 상술한 것과 동일한 방식으로 계산되지만, 이제 양자화된 a-파라미터들은 이득(g_i)을 계산시에 사용되는 비양자화된 a-파라미터 대신에 사용된다. 디코더에 송신될 이득 인자는 6 비트들로 비선형 양자화되어, g_i의 작은 값들에 대한 작은 양자화 스텝들이 사용되고, g_i의 큰 값에 대해서는 큰 양자화 스텝들이 사용된다.

도 6에 따른 무성음의 스피치 인코더(14)에 있어서, LPC 파라미터 컴퓨터(82)의 동작은 도 4에 따른 LPC 파라미터 컴퓨터(30)의 동작과 유사하다. LPC 파라미터 컴퓨터(82)는 LPC 파라미터 컴퓨터(30)에 의해 행해지는 바와 같은 원래 스피치 신호 대신에 고역 통과 필터링된 신호에 동작한다. 또한, LPC 컴퓨터(82)의 예측 오더는 LPC 파라미터 피치 컴퓨터(30)에 이용되는 바와 같은 16 대신에 6이다.

시간 영역 원도우 처리기(84)는 다음 식에 따른 해닝 원도우(Hanning Windowed) 스피치 신호를 계산한다.

(19)

RMS 값 컴퓨터(86)에 있어서, 스피치 프레임의 진폭의 평균치(g_uv)는 다음 식에 따라서 계산된다.

(20)

디코더로 송신될 이득 인자(g_uv)는 5 개의 비트들로 비선형 양자화되어, g_uv의 작은 값에 대해 양자화 스텝들이 사용되고, g_uv의 큰 값에 대해 양자화 단계들이 사용된다. 어떠한 파라미터도 무성음의 스피치 인코더(14)에 의해 결정되지 않는다.

도 7에 따른 스피치 디코더(14)에 있어서, 허프만 인코딩된 LPC 코드들 및 유성음/무성음 플래그는 허프만 디코더(90)에 인가된다. 허프만 디코더(90)는 유성음/무성음 플래그가 무성음 신호를 나타낼 때 허프만 인코더(18)에 의해 사용되는 허프만 테이블에 따라서 허프만 인코딩된 LPC 코드들을 디코딩하기 위해 배열된다. 허프만 디코더(90)는 유성음/무성음 플래그가 유성음 신호를 나타낼 때 허프만 인코더(24)에 의해 사용되는 허프만 테이블에 따라서 허프만 인코딩된 LPC 코드를 디코딩시키기 위해 배열된다. 허프만 비트값에 따라, 수신된 LPC 코드들은 허프만 디코더(90)에 의해 디코딩되거나 디멀티플렉서(92)를 직접 통과된다. 이득값 및 수신된 정련된 피치값 또한 디멀티플렉서(92)로 통과된다.

유성음/무성음 플래그가 유성음의 스피치 프레임을 나타낼 때, 정련된 피치, 이득 및 16 개의 LPC 코드들은 고조파 스피치 합성기(94)로 통과된다. 유성음/무성음 플래그가 무성음의 스피치 프레임을 나타낼 때, 이득 및 6 개의 LPC 코드들은 무성음의 스피치 합성기(96)로 통과된다. 고조파 스피치 합성기(94)의 출력에서 합성된 유성음 신호

및 무성음의 스피치 합성기(96)의 출력에서 합성된 무성음 신호

는 멀티플렉서(98)의 대응하는 입력들에 인가된다.

유성음 방식에 있어서, 멀티플렉서(98)는 고조파 스피치 합성기(94)의 출력 신호

를 중첩(overlap) 및 가산 합성 블록(add synthesis block)(100)의 입력으로 통과시킨다. 무성음 방식에 있어서, 멀티플렉서(98)는 무성음 합성기(96)의 출력 신호

를 중첩 및 가산 합성 블록(100)의 입력으로 통과한다. 중첩 및 가산 합성 블록(100)에 있어서, 부분적으로 중첩된 음성 및 무성음 세그먼트가 가산된다. 중첩 및 가산 합성 블록(100)의 출력 신호

에 대해서는 다음과 같이 쓸 수 있다.

(21)

식(21)에 있어서, N_s는 스피치 프레임의 길이이고, v_k-1은 이전 스피치 프레임에 대한 유성음/무성음 플래그이며, v_k는 현재 스피치 프레임에 대한 유성음/무성음 플래그이다.

중첩 및 블록의 출력 신호

는 포스트필터(postfilter:102)에 인가된다. 포스트필터는 포먼트(formant) 영역 외부의 잡음을 억제함으로써 감지된 스피치 품질을 향상시키기 위해 배열된다.

도 8에 따른 음성 스피치 디코더(94)에 있어서, 디멀티플렉서(92)로부터 수신되는 인코딩된 피치는 피치 디코더(104)에 의해 피치 기간으로 디코딩 및 변환된다. 피치 디코더(104)에 의해 결정되는 피치 기간은 위상 합성기(106)의 입력, 고조파 오실레이터 뱅크(Harmonic Oscillator Bank : 108)의 입력 및 LPC 스펙트럼 엔벨로프 샘플러(110)의 제 1 입력에 인가된다.

디멀티플렉서(92)로부터 수신되는 LPC 계수들은 LPC 디코더(112)에 의해 디코딩된다. LPC 계수들을 디코딩하는 방식은 현재 스피치 프레임이 유성음 또는 무성음의 스피치를 포함하는지의 여부에 의존한다. 그러므로, 유성음/무성음 플래그는 LPC 디코더(112)의 제 2 입력에 인가된다. LPC 디코더는 양자화된 a-파라미터들을 LPC 스펙트럼 엔벨로프 샘플러(110)의 제 2 입력으로 통과시킨다. LPC 스펙트럼 엔벨로프 샘플러(112)의 동작은 동일한 동작이 정련된 피치 컴퓨터(32)에서 수행되기 때문에 식(13), (14) 및 (15)에 의해 설명된다.

위상 합성기(106)는 스피치 신호를 나타내는 L 신호의 i 번째 사인 신호의 위상(ψ_k[i])을 계산하기 위해 계산된다. 위상(ψ_k[i])은 i 번째 사인 신호가 하나의 프레임으로부터 다음 프레임으로의 연속적으로 유지하도록 선택된다. 유성음의 스피치 신호는 160 개의 윈도우 샘플들을 각각 포함하는, 중첩 프레임들을 조합함으로써 합성된다. 도 9에서 그래프(118) 및 그래프(122)에서 알 수 있는 바와 같이 2 개의 인접한 프레임들 사이에는 50% 중첩된다. 그래프(118 및 122)에 있어서, 사용된 윈도우는 점선들로 도시된다. 이제, 위상 합성기는 중첩이 이것의 최대 영향을 가지고 있는 위치에 연속적인 위상을 제공하도록 배열된다. 여기에서 사용되는 윈도우 함수에서 이 위치는 샘플(119)에 있다. 현재 프레임의 위상(Ψ_k[i])에 대해, 이제 다시 쓰면 다음 식과 같다.

(22)

현재 설명된 스피치 인코더에 있어서, N_s의 값은 160과 같다. 제 1 유성음의 스피치 프레임에 대해, Ψ_k[i]의 값은 미리 규정된 값으로 초기화된다. 위상들(Ψ_k[i])은, 무성음의 스피치 프레임이 수신되는 경우일지라도 항상 갱신된다. 상기의 경우에 있어서,

f_0,k는 50 Hz로 세팅된다.

고조파 오실레이터 뱅크(108)는 스피치 신호를 표현하는 복수의 고조파 관련 신호들

을 발생시킨다. 이러한 계산은 다음 식에 따라서 고조파 진폭들

, 주파수

및 합성된 위상들

을 사용하여 수행된다.

(23)

신호

는 시간 영역 윈도우잉 블록(Time Domain Windowing Block)(114) 내의 허닝 윈도우(Hanning window)를 사용하여 윈도우된다. 이러한 윈도우 신호는 도 9의 그래프(120)로 도시된다. 신호

는 시간상 N_s/2 샘플들이 쉬프팅된 해닝 윈도우를 사용하여 윈도우된다. 이러한 윈도우 신호는 도 9의 그래프(124)에 도시된다. 시간 영역 윈도우잉 블록(144)의 출력 신호들은 상술된 윈도우 신호를 가산함으로써 얻어진다. 이러한 출력 신호는 도 9의 그래프(126)로 도시된다. 이득 디코더(118)는 이것의 입력 신호로부터 이득값(g_v)을 유도하고, 시간 영역 윈도우잉 블록(114)의 출력 신호는 재구성된 유성음의 스피치 신호

를 얻기 위해서 신호 스케일링 블록(116)에 의해 상기 이득 인자(gv)에 의해 스케일링된다.

무성음의 스피치 합성기(96)에 있어서, LPC 코드들 및 유성음 및 무성음 플래그는 LPC 디코더(130)에 인가된다. LPC 디코더(130)는 복수의 6 개의 a-파라미터들을 LPC 합성 필터(134)에 제공한다. 가우시안 백색 잡음 발생기(Gaussian White -Noise Generator)(132)의 출력은 LPC 합성 필터(143)의 입력에 접속된다. LPC 합성 필터(134)의 출력 신호는 시간 영역 윈도우잉 블록(140)내의 해닝 윈도우에 의해 윈도우된다.

무성음의 이득 디코더(136)는 현재 무성음의 프레임의 원하는 에너지를 표현하는 이득값

을 유도한다. 윈도우 신호의 이러한 이득 및 에너지에 대해, 윈도우 스피치 신호 이득에 대한 스케일링 인자

는 정확한 에너지를 가지는 스피치 신호를 얻기 위해 결정된다. 이러한 스케일링 인자에 대해, 다시 쓰면 다음 식과 같다.

(24)

신호 스케일링 블록(142)은 스케일링 인자

에 의해 시간 영역 윈도우 블록(140)의 출력 신호를 승산함으로써 출력 신호

를 결정한다.
현재 설명된 스피치 인코딩 시스템은 낮은 비트 속도 또는 높은 스피치 품질을 요구하도록 변형될 수 있다. 낮은 비트 속도를 필요로 하는 스피치 인코딩 시스템의 예는 2 kbit/sec 인코딩 시스템이다. 이러한 시스템은 16에서 12까지의 유성음의 스피치에 사용되는 예측 계수들의 수를 감소시키고, 이득, 정련된 피치 및 예측 계수들의 차동 인코딩(differential encoding)을 이용함으로써 얻어질 수 있다. 차동 디코딩은 인코딩될 데이터가 개별적으로 인코딩되지 않지만, 후속하는 프레임들로부터 대응하는 데이터 사이의 차만이 송신되는 것을 의미한다. 제 1의 새로운 프레임에서의 유성음에서 무성음의 스피치까지 또는 무성음에서 유성음의 스피치로의 천이에서, 모든 계수들은 디코딩에 대해 개시값을 제공하기 위해서 개별적으로 인코딩된다.
6 kbit/s의 비트 속도에서 증가된 스피치 품질을 가지는 스피치 코더를 얻는 것이 또한 가능하다. 변형들은 여기에서 복수의 고조파 관련 사인 신호들의 제 1의 8 개의 고조파들의 위상에 관한 결정이다. 위상(Ψ[i])은 다음 식에 따라서 계산된다.

(25)
여기에서, θ_i = 2πf₀·i. R(θ_i)en I(θ_i)는 다음 식과 같다.

(26)
및

(27)
얻어진 8 개의 위상들(Ψ[i])은 6비트로 균일하게 양자화되고, 출력 비트 스트림 내에 포함된다.
6 kbit/sec 인코더의 다른 변형은 무성음의 방식으로 추가적인 이득값들의 전송이다. 정상적으로, 2 msec 마다 이득은 프레임당 하나 대신에 송신된다. 천이 직후의 제 1 프레임에 있어서, 10 이득값들이 송신되는데 이들 중에서 5는 현재의 무성음 프레임을 표현하고, 이들 중 5는 이전 유성음 인코더에 의해 처리되는 유성음 프레임을 표현한다. 이득들은 4 msec 중첩 윈도우들로부터 결정된다.
LPC 계수들의 수는 12이고, 가능한 차동 인코딩이 이용된다는 것을 알 수 있다.

삭제

Claims

스피치 인코더를 가진 송신기로서, 상기 스피치 인코더는 스피치 신호로부터 복수의 선형 예측 계수들을 결정하기 위한 분석 수단을 포함하고, 상기 분석 수단은 상기 스피치 신호의 기본 주파수를 결정하기 위한 피치 결정 수단을 포함하고, 상기 분석 수단은 또한 상기 기본 주파수와 상기 복수의 선형 예측 계수들로부터 상기 스피치 신호를 표현하는 복수의 고조파 관련 사인 신호들의 주파수 및 진폭을 결정하기 위해 배열되는, 상기 송신기에 있어서,

상기 분석 수단은 상기 복수의 고조파 관련 사인 신호들의 표현과 상기 스피치 신호의 표현 사이의 측정을 최소화하도록 상기 복수의 고조파 관련 신호들의 기본 주파수를 튜닝하기 위한 피치 튜닝 수단을 포함하고, 상기 송신기는 상기 기본 주파수 및 상기 진폭들의 표현을 송신하기 위한 송신 수단을 포함하는 것을 특징으로 하는, 스피치 인코더를 가진 송신기.
제 1 항에 있어서,

상기 복수의 고조파 관련 스피치 신호들의 상기 주파수 및 상기 진폭의 상기 결정은 실질적으로 비양자화된 예측 계수들에 기초되고, 상기 진폭들의 상기 표현은 양자화된 예측 계수들과 상기 기본 주파수 및 상기 양자화된 예측 계수들에 기초하여 결정되는 이득 요소를 포함하는 것을 특징으로 하는, 스피치 인코더를 가진 송신기.
제 1 항 또는 제 2 항에 있어서,

상기 분석 수단은 상기 피치 튜닝 수단에 대한 적어도 개시 피치값을 제공하기 위한 개시 피치 결정 수단을 포함하는 것을 특징으로 하는, 스피치 인코더를 가진 송신기.
제 1 항 또는 제 2 항에 있어서,

상기 스피치 인코더는 상기 스피치 신호의 주파수 스펙트럼을 결정하기 위한 스펙트럼 분석 수단을 포함하고, 상기 피치 튜닝 수단은 상기 진폭들 및 기본 주파수로부터 유도되는 스펙트럼과 상기 스피치 신호의 주파수 스펙트럼의 스펙트럼 사이의 차이를 최소화하기 위해 배열되는 것을 특징으로 하는, 스피치 인코더를 가진 송신기.
스피치 신호로부터 복수의 선형 예측 계수들을 결정하기 위한 분석 수단을 포함하는 스피치 인코더로서, 상기 분석 수단은 상기 스피치 신호의 기본 주파수를 결정하기 위한 피치 결정 수단을 포함하고, 상기 분석 수단은 또한 상기 기본 주파수 및 상기 복수의 선형 예측 계수들로부터 상기 스피치 신호를 표현하는 복수의 고조파 관련 사인 신호들의 주파수 및 진폭을 결정하기 위해 배열되는. 상기 스피치 인코더에 있어서,

상기 분석 수단은 상기 복수의 고조파 관련 사인 신호들의 표현과 상기 스피치 신호의 표현 사이의 차이 측정을 최소화하도록 상기 복수의 고조파 관련 신호들의 상기 기본 주파수를 튜닝하기 위한 피치 튜닝 수단을 포함하고, 상기 송신기는 상기 기본 주파수 및 상기 진폭들의 표현을 송신하기 위한 송신 수단을 포함하는 것을 특징으로 하는, 스피치 인코더.
제 5 항에 있어서,

상기 분석 수단은 상기 피치 튜닝 수단에 대한 적어도 초기 피치값을 제공하기 위한 초기 피치 결정 수단을 포함하는 것을 특징으로 하는, 스피치 인코더.
제 5 항 또는 제 6 항에 있어서,

상기 스피치 인코더는 상기 스피치 신호의 주파수 스펙트럼을 결정하기 위한 스펙트럼 분석 수단을 포함하고, 상기 피치 튜닝 수단은 상기 진폭들 및 기본 주파수로부터 유도되는 스펙트럼과 상기 스피치 신호의 주파수 스펙트럼의 스펙트럼 사이의 차이를 최소화하기 위해 배열되는 것을 특징으로 하는, 스피치 인코더.
스피치 신호로부터 복수의 선형 예측 계수들을 결정하는 단계와, 상기 스피치 신호의 기본 주파수를 결정하는 단계와, 상기 기본 주파수 및 상기 복수의 선형 예측 계수들로부터 상기 스피치 신호를 표현하는 복수의 고조파 관련 사인 신호의 주파수 및 진폭을 결정하는 단계를 포함하는 스피치 인코딩 방법에 있어서,

상기 방법은 상기 복수의 고조파 관련 사인 신호들의 표현 및 상기 스피치 신호의 표현 사이의 차이 측정을 최소화하도록 상기 복수의 고조파 관련 신호들의 기본 주파수를 튜닝하는 단계를 포함하는 것을 특징으로 하는, 스피치 인코딩 방법.
제 8 항에 있어서,

상기 방법은 상기 피치 튜닝 수단에 대한 적어도 초기 피치값을 제공하는 단계를 포함하는 것을 특징으로 하는, 스피치 인코딩 방법.
제 8 항 또는 제 9 항에 있어서,

상기 방법은 상기 스피치 신호의 상기 주파수 스펙트럼을 결정하는 단계를 포함하고, 상기 방법은 상기 기본 주파수 및 상기 진폭들로부터 유도되는 스펙트럼과 상기 스피치 신호의 주파수 스펙트럼의 스펙트럼 사이의 차이를 최소화하는 단계를 포함하는 것을 특징으로 하는, 스피치 인코딩 방법.
스피치 신호로부터 복수의 선형 예측 계수들을 결정하는 단계와, 상기 스피치 신호의 기본 주파수를 결정하는 단계와, 상기 기본 주파수 및 상기 복수의 선형 예측 계수들로부터 상기 스피치 신호를 표현하는 복수의 고조파 관련 사인 신호의 주파수 및 진폭을 결정하는 단계를 포함하는 스피치 인코딩 방법을 실행하기 위한 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 기록 매체에 있어서,

상기 방법은 상기 복수의 고조파 관련 사인 신호들의 표현 및 상기 스피치 신호의 표현 사이의 차이 측정을 최소화하도록 상기 복수의 고조파 관련 신호들의 상기 기본 주파수를 튜닝하는 단계를 포함하는 것을 특징으로 하는, 기록 매체.