KR20060030012A

KR20060030012A - 스피치 코딩 방법 및 장치

Info

Publication number: KR20060030012A
Application number: KR1020057014961A
Authority: KR
Inventors: 마크 에이. 자시우크; 텐카시 브이. 라마바드란; 우달 미탈; 제임스 피. 애쉴리; 마이클 제이. 맥라글린
Original assignee: 모토로라 인코포레이티드
Priority date: 2003-12-19
Filing date: 2004-12-17
Publication date: 2006-04-07
Also published as: JP5400701B2; US20100286980A1; CN101847414A; BRPI0407593A; CN101847414B; US8538747B2; WO2005064591A1; US7792670B2; KR100748381B1; JP2010217912A; JP2013218360A; EP1697925A1; US20050137863A1; EP1697925A4; CN1751338B; JP2006514343A; CN1751338A; JP4539988B2

Abstract

스피치 코딩 시스템에서 예측용 방법(도 9) 및 장치(500, 600)는 서브 샘플 해상도 지연을 사용하여 1차 장기간 예측기(LTP) 필터를 다중탭 LTP 필터(504, 604)로 확장한다. 다른 전망으로부터, 통상적인 정수 샘플 해상도 다중탭 LTP 필터는 서브 샘플 해상도 지연을 사용하기 위하여 확장된다. 상기 다중탭 LTP 필터는 종래 기술 이상의 다수의 장점들을 제공한다. 특히, 서브 샘플 해상도로 지연을 정의하는 것은 보간 필터(interpolation filter)에 의해 사용된 과샘플링 인자(over-sampling factor)의 해상도 제한값 내에서 분수 성분을 가진 지연 값들을 명확하게 모델링하는 것을 가능하게 한다. 다중탭 LTP 필터의 계수들(

)은 분수 성분을 가진 지연들의 효과를 모델링하는 것으로부터 매우 자유롭다. 결과적으로 주 기능은 제공된 주기성 정도를 모델링하여 스펙트랄 성형을 부가함으로써 LTP 필터의 예측 이득을 최대화하는 것이다.

압축 시스템, 스피치 코딩, 스펙트랄 성형

Description

스피치 코딩 방법 및 장치{METHOD AND APPARATUS FOR SPEECH CODING}

본 발명은 일반적으로 신호 압축 시스템들에 관한 것으로, 특히 스피치 코딩을 위한 방법 및 장치에 관한 것이다.

디지털 스피치와 같은 저속 코딩 애플리케이션들은 통상적으로 단기간 스피치 신호들의 스펙트럼들을 모델링하기 위하여 선형 예측 코딩(LPC)과 같은 기술들을 사용한다. LPC 기술을 사용하는 코딩 시스템들은 단기간 모델의 특성들에 대한 수정을 위한 예측 잔류 신호들을 제공한다. 하나의 상기 코딩 시스템은 낮은 비트 속도, 즉 4.8 내지 9.6 초당 킬로비트(kbps)의 비트 속도로 고품질 합성된 스피치를 생성하는 코드 여기된 선형 예측(CELP)으로서 알려진 스피치 코딩 시스템이다. 벡터 여기된 선형 예측 또는 확률적 코딩으로서 알려진 스피치 코딩의 이러한 분류는 다수의 스피치 통신 및 스피치 합성 애플리케이션들에 사용된다. CELP는 또한 디지털 스피치 암호화 및 디지털 무선전화 통신 시스템들에 응용할 수 있고, 스피치 품질, 데이타 속도, 크기 및 비용은 중요한 문제들이다.

LPC 코딩 기술을 실행하는 CELP 스피치 코더는 통상적으로 입력 스피치 신호의 특성들을 모델링하고 한세트의 시변 선형 필터들에 통합되는 장기간(피치) 및 단기간(포먼트(formant)) 예측기들을 사용한다. 필터들에 대한 여기 신호, 또는 코드벡터는 저장된 코드벡터들의 코드북으로부터 선택된다. 각각의 스피치 프레임에 대하여, 스피치 코더는 재구성된 스피치 신호를 발생하기 위하여 필터들에 코드벡터를 인가하고, 에러 신호를 생성하기 위하여 재구성된 신호와 본래 입력 스피치 신호를 비교한다. 다음으로 에러 신호는 인간 청각 지각에 기초하는 응답을 가진 지각 가중 필터를 통하여 에러 신호를 통과시킴으로써 가중된다. 최적 여기 신호는 현재 프레임에 대한 최소 에너지(에러 값)으로 가중된 에러 신호를 생성하는 하나 이상의 코드벡터들을 선택함으로써 결정된다. 통상적으로 프레임은 2개 이상의 인접한 서브프레임들로 분할된다. 단기간 예측기 파라미터들은 프레임당 한번씩 결정되고 현재 프레임과 이전 프레임에 대한 단기간 예측기 파라미터들 사이에서 보간에 의해 각각의 서브프레임에서 업데이트된다. 여기 신호 파라미터들은 통상적으로 각각의 서브프레임에 대하여 결정된다.

예를 들어, 도 1은 종래 기술의 CELP 코더(100)의 블록도이다. CELP 코더(100)에서, 입력 신호 s(n)는 선형 예측(LP) 분석기(101)에 제공되고, 여기서 선형 예측 코딩은 단기간 스펙트랄 엔벨로프를 평가하기 위하여 사용된다. 최종 스펙트랄 계수들(또는 선형 예측(LP) 계수들)은 전달 함수 A(z)에 의해 표현된다. 스펙트랄 계수들은 멀티플렉서(109)에 사용하기에 적당한 양자화된 스펙트랄 계수들(A_q)을 생성하기 위하여 스펙트랄 계수들을 양자화하는 LP 양자화기(102)에 제공된다. 다음으로 양자화된 스펙트랄 계수들(A_q)은 멀티플렉서(109)에 전달되고, 멀티플렉서는 제곱 에러 최소/파라미터 양자화 블록(108)에 의해 결정된 한세트의 여기 벡터 관련 파라미터들(L,

, I, 및 r) 및 양자화된 스펙트랄 계수들에 기초하여 코드화된 비트스트림을 생성한다. 결과적으로, 스피치의 각각의 블록을 위하여, 여기 벡터 관련 파라미터들의 대응하는 세트가 생성되고, 다중탭 장기간 예측기(LTP) 파라미터들(지연 L 및 다중탭 예측기 계수들

), 및 고정된 코드북 파라미터들(인덱스 I 및 스케일 인자 ｒ)을 포함한다.

양자화된 스펙트랄 파라미터들은 대응하는 전달 함수 1/A_q(z)를 가진 LP 합성 필터(105)에 국부적으로 전달된다. LP 합성 필터(105)는 결합된 여기 신호 ex(n)를 수신하고 양자화된 스펙트랄 계수들(A_q) 및 결합된 여기 신호 ex(n)에 기초하여 입력 신호

의 평가치를 생성한다. 결합된 여기 신호 ex(n)는 다음과 같이 형성된다. 고정된 코드북(FCB) 코드벡터, 또는 여기 벡터

는 고정된 코드북 인덱스 파라미터(I)에 기초하는 고정된 코드북(FCB)(103)으로부터 선택된다. FCB 코드벡터

는 그 다음 이득 파라미터(r)에 기초하여 스케일되고 스케일된 고정 코드북 코드벡터는 다중탭 장기간 예측기(LTP) 필터(104)에 전달된다. 다중탭 LTP 필터(104)는 대응하는 전달 함수를 가진다.

(1)

여기서 K는 LTP 필터 차수(통상적으로 1과 3 사이)이고

및 L은 제곱된 에러 최소화/파라미터 양자화 블록(108)에 의해 필터에 전달된 여기 벡터 관련 파라미터들 이다. LTP 필터 전달 함수의 상기 정의에서, L은 샘플들의 수 지연을 나타내는 정수 값이다. LTP 필터 전달 함수의 이러한 형태는 Bishnu S. Atal에 의한 "낮은 비트 속도에서의 스피치 예측 코딩(Predictive Coding of Speech at Low Bit Rates)", IEEE Transactions on Communications, VOL. COM-30, NO.4, 1982년 4월, 600-614쪽 논문(이후 ATal이라 함) 및 Ravi P. Ramachandran and Peter Kabal에 의한 "스피티 코딩에서의 피치 예측 필터들(Pitch Prediction Filters in Speech Coding)", IEEE Transactions on Acoustics, Speech, and Signal Processing, VOL. 37, N0. 4, 1989년 4월, 467-478쪽(이하 Ramachandran 등이라 함)의 논문에 기술된다. 필터(104)는 결합된 여기 신호 ex(n)를 생성하고 여기 신호를 LP 합성 필터(105)에 전달하기 위하여 FCB(103)로부터 수신된 스케일된 고정 코드북 코드벡터를 필터링한다.

LP 합성 필터(105)는 입력 신호 평가치

를 결합기(106)에 전달한다. 결합기(106)는 입력 신호 s(n)를 수신하고 입력 신호 s(n)로부터 입력 신호의 평가치

를 뺀다. 입력 신호 s(n)과 입력 신호 평가치

사이의 차이는 지각 에러 가중 필터(107)에 제공되고, 상기 필터는

과 s(n) 사이의 차이 및 가중 함수 W(z)에 기초하여 지각적으로 가중된 에러 신호 e(n)를 형성한다. 지각적으로 가중된 에러 신호 e(n)는 제곱된 에러 최소화/파라미터 평가 블록(108)에 전달된다. 제곱된 에러 최소화/파라미터 양자화 블록(108)은 에러 값 E(통상적으로

)를 결정하기 위하여 에러 신호 e(n)를 사용하고, 추후에 E의 최소치에 기초하여 입력 신호 s(n)의 최상 평가치

를 생산하는 최적 세트의 여기 벡터 관련 파라미터들(L,

, I 및 r)을 사용한다. 양자화된 LP 계수들 및 최적 세트의 파라미터들(L,

, I 및 r)은 통신 채널을 통하여 수신 통신 장치에 전달되고, 여기서 스피치 합성기는 입력 스피치 신호의 평가치

를 재구성하기 위하여 LP 계수들 및 여기 벡터 관련 파라미터들을 사용한다. 대안적 사용은 컴퓨터 하드 디스크와 같은 전자 또는 전자기계적 장치에 대한 효율적인 저장소를 포함할 수 있다.

코더(100)와 같은 CELP에서, CELP 코더 결합 여기 신호 ex(n)를 생성하기 위한 합성 함수는 다음 일반화된 차 방정식에 의해 제공된다.

(1a)

여기서 ex(n)은 서브프레임에 대한 합성 결합 여기 신호이고,

는 FCB(103)과 같은 코드북으로부터 선택된 코드벡터, 또는 여기 벡터이고, I는 선택된 코드벡터를 나타내는 인덱스 파라미터, 또는 코드워드이고, r은 코드벡터의 스케일링을 위한 이득이고, ex(n-L+i)는 현재 서브프레임(음성 스피치 L이 통상적으로 피치 주기에 연관된)의 (n+i)번째 샘플에 관한 L(정수 해상도) 샘플들에 의해 지연된 합성 결합 여기 신호이고,

는 장기간 예측기(LTP) 필터 계수들이고 N은 서브프레임의 샘플들의 수이다. n-L+i<0일때, ex(n-L+i)는 방정식(1a)에 도시된 바와 같이 구성된 종래 합성 여기 히스토리를 포함한다. 즉, n-L+i<0에 대하여, 표현 'ex(n- L+i)'는 현재 서브프레임전에 구성된 여기 샘플에 대응하고, 상기 여기 샘플은 LTP 필터 전달 함수에 따라 지연되고 스케일되었다.

(2)

코더(100)와 같은 통상적인 CELP 스피치 코더의 임무는, 0≤n<N에 대한 합성 여기 시퀀스 ex(n)가 LP 필터(105)를 통하여 필터될때, 최종 합성 스피치 신호

가 사용된 왜곡 기준, 즉 서브프레임에 대하여 코딩될 입력 스피치 신호 s(n)에 따라 거의 밀접하게 근사화하도록, 합성 여기, 즉 n<0에 대해 ex(n)으로 제공된 코더(100)에서 파라미터들(L,

, I 및 r) 및 단기간 선형 예측기(LP) 필터(105)의 결정된 계수들을 나타내는 파라미터를 선택하는 것이다.

LTP 필터 차수 K>1일때, 방정식(1)에서 정의된 바와 같은 LTP 필터는 다중탭 필터이다. 기술된 바와 같은 통상적인 정수 샘플 해상도 지연 다중탭 LTP 필터는 일반적으로 인접하여 지연된 샘플의 가중된 K 합으로서 주어진 샘플을 예측하고, 여기서 상기 지연은 예상된 피치 주기 값들의 범위(통상적으로 8kHz 신호 샘플링 속도에서 20과 147 샘플들)로 한정된다. 정수 샘플 해상도 지연(L) 다중탭 LTP 필터는 동시에 스펙트랄 성형(Atal, Ramachandran 등)을 제공하면서 지연의 비정수 값들을 절대적으로 모델링하는 능력을 가진다. 다중탭 LTP 필터는 L외에 K 단일 βi 계수들의 양자화를 요구한다. 만약 K=1이면, 1차 LTP 필터는 단일 βo 계수 및 L만의 양자화를 요구한다. 그러나, 정수 샘플 해상도 지연(L)을 사용하는 1차 LTP 필터는 비정수 지연의 배수 정수 또는 가장 근접 정수로 반올림하는 것보다 절대적으로 비정수 지연 값을 모델링하는 능력을 가지지 않는다. 어느 것도 스펙트랄 성형을 제공하지 못한다. 그럼에도 불구하고, 1차 LTP 필터 실행들은 단지 두개의 파라미터들(L 및 β)만이 양자화될 필요가 있기 때문에 공통적으로 많은 낮은 비트 속도 스피치 코더 실행들을 위해 사용되었다.

서브 샘플 해상도 지연을 사용하는 1차 LTP 필터의 도입은 최신 LTP 필터 설계를 상당히 진보시킨다. 이 기술은 Ira A. Gerson 및 Mark A. Jasiuk에 의한 "개선된 서브-샘플 해상도 장기간 예측기를 갖는 디지털 스피치 코더(Digital Speech Coder Having Improved Sub-sample Resolution Long-Term Predictor)"인 미국특허 5,359,696(이후 Gerson 등에 의한 이라 함) 및 Peter Kroon and Bishnu S. Atal에 의한 "스피치 코딩 시스템들에서의 피치 예측기의 수행 개선(On Improving the Performance of Pitch Predictors in Speech Coding Systems)", Advances in Speech Cdoing, Kluwer Academic Publishers, 1991, Chapter 30, pp. 321-327의 텍스트북 챕터(이후 Kroon 등이라 함)에 기술된다. 이 기술을 사용하여, 지연 값은 여기서

로서 다시 정의된 서브 샘플 해상도로 명백히 표현된다.

에 의해 지연된 샘플들은 보간 필터를 사용하여 얻어질 수 있다. 다른 분수 부분들을 가진

의 값들에 의해 지연된 샘플들을 계산하기 위하여, 원하는 분수 부분의 가장 근접한 표현을 제공하는 보간 필터 위상은 보간 필터의 선택된 위상에 대응하는 보간 필터 계수들을 사용하여 필터링에 의해 서브 샘플 해상도 지연 샘플을 생성하도록 선택될 수 있다. 명백히 서브 샘플 해상도 지연을 사용하는 1차 LTP 필터는 서브 샘플 해상도에 예측된 샘플들을 제공할 수 있지만, 스펙트랄 성형을 제공하는 능력이 부족하다. 그럼에도 불구하고, 서브 샘플 해상도 지연을 가진 1차 LTP 필터가 통상적인 정수 샘플 해상도 지연 다중탭 LTP 필터보다 장기간 신호 상관관계를 보다 효과적으로 제거하는 것이 (Kroon 등)에서 도시된다. 1차 LTP 필터에서, 단지 2개의 파라미터들은 인코더로부터 디코더로 전달된다 : β 및

, 이에 따라 L의 양자화, 및 K 유일 βi 계수들을 요구하는 정수 해상도 지연 다중탭 LTP 필터에 관련하여 개선된 양자화 효율성을 발생시킨다. 결과적으로, LTP 필터의 1차 서브 해상도는 현재 CELP 타입 스피치 코딩 알고리즘에 가장 폭넓게 사용된다. 이 필터에 대한 LTP 필터 전달 함수는 제공된 대응하는 차 방정식과 함께 다음과 같이 제공된다.

(3)

방정식들(3) 및 (4)에서 명백하게 제공된 대응 차 방정식은 서브 샘플 해상도 지연

에 의해 지적된 샘플들을 계산하기 위하여 보간 필터의 사용이다.

도 2는 상기된 바와 같이 서브 샘플 해상도를 가진 LTP 및 다중탭 LTP(도 1에 도시됨) 사이의 고유의 차들을 도시한다. 코더(200)에서, LTP(204)는 파라미터들(

, β, I, r)을 멀티플렉서(109)에 추후에 전달하는 에러 최소화/파라미터 방정식 블록(208)로부터 2개의 파라미터들(β,

) 만을 요구한다.

LTP 필터를 기술시, LTP 필터 전달 함수로부터 일반화된 것은 제공된다. n<0의 값들에 대한 ex(n)은 LTP 필터 상태를 포함한다. n의 샘플들에 액세스를 필요로 하는 L 또는

의 값들에 대하여, n≥0에 대해, 방정식(1) 또는 (4)에서 ex(n)를 평가할때, LTP 필터에 대한 간략화되고 부등 형태는 종종 추후에 보다 상세히 기술될 가상 코드북 또는 적응성 코드북(ACB)이 사용된다. 이러한 기술은 Richard H. Ketchum, Willem B. Kleijn, and Daniel J. Krasinski에 의한 것이고, 발명의 명칭이 "가상 검색을 사용하는 코드 여기된 선형 예측 보코더(Code Excited Linear Predictive Vocoder Using Virtual Searching)"인 미국특허 4,910,781(이후 Ketchum 등이라 함)에 기술된다. 엄격히 말하면 용어 "LTP 필터"는 방정식 (1a) 또는 (4)의 직접적인 실행이지만, LTP 필터의 ACB 실행에 참조할 수 있는 애플리케이션에서 사용될 수 있다. 예들에서, 이러한 구별이 종래 기술 및 현재 발명의 기술에 중요할때, 그 구별은 명확하게 이루어질 것이다.

ACB 실행의 그래픽 표현은 도 3에 도시될 수 있다. 서브 샘플 해상도 필터 지연

의 값이 서브 프레임 길이(N)보다 클 때, 도 2 및 3은 일반적으로 동일하다. 이 경우, ACB 메모리(310) 및 LTP 필터(204) 메모리는 동일한 데이타를 필수적으로 포함한다. 필터 지연이 서브프레임의 길이 미만일때, 스케일된 FCB 여기 및 LTP 필터 메모리는 LTP 메모리(204)를 통하여 재순환되고 β 계수에 의해 귀납 스케일링 반복에 영향을 받는다. ACB 실행(310)에서, ACB 벡터는 하기 형태의 단위 이득 장기 필터를 사용하고,

(4a)

β 계수의 단일 비귀납 예들에 의해 추후에 스케일된 c₀(n) = ex(n), 0≤n<N임으로써 계산된다.

논의된 LTP 필터를 실행하는 2가지 방법 ; 즉 직접적으로 (100, 200)으로 실행되거나 ACB 방법(300)을 통하여 각각 실행될 수 있는 정수 해상도 지연 다중탭 LTP 필터 및 1차 서브 샘플 해상도 지연 LTP 필터들을 고려하여, 다음 관찰들이 이루어진다.

종래 다중탭 예측기는 2개의 임무들을 동시에 수행한다 : 예측을 위하여 사용된 가중 샘플들의 합으로서 예측된 샘플을 생성하는 것을 통하여 비정수 지연의 스펙트랄 성형 및 명백한 모델링(Atal 등 및 Ramachandran 등). 종래 다중탭 LTP 필터에서, 2개의 임무들 - 비정수 지연의 스펙트랄 성형 및 절대적 모델링은 효과적으로 함께 모델링되지 않는다. 예를 들어, 만약 주어진 서브프레임에 대한 스펙트랄 성형이 요구되지 않으면, 3차 다중탭 LTP 필터는 비정수 해상도를 이용한 지연을 절대적으로 모델링한다. 그러나, 상기 필터의 차수는 고품질 보간 샘플 값을 제공하기 위하여 충분히 높지 않다.

한편, 1차 서브 샘플 해상도 LTP 필터는 임의의 차수의 필터를 보간하는 위상을 선택하기 위한 지연의 분수 부분을 절대적으로 사용하여 매우 높은 품질을 사용한다. 서브 샘플 해상도 지연이 절대적으로 정의되고 사용되는 이러한 방법은 보간 필터 계수들을 나타내는 매우 효율적인 방식을 제공한다. 이러한 계수들은 절대적으로 양자화되고 전송될 필요가 없지만, 대신 수신된 지연으로부터 추론될 수 있고, 상기 지연은 서브 샘플 해상도로 지정된다. 상기 필터가 유성화된(유사 주기) 스피치를 위하여 스펙트랄 성형을 도입하는 능력을 가지지 않는 동안, 서브 샘플 해상도를 가진 지연을 정의하는 효과가 스펙트랄 성형을 도입하는 능력보다 중요하다는 것이 발견되었다(Kroon 등). 이들은 서브 샘플 해상도 지연을 가진 1차 LTP 필터가 종래 다중탭 LTP 필터보다 효과적이고 다수의 산업 표준들에 폭넓게 사용되는 이유들중 일부이다.

서브 샘플 해상도 1차 LTP 필터가 LTP 필터에 대하여 매우 효과적인 모델을 제공하는 동안, 서브 샘플 해상도 1차 LTP 필터가 부족한 특성을 스펙트랄 성형하기 위한 메커니즘을 제공하는 것이 바람직하다. 스피치 신호 고조파 구조는 보다 높은 주파수들에서 약해지는 경향이 있다. 이러한 효과는 증가된 신호 대역폭(협대역 신호들에 비해)을 특징으로 하는 광대역 스피치 코딩 시스템들에 보다 표명된다. 광대역 스피치 코딩 시스템에서, 협대역 스피치 코딩 시스템들(8kHz 샘플링 주파수)에 대하여 최대 달성할 수 있는 4kHz 대역폭과 비교하여 8kHz까지의 신호 대역폭은 달성될 수 있다(16kHz 샘플링 주파수). 스펙트랄 성형의 한가지 방법은 Bruno Bessette, Redwan Salami, 및 Roch Lefebvre에 의한 발명의 명칭이 "광대역 신호들의 코딩에서의 피치 검색(Pitch Search in Coding Wideband Signals)"인 특허 WO 00/25298에 기술된다(이후 Bessette 등이라 함). 도 4에 도시된 바와 같이 이 방법은 LTP 벡터가 평가되는 스펙트랄 성형 필터에 의해 명백히 필터되는 것을 요구하고, 단위 전달 함수를 가질 수 있는 것중 하나로부터 선택하기 위하여 적어도 2개의 스펙트랄 성형 필터들(420)의 제공을 규정한다. 이러한 방법의 다른 구 현은 기술되고, 적어도 2개의 구별되는 보간 필터들이 제공되며, 각각은 구별되는 스펙트랄 성형을 가진다. 2개의 구현들중 어느 하나에서, LTP 벡터의 필터된 버젼은 LTP 필터 파라미터들과 관련하여 적어도 2개의 스펙트랄 성형 필터들중 어느 것이 사용되는가(421)를 선택하기 위하여 평가된(408) 왜곡 메트릭(distortion metric)을 형성하기 위하여 사용된다. 비록 이 기술이 스펙트랄 성형을 가변시키기 위한 수단을 제공하지만, LTP 벡터 및 스펙트랄 성형 필터 결합에 대응하는 왜곡 메트릭의 계산전에 LTP 벡터의 스펙트랄적으로 성형된 버젼이 생성되는 것을 요구한다. 만약 큰 세트의 스펙트랄 성형 필터들이 선택하기 위하여 제공되면, 이것은 필터링 동작들로 인해 상당한 복잡성의 증가를 유발한다. 또한, 인덱스(m)와 같은 선택된 필터에 관련된 정보는 엔코더(멀티플렉서(109)를 통해)에서 디코더로 양자화되고 전달될 필요가 있다.

그러므로, 비정수 지연 값들을 효과적으로 모델링하고(낮은 복잡도로) 스펙트랄 성형을 제공하는 능력을 가진 스피치 코딩 방법 및 장치들이 필요하다.

도 1은 정수 샘플 해상도 지연 다중탭 LTP 필터를 사용하는 종래 기술의 코드 여기된 선형 예측(CELP) 코더의 블록도.

도 2는 서브 샘플 해상도 1차 LTP 필터를 사용하는 종래 기술의 코드 여기된 선형 예측(CELP) 코더의 블록도.

도 3은 서브 샘플 해상도 1차 LTP 필터(가상 코드북으로서 실행됨)를 사용하 는 종래 기술의 코드 여기된 선형 예측(CELP) 코더의 블록도.

도 4는 서브 샘플 해상도 1차 LTP 필터(가상 코드북으로서 실행됨) 및 스펙트랄 성형 필터를 사용하는 종래 기술의 코드 여기된 선형 예측(CELP) 코더의 블록도.

도 5는 본 발명의 실시예에 따른 코드 여기된 선형 예측(CELP) 코더(제한되지 않은 서브 샘플 해상도 다중탭 LTP 필터)의 블록도.

도 6은 본 발명의 실시예에 따른 코드 여기된 선형 예측(CELP) 코더(가상 코드북으로서 실행된 제한되지 않은 서브 샘플 해상도 다중탭 LTP 필터)의 블록도.

도 7은 본 발명의 다른 실시예에 따른 코드 여기된 선형 예측(CELP) 코더(서브 샘플 해상도 다중탭 LTP 필터의 대칭 실행)의 블록도.

도 8은 코더(서브 샘플 해상도 다중탭 LTP 필터 및 서브 샘플 해상도 다중탭 LTP 필터의 대칭 실행)에 사용하기 위한 본 발명에 대한 신호 흐름들 및 처리 블록들의 블록도.

도 9는 본 발명의 실시예에 따라 신호를 코딩시 도 8의 CELP 코더에 의해 실행되는 단계들의 논리 흐름도.

상기된 요구를 처리하기 위하여, 스피치 코딩 시스템에서 예측을 위한 방법 및 장치가 본 명세서 제공된다. 서브 샘플 해상도 지연을 사용하는 1차 LTP 필터의 방법은 다중탭 LTP 필터로 확장되거나, 다른 유리한 위치에서 바라볼때, 종래 정수 샘플 해상도 다중탭 LTP 필터는 서브 샘플 해상도 지연을 사용하기 위하여 확 장된다. 다중탭 LTP 필터의 이러한 새로운 형식화는 종래 기술 LTP 필터 구성들에 비해 다수의 장점들을 제공한다. 서브 샘플 해상도로 인한 지연을 정의하는 것은 보간 필터에 의해 사용된 과샘플링 인자의 해상도 제한값내에서 분수 성분을 가진 지연 값들을 모델링하는 것을 가능하게 한다. 상기 다중탭 LTP 필터의 계수들(

)은 분수 성분을 가진 지연 효과를 모델링하는데 매우 자유롭다. 결과적으로 주 기능은 제공된 주기성 정도를 모델링하고 스펙트랄 성형을 부가함으로써 LTP 필터의 예측 이득을 최대화하는 것이다. 이것은 비정수 값 지연 및 스펙트랄 성형 모두를 모델링하는 때때로 상충하는 임무들에 매달리기 위하여 하나이고 덜 효과적인 모델을 사용하는 종래 정수 샘플 해상도 다중탭 LTP 필터와 대조된다. 새로운 LTP 필터를 1차 서브 샘플 해상도 LTP 필터와 비교하여, 1차 서브 샘플 해상도 LTP 필터를 다중탭 LTP 필터로 확장하는 새로운 방법은 스펙트랄 성형을 모델링하는 능력을 부가한다.

몇몇 스피치 코더 애플리케이션들에서, LTP 벡터를 스펙트랄적으로 성형하는 것이 바람직할 수 있다. 예를 들어, 서브 샘플 해상도 지연 및 스펙트랄 성형모듈로 나타내는 매우 효과적인 모델을 제공하는 LTP 필터의 새로운 형식은 주어진 비트 속도에서 스피치 품질을 개선하기 위하여 사용될 수 있다. 광대역 신호 입력을 가진 스피치 코더들에 대하여, 신호에서 고조파 구조가 서브프레임에서 서브프레임으로 가변하는 정도를 가진 보다 높은 주파수들을 감소시키는 경향을 가지기 때문에, 스펙트랄 성형을 제공하는 능력은 부가적인 중요성을 갖는다. 스펙트랄 성형을 1차 서브 샘플 해상도 LTP 필터(Bessette, 등)에 부가하는 종래 기술 방법은 LTP 필터의 출력에 스펙트랄 성형 필터를 제공하고, 적어도 2개의 성형 필터들은 선택하기 위하여 제공된다. 스펙트랄적으로 성형된 LTP 벡터는 왜곡 메트릭을 생성하기 위하여 사용되고, 왜곡 메트릭은 어느 스펙트랄 성형 필터를 사용하는 가를 결정하기 위하여 평가된다.

도 5는 서브 샘플 해상도 지연 및 스펙트랄 성형을 나타내는 보다 많은 가용성 모델을 제공하는 LTP 필터 구조를 도시한다. 필터 구조는 스펙트랄 성형 필터링 동작을 정확하게 수행하지 않고 필터의 파라미터들을 계산하거나 선택하는 방법을 제공한다. 본 발명의 이러한 측면은 최적 스펙트랄 성형에 관한 정보를 구현하는 컴퓨터 필터 파라미터들(

)을 매우 효과적으로 계산하거나, 제공된 βi 계수 값들의 세트(또는 βi 벡터들)로부터 다중탭 필터 계수들(

)을 선택할 수 있게 한다. 일반화된 LTP 필터(504)의 전달 함수는 하기와 같다.

(5)

상기 필터의 차수는 K이고, 여기서 K>1을 선택하는 것은 다중탭 LTP 필터를 유발한다. 지연

은 서브 샘플 해상도 및 분수 부분을 가진 지연 값들(－

＋i)로 정의되고, 보간 필터는 Gerson 등 및 Kroon 등에서 상술된 바와 같이 서브 샘플 해상도를 계산하기 위하여 사용된다. 분수 성분을 가진 지연들의 효과를 모델링하는데 매우 자유로운 계수들(

)은 제공된 주기성 정도를 모델링하고 동시에 스펙트랄 성형을 부가함으로써 LTP 필터의 예측 이득을 최대화하기 위하여 계산되거나 선택된다. 이것은 새로운 LTP 필터 구조 및 Bessette 등 사이에서 다른 구별이다. (

) 계수들은 스펙트랄 성형 특성들을 함축적으로 구현한다 : 즉, 선택하기 위한 전용 스펙트랄 성형 세트가 필요없고, 필터 선택 결정은 인코더에서 디코더로 양자화되고 전달된다. 예를 들어, 만약 βi 계수들의 벡터 양자화가 행해지고 βi 벡터 양자화 테이블이 선택을 위한 J 가능 βi 벡터들을 포함하면, 상기 테이블은 각각의 βi 벡터에 대하여 하나인 J 구별 스펙트랄 성형 특성들을 은연중에 포함할 수 있다. 게다가, 스펙트랄 성형 필터링은 설명될 바와 같이 평가되는(508에서) βi 벡터에 대응하는 왜곡 메트릭을 계산하기 위하여 행해질 필요가 없다. 본 발명의 다른 실시예에서, LTP 필터 계수들은 대칭일 LTP 필터의 다중탭들을 요구함으로써 비정수 지연들을 모델링하기 위한 시도를 완전히 방지할 수 있다. 대칭적인 필터는 인덱스 i의 모든 유효 값들에 대한 β_-i = β_i인 것을 요구한다; 즉 K₁≤i≤K₂에 대하여, K₁=K₂이고 K는 기수이다. 상기 구조는 양자화 효율성 및 계산 복잡성을 감소시키기 위하여 바람직하다.

본 발명은 도 6 내지 도 9를 참조하여 더욱 완전히 기술될 수 있다. 도 6은 본 발명의 실시예에 따른 CELP 타입 스피치 코더(600)의 블록도이다. 명백한 바와 같이, LTP 필터(604)는 코드북(310), K 여기 벡터 생성기(620), 스케일링 유닛들(621), 및 합산기(612)를 포함하는 다중탭 LTP 필터(604)를 포함한다.

코더(600)는 하나 이상의 마이크로프로세서들, 마이크로제어기들, 디지털 신호 처리기들(DSP), 그것의 결합 같은 처리기 또는 종래 기술에서 알려지고, 랜덤 액세스 메모리(RAM), 다이나믹 랜덤 액세스 메모리(DRAM), 및/또는 판독 전용 메모리(ROM) 또는 처리기에 의해 실행될 수 있는 데이타, 코드북들 및 프로그램들을 저장하는 그것의 등가물들과 같은 하나 이상의 관련된 메모리 장치들과 통신하는 다른 장치들로 실행된다.

새로운 다중탭 LTP 필터(방정식 5)에 대한 전달 함수는 하기에서 다시 언급된다.

(6)

결합된 합성 여기 ex(n)을 생성하는 대응하는 CELP 일반화 차 방정식은 다음과 같다.

(7)

(n－

＋i)≥0 에 대해 ex(n－

＋i)에 액세스를 제공하는

의 값들에 대한 바람직한 실시예에서, 적응성 코드북(ACB) 기술은 복잡성을 감소시키기 위하여 사용된다. 상기된 바와 같이, 이러한 기술은 단순화된 LTP 필터의 비등가 실행이고, Ketchum 등에 기술된다. 상기 단순화는 현재 서브프레임에 대한 ex(n)의 샘플들을 포함한다 ; 즉, n<0에 대하여 정의된 ex(n)의 샘플에 따른 0≤n<N는 n<0에 대하여 정의되고, 따라서 현재 서브프레임 0≤n<N에 대한 ex(n)의 정의된 샘플들에 독립적이다. 이러한 기술을 사용하여, ACB 벡터들은 하기와 같이 정의된다.

(8)

분수 성분을 가진

의 값들에 대하여, 보간 필터는 지연된 샘플들을 계산하기 위하여 사용된다. ACB의 본래 정의와 달리, Ketchum 등에 의해 제공된 ex(n)의 K₂ 부가 샘플들은 서브프레임의 N번째 샘플 이상 계산될 필요가 있다.

(9)

방정식들(8 내지 9)에서 생성된 ex(n)의 샘플들을 사용하여, 새로운 신호 c_i(n)는 하기와 같이 정의된다.

(10)

결합된 합성 서브프레임 여기는 방정식들(8 내지 10)의 결과들을 사용하여 표현된다.

(11)

스피치 인코더의 임무는 LTP 파라미터들

및

뿐만 아니라 여기 코드북 인덱스(I) 및 코드벡터 이득(r)을 선택하는 것이므로, 입력 스피치 s(n) 및 코드화된 스피치

사이의 지각적으로 가중된 에러 에너지는 최소화된다.

방정식 (11)을 다시 쓰면 하기와 같다.

(12)

(13)

(14)

지각적으로 가중된 합성 필터에 의해 필터된 ex(n)은 하기와 같다.

(15)

는 지각적으로 가중된 합성 필터 H(z) = W(z)/A_q(z)에 의해 필터된

의 하나의 버젼이다. 게다가, p(n)이 지각적 가중 필터 W(z)에 의해 필터된 입력 스피치 s(n)이다. 그 다음 e(n)인 샘플당 지각적으로 가중된 에러는 다음과 같다.

(16)

E인 서브 가중된 에러 에너지 값은 하기와 같다.

(17)

그리고 하기와 같이 확장될 수 있다.

(18)

방정식(18)의 괄호내의 합

을 이동시키는 것은 하기를 유발한다.

(19)

방정식(19)은 하기 항들에서 동일하게 표현될 수 있다는 것이 명백하다.

(ｉ) β_i - K₁≤i≤K₂ 및 r, 또는 (λ₀, λ₁,...,λ_k)

(ⅱ) 필터된 성분 벡터들

내지

중에서 에러 상관 관계, 즉,

,

(ⅲ) 지각적으로 가중된 타켓 벡터 p(n) 및 각각의 필터된 성분 벡터들 사이의 크로스 상관관계들, 즉 (R_pc(i)), 및

(ⅳ) 서브프레임에 대한 가중된 타켓 벡터 p(n)의 에너지, 즉 (R_pp).

상기 리스트된 상관관계들은 다음 방정식들로 표현될 수 있다.

(20)

(21)

(22)

(23)

방정식들 (20) 내지 (23)에 의해 표현된 상관관계들 및 이득 벡터 λ_j의 항에서 방정식(19)을 다시 쓰는 것은 E, 서브프레임에 대한 지각적으로 가중된 에러 에너지 값에 대한 다음 방정식을 형성한다.

(24)

최적 세트의 여기 벡터 관련 이득 항들 λ_i, 0≤j≤K에 대하여 푸는 것은 각각의 λ_i, 0≤j≤K에 대한 E의 부분 도함수를 얻고, 영(0)과 같은 최종 부분 도함수를 각각 설정하고, K+1 동시 선형 방정식들의 최종 시스템을 푸는 것, 즉 동시 선형 방정식들의 다음 세트를 푸는 것을 포함한다.

(25)

(25)에서 제공된 K+1 방정식을 평가하는 것은 K+1 동시 선형 방정식들의 시스템을 발생시킨다. 최적 이득들의 벡터 또는 스케일 인자들 (λ₀, λ₁,...,λ_k)에 대한 해법은 다음 방정식을 풀음으로써 얻어질 수 있다.

(26)

당업자는 방정식(26)의 해법이 실시간으로 코더(600)에 의해 수행될 필요가 없는 것을 인식한다. 코더(600)는 각각의 이득 정보 테이블(626)에 저장된 이득 벡터들(λ₀, λ₁,...,λ_k)을 트레인하고 얻기 위한 과정의 일부로서 오프라인에서 방정식(26)을 풀 수 있다. 각각의 이득 정보 테이블(626)은 각각의 에러 최소화 유닛/회로(608)에 포함되거나 참조될 수 있는 이득 정보를 저장하는 하나 이상의 테이블들을 포함하고, 여기 벡터 관련 이득 항들(λ₀, λ₁,...,λ_k)을 양자화하고 최적화하는데 사용될 수 있다. 방정식(11)에서 정의된 결합된 합성 여기 ex(n)에 의해 요구된 이득 항들(

및 r)(하기에서 설명됨)은 다음 방정식(28) 처럼 방정식(14)에서 지정된 변수 맵핑을 사용하여 얻어질 수 있다.

(27)

(28)

얻어진 각각의 이득 정보 테이블(626)을 제공하여, 코더(600) 및 특히 에러 최소화 유닛(608)의 임무는 방정식(24)에 의해 표현된 바와 같은 서브프레임(E)에 대한 지각적으로 가중된 에러 에너지가 평가된 이득 정보 테이블의 벡터들상에서 최소화되도록 이득 정보 테이블(626)을 사용하는 (λ₀, λ₁,...,λ_k)이다. 지각적으로 가중된 에러 벡터에 대한 최소 에너지를 형성하는 (λ₀, λ₁,...,λ_k)를 선택하기 위하여, 방정식(24)에서 표현된 바와 같은 E의 표현에서 λ_i, 0≤i≤K를 포함하는 각각의 항은 각각의 (λ₀, λ₁,...,λ_k) 벡터에 대해 미리 계산되고 각각의 이득 정보 테이블(626)에 저장될 수 있고, 각각의 이득 정보(626)는 룩업 테이블을 포함한다.

일단 이득 벡터가 이득 정보 테이블(626)에 기초하여 결정되면, 각각의 선택된 (λ₀, λ₁,...,λ_k)의 엘리먼트는 방정식(24)의 미리 계산된 항(선택된 이득 벡 터에 대응)의 제 1 (K+1)(즉,

)의 대응 엘리먼트인 값 '-0.5'에 의한 곱셈에 의해 얻어질 수 있다. 이것은 미리 계산된 에러 항들(E를 평가하기 위하여 필요한 계산을 감소시키는 것)을 저장할 수 있게 하고, 양자화 테이블에서 실제 (λ₀, λ₁,...,λ_k) 벡터들을 저장할 필요성을 제거한다. 상관관계들 R_pp, R_pc 및 R_cc _ㅇ이 상기한 바와 같이

, 0≤j≤K 를 산출하는 분해 처리에 의해 이득 항들(λ₀, λ₁,...,λ_k)로부터 명백히 분리되기 때문에, 상관관계들 R_pp, R_pc 및 R_cc는 일단 각각의 서브프레임에 대해서만 계산될 수 있다. 게다가, R_pp의 계산은 주어진 서브프레임에 대하여, 상관관계 R_pp가 방정식(24)에서 동일한 이득 벡터, 즉 (λ₀, λ₁,...,λ_k)을 가지거나 없이 선택될 수 있는 결과를 가진 상수이다.

방정식(24)의 항들이 상기된 바와 같이 미리 계산될 때, 방정식(24)의 방정식은 평가되는 이득 벡터에 대한

로 효과적으로 실행될 수 있다. 당업자는 특정 이득 벡터 양자화기, 즉 에러 최소화 유닛(608)의 이득 정보 테이블(626)의 특정 포맷이 도시하기 위하여 여기에 기술되지만, 개요적인 방법은 스칼라 양자화, 벡터 양자화, 또는 벡터 양자화 및 메모리없는 및/또는 예측 기술들을 포함하는 스칼라 양자화 기술들의 결합 같은 이득 정보를 양자화하는 다른 방법들에 이용된다는것을 인식한다. 종래에 잘 알려진 바와 같이, 스칼라 양자화 또는 벡터 양자화 기술들의 사용은 이득 벡터들을 결정하기 위하여 사용될 수 있는 이득 정보 테이블(626)에 이득 정보를 저장하는 것을 포함한다.

따라서, 코더(600)의 동작 동안 에러 가중 필터(107)는 가중된 에러 값을 최소화하기 위하여 선택된 다중탭 필터 계수들 및 LTP 필터 지연(

)을 출력하는 에러 최소 회로(608)에 가중된 에러 신호 e(n)를 출력한다. 상기된 바와 같이, 필터 지연은 서브 샘플 해상도 값을 포함한다. 다중탭 LTP 필터(604)는 제공되어 고정된 코드북 여기와 함께 필터 계수들 및 피치 지연을 수신하고 필터 지연 및 다중탭 필터 계수들에 기초하여 결합된 합성 여기 신호를 출력한다.

도 6 및 7 모두에서(하기됨), 다중탭 LTP 필터(604, 704)는 필터 지연을 수신하고 적응성 코드북 벡터를 출력하는 적응성 코드북을 포함한다. 벡터 생성기(620, 720)는 시간 시프트/결합 적응성 코드북 벡터들을 생성한다. 다수의 스케일링 유닛들(621, 721)은 제공되고, 각각은 시간 시프트된 적응성 코드북 벡터를 수신하고 다수의 스케일된 시간 시프트 코드북 벡터들을 출력한다. 시간 시프트된 적응성 코드북 벡터들중 하나에 대한 시간 시프트 값이 시간 시프트 없는 것에 대응하는 0일 수 있다는 것이 주의된다. 최종적으로, 합산 회로(612)는 선택되고 스케일된 FCB 여기 벡터와 함께 스케일된 시간 시프트 코드북 벡터들을 수신하고, 스케일된 시간 시프트 코드북 벡터들 및 선택되고, 스케일된 FCB 여기 벡터의 합으로서 결합된 합성 여기 신호를 출력한다.

본 발명의 다른 실시예는 지금 기술되고 도 7에 도시된다. 상기된 바와 같이, 서브 샘플 해상도 지연

을 사용하는 다중탭 LTP 필터의 계수들 βi는 분수 성분을 가진

의 값으로 인해 LTP 필터 지연

의 비정수 값들을 모델링하는데 매우 자유롭고, 분수적으로 지연된 샘플들의 모델링은 예를 들어 Gerson 등 및 Kroon 등에 지시된 바와 같이 보간 필터를 사용하여 행해진다. 여전히, 서브 샘플 해상도 지연 값이 사용될때조차,

가 표현되는 해상도는 보간 필터에 의해 사용된 최대 과샘플링 인자 및

의 이산값들을 표현하는 양자화기의 해상도와 같은 설계 선택들에 의해 통상적으로 제한된다. 방정식(24)의 서브프레임 가중 에러 에너지 E를 최소화하기 위하여 스피치 코더 이득들을 계산하거나 선택하는 것의 처리는 모순을 보상하기 위하여 K β_i의 계수들에 고유한 K 자유 정도를 사용한다. 일반적으로, 이것은 바람직한 효과이다. 그러나, 만약 스피치 코더 이득들을 양자화하기 위한 비트 할당이 제한되면, 서브 샘플 해상도 지연 다중탭 LTP 필터(또는 ACB 실행)를 다시 정의하는 것이 바람직하므로 선택된(및 한정된) 해상도로

를 표현함으로 왜곡을 보상하는 모델링 능력은 다중탭 필터 탭들(β_i)로부터 여기된다. 상기 형식은 (β_i) 계수들의 변수를 감소시켜, 추후 양자화에

가 보다 영향을 받는다. 상기 경우, β_i 계수들의 모델링 탄성은 제공된 주기성 정도를 나타내고 방정식(24)을 최소화하기 위하여 찾는 부산물들인 스펙트랄 성형을 모델링하는 것으로 제한된다.

기수 차수일 서브 샘플 해상도 다중탭 LTP 필터를 가하여, 즉 기수일 필터 차수 K를 요구하고, 대칭일 필터를 가하여, 즉 β_-i = β_i, K₁=K₂, 및 K₁≤i≤K₂인 특 성을 가진 필터는 상기 설계 오브젝트에 부합하는 LTP 필터(704)를 유발한다. 대칭 필터가 우수이지만, 바람직한 실시예에서 기수로 선택되는 것이 주의된다. 기수 대칭 필터에 대응하도록 변형된 방정식(6)의 LTP 필터 전달 함수의 버젼은 다음과 같이 도시된다.

(6a)

바람직한 실시예의 필터는 ACB 코드북 실행의 환경에서 기술된다. 방정식 (8)로부터, ACB 벡터 정의를 소환한다.

(29)

분수 성분을 가진

의 값들에 대하여, 보간 필터는 지연된 샘플을 계산하기 위하여 사용된다. 새로운 변수 K'를 정의하고, 여기서 K'=K₁=K₂. 다음, 서브프레임의 N번째 샘플 넘어 K' 샘플들에 의해 ex(n)을 확장하면 다음과 같다.

(30)

대칭 필터의 차수는 다음과 같다.

(31)

바람직한 실시예에서, K'=1이다. β_-i = β_i 이기 때문에, 유일한 β_i 값만을 고려하는 것이 편리하다 ; 즉, -K'≤i≤K' 대신 0≤i≤K'에 의해 인덱스된 β_i 계수들이다. 이것은 다음과 같이 행해질 수 있다. 방정식(30 및 31)에서 생성된 샘플들 ex(n)을 사용하여, 새로운 신호, ν_i(n)은 지금 정의된다.

(32)

결합된 합성 서브프레임 여기 ex(n)은 방정식(30-32)의 결과를 사용하여 다음과 같이 표현될 수 있다.

(33)

스피치 인코더의 임무는 스피치 s(n)와 코드화된 스피치

사이의 서브프레임 가중 에러 에너지가 최소화되도록 LTP 필터 파라미터들(

및 β_i 계수들) , 및 여기 코드북 인덱스(I) 및 코드벡터 이득(r)을 선택하는 것이다.

방정식(33)을 다시 쓰면 다음과 같다.

(34)

(35)

(36)

지각적으로 가중된 합성 필터에 의해 필터된 ex(n)는 다음과 같다.

(37)

의 버젼이다. 이전과 같이, p(n)이 지각적 가중 필터 W(z)에 의해 필터된 입력 스피치 s(n)이다. 다음 샘플당 지각적 가중 에러인 e(n)은 다음과 같다.

(38)

서브프레임 가중 에러 에너지 E는 다음과 같다.

(39)

이것은 방정식(17)과 유사하다. 방정식들(18 내지 26)과 동일한 분석 및 도함수를 가진후, 다음 에러 표현을 얻는다.

(46)

이것은 다음 세트의 동시 방정식들을 유도한다.

(48)

이전과 같이, 당업자는 방정식(48)의 해법이 실시간으로 코더(700)에 의해 수행될 필요가 없다는 것을 인식한다. 코더(700)는 각각의 이득 정보 테이블(726)에 저장된 이득 벡터들(λ₀, λ₁,...,λ_k' ₊₁)을 트레인하고 얻기 위한 과정의 일부로서 오프라인에서 방정식(48)을 풀 수 있다. 이득 정보 테이블(726)은 각각의 에러 최소화 유닛(708)에 포함되거나 참조될 수 있는 이득 정보를 저장하는 하나 이상의 테이블들을 포함하고, 여기 벡터 관련 이득 항들(λ₀, λ₁,...,λ_k' ₊₁)을 양자화 및 최적화하기 위하여 사용될 수 있다.

본 발명의 바람직한 실시예들의 설명에서, 다중탭 LTP 필터 탭들의 간격은 떨어진 1 샘플로소서 제공된다. 현재 본 발명의 다른 실시예에서, 다중탭 필터 탭들 사이의 간격은 하나의 샘플과 다를 수 있다. 즉, 샘플의 일부일 수 이거나 정수 및 분수 부분을 가진 값일 수 있다. 본 발명의 이 실시예는 다음과 같이 방정식(6)을 변형함으로써 도시된다.

(6b)

방정식(6a)가 다음과 같이 유사하게 변형될 수 있다는 것이 주의된다.

(6c)

값은 사용된 보간 필터의 해상도에 결합될 수 있다. 만약 보간 필터의 최대 해상도가 신호 s(n)이 샘플되는 주파수에 비해

샘플이면,

는

로 선택되고, 여기서 l≥1이다. 비록 필터 탭들의 간격이 방정식(6b) 및 (6c)에서 균일한 것으로 도시되지만, 탭들의 비균일한 간격은 실행될 수 있다. 게다가,

< 1의 값들에 대하여, 필터 차수 K는 탭들의 단일 샘플 간격의 경우에 비해 증가될 필요가 있다는 것이 주의된다.

코더(700)에서 여기 파라미터들(

,

, I 및 r)의 선택과 관련된 계산 복잡성의 양을 줄이기 위하여, LTP 필터 파라미터들(

및

)은 고정된 코드북으로부터 영을 가정하여 우선 선택될 수 있다. 이것은 방정식(46)의 서브프레임 가중 에러의 변형된 버젼을 발생시키고, 상기 변형은 고정된 코드북 벡터와 연관된 항들을 E로부터 제거하는 것이고, 간략화된 가중 에러 표현을 다음과 같이 형성한다.

(51)

방정식(51)에서 E의 최소화를 유발하는 한세트의 (λ₀, λ₁,...,λ_k') 이득들을 계산하는 것은 하기와 같은 K'+1 동시 선형 방정식들을 푸는 것을 포함한다.

(52)

선택적으로, 사용된 검색 방법에 따라 방정식(51)에서 E를 최소화하는 (λ₀, λ₁,...,λ_k') 벡터에 대하여 양자화 테이블 또는 테이블들이 검색될 수 있다. 상기 경우, LTP 필터 계수들은 FCB 벡터 기여를 고려하지 않고 양자화된다. 바람직한 실시예에서, 그러나 양자화된 (λ₀, λ₁,...,λ_k' ₊₁)의 값들의 선택은 모든 (K'+2) 코더 이득들의 최적화를 결합하는 것에 대응하는 방정식(46)의 평가에 의해 유도된다. 2개의 경우중 어느 하나에서, 가중된 타켓 신호 p(n)는 FCB로부터 영의 기여를 가정하여 계산된(또는 양자화 테이블(들)로부터 선택된) (λ₀, λ₁,...,λ_k') 이 득들을 사용하여 지각적으로 가중된 LTP 필터 기여를 p(n)으로부터 제거함으로써 고정된 코드북 검색을 위하여 가중된 타겟 신호 p_fcb(n)을 제공하도록 변형될 수 있다.

(53)

FCB는 검색을 위하여 사용된 방법영향을 받는 서브프레임 가중 에러 에너지(E_fcb,i)를 최소화하는 인덱스(i)에 대하여 검색된다.

(54)

상기 표현에서, i는 평가된 FCB 벡터의 인덱스이고,

는 영의 상태 가중 합성 필터에 의해 필터된 i번째 코드벡터이고, r_i는

에 대응하는 최적 스케일 인자이다. 성공적인 인덱스(i)는 I가되고, 코드워드는 선택된 FCB 벡터에 대응한다.

선택적으로, FCB 검색은 중간 LTP 필터 벡터가 '플로팅(floating)'인 것을 가정하여 실행된다. 이 기술은 평가되는 각각의 후보 FCB 벡터에 대하여, 이득들의 최적 세트가 벡터 및 중간 LTP 필터 벡터에 대하여 가정되도록 FCB 코드북을 검색하는 방법을 개시하는 Ira A. Gerson에 의한 발명의 명칭이 "개선된 스피치 품질을 갖는 벡터 여기 소스를 갖는 디지털 스피치 코더(Digital Speech Coder with Vector Excitation Source Having Improved Speech Quality)"인 특허 WO9101545A1에 기술된다. LTP 벡터는 FCB 기여없는 것을 가정하여 파라미터들이 선택된다는 측면에서 "중간(intermediate)"이고, 리비전(revision)에 영향을 받는다. 예를 들어, 인덱스(I)에 대한 FCB 검색의 완료후, 모든 이득들은 추후에 재계산되거나(예를 들어, 방정식(48)을 풀음으로써) 또는 양자화 테이블(들)로부터 선택됨으로써(예를 들어, 선택 기준으로서 방정식(46)을 사용하여) 동시에 다시 최적화될 수 있다. 가중된 합성 필터에 의해 필터된 중간 LTP 필터 벡터는 다음과 같이 정의된다.

(55)

최적 이득들을 가정하는 FCB 검색에 대응하는 가중된 에러 표현은 다음과 같다.

(56)

각각의

는 평가되고, 최적 파라미터들(

_i 및

)는 가정된다. 방정식(56)이 최소화되는(사용된 FCB 검색 방법에 영향을 받음) 인덱스(i)는 선택된 FCB 코드워드(I)가 된다. 선택적으로, 방정식(56)으로부터 변형된 것은 사용되어, 각각의 FCB 벡터에 대하여 계산되고, 모든(K'+2) 스케일 인자들은 다음과 같이 최적화된다.

(57)

즉, 평가된 i번째 FCB 벡터에 대해, 한 세트의 최적 이득 파라미터들(λ_0,i,...,λ_k',i,r_i)은 가정된다.

FCB 검색의 2개의 방법들 중 어느 하나, 즉

(ｉ) 중간 LTP 벡터의 기여를 제거함으로써 FCB 검색에 대한 타켓 벡터를 다시 정의하거나,

(ⅱ) 최적 이득을 가정하여 FCB 검색을 실행하여,

양자화 효율성 장점 포인트에서 중간 LTP 벡터에 대한 이득들을 제한하는 것은 바람직할 수 있다. 예를 들어, 만약 β_i 계수들의 양자화된 값들이 소정 크기를 초과하지 않도록 설계에 의해 제한될 것이 알려지면, 중간 LTP 필터 계수들은 계산될 때 이와 같이 제공된다.

실시예들 중 하나는 중간 필터 LTP 벡터

를 얻기 위하여 LTP 필터 계수드레서 다음 제한을 배치한다. 우선, LTP 필터 계수들이 대칭이고, 즉 β_-i=β_i이고 LTP 필터 계수들이 i>1에 대하여 영인 것을 가정한다. 게다가, 중간 필터된 LTP 벡터가 다음과 같은 형태인 것을 가정한다.

(58)

성형 필터 특성들이 자연적으로 로우 패스인 것을 상기 제한은 보장한다. 방정식(55)에서 λ들은

이다. 지금 전체 LTP 이득 값(θ) 및 로우패스 성형 계수(α)를 가중된 에러 에너지 값을 최소화하기 위하여 지금 선택하면 다음과 같다.

(59)

θ에 대한 방정식 59의 편미분을 영으로 설정하는 것은 다음과 같은 것을 발생시킨다.

(60)

방정식(59)에서 θ의 값을 빼서, 다음 표현을 최대화하는 것이 E의 최소 값인 것이 도시될 수 있다.

(61)

이것은 다음과 같이 정의된다.

방정식(61)의 표현은 다음과 같이 된다.

(62)

다시 α에 관련하여 차동 방정식(62) 및 그것을 영으로 동일화하는 것은 다음을 발 생시킨다.

(63)

이것은 방정식(62)의 표현을 최대화한다. 이에 따라 얻어진 파라미터(α)는 로우 패스 스펙트랄 성형 특성을 보장하기 위하여 1.0과 0.5 사이에서 추가로 한정된다. 전체 LTP 이득 값(θ)은 방정식(60)을 통하여 얻어질 수 있고 FCB 검색 방법(i)에 사용하기 위하여 직접적으로 적용되거나, 상기 FCB 검색 방법(ii)에 따라 최적화될 수 있다(즉, "플로팅"된다). 게다가, α상에 다른 제한들을 배치하는 것은 하이패스(high-pass) 또는 노치(notch) 같은 다른 성형 특성들을 허용하고, 당업자에게 명백하다. 고차 다중탭 필터들상 유사한 제한들은 당업자에게 명백하고 대역 통과 성형 특성들을 포함할 수 있다.

많은 실시예들이 논의되는 동안, 도 8은 본 발명의 가장 우수한 모드를 포함하는 일반화된 장치를 도시하고, 도 9는 대응하는 동작들을 도시하는 흐름도이다. 도 8에 도시된 바와 같이, 서브 샘플 해상도 지연 값

은 방정식들(8 내지 10, 13)에 의해 기술되고, 다시 방정식들(29 내지 32, 35)에 기술된 다수의 시프트되고/결합된 적응성 코드북 벡터들을 형성하기 위하여 적응성 코드북(310) 및 시프터/결합기(820)에 대한 입력으로 사용된다. 상기된 바와 같이, 본 발명은 적응성 코드북 또는 장기간 예측기 필터를 포함하고 FCB 구성요소를 포함하거나 포함하지 않을 수 있다. 부가적으로, 가중된 합성 필터 W(z)/A_q(z)(830)는 사용되고, 방정식 (16)을 유도하는 텍스트에 기술된 바와 같이, 가중된 에러 벡터 e(n)의 대수학 조작으로부터 발생한다. 당업자가 인식할 수 있는 바와 같이, 가중된 합성 필터(830)는 벡터들

에 적용되거나 등가적으로 c(n)에 적용되거나, 적응성 코드북(310)의 일부로서 통합될 수 있다. 입력 신호 s(n)(지각적인 에러 가중 필터(832)를 통해 필터됨)의 지각적으로 가중된 버젼을 기초할 수 있는 필터된 적응성 코드북 벡터들

(901) 및 타겟 벡터 p(n)(903)는 에러 최소 유닛(808)에 입력을 위해 필요한 방정식들(20 내지 33)에서 정의된 다수의 상관관계 항들(905)을 출력하는 상관관계 발생기(833)에 제공된다. 다수의 상관관계 항들에 기초하여, 지각적으로 가중된 에러 값(E)은 다수의 다중탭 필터 계수들(β_i)(907)을 형성하기 위하여 필터링 동작들에 대한 필요없이 평가된다. 실시예에 따라, 에러 값(E)은 코더(600, 700)를 위하여 기술된 바와 같은 이득 테이블(626)의 값들을 이용하여 방정식들(24, 46, 51)에서 평가될 수 있거나, 방정식들(24, 48, 52, 63)에서 제공된 바와 같은 한세트의 동시 선형 방정식들을 통하여 직접적으로 해결될 수 있다. 어느 경우나, 다중탭 필터 계수들(β_i)은 표기의 편리함을 위하여 계수들(λ_i)(방정식들 (14, 28))로부터 일반화하기 위해, 즉 일반성의 손실없이 고정된 코드북의 기여를 통합하기 위하여 상호 참조된다.

본 발명이 특정 실시예를 참조하여 도시되고 기술되었지만, 당업자는 형태 및 상세한 항목들에서 다양한 변화들이 본 발명의 사상 및 범위에서 벗어나지 않고 이루어질 수 있다는 것을 인식할 것이다. 예를 들어, 본 발명은 가중 필터 W(z)에 사용하기 위하여 기술되었다. 하지만, 가중 필터 W(z)의 특정 특성들이 본 발명에 대한 "인간 가청 지각에 기초하는 응답"의 측면에서 기술되는 동안, W(z)가 임의적일 수 있다는 것이 가정된다. 극한 경우들에서, W(z)는 단위 이득 전달 함수 W(z) =1을 가질 수 있거나, W(z)는 LP 합성 필터 W(z) = A_q(z)의 인버스일 수 있어서, 나머지 도메인에서 에러의 평가를 유발한다. 따라서, 당업자가 인식하는 바와 같이, W(z)의 선택은 본 발명에 중요하지 않다.

게다가, 본 발명은 일반화된 CELP 프레임워크의 측면들에서 기술되었고, 여기서 제공된 아키텍쳐는 가능한한 본 발명의 설명을 간결화하기 위해 단순화되었다. 그러나, 예를 들어 처리 복잡성을 감소시키고, 및/또는 본 발명의 범위 외부에 있는 기술들을 사용하여 성능을 개선하기 위하여 최적화된 본 발명을 사용하는 아키텍쳐들에 많은 다른 변형들이 있을 수 있다. 하나의 기술은 가중 필터 W(z)가 영의 상태 및 영의 입력 응답 성분들로 분해되고 가중된 에러 계산의 복잡성을 감소시키기 위하여 다른 필터링 동작들과 결합될 수 있도록 블록 다이어그램들을 변경하도록 중첩 원리들을 사용할 수 있다. 다른 상기 복잡성 감소 기술은 에러 최소화 유닛(508, 608, 708)이 최종(폐루프(closed-loop)) 최적화 단계들 동안

의 모든 가능한 값들을 검사할 필요가 없도록

의 중간 값을 얻기 위한 개루프(open-loop) 피치 검색을 수행하는 것을 포함한다.

다수의 FCB 형태들, 및 당업자에게 알려진 다수의 효율적인 FCB 검색 기술들이 있다는 것이 주의된다. 사용된 FCB의 특정 형태가 본 발명에 적절하지 않기 때 문에, FCB 코드북 검색은 사용된 검색 전략에 영향을 받는 E_fcb _,i의 최소화를 유발하는 FCB 인덱스(I)를 형성하는 것이 간단히 가정된다. 부가적으로, 비록 본 발명이 적응성 코드북으로서 실행된 다중탭 LTP 필터의 환경에서 기술되었지만, 본 발명은 다중탭 LTP 필터가 직접적으로 실행되는 경우에 대하여 등가적으로 실행될 수 있다. 상기 변화들이 다음 청구항들의 범위내에서 발생하는 것이 의도된다.

Claims

스피치 코딩 방법에 있어서,

서브 샘플 해상도 지연 값, 적응성 코드북 및 가중된 합성 필터에 기초하여 다수의 가중된 적응성 코드북 벡터들
을 생성하는 단계;

입력 신호 s(n)를 수신하는 단계;

상기 입력 신호에 기초하여 타겟 벡터 p(n)를 생성하는 단계;

상기 타겟 벡터 p(n) 및 다수의 가중된 적응성 코드북 벡터들
에 기초하여 다수의 상관관계 항들(R_cc(i,j), R_pc(i))을 생성하는 단계; 및

상기 다수의 상관관계 항들(R_cc(i,j), R_pc(i))에 기초하여 다수의 다중탭 장기간 예측기 필터 계수들(
)을 생성하는 단계를 포함하는, 스피치 코딩 방법.
제 1 항에 있어서, 상기 입력 신호 s(n)에 기초하여 타겟 벡터 p(n)를 생성하는 단계는 지각적으로 입력 신호 s(n)를 가중함으로써 타겟 벡터 p(n)를 생성하는 단계를 포함하는, 스피치 코딩 방법.
제 1 항에 있어서, 상기 다수의 다중탭 장기간 예측기 필터 계수들을 생성하는 단계는 다수의 대칭 다중탭 장기간 예측기 필터 계수들을 생성하는 단계를 포함 하는, 스피치 코딩 방법.
제 1 항에 있어서, 상기 다수의 다중탭 장기간 예측기 필터 계수들을 생성하는 단계는 에러 최소화 기준에 응답하여 한세트의 동시 선형 방정식들을 푸는 단계를 더 포함하는, 스피치 코딩 방법.
제 1 항에 있어서, 상기 다수의 다중탭 장기간 예측기 필터 계수들을 생성하는 단계는 에러 최소화 기준에 응답하여 테이블로부터 한세트의 다중탭 필터 계수들을 선택하는 단계를 포함하는, 스피치 코딩 방법.
제 1 항에 있어서, 상기 다수의 다중탭 장기간 예측기 필터 계수들을 생성하는 단계는 하나의 값들의 범위로 제한된 다수의 다중탭 장기간 예측기 필터 계수들을 생성하는 단계를 포함하는, 스피치 코딩 방법.
제 3 항에 있어서, 상기 다수의 다중탭 장기간 예측기 필터 계수들을 생성하는 단계는
및
에 의해 제한된 다수의 다중탭 장기간 예측기 필터 계수들을 생성하는 단계를 포함하고, α는 성형 계수인, 스피치 코딩 방법.
제 7 항에 있어서, α는 미리결정된 범위로 제한되는, 스피치 코딩 방법.
장치에 있어서,

서브 샘플 해상도 지연 값, 적응성 코드북, 및 가중된 합성 필터에 기초하여 다수의 가중된 적응성 코드북 벡터들
을 생성하는 수단;

입력 신호 s(n)를 수신하는 수단;

상기 입력 신호 s(n)에 기초하여 타겟 벡터 p(n)를 생성하는 수단;

상기 타겟 벡터 p(n) 및 다수의 가중된 적응성 코드북 벡터들
에 기초하여 다수의 상관관계 항들(R_cc(i,j), R_pc(i))을 생성하는 수단; 및

상기 다수의 상관관계 항들(R_cc(i,j), R_pc(i))에 기초하여 다수의 다중탭 장기간 예측기 필터 계수들(
)을 생성하는 수단을 포함하는, 장치.
장치에 있어서,

서브 샘플 해상도 지연값, 적응성 코드북, 및 가중된 합성 필터에 기초하는 다수의 가중된 적응성 코드북 벡터들
;

입력 신호 s(n)를 수신하고 적어도 s(n)에 기초하여 타겟 벡터 p(n)를 출력하는 지각 에러 가중 필터;

상기 가중된 적응성 코드북 벡터들
및 타겟 벡터 p(n) 를 수신하고, 상기 타겟 벡터 p(n) 및 가중된 적응성 코드북 벡터들
에 기초하여 다수의 상관관계 항들(R_cc(i,j), R_pc(i))을 출력하는 상관관계 생성기; 및

상기 상관관계 항들(R_cc(i,j), R_pc(i))을 수신하고 상기 다수의 상관관계 항들(R_cc(i,j), R_pc(i))에 기초하여 다수의 다중탭 장기간 예측기 필터 계수들(
)을 출력하는 에러 최소화 회로를 포함하는, 장치.