KR20090073253A

KR20090073253A - 스피치 신호에서 천이 프레임을 코딩하기 위한 방법 및 장치

Info

Publication number: KR20090073253A
Application number: KR1020097010701A
Authority: KR
Inventors: 바츨라프 에크슐러; 밀란 제리넥; 레드완 살라미
Original assignee: 보이세지 코포레이션
Priority date: 2006-10-24
Filing date: 2007-10-24
Publication date: 2009-07-02
Also published as: NO20092017L; DK2102619T3; JP2010507818A; WO2008049221A1; NO341585B1; US8401843B2; RU2462769C2; MY152845A; CA2666546A1; HK1132324A1; MX2009004427A; PT2102619T; CN101578508B; BRPI0718300A2; RU2009119491A; US20100241425A1; BRPI0718300B1; CN101578508A; EP2102619B1; EP2102619A4

Abstract

음성 신호에서 천이 프레임 및/또는 천이 이후의 프레임에서 적응형 코드북 여기를 대체하는 천이 모드 여기를 생성하기 위해 예측-형태의 음성 신호 코덱에 사용하기 위한 천이 모드 장치 및 방법이 제공된다. 이 장치 및 방법은, 코드북 인덱스를 수신하기 위한 입력 및 이전의 여기로부터 독립적인 코드벡터 셋트를 생성하기 위한 천이 모드 코드북을 포함한다. 천이 모드 코드북은 천이 프레임 및/또는 천이 이후의 프레임에서, 천이 모드 여기에 대응하는 상기 셋트의 코드벡터들 중 하나를 생성하기 위해 인덱스에 응답한다. 그리고, 전술한 천이 모드 장치 및 방법을 이용하는 인코딩 장치 및 방법과 디코딩 장치 및 방법이 제공된다.

천이, 인코딩, 디코딩, 음성, 코드북, 성문, 여기, 적응형, 임펄스, 통신

Description

스피치 신호에서 천이 프레임을 코딩하기 위한 방법 및 장치{METHOD AND DEVICE FOR CODING TRANSITION FRAMES IN SPEECH SIGNALS}

본 발명은 예를 들어, 스피치(speech) 또는 오디오(audio) 신호와 같은 음성 신호(sound signal)를 송신 및 합성의 관점에서 디지털 방식으로 인코딩하는 기술에 관한 것이다.

특히(배타적인 것은 아님), 본 발명은 프레임 소거(erasure)의 경우에 디코더에서 에러 전파(propagation)를 감소시키거나 주로 유성음 세그먼트(voiced segments)의 개시점(온셋 프레임)에서 코딩 효율을 향상시키기 위해, 예를 들어, 스피치 또는 오디오 신호와 같은 음성 신호에서 천이(transition) 프레임 및 천이 이후의 프레임들을 인코딩하기 위한 방법 및 장치에 관한 것이다. 특히, 이 방법 및 장치는 예측 인코더(predictive encoder)에서 통상적으로 사용되는 적응형 코드북(adaptive codebook)을 예를 들어, 천이 프레임 또는 천이 이후의 프레임에서 성문 임펄스 형상(glottal impulse shapes)의 코드북으로 대체한다. 성문-형상 코드북은 이전의 여기(past excitation)에 독립적인 고정형 코드북이 될 수 있으며, 그에 따라 일단 프레임 소거가 끝나면, 인코더 및 디코더는 동일한 여기를 이용하게 되고, 따라서 클린-채널 합성(clean-channel synthesis)으로의 수렴(convergence) 이 아주 빠르게 된다. 전통적인 CELP에서의 온셋 프레임 코딩에서, 이전의 여기 버퍼는 현재의 여기와 매우 다른 이전의 무성음(unvoiced) 또는 비활성 프레임의 노이즈성 여기(noise-like excitation)를 이용하여 갱신된다. 한편, 이러한 제안된 기술은 여기의 주기적인 부분을 매우 정확하게 확립할 수 있다.

스피치 인코더는 스피치 신호를 통신 채널을 통해 전송되거나 또는 저장 매체에 저장되는 디지털 비트 스트림으로 변환한다. 스피치 신호는 디지털화되는데, 이것은 통상적으로 하나의 샘플당 16-비트로 샘플링 및 양자화된다. 스피치 인코더는 양호한 본질적인 스피치 품질을 유지하면서 보다 적은 수의 비트를 갖는 디지털 샘플을 표현하는 역할을 갖고 있다. 스피치 인코더 또는 합성기는 전송되거나 또는 저장된 비트 스트림에 동작하여 그것을 다시 스피치 신호로 변환한다.

CELP(Code-Excited Linear Prediction) 코딩은 본질적인 품질과 비트율 사이의 양호한 절충을 실현하기 위한 가장 좋은 종래기술 중 하나이다. 이러한 코딩은 유무선 애플리케이션 모두에서 몇몇의 스피치 코딩 표준들의 토대를 형성한다. CELP 코딩에서, 샘플링된 스피치 신호는 통상적으로 프레임으로 불리는 M개 샘플의 연속 블록으로 처리되며, 여기서 M은 통상적으로10-30ms에 대응하는 미리 정해진 수이다. 매 프레임마다 선형 예측(LP) 필터가 계산되어 전송된다. LP 필터의 계산은 통상적으로 후속 프레임으로부터 5-15ms 스피치 세그먼트의 예견능력(lookahead)을 필요로 한다. M-샘플 프레임은 서브프레임으로 불리는 보다 작은 블록으로 분할된다. 통상적으로 서브프레인의 수는 3개 또는 4개이며, 결과적으로 4-10ms의 서브프레임이 된다. 각각의 서브프레임에서, 여기 신호는 통상적으로 2개의 성분, 즉 이전의 여기와 이노베이티브(innovative) 고정형-코드북 여기로부터 로부터 얻어진다. 이전의 여기로부터 형성되는 성분은 종종 적응형 코드북 또는 피치 여기로 불린다. 여기 신호를 특징짓는 파라미터는 코딩되어 디코더로 전송되며, 여기서는 재구성된 여기 신호가 LP 필터의 입력으로서 사용된다.

CELP형 스피치 코덱은 고성능을 실현하기 위해 예측에 크게 의존한다. 사용되는 예측은 상이한 종류가 될 수 있지만, 통상적으로 이전의 프레임에서 선택된 여기 신호를 포함하는 적응형 코드북의 이용을 포함한다. CELP 인코더는 현재 인코딩되는 세그먼트와 가장 유사한 세그먼트를 이전의 여기에서 검색함으로써 유성음 스피치 신호의 의사 주기성(quasi periodicity)을 활용한다. 또한 디코더에서도 동일한 이전의 여기 신호가 유지된다. 이것은 인코더에서 사용된 것과 동일한 여기 신호를 재구성하기 위해 디코더를 위한 지연 파라미터 및 이득(gain)을 전송하는데 있어 인코더를 위해 충분한 것이다. 그리고, 고정형 코드북으로부터 선택되는 이노베이션을 이용하여 이전의 스피치 세그먼트와 현재 인코딩되는 스피치 세그먼트 사이의 에볼루션(evolution)(차이)이 모델링된다. CELP 기술은 이하에서 보다 상세하게 설명된다.

CELP-기반 스피치 코더에 내재하는 강한 예측의 문제점은 인코더와 디코더의 상태가 탈동기화되는(desynchronized) 경우에 전송 에러(소거된 프레임 또는 패킷)의 존재로 나타난다. 예측으로 인해, 소거된 프레임의 영향은 그 소거된 프레임에 제한되는 것이 아니라, 소거 이후에도 수개의 후속 프레임 동안에 계속 전파된다. 따라서, 자연적으로 지각할 수 있는 충격이 매우 큰 문제가 될 수 있다.

무성음 스피치 세그먼트로부터 유성음 스피치 세그먼트로의 천이(예, 자음 또는 비활성 스피치의 주기와 모음 사이의 천이)나 또는 2개의 상이한 유성음 세그먼트 사이의 천이(예, 2개의 모음 사이의 천이)는 프레임 소거 은폐(concealment)에 있어 가장 문제가 되는 경우이다. 무성음 스피치 세그먼트로부터 유성음 스피치 세그먼트(유성음 온셋)로의 천이가 손실되면, 유성음 온셋 프레임 직전의 프레임이 무성음화되거나 비활성화되고, 따라서 이전의 여기(적응형 코드북)의 버퍼에서 의미있는 주기적인 여기가 발견되지 않는다. 인코더에서, 이전의 주기적인 여기는 온셋 프레임 동안에 적응형 코드북에서 확립되고, 후속 유성음 프레임은 이러한 이전의 주기적 여기를 이용하여 인코딩된다. 대부분의 프레임 에러 은폐 기술은 누락 프레임을 은폐시키기 위해 최종적으로 올바르게 수신된 프레임으로부터의 정보를 이용한다. 온셋 프레임이 손실되면, 이전의 프레임(무성음 또는 비활성 프레임)의 노이즈성 여기를 이용하여 디코더 이전 여기 버퍼가 갱신되게 된다. 그러므로, 여기의 주기적인 부분은 손실된 유성음 온셋 이후에 디코더의 적응형 코드북에서 완전하게 누락되게 되고, 이러한 손실로부터 회복되기까지 디코더에서 수개의 프레임이 걸릴수 있다.

이와 유사한 경우가 손실된 유성음-무성음 천이의 경우에 발생한다. 이 경우에, 천이 프레임 이전에 적응형 코드북에 저장된 여기는 천이 이후에 적응형 코드북에 저장된 여기와는 통상적으로 매우 다른 특성을 갖는다. 또한, 디코더는 통상 적으로 이전 프레임 정보를 이용하여 손실 프레임을 은폐시키기 때문에, 인코더와 디코더의 상태가 매우 상이하고, 합성된 신호는 중대한 왜곡을 받을 수 있다.

본 발명의 목적

따라서, 본 발명의 목적은 손실 프레임에 대한 인코더의 견고성을 향상시키고 코딩 효율을 향상시키기 위해 예측적 스피치 및/또는 오디오 인코더에서의 천이 프레임을 인코딩하기 위한 방법 및 장치를 제공하는 것이다.

본 발명의 다른 목적은 프레임간에 종속적인 적응형 코드북 검색을 예를 들어, 성문 형상(glottal-shape) 비예측적 코드북 검색으로 대체함으로써 CELP-기반 코덱에서 에러 전파를 제거하고 코딩 효율을 증가시키는 것이다.

발명의 요약

특히, 본 발명의 한 양태에 따르면, 음성 신호에서 천이 프레임 및/또는 천이 이후의 프레임에서 적응형 코드북 여기를 대체하는 천이 모드 여기를 생성하기 위해 예측 형태의 음성 신호 코덱에 사용하기 위한 천이 모드 방법이 제공되며, 이 방법은, 이전의 여기로부터 독립적인 코드벡터들의 셋트를 생성하기 위한 천이 모드 코드북을 제공하는 단계; 상기 천이 모드 코드북에 코드북 인덱스를 부여하는 단계; 및 상기 천이 모드 코드북을 이용하고 상기 코드북 인덱스에 응답하여 상기 천이 모드 여기에 대응하는 상기 셋트의 코드벡터들 중 하나를 생성하는 단계를 포함한다.

본 발명의 제2 양태에 따르면, 음성 신호에서 천이 프레임 및/또는 천이 이후의 프레임에서 적응형 코드북 여기를 대체하는 천이 모드 여기를 생성하기 위해 예측-형태의 음성 신호 코덱에 사용하기 위한 천이 모드 장치가 제공되며, 이 장치는, 코드북 인덱스를 수신하기 위한 입력; 및 이전의 여기로부터 독립적인 코드벡터 셋트를 생성하기 위한 천이 모드 코드북을 포함한다. 상기 천이 모드 코드북은 상기 천이 프레임 및/또는 상기 천이 이후의 프레임에서, 상기 천이 모드 여기에 대응하는 상기 셋트의 코드벡터들 중 하나를 생성하기 위해 상기 인덱스에 응답한다.

본 발명의 제3 양태에 따르면, 음성 신호에서 천이 프레임 및/또는 천이 이후의 프레임에서 적응형 코드북 여기를 대체하는 천이 모드 여기를 생성하기 위한 인코딩 방법이 제공되며, 이 방법은, 코드북 검색 타겟 신호를 생성하는 단계; 이전의 여기로부터 독립적인 코드벡터 셋트를 생성하기 위한 천이 모드 코드북 - 여기서, 상기 셋트의 코드벡터들은 각각의 천이 모드 여기에 각각 대응함 - 을 제공하는 단계; 및 상기 코드북 검색 타겟 신호에 최적으로 대응하는 천이 모드 여기에 대응하는 상기 셋트의 코드벡터들을 구하기 위한 천이 모드 코드북을 검색하는 단계를 포함한다.

본 발명의 제4 양태에 따르면, 음성 신호에서 천이 프레임 및/또는 천이 이후의 프레임에서 적응형 코드북 여기를 대체하는 천이 모드 여기를 생성하기 위한 인코더 장치가 제공되며, 이 장치는 코드북 검색 타겟 신호의 생성기; 이전의 여기로부터 독립적인 코드벡터 셋트를 생성하기 위한 천이 모드 코드북 - 여기서, 상기 셋트의 코드벡터들은 각각의 천이 모드 여기에 각각 대응함 - ; 및 상기 코드북 검색 타겟 신호에 최적으로 대응하는 천이 모드 여기에 대응하는 상기 셋트의 코드벡터들을 구하기 위한 천이 모드 코드북의 검색자를 포함한다.

본 발명의 제5 양태에 따르면, 음성 신호에서 천이 프레임 및/또는 천이 이후의 프레임에서 적응형 코드북 여기를 대체하는 천이 모드 여기를 생성하기 위한 디코딩 방법이 제공되며, 이 방법은, 코드북 인덱스를 수신하는 단계; 이전의 여기로부터 독립적인 코드벡터들의 셋트를 생성하기 위해 천이 모드 코드북에 상기 코드북 인덱스를 부여하는 단계; 및 상기 천이 모드 코드북을 이용하고 상기 코드북 인덱스에 응답하여 상기 천이 모드 여기에 대응하는 상기 셋트의 코드벡터들 중 하나를 생성하는 단계를 포함한다.

본 발명의 제6 양태에 따르면, 음성 신호에서 천이 프레임 및/또는 천이 이후의 프레임에서 적응형 코드북 여기를 대체하는 천이 모드 여기를 생성하기 위한 디코더 장치가 제공되며, 이 장치는, 코드북 인덱스를 수신하기 위한 입력; 및

이전의 여기로부터 독립적인 코드벡터 셋트를 생성하기 위한 천이 모드 코드북을 포함한다. 상기 천이 모드 코드북은 상기 천이 프레임 및/또는 상기 천이 이후의 프레임에서, 상기 천이 모드 여기에 대응하는 상기 셋트의 코드벡터들 중 하나를 생성하기 위해 상기 인덱스에 응답한다.

본 발명의 전술 및 다른 목적, 장점 및 특징은 첨부 도면을 참조하여 일례로서 제공되는 본 발명의 비-제한적인 실시예의 설명에 의해 명백해질 것이다.

도1a는 CELP-기반 인코더의 개략적 블록도.

도1b는 CELP-기반 디코더의 개략적 블록도.

도2는 소거 은폐를 위한 프레임 분류 상태 머신의 개략적 블록도.

도3은 하나의 유성음 천이 프레임과 하나의 온셋 프레임을 가진 스피치 신호의 세그먼트의 일례를 도시한 도면.

도4는 스피치 온셋에서 TM(Transition Mode) 프레임을 선택하기 위한 분류 규칙을 예시하는 기능 블록도(여기서, N_TM_FRAMES는 TM 코딩 기술을 이용하는 것을 방지하기 위한 연속적인 프레임들의 수를 나타내고, 'clas'는 프레임 클래스를 나타내고, VOICED_TYPE은 온셋(ONSET), 유성음(VOICED), 유성음 천이(VOICED TRANSITION) 클래스를 나타냄).

도5a는 타임 도메인에서의 스피치 신호를 보여주는, 4개의 서브프레임으로 분할된 스피치 신호의 프레임의 일례를 도시한 도면.

도5b는 LP 잔류(residual) 신호를 보여주는, 4개의 서브프레임으로 분할된 스피치 신호의 프레임의 일례를 도시한 도면.

도5c는 인코더에서 TM 코딩 기술을 이용하여 구성된 제1 스테이지 여기 신호를 보여주는, 4개의 서브프레임으로 분할된 스피치 신호의 프레임의 일례를 도시한 도면.

도6은 성문-형상 코드북 구성에 사용된 17-샘플 길이의 8개의 성문 임펄스를 예시한 그래프(여기서, x축은 이산 타임 인덱스(discrete time index)를 나타내고, y축은 임펄스의 진폭을 나타냄).

도7은 CELP 인코더의 TM 부분의 일례의 개략적 블록도(여기서, k'는 성문-형상 코드북 인덱스를 나타내고, G(z)는 정형(shaping) 필터를 나타냄).

도8은 방정식(16)의 기준(criterion)에서 분자(numerator)의 제곱근, Ck'의 계산을 도시한 그래픽 도면(여기서, 벡터/매트릭스의 정형 부분은 넌-제로임).

도9는 방정식(16)의 기준(criterion)에서 분모(denominator), Ek'의 계산을 도시한 그래픽 도면(여기서, 벡터/매트릭스의 정형 부분은 넌-제로임).

도10은 콘볼루션 매트릭스(convolution matrix) Z^T의 계산을 도시한 그래픽 도면(본 예에서, 정형 필터 G(z)는 단지 3개의 넌-제로 계수(L_1/2=1)를 가짐).

도11은 CELP 디코더의 TM 부분의 일례의 개략적 블록도.

도12a는 필터 Q(z)의 구조의 일례를 도시한 개략적 블록도.

도12b는 성문-형상 코드벡터 변형의 일례를 도시한 그래프(여기서, 반복적인 임펄스는 점선으로 나타냄).

도13은 필터 Q(z)를 포함하는 CELP 인코더의 TM 부분의 개략적 블록도.

도14는 성문-형상 코드북 검색에 의한 서브프레임의 일부에 적응형 코드북 검색이 사용될 때의 2-임펄스 구성을 가진 성문-형상 코드벡터를 도시한 그래프.

도15는 차기 서브프레임의 제1 L_1/2 위치에 제2 성문 임펄스가 나타나는 경우에 성문-형상 코드벡터 구성을 도시한 그래프.

도16은 EV-VBR(Embedded Variable Bit Rate) 코덱 구현예에 사용된 인코더의 TM 부분의 개략적 블록도.

도17a은 타임 도메인에서의 스피치 신호의 일례를 도시한 그래프.

도17b는 도17a의 스피치 신호에 대응하는 LP 잔류 신호를 도시한 그래프.

도17c는 에러-프리(error-free) 조건에서의 제1-스테이지 여기 신호를 도시한 그래프.

도18a-도18c는 온셋 구성의 비교예를 도시한 그래프로서, 도18a의 그래프는 입력 스피치 신호를 나타내고, 도18b의 그래프는 TM 코딩 기술을 이용하지 않은 EV-VBR 코덱의 출력 합성 스피치 신호를 나타내고, 도18c는 TM 코딩 기술을 이용한 EV-VBR 코덱의 출력 합성 스피치 신호를 나타내는 도면.

도19a-도19c는 프레임 소거의 경우에 TM 코딩 기술의 효과의 일례를 도시한 그래프로서, 도19a의 그래프는 입력 스피치 신호를 나타내고, 도19b의 그래프는 TM 코딩 기술을 이용하지 않은 EV-VBR 코덱의 출력 합성 스피치 신호를 나타내고, 도19c는 TM 코딩 기술을 이용한 EV-VBR 코덱의 출력 합성 스피치 신호를 나타내는 도면.

도20은 구성(configuaration) TRANSITION_1_1의 하나의 프레임에서의 제1-스테이지 여기 신호의 일례를 도시한 그래프.

도21은 구성 TRANSITION_1_2의 하나의 프레임에서의 제1-스테이지 여기 신호의 일례를 도시한 그래프.

도22는 구성 TRANSITION_1_3의 하나의 프레임에서의 제1-스테이지 여기 신호의 일례를 도시한 그래프.

도23은 구성 TRANSITION_1_4의 하나의 프레임에서의 제1-스테이지 여기 신호의 일례를 도시한 그래프.

도24는 구성 TRANSITION_2의 하나의 프레임에서의 제1-스테이지 여기 신호의 일례를 도시한 그래프.

도25는 구성 TRANSITION_3의 하나의 프레임에서의 제1-스테이지 여기 신호의 일례를 도시한 그래프.

도26은 구성 TRANSITION_4의 하나의 프레임에서의 제1-스테이지 여기 신호의 일례를 도시한 그래프.

도27은 스피치 인코딩 및 디코딩 장치의 사용을 예시한 스피치 통신 시스템의 개략적 블록도.

본 발명의 비-제한적인 실시예는 전술한 상황에서의 에러 전파를 극복하고 코딩 효율을 증가시키기 위한 목적을 가진 방법 및 장치와 관련된 것이다.

특히, 본 발명의 비-제한적인 실시예에 따른 방법 및 장치는 예를 들어, 스피치 또는 오디오 신호와 같은 음성 신호에서의 천이 프레임과 천이 이후의 프레임의 특수한 인코딩을 구현하며, 이것은 천이 모드(TM) 인코딩 기술로 불린다. TM 코딩 기술은 천이 프레임과 천이 이후의 프레임에서, CELP 코덱의 적응형 코드북을 성문 임펄스 형상의 새로운 코드북(성문-형상 코드북으로 명명됨)으로 대체한다. 성문-형상 코드북은 이전의 여기에 독립적인 고정형 코드북이다. 결과적으로, 일단 프레임 소거가 끝나면, 인코더 및 디코더는 동일한 여기를 이용하며, 따라서 클린-채널 합성으로의 수렴이 아주 빨라지게 된다.

천이 이후의 프레임에 TM 코딩 기술을 이용하는 것은 천이 프레임이 손실된 경우에 에러 전파를 방지하는데 도움을 주고, 또한 천이 프레임에서 TM 코딩 기술을 이용하는 다른 목적은 코딩 효율을 향상시키기 위한 것이다. 예를 들어, 유성음 온셋 직전에, 적응형 코드북은 통상적으로 유성음 세그먼트의 개시점(beginning)을 인코딩하는데 있어 매우 비효율적인 노이즈성 신호를 포함한다. 따라서, TM 코딩 기술 이면에서의 아이디어는 유성음 온셋을 인코딩하기 위해 성음 임펄스의 간략화된 양자화 버전을 가진 보다 양호한 코드북으로 적응형 코드북을 보충하는 것이다.

제안된 TM 코딩 기술은 어떠한 CELP형 또는 예측적 코덱에도 사용될 수 있다. 일례로서, TM 코딩 기술은 이후 EV-VBR 코덱으로 불리는 매립형 가변 비트 레이트 코덱(Embedded Variable Bit Rate Codec)을 위한 ITU-T 표준화 활동의 후보(candidate) 코덱으로 구현된다. 비록 본 발명의 비-제한적인 실시예가 EV-VBR 코덱 프레임워크와 관련하여 설명되지만, 본 발명의 원리 및 개념은 EV-VBR 코덱에 대한 애플리케이션에 제한되지 않고, 예측 코딩을 이용하는 어떤 다른 코덱에도 적용될 수 있다는 것을 유념해야 한다. 또한, 비록 본 발명의 비-제한적인 실시예가 스피치 신호와 관련하여 설명되지만, 본 발명은 스피치 신호에 대한 애플리케이션에 제한되지 않으며, 그 원리와 개념은 오디오 신호를 포함하여 어떤 다른 형태의 음성 신호에도 적용될 수 있다는 것을 유념해야 한다.

스피치 프레임은 다음과 같이 크게 4개의 스피치 클래스로 분류될 수 있다 (이에 대해서는 후속 설명에서 상세하게 설명된다):

- 스피치 활동이 없는 것이 특징인 비활성 프레임;

- 비주기성 구조와 고주파수를 향하는 에너지 집중이 특징인 무성음 스피치 프레임;

- 주로 저주파수에서 집중된 에너지를 갖고 분명한 의사-주기성 특징을 가진 유성음 스피치 프레임;

- 빠르게 변화하는 특징을 가진 천이로서 분류된 어떤 다른 프레임

EV-VBR 코덱에서, 각각의 클래스에 대해 특수한 코딩 모드가 설계되었다. 개괄적으로 기술하면, 비활성 프레임은 CNG(Comfort Noise Generation)를 통해 처리되고, 무성음 스피치 프레임은 최적화된(optimized) 무성음 인코딩 모드를 통해 처리되고, 유성음 스피치 프레임은 최적화된 유성음 인코딩 모드를 통해 처리되고, 모든 다른 프레임들은 ACELP(generic Algebraic CELP) 기술을 이용하여 처리된다. EV-VBR 코덱 프레임워크에서, TM 코딩 기술은 천이 프레임 및 천이 이후의 프레임을 인코딩하기 위해 EV-VBR 인코딩 스킴에서 지금까지는 또다른 인코딩 모드로 도입된다.

도27은 스피치 인코딩 및 디코딩의 이용을 도시하는 스피치 통신 시스템의 개략적인 블록도이다. 이 스피치 통신 시스템은 통신 채널(905)을 통한 스피치 신호의 전송 및 재생을 지원한다. 비록 통신 채널(905)은 와이어 링크, 광학 링크 또는 파이버 링크를 포함할 수도 있지만, 통상적으로 적어도 일부분은 무선 주파 수(RF) 링크를 포함한다. RF 링크는 종종 셀룰러 전화에서 볼 수 있는 바와 같이 공유 대역폭 자원을 필요로하는 다중 동시 스피치 통신을 지원한다. 비록 도시되지는 않았지만, 통신 채널(905)은 인코딩된 스피치 신호를 나중에 재생하기 위해 레코드하고 저장하는 통신 시스템의 단일 장치 실시예에서는 저장 장치로 대체될 수도 있다.

여전히 도27을 참조하면, 마이크로폰(901)은 아날로그 스피치 신호를 생성하고, 이 신호는 디지털 형태로의 변환을 위해 아날로그-디지털(A/D) 변환기(902)로 공급된다. 스피치 인코더(903)는 디지털 스피치 신호를 인코딩하여, 인코딩 파라미터 셋트를 생성하고, 이들 파라미터는 2진 형태로 코딩되어 채널 인코더(904)로 전달된다. 선택적인 채널 인코더는 콩신 채널(905)을 통해 전송하기 전에 코딩 파라미터의 2진 표현에 리던던시(redundancy)를 부가한다. 수신측에서, 채널 디코더(906)는 전송시 발생한 채널 에러를 검출하고 정정하기 위해 수신된 비트 스트림에서 전술한 리던던트 정보를 이용한다. 스피치 디코더(907)는 채널 디코더(906)로부터 수신되는 비트 스트림을 합성 디지털 스피치 신호를 생성하기 위한 인코딩 파라미터 셋트로 다시 변환한다. 스피치 디코더(907)에서 재구성된 합성 디지털 스피치 신호는 디지털-아날로그(D/A) 변환기(908)에서 아날로그 형태로 변환되어 확성기 유닛(909)을 통해 재생된다.

CELP에 대한 간단한 배경

스피치 코덱은 2개의 주요부분, 즉 인코더 와 디코더로 구성된다. 인코더는 오디오 신호를 디지털화하고, 스피치 신호를 표현하는 제한된 수의 인코딩 파라미터를 선택하고, 이들 파라미터를 통신 채널을 통해 디코더로 전송되는 디지털 비트 스트림으로 변환한다. 디코더는 스피치 신호를 가능한 한 원래의 스피치 신호와 유사하게 되도록 재구성한다. 현재, 널리 확산된 스피치 인코딩 기술은 선형 예측(LP) 기술 및 특히 CELP 기술에 기반하고 있다. LP-기반 코딩에 있어서, 스피치 신호는 올-폴 합성 필터(all-pole synthesis filter) 1/A(z)를 통해 여기 신호를 필터링함으로써 합성된다. CELP에 있어서, 여기는 통상적으로 2개의 부분으로 이루어져있으며, 제1 스테이지 여기 신호는 적응형 코드북으로부터 선택되고, 제2 스테이지 여기 신호는 고정형 코드북으로부터 선택된다. 일반적으로 말하면, 적응형 코드북 여기는 여기의 주기적인 부분을 모델링하고, 고정형 코드북 여기는 스피치 신호의 에볼루션을 모델링하기 위해 부가된다.

스피치는 통상적으로 20ms의 프레임에 의해 처리되고, 매 프레임마다 한번씩 LP 필터 계수가 전송된다. CELP에서, 모든 프레임은 여기 신호를 인코딩하기 위해 수개의 서브프레임으로 분할된다. 서브프레임 길이는 통상적으로 5ms이다.

도1a 및 도1b를 참조하면, CELP 하에서의 주원리는 합성에 의한 분석(Analysis-by-Synthesis)으로 불리며, 여기서는 가능한 디코더 출력이 인코딩 프로세스(분석) 동안에 이미 시험되며(합성), 그 다음에 원래의 스피치 신호와 비교가 이루어진다. 검색(search)은 지각적으로 가중된 도메인(perceptually weighted domain)에서 입력 스피치 신호 s(n)와 합성된 스피치 신호 s^'(n) 사이의 평균제 곱(mean-squared) 에러를 최소화하며, 여기서 이산 타임 인덱스 n=0,1,...,N-1 및 N은 서브프레임의 길이이다. 기각적 가중 필터 W(z)는 주파수 마스킹 효과를 활용하는 것이며, 통상적으로 LP 필터로부터 유도된다. 지각적 가중 필터 W(z)의 일례는 다음의 방정식(1)로 주어진다.

(1)

여기서, 계수 y₁ 및 y₂는 지각적 가중의 양을 제어하고, 관계 0<y₂ < y₁≤1을 유지한다. 이러한 전통적인 지각적 가중 필터는 NB(협대역, 200-3400Hz 대역폭) 신호에 양호하게 작용한다. WB(광대역, 50-7000Hz 대역폭) 신호를 위한 지각적 가중 필터의 일례는 레퍼런스[1]에서 찾아볼 수 있다.

디코더로 전송된 비트 스트림은 유성음 프레임에 대해 다음의 파라미터, 즉 LP 합성 필터의 양자화 파라미터, 적응형 및 고정형 코드북 인덱스 및 적응형 및 고정형 부분의 이득을 포함한다.

적응형 코드북 검색

CELP-기반 코덱에서의 적응형 코드북 검색은 지연(피치 주기) t 및 피치 이득 g_p를 판단하고 적응형 코드벡터 v(n)으로 언급되는 여기 신호의 의사-주기성 부분을 구성하기 위해 가중 스피치 도메인에서 수행된다. 피치 주기는 특정 스피커에 강하게 의존하며, 그 정확한 판단은 힙성된 스피치에 중대한 영향을 준다.

EV-VBR 코덱에서, 피치 주기 및 이득을 판단하기 위해 3-스테이지 절차가 이용된다. 제1 스테이지에서, 지각적으로 가중된 스피치 신호 s_w(n)와 정규화된(normalized) 정정 계산을 이용하여 각각의 10ms 절반-프레임에 대해 하나의 추정치 및 10ms 룩-어헤드에 대해 하나의 추정치, 총 3개의 개방-루프(open-loop) 피치 추정치 T_op가 각각의 프레임에 대해 계산된다. 제2 스테이지에서는, 매 서브프레임마다 추정된 개방-루프 피치 주기 T_op 근방의 정수(integer) 주기에 대해 폐쇄-루프(closed-loop) 피치 검색이 수행된다. 일단 최적의 정수 피치 주기가 발견되면, 제3 검색 스테이지는 최적의 정수값 근방의 소수부(fractions)로 통과한다. 폐쇄-루프 피치 검색은 원래의 스피치와 합성된 스피치 사이의 평균제곱 가중 에러를 최소화함으로써 수행된다. 이것은 다음의 항(term)을 최대화함으로써 실현된다.

(2)

여기서, x₁(n)은 타겟 신호이고, 제1 스테이지 기여(contribution) 신호(필터링된 적응형 코드벡터로 불림) y₁(n)은 가중된 합성 필터 H(z)의 임펄스 응답 h(n)과 주기 t에서의 이전의 여기 신호의 콘볼루션(convokution)에 의해 계산된다.

(3)

지각적으로 가중된 입력 스피치 신호 s_w(n)은 지각적 가중 필터 W(z)를 통해 입력 스피치 신호 s(n)을 처리함으로써 얻어진다. 필터 H(z)는 LP 합성 필터 1/A(z)와 지각적 가중 필터 W(z)의 캐스케이드(cascade)에 의해 수행된다. 타겟 시신호 x₁(n)는 필터 H(z)의 제로-입력 응답을 감산한 이후의 지각적 가중 입력 스피치 신호 s_w(n)에 대응한다.

피치 이득은 신호 x₁(n)와 제1 스테이지 기여 신호 y₁(n) 사이의 평균제곱 에러를 최소화함으로써 구해진다. 피치 이득은 다음의 방정식으로 표현된다.

(4)

다음에, 피치 이득은 0≤g_p≤1.2에 의해 경계가 정해지고, 일단 이노베이션이 찾아지면 고정형 코드북 이득과 통상적으로 공동 양자화된다(jointly quantized).

따라서, CELP-기반 코덱에서, 현재 처리되는 프레임의 개시점에서 여기 신호는 이전의 프레임으로부터의 여기 신호로부터 재구성된다. 이러한 메카니즘은 신호가 의사-주기성인 스피치 신호의 유성음 세그먼트에 대해, 그리고 전송 에러가 없는 경우에 매우 효율적이다. 프레임 소거의 경우에, 이전의 프레임으로부터의 여기 신호는 손실되고 인코더 및 디코더의 각각의 적응형 코드북은 더 이상 동일하지 않다. 소거 이후의 프레임에서, 디코더는 부정확한 콘텐트를 가진 적응형 코드북을 이용하여 스피치 합성을 계속하게 된다. 결과적으로, 프레임 소거는 소거된 프레임 동안에 합성 스피치 품질을 저하시킬 뿐만 아니라, 수개의 후속 프레임 동안에도 합성 스피치 품질을 저하시킬 수 있다. 전통적인 은폐 기술은 종종 이전의 정확하게 전송된 프레임의 파형의 반복에 기반하고 있으며, 이러한 기술은 예를 들어, 안정성(stable) 유성음 세그먼트와 같이 스피치 신호의 특징이 의사-고정성(quasi-stationary) 신호 부분에서만 효율적으로 작용한다. 이 경우에, 인코더와 디코더의 각각의 작응형 코드북들 사이의 차이는 아주 작을 수 있으며, 합성 신호의 품질은 크게 영향을 받지 않을 수 있다. 그러나, 만일 소거가 천이 프레임에 속하는 경우에, 이러한 기술의 효율은 매우 제한된다. 프레임 소거 레이트(Frame Erasure Rate:FER)가 통상적으로 3%-5%인 CELP-기반 코덱을 이용하는 통신 시스템에서는, 합성 스피치 품질이 현저하게 떨어진다.

클린 채널 전송의 경우 조차도, 적응형 코드북의 효율은 천이 프레임에서 제한되며, CELP 인코더는 천이 동안에 낮거나 누락되는 스피치에서의 주기성을 활용하기 위해 적응형 코드북을 이용하며, 그에 따라, 코딩 효율이 떨어진다. 이것은 특히 이전의 여기 신호와 현재 프레임에 대한 최적의 여기 신호가 매우 약하게 상관되거나 또는 전혀 상관되지 않는 유성음 온셋의 경우이다.

고정형 코드북 검색

CELP-기반 코덱에서 고정형(이노베이션) 코드북(FCB) 검색의 기여의 목적은 적응형 코드북의 이용 이후의 잔류 에러를 최소화하는 것이다. 즉, 다음과 같다.

(5)

여기서, g_c는 고정형 코드북 이득이고, 제2 스테이지 기여 신호(필터링된 고정형 코드벡터로도 불림) y₂ ^(k)(n)는 h(n)과 콘볼브된(convolved) 고정형 코드북 벡터 c_k(n)이다. 타겟 신호 x₁(n)는 다음의 x₂(n)을 구하기 위해 적응형 코드북 타겟으로부터 적응형 코드북 기여도를 감산함으로써 갱신된다.

(6)

고정형 코드북은 레퍼런스[2]에 기재된 바와 같은 대수(algebraic) 코드북을 이용하여 실현될 수 있다. 만일 c _k가 인덱스 k에서 대수 코드 벡터를 나타내면, 대수 코드북은 다음의 기준(criterion)을 최대화함으로써 검색된다.

(7)

여기서, H는 다이아고날(diagonal) h(0) 및 하부 다이아고날(lower diagonal) h(1),...,h(N-1)을 가진 하부 트라이앵글 토플리츠 콘볼루션 매트릭스(lower triangular Toeplitz convolution matrix)이다. 벡터 d=H ^T x ₂는 갱신된 타겟 신호 x₂(n)과 h(n)(역방향 필터링된 타겟 벡터로도 알려짐) 사이의 상관(corrlation)이고, Φ=H ^T H는 h(n)의 상관의 매트릭스이다. 첨자 T는 매트릭스 또는 벡터 전치행렬(transpose)을 나타낸다. d와 Φ는 통상적으로 고정형 코드북 검 색 이전에 계산된다. 레퍼런스[1]에는, 만일 고정형 코드북의 대수 구조가 단지 몇개의 넌-제로 엘리먼트만을 포함하고 있다면, 모든 가능한 인덱스 k에 대한 최대 기준의 계산은 매우 빠르다. 후술하는 바와 같이, 천이 모드(TM) 인코딩 기술에서도 유사한 절차가 사용된다.

CELP는 이 기술분야에 통상의 지식을 가진 자에게 잘 알려진 것으로 여겨지기 때문에, 본 명세서에서는 더 이상 설명되지 않는다.

EV-VBR 코덱에서의 프레임 분류

EV-VBR 코덱에서의 프레임 분류는 레퍼런스[3]에 기재된 바와 같이 VMR-WB(Variable Rate Multi-Mode Wideband) 분류에 기반하고 있다. VMR-WB 분류는 은폐 및 복원 전략을 고려하여 수행된다. 다시 말하면, 후속 프레임이 누락되는 경우에 은폐가 최적이 될 수 있는 방식이나 또는 이전의 프레임이 손실된 경우에 복원이 최적이 되는 방식으로 프레임이 분류된다. 프레임 소거 은폐 처리에 사용되는 클래스 중 일부는 전송될 필요가 없는데, 그것은 디코더에서 모호성(ambiguity) 없이 추론될(deduced) 수 있기 때문이다. 5개의 별개의 클래스가 사용되며, 다음과 같이 정의된다.

- UNVOICED(무성음) 클래스는 모든 무성음 스피치 프레임 및 활성(active) 스피치가 없는 모든 프레임을 포함한다. 유성음 오프셋 프레임은 그 단부(end)가 무성음이 되는 경우에 무성음으로서 분류될 수 있으며, 무성음 프레임을 위해 설계된 은폐는 그것이 손실된 경우의 후속 프레임에에 사용될 수 있다.

- UNVOICED TRANSITION(무성음 천이) 클래스는 단부에서 가능한 유성음 온셋 을 가진 무성음 프레임을 포함한다. 그러나, 유성음 온셋은 여전히 너무 짧거나, 또는 유성음 프레임을 위해 설계된 은폐를 이용하는데 있어 충분하게 확립되지 않는다. UNVOICED TRANSITION 프레임은 UNVOICED, 또는 UNVOICED TRANSITION으로서 분류된 프레임만 다음에만 이어질 수 있다.

- VOICED TRANSITION(무성음) 클래스는 비교적 약한 유성음 특징을 가진 유성음 프레임을 포함한다. 이것은 통상적으로 빠르게 변화하는 특징(모음 사이의 천이)을 가진 유성음 프레임 또는 전체 프레임 동안 지속되는 유성음 온셋이다. 유성음 천이 프레임은 유성음 천이, 유성음 또는 온셋으로 분류된 프레임 다음에만 이어질 수 있다.

- VOICED(유성음) 클래스는 안정성 특징을 가진 유성음 프레임을 포함한다. 유성음 프레임은 유성음 천이, 유성음 또는 온셋으로 분류된 프레임 다음에만 이어질 수 있다.

- ONSET(온셋) 프레임은 무성음 또는 무성음 천이로 분류된 프레임 다음에 이어지는 안정성 특징을 가진 모든 유성음 프레임을 포함한다. 온셋으로 분류된 프레임은 손실된 유성음 프레임을 위해 설계된 은폐의 이용을 위해 온셋이 이미 충분하게 확립된 유성음 온셋 프레임에 대응한다. 온셋으로 분류된 프레임 다음의(후속) 프레임 소거를 위해 사용되는 은폐 기술은 유성음으로서 분류된 프레임과 동일하게 전통적인 CELP-기반 코덱에 있으며, 차이점은 손실된 온셋을 인위적으로 재구성하기 위해 특수한 기술이 사용될 수 있는 경우에 복원 전략에 있다. 본 발명의 비-제한적인 실시예에 따르면, 이 경우에 TM 코딩 기술이 성공적으로 사용된다.

도2에는 분류 상태도가 도시되어 있다. 분류 정보는 2비트를 이용하여 전송된다. 도2로부터 알 수 있는 바와 같이, 무성음 천이 클래스와 유성음 천이 클래스는 디코더에서 모호성없이 구별될 수 있기 때문에 함께 그룹지워질 수 있다(무성음 천이 프레임은 무성음 프레임 또는 무성음 천이 프레임 다음에만 이어질 수 있으며, 유성음 천이 프레임은 온셋 프레임, 유성음 프레임 또는 유성음 천이 프레임 다음에만 이어질 수 있다).

분류를 위해 다음의 파라미터, 즉, 정규화된 상관(normalized correlation) /R'_xy, 스펙트럼 틸트 측도(spectral tilt measure) e'_t, 피치 안정성 카운터 pc, 현재 프레임의 단부에서 스피치 신호의 상대적 프레임 에너지 E_rel, 및 제로-크로싱(zero-crossing) 카운터 zc가 사용된다. 다음의 상세한 분석에서 알 수 있는 바와 같이, 이들 파라미터의 계산은 룩어헤드를 이용한다. 룩어헤드는 후속 프레임에서의 스피치 신호의 에볼루션이 추정될 수 있도록 허용하며, 결과적으로 미래의 스피치 신호 동작을 고려하여 분류가 이루어질 수 있다.

평균 정규화 상관 /R'_xy은 다음의 방정식을 이용하여 제2 절반-프레임 및 룩어헤드의 최대 정규화 상관에 의해 계산된다.

(8)

최대 정규화 상관 C_norm은 개방-루프 피치 검색의 일부로서 계산되며, 가중된 스피치 신호의 2개의 인접한 피치 주기의 최대 정규화 상관에 대응한다.

스펙트럼 틸트 파라미터 e'_t는 에너지의 주파수 분포에 관한 정보를 포함한다. 하나의 스펙트럼 분석에 대한 스펙트럼 틸트는 저주파수에 집중된 에너지와 고주파수에 집중된 에너지 사이의 비율로서 추정된다. 여기서, 사용되는 틸트 측도는 저주파수 및 고주파수 에너지 비율로서 정의된 스펙트럼 틸트 측도 e_tilt(0) 및 e'_tilt(1)의 로그 도메인(logarithmic domain)에서의 평균이다. 즉,

(9)

피치 안정성 카운터 pc는 변분(variation)을 평가하며, 다음과 같이 계산된다.

(10)

값 T_op0, T_op1 및T_op2는 각각 현재 프레임의 제1 절반(half), 현재 프레임의 제2 절반 및 룩어헤드로부터의 개방-루프 피치 추정치에 대응한다.

상대적 프레임 에너지 E_rel는 현재 프레임 에너지와 장기(long-term) 활성 에너지 평균 사이의 dB차로서 계산된다.

마지막 파라미터는 스피치 신호의 20ms 세그먼트에 대해 계산된 제로-크로싱 파라미터 zc이다. 이 세그먼트는 현재 프레임의 중앙에서 시작되며, 룩어헤드의 2개의 서브프레임을 이용한다. 여기서, 제로-크로싱 카운터 zc는 스피치 신호 기호(sign)가 그 간격 동안에 정극성에서 부극성으로 변화되는 횟수를 카운트한다.

분류를 보다 견고하게 하기 위해, 분류 파라미터는 메릿 함수(a function of merit) f_m을 형성하는 것과 함께 고려된다. 그 목적을 위해, 분류 파라미터는 먼저 0과 1 사이에서 스케일링되며, 그에 따라 무성음 스피치 신호에 통상적인 파라미터 값은 0으로 변환되고, 유성음 스피치 신호에 통상적인 각각의 파라미터 값은 1로 변환되며, 이들 사이에 선형 함수가 이용된다. 소정의 파라미터 p_x의 스케일링된 버전 p^s는 다음 방정식을 이용하여 얻어진다.

(11)

함수 계수 k_p 및 c_p는 프레임 에러가 존재하는 경우에 사용되는 은폐 및 복원 기술로 인한 신호 왜곡이 최소화되도록 각각의 파라미터에 대해 실험적으로 구해졌다. 사용된 값들은 표1에 요약되어 있다

표1-신호 분류 파라미터 및 그 각각의 스케일링 함수의 계수

메릿 함수 f_m는 다음과 같이 정의되었다.

(12)

여기서, 첨자는 파라미터의 스케일링된 버전을 나타낸다.

제1 분류 결정은 다음과 같이 무성음 클래스에 대해 이루어진다.

(13)

여기서, local_VAD는 국부적 음성 활동 검출(local Voice Activity Detection)을 나타낸다.

만일 위의 조건(13)이 만족되지 않으면, 분류는 메릿 함수 f_m과 표2에 요약된 규칙(rules)을 이용하여 진행된다.

표2-인코더에서의 신호 분류 규칙

클래스 정보는 전술한 바와 같이 2비트로 인코딩된다. 프레임 소거 은폐를 향상시키는 추가(supplementary) 정보가 일반(generic) 프레임에서만 전송된다는 사실에도 불구하고, 분류는 각각의 프레임에 대해 수행된다. 이것은 이전의 프레임의 클래스에 관한 정보를 이용하는 시점까지 분류 상태 머신을 유지하기 위해 필요하다. 그러나, 분류는 무성음 또는 유성음 프레임을 위한 인코딩 형태에 직선적이다. 그러므로, 유성음 프레임은 항상 VOICED(유성음)로서 분류되고, 무성음 프레임은 UNVOICED(무성음)로서 분류된다.

TM 코딩을 위한 프레임 선택

전술한 바와 같이, 설명되는 기술은 비-고정성(non-stationary) 스피치 프레임이 처리되는 경우에 코딩 효율을 향상시키고 프레임 소거에 대한 견고성을 향상시키기 위해 CELP-기반 코더의 적응형 코드북을 성음-형상 코드북으로 대체한다. 이것은 이 기술이 이전의 여기를 이용하여 제1 스테이지 여기 신호를 구성하지는 못하지만, 성문-형상 코드북으로부터 제1 스테이지 여기 신호를 선택한다는 것을 의미한다. 제2 스테이지 여기 신호(총 여기 신호의 이노베이션 부분)는 여전히 전통적인 CELP 고정형 코드북으로부터 선택된다. 이들 코드북 중 어느 것도 이전의(이전에 전송된) 스피치 프레임으로부터의 정보를 이용하지 않으며, 따라서 CELP-기반 인코더에 내재하는 프레임 에러 전파의 주원인이 없어진다.

(모든 프레임을 인코딩하기 위해) TM 코딩 기술을 조직적으로 이용하는 것은 에러 전파를 크게 제한하지만, 에러-프리 조건에서 코딩 효율 및 합성 스피치 품질이 떨어지게 된다. 코덱의 클린-채널 성능과 채널 에러에 대한 견고성 사이의 절충으로서, TM 코딩 기술은 천이 프레임과 각각의 천이 프레임의 수개의 후속 프레임에 대해서만 적용될 수 있다. 프레임 소거 견고성을 위해, TM 코딩 기술은 천이 프레임 다음에 오는 유성음 스피치 프레임에 이용될 수 있다. 전술한 바와 같이, 이들 천이는 기본적으로 유성음 온셋과 2개의 상이한 유성음 사이의 천이를 포함한다. TM 코딩 기술을 이용하여 인코딩될 적절한 프레임을 선택하기 위해, 천이를 검출한다. 어떠한 천이 검출기도 사용될 수 있지만, 본 발명의 비-제한적인 실시예는 전술한 바와 같은 EV-VBR 프레임워크의 분류를 이용한다.

TM 코딩 기술은 전술한 천이(유성음 온셋 또는 2개의 상이한 유성음 사이의 천이) 프레임 및 수개의 후속 프레임을 인코딩하기 위해 적용될 수 있다. TM 프레임(TM 코딩 기술을 이용하여 인코딩되는 프레임)의 수는 채널 에러가 있는 조건과 클린-채널 조건에서의 코덱 성능 사이의 절충의 문제이다. 만일 천이(유성음 온셋 또는 2개의 상이한 유성음 사이의 천이) 프레임만이 TM 코딩 기술을 이용하여 인코딩된다면, 인코딩 효율은 증가된다. 이러한 증가는 예를 들어, 세그먼트 SNR(signal-to-noise ratio:신호대잡음비))의 증가에 의해 측정될 수 있다. SNR은 다음 방정식을 이용하여 계산된다.

(14)

여기서, E_sd는 현재 프레임의 입력 스피치 신호의 에너지이고, E_e는 입력 스피치 신호와 현재 프레임의 합성 스피치 신호 사이의 에러의 에너지이다.

그러나, 천이 프레임 만을 인코딩하기 위해 TM 코딩 기술을 이용하는 것은 에러 견고성에 큰 도움은 되지 못하며, 만일 천이(유성음 온셋 또는 2개의 상이한 유성음 사이의 천이) 프레임이 손실되면, 에러가 전파되게 되며, 그 이유는 후속 프레임이 표준 CELP 절차를 이용하여 코딩되게 되기 때문이다. 한편, 천이(유성음 온셋 또는 2개의 상이한 유성음 사이의 천이) 프레임에 선행하는 프레임이 손실되면, 이 손실된 선행 프레임의 성능에 대한 영향은 TM 코딩 기술을 이용하지 않을 때 조차도 중대하지 않다. 유성음 온셋 천이의 경우에, 온셋에 선행하는 프레임은 무성음이 될 가능성이 많으며, 적응형 코드북 기여도는 크게 중요하지 않다. 2개의 유성음 사이의 천이의 경우에, 천이 이전의 프레임은 일반적으로 아주 고정성이며, 인코더 및 디코더에서의 적응형 코드북 상태는 종종 프레임 소거와 유사하다.

견고성을 증가시키기 위해, 천이(유성음 온셋 또는 2개의 상이한 유성음 사이의 천이) 이후의 프레임은 TM 코딩 기술을 이용하여 인코딩될 수 있다. 만일 클린-채널 성능 향상이 중요하지 않으면, TM 코딩 기술은 천이 프레임 이후의 프레임에서만 사용될 수 있다. 기본적으로, 연속적인 TM 프레임들의 수는 보호(protection)를 위해 고려하길 원하는 연속적인 프레인 소거의 수에 의존한다. 만일 단지 격리된 소거만이(즉, 한번에 하나의 격리된 프레임 소거) 고려되는 경우에는, 천이(유성음 온셋 또는 2개의 상이한 유성음 사이의 천이) 프레임 이후의 프레임만을 인코딩하는 것으로 충분하다. 만일 천이(유성음 온셋 또는 2개의 상이한 유성음 사이의 천이) 프레임이 손실되면, 후속 프레임은 이전의 여기 신호를 이용하지 않고 인코딩되며, 에러 전파는 차단된다. 그러나, 만일 천이(유성음 온셋 또는 2개의 상이한 유성음 사이의 천이) 프레임은 정확하게 전송되었지만, 후속 프레임은 손실된 경우에, 그 다음 프레임이 이미 전통적인 CELP 인코딩을 이용한 것이기 때문에, 에러 전파는 방지되지 않는다. 그러나, 도3에 도시된 바와 같이, 천이(유성음 온셋 또는 2개의 상이한 유성음 사이의 천이) 프레임의 단부에서 이미 적어도 하나의 피치 주기가 양호하게 확립되었다면, 왜곡은 제한될 가능성이 있다.

TM 코딩 기술의 구현이 기존의 코덱으로 수행되고, 현재 프레임의 클래스 및 코딩 모드가 알려지면, TM 코딩을 위해 온셋 및 후속 프레임을 설정하기 위한 다음의 스킴이 이용될 수 있다. 이전에 사용된 연속적인 TM 프레임의 카운터인 파라미터 상태(state)는 인코더 상태 메모리에 저장된다. 만일 이 파라미터의 값이 부극성이면, TM 코딩은 이용될 수 없다. 만일 파라미터 상태가 부극성이 아니지만, 보호를 위한 연속적인 프레임 소거의 수보다 작거나 같≥고, 프레임의 클래스가 ONSET, VOICED, 또는 VOICED TRANSITION이면, 그 프레임은 TM 프레임으로서 표시된다(보다 상세하게는 도4 참조). 다시 말하면, 만일 N_TM_FRAMES≥state>0이면, 그 프레임은 TM 프레임으로서 표시되며, 여기서 N_TM_FRAMES는 TM 코딩 기술을 이용하여 보호하기 위한 연속적인 프레임들의 수이다.

만일 통신 채널 특성이 하나 이상의 격리된 프레임이 한번에 소거되도록 되어 있다면, 즉 프레임 소거가 번들(bundles)로 나타나는 경향을 갖고 있다면, 최선의 해결책은 2개 또는 그 이상의 연속적인 프레임 소거를 보호하기 위해 TM 코딩 기술을 이용하는 것이 될 수 있다. 그러나, 클린-채널 조건에서의 코딩 효율은 떨어지게 된다. 만일 채널에 관한 피드백이 인코더에서 이용가능하면, 연속적인 TM 프레임의 수는 전송 조건에 적응성을 갖게 될 수 있다. 본 발명의 비-제한적인 실시예에서는, 천이(유성음 온셋 또는 2개의 상이한 유성음 사이의 천이) 프레임 이후의 최대 2개의 TM 프레임이 고려되며, 이것은 최대 2개의 연속적인 프레임 소거를 극복할 수 있는 설계에 대응한다.

전술한 결정은 기본적으로 천이(유성음 온셋 또는 2개의 상이한 유성음 사이의 천이) 프레임 이후의 TM 프레임의 고정된 수(이 수가 전송 이전에 고정된 것이든지 또는 전송의 채널 조건에 의존하든지 간에)를 이용한다. 클린-채널 성능과 프레임-에러 견고성 사이의 절충은 폐쇄-루프 분류에 기반할 수 있다. 특히, 이전의 프레임 소거에 대하여 보호하길 원하거나 또는 온셋 프레임인 것으로 판단하길 원하는 프레임에서, 2개의 가능한 코딩 모드의 계산은 병렬로 수행되며, 그 프레임은 일반(CELP) 코딩 모드와 TM 코딩 기술을 둘다 이용하여 처리된다. 다음에, 이들 양자의 접근방법의 성능이 예를 들어, SNR 측도를 이용하여 비교가 이루어지며, 이에 대한 보다 상세한 설명은 다음 섹션 "EV-VBR 코덱에서의 TM 코딩 기술 성능"을 참조하면된다. 일반(CELP) 코딩 모드에 대한 SNR과 TM 코딩 기술에 대한 SNR 사이의 차가 주어진 임계치보다 더 큰 경우에, 일반(CELP) 코딩 모드가 적용된다. 만일 일반(CELP) 코딩 모드에 대한 SNR과 TM 코딩 기술에 대한 SNR 사이의 차가 주어진 임계치보다 작으면, TM 코딩 기술이 적용된다. 임계치는 얼마나 강력한 프레임 소거 보호 및 온셋 코딩 판단이 요구되는가에 의존하여 선택된다.

성음-형상 코드북 검색을 위한 서브프레임 선택

이전의 섹션에서는, TM 코딩 기술을 이용하는 코딩을 위한 프레임을 선택하기 위한 이유와 메카니즘이 설명되었다. 이제, 주어진 비트 레이트에서의 클린-채널 성능과 TM 프레임에 선행하는 프레임에서의 소거가 존재하는 경우의 성능 사이의 최선의 절충을 실현하기 위해 모든 서브프레임에서 성음-형상 코드북을 이용하는 것이 일반적으로 더욱 효율적인 것은 아니다. 먼저, 성문-형상 코드북 검색은 프레임에서 제1 피치-주기에서만 중요하다. 후속 피치 주기는 보다 효율적인 표준 적응형 코드북 검색을 이용하여 인코딩될 수 있으며, 그 이유는 이들 프레임이 더 이상 이전 프레임의 여기를 이용하지 않기 때문이다(적응형 코드북이 검색되는 경우에, 여기는 이전의 약 1피치 주기까지 검색된다). 결과적으로, 프레임의 제1 피치 주기의 어떤 부분도 포함하지 않는 서브프레임에서 성문-형상 코드북 검색을 사용할 이유가 없다.

이와 유사하게, 우성음 온셋 프레임에서 코딩 효율을 증가시키기 위해 성문-형상 코드북 검색을 이용되는 경우에, 이 성문-형상 코드북 검색은 시작 유성음 세그먼트의 제1 피치 주기에 이용된다. 그 이유는 제1 피치 주기 동안에 적응형 코드북은 노이즈성 신호를 포함하고(이전의 세그먼트는 유성음이 아님), 그것을 양자화된 성문 임펄스로 대체하는 것은 종종 코딩 효율을 증가시키기 때문이다. 그러나, 후속 피치 주기 동안에는, 이미 주기적인 여기가 적응형 코드북에서 확립되어 있으며, 이러한 코드북을 이용하는 것이 보다 양호한 결과를 산출하게 된다. 이러한 이유로 인해, 유성음 온셋 위치에 관한 정보가 적어도 서브프레임 결정에 이용가능하다.

비트 할당(allocation)의 최적화는 서브프레임 길이보다 더 긴 피치 주기를 가진 프레임과 관련되어 있다. 성문-형상 코드북이 성문 임펄스의 양자화된 형상을 포함하고 있다면, 그 코드북은 성문 임펄스를 포함하는 서브프레임에 사용되기에 가장 적합하다. 다른 서브프레임에서는, 그 효율이 낮다. 스피치 인코딩 애플리케이션에서 비트 레이트가 아주 제한적이고, 성문-형상 코드북의 인코딩이 낮은 비트 레이트 스피치 인코딩을 위해 비교적 큰 수의 비트를 필요로 한다고 가정하면, 본 발명의 비-제한적인 실시예에서는 성문-형상 코드북이 사용되고 하나의 프레임 당 하나의 서브프레임에서만 검색되는 비트 할당이 선택된다.

성문-형상 코드북으로 인코딩될 서브프레임을 선택하기 위해, LP 잔류 신호에서 제1 성문 임펄스를 찾는다. 이를 위해 다음의 간단한 절차가 이용될 수 있다. LP 잔류 신호에서 최대 샘플이 레인지[0, 0+T_op+2]에서 검색되며, 여기서 T_op는 제1 절반-프레임에 대한 개방-루프 피치 주기이고, 0은 프레임 개시점에 대응한다. 유성음 온셋 프레임의 경우에, 그리고 만일 온셋의 개시점이 신뢰성있게 판단될 수 있다면, 0은 온셋 개시점이 위치된 서브프레임의 개시점을 나타낸다. 그러면, 성문-형상 코드북은 최대 잔류 신호 에너지를 가진 서브프레임에 사용되게 된다. 또한, 이러한 최대치의 위치는 성문 임펄스 위치가 근사적으로 정해질 수 있는 정보를 제공하고, 이러한 위치결정은 복잡성 감소를 위해 활용될 수 있으며, 이에 대해서는 후술된다. 성문-형상 코드북 검색이 적응형 코드북만을 대체하기 때문에, 고정형 코드북 검색은 TM 프레임의 매 서브프레임마다 수행된다는 것을 주목하자.

다른 서브프레임(성문-형상 코드북을 이용하여 인코딩되지 않은)은 다음과 같이 처리되게 된다. 만일 성문-형상 코드북 검색을 이용하는 서브프레임이 프레임에서 제1(첫번째) 서브프레임이 아니면, 그 프레임의 선행 서브프레임에서의 여기 신호는 고정형 CELP 코드북만을 이용하여 인코딩되며, 이것은 제1 스테이지 여기 신호가 제로라는 것을 의미한다. 만일 성문-형상 코드북 서브프레임이 프레임에서 최종 서브프레임이 아니면, 그 프레임의 후속 서브프레임은 표준 CELP 인코딩을 이용하여(즉, 적응형 및 고정형 코드북 검색을 이용하여) 처리된다. 도5a 내지 도5c에는, 제1 성문 임펄스가 제2(두번째) 서브프레임에서 나타나는 경우에 대한 상황이 도시되어 있다. 제1 스테이지 여기 신호는 그것이 성문-형상 코드북을 이용하여 확립된 경우에는 q_k'(n)으로 나타내고, 그것이 적응형 코드북을 이용하여 확립된 경우에는 v(n)으로 나타낸다. 본 예에서(도5), 제1 스테이지 여기 신호는 제1 서브프레임에서 제로이고, 제2 서브프레임에서는 성문-형상 코드벡터이고, 최종 2개의 서브프레임에서는 적응형 코드북 벡터이다.

코딩 효율을 더욱 증가시키고 비트 할당을 최적화시키기 위해, 피치 주기에 의존하는 TM 프레임의 특정 서브프레임에서는 다른 처리가 사용된다. 제1 서브프레임이 TM 서브프레임으로서 선택되면, LP 잔류 신호에서 제2 성문 임펄스를 가진 서브프레임에 대한 판단이 이루어진다. 이러한 판단은 피치 주기값에 기반하고 있으며, 다음의 4개의 상황이 발생할 수 있다. 제1 상황에서는, 제2 성문 임펄스가 제1 서브프레임에 있고, 제2, 제3 및 제4 서브프레임은 표준 CELP 인코딩(적응형 및 고정형 코드북 검색)을 이용하여 처리된다. 제2 상황에서, 제2 성문 임펄스는 제2 서브프레임에 있으며, 제2, 제3 및 제4 서브프레임은 표준 CELP 인코딩을 이용하여 처리된다. 제3 상황에서는, 제2 성문 임펄스가 제3 서브프레임에 있다. 제2 서브프레임은 적응형 코드북을 이용하기 위해 검색되는 LP 잔류 신호의 제2 서브프레임에는 성문 임펄스가 없기 때문에 오직 고정형 코드북 검색을 이용하여 처리된다. 재3 및 제4 서브프레임은 표준 CELP 인코딩을 이용하여 처리된다. 마지막(제4) 상황에서, 제2 성문 임펄스는 제4 서브프레임(또는 후속 프레임)에 있으며, 제2 및 제3 서브프레임은 고정형 코드북 검색만을 이용하여 처리되고, 제4 서브프레임은 표준 CELP 인코딩을 이용하여 처리된다. 이에 대한 보다 상세한 설명은 후술하는 구현예에 제공된다.

표3은 가능한 코딩 구성(configurations)의 명칭 및 그 발생 통계가 나타나 있다. 다시 말하면, 표3은 TM 코딩 기술을 이용하여 처리되는 프레임에 대한 각각의 서브프레임에서의 제1 및 제2 성문 임펄스 발생 분포를 제공한다. 표3은 유성음 온셋 프레임과 하나의 후속 프레임만을 인코딩하기 위해 TM 코딩 기술이 이용된 경우의 시나리오에 대응한다. 이 실험에서 스피치 신호의 프레임 길이는 20ms이었으며, 서브프레임 길이는 5ms, 그리고 실험은 32명의 남자와 32명의 여자의 음성을 이용하여 행해졌다(만일 다르게 언급되지 않는다면, 다음의 설명에서 언급되는 모든 다른 실험에서도 동일한 스피치 데이터베이스가 사용된다).

표3-스피치 신호가 처리될 때의 TM을 위한 코딩 모드 구성 및 그 발생

성문-형상 코드북

주로, 성문-형상 코드북은 특정 위치에 배치되는 성문 임펄스의 양자화된 정규화 형상으로 이루어진다. 결과적으로, 코드북 검색은 최선의 형상을 선택하고 특정 서브프레임에서의 그 최선의 위치를 판단하는 것으로 이루어진다. 그 가장 간단한 형태로, 성문 임펄스의 형상은 단위(unity) 임펄스로 표현될 수 있으며, 양자화될 필요가 없다. 이 경우에, 서브프레임의 그 위치만이 판단된다. 그러나, 이러한 간단한 코드북의 성능은 매우 제한적이다.

한편, 만일 성문-형상 코드북 엔트리의 길이 L이 피치 주기의 길이에 대응하고, 많은 수의 성문 임펄스 형상이 표현된다면, 최선의 표현이 실현될 수도 있다. 성문 임펄스의 길이 및 형상은 스피커에 따라, 그리고 프레임에 따라 변화되기 때문에, 이러한 코드북을 검색하고 저장하기 위해 복잡성 및 메모리 요건이 너무 커지게 된다. 절충으로서, 성문 임펄스의 길이 및 그 수는 제한되어야 한다. 본 발명의 비-제한적인 실시예에서, 성문-형상 코드북은 8개의 상이한 성문 임펄스 형상으로 이루어지고, 각각의 성문 임펄스의 길이는 L=17 샘플이다. 양자화된 형상은 절대 최대치(absolute maximum)가 그 길이의 중앙(middle)에 있도록 선택되었다. 성문-형상 코드북 검색 동안에, 이 중앙은 인덱스 k'와 정렬되며, 인덱스 k'는 현재 프레임에서의 성문 임펄스의 위치를 나타내며, 간격[0, N-1](여기서, N은 서브프레임 길이)으로부터 선택된다. 17 샘플의 코드북 엔트리 길이가 서브프레임 길이보다 짧기 때문에, 잔여 샘플은 제로로 셋팅된다.

성문-형상 코드북은 실재하는 성문 임펄스를 가능한 많이 표현하도록 설계된다. k-평균(k-means) 알고리즘[4]에 기반한 트레이닝 프로세스(training process)가 이용되었으며, 수개의 상이한 언어를 말하는 많은 서로 다른 스피커의 발음(utterances)으로 이루어진 스피치 신호를 이용하여 3시간 이상의 시간 동안 성문-형상 코드북이 트레이닝되었다. 이 데이터베이스로부터, 성문 임펄스가 LP 잔류 신호로부터 추출되고, 최대 절대치 근방에서 17 샘플로 절단되었다(truncated). k-평균 알고리즘에 의해 선택된 16개의 형상으로부터, 세그먼트 SNR 품질 측도를 이용하여 형상의 수가 실험적으로 8개 형상으로 더 감소되었다. 선택된 성문-형상 코드북은 도6에 도시되었다. 성문-형상 코드북을 설계하기 위해 다른 수단이 사용될 수 있다는 것은 명백하다.

성문-형상 코드북 검색

성문-형상 코드북의 실현은 몇가지 방식으로 이루어질 수 있다. 예를 들어, 검색은 CELP에서의 고정형 코드북 검색과 유사한 방식으로 수행될 수 있다. 이 경우에, 코드북은 서브프레임 내의 모든 가능한 위치에 성문 임펄스 형상의 중심을 배치함으로써 구성된다. 예를 들어, 64개 샘플의 서브프레임 길이와 8개의 성문 임펄스 형상에 대해, 64x8=512개 코드벡터의 성문-형상 코드북이 얻어진다. 다른 예에 따르면, 적응형 코드북 검색과 유사하게, 코드북 엔트리들이 이전의 여기에서의 모든 가능한 위치에 연속적으로 배치될 수 있으며, 적응형 코드북 검색에서 사용되는 것과 유사한 방식으로 최선의 형상/위치 조합이 선택될 수 있다. 후자의 실현에서, 모든 피치 사이클 반복은 장기 CELP 필터를 통해 자동적으로 수행되고, 성문 임펄스는 풀-사이즈 형상으로 표현된다(이는 후술되는 접경(border)의 경우에서 성문-형상 절단이 필요로 되는 첫번째 실현과는 대조적이다).

본 발명의 비-제한적인 실시예는 코드북 검색이 ACELP(Algebraic CELP)에서의 고정형 코드북 검색과 유사한 구성을 이용한다. 이러한 접근방법에서, 각각의 후보 형상에 대해, 정형 필터 G(z)의 임펄스 응답으로서 형상이 표현된다. 그러므로, 상이한 위치에 중심이 위치한 성문 임펄스 형상들에 대응하는 코드벡터들이 정형 필터 G(z)를 통해 필터링된 오직 하나의 넌-제로 엘리먼트를 포함하는 코드벡터들에 의해 표현될 수 있다(서브프레임 사이즈 N에 대해, 가능성있는 성문 임펄스 위치 k'에 N개의 단일-펄스 벡터가 존재한다).

성문 임펄스 위치 k'가 L개 샘플의 홀수 길이를 가진 성문 형상의 중간에 있고, k'가 레인지[0, N-1]에 있기 때문에, 성문 형상은 제1 샘플과 최종 L_1/2=(L-1)/2 샘플에 대해 절단되어야 한다. 이것은 정형 필터 G(z) 필터를 바-인과(non-causal) 필터로 만들기 때문에, 성문 펄스 검색 동안에 고려되게 된다.

TM 부분의 구성은 인코더에 대해서는 도7에, 그리고 디코더에 대해서는 도11에 도시되어 있다. 전술한 바와 같이, TM 부분은 인코더/디코더의 적응형 코드북 부분을 대체한다. 검색 동안에, 정형 필터 G(z)의 임펄스 응답은 필터 H(z)의 임펄스 응답과 적분될(integrated) 수 있다.

이제, 정형 필터 G(z)에 의해 렌더링되는(rendered) 성문 임펄스의 소정의 형상에 대한 최적의 성문 임펄스 중심 위치 k'를 검색하기 위한 절차 및 대응하는 코드북 검색자(searcher)에 관해 설명된다. 필터 G(z)의 형상은 수개의 후보 형상(도6에 도시된 바와 같이 본 발명의 비-제한적인 실시예에서는 8개의 형상이 이용됨)으로부터 선택되기 때문에, 최적의 임펄스 형상 및 위치를 구하기 위해서는 코드북의 각각의 성문 형상에 대해 검색 절차가 반복되어야 한다.

TM 코딩 파라미터를 판단하기 위해, 검색은 가중된 합성 필터 H(z)를 통해 필터링된 위치 k'에 중심이 있는 성문 형상 코드벡터와 타겟 벡터 x ₁ 사이의 평균제곱 에러를 판단한다. CELP와 유사하게, 검색은 다음의 형식에서 기준의 최대를 구함으로써 수행될 수 있다.

(15)

여기서, y ₁은 필터링된 성문-형상 코드벡터이다. q _k'가 위치 k'에 중심이 있는 성문-형상 코드벡터를 나타내고, p _k'가 위치 k'를 나타내는 하나의 넌-제로 엘리먼트를 가진 위치 코드벡터라고 하면, q _k'=G·p _k'가 될 수 있으며, 여기서 G는 성문 임펄스의 형상을 나타내는 토플리츠 매트릭스이다. 그러므로, 고정형 코드북 검색과 유사하게, 다음의 방정식이 될 수 있다.

(16)

여기서, H는 가중된 합성 필터의 하부(lower) 삼각형 토플리츠 콘볼루션 매트릭스이다. 후술되는 바와 같이, 매트릭스 Z ^T의 로우들은 성문 임펄스 형상의 필터링된 시프트 버전 또는 그 절단된(truncated) 표현에 대응한다. 이 텍스트에서 모든 벡터들은 칼럼 벡터(Nx1 매트릭스)인 것으로 가정한다.

N=4이고 3개 샘플의 임펄스 길이에 대해 전치 형식 (^T)으로 매트릭스 G의 일례는 다음의 형식을 갖는다.

(17)

여기서, g(n)은 비-인과 정형 필터 G(z)의 임펄스 응답의 계수이다. 다음의 설명에서, 비-인과 정형 필터 G(z)의 계수는 레인지[-L_1/2, L_1/2] 내에 위치한 n에 대한 값 g(n)에 의해 주어진다. 위치 코드벡터 p _k'가 오직 하나의 넌-제로 엘리먼트를 갖고 있다는 사실로 인해, 기준(criterion)(16)의 계산은 매우 간단하며, 다음 방정식을 이용하여 표현될 수 있다.

(18)

방정식(18)로부터 알 수 있는 바와 같이, 매트릭스 Φ _g의 다이아고날만이 계산될 필요가 있다.

하나의 성문-형상 코드벡터에 대한 기준(18) 계산하는 그래픽 도면이 도8 및 도9에 도시되어 있다. 전술한 바와 같이, 방정식(18)은 역방향 필터링된 타겟 벡터 d_g와 상관 매트릭스 Φ _g를 사전-계산함으로써(precomputing) ACEKP 대수 코드북 검색에 이용된다. 그러나, 정형 필터 G(z)의 비-인과 속성이 주어지면, 이것은 제1 L_1/2 위치에 대해 직접 적용될 수 없다. 이러한 상황에서는, 복잡성을 낮은 레벨로 유지하기 위해 일부의 계산된 값들이 더 축소될 수 있는 보다 정교한 검색이 이용된다.

z _k'를 매트릭스 Z ^T의 (k'+1)번째 로우(row)로 표시하면, 여기서 매트릭스 Z ^T(도10) 는 다음과 같이 계산된다. 정형 필터 G(z)의 비-인과 속성이 주어지면, Z ^T는 계산의 복잡성을 최소화하기 위해 2 스테이지로 계산된다. 이 매트릭스의 제1 L_1/2+1 로우들이 먼저 계산되고, 매트릭스 Z ^T의 잔여 부분(매트릭스 Z ^T의 최종 N-L_1/2-1 로우)에 대해서는, ACELP 고정형 코드북 검색과 유사한 방식으로 기준(18)이 이용된다.

이제, 매트릭스 Z ^T 및 기준(18)을 어떻게 계산하는지에 관한 상세한 설명이 제공된다.

제1 스테이지에서, 레인지[0, L_1/2] 내의 위치 k'에 대응하는 매트릭스 Z ^T의 제1 L_1/2+1 로우가 계산된다. 이들 위치에서, 이 레인지 내의 각각의 위치 k'에 대해 상이한 절단된 성문 형상이 사용된다. 제1 연산에서, 위치 k=0에 대한 성문-형상 응답과 임펄스 응답 h(n) 사이의 콘볼루션이 다음 방정식을 이용하여 계산된다.

(19)

여기서, 정형 필터 G(z)가 오직 L_1/2+1 넌-제로 계수만을 갖는다는 장점, 즉 g(0), g(1),...,g(L_1/2)이 넌-제로 계수라는 장점이 있다.

제2 연산에서, 위치 k=1에 대한 성문-형상 응답과 임펄스 응답 H(n) 사이의 콘볼루션 z₁(n)이 다음과 같이 z₀(n)의 값을 재사용하여 계산된다(매트릭스 Z ^T=G ^T·H ^T는 일부의 제로 부극성-경사(negative-sloping) 다이아고날을 가진 매트릭스이지만, 이 매트릭스 Z ^T는 더이상 도10에 도시된 바와 같이 토플리츠 및 삼각형 매트릭스가 아니다).

(20)

다음의 로우에 대해, 방정식(21)에서의 귀납(recursion)이 재사용된다.

(21)

귀납(21)은 모든 k'≤L_1/2에 대해 반복된다. k'≤L_1/2에 대해, 정형 필터 G(z)는 이미 L개의 넌-제로 계수를 갖고 있으며, 그러므로 매트릭스 Z ^T의 (L_1/2+1 )번째 로우가 다음 방정식에 의해 얻어진다.

(22)

이 시점에서, 매트릭스 Z ^T의 제1 L_1/2+1 로우가 계산되었다. 이들 로우는 제로 계수를 포함하지 않는다(도10). 그리고, 다음 방정식을 이용하여 레인지[0, L_1/2] 내의 각 k'에 대해 기준(18)이 계산될 수 있다.

(23)

제2 스테이지에서는, 매트릭스 Z ^T의 잔여부분이 계산되고, 레인지[L_1/2+1, N-1] 내의 위치 k'에 대해 기준(18)이 평가된다. 방정식(22)에 의해 전술한 바와 같이 이미 계산된 콘볼우션 z_L1/2(n)의 계수를 이용하여 매트릭스 Z ^T의 로우 L_1/2+1,...,N-1가 확립된다는 장점이 있다. 차이점은 단지 이들 로우를 계산하기 위해 계수들의 일부만이 필요로 된다는 것이다. 즉, 각각의 로우는 1씩 우측으로 시프트되고, 개시점에서 제로를 부가한 이전의 로우에 대응한다.

(24)

이것은 레인지[L_1/2+1, N-1] 내의 각 k'에 대해 반복된다.

제2 스테이지에서, 계산의 복잡성을 더욱 감소시키기 위해 상기 섹션 "고정형 코드북 검색"에서 설명한 바와 유사한 방식으로 기준(18)이 계산될 수 있다. 이 기준(18)은 최종 위치 k'=N-1(이것은 매트릭스 Z ^T의 최종 로우임)에 대해 먼저 평가된다. k'=N-1에 대해, 기준(18)의 분자(numerator) 및 분모(denominator)가 다음 방정식에 의해 제공된다.

(25)

(26)

매트릭스 Z ^T의 계수의 일부는 제로이기 때문에(도10), 기준(18)의 분자 및 분모를 계산하기 위해 (방정식(23)에 사용된 N 승산(multiplications) 대신에) 오직 L_1/2=1이 이용된다.

도10의 예(L_1/2=1)를 이용하면, 방정식(25) 및 (26)을 이용하여 계산된 기준(18)이 다음과 같이 간략화될 수 있다.

(27)

다음 단계에서는, 이전에 계산된 값들의 일부가 분모 계산을 위해 재사용될 수 있다. 위치 N-2에 대해, 기준(18)의 분모는 다음 방정식을 이용하여 계산된다.

(28)

분자는 합산(summation) 인덱스가 변경된 방정식(25)를 이용하여 계산된다.

(29)

유사한 방식으로, 기준(18)의 분자 및 분모는 모든 k'>L_1/2에 대해 계산된다.

전술한 절차는 성문 임펄스로부터의 제1 형상을 표현하는 코드벡터를 위한 기준(18)의 최대치를 구할 수 있도록 한다. 검색은 모든 다른 성문 임펄스 형상에 대해 전술한 절차를 이용하여 계속되게 된다. 기준(18)의 최대치 검색은 검색의 결과를 구성하는 하나의 성문-형상 및 하나의 위치 k'에 대응하는 기준(18)에 대한 하나의 최대치를 구하기 위해 성문-형상 코드북 검색으로서 계속된다.

또한, 성문 펄스 중심 위치 k'를 검색할 때 서브-샘플 분해능(resolution)을 이용하는 것도 가능하다. 그러나, 이것은 복잡성이 증가되는 결과를 초래한다. 특히, 이것은 분해능을 증가시키기 위해 성문 임펄스 형상을 업-샘플링하고 상이한 분해능에서 상이한 시프트된 버전을 추출하는 것을 필요로 하게 된다. 이것은 보다 큰 성문 형상 코드북을 이용하는 것과 동일하다.

이상적으로는, 기준(18)은 모든 가능한 성문 임펄스 위치 k'에 대해 계산된다. 본 발명의 비-제한적인 실시예에서는, 계산적인 복잡성을 더욱 감소시키기 위해 위치 k'의 예상 위치 근방의 제한된 레인지에서만 검색이 수행된다. 이 예상 위치는 레인지[k_min, k_max], 0≤k_min< k_max<N 내에 있으며, 상기 섹션 "성문-형상 코드북 검색을 위한 서브프레임 선택"에서 설명된 바와 같이 구해지는 LP 잔류 신호 최대치로부터 제1 성문 형상에 대해 결정될 수 있다. 다음에, 성문-형상 코드북 검색이 수행되고, 제1 성문 형상에 대해 위치 k'가 구해진다. 제2 성문 형상 검색을 위해 새로운 레인지[k_min, k_max]가 다음과 같이 설정된다.

(30)

통상적으로, △=4이다. 방정식(30)은 제2 형상의 선택된 위치 근방의 제3 형상 등에 대한 검색 레인지를 정의하기 위해 이용된다. 다음의 예에서는, 초기 검색 레인지가 [N-15, N-7]이고, L=17이고, N=64라고 가정한다. 검색은 값 z_L1.2(n)을 계산하는 것으로 시작된다. 위치 k'=N-7에 대해 기준(18)은 다음 방정식을 이용하여 평가된다.

(31)

위치 k'=N-8에 대해 기준을 계산하기 위해, 분모는 다음과 같이 귀납적으로 계산된다.

(32)

동일한 방식으로, 모든 잔여 위치 k'=N-15까지 분모가 계산된다. 기준(18)의 분자는 다음의 방정식을 이용하여 방정식(29)와 유사한 방식으로 레인지[N-15, N-7] 내의 모든 위치에 대해 분리적으로 계산된다.

(33)

성문-형상 코드북 검색에서 결정될 최종 파라미터는 방정식(4)에서와 같이 계산될 수 있는 이득 g_p이며, 차이점은 적응형 코드북 검색에서와 같이 경계가 정해지지 않는다는 것이다. 그 이유는 필터링된 성문-형상 코드벡터가 실제 여기 신호 임펄스의 에너지와는 매우 다른 에너지를 가진 정규화된 양자화 성문 형상을 이용하여 구성되기 때문이다.

성문 임펄스 위치 및 성문 형상과 관련된 인덱스는 디코더로 전송된다. 도11은 디코더에서의 필터링된 성문-형상 코드벡터 재구성에 관해 도시하고 있다. 후술하는 바와 같이 서브프레임이 하나 보다 많은 성문 임펄스를 포함하는 경우를 제외하고 성문-형상 코드북 검색 서브프레임에서 더이상 피치 주기 길이가 전송될 필요가 없다는 것을 주목하자.

하나의 서브프레임에서의 더 많은 성문 임펄스

스피치 신호의 피치 주기가 서브프레임 길이보다 짧은 상황이 존재하며, 이 경우에 서브프레임은 하나 보다 많은 성문 임펄스(특히, 구성 TRANSITION_1_1에서)를 포함할 수 있다. 피치 주기 길이 제한 및 서브프레임 길이를 가정하면, 본 발명의 비-제한적인 실시예에서 서브프레임은 2개 보다 많은 성문 임펄스를 포함할 수 없다.

이들 상황은 2가지 상이한 접근방법으로 해결될 수 있다. 첫번째로 간단한 한가지 방법은 레퍼런스[1]에 기재된 바와 같이 AMR-WB(Adaptive Multi-Rate Wideband)에 사용되는 주기성 향상(피치 선명화(sharpening))과 유사한 절차를 이용하여 이들 상황을 해결하는 것이며, 여기서 임펄스는 기본적으로 선형 필터를 이용하여 피치 주기로 반복된다. 도12a에 도시된 바와 같이, 성문-형상 코드벡터 q_k'(n)는 다음 형식의 적응형 반복 필터를 통해 처리된다.

(34)

피치 주기 T₀는 예를 들어, 표준 폐쇄-루프 피치 검색 접근방법에 의해 결정될 수 있다. 파라미터 α는 제2 임펄스의 에너지에 영향을 주며, 본 발명의 비-제한적인 실시예에서 α=0.85로 설정되었다. 이 기술은 정확한 위치에서의 누락 성문 임펄스를 성문 형상 코드벡터에 부가한다. 이것은 도12b에 점선으로된 임펄스로서 도시되어 있다. 이러한 상황은 성문 임펄스 중심 위치 k'와 피치 주기 T₀의 합이 서브프레임 길이 N보다 작은 경우, 즉 (k'+T₀)<N일때 나타난다. 또한, 임펄스 위치 k'와 피치 주기의 합이 서브프레임 길이를 초과하는 상황에서도, 피치 주기값은 대수 코드북에서 피치 선명화가 이용되는 경우에 고정형 코드벡터를 확립하기 위해 이용된다.

반복 필터 Q(z)는 인코더에 대해 도13의 블록도에 도시된 바와 같이, 필터 G(z) 및 H(z) 사이의 TM 부분으로 삽입된다. 디코더에서도 동일한 변경이 이루어진다. 피치 선명화와 유사하게, 반복 필터 Q(z)의 임펄스 응답이 코드북 검색 이전에 G(z) 및 H(z)의 임펄스 응답에 부가될 수 있으며, 그러므로 이들 임펄스가 검색의 복잡성을 낮은 레벨로 유지하면서 검색 동안에 고려될 수 있다.

하나의 서브프레임에서 2개의 성문 임펄스를 가진 성문-형상 코드벡터를 확립하기 위한 다른 접근방법은 서브프레임의 일부에 적응형 코드북 검색을 이용하는 것이다. 도14에 도시된 바와 같이, 성문-형상 코드벡터 q_k'(n)의 제1 T₀ 샘플들은 성문-형상 코드북 검색을 이용하여 확립되고, 서브프레임 내의 다른 샘플들은 적응형 검색을 이용하여 확립된다. 이러한 접근방법은 보다 복잡하기는 하지만, 보다 정확하다.

인코딩 효율을 더 증가시키기 위해, 다음 서브프레임의 제1 L_1/2 위치 중 하나에 제2 성문 임펄스가 나타나는 경우에도 전술한 절차가 이용될 수 있다(도15). 이러한 상황에서, 즉, k' 및 T₀가 N≤(k'+T₀)<(N+L_1/2)를 유지하는 경우에, 성문 형상의 몇개의 샘플(L_1/2+1 보다 작음)만이 현재 프레임의 단부에 이용될 수 있다. 이러한 접근방법은 본 발명의 비-제한적인 실시예에 이용된다. 그러나, 이들 상황에서 전송되는 피치 주기값이 이상적으로는 T₀≤N+L_1/2로 제한되어야 하지만, T₀<N(이것은 효율적인 인코딩의 문제임)으로 제한되기 때문에 이 접근방법은 한계를 갖고 있다. 그러므로, 제2 성문 임펄스가 다음 서브프레임의 개시점에 나타나는 경우에, 반복 절차는 제1 성문 임펄스의 제1 L_1/2성문 임펄스 위치 k'의 일부에 대해서는 이용될 수 없다.

EV-VBR 코덱에서 TM 코딩 기술의 구현

본 발명의 비-제한적인 실시예에 따른 TM 코딩 기술은 EV-VBR 코덱에서 구현되었다. EV-VBR은 12.8KHz의 내부 샘플링 주파수와 20ms의 프레임 길이를 이용한다. 각각의 프레임은 N=64 샘플의 4개의 서브프레임으로 분할된다. EV-VBR 분류 절차는 TM 코딩 기술을 이용하여 인코딩될 프레임을 선택하도록 적응되었다. 이러한 구현예에서, 성문-형상 코드북 기여의 이득은 도16에 도시된 바와 같이 2단계로 양자화되며, 여기서 G(z)는 정형 필터이고, k'는 성문 형상의 중심의 위치이고, g_m은 TM 이득, 즉 성문-형상 코드벡터의 개략적으로 양자화된(roughly quantized) 에너지이다. TM 이득 g_m은 방정식(4)를 이용하여 피치 이득과 동일한 방식으로 구해지는데, 차이점은 그것이 경계가 정해지지 않는다는 것이다. 다음에, 이것은 3-비트 스칼라 양자화기를 이용하여 양자화되고, 하나의 부호에 하나의 비트가 사용된다. 다음에, 성문-형상 코드벡터는 이 이득 g_m을 이용하여 스케일링된다. 필터링된 여기 신호에 대한 둘 모두의 기여도(제1 및 제2 스테이지 기여 신호, 즉 필터링된 성문-형상 코드북 기여도 및 필터링된 대수 코드북 기여도)가 구해진 이후에, 제1 스테이지 여기 신호의 이득은 표준 EV-VBR 이득 벡터 양자화(VQ)를 이용하여 제2 스테이지 여기 신호와 공동으로 더 조정된다. 이러한 방식으로, 일반 또는 유성음 코딩 모드를 위해 설계된 EV-VBR의 이득 양자화 코드북도 역시 TM 코딩에 이용될 수 있게 된다. 물론, 다른 상이한 방법을 이용하여 이득 양자화를 수행하는 것도 본 발명의 범위 내에 있다.

성음 임펄스 중심 위치 k'의 검색은 이론적으로는 서브프레임 내의 모든 위치에 대해, 즉 레인지[0, N-1] 내에서 이루어져야 한다. 그럼에도 불구하고, 이미 전술한 바와 같이, 이러한 검색은 많은 수의 성문-형상이 시도되는 경우 계산 집약적이며, 실제적으로 LP 잔류 신호에서 최대 절대치의 위치 근방에서 수개의 샘플 간격으로만 수행될 수 있다. 검색 간격은 현재 프레임 내의 LP 잔류 신호에서 제1 성문 임펄스 최대치의 위치 근방에서 ±4 샘플로 설정될 수 있다. 이러한 방식으로, 처리 복잡성이 적응형 및 고정형 코드북 검색을 이용한 EV-VBR 일반 인코딩에 대한 것과 거의 동일하게 된다.

표4에는 TM 코딩 기술과 관련된 전송된 파라미터가 그 대응하는 비트 수와 함께 리스트되어 있다. 하나의 서브프레임 내의 2개의 임펄스의 경우에, 필터 Q(z)를 결정하거나 제2 성문 임펄스에 대한 적응형 검색을 수행하기 위해 이용되는 파라미터 T₀는 T₀≤N일때 전송된다. TM 코딩을 위해 사용되지만, 일반 ACELP 처리와 공통되는 나머지 파라미터는 여기에 도시되지 않았다(프레임 식별 비트, LP 파라미터, 적응형 여기를 위한 피치 지연, 고정형 코드북 여기, 제1 및 제2 스테이지 코드북 이득 등). TM 파라미터가 비트 스트림에 부가되면, 다른 EV-VBR 파라미터에 원래 할당된 비트의 수는 일정한 비트 레이트를 유지하기 위해 감소된다. 이들 비트는 예를 들어, 이득 양자화뿐만 아니라 고정형 코드북 여기 비트로부터도 감소될 수 있다.

표4-TM을 이용하여 인코딩된 서브프레임을 위해 전송된 비트-스트림에서의 파라미터

EV-VBR에서 사용되는 비트 할당표는 이하에서 설명된다. 성문-형상 코드북 검색은 제1 서브프레임에 적용되지 않으며, 오직 고정형 코드북과 그 이득만이 성문-형상 코드북 서브프레임에 선행하는 서브프레임 내의 여기 신호를 인코딩하기 위해 전송된다는 것을 회상해보자. 이와 동일한 상황이 구성 TRANSITION_1_3 및 TRANSITION_1_4에 발생한다. 이들 경우에, 원래의 일반 ACELP 코딩에서와 같이 모든 서브프레임에 대해 동일하거나 또는 훨씬 더 큰 사이즈의 고정형 코드북을 유지하는 것이 가능하다.

EV-VBR에서의 TM 기술 성능

이 섹션에서는, EV-VBR 구현에서의 TM 코딩 기술의 성능의 몇가지 예가 제시된다. 도17에는, TM 코딩 기술의 영향의 예가 클린-채널 조건에서 도시되어 있다. 도17a는 입력 스피치 신호를 도시하고, 도17b는 잔류 신호를 도시하고, 도17c는 제1 스테이지 여기 신호를 도시하는데, 여기서 TM 코딩 기술은 첫번째 3개의 프레임에서 이용된다. 예상되는 바와 같이, 잔류 신호와 제1 스테이지 여기 신호 사이의 차이는 각각의 프레임의 개시점에서 더 많이 표명된다. 프레임의 단부쪽을 향하면서, 제1 스테이지 여기 신호는 잔류 신호와 더욱 밀접하게 대응하게 되는데, 그 이유는 표준 적응형 코드북 검색이 이용되기 때문이다.

표5 및 표6은 SNR 값을 이용하여 측정된 TM 코딩 기술의 성능의 몇가지 예를 요약한 것이다.

첫번째 예(표5)에서, TM 기술은 중심(내측) 샘플링 주파수 F_s=8KHz(즉, 서브프레임 길이 N=40 샘플)를 가진 코덱에서 구현되었으며, 길이 17-샘플의 16개의 형상이 사용되고, 협대역 입력 신호가 테스트되었다. 표5로부터, TM 코딩 기술을 이용하여 유성음 온셋 프레임을 코딩하는 것은 출력 스피치 신호의 품질을 향상시킨다는 것을 알 수 있다(1 및 2 TM 프레임에 대한 세그먼트 및 가중된 세그먼트 SNR 값을 참조하자). 그리고 유성음 온셋 프레임 및 하나의 후속 프레임이 TM 코딩 기술을 이용하여 인코딩되는 경우에, SNR의 더욱 큰 증가가 관찰될 수 있다. 그러나, 유성음 온셋 프레임 후속의 하나 보다 많은 프레임이 TM 코딩 기술을 이용하여 코딩되는 경우에는, SNR 값이 감소된다. 가중된 SNR은 프레임 길이에 의해 정규화된 프레임 에너지에 의해 가중된 SNR(dB로 표시)이다.

표5-NB 신호에 대한 TM 코딩 기술의 영향의 SNR 측정치 비교

표6은 중심(내측) 샘플링 주파수 F_s=12.8KHz, WB 입력 스피치 신호, 및 길이 17-샘플의 8개의 형상을 가진 성문-형상 코드북을 이용한 EV-VBR 코덱의 성능의 예를 요약한 것이다. 더 긴 서브프레임 길이 N으로 인해, 대부분 SNR값들은 오직 하나의 프레임에만 TM 코딩 기술이 사용된 경우에도 클린 채널에 대해 약간 저하된 것을 보여주고 있다. 이것은 대부분 성문-형상 임펄스의 제한된 길이 때문이다. NB 예와 비교하여, 서브프레임 내의 제1 스테이지 여기 신호에서 더 많은 제로값이 나타난다. 본 예에서 TM 코딩 기술을 이용하는 장점은 FE(Frame Erasure) 보호에 있다.

표6-WB 신호에 대한 TM 코딩 기술의 영향의 SNR 측정치 비교

또한, 소거된 프레임 이후의 프레임에 TM 코딩 기술이 사용된 경우에도, 여전히 클린 채널과 노이지(noisy) 채널 에서의 합성 스피치 사이에 약간의 차이가 존재한다는 것을 주목하자. 이것은 인코더 및 디코더 내부의 상태가 이전의 여기 신호에만 의존하지 않고, 많은 다른 파라미터(예, 필터 메모리, ISF(Immitance Spectral Frequency) 양자화기 메모리 등)에도 의존하기 때문이다. 물론, 메모리 없는 LP 파라미터 양자화 최적화된 TM 코딩이 사용되고 모든 내부 상태가 TM 프레임에 대해 리셋된 경우의 변형(variant)을 테스트하는 것도 가능하다. 표준 일반 인코딩 모드에서 EV-VBR 코덱이 이용하는 모든 메모리는 프레임 소거 이후의 디코더 내부 상태가 에러-프리 조건에서의 그 상태와 동일하게 되도록 보장하기 위해 리셋되었다. 그럼에도 불구하고,에러-프리 조건에서의 스피치 품질은 이러한 변형에서 뚜렷하게 떨어진다. 결과적으로, 추가적인 메모리 리셋이 이루어지지 않을 경우에 소거된 프레임 또는 패킷에 대한 견고성과 에러-프리 조건에서의 고성능 사이에 절충이 이루어져야 한다.

도7은 TM 코딩 기술의 계산의 복잡성 문제를 요약한 것이다. 최악의 경우에, TM 코딩 기술은 인코더에서의 복잡성을 1.8 WMOPS(Weighted Millions of Operations Per Second) 만큼 증가시킨다. 디코더에서의 복잡성도 거의 동일하다.

표7-TM 코딩 기술의 복잡성(최악의 경우 및 평균값)

다음 도면은 유성음 온셋 프레임 모델링(도18a-도18c) 및 프레임 에러 전파 완화(도19a-도19c)에 대한 TM 코딩 기술의 성능을 예시하고 있다. 본 예에서, TM 코딩 기술은 한번에 하나의 프레임에서만 사용된다. 입력 스피치 신호의 세그먼트(도18a 및 도19a), 도18b 및 도19b에 도시된 바와 같이 TM 코딩 기술없이 EV-VBR 디코더에 의해 처리된 대응하는 출력 합성 스피치 신호, 및 TM 코딩 기술을 이용한 표준 EV-VBR 디코더를 이용하여 처리된 출력 합성 스피치 신호(도18c 및 도19c)가 도시되어 있다. TM 코딩 기술의 장점은 유성음 온셋 프레임이 모델링(도18의 두번째 프레임) 및 프레임 에러 전파의 제한(도19의 4번째 및 5번째 프레임)에서 모두 관찰될 수 있다.

EV-VBR 디코더에 사용되는 프레임 소거 은폐 기술은 20ms 길이(하나의 프레임의 길이에 대응함)의 여분의(extra) 디코더 지연을 이용하는 것에 기반하고 있다. 이것은 만일 하나의 프레임이 누락되면, 미래의 프레임 파라미터에 관한 지식을 이용하여 은폐된다는 것을 의미한다. m-1, m, m+1로서 표시된 3개의 연속적인 프레임을 가정하고, 또한 프레임 m이 누락된 상황을 가정하자. 그러면, 마지막 정확하게 수신된 프레임 m-1 및 후속의 정확하게 수신된 프레임 m+1의 보간(interpolation)이 특히(배타적인 것은 아님), LP 필터 계수(ISF(Immitance Spectral Frequency)로 표현됨), 폐쇄-루프 피치 주기 T₀, 고정형 코드북 이득을 포함하는 코드북 파라미터를 결정하는 관점에서 계산될 수 있다. 보간은 안정한 유성음 세그먼트에 대해 손실된 프레임 파라미터를 보다 정확하게 추정하는데 도움을 준다. 그러나, 이것은 코덱 파라미터가 급속하게 변화하는 경우에 천이 세그먼트에 있어서 종종 실패한다. 이러한 문제를 극복하기 위해, 피치 주기의 절대치가 현재 프레임 m+1에서의 제1 스테이지 여기 신호 구성에 사용되지 않은 경우 조차도 매 TM 프레임마다 전송될 수 있다. 이것은 구성 TRANSITION_1_4 및 TRANSITION_4에 특히 유효하다.

TM 프레임에서 전송되는 다른 파라미터들은 선행 프레임의 ISF들이다. CELP-형태의 인코더에서, ISF 파라미터들은 각각의 서브프레임에 대한 이전의 프레임 ISF와 현재 프레임 ISF 사이에서 보간된다. 이것은 서브프레임 사이에서 LP 합성 필터의 유연한 에볼루션(smooth evolution)을 보장한다. 프레임 소거의 경우에, 통상적으로 프레임 소거에 선행하는 프레임의 ISF들이 소거된 프레임 ISF 대신에 소거 이후의 프레임에서의 보간을 위해 이용된다. 그러나, 천이 세그먼트 동안에는, ISF들이 급속하게 변화될 수 있으며, 최종-양호한 프레임 ISF들이 누락된 소거 프레임의 ISF들과 상당히 다를 수도 있다. 그러므로, 누락 프레임 ISF들을 이전의 프레임의 ISF들로 대체하는 것은 중요한 인위적 결과(artefacts)의 원인이 될 수 있다. 만일 이전의 프레임 ISF들이 전송될 수 있다면, 이들은 이전의 프레임이 소거된 경우에 TM 프레임에서의 ISF 보간을 위해 이용될 수 있다. TM 프레임에 선행하는 프레임이 누락된 경우에 ISF 보간을 위해 이용되는 LP 계수의 상이한 추정에 관해서는 후술한다.

EV-VBR 코덱에 대한 TM 코딩 기술의 최종 구현은 온셋/천이 프레임 이후의 오직 하나의 프레임만이 TM을 이용하여 코딩되는 것으로 가정한다. 이러한 방식으로, 활성 스피치 프레임의 약 6.3&가 TM 인코딩 및 디코딩을 위해 선택된다.

다른 테스트 전략은 인코딩 효율에서의 증가에 집중된다. TM 코딩 기술을 이용한 것과 이용하지 않은 2가지 변형이 인코더에서 나란히 계산되는 경우 폐쇄-루프 검색에서 분류가 이루어지고, 더 높은 SNR을 가진 변형이 출력 신호로서 선택된다.

표8에는 8 kbps의 비트 레이트를 가진 EV-VBR 코덱에 대한 결과가 요약되어 있다. WB의 경우에, TM 코딩 기술을 이용한 인코딩을 위해 활성 스피치 프레임의 28%가 분류되었으며, 세그먼트 SNR에서 0.203 dB의 증가가 실현되었다. NB의 경우에는, TM 코딩 기술을 이용한 인코딩을 위해 활성 스피치 프레임의 25%가 분류되었으며, 세그먼트 SNR에서 0.300 dB의 증가가 실현되었다. 불행하게도, 이러한 객관적인(objective) 테스트 증가는 TM 코딩 기술을 이용한 것과 이용하지 않은 코덱 사이의 차등없이 보고된 주관적인(subjective) 청취 테스트에 의해서는 확인되지 않았다. 비록 스피치 품질 저하가 없고, TM 프레임의 총 수가 개방-루프 분류와 비교하여 4배 높았고, 그 결과 FE 보호가 보다 높아지는 결과를 초래했지만, 이러한 분류 및 유사한 결과 분류가 EV-VBR 코덱 구현에서 보다 양호하게 이용되지는 않았는데, 그 이유는 복잡성이 증가되기 때문이다.

표8-폐쇄-루프 분류가 사용된 경우에 구현된 TM 코딩 기술의 유무에 따른 코 덱 사이의 세그멘트 SNR 및 SNR 측정 비교

EV-VBR 코덱에서의 TM 코딩 기술을 위한 비트-할당표

TM 코딩 기술은 ITU-T 표준화를 위한 EV-VBR 후보(candidate)에서 구현되었다. 다음의 표9는 원래의 일반(GENERIC) 모드와 위에서 도입된 모든 TM 코딩 모드 구성의 비트 할당표를 보여주고 있다. 이들 구성은 EV-VBR 코덱에 사용된다.

표9-EV-VBR 코덱에 사용된 바와 같은 일반 코딩 모드 및 모든 TM 구성에 대 한 비트 할당표(여기서, ID는 구성 식별자를 나타내고, ISFs는 이미턴스 스펙트럼 주파수(Immitance Spectral Frequencies)를 나타내고, FCB는 고정형 코드북을 나타내고, subfr.은 서브프레임을 나타냄)

표9에서 구성 TRANSITION_2에 한가지 예외가 존재한다. 이 비트-할당표는 유성음 온셋 프레임의 후속 프레임에서만 TM 코딩 기술을 이용하는 것으로 결정된 상황에서만 이용될 수 있다(유성음 온셋 프레임은 일반 코딩 모드를 이용하여 인코딩되고, 오직 유성음 온셋 프레임의 후속 프레임만이 TM 코딩 기술을 이용하여 인코딩됨). 이러한 상황에서, 피치 주기 T₀는 제2 프레임에서 T₀≥N이고, 이 파라미터를 제2 서브프레임에서 전송할 필요가 없다. 그러나, 만일 유성음 온셋 프레임에서도 TM 코딩 기술이 사용되면, 다음의 상황이 발생할 수 있다. 피치 주기는 N보다 짧아지고, 유성음 온셋은 제2 서브프레임에서만 시작될 수 있다(예를 들어, 제1 서브프레임이 여전히 무성음 신호를 포함한다). 이 경우에, 피치 주기 T₀는 전송되어야 한다. 이러한 상황에서는, 다른 비트-할당표가가 사용되고, 파라미터 T₀는 5개의 비트를 이용하여 제2 서브프레임에서 전송되고, 하나의 서브프레임에서 보다 짧은 고정형 코드북이 이용된다(표10 참조). 구성 TRANSITION_3에서도 동일한 상황이 발생한다. 그러나, 본 발명의 비-제한적인 실시예에서는 피치 주기가 어쨌든 전송되며(온셋 프레임이 TM 코딩 기술을 이용하여 코딩되든지 그렇지 않든지 간에), 그 이유는 다른 파라미터 인코딩을 위해 절약된 비트의 양호한 이용이 없기 때문이다.

다른 천이 모드 구성에서는 다른 비트 할당이 이용될 수 있다. 예를 들어, 성문 펄스를 포함하는 서브프레임에서 고정형 코드북에 더 많은 비트가 할당될 수 있다. 예를 들어, TRANSITION_3 모드에서, 제2 서브프레임에서는 12비트, 그리고 제3 서브프레임에서는 28비트를 가진 FCB가 사용될 수 있다. 물론, 다른 코더 구현예에서는 달흔 12비트 및 20비트 FCB가 사용될 수 있다.

표10-온셋 프레임에서도 TM이 사용되는 경우의 구성 TRANSITION_2에 대한 비 트할당표

만일 이용가능한 대역폭이 있다면, 보다 양호한 프레임 소거(FE) 보호를 위해 더 많은 정보를 전송함으로써 또다는 향상이 이루어질 수 있다. VMR-WB 코덱은 FE 보호 비트의 일부를 이용하는 코덱의 일례이다. 예를 들어, Rate-Set II에서 VMR-WB의 일반 풀-레이트(Generic Full-Rate) 인코딩 형태에 한 프레임 당 14개의 보호 비트가 이용된다. 이들 비트는 프레임 분류(2비트), 합성 스피치 에너지(6비트), 및 성문 펄스 위치(6비트)를 표현한다. 성문 펄스는 유성음 온셋 프레임이 손실된 경우에 디코더에서 인위적으로 삽입된다. 이들 FER 보호 비트는 TM 프레임에서의 여기 구성에는 덜 중요하며, 그 이유는 TM 코딩 기술이 이전의 여기 신호를 이용하지 않고, TM 코딩 기술은 현재 (TM) 프레임에서 전송되는 파라미터를 이용하여 여기 신호를 구성하기 때문이다. 그러나, 이들 비트는 다른 파라미터의 전송을 위해 이용될 수 있다. 구현의 일례로서, 이들 비트는 이전의 프레임의 ISF 파라미터를 현재의 TM 프레임에서 전송하기 위해 이용될 수 있다. 그러나, 36비트 대신에 12비트가 이용가능가능하다. 이들 ISF는 프레임 소거의 경우에 보다 정밀한 LP 필터 계수 재구성을 위해 이용된다.

EV-VBR 코덱에서, LP 파라미터 셋트는 제4 서브프레임을 중심으로 하여 계산되며, 제1, 제2 및 제3 서브프레임은 현재 프레임과 이전 프레임 사이의 LP 필터 파라미터의 선형 보간을 이용한다. 이러한 보간은 ISP(Immitance Spectral Pairs)에 대해 수행된다. 프레임의 4번째 서브프레임에서의 ISP 벡터를 q ₄ ^(m) 이라고 하고, 이전의 프레임 m=1의 4번째 서브프레임에서의 ISP 벡터를 q ₄ ^(m-1) 이라고 하자. 그러면, 제1, 제2 및 제3 서브프레임에서의 보간된 ISP 벡터는 다음 방정식에 의해 주어진다.

(35)

그러나, 이러한 보간은 이전의 프레임의 소거의 경우에 TM 코딩 기술에 직접 적합하지는 않다. TM 프레임에 선행하는 프레임이 누락된 경우에, 마지막으로 정확하게 수신된 프레임은 무성음이라고 가정할 수 있다. 이러한 상황에서 상이한 보간 상수를 이용하여 누락 프레임에 대한 ISF 벡터를 재구성하는 것이 더욱 효율적이며, 이용가능한 FER 보호 비트로부터 일부의 ISF 정보를 갖고 있는지 여부는 문제가 되지 않는다. 누락 프레임 m에 대한 ISP 벡터는 예를 들어, 다음 방정식을 이용하여 디코더에서 주어질 수 있다.

(36)

후속의 정확하게 수신된 TM 프레임 m+1은 방정식(35)에 의해 기재된 LP 계수 보간을 이용한다. 또한, 방정식(36)에서의 보간 계수도 비-제한적인 일례로서 주어진다. 최종 계수는 상이할 수 있으며, 부가적으로, 이전의 프레임으로부터의 일부 ISF 정보가 이용가능한 경우에 한 셋트의 보간 계수를 이용하고, 이전의 프레임으로부터의 ISF 정보가 이용가능하지 않은 경우에(즉, 비트 스트림에 프레임 소거 보호 비트가 없는 경우) 다른 셋트의 보간 계수를 이용하는 것이 바람직할 수 있다.

EV-VBR 코덱에서 TM 프레임에서의 피치 주기 및 이득 인코딩

피치 주기값 T₀는 EV-VBR 코덱에서 사용되는 일반 인코딩 모드에서 매 서브프레임마다 전송된다. 제1 및 제3 서브프레임에서, 8-비트 인코딩이 이용되며, 피치 주기값은 소수(레인지[T_min, 91½]에서 T₀에 대해 ½) 또는 정수(레인지[92, T_max]에서 T₀에 대해) 분해능을 이용하여 전송된다. 제2 및 제4 서브프레임에서, 델타 검색이 이용되며, 항상 소수 분해능을 가진 피치 주기값은 5비트로 코딩된다. 델타 검색은 레인지[T_0p-8, T_0p+7½]내의 검색을 의미하며, 여기서 T_0p는 이전의(제1 또는 제3) 서브프레임의 소수 피치 주기에 가장 근접한 정수이다. 피치 주기값은 EV-VBR 코덱에서 레인지[T_min, T_max] 내의 값으로 제한되며, 여기서 T_min=34이고, T_max=231이다.

피치 이득 g_p 및 고정형 코드북 이득 g_c는 주로 AMR-WB+ 코덱[5]에서와 동일한 방식으로 EV-VBR 코덱에서 인코딩된다, 먼저, 비-예측적 스케일링된 고정형 코드북 에너지의 추정치가 프레임 내의 모든 서브프레임에 대해 계산되고, 프레임 당 한번씩 3비트로 양자화된다(표9의 파라미터 에너지 추정치 참조). 피치 이득 g_p 및 고정형 코드북 이득 g_c는 매 프레임마다 5비트를 이용하여 한 단계에서 양자화되고 코딩된 벡터이다.

추정된 고정형 코드북 에너지는 다음과 같이 계산되고 양자화된다. 먼저, LP 잔류 에너지가 다음 방정식을 이용하여 각각의 서브프레임 k에서 계산된다.

(37)

여기서, u(n)은 LP 잔류 신호이다. 다음에, 서브프레임당 평균 잔류 에너지가 다음 방정식을 통해 구해진다.

(38)

고정형 코드북 에너지는 적응형 코드북 기여의 추정치를 제거함으로써 잔류 에너지로부터 추정된다. 이것은 프레임에서 수행되는 2개의 개방-루프 피치 분석으로부터 얻어지는 평균 정규화된 상관과 관련된 에너지를 제거함으로써 수행된다. 다음의 방정식이 이용된다.

(39)

여기서, /R은 현재 프레임의 각각의 절반-프레임에 대한 개방-루프 피치 분석으로부터 얻어지는 정규화된 피치 상관의 평균이다. 추정되는 스케일링된 고정형 코드북 에너지는 이전의 프레임 에너지에 의존하지 않으며, 그러므로 이득 인코딩 원리는 프레임 소거에 대해 견고성이 있다.

일단 고정형 코드북 에너지의 추정치가 구해지면, 피치 이득 및 고정형 코드북 이득 정정(correction)이 계산되고, 추정된 스케일링된 고정형 코드북 에너지는 추정된 고정형 코드북 이득 및 정정 계수 y(추정된 고정형 코드북 이득과 참이득 사이의 비율)를 계산하기 위해 이용된다. 값 y는 서브프레임당 5비트를 이용하여 피치 이득과 함께 양자화된 벡터이다. 양자화기의 설계를 위해, 수정된 k-평균 방법[4]이 사용된다. 피치 이득은 코드북 초기화 동안에 간격 <0; 1.2> 내로 제한되고, 반복적인 코드북 개선 동안에는 간격 <0; ∞> 내로 제한된다. 이와 마찬가지로, 정정 계수 y는 초기화 동안에 간격 <0; 5> 내로 제한되고, 코드북 개선 동안에는 간격 <0; ∞> 내로 제한된다. 수정된 k-평균 알고리즘은 다음 기준(40)을 최소화하고자 하는 것이다.

(40)

TM 코딩 기술을 이용하는 경우, 피치 주기와 피치 및 고정형 코드북 이득의 전송은 중요한 성문 임펄스가 없는 서브프레임에 대해서는 필요로 되지 않을 수 있으며, 단지 고정형 코드북 기여도 만이 계산될 수 있다.

다음은 모든 TM 구성에 관한 리스트 및 설명이다.

구성 TRANSITION_1_1(도20) - 이 구성에서는 성문-형상 코드북 검색을 이용하여 처리되는 제1 프레임에 1개 또는 2개의 제1 성문 임펄스가 나타난다. 이것은 제1 서브프레임에서의 피치 주기값이 서브프레임 길이보다 작은 최대치를 가질 수 있다는 것을 의미하며, 즉 T_min<T₀<N 이다. 정수 분해능에 의해, 이것은 5비트로 코딩될 수 있다. 다음 서브프레임에서의 피치 주기는 소수 분해능에 의한 5비트 델타 검색을 이용하여 구해진다.

이것은 TM 코딩 기술의 최대 비트-요구(bit-demanding) 구성이며, 즉 성문-형상 코드북이 제1 서브프레임에 사용되는 경우, 피치 주기 T₀는 Q(z) 필터 판단을 위해 또는 제1 서브프레임의 일부에서의 적응형 코드북 검색을 위해 전송된다. 이 구성은 제1 서브프레임에서 전술한 바와 같은 절차를 이용한다. 이 구성은 또한 제1 서브프레임에 오직 하나의 성문 임펄스가 나타나는 경우에 EV-VBR 코덱에 사용된다. 여기서, 피치 주기 T₀는 T₀<N를 유지하며, 고정형 코드북 검색에서 주기성 향상[1]을 위해 이용된다.

구성 TRANSITION_1_2(도21) - 구성 TRANSITION_1_2가 사용되는 경우, 제1 서브프레임은 성문-형상 코드북 검색을 이용하여 처리된다. 피치 주기는 필요로 되지 않으며, 모든 후속 서브프레임은 적응형 코드북 검색을 이용하여 처리된다. 제2 서브프레임은 제2 성문 임펄스를 포함하는 것으로 알려져 있기 때문에, 피치 주기 최대치는 T₀≤2·N-1를 유지한다. 이 최대치는 성문 임펄스 위치 k'에 관한 지식 덕택으로 더욱 감소될 수 있다. 다음에, 제2 서브프레임 내의 피치 주기값은 전체 레인지에서 소수 분해능에 의해 7비트를 이용하여 코딩된다. 제3 및 제4 서브프레임에서는, 5비트를 이용하는 델타 검색이 소수 분해능과 함께 이용된다.

구성 TRANSITION_1_3(도22) - 구성 TRANSITION_1_3이 사용되는 경우, 제1 서브프레임은 피치 주기를 이용하지 않고 성문-형상 코드북 검색을 이용하여 처리된다. LP 잔류 신호의 제2 서브프레임은 성문 임펄스를 포함하지 않고 적응형 검색은 이용되지 않기 때문에, 제1 스테이지 여기 신호는 제2 서브프레임에서 제로로 대체된다. 적응형 코드북 파라미터(T₀ 및 g_p)는 제2 서브프레임에서 전송되지 않으며, 절약된 비트들은 제3 서브프레임에서 FCB 사이즈 증가를 위해 이용된다. 제2 서브프레임은 유용한 정보의 최대치를 포함하고 있기 때문에, 단지 12-비트 FCB 만이 이용되며, 제4 서브프레임에서는 20-비트 FCB가 이용된다. 제3 서브프레임에서 제1 스테이지 여기 신호는 피치 주기 최대치(3·N-1-k') 및 최소치(2·N-k')를 가진 적응형 코드북 검색을 이용하여 구성되며, 그러므로 전체 레인지에 걸쳐 소수 분해능에 의한 피치 주기의 7-비트 인코딩만이 이용된다. 제4 서브프레임은 피치 주기값의 5-비트 델타 검색과 함께 적응형 검색을 이용하여 처리된다.

제2 서브프레임에서는 오직 고정형 코드북 이득 g_c만이 전송된다. 결과적으로, (이득 g_p 및 g_c가 전송되는 경우) 전통적인 ACELP 인코딩에 의해 서브프레임에서 이용되는 5-비트 양자화기 대신에 이득 양자화를 위해 2비트 또는 3비트만이 필요로 된다. 이것은 또한 다음의 모든 구성에도 유효하다. 이득 양자화기가 2비트를 이용해야 하는지 또는 3비트를 이용해야 하는지에 관한 결정은 프레임에서 이용가능한 비트수를 맞추기 위해 이루어진다.

구성 TRANSITION_1_4(도23) - 구성 TRANSITION_1_4가 이용되는 경우, 제1 서브프레임은 성문-형상 코드북 검색을 이용하여 처리된다. 또한, 피치 주기는 전송될 필요가 없다. LP 잔류 신호는 제2 및 제3 서브프레임에서 성문 임펄스를 포함하고 있지 않기 때문에, 이들 2개의 서브프레임에 대해서는 적응형 코드북 검색이 필요없다. 또한, 이들 서브프레임에서의 제1 스테이지 여기 신호는 제로로 대체되고, 절약된 비트들은 FCB 사이즈 증가를 위해 이용되므로, 모든 서브프레임들이 20-비트 FCB를 이용할 수 있다. 피치 주기값은 제4 서브프레임에서만 전송되며, 그 최소치는 (3·N-k')이다. 피치 주기의 최대치는 T_max에 의해 제한된다. 제2 성문 임펄스가 제4 서브프레임에 나타나는지 여부는 문제가 되지 않는다(k'+T_max≥N 인 경우, 제2 성문 임펄스는 다음 프레임에서 나타날 수 있다).

피치 주기의 절대치는 프레임 은폐를 위해 디코더에서 이용되며, 그러므로 피치 주기의 절대치는 다음 프레임에서 제2 성문 임펄스가 나타나는 상황에서 전송된다. TM 프레임 m+1에 선행하는 프레임 m이 누락되면, 프레임 m-1 및 m+1로부터의 피치 주기값의 정확한 지식은 프레임 m에서 합성 신호의 누락 부분을 성공적으로 재구성하는데 도움을 준다.

구성 TRANSITION_2(도24) - 제1 성문 임펄스가 제2 서브프레임에 나타나고, 유성음 온셋 프레임 이후의 프레임들만이 TM 코딩 기술을 이용하여 인코딩되는 경우(즉, 유성음 온셋 프레임은 전통적인 일반 인코딩에 의해 인코딩됨), 피치 주기는 제3 및 제4 서브프레임에서만 전송된다. 이 경우에, 고정형 코드북 파라미터들만 제1 서브프레임에서 전송된다.

도24에 도시된 프레임은 유성음 온셋 프레임에서 TM이 사용되지 않은 경우의 구성을 가정한 것이다. 만일 유성음 온셋 프레임에서도 TM이 사용되면, 구성 TRANSITION_2a는 피치 주기 T₀가 전술한 바와 같은 절차를 이용하기 위해 제2 서브프레임에서 전송되는 경우에 이용된다.

구성 TRANSITION_3(도25) - 제1 성문 임펄스가 제3 서브프레임에서 나타나고, 유성음 온셋 프레임 이후의 프레임들만이 TM 코딩 기술을 이용하여 인코딩되는 경우(즉, 유성음 온셋 프레임은 전통적인 일반 인코딩에 의해 코딩됨), 피치 주기는 제4 서브프레임에서만 전송된다. 이 경우에, 고정형 코드북 파라미터들만 제1 및 제2 서브프레임에서 전송된다.

피치 주기는 여전히 비트 스트림의 제3 서브프레임에서 전송된다. 그러나, 이것은 유성음 온셋 프레임을 인코딩하기 위해 TM 코딩 기술이 사용되짖 않는 경우에는 유용하지 않다. 이 값은 유성음 온셋 프레임이 TM 코딩 기술을 이용하여 인코딩되는 경우에만 유용하다.

구성 TRANSITION_4(도26) - 제1 성문 임펄스가 제4 서브프레임에서 나타나고, 유성음 온셋 프레임 이후의 프레임들만이 TM 코딩 기술을 이용하여 인코딩되는 경우(즉, 유성음 온셋 프레임은 전통적인 일반 인코딩에 의해 인코딩됨), 피치 주기값 정보는 이 서브프레임에서 사용되지 않는다. 그러나, 피치 주기값은 디코더에서의 프레임 은폐에 이용된다(이 값은 TM 프레임에 선행하는 프레임이 누락된 경우 누락 프레임 재구성을 위해 이용된다). 그러므로, 피치값은 제4 서브프레임에서만 전송되며, 고정형 코드북 파라미터들만 제1, 제2 및 제3 서브프레임에서 전송된다(이득 피치 g_p는 필요로 되지 않음). 절약된 비트들은 모든 서브프레임에서 20-비트 FCB가 사용될 수 있도록 한다.

비록 본 발명이 그 비-제한적인 실시예에 관해 설명되었지만, 이러한 비-제한적인 실시예는 본 발명의 범위 및 사상을 벗어나지 않고 첨부된 특허청구범위 내에서 변형될 수 있다.

레퍼런스

Claims

음성 신호에서 천이 프레임 및/또는 천이 이후의 프레임에서 적응형 코드북 여기를 대체하는 천이 모드 여기를 생성하기 위해 예측-형태의 음성 신호 코덱에 사용하기 위한 천이 모드 장치에 있어서,

코드북 인덱스를 수신하기 위한 입력; 및

이전의 여기로부터 독립적인 코드벡터 셋트를 생성하기 위한 천이 모드 코드북 - 여기서, 상기 천이 모드 코드북은 상기 천이 프레임 및/또는 상기 천이 이후의 프레임에서, 상기 천이 모드 여기에 대응하는 상기 셋트의 코드벡터들 중 하나를 생성하기 위해 상기 인덱스에 응답함 -

을 포함하는 천이 모드 장치.
제1항에 있어서,

상기 천이 모드 코드북은 이전의 여기로부터 독립적인 고정형 코드북을 포함하는

천이 모드 장치.
제1항에 있어서,

상기 예측-형태의 음성 신호 코덱은 디코더를 포함하고, 상기 디코더는 동작중에, 적응형 코드북 여기를 천이 프레임 및/또는 천이 이후의 프레임에서의 천이 모드 여기로 대체하여, 프레임 소거의 경우에 디코더에서의 에러 전파를 감소시키고, 및/또는 코딩 효율을 증가시키는

천이 모드 장치.
제1항에 있어서,

상기 천이 모드 코드북은 성문 임펄스 형상의 코드북을 포함하는

천이 모드 장치.
제1항에 있어서,

상기 음성 신호는 스피치 신호를 포함하고, 상기 천이 프레임은 유성음 온셋을 포함하는 프레임과 2개의 상이한 유성음 사이의 천이를 포함하는 프레임으로 이루어진 그룹으로부터 선택되는

천이 모드 장치.
제1항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 수개의 프레임이 후속으로 이어지는 천이 프레임을 포함하는

천이 모드 장치.
제6항에 있어서,

상기 천이 프레임 및 상기 천이 프레임 후속의 수개의 프레임들은 연속적인 프레임들인

천이 모드 장치.
제1항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 천이 이후에 적어도 하나의 프레임을 포함하는

천이 모드 장치.
제1항에 있어서,

상기 예측-형태의 코덱은 CELP-형태의 코덱이고, 상기 천이 모드 코드북은 상기 천이 프레임 및/또는 상기 천이 이후의 프레임에서 상기 CELP-형태의 코덱의 적응형 코드북을 대체하는

천이 모드 장치.
제1항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 각각 다수의 서브프레임을 포함하고, 상기 천이 모드 코드북은 상기 서브프레임들의 제1 부분에 이용되고, 상기 예측-형태의 코덱의 예측-형태의 코드북은 상기 서브프레임들의 제2 부분에 이용되는

천이 모드 장치.
제1항에 있어서,

상기 코드북은 코드벡터에서 특정 위치에 배치된 성문 임펄스 형상으로 형성된 코드벡터들을 포함하는 성문-형상 코드북을 포함하는

천이 모드 장치.
제11항에 있어서,

상기 성문-형상 코드북은 미리 정해진 수의 성문 임펄스의 상이한 형상을 포 함하고, 상기 성문 임펄스의 각각의 형상은 상기 성문-형상 코드북의 다수의 상이한 코드벡터들을 형성하기 위해 상기 코드벡터 내의 다수의 상이한 위치에 위치된

천이 모드 장치.
제11항에 있어서,

상기 성문-형상 코드북은 오직 하나의 넌-제로 엘리먼트를 포함하는 코드벡터들의 생성기와 상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 코드벡터들을 생성하기 위해 오직 하나의 넌-제로 엘리먼트를 포함하는 상기 코드벡터들을 처리하기 위한 정형 필터를 포함하는

천이 모드 장치.
제13항에 있어서,

상기 예측-형태의 음성 신호 코덱은 상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 상기 정형 필터로부터의 코드벡터들을 처리하기 위한 가중된 합성 필터를 포함하는 인코더를 포함하는

천이 모드 장치.
제13항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 각각 다수의 서브프레임을 포함하고, 상기 성문-형상 코드북은, 서브프레임당 하나 보다 많은 성문 임펄스가 존재하는 경우에, 피치 주기가 경과된 이후 성문 임펄스 형상을 반복시키기 위해 상기 정형 필터의 다운스트림에 위치된 반복 필터를 더 포함하는

천이 모드 장치.
제11항에 있어서,

상기 성문-형상 임펄스는 제1 및 최종 샘플을 포함하고, 여기서, 상기 제1 및 최종 샘플의 미리 정해진 수가 절단되는(truncated)

천이 모드 장치.
제13항에 있어서,

상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 코드벡터들에 이득을 인가하기 위한 증폭기

를 더 포함하는 천이 모드 장치.
음성 신호에서 천이 프레임 및/또는 천이 이후의 프레임에서 적응형 코드북 여기를 대체하는 천이 모드 여기를 생성하기 위한 인코더 장치에 있어서,

코드북 검색 타겟 신호의 생성기;

이전의 여기로부터 독립적인 코드벡터 셋트를 생성하기 위한 천이 모드 코드북 - 여기서, 상기 셋트의 코드벡터들은 각각의 천이 모드 여기에 각각 대응함 - ; 및

상기 코드북 검색 타겟 신호에 최적으로 대응하는 천이 모드 여기에 대응하는 상기 셋트의 코드벡터들을 구하기 위한 천이 모드 코드북의 검색자

를 포함하는 인코더 장치.
제18항에 있어서,

상기 천이 모드 코드북은 이전의 여기에 독립적인 고정형 코드북을 포함하는

인코더 장치.
제18항에 있어서,

상기 천이 모드 코드북은 성문 임펄스 형상의 코드북을 포함하는

인코더 장치.
제20항에 있어서,

상기 검색자는 상기 성문 임펄스 형상의 코드북의 모든 성문 임펄스 형상에 소정의 기준(citerion)을 적용하고, 상기 기준의 최대치에 대응하는 상기 셋트의 코드벡터를 상기 적응형 코드북 검색 타겟 신호에 최적으로 대응하는 코드벡터로서 구하는

인코더 장치.
제21항에 있어서,

상기 검색자는, 천이 모드 구성 식별자, 성문 임펄스 형상, 상기 구해진 코드벡터에서의 상기 성문 임펄스 형상 중심의 위치, 천이 모드 이득, 상기 천이 모드 이득의 부호, 및 폐쇄-루프 피치 주기로 이루어진 그룹으로부터 선택된 천이 모드 파라미터들을 이용하여 상기 구해진 코드벡터를 식별하는

인코더 장치.
제18항에 있어서,

상기 음성 신호는 스피치 신호를 포함하고, 상기 천이 프레임은 유성음 온셋을 포함하는 프레임과 2개의 상이한 유성음 사이의 천이를 포함하는 프레임으로 이 루어진 그룹으로부터 선택되는

인코더 장치.
제18항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 수개의 프레임이 후속으로 이어지는 천이 프레임을 포함하는

인코더 장치.
제24항에 있어서,

상기 천이 프레임 및 상기 천이 프레임 후속의 수개의 프레임은 연속되는 프레임들인

인코더 장치.
제18항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 상기 천이 이후에 적어도 하나의 프레임을 포함하는

인코더 장치.
제18항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 각각 다수의 서브프레임을 포함하고, 상기 검색자는 상기 서브프레임들의 제1 부분에서 천이 모드 코드북을 검색하고, 상기 서브프레임들의 제2 부분에서 상기 인코더 장치의 예측-형태의 코드북을 검색하는

인코더 장치.
제18항에 있어서,

상기 천이 모드 코드북은 상기 코드벡터 내의 특정 위치에 배치된 성문 임펄스 형상으로 형성된 코드벡터들을 포함하는 성문-형상 코드북을 포함하는

인코더 장치.
제28항에 있어서,

상기 성문-형상 코드북은 미리 정해진 수의 성문 임펄스의 상이한 형상을 포함하고, 상기 성문 임펄스의 각각의 형상은 상기 성문-형상 코드북의 다수의 상이한 코드벡터들을 형성하기 위해 상기 코드벡터 내의 다수의 상이한 위치에 위치된

인코더 장치.
제28항에 있어서,

상기 성문-형상 코드북은 오직 하나의 넌-제로 엘리먼트를 포함하는 코드벡터들의 생성기와 상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 코드벡터들을 생성하기 위해 오직 하나의 넌-제로 엘리먼트를 포함하는 상기 코드벡터들을 처리하기 위한 정형 필터를 포함하는

인코더 장치.
제30항에 있어서,

상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 상기 정형 필터로부터의 코드벡터들을 처리하기 위한 가중된 합성 필터

를 더 포함하는 인코더 장치.
제30항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 각각 다수의 서브프레임을 포함하고, 상기 성문-형상 코드북은, 서브프레임당 하나 보다 많은 성문 임펄 스가 존재하는 경우에, 피치 주기가 경과된 이후 성문 임펄스 형상을 반복시키기 위해 상기 정형 필터의 다운스트림에 위치된 반복 필터를 더 포함하는

인코더 장치.
제28항에 있어서,

상기 성문-형상 임펄스는 제1 및 최종 샘플을 포함하고, 여기서, 상기 제1 및 최종 샘플의 미리 정해진 수가 절단되는(truncated)

인코더 장치.
제31항에 있어서,

상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 코드벡터들에 이득을 인가하기 위한 증폭기

를 더 포함하는 인코더 장치.
제18항에 있어서,

이노베이션 코드북 검색 타겟 신호의 생성기;

각각의 이노베이션 여기에 대응하는 이노베이션 코드벡터들의 셋트를 생성하 기 위한 이노베이션 코드북;

상기 이노베이션 코드북 검색 타겟 신호에 최적으로 대응하는 이노베이션 여기에 대응하는 상기 셋트의 이노베이션 코드벡터를 구하기 위한 이노베이션 코드북의 검색자; 및

음성 신호 합성 필터를 위한 포괄적인(global) 여기를 생성하기 위한 천이 모드 여기와 이노베이션 여기의 가산기

를 더 포함하는 인코더 장치.
제35항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 각각 다수의 서브프레임을 포함하고, 상기 인코더 장치는, 상기 서브프레임에서 상기 성문 임펄스 또는 임펄스들이 위치된 곳에 의존하여, 상기 천이 모드 코드북, 상기 적응형 코드북 및 상기 이노베이션 코드북 중 적어도 하나를 이용하여 상기 서브프레임들을 인코딩하기 위한 수단을 포함하는

인코더 장치.
음성 신호에서 천이 프레임 및/또는 천이 이후의 프레임에서 적응형 코드북 여기를 대체하는 천이 모드 여기를 생성하기 위한 디코더 장치에 있어서,

코드북 인덱스를 수신하기 위한 입력; 및

이전의 여기로부터 독립적인 코드벡터 셋트를 생성하기 위한 천이 모드 코드북 - 여기서, 상기 천이 모드 코드북은 상기 천이 프레임 및/또는 상기 천이 이후의 프레임에서, 상기 천이 모드 여기에 대응하는 상기 셋트의 코드벡터들 중 하나를 생성하기 위해 상기 인덱스에 응답함 -

을 포함하는 디코더 장치.
제37항에 있어서,

상기 천이 모드 코드북은 이전의 여기로부터 독립적인 고정형 코드북을 포함하는

디코더 장치.
제37항에 있어서,

상기 적응형 코드북 여기를 천이 프레임 및/또는 천이 이후의 프레임에서의 천이 모드 여기로 대체하는 것은 프레임 소거의 경우에 상기 디코더 장치에서의 에러 전파를 감소시키고, 및/또는 코딩 효율을 증가시키는

디코더 장치.
제37항에 있어서,

상기 천이 모드 코드북은 성문 임펄스 형상의 코드북을 포함하는

디코더 장치.
제37항에 있어서,

상기 음성 신호는 스피치 신호를 포함하고, 상기 천이 프레임은 유성음 온셋을 포함하는 프레임과 2개의 상이한 유성음 사이의 천이를 포함하는 프레임으로 이루어진 그룹으로부터 선택되는

디코더 장치.
제37항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 각각 다수의 서브프레임을 포함하고, 상기 천이 모드 코드북은 상기 서브프레임들의 제1 부분에 이용되고, 상기 디코더 장치는 상기 서브프레임들의 제2 부분에 이용되는 예측-형태의 코드북을 포함하는

디코더 장치.
제37항에 있어서,

상기 천이 모드 코드북은 코드벡터에서 특정 위치에 배치된 성문 임펄스 형상으로 형성된 코드벡터들을 포함하는 성문-형상 코드북을 포함하는

디코더 장치.
제43항에 있어서,

상기 성문-형상 코드북은 미리 정해진 수의 성문 임펄스의 상이한 형상을 포함하고, 상기 성문 임펄스의 각각의 형상은 상기 성문-형상 코드북의 다수의 상이한 코드벡터들을 형성하기 위해 상기 코드벡터 내의 다수의 상이한 위치에 위치된

디코더 장치.
제43항에 있어서,

상기 성문-형상 코드북은 오직 하나의 넌-제로 엘리먼트를 포함하는 코드벡터들의 생성기와 상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 코드벡터들을 생성하기 위해 오직 하나의 넌-제로 엘리먼트를 포함하는 상기 코드벡터들을 처리하기 위한 정형 필터를 포함하는

디코더 장치.
제45항에 있어서,

상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 코드벡터들에 이득을 인가하기 위한 증폭기

를 더 포함하는 디코더 장치.
제37항에 있어서,

이노베이션 코드북 인덱스를 수신하기 위한 입력;

이노베이션 코드벡터 셋트를 생성하기 위한 이노베이션 코드북 - 여기서, 상기 이노베이션 코드북은 상기 천이 프레임 및/또는 상기 천이 이후의 프레임에서, 이노베이션 여기에 대응하는 상기 셋트의 이노베이션 코드벡터들 중 하나를 생성하기 위해 상기 이노베이션 코드북 인덱스에 응답함 - ; 및

음성 신호 합성 필터를 위한 포괄적인 여기를 생성하기 위한 상기 천이 모드 여기와 상기 이노베이션 여기의 가산기

를 더 포함하는 디코더 장치.
음성 신호에서 천이 프레임 및/또는 천이 이후의 프레임에서 적응형 코드북 여기를 대체하는 천이 모드 여기를 생성하기 위해 예측-형태의 음성 신호 코덱에 사용하기 위한 천이 모드 방법에 있어서,

이전의 여기로부터 독립적인 코드벡터들의 셋트를 생성하기 위한 천이 모드 코드북을 제공하는 단계;

상기 천이 모드 코드북에 코드북 인덱스를 부여하는 단계;

상기 천이 모드 코드북을 이용하고 상기 코드북 인덱스에 응답하여 상기 천이 모드 여기에 대응하는 상기 셋트의 코드벡터들 중 하나를 생성하는 단계

를 포함하는 천이 모드 방법.
제48항에 있어서,

상기 천이 모드 코드북은 이전의 여기로부터 독립적인 고정형 코드북을 포함하는

천이 모드 방법.
제48항에 있어서,

상기 예측-형태의 음성 신호 코덱은 디코더를 포함하고, 상기 디코더는 동작중에, 적응형 코드북 여기를 천이 프레임 및/또는 천이 이후의 프레임에서의 천이 모드 여기로 대체하여, 프레임 소거의 경우에 디코더에서의 에러 전파를 감소시키 고, 및/또는 코딩 효율을 증가시키는

천이 모드 방법.
제48항에 있어서,

상기 천이 모드 코드북은 성문 임펄스 형상의 코드북을 포함하는

천이 모드 방법.
제48항에 있어서,

상기 음성 신호는 스피치 신호를 포함하고,

상기 방법은 유성음 온셋을 포함하는 프레임과 2개의 상이한 유성음 사이의 천이를 포함하는 프레임으로 이루어진 그룹으로부터 상기 천이 프레임을 선택하는 단계를 포함하는

천이 모드 방법.
제48항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 수개의 프레임이 후속으로 이어지는 천이 프레임을 포함하는

천이 모드 방법.
제53항에 있어서,

상기 천이 프레임 및 상기 천이 프레임 후속의 수개의 프레임들은 연속적인 프레임들인

천이 모드 방법.
제48항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 천이 이후에 적어도 하나의 프레임을 포함하는

천이 모드 방법.
제48항에 있어서,

상기 예측-형태의 코덱은 CELP-형태의 코덱이고,

상기 방법은, 상기 천이 프레임 및/또는 상기 천이 이후의 프레임에서 상기 CELP-형태의 코덱의 적응형 코드북을 상기 천이 모드 코드북으로 대체하는 단계를 포함하는

천이 모드 방법.
제48항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 각각 다수의 서브프레임을 포함하고,

상기 방법은, 상기 천이 모드 코드북을 상기 서브프레임들의 제1 부분에서 이용하고, 상기 예측-형태의 코덱의 예측-형태의 코드북을 상기 서브프레임들의 제2 부분에서 이용하는 단계를 포함하는

천이 모드 방법.
제48항에 있어서,

상기 천이 모드 코드북을 제공하는 단계는 코드벡터에서 특정 위치에 배치된 성문 임펄스 형상으로 형성된 코드벡터들을 포함하는 성문-형상 코드북을 제공하는 단계를 포함하는

천이 모드 방법.
제58항에 있어서,

상기 성문-형상 코드북을 제공하는 단계는, 미리 정해진 수의 성문 임펄스의 상이한 형상을 포함하는 성문-형상 코드북을 제공하고, 상기 코드벡터 내의 다수의 상이한 위치에 성문 임펄스의 각각의 형상을 위치시킴으로써 다수의 상이한 코드벡터들을 상기 성문-형상 코드북에서 형성하는 단계를 포함하는

천이 모드 방법.
제58항에 있어서,

상기 성문-형상 코드북에서, 오직 하나의 넌-제로 엘리먼트를 포함하는 코드벡터들을 생성하고, 상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 코드벡터들을 생성하기 위해 오직 하나의 넌-제로 엘리먼트를 포함하는 상기 코드벡터들을 정형 필터를 통해 처리하는 단계 포함하는

천이 모드 방법.
제60항에 있어서,

상기 예측-형태의 음성 신호 코덱은 가중된 합성 필터를 포함하는 인코더를 포함하고,

상기 방법은, 상기 가중된 합성 필터를 통해 상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 상기 정형 필터로부터의 코드벡터들을 처리하는 단계를 포함하는

천이 모드 방법.
제60항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 각각 다수의 서브프레임을 포함하고,

상기 코드벡터들 중 하나를 생성하는 단계는, 서브프레임당 하나 보다 많은 성문 임펄스가 존재하는 경우에, 피치 주기가 경과된 이후 성문 임펄스 형상을 반복시키는 단계를 포함하는

천이 모드 방법.
제58항에 있어서,

상기 성문-형상 임펄스는 제1 및 최종 샘플을 포함하고,

상기 방법은, 상기 제1 및 최종 샘플의 미리 정해진 수를 절단하는 단계를 포함하는

천이 모드 방법.
제60항에 있어서,

상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 코드벡터들에 이득을 인가하는 단계

를 더 포함하는 천이 모드 방법.
음성 신호에서 천이 프레임 및/또는 천이 이후의 프레임에서 적응형 코드북 여기를 대체하는 천이 모드 여기를 생성하기 위한 인코딩 방법에 있어서,

코드북 검색 타겟 신호를 생성하는 단계;

이전의 여기로부터 독립적인 코드벡터 셋트를 생성하기 위한 천이 모드 코드북 - 여기서, 상기 셋트의 코드벡터들은 각각의 천이 모드 여기에 각각 대응함 - 을 제공하는 단계; 및

상기 코드북 검색 타겟 신호에 최적으로 대응하는 천이 모드 여기에 대응하는 상기 셋트의 코드벡터들을 구하기 위한 천이 모드 코드북을 검색하는 단계

를 포함하는 인코딩 방법.
제65항에 있어서,

상기 천이 모드 코드북을 제공하는 단계는 이전의 여기에 독립적인 고정형 코드북을 제공하는 단계를 포함하는

인코딩 방법.
제65항에 있어서,

상기 천이 모드 코드북을 제공하는 단계는 성문 임펄스 형상의 코드북을 제공하는 단계를 포함하는

인코딩 방법.
제67항에 있어서,

상기 천이 모드 코드북을 검색하는 단계는 상기 성문 임펄스 형상의 코드북의 모든 성문 임펄스 형상에 소정의 기준(citerion)을 적용하고, 상기 기준의 최대치에 대응하는 상기 셋트의 코드벡터를 상기 적응형 코드북 검색 타겟 신호에 최적으로 대응하는 코드벡터로서 구하는 단계를 포함하는

인코딩 방법.
제68항에 있어서,

상기 천이 모드 코드북을 검색하는 단계는, 천이 모드 구성 식별자, 성문 임펄스 형상, 상기 구해진 코드벡터에서의 상기 성문 임펄스 형상 중심의 위치, 천이 모드 이득, 상기 천이 모드 이득의 부호, 및 폐쇄-루프 피치 주기로 이루어진 그룹으로부터 선택된 천이 모드 파라미터들을 이용하여 상기 구해진 코드벡터를 식별하는 단계를 포함하는

인코딩 방법.
제65항에 있어서,

상기 음성 신호는 스피치 신호를 포함하고,

상기 방법은, 유성음 온셋을 포함하는 프레임과 2개의 상이한 유성음 사이의 천이를 포함하는 프레임으로 이루어진 그룹으로부터 상기 천이 프레임을 선택하는 단계를 포함하는

인코딩 방법.
제65항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 수개의 프레임이 후속으로 이어지는 천이 프레임을 포함하는

인코딩 방법.
제71항에 있어서,

상기 천이 프레임 및 상기 천이 프레임 후속의 수개의 프레임은 연속되는 프레임들인

인코딩 방법.
제65항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 상기 천이 이후에 적어도 하나의 프레임을 포함하는

인코딩 방법.
제65항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 각각 다수의 서브프레임을 포함하고, 상기 천이 모드 코드북을 검색하는 단계는, 상기 서브프레임들의 제1 부분에서 천이 모드 코드북을 검색하고, 상기 서브프레임들의 제2 부분에서 인코더 장치의 예측-형태의 코드북을 검색하는 단계를 포함하는

인코딩 방법.
제65항에 있어서,

상기 천이 모드 코드북을 제공하는 단계는, 상기 코드벡터 내의 특정 위치에 배치된 성문 임펄스 형상으로 형성된 코드벡터들을 포함하는 성문-형상 코드북을 제공하는 단계를 포함하는

인코딩 방법.
제75항에 있어서,

상기 성문-형상 코드북을 제공하는 단계는 미리 정해진 수의 성문 임펄스의 상이한 형상을 포함하는 성문-형상 코드북을 제공하고, 상기 성문 임펄스의 각각의 형상을 상기 코드벡터 내의 다수의 상이한 위치에 위치시킴으로써 상기 성문-형상 코드북의 다수의 상이한 코드벡터들을 형성하는 단계를 포함하는

인코딩 방법.
제75항에 있어서,

상기 성문-형상 코드북에서 이전의 여기에 독립적인 코드벡터들의 셋트를 생성하는 단계는, 오직 하나의 넌-제로 엘리먼트를 포함하는 코드벡터들을 생성하고, 상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 코드벡터들을 생성하기 위해 오직 하나의 넌-제로 엘리먼트를 포함하는 상기 코드벡터들을 정형 필터를 통 해 처리하는 단계를 포함하는

인코딩 방법.
제77항에 있어서,

상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 상기 정형 필터로부터의 코드벡터들을 가중된 합성 필터를 통해 처리하는 단계

를 더 포함하는 인코딩 방법.
제77항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 각각 다수의 서브프레임을 포함하고,

상기 방법은, 서브프레임당 하나 보다 많은 성문 임펄스가 존재하는 경우에, 피치 주기가 경과된 이후 성문 임펄스 형상을 반복시키는 단계를 더 포함하는

인코딩 방법.
제75항에 있어서,

상기 성문-형상 임펄스는 제1 및 최종 샘플을 포함하고,

상기 방법은 상기 제1 및 최종 샘플의 미리 정해진 수를 절단하는 단계를 포함하는

인코딩 방법.
제78항에 있어서,

상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 코드벡터들에 이득을 인가하는 단계

를 더 포함하는 인코딩 방법.
제65항에 있어서,

이노베이션 코드북 검색 타겟 신호를 생성하는 단계;

각각의 이노베이션 여기에 대응하는 이노베이션 코드벡터들의 셋트를 생성하기 위한 이노베이션 코드북을 제공하는 단계;

상기 이노베이션 코드북 검색 타겟 신호에 최적으로 대응하는 이노베이션 여기에 대응하는 상기 셋트의 이노베이션 코드벡터를 구하기 위해 이노베이션 코드북을 검색하는 단계; 및

음성 신호 합성 필터를 위한 포괄적인(global) 여기를 생성하기 위해 천이 모드 여기와 이노베이션 여기를 가산하는 단계

를 더 포함하는 인코딩 방법.
제82항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 각각 다수의 서브프레임을 포함하고, 상기 인코더 방법은, 상기 서브프레임에서 상기 성문 임펄스 또는 임펄스들이 위치된 곳에 의존하여, 상기 천이 모드 코드북, 상기 적응형 코드북 및 상기 이노베이션 코드북 중 적어도 하나를 이용하여 상기 서브프레임들을 인코딩하는 단계를 포함하는

인코딩 방법.
음성 신호에서 천이 프레임 및/또는 천이 이후의 프레임에서 적응형 코드북 여기를 대체하는 천이 모드 여기를 생성하기 위한 디코딩 방법에 있어서,

코드북 인덱스를 수신하는 단계;

이전의 여기로부터 독립적인 코드벡터들의 셋트를 생성하기 위해 천이 모드 코드북에 상기 코드북 인덱스를 부여하는 단계; 및

상기 천이 모드 코드북을 이용하고 상기 코드북 인덱스에 응답하여 상기 천이 모드 여기에 대응하는 상기 셋트의 코드벡터들 중 하나를 생성하는 단계

를 포함하는 디코딩 방법.
제84항에 있어서,

상기 천이 모드 코드북은 이전의 여기로부터 독립적인 고정형 코드북을 포함하는

디코딩 방법.
제84항에 있어서,

프레임 소거의 경우에 디코더 장치에서의 에러 전파를 감소시키고, 및/또는 코딩 효율을 증가시키기 위해 적응형 코드북 여기를 천이 프레임 및/또는 천이 이후의 프레임에서의 천이 모드 여기로 대체하는 단계

를 더 포함하는 디코딩 방법.
제84항에 있어서,

성문 임펄스 형상의 코드북을 상기 천이 모드 코드북은 으로서 제공하는 단계

를 더 포함하는 디코딩 방법.
제84항에 있어서,

상기 음성 신호는 스피치 신호를 포함하고,

상기 방법은 유성음 온셋을 포함하는 프레임과 2개의 상이한 유성음 사이의 천이를 포함하는 프레임으로 이루어진 그룹으로부터 상기 천이 프레임을 선택하는 단계를 포함하는

디코딩 방법.
제84항에 있어서,

상기 천이 프레임 및/또는 상기 천이 이후의 프레임은 각각 다수의 서브프레임을 포함하고,

상기 방법은, 상기 천이 모드 코드북을 상기 서브프레임들의 제1 부분에서 이용하고, 상기 예측-형태의 코덱의 예측-형태의 코드북을 상기 서브프레임들의 제2 부분에서 이용하는 단계를 포함하는

디코딩 방법.
제84항에 있어서,

코드벡터에서 특정 위치에 배치된 성문 임펄스 형상으로 형성된 코드벡터들 을 포함하는 성문-형상 코드북을 상기 천이 모드 코드북으로서 제공하는 단계

를 더 포함하는 디코딩 방법.
제90항에 있어서,

상기 성문-형상 코드북은 미리 정해진 수의 성문 임펄스의 상이한 형상을 포함하하고,

상기 방법은 상기 코드벡터 내의 다수의 상이한 위치에 성문 임펄스의 각각의 형상을 위치시킴으로써 상기 성문-형상 코드북의 다수의 상이한 코드벡터들을 형성하는 단계를 포함하는

디코딩 방법.
제90항에 있어서,

상기 셋트의 코드벡터들은, 오직 하나의 넌-제로 엘리먼트를 포함하는 코드벡터들을 생성하고 상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 코드벡터들을 생성하기 위해 오직 하나의 넌-제로 엘리먼트를 포함하는 상기 코드벡터들을 정형 필터를 통해 처리함으로써 상기 성문-형상 코드북에 의해 생성되는

디코딩 방법.
제92항에 있어서,

상이한 위치에 중심이 있는 성문 임펄스 형상을 표현하는 상기 코드벡터들에 이득을 인가하는 단계

를 더 포함하는 디코딩 방법.
제84항에 있어서,

이노베이션 코드벡터들의 셋트를 생성하기 이노베이션 코드북을 제공하는 단계;

상기 이노베이션 코드북에 이노베이션 코드북 인덱스를 부여하는 단계;

상기 이노베이션 코드북을 이용하고 상기 이노베이션 코드북 인덱스에 응답하여, 이노베이션 여기에 대응하는 상기 셋트의 이노베이션 코드벡터들 중 하나를 생성하는 단계 ; 및

음성 신호 합성 필터를 위한 포괄적인 여기를 생성하기 위해 상기 천이 모드 여기와 상기 이노베이션 여기를 가산하는 단계

를 더 포함하는 디코딩 방법.