KR20010087393A

KR20010087393A - 폐루프 가변-레이트 다중모드 예측 음성 코더

Info

Publication number: KR20010087393A
Application number: KR1020017006035A
Authority: KR
Inventors: 아미타바 다스; 샤라스 맨저나스; 앤드류 피. 데자코
Original assignee: 러셀 비. 밀러; 콸콤 인코포레이티드
Priority date: 1998-11-13
Filing date: 1999-11-12
Publication date: 2001-09-15
Also published as: JP2002530706A; WO2000030075A1; EP1129451A1; AU1524300A

Abstract

폐루프, 다중모드, 예측 음성 코더는 수개의 코딩 모드 중 어디에서도 동작하도록 구성된 코덱(100,200) 및 최저-비트-레이트 코딩 모드를 입력 음성 프레임에 적용하도록 구성된 폐루프 모드 결정 모듈을 포함한다. 상기 코덱의 성능 측정값이 얻어지고 임계값과 비교된다. 성능 측정값이 임계값을 초과하지 않는 경우에는, 최저-비트-레이트 코딩 모드는 더 높은 비트-레이트를 갖는 코딩 모드를 위해 거절된다. 상기 프로세스는 코딩 성능이 만족스러워질 때까지 계속된다. 고속 비트-레이트 및 직접 코딩 모드는 낮은 비트-레이트의, 예측-기반 코딩 모드가 성능을 만족스럽게 수행한 뒤에 적용될 수 있다.

Description

폐루프 가변-레이트 다중모드 예측 음성 코더{CLOSED-LOOP VARIABLE-RATE MULTIMODE PREDICTIVE SPEECH CODER}

디지털 기술에 의한 음성(voice)의 전송은 특히 장거리 및 디지털 무선 전화 응용분야에 널리 확산되었다. 이것은 또한 재구성된 음성의 인지된 품질을 유지하면서 채널을 통해 전송될 수 있는 최소 정보량을 결정하는데 대한 관심을 일으켰다. 음성이 단지 샘플링 및 디지털화에 의해 전송되는 경우에, 초당 64 킬로 바이트(kbps) 정도의 데이터 레이트가 통상적인 아날로그 전화의 음성 품질을 달성하기 위해 요구된다. 그러나, 음성 분석 후에 수신기에서의 적절한 코딩, 전송 및 재합성을 사용하므로써, 데이터 레이트의 상당한 감소가 달성될 수 있다. 인간 음성 발생의 모델에 관련된 파라미터들을 추출하므로써 음성을 압축하기 위한 기술을 채용하는 장치들을 음성 코더(speech coder)라고 한다. 음성 코더는 들어오는 음성 신호를 시간 블록들 및 분석 프레임으로 분할한다. 음성 코더들은 통상적으로 인코더 및 디코더 또는 코덱(codec)을 포함한다. 인코더는 임의의 관련된 파라미터를 추출하기 위해 들어오는 음성 프레임을 분석하고 파라미터들을 이진 표현 즉, 한 세트의 비트 또는 이진 데이터 패킷으로 양자화 한다.

데이터 패킷은 통신 채널을 통해 수신기 및 디코더로 전송된다. 디코더는 데이터 패킷을 처리하고, 그것을 양자화해제(unquantize)하여 파라미터를 발생시키고, 양자화해제된 파라미터를 사용하여 음성 프레임을 재합성한다.

음성 코더의 기능은 음성에 고유한 모든 고유 리던던시를 제거하므로써 디지털화된 음성 신호를 낮은 비트-레이트 신호로 압축하는 것이다. 디지털 압축은 입력 음성 프레임을 한 세트의 파라미터들로 표현하고, 상기 파라미터들을 한 세트의 비트로 표현하기 위해 양자화를 채용하므로써 달성된다. 입력 음성 프레임이 비트수 N_i를 갖고, 음성 코더에 의해 발생된 데이터 패킷은 비트수 N_o를 가지는 경우에, 음성 코더에 의해 달성된 압축 인자는 C_r=N_i/N_o이다. 해결할 과제는 목적하는 압축 인자를 달성하면서 디코딩된 음성의 품질을 높게 유지하는 것이다. 음성 코더의 성능은 (1) 위에 설명된 음성 모델 또는 분해 및 합성 프로세스의 조합이 얼마나 잘 작동하는가 및 (2) 파라미터 양자화 프로세스가 프레임당 N_o의 목적하는 비트 속도에서 얼마나 잘 작동하는가에 달려 있다. 음성 모델의 목적은 각 프레임에 대해 적은 세트의 파라미터들로 음성 신호 또는 목적하는 음성 품질의 본질(essence)을 획득하는 것이다.

낮은 비트-레이트에서 음성을 효과적으로 인코딩하는 기술 중 효과적인 것은 다중모드 코딩(multimode coding)이다. 다중모드 코더는 서로 다른 타입의 입력 음성 프레임에 서로 다른 모드 또는 인코딩-디코딩 알고리즘을 적용한다. 각 모드 또는 인코딩-디코딩 프로세스는 특정 타입의 음성 세그먼트(즉, 음성화된, 음성화되지 않은 또는 배경 잡음)를 표현하도록 가장 효과적인 방식으로 커스터마이징(customized)된다. 외부 모드 결정 메카니즘은 입력 음성 프레임을 조사하고 어느 모드를 프레임에 적용할 것인가에 대한 결정을 내린다. 따라서, 모드는 사전에 출력 음성의 정확한 상태, 즉 출력 음성이 음성-품질 또는 다른 성능 측정값으로 볼때 입력 음성에 얼마나 유사한가를 알지 못한 상태에서 결정된다. 음성 코덱을 위한 예시적인 개루프 모드 결정(open-loop mode decision)이 미국 특허번호 제 5,414,796호에 설명되어 있으며, 이 발명은 본 발명의 출원인에게 양도되어 있고, 본 명세서에 참고문헌으로 일체화되어 있다.

다중모드 코딩은 각 프레임에 대해 동일한 비트수 No를 사용하는 고정-레이트 또는 서로 다른 모드에 대해 서로 다른 비트-레이트를 사용하는 가변-레이트일 수 있다. 가변-레이트 코딩에서의 목적은 코덱 파라미터들을 목적하는 품질을 얻기에 적절한 레벨까지 인코딩하는데 필요한 양 만큼의 비트만을 사용하는 것이다. 결과적으로, 가변-비트-레이트(VBR;variable-bit-rate) 기술을 사용하여 상당한 낮은 평균-레이트에서 고정-레이트와 동일한 목적하는 음성 품질의 고속 코더를 얻을 수 있다. 통상적인 VBR 음성 코더들은 서로 다른 비트-레이트를 갖는 모드로 설계된다. 예시적인 가변-레이트 음성 코더는 미국 특허번호 제 5,414,796호에 설명되어 있으며, 이 발명은 본 발명의 출원인에게 양도되어 있고, 본 명세서에 참고문헌으로 일체화되어 있다. 위 특허에 설명된 코덱은, (1)전 레이트(FR;full rate);(2)반 레이트(HR;half rate);(3)4분의 1 레이트(QR;quarter rate);(4)8분의 1레이트(ER;eighth rate)의 4개 레이트를 갖는다. 앞서 말한 레이트에 대해서, 각 음성 프레임은 프레임당 각각 160, 80, 40 및 20 비트로 인코딩된다. 외부 개루프 모드 결정은 어느 모드(FR,HR,QR 또는 ER)를 입력 음성 프레임에 적용할 것인가에 대한 결정을 내린다.

현재 중간 내지 낮은 비트-레이트 까지(즉, 2.4 내지 4 kbps 및 그 이하)에서 동작하는 고품질 음성 코더를 개발하기 위한 연구에 대한 관심 및 강한 상업적 필요성이 급증하고 있다. 응용 영역은 무선 텔레포니, 위성 통신, 인터넷 텔레포니, 다양한 멀티미디어 및 음성-스트리밍 응용 및 다른 음성 저장 시스템들을 포함한다. 이와 같은 경향을 가속시키는 것은 고용량에 대한 필요성 및 패킷 손실 상황에서도 꾸준한 성능에 대한 필요성이다. 다양한 최근의 음성 코딩 표준화 노력은 낮은 음성 알고리즘에 대한 연구 및 개발을 추진하는 또다른 직접적인 추진력이다. 낮은 음성 코더는 허용되는 응용 대역폭 당 더 많은 채널들 또는 사용자들을 만들어 내고, 적절한 채널 코딩의 추가적인 층과 연결된 낮은 음성 코더는 전체적인 비트수지(bit-budget)를 맞출 수 있으며, 채널 에러 조건 하에서 강한 성능을 전달할 수 있다.

통상적인 음성 코더는 보통 현재의 프레임을 인코딩하기 위해 몇몇 형태의 예측 메카니즘을 사용한다. 따라서, 현재 프레임을 인코딩하기 위해, 음성 코더는, 마지막으로 디코딩 및 재발생된 프레임에 포함된 정보를 개발 및 사용한다. 이것은 통상적으로 연속된 프레임들 사이에 강한 상관관계(correlation) 또는 유사성이 있기 때문에 잘 동작한다. 따라서, N개의 샘플을 갖는 음성에 대한 프레임 또는 짧은세그먼트 S_cur(n)(여기서 n=1,2,,,N)는 다음 방정식에 따라 인코딩된 프레임 S_{cur_quantized}(n)을 형성하기 위한 예측 방법에 의해 인코딩될 수 있다.

S_{cur_quantized}(n) = S_{cur_predicted}(n) + E_{cur_quantized}(n)

= S_{prev_quantized}(n) * P(n) + E_{cur_quantized}(n),

여기서, "*"는 컨벌루션 연산을 나타내고, P(n)는 이전의 양자화된 프레임으로부터 현재 프레임의 근사값 S_{prev_quantized}(n)(예컨대, S_{cur_predicted}(n) = S_{prev_quantized}(n) * P(n))을 발생시키는 통상적인 예측 필터이며, E_{cur_quantized}(n)는 현재 프레임의 예측 에러 E_cur(n)의 양자화된 버전이다. 현재 에러는 E_cur(n)=S_cur(n) - S_{cur_predicted}(n)으로 정의된다.

예측 기구에 대한 성능은 종종 신호대잡음비(SNR;signal-to-noise ratio) 또는 지각에 의한 신호대잡음비(PSNR;perceptual SNR)에 의해 측정되며, 다음과 같이 정의된다.

여기서 n=1,2,,,,N에 대해서 W(n)는 지각에 의한 가중 인자이고 N_cur(n)은 전체 코딩 프로세스의 에러이다. 전체 코딩 프로세스에 대한 에러는 N_cur(n) = S_cur(n) - S_{cur_quantized}로 정의된다. 보통 SNR에 대해서, W(n)은 모든 n=1,2,,,,N에 대해 1로설정된다.

N_cur이 감소하면, 예측-기반 음성 코딩 구조 또는 SNR은 증가할 것이다. 그러므로 에러 N_cur를 최소화하는 것이 유리하다.

다음식

N_cur(n) = S_cur(n) - S_{cur_quantized}(n) = [S_cur(n) - S_{cur_predicted}(n)] + [E_{cur_quantized}(n) - E_cur(n)] = 예측-에러 + 예측-에러-신호의 양자화에 있어서의 에러

은 전체 에러 N_cur가 예측이 얼마나 잘 작동하는가 및 예측 에러가 얼마나 잘 양자화 되는가에 따라 달라진다는 것을 표시한다.

예측 필터 정보는 임의의 비트수 Np 만큼 디코더로 반드시 전송된다. 나머지 가능한 비트들 No-Np이 예측 에러 신호 E_cur를 인코딩 하는데 사용될 수 있다. 양자화된 지난 프레임으로부터의 예측, S_{prev_quantized}가 현재 프레임 S_cur의 우수한 예측된 표현 S_{cur_predicted}를 발생시키는 경우에, 예측 에러 E_cur는 적을 것이며, 낮은 동적 범위를 가질 것이다. 따라서, 적은 수의 비트들로 예측 에러 E_cur를 인코딩하는 것은 상대적으로 쉬울 것이다.

콸콤 인코포레이티드에 의해 생산되는 QCELP^?13k 보코더와 같은 고속-비트-레이트 예측 음성 코더에 대해서, 프레임 당의 총 비트수 No는 매우 많다. QCELP^?는 예컨대, 20ms 프레임당 260 비트를 써포트한다. 그러므로, 예측 필터파라미터를 양자화 하기 위해 비트수 Np 를 할당한 후라도, 예측 에러를 정확히 인코딩하기에 충분한 비트들 No-Np가 남아 있다. 그러나, 낮은 비트-레이트(예컨대, 4kbps 또는 그 이하)에서, 사용가능한 총 비트양(즉, 프레임당 80 또는 그 이하)은 정확하게 예측 필터 파라미터 및 예측 에러 신호 모두를 인코딩하기에 충분히 크지 않다. 결과적으로, 전체 코딩 에러 N_cur가 커져서 성능이 떨어지고 원래 프레임 S_cur과는 상당히 다를 수도 있는 현재 프레임의 양자화된 버전 S_{cur_quantized}를 발생시키게 된다. 다음 프레임의 인코딩은 현재 프레임이 얼마나 잘 인코딩 되는가에 따라 달라지기 때문에, 성능이 떨어지면 다음 프레임의 예측 성능도 감소시킬 수 있다. 따라서, 낮은 비트-레이트에서 고-음성-품질을 생산할 수 있는 가변-레이트, 다중모드, 예측 코더가 필요하다.

본 발명은 일반적으로 음성 처리 분야에 관한 것이며, 보다 구체적으로는 음성의 폐루프, 가변레이트, 다중모드, 예측 코딩에 관한 것이다.

도 1은 각 종단에서 종결되는 음성 코더에 의한 통신 채널의 블록 다이어그램.

도 2는 인코더의 블록 다이어그램.

도 3은 디코더의 블록 다이어그램.

도 4는 낮은 비트-레이트에서 음성 프레임에 대한 폐루프, 다중모드, 예측 코딩 기술의 스텝들을 설명하는 흐름도.

본 발명은 낮은 비트-레이트에서 고-음성-품질을 생산할 수 있는 가변-레이트, 다중모드, 예측 코더에 대한 것이다. 따라서, 본 발명의 한 관점에서, 음성 코더는 다수의 코딩 모드 중 적어도 하나에서 동작하도록 구성된 코덱; 및 상기 코덱에 연결되어 있고, 다수의 코딩 모드 중에서 다른 어느 것의 비트-레이트 보다 더 낮은 제1 비트-레이트를 갖는 제1 코딩 모드를 입력 음성 프레임에 적용하도록 구성되어 있으며, 또한 코덱의 성능 측정값(performance measure)을 얻고, 상기 성능 측정값을 임계값과 비교하며, 상기 성능 측정값이 상기 임계값을 초과하지 않는 경우에는 상기 제1 비트-레이트 보다 큰 제2 비트-레이트를 갖는 제2 코딩 모드를 위해 제1 코딩 모드를 거절하는 폐루프 모드 결정 모듈을 포함한다.

본 발명의 다른 관점에서, 음성 프레임을 코딩하는 방법은 음성 프레임에 적용하기 위하여, 제1 비트-레이트를 갖는 제1 코딩 모드를 선택하는 단계; 코딩 성능 측정값을 얻는 단계; 상기 코딩 성능 측정값을 임계값과 비교하는 단계; 및 상기 코딩 성능 측정값이 상기 임계값을 초과하지 않는 경우에는 상기 제1 비트-레이트를 초과하는 제2 비트-레이트를 갖는 제2 코딩 모드를 위해 상기 제1 코딩 모드를 거절하는 단계를 포함한다.

본 발명의 다른 관점에서, 음성 코더는 음성 프레임을 적용하기 위해, 제1 비트-레이트를 갖는 제1 코딩 모드를 선택하기 위한 수단; 코딩 성능 측정값을 얻기 위한 수단; 상기 코딩 성능 측정값을 임계값과 비교하기 위한 수단; 및 상기 코딩 성능 측정값이 상기 임계값을 초과하지 않는 경우에는, 상기 제1 비트-레이트를 초과하는 제2 비트-레이트를 갖는 제2 코딩 모드를 위해 상기 제1 코딩 모드를 거절하기 위한 수단을 포함한다.

도 1에서, 제1 인코더(10)는 디지털화된 음성 샘플 s(n)을 수신하고 전송 매체(12)를 통해, 또는 통신 채널(12)을 통해 제1 디코더(14)로 전송하기 위해 샘플들 s(n)을 인코딩한다. 디코더(14)는 인코딩된 음성 샘플들을 디코딩하고 출력 음성 신호 S_SYNTH(n)를 합성한다. 반대 방향으로의 전송을 위해, 제2 인코더(16)는 디지털화된 음성 샘플들 s(n)을 인코딩하고 이것은 통신 채널(18)을 통해 전송된다. 제2 디코더(20)는 인코딩된 음성 샘플들을 수신 및 디코딩하여 합성된 출력 음성 신호 S_SYNTH(n)를 발생시킨다.

음성 샘플들 s(n)는 예컨대 μ-법칙 또는 A-법칙에 따른 펄스 코드 변조(PCM)를 포함하는, 분야에서 알려진 다양한 방법들에 따라 디지털화되고 양자화된 음성 신호들을 표현한다. 이 기술 분야에서 공지된 바와 같이, 음성 샘플들 s(n)은 입력 데이터의 프레임들로 조직화되고, 각 프레임은 소정의 수의 디지털화된 음성 샘플들 s(n)을 포함한다. 예시적인 실시예에서, 8kHz의 샘플링 레이트가 채용되고, 각 20ms 프레임은 160 샘플들을 포함한다. 아래에 설명된 실시예에서, 데이터 전송 레이트는 프레임 대 프레임으로 8kbps(전 레이트) 내지 4kbps(반 레이트) 또는 2kbps(4분의 1 레이트) 또는 1kbps(8분의 1 레이트) 까지 변할 수 있다. 데이터 전송 레이트를 변화시키는 것은 낮은 비트-레이트가 상대적으로 적은 음성 정보를 포함하는 프레임에 대해 선택적으로 채용되기 때문에 유리하다. 이 기술 분야의 당업자에 의해 이해될 바와 같이, 다른 샘플링 레이트, 프레임 크기 및 데이터 전송 레이트도 사용될 수 있다.

제1 인코더(10) 및 제2 디코더(20)는 모두 제1 음성 코더 또는 음성 코덱을 포함한다. 마찬가지로, 제2 인코더(16) 및 제1 디코더(14)는 모두 제2 음성 코더를 포함한다. 이 기술 분야의 당업자는 음성 코더가 디지털 신호 프로세서(DSP;digital signal processor), 응용 주문형 집적 회로(ASIC;application-specific integrated circuit), 이산 게이트 로직 또는 임의의 통상적인 프로그래머블 소프트웨어 모듈 및 마이크로프로세서로 구현된다. 소프트웨어 모듈은 RAM 메모리, 플래쉬 메모리, 레지스터 또는 이 기술 분야에 알려진 다른 임의의 기록가능한 저장 매체에 상주할 수 있다. 택일적으로, 임의의 통상적인 프로세서, 콘트롤러, 또는 상태 머신(state machine)이 마이크로프로세서를 대신할 수 있다. 음성 코딩을 위해 설계된 예시적인 ASICs는 본 발명의 출원인에게 양도되어 있고, 본 명세서에 참고문헌으로 일체화되어 있는 미국 특허번호 제5,727,123호 및 "보코더 아식(VOCODER ASIC)"이라는 표제가 붙어 있으며, 1994년 2월 16일 출원되었고 본 발명의 출원인에게 양도되었으며 본 명세서에 참고문헌으로 일체화되어 있는 미국 출원 번호 08/197,417호에 상세하게 설명되어 있다.

도 2에서, 음성 코더에서 사용되는 인코더(100)는 모드 결정 모듈(102), 피치 평가 모듈(104), LP 분석 모듈(106), LP 분석 필터(108) 및 LP 양자화 모듈(110) 및 나머지 양자화 모듈(112)을 포함한다. 입력 음성 프레임 s(n)은 모드 결정 모듈(102), 피치 평가 모듈(104), LP 분석 모듈(106), LP 분석 필터(108)를 포함한다. 모드 결정 모듈(102)은 각 입력 음성 프레임 s(n)의 주기성을 기초로 모드 인덱스(I_M) 및 모드(M)를 발생시킨다. 주기성에 따라 음성 프레임들을 분류할 다양한 방법들이 "레이트가 감소된 가변-레이트 보코딩을 수행하기 위한 방법 및 장치"라는 표제가 붙어 있으며, 1997년 3월 11일에 출원되었고, 본 발명의 출원인에게 양도되었으며, 본 명세서에 참고문헌으로 일체화되어 있는 미국 출원 번호 08/815,354호에 설명되어 있다. 그러한 방법들은 또한 TIA/EIA IS-127 및 TIA/EIA IS-733로 일체화되어 있다.

피치 추정 모듈(104)은 각각의 입력 음성 프레임 s(n)을 기초로 피치 인덱스(I_P) 및 지연값(P_O)을 발생시킨다. LP 분석 모듈(106)은 LP 파라미터(a)를 발생시키기 위해 각각의 입력 음성 프레임 s(n)에 대해 선형 예측 분석을 수행한다. LP 파라미터(a)는 LP 양자화 모듈(110)로 제공된다. LP 양자화 모듈(110)은 또한 모드(M)를 수신한다. LP 양자화 모듈(110)은 LP 인덱스(I_LP) 및 양자화된 LP 파라미터()를 발생시킨다. LP 분석 필터(108)는 입력 음성 프레임 s(n)에 추가적으로 양자화된 LP 파라미터()를 수신한다. LP 분석 필터(108)는 LP 나머지 신호 R[n]를 발생시키고, 이 나머지 신호 R[n]는 입력 음성 프레임 s(n) 및 양자화된 선형 예측 파라미터사이의 에러를 나타낸다. LP 나머지 R[n], 모드(M) 및 양자화된 LP 파라미터()가 나머지 양자화 모듈(112)에 제공된다. 이러한 값들을 기초로, 나머지 양자화 모듈(112)은 나머지 인덱스(IR) 및 양자화된 나머지 신호를 발생시킨다.

도 3에서, 음성 코더에서 사용되는 디코더(200)는 LP 파라미터 디코딩 모듈(202), 나머지 디코딩 모듈(204), 모드 디코딩 모듈(206) 및 LP 합성 필터(208)를 포함한다. 모드 디코딩 모듈(206)은 모드 인덱스(I_M)를 수신 및 디코딩하여 그로부터 모드(M)를 발생시킨다. LP 파라미터 디코딩 모듈(202)은 모드(M) 및 LP 인덱스(I_LP)를 수신한다. LP 파라미터 디코딩 모듈(202)는 수신된 값들을 디코딩하여 양자화된 LP 파라미터()를 발생시킨다. 나머지 디코딩 모듈(204)은 나머지 인덱스(I_R), 피치 인덱스(I_P) 및 모드 인덱스(I_M)를 수신한다. 나머지 디코딩 모듈(204)은 수신된 값들을 디코딩하여 양자화된 나머지 신호를 발생시킨다. 양자화된 나머지 신호및 양자화된 LP 파라미터(A)가 LP 합성 필터(208)에 제공되고, 이 합성 필터는 그로부터 디코딩된 출력 음성 신호를 합성한다.

도 2의 인코더(100) 및 도 3의 디코더의 다양한 모듈들의 동작 및 구현은 공지 기술이며, 본 명세서에 참고문헌으로 일체화되어 있는 L.B Rabiner 및 R.W. Schafer의 "음성 신호의 디지털 프로세싱" pp. 396-453(1978년)에 상세히 설명되어 있다. 예시적인 인코더 및 예시적인 디코더는 앞서 본 명세서에 참고문헌으로 일체화되어 있는 미국 특허번호 제5,414,796호에 설명되어 있다.

한 실시예에서, 다중모드 코더는 우선 개루프 결정 모드를 사용하고, 현재 프레임으로부터 추출된 파라미터를 기초로 현재 프레임을 배경-잡음(background noise)/무음(N), 무성음(UV) 또는 유성음(V)으로 분류한다. 레이트 결정을 위해 사용되는 다양한 음성 분류방법은 공지 기술이며, 이 공지기술에는 앞서 이미 이 명세서에 참고문헌으로 일체화되어 있는 미국 특허번호 제 5,414,796호에 설명된 방법들이 포함된다. N타입 프레임은 8분의1-레이트 모드로 코딩되고, UV-타입 프레임은 4분의1-레이트로 코딩된다.

V-타입의 프레임(즉, 유성음 프레임)에 대해서, 전 레이트 같은 고속(프레임당 N0=N1 비트) 또는 반 레이트 같은 낮은 비트-레이트(프레임당 N0=N2 비트, 여기서 N2<N1)이 사용된다. 전-레이트 모드는 다양한 타입의 유성음을 정확히 인코딩하기에 충분한 비트를 갖는 예측-기반 코딩 방법이며, PSNR을 목적하는 PSNR(소정의 또는 가변 임계값) 보다 높게 잘 전달한다. 반-레이트 모드는 이전 프레임과의 높은 상관관계를 갖는 프레임(즉, 이전 프레임과 상당히 유사한 프레임)을 인코딩하도록 설계된 예측-기반 코딩 구성인 점에서 유리하다. 따라서, 반-레이트 모드에서 사용가능한 비트수인 프레임당 N2 비트는 예측 에러 뿐만 아니라 높은 상관도를 갖는 프레임에 대한 예측 파라미터를 인코딩하는데 충분하다. 그러한 프레임들은 통상적으로 꾸준한 유성음 세그먼트에서 만나게 되고, 따라서 반-레이트 코딩을 따라야 한다. 또한, 예측-기반 코딩 구성의 성능은 이전 프레임이 얼마나 정확히 양자화되었는가에 따라 달라진다. 따라서, 폐루프 모드 선택 프로세스는 소정(또는 가변)의 목적하는 PSNR 값을 초과한다. 이 기술 분야의 당업자라면, 개루프 모드가 반드시 적용될 필요는 없다는 것을 알 것이다.

도 4의 흐름도는 한 실시예에 따라, 낮은 비트-레이트에서 음성 프레임에 대한 폐루프, 다중모드, 예측 코딩 기술을 설명한다. 스텝(300)에서, 프레임 수 카운터는 1로 설정된다. 알고리즘은 스텝(302)으로 진행하여 코딩 과정을 시작한다. 알고리즘은 스텝(304)으로 진행한다. 스텝(304)에서, 알고리즘은 현재 프레임 및 이전의 양자화된 프레임을 체크한다. 알고리즘은 스텝(306)으로 진행한다. 스텝(306)에서, 알고리즘은 현재 프레임이 무음 또는 배경 잡음으로 분류되어야 할지를 결정한다. 이 결정은 예컨대 제곱의 합(sum-of-square) 같은 프레임 에너지를 측정하기 위한 다양한 통상적인 기술들에 따라 행해지게 된다. 프레임이 무음 또는 배경 잡음으로 분류되면, 알고리즘은 스텝(308)으로 진행한다. 스텝(308)에서, 알고리즘은 8분의 1-레이트 코딩 모드를 프레임에 적용시킨다. 알고리즘은 스텝(310)으로 진행한다. 반면에 스텝(306)에서, 프레임이 배경 잡음 또는 무음으로 분류되지 않으면, 알고리즘은 스텝(312)으로 진행한다.

스텝(312)에서, 알고리즘은 현재 프레임이 무성음으로 분류되어야 할지를 결정한다. 이 결정은 다양한 미지의 주기성 결정 방법들, 예컨대 부호 변환점(zero-crossing) 또는 정규 자기 관계 함수(NACFs;normalized autocorrelation functions)를 사용하여 행해지게 된다. 이러한 기술들은 앞서 언급된 미국 특허 출원번호 08/815,354에 설명되어 있으며, 본 명세서에 참고문헌으로 일체화되어 있다. 프레임이 무성음으로 분류되는 경우에는, 알고리즘은 스텝(314)으로 진행한다. 스텝(314)에서, 4분의 1-레이트 코딩 모드가 프레임에 적용된다. 알고리즘은 스텝(310)으로 진행한다. 반면에 스텝(312)에서, 프레임이 무성음으로 분류되지 않는 경우에는, 알고리즘은 스텝(316)으로 진행하고 프레임이 임의의 유성음을 포함할 것을 고려한다. 스텝(316)에서, 알고리즘은 반-레이트 예측 기반 코딩 모드로간다. 알고리즘은 스텝(318)으로 진행한다. 스텝(318)에서, PSNR이 계산된다. 알고리즘은 스텝(320)으로 진행한다.

스텝(320)에서, 알고리즘은 계산된 PSNR이 소정의 임계값 또는 목적하는, PSNR 값보다 큰지를 결정한다. 대체방법으로, 임계값 또는 목적하는, PSNR 값은 평균 비트-레이트의 함수일 수 있다. 예를 들어, 평균 비트-레이트는 주기적으로 계산되어 알고리즘으로 피드백되고, 이것이 목적하는 임계값을 조정한다. 또한, 성능에 대한 임의의 통상적인 측정값은 PSNR로 대체될 수 있다는 사실이 이해되어야 한다. 계산된 PSNR이 목적하는 PSNR을 초과하는 경우에, 알고리즘은 스텝(322)으로 진행한다. 스텝(322)에서, 반-레이트 코딩 모드가 프레임에 적용된다. 알고리즘은 스텝(310)으로 진행한다. 반면에 스텝(320)에서, 계산된 PSNR이 목적하는 PSNR을 초과하지 않는 경우에, 알고리즘은 스텝(324)으로 진행한다. 스텝(324)에서, 알고리즘은 전-레이트 코딩 모드를 프레임에 적용한다. 알고리즘은 스텝(310)으로 진행한다.

스텝(310)에서, 프레임 수 카운터는 1씩 증가된다. 알고리즘은 스텝(326)으로 진행한다. 스텝(326)에서, 알고리즘은 프레임 수 카운터 값이 프로세싱 되어야 할 총 프레임 수보다 크거나 같은지(즉, 프로세싱할 프레임이 남아 있는지)를 결정한다. 프레임 수 카운터 값이 프로세싱 될 총 프레임 수보다 적은 경우에는, 알고리즘은 스텝(302)으로 돌아가서 다음 프레임에 대한 코딩 프로세스를 시작한다. 반면에, 프레임 수 카운터 값이 프로세싱 될 프레임 총 수보다 크거나 같은 경우에는, 알고리즘은 스텝(328)으로 진행하여 코딩 프로세스를 끝내게 된다.

대체적인 실시예에서, 도 4에 관하여 위에 설명된 전-레이트 코딩 모드는 고속-비트-레이트 메카니즘(즉, 반-레이트 이상인 임의의 비트-레이트)일 수 있을 것이다. 한 실시예에서, 고속-비트-레이트의 직접 코딩 메카니즘은 전-레이트, 예측 코딩 모드를 대신한다. 직접 코딩 모드는 이전 프레임으로부터의 어떤 정보도 사용하지 않고 현재 음성 프레임 또는 나머지를 인코딩한다.

직접 인코딩 방법의 사용은 현재 프레임과 이전 프레임 사이에 유사성이 없는 음성 세그먼트에 대해 적절하다. 예로서 음성 세그먼트을 착수하는 동안을 들수 있다. 또다른 예는 무성음-대-유성음 세그먼트 변환을 들 수 있다. 예측-기반 인코딩의 누적 효과는 대응하는 원래 음성 프레임과 지나치게 비동기화 되도록 이전 양자화된 프레임을 손상시킨 경우에는 직접 인코딩 방법은 유성음 세그먼트의 중간에서도 또한 유용하다. 이 경우에 예측 코딩은, 이전의 양자화된 프레임 및 이전의 원래 프레임 사이의 유사성 부족 때문에, 훨씬 고속의 비트-레이트에서도 실패할 것이다. 그러한 경우에, 현재 프레임을 직접 인코딩 방법으로 새로 캡쳐하는 것은 현재 프레임의 보존 상태를 향상시킬 뿐만 아니라, 예측 메카니즘이 더 정확한 메모리에 의해 보조될 것이기 때문에 다음 및 나중의 프레임들의 앞으로의 예측-기반 인코딩을 용이하게 할 것이다.

당업자들은 위에 설명된 실시예들이 4개의 비트-레이트들을 살펴보는 동안, 4개 외에 임의의 타당한 수의 비트-레이트들이 사용될 수 있을 것이라는 사실을 이해할 것이다. 당업자들은 또한 여기에 설명된 실시예들은 추가적인 프로세싱 시간 또는 용량을 희생하여 1 이상의 다수의 프레임으로 까지 확장될 수 있다는 것을 인정할 것이다.

한 실시예에서, 비트-레이트 R1 및 R2 2개의 모드가 채용된다. R1 코딩 방법은 고속의 직접 코딩 방법이다. R2 코딩 방법은 저속의 예측 코딩 방법이다. 폐루프 결정은, R2 코딩 방법이 먼저 시도되고, 성능 표준과 비교하므로써 성능이 체크되고, R2 코딩 모드에 대한 성능이 불충분한 경우에는 알고리즘이 R1 코딩 방법으로 전환된다. 대체적인 실시예에서, 고속의 R1 코딩 모드가 먼저 시도되고, 성능 표준과 비교하므로써 성능이 체크되고, 성능이 만족스러운 경우에는 저속의 R2 코딩 모드가 시도된다. R2 코딩 모드에 대해서 성능 체크가 수행되는 경우 및 R2 코딩 모드 성능이 만족스럽지 못한 경우에는, R1 코딩 모드가 프레임에 적용된다.

또다른 실시예에서, 비트-레이트 R1,R2,...,RN-1,RN(여기서 R1>R2>...>RN-1>RN)을 갖는 다중 코딩 모드가 채용된다. 폐루프 결정은 최저 레이트 RN이 먼저 시도되도록 작동한다. RN 코딩 모드가 적절히 작동하는 경우에는, RN 코딩 모드가 프레임에 대해 유지된다. 다른 경우에는, 그 다음 고속 코딩 모드 RN-1이 적용된다. 프로세스는 코딩 모드가 적절히 작동하거나 최고속 모드 R1이 유지될 때까지 반복된다. 대체적인 실시예에서는, 최고속 레이트 R1이 먼저 시도된다. R1 모드가 적절히 작동하는 경우에, 그 다음 저속 코딩 모드 R2가 시도된다. 프로세스는 주어진 코딩 모드가 적절히 작동하지 않을 때까지(이 시기에 적절히 작동할 마지막 코딩 모드가 적용된다) 또는 최저-레이트 코딩 모드 RN이 적절히 작동하여 적용될 때까지 계속된다.

또다른 실시예에서, 비트-레이트 R1,R2,...,Rm-1,Rm,Rm+1,...,RN을 갖는 다중 코딩 모드가 채용된다. 비트-레이트들은 다음과 같은 상대적인 크기 즉, R1>R2>Rm-1>Rm>Rm+1>RN인 관계를 갖는다. 폐루프 모드 결정은 개루프 모드 결정과 함께 동작한다. 개루프 모드 결정은, 프레임 에너지 또는 프레임 주기성과 같은 파라미터들을 기초로, 코드로 하여금 Rm 비트-레이트를 갖는 모드를 적용하도록 하고, 여기서 폐루프 모드 결정이 이어 받게 된다. 폐루프 결정 모드 결정은 Rm 코딩 모드를 적용하고, 성능을 테스트하며 성능이 만족스러운 경우에는 Rm 코딩 모드를 유지한다. 그렇지 않은 경우에는, 폐루프 모드 결정은 그 다음 고속 코딩 모드 Rm-1를 시도한다. 프로세스는 코딩 모드가 적절히 작동하거나 최고속 모드 R1이 유지될 때가지 반복된다. 택일적으로, 폐루프 모드 결정은 Rm 코딩 모드를 적용하고, 성능을 테스트하며 성능이 만족스러운 경우에는 Rm 코딩 모드를 유지한다. 그렇지 않은 경우에는, 폐루프 모드 결정은 그 다음 저속 코딩 모드 Rm+1을 시도한다. 프로세스는 코딩 모드가 부적절하게 작동하거나(이 시점에서 적절히 작동될 마지막 코딩 모드가 적용된다) 또는 최저속 모드 RN이 유지된다.

또다른 실시예에서, 비트-레이트 R1,R2,...,RN(여기서 R1>R2>...>RN)를 갖는 다중 코딩 모드가 채용된다. 모든 코딩 모드들은 입력 음성 프레임에 평행하게 적용되고, 코딩 모드들의 성능은 N 임계 성능 표준 세트와 비교된다. 가장 정확한 결과를 배출할 것으로 보이는 코딩 모드가 선택된다.

또다른 실시예에서, 비트-레이트 R1,R2,...,RN(여기서 R1>R2>...>RN)를 갖는 다중 모드들이 채용된다. 모든 코딩 모드들은 입력 음성 프레임과 병렬적으로 적용되고 코딩 모드들의 성능은 N개의 임계 성능 측정값 세트와 비교된다. 수개의 코딩모드들이 성능 임계 목적하는을 초과하는 경우에, 최저 비트-레이트(또한 위의 성능 임계값을 수행하는)를 갖는 코딩 모드가 선택된다.

또다른 실시예에서, 비트-레이트 R1,R2,...,4분의 1 레이트, 반 레이트,...,RN(여기서 R1은 전 레이트이고 RN은 8분의 1 레이트)를 갖는 다중 코딩 모드가 채용된다. 폐루프 모드 결정은 개루프 모드 결정과 함께 작용한다. 개루프 모드 결정은, 프레임 에너지 또는 프레임 주기성을 기초로, 코더로 하여금 전 레이트 코딩 모드를, 무성음에서 유성음으로 변환 프레임, 유성음에서 유성음으로 변환 프레임, 비정지 유성음 세그먼트 및 비정지 무성음 세그먼트에 적용하도록 한다. 또한, 프레임 파라미터를 기초로, 개루프 모드 결정은 코더로 하여금 반-레이트 코딩 모드를 프레임 사이의 유사도를 나타내는 고정-유성음 세그먼트에 적용하도록 한다. 또한, 프레임 파라미터를 기초로, 개루프 모드 결정은 코더로 하여금 4분의 1레이트 코딩 모드를 고정 무성 세그먼트에 적용하도록 한다. 또한 프레임 파라미터들을 기초로, 개루프 모드 결정은 코더로 하여금 8분의 1-레이트 코딩 모드를 배경 잡음 및 무음 같은 다른 비음성 신호에 적용하도록 한다. 일단 개루프 모드 결정이 프레임으로의 적용을 위한 코딩 모드를 선택하면, 폐루프 모드 결정이 이어 받게 된다. 폐루프 모드 결정은 개루프 모드 결정에 의해 선택된 코딩 모드를 적용하고, 성능을 테스트하며 성능이 만족스러운 경우에는 선택된 코딩 모드를 유지한다. 그렇지 않은 경우에는, 폐루프 모드 결정은 그 다음 고속 코딩 모드를 시도한다. 프로세스는 코딩 모드가 적절히 작동하거나, 전-레이트 모드가 유지될 때가지 반복된다. 대체적으로, 폐루프 모드 결정은 개루프 모드 결정에 의해 선택된 코딩모드를 적용하고, 성능을 테스트하며, 성능이 만족스러운 경우에는 선택된 코딩 모드를 유지한다. 그렇지 않은 경우에는, 폐루프 모드 결정은 그 다음 저속 코딩 모드를 시도한다. 프로세스는 코딩 모드가 부적절하게 작동하거나(이 시기에 적절히 작동할 마지막 코딩 모드가 적용된다), 최저속 모드가 유지될 때까지 반복된다.

또다른 실시예에서, 다중 모드 코더는 N 모드들의 제1 세트 Mi를 포함하고, 상기 제1 세트는 비트-레이트 Ri를 갖는다. 여기서 i=1,2,...,N이다. 코더는 또한 N개의 제2 세트, MCCi를 갖고, 상기 제2 세트는 각각의 비트-레이트 RCCi를 갖는다. 여기서 i=1,2,...,N이다. 상기 MCCi 및 Mi 코딩 모드는 각각 동일한 소스-코딩 모드(즉, 동일한 인코더 및 디코더)를 사용한다. 그러나, MCCi 코딩 모드는 추가적인 채널 보호층을 가지며, 여기서 (RCCi-Ri) 비트가 통신 시스템의 가능한 최악의 채널 조건의 강한 보호를 위해 사용된다. 따라서, 채널-에러 없는 조건 하에서 Mi 코딩에 의해 전달된 성능 또는 음성 품질은 가능한 최악의 채널 에러 조건 하에서 MCCi 코딩 모드에 의해 전달된 성능 또는 음성 품질에 유사하다. 상기 (RCCi-Ri) 채널 코딩 비트는 가정되었거나 또는 최악의 채널 조건 하에서 충분한 보호가 제공하도록 한다. 상기 가정된 최악의 채널 조건은, 예컨대 소정 비율의 프레임 에러 레이트(FER;frame error rate)이다. 이 특정 실시예에서, 폐루프 모드 결정은 품질이 보장된 서비스를 전달하기 위한 채널 변화 및 소스 변화 모두를 설명한다. 예를 들어, 위에 설명된 바와 같은 소스-제어, 폐루프 모드 결정이 우선 적용된다. 폐루프 모드 결정은 코더로 하여금 Mi 코딩 모드를 사용하도록 한다. 통신 네트워크에 의해 음성 인코더에 제공된 신호인 외부의, 네트워크-제어 표시기 SW는 통신 채널인 좋은 조건에 있는지(예컨대, SW=1인 경우에 채널은 에러-없음) 나쁜 조건에 있는지(예컨대, SW=0인 경우에 채널은 에러가 많음)를 표시한다. 채널이 좋은 조건에 있는 경우에는, 비트-레이트 Ri를 갖는 코딩 모드 Mi가 사용된다. 반면에 채널이 나쁜 조건에 있는 경우에, 비트-레이트 RCCi를 갖는 코딩 모드 MCCi가 사용된다.

이 기술 분야의 당업자는 네트워크의 조건수가 2로 제한될 필요가 없다는 사실을 알 것이다. 따라서, 한 실시예에서, 다중 모드 코더는 레이트 RCCi,j를 갖는 M개의 서로 다른 모드들 MCCi,j를 제공하므로써, 각각의 원래 소스-제어 코딩 모드 Mi에 대해, 가능한 j=1,2,...,M개의 서로 다른 네트워크 조건을 설명하도록 설계된다. 여기서 j=1,2,...,M이다. (RCCi,j-RCCi)는 채널 에러 보호를 채널 코딩층에 추가하는데 필요한 최소 비트수를 나타내어, 채널 에러 보호가 j번째 채널 에러 조건에서의 최악의 경우의 시나리오에도 충분할 될 것이기 때문에, 그러한 구성은 다양한 양의 채널 코딩을 가능케 한다. 소스-제어, 폐루프 모드 결정은 어느 코딩 모드 Mi를 우선 적용할 것인지를 결정하고, SW=j(여기서 j=1,2,...,M)를 기초로, 코딩 모드 MCCi,j를 선택한다. 그러한 폐루프, 조합된-네트워크-및-소스-콘트롤 코덱은 낮은 평균 비트-레이트를 전달하면서, 보증된 품질의 서비스를 다양한 채널 조건을 통하여 전달한다.

본 발명에 대한 보다 바람직한 실시예가 보여지고 설명되었다. 본 발명의 범위를 벗어나지 않고 다양한 변형이 실시예들에 가해질 수 있다는 사실이 당업자들에게는 명백할 것이다. 그러므로, 본 발명은 다음의 청구항에 따른 해석에 의하는 것 외에는 제한되어서는 안된다.

Claims

다수의 코딩 모드 중 적어도 하나에서 동작하도록 구성된 코덱(codec); 및

상기 코덱에 연결되어 있고, 다수의 코딩 모드 중에서 다른 어느 것의 비트-레이트 보다 더 낮은 제1 비트-레이트를 갖는 제1 코딩 모드를 입력 음성 프레임(input speech frame)에 적용하도록 구성되어 있으며, 또한 코덱의 성능 측정값(performance measure)을 얻고, 상기 성능 측정값을 임계값과 비교하며, 상기 성능 측정값이 상기 임계값을 초과하지 않는 경우에는 상기 제1 비트-레이트 보다 큰 제2 비트-레이트를 갖는 제2 코딩 모드를 위해 제1 코딩 모드를 거절하는 폐루프 모드 결정 모듈을 포함하는 것을 특징으로 하는 음성 코더.
제1항에 있어서, 상기 폐루프 모드 결정 모듈은, 비트-레이트가 증가하는 순서로 연속적으로 선택된 코딩 모드를 선택하고, 성능에 기반하여 거절하는 프로세스를 진행하는 특징으로 하는 음성 코더.
제1항에 있어서, 상기 성능을 기반으로 한 측정값은 결과적인 합성된 음성 프레임과 상기 입력 음성 프레임을 비교하므로써 얻어지는 것을 특징으로 하는 음성 코더.
제1항에 있어서, 상기 제1 코딩 모드는 예측-기반(prediction-based) 코딩모드이고 상기 제2 코딩 모드는 직접(direct) 코딩 모드인 것을 특징으로 하는 음성 코더.
제1항에 있어서, 상기 코덱에 연결되어 있으며, 상기 폐루프 모드 결정 모듈이 코딩 모드를 적용하기 전에 상기 입력 음성 프레임에 적용하기 위한 다수의 코딩 모드들 중 하나를 선택하도록 구성된 개루프 모드 결정 모듈을 더 포함하는데, 상기 폐루프 모드 결정 모듈은 우선 상기 개루프 모드 결정 모듈에 의해 선택된 코딩 모드를 적용하도록 구성된 것을 특징으로 하는 음성 코더.
제2항에 있어서, 상기 코덱에 연결되어 있으며, 상기 페루프 모드 결정 모듈이 코딩 모드를 적용하기 전에 상기 입력 음성 프레임에 적용하기 위한 다수의 코딩 모드들 중 하나를 선택하도록 구성된 개루프 모드 결정 모듈을 더 포함하는데, 상기 폐루프 모드 결정 모듈은 우선 상기 개루프 모드 결정 모듈에 의해 선택된 코딩 모드를 적용하도록 구성된 것을 특징으로 하는 음성 코더.
제1항에 있어서, 상기 임계값은 미리 정해진 양인 것을 특징으로 하는 음성 코더.
제1항에 있어서, 상기 임계값은 평균 비트-레이트의 함수인 것을 특징으로 하는 음성 코더.
(a)음성 프레임에 적용하기 위하여, 제1 비트-레이트를 갖는 제1 코딩 모드를 선택하는 단계;

(b)코딩 성능 측정값을 얻는 단계;

(c)상기 코딩 성능 측정값을 임계값과 비교하는 단계; 및

(d)상기 코딩 성능 측정값이 상기 임계값을 초과하지 않는 경우에는 상기 제1 비트-레이트를 초과하는 제2 비트-레이트를 갖는 제2 코딩 모드를 위해 상기 제1 코딩 모드를 거절하는 단계를 포함하는 것을 특징으로 하는 음성 프레임 코딩 방법.
제9항에 있어서, 상기 코딩 성능 측정값이 상기 임계값을 초과할 때까지 연속된 순서로 상기 (b)얻는 단계, (c)비교하는 단계 및 (d)거절하는 단계를 반복하는 단계를 더 포함하는 것을 특징으로 하는 음성 프레임 코딩 방법.
제9항에 있어서, 상기 (b)얻는 단계는 결과적인 합성된 음성 프레임과 상기 음성 프레임을 비교하는 단계를 포함하는 것을 특징으로 하는 음성 프레임 코딩 방법.
제9항에 있어서, 상기 얻는 단계는 결과적인 합성된 음성 프레임과 상기 음성 프레임을 비교하는 단계를 포함하는 것을 특징으로 하는 음성 프레임 코딩 방법.
제9항에 있어서, 상기 선택하는 단계는 상기 음성 프레임의 파라미터를 기초로 제1 코딩 모드를 선택하는 단계를 포함하는 것을 특징으로 하는 음성 프레임 코딩 방법.
제10항에 있어서, 상기 선택하는 단계는 상기 음성 프레임을 기초로 제1 코딩 모드를 선택하는 단계를 포함하는 것을 특징으로 하는 음성 프레임 코딩 방법.
제9항에 있어서, 상기 비교하는 단계는 상기 코딩 성능 측정값과 미리 정해진 임계값을 비교하는 단계를 포함하는 것을 특징으로 하는 음성 프레임 코딩 방법.
제9항에 있어서, 상기 비교하는 단계는 상기 코딩 성능 측정값과 평균 비트-레이트의 함수인 임계값을 비교하는 단계를 포함하는 것을 특징으로 하는 음성 프레임 코딩 방법.
음성 프레임을 적용하기 위해, 제1 비트-레이트를 갖는 제1 코딩 모드를 선택하기 위한 수단;

코딩 성능 측정값을 얻기 위한 수단;

상기 코딩 성능 측정값을 임계값과 비교하기 위한 수단; 및

상기 코딩 성능 측정값이 상기 임계값을 초과하지 않는 경우에는, 상기 제1 비트-레이트를 초과하는 제2 비트-레이트를 갖는 제2 코딩 모드를 위해 상기 제1 코딩 모드를 거절하기 위한 수단을 포함하는 것을 특징으로 하는 음성 코더.
제17항에 있어서, 상기 코딩 성능 측정값이 임계값을 초과할 때까지, 계속해서, 상기 성능 측정값을 얻고, 상기 성능 측정값을 상기 임계값과 비교하며, 더 많은 비트-레이트를 갖는 다른 코딩 모드들을 위해서 코딩 모드들을 거절하기 위한 수단을 더 포함하는 것을 특징으로 하는 음성 코더.
제17항에 있어서, 상기 얻기 위한 수단은 결과적인 합성 음성 프레임을 상기 음성 프레임과 비교하기 위한 수단을 포함하는 것을 특징으로 하는 음성 코더.
제17항에 있어서, 상기 제1 코딩 모드는 예측-기반 코딩 모드이고, 상기 제2 코딩 모드는 직접 코딩 모드인 것을 특징으로 하는 음성 코더.
제17항에 있어서, 상기 선택하기 위한 수단은 상기 음성 프레임의 파라미터를 기초로 제1 코딩 모드를 선택하기 위한 수단을 포함하는 것을 특징으로 하는 음성 코더.
제18항에 있어서, 상기 음성 프레임의 파라미터들을 기초로 제1 코딩 모드를 선택하기 위한 수단을 포함하는 것을 특징으로 하는 음성 코더.
제17항에 있어서, 상기 임계값은 미리 정해진 양인 것을 특징으로 하는 음성 코더.
제17항에 있어서, 상기 임계값은 평균 비트-레이트의 함수인 것을 특징으로 하는 음성 코더.