KR20070001276A

KR20070001276A - 신호 인코딩

Info

Publication number: KR20070001276A
Application number: KR1020067024315A
Authority: KR
Inventors: 자리 엠. 마키넨
Original assignee: 노키아 코포레이션
Priority date: 2004-04-21
Filing date: 2005-04-19
Publication date: 2007-01-03
Also published as: BRPI0510270A; EP1738355A1; KR20080103113A; EP1738355B1; TW200605518A; TWI275253B; JP2007534020A; ATE483230T1; US8244525B2; US20050240399A1; CA2562877A1; CN1969319B; CN1969319A; GB0408856D0; WO2005104095A1; HK1104369A1; RU2006139793A; AU2005236596A1; ES2349554T3; ZA200609627B

Abstract

통신 시스템의 인코더에서 프레임을 부호화하는 방법은, 프레임과 결부되고 필터 뱅크 파라미터들을 포함하는 제1파라미터 집합을 산출하는 단계; 제1스테이지에서, 제1파라미터 집합에 기반하여, 인코딩할 모드들 중 하나로서, 복수의 인코딩 방법들 중 하나를 선택하는 단계; 프레임과 결부된 제2파라미터 집합을 산출하는 단계; 제2스테이지에서, 제1스테이지의 선택 결과 및 제2파라미터 집합에 기초하여, 인코딩할 모드들 중 하나로서, 복수의 인코딩 방법들 중 하나를 선택하는 단계; 및 제2스테이지로부터 선택된 인코딩 여기 방법을 이용해 프레임을 부호화하는 단계를 포함한다.

Description

신호 인코딩{Signal encoding}

본 발명은 통신 시스템의 인코더에서 신호를 부호화하기 위한 방법에 대한 것이다.

오늘날 셀룰라 통신 시스템들은 일상적인 것이 되었다. 셀룰라 통신 시스템들은 보통 주어진 규격이나 사양에 따라 작동한다. 예를 들어, 그러한 규격이나 사양이 접속에 사용될 통신 프로토콜들 및/또는 파라미터들을 규정할 것이다. 상이한 규격들 및/또는 사양들의 예로서, GSM (Global System for Mobile communications), GSM/EDGE (Enhanced Data rates for GSM Evolution), AMPS (American Mobile Phone System), WCDMA (Wideband Code Division Multiple Access) 또는 3세대 (3G) UMTS (Universal Mobile Telecommunications System), IMT 2000 (International Mobile Telecommunications 2000) 등등을 들 수 있으나, 여기에 한정되는 것은 아니다.

셀룰라 통신 시스템 및 일반적 신호 처리 어플리케이션들에서, 신호는 주로 압축되어져 그 신호를 표현하는데 필요로 되는 정보량을 줄이게 된다. 예를 들어, 오디오 신호는 통상적으로 아날로그 신호로서 포획된 후, 아날로그-디지털 (A/D) 변환기에서 디지털화되고 그런 다음 부호화된다. 셀룰라 통신 시스템에서, 그 부 호화된 신호는 모바일 단말 같은 사용자 장치와 기지국 간 무선 전파공간(air) 인터페이스를 통해 전송될 수 있다. 이와 다른 선택사항으로서, 보다 일반적 신호 처리 시스템들에서처럼, 부호화된 오디오 신호가 나중에 사용되거나 오디오 신호의 재생을 위해 저장 매체 안에 저장될 수도 있다.

인코딩(부호화)은 신호를 압축하고, 그런 다음 셀룰라 통신 시스템에서처럼, 수용가능한 신호 품질 레벨을 유지한 채 최소의 데이터량으로 전파공간 인터페이스를 통해 전송될 수 있다. 이러한 것은, 무선 전파공간 인터페이스에 대한 무선 채널 용량이 셀룰라 통신 시스템에서 제한되어 있기 때문에 특히 중요하다.

이상적 인코딩 방법은, 가능한 한 적은 비트들로 오디오 신호를 부호화할 것이고, 그에 따라 채널 용량을 최적화 시키면서 가능한 한 오리지널 오디오와 근접하게 들리는 복호화 신호가 만들어질 수 있다. 실제로는 압축 방법의 비트 레이트오 복호 스피치(speech) 품질 사이에는 보통 이율 배반성 (trade-off)이 존재한다.

압축이나 인코딩은 손실이 있을 수도 있고, 손실이 없을 수도 있다. 손실이 생기는 압축에서는, 일부 정보를 압축 도중에 잃게 되며, 이때 그 압축된 신호로부터 원래의 신호를 완전히 복구하는 것은 불가능하다. 무손실 압축시에는 보통 아무 정보도 잃게 되지 않으며, 그렇게 압축된 신호에서 원래 신호를 완전하게 복구할 수 있다.

오디오 신호는 스피치, 음악 (또는 비(non)스피치) 또는 rm 둘 모두를 모함하는 신호라고 생각할 수 있다. 스피치 및 음악의 상이한 특성이 스피치와 음악 모두에 대해 잘 맞는 하나의 인코딩 방법을 고안하는 것을 어렵게 만든다. 흔히 스피치 신호들에 최적인 인코딩 방법은 음악이나 비스피치 신호들에는 최적으로 되지 않는다. 따라서, 이러한 문제를 해결하기 위해, 스피치와 음악을 인코딩하는데 상이한 인코딩 방법들이 개발되었다. 그러나, 적절한 인코딩 방법이 선택될 수 있기 전에 오디오 신호가 스피치나 음악으로 분류되어져야 한다.

오디오 신호를 스피치 신호나 음악/비스피치 신호로 분류하는 것은 어려운 작업이다. 요구되는 정확도의 분류는 신호를 이용하는 어플리케이션에 달려있다. 어떤 어플리케이션들에서는, 이 정확도가 음성 인식이나 저장 및 검색 목적을 위한 아카이빙(archiving)에서처럼 보다 민감한 문제가 된다.

그러나, 주로 스피치를 포함하는 오디오 신호의 일부에 대한 인코딩 방법이 주로 음악을 포함하는 일부에 대해서도 매우 효율적일 수 있다. 실제로, 강한 음조 성분들을 가진 음악에 대한 인코딩 방법이 스피치에 매우 적절할 수 있다. 따라서, 순전히 그 신호가 스피치로 이뤄져 있는지 음악으로 이뤄져 있는지 여부에 기반하는 오디오 신호의 분류 방법이 반드시 오디오 신호에 대한 최적의 압축 방식 선택을 낳는 것은 아니다.

적응적 멀티 레이트 (AMR) 코덱은 GSM/EDGE 및 WCDMA 통신 네트워크들을 위한 3 세대 협력 프로젝트 (3GPP)에 의해 개발된 인코딩 방법이다. 이 외에, AMR이 미래의 패킷 교환형 네트워크들에 사용될 수 있음이 고찰되어왔다. AMR은 대수적 코드 여기 선형 예측 (ACELP; Algebraic Code Excited Linear Prediction) 여기(exitation) 인코딩에 기반한다. AMR 및 적응적 멀티 레이트 광대역 (AMR-WB) 코덱들은 각자 8 및 9 개의 능동 비트들로 이뤄지고, 음성 활동 검출 (VAD) 및 불 연속적 전송 (DTX) 기능 또한 포함하고 있다. AMR 코덱에서의 샘플링 레이트는 8 kHz이다. AMR WB 코덱에서 샘플링 레이트는 16 kHz이다.

AMR 및 AMR-WB 코덱들에 대한 세부내용은 3GPP TS 26.090 및 3GPP TS 26.190 기술 사양서들에서 찾을 수 있다. AMR-WB 코덱 및 VAD의 또 다른 세부 사항들은 3GPP TS 26.194 기술 사양서에서 찾아 볼 수 있다.

확장형 AMR-WB (AMR-WB+) 코덱 같은 다른 인코딩 방법에서, 인코딩은 두 개의 상이한 여기 방법들인 ACELP 펄스 모양 여기 및 변환 코드식 (TCX) 여기에 기반한다. ACELP 여기는 이미 오리지널 AMR-WB 코덱에서 사용된 것과 동일하다. TCX 여기는 AMR-WB+에 고유한 변형이다.

ACELP 여기 인코딩은 신호가 소스에서 어떻게 생성되는지에 대한 모델을 이용해 작동하고, 신호로부터 모델의 파라미터들을 추출한다. 더 상세하게 말하면, ACELP 인코딩은 인간의 음성 시스템 모델에 기반하며, 여기서 목구멍과 입이 선형 필터로 모델링되고, 필터를 자극하는 공기의 주기적 진동에 의해 신호가 생성된다. 신호는 인코더에 의해 프레임 단위로 분석되고, 각 프레임 마다, 모델링된 신호를 나타내는 파라미터들의 집합이 인코더에 의해 생성되어 출력된다. 파라미터들의 집합은 여기 파라미터들 및, 다른 파라미터들과 마찬가지로 필터 계수들을 포함할 수 있다. 파라미터들의 집합은 알맞게 설정된 디코더에 의해 사용되어 입력 신호를 재생하게 된다.

AMR-WB+ 코덱에서, 선형 예측 코딩 (LPC)이 신호의 각 프레임에서 계산되어, 신호의 스펙트럼 엔벨로프(envelope, 포락)를 선형 필터로 모델링한다. 이제 LPC 여기라고 알려진 LPC의 결과가 ACELP 여기 또는 TCX 여기를 이용해 부호화된다.

보통, ACELP 여기는 장기간 예측기들과 고정 코드북 파라미터들을 활용하는 반면, TCX 여기는 고속 푸리에 변환들 (FFT들)을 이용한다. 또, AMR-WB+ 코덱에서 TCX 여기는 서로 다른 세 프레임 길이들 (20, 40 및 80ms) 중 하나를 이용해 수행된다.

TCX 여기는 비스피치 음성 인코딩에 널리 사용된다. 비스피치 신호들에 대한 인코딩에 기반하는 TCX 여기의 우수성은 인지(perceptual) 마스팅 및 주파수 도메인 코딩의 이용에 의거한다. TCX 기술들이 우수한 품질의 음악 신호들을 제공한다고 해도, 이 품질은 주기적 스피치 신호들에 대해서는 별로 좋은 것이 못된다. 반대로, ACELP 같이 사람의 스피치 생성 시스템에 기반하는 코덱들은 우수한 품질의 스피치 신호들을 제공하지만 열악한 품질의 음악 신호들을 발생한다.

따라서, 일반적으로, ACELP 여기는 주로 스피치 신호들을 부호화하는데 사용되며, TCX 여기는 음악 및 다른 비스피치 신호들을 부호화하는데 주로 사용된다. 그러나, 이것은 항상 그러는 것은 아닌데, 이는 때때로 스피치 신호가 음악 같은 부분을 포함하고 음악 신호가 스피치 같은 부분을 포함하기 때문이다. 음악과 스피치를 모두 포함하는 오디오 신호들 역시 존재하며, 이때에는 ACELP 여기 또는 TCX 여기 중 하나에만 유일하게 기초해 선택된 인코딩 방법이 최적이 될 수 없다.

AMR-WB+의 여기 선택은 여러 방식들을 통해 행해질 수 있다.

우선하는 가장 간단한 방법이 신호를 인코딩하기 전에 일단 신호 특성을 분석함으로써 그 신호를 스피치 또는 음악/비스피치로 분류하고 그 신호 타입에 대해 ACELP 및 TCX의 최선의 여기를 선택하는 것이다. 이것이 "사전 선택" 방법이라고 알려져 있다. 그러나, 그러한 방법은 음아과 스피치 모두에 대한 가변하는 특성들을 가진 신호에는 맞지 않기 때문에, 스피치에도 음악에도 최적이 아닌 부호화 신호를 발생시킨다.

보다 복잡한 방법이, ACELP 및 TCX 여기 둘 모두를 이용하는 오디오 신호를 부호화하고, 그런 다음 더 나은 품질을 가진 합성 오디오 신호에 기반해 여기를 선택하는 것이다. 신호 품질은 신호대 잡음 타입의 알고리즘을 이용해 측정될 수 있다. 모든 상이한 여기들이 산출되어 최상의 것이 선택될 때, "무차별 대입 (brute-force) 방법"이라고도 알려진 이러한 "분석-합성(analysis-by-synthesis)" 타입의 방법은 양호한 결과를 보이게 되지만, 복합적 계산을 수행한다는 계산상의 복잡도로 인해 실용적이지 않다.

본 발명의 실시예들의 목적은 상술한 문제점들의 일부를 적어도 부분적으로 경감시키는 신호 인코딩을 위한 여기 방법을 선택하는 향상된 방법을 제공하는 데 있다.

본 발명의 제1양태에 따르면 통신 시스템의 인코더에서 프레임을 부호화하는 방법이 제공되며, 상기 방법은, 상기 프레임과 결부되고 필터 뱅크 파라미터들을 포함하는 제1파라미터 집합을 산출하는 단계; 제1스테이지로서, 제1파라미터 집합과 결부된 소정 조건들에 기초하여 복수의 인코딩 방법들 중 하나를 선택하는 단계; 상기 프레임과 결부된 제2파라미터 집합을 산출하는 단계; 제2스테이지로서, 제1스테이지의 선택 결과 및 제2파라미터 집합에 기반한 복수의 인코딩 방법들 중 하나를 선택하는 단계; 및 제2스테이지에서 선택된 인코딩 방법을 이용해 상기 프레임을 인코딩하는 단계를 포함한다.

상기 복수의 인코딩 방법들은 제1여기(excitation) 방법 및 제2여기 방법을 포함함이 바람직하다.

제1파라미터 집합은 프레임과 결부된 하나 이상의 주파수 대역들의 에너지 레벨에 기초할 수 있다. 또한 상기 제1파라미터들의 상이한 소정 조건들에 대해, 어떤 인코딩 방법도 제1스테이지에서 선택되지 않을 수 있다.

제2파라미터 집합은 프레임과 결부된 스펙트럼 파라미터들, LTP 파라미터들 및 상관 파라미터들 중 적어도 하나를 포함할 수 있다.

제1여기 방법은 대수적 코드 여기식 선형 예측 여기 (algebraic code excited linear prediction excitation)이고, 제2여기 방법은 변환 코딩 여기임이 바람직하다.

프레임이 제2여기 방법을 이용해 부호화될 때, 그 부호화 방법은 제1스테이지 및 제2스테이지에서의 선택에 기반하는 제2여기 방법을 이용하여 부호화된 프레임의 길이를 선택하는 단계를 더 포함할 수 있다.

부호화된 프레임의 길이에 대한 선택은 프레임의 신호대 잡음비에 좌우될 수 있다.

인코더는 AMR-WB+ 인코더임이 바람직하다.

프레임은 오디오 프레임일 수 있다. 오디오 프레임은 스피치 혹은 비스피치를 포함함이 바람직하다. 비스피치는 음악을 포함할 수 있다.

본 발명의 다른 양태에 따르면, 통신 시스템에서 프레임을 부호화하는 인코더가 제공되며, 상기 인코더는, 상기 프레임과 결부되고 필터 뱅크 파라미터들을 포함하는 제1파라미터 집합을 산출하도록 된 제1계산 모듈; 제1파라미터 집합에 기반한 복수의 인코딩 방법들 중 하나를 선택하도록 된 제1스테이지 선택 모듈; 상기 프레임과 결부된 제2파라미터 집합을 산출하도록 된 제2산출 모듈; 제1스테이지의 선택 결과 및 제2파라미터 집합에 기반한 복수의 인코딩 방법들 중 하나를 선택하도록 된 제2스테이지 선택 모듈; 및 제2스테이지에서 선택된 인코딩 방법을 이용해 상기 프레임을 인코딩하도록 된 인코딩 모듈을 포함한다.

본 발명의 또 다른 양태에 따라, 통신 시스템의 인코더에서 프레임을 부호화하는 방법이 제공되며, 상기 방법은, 상기 프레임과 결부되고 필터 뱅크 파라미터들을 포함하는 제1파라미터 집합을 산출하는 단계; 제1스테이지로서, 제1파라미터 집합에 기반하여 제1여기 방법이나 제2여기 방법 중 하나를 선택하는 단계; 선택된 여기 방법을 이용해 프레임을 부호화하는 단계를 포함한다.

본 발명을 보다 잘 이해하기 위해, 단지 예로서, 첨부된 도면들을 참조할 것이다.

도 1은 본 발명의 실시예들이 적용될 수 있는 통신 네트워크를 도시한다;

도 2는 본 발명의 실시예의 블록도를 도시한다;

도 3은 본 발명의 실시예 내 VAD 필터 뱅크 구조이다.

이제부터 본 발명은 특정한 예들을 참조해 설명될 것이다. 그러나, 본 발명이 그러한 예들에 국한되는 것은 아니다.

도 1은 본 발명의 일 실시예에 따라 AMR-WB+ 코덱을 이용하는 신호 처리를 지원하는 통신 시스템(100)을 도시한다.

이 시스템(100)은 아날로그/디지털(A/D) 변환기(104), 인코더(106), 송신기(108), 수신기(110), 디코더(112) 및 디지털/아날로그(D/A) 변환기(114)를 포함하는 다양한 구성요소들을 포함한다. A/D 변환기(104), 인코더(106) 및 송신기(108)는 모바일 단말의 일부를 형성할 수 있다. 수신기(110), 디코더(112) 및 D/A 변환기(114)는 기지국의 한 부분을 이룰 수 있다.

시스템(100)은 도 1에는 도시되지 않은 마이크로 폰 같은 한 개 이상의 오디오 소스 또한 포함하여, 스피치 및/또는 비스피치 신호들을 포함한 오디오 신호(102)를 생성한다. 아날로그 신호(102)는 A/D 변환기(104)에서 수신되어, 디지털 신호(105)로 변환된다. 오디오 소스가 아날로그 신호가 아닌 디지털 신호를 생성하면 A/D 변환기(104)는 생략될 수 있다는 것을 알아야 한다.

디지털 신호(105)는 인코더(106)로 입력되어, 인코더(106)에서 한 선택된 인코딩 방법을 이용해 디지털 신호(105)가 프레임 단위로 부호화 및 압축되는 인코딩이 수행되어 부호화된 프레임들(107)을 생성한다. 인코더는 AMR-WB+ 코덱이나 다른 적절한 코덱을 사용해 동작할 수 있으며 이하에서 보다 상세히 설명될 것이다.

부호화된 프레임은 나중에 처리될 수 있도록 디지털 보이스 리코더 같은 적 절한 저장 매체 안에 저장될 수 있다. 이와 다른 대안으로서, 도 1에 도시된 바와 가팅, 부호화된 프레임들이 송신기(108)로 입력되어, 송신기가 이들을 송신하게 된다.

부호화된 프레임들(109)은 수신기(110)에 의해 수신되고, 수신기(110)는 이들을 처리하고 그 부호화된 프레임들(111)을 디코더(112)로 입력한다. 디코더(112)는 부호화된 프레임들(111)을 복호화 및 압축해제한다. 디코더(112)는 또한 수신된 각 부호화 프레임(11)에 대해 인코더에서 사용되는 특정 부호화 방법을 정하기 위한 결정 수단 또한 포함한다. 디코더(112)는 그 결정에 기초하여 부호화 프레임(111)을 복호화하는 디코딩 방법을 선택한다.

복호화(된) 프레임들은 디코더(112)를 통해 복호화 신호(113)의 형태로서 출력되고, 디지털 신호인 이 복호화 신호(113)를 아날로그 신호(116)로 변환하는 D/A 변환기(114)로 입력된다. 이제 아날로그 신호(116)가 그에 따라, 확성기를 통한 오디오로의 전환과 같이 처리될 수 있다.

도 2는 본 발명의 바람직한 실시예에서 도 1의 인코더(106)에 대한 블록도를 예시한다. 인코더(106)는 AMR-WB+ 코덱에 따라 동작하고, 신호 부호화를 위해 AMR-WB+ 여기 또는 TCX 여기중 하나를 선택한다. 이러한 선택은 인코더 모듈들에서 생성된 파라미터들을 분석함으로써 입력 t니호에 대한 최선의 코딩 모델을 정하는 것에 기반하고 있다.

인코더(106)는 음성 활동 검출 (VAD) 모듈(202), 선형 예측 코딩 (LPC) 분석 모듈(206), 장기 예측 (LTP) 분석 모듈(208) 및 여기 생성 모듈(212)을 포함한다. 여기 생성 모듈(212)은 ACELP 여기나 TCX 여기중 하나를 이용해 신호를 부호화한다.

인코더(16)는 제1스테이지 선택 모듈(204), 제2스테이지 선택 모듈(210) 및 제3스테이지 선택 모듈(214)에 연결되는 여기 선택 모듈(216)을 또한 포함한다. 여기 선택 모듈(216)은 신호를 부호화하기 위해 여기 생성 모듈(212)에 의해 사용되는 여기 방법, ACELP 여기 또는 TCX 여기를 결정한다.

제1스테이지 선택 모듈(204)은 VAD 모듈(202)과 LPC 분석 모듈(206) 사이에 연결된다. 제2스테이지 선택 모듈(210)은 LTP 분석 모듈(208) 및 여기 생성 모듈(212) 사이에 연결된다. 제3스테이지 선택 모듈(214)은 여기 생성 모듈(212) 및 인코더(106) 출력과 연결된다.

인코더(106)는 VAD 모듈에서 입력 신호(105)를 수신하고, VAD 모듈은 입력 신호(105)가 능동 오디오인지 묵음기(silent period)들인지 여부를 판단한다. 신호는 LPC 분석 모듈(206)로 전송되고 프레임 단위로 처리된다.

VAD 모듈은 또한 여기 선택에 사용될 수 있는 필터 대역 값들도 계산한다. 묵음기 동안, 여기 선택 상태는 묵음기 지속기간(duration) 중에는 갱신되지 않는다.

여기 선택 모듈(216)은 제1스테이지 선택 모듈(204)에서 제1여기 방법을 결정한다. 제1여기 방법은 ACELP 여기나 TCX 여기 중 하나이고, 여기 생성 모듈(212)에서 신호를 부호화하는데 사용된다. 여기 방법이 제1스테이지 선택 모듈(204)에서 정해질 수 없으면, 그것은 미정인 상태로 남는다.

여기 선택 모듈(216)에 의해 정해진 이러한 제1여기 방법은 VAD 모듈(202)로부터 수신된 파라미터들에 기반한다. 특히, 입력 신호(105)는 VAD 모듈(202)에 의해 여러 주파수 대역들로 나눠지고, 이때 각 주파수 대역의 신호는 관련 에너지 레벨을 가진다. 주파수 대역들과 그 관련 에너지 레벨들은 제1스테이지 선택 모듈(204)에 의해 수신되고 여기 선택 모듈(216)로 보내져서, 제1여기 선택 방법을 이용해 신호를 일반적으로 스피치 형이나 음악 형으로 구분하기 위해 분석된다.

제1여기 선택 방법은 신호의 하위 주파수 및 상위 주파수 대역들 간 관계와 함께 이들 대역들에서의 에너지 레벨 변동을 분석하는 단계를 포함할 수 있다. 다양한 분석 윈도들 및 결정 문턱치들 역시, 여기 선택 모듈(216)에 의해 분석시 사용될 수 있다. 신호와 결부된 다른 파라미터들 역시 분석시 사용될 수 있다.

상이한 주파수 대역들을 생성하는 VAD 모듈(202)에 의해 활용되는 필터 뱅크(300)의 예가 도 3에 도시된다. 각 주파수 대역과 결부된 에너지 레벨들은 통계적 분석을 통해 생성된다. 필터 뱅크 구조(300)는 3차 필터 블록들(306, 312, 314, 316, 318 및 320)을 포함한다. 필터 뱅크(300)은 5차 필터 블록들(302, 304, 308, 310, 및 313) 또한 포함한다. 필터 블록의 "차(order)"는 각 출력 샘플을 생성하는데 사용되는, 샘플들의 개수와 관련한, 최대 지연이 된다. 예를 들어, y(n)=a*x(n) + b*x(n-1) + c*x(n-2) +d*x(n-3)은 3차 필터의 예를 나타낸다.

신호(301)가 필터 뱅크로 입력되고 일련의 3차 및/또는 5차 필터 블록들에서 처리되어, 필터링된 신호 대역들 4.8 내지 6.4 kHz(322), 4.0 내지 4.8 kHz(324), 3.2 내지 4.0 kHz(326), 2.4 내지 3.2 kHz(328), 2.0 내지 2.4 kHz(330), 1.6 내지 2.0 kHz(332), 1.2 내지 1.6 kHz(334), 0.8 내지 1.2 kHz(336), 0.6 내지 0.8 kHz(338), 0.4 내지 0.6 kHz(340), 0.2 내지 0.4 kHz(342), 0.0 내지 0.2 kHz(344)를 만들어낸다.

필터링된 신호 대역 4.8 내지 6.4 kHz(322)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(304)을 통과시킴으로써 생성된다. 필터링된 신호 대역 4.0 내지 4.8 kHz(324)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(304) 및 3차 필터 블록(306)을 통과시킴으로써 생성된다. 필터링된 신호 대역 3.2 내지 4.0 kHz(326)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(304) 및 3차 필터 블록(306)을 통과시킴으로써 생성된다. 필터링된 신호 대역 2.4 내지 3.2 kHz(328)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308) 및 5차 필터 블록(310)을 통과시킴으로써 생성된다. 필터링된 신호 대역 2.0 내지 2.4 kHz(330)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(310) 및 3차 필터 블록(312)을 통과시킴으로써 생성된다. 필터링된 신호 대역 1.6 내지 2.0 kHz(332)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(310) 및 3차 필터 블록(312)을 통과시킴으로써 생성된다. 필터링된 신호 대역 1.2 내지 1.6 kHz(334)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(313) 및 3차 필터 블록(314)을 통과시킴으로써 생성된다. 필터링된 신호 대역 0.8 내지 1.2 kHz(336)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(313) 및 3차 필터 블록(314)을 통과시킴으로써 생성된 다. 필터링된 신호 대역 0.6 내지 0.8 kHz(338)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(313), 3차 필터 블록(316) 및 3차 필터 블록(318)을 통과시킴으로써 생성된다. 필터링된 신호 대역 0.4 내지 0.6 kHz(340)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(313), 3차 필터 블록(316) 및 3차 필터 블록(318)을 통과시킴으로써 생성된다. 필터링된 신호 대역 0.2 내지 0.4 kHz(342)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(313), 3차 필터 블록(316) 및 3차 필터 블록(320)을 통과시킴으로써 생성된다. 필터링된 신호 대역 0.0 내지 0.2 kHz(344)는 신호를 5차 필터 블록(302) 및 그를 뒤따르는 5차 필터 블록(308), 5차 필터 블록(313), 3차 필터 블록(316) 및 3차 필터 블록(320)을 통과시킴으로써 생성된다.

여기 선택 모듈(216)에 의한 파라미터들 및, 특히 그 결과에 따른 신호 분류가 여기 생성 모듈(212)에서 신호를 부호화하도록 ACELP나 TCX 중하나인 제1여기 방법을 선택하는데 사용된다. 그러나, 가령, 신호가 스피치와 음악의 특성들을 포함할 때, 분석된 신호가 명확하게 스피치 형이거나 음악 형으로서의 신호 구분 결과를 낳지 못하면, 어떤 여기 방법도 선택되지 않거나 불확실(uncertain)한 것으로서 선택되고, 선택 결정이 그 후의 방법 선택 스테이지 때까지 방치된다. 이를테면, LPC 및 LTP 분석 이후 제2스테이지 선택 모듈(210)에서 특정 선택이 이뤄질 수 있다.

다음은 여기 방법을 선택하는데 사용되는 제1여기 선택 방법의 예다.

AMR-WB 코덱은 여기 방법을 결정할 때 AMR-WB VAD 필터 뱅크들을 활용하는데, 이때 각 20 ms 입력 프레임마다, 주파수 범위 0부터 6400 Hz에 걸친 12 개의 서브 대역들 각각의 신호 에너지 E(n)이 정해진다. 각 서브 대역들의 에너지 레벨들은, 각 서브 대역으로부터의 그 에너지 레벨 E(n)을 서브 대역 (Hz 단위)의 폭으로 나눔으로써 정규화되어, 각 대역에 대해 정규화된 EN(n) 에너지 레벨들을 생성한다.

제1스테이지 여기 선택 모듈(204)에서, 짧은 윈도 stdshort(n)과 긴 윈도 sddlong(n)의 두 윈도들을 사용해 12 서브 대역들 각각에 대한 에너지 레벨들의 표준 편차가 산출될 수 있다. AMR-WB+의 경우, 짧은 윈도의 길이는 4 프레임 길이이고, 긴 윈도의 길이는 16 프레임 길이이다. 이 알고리즘을 이용해, 현재의 프레임으로부터 12 개의 에너지 레벨들이, 이전 3 내지 15 프레임들 (4 및 16 프레임 윈도들을 파생시키는)로부터의 12 에너지 레벨들과 함께 두 표준 편차 값들을 도출하는데 사용된다. 이러한 계산의 한 특징이, VAD 모듈(202)이 입력 신호(105)가 능동 오디오를 포함하고 있다고 판단할 때에만 수행된다는데 있다. 이것은 통계적 파라미터들이 왜곡될 때, 스피치/음악 일시정지의 지연기간 뒤에 알고리즘이 보다 정확하게 반응할 수 있게 한다.

이때, 각 프레임에 대해, 12 서브 대역들 모두에 걸친 평균 표준 편차가 길고 짧은 윈도들 모두에 대해 계산되고, stdalong 및 stdashort인 그 평균 표준 편차 값들 역시 계산된다.

오디오 신호의 각 프레임에 대해, 하위 주파수 대역들 및 상위 주파수 대역 들 사이의 관계가 산출될 수 있다. AMR-WB+에서, 2부터 8까지 하위 주파수 서브 대역들의 에너지 레벨들의 합을 취하고, 그 합을 이들 서브 대역들 (Hz 단위)의 총 길이 (대역폭)로 나누어 정규화함으로써, LevL이 산출된다. 9부터 12까지의 상위 주파수 서브 대역들에 대해, 이들 서브 대역들의 에너지 레벨들의 합이 구해져서 정규화되어 LevH를 생성한다. 이 예에서, 최하위 서브 대역 1은 계산에 이용되지 않는데, 그 이유는 이것이 보통 어울리지 않게 큰 양의 에너지를 포함하여 계산을 왜곡시키고 다른 서브 대역들로부터의 계산치를 너무 작게 만들 수 있기 때문이다. 이러한 조치로부터, LPH 관계가 다음과 같이 정해진다:

LPH = LevL / LevH

또, 각 프레임 마다, 현재와 이전 3 개의 LPH 값들을 이용해 이동 평균 LPHa가 산출된다. 현재의 프레임에 대한 상위 및 하위 주파수 관계 LPHaF 역시, 현재와 이전 7 개의 이동 평균 LPHa 값들의 가중된 합에 기반해 구해지며, 이때 보다 최근의 값들에 보다 큰 가중치가 부여된다.

현재의 프레임에 대한 필터 블록들의 평균 에너지 레벨 AVL이, 각각의 필터 블록 출력에서 배경 잡음의 추정 에너지 레벨을 감산한 후, 감산된 에너지 레벨들 각각을 해당 필터 블록의 최고 주파수로 곱한 결과를 합산해 구해진다. 이것은 상대적으로 적은 에너지를 포함하는 고 주파수 서브 대역들을, 하위 주파수의 고 에너지 서브 대역들에 대해 균형을 맞춰 준다.

현재 프레임의 총 에너지 TotE0가, 모든 필터 블록들로부터 결합된 에너지 레벨들을 취하여 각 필터 뱅크의 배경 잡음 추정치를 감산함으로써 계산된다.

상기 계산을 수행한 후, ACELP 및 TCX 여기 방법들 사이의 선택이, 다음과 같은 방법을 이용해 이뤄질 수 있으며, 이때 소정 플래그가 세팅되어 있을 때, 다른 플래그들은 설정사항들(settings)의 충돌을 예방하기 위해 클리어(clear)된다고 가정한다.

먼저, 긴 윈도의 평균 표준 편차값 stdalong이, 가령 0.4인 제1문턱치 TH1과 비교된다. 이 표준 편차값 stdalong이 제1문턱치 TH1 보다 작으면, TCX 모드 플래그가 세팅되어 인코딩에 대한 TCX 여기 선택을 가리킨다. 그렇지 않으면, 고저 주파수 관계 산출치 LPHaF가 가령 280인 제2문턱치 TH2와 비교된다.

고저 주파수 관계 산출치 LPHaF가 제2문턱치 TH2 보다 크면, TCX 모드 플래그가 세팅된다. 그렇지 않으면, 표준편차 값 stdalong 마이너스 제1문턱치 TH1의 역수가 계산되고, 가령 5인 제1상수 C1이 상기 감산된 역수와 합해진다. 이 합은 다음과 같이 고저 주파수 관계의 측정치 LPHaF와 비교된다:

C1 + (1/(stdalong-TH1)) > LPHaF (1)

(1)의 비교 결과가 참이면, TCX MODE 플래그가 세팅되어 인코딩에 대한 TCX 여기의 선택을 가리킨다. 이 비교 결과가 참이 아니면, 표준 편차 값 stdalong은 제1피승수 M1 (가령, -90)로 곱해지고, 제2상수 C2 (가령 120)가 그 곱셈 결과에 더해진다. 그 합은 다음과 같이 고저 주파수 관계 산출치 LPHaF와 비교된다:

(M1 * stdalong) + C2 < LPHaF (2)

상기 합이 고저 주파수 관계 산출치 LPHaF 보다 작으면, 즉, (2)의 비교 결과가 참이면, ACELP MODE 플래그가 세팅되어 인코딩에 대해 ACELP 여기가 선택되었 음을 나타낸다. 그렇지 않으면, UNCERTAIN(불확실) MODE 플래그가 세팅되어, 현재의 프레임에 대한 여기 방법이 아직 정해지지 않았음을 나타낸다.

이제, 현재의 프레임에 대한 여기 방법의 선택이 승인되기 전에 추가 검증이 수행될 수 있다.

추가 검증은 먼저, ACELP MODE 플래그가 세팅되었는지 UNCERTAIN MODE 플래그가 세팅되었는지의 여부를 판단한다. 그 중 하나가 세팅되었고 현재의 프레임에 대한 필터 뱅크들에 대해 산출된 평균 레벨 AVL이 제3문턱치 TH3 (가령, 2000) 보다 크면, TCX MODE 플래그가 대신 선택되고, ACELP MODE 플래그 및 UNCERTAIN MODE 플래그는 클리어 된다.

다음으로, 만일 UNCERTAIN MODE 플래그가 계속 세팅되어 있으면, 짧은 윈도의 평균 표준 편차값 stdashort에 대한, 긴 윈도의 평균 표준 편차값 stdalong에 대해 위에서 설명한 것과 유사한 계산이 행해지나, 비교시 상수들과 문턱치들로서 약간 다른 값들을 사용한다.

짧은 윈도에 대한 평균 표준 편차값 stdashort가 제4문턱치 TH4 (가령, 0.2) 보다 적으면, TCX MODE 플래그가 세팅되어 인코딩에 TCX 여기가 선택되었음을 나타낸다. 그렇지 않은 경우, 짧은 윈도의 표준 편차값 stdashort 마이너스 제4문턱치 TH4의 역수가 계산되고, 이 감산의 역수에 제3상수 C3 (가령, 2.5)가 합산된다. 그 합은 다음과 같이 고저 주파수 관계 산출치 LPHaF와 비교된다:

C3 + (1/(stdashort-TH4)) > LPHaF (3)

(3)의 비교 결과가 참이면, TCX MODE 플래그가 세팅되어 인코딩에 TCX 여기 가 선택되었음을 나타낸다. 이 비교 결과가 참이 아니면, 표준 편차 값 stdashort은 제2피승수 M2 (가령, -90)로 곱해지고, 제4상수 C4 (가령 140)가 그 곱셈 결과에 더해진다. 그 합은 다음과 같이 고저 주파수 관계 산출치 LPHaF와 비교된다:

M2 * stdashort + C4 < LPHaF (4)

상기 합이 고저 주파수 관계 산출치 LPHaF 보다 작으면, 즉, (4)의 비교 결과가 참이면, ACELP MODE 플래그가 세팅되어 인코딩에 대해 ACELP 여기가 선택되었음을 나타낸다. 그렇지 않으면, UNCERTAIN(불확실) MODE 플래그가 세팅되어, 현재의 프레임에 대한 여기 방법이 아직 정해지지 않았음을 나타낸다.

다음 스테이지에서, 현재 프레임과 이전 프레임의 에너지 레벨들이 검토된다. 현재 프레임의 총 에너지 TotE0와 이전 프레임의 총 에너지 TotE-1 사이의 에너지가 제5문턱치 TH5 (가령 25)보다 크면, ACELP MODE 플래그가 세팅되고 TCX MODE 플래그 및 UNCERTAIN MODE 플래그는 클리어 된다.

마지막으로, 만일 TCX MODE 플래그나 UNCERTAIN MODE 플래그가 세팅되었고 현재 프레임에 대한 필터 뱅크들(300)에 대해 계산된 평균 레벨 AVL이 제3문턱치 TH3 보다 크고 현재 프레임의 총 에너지 TotE)가 제6문턱치 TH6 (가령 60) 보다 적으면, ACELP MODE 플래그가 세팅된다.

상술한 제1여기 선택 방법이 수행될 때, TCX MODE 플래그가 세팅되면 제1여기 블록(204)에서 TCX의 제1여기 방법이 선택되고, ACELP MODE 플래그가 세팅되면 제1여기 블록(204)에서 ACELP의 제2여기 모드가 선택된다. 그러나, 만일 UNCERTAIN MODE 플래그가 세팅되어 있는 경우, 제1여기 선택 방법은 여기 방법을 결정하지 않은 것이다. 이 경우, ACELP나 TCX 여기 중 어느 것이 사용될지를 결정하기 위해 추가 분석이 수행될 수 있는 제2 스테이지 선택 모듈(210) 같은 다른 여기 선택 블록(들)에서 ACELP 또는 TCX 여기가 선택된다.

상술한 제1여기 선택 방법은 다음과 같은 의사 코드에 의해 예시될 수 있다:

제1스테이지 선택 모듈(204)이 상기 방법을 완료하여 신호를 인코딩할 제1여 기 방법을 선택한 뒤, 그 신호는 VAD 모듈(202)로부터 신호를 프레임 단위로 처리하는 LPC 분석 모듈(206)로 보내진다.

상세히 설명하자면, LPC 분석 모듈(206)은 프레임의 잔여 오차를 최소화시켜 프레임에 대응하는 LPC 필터를 결정한다. 일단 LPC 필터가 결정되었으면, 그것은 필터의 LPC 필터 계수들의 집합을 통해 표현될 수 있다. LPC 분석 모듈(206)에 의해 처리된 프레임은, LPC 필터 계수들처럼 LPC 분석 모듈에 의해 결정된 임의의 파라미터들과 함께 LTP 분석 모듈(208)로 보내진다.

LTP 분석 모듈(208)은 수신된 프레임 및 파라미터들을 처리한다. 특히, LTP 분석 모듈은 LTP 파라미터를 산출하는데, 이 파라미터는 프레임의 기본 주파수와 밀접하게 관련되는 것으로, 흔히, 스피치 샘플들의 맥락에서 스피치 신호의 주기성(periodicity)을 나타내는 "pitch-lag (피치 래그)" 파라미터 또는 "pitch delay (피치 지연)" 파라미터라고 불린다. LTP 분석 모듈(208)에 의해 계산된 또 다른 파라미터가 LTP 이득이며, 이것은 스피치 신호의 기본적 주기성과 밀접한 관련이 있다.

LTP 분석 모듈(208)에 의해 처리된 프레임은 계산된 파라미터들과 함께 여기 생성 모듈(212)로 전송되고, 여기서 프레임이 ACELP 또는 TCX 여기 방법들 중 하나를 사용해 부호화된다. ACELP 또는 TCX 여기 방법들 중 하나를 선택하는 것은 제2스테이지 선택 모듈(210)과 연계하여 여기 선택 모듈(216)에 의해 수행된다.

제2스테이지 선택 모듈(210)은, LTP 분석 모듈(208)에 의해 처리된 프레임과 함께 LPC 분석 모듈(206) 및 LTP 분석 모듈(208)에 의해 산출된 파라미터들을 수신 한다. 이 파라미터들은 여기 선택 모듈(216)에 의해 분석되어, 현 프레임에 대해 사용될 ACELP 여기 및 TCX 여기로부터 LPC 및 LTP 파라미터들 및 정규화된 상관에 기반하는 최적의 여기 방법이 결정되게 한다. 특히, 여기 선택 모듈(216)은 LPC 분석 모둘(206)과 특히 LTP 분석 모듈(208)로부터의 파라미터들 및 상관 파라미터들을 분석하여 ACELP 여기 및 TCX 여기로부터 최적의 여기 방법을 선택한다. 제2스테이지 선택 모듈은 제1스테이지 선택 모듈에 의해 결정된 제1여기 방법을 검증하며, 제1여기 방법이 제1여기 선택 방법에 의해 불확실한 것으로 정해졌으면 여기 선택 모듈(210)이 이 스테이지에서 최적의 여기 방법을 선택한다. 결과적으로, 프레임 인코딩을 위한 여기 방법의 선택은 LTP 분석이 수행될 때까지 미뤄진다.

정규화된 상관이 제2스테이지 선택 모듈에서 이용될 수 있으며, 다음과 같이 계산될 수 있다:

여기서 프레임 길이가 N이고, T0는 길이 N을 가진 프레임의 개방 루프 래그(lag, 지연)이며, X_i는 부호화된 프레임의 i 번째 샘플이고, X_i-T0는 샘플 x_i로부터 T0 샘플들이 제거되어 있는 부호화된 프레임으로부터의 샘플이다.

제2스테이지 여기 선택시에도 역시 약간의 예외들이 존재하며, 여기서 ACELP 또는 TCX에 대한 제1스테이지 여기 선택이 변경되거나 재선택될 수 있다.

현재와 이전 프레임들의 최소 및 최대 지연(lag) 값들 사이의 차가 소정 문 턱치 TH2 이하인 안정적 신호에 있어서, 그 지연은 현재와 이전 프레임들간 크게 달라지지 않을 것이다. AMR-WB+에서, LTP 이득의 범위는 보통 0과 1.2 사이이다. 정규화된 상관의 범위는 보통 0과 1.0 사이이다. 예로서, 높은 LTP 이득을 가리키는 문턱치는 0.8 이상일 수 있다. LTP 이득의 높은 상관 (또는 유사성) 및 정규화된 상관이 이들의 차를 검토함으로써 관찰될 수 있다. 그 차가 가령 현재 및/또는 지난 프레임들에서 0.1인 제3문턱치 이하이면, LTP 이득 및 정규화된 상관은 높은 상관이 있다고 간주된다.

특성상 신호가 과도적이면(transient), 본 발명의 실시예에 있어 가령 ACELP에 의한 제1여기 방법을 이용해 그 신호가 부호화될 수 있다. 과도적 시퀀스들은 인접 프레임들의 스펙트럼 거리 SD를 사용해 검출될 수 있다. 예를 들어, 현재와 이전 프레임들의 이미턴스(immittance) 스펙트럼 쌍 (ISP) 계수들로부터 산출된 프레임 n의 스펙트럼 거리 SD_n가 소정 제1문턱치를 초과하면, 그 신호는 과도적이라고 분류된다. ISP 계수들은 ISP 표현으로 전환되어 있던 LPC 필터 계수들로부터 도출된다.

잡음형 (noise like) 시퀀스들은 가령 TCX 여기에 의한 제2여기 방법을 이용해 부호화될 수 있다. 이 시퀀스들은 LTP 파라미터들과 주파수 도메인의 프레임에 걸친 평균 주파수를 검사하여 검출될 수 있다. LTP 파라미터들이 매우 불안정적이고/거나 평균 주파수가 소정 문턱치를 초과하면, 프레임이 잡음형 신호를 포함한다고 판단된다.

제2여기 선택 방법에 사용될 수 있는 알고리즘의 예가 다음과 같이 기술된다.

능동 오디오 신호를 나타내는 VAD 플래그가 세팅되어 있고 제1스테이지 선택 모듈에서 제1여기 방법이 불확실한 것으로 정해졌으면 (TCX_OR_ACELP 등과 같이), 제2여기 방법이 아래와 같이 선택될 수 있다:

프레임 n의 스펙트럼 거리 SD_n이 다음과 같이 ISP 파라미터들로부터 산출된다:

위에서 ISP_n은 프레임 n의 ISP 계수들의 벡터이고, ISP_n(i)는 그것의 i번째 성분이다.

LagDif_buf는 이전의 10 개의 프레임들 (20ms)의 개방 루프 지연 값들을 포함하는 버퍼이다.

Lag_n은 현재의 프레임 n의 두 개방 루프 지연 값들을 포함한다.

Gain_n은 현재의 프레임 n의 두 LTP 이득 값들을 포함한다.

NormCorr_n은 현재의 프레임 n의 두 개의 정규화된 상관 값들을 포함한다.

MaxEnergy_buf는 에너지 값들을 포함하는 버퍼의 최대값이다. 에너지 버퍼가 현재와 이전 프레임들 (20ms)에 대한 마지막 여섯 개의 값들을 포함한다.

lph_n은 스펙트럼의 기울기(tilt)를 나타낸다.

NoMtcx는 TCX 여기가 선택된 경우 긴 프레임 길이 (80ms)를 가진 TCX 코딩을 피하고자 함을 가리키는 플래그이다.

능동 오디오 신호를 표시하는 VAD 플래그가 세팅되어 있고, 제1여기 방법이 제1스테이지 선택 모듈에서 ACELP라고 결정된 경우, 제1여기 방법 결정은 다음과 같이 그 방법이 TCX로 전환될 수 있는 알고리즘에 따라 검증된다.

현재의 프레임에 있어 VAD 플래그가 세팅되어 있고 이전 수퍼 프레임 (수퍼프레임은 80ms 길이를 가진 것으로 각각 20ms 길이의 4 프레임들을 포함함) 내 프레임들 중 적어도 하나에 있어서 0으로 세팅되어 있었고 모드가 TCX 모드로 선택되었으면, 80ms 프레임들을 생성하는 TCX 여기의 사용, TCX80은 불능(disabled)으로 된다 (플래그 NoMtcx가 세팅됨).

VAD 플래그가 세팅되고 제1여기 선택 방법이 불확실한 것 (TCX_OR_ACELP) 또는 TCX로 정해졌으면, 제1여기 선택 방법은 다음과 같은 알고리즘에 따라 검증된다.

vadFlag_old는 이전 프레임의 VAD 플래그이고, vadFlag는 현재 프레임의 VAD 플래그이다.

NoMtcx는 만일 TCX 여기 방법이 선택된 경우 긴 프레임 길이 (80ms)로의 TCX 여기를 피하고자 함을 나타내는 플래그이다.

Mag는 현재 프레임의 LP lfxj 계수들 Ap로부터 생성된 이산 푸리에 변환 (DFT) 스펙트럼 엔벨로프(envelope)이다.

DFTSum은 벡터 mag의 최초 성분 (mag(0))을 뺀, 벡터 mag의 최초 40개 성분들의 합이다.

이제 제2스테이지 선택 모듈(210) 이후의 프레임이 여기 생성 모듈(212)로 보내지며, 여기 생성 모듈은 LTP 분석 모듈(208)로부터 수신된 프레임을 이전 모듈들로부터 수신된 파라미터들과 함께, 제2 또는 제1스테이지 선택 모듈들(210 또는 204)에서 선택된 여기 방법들 중 하나를 이용해 부호화한다. 부호화는 여기 선택 모듈(216)에 의해 제어된다.

여기 생성 모듈(212)에 의해 출력된 프레임은 LPC 분석 모듈(206), LTP 분석 모듈(208) 및 여기 생성 모듈(212)에 의해 정해진 파라미터들에 의해 재현된 부호화(된) 프레임이다. 부호화 프레임은 제3스테이지 선택 모듈(214)을 거쳐 출력된다.

ACELP 여기가 프레임을 부호화하는데 사용되었으면, 부호화 프레임은 제3스테이지 선택 모듈(214)을 그냥 통과하고 부호화 프레임(107)으로 바로 출력된다. 그러나, TCX 여기가 프레임 부호화에 사용되었으면, 80ms의 길이로 되어 4x20ms 프레임들을 포함하고 있는 수퍼프레임 안에서 이전에 선택된 ACELP 프레임들의 개수에 따라 부호화 프레임의 길이가 선택되어야 한다. 즉, 부호화 TCX 프레임의 길이는 이전 프레임들 가운데 ACELP 프레임들의 개수에 좌우된다.

TCX 부호화 프레임의 최대 길이는 80ms로서, 단일한 80ms TCX 부호화 프레임 (TCX80)이나, 2 x 40ms TCX 부호화 프레임들 (TCX40)이나 4 x 20ms TCX 부호화 프레임들 (TCX20)로 이뤄져 있을 수 있다. 80ms TCX 프레임을 어떻게 부호화할지에 대한 결정은 여기 선택 모듈(216)에 의해 제3스테이지 선택 모듈(214)을 이용하여 행해지고, 수퍼프레임 안에서 선택된 ACELP 프레임들의 수에 좌우된다.

예를 들어, 제3스테이지 선택 모듈(214)은 여기 생성 모듈(212)로부터 부호화 프레임들의 신호대 잡음비를 산출하고 그에 따라 2 x 40ms 부호화 프레임들이나 단일한 80ms 부호화 프레임을 선택할 수 있다.

제3여기 선택 스테이지는, 제1 및 제2역 선택 스테이지들에서 선택된 ACELP 방법들의 수가 80ms 수퍼 프레임 안에서 셋 미만일 때만 (ACELP<3) 수행된다. 이하의 테이블 1은 제3선택 스테이지 전후의 가능한 방법의 조합들을 보이고 있다. 제3여기 선택 스테이지에서, 가령 SNR에 따라 TCX 방법의 프레임 길이가 선택된다.

따라서 기술된 실시예들은, 높은 장기(long-term) 상관을 갖는 주기적 신호 들에 대해 ACELP 여기를 선택하며, 이러한 주기적 신호들에는 스피치 신호들과 과도적 신호들이 포함될 수 있다. 한편, TCX 여기는 소정 유형의 정적 신호들, 잡음형 신호들 및 음색형(tone-like) 신호들에 대해 선택될 수 있고, 그것이 이러한 신호들의 주파수 해상도를 다루고 부호화하기에 더 적합하다.

실시예들에서의 여기 방법 선택은 지연되지만 현재의 프레임에 적용되고 그에 따라 신호를 부호화하는 방법에 대해 이전에 알려진 방법들에서 보다 낮은 복잡도를 부여하게 된다. 상술한 방법의 메모리 소비 역시 이전에 알려진 방식들에 비해 크게 낮아진다. 이것은 제한된 메모리와 프로세싱 전력을 가진 모바일 기기에 있어 특히 중요하다.

또, VDA 모듈, LPC 및 LTP 분석 모듈들로부터의 파라미터들의 이용이 보다 정확한 신호 분류를 가져오고, 그에 따라 신호를 부호화함에 있어 보다 정확한 최적 여기 방법의 선택을 가져온다.

앞에서의 논의 및 실시예들은 AMR-WB+ 코덱을 언급하고 있지만, 이 기술분야의 당업자라면 그러한 실시예들은 대안적 실시예들 및 부가적 실시예들로서 동등하게 둘 이상의 여기 방법이 사용될 수 있는 다른 코덱들이 될 수 있다는 것을 알 수 있을 것이다.

또, 상술한 실시예들이 두 가지 여기 방법들인 ACELP 및 TCX 중 하나를 이용해 기술되고 있으나, 이 분야의 당업자라면 다른 여기 방법들 역시 그 대신, 대안적이고 부가적 실시예들에 나타낸 것과 마찬가지로 사용될 수 있음을 이해할 수 있을 것이다.

인코더는 모바일 단말들 못지않게 컴퓨터나 기타 신호 처리 장치 같은 다른 단말들에도 사용될 수 있다.

위에서는 본 발명의 실시예들을 기술하고 있으나, 첨부된 청구항들에서 정의된 것처럼 본 발명의 범주에서 벗어나지 않고 상기 개시된 해법에 대한 여러 가지 변형과 수정이 이뤄질 수 있다.

Claims

통신 시스템의 인코더에서 프레임을 부호화하는 방법에 있어서,

프레임과 결부되고, 필터 뱅크 파라미터들을 포함하는 제1파라미터 집합을 산출하는 단계;

제1스테이지에서, 제1파라미터 집합과 연관된 소정 조건들에 기반하여 복수의 인코딩 방법들 중 하나를 선택하는 단계;

프레임과 결부된 제2파라미터 집합을 산출하는 단계;

제2스테이지에서, 제1스테이지의 선택 결과 및 제2파라미터 집합에 기초하여 복수의 인코딩 방법들 중 하나를 선택하는 단계; 및

제2스테이지로부터 선택된 인코딩 방법을 이용해 프레임을 부호화하는 단계를 포함함을 특징으로 하는 방법.
제1항에 있어서, 상기 복수의 인코딩 방법들은 제1여기 방법 및 제2여기 방법을 포함함을 특징으로 하는 방법.
제1항에 있어서, 상기 제1파라미터 집합은 프레임과 결부된 하나 이상의 주파수 대역들의 에너지 레벨에 기반함을 특징으로 하는 방법.
제1항에 있어서, 상기 제1스테이지에서, 상기 제1파라미터 집합의 서로 다른 소정 조건들에 대해, 제1스테이지에서 아무 인코딩 방법도 선택되지 않음을 특징으로 하는 방법.
제1항에 있어서, 상기 제2파라미터들의 집합은 프레임과 관련된 스펙트럼 파라미터들, LTP 파라미터들, 그리고 상관 파라미터들 가운데 적어도 한 가지를 포함함을 특징으로 하는 방법.
제2항에 있어서, 상기 제1여기 방법은 대수적 코드 여기형 선형 예측 여기 (algebraic code excited linear prediction excitation)임을 특징으로 하는 방법.
제2항에 있어서, 상기 제2여기 방법은 변환 코딩 여기임을 특징으로 하는 방법.
제2항에 있어서, 상기 프레임이 제2여기 방법을 이용해 부호화될 때, 상기 부호화 방법은,

제1스테이지 및 제2스테이지에서의 선택에 기반하여, 제2여기 방법을 이용해 부호화된 프레임의 길이를 선택하는 단계를 더 포함함을 특징으로 하는 방법.
제8항에 있어서, 상기 부호화된 프레임의 길이에 대한 선택은, 프레임의 신호대 잡음비에 좌우됨을 특징으로 하는 방법.
제1항에 있어서, 상기 인코더는 AMR-WB+ 인코더임을 특징으로 하는 방법.
제1항에 있어서, 상기 프레임은 오디오 프레임임을 특징으로 하는 방법.
제10항에 있어서, 상기 오디오 프레임은 스피치(speech) 또는 비(non)스피치를 포함함을 특징으로 하는 방법.
제11항에 있어서, 상기 비스피치는 음악을 포함함을 특징으로 하는 방법.
통신 시스템에서 프레임을 부호화하는 인코더에 있어서,

프레임과 결부되고, 필터 뱅크 파라미터들을 포함하는 제1파라미터 집합을 산출하도록 된 제1계산 모듈;

제1파라미터 집합과 연관된 소정 조건들에 기반하여 복수의 인코딩 방법들 중 하나를 선택하도록 된 제1스테이지 선택 모듈;

프레임과 결부된 제2파라미터 집합을 산출하도록 된 제2계산 모듈;

제1스테이지의 선택 결과 및 제2파라미터 집합에 기초하여 복수의 인코딩 방법들 중 하나를 선택하도록 된 제2스테이지 선택 모듈; 및

제2스테이지로부터 선택된 인코딩 방법을 이용해 프레임을 부호화하도록 된 인코딩 모듈을 포함함을 특징으로 하는 인코더.
제14항에 있어서, 상기 복수의 인코딩 방법들은 제1여기 방법 및 제2여기 방법을 포함함을 특징으로 하는 인코더.
제15항에 있어서, 상기 제1여기 방법은 대수적 코드 여기형 선형 예측 여기(ACELP)임을 특징으로 하는 인코더.
제15항에 있어서, 상기 제2여기 방법은 변환 코딩 여기임을 특징으로 하는 인코더.
제14항에 있어서, 상기 제1파라미터 집합은 프레임과 관련된 한 개 이상의 주파수 대역들의 에너지 레벨들에 기초함을 특징으로 하는 인코더.
제14항에 있어서, 상기 제1스테이지 선택 모듈은 상기 제1파라미터 집합의 서로 다른 소정 조건들에 기초해 아무 인코딩 방법도 선택하지 않도록 구성됨을 특징으로 하는 인코더.
제14항에 있어서, 상기 제2파라미터 집합은 프레임과 관련된 스펙트럼 파라미터들, LTP 파라미터들 및 상관 파라미터들 중 적어도 한 가지를 포함함을 특징으로 하는 인코더.
제15항에 있어서,

제1스테이지 선택 모듈 및 제2스테이지 선택 모듈에서의 선택에 기초하여, 제2여기 방법을 사용해 부호화된 프레임의 길이를 선택하도록 된 제3스테이지 선택 모듈을 더 포함함을 특징으로 하는 인코더.
제14항에 있어서, 상기 부호화 프레임의 길이 선택은, 프레임의 신호대 잡음비에 좌우됨을 특징으로 하는 인코더.
제14항에 있어서, 상기 인코더는 AMR-WB+ 인코더임을 특징으로 하는 인코더.
제14항에 있어서, 상기 프레임은 오디오 프레임임을 특징으로 하는 인코더.
제14항에 있어서, 상기 오디오 프레임은 스피치 또는 비스피치를 포함함을 특징으로 하는 인코더.
제14항에 있어서, 상기 비스피치는 음악을 포함함을 특징으로 하는 인코더.
제14항의 인코더를 구비한 단말.
제27항에 있어서, 상기 단말은 신호 처리 장치임을 특징으로 하는 단말.
제27항에 있어서, 상기 단말은 모바일 단말임을 특징으로 하는 단말.
통신 시스템의 인코더에서 프레임을 부호화하는 방법에 있어서,

프레임과 결부되고 제1필터 뱅크 파라미터들을 포함하는 제1파라미터 집합을 산출하는 단계;

제1스테이지로서, 제1파라미터 집합에 기반하여 제1여기 방법 또는 제2여기 방법 중 하나를 선택하는 단계;

선택된 여기 방법을 이용해 프레임을 부호화하는 단계를 포함함을 특징으로 하는 방법.