KR101196506B1

KR101196506B1 - 임펄스형 부분 및 정적 부분을 갖는 오디오 신호를 인코딩하는 오디오 인코더 및 인코딩 방법, 디코더, 디코딩 방법 및 인코딩된 오디오 신호

Info

Publication number: KR101196506B1
Application number: KR1020097025997A
Authority: KR
Inventors: 쥐르겐 헤르; 랄프 가이거; 스테판 바이어; 기윰 푸흐스; 울리히 크라머; 니콜라스 레텔바흐; 베른하르트 그릴
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2007-06-11
Filing date: 2008-06-05
Publication date: 2012-11-01
Also published as: EP2165328A1; AR066959A1; WO2008151755A1; CA2691993C; AU2008261287B2; CA2691993A1; MY146431A; PL2165328T3; RU2439721C2; TWI371744B; CN101743586A; JP5686369B2; US8706480B2; KR20100024414A; RU2009143665A; US20100262420A1; AU2008261287A1; PT2165328T; EP2165328B1; ES2663269T3

Abstract

오디오 신호를 인코딩하는 오디오 인코더는 오디오 신호로부터 임펄스형 부분을 추출하는 임펄스 추출기(10)를 포함한다. 상기 임펄스형 부분은 인코딩되어 출력 인터페이스(22)로 전달된다. 또한, 오디오 인코더는 임펄스형 부분이 감소하거나 상기 잔여 오디오 신호에서 제거되도록, 원래의 오디오 신호로부터 도출된 잔여 신호를 인코딩하는 신호 인코더(16)를 포함한다. 출력 인터페이스(22)는 인코딩된 신호, 즉 인코딩된 임펄스 신호(12) 및 인코딩된 잔여 신호(20)를 전송 또는 저장을 위해 출력한다. 디코더측에서는, 양 신호 부분들은 분리되어 디코딩되고 그 후 디코딩된 오디오 신호를 획득하도록 결합된다.

Description

임펄스형 부분 및 정적 부분을 갖는 오디오 신호를 인코딩하는 오디오 인코더 및 인코딩 방법, 디코더, 디코딩 방법 및 인코딩된 오디오 신호{Audio Encoder for Encoding an Audio Signal Having an Impulse-like Portion and Stationary Portion, Encoding Methods, Decoder, Decoding Method, and Encoded Audio Signal}

본 발명은 소스 코딩에 관한 것으로, 더욱 상세하게는 하나의 오디오 신호가 서로 다른 코딩 알고리즘을 갖는 적어도 2개의 상이한 오디오 코더들에 의해 처리되는 오디오 소스 코딩에 관한 것이다.

낮은 비트레이트의 오디오 및 음성 코딩 기술의 측면에서, 상이한 몇개의 코딩 기술들이 통상적으로 소정의 비트레이트에서 최고의 가능한 주관적인 품질을 가지는 이러한 신호의 낮은 비트레이트 코딩을 달성하기 위해 채용되어 왔다. 일반적인 음악/사운드 신호들을 위한 코더들은 지각 모델(perceptual model)("지각 오디오 코딩(perceptual audio coding)")에 의해 입력 신호로부터 추정된 마스킹 임계값 커브(masking threshold curve)에 따라 양자화 에러의 스펙트럼(그리고 일시적) 모양을 형상화함으로써 주관적인 품질을 최적화하는 것을 목적으로 한다. 한편으로, 매우 낮은 비트레이트에서의 음성의 코딩은 인간 음성의 발생 모델에 기초할 때 즉, 잔여 여기 신호(residual excitation signal)의 효율적인 코딩과 함께 인간 성도의 공명 효과(resonant effects)를 모델링하는 선형 예측 코딩(LPC; Linear Predictive Coding)을 채용할 때, 매우 효율적으로 작용하는 것을 보여주고 있다.

이들 2가지 상이한 방법들의 결과로서, 일반적인 오디오 코더들(MPEG-1 Layer 3, 또는 MPEG-2/4 Advanced Audio Coding, AAC 등)은 일반적으로 음성 소스 모델이 개발되지 않음에 따라 전용 LPC-기반 음성 코더들과 같이 매우 낮은 비트레이트에서 음성 신호에 대해 잘 작용하지 않는다. 반대로, LPC-기반 음성 코더들은 일반적으로 마스킹 임계값 커브에 따라 코딩 왜곡의 스펙트럼 엔벌로프를 유연성 있게 형상화할 수 없기 때문에 일반적인 음악 신호들에 대해 적용될 때 납득할 만한 결과들을 달성하지 못한다. 이하에서, LPC-기반 코딩 및 지각 오디오 코딩 모두의 이점들을 단일 프레임워크에 결합하고, 그에 따라 일반적인 오디오 신호 및 음성 신호 모두에 대해 효과적인 통합형 오디오 코딩을 나타내는 개념을 제공하는 실시예들이 설명된다.

통상적으로, 지각 오디오 코더들은 오디오 신호들을 효과적으로 코딩하고, 마스킹 커브의 추정에 따라 양자화 왜곡을 형상화하는 필터뱅크-기반 방법을 사용한다.

도 16a는 모노포닉(monophonic) 지각 코딩 시스템의 기본 블록도를 나타낸다. 분석 필터뱅크(1600)는 시간 영역 샘플들을 서브샘플링된 스펙트럼 컴포넌트들로 맵핑하는데 사용된다. 스펙트럼 컴포넌트들의 개수에 따라, 시스템은 또한 서브밴드 코더(적은 개수의 예컨대, 32 서브밴드들 ) 또는 변환 코더(tansform corder)(많은 개수 예컨대, 512 주파수 선들)라고도 한다. 지각("심리음향적(psychoacoustic)) 모델(1602)은 실제의 시간 종속적 마스킹 임계값을 추정하는데 사용된다. 스펙트럼("서브밴드" 또는 "주파수 영역") 컴포넌트들이 양자화 노이즈가 실제 전송된 신호에서 나타나지 않는 방식으로 양자화되고 코딩되어(1604), 디코딩 후에 지각될 수 없다. 이는 시간 및 주파수 상에서 스펙트럼 값들의 양자화의 단위(granularity)를 변경함으로써 달성된다.

양자화되고 엔트로피-인코딩된 스펙트럼 계수들 또는 서브밴드 값들은 보조 정보(side information)에 추가하여, 전송되거나 저장되는데 적합한 인코딩된 오디오 신호를 제공하는 비트스트림 포맷터(1606)에 입력된다. 블록(1606)의 출력 비트스트림은 인터넷을 통해 전송될 수 있고 임의의 머신 판독가능한 데이터 운반장치(carrier) 상에 저장될 수 있다.

디코더 측면에서, 디코더 입력 인터페이스(1610)는 인코딩된 비트스트림을 수신한다. 블록(1610)은 보조 정보로부터 엔트로피-인코딩되고 양자화된 스펙트럼/서브밴드 값들을 분리한다. 인코딩된 스펙트럼 값들은 1610과 1620 사이에 위치된 허프만 디코더(Huffman decoder)와 같은 엔트로피-디코더로 입력된다. 이 엔트로피 디코더의 출력은 양자화된 스펙트럼 값들이다. 이들 양자화된 스펙트럼 값들은 도 16a의 1620에 나타난 바와 같이 "역(inverse)" 양자화를 수행하는 역-양자화기(re-quantizer)로 입력된다. 블록(1620)의 출력은 합성 필터뱅크(synthesis filterbank)(1622)로 입력되는데, 이 합성 필터뱅크는 주파수/시간 변환을 포함하는 포함하는 합성 필터링(synthesis filtering), 및 통상적으로, 오버랩(overlap) 또는 덧셈과 같은 시간 영역 앨리어싱 제거 동작 및/또는 합성-측 윈도우잉 동작을 수행하여 최종적으로 출력 오디오 신호를 획득한다.

도 16b 및 16c는 도 16a의 전반적인 필터뱅크 기반 지각 코딩 개념의 다른 예를 나타내는데, 여기에서 프리-필터링 방법이 인코더-측에, 그리고 포스트-필터링 방법이 디코더-측에 구현된다.

[Edl00]에서, 주파수 상에서 스펙트럼 계수들의 가변 양자화보다는 소위 프리-필터를 사용함으로써 부적절함 감소(즉, 지각 기준(perceptual criteria)에 따른 노이즈 형상화) 및 리던던시 감소(즉, 정보의 수학적으로 더 함축된 표현을 획득)의 측면들을 분리하는 지각 오디오 코더가 제안되었다. 이 이론은 도 16b에 도시되어 있다. 입력 신호는 주파수 상에서 마스킹 임계값 커브의 추정을 계산하기 위해 지각 모델(1602)에 의해 분석된다. 마스킹 임계값은 그 주파수 응답의 크기가 마스킹 임계값에 역으로 비례하도록 프리-필터 계수들의 집합으로 변환된다. 프리-필터 동작은 이 계수들의 집합을 모든 주파수 컴포넌트들이 그의 지각 중요도("지각 화이트닝(perceptual whitening")에 따라 나타나는 출력 신호를 생성하는 입력 신호에 적용한다. 이 신호는 이어서 "화이트" 양자화 왜곡을 생성하는 즉, 어떤 지각적 노이즈 형상화를 적용하지 않는, 임의의 오디오 코더(1632)에 의해 코딩된다. 오디오 신호의 전송/저장은 코더의 비트스트림 및 프리-필터링 계수들의 코딩된 버전을 모두 포함한다. 도 16c의 디코더에서, 코더 비트스트림은 추가적인 화이트 양자화 노이즈를 포함하는 지각적으로 화이트닝된 오디오 신호로 디코딩된다(1634). 그런 다음 이 신호는 전송된 필터 계수들에 따라 포스트-필터링 동작(1640)에 영향 을 받는다. 포스트-필터는 프리-필터에 관련된 역 필터링 프로세스를 수행하기 때문에, 지각적으로 화이트닝된 신호로부터 원래의 오디오 입력 신호를 재구성한다. 이 추가적인 화이트 양자화 노이즈는 포스트-필터에 의해 마스킹 커브와 같이 스펙트럼적으로 형상화되며, 그에 따라 의도된 대로 디코더 입력에서 지각적으로 컬러화되어 나타난다.

이러한 방식에서 지각적 노이즈 형상화(perceptual noise shaping)는 스펙트럼 계수들의 주파수 종속적인 양자화 보다는 프리-/포스트-필터링 단계를 통해 달성되므로, 이 개념은 필터뱅크-기반 오디오 코더보다는 프리-필터링된 오디오 신호를 나타내는 비-필터뱅크-기반 코딩 메커니즘을 포함하도록 일반화될 수 있다. 이것이 [Sch02]에서 예측 및 엔트로피 코딩 스테이지들을 사용하여 시간 영역 코딩 커널에 대해 나타나 있다.

프리-/포스트-필터링 기술을 사용함으로써 근사적인 스펙트럼 노이즈 형상화를 가능하게 하기 위해, 프리-/포스트-필터의 주파수 솔루션을 인간의 오디오 시스템에 적용하는 것이 중요하다. 이상적으로는, 주파수 솔루션은 BARK 또는 ERB 주파수 스케일과 같은 공지된 지각적 주파수 스케일들을 따를 수 있다[Zwi]. 이는 특히 프리-/포스트-필터 모델의 차수를 최소화하여 그에 따라 관련 계산 복잡성 및 보조 정보 전송율을 최소화하기 위해 바람직할 수 있다.

프리-/포스트-필터 주파수 솔루션의 적용은 공지된 주파수 워핑(frequency warping) 개념에 의해 달성될 수 있다[KHL97]. 필수적으로, 필터 구조 내에서의 유닛 지연은 필터의 주파수 응답의 일정하지 않은(non-uniform) 변형("워핑")을 초래 하는 (1차 이상 차수의)전대역통과(allpass) 필터들에 의해 대체된다. 1차 전대역통과 필터, 예컨대,

를 사용함으로써, 지각 주파수 스케일들의 거의 정확한 근사가 전대역통과 계수들의 적절한 선택에 의해 가능함이 개시되어 있다[SA99]. 따라서, 대부분의 공지된 시스템들은 주파수 워핑을 위해 고차원의 전대역통과 필터들을 사용하지 않는다. 1차 전대역통과 필터가 주파수 스케일의 변형(deformation)을 결정하는, 단일의 스칼라 파라미터("워핑 인자(warping factor)" 라고 함, -1 < λ < 1)에 의해 완전히 결정된다. 예컨대, λ=0의 워핑 인자에 대해, 어떠한 변형도 유효하지 않는데 즉, 필터는 정규의 주파수 스케일에서 동작한다. 워핑 인자가 높게 선택될수록 주파수 솔루션이 스펙트럼의 더 낮은 주파수 부분에 포커스되고(지각 주파수 스케일을 근사화하는데 필수적임), 스펙트럼의 더 높은 주파수 부분으로부터 멀리 떨어진다.

워핑된 프리-/포스트-필터를 사용하여, 오디오 코더들은 48 kHz 또는 44.1 kHz 와 같은 통상의 샘플링 레이트에서 8 과 20 사이의 필터 차수를 통상적으로 사용한다 [WSKH05].

워핑된 필터링의 몇몇 다른 어플리케이션들 예컨대, 룸 임펄스 응답들의 모델링[HKS00] 및 오디오 신호에서 노이즈 컴포넌트의 파라메트릭 모델링(동일 이름 Laguerre / Kauz 필터링의)[SOB03]이 기술되어 있다.

통상적으로, 효율적인 음성 코딩은 잔여 여기 신호의 효율적인 코딩과 함께 인간의 성도의 공명 효과를 모델링하는 선형 예측 코딩(Linear Predictive Coding; LPC )에 기반하여 왔다 [VM06]. LPC 및 여기 파라미터들 모두는 인코더에서 디코더로 전송된다. 이 이론이 도 17a 및 17b에 도시되어 있다.

도 17a는 선형 예측 코딩에 기반한 인코딩/디코딩 시스템의 인코더측을 도시한다. 음성 입력은 그 출력에서 LPC 필터 계수들을 제공하는 LPC 분석기(1701)로 입력된다. 이들 LPC 필터 계수들에 기초하여, LPC 필터(1703)는 조정된다. LPC 필터는 "예측 에러 신호(prediction error signal)"라고도 하는 스펙트럼적으로 화이트닝된 오디오 신호를 출력한다. 이 스펙트럼적으로 화이트닝된 오디오 신호는 여기 파라미터들을 발생시키는 잔여/여기 코더(residual/excitation coder)(1705)로 입력된다. 따라서, 이 음성 입력은 한편으로 여기 파라미터들로 인코딩되고 다른 한편으로 LPC 계수들로 인코딩된다.

도 17b에 도시된 디코더측에서, 여기 파라미터들은 역 LPC 필터로 입력되룻 있는 여기 신호를 발생시키는 여기 디코더(1707)로 입력된다. 역 LPC 필터는 전송된 LPC 필터 계수들을 이용하여 조정된다. 따라서, 역 LPC 필터(1709)는 재구성된 또는 합성된 음성 출력 신호를 발생시킨다.

오랫동안, 멀티-펄스 여기(MPE), 정규(regular) 펄스 여기(RPE) 및 코드-여기된 선형 예측(CELP)과 같은 많은 방법들이 잔여(여기) 신호의 효율적인 그리고 지각적으로 납득이 되는 표현에 대해 제안되어 왔다.

선형 예측 코딩은 과거 관찰(past observations)의 선형 결합으로서 임의의 개수의 과거 값들의 관찰에 기초하여 현재의 샘플 값의 시퀀스의 예측을 생성하는 것을 시도한다. 입력 신호에서의 리던던시를 줄이기 위해, 인코더 LPC 필터는 그 스펙트럼 엔벌로프에서 입력 신호를 "화이트닝"하는데, 즉, 신호의 스펙트럼 엔벌로프의 역의 모델이다. 반대로, 디코더 LPC 필터는 신호의 스펙트럼 엔벌로프의 모델이다. 특히, 공지된 자기회귀(auto-regressive; AR) 선형 예측 분석이 전극 근사(all-pole approximation)에 의해 신호의 스펙트럼 엔벌로프를 모델링하는 것으로 공지되어 있다.

통상적으로, 협소한 대역의 음성 코더들(즉, 8 kHz의 샘플링 레이트를 갖는 음성 코더들)은 8 내지 12 차수의 LPC 필터를 채용한다. LPC 필터의 성질로 인해, 균일한 주파수 솔루션이 전 주파수 범위에 걸쳐 효율적이다. 이는 지각 주파수 스케일에 대응하지 않는다.

워핑 기술들에 의해 제안된 바와 같이, 비균일한 주파수 감도는 음성 코딩에 대해 또한 장점을 제공할 수 있으며, 정규 LPC 분석 대신에 예컨대, [TMK94][KTK95]와 같은 워핑된 예측 분석을 사용하도록 제안되어 왔다. 워핑된 LPC 및 CELP 코딩의 다른 조합들이 예컨대, [HLM99]로부터 공지되어 있다.

전통적인 LPC/CELP-기반 코딩(음성 신호에 대해 최상 품질)의 장점과 전통적인 필터뱅크-기반 지각 오디오 코딩 방법(음악에 대해 최상)의 장점을 결합하기 위해, 이들 아키텍쳐들 간의 결합된 코딩이 제안되어 왔다. AMR-WB+ 코더 [BLS05]에서, 2개의 대안적인 코딩 커널들은 LPC 잔여 신호에 대해 동작한다. 하나는 ACELP(Algebraic Code Excited Linear Prediction) 에 기반하며, 그에 따라 음성 신호들의 코딩에 매우 효율적이다. 다른 하나의 코딩 커널은 TCX(Transform Coded Excitation) 즉, 음악 신호들에 대해 좋은 품질을 달성하기 위해 전통적인 오디오 코딩 기술들에 유사한 필터뱅크 기반 코딩 방법에 기반한다. 입력 신호들의 특성에 따라, 두 개의 코딩 모드들 중 하나가 LPC 잔여 신호를 전송하기 위해 짧은 시간 주기 동안 선택된다. 이러한 방식으로, 80 ms 기간의 프레임들이 두 개의 코딩 모드들 간의 결정이 이루어지는 40 또는 20 ms의 서브프레임들로 분할될 수 있다.

이러한 방법의 한계는 프로세스가 발생된 코딩 왜곡의 타입을 고려하여 매우 다른 특성들을 처리하는 두 개의 코더들/ 코딩 방식들 사이의 하드 스위칭 결정에 기반한다는 것이다. 이 하드 스위칭 프로세스는 하나의 모드에서 다른 모드로 스위칭할 때 인지된 신호 품질에서 성가신 불연속을 발생시킬 수 있다. 예컨대, 음성 신호가 음악 신호로 천천히 가로질러-페이드될 때(방송 프로그램에서 발언 후와 같이), 스위칭 지점이 검출될 수 있다. 유사하게, 음악 상에서의 음성에 대해(예컨대, 음악을 배경으로 한 발언에 대해), 하드 스위칭은 들릴 수 있다. 그에 따라 이러한 아키텍쳐에서, 두 개의 컴포넌트 코더들의 특성들 사이에서 부드럽게 페이드할 수 있는 코더를 획득하는 것이 어렵다.

최근, EP 1873754에 개시된 바와 같이, 통상적인 필터뱅크-기반 코딩 커널이 LPC 모드(CELP-기반 음성 코딩에 적합함)와, 프리-/포스트-필터링에 기반한 지각 오디오 코딩과 유사한, 워핑된 모드 사이에서 코더의 필터를 페이딩함으로써 지각적으로 가중된 주파수 스케일에서 동작할 수 있게 하는, 스위칭된 코딩의 조합이 개시되어 있다.

가변 주파수 워핑을 갖는 필터를 사용하여, 높은 음성 및 오디오 코딩 품질 모두를 달성하는 조합된 음성/오디오 코더를 구성하는 것이 도 17c에 도시된 바와 같이, 이하 방식으로 가능하다.

사용될 코딩 모드("음성 모드" 및 "음악 모드")에 관한 결정은 별도의 모듈(1726)에서 입력 신호의 분석을 수행함으로써 행해지며, 음악으로부터 음성 신호를 분리하기 위해 공지된 기술에 기반할 수 있다. 따라서, 결정 모듈은 코딩 모드를 결정하고, 필터(1722)를 위해 관련된 최적의 워핑 인자를 생성한다. 또한, 이 결정에 따라, 선택된 코딩 모드에서 입력 신호에 적합한, 적절한 필터 계수들의 집합을 결정하는데, 즉, 음성의 코딩을 위해서는 LPC 분석이 수행되며(워핑 없이 또는 낮은 워핑 인자를 이용함), 반면 음악을 위해서는 마스킹 커브가 추정되어 그 역이 워핑된 스펙트럼 계수들로 변환된다.

시간 변화하는 워핑 특성들을 갖는 필터(1722)는 통상의 인코더/디코더 필터로서 사용되고, 코딩 모드 결정/워핑 인자 및 결정 모듈에 의해 생성된 필터 계수들의 집합에 따라 신호에 적용된다.

필터링 스테이지의 출력 신호는 코딩 모드에 따라, 음성 코딩 커널(1724)(예컨대, CELP 코더) 또는 일반적 오디오 코더 커널(1726)(예컨대, 필터뱅크-기반 코더, 또는 예측 오디오 코더) 중 하나 또는 모두에 의해 코딩된다.

전송될/저장될 정보는 코딩 모드 결정(또는 워핑 인자의 지시), 어떤 코딩된 형식의 필터 계수들, 그리고 음성/여기 및 일반적 오디오 코더에 의해 전달된 정보를 포함한다.

대응하는 디코더에서, 잔여/여기 디코더 및 일반적 오디오 디코더의 출력들은 합산되고, 출력은 시간 변화하는 워핑된 합성 필터에 의해 코딩 모드, 워핑 인자 및 필터 계수들에 기반하여 필터링된다.

그러나, 두 개의 코딩 모드들 간의 하드 스위칭 결정으로 인해 이 방식은 여전히 전술한 바와 같이 스위칭된 CELP/ 필터뱅크-기반 코딩과 유사한 한계점들에 여전히 영향을 받는다. 이 아키텍쳐에서, 두 개의 컴포넌트 코더들의 특성들 사이를 부드럽게 페이딩할 수 있는 코더를 획득하는 것이 어렵다.

음성 코딩 커널을 일반 지각 오디오 코더와 결합하는 다른 방법이 MPEG-4 라지-스텝 스케일러블 오디오 코딩에 대해 사용된다[Gri97][Her02]. 스케일러블 코딩의 아이디어는 코딩/디코딩 방식들 및 전체 비트스트림의 서브세트들의 의미있는 디코딩을 허용하는 비트스트림 포맷들을 제공한다는 것으로, 감소된 품질의 출력 신호를 발생시킨다. 이 경우, 전송된/디코딩된 데이터 레이트는 입력 신호를 다시 인코딩하지 않으면서 순간적인 전송 채널 용량에 적합하게 될 수 있다.

MPEG-4 라지-스텝 스케일러블 오디오 코더의 구조는 도 18에 의해 도시되어 있다[Gri97]. 이 구성은 소위 코어 코더(1802) 및 지각 오디오 코딩 모듈(1804)에 기반한 몇 개의 향상 계층들을 모두 포함한다. 코어 코더(통상적으로 협소한 대역의 음성 코더)는 후속 향상 계층들보다 낮은 샘플링 레이트에서 동작한다. 이들 컴포넌트들의 스케일러블 결합은 다음과 같이 작용한다.

입력 신호는 다운-샘플링되고(1801), 코어 코더(1802)에 의해 인코딩된다. 생성된 비트스트림은 스케일러블 비트스트림의 코어 계층 부분(1804)을 구성한다. 이는 지각 향상 계층들의 샘플링 레이트를 매칭하기 위해 부분적으로(locally) 디코딩되고(1806) 업-샘플링되며(1808),분석 필터뱅크(MDCT)(1810)를 통과한다.

두번째 신호 경로에서, 지연(1812) 보상된 입력 신호는 분석 필터뱅크(1814)를 통과하며, 잔여 코딩 에러 신호를 계산하는데 사용된다.

잔여 신호는 잔여 신호보다 더 효율적으로 코딩될 수 있다면, 스케일인자 대역 원리(scalefactor band basis)에 따라 원래의 신호로 다시 되돌아가는 것을 허용하는 주파수 선택적인 스위치(Frequency Selective Switch; FSS) 툴(1816)을 통과한다.

스펙트럼 계수들은 AAC 코딩 커널(1804)에 의해 양자화/코딩되어, 향상 계층 비트스트림(1818)이 된다. 잔여 코딩 에러 신호의 재-코딩에 의한 개선(refinement)(향상 계층들)의 추가적인 스테이지들이 수반될 수 있다.

도 19는 관련 코어-기반 스케일러블 디코더의 구조를 도시한다. 복합(composite) 비트-스트림은 개별 코딩 계층들로 분해된다(1902). 그런 다음, 코어 코더 비트스트림(예컨대, 음성 코더 비트스트림)의 디코딩(1904)이 수행되고, 그 출력 신호는 선택적인 포스트 필터 스테이지를 통해 나타날 수 있다. 스케일러블 디코딩 프로세스 내에서 코어 디코더 신호를 사용하기 위해 스케일러블 코더의 샘플링 레이트로 업샘플링되고(1908), 다른 계층들에 대해 지연 보상되고(1910), 코더 분석 필터뱅크(MDCT)(1912)에 의해 분해된다.

더 높은 계층의 비트스트림은 AAC 노이즈없는(noiseless) 디코딩 및 역 양자화를 적용하고 모든 스펙트럼 계수 기여분들(contributions)을 합산함으로써 디코 딩된다(1916). 주파수 선택적인 스위치 툴(1920)은 이들의 합산값이나 인코더로부터 시그널링될 때 향상 계층들로부터 발생된 계수들만을 선택함으로써 결과적인 스펙트럼 계수들을 코어 계층으로부터의 기여분과 결합한다. 최종적으로, 그 결과는 합성 필터뱅크(IMDCT)(1922)에 의해 시간 영역 표현으로 다시 맵핑된다.

일반적 특성으로서, 음성 코더(코어 코더)는 이 구성에서 항상 사용되고 디코딩된다. 디코더가 비트스트림의 코어 계층 뿐만 아니라 하나 이상의 향상 계층들에 접속한다면, 비음성/음악 신호들에 대해 좋은 품질을 제공할 수 있는, 향상 계층들에서 지각 오디오 코더들로부터의 기여분들이 또한 전송된다.

그 결과, 이 스케일러블 구성은 음성 및 오디오 신호 모두에 대해 최상의 전체 품질을 제공하기 위해 항상 그 성능에 관하여 일부 단점들을 초래하는 음성 코더를 포함하는 액티브 계층을 포함한다.

입력 신호가 주로 음성으로 이루어진 신호라면, 향상 계층(들)에서 지각 오디오 코더는 일반 오디오 신호와 매우 다를 수 있는 속성들을 가져 이 타입의 코더가 코딩하기 어려운, 잔여/차이 신호를 코딩한다. 일 예로서, 잔여 신호는 자연적으로 임펄스적인 어떤 컴포넌트들을 포함할 수 있고, 그에 따라 필터뱅크 기반 지각 오디오 코더로 코딩될 때 프리-에코(pre-echoes)를 유발한다.

만약 입력 신호가 우세적으로 음성이 아닌 경우, 잔여 신호는 종종 입력 신호보다 큰 코딩 비트레이트를 요구한다. 이 경우에, FSS는 향상 계층에 의한 코딩을 위해 잔여 신호보다는 원래의 신호를 선택한다. 그 결과, 코어 계층은 출력 신호에 기여하지 않으며, 코어 계층의 비트레이트는 전반적인 품질의 개선에 기여하 지 않기 때문에 헛되게 소비된다. 다시 말해, 전체 비트레이트가 지각 오디오 코더에 대해서만 단순히 할당되는 경우, 그 결과는 나쁘게 소리가 난다.

http://www.hitech-projects.com/euprojects/ardor/summary.htm 에서, ARDOR (Adaptive Rate-Distortion Optimised sound codeR) 코덱이 다음과 같이 개시되어 있다.

프로젝트 내에서, 신호 모델들의 가장 적절한 결합으로 일반적 오디오를 인코딩하는 코덱이 생성되고, 강제적인 제약 및 이용가능한 서브코더들도 제공하였다. 이 작업은 도 20에 도시된 바와 같이, 3개의 코덱 컴포넌트들에 해당하는 3개의 부분으로 분할될 수 있다.

가장 효율적으로 동작하도록 ARDOR 코덱을 구성하는 레이트-왜곡-이론(rate-distortion-theorey) 기반 최적화 메커니즘(2004)은 입력 신호의 현재의, 시간-변화하는, 제약들 및 타입을 제공하였다. 이 목적을 위해, 이는 '서브코딩' 서브스테이지들(2000) 집합을 제어하는데, 이 각 서브스테이지는 특정 타입의 입력 신호 컴포넌트, 예컨대, 톤, 잡음있는 또는 일시적인 신호들을 인코딩하는데 매우 효율적이다. 각각의 특정 서브코딩 전략을 위한 적절한 레이트 및 신호-컴포넌트 할당은 레이트-왜곡 최적화 메커니즘에 대한 지각 기준을 제공하는, 개선된, 새로운 지각 왜곡 측정(2002)에 기반한다. 다시 말해, 인간의 오디오 시스템에 대한 당업계의 지식 상태에 기반한 지각 모델은 사운드의 서로 다른 부분들의 지각적 연관성에 관한 정보를 최적화 메커니즘에 제공한다. 최적화 알고리즘은 예컨대, 지각적으로 관련없는 정보를 제외할 것을 결정할 수 있다. 그 결과, 원래의 신호는 복원될 수 없 지만, 오디오 시스템은 그 차이를 인지할 수 없다.

몇개의 종래 시스템의 전술한 논점은 일반적인 오디오 신호들에 대해 한편으로 최적의 품질을 제공하고, 다른 한편으로 모든 종류의 신호들에 대해 낮은 비트레이트를 제공하는 최적의 인코딩 방법이 존재하지 않음을 나타낸다. 특히, MPEG-4에서 표준화된, 도 18 및 도 19과 관련하여 설명된 스케일러블 방식들은 오디오 신호, 특히 오디오 신호의 소스에 유의하지 않으면서 음성 코더 코어를 사용하여 전체 오디오 신호를 연속적으로 프로세싱한다. 그러므로, 오디오 신호가 음성형이 아닌 경우, 코더 인코더는 큰 코딩 아티펙트를 발생시키고, 그 결과 도 18의 주파수 선택적 스위치 툴(1816)은 전체 오디오 신호가 AAC 인코더 코어(1804)를 이용하여 인코딩되는 것을 보장한다. 따라서, 이러한 경우, 비트스트림은 음성 코어 코더의 쓸모없는 출력을 포함하고, 추가적으로 오디오 신호의 지각적 인코딩된 표현을 포함한다. 이는 전송 대역폭을 낭비할 뿐만 아니라, 높은 쓸모없는 전력 낭비를 가져오는데, 이는 특히 인코딩 개념이 배터리에 의해 전력을 공급받고 한정된 에너지 자원을 갖는 이동 장치들에서 구현될때 특히 문제가 된다.

일반적으로 말해서, 변환-기반 지각 인코더는 오디오 신호의 소스에 유의하지 않고 동작하며, 모든 이용가능한 신호 소스들에 대해, 지각 오디오 인코더(적절한 비트레이트를 가질 때)는 너무 많은 코딩 아티펙트 없이 출력을 발생시킬 수 있지만, 비-정적인 신호들에 대해서는, 마스킹 임계값이 정적인 사운드로서 효과적으로 마스킹하지 않기 때문에 비트레이트가 증가한다. 또한, 변환-기반 오디오 인코더들에서 시간 솔루션과 주파수 솔루션 사이의 고유의 절충안은 일시적인 임펄스형 신호 컴포넌트들에 대해서는 이 코딩 시스템이 이들 신호 컴포넌트들이 높은 시간 솔루션을 요구할 수 있고, 높은 주파수 솔루션을 요구하지 않을 수 있기 때문에 문제가 될 수 있다.

그러나, 음성 코더는 소스 모델에 많이 기반하는 코딩 개념에 있어서는 탁월한 예이다. 따라서, 음성 코더는 음성 소스의 모델과 유사하며, 그에 따라, 코딩 알고리즘에 의해 표현되는 소스 모델과 유사한 사운드 소스로부터 발생하는 신호들에 대한 매우 효율적인 파라메트릭 표현을 제공할 수 있다. 음성 코더 소스 모델과 일치하지 않는 소스들로부터 발생하는 사운드에 대한 출력은 큰 아티펙트를 가지거나, 비트레이트의 증가가 허용될 때 일반적인 오디오 코더의 비트레이트보다 월등히 증가되고, 훨씬 높은 비트레이트를 보일 것이다.

[발명의 상세한 설명]
본 발명의 목적은 특정 코더 개념 및 일반적 코더 개념 모두에 대해 장점을 제공하고, 이들 코더들의 단점을 가능한 회피하는 오디오 코딩을 위한 개선된 개념을 제공하는 것이다.

이 목적은 청구항 제1항에 따른 오디오 코더, 청구항 제24항에 따른 오디오 인코딩 방법, 청구항 제25항에 따른 인코딩된 오디오 신호를 디코딩하는 디코더, 청구항 제32항에 따른 디코딩 방법, 청구항 제33항에 따른 향상된 오디오 신호 또는 청구항 제34항에 다른 컴퓨터 프로그램에 의해 달성된다.

본 발명은 오디오 신호로부터 임펄스들의 분리가 매우 효율적인 그리고 고품질의 오디오 인코딩 개념을 가져온다는 사실의 발견에 기반한다. 오디오 신호로부터 임펄스들을 추출함으로써, 한편으로 임펄스 오디오 신호 및 임펄스들이 없는 오 디오 신호에 대응하는 잔여 신호가 발생된다. 이 임펄스 오디오 신호는 음성 신호들에 대해 고품질에서 매우 낮은 데이터 비트레이트를 제공하는, 높은 효율의 음성 코더와 같은 임펄스 코더에 의해 인코딩될 수 있다. 다른 한편으로, 잔여 신호는 그 임펄스형 부분으로부터 자유로우며, 주로 원래의 오디오 신호의 정적인 부분으로 구성된다. 이러한 신호는 일반적 오디오 인코더 및 바람직하게는 변환-기반 지각적으로 제어되는 오디오 인코더와 같은 신호 인코더에 대해 매우 적합하다. 출력 인터페이스는 인코딩된 임펄스형 신호 및 인코딩된 잔여 신호를 출력한다. 출력 인터페이스는 이들 2개의 인코딩된 신호들을 임의의 이용가능한 포맷으로 출력하지만, 인코딩된 잔여 신호만이 또는 인코딩된 임펄스형 신호만이 그 자체로는 중요한 사용이 되지 않는 특정 환경하에 있을 수 있다는 사실로 인해, 이 포맷은 스케일러블 포맷일 필요는 없다. 오직 이들 신호들이 함께 고품질 오디오 신호를 제공한다.

그러나, 이 결합된 인코딩된 오디오 신호의 비트레이트는 그 비트레이트에 대해 엄격히 제어될 수 있는 CELP 또는 ACELP 인코더와 같은 고정 레이트 임펄스 코더가 사용될 때 높은 정도로 제어될 수 있다. 한편, 신호 인코더는 예컨대, MP3 또는 MP4 인코더로서 구현될 때, MP3 또는 MP4 코더 분야에서 공지된 바와 같이, 비트 저장소의 구현에 기초하여 가변 비트레이트를 고유하게 출력하는 지각 코딩 동작을 수행하더라도 고정된 비트레이트를 출력하도록 제어 가능하다. 이는 인코딩된 출력 신호의 비트레이트가 일정한 비트레이트가 되는 것을 보장한다.

잔여 오디오 신호는 문제가 되는 임펄스형 부분들을 더 이상 포함하지 않는 다는 사실로 인해, 이 잔여 신호는 신호 인코더에 대해 최적으로 적합하기 때문에, 인코딩되 잔여 신호의 비트레이트는 낮다.

다른 한편으로, 임펄스 인코더는 임펄스 코더 모델에 완벽하게 맞춤되도록 특정적으로 형상화되고 오디오 신호로부터 선택된 신호를 공급받기 때문에, 뛰어난 그리고 효율적인 동작을 제공한다. 따라서, 임펄스 추출기가 오디오 신호에서 임펄스 부분들을 찾을 수 없으면, 임펄스 인코더는 동작하지 않으며, 임펄스 코더로 코딩되기에 전혀 적합하지 않은 어떠한 신호 부분들을 인코딩하려 하지 않는다. 이러한 견지에서, 임펄스 코더는 또한, 인코딩된 임펄스 신호를 제공하지 않으며, 임펄스 코더가 높은 비트레이트를 요구하거나, 수용가능한 품질을 갖는 출력 신호를 제공할 수 없는 신호 부분들에 대해 출력 비트레이트에 기여하지 않는다. 특히, 이동 어플리케이션들에 대해, 임펄스 코더는 이러한 상황에서 어떠한 에너지 자원을 요구하지 않는다. 따라서, 오디오 신호가 임펄스형 부분을 포함할 때만 임펄스 코더가 활성화되고, 임펄스 추출기에 의해 추출된 임펄스형 부분은 임펄스 인코더가 바라는 것과 완전하게 조화할 수 있다.

따라서, 오디오 신호의 2개의 서로 다른 코딩 알고리즘들에 대한 분배는 결합된 코딩 동작을 가능하게 하는데, 이는 신호 인코더는 계속 활성화된 상태에 있고, 임펄스 코더는 신호가 실제로 임펄스형 부분들을 포함한다면, 활성화되고 출력 비트들을 생성하여 에너지를 소모하는 일종의 예비 모듈로서 동작한다는 점에서 특히 유용한다.

바람직하게, 임펄스 코더는 당업계에서 소위 "임펄스 트레인"이라고 하는 임펄스의 시퀀스를 바람직하게 인코딩하는데 적합하다. 이들 "펄스들(pulses)" 또는 "임펄스 트레인들(impulse trains)"은 통상적으로 인간의 성도를 모델링함으로써 획득된 통상적인 패턴이다. 펄스 트레인은 인접한 임펄스들 사이의 시간-간격을 갖는 임펄스들이다. 이러한 시간 간격은 "피치 지연(pitch lag)"라고 하며, 이 값은 "피치 주파수(pitch frequency)"에 대응한다.

본 발명의 바람직한 실시예들은 이하 첨부된 도면을 참조하여 설명된다.

도 1은 본 발명의 일 실시예에 따른 오디오 인코더의 블록도이다.

도 2는 인코딩된 오디오 신호를 디코딩하는 디코더의 블록도이다.

도 3a는 개방-루프 실시예를 도시한다.

도 3b는 디코더의 특정 실시예를 도시한다.

도 4a는 인코더측의 다른 개방-루프 실시예를 도시한다.

도 4b는 인코더측의 폐-루프 실시예를 도시한다.

도 4c는 임펄스 추출기 및 임펄스 코더가 변형된 ACELP 코더내에 구현된 실시예를 도시한다.

도 5a는 임펄스형 신호 세그먼트로서 시간 영역 음성 세그먼트의 파형을 도시한다.

도 5b는 도 5a의 세그먼트의 스펙트럼을 도시한다.

도 5c는 정적 세그먼트에 대한 예로서 무성음(unvoiced speech)의 시간 영역 음성 세그먼트를 나타낸다.

도 5d는 도 5c의 시간 영역 파형의 스펙트럼을 도시한다.

도 6은 합성 CELP 인코더에 의한 분석의 블록도를 도시한다.

도 7a 내지 도 7d는 임펄스형 및 정적 신호들에 대한 예로서 유성음/무성음 여기 신호들을 나타낸다.

도 7e는 단구간 예측 정보(short-term prediction information) 및 예측 에러 신호를 제공하는 인코더측 LPC 스테이지를 도시한다.

도 8은 도 4a 개방-루프 실시예의 바람직한 실시예를 도시한다.

도 9a는 실제 임펄스형 신호의 파형을 도시한다.

도 9b는 도 8의 임펄스 특성 향상 스테이지에 의해 발생된, 향상된 또는 보다 이상적인 임펄스형 신호를 도시한다.

도 10은 도 4c 실시예에서 구현가능한 변형된 CELP 알고리즘을 도시한다.

도 11은 도 10의 알고리즘의 더 특정적인 실시를 도시한다.

도 12는 도 11의 알고리즘의 특정 실시를 도시한다.

도 13은 도 4c의 다른 변형된 CELP 알고리즘을 도시한다.

도 14는 신호 디코더의 연속적인 동작 및 임펄스 인코더의 간헐적인 동작을 나타내는 동작 모드를 도시한다.

도 15는 신호 인코더가 심리 음향 모델을 포함하는 인코더 실시예를 도시한다.

도 16a는 MP3 또는 MP4 코딩/디코딩 개념을 도시한다.

도 16b는 프리-필터 인코딩 개념을 도시한다.

도 16c는 포스트-필터 디코딩 개념을 도시한다.

도 17a는 LPC 인코더를 도시한다.

도 17b는 LPC 디코더를 도시한다.

도 17c는 능동적으로 가변가능한 워핑된 LPC 필터로 스위칭형 코딩을 구현하는 코더를 도시한다.

도 18은 MPEG-4 스케일러블 인코더를 도시한다.

도 19는 MPEG-4 스케일러블 디코더를 도시한다.

도 20은 ARDOR 인코더의 개략적인 구성을 도시한다.

이하 실시예들의 장점은 지각 오디오 코더를 최적의 품질로 일반적인 오디오 신호들의 코딩을 허용할 뿐만 아니라 음성 신호에 대해 매우 개선된 코딩된 품질을 제공하도록 확장하는 통합된 방법을 제공하는 것이다. 또한, 이들은 오디오 코딩 모드(예컨대, 필터뱅크에 기반한)와 음성 코딩 모드(예컨대, CELP 방식에 기반한) 사이의 하드 스위칭에 관련된 전술한 문제들을 회피할 수 있도록 한다. 대신, 이하의 실시예들은 코딩 모드들 및 툴들의 부드러운/연속적인 결합된 동작을 허용하며, 이러한 방식으로 믹스된 신호들에 대해 더 양호한 전이/혼합(transition/blending)을 달성한다.

이하의 고려사항들은 다음 실시예들에 있어서 기본이 된다.

필터뱅크들을 사용하는 일반적 지각 오디오 코더들은 주파수 상에서 매우 미세한 구조를 가질 수 있지만 시간 상에서는 오히려 정적인 신호들을 나타내는데 매우 적합하다. 필터뱅크-기반 코더들에 의한 일시적인 또는 임펄스형 신호들의 코딩 은 시간 상에서 코딩 왜곡의 훼손(smearing)을 가져오며, 그에 따라 프리-에코(pre-echo) 아티펙트를 발생시킬 수 있다.

음성 신호들의 상당 부분은 어떤 피치 주파수에서 유성음 동안 인간 성문(human glottis)에 의해 생성된 임펄스들의 트레인(trains)을 구성한다. 그러므로, 이들 임펄스 트레인 구조들은 낮은 비트레이트에서 필터뱅크-기반 지각 오디오 코더들에 의해 코딩하는 것이 어렵다.

따라서, 필터뱅크-기반 코딩 시스템에서 최적의 신호 품질을 달성하기 위해, 코더 입력 신호를 임펄스형 구조들 및 다른, 더 정적인 컴포넌트들로 분해하는 것이 바람직하다. 임펄스형 구조들은 전용 코딩 커널(이하, 임펄스 코더라고 칭함)로 코딩될 수 있는 반면, 다른 잔여 컴포넌트들은 일반 필터뱅크-기반 지각 오디오 코더(이하, 잔여 코더라고 칭함)로 코딩될 수 있다. 펄스 코더는 바람직하게 LPC 필터, 펄스 위치들에 관한 정보 등과 같은 전통적인 음성 코딩 방식들로부터의 기능 블록으로 구성되며, 여기 코드북들(excitation codebooks), CELP 등과 같은 기술들을 채용할 수 있다. 코더 입력 신호의 분리는 이하 2개의 조건들이 충족되도록 수행될 수 있다.

(조건 #1) 임펄스 코더 입력을 위한 임펄스형 신호 특성들: 바람직하게, 임펄스 코더는 정적(또는 평편한 톤형인(even tonal)) 신호 컴포넌트들이 아닌, 임펄스적 구조들을 전송하는데 특히 최적화되어 있기 때문에 임펄스 코더로의 입력 신호는 바람직하지 않은 왜곡을 발생하지 않기 위해 임펄스형 구조들만을 포함한다. 다시 말해, 톤형(tone-like) 신호 컴포넌트들을 임펄스 코더에 제공하는 것은 필터 뱅크-기반 코더에 의해 용이하게 보상될 수 없는 왜곡을 초래한다.

(조건 #2) 잔여 코더를 위한 일시적으로 평탄한 임펄스 코더 잔여: 잔여 코더에 의해 코딩된 잔여 신호는 바람직하게 입력 신호의 분리후에, 잔여 신호가 시간 상에서, 펄스들이 펄스 코더에 의해 코딩되는 순간에 조차 정적이 되도록 생성된다. 특히, 잔여의 시간적인 엔벌로프에서 어떠한 "홀(holes)"도 생성되지 않는 것이 바람직하다.

전술한 스위치형 코딩 방식과는 다르게, 임펄스 코딩과 잔여 코딩 사이의 연속적인 결합이 코더들(임펄스 코더 및 잔여 코더)을 가짐으로써 달성되며, 만약 필요하다면 그 관련 디코더들이 병렬적으로, 즉 동시에 동작한다. 특히, 바람직한 동작 방식으로, 잔여 코더는 항상 동작하는 반면, 임펄스 코더는 그 동작이 이익이 되는 경우에만 활성화된다.

제안한 개념의 일부는 최적의 전반적 성능을 달성하기 위해 입력 신호를, 각 부분 코더(임펄스 코더 및 잔여 코더)의 특성들에 최적으로 적합하게 된 부분 입력 신호들로 분리하는 것이다.

하나의 부분 코더는 필터뱅크-기반 오디오 코더(일반 지각 오디오 코더들과 유사함)이다. 따라서, 이 부분 코더는 정적 및 톤 오디오 신호들(스펙트로그램 표현에서 "수평 구조들"에 해당함)을 처리하는 데 매우 적합하지만, 시간 상에서 많은 일시적인 것들(instationarities), 예컨대 과도적인 것들(transients), 공격들(onsets), 또는 임펄스들(스펙트로그램 표현에서 "수직 구조들"에 해당함) 등을 포함하는 오디오 신호를 처리하는데는 적합하지 않다. 이러한 신호를 필터뱅크-기 반 코더로 인코딩하는 것은 시간적 훼손, 프리-에코들 및 출력 신호의 반향 특성을 초래한다.

두번째 부분 코더는 시간 영역 상에서 동작하는 임펄스 코더이다. 따라서, 이 부분 코더는 시간 상에서 많은 일시적인 것들(instationarities), 예컨대 과도적인 것들, 공격들, 또는 임펄스들(스펙트로그램 표현에서 "수직 구조들"에 해당함) 등을 포함하는 오디오 신호을 처리하는 데 매우 적합하지만, 정적 및 톤 오디오 신호들(스펙트로그램 표현에서 "수평 구조들"에 해당함)를 처리하는데는 적합하지 않다. 시간-영역 임펄스 코더로 이러한 신호들을 인코딩하는 것은 내재하는(underlying) 빈약한 시간 영역 표현으로 인해 톤 신호 컴포넌트들의 왜곡 또는 거친 사운딩 텍스쳐들을 발생시킨다.

이들 필터뱅크-기반 오디오 디코더 및 시간-영역 임펄스 디코더의 디코딩된 출력은 (만약 임펄스 코더 및 필터뱅크-기반 코더가 모두 동시에 활성화되면) 전체 디코딩된 신호를 형성하도록 합산된다

도 1은 임펄스형 부분 및 정적 부분을 갖는 오디오 신호(10)를 인코딩하는 오디오 인코더를 도시한다. 일반적으로, 오디오 신호의 임펄스형 부분과 정적 신호의 정적 부분 간의 구별(differentiation)은 임펄스형 특성이 측정되고 정적형 특성이 또한 측정되는 신호 처리 동작을 적용함으로써 만들어질 수 있다. 이러한 측정들은 예컨대, 오디오 신호의 파형을 분석함으로써 이루어질 수 있다. 이를 위해, 임의의 변형-기반(transform-based) 프로세싱 또는 LPC 프로세싱 또는 임의의 다른 프로세싱이 수행될 수 있다. 하나의 부분이 임펄스형이나 그렇지 않느냐를 결정하 는 직관적인 방식(intuitive way)은 예컨대, 시간 영역 파형을 보고, 이 시간 영역 파형이 규칙적인 또는 비규칙적인 간격으로 피크들을 갖느냐를 결정하고, 규칙적 간격의 피크들이 음성형 코더에 더 적합한 지를 결정하는 것이다.

예시적으로, 도 5a 내지 도 5d에 기준이 마련되어 있다. 여기에서, 임펄스형 신호 세그먼트들 또는 신호 부분들 및 정적 신호 세그먼트들 또는 신호 부분들이 예시적으로 설명된다. 특히, 도 5a에 도시된 바와 같은 시간 영역에서의 유성음 및 도 5b에 도시된 바와 같은 주파수 영역에서의 유성음이 임펄스형 신호 부분에 대한 예로서 설명되며, 정적 신호 부분에 대한 예로서 무성음 세그먼트가 도 5c 및 도 5d를 참조하여 설명된다. 음성은 일반적으로 유성음, 무성음 또는 그 혼합으로 분류될 수 있다. 샘플링된 유성음 및 무성음 세그먼트들에 대한 시간-주파수 영역 플롯들이 도 5a 내지 도 5d에 도시되어 있다. 유성음은 시간 영역에서 반-주기적(quasi periodic)이고, 주파수 영역에서 고조파적인 구조를 가지는 반면, 무성음은 랜덤형이고, 광대역이다. 또한, 유성음 세그먼트들의 에너지는 일반적으로 무성음 세그먼트들의 에너지보다 더 높다. 유성음의 단구간 스펙트럼은 그 미세하고 포먼트한(formant) 구조에 의해 특징지워진다. 미세 고조파 구조(fine harmonic structure)는 음성의 반-주기성의 결과이고, 진동하는 성대(vocal chords)에 의한 것이다. 포먼트 구조(스펙트럼 엔벌로프)는 소스와 성도(vocal tract)의 상호작용에 기인한다. 성도는 인두(pharynx) 및 구강(mouth cavity)로 이루어진다. 유성음의 단시간 스펙트럼에 "맞춘" 스펙트럼 엔벌로프의 형상은 성문 진동(glottal pulse)으로 인해 성대의 전달 특성 및 스펙트럼 기울기(6dB/Octave)에 관련된다. 스펙트럼 엔벌로프는 포먼트라고 하는 피크들의 집합에 의해 특징지워진다. 포먼트는 성문의 공명 모드(resonant mode)이다. 평균 성대에 대해 5 kHz 이하에서 3 내지 5 포먼트들이 존재한다. 일반적으로 3 kHz 이하에서 발생하는, 첫번째 3개의 포먼트들의 진폭들 및 위치들은 음성 합성 및 지각 모두에서 매우 중요하다. 더 높은 포먼트들이 또한 광대역 및 무성음(unvoiced speech) 표현을 위해 중요하다. 음성의 속성들(properies)은 하기와 같이 물리적인 음성 생성 시스템에 관련된다. 유성음은 성대를 진동함으로써 발생된 반-주기적 성문 공기 진동으로 성도를 여기함으로써 생성된다. 주기적 펄스의 주파수는 기본 주파수 또는 피치라고 칭한다. 무성음은 성도에서 수축을 통해 공기를 압박함으로써 생성된다. 비음(nasal sound)은 비강(nasal tract)의 성도에 대한 음향적 결합에 기인하며, 파열음(plosive sounds)은 성도에서 폐쇄 뒤에 만들어진 공기압을 갑자기 해제함으로써 생성된다.

따라서, 시간 영역에서의 정적 부분은 우세한 반복 펄스들을 나타내지 않는다는 사실로 인해, 오디오 신호의 정적 부분은 예컨대, 도 5a에 대해 도시된 바와 같은 임펄스형 부분과는 달리, 도 5c에 도시된 바와 같이 시간 영역에서 정적 부분이거나, 주파수 영역에서 정적 부분일 수 있다. 그러나, 하기 설명되는 바와 같이, 정적 부분들과 임펄스형 부분들 간의 구별은 또한 성도 및 성도의 여기를 모델링하는 LPC 방법을 사용하여 수행될 수도 있다. 신호의 주파수 영역 표현이 고려될 때, 정적 스펙트럼이 도 5d에 도시된 바와 같이 완전히 화이트 스펙트럼을 가지는 반면, 임펄스형 신호는 개별적인 포먼트, 즉 도 5b의 현저한 피크들의 현저한 발생을 나타내고, 또는 도 5b의 임펄스형 신호와 같이 고조파 신호의 경우에는 서로로부터 규칙적인 간격을 갖지 않지만 예컨대, 음악 신호에서 발생하는, 특정 톤을 나타내는 일부 현저한 피크들을 갖는 상당히 연속적인 노이즈 플로어(continuous noise floor)를 보여준다.

또한, 임펄스형 부분들과 정적 부분들은 시기적절한 방법으로 발생할 수 있는데, 즉 이는 시간에서 오디오 신호의 한 부분이 정적이고, 시간에서 오디오 신호의 다른 부분이 임펄스형을 가짐을 의미한다. 다르게는, 또는 추가적으로, 신호의 특성은 서로 다른 주파수 대역들에서 서로 다를 수 있다. 따라서, 오디오 신호가 정적인지 임펄스형인지를 결정하는 것은 주파수-선택적으로 수행될 수 있으며, 그에 따라 어떤 주파수 대역 또는 몇 개의 주파수 대역들은 정적인 것으로 고려되고, 다른 주파수 밴드들은 임펄스형인 것으로 고려된다. 이 경우, 오디오 신호의 어떤 시간 부분은 임펄스형 부분과 정적 부분을 포함할 수도 있다.

도 1의 인코더 실시예는 오디오 신호로부터 임펄스형 부분을 추출하는 임펄스 추출기(10)를 포함한다. 임펄스 추출기(10)는 인코딩된 임펄스형 신호를 획득하기 위해 임펄스형 부분을 인코딩하는 임펄스 코더를 포함한다. 이하 설명되는 바와 같이, 임펄스 추출 및 실제적인 인코딩 동작은 서로 분리될 수 있거나, 도 4c에 관련하여 설명한 바와 같이 그 변형된 형태에서 ACELP 알고리즘와 같은 단일 알고리즘을 획득하도록 결합될 수 있다.

임펄스 추출기(10)의 출력은 인코딩된 임펄스 신호(12)이고, 일부 실시예들에서, 임펄스 추출의 종류 또는 임펄스 인코딩의 종류에 관련된 추가적인 보조 정보이다.

도 1의 인코더 실시예는 또한, 인코딩된 잔여 신호(20)를 획득하기 위해 오디오 신호(10)로부터 도출된 잔여 신호(18)를 인코딩하는 신호 인코더(16)를 포함한다. 상세하게, 오디오 신호에서 임펄스형 부분들은 감소하거나, 오디오 신호로부터 완전히 제거되도록 잔여 신호(18)는 오디오 신호(10)로부터 도출된다. 그렇지 않다면, 정적 부분이 임펄스 추출기(10)에 의해 추출되지 않았기 때문에 오디오 신호는 여전히 정적 부분을 포함한다.

또한, 본 발명의 오디오 인코더는 인코딩된 신호(24)를 획득하기 위해 인코딩된 임펄스 신호(12), 인코딩된 잔여 신호(20), 및 가능하다면 보조 정보(14)를 출력하는 출력 인터페이스(22)를 포함한다. 출력 인터페이스(22)는 인코딩된 잔여 신호 및 인코딩된 임펄스 신호가 서로 독립적으로 디코딩될 수 있고, 유용한 신호가 획득되는 방식으로 기록된 스케일러블 데이터스트림을 생성하는 스케일러블 데이터스트림 인터페이스일 필요는 없다. 인코딩된 임펄스 신호 및 인코딩된 잔여 신호 어느 쪽도 수용할만한 오디오 품질을 갖는 오디오 신호가 될 수 없다는 사실로 인해, 다른 신호 없이 오직 하나의 신호의 표현은 바람직한 실시예들에서 어떠한 의미도 가지지 않는다. 따라서, 출력 인터페이스(22)는 데이터스트림 및, 스케일러블 방식으로 디코딩되는지 그렇지 않는지에 대해 우려할 필요없이, 완전히 비트-효율적인 방식으로 동작할 수 있다.

바람직한 실시예에서, 본 발명의 오디오 디코더는 잔여 신호 발생기(26)를 포함한다. 잔여 신호 발생기(26)는 오디오 신호(10) 및 추출된 임펄스 신호 부분들에 관련된 정보(28)를 수신하고, 추출된 신호 부분들을 포함하지 않는 잔여 신 호(18)를 출력하도록 구성된다. 구현에 따라, 잔여 신호 발생기(26) 또는 신호 인코더(16)는 보조 정보를 또한 출력할 수 있다. 그러나, 보조 정보(14)의 출력 및 전송은, 디코더가 어떤 구성으로 미리 설정될 수 있고, 인코더가 이들 구성에 따라 동작하는 한 본 발명의 인코더가 어떠한 추가적인 보조 정보를 생성하거나 전송할 필요가 없다는 사실로 인해, 필수적으로 요구되지는 않는다. 그러나, 인코더측 및 디코더측에서 어떤 유연성이 있어야만 한다면, 또는 순수한 감산(pure subtraction)과는 다른 잔여 신호 발생기의 특정 동작이 있어야만 한다면, 디코더 및 특히, 디코더 내의 결합기는 어떠한 홀도 없이 평탄한 비임펄스형 잔여 신호를 가지도록 인코더측에만 제공된, 디코딩된 잔여 신호의 부분들을 무시하도록, 디코더에 보조 정보를 전송하는 것이 유용할 수 있다.

도 2는 출력 인터페이스(22)에 의해 출력된 신호와 동일 신호인 인코딩된 오디오 신호(24)를 디코딩하는 바람직한 디코더 실시예를 도시한다. 일반적으로, 인코딩된 오디오 신호(24)는 인코딩된 임펄스형 신호 및 인코딩된 잔여 신호를 포함한다. 디코더는 인코딩된 오디오 신호(24)로부터 인코딩된 임펄스 신호(12), 인코딩된 잔여 신호(20) 및 보조 정보(14)를 추출하는 디코더 입력 인터페이스(28)를 포함한다. 인코딩된 임펄스 신호(12)는 인코딩된 임펄스형 신호를 발생시키는데 사용되는 코딩 알고리즘, 즉, 도 12의 블록(10)에서 사용되는 코딩 알고리즘에 적합한 디코딩 알고리즘을 사용하여 인코딩된 임펄스형 신호를 디코딩하는 임펄스 디코더(30)로 입력된다. 도 2의 디코더는 인코딩된 잔여신호를 발생시키는데 사용되는 코딩 알고리즘 즉, 도 1의 블록(16)에서 사용된 코딩 알고리즘에 적합한 디코딩 알고리즘을 사용하여 인코딩된 잔여 신호를 디코딩하는 신호 디코더(32)를 더 포함한다. 양 디코더들(30 및 32)의 출력 신호들은 디코딩된 출력 신호(36)를 제공하도록 디코딩된 임펄스-형 신호 및 디코딩된 잔여 신호를 결합하는 신호 결합기(34)의 입력으로 모두 전달된다. 특히, 신호 디코더(32) 및 임펄스 디코더(30)는 디코딩된 오디오 신호 대신에, 디코딩된 오디오 신호의 선택된 부분들을 위해 동일 시간에 관련된 출력 값들을 제공하도록 동작한다.

도 14와 관련하여 특성이 설명된다. 도 14는 140에서 신호 디코더(32)의 출력을 도식적으로 나타낸다. 도 14는 신호 디코더의 출력(140)이 연속적으로 존재함을 나타낸다. 이는 신호 디코더(및 대응하는 신호 인코더)가 오디오 신호가 존재하는 한, 연속적으로 동작하고, 출력 신호를 항상 제공함을 의미한다. 당연하게, 오디오 트랙이 끝나는 경우에만, 어디에도 인코딩할 입력 신호가 없기 때문에 신호 디코더는 그 출력을 중지한다.

도 14의 제2 라인은 임펄스 디코더 출력(142)을 나타낸다. 특히, 도 14에는 원래의 오디오 신호가 시간 부부들(143)에서 어떠한 정적 부분들을 갖지 않는 다는 사실에 따라 임펄스 디코더 출력이 존재하지 않는 이들 부분들(143)이 존재함을 나타낸다. 그러나, 다른 시간 부분들에서, 신호는 정적 컴포넌트들 및/또는 임펄스형 컴포넌트들을 가지며, 임펄스형 컴포넌트들은 임펄스 디코더 출력에 의해 생성된다. 따라서, 시간 부분들(142)에서, 2개의 디코더들 모두는 디코딩된 신호의 동일 시간 순간에 관련된 출력 값들을 제공한다. 그러나, 시간 부분들(143)에서는, 출력 신호는 잔여 신호 디코더 출력으로만 구성되며, 임펄스 디코더로부터 어떠한 기여도 갖지 않는다.

도 3a는 소위 개방-루프 구성의 인코더의 바람직할 실시예를 도시한다. 임펄스 추출기(10)는 라인(40)으로 지시된 비-인코딩된 임펄스 신호를 발생시키는 일반적인 임펄스 추출기를 포함한다. 임펄스 추출기는 10a로 지시되어 있다. 임펄스 신호(40)는 최종적으로 인코딩된 임펄스 신호(12)를 출력하는 임펄스 코더(10b)로 전달된다. 라인(28)의 임펄스 신호에 대한 정보는 임펄스 추출기(10a)에 의해 추출된 비-인코딩된 임펄스 신호에 대응한다. 이 잔여 신호 발생기(26)는 잔여 신호(18)를 획득하기 위해 오디오 신호(10)로부터 라인(28)의 비-인코딩된 임펄스 신호를 감산하는 감산기(subtractor)로서 도 3a에서 구현된다.

바람직하게, 신호 인코더(16)는 필터뱅크 기반 오디오 인코더가 더이상 어떠한 임펄스형 부분들도 갖지 않는, 또는 임펄스형 부분들이 원래의 오디오 신호(10)에 대해 적어도 감쇄되어 있는 잔여 신호를 인코딩하는데 특히 유용하기 때문에, 필터뱅크 기반 오디오 인코더로서 구현된다. 따라서, 신호는 그 출력에서 부분 코더들의 입력 신호들을 제공하도록 설계된 제1 프로세싱 스테이지(10a)를 통과한다. 상세하게, 분리 알고리즘(splitting algorithm)은 전술한 조건 1(임펄스 코더는 임펄스형 신호들을 수신한다) 및 조건 2(잔여 코더를 위한 잔여 신호는 시간적으로 평탄하다)을 충족시키는, 라인 40 및 18의 출력 신호들을 발생시키도록 동작한다. 따라서, 도 3a에서 설명한 바와 같이, 임펄스 추출 모듈(10a)은 오디오 입력 신호(10)로부터 임펄스 신호를 추출한다.

잔여 신호(18)는 오디오 입력으로부터 임펄스 신호를 제거함으로써 생성된다. 이 제거는 도 3a에 도시된 바와 같이 감산에 의해 이루어질 수 있지만, 또한 오디오 신호의 임펄스형 영역을, 적절한 시간-가변 스케일링(time-variant scaling)에 의해, 또는 임펄스형 영역의 좌측 영역과 우측 영역 사이에서 보간에 의해 원래의 오디오 신호(10)으로부터 도출될 수 있는 약임펄스형(평편해진) 신호로 대체하는 것과 같은 다른 측정들에 의해 수행될 수 있다. 연속적인 병렬 코딩 스테이지들(10b, 16)에서, 임펄스 신호(존재한다면)는 전용 임펄스 코더(10b)에 의해 코딩되고, 잔여 신호는 필터뱅크-기반 코더(16)에 의해 바람직하게 코딩된다.

오디오 신호의 시간 부분이 임펄스형으로 검출된 다른 바람직한 실시예에서, 이 시간 부분의 순수 절단(cutting out) 동작 및 이 부분만을 임펄스 코더로 인코딩하는 것은 신호 코더를 위한 잔여 신호에 홀을 초래할 수 있다. 신호 인코더에 대한 문제가 되는 불연속인 이러한 홀을 피하기 위해, "홀"로 도입된 신호는 합성된다. 이 신호는 이하 설명되는 바와 같이, 보간 신호 또는 원래의 신호의 가중된 버전 또는 어떤 에너지를 갖는 노이즈 신호가 될 수 있다.

일 실시예에서, 이 보간된/합성된 신호는 임펄스형 절단(cut out) 신호 부분으로부터 감산되어 이 감산 동작(그 결과는 임펄스형 신호이다)의 결과만이 임펄스 코더에 전달된다. 이 실시예는 -디코더측에서- 잔여 코더의 출력 및 임펄스 디코더의 출력이 디코딩된 신호를 획득하기 위해 결합될 수 있도록 한다. 이 실시예에서, 2개의 출력 디코더들에 의해 획득된 모든 신호들은 항상 사용되고 출력 신호를 획득하기 위해 결합되며, 이들 디코더들 중 어느 하나로부터의 출력에 대한 어떠한 폐기도 발생하지 않는다.

이하, 감산과는 상관없는 잔여 신호 발생기(26)의 다른 실시예들이 설명된다.

전술한 바와 같이, 오디오 신호의 시간-가변 스케일링이 이루어질 수 있다. 상세하게, 오디오 신호의 임펄스형 부분이 검출되자 마자, 스케일링 인자가 0.5 보다 작은 예컨대, 0.1 보다도 작은 스케일링 인자 값을 갖는, 오디오 신호의 시간 영역 샘플들을 스케일링하는데 사용될 수 있다. 이는 오디오 신호가 임펄스형인 시간 구간에서 잔여 신호의 에너지를 감소시킨다. 그러나, 이 임펄스형 구간에서 원래의 오디오 신호를 단순히 0으로 세팅하는 것과 다르게, 잔여 신호 발생기(26)는 잔여 신호가 필터뱅크 기반 오디오 코더(16)에 대해 매우 문제가 될 수 있는 일시적인 것들인, 어떠한 "홀"도 갖지 않도록 보장한다. 다른 한편으로, 작은 스케일링 인자와 곱셈된 원래의 오디오 신호인, 임펄스형 시간 부분 동안의 인코딩된 잔여 신호는 디코더측에서 사용되지 않을 수 있거나, 매우 적은 정도만 디코더측에서 사용될 수 있다. 이 사실은 어떤 추가적인 보조 정보(14)에 의해 나타낼 수 있다. 따라서, 이러한 잔여 신호 발생기에 의해 생성된 보조 정보 비트는 스케일링 인자가 오디오 신호에서 임펄스형 부분을 다운-스케일링하기 위해 사용되었는 지를 또는, 스케일링 인자가 개별적인 부분들을 디코딩한 후에 원래의 오디오 신호를 정확하게 조립하기 위해 디코더측에서 사용될 수 있음을 나타낼 수 있다.

잔여 신호를 발생하는 다른 방식은 원래의 오디오 신호의 임펄스형 부분을 절단하고, 연속적이지만 더 이상 임펄스형이 아닌 오디오 신호를 제공하기 위해 임펄스형 부분의 시작 또는 끝에서 오디오 신호를 사용하여 상기 절단 부분을 보간하는 것이다. 이 보간은 또한 임펄스 코딩 또는 신호 코딩에 관한 정보 또는 잔여 신호 발생 특징을 일반적으로 제공하는, 특정 보조 정보 비트(14)에 의해 알릴 수 있다. 디코더측에서, 결합기(combiner)는 보간된 부분의 디코딩된 표현을 완전히 제거하거나, 적어도 어느 정도 감쇄할 수 있다. 그 정도 또는 지시는 어떤 보조 정보(14)에 의해 알릴 수 있다.

또한, 페이드-인 및 페이드-아웃이 발생하도록 잔여 신호를 제공하는 것이 바람직하다. 따라서, 시간-가변 스케일링 인자는 작은 값으로 갑자기 설정되지 않지만, 작은 값까지 연속적으로 감소되며, 임펄스형 부분의 끝에서 또는 그 끝 부근에서, 작은 스케일링 인자는 임펄스형 특징을 갖지 않는 오디오 신호 부분에 대해 정규 모드(regular mode)에서의 스케일링 인자, 즉, 1의 작은 스케일링 인자까지 연속적으로 감소된다.

도 3b는 도 3a의 인코더에 대응하는 디코더를 도시하는데, 여기에서 도 2의 신호 디코더(32)는 필터뱅크 기반 오디오 디코더로서 구현되는 반면, 신호 결합기(34)는 샘플-방식 가산기(sample-wise adder)로서 구현된다.

다르게는, 신호 결합기(34)에 의해 수행된 결합은 임펄스 디코더(30) 및 필터뱅크 기반 오디오 디코더(32)가 주파수 영역 또는 서브밴드 영역에서 출력 신호를 제공하는, 주파수 영역 또는 서브밴드 영역에서 수행될 수도 있다.

또한, 결합기(34)는 샘플-방식 가산을 필수적으로 수행할 필요는 없지만, 결합기는 시간 가변 스케일링 동작을 적용하기 위해, 인코더측 페이드-인 및 페이드-아웃 동작을 보상하기 위해 그리고, 삽입, 보간 또는 시간-가변 스케일링 등에 의해 잔여 신호를 평편하게 하도록 인코더측에서 발생되어진 신호 부분들을 다루기 위해 도 1, 도 2 및 도 3a와 관련하여 설명한 바와 같이 보조 정보(14)와 같은 보조 정보에 의해 또한 제어될 수 있다. 잔여 신호 발생기(26)가 도 3a에 도시된 바와 같이 샘플-방식 감산을 수행하도록 동작하면, 디코더측 결합기(34)는 어떠한 추가의 보조 정보도 필요로 하지 않으며, 페이딩, 페이드 아웃 또는 신호 스케일링과 같은 어떠한 추가적인 프로세싱 단계들 없이 샘플-방식 가산을 수행한다.

유성음 신호들에 대해, LPC 필터에 의해 반대로 될 수 있는 여기 신호 즉, 성문 임펄스들은 사람의 성도에 의해 필터링된다. 따라서, 성문 임펄스들에 대해 대응하는 임펄스 여기는 도 4a에 도시된 바와 같은 여기 신호를 산출하기 전에, 추가적으로 개방-루프 구현인, 실제 임펄스 검출(picking) 스테이지 및 LPC 합성 이전에 LPC 분석을 포함할 수 있다.

상세하게는, 오디오 신호(8)는 LPC 분석 블록(10a)로 입력된다. LPC 분석 블록은 예컨대, 도 9a에 도시된 바와 같은 실제 임펄스형 신호를 생성한다. 이 신호는 임펄스 검출 스테이지(10c)로의 입력에서 실제 임펄스형 신호에 비해 이상적인 또는 적어도 더 이상적인 임펄스형 신호인 임펄스 신호를 출력하기 위해 예컨대, 도 9a에 도시된 바와 같은 실제 임펄스형 신호를 처리하는 임펄스 검출 스테이지(10c)로 입력된다. 이 임펄스 신호는 이어서 임펄스 코더(10b)에 입력된다. 임펄스 코더(10b)는 이 코더가 이러한 임펄스형 신호들에 대해 특히 적합하다는 사실에 의해 그리고, 라인 48의 입력 임펄스 신호가 이상적이거나 거의 이상적인 임펄스 신호라는 사실에 의해, 입력 임펄스형 신호의 고품질 표현을 제공한다. 도 4a 실시예에서, 도 1의 "임펄스 신호에 관한 정보"에 대응하는 라인 48의 임펄스 신호는 "LPC 영역"에 존재하는 이상적인 임펄스형 신호를 다시 시간 영역으로 "변환(transform")하기 위해 LPC 합성 블록(26b)으로 입력된다. 따라서, LPC 합성 블록(26b)의 출력은 감산기(26a)로 입력되며, 그에 따라 원래의 오디오 신호이지만 라인(48 또는 28) 상의 이상적인 임펄스 신호에 의해 표현되는 펄스 구조를 더 이상 포함하지 않는, 잔여 신호(18)가 생성된다. 따라서, 도 1의 잔여 신호 발생기(26)는 도 4a에서 LPC 합성 블록(26b) 및 감산기(26a)로서 구현된다.

LPC 분석(10a) 및 LPC 합성(26b)의 기능은 도 7a 내지 도 7e, 도 8, 및 도 9a 내지 도 9b를 참조하여 더 상세히 이하 설명된다.

도 7a는 선형 음성 생성 시스템의 모델을 도시한다. 이 시스템은 2-스테이지 여기, 즉, 도 7a에 도시된 바와 같은 유성음을 위한 임펄스-트레인 및 도 7d에 도시된 바와 같은 무성음을 위한 랜덤 노이즈를 가정한다. 성도는 성문 모델(72)에 의해 발생된, 도 7c 또는 도 7d의 펄스들을 처리하는 전-극(all-pole) 변환 필터(70)로서 모델링된다. 전극 전달 함수(all-pole transfer function)는 포먼트들을 나타내는 적은 개수의 2-극 공명기들의 캐스케이드에 의해 형성될 수 있다. 성문 모델은 2-극 로우패스 필터로서 표현되며, 입술-전파 모델(lip-radiation model)(74)은 L(z)=1-z^-1에 의해 표현된다. 최종적으로, 스펙트럼 정정 인자(76)는 더 높은 차수의 극들의 저-주파수 효과를 보상하기 위해 포함된다. 개별적인 음성 표현들에서, 스펙트럼 정정은 생략되며, 0의 입술 전파 함수는 성문 극들중 하나에 의해 필수적으로 제거된다. 따라서, 도 7a의 시스템은 이득 스테이지(77), 전달 경로(78), 피드백 경로(79) 및 가산 스테이지(80)를 갖는 도 7b의 전-극 모델로 감소될 수 있다. 피드백 경로(79)에서, 예측 필터(81)가 존재하는데, 도 7b에 도시된 전체 소스-시스템 합성 모델은 다음과 같이 z-영역 함수를 이용하여 표현될 수 있다.

여기에서, g는 이득을 나타내며, A(z)는 LPC 분석에 의해 결정된 예측 필터이고, X(z)는 여기 신호이고, S(z)는 합성 음성 출력이다.

도 7c 및 도 7d는 선형 소스 시스템 모델을 사용한 유성음과 무성음 합성의 그래픽적인 시간 영역 묘사를 제공한다. 상기 수식에서 이 시스템 및 여기 파라미터들은 공지되어 있지 않으며, 유한한 음성 샘플 집합들로부터 결정되어야 한다. A(z)의 계수들은 선형 예측을 사용하여 획득된다. p-번째 차수 전달 선형 예측기(p-th order forward linear predictor)에서, 음성 시퀀스의 현재의 샘플은 t개의 과거 샘플들의 선형 결합으로부터 예측된다. 예측기 계수들은 레빈슨-더빈(Levinson-Durbin) 알고리즘 또는 일반적으로 자기상관 방법 또는 반사 방법과 같은 공지된 알고리즘에 의해 결정될 수 있다.

도 7e는 도 4a의 LPC 분석 블록(10a)의 더 상세한 구현을 나타낸다. 오디오 신호는 필터 정보 A(z)를 결정하는 필터 결정 블록으로 입력된다. 이 정보는 디코더를 위해 요구되는 단구간 예측 정보로서 출력된다. 도 4a 실시예에서, 단구간 예측 정보는 임펄스 코더 출력 신호를 위해 요구될 수 있다. 그러나, 라인(84)에서 예측 에러 신호만이 요구될 때, 단구간 예측 정보는 출력되지 않는다. 그렇지 않다면, 단구간 예측 정보는 실제 예측 필터(85)에 의해 요구된다. 감산기(86)에서, 오 디오 신호의 현재의 샘플이 입력되고, 현재의 샘플에 대해 예측된 값은, 이 샘플에 대해, 예측 에러 신호가 라인(84)에서 생성되도록 감산된다. 이러한 예측 에러 신호 샘플들의 시퀀스는 도 9a에 매우 도식적으로 나타나 있는데, 명확함을 위해 AC/DC 컴포넌트들에 관한 어떠한 사항들도 도시되지 않는다. 그러므로, 도 9a는 일종의 수정된 임펄스형 신호로서 고려될 수 있다.

도 8이 이하 상세히 설명된다. 도 8은 도 4a와 유사하지만 블록(10a) 및 블록(26b)를 더 상세히 나타낸다. 또한, 임펄스 특성 향상 스테이지(10c)의 일반적인 기능이 설명된다. 도 8의 LPC 분석 스테이지(10a)가 도 7e에 상세히 도시된 바와 같이 구현될 수 있는데, 여기에서 단구간 예측 정보 A(z)는 합성 스테이지(26b)에 입력되고, "실제 임펄스형 신호"인 예측 에러 신호는 라인(84)에서 출력된다. 신호가 합성되는 것을 즉, 음성 컴포넌트들과 다른 컴포넌트들을 포함하는 것을 가정하면, 실제 임펄스형 신호는 수정된 표현에서, 도 9a에 대응하는, 도 7c 및 도 7d의 여기 신호들의 중첩(superposition)으로서 고려될 수 있다. 추가적으로 정적 컴포넌트들을 갖는 실제 임펄스형 신호가 있을 수 있다. 이들 정적 컴포넌트들은 그 출력에서 예컨대, 도 9b에 유사한 신호를 제공하는 임펄스 특성 향상 스테이지(10c)에 의해 제거된다. 다르게는, 블록(10c)에 의해 출력된 신호는 순수 피크 검출의 결과가 될 수 있는데, 이는 피크의 좌측으로 일부 샘플들로부터 시작하여 피크의 우측으로 일부 샘플들에서 끝나는 임펄스가 도 9a에서 신호로부터 검출되고, 여기에서 피크들 사이의 도 9a의 신호의 신호 샘플들은 완전히 폐기된다. 이는 임펄스들은 이상적인 DIRAC 펄스들은 아니지만 어떤 임펄스 폭을 갖는다는 차이점을 제외하고 도 7c에 도시된 신호와 유사한 신호가 블록(10c)에 의해 발생됨을 의미한다. 또한, 임펄스 특성 향상 스테이지(10c)는 각 피크가 도 9b에 도식적으로 나타난 동일한 높이와 형상을 가지도록 피크들을 처리하도록 동작할 수 있다.

블록(10c)에 의해 발생된 신호는 임펄스 코더(10b)에 대해 이상적으로 적합하며, 임펄스 코더는 적은 개수의 비트들을 요구하고, 매우 적은 양의 양자화 에러 없이 또는 이들만을 가지고 이상적인 임펄스형 신호의 표현인, 인코딩된 표현을 제공한다.

도 8의 LPC 합성 스테이지(26b)는 1의 이득 또는 1이 아닌 이득을 갖는, 도 7b의 전-극 모델과 정확히 동일한 방식으로 구현될수 있으며, 그에 따라 블록(26b에 도시된 바와 같은 전달 함수는 시간 영역에서 블록(10c)의 출력에서 이상적인 임펄스형 신호의 표현을 갖기 위해 구현되는데, 즉, 감산과 같은 샘플-방식 결합이 블록(26a)에서 수행될 수 있다. 그런 다음, 블록(26a)의 출력은 이상적인 경우에는 오디오 신호의 정적 부분만을 포함하고 더이상 오디오 신호의 임펄스형 부분을 포함하지 않는 잔여 신호가 된다. "에러"는 잔여 신호에 포함되어 손실된 상태가 아니므로, 피크 검출과 같은, 블록(10c)에서 임펄스 특성 향상 동작을 수행함으로써 발생된 어떠한 정보 손실도 문제가 되지 않는다. 그러나, 중요하게도, 스테이지(10c)에 의해 검출된 임펄스들의 위치들은 오디오 신호(8)에서의 임펄스 위치들을 정확히 나타내며, 그에 따라 원래의 오디오 신호(8)에서 펄스는 블록(26a)에 의한 결합 동작으로 인해 제거되었기 때문에, 블록(26a)에서의 이들 신호들의 결합은 특히 감산에 의해 만들어졌다면, 서로 매우 인접한 두개의 펄스들이 되지 않고, 어떠한 펄스도 갖지 않은 신호를 초래한다.

이 특징은 소위 "개방-루프 실시예"의 장점이며, 도 4b에 도시된 소위 "폐-루프 실시예"의 단점이 될 수 있다. 도 4b는 임펄스 코더 출력 신호가 도 1의 잔여 신호 발생기(26)의 부분인 임펄스 디코더(26e)로 입력된다는 점에서 도 4a와 다르다. 임펄스 코더(10b)가 양자화 에러를 펄스들의 위치들로 유입하면, 이들 에러들이 임펄스 디코더(26c)의 동작에 의해 보상되지 않을 때, 블록(26a)에서의 감산 동작은 오디오 신호에서 원래의 펄스들을 가질 뿐 아니라 이들 펄스들의 이웃에서 감산 동작으로 인해 유입되어진 추가적인 펄스들을 가지는 잔여 신호를 초래한다. 이러한 상황을 피하기 위해, 결합기(26)는 샘플-방식 감산을 수행할 뿐 아니라 임펄스 디코더(26c) 출력 신호의 분석을 수행하여 동기화된 감산이 획득된다.

"폐 루프" 동작은 케스케이드형 분리 동작으로서 고려될 수 있다. 2개의 부분 코더들중 하나(바람직하게 임펄스 코더)는 입력 신호의 적절한 부분(바람직하게 성문 임펄스)을 수용하도록 튜닝된다. 그런 다음, 다른 부분 코더(16)는 원래의 신호와 제1 부분 코더로부터의 디코딩된 신호 사이의 차이 신호로 구성된 잔여 신호가 공급된다. 임펄스 신호는 먼저 코딩되고 디코딩되고, 양자화된 출력은 필터뱅크-기반 오디오 코더에 의해 코딩되는, 폐-루프 방식에서 잔여 신호를 발생하기 위해 오디오 입력으로부터 감산된다.

일 예로서, CELP 또는 ACELP 코더는 도 4c에 도시된 바와 같이 효율적인 임펄스 코더로서 사용될 수 있으며, 이하 상세히 설명된다. 그러나, 바람직하게, CELP 또는 ACELP 루틴은 코더가 톤의 또는 매우 정적인 신호 컴포넌트를 모델링하는 것을 시도하기 보다는, 입력 신호의 임펄스적인 부분들을 모델링하도록 변형된다. 다시 말해, 어떤 개수의 임펄스들은 임펄스적인 신호 부분들을 모델링하는데 사용되면, 신호의 다른 부분들을 모델링하기 위한 그 이상의 임펄스들의 할당은 역효과적이며, 전체 출력 신호의 품질을 저하시킬 것이다. 따라서, 예컨대 도 10에서 1000으로 도시된, 적절한 프리프로세서 또는 제어기는 모든 실제 발생하는 임펄스들이 모델링되면 임펄스 할당 과정을 종료한다.

또한, 도 4c의 필터뱅크-기반 코더(16)로 코딩하는데 적합하게 되도록, 임펄스 코더 출력 신호로부터의 제거 후의 잔여는 조건 넘버 2를 충족하기 위해 시간 상에서 평편하게 되도록 구성된다.

따라서, 도 4c는 변경된 ACELP 코더(10)는 임펄스 추출기 및 임펄스 코더로서 동작하는 이 방법을 도시한다. 다시, 도 1의 잔여 신호 발생기(26)는 오디오 신호로부터 임펄스형 부분들을 제거하도록 감산(26a)을 사용하지만, 또한 전술한 바와 같이, 평편하게 만들기 또는 보간과 같은 다른 방법들이 적용될 수 있다.

신호가 임펄스 신호과 잔여 신호로 먼저 분리되고, 이 두 신호 부분들은 개별적으로 코딩되고, 임펄스 코더 및 필터뱅크-기반 오디오 코더 모두에서 손실 코딩, 즉 양자화에 관련되는 도 4b의 개방-루프 구현의 단점은 두 개의 코더들의 양자화 에러가 제어되어야 하고, 지각적으로 개별 최소화되어야 한다는 점이다. 이는 디코더 출력에서 이들 양자화 에러들이 합산된다는 사실에 기인한다.

그러나, 개방-루프 구현의 장점은 임펄스 추출 스테이지가 깨끗한 임펄스 신호를 생성하고, 양자화 에러에 의해 왜곡되지 않는 점이다. 따라서, 임펄스 코더에서 양자화는 잔여 신호에 영향을 주지 않는다.

그러나, 이들 구현들은 일종의 혼합 모드를 구현하기 위해 혼합될 수 있다. 따라서, 개방-루프 및 폐-루프 방법들로부터의 컴포넌트들은 함께 구현된다.

효율적인 임펄스 코더는 일반적으로 개별적인 값들 및 임펄스들의 위치들을 양자화한다. 혼합된 개방/폐-루프 모드에 대한 하나의 선택사항은 잔여 신호를 산출하는데 양자화된 임펄스 값들 및 정확한/양자화되지 않은 임펄스 위치들을 사용하는 것이다. 다르게는, 임펄스형 신호들의 검출을 위해 반복 CELP 분석-합성 프로세스가 사용될 수 있지만, 작은 양자화 에러로 임펄스들의 위치를 양자화하거나 하지 않는, 임펄스 신호를 실제로 코딩하기 위한 전용 코딩 툴이 구현된다.

이하, 도 10 내지 도 13에 도시된 바와같이 이 알고리즘에 적용되는 변경들을 설명하기 위해 분석-합성 CELP 인코더가 도 6을 참조하여 설명된다. 이 CELP 인코더는 "Speech Coding: A Tutorial Review'" Andreas Spanias, Proceedings of the IEEE, Vol. 82, No. 10, October 1994, pages 1541-1582 에 상세히 설명되어 있다. 도 6에 도시된 CELP 인코더는 장구간 예측 컴포넌트(60) 및 단구간 예측 컴포넌트(62)를 포함한다. 또한, 64에 의해 지시된 코드북이 사용된다. 지각 가중 필터 W(z)는 66에서 구현되고, 에러 최소화 제어기는 68에서 제공된다. s(n)은 예컨대, LPC 분석 스테이지(10a)에 의해 발생된 여기 신호이다. 이 신호는 또한 도 7e의 라인 84에서 지시된 바와 같이 "예측 에러 신호"라고 칭한다. 지각적으로 가중한 후에, 가중된 예측 에러 신호는 블록(66)의 출력에서 합성 신호와 실제 가중된 예측 에러 신호 s(w)(n) 사이의 에러를 계산하는 감산기(69)로 입력된다. 일반적으 로, 단구간 예측 A(z)는 도 7e에 도시된 바와 같이, LPC 분석 스테이지에 의해 계산되며, 이 정보에 따라, 장구간 예측 이득 g 및 벡터 양자화 인덱스, 즉, 코드북 참조들(references)을 포함하는 장구간 예측 정보 A_L(z)가 계산된다. CELP 알고리즘은 예컨대, 가우시안 시퀀스들의 코드북을 이용하여 여기를 인코딩한다. ACELP 알고리즘(여기에서, "A"는 "Algebraic"를 의미한다)은 특정한 대수적으로 설계된 코드북을 갖는다.

코드북은 각 벡터가 어떤 샘플 길이(some samples long)일 때 그 이상 또는 그 이하의 벡터들을 포함할 수 있다. 이득 인자 g는 여기 벡터를 스케일링하고, 여기 샘플들은 장구간 합성 필터 및 단구간 합성 필터에 의해 필터링된다. "최적의" 벡터는 지각적으로 가중된 평균 제곱 에러가 최소화되도록 선택된다. CELP에서 서치 프로세스는 도 6에 도시된 분석-합성 방식으로부터 명백하다.

이하, 예시적인 ACELP 알고리즘이 도 4c를 참조하여 설명된 본 발명의 실시예에 따라 수행된 변경을 추가적으로 도시하는 도 10을 참조하여 설명된다.

출판물 "A simulation tool for introducing Algebraic CELP (ACELP) coding concepts in a DSP course", Frontiers in Education Conference, Boston, Massachusetts, 2002, Venkatraman Atti 및 Andreas Spanias, 는 대학 과정에서 코드 여기된 선형 예측(CELP) 코딩 개념을 소개하는 교육적인 툴의 설명을 개시한다. 기반의 ACELP 알고리즘은 프리-프로세싱 및 LPC 분석 스테이지(1000), 개방-루프 피치 분석 스테이지(1002), 폐-루프 피치 분석 스테이지(1004) 및 대수학적(고정) 코드북 서치 스테이지(1006)를 포함하는 몇 개의 스테이지들을 포함한다.

프리-프로세싱 및 LPC 분석 스테이지에서, 입력 신호는 하이-패스 필터링되고 스케일링된다. 140 Hz의 차단 주파수(cut-off frequency)를 갖는 2차 극-제로 필터는 하이-패스 필터링를 수행하는 데 사용된다. 고정된-포인트 구현에서 오버플로우의 가능성을 감소시키기 위해, 스케일링 동작이 수행된다. 그런 다음, 프리프로세싱된 신호가 30 ms(240 샘플들) 비대칭 윈도우를 사용하여 윈도우잉된다. 어떤 오버랩이 또한 구현된다. 그런 다음, 레빈슨-더빈(Levinson-Durbin) 알고리즘을 사용하여, 선형 예측 계수들이 윈도우잉된 음성에 대응하는 자기상관 계수들로부터 계산된다. LP 계수들은 라인 스펙트럼 쌍들로 변환되고 나중에 양자화되어 전송된다. 레빈슨-더빈 알고리즘은 추가적으로, 가중된 음성 신호의 자기상관의 최대값을 서치하고, 그 최대값에서 그 지연을 판독함으로써 개방-루프 피치 T_op를 계산하는 개방-루프 피치 분석 블록에서 사용되는 반사 계수들을 출력한다. 이 개방-루프 피치에 기반하여, 폐-루프 피치 서치 스테이지(1004)는 T_op 부근의 작은 범위의 샘플들을 서치하여, 결국 높은 정확도의 피치 지연 및 장구간 예측 이득을 출력한다. 이 장구간 예측 이득은 추가적으로 대수적 고정 코드북 서치에 사용되며, 최종적으로 양자화된 이득 값들로서 다른 파라메트릭 정보와 함께 출력된다. 이 대수적 코드북은 펄스 위치, 펄스 개수, 인터리빙 깊이 및 펄스 위치들을 설명하는 비트들의 수에 참조가 달린, 특정 코드북 구조를 갖는 몇 개의 넌제로 엘리먼트들을 포함하는 인터리빙된 교환 코드들 집합으로 이루어져 있다. 서치 코드북 벡터는 그 부호들과의 곱셈이 또한 수행되는 발견된 위치들에, 선택된 양의 단위 펄스들을 위치시킴으로써 결정된다. 코드북 벡터에 기초하여, 모든 이용가능한 코드 벡터들 중에서 가장 적합한 코드 벡터를 선택하는 어떤 최적화 동작이 수행된다. 그런 다음, 펄스 위치들 및 가장 적합한 코드 벡터로 획득되는 펄스들의 시간들은 인코딩되어 파라메트릭 코딩 정보로서 양자화된 이득 값들과 함께 전송된다.

ACELP 출력 신호의 데이터 레이트는 할당된 펄스들의 개수에 좌우된다. 단일 펄스와 같은, 적은 개수의 펄스들에 대해서, 작은 비트레이트가 획득된다. 더 많은 개수의 펄스들에 대해, 7.4 kb/s로부터 5개의 펄스들에 대해, 결과적인 8.6 kb/s의 비트레이트로 10개의 펄스들에 대해 12.6 kb/s 비트레이트까지 비트레이트가 증가한다.

도 4c에 도시된 바와 같은 본 발명의 바람직한 실시예에 따라, 변경된 ACELP 코더(10)가 펄스 개수 제어 스테이지(1000)를 포함한다. 상세하게, 펄스 개수 제어 스테이지는 폐-루프 피치 분석에 의해 출력된 LTP 이득을 측정하고 LTP 이득이 낮다면 펄스 개수 제어를 수행한다. 낮은 LTP 이득은 실제로 프로세스된 신호가 그렇게 임펄스-트레인형이 아닌 것을 나타내고 , 높은 LTP 이득은 실제 신호가 임펄스형이고, 그에 따라 ACELP 인코더에 대해 매우 적합함을 나타낸다.

도 11은 도 10의 블록(1000)의 바람직한 구현을 도시한다. 상세하게, 블록(1010)은 LTP 이득이 미리 결정된 LTP 이득 임계값보다 큰 지를 판단한다. 만약 그렇다면, 신호는 1011에서 펄스형인 것으로 결정된다. 그런 다음, 미리 결정된 또는 고유의 개수의 펄스들은 1012에서 사용된다. 따라서, ACELP 인코딩 알고리즘의 명확한 펄스 세팅 또는 명확한 펄스 개수 제어가 어떠한 변경 없이 적용되지만, 이 인코더에 의해 유도된 펄스 위치 변위는 블록(1013)에서 나타난 바와 같이 폐-루프 실시예의 단점이 제거되는 것을 확실하게 하기 위해 과거 정보에 기반한 주기적인 그리드로 부분적으로 또는 완전히 제한된다. 상세하게는, 만약 장구간 예측기(LTP) 이득이 높다면, 즉 신호가 주기적이고, 펄스들이 과거 프레임들에 위치된다면 즉, 신호가 임펄스형이면 대수적 코드북이 과거 펄스 위치들에 의해 결정된 주기적인 그리드로 가능한 펄스 위치들 및 LTP 래그(lag)을 한정함으로써 임펄스 형상을 세부 규정하는 데 사용된다. 특히, 대수적 코드북에 의해 위치되는 펄스들의 개수는 블록(1011)에서 지시된 바와 같이 이 모드에 대해 일정할 수 있다.

만약 장구간 예측기(LTP) 이득이 1014에서 지시된 바와 같이, 낮은 것으로 결정되면, 펄스들의 개수는 1015에서 지시된 바와 같이, 코드북 최적화에서 변경된다. 특히, 대수적 코드북은 남아있는 잔여의 에너지가 최소화되고 펄스 위치들이 LTP 래그와 동일한 주기로 주기적 펄스 트레임을 형성하는 방식으로 펄스들을 위치시키는 것을 허용하도록 제어된다. 그러나, 에너지 차이가 대수적 코드북에서 펄스들의 가변적인 개수를 초래하는 어떤 임계값 이하가 되면 이 프로세스는 멈춘다.

이어서, 도 12는 블록(1015)에 관련하여 설명되는 펄스들의 개수의 변경에 대한 바람직한 실시예를 제공하기 위해 설명된다. 시작시, 최적화는 1016에 나타난 바와 같이, 단일 펄스와 같은 적은 개수의 펄스들을 사용하여 수행된다. 그런 다음, 최적화는 1017에서 지시된 바와 같이 적은 개수의 펄스들로 수행된다. 가장 일치하는 코드 벡터에 대해, 에러 신호 에너지가 블록 1018에서 계산되며, 블 록(1019)에서 에러 에너지 임계값(error energy threshold; THR)과 비교된다. 이 임계값은 미리 결정되며, ACELP 인코더가 어떤 정확성으로 신호의 펄스 부분을 인코딩하지만, 신호의 비펄스형 부분들을 인코딩하는 것을 시도하지 않도록 하는 것을 보장하는 값으로 적절하게 설정될 수 있으며, 코더는 도 10의 본 발명의 제어기(1000)가 없는 경우에 동작할 것이다.

단계(1019)가 임계값이 충족되는 지를 판단할 때, 그 과정이 정지된다. 그러나, 블록(1019)에서의 비교가 에러 신호 에너지 임계값이 충족되지 않음을 결정하면, 펄스들의 개수는 1020에 나타난 바와 같이 예컨대, 1씩 증가된다. 그런 다음, 단계들 1070, 1018 및 1019가 이제 더 많은 개수의 펄스들에서 반복된다. 이 과정은 허여된 펄스들의 최대 개수와 같은 최종 기준이 충족될 때까지 계속된다. 그러나, 보통, 이 과정은 임계값 기준으로 인해 중지하며, 그에 따라 일반적으로 비펄스형 신호에 대한 펄스들의 개수는 인코딩 알고리즘이 펄스형 신호의 경우에 할당하는 펄스들의 개수보다 적을 것이다.

ACELP 인코더의 다른 변경이 도 13에 도시되어 있다. 이러한 인코더에서, 유성음/무성음 결정은 1300에 나타난 바와 같이 수행된다. 이러한 인코더는 그런 다음 이 유성음/무성음 결정에 따라 유성음 부분들을 위한 제1 코드북을 사용하며, 무성음 부분들을 위한 제2 코드북을 사용한다. 본 발명의 실시예에 따라, CELP 분석-합성 과정은 유성음 부분이 1310에 나타난 바와 같이 블록(1300)에 의해 검출될때 임펄스 코드 정보를 결정하는 데에만 사용된다. 그러나, CELP 인코더는 무성음 부분을 결정하면, 이들 무성음 부분들에 대한 CELP 인코더 출력은 계산되지 않거나, 적어도 무시되며, 인코딩된 임펄스 신호에 포함되지 않는다. 본 발명에 따라, 이들 무성음 부분들은 잔여 코더를 사용하여 인코딩되며, 그에 따라 이러한 인코더의 변형은 1320에 나타난 바와 같이, 무성음 부분들에 대한 인코더 출력을 무시하는 것으로 이루어진다.

본 발명은 도 17에 도시된 바와 같이, 능동적으로 가변적인 워핑된 LPC 필터로 스위칭된 코딩의 개념으로 바람직하게 결합된다. 임펄스 코더는 LPC 필터를 채용하는데, 여기에서, 임펄스 코더는 블록(1724)에 의해 나타난다. 만약 필터뱅크-기반 잔여 코더가 프리-/포스트-필터링 구조를 포함한다면, 프리-필터(1722)를 적용하는 것과 상관없는 오디오 입력의 프로세싱이 수행되지 않지만, 도 1의 잔여 신호 코더(16)에 대응하는 일반적 오디오 코더(1726)로 입력을 제공하기 위해 수행되기 때문에, 임펄스 코더(1724) 및 도 17c에 도시되지 않은 잔여 코더 모두에 대해 통합된 시간-주파수 표현을 사용하는 것이 가능하다. 이러한 방식으로, 인코더측에서 2개의 합성 필터들 및 디코더측에서 2개의 분석 필터들을 회피할 수 있다. 이는 도 17c에 대하여 설명한 바와 같이, 워핑 특성들로 일반화된 필터의 능동적인 적용을 포함할 수 있다. 따라서, 본 발명은 일반적 오디오 코더(1722)로 신호를 입력하기 전에 프리-필터(1722) 출력 신호를 프로세싱함으로써 그리고, 오디오 신호가 잔여 여기 코더(1724)로 입력되기 전에 오디오 신호로부터 펄스들을 추가적으로 추출함으로써 도 17c의 프레임워크로 구현될 수 있다. 따라서, 블록 10c, 26b 및 10b는 시간-변화하는 워핑된 필터(1722)의 출력, 도 4a의 임펄스 코더(10b)에 대응하는 잔여/여기 코더(1724)로의 입력, 및 도 4a의 필터뱅크-기반 오디오 코더(16)에 대응하는 일반적 오디오 코더(1726)의 입력에 위치되어야 할 것이다. 자연스레, 도 4b의 폐-루프 실시예는 도 17c 인코딩 시스템으로 추가적으로 구현될 수 있다.

바람직하게, 도 1의 심리음향적으로 제어된 신호 인코더(16)가 사용된다. 바람직하게, 예컨대, 도 16a의 대응하는 블록과 유사한, 심리음향적 모델(1602)는, 그 입력이 오디오 신호(8)에 접속되도록 도 15에서 구현된다. 이는 라인(1500) 상의 심리음향적 마스킹 임계값 정보가 잔여 신호 발생기(26)의 출력에서의 잔여 신호보다는, 원래의 오디오 신호의 상황을 반영하는 것을 보장한다. 따라서, 양자화기(1604a)는 실제로 양자화된 신호로부터 도출되지는 않았지만 잔여 신호(18)가 계산되기 전에 원래의 오디오 신호로부터 도출된 마스킹 임계값 정보(1500)에 의해 제어된다. 이 과정은 바람직하게 임펄스형 신호 부분의 마스킹 효과가 비트레이트가 더 감소하도록 또한 이용된다는 사실로 인해 잔여 신호 발생기(26)의 출력에 대한 심리음향 모델 입력의 연결 상에 있다. 그러나, 반면 잔여 신호 발생기(18)의 출력에 대한 심리음향 모델 입력의 연결은 또한, 잔여 신호가 실제 오디오 신호이고, 따라서 마스킹 임계값을 가지기 때문에 또한 유용한다. 그러나, 이러한 구현이 일반적으로 가능하고 어떤 어플리케이션에 대해 유용하더라도, 심리음향 모델(1602)에 원래의 오디오 신호가 공급되는 상황에 비해 높은 비트레이트를 생산한다.

일반적으로, 본 발명의 바람직한 실시예들은 이하와 같이 몇가지 측면으로 요약될 수 있다.

인코딩 측면: 신호 분리의 방법; 필터뱅크-기반 계층이 항상 존재하며; 음성 향상은 선택적인 계층이며; 코딩 이전에 신호 분석(임펄스 추출)을 수행; 임펄스 코더는 입력 신호의 어떤 콤포넌트만을 다룬다; 임펄스 코더는 임펄스만을 다루도록 조정된다; 필터뱅크-기반 계층은 변경되지 않은 필터뱅크-기반 코더이다. 디코딩 측면: 필터뱅크-기반 계층은 항상 존재한다; 음성 향상은 선택적인 계층이다.

일반적으로 임펄스 코딩 방법은 임펄스들(예컨대, 성문 임펄스 여기)에 대한 기저의 소스 모델이 입력 신호에 대해 잘 맞는다면, 필터뱅크-기반 코딩 모드에 추가적으로 선택될 수 있고, 임펄스 코딩이 시간적으로 어떠한 편리한 지점에서 시작할 수 있고; 임펄스들(예컨대, 성문 임펄스 여기)에 대한 기저의 소스 모델이 입력 신호에 잘 맞는다면, 임펄스 코딩 모드가 필터뱅크-기반 모딩 모드에 추가적으로 선택되며; 이는 양 코덱의 레이트-왜곡 동작의 분석에 관련하지 않으며, 그에 따라 인코딩 프로세스에서 광범위하게 더 효율적이다.

바람직한 임펄스 코딩 또는 펄스 트레인 코딩 방법은 "Speech coding below 4 kB/s using waveform interpolation" W. B. Kleijn, Globecom '91, 페이지 1879 내지 1883, 또는 "A speech coder based on decomposition of characteristic waveforms" W. B. Kleijn 및 J. Haagen, ICASSP 1995, 페이지 508 내지 511에 기술된 바와 같이, 파형 보간의 기술이다.

이하 설명되는 실시예들은 단지 본 발명의 기본 원칙들을 위해 설명된 것이다. 여기에 설명된 구성 및 그 상세에 대한 변경 및 변형은 당업자에게 명백함이 이해되어야 할 것이다. 그러므로, 본 발명은 여기에 설명된 실시예들에 대한 개시 및 설명에 의해 나타난 특정 상세들에 의해서 한정되는 것이 아닌 첨부된 본 발명의 청구의 범위에 의해서만 한정된다.

본 발명의 방법들의 어떤 구현 요구사항에 따라, 본 발명의 방법들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 디지털 저장 매체, 특히, 본 발명의 방법이 수행되도록 프로그래머블 컴퓨터 시스템과 함께 동작할 때 전기적으로 판독가능한 제어 신호들이 저장된 디스크, DVD, 또는 CD를 사용하여 구현될 수 있다. 그러므로, 일반적으로 본 발명의 방법은 머신-판독가능한 캐리어 상에 저장된 프로그램 코드를 갖는 컴퓨터 프로그램 제품이며, 프로그램 코드는 컴포터 프로그램 제품이 컴퓨터 상에서 실행될 때 본 발명의 방법을 수행하도록 동작된다. 다시 말해, 본 발명의 방법들은 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 본 발명의 방법들의 적어도 하나를 수행하는 프로그램 코드를 갖는 컴퓨터 프로그램이다.

논문들:

[Edl00] B. Edler, G. Schuller: "Audio coding using a psychoacoustic pre- and post-filter", ICASSP 2000, Volume 2, 5-9 June 2000 Page(s):II881 - II884 vol.2;

[Sch02] G. Schuller, B. Yu, D. Huang, and B. Edler, "Perceptual Audio Coding using Adaptive Pre- and Post-Filters and Lossless Compression", IEEE Transactions on Speech and Audio Processing, September 2002, pp. 379-390;

[Zwi] Zwicker, E. and H. Fastl, "Psychoacoustics, Facts and Models", Springer Verlag, Berlin;

[KHL97] M. Karjalainen, A. Harma U.K. Laine, "Realizable warped IIR filters and their properties", IEEE ICASSP 1997, pp. 2205 2208, vol.3;

[SA99] J.O. Smith, J.S. Abel, "Bark and ERB Bilinear Transforms", IEEE Transactions on Speech and Audio Processing, Volume 7, Issue 6, Nov. 1999, pp. 697 708;

[HKS00] Harma Aki; Karjalainen, Matti; Savioja, Lauri; Valimaki, Vesa; Laine, Unto K.; Huopaniemi, Jyri, "Frequency-Warped Signal Processing for Audio Applications", Journal of the AES, Volume 48 Number 11 pp. 1011-1031; November 2000;

[SOB03] E. Schuijers, W. Oomen, B. den Brinker, J. Breebaart, "Advances in Parametric Coding for High-Quality Audio", 114th Convention, Amsterdam, The Netherlands 2003, preprint 5852;

[WSKH05] S. Wabnik, G. Schuller, U. Kramer, J. Hirschfeld, Frequency Warping in Low Delay Audio Coding", IEEE International Conference on Acoustics, Speech, and Signal Processing, March 18-23, 2005, Philadelphia, PA, USA;

[TMK94] K. Tokuda, H. Matsumura, T. Kobayashi and S. Imai, "Speech coding based on adaptive mel-cepstral analysis," Proc. IEEE ICASSP'94, pp.197-200, Apr. 1994;

[KTK95] K. Koishida, K. Tokuda, T. Kobayashi and S. Imai, "CELP coding based on mel-cepstral analysis," Proc. IEEE ICASSP'95, pp.33-36, 1995;

[HLM99] Aki Harma, Unto K. Laine, Matti Karjalainen, "Warped low-delay CELP for wideband audio coding", 17th International AES Conference, Florence, Italy, 1999;

[BLS05] B. Bessette, R. Lefebvre, R. Salami, "UNIVERSAL SPEECH/AUDIO CODING USING HYBRID ACELP/TCX TECHNIQUES," Proc. IEEE ICASSP 2005, pp. 301 304, 2005;

[Gri97] Grill, B., "A Bit Rate Scalable Perceptual Coder for MPEG-4 Audio", 103rd AES Convention, New York 1997, Preprint 4620; 그리고

[Her02] J. Herre, H. Purnhagen: "General Audio Coding", in F. Pereira, T. Ebrahimi (Eds.), "The MPEG-4 Book", Prentice Hall IMSC Multimedia Series, 2002. ISBN 0-13-061621-4.

Claims

임펄스형(impulse-like) 부분과 정적(stationary) 부분을 갖는 오디오 신호(8)를 인코딩하는 오디오 인코더에 있어서,

상기 오디오 신호로부터 임펄스형 부분을 추출하며, 인코딩된 임펄스형 신호를 획득하기 위해 상기 임펄스형 부분들을 인코딩하는 임펄스 코더를 갖는 임펄스 추출기(10);

인코딩된 잔여 신호(20)를 획득하기 위해, 상기 임펄스형 부분이 감소되거나 또는 상기 오디오 신호로부터 제거되도록, 상기 오디오 신호로부터 도출된 잔여 신호를 인코딩하는 신호 인코더(16);

인코딩된 신호(24)를 제공하기 위해 상기 인코딩된 임펄스형 신호(12) 및 상기 인코딩된 잔여 신호(20)를 출력하는 출력 인터페이스(22)를 포함하며,

상기 임펄스 코더는 상기 임펄스 추출기가 상기 오디오 신호에서 임펄스 부분을 찾을 수 없으면 인코딩된 임펄스형 신호를 제공하지 않도록 구성되는 오디오 인코더.
제1항에 있어서, 상기 임펄스 코더(10b) 및 상기 신호 인코더(16)는, 임펄스 코더(10b)가 신호 인코더(16)보다는 임펄스형 신호들에 더 적합하고, 신호 인코더(16)가 임펄스 코더(10b) 보다는 정적 신호들에 더 적합하도록 설계되는 오디오 인코더.
제1항에 있어서, 상기 오디오 신호(8) 및 상기 추출된 임펄스-형 신호 부분들에 관한 정보(28)를 수신하도록 구성되며, 상기 추출된 신호 부분들을 포함하지 않는 잔여 신호(18)를 출력하는 잔여 신호 발생기(26)를 더 포함하는 오디오 인코더.
제3항에 있어서, 상기 잔여 신호 발생기(26)는 잔여 신호(18)를 획득하기 위해 상기 추출된 신호 부분들(28)을 상기 오디오 신호(8)로부터 감산하는 감산기(26a)를 포함하는 오디오 인코더.
제3항에 있어서,

상기 임펄스 추출기(10)는 상기 임펄스형 신호 부분들의 파라메트릭 표현을 추출하도록 동작하고;

상기 잔여 신호 발생기(26)는 상기 파라메트릭 표현을 사용하여 파형 표현을 합성(26c)하고, 상기 파형 표현을 상기 오디오 신호(8)로부터 감산(26a)하도록 동작하는 오디오 인코더.
제3항에 있어서, 상기 잔여 신호 발생기(26)는 디코딩된 임펄스형 신호를 산출하는 임펄스 디코더(26c) 및 상기 디코딩된 임펄스형 신호를 상기 오디오 신호(8)로부터 감산하는 감산기(26a)를 포함하는 오디오 인코더.
제3항에 있어서,

상기 임펄스 추출기(10)는 상기 오디오 신호(8)의 LPC 분석을 수행하는 LPC 분석 스테이지(10a)를 포함하는데, 상기 LPC 분석은 예측 에러 신호(84)가 획득되도록 이루어지며,

상기 임펄스 추출기(10)는 예측 에러 신호를 이 신호의 임펄스형 특성이 향상되도록 프로세싱하는 예측 에러 신호 프로세서(10c)를 포함하며,

상기 잔여 신호 발생기(26)는 상기 향상된 예측 에러 신호를 사용하여 상기 LPC 합성(26b)을 수행하고, 잔여 신호(18)를 획득하기 위해 상기 LPC 합성의 결과인 신호를 상기 오디오 신호로부터 감산하도록 동작하는 오디오 인코더.
제1항에 있어서, 상기 임펄스 추출기(10)는 임펄스/비-임펄스 결정 스테이지(1300)를 포함하고, 임펄스형 부분으로 검출된 오디오 신호의 부분은 임펄스 코더(10b)로 제공되고, 신호 인코더(16)로는 제공되지 않는 오디오 인코더.
제8항에 있어서, 상기 임펄스/비-임펄스 스테이지는 유성음/무성음 결정 스테이지인 오디오 인코더.
제1항에 있어서, 상기 오디오 신호는 포먼트 구조 및 미세 구조를 가지며, 임펄스 추출기(10)는 프로세스된 신호가 상기 미세 구조만을 나타내도록 상기 오디오 신호를 프로세싱하고 상기 미세 구조 신호의 임펄스형 특성이 향상되도록(10c) 상기 미세 구조 신호를 프로세싱하도록 동작하며

상기 향상된 미세 구조 신호는 상기 임펄스 코더(10b)에 의해 인코딩되는 오디오 인코더.
제1항에 있어서, 상기 신호 인코더(16)는 변환(transform) 또는 필터뱅크 기반 일반 오디오 인코더이며, 상기 임펄스 코더는 시간 영역 기반 코더인 오디오 인코더.
제1항에 있어서, 상기 임펄스 추출기(10)는 단구간 예측기 정보를 획득하기 위해 LPC 분석 스테이지(1000)를 갖는 ACELP 코더(10), 피치 정보 및 장구간 예측기 이득을 획득하는 피치 결정 스테이지(1002, 1004), 및 잔여 신호의 파라메트릭 표현에 사용되는 다수의 펄스들의 펄스 위치들에 관한 코드북 정보를 결정하는 코드북 스테이지(1006)를 포함하며,

상기 임펄스 추출기(10)는 제1 장구간 예측 이득을 위한 가변 개수의 펄스들 또는 제2 장구간 예측 이득을 위한 고정 개수의 펄스들을 할당하도록 장구간 예측 이득에 따라 ACELP 코더(10)를 제어(1000)하도록 동작하며, 상기 제2 장구간 예측 이득은 상기 제1 장구간 예측 이득보다 더 큰 오디오 인코더.
제12항에 있어서, 상기 가변 개수의 펄스들의 최대는 고정 개수와 동일하거나 더 낮은 오디오 인코더.
제12항에 있어서, 상기 임펄스 추출기(10)는 작은 개수의 펄스들(1016)부터 시작하여 많은 개수의 펄스들(1020)로 진행하도록 점진적인 할당이 수행되도록 ACELP 코더를 제어(1000)하도록 동작하고, 에러 에너지가 미리 결정된 에너지 임계값(1019)보다 낮아지면 상기 점진적인 할당이 중지되는 오디오 인코더.
제12항에 있어서, 상기 임펄스 추출기(10)는, 장구간 예측 이득이 임계값보다 높은 경우에 가능한 펄스 위치들이 이전 프레임(1013)으로부터 적어도 하나의 펄스 위치에 기반한 그리드(grid)로 결정되도록 상기 ACELP 코더(10)를 제어(1000)하도록 동작하는 오디오 인코더.
제3항에 있어서,

상기 임펄스 코더(10b)는 임펄스 위치들 및 양자화된 임펄스 값들을 산출하는 코드 여기된 선형 예측(CELP) 인코더이고,

상기 잔여 신호 발생기(26)는 상기 잔여 신호를 획득하기 위해 상기 오디오 신호(8)로부터 감산되는 신호를 산출하는데, 양자화되지 않은 임펄스 위치들 및 양자화된 임펄스 값들을 사용하도록 동작하는 오디오 인코더.
제3항에 있어서,

상기 임펄스 추출기는 상기 잔여 신호에서 양자화되지 않은 임펄스 위치들을 결정하는 합성 프로세스에 의한 CELP 분석을 포함하며,

상기 임펄스 코더(10b)는 양자화된 단구간 예측 정보의 정확도보다 더 높은 정확도로 상기 임펄스 위치를 코딩하도록 동작하는 오디오 인코더.
제3항에 있어서,

상기 임펄스 추출기(10)는 신호 일부분을 임펄스형으로 결정하도록 동작하고,

상기 잔여 신호 발생기(26)는 상기 오디오 신호의 신호 일부분을 감소된 또는 비임펄스형 구조를 갖는 합성 신호로 대체하도록 동작하는 오디오 인코더.
제18항에 있어서, 상기 잔여 신호 발생기(26)는 임펄스형 신호와 비임펄스형 신호 사이의 경계로부터 보외법(extrapolation)에 의해 상기 합성 신호를 산출하도록 동작하는 오디오 인코더.
제18항에 있어서, 상기 잔여 신호 발생기는 0.5 보다 작은 가중 인자를 사용하여 임펄스형 부분에서 상기 오디오 신호를 가중함으로써 상기 합성 신호를 산출하도록 동작하는 오디오 인코더.
제1항에 있어서, 상기 신호 인코더(16)는 심리음향적으로 구동된 오디오 인코더이고, 오디오 값들을 양자화(1604a)하는 데 사용되는 심리음향적 마스킹 임계값(1500)은 상기 오디오 신호(8)를 사용하여 계산되며, 상기 신호 인코더(16)는 스펙트럼 표현(1600)에서 상기 잔여 신호를 변환하고, 상기 심리음향적 마스킹 임계값(1500)을 사용하여 상기 스펙트럼 표현의 값들을 양자화(1604a)하도록 동작하는 오디오 인코더.
제1항에 있어서,

상기 임펄스 추출기(10)는 상기 오디오 신호로부터 임펄스형 신호를 추출하여 추출된 임펄스형 신호를 획득하도록 동작하고,

상기 임펄스 추출기(10)는 상기 추출된 임펄스형 신호의 형상에 비해 더 이상적인 임펄스형 형상을 갖는 향상된 임펄스형 신호를 획득하기 위해 상기 추출된 임펄스형 신호를 조정하도록 동작(10c)하며,

상기 임펄스 코더(10b)는 인코딩된 향상된 임펄스형 신호를 획득하기 위해 상기 향상된 임펄스형 신호를 인코딩하도록 동작하며,

상기 오디오 인코더는 상기 잔여 신호를 획득하기 위해, 상기 추출된 임펄스형 신호 또는 상기 향상된 임펄스형 신호 또는 상기 인코딩된 향상된 임펄스형 신호를 디코딩함으로써 도출된 신호를 상기 오디오 신호로부터 감산하는 잔여 신호 계산기(26)를 포함하는 오디오 인코더.
제1항에 있어서, 상기 임펄스 추출기는 임펄스 트레인을 추출하도록 동작하고,

상기 임펄스 코더는 비-임펄스-트레인형 신호 보다 더 높은 효율로 또는 더 적은 인코딩 에러로 임펄스-트레인형 신호를 인코딩하도록 구성된 오디오 인코더.
임펄스형 부분 및 정적 부분을 갖는 오디오 신호(8)를 인코딩하는 방법에 있어서,

상기 오디오 신호로부터 상기 임펄스형 부분을 추출하는 단계로서, 상기 추출 단계는 인코딩된 임펄스형 신호를 획득하기 위해 상기 임펄스형 부분들을 인코딩하는 단계를 포함하는, 단계(10);

인코딩된 잔여 신호(20)를 획득하기 위해 상기 임펄스형 부분이 감소하거나 상기 오디오 신호로부터 제거되도록 상기 오디오 신호로부터 도출된 잔여 신호를 인코딩하는 단계(16);

인코딩된 신호(24)를 제공하기 위해 상기 인코딩된 임펄스형 신호(12) 및 상기 인코딩된 잔여 신호(20)를, 전송 또는 저장함으로써, 출력하는 단계(22)를 포함하며,

상기 임펄스 인코딩 단계는, 상기 임펄스 추출 단계가 상기 오디오 신호에서 임펄스 부분을 찾지 못하면, 수행되지 않는 인코딩 방법.
임펄스 인코딩 알고리즘에 따라 생성된 인코딩된 임펄스형 신호(12) 및 신호 인코딩 알고리즘에 따라 생성된 인코딩된 잔여 신호(20)를 갖는 인코딩된 오디오 신호(24)를 디코딩하는 디코더에 있어서,

상기 임펄스 인코딩 알고리즘에 따라 조정된 디코딩 알고리즘을 이용하여 인코딩된 임펄스형 신호를 디코딩하여, 디코딩된 임펄스형 신호가 획득되는, 임펄스 디코더(30);

상기 신호 인코딩 알고리즘에 따라 조정된 디코딩 알고리즘을 사용하여 상기 인코딩된 잔여 신호(20)를 디코딩하여, 디코딩된 잔여 신호가 획득되는, 신호 디코더(32); 및

디코딩된 출력 신호(36)를 제공하기 위해 상기 디코딩된 임펄스형 신호 및 상기 디코딩된 잔여 신호를 결합하는 신호 결합기(34)로서, 상기 신호 디코더(32) 및 상기 임펄스 디코더(30)는 디코딩된 신호의 동일한 시간 순간에 관련된 출력 값들을 제공하도록 동작하는, 신호 결합기(34)를 포함하고,

상기 임펄스 디코더(30)는, 상기 인코딩된 임펄스형 신호를 수신하고 구간들(143)에 의해 분리된 특정 시간 부분들(142)에서 상기 디코딩된 임펄스형 신호를 제공하고,

상기 구간들(143)에서, 상기 신호 디코더는 디코딩된 잔여 신호를 제공하도록 구성되고 상기 임펄스 디코더(30)는 상기 디코딩된 임펄스형 신호를 제공하지 않도록 구성되어, 상기 디코딩된 출력 신호가, 상기 디코딩된 출력 신호가 상기 디코딩된 잔여 신호와 동일한, 구간들(143)을 가지며, 또한

상기 디코딩된 출력 신호는, 상기 디코딩된 출력 신호가 상기 디코딩된 잔여 신호 및 상기 디코딩된 임펄스형 신호로 구성되거나, 또는 상기 디코딩된 출력 신호가 상기 디코딩된 임펄스형 신호만으로 구성되는, 상기 특정 시간 부분들(142)을 갖는, 디코더.
제25항에 있어서, 상기 임펄스 디코더(30)는 시간 영역 디코더이고, 상기 신호 디코더(32)는 필터뱅크 또는 변환 기반 디코더인 디코더.
제25항에 있어서, 상기 인코딩된 오디오 신호는 상기 잔여 신호에 속하는 인코딩 또는 디코딩 특성에 관한 정보를 나타내는 보조 정보(14)를 포함하며,

상기 결합기(34)는 상기 보조 정보(14)에 따라 상기 디코딩된 잔여 신호 및 상기 디코딩된 임펄스형 신호를 결합하도록 동작하는 디코더.
제27항에 있어서, 상기 보조 정보(14)는 임펄스형 부분에서, 합성 신호가 잔여 신호에서 발생되었음을 나타내며,

상기 결합기(34)는 상기 보조 정보에 응답하여 상기 임펄스형 부분 동안 상기 디코딩된 잔여 신호를 억압하거나 적어도 감쇄시키도록 동작하는 디코더.
제27항에 있어서, 상기 보조 정보는 임펄스형 신호가 상기 오디오 신호로부터 감산되기 전에 감쇄 인자만큼 감쇄되었음을 나타내며,

상기 결합기(34)는 상기 감쇄 인자에 기초하여 상기 디코딩된 잔여 신호를 감쇄하고, 상기 디코딩된 임펄스형 신호와의 결합을 위해 상기 감쇄된 디코딩된 신호를 사용하도록 동작하는 디코더.
제25항에 있어서, 상기 인코딩된 임펄스형 신호는 임펄스-트레인형 신호를 포함하며,

상기 임펄스 인코딩 알고리즘은, 신호 인코딩 알고리즘 또는 임펄스 인코딩 알고리즘을 사용하는 비-임펄스-트레인형 신호의 인코딩에 비해 더 높은 효율로 또는 더 적은 인코딩 에러로 임펄스-트레인형 신호를 인코딩하도록 조정된, 디코더.
임펄스 인코딩 알고리즘에 따라 생성된 인코딩된 임펄스형 신호(12) 및 신호 인코딩 알고리즘에 따라 생성된 인코딩된 잔여 신호(20)를 갖는 인코딩된 오디오 신호(24)를 디코딩하는 방법에 있어서,

상기 임펄스 인코딩 알고리즘에 따라 조정된 디코딩 알고리즘을 이용하여 인코딩된 임펄스형 신호를 디코딩하여, 디코딩된 임펄스형 신호가 획득되는, 인코딩된 임펄스형 신호를 디코딩하는 단계(30);

상기 신호 인코딩 알고리즘에 따라 조정된 디코딩 알고리즘을 사용하여 상기 인코딩된 잔여 신호(20)를 디코딩하여, 디코딩된 잔여 신호가 획득되는, 인코딩된 잔여 신호를 디코딩하는 단계(32); 및

디코딩된 출력 신호(36)를 제공하기 위해 상기 디코딩된 임펄스형 신호 및 상기 디코딩된 잔여 신호를 결합하는 단계(34)로서, 상기 디코딩 단계들(32, 30)은 디코딩된 신호의 동일한 시간 순간에 관련된 출력 값들을 제공하도록 동작하는, 상기 단계(34)를 포함하고,

상기 인코딩된 임펄스형 신호를 디코딩하는 단계(30)에서, 상기 인코딩된 임펄스형 신호가 수신되고 구간들(143)에 의해 분리된 특정 시간 부분들(142)에서 상기 디코딩된 임펄스형 신호가 제공되고,

상기 인코딩된 잔여 신호를 디코딩하는 단계(32)가 상기 구간들(143)에서 디코딩된 잔여 신호를 제공하고, 상기 인코딩된 임펄스형 신호를 디코딩하는 단계(30)가 상기 구간들(143)에서 디코딩된 임펄스형 신호를 제공하지 않음으로써, 상기 디코딩된 출력 신호가, 상기 디코딩된 출력 신호가 상기 디코딩된 잔여 신호와 동일한, 구간들(143)을 가지며, 또한

상기 디코딩된 출력 신호는, 상기 디코딩된 출력 신호가 상기 디코딩된 잔여 신호 및 상기 디코딩된 임펄스형 신호로 구성되거나 또는 임펄스형 신호만으로 구성되는 상기 특정 시간 부분들(142)을 갖는, 인코딩된 오디오 신호의 디코딩 방법.
인코딩된 임펄스형 신호(12), 인코딩된 잔여 신호(20) 및 상기 인코딩된 잔여 신호 또는 상기 인코딩된 임펄스형 신호에 관련된 인코딩 또는 디코딩 특성에 관한 정보를 나타내는 보조 정보(14)를 갖는 인코딩된 오디오 신호(24)를 기록한 컴퓨터로 판독 가능한 저장 매체로서,

상기 인코딩된 임펄스형 신호는, 상기 오디오 신호가 상기 인코딩된 임펄스형 신호에 의해서만 표현되거나 상기 인코딩된 잔여 신호 및 상기 인코딩된 임펄스형 신호에 의해 표현되는, 상기 오디오 신호의 특정 시간 부분들(142)을 나타내고, 상기 특정 시간 부분들(142)은, 상기 오디오 신호가 상기 인코딩된 잔여 신호에 의해서만 표현되고 상기 인코딩된 임펄스형 신호(12)에 의해서는 표현되지 않는 구간들(143)에 의해 분리되는, 컴퓨터로 판독 가능한 저장 매체.
프로세서 상에서 실행될 때 제24항 또는 제31항의 방법을 수행하는 프로그램 코드를 갖는 컴퓨터 프로그램을 기록한 컴퓨터로 판독 가능한 저장 매체.
삭제