KR20070029751A

KR20070029751A - 오디오 인코딩 및 디코딩

Info

Publication number: KR20070029751A
Application number: KR1020067026950A
Authority: KR
Inventors: 알베르투스 체. 덴 브링커; 안드레아스 예이. 게리츠; 펠리프 리에라 팔로우
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2004-06-22
Filing date: 2005-06-15
Publication date: 2007-03-14
Also published as: JP2008503786A; WO2006000956A1; US20080275709A1; CN101099199A; EP1761916A1

Abstract

본 발명은 디지털 오디오 신호를 인코딩하는 방법에 관한 것으로, 각 시간 세그먼트에 대해, 신호는 스펙트럼 방식으로 평탄화된 신호(r), 및 가능하면 스펙트럼 평탄화 파라미터(LPP)를 얻기 위해 스펙트럼 방식으로 평탄화된다. 스펙트럼 방식으로 평탄화된 신호는, RPE 또는 CELP 펄스 모델링 기술에 의해 생성된 여기 신호에 따르는 제 1 부분 여기 신호(px)와, 임의의 위치 및 진폭을 갖는 여분 펄스의 세트인 제 2 부분 여기 신호(p_EP)를 포함하는 여기 신호에 의해 모델링된다. 제 1 및 제 2 부분 여기 신호를 포함하는 오디오 비트 스트림이 생성된다. 여분 펄스는, 스파이크의 발생 시간에 대응하는 시간의 위치, 또는 바람직하게 RPE 시간 그리드의 시간의 위치에서 여기 신호에 추가될 수 있다.

Description

오디오 인코딩 및 디코딩{AUDIO ENCODING AND DECODING}

본 발명은 광대역 신호, 특히 음성 신호와 같은 오디오 신호의 인코딩 및 디코딩에 관한 것이다. 본 발명은 인코더 및 디코더 모두에 관한 것으로, 본 발명에 따라 인코딩된 오디오 비트 스트림, 및 그러한 오디오 비트 스트림이 저장되는 데이터 저장 매체에 관한 것이다.

광대역 신호, 예를 들어 32kHz 또는 그 보다 더 높게 샘플링된 오디오 신호(음성 신호를 포함)를 송신할 때, 압축 또는 인코딩 기술은 신호의 비트율을 감소시키는데 사용되어, 송신에 필요한 대역폭은 이에 따라 감소된다.

선형 예측 코딩(LPC)은 음성 인코딩에 종종 사용된 기술이다. LPC의 주요 아이디어는 스펙트럼 방식으로 평탄화된(spectrally flattened) 신호인 출력 신호를 갖는 예측 필터(분석기)를 통해 입력 신호를 전달하는 것이다. 스펙트럼 방식으로 평탄화된 신호는 더 적은 비트를 이용하여 인코딩될 수 있다. 비트율 감소는 예측 필터 파라미터에서 신호 구조의 중요 부분을 유지함으로써 달성되며, 이것은 시간에 따라 느리게 변화한다. 예측 필터로부터 나오는 스펙트럼 방식으로 평탄화된 신호는 일반적으로 잔여 신호(residual)로 언급된다. 잔여 신호 및 평탄화된 신호라는 용어는 이에 따라 상호 교환되게 사용되는 동의어이다.

필요한 비트율을 더 감소시키기 위해, 모델링 프로세스가 여기 신호라 불리는 새로운 신호를 유도하기 위해 평탄화된 신호에 적용된다. 이러한 절차는 잔여 모델링으로 언급된다. 여기 신호는, 예측 합성 필터를 통과할 때 스펙트럼 방식으로 평탄화된 신호가 합성에 사용될 때 발생된 출력의 폐쇄 근사치(close approximation)(적절한 기준에 따라)를 생성하는 방식으로 계산된다. 이러한 프로세스는 분석-합성(analysis-by-synthesis)이라 불린다. 여기 신호의 형태에 부과된 특정한 제약은 비트율 관점으로부터 그 표현을 매우 효율적으로 하게 한다.

여기 신호를 계산하는 3가지 대중적인 방법은 정상 펄스 여기(PRE)[1],다중-펄스 여기(MPE)[2] 및 CELP-형 방법[10]이다. 그러한 방법은 여기 신호 상에 부과된 제약에서 기본적으로 차이가 있다. RPE에서 여기는 사이에 0을 갖는 동일하게 이격된 비-제로 값을 구성하도록 경계짓는다. 협대역 음성(예를 들어 8kHz 샘플링)에 대해, 2,4 및 8의 데시메이션 인자(decimation factor)가 공통적이다. MPE에서, 다른 한 편으로, 매우 적은 펄스가 사용되지만(일반적으로 협대역 음성의 5ms마다 3-4), 임의의 그리드를 받지 않고, 어디엔가 위치할 수 있다. 일반적으로, 양자화에 의해 야기된 에러는 또한 여기를 계산할 때 고려된다. 양쪽 방법, 즉 RPE 및 MPE는 동일한 비트율에 대해 유사한 성능을 전달하도록 보여주었다. CELP에서, 산재 코드북은 높은 압축 인자를 얻는데 사용될 수 있다.

선형 예측 코딩은 입력 샘플 중에서 단기간 상관 관계를 제거하지만, 분석 필터(LPC)의 짧은 길이로 인해, 장기간 상관 관계를 거의 제거할 수 없다. 장기간 상관 관계는 평탄화된 신호에 종종 존재하고, 음성의 경우에 유성음에 대응하는 (준) 주기성에 의해 주로 야기된다. 이러한 주기성은 펄스 트레인의 형태로 잔여 신호에 분명히 나타난다(도 8a를 참조). 조잡한 양자화를 갖는 후속 모델링 스테이지는 불량한 여기를 초래하는 높은 동적 범위로 인해 이들의 거의 주기적 펄스를 포함하는 모델링 세그먼트에서 어려움을 가질 것이다. 이것은 장기간 예측자(LTP)[3]를 이용하여 잔여 신호로부터 이러한 주기적 구조를 제거하여, 잔여 모델링 스테이지[5]에 입력되는 새로운 잔여 신호를 생성함으로써 방지될 수 있다. 장기간 선형 예측자는 일반적으로 지연 및 예측 계수의 작은 세트에 의해 설명된다.

파형이 정확히 주기적이지 않지만, 이상적인 주기성으로부터의 이러한 편차(deviation)는 협대역 신호(8 kHz 샘플링)의 경우에 LTP 성능에 크게 영향을 미치지 않는데, 이는 단일 지연에 의해 포함된 시간 기간이 파형 기간에서의 드리프트(drift)를 흡수할 정도로 충분하기 때문이다. 더욱이, 2 또는 3 예측 계수를 갖는 LTP는 시스템을 이러한 변동에 더 강력하게 만든다. 3개 초과 예측 계수를 갖는 LTP는 실용적이지 않은데, 이는 필터가 더 길어질수록, 필터가 불안전하게 되는 경향이 더 커지고, 안정화 절차가 더 많이 수반된다[4]. LTP는 대부분의 현재 음성 인코더에 성공적으로 사용된다.

광대역(44.1kHz 샘플링) 음성 및 오디오 신호의 인코딩에 대한 LPC 및 펄스 여기의 적용은 몇 년 전에 제한된 성공으로 또한 테스트되었다[5, 6]. 그러나, 선형 예측[7]의 영역에서의 최근의 발전은 이러한 기술에서의 관심을 재개하였고, 선형 예측 광대역 인코딩에서의 몇몇 새로운 연구는 최근에 공개되었다[8, 9].

광대역 음성 및 오디오 인코딩에서의 장기간 예측의 이용은 몇가지 어려움을 제공하는데, 이러한 어려움은 협대역 음성에서 마주치지 않게 되고, 이용된 높은 샘플링율(32kHz 또는 그보다 높은)에 의해 야기된다. 먼저, 협대역 상황과 달리, 다수의 LTP 예측 계수는 잔여 주기성에서의 변동을 성공적으로 추적하기 위해 LTP에서 필요하다. 전술한 바와 같이, 적은 예측 계수를 수반하는 LTP는 불안정성 문제[4]로 인해 실용적이지 않다. 짧은 LTP(1, 2 또는 3 예측 계수)가 사용될 수 있지만, 이들에 의해 달성된 이득은 최소이다. 추가 문제는 최적의 지연에 대한 검색의 높은 계산상 복잡성이다. 이것은, 신호 세그먼트가 협대역 신호에 비해 훨씬 더 많은 수의 샘플을 포함한다는 점 때문에 일어난다.

양쪽 모두의 이유는 광대역(44.1kHz 샘플링) 오디오 또는 음성 인코딩에서 부적합한 LTP를 이용한다. 그럼에도 불구하고, 준-주기 펄스 트레인은 잔여 신호에 존재하고, 후속 펄스 모델링 스테이지에 대한 심각한 문제를 야기할 수 있다. 일례로, 도 5의 a는 독일인 남성 음성에서 유성음부에 대응하는 잔여 신호의 여러 프레임(240 샘플의 프레임에서 1,500 샘플)을 도시한다. 준-주기 구조는 명백히 존재한다. 도 5의 b는 잔여 신호로부터 계산된 데시메이션 2 및 3-레벨 양자화를 갖는 RPE 신호를 도시한다. 마지막으로, 도 5의 c는 본래 및 재구성된 신호 사이의 에러를 도시한다. 에러 신호에서의 피크는, 펄스 모델링이 이들 세그먼트에서 매우 우수하지 않다는 것을 나타내는 잔여 신호에서의 피크에 가까이 따른다. 일반적으로, 음성 신호에서, 유성음 세그먼트에서의 모델링 에러가 코딩된 신호에서 존재의 인식된 손실을 초래한다는 것이 실험적으로 발견되었다.

종래의 펄스 인코더에 의해 달성된 최종 신호 품질은 주로 2가지 파라미터, 즉 프레임당 펄스의 수, 및 결과적인 펄스를 양자화하는데 사용된 레벨의 수에 의해 결정된다. 펄스의 수 및 양자화 레벨의 수가 더 높을수록, 코딩된 신호의 표현은 더 정밀하게 된다. 다른 한 편으로, 높은 압축도를 달성하기 위해, 펄스 및 양자화 레벨의 수는 최소화되어야 한다.

사용된 프레임당 펄스의 수와 상관없이, 신호의 매우 거친 양자화는 신호의 일부 부분이 적절히 표현되지 않기 때문에 신호가 큰 동적 범위를 나타낼 때마다 문제가 발생한다. 이것은 준-주기 방식으로(펄스-트레인 유형의 주기성) 수시적인 큰 신호 진폭을 포함하는 잔여 신호에 마주치는 상황이다. 문제는 일부 샘플이 0으로 강제될 때 악화되는데, 그 이유는 이들이 RPE 또는 MPE에서 또한 산재 코드북이 CELP 코더에서 사용된 것처럼 사용될 때 이루어지기 때문이다.

본 발명자는, 이러한 상황에 대해 적절한 기능을 하는 LTP 메커니즘의 부족으로 인해 잔여 신호의 모델링에 대한 RPE, MPE 또는 CELP(또는 이들의 변형)와 같은 음성 코딩에서 현재 사용된 상이한 분석-합성 기술이 광대역 코딩에서 불충분하다는 것을 인식한다. RPE 또는 소수의 여분 펄스 또는 CELP 및 소수의 여분 펄스의 결합은 이러한 문제를 완화시키는데, 이것은 여분 펄스가 일반적으로 장기간 상관 관계를 나타내는 잔여 신호에서 나타나는 준-주기 스파이크(spike)를 모델링하는데 효과적으로 사용될 수 있기 때문이다.

본 발명은 디지털 오디오 신호를 인코딩하는 방법에 관한 것으로, 신호의 각 시간 세그먼트에 대해, 다음 단계가 수행된다:

- 스펙트럼 방식으로 평탄화된 신호를 얻기 위해 신호를 스펙트럼 방식으로 평탄화하는 단계;

- 제 1 및 제 2 부분 여기 신호를 포함하는 여기 신호에 의해 스펙트럼 방식으로 평탄화된 신호를 모델링하는 단계;

- 제 1 부분 여기 신호는 RPE 또는 CELP 펄스 모델링 기술에 의해 생성된 여기 신호에 따르고,

- 제 2 부분 여기 신호는 스펙트럼 방식으로 평탄화된 신호에서 스파이크를 모델링하는 여분 펄스의 세트이고, 여분 펄스는 임의의 위치 및 진폭을 갖고,

- 제 1 및 제 2 부분 여기 신호를 포함하는 오디오 비트 스트림을 생성하는 단계.

본 발명은 또한 디지털 오디오 신호의 시간 세그먼트를 인코딩하도록 적응된 오디오 인코더에 관한 것으로, 상기 인코더는,

- 스펙트럼 방식으로 평탄화된 신호를 출력하기 위해 신호를 스펙트럼 방식으로 평탄화하기 위한 스펙트럼 평탄화 유닛과,

- 제 1 및 제 2 부분 여기 신호를 포함하는 여기 신호를 계산하도록 적응된 계산 유닛으로서, - 상기 제 1 부분 여기 신호는 RPE 또는 CELP 기술에 의해 생성된 여기 신호에 따르고, - 상기 제 2 부분 여기 신호는 스펙트럼 방식으로 평탄화된 신호에서 여분 펄스 모델링 스파이크의 세트이고, 여분 펄스는 임의의 위치 및 진폭을 갖는, 계산 유닛과,

- 제 1 및 제 2 부분 여기 신호를 포함하는 오디오 비트 스트림을 생성하기 위한 오디오 비트 스트림 생성기를 포함한다.

추가로, 본 발명은 수신된 오디오 비트 스트림을 디코딩하는 방법에 관한 것으로, 오디오 신호의 복수의 세그먼트 각각에 대해, 오디오 비트 스트림은,

- RPE 또는 CELP 펄스 모델링 기술에 의해 생성된 여기 신호에 따르는 제 1 부분 여기 신호,

- 스펙트럼 방식으로 평탄화된 신호에서 여분 펄스 모델링 스파이크의 세트인 제 2 부분 여기 신호로서, 상기 여분 신호는 임의의 위치 및 진폭을 갖는, 제 2 부분 여기 신호를 포함하고,

상기 방법은 결합된 제 1 및 제 2 여기 신호 및 스펙트럼 평탄화된 파라미터에 기초하여 출력 신호를 합성하는 수단을 포함한다.

따라서, 본 발명은 오디오 비트 스트림을 수신 및 디코딩하기 위한 오디오 플레이어에 관한 것으로, 오디오 비트 스트림은 오디오 신호의 복수의 세그먼트 각각에 대해,

- RPE 또는 CELP 기술에 의해 생성된 여기 신호에 따르는 제 1 부분 여기 신호,

- 스펙트럼 방식으로 평탄화된 신호에서 여분 펄스 모델링 스파이크의 세트인 제 2 부분 여기 신호로서, 여분 펄스는 임의의 위치 및 진폭을 갖는, 제 2 부분 여기 신호를 포함하며,

상기 오디오 플레이어는 결합된 부분 여기 신호 및 스펙트럼 방식으로 평탄화된 파라미터로부터 출력 신호를 합성하는 수단을 포함한다.

마지막으로, 본 발명은 오디오 신호의 복수의 세그먼트 각각에 대해,

- 스펙트럼 방식으로 평탄화된 신호에서 여분 펼스 모델링 스파이크의 세트인 제 2 부분 여기 신호로서, 여분 펄스는 임의의 위치 및 진폭을 갖는, 제 2 부분 여기 신호를 포함하는, 오디오 비트 스트림에 관한 것이고,

그리고 이에 저장된 그러한 오디오 비트 스트림을 갖는 저장 매체에 관한 것이다.

본 발명의 실시예는 예로서 첨부된 도면을 참조하여 이제 설명될 것이다.

도 1은 종래 기술에 따른 인코더를 도시한 도면.

도 2는 도 1의 인코더와 호환하는 디코더를 도시한 도면.

도 3은 본 발명에 따른 인코더의 바람직한 실시예를 도시한 도면.

도 4는 본 발명에 따라 도 3의 인코더와 호환하는 디코더의 바람직한 실시예를 도시한 도면.

도 5는 기존의 RPE 인코딩(도 5의 b) 및 연관된 에러(도 5의 c)를 이용하여 인코딩된 독일인 남성의 음성 잔여 신호(도 5의 a)의 일례를 도시한 도면.

도 6은 본 발명의 방법(도 6의 b) 및 연관된 감소된 에러(도 6의 c)를 이용하여 인코딩된 독일인 남성의 음성 잔여 신호(도 6의 a, 도 5의 a와 동일함)의 일 례를 도시한 도면.

도 7은 도 3의 인코더와 파라미터 인코더를 결합하는 인코더의 일실시예를 도시한 도면.

도 8은 도 7의 인코더와 호환하는 디코더의 제 1 실시예를 도시한 도면.

도 9는 도 7의 인코더와 호환하는 디코더의 제 2 실시예를 도시한 도면.

도 1은 기존의 분석-합성 여기 인코더를 도시한다. 일반적으로, 인코딩 프로세스는 프레임 단위에 기초하여 작용하고, 2가지 단계로 구성되는데, 즉 먼저 입력 신호는 또한 잔여 신호로 언급된 스펙트럼 방식으로 평탄화된 신호(r), 및 스펙트럼 방식의 평탄화를 나타내는 선형 예측 파라미터(LPP)를 얻기 위해 프레임-가변 선형 예측 분석 필터(LPC)를 통과한다. 스펙트럼 방식으로 평탄화된 신호(r)는 펄스 모델링 프로세스가 여기 신호(x)를 유도하기 위해 스펙트럼 방식으로 평탄화된 신호에 적용되는 RPE 인코더와 같은 잔여 모델링 스테이지에 공급된다. 여기 신호(x)를 나타내는 파라미터(p_x) 및 파라미터(LPP)는 오디오 비트 스트림(AS)에 결합된다.

도 2에서, 기존의 분석-합성 디코더가 도시된다. 디코더는 파라미터(p_x) 및 파라미터(LPP)를 포함하는 오디오 비트 스트림(AS)을 수신한다. 디코더는 파라미터(p_x)에 따라 여기 신호(x)를 생성하고, 이것을 파라미터(LPP)에 의해 규정된 필터 파라미터를 갖는 선형 예측 합성 필터에 공급하고, 이것은 또한 프레임마다 갱신되 고, 본래 신호의 근사치를 생성한다.

본 발명에 따라, 특히 펄스 유형의 트레인과 같은, 스펙트럼 방식으로 평탄화된 신호에서 준-주기성의 인코딩 문제는 펄스 모델을 연장함으로써 해결되는데, 종래의 RPE 신호는 자유 이득/위치를 갖는 추가 펄스에 의해 보충되고, 즉 추가된 펄스의 시간에서의 위치는 RPE 시간-그리드에 의해 반드시 지시될 필요가 없거나, 종래의 RPE 신호의 양자화 그리드에 의해 지시된 여분 펄스의 이득이 아니다. 이들 여분 펄스의 객체는 다른 경우 모델링되지 않은 잔여 스파이크를 모델링하는 것이다. 이를 통해, 더 많은 자유는 신호의 나머지를 모델링하도록 RPE 신호에 주어진다. 여분 펄스는 이에 따라 잔여 스파이크를 더 엄밀히 모델링하도록 추가된다. 이러한 절차는, MPE 펄스가 신호 스파이크를 모델링하고 RPE 펄스가 잔여 신호의 나머지를 모델링하는 RPE 및 MPE의 명백하지 않은 혼합(non-obvious fusion)으로서 해석될 수 있다. 이러한 절차는, 이제 RPE 및 MPE가 경쟁적인 기술인 것으로 고려될 때까지 명백하지 않지만, LTP가 없을 때 이들은 상보적인 것으로 작용하도록 이루어질 수 있다.

잔여 펄스(K)의 수가 임의로 설정될 수 있지만, 사실상 프레임당 1 또는 2로 한정될 것이다. 이에 대한 이유는, 인간의 음성에서의 피치가 50-400Hz의 범위 내에 있고, 일반적으로 처리가 5ms 세그먼트에서 발생하여, 따라서 임의의 주어진 세그먼트에서 하나 또는 2개의 사이클, 즉 하나 또는 큰 피크가 있다는 것이다.

본 발명의 방법의 바람직한 실시예에서, 양자화 레벨의 수는 3(1,0,-1)으로 고정된다. 데시메이션 인자는, 데시메이션 2 및 8이 뛰어나고 우수한 품질을 각각 얻기 위해 바람직하지만, 임의로 설정될 수 있다. 펄스의 매우 거친 양자화는 2의 데시메이션 인자조차도 전체 RPE 구성의 성능을 크게 결정한다.

본 발명에 따라, 조합 RPE/여분 펄스 최적화는 각 프레임에 대해 수행되고, 다음과 같이 작용한다: 정상의 양자화되지 않은 RPE 신호를 계산함으로써 시작한다[1], K(여분 펄스의 수) 가장 큰 크기의 펄스에 대응하는 위치는 여분 펄스 위치로서 선택된다. 그 다음에 RPE 신호는 양자화(3 레벨)되고, RPE 신호에 대한 이득 및 여분 펄스 각각의 조합 최적 계산이 수행된다. 이러한 절차는 각 가능한 RPE 오프셋에 대해 반복되고, 재구성 에러의 가장 낮은 기준을 발생하는 해결책이 선택된다. 그러므로, 여기 신호(x)는 2가지 부분 여기로 구성되고; 종래의 RPE 여기 신호(x_RPE) 및 k=1, ...,K에 대해 델타 함수의 합(g_kδ_k)으로 구성되는 제 2 부분 여기 신호, 여기서 델타 함수는 하나의 특정한 시간 순간에서만 1과 동일한 진폭을 갖는 모든 0의 신호로서 정의되고, g_k는 연관된 이득이다.

도 3에서, 본 발명에 따는 인코더의 실시예가 도시된다. 인코더는 선형 예측 코딩(LPC)를 이용하여 선형 예측 분석 필터(10)에 입력된 디지털 입력 신호를 수신하고, 상기 LPC는 선형 예측 파라미터(LPP) 및 스펙트럼 방식으로 평탄화된 잔여 신호(r)를 생성한다. 그러므로, 선형 예측 파라미터(LPP)는 또한 스펙트럼 방식으로 평탄화된 파라미터로 지칭된다. 잔여 신호(R)는 잔여 모델링 스테이지(11)에 입력되고, 이 스테이지는 출력으로서 RPE 또는 CELP 제약에 따른 여기를 나타내는 파라미터(p_x), 및 여분 펄스를 나타내는 파라미터(p_EP)를 생성한다. 오디오 비트 스트 림(12)은 여기 신호를 나타내는 파라미터(p_x 및 p_EP)를 결합함으로써 오디오 비트 스트림(AS)을 생성한다. 스펙트럼 방식으로 평탄화된 파라미터(LPP)는 오디오 비트 스트림에 포함될 수 있거나, 후방-적응 선형 예측 알고리즘을 이용하여 디코더에서 생성될 수 있다.

도 4에서, 도 3의 인코더와 호환하는 디코더가 도시된다. 디멀티플렉서(21)에서, 수신된 오디오 비트 스트림(AS)은 선형 예측 파라미터(LPP), RPE 또는 CELP 여기 신호 파라미터(p_x) 및 여분 펄스 파라미터(p_EP)에 대응하는 파라미터 스트림으로 분리된다. 여기 생성기(22)는 여기 신호(x)를 생성하기 위해 파라미터(p_x 및 p_EP)를 이용한다. 여기 신호(x)는 선형 예측 합성 필터(23)에 공급되고, 이 필터는 출력으로서 인코더의 입력 신호의 근사치를 생성한다. 파라미터(LPP)가 오디오 비트 스트림에 포함되지 않는 경우에, 후방-적응 선형 예측을 이용하여

로부터 생성될 수 있다.

각 인입 프레임에 대해 도 3으로부터의 블록(11) '잔여 모델링'에 따라 2개의 분할 여기 신호를 계산하는 효과적인 알고리즘은 다음과 같이 요약될 수 있다:

각 오프셋(j)에 대해 do

최적의 RPE 양자화되지 않은 진폭을 계산 => A(j)

K의 가장 큰 크기의 진폭의 위치를 선택

K개 부분 여기 신호를 생성 => δ_k(j),k=1,...,K

A(j) 양자화 => A_q(j)

A_q(j)로부터 부분 여기 신호를 계산 => x(j)

최적의 이득을 계산 => g_x(j), g_l(j),...,g_K(j)

총 여기를 조합 => x(j)=g_x(j)x_RPE(j)+g_l(j)δ_l(j)+...g_Kδ_K(j)

현재 오프셋(j)에 대한 재구성 에러의 기준을 계산 =>e(j)

end

최소 기준으로 x(j)를 선택 =>x^opt

최적의 RPE 양자화되지 않은 진폭의 계산은 [1]에 따라 이루어진다. 최적의 이득의 계산은 다음의 선형 수학 시스템을 해결함으로써 수행된다:

여기서 s_x(j)는 RPE 여기{즉 합성 필터의 임펄스 응답을 갖는 x(j)의 컨벌루션}로 인해 합성된 신호 근사 성분을 나타내고, s_δi(j)는 i번째 여분 펄스{즉 합성 필터의 임펄스 응답을 갖는 δ_i(j)의 컨벌루션}로 인해 합성된 신호 근사 성분을 나타내고, s는 본래 오디오 신호를 나타낸다. 이러한 수학식은 부분 여기로부터 본래 세그먼트와 그 재구성 사이의 에러 배수(error power)의 최소화로부터 따른다.

이러한 절차가 비록 RPE 신호 및 여분 펄스의 위치 및 진폭의 반-최적된(sub-optimal) 최적화가 있을지라도 여전히 결합을 유도한다는 것이 주지된다.

최적의 결합된 RPE/여분 펄스 신호를 설계하기 위해, 예를 들어 상기와 같이 철저한 계산이 필요하다. 이러한 절차의 매우 높은 복잡도는 결합 RPE/여분 펄스 여기를 계산하기 위해 더 간단한 전략에 대한 필요성을 유발한다.

따라서, 본 발명의 바람직한 실시예에서, 여분 펄스는 RPE 그리드 상에 있도록, 즉 RPE 펄스와 일치하도록 제약된다. 이것은, 여분 RPE 펄스가 모델링하지만 다음 또는 가장 가까운 RPE 펄스 그리드 위치로 오프셋되는 잔여 펄스와 엄밀히 일치할 필요가 없다는 것을 의미한다. 이러한 접근법은 2가지 중요한 장점을 갖는다: 인코더의 복잡도는 극적으로 감소되고, 비트율이 감소되는데, 이는 여분 펄스의 위치를 인코딩하는데 소비된 비트의 수가 감소되기 때문이다.

종래의 RPE 또는 CELP 신호에 대한 여분 펄스의 추가의 결과는 비트율에서 증가하는 것이다. 그러나, 비트율에서의 증가는 총 비트율에 비교할 때 오히려 적당하다. 일례로, 데시메이션 2 및 3-레벨 양자화(1.6비트/펄스)를 갖는 RPE를 이용하여 44,100 샘플/s 평탄화된 신호의 인코딩은 약 40kb/s의 비트율을 초래한다. 5ms 프레임 길이를 가정하면, 설명된 기술을 이용한 2개의 여분 펄스의 추가는 비트율을 약 43.6kb/s로 상승시킨다.

제공된 알고리즘에서, 여분 펄스의 위치를 복잡하게 검색할 필요가 없다는 것을 알 것이다. 또한, 그 결과는, 이러한 방식으로 얻어지고 RPE 그리드에 제한된 여분 펄스가 잔여 신호로부터 펄스-유형 주기성을 제거하는데 효과적이라는 것을 나타낸다.

도 6의 a 내지 도 6의 c는 본 발명에 따른 방법의 성능을 도시한다. 도 6의 a는 주기적 또는 준-주기적 피크 또는 스파이크로 도 5의 a(독일인 남성 음성 잔여 신호)와 동일한 스펙트럼 방식으로 평탄화된 신호를 도시한다. 도 6의 b는 프레임당 추가된 2개의 여분 펄스(P)로 계산된 RPE 신호(데시메이션 2,3-레벨 양자화)를 도시하며, 여기서 여분 펄스는 도 6의 a에서 평탄화된 신호에서 준-주기적 스파이크(S)를 모델링하는 것이다. 에러, 즉 본래 및 재구성된 신호 사이의 차이는 도 6의 c에 도시되며, 도 6의 c는, 도 5의 c에서 에러 신호의 큰 피크가 이제 크게 제거되고, 일반적으로 에러 신호가 무작위 신호와 같다는 것을 나타낸다.

도 7, 8 및 9 및 대응 설명은 본 발명에 적합하게 적응된 본 출원인의 내부 관리 번호 PHNL031414EPP에 대한 문서에서의 기재를 반영한다.

도 7에서, 본 발명에 따라 파라미터 인코더와 RPE 펄스 여분 펄스 기술을 결합하는 인코더가 도시된다. 파라미터 인코더와 RPE 인코더의 결합은 출원인 내부 관리 번호 PHNL031414EPP에 대한 문서에 기재되어 있다. 파라미터 인코더는 WO 01/69593에 기재된다. 도 7에서, 입력 오디오 신호(s)는 먼저 블록(TSA: Transient and Sinusoidal Analysis) 내에서 처리된다. 이러한 블록은 트랜지언트 및 사인파에 대한 연관된 파라미터를 생성한다. 비트율(B)이 주어지면, 블록(BRC: Bit Rate Control)은 바람직하게 사인파의 수를 제한하고, 바람직하게 트랜지언트를 유지하여, 사인파 및 트랜지언트에 대한 전체 비트율은 일반적으로 약 20kbit/s로 설정된 B 이하이다.

파형은 블록(TSA)에 의해 생성되고 블록(BRC)에 의해 변형된 트랜지언트 및 사인파 파라미터(CT 및 CS)를 이용하여 블록(TSS: Transient and Sinusoidal Synthesiser)에 의해 생성된다. 이 신호는 입력 신호(s)로부터 감산되어, 신호(r1)를 발생시킨다. 일반적으로, 신호(r1)는 실질적인 사인파 및 트랜지언트 성분을 포함하지 않는다.

신호(r1)로부터, 스펙트럼 엔벨로프는 추정되고, 예를 들어 태핑-지연-라인(tapped-delay-line) 또는 라게르(Laguerre) 필터에 기초한 선형 예측 필터를 이용하여 블록(SE)에서 제거된다. 선택된 필터의 예측 계수(Ps)는 종래의 유형의 잡음 코드(C_N)의 부분으로서 디코더로의 송신을 위한 오디오 비트 스트림(AS)에 기록된다. 그 다음에, 시간 엔벨로프는 종래 기술에 설명된 바와 같이 예를 들어 라인 스펙트럼 쌍(LSP) 또는 라인 스펙트럼 주파수(LSF) 계수를 이득과 함께 생성하는 블록(TE)에서 제거된다. 임의의 경우에, 시간 평탄화로부터의 결과적인 계수(Pt)는 종래의 유형의 잡음 코드(C_N)의 부분으로서 디코더로 송신을 위해 오디오 비트 스트림(AS)에 기록된다. 일반적으로, 계수(P_s 및 P_T)는 4-5kbit/s의 비트율 예산을 필요로 한다.

펄스 트레인 코더가 제 1 스펙트럼 방식의 평탄화 스테이지를 이용하기 때문에, 도 3으로부터의 잔여 모델링 스테이지(11)는, 비트율 예산이 잔여 모델링에 할당되는 지의 여부에 따라 블록(SE)에 의해 발생된 스펙트럼 방식으로 평탄화된 신호(r₂)에 선택적으로 적용될 수 있다. 점선으로 표시된 대안적인 실시예에서, 잔여 모델링은 블록(TE)에 의해 발생된 스펙트럼 방식 및 시간 평탄화된 신호(r₃)에 적용된다. 잔여 모델링(px 및 pEP)으로부터의 출력은 데이터(L_o)에 포함된다.

실험은, 잔여 모델링이 때때로 소수의 펄스{예를 들어, 높은 데시메이션 인자(예를 들어 D=8)를 갖는 RPE 또는 산재 코드북을 갖는 CELP}를 이용할 때 재구성된 신호에서의 밝기의 손실을 초래한다는 것을 보여주었다. 약간의 저 레벨 잡음을 여기에 추가하는 것은 이러한 문제를 완화시킨다. 잡음의 레벨을 결정하기 위해, 이득(g)은 예를 들어 여기 및 잔여 신호로부터 생성된 신호 사이의 에너지/전력 차이(r₂/r₃)에 기초하여 계산된다. 이러한 이득은 또한 계층 L₀ 정보의 부분으로서 디코더로 송신된다.

본 출원인의 내부 관리 번호 PHNL031414EPP에서, 도 7이 설명되지만, 잔여 모델링은 RPE 모델러이다. 그럼에도 불구하고, 파라미터 모델링과의 결합의 경우에, 또한 여기 신호에서의 여분 펄스의 포함이 비트율에서의 사소한 증가의 비용에서 품질의 관점으로부터 이익이 있다는 것을 발견했다.

도 8에서 도 7의 인코더와 호환하는 디코더가 도시된다. 디멀티플렉서(DEMUX)는 인입 오디오 비트 스트림(AS)을 판독하고, 종래 기술에서와 같이 사인파, 트랜지언트 및 잡음 코드(C_S, C_T, 및 C_N(Ps, Pt))를 각 합성기(SiS, TrS 및 TEG/SEG)에 제공한다. 종래 기술에서와 같이, 백색 잡음 생성기(WNG)는 시간 엔벨로프 생성기(TEG)에 대한 입력 신호를 공급한다. 정보가 이용가능한 실시예에서, 도 4에서 22와 같은 잔여 생성기는 계층(L_o)으로부터 여기 신호를 생성하고, 이것은 여기 신호(r₂')를 제공하기 위해 블록(Mx)에서 혼합된다. 인코더로부터, 잡음 코드(C_N(Ps, Pt))와 계층(L_o)이 동일한 잔여 신호(r₂)로부터 독립적으로 생성될 때, 그것이 생성한 신호가 합성된 여기 신호(r₂')에 대해 정확한 에너지 레벨을 제공하도록 이득이 변형될 필요가 있다는 것을 알 수 있다. 이 실시예에서, 믹서(Mx)에서, 블록(TEG) 및 여기 생성기에 의해 발생된 신호가 결합된다.

그 다음에, 여기 신호(r₂')는, 코드(Ps)에 따라 합성된 잡음 신호(r₁')를 생성하는 스펙트럼 엔벨로프 생성기(SEG)에 공급된다. 이 신호는 출력 신호(

)를 생성하기 위해 종래의 트랜지언트 및 사인파 합성기에 의해 생성된 합성 신호에 추가된다.

대안적인 실시예에서, 여기 생성기에 의해 생성된 파라미터는 시간 형태 잡음 신호를 생성하기 위해 WNG에 의해 출력된 신호의 시간 엔벨로프를 형성하도록 잡음 코드(Pt)와 결합하여 사용된다(점선으로 표시됨).

도 9에서, 잔여 모델링 스테이지가 잔여 신호(r₃)를 처리하는 도 7의 실시예에 대응하는 디코더의 제 2 실시예가 도시된다. 여기서, 백색 잡음 생성기(WNG)에 의해 생성되고, 인코더에 의해 결정된 이득(g) 및 C_N에 기초하여 블록(We)에 의해 처리된 신호, 및 여기 생성기에 의해 생성된 여기 신호는 여기 신호(r₃')를 구성하 도록 추가된다. 물론, 계층(L_o) 정보가 이용가능하지 않은 경우, 백색 잡음은 블록(We)에 의해 영향을 받지 않고, 여기 신호(r_3a')로서 시간 엔벨로프 생성기 블록(TEG)에 제공된다.

그 다음에 시간 엔벨로프 계수(Pt)는 이전과 같이 처리되는 합성 신호(R₂')를 제공하기 위해 블록(TEG)에 의해 여기 신호(r₃') 상에 부과된다. 전술한 바와 같이, 이것은 유리한데, 이는 여기 신호가 일반적으로 적절히 가중된 추가 잡음 시퀀스로 중화될 수 있는 밝기에서의 약간의 손실을 초래하기 때문이다. 가중은 각각 이득 인자(g 및 C_N)에 기초한 간단한 진폭 또는 스펙트럼 형성을 포함할 수 있다.

이전과 같이, 신호는 예를 들어 스펙트럼 엔벨로프를 신호에 추가하는 블록(SEG: Spectral Envelope Generator)에서 선형 예측 합성 필터에 의해 필터링된다. 결과적인 신호는 이전과 같이 합성된 사인파 및 트랜지언트 신호에 추가된다.

도 8 또는 도 9에서, 어떠한 여기 생성기도 사용되지 않은 경우, 디코딩 구성은 잡음 인코더만을 이용하는 종래의 사인파 인코더와 유사하다는 것을 알 것이다. 여기 생성기가 사용되면, 여기 신호는 추가되고, 이것은 재구성된 신호를 향상시키는데, 즉 더 높은 오디오 품질을 제공한다.

도 9의 실시예에서, 완전한 프레임에 대해 고정된 이득이 사용되는 표준 펄스 인코더(RPE 또는 MPE)에 비해, 시간 엔벨로프는 신호(r₂')에 병합된다는 것이 주지되어야 한다. 그러한 시간 엔벨로프를 이용함으로써, 더 나은 사운드 품질을 얻 을 수 있는데, 이는 프레임당 고정된 이득에 비해 이득 프로파일에서의 더 높은 융통성 때문이다.

전술한 혼합 방법은 광범위한 비트율에서 동작할 수 있고, 비트율마다 종래 기술의 인코더의 품질에 필적하는 품질을 제공한다. 상기 방법에서, 파라미터(사인파) 인코더에 의해 공급된 데이터에 의해 구성되는 기본 층은 입력 신호의 주요 또는 기본 특징을 포함하고, 고품질의 오디오 신호에 대한 매체는 매우 낮은 비트율에서 얻어진다.

PHNL031414EPP에 대해 도 7의 인코더에서의 변화와 유사하게, 도 8 및 도 9의 디코더가 적응된다. PHNL031414EPP로부터의 블록(PTG)은 도 4로부터 여기 생성기(22)로 대체된다.

[인용]

[1] P. Kroon, E.D.F. Deprettere, 및 R. J. Sluyter, 정상-펄스 여기- 음성의 효율적이고 효과적인 다중펄스 코딩에 대한 새로운 접근법. IEEE Trans. 음향, 음성 및 신호 처리, 34:1054-1063, 1986.

[2] B.S. Atal 및 J.R. Remde. 낮은 비트율에서 자연-사운드 음성을 생성시키기 위한 lpc 여기의 새로운 모델. IEEE ICASSP-82 회보, 614-617 페이지, 1982 4월.

[3] R.P. Ramachandran 및 P.Kabal. 음성 코딩에서의 피치 예측 필터. IEEE Trans. 음향 음성 신호 처리, 37:467-478, 1989.

[4] R.P. Ramachandran 및 P. Kabal. 음성 코더에서의 피치 필터의 안정성 및 성능 분석. IEEE Trans. 음향 음성 신호 처리, 35:937-945, 1987.

[5] S.Singhal, 다중펄스 lpc를 이용하는 고품질 오디오 코딩. IEEE ICASSP-90 회보, 1101-1104 페이지, 1990년 4월 3-6.

[6] X.Lin, R.A. Salami 및 R.Steele. 분석-합성 기술을 이용하는 고품질 오디오 코딩. IEEE ICASSP-91 회보, 3617-3620 페이지, 1991 4월 14-17.

[7] A.Harna, M. Karjalainen, L.Savioja, V. Valimaki, U.K. Laine, 및 J. Iluopaniemi. 오디오 애플리케이션을 위한 주파수-워핑 신호 처리. J. Audio Eng. Soc., 48:1011-1031, 2000.

[8] R.Yu 및 C.C. Ko. 워핑 선형-예측 기반의 서브밴드 오디오 코딩 알고리즘. IEEE Trans. 음성 오디오 처리., 10:1-8, 2002.

[9] G.D.T. Schuller, B.Yu, D. Huang 및 B. Edler. 적응형 전치 및 후치 필터 및 무손실 압축을 이용하는 인식 오디오 코딩. 음성 및 오디오 처리, 10:379-390, 2002.

[10] W.B. Kleijn 및 K.K. Paliwal(Eds). 음성 코딩 및 합성, Elsevier, 1995, 암스테르담, 79-119 페이지.

상술한 바와 같이, 본 발명은 광대역 신호, 특히 음성 신호와 같은 오디오 신호의 인코딩 및 디코딩, 인코더 및 디코더 모두, 및 본 발명에 따라 인코딩된 오디오 비트 스트림, 및 그러한 오디오 비트 스트림이 저장되는 데이터 저장 매체 등에 이용된다.

Claims

디지털 오디오 신호를 인코딩하는 방법으로서, 상기 신호의 각 시간 세그먼트에 대해,

- 스펙트럼 방식으로 평탄화된 신호(r)를 얻기 위해 신호를 스펙트럼 방식으로 평탄화하는 단계;

- 제 1 및 제 2 부분 여기 신호를 포함하는 여기 신호에 의해 스펙트럼 방식으로 평탄화된 신호를 모델링하는 단계로서,

- 제 1 부분 여기 신호(px)는 RPE 또는 CELP 펄스 모델링 기술에 의해 생성된 여기 신호에 따르고,

- 제 2 부분 여기 신호(p_EP)는 스펙트럼 방식으로 평탄화된 신호에서 스파이크(S)를 모델링하는 여분 펄스(P)의 세트이고, 여분 펄스는 임의의 위치 및 진폭을 갖는,

모델링 단계; 및

- 제 1 및 제 2 부분 여기 신호를 포함하는 오디오 비트 스트림을 생성하는 단계가 수행되는, 디지털 오디오 신호를 인코딩하는 방법.
제 1항에 있어서, 상기 하나 이상의 여분 펄스(P)는 상기 스파이크(S)의 발생 시간에 실질적으로 대응하는 시간의 위치에서 여기 신호(x)에 추가되는, 디지털 오디오 신호를 인코딩하는 방법.
제 1항에 있어서, 상기 하나 이상의 여분 펄스(P)는 RPE 시간 그리드 상의 시간의 위치에서 상기 여기 신호(x)에 추가되는, 디지털 오디오 신호를 인코딩하는 방법.
제 1항에 있어서, 상기 제 1 부분 여기 신호(px)의 펄스, 및 상기 제 2 부분 여기 신호(p_EP)의 하나 이상의 여분 펄스(P)는 모두 RPE 시간 그리드 상의 시간의 위치에 있는, 디지털 오디오 신호를 인코딩하는 방법.
제 3항에 있어서, 상기 여분 펄스의 위치는 잔여 신호로부터 계산된 양자화되지 않은 RPE 여기 신호의 여러 극단의 위치로서 결정되는, 디지털 오디오 신호를 인코딩하는 방법.
제 1항에 있어서, 상기 오디오 비트 스트림은 스펙트럼 평탄화 파라미터(LPP)를 더 포함하는, 디지털 오디오 신호를 인코딩하는 방법.
디지털 오디오 신호의 시간 세그먼트를 인코딩하도록 적응된 오디오 인코더로서,

- 스펙트럼 방식으로 평탄화된 신호(r)를 출력하기 위해 신호를 스펙트럼 방식으로 평탄화하기 위한 스펙트럼 평탄화 유닛과,

- 제 1 및 제 2 부분 여기 신호를 포함하는 여기 신호를 계산하도록 적응된 계산 유닛으로서,

- 상기 제 1 부분 여기 신호(px)는 RPE 또는 CELP 기술에 의해 생성된 여기 신호에 따르고,

- 상기 제 2 부분 여기 신호(p_EP)는 스펙트럼 방식으로 평탄화된 신호에서 스파이크(S)를 모델링하는 여분 펄스(P)의 세트이고, 상기 여분 펄스는 임의의 위치 및 진폭을 갖는, 계산 유닛과,

- 제 1 및 제 2 부분 여기 신호를 포함하는 오디오 비트 스트림을 생성하기 위한 오디오 비트 스트림 생성기를

포함하는, 오디오 인코더.
제 7항에 있어서, 상기 계산 유닛은 상기 스파이크(S)의 발생 시간에 대응하는 시간의 위치에서 여기 신호(x)에 상기 하나 이상의 여분 펄스(P)를 추가하도록 적응된, 오디오 인코더.
제 7항에 있어서, 상기 계산 유닛은 RPE 시간 그리드 상의 시간의 위치에서 상기 여기 신호(x)에 상기 하나 이상의 여분 펄스(P)를 추가하도록 적응되는, 오디 오 인코더.
제 7항에 있어서, 상기 제 1 부분 여기 신호(px)의 펄스, 및 상기 제 2 부분 여기 신호(p_EP)의 하나 이상의 여분 펄스(P)는 모두 RPE 시간 그리드 상의 시간의 위치에 있는, 오디오 인코더.
제 7항에 있어서, 상기 여분 펄스의 위치는 잔여 신호로부터 계산된 양자화되지 않은 RPE 여기 신호의 여러 극단의 위치로서 결정되는, 오디오 인코더.
제 7항에 있어서, 상기 오디오 비트 스트림은 스펙트럼 평탄화 파라미터(LPP)를 더 포함하는, 오디오 인코더.
수신된 오디오 비트 스트림(AS)을 디코딩하는 방법으로서, 상기 오디오 비트 스트림은, 오디오 신호의 복수의 세그먼트 각각에 대해,

- RPE 또는 CELP 펄스 모델링 기술에 의해 생성된 여기 신호에 따르는 제 1 부분 여기 신호(px)와,

- 스펙트럼 방식으로 평탄화된 신호에서 스파이크(S)를 모델링하는 여분 펄스(P)의 세트인 제 2 부분 여기 신호(p_EP)로서, 상기 여분 신호는 임의의 위치 및 진폭을 갖는, 제 2 부분 여기 신호(p_EP)를 포함하며,

상기 방법은, 상기 결합된 제 1 및 제 2 여기 신호 및 스펙트럼 평탄화 파라미터(LPP)에 기초하여 출력 신호를 합성하는 수단을 포함하는, 수신된 오디오 비트 스트림을 디코딩하는 방법.
제 13항에 있어서, 상기 스펙트럼 평탄화 파라미터(LPP)는 후방-적응(backward-adaptive) 선형 예측 알고리즘을 이용하여 생성되는, 수신된 오디오 비트 스트림을 디코딩하는 방법.
제 13항에 있어서, 상기 스펙트럼 평탄화 파라미터(LPP)는 오디오 비트 스트림에 포함되는, 수신된 오디오 비트 스트림을 디코딩하는 방법.
오디오 비트 스트림(AS)을 수신 및 디코딩하기 위한 오디오 플레이어로서, 상기 오디오 비트 스트림은 오디오 신호의 복수의 세그먼트 각각에 대해,

- RPE 또는 CELP 기술에 의해 생성된 여기 신호에 따르는 제 1 부분 여기 신호(px)와,

- 스펙트럼 평탄화된 신호에서 스파이크(S)를 모델링하는 여분 펄스(P)의 세트인 제 2 부분 여기 신호(p_EP)로서, 상기 여분 신호는 임의의 위치 및 진폭을 갖는, 제 2 부분 여기 신호(p_EP)를 포함하며,

- 상기 오디오 플레이어는 결합된 여기 신호 및 스펙트럼 평탄화 파라미 터(LPP)로부터 출력 신호를 합성하는 수단을 포함하는, 오디오 플레이어.
제 16항에 있어서, 후방-적응 선형 예측 알고리즘을 이용하여 상기 스펙트럼 평탄화 파라미터(LPP)를 생성하는 수단을 포함하는, 오디오 플레이어.
제 16항에 있어서, 상기 오디오 비트 스트림(AS)으로 수신된 스펙트럼 평탄화 파라미터(LPP)를 이용하도록 적응된, 오디오 플레이어.
오디오 비트 스트림(AS)으로서, 오디오 신호의 복수의 세그먼트 각각에 대해,

- RPE 또는 CELP 기술에 의해 생성된 여기 신호에 따르는 제 1 부분 여기 신호(px)와,

- 스펙트럼 평탄화된 신호에서 스파이크(S)를 모델링하는 여분 펄스(P)의 세트인 제 2 부분 여기 신호(p_EP)로서, 상기 여분 신호는 임의의 위치 및 진폭을 갖는, 제 2 부분 여기 신호(p_EP)를

포함하는, 오디오 비트 스트림.
제 19항에 있어서, 스펙트럼 평탄화 파라미터(LPP)를 더 포함하는, 오디오 비트 스트림.
제 19항 또는 제 20항에 기재된 오디오 비트 스트림(AS)을 갖는 저장 매체.