KR100346066B1

KR100346066B1 - 오디오신호 코딩방법

Info

Publication number: KR100346066B1
Application number: KR1019997008398A
Authority: KR
Inventors: 쥬르겐 헤르; 우베 그부르; 안드레아스 에흐레트; 마틴 디에쯔; 보도 타이크만; 올리버 쿤쯔; 칼하인쯔 부란덴부르크; 하인쯔 게라우세
Original assignee: 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우.
Priority date: 1997-07-14
Filing date: 1998-03-13
Publication date: 2002-07-24
Also published as: US6424939B1; ES2161052T3; DE19730130C2; EP0954909A1; DE19730130A1; JP3577324B2; AU7520798A; DK0954909T3; WO1999004506A1; CA2286068C; KR20000076297A; ATE205030T1; JP2001500640A; DE59801307D1; EP0954909B1; AU723582B2; CA2286068A1

Abstract

본 발명의 오디오신호의 코딩 또는 디코딩방법은 TNS 처리와 잡음 대체의 장점을 조합한 것이다. 시간 불연속적인 오디오신호를 시간 오디오신호의 스펙트럼 값을 구하기 위해 주파수영역으로 변환한다. 이어서 스펙트럼 잔류값을 구하기 위해 주파수에 관한 스펙트럼 값의 예측을 수행한다. 스펙트럼 잔류값내에서 잡음의 성질을 가진 스펙트럼 잔류값을 포함하는 영역을 검출한다. 잡음 영역내의 스펙트럼 잔류값을 잡음 대체하고, 잡음 영역과 잡음 대체에 관한 정보를 코딩된 오디오신호에 관련된 부수 정보에 통합시킨다.

Description

오디오신호 코딩방법{METHOD FOR CODING AN AUDIO SIGNAL}

본 발명은 오디오신호의 코딩방법에 관한 것으로, 특히 개발중인 MPEG-2 AAC를 위한 오디오신호 코딩방법에 관한 것이다.

동화상 전문가그룹(Moving picture expert group; MPEG)으로도 잘 알려져 있는 표준화 기구 ISO/IEC JTC1/SC29/WG11는 낮은 비트율을 위한 디지털 비디오 및 오디오 코딩기구를 규정하기 위하여 1988년에 설립되었다. 첫 번째 개발단계는 표준 MPEG-1에 의해 1992년 11월에 완성되었다. ISO 11172-3에서 규정된 MPEG-1에 의한 오디오 코딩시스템은 샘플링 주파수 32kHz, 44.1kHz, 48kHz에서 단일채널 또는 2채널 스테레오모드에서 동작한다. 표준 MPEG-1 계층II는 국제 전자통신 협회가 규정하는 채널당 128kb/s의 데이터속도의 방송품질을 제공한다.

두 번째 개발단계에 있어서, MPEG의 목적은 이미 존재하고 있는 MPEG-1 시스템에 대하여 역방향으로 호환성을 가져야 하는 MPEG-1 오디오를 위한 다채널 확장을 규정하는데 있으며, 또한 MPEG-1의 샘플링 주파수보다 낮은 샘플링 주파수 (16kHz, 22.5kHz, 24kHz)의 오디오 코딩 표준을 규정하는데 있다. 역방향 호환 표준(MPEG-2BC)과 낮은 샘플링 주파수 (MPEG-2 LSF)에 대한 표준은 1994년 11월에 완성되었다. MPEG-2 BC는 전대역폭의 5채널을 위한 640-896kb/s의 데이터속도의 우수한 오디오품질을 제공한다. 1994년 이래로 MPEG-2 오디오 표준 협회는 MPEG-1으로의 역방향 호환성이 요구되는 경우 얻을 수 있는 품질보다 높은 품질의 다채널 표준을 규정하기 위한 노력을 해오고 있다. 이러한 MPEG-2에 의한 비역방향 호환 오디오 표준이 지정된 MPEG-2 NBC이다. 이것은 ITU-R 요구조건에 따라 각각의 채널이 전대역폭을 갖는 5채널 오디오신호를 위한 384kb/s의 데이터율의 방송품질을 얻기 위한 목적으로 개발되었다. 오디오 코딩 표준 MPEG-2 NBC는 1997년 4월에 완성되었다. MPEG-2 NBC는 높은 데이터율 (데이타 채널당 40kb/s이상)을 가지게 될 오디오 표준 MPEG-4를 위한 핵심을 구성할 것이다. NBC 또는 비역방향 호환 표준은 매우 낮은 데이터율의 방송품질의 오디오 코딩을 위하여 높은 분해능(resolution)의 필터뱅크의 코딩 효율과 예측 기술 및 리던던시(redundancy) 감소 호프만 코딩을 조합한 것이다. 또한, 표준 MPEG-2 NBC는 MPEG-2 NBC AAC (AAC=Advanced Audio Coding)라고도 한다. MPEG-2 AAC의 기술적 내용에 대한 상세한 설명은 M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Yoshiaki Oikawa: "ISO/IEC MPEG-2 Advanced Audio Coding", 제101회 AES 회의, Los Angeles 1996, 예비보고서 4382에 기술되어 있다.

효율적인 오디오 코딩방법은 오디오신호로부터 리던던시와 무관계성을 제거한다. 리던던시를 제거하기 위해서는 오디오 샘플링값들 사이의 상호관계와 샘플값의 통계가 이용된다. 감지할 수 없는 신호성분 (무관계성)을 제거하기 위해서는 인간의청각시스템의 특성을 차단하는 주파수범위와 시간범위가 이용된다. 오디오신호의 주파수 내용은 필터뱅크에 의해 부분적인 대역들로 구분된다. 데이터율은 정신음향학적(psycho-acoustic) 모델에 의한 시간신호의 스펙트럼을 양자화하여 감소시키며, 이러한 감소방법에는 손실이 없는 코딩방법이 포함될 수 있다.

일반적으로, 시간 연속 오디오신호는 시간 불연속 오디오신호를 얻기 위해 샘플링된다. 시간 불연속 오디오신호는 윈도윙된 시간 불연속 샘플링값인 예컨대 1024개의 연속적인 블록 또는 프레임을 얻기 위하여 윈도우 기능에 의해 윈도윙된다. 오디오신호의 각각의 블록의 윈도윙된 시간 불연속 샘플링값은 주파수 범위로 연속적으로 변환되는데 이를 위하여 예컨대, 변형된 이산 코사인 변환(Modified discrete cosine transformation; MDCT)를 이용할 수 있다. 얻어진 스펙트럼값은 아직 양자화되지 않았으므로 양자화시켜야 한다. 이와 같이 양자화하는 주된 목적은 양자화 잡음을 양자화된 신호에 의해 은폐하거나(masking) 커버하는 방식으로 스펙트럼값을 양자화하는데 있다. 이를 위해 MPEG AAC 표준에 기술된 정신음향학적모델을 이용하는데, 이것은 인간의 귀의 특성을 고려하여 오디오신호를 기준으로 은폐 문턱값(masking threshold)을 계산한다. 스펙트럼값은 발생된 양자화잡음을 은폐하여 들리지 않도록 양자화한다. 따라서 양자화는 가청 잡음을 발생시키지 않는다.

NBC 표준은 이른바 불균등한 양자화기를 사용한다. 또한, 양자화 잡음을 형성하기 위한 방법을 사용한다. NBC방법은 이전의 표준과 마찬가지로 기준화 인자 대역(scale factor band)으로 알려져 있는 스펙트럼 계수 그룹의 개별적인 증폭을 이용한다. 가능한 한 효율적인 방식으로 동작시키기 위하여 양자화 잡음을 가능한한 인간의 청각시스템의 주파수 그룹에 정합되지 않는 단위로 형성하는 것이 바람직하다. 따라서 주파수그룹의 대역폭을 매우 비슷하게 반영하는 스펙트럼값을 분류할 수 있다. 개별적인 기준화 인자 대역은 1.5dB 단계의 기준화 인자에 의해 증폭할 수 있다. 증폭된 계수가 높은 진폭을 가지게 되면 잡음이 형성된다. 따라서 양자화된 후에 높은 신호 대 잡음비가 나타나게 된다. 반면에 높은 진폭은 코딩에 더 많은 비트를 필요로 한다. 즉, 기준화 인자 대역들 사이의 비트 분포가 암암리에 변화한다. 기준화 인자에 의한 증폭은 디코더에서 보정되어야 한다. 이러한 이유로 1.5dB 단계의 단위로 기준화 인자에 저장된 증폭 정보는 부수적인 정보로서 디코더로 전송해야 한다.

기준화 인자 대역내에 존재하며 기준화 인자에 의해 임의로 증폭된 스펙트럼값은 양자화된 후에 코딩된다. 따라서 잡음이 없는 코딩 모듈로 입력되는 입력신호는 예컨대, 1024개의 양자화된 스펙트럼 계수들의 집합이 된다. 잡음이 없는 코딩 모듈에 의해 1024개의 양자화된 스펙트럼 계수들의 집합은 각각의 구역을 코딩하기 위해 단일 호프만 코딩 테이블("코드북")을 이용하도록 상기 구역들로 구분된다. 코딩 효율 때문에 기준화 인자 대역 한계에만 구역의 한계가 존재할 수 있으므로 스펙트럼의 각각의 구역에 대하여 기준화 인자 대역내의 구역의 길이와 상기 구역을 위해 사용되는 호프만 코딩 테이블 번호를 부수적인 정보로서 전송해야 한다.

구역의 형성은 동적이며 블록에서 블록으로 변화되므로 양자화된 스펙트럼 계수의 전체 집합을 나타내는데 필요한 비트수가 최소화된다. 호프만 코딩은 n조의 양자화된 계수를 나타내는데 사용되는 것으로, 호프만 코딩은 12개의 코딩 테이블중의 하나로부터 나온 것이다. 각각의 호프만 코딩 테이블에 의해 나타낼 수 있는 양자화된 계수의 최대 절대값 및 각각의 코딩 테이블에 대한 n조내의 계수의 수는 맨 처음에 규정된다.

상기 구역들을 형성하는 이유는 하나의 단일 호프만 코딩 테이블을 이용하여 구역에 대하여 가능한 한 높은 코딩 이득을 얻기 위해 동일한 신호 통계를 갖는 영역들을 분류하기 때문이다. 코딩 이득은 일반적으로 코딩전의 비트와 코딩후의 비트의 지수에 의해 규정된다. NBC방법에 사용되는 비트 플로우 신택스(Bit flow syntax)에서 규정되는 코딩 테이블 번호 ("코드북 번호")를 이용하여 특정 구역에 대하여 가장 높은 코딩 이득을 허용하는 12개의 호프만 코딩 테이블중의 하나를 참고로 한다. "코딩 테이블 번호"라는 표현은 코딩 테이블 번호를 위해 준비된 비트 플로우 신택스에서의 위치를 의미한다. 11개의 서로 다른 코딩 테이블 번호들을 이진법으로 코딩하기 위해서는 4비트가 필요하다. 이 4비트는 각각의 구역, 즉, 각각의 스펙트럼값 그룹에 대한 부수적인 정보로서 전달되어야 하므로 디코더는 디코딩을 위하여 해당 보정 코딩 테이블을 선택할 수 있다.

도 2는 기준 원리에 따라 동작하는 코더와 디코더의 일반적인 개관을 도시한 것이다. 시간 불연속적으로 이미 존재하고 있는 오디오 신호가 오디오 입력(200)을 통해 입력된다. 그런 다음 이 시간 불연속 오디오신호는 "프레임"이라고 하는 시간 불연속적인 윈도윙된 오디오 신호 블록을 얻기 위하여 분석 필터 뱅크라고 나타낸 윈도윙기능을 가진 블록(202)내에서 윈도윙된다. 분석 필터 뱅크(202)에 있어서, 윈도윙된 값의 블록은 주파수 영역으로 변환된다. 따라서 분석 필터 뱅크(202)의출력에 나타나는 스펙트럼값들이 존재하며 이 값들은 "양자화 및 코딩" 블록(204)에서 먼저 양자화된 후, 예컨대 호프만 코딩에 의해 리던던시코딩된다. 또한, 오디오 입력(200)에서의 시간 불연속 오디오 입력신호로부터 양자화에 사용되는 은폐(masking)정보를 정신음향학적 모델(206)을 이용하여 산출함으로써 상기 스펙트럼값들을 양자화할 때 도입되는 양자화 잡음을 정신 음향적으로 은폐 또는 커버한다. 코더의 경우, 양자화되고 코딩된 스펙트럼값은 비트 플로 멀티플렉서(bit flow multiplexer)(208)로 보내지며, 이 비트 플로 멀티플렉서는 상기 양자화되고 리던던시코딩된 스펙트럼값을 비트 플로로 만든다. 이 비트 플로는 알려진 바와 같이 디코딩에 필요한 부수적인 정보를 포함하고 있다. 상기 코딩된 비트 플로는 비트 플로 출력(210)에 존재하며, 오디오 입력(200)에서의 오디오 신호의 코딩된 형태를 구성한다. 이 비트 플로는 디코더로 전송되어 비트 플로 입력(212)에 제공된다. 비트 플로 디멀티플렉서(214)에 있어서, 상기 비트 플로는 부수적인 정보와 양자화되고 코딩된 스펙트럼값으로 분해되며, 이것들은 자신의 입력부에 존재하는 스펙트럼값을 다시 시간 영역으로 변환하는 합성 필터 뱅크(218)에 제공되기 위하여 "역양자화" 블록(216)에서 리던던시코딩되고 역양자화된다. 한편, 코딩되고 디코딩된 오디오신호는 디코더의 오디오 출력(220)에 존재한다. 오디오 출력(220)에 존재하는 코딩되고 디코딩된 오디오신호는 발생된 코딩 에러를 제외하고는 오디오 입력(200)에 존재하는 원래의 시간 불연속적인 오디오신호와 동일하다.

이른바 "일시적 잡음 정형(temporal noise shaping)" 기술이라고 하는 것은 공지의 것으로, J. Herre, J.D. Johnston의 "Enhancing the Performance of PerceptualAudio Coders by Using Temporal Noise Shaping (TNS)", 제101회 AES 총회, 로스엔젤레스 1996, 예비보고서 4364에 기술되어 있다. TNS기술은 일반적으로 스펙트럼값을 예측 코딩함으로써 양자화 잡음의 미세 구조를 일시적으로 정형하는 것이다. TNS기술은 시간과 주파수 범위간의 이중성(dualism)의 응용에 기초한 것이다. 이 기술에서 알 수 있는 바와 같이 시간신호의 자기 상관함수(auto-correlation function)가 주파수영역으로 변환되면 이 시간신호의 스펙트럼밀도를 나타낸다. 신호의 스펙트럼의 자기 상관함수가 형성되어 시간영역으로 변환되면 이중적인 경우가 발생한다. 시간영역으로 변환되거나 다시 원래대로 변환된 자기 상관함수는 시간신호의 힐버트 포락선(Hilbert envelope curve)의 제곱이 된다. 따라서 신호의 힐버트 포락선은 그 스펙트럼의 자기 상관함수와 직접적인 관계가 있다. 신호의 힐버트 포락선의 제곱과 스펙트럼 파워밀도는 시간영역과 주파수영역에서의 이중적인 국면을 구성한다. 신호의 힐버트 포락선이 주파수영역에 걸쳐 각각의 부분적인 대역통과 신호에 대하여 일정하면, 인접한 스펙트럼값들간의 자기 상관도도 일정할 것이다. 이것은 주파수와 관련된 일련의 스펙트럼 계수들이 일정하다는 것을 의미하며, 이에 의해 예측계수 집합을 이용하여 신호를 나타내는데 예측 코딩 기술을 사용할 수 있는 것이다.

이러한 사실들을 도 5a 및 도 5b를 참조하여 설명한다. 도 5a는 약 40ms 동안 지속되며 시간에 따라 빠르게 변화하는 "캐스터네츠형" 신호의 일부를 나타낸 것이다. 이 신호는 몇 개의 부분적인 대역통과 신호들로 구분되며, 각각의 부분적인 대역통과 신호는 500Hz의 대역폭을 갖는다. 도 5b는 1500Hz 내지 4000Hz 범위의 중심주파수를 갖는 상기 대역통과 신호들에 대한 힐버트 포락선을 나타낸다. 설명의 명확성을 위하여, 모든 포락선은 최대진폭으로 정규화되었다. 모든 부분적인 포락선의 형태는 서로 밀접한 관계가 있으며, 따라서 신호를 효율적으로 코딩하기 위하여 상기 주파수영역내에서 공통 예측기(common predictor)를 사용할 수 있다. 이와 유사한 것을 음성신호에서도 발견할 수 있는 바, 인간의 목소리를 형성하는 메카니즘의 본질로 인해 전체 주파수영역에 걸쳐 성문의 여기펄스(glottal excitation pulse)의 효과가 존재한다.

도 5는 예컨대 주파수 200Hz의 인접한 스펙트럼값들의 상관관계가 주파수 3000Hz 또는 1000Hz에서 존재하는 상관관계와 유사하다는 것을 보여준다.

과도신호(transient signal)의 스펙트럼 예측가능성의 특징을 이해할 수 있는 다른 방법은 도 4에 나타낸 표를 이용하는 것이다. 도 4의 표의 좌측 상부에는 사인곡선의 경로를 갖는 시간 연속적인 신호 u(t)를 나타내었고, 그 반대편에는 단일 다이랙 펄스(single Dirac pulse)로 이루어진 상기 신호의 스펙트럼 U(f)을 나타내었다. 이 신호에 대하여 최적의 코딩을 수행하기 위해서는 전체 시간 신호에 대하여 푸리에 계수의 양과 위상만이 전송되어 상기 시간신호를 완전하게 재구성할 수 있어야 하기 때문에 코딩 스펙트럼 데이터 또는 스펙트럼값이 필요하다. 동시에 스펙트럼 데이터의 코딩은 시간 영역에서의 예측을 의미한다. 따라서 예측 코딩은 시간영역에서 일어나야 한다. 그러므로 사인곡선의 시간신호는 최대값에서 평탄하지 않은 주파수범위에서의 포락선에 상응하는 평탄한 시간 포락선을 갖는다.

이하에 상기와 반대의 경우에 대하여 설명하는바, 이 경우에는 시간신호 u(t)가 시간영역에서의 다이랙 펄스의 평탄한 부분에서의 최대 과도신호이다. 시간영역에서의 다이랙 펄스는 "평탄한" 파워 스펙트럼에 해당하며, 위상 스펙트럼은 상기 펄스의 일시적인 위치에 따라 교대로 변화한다. 이 신호는 상기한 종래의 방법, 예컨대 변환 코딩, 스펙트럼 데이터 코딩 또는 시간영역 데이터의 선형 예측 코딩에 있어서 문제점을 유발한다. 이 신호는 다이랙 펄스의 일시적인 위치와 파워만 전송하면 되므로 시간영역에서 가장 효율적으로 코딩할 수 있다. 이에 따라 이중성의 적용에 의해 주파수영역에서의 예측 코딩에 의해서도 효율적인 코딩을 위한 적절한 방법을 구성하게 된다.

주파수와 관련된 스펙트럼 계수의 예측 코딩과 공지된 한 블록에서 다음 블록으로의 스펙트럼 계수 예측을 혼동하지 않아야 한다. 이것은 상기한 문헌(M. Bosi, K. Brandenburg, S. Quakenbush, L. Herre, G. Davidson, Yoshiaki Oikawa: "ISO/IEC MPEG-2 Advanced Audio Coding", 제101회 AES총회, 로스엔젤레스 1996, 예비보고서 4382)에 기술되어 있다. 시간과 관련된 예측에 해당하는 한 블록에서 그 다음 블록으로의 스펙트럼 계수의 예측에 있어서, 스펙트럼 해상도는 증가하는 반면에, 주파수와 관련된 스펙트럼값의 예측은 일시적인 해상도를 증진시킨다. 예컨대 1000Hz에서의 스펙트럼 계수는 동일한 블록 또는 프레임에서의 900Hz에서의 스펙트럼 계수에 의해 결정할 수 있다.

이러한 것들을 고려하면 과도신호에 대한 효율적인 코딩방법이 제안된다. 시간과 주파수영역간의 이중성을 고려하면 예측코딩 기술은 하나의 스펙트럼 계수로부터 다음 블록의 동일한 주파수의 스펙트럼 계수로의 예측과 유사하게 취급할 수 있다.신호의 힐버트 포락선 제곱과 스펙트럼 파워밀도가 서로 관련된 이중적인 특성이라는 사실로 인해 종래의 예측 방법에서의 스펙트럼 평탄도의 정도와는 다른 신호의 포락선 제곱의 평탄도의 정도에 따라 잔류 신호에너지 또는 예측 이득이 감소된다. 잠재적인 코딩 이득은 신호가 더욱 더 과도적으로 될수록 증가한다.

가능한 예측기구는 역방향 예측이라고도 하는 폐쇄루프를 갖는 예측기구와 정방향 예측이라고도 하는 개방루프를 갖는 예측기구이다. 폐쇄루프를 갖는 스펙트럼 예측기구(역방향 예측)의 경우, 에러의 포락선은 평탄하다. 즉, 에러신호 에너지가 시간에 대하여 균일하게 분포한다.

그러나 정방향 예측의 경우에는 도 6에 나타낸 바와 같이 양자화에 의해 발생된 잡음의 일시적인 정형이 일어난다. 예측할 스펙트럼 계수 x(f)는 합산점(600)으로 제공된다. 또한, 이 스펙트럼 계수는 예측기(610)로 보내지는데 이 예측기(610)의 (-)부호의 출력신호는 합산점(600)으로 인가된다. 양자화기(620)로의 입력신호는 스펙트럼 값 x(f)와 예측에 의해 산출된 스펙트럼 값 x_p(f)의 차이를 나타낸다. 정방향 예측에 있어서, 디코딩된 스펙트럼 계수 데이터에 있어서의 전체 에러 에너지는 동일할 것이다. 그러나 스펙트럼 계수에 대한 예측을 이용하였기 때문에 양자화 에러신호의 일시적인 정형이 나타나 디코더의 출력에서 일시적으로 정형될 것이다. 이에 따라 양자화 잡음은 실제 신호의 아래에 일시적으로 존재하므로 은폐가 가능하게 된다.

이러한 형태의 스펙트럼 값의 예측코딩을 TNS 또는 일시적인 잡음 정형(temporal noise shaping) 기술이라고 한다. 이 기술을 도 7a를 참조하여 설명한다. 도 7a의좌측 상부에는 심하게 변화하는 시간신호의 시간곡선을 나타내었다. 도 7a의 우측 상부에는 DCT 스펙트럼을 나타내었다. 또한, 도 7a의 좌측 하부에는 LPC(Linear Prediction Coding)에 의해 산출된 TNS 합성필터의 주파수 응답을 나타내었다. 도 7a에 있어서, 시간영역과 주파수영역의 이중성으로 인해 (정규화된) 주파수 좌표가 시간 좌표와 동일하다는데 주목해야 한다. LPC에 의해 산출된 합성필터의 주파수 응답이 심하게 변화하는 시간신호의 포락선과 유사하므로 LPC계산은 결국 입력신호의 "소오스 모델"이 된다. 도 7a의 우측 하부에는 주파수와 관련된 도 6의 양자화기(620)의 입력신호의 스펙트럼 잔류값을 나타내었다. 예측후의 스펙트럼 잔류값과 직접적인 시간-주파수 변환시의 스펙트럼 값을 비교하면 스펙트럼 잔류값이 원래의 스펙트럼 값보다 훨씬 적은 에너지를 갖는다는 것을 알 수 있다. 도 7a의 경우, 스펙트럼 잔류값의 에너지 감소는 약 12dB의 전체 예측이득과 동일하다.

다음에 도 7a의 좌측 하부에 나타낸 TNS 합성필터의 주파수 응답에 대하여 설명한다. 시간영역 신호에 대한 예측의 전통적인 응용에 있어서, 합성필터의 주파수응답은 입력신호의 스펙트럼 값과 비슷하다. 합성필터는 대략적으로 "백색" 스펙트럼을 갖는 잔류 신호로부터 신호의 스펙트럼 형태를 (재)생성한다. 예측을 스펙트럼 신호에 적용하면, TNS기술의 경우와 마찬가지로 합성필터의 주파수응답은 입력 필터의 포락선와 비슷하다. 합성필터의 주파수응답은 펄스 응답의 푸리에 변환이며, 종래의 경우에는 역푸리에 변환에 해당한다.

TNS 합성필터는 대략적으로 "백색(즉, 평탄한)" 포락선을 갖는 잔류 신호로부터 신호의 포락선 패턴을 (재)생성한다. 도 7a의 좌측 하부에 나타낸 것은 TNS 합성필터에 의해 모델링된 입력신호의 포락선이다. 이것은 그 위에 나타낸 캐스터네츠형 신호와 유사한 포락선의 대수적인 표현이다.

그런 다음 코딩 잡음이 스펙트럼 잔류값에 도입되어 예컨대 0.5Bark의 폭을 갖는 각각의 코딩 대역에서 약 13dB의 신호 대 잡음비가 나타난다. 양자화 잡음의 도입으로 인해 발생되는 시간영역에서의 에러신호를 도 7b에 나타내었다. 도 7b의 좌측에는 TNS 기술을 사용했을 경우의 양자화 잡음으로 인한 에러신호를 나타내었고, 비교를 위하여 우측에는 TNS 기술을 사용하지 않은 경우의 에러신호를 나타내었다. 예상되는 바와 같이 좌측에 나타낸 에러신호는 블록에 걸쳐서 균일하게 분포하지 않고 최적의 방식으로 양자화 잡음을 커버할 높은 레벨의 신호 요소가 존재하는 부분에 집중되어 있다. 우측 도면의 경우에는 상기와 대조적으로 도입된 양자화 잡음이 블록에서, 즉, 시간에 대하여 균일하게 분포하고 있어 실제적으로 신호가 존재하지 않거나 신호가 거의 존재하지 않는 앞부분에 가청 잡음이 존재하게 되는 반면, 높은 레벨의 신호요소를 포함하는 영역에는 거의 잡음이 존재하지 않아 신호의 은폐 가능성을 활용할 수 없다.

코더에 있어서의 TNS 필터(804)의 이용을 도 8a에 도시하였다. TNS 필터(804)는 분석 필터 뱅크(802)와 양자화기(806) 사이에 위치한다. 도 8a에 나타낸 코더의 경우, 시간 불연속적인 입력신호는 오디오 입력(800)으로 인가되며, 양자화된 오디오신호와 양자화된 스펙트럼 값 또는 양자화된 스펙트럼 잔류값은 리던던시코더를 구비한 출력부(808)에서 출력된다. 상기 입력신호는 스펙트럼 값으로 변환된다. 산출된 스펙트럼 값을 기준으로 일반적인 선형 예측 계산을 수행하는데, 이것은 예컨대, 스펙트럼 값의 자기 상관 매트릭스를 형성하거나 레빈슨-더빈 반복 (Levinson-Durbin recursion)을 이용하여 행한다. 도 8b에 TNS 필터(804)를 더욱 상세히 나타내었다. 스펙트럼 값 x(1), ..., x(i), ..., x(n)은 필터 입력부(810)의 입력이 된다. 특정한 주파수 영역만이 과도신호를 가질 수 있는 반면, 다른 주파수 영역은 안정된 특성을 가질 수 있다. 이것은 TNS 필터(804)의 입력 스위치(812)와 출력 스위치(814)에 있어서 고려되어야 한다. 이 스위치들은 처리할 데이터의 병렬-직렬 변환과 직렬-병렬 변환을 우선적으로 담당한다. 특정 주파수영역이 변화하는지의 여부, 그리고 TNS 기술에 의해 특정한 코딩 이득이 확보되는지의 여부에 따라서 상기 스펙트럼 범위만이 TNS 처리되며, 이는 입력 스위치(812)가 예컨대, 스펙트럼 값 x(i)에서 시작하여 스펙트럼 값 x(i+2)에 도달할 때까지 동작하는 경우에 일어난다. 필터의 내부는 정방향 예측 구조, 예컨대, 예측기(610)와 합산점(600)으로 구성된다.

TNS 필터의 필터 계수를 결정하고 예측 계수를 결정하기 위한 계산은 다음과 같이 수행한다. 잡음 정형 필터의 최고 허용 차수, 예컨대 20을 얻기 위하여 자기 상관 매트릭스를 형성하고 레빈슨-더빈 반복을 이용한다. 계산된 예측 이득이 특정 문턱치를 넘으면 TNS 처리는 활성화된다.

상기 잡음 정형 필터의 차수는 계수 어레이의 종단으로부터의 충분히 작은 절대값으로 모든 계수를 차례로 제거함으로써 결정한다. 이러한 방식으로 TNS 필터는 비디오 신호에 대하여 일반적으로 4 내지 12의 차수를 가지게 된다.

스펙트럼 값 x(i)의 영역에 대하여 예컨대, 충분히 높은 코딩 이득이 확인되는 경우, TNS 처리가 수행되며, 스펙트럼 값 x(i)가 아닌 스펙트럼 잔류값 x_R(i)가 TNS 필터의 출력부에 나타난다. 스펙트럼 잔류값은 도 7a에서 볼 수 있듯이 원래의 스펙트럼 값 x(i)보다 상당히 낮은 진폭을 갖는다. 디코더로 전송된 부수적인 정보는 일반적인 부수 정보와 더불어 TNS의 사용을 나타내는 플래그를 포함하며, 필요한 경우에는 목표 주파수영역에 대한 정보와 코딩에 사용되는 TNS 필터에 대한 정보도 포함한다. 필터 데이터는 양자화된 필터 계수로 표현될 수 있다.

도 9a에 나타낸 디코더에 있어서, TNS 코딩은 각각의 채널에 대하여 역으로 수행된다. 스펙트럼 잔류값 x_R(i)은 역양자화기(216)에서 재양자화되어 역TNS필터(900)로 인가된다. 역TNS필터(900)의 구조를 도 9b에 상세히 나타내었다. 역TNS필터(900)는 출력신호로서 합성 필터 뱅크(218)에서 시간영역으로 변환되는 스펙트럼 값을 전달한다. TNS필터(900)는 처리된 데이터의 병렬-직렬 변환 및 직렬-병렬 변환을 우선적으로 수행하는 입력 스위치(902)와 출력 스위치(908)를 포함한다. 입력 스위치(902)는 역TNS 코딩에 스펙트럼 잔류값만을 제공하기 위해 채용된 목표 주파수 영역을 고려한다. TNS 코딩되지 않은 스펙트럼 값은 변화되지 않은 채로 출력부(910)로 전달된다. 역예측필터는 예측기(906)와 합산점(904)를 포함한다. 그러나, TNS필터와는 달리 상기 역예측필터는 다음과 같이 연결된다. 스펙트럼 잔류값은 입력 스위치(902)를 통해 합산점(904)으로 인가되어 예측기(906)의 출력신호와 합산된다. 예측기는 예상되는 스펙트럼 값 x_p(i)을 출력신호로서 출력한다. 스펙트럼 값 x(i)은 출력 스위치를 통해 역TNS필터의 출력부로 출력된다. TNS와 관련된부수적인 정보는 디코더에서 디코딩되는데, 이 부수적인 정보는 TNS의 사용을 나타내는 플래그를 포함하며, 필요할 경우에는 목표 주파수영역에 관련된 정보도 포함한다. 또한, 상기 부수적인 정보는 블록 또는 "프레임"의 코딩에 사용되는 예측 필터의 필터 계수를 포함한다.

상기 TNS 방법은 다음과 같이 요약될 수 있다. 고해상도 분석 필터 뱅크에 의해 입력신호가 스펙트럼 값으로 변환된다. 그런 다음, 주파수영역에서의 선형 예측이 수행된다. 즉, 주파수-인접 스펙트럼 값들 사이에서 선형 예측이 수행된다. 이 선형 예측은 스펙트럼 영역에서 수행되는 스펙트럼 값을 필터링하기 위한 필터링 과정으로 볼 수 있다. 본래의 스펙트럼 값은 예측 에러, 예컨대 스펙트럼 잔류값으로 대체된다. 이 스펙트럼 잔류값은 일반적인 스펙트럼 값과 마찬가지로 양자화되고 코딩된 형태로 디코더로 전달되어 다시 디코딩되고 역으로 양자화된다. 역필터 뱅크 (합성 필터 뱅크)의 적용에 앞서 코더에서 수행되는 예측과 반대되는 예측이 전송된 예측 에러신호, 즉, 재양자화된 스펙트럼 잔류값을 위한 역예측 필터를 사용하여 행해진다.

이 방법을 적용함으로써 양자화 잡음의 시간 포락선을 입력신호의 포락선에 맞출 수 있다. 이에 따라 시간적으로 미세한 구조를 가지거나 과도적인 특성을 가진 신호의 경우 에러신호를 보다 잘 은폐할 수 있게 된다. 과도 신호의 경우, TNS방법은 양자화 잡음이 신호의 "스트라이킹"전에 이미 나타나는 "프리에코(pre-echoes)"를 방지한다.

또한, 정신음향학 분야에서 알려진 바와 같이 잡음 신호의 감지는 실제의 신호 형태가 아니라 스펙트럼 조성에 의해 결정된다. 이에 따라 이른바 잡음 대체 방법을 이용하여 오디오 신호의 데이터를 감소시킬 수 있다.

"잡음 대체"에 관해서는 Donald Schulz의 "Improving Audio Coders by Noise Substitution", Journal of the Audio Eng. Soc., Vol. 44, No. 7/8, pp. 593-598, 7월/8월 1996에 기술되어 있다. 상술한 바와 같이 종래의 오디오 코딩 알고리즘은 데이터율 또는 전송되는 비트수를 충분히 감소시키기 위해 인간의 귀의 은폐 효과를 이용하였다. 은폐(masking)라는 것은 스펙트럼 값으로서의 하나 이상의 주파수 요소가 청취 불가능한 낮은 레벨의 다른 주파수 요소들을 만드는 것을 의미한다. 첫째, 다른 요소들에 의해 은폐되는 오디오 신호요소는 코딩할 필요가 없다. 둘째로, 본래의 신호의 요소에 의해 잡음이 은폐되는 경우 상술한 양자화에 의해 잡음 도입이 허용된다.

잡음과 같은 신호의 경우, 인간의 청각계는 이러한 신호의 정확한 경로를 때맞춰 확인하는 것이 불가능하다. 종래의 알고리즘의 경우, 이것은 인간의 귀와 거의 무관한 백색 잡음의 파형까지도 코딩되는 결과를 초래한다. 잡음을 포함하는 신호의 청취-보상(hearing-compensated) 코딩은 특정한 예방책이 없는 경우의 청취할 수 없는 정보에 대하여 높은 비트율을 필요로 한다. 그러나 신호의 잡음을 포함하는 요소를 검출하여 그 잡음 레벨에 대한 정보와 주파수 영역에 대한 정보 및 시간 확장에 대한 정보에 따라 코딩한다면 불필요한 코딩을 줄일 수 있어 비트율을 상당히 감소시킬 수 있다. 이러한 사실은 잡음신호의 감지가 실제의 파형이 아닌 스펙트럼 조성에 의해 결정된다고 하는 정신음향학에 의해 뒷받침된다. 따라서 잡음 대체방법을 이용하여 오디오 신호의 데이터를 감소시킬 수 있다.

코더는 오디오신호의 전체 스펙트럼에서 잡음과 유사하거나 잡음과 같은 스펙트럼 값을 찾아내거나 인식해야 한다. 잡음과 유사한 스펙트럼 값은 다음과 같은 것을 의미한다. 사람의 청각에 의해 청취될 수 있는 차이를 가지지 않으면서 잡음 대체 방법에 의해 신호요소를 재구성할 수 있도록 이 신호요소를 그 레벨과 주파수 영역 및 시간 확장에 의해 특징지울 수 있다면, 이 신호요소는 잡음으로 분류한다. 이러한 특성은 상기 참고문헌에서 지적된 바와 같이 주파수영역이나 시간영역에서 검출할 수 있다. 예를 들어, 가장 단순한 방법은 시간-주파수 변환을 이용하여 음조(tonal) 요소, 즉, 잡음과 같지 않은 요소를 검출하고 스펙트럼의 변화하지 않고 정지된 피크들을 따르는 것이다. 이 피크들은 음조라고 하며, 나머지는 모두 잡음과 유사한 요소라고 한다. 그러나, 이러한 구성은 잡음 검출을 위해서는 다소 엉성한 시스템이다. 잡음 요소와 음조 스펙트럼 요소를 구분하는 다른 방법은 연속되는 블록들에서의 스펙트럼 값들에 대하여 예측기를 이용하는 것이다. 하나의 스펙트럼에서 그 다음의 스펙트럼, 즉, 다음 시간 블록 또는 프레임과 관련된 스펙트럼으로의 예측이 행해진다. 예측된 스펙트럼 값과 다음 블록 또는 프레임의 스펙트럼 값간에 변환에 의해 실제로 확인된 차이가 전혀 없거나 거의 없는 경우에는 이 스펙트럼 값을 음조 스펙트럼 요소로 본다. 이에 따라 음조 스펙트럼 값과 잡음 스펙트럼 값을 구분하기 위한 결정의 기초를 구성하는 값으로부터 조성(tonality)을 측정할 수 있다. 그러나, 이 검출방법은 매우 안정된 신호에 대해서만 적합한 방법으로, 시간과 관련되어 주파수가 약간 변화하는 사인곡선의 신호가 존재하는 경우에는 사용할 수 없다. 이러한 신호는 비브라토(vibrato)와 같은 오디오 신호에 종종 나타나는 것으로, 잡음 요소로 교체될 수 없다는 것은 잘 알려진 사실이다.

잡음 신호를 검출하는 다른 방법은 시간 영역에서의 예측에 의한 것이다. 이를 위해서 잘 알려진 바와 같이 선형 예측을 수행하기 위하여 반복해서 이용할 수 있는 예측기로서 정합 필터를 사용할 수 있다. 통과된 오디오신호를 입력하고 출력신호를 실제의 오디오 샘플링값과 비교한다. 미소한 예측 에러의 경우에는 조성(tonality)을 추측할 수 있다. 다른 주파수 영역들의 특성을 결정하기 위해, 즉, 스펙트럼 영역을 검출하기 위해서 스펙트럼 값의 그룹이 잡음 그룹인지 아닌지 원래의 신호와 예측된 신호의 시간-주파수 변환을 수행해야 한다. 그러면 원래의 값과 예측된 값을 비교함으로써 각각의 주파수 그룹에 대하여 조성(tonality)의 크기를 계산할 수 있다. 이 경우에 있어서의 주요 문제점은 예측기의 제한된 동적 범위이다. 높은 레벨의 잡음 주파수 그룹은 높은 에러로 인해 예측기를 통제한다. 음조 요소의 다른 영역들은 잡음으로 해석할 수 있다. 이 문제는 에러신호의 레벨이 원래의 신호보다 낮고 상기 에러신호가 부가적인 예측기에 의해 다시 입력되어 예측된 신호가 더해지는 반복 알고리즘을 이용하여 해결할 수 있다. 다른 방법들은 Schulz의 논문에 기술되어 있다.

잡음으로 분류되는 스펙트럼 값 그룹은 일반적으로 양자화되고 엔트로피 코딩되거나 리던던시 코딩된 형태 (예컨대 호프만 테이블에 의해)로 수신기로 전달되지 않고, 잡음 대체를 나타내는 식별 및 잡음 그룹의 스펙트럼 값의 에너지의 크기가 부수적인 정보로서 전달된다. 수신기에 있어서, 대체된 계수는 전송된 에너지에 따라랜덤한 값(잡음)으로 교체된다. 따라서 잡음과 같은 스펙트럼 값은 해당량의 에너지를 갖는 랜덤한 스펙트럼 값으로 대체된다.

코드 그룹, 즉, 양자화된 스펙트럼 계수에 대한 몇 개의 양자화되고 코딩된 스펙트럼 값 대신에 에너지 정보의 신호 항목을 전송함으로써 데이터를 상당히 줄일 수 있다. 따라서 데이터율을 신호에 따라 감소시킬 수 있다는 것은 명백하다. 예를 들면, 잡음 요소가 거의 없는 신호 또는 과도 특성을 가진 신호가 관련된 경우, 매우 많은 잡음 그룹을 갖는 매우 잡음이 강한 신호를 코딩하는 경우보다 데이터율이 덜 감소된다.

처음에 기술한 표준 MPEG-2 AAC는 잡음 대체의 가능성을 지원하지 않는다. 따라서 현재 존재하는 표준으로는 데이터율을 많이 감소시킬 수 없다.

도 3에 코더와 디코더를 간략하게 도시하였다. 도 3의 코더와 디코더는 도 2의 코더와 디코더에 상응하는 것으로, 잡음 대체 기능을 가진 것이다. 도 3에 나타낸 바와 같이 잡음 대체는 종래 기술의 일부가 아니가 아니라는 것을 다시 한번 여기에서 강조한다. 도 2와 도3에 있어서 동일한 참조번호는 동일한 기능 블록을 나타내는 것이다. 도 3의 코더는 도 2의 코더와 비교할 경우, 하나의 새로운 "잡음 검출" 블록(310)을 가지고 있음을 알 수 있다. 잡음 검출은 분석 필터 뱅크(202)의 출력신호, 즉, 스펙트럼 값으로 수행한다. 그러나 잡음 검출을 위해 오디오 입력(200)을 "잡음 검출" 블록(310)으로 연결하는 화살표로 나타낸 바와 같이 분석 필터 뱅크의 시간 입력신호를 이용하는 것도 가능하다. 잡음 대체는 "잡음 검출" 블록으로부터 "양자화 및 코딩" 블록(204)으로 확장되는 화살표와 "잡음 검출" 블록(310)으로부터 "비트 플로 멀티플렉서" 블록(208)으로 확장되는 화살표로 나타낸 바와 같이 두 부류의 부수적인 정보를 필요로 한다. 잡음 대체된 코딩된 신호를 다시 디코딩할 수 있도록 하기 위해서는 잡음 대체 지시가 부수적인 정보로서 전달되어야 하는데 이것은 잡음 대체가 수행된 주파수 영역 또는 바람직한 방법에 있어서의 기준화 인자 대역을 나타내는 것이다. 또한, 잡음 그룹 또는 잡음 기준화 인자 대역에서의 스펙트럼 값의 에너지의 크기도 부수적인 정보로서 전달되어야 한다. 잡음 대체된 스펙트럼 값은 양자화되고 코딩되지 않는다. 즉, "양자화 및 코딩" 블록(204)이 잡음 대체가 기준화 인자 대역내에 존재한다는 것을 알려준다. 비트 플로 멀티플렉서는 잡음 그룹의 스펙트럼 값의 에너지량을 부수적인 정보로서 잡음 대체 지시를 전달받는다. 디코더는 도 2의 디코더와 유사한 것으로, 새로운 "잡음 대체"블록(312)만이 도 2의 디코더와 다르다. "잡음 대체" 블록(312)에는 비트 플로 멀티플렉서(204)로부터 잡음 대체 지시와 대체신호의 에너지, 즉, 잡음 그룹과 잡음 기준화 인자 대역에서의 스펙트럼 값의 에너지량을 포함하는 부수적인 정보가 입력신호로서 인가된다. "잡음 대체"블록은 잡음 그룹과 잡음 기준화 인자 대역에 대하여 각각 랜덤한 값 또는 "잡음" 스펙트럼 값을 생성한다. 이 값들은 코딩되고 디코딩된 시간 불연속적인 오디오 신호를 다시 얻기 위해 합성 필터 뱅크(218)로 보내진다. 합성 필터 뱅크(218)가 잡음 스펙트럼 값 또는 "정상적인" 재양자화된 스펙트럼 값을 시간 영역으로 변환시키는지의 여부는 합성 필터 뱅크와 무관하다는 것은 명백하다.

공지의 잡음 대체 방법은 입력신호가 균일한 잡음 구조, 즉, 평탄한 스펙트럼을 나타내는 경우, 입력신호의 일부가 잡음으로 대체되어 들리지 않는 품질의 손실로 다시 디코딩될 수 있다는 문제점을 가지고 있다. 이것은 과도신호 또는 음성신호의 경우에는 유효하지 않으므로 잡음 대체 방법을 사용할 수 없거나 잡음 대체를 이용하는 경우에도 상기 종래의 방법은 적용할 수 없어 신호의 왜곡을 교란시키는 결과를 초래한다.

도 1은 본 발명에 의한 코더 및 디코더의 블록도,

도 2는 공지의 코더 및 디코더의 기본 개념을 나타낸 블록도,

도 3은 잡음 대체에 의해 확장된 도 2에 나타낸 코더의 블록도,

도 4는 시간영역과 주파수영역간의 이중성을 설명하기 위한 표,

도 5a는 과도신호의 일예를 나타낸 도면,

도 5b는 도 5a에 나타낸 과도 시간신호에 의거하여 부분적인 대역통과 신호의 힐버트 포락선을 나타낸 도면,

도 6은 주파수영역에서의 예측을 도식적으로 나타낸 도면,

도 7a는 TNS방법을 설명하기 위한 예를 나타낸 도면,

도 7b는 TNS기술을 채용한 경우의 도입된 양자화 잡음의 시간 패턴(좌측)과 TNS기술을 채용하지 않은 경우의 도입된 양자화 잡음의 시간 패턴(우측)을 비교한 도면,

도 8a는 TNS필터를 구비한 코더의 간략화된 블록도,

도 8b는 도 8a의 TNS필터를 상세히 나타낸 도면,

도 9a는 역TNS필터를 구비한 디코더의 간략화된 블록도,

도 9b는 도 9a의 역TNS필터를 상세히 나타낸 도면.

본 발명은 상술한 문제점을 해결하기 위한 것으로, 가능하다면 가청 신호의 왜곡을 수반하지 않으면서 높은 코딩 효율로 오디오 신호를 코딩하고 디코딩하는 방법을 제공하는 것을 그 목적으로 한다.

상기한 본 발명의 목적은 특허청구범위 제1항과 제2항의 코딩방법에 의해 달성된다.

본 발명은 TNS기술과 잡음대체를 조합하여 가청신호를 왜곡시키지 않으면서 코딩 이득을 더욱 증가시키는 것이다. TNS처리에 의해 생성된 스펙트럼 잔류값은 원래의 스펙트럼 값보다 훨씬 낮은 에너지량을 가진다. 이 스펙트럼 잔류값에 속하는 신호는 원래의 신호와 비교할 경우 훨씬 평탄한 경로를 가진다. 주파수와 관련하여 스펙트럼 값을 예측하여 과도신호의 포락선의 심하게 변동하는 패턴을 추출함으로써 과도신호의 경우에 있어서도 비트율을 낮출 수 있도록 하기 위해 본 발명에 의한 잡음 대체를 적용할 수 있는 평탄한 포락선을 갖는 신호가 남도록 한다.

이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.

도 1에 본 발명에 의한 코더 및 디코더를 도시하였다. 도 3에 나타낸 코더와 비교했을 때 도 1에 나타낸 바와 같이 본 발명의 코더는 TNS필터링과 잡음 대체의 조합을 포함한다. 스펙트럼 값의 잡음 대체를 수행하는 종래의 코더와는 달리 도 1에 나타낸 본 발명의 코더는 TNS필터(804)의 출력에서의 스펙트럼 잔류값의 잡음 대체를 부가적으로 수행한다. 스펙트럼 잔류값 그룹 또는 스펙트럼 잔류값을 갖는 기준화 인자 대역에 있어서, 잡음 대체에 의해 그룹 또는 기준화 인자 대역에서의 스펙트럼 잔류값의 에너지 크기가 확인되며, 양자화기 및 코더(204)와 비트 플로 멀티플렉서(208)로 원래의 스펙트럼 값에 대한 잡음대체와 유사하게 잡음 대체 지시가 전달된다.

디코더에 있어서도 유사한 과정이 진행된다. 비트 플로 멀티플렉서(214)는 TNS 부수정보를 역TNS필터로 제공한다. 이 TNS 부수정보는 상술한 바와 같이 TNS필터의 예측 계수와 필터 계수, TNS처리가 주파수 선택적으로 수행되었을 경우의 목표 주파수 영역에 대한 지시, 및 TNS기술에 어디에서 활성화되었고 어디에서 활성화되지 않았는지를 나타내는 플래그를 포함한다.

또한, 잡음 대체 지시와 대체된 스펙트럼 값의 에너지량과 해당 기준화인자 대역에서의 스펙트럼 잔류값의 에너지량이 비트 플로 멀티플렉서에서 잡음 생성 블록(312)으로 전달된다. 잡음 생성 블록(312)은 잡음 대체된 스펙트럼 값 또는 잡음 대체된 스펙트럼 잔류값의 관련여부와 무관하게 잡음 스펙트럼 값을 생성하며, 이 잡음 스펙트럼 값은 역TNS필터(900)로 입력된다. 역TNS필터(900)는 TNS처리되지 않거나 음조 특성을 가지거나 잡음 스펙트럼 값인 스펙트럼 값이 변화하지 않고 통과되도록 한다. 반면, 스펙트럼 잔류값은 TNS 재처리되어 합성 필터 뱅크(218)는 오디오 출력(220)에서 다시 코딩되고 디코딩된 시간 불연속적인 출력 신호를 출력할 수 있게 된다.

다음에 스펙트럼 값과 스펙트럼 잔류값의 비교를 통해 잡음 검출을 설명한다. 상술한 바와 같이 Schulz의 문헌에 스펙트럼 값에서의 잡음 영역을 검출하는 방법들이 기술되어 있다. 이 방법들은 스펙트럼 값에만 의존하거나 시간 불연속적인 오디오신호만에 의존하거나 또는 시간 불연속적인 오디오신호와 이 시간 불연속적인 오디오신호의 스펙트럼 값에 의존할 수 있다. 이것을 도 1과 도 2 및 도 3에 오디오 입력(200)을 "잡음 검출"블록에 연결하는 화살표로 나타내었다.

본 발명에 의한 방법은 다음과 같이 요약할 수 있다. 코더에 있어서, 신호의 일시적인 미세구조는 TNS필터링에 의해 추출된다. 잔류 스펙트럼 또는 스펙트럼 잔류값은 진폭에 있어서 "등화된" 코더의 입력에 있어서의 시간 불연속적인 오디오신호의 형태에 상응하는 것으로, 스펙트럼 잔류값을 포함하는 잔류 스펙트럼은 대략적으로 일정한 포락선 구조를 가진다. 본래의 포락선 경로에 대한 정보는 선형 예측에 의해 얻어진 TNS필터의 필터 계수에 포함되어 있는데, 이 정보는 부수적인 정보로서 디코더로 전달된다.

잔류 스펙트럼 값을 포함하며 시간적으로 일정한 잔류 스펙트럼은 TNS처리되지 않은 스펙트럼 값에 대한 잡음 대체와 유사하게 잡음 대체될 수 있다. 해당 부수정보(대체된 주파수 대역 및 대역에너지를 나타내는)는 부수적인 정보로서 디코더로 전달된다. 디코더에 있어서, 공지의 디코딩과정이 잡음 대체되지 않은 주파수 대역과 잡음 대체된 주파수 대역에 대하여 수행된다. 잡음 대체에 의해 도입된 잡음은 일시적인 미세구조를 가지지 않으며, 대략적으로 평탄한 시간 포락선을 갖는다. 이어지는 역TNS필터링과정동안 본래의 미세한 시간구조는 합성 필터 뱅크에 의해 시간영역으로 스펙트럼 값이 다시 전달되기 전에 상기 전달된 TNS 부수정보에의해 신호로 다시 도입된다.

잡음 대체와 "일시적인 잡음 정형"의 조합에 의해 잡음 대체를 개선할 수 있으며, 이것은 일시적인 미세구조를 갖는 신호에 대하여 효과적으로 이용될 수 있다. TNS방법으로 인해 도입된 양자화 잡음은 일시적으로 정형되어 시간 신호의 "아래"에 존재하게 된다.

Claims

시간 오디오신호의 스펙트럼 값(x(1), ..., x(n))을 구하기 위하여 상기 시간 오디오신호를 주파수영역으로 변환하는 단계와,

스펙트럼 잔류값(x_R(1), ..., x_R(n))을 구하기 위하여 주파수에 관한 스펙트럼 값의 예측을 수행하는 단계,

상기 스펙트럼 잔류값에 있어서의 잡음 영역을 검출하는 단계,

상기 잡음 영역에서의 스펙트럼 잔류값을 잡음-대체하는 단계, 및

상기 잡음 영역과 잡음 대체에 관한 정보를 코딩된 오디오신호의 부수적인 정보에 포함시키는 단계를 포함하는 오디오신호의 코딩방법.
코딩된 오디오신호를 입력하는 단계와,

부수적인 정보에서 잡음 대체와 스펙트럼 잔류값의 잡음 영역과 관련된 정보를 검출하는 단계,

상기 검출한 정보에 의거하여 상기 잡음 영역에 스펙트럼 잡음 잔류값을 생성하는 단계,

잡음 대체된 스펙트럼 잡음 잔류값으로부터 스펙트럼 값을 구하기 위하여 주파수에 관한 역예측을 수행하는 단계, 및

디코딩된 오디오신호를 얻기 위하여 상기 스펙트럼 값을 시간영역으로 변환하는 단계를 포함하는 코딩된 오디오신호의 디코딩방법.
제1항 또는 제2항에 있어서,

상기 예측 또는 역예측은 스펙트럼 값(x(1), ..., x(n))의 특정 범위에 대해서만 수행하는 오디오신호의 코딩 또는 디코딩방법.
제1항 또는 제2항에 있어서,

예측이 사용되었다는 암시와 예측 계수 및 예측을 위한 주파수영역 정보가 상기 코딩된 오디오신호의 부수적인 정보에 포함되는 오디오신호의 코딩 또는 디코딩방법.
제1항 또는 제2항에 있어서,

상기 예측에 의해 생성된 필터 계수가 상기 코딩된 오디오신호의 부수적인 정보에 포함되는 오디오신호의 코딩 또는 디코딩방법.
제1항 또는 제2항에 있어서,

상기 잡음 대체가 기준화 인자 대역의 형태로 수행되는 오디오신호의 코딩 또는 디코딩방법.
제1항 또는 제2항에 있어서,

상기 잡음 대체 단계가 기준화 인자 대역을 갖는 검출된 잡음 영역에서의 스펙트럼 잔류값(x_R(1), ..., x_R(n))의 에너지를 산출하는 단계를 포함하는 바, 상기 코딩된 오디오신호의 부수 정보에 포함된 잡음 대체에 관한 상기 정보가 하나의 기준화 인자 대역의 기준화 인자에 대한 비트 플로내에 마련된 위치에 포함되며 해당 잡음 영역내의 에러 잔류값의 에너지를 포함하는 오디오신호의 코딩 또는 디코딩방법.
제1항 또는 제2항에 있어서,

코딩되는 동안 잡음 영역내에 위치하지 않는 스펙트럼 잔류값이 정신음향학적 은폐를 고려하여 양자화되고, 디코딩되는 동안 잡음 영역내에 위치하지 않는 상기 양자화된 스펙트럼 잔류값이 스펙트럼 값(x(1), ..., x(n))을 구하기 위해 재양자화되고 역예측되는 오디오신호의 코딩 또는 디코딩방법.