KR100991450B1

KR100991450B1 - 스펙트럼 홀 충전을 사용하는 오디오 코딩 시스템

Info

Publication number: KR100991450B1
Application number: KR1020107009429A
Authority: KR
Inventors: 마이클 미드 트루만; 그랜트 알렌 데이비슨; 매튜 콘라드 펠레스; 마크 스튜어트 빈톤; 매튜 오브리 왓슨; 찰스 퀴토 로빈슨
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2002-06-17
Filing date: 2003-05-30
Publication date: 2010-11-04
Also published as: EP1514261B1; JP4486496B2; JP2012078866A; ATE529859T1; EP1514261A1; ATE529858T1; ATE526661T1; CA2489441C; CA2489441A1; KR20050010945A; KR100986152B1; PL372104A1; SI2209115T1; IL165650A; KR100986150B1; JP2012212167A; EP2209115A1; ES2275098T3; TWI352969B; EP1736966B1

Abstract

양자화 같은 오디오 코딩 프로세스는 엔코딩된 오디오 신호의 스펙트럼 성분을 제로로 설정하여 신호에서 스펙트럼 홀을 생성시킨다. 생성된 스펙트럼 홀은 오디오 코딩 시스템에 의해 재생되는 오디오 신호의 인식 품질을 저하시킬 수 있다. 개선된 디코더는 동기화된 스펙트럼 성분으로 스펙트럼 홀을 충전함으로써 인식 품질 저하를 회피하거나 감소시킨다. 개선된 엔코더는 디코더에서 개선을 실현하는데 또한 사용될 수 있다.

Description

스펙트럼 홀 충전을 사용하는 오디오 코딩 시스템{AUDIO CODING SYSTEM USING SPECTRAL HOLE FILLING}

본 발명은 일반적으로 오디오 코딩 시스템에 관한 것으로서, 특히 오디오 코딩 시스템으로부터 얻어지는 오디오 신호의 인식 품질을 개선하는 것에 관한 것이다.

오디오 코딩 시스템은 오디오 신호를 전송 또는 저장하는데 적합한 엔코딩된 신호로 엔코딩하고 나서, 이 엔코딩된 신호를 수신 또는 검색하고 이 신호를 디코딩하여 재생을 위한 원래의 오디오 신호 버전을 얻는데 사용된다. 인식 오디오 코딩 시스템은 오디오 신호를 원래의 오디오 신호보다 낮은 정보 용량 요구조건을 지닌 엔코딩된 신호로 엔코딩하고 나서, 이 엔코딩된 신호를 디코딩하여 원래의 오디오 신호와 인식할 정도로 구별할 수 없는 출력을 제공하고자 하는 것이다. 인식 오디오 코딩 시스템의 일 예가 Dolby AC-3라 칭하는 Advanced Television Standards Committee (ATSC) A52 document (1994)에 기재되어 있다. 또 다른 예는 Bosi 등이 발표한 Advanced Audio Coding (AAC)라 칭하는 "ISO/IEC MPEG2 Advanced Audio Coding." J.AES, vol.45, no.10, October 1997, pp.789-814에 기재되어 있다. 이들 두 가지 코딩 시스템뿐만 아니라 다른 인식 코딩 시스템은 분석 필터뱅크를 오디오 신호에 적용하여 주파수 대역 또는 그룹으로 배열된 스펙트럼 성분을 얻는다. 이 대역폭은 전형적으로 가변하고, 통상적으로 인간 청각 시스템의 소위 임계 대역폭과 동일하다.

인식 코딩 시스템은 주관적이거나 인식된 오디오 품질 측정을 유지하면서 오디오 신호의 정보 용량 요구조건을 감소시켜, 오디오 신호의 엔코딩된 표현이 보다 작은 대역폭을 사용하여 통신 채널을 통해서 전달되거나 보다 적은 공간을 사용하여 기록매체 상에 저장되도록 하는데 사용된다. 정보 용량 요구조건은 스펙트럼 성분의 양자화에 의해 감소된다. 양자화는 양자화된 신호에 잡음을 발생시키지만, 인식 오디오 코딩 시스템은 일반적으로 양자화 잡음 진폭을 제어하고자 시도시 사이코아쿠스틱 모델(psychoacoustic models)을 사용하여, 이 잡음을 마스킹하거나 신호에서 스펙트럼 성분에 의해 가청 불가능하게 한다.

소정 대역 내의 스펙트럼 성분은 종종 동일한 양자화 해상도(quantizing resoultion)로 양자화되고 양자화 모델은 가청 레벨의 양자화 잡음을 발생시킴이 없이 가능하게 되는 가장 큰 최소 양자화 해상도 즉, 최소 신호-대-잡음 비(SNR)를 결정하는데 사용된다. 이 기술은 협 대역에서 상당히 양호하게 작동하지만, 정보 용량 요구조건이 상대적으로 대충적인 양자화 해상도를 사용하도록 코딩 시스템을 제한할 때, 보다 넓은 대역에 대해선 양호하게 작동하지 못한다. 광 대역에서, 보다 큰 값의 스펙트럼 성분은 통상적으로 소정의 해상도를 갖는 비제로(non-zero) 값으로 양자화되지만, 이 대역의 보다 작은 값의 스펙트럼 성분은 최소 양자화 레벨보다 작은 크기를 갖는 경우 제로로 양자화된다. 제로로 양자화되는 대역 내의 스펙트럼 성분의 수는 일반적으로 대역폭이 증가함에 따라서, 이 대역 내의 최대 및 최소 스펙트럼 성분 값 간의 차가 증가함에 따라서, 그리고 최소 양자화 레벨이 증가함에 따라서 증가한다.

불행하게도, 엔코딩된 신호 내에 많은 제로로 양자화된(QTZ) 스펙트럼 성분이 존재하면, 최종 양자화 잡음이 가청 불가능하게 되거나 이 신호 내의 스펙트럼 성분에 의해 사이코아쿠스틱적으로 마스킹될 정도로 충분히 낮을지라도 오디오 신호의 인식 품질을 저하시킬 수 있다. 이 저하는 적어도 세 가지 원인을 갖는다. 첫 번째 원인은, 사이코아쿠스틱 마스킹 레벨이 양자화 해상도를 결정하는데 사용되는 사이코아쿠스틱 모델에 의해 예측된 것보다 작기 때문에 양자화 잡음이 가청될 수 있다는 것이다. 두 번째 원인은 많은 QTZ 스펙트럼 성분의 생성이 원래 오디오 신호의 에너지 또는 전력과 비교할 때 디코딩된 오디오 신호의 에너지 또는 전력을 가청가능하게 감소시킬 수 있다는 것이다. 세 번째 원인은 직교 반사 필터(QMT: Quadrature Mirror Filter) 또는 시간 도메인 에일리어싱 소거(TDAC) 변환으로서 공지된 특정 수정된 이산 코사인 변환(DCT) 및 수정된 역이산 코사인 변환(IDCT)(이들은 Princen 등이 발표한 "Subband/Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation," ICASSP 1987 Conf.Proc.,May 1987, pp.2161-64에 서술되어 있다)과 같은 왜곡-소거 필터뱅크를 사용하는 코딩 공정과 관련된다.

QMF 또는 TDAC 변환과 같은 왜곡-소거 필터뱅크를 사용하는 코딩 시스템은 왜곡 또는 의사 성분을 엔코딩된 신호로 도입하는 엔코딩 공정에서 분석 필터뱅크를 사용하지만, 적어도 이론적으로 왜곡을 소거할 수 있는 디코딩 공정에서 합성 필터뱅크를 사용한다. 그러나 실제에 있어선, 하나 이상의 스펙트럼 성분의 값이 엔코딩 공정에서 크게 변경되는 경우, 왜곡을 소거하는 합성 필터뱅크의 성능은 크게 손상될 수 있다. 이 때문에, 양자화 잡음이 가청 불가능한 경우조차도 QTZ 스펙트럼 성분은 디코딩된 오디오 신호의 인식 품질을 저하시킬 수 있는데, 그 이유는 스펙트럼 성분의 변화가 분석 필터뱅크에 의해 야기되는 왜곡을 소거하는 합성 필터뱅크의 성능을 손상시킬 수 있기 때문이다.

공지된 코딩 시스템에 사용되는 기술은 이들 문제들을 부분적으로 해결하였다. 예를 들어, Dolby AC-3 및 AAC 변환 코딩 시스템은 디코더 내에서 어떤 QTZ 스펙트럼 성분을 잡음을 대체함으로써 원래 오디오 신호의 신호 레벨을 유지하는 엔코딩된 신호로부터 출력 신호를 발생시키는 어떤 성능을 지닌다. 이들 시스템 둘 다에서, 엔코더는 주파수 대역을 위한 전력 표시를 엔코딩된 신호로 제공하고 디코더는 이 전력 표시를 사용하여 주파수 대역 내의 QTZ 스펙트럼 성분을 적절한 잡음 레벨로 대체한다. Dolby AC-3 엔코더는 적절한 잡음 레벨을 발생시키는데 사용될 수 있는 단기간 전력 스펙트럼의 대충적인 추정을 제공한다. 대역 내의 모든 스펙트럼 성분이 제로로 설정될 때, 디코더는 단기간 전력 스펙트럼의 대충적인 추정으로 표시된 전력과 거의 동일한 전력을 갖는 잡음으로 대역을 채운다. AAC 코딩 시스템은 소정 대역을 위한 전력을 명시적으로(explicitly) 전송하는 인식 잡음 치환(PNS: Perceptual Noise Substitution)이라 칭하는 기술을 사용한다. 디코더는 이 정보를 사용하여 이 전력을 정합시키도록 잡음을 부가한다. 2개의 시스템은 비제로 스펙트럼 성분을 갖지 않는 대역에서만 잡음을 부가한다.

불행하게도, 이들 시스템은 QTZ 및 비제로 스펙트럼 성분의 혼합을 포함하는 대역 내에서 전력을 유지하도록 지원하지 않는다. 표 1은 원래 오디오 신호를 위한 스펙트럼 성분의 가상 대역(hypothetical band), 엔코딩된 신호로 어셈블링되는 각 스펙트럼 성분의 3-비트 양자화된 표현 및 상기 엔코딩된 신호로부터 디코더에 의해 얻어진 대응하는 스펙트럼 성분을 나타낸다. 엔코딩된 신호에서 양자화된 대역은 QTZ 및 비제로 스펙트럼 성분의 조합을 갖는다.

[표 1]

이 표의 제1 칼럼은 단일 대역으로 그룹화되는 원래 오디오 신호 내의 스펙트럼 성분을 표시하는 부호가 없는 2진수의 세트를 나타낸다. 제2 칼럼은 3비트로 양자화된 스펙트럼 성분의 표현을 나타낸다. 이 예에서, 3-비트 해상도 아래의 각 스펙트럼 성분의 부분은 절사(truncation)에 의해 제거되어 있다. 양자화된 스펙트럼 성분은 디코더로 전송된 후, 제로 비트를 부가함으로써 역양자화되어, 원래 스펙트럼 성분 길이를 복구한다. 역양자화된 스펙트럼 성분은 제3 칼럼에 나타나 있다. 대다수의 스펙트럼 성분이 제로로 양자화되기 때문에, 역양자화된 스펙트럼 성분의 대역은 원래 스펙트럼 성분의 대역보다 적은 에너지를 포함하고 이 에너지는 몇 개의 비제로 스펙트럼 성분에 집중된다. 이 에너지 감소는 상술된 바와 같이 디코딩된 신호의 인식 품질을 저하시킬 수 있다.

본 발명의 목적은 제로 값의 양자화된 스펙트럼 성분과 관계되는 저하를 피하거나 감소시킴으로써 오디오 코딩 시스템으로부터 얻어지는 오디오 신호의 인식 품질을 개선하는 것이다.

본 발명의 한 양상에서, 오디오 정보는, 입력 신호를 수신하고 오디오 신호의 스펙트럼 내용을 표시하는 하나 이상의 스펙트럼 성분을 각각 갖는 서브대역 신호의 세트를 상기 입력 신호로부터 얻는 단계; 하나 이상의 스펙트럼 성분이 비제로 값을 갖고 임계값에 대응하는 최소 양자화 레벨을 갖는 양자화기에 의해 양자화되고 다수의 스펙트럼 성분이 제로값을 갖는 특정 서브대역 신호를 상기 서브대역 신호 세트내에서 식별하는 단계; 상기 특정 서브대역 신호에서 각각 제로-값의 스펙트럼 성분에 대응하고 상기 임계값 이하인 스케일링 인벨롭(scaling envelope)에 따라서 스케일링되는 합성된 스펙트럼 성분을 발생시키는 단계; 상기 특정 서브대역 신호에서 대응하는 제로-값의 스펙트럼 성분을 상기 합성된 스펙트럼 성분으로 대체함으로써 수정된 서브대역 신호의 세트를 발생시키는 단계; 및 상기 수정된 서브대역 신호 세트에 합성 필터뱅크를 적용함으로써 오디오 정보를 발생시키는 단계;에 의해 제공된다.

본 발명의 또 다른 양상에서, 출력 신호, 바람직하게는 엔코딩된 출력 신호는, 분석 필터뱅크를 오디오 정보에 적용함으로써 얻어지는 정보를 양자화함으로써 오디오 신호의 스펙트럼 내용을 표시하는 하나 이상의 스펙트럼 성분을 각각 갖는 서브대역 신호 세트를 발생시키는 단계; 하나 이상의 스펙트럼 성분이 비제로 값을 갖고 임계값에 대응하는 최소 양자화 레벨을 갖는 양자화기에 의해 양자화되고 다수의 스펙트럼 성분이 제로값을 갖는 특정 서브대역 신호를 상기 서브대역 신호의 세트 내에서 식별하는 단계; 상기 오디오 신호의 스펙트럼 내용으로부터 스케일링 제어 정보를 도출하는 단계로서, 상기 스케일링 제어 정보는 출력 신호에 응답하여 오디오 정보를 발생시키는 수신기에서 제로값을 갖는 스펙트럼 성분을 합성되어 대체하는 합성된 스펙트럼 성분의 스케일링을 제어하는, 도출 단계; 및 상기 스케일링 제어 정보 및 상기 서브대역 신호의 세트를 표시하는 정보를 어셈블링함으로써 상기 출력 신호를 발생시키는 단계;에 의해 제공된다.

본 발명의 각종 특징 및 바람직한 실시예는 이하의 설명 및 여러 도면에서 동일한 소자에 동일한 참조 번호가 병기되어 있는 첨부 도면을 통해서 더욱 잘 이해할 수 있을 것이다. 이하의 설명 내용 및 전체 도면은 단지 예로서 설명된 것이지, 본 발명의 영역을 제한하고자 하는 것으로 이해되어서는 안 된다.

도 1a는 오디오 엔코더의 개요적인 블록도.
도 2b는 오디오 디코더의 개요적인 블록도.
도 2a-2c는 양자화 함수의 그래프.
도 3은 가상 오디오 신호의 스펙트럼의 개요적인 그래프.
도 4는 제로로 설정된 어떤 스펙트럼 성분 세트를 지닌 가상 오디오 신호의 스펙트럼의 개요적인 그래프.
도 5는 제로-값의 스펙트럼 성분을 대체하는 합성된 스펙트럼 성분을 지닌 가상 오디오 신호의 스펙트럼의 개요적인 그래프.
도 6은 분석 필터뱅크 내의 필터용 가설 주파수 응답의 개요적인 그래프.
도 7은 도6에 도시된 스펙트럼 누설의 롤 오프(roll off)를 근사화하는 스케일링 인벨롭의 개요적인 그래프.
도 8은 적응가능한 필터의 출력으로부터 도출되는 스켈일링 인벨롭의 개요적인 그래프.
도 9는 도6에 도시된 스펙트럼 누설의 롤 오프를 근사화하는 스케일링 인벨롭에 의해 가중되는 합성된 스펙트럼 성분을 지닌 가설 오디오 신호의 스펙트럼의 개요적인 그래프.
도 10은 가상 사이코아쿠스틱 마스킹 임계값의 개요적인 그래프.
도 11은 사이코아쿠스틱 마스킹 임계값을 근사화하는 스케일링 인벨롭에 의해 가중되는 합성된 스펙트럼 성분을 지닌 가상 오디오 신호의 스펙트럼의 개요적인 그래프.
도 12는 가상 서브대역 신호의 개요적인 그래프.
도 13은 제로로 설정된 어떤 스펙트럼 성분을 지닌 가상 서브대역 신호의 개요적인 그래프.
도 14는 가상 일시적 사이코아쿠스틱 마스킹의 개요적인 그래프.
도 15는 일시적 사이코아쿠스틱 마스킹 임계값을 근사화하는 스케일링 인벨롭에 의해 가중되는 합성된 스펙트럼 성분을 지닌 가상 서브대역 신호의 개요적인 그래프.
도 16은 스펙트럼 복제에 의해 발생되는 합성된 스펙트럼 성분을 지닌 가상 오디오 신호의 스펙트럼의 개요적인 그래프.
도 17은 엔코더 또는 디코더에서 본 발명의 각종 양상을 구현하는데 사용될 수 있는 장치의 개요적인 블록도.

A. 개요

본 발명의 각종 양상은 다양한 신호 처리 방법 및 도 1a와 도 1b에 도시된 장치들과 유사한 장치를 포함하는 다양한 신호 처리 장치와 관련될 수 있다. 일부 양상은 단지 디코딩 방법 또는 장치에서만 수행되는 처리에 의해 실행될 수 있다. 다른 양상은 엔코딩 뿐만 아니라 디코딩 방법 또는 장치 둘 다에서 수행되는 협동적인 처리를 필요로 한다. 본 발명의 이들 각종 양상을 실행하는데 사용될 수 있는 공정에 대한 설명이 이들 공정을 수행하는데 사용될 수 있는 통상적인 장치를 개략적으로 설명한 다음에 설명된다.

1. 엔코더

도 1a는 분석 필터뱅크(12)가 경로(11)로부터 오디오 신호를 표시하는 오디오 정보를 수신하고, 이에 응답하여, 이 오디오 신호의 주파수 서브대역을 표시하는 디지털 정보를 제공하는 대역 분할 오디오 엔코더(split-band audio encoder)의 한 가지 구현방식을 도시한 것이다. 주파수 서브대역 각각에서 디지털 정보는 각각의 양자화기(14, 15, 16)에 의해 양자화되어 엔코더(17)로 통과된다. 엔코더(17)는 포맷화기(18)로 통과되는 양자화된 정보의 엔코딩된 표현을 발생시킨다. 도면에 도시된 특정 구현방식에서, 양자화기(14, 15, 16) 내의 양자화 함수는 모델(13)로부터 수신되는 양자화 제어 정보에 응답하여 적응되는데, 이 모델은 경로(11)로부터 수신되는 오디오 정보에 응답하여 양자화 제어 정보를 발생시킨다. 포맷화기(18)는 양자화된 정보 및 양자화 제어 정보의 엔코딩된 표현을 전송 또는 저장하는데 적합한 출력 신호로 어셈블링하여 이 출력 신호를 경로(19)를 따라서 통과시킨다.

많은 오디오 응용들은 도 2a에 도시된 3-비트 미드-트레드(mid-tread) 비대칭 양자화 함수와 같은 균일한 선형 양자화 함수 q(x)를 사용한다. 그러나 특정한 형태의 양자화가 본 발명에 중요한 것은 아니다. 사용될 수 있는 2개의 다른 함수 q(x)의 예들이 도 2b 및 도 2c에 도시되어 있다. 이들 예 각각에서, 양자화 함수 q(x)는 구간 내에서 임의의 입력값(x)에 대해서 제로와 동일한 출력값을 지점(30)에서의 값으로부터 지점(31)에서의 값으로 제공한다. 많은 응용에서, 지점(30, 31)에서의 2개의 값은 크기에 있어서 동일하고 부호에 있어서 서로 상반되지만, 이는 도 2b에 도시된 바와 같이 반드시 그럴 필요는 없다. 설명을 간단히 하기 위하여, 특정 양자화 함수 q(x)에 의해 제로로 양자화되는(QTZ) 입력값의 구간 내에 있는 값(x)은 이 양자화 함수의 최소 양자화 레벨보다 작은 것으로서 간주된다.

이 설명에서, "엔코더" 및 "엔코딩"과 같은 용어는 임의의 특정 유형의 정보 처리를 의미하지는 않는다. 예를 들어, 엔코딩은 종종, 정보 용량 요구조건을 감소시키는데 사용된다. 그러나 이 설명에서 이들 용어는 반드시 이 유형의 처리와 관련되는 것은 아니다. 엔코더(17)는 본질적으로, 바람직한 모든 유형의 공정을 수행할 수 있다. 한가지 구현방식에서, 양자화된 정보는 공통 스케일링 팩터를 갖는 스케일링되는 수의 그룹으로 엔코딩된다. Dolby AC-3 코딩 시스템에서, 예를 들어, 양자화된 스펙트럼 성분은 각 대역 내의 수가 부동 소수점 지수를 공유하는 부동 소수점 수의 그룹 또는 대역으로 배열된다. AAC 코딩 시스템에서, 허프만 코딩과 같은 엔트로피 코딩이 사용된다. 또 다른 구현방식에서, 엔코더(17)는 제거되고 양자화된 정보는 출력 신호로 직접 어셈블링된다. 특정 유형의 엔코딩이 본 발명에 중요한 것은 아니다.

모델(13)은 본질적으로, 바람직한 모든 유형의 공정을 수행할 수 있다. 한가지 예는 사이코아쿠스틱 모델을 오디오 정보에 적용하여 이 오디오 신호 내의 상이한 스펙트럼 성분의 사이코아쿠스틱 마스킹 효과를 제거하는 공정이다. 많은 수정들이 가능하다. 예를 들어, 이 모델(13)은 필터뱅크의 입력에서 이용가능한 오디오 정보 대신 또는 이 오디오 정보 이외에 분석 필터뱅크(12)의 출력에서 이용가능한 주파수 서브밴드 정보에 응답하여 양자화 제어 정보를 발생시킬 수 있다. 또 다른 예로서, 이 모델(13)은 제거될 수 있고, 양자화기(14, 15, 16)는 적응되지 않는 양자화 함수를 사용한다. 특정 모델링 공정이 본 발명에 중요한 것은 아니다.

2. 디코더

도 1b는 역포맷화기(22)가 경로(21)로부터 오디오 신호의 주파수 서브대역을 표시하는 양자화된 디지털 정보의 엔코딩된 표현을 전달하는 입력 신호를 수신하는 대역 분할 오디오 디코더의 한가지 구현방식을 도시한 것이다. 역포맷화기(22)는 입력 신호로부터 엔코딩된 표현을 얻어 이를 디코더(23)로 통과시킨다. 디코더(23)는 양자화된 정보의 주파수 서브대역으로 엔코딩된 표현을 디코딩한다. 각 주파수 서브대역에서 양자화된 디지털 정보는 각 역양자화기(25, 26, 27)에 의해 역양자화되어 합성 필터뱅크(28)로 통과되는데, 이 필터뱅크는 오디오 신호를 표시하는 오디 정보를 경로(29)를 따라서 발생시킨다. 이 도면에 도시된 특정 구현방식에서, 역양자화기(25, 26, 27) 내의 역양자화 함수는 모델(24)로부터 수신되는 양자화 제어 정보에 응답하여 적응되는데, 이 모델은 입력 신호로부터 역포맷화기(22)에 의해 얻어진 제어 정보에 응답하여 양자화 제어 정보를 발생시킨다.

이 설명에서, "디코더" 및 "디코딩"과 같은 용어는 임의의 특정 유형의 정보 처리를 의미하지는 않는다. 디코더(23)는 본질적으로, 필요하거나 바람직한 모든 유형의 공정을 수행할 수 있다. 상술된 엔코딩 공정의 역인 한가지 구현방식에서, 공유된 지수를 갖는 부동 소수점 수의 그룹에서 양자화된 정보는 공유된 지수를 갖지 않는 개개 양자화된 성분으로 디코딩된다. 또 다른 구현방식에서, 허프만 디코딩과 같은 엔트로피 디코딩이 사용된다. 또 다른 구현방식에서, 디코더(23)는 제거되고 양자화된 정보는 역포맷화기(22)에 의해 직접 얻어진다. 특정 유형의 디코딩이 본 발명에 중요한 것은 아니다.

모델(24)은 본질적으로, 바람직한 모든 유형의 공정을 수행할 수 있다. 한가지 예는 사이코아쿠스틱 모델을 입력 신호로부터 얻어진 정보에 적용하여 오디오 신호 내의 상이한 스펙트럼 성분의 사이코아쿠스틱 마스킹 효과를 제거하는 공정이다. 또 다른 예로서, 이 모델(24)은 제거되고 역양자화기(25, 26, 27)는 적응되지 않는 양자화 함수를 사용하거나 역포맷화기(22)에 의해 입력 신호로부터 직접 얻어진 양자화 제어 정보에 응답하여 적응되는 양자화 함수를 사용할 수 있다. 특정 공정이 본 발명에 중요한 것은 아니다.

3. 필터뱅크

도 1a 및 도 1b에 도시된 장치는 3개의 주파수 서브대역을 위한 성분을 나타낸다. 보다 많은 서브대역이 전형적인 응용에서 사용되지만, 간결하게 예시하기 위하여 단지 3개만을 나타내었다. 특정 수가 본 발명에 원칙적으로 중요한 것은 아니다.

분석 및 합성 필터뱅크는 본질적으로, 광범위의 디지털 필터 기술, 블록 변환 및 웨이브렛 변환을 포함한 바람직한 방식으로 수행될 수 있다. 상술된 바와 같은 엔코더 및 디코더를 갖는 한가지 오디오 코딩 시스템에서, 분석 필터뱅크(12)는 TDAC 수정된 DCT에 의해 수행되고 합성 필터뱅크(28)는 상술된 TDAC 수정된 IDCT에 의해 수행된다. 그러나 특정 구현방식이 원칙적으로 중요한 것은 아니다.

블록 변환에 의해 수행되는 분석 필터뱅크는 입력 신호의 블록 또는 구간을 신호의 구간의 스펙트럼 내용을 표시하는 변환 계수의 세트로 분할한다. 하나 이상의 인접 변환 계수의 그룹은 이 그룹 내의 계수의 수와 동일한 대역폭을 갖는 특정 주파수 서브대역 내에서 스펙트럼 내용을 표시한다.

블록 변환이라기보다 오히려 다상 필터와 같은 어떤 유형의 디지털 필터에 의해 수행되는 분석 필터뱅크는 입력 신호를 서브대역 신호의 세트로 분할한다. 각 서브대역 신호는 특정 주파수 서브대역 내의 입력 신호의 스펙트럼 내용의 시간-기반으로 한 표현이다. 이 서브대역 신호는 10진화되어, 각 서브대역 신호가 시간 단위 구간 동안 서브대역 신호 내의 샘플 수와 동일한 대역폭을 갖도록 하는 것이 바람직하다.

이하의 설명은 특히, 상술된 TDAC 변환과 같은 블록 변환을 사용하는 구현방식에 관한 것이다. 이 설명에서, 용어 "서브대역 신호"는 하나 이상의 인접 변환 계수의 그룹에 관한 것이고, 용어 "스펙트럼 성분"은 변환 계수에 관한 것이다. 본 발명의 원리는 다른 유형의 구현방식에 적용될 수 있지만, 용어 "서브대역 신호"는 일반적으로, 신호의 특정 주파수 서브대역의 스펙트럼 내용을 표시하는 시간-기반으로 한 신호와 관계하는 것으로 이해되어야 하고, 용어 "스펙트럼 성분"은 일반적으로 시간-기반으로 한 서브대역 신호의 샘플과 관련되는 것으로 이해될 수 있다.

4. 구현방식

본 발명의 각종 양상은 범용 컴퓨터 시스템, 또는 범용 컴퓨터 시스템에서 발견되는 구성요소들과 유사한 구성요소들에 결합되는 디지털 신호 처리기(DSP) 회로와 같은 보다 특수한 구성요소를 포함하는 일부 다른 장치 내의 소프트웨어를 포함한 다양한 방식으로 구현될 수 있다. 도 17은 오디오 엔코더 또는 오디오 디코더에서 본 발명의 각종 양상을 구현하는데 사용될 수 있는 장치(70)의 블록도이다. DSP(72)는 계산 자원을 제공한다. RAM(73)은 신호 처리를 위하여 DSP(72)에 의해 사용되는 시스템 랜덤 액세스 메모리(RAM)이다. ROM(74)은 장치(70)를 동작시켜 본 발명의 각종 양상을 실행하는데 필요로 되는 프로그램을 저장하기 위하여 판독 전용 메모리(ROM)와 같은 어떤 형태의 영구 저장장치를 표시한다. I/O 제어장치(75)는 통신 채널(76, 77)에 의해 신호를 수신하여 전송하는 인터페이스 회로를 표시한다. 아날로그-디지털 변환기 및 디지털-아날로그 변환기는 원하는 경우 I/O 제어 장치(75)에 포함되어 아날로그 오디오 신호를 수신 및/또는 전송한다. 도시된 실시예에서, 모든 주요한 시스템 구성요소들은 버스(71)에 접속되는데, 이 버스는 하나 이상의 물리적인 버스를 표시할 수 있지만, 버스 구조는 본 발명을 구현하는데 필요로 되지 않는다.

범용 컴퓨터 시스템에서 구현되는 실시예에서, 부가적인 구성요소들은 키보드 또는 마우스 및 디스플레이와 같이 장치에 인터페이스하고 자기 테이프 또는 디스크와 같은 저장 매체 또는 광학 매체를 갖는 저장 장치를 제어하기 위하여 포함될 수 있다. 이 저장 매체는 응용, 유틸리티 및 시스템을 운영하기 위한 명령의 프로그램을 기록하는데 사용될 수 있고, 본 발명의 각종 양상을 구현하는 프로그램의 실시예를 포함할 수 있다.

본 발명의 각종 양상을 실시하는데 필요로 되는 기능은 이산 논리 구성요소, 하나 이상의 ASICs 및/또는 프로그램-제어된 프로세서를 포함한 광범위한 다양한 방식으로 구현되는 구성요소들에 의해 수행될 수 있다. 이들 구성요소를 구현하는 방식이 본 발명에 중요한 것은 아니다.

본 발명의 소프트웨어 구현방식은 초음파로부터 자외선 주파수까지의 스펙트럼에 걸쳐서 기저대역 또는 변조된 통신 경로와 같은 다양한 기계 판독가능한 매체 또는 자기 테이프, 자기 디스크 및 광 디스크를 포함한 본질적으로 모든 자기 또는 광 기록 기술을 사용하여 정보를 전달하는 매체를 포함한 저장 매체에 의해 이루어질 수 있다. 각종 형태의 ROM 또는 RAM 및 이외 다른 기술에서 구현되는 프로그램에 의해 제어되는 마이크로프로세서, 범용 집적회로, ASIC와 같은 처리 회로에 의해 컴퓨터 시스템(70)의 각종 구성요소로 각종 양상들이 또한 구현될 수 있다.

B. 디코더

본 발명의 각종 양상은 엔코더로부터의 임의의 특수한 공정 또는 정보를 필요로 하지 않는 디코더에서 실행될 수 있다. 이들 양상은 본 명세서의 이 장에서 설명된다. 엔코더로부터의 특수한 공정 또는 정보를 필요로 하는 다른 양상은 다음 장에서 설명된다.

1. 스펙트럼 홀

도 3은 변환 코딩 시스템에 의해 엔코딩될 가상 오디오 신호의 구간의 스펙트럼을 도시한 그래프이다. 스펙트럼(41)은 스펙트럼 성분 또는 변환 계수의 크기의 인벨롭을 표시한다. 엔코딩 공정 동안, 임계값(40)보다 작은 크기를 갖는 모든 스펙트럼 성분은 제로로 양자화된다. 도 2a에 도시된 함수 q(x)와 같은 양자화 함수가 사용되면, 임계값(40)은 최소 양자화 레벨(30,31)에 대응한다. 임계값(40)은 예시를 간편하게 하기 위하여 전체 주파수 범위에 걸쳐서 균일한 값을 갖는 것으로 도시된다. 이는 많은 코딩 시스템에서 전형적인 것은 아니다. 각 서브대역 신호 내에서 스펙트럼 성분을 균일하게 양자화하는 인식 코딩 시스템에서, 예를 들어, 임계값(40)은 각 주파수 서브대역 내에서 균일하지만, 서브대역 전체에 걸쳐서 가변한다. 다른 구현방식에서, 임계값(40)은 또한 소정 주파수 서브대역 내에서 가변할 수 있다.

도 4는 양자화된 스펙트럼 성분으로 표시되는 가상 오디오 신호의 스펙트럼을 도시한 그래프이다. 스펙트럼(42)은 양자화되는 스펙트럼 성분의 크기의 인벨롭을 표시한다. 이 도면뿐만 아니라 다른 도면에 도시된 스펙트럼은 임계값(40) 이상의 크기를 갖는 스펙트럼 성분을 양자화하는 효과를 나타내지 않는다. 양자화된 신호의 QTZ 스펙트럼 성분 및 원래 신호에서 이에 상응하는 스펙트럼 성분 간의 차이는 해칭으로 나타나 있다. 이들 해칭된 영역은 합성된 스펙트럼 성분으로 채워질 양자화된 표현에서 "스펙트럼 홀(spectral holes)"을 표시한다.

본 발명의 한 가지 구현방식에서, 디코더는 도 4에 도시된 바와 같은 양자화된 서브대역 신호의 엔코딩된 표현을 전달하는 입력 신호를 수신한다. 이 디코더는 엔코딩된 표현을 디코딩하고 하나 이상의 스펙트럼 성분이 비제로 값을 갖고 다수의 스펙트럼 성분이 제로 값을 갖는 이들 서브대역 신호를 식별한다. 바람직하게는, 모든 서브대역 신호의 주파수 범위는 선험적으로 공지된 디코더이거나 이들은 입력 신호의 제어 정보에 의해 한정된다. 디코더는 후술되는 바와 같은 공정을 사용하여 제로-값의 스펙트럼 성분에 대응하는 합성된 스펙트럼 성분을 발생시킨다. 합성된 성분은 임계값(40) 이하의 스케일링 인벨롭에 따라서 스케일링되고 스케일링된 합성된 스펙트럼 성분은 서브대역 신호의 제로-값 스펙트럼 성분으로 대체된다. 스펙트럼 성분을 양자화하는데 사용되는 양자화 함수 q(x)의 최소 양자화 레벨(30, 31)이 공지되면, 디코더는 임계값(40)의 레벨을 명시적으로 나타내는 엔코더로부터 어떠한 정보를 필요로 하지 않는다.

2. 스케일링

스케일링 인벨롭은 광범위한 다양한 방식으로 설정될 수 있다. 몇 가지 방식이 후술된다. 한 가지 이상의 방식이 사용될 수 있다. 예를 들어, 복합 스케일링 인벨롭(composite scaling envelope)이 도출되는데, 이는 다양한 방식으로부터 또는 스케일링 인벨롭에 대한 상한 및/또는 하한을 설정하는 여러 가지 방식을 사용함으로써 얻어진 모든 인벨롭의 최대값과 동일하다. 이 방식은 엔코딩된 신호의 특성에 응답하여 적응되거나 선택될 수 있고, 이들은 주파수 함수에 따라서 적응되거나 선택될 수 있다.

a) 균일한 인벨롭

한가지 방식은 오디오 변환 코딩 시스템 및 다른 필터뱅크 구현방식을 사용하는 시스템 내의 디코더에 적합하다. 이 방식은 균일한 스케일링 인벨롭을 임계(40)과 동일하게 설정함으로써 이 인벨롭을 설정한다. 이와 같은 스케일링 인벨롭의 예가 도 5에 도시되어 있는데, 이 도면은 합성된 스펙트럼 성분으로 채워진 스펙트럼 홀을 도시하기 위한 해칭된 영역을 사용한다. 스펙트럼(43)은 합성된 스펙트럼 성분으로 채워진 스펙트럼 홀로 오디오 신호의 스펙트럼 성분의 인벨롭을 표시한다. 이 도면 뿐만 아니라 나중 도면에 도시된 해칭된 영역의 상한은 합성된 스펙트럼 성분 자신들의 실제 레벨을 표시하는 것이 아니라 단지 합성된 성분에 대한 스케일링 인벨롭을 표시한다. 스펙트럼 홀을 채우도록 사용되는 합성된 성분은 스케일링 인벨롭을 초과하지 않는 스펙트럼 레벨을 갖는다.

b) 스펙트럼 누설

스케일링 인벨롭을 설정하는 두 번째 방식은 블록 변환을 사용하는 오디오 코딩 시스템에서 디코더에 매우 적합하지만, 다른 유형의 필터뱅크 구현방식에 적용될 수 있는 원리를 기반으로 한다. 이 방식은 블럭 변환시 프로토타입 필터 주파수 응답의 스펙트럼 누설 특성에 따라서 가변하는 불균일한 스케일링 인벨롭을 제공한다.

도 6에 도시된 응답(50)은 계수들간의 스펙트럼 누설을 나타내는 변환 프로토타입 필터에 대한 가상 주파수 응답을 도시한 그래프이다. 이 응답은 통상적으로 프로토타입 필터의 통과대역이라 칭하는 주 로브(main lobe) 및 이 통과대역의 중심으로부터 멀리 떨어진 주파수에 대해서 레벨이 감소되는 주 로브에 인접한 다수의 사이드 로브를 포함한다. 이 사이드 로브는 통과대역으로부터 인접 주파수 대역으로 누설되는 스펙트럼 에너지를 표시한다. 이들 사이드 로브의 레벨이 감소되는 레이트는 스펙트럼 누설의 롤 오프(roll off)의 레이트라 칭한다.

필터의 스펙트럼 누설 특성은 인접 주파수 서브대역 간의 스펙트럼 분리(spectral isolation)를 제약한다. 필터가 대량의 스펙트럼 누설을 갖는 경우, 인접 서브대역에서 스펙트럼 레벨은 보다 낮은 스펙트럼 누설량을 지닌 필터에 대해서 가능한 상이하지 않도록 할 수 있다. 도 7에 도시된 인벨롭(51)은 도 6에 도시된 스펙트럼 누설의 롤 오프를 근사화한다. 합성된 스펙트럼 성분은 이와 같은 인벨롭으로 스케일링되거나, 대안적으로, 이 인벨롭은 다른 기술들에 의해 유도되는 스케일링 인벨롭을 위한 하한으로서 사용될 수 있다.

도 9의 스펙트럼(44)은 스펙트럼 누설 롤 오프를 근사화하는 인벨롭에 따라서 스케일링되는 합성된 스펙트럼 성분을 지닌 가상 오디오 신호의 스텍트럼을 도시한 그래프이다. 스펙트럼 에너지에 의해 양측상에서 한정되는 스펙트럼 홀을 위한 스케일링 인벨롭은 2개의 개별적인 인벨롭의 복합이다. 이 복합은 보다 큰 2개의 개별적인 인벨롭을 취함으로써 형성된다.

c) 필터

스케일링 인벨롭을 설정하는 3번째 방법은 또한 블록 변환을 사용하는 오디오 코딩 시스템 내의 디코더에 매우 적합하지만 다른 유형의 필터뱅크 구현방식에 적용될 수 있는 원리를 기반으로 한다. 이 방식은 주파수 도메인에서 변환 계수에 적용되는 주파수-도메인 필터의 출력으로부터 도출되는 불균일한 스케일링 인벨롭을 제공한다. 이 필터는 예측 필터, 저역통과 필터, 또는 소정의 스케일링 인벨롭을 제공하는 본질적으로 이와 다른 어떤 유형의 필터일 수 있다. 이 방식은 통상적으로, 상술된 2가지 방식에 필요로 되지만 스케일링 인벨롭이 주파수 함수로서 가변하도록 하는 보다 많은 계산 자원을 필요로 한다.

도 8은 적응가능한 주파수-도메인 필터의 출력으로부터 도출되는 2개의 스케일링 인벨롭을 도시한 그래프이다. 예를 들어, 스케일링 인벨롭(52)은 신호 내의 스펙트럼 홀 또는 오히려 톤(tone)과 유사한 것으로 간주되는 신호의 부분을 채우는데 사용될 수 있고, 스케일링 인벨롭(53)은 신호 내의 스펙트럼 홀 오히려 잡음과 유사한 것으로 간주되는 신호의 부분을 채우는데 사용될 수 있다. 신호의 톤 및 잡음 특성은 다양한 방식으로 평가될 수 있다. 이들 방식 중 일부 방식이 후술된다. 대안적으로, 스케일링 인벨롭(52)은 오디오 신호가 종종 오히려 톤에 유사한 보다 낮은 주파수에서 스펙트럼 홀을 채우는데 사용될 수 있고 스케일링 인벨롭(53)은 오디오 신호가 종종 오히려 잡음에 유사한 보다 높은 주파수에서 스펙트럼 홀을 채우는데 사용될 수 있다.

d) 인식 마스킹

스케일링 인벨롭을 설정하는 네 번째 방식은 블록 변환에 의한 필터뱅크 및 이와 다른 유형의 필터를 구현하는 오디오 코딩 시스템 내의 디코더에 적용될 수 있다. 이 방식은 추정된 사이코아쿠스틱 마스킹 효과에 따라서 가변하는 불균일한 스케일링 인벨롭을 제공한다.

도 10은 2개의 가상 사이코아쿠스틱 마스킹 임계값을 도시한다. 임계값(61)은 보다 낮은 주파수 스펙트럼 성분(60)의 사이코아쿠스틱 마스킹 효과를 표시하고, 임계값(64)은 보다 높은 주파수 스펙트럼 성분(63)의 사이코아쿠스틱 마스킹 효과를 표시한다. 이들과 같은 마스킹 임계값은 스케일링 인벨롭의 정형(shape)을 도출하는데 사용될 수 있다.

도 11의 스펙트럼(45)은 사이코아쿠스틱 마스킹을 기반으로 한 인벨롭에 따라서 스케일링되는 대체 합성된 스펙트럼 성분을 지닌 가상 오디오 신호의 스펙트럼을 도시한 그래프이다. 도시된 예에서, 최저-주파수 스펙트럼 홀에서 스케일링 인벨롭은 마스킹 임계값(61)의 보다 낮은 부분으로부터 도출된다. 이 중심 스펙트럼 홀 내의 스케일링 인벨롭은 마스킹 임계값(61)의 상부 부분 및 마스킹 임계값(64)의 하부 부분의 복합이다. 최고-주파수 스펙트럼 홀 내의 스케일링 인벨롭은 마스킹 임계값(64)의 상부 부분으로부터 도출된다.

e) 음조

스케일링 인벨롭을 설정하는 다섯번째 방식은 하나 이상의 서브대역 신호에 대한 것과 같이 전체 오디오 신호 또는 신호의 일부분의 음조(tonality)의 평가를 기반으로 한다. 음조는 스펙트럼 평활성 측정값 계산을 포함한 다양한 방식으로 평가될 수 있는데, 이 측정값은 신호 샘플의 기하학적 평균으로 나눠진 신호 샘플의 산술 평균의 정규화 지수(normalized quotient)이다. 1에 근접한 값은 신호가 매우 잡음과 유사하다는 것을 표시하고 제로에 인접한 값은 신호가 매우 톤에 인접하다는 것을 표시한다. SFM은 스케일링 인벨롭을 적응시키는데 직접적으로 사용될 수 있다. SFM이 제로와 동일할 때, 합성된 성분은 스펙트럼 홀을 채우는데 사용되지 않는다. SFM이 1과 동일할 때, 합성된 성분의 최대 허용되는 레벨은 스펙트럼 홀을 채우는데 사용된다. 그러나 일반적으로, 엔코더는 보다 양호한 SFM을 계산할 수 있는데, 그 이유는 이 엔코더가 엔코딩에 앞서 전체 원래 오디오 신호에 액세스하기 때문이다. 디코더는 QTZ 스펙트럼 성분의 존재로 인해 정확한 SFM을 계산하지 않을 것으로 여겨진다.

디코더는 또한, 비제로값 및 제로값 스펙트럼 성분의 배열 또는 분포를 분석함으로써 음조를 평가할 수 있다. 한 가지 구현방식에서, 이 배열이 스펙트럼 피크의 구조를 의미하기 때문에, 제로값 스펙트럼 성분의 긴 실행이 소수의 큰 비제로 값 성분 간에 분포되면, 신호는 잡음과 유사한 것이 아니라 톤에 오히려 유사한 것으로 간주된다.

또 다른 구현방식에서, 디코더는 예측 필터를 하나 이상의 서브대역 신호에 적용하여 예측 이득을 결정한다. 신호는 예측 이득이 증가함에 따라서 톤에 오히려 유사한 것으로 간주된다.

f) 일시적 스케일링(temporal scaling)

도 12는 엔코딩되어야 하는 가상 서브대역 신호를 도시한 그래프이다. 라인(46)은 스펙트럼 성분의 크기의 일시적 인벨롭을 표시한다. 이 서브대역 신호는 블록 변환에 의해 수행되는 분석 필터뱅크로부터 얻어진 블록의 시퀀스에서 변환 계수 또는 공통 스펙트럼 성분으로 이루어지거나, QMF와 같은 블록 변환과 다른 디지털 필터에 의해 수행되는 또 다른 유형의 분석 필터뱅크로부터 얻어지는 서브대역 신호일 수 있다. 엔코딩 공정 동안, 임계값(40)보다 작은 크기를 갖는 모든 스펙트럼 성분은 제로로 양자화된다. 임계값(40)은 예시를 간편하게 하기 위하여 전체 시간 구간에 걸쳐서 균일한 값을 갖는 것으로 나타낸다. 이는 블록 변환에 의해 수행되는 필터뱅크를 사용하는 많은 코딩 시스템에서 전형적인 것은 아니다.

도 13은 양자화된 스펙트럼 성분으로 표시되는 가상 서브대역 신호를 도시한 그래프이다. 라인(47)은 양자화되는 스펙트럼 성분의 크기의 일시적 인벨롭을 표시한다. 이 도면뿐만 아니라 다른 도면에 도시된 라인은 임계값(40) 이상의 크기를 갖는 스펙트럼 성분을 양자화하는 효과를 나타내지 않는다. 양자화된 신호 내의 QTZ 스펙트럼 성분 및 원래 신호 내의 이에 상응하는 스펙트럼 성분 간의 차는 해칭으로 도시되어 있다. 이 해칭된 영역은 합성된 스펙트럼 성분으로 채워져야되는 스펙트럼 홀을 시간 구간 내에서 표시한다.

본 발명의 한 가지 구현방식에서, 디코더는 도 13에 도시된 바와 같은 양자화된 서브대역 신호의 엔코딩된 표현을 전달하는 입력 신호를 수신한다. 디코더는 엔코딩된 표현을 디코딩하고 다수의 스펙트럼 성분이 제로값을 갖고 비제로 값을 갖는 스펙트럼 성분 다음 또는 이 보다 앞서 있는 이들 서브대역 신호를 식별한다. 디코더는 후술되는 바와 같은 공정을 사용하여 제로값의 스펙트럼 성분에 대응하는 합성된 스펙트럼 성분을 발생시킨다. 스케일링 인벨롭은 인간 청각 시스템의 일시적 마스킹 특성을 고려하는 것이 바람직하다.

도 14는 가상 일시적 사이코아쿠스틱 마스킹 임계값을 도시한 것이다. 이 임계값(68)은 스펙트럼 성분(67)의 일시적 사이코아쿠스틱 마스킹 효과를 표시한다. 스펙트럼 성분(67)의 좌측으로의 임계값 부분은 일시적 마스킹 전 특성을 표시하거나, 스펙트럼 성분 발생보다 앞서 있는 마스킹을 표시한다. 스펙트럼 성분(67)의 우측으로의 임계값 부분은 일시적 마스킹 후 특성을 표시하거나 스펙트럼 성분 발생에 후속되는 마스킹을 표시한다. 마스킹 후 효과는 일반적으로, 마스킹 전 효과의 지속기간보다 훨씬 긴 지속기간을 갖는다. 이와 같은 일시적 마스킹 임계값은 스케일링 인벨롭의 일시적 정형(temporal shape)을 도출하는데 사용될 수 있다.

도 15의 라인(48)은 일시적 사이코아쿠스틱 마스킹 효과를 기반으로 한 인벨롭에 따라서 스케일링되는 대체 합성된 스펙트럼 성분을 지닌 가상 서브대역 신호를 도시한 그래프이다. 도시된 예에서, 스케일링 인벨롭은 2개의 개별적인 인벨롭의 복합이다. 스펙트럼 홀의 보다 낮은 주파수 부분을 위한 개별적인 인벨롭은 임계값(68)의 마스킹 후 부분으로부터 도출된다. 스펙트럼 홀의 보다 높은 주파수 부분을 위한 개별적인 인벨롭은 임계값(68)의 마스킹 후 부분으로부터 도출된다.

3. 합성 성분의 발생

합성된 스펙트럼 성분은 다양한 방식으로 발생될 수 있다. 2가지 방식이 후술된다. 여러 가지 방식이 사용될 수 있다. 예를 들어, 엔코딩 신호의 특성에 응답하여 또는 주파수의 함수에 따라서 여러 가지 방식이 선택될 수 있다.

첫 번째 방식은 잡음형 신호를 발생시키는 것이다. 본질적으로, 의사-잡음 신호를 발생시키는 임의의 광범위한 다양한 방식이 사용될 수 있다.

두 번째 방식은 하나 이상의 주파수 서브대역으로부터 스펙트럼 성분을 복제하는 스펙트럼 복제 또는 스펙트럼 해석(spectral translation)이라 칭하는 기술을 사용한다. 보다 낮은 주파수 스펙트럼 성분은 통상적으로 복제되어 보다 높은 주파수에서의 스펙트럼 홀을 채우도록 하는데, 그 이유는 보다 높은 주파수 성분은 종종 어떤 방식으로 보다 낮은 주파수 성분과 관계되기 때문이다. 그러나 원칙적으로, 스펙트럼 성분은 보다 높거나 낮은 주파수로 복제될 수 있다.

도 16의 스펙트럼(49)은 스펙트럼 복제에 의해 발생된 합성된 스펙트럼 성분을 지닌 가상 오디오 신호의 스펙트럼을 도시한 그래프이다. 스펙트럼 피크의 일부분은 주파수 배수에서 하향 및 상향으로 복제되어 저 및 중간 주파수 각각에서의 스펙트럼 홀을 채운다. 스펙트럼의 높은 단부(high end) 근처의 스펙트럼 성분의 일부분은 주파수에서 상향으로 복제되어 스펙트럼의 높은 단부에서의 스펙트럼 홀을 채우도록 한다. 도시된 예에서, 복제된 성분은 균일한 스케일링 인벨롭에 의해 스케일링된다. 그러나 본질적으로 임의 형태의 스케일링 인벨롭이 사용될 수 있다.

C. 엔코더

상술된 본 발명의 양상은 기존 엔코더에 대해 어떠한 수정을 행함이 없이도 디코더에서 실행될 수 있다. 엔코더가 디코더에 이용될 수 없는 부가적인 제어 정보를 제공하도록 수정된다면 이들 양상들은 개선될 수 있다. 부가적인 제어 정보는 합성된 스펙트럼 성분을 발생시켜 디코더에서 스케일링되는 방식을 적응시키도록 사용될 수 있다.

1. 제어 정보

엔코더는, 디코더가 합성된 스펙트럼 성분을 위한 스케일링 인벨롭을 적응시키도록 사용되는 다양한 스케일링 제어 정보를 제공할 수 있다. 후술되는 각각의 예는 신호의 주파수 서브대역 및/또는 전체 신호를 위하여 제공될 수 있다.

서브대역인 최소 양자화 레벨보다 상당히 낮은 스펙트럼 성분을 포함하면, 엔코더는 이 상태를 나타내는 정보를 디코더에 제공할 수 있다. 이 정보는 디코더가 2개 이상의 스케일링 레벨로부터 선택하도록 사용할 수 있는 인덱스 유형이거나, 이 정보는 평균 또는 제곱근 평균(RMS) 전력과 같은 스펙트럼 레벨의 어떤 측정값을 전달할 수 있다. 디코더는 이 정보에 응답하여 스케일링 인벨롭을 적응시킬 수 있다.

상술된 바와 같이, 디코더는 엔코딩된 신호 자체로부터 추정된 사이코아쿠스틱 마스킹 효과에 응답하여 스케일링 인벨롭을 적응시킬 수 있다. 그러나 엔코더가 엔코딩 공정에 의해 상실되는 신호의 특징들에 액세스할 때, 디코더는 엔코더가 이들 마스킹 효과의 보다 양호한 추정을 제공하도록 할 수 있다. 이는 엔코딩 신호로부터 이용될 수 없는 사이코아쿠스틱 정보를 포맷화기(18)에 제공하는 모델(13)을 가짐으로써 행해질 수 있다. 이 유형의 정보를 사용하면, 디코더는 하나 이상의 사이코아쿠스틱 기준에 따라서 합성된 스펙트럼 성분을 정형화하도록 스케일링 인벨롭을 적응시킬 수 있다.

스케일링 인벨롭은 또한 신호 또는 서브대역 신호의 잡음-형 또는 음-형 품질에 대한 어떤 평가에 응답하여 적응될 수 있다. 이 평가는 엔코더 또는 디코더에 의해 여러 가지 방식으로 행해질 수 있다. 그러나 엔코더는 통상적으로 보다 양호한 평가를 행할 수 있다. 이 평가 결과는 엔코딩된 신호와 어셈블링될 수 있다. 한가지 평가는 상술된 SFM이다.

SFM의 표시는 또한 디코더에 의해 사용되어 합성된 스펙트럼 성분을 발생시키는데 어느 공정을 사용할지를 선택한다. SFM이 1에 근접하면, 잡음 발생기술이 사용될 수 있다. SFM이 제로에 근접하면, 스펙트럼 복제 기술이 사용될 수 있다.

엔코더는 이들 2개의 전력의 비와 같이 비제로 및 QTZ 스펙트럼 성분에 어떤 전력 표시를 제공할 수 있다. 디코더는 비제로 스펙트럼 성분의 전력을 계산하고 나서 이 비 또는 다른 표시를 사용하여 스케일링 인벨롭을 적절하게 적응시킨다.

2. 제로 스펙트럼 계수

앞선 설명은 때때로, QTZ(제로로 양자화된) 성분으로서 제로-값의 스펙트럼 성분이라 칭하는데, 그 이유는 양자화가 엔코딩된 신호에서 제로-값의 성분의 공통 소스이기 때문이다. 이는 필수적인 것은 아니다. 엔코딩된 신호에서 스펙트럼 성분의 값은 본질적으로 어떤 공정에 의해 제로로 설정될 수 있다. 예를 들어, 엔코더는 특정 주파수 위의 각 서브대역 신호에서 최대 하나 또는 2개의 스펙트럼 성분을 식별할 수 있고 이들 서브대역 신호에서 모든 다른 스펙트럼 성분을 제로로 설정할 수 있다. 대안적으로, 엔코더는 어떤 임계값보다 작은 어떤 서브대역에서 모든 스펙트럼 성분을 제로로 설정할 수 있다. 상술된 바와 같은 본 발명의 각종 양상을 포함하는 디코더는 스펙트럼 홀을 생성하는 역할을 하는 공정과 관계없이 스펙트럼 홀을 채울 수 있다.

12 : 분석 필터뱅크 13 : 모델
14, 15, 16 : 양자화기 17 : 엔코더
18 : 포맷화기 22: 역포맷화기
23 : 디코더 25, 26, 27 : 역양자화기
28: 합성 필터뱅크

Claims

오디오 정보를 발생시키는 방법으로서,
양자화된 서브대역 신호들의 엔코딩된 표현을 전달하는 입력 신호를 수신하는 단계로서, 임계값보다 작은 크기를 가졌던 스펙트럼 성분들은 제로 값으로 양자화되었음;
상기 엔코딩된 표현을 디코딩하고, 하나 이상의 스펙트럼 성분이 비제로 값을 갖고 복수의 스펙트럼 성분이 제로 값을 갖는 특정 서브대역 신호를 식별하는 단계;
주파수 함수로서 적응 또는 선택된 별개의 방식을 사용하여, 상기 임계값보다 작거나 상기 임계값과 동일한 스케일링 인벨롭을 설정하는 단계;
상기 스케일링 인벨롭에 따라 스케일링되는, 상기 제로 값을 갖는 스펙트럼 성분들에 대응하는 합성 스펙트럼 성분들을 발생시키는 단계;
상기 특정 서브대역 신호 내의 제로 값을 갖는 대응하는 스펙트럼 성분들을 상기 합성 스펙트럼 성분들로 대체함으로써 수정된 서브대역 신호들의 세트를 발생시키는 단계; 및
상기 수정된 서브대역 신호들의 세트에 합성 필터뱅크를 적용함으로써 오디오 정보를 발생시키는 단계;
를 포함하는 것을 특징으로 하는 오디오 정보 발생 방법.
제1항에 있어서, 상기 합성 필터뱅크는 인접한 서브대역 성분들 간에 스펙트럼 누설이 있는 블록 변환에 의해 수행되고, 상기 스케일링 인벨롭은 상기 블록 변환의 스펙트럼 누설의 롤 오프 레이트와 동일한 레이트로 가변하는 것을 특징으로 하는 오디오 정보 발생 방법.
제1항 또는 제2항에 있어서, 상기 합성 필터뱅크는 블록 변환에 의해 수행되고, 상기 방법은,
상기 서브대역 신호들의 세트 내의 하나 이상의 스펙트럼 성분에 주파수 영역 필터를 적용하는 단계; 및
상기 주파수 영역 필터의 출력으로부터 상기 스케일링 인벨롭을 도출하는 단계;
를 포함하는 것을 특징으로 하는 오디오 정보 발생 방법.
제3항에 있어서, 상기 주파수 영역 필터의 응답을 주파수 함수로서 가변시키는 단계를 포함하는 것을 특징으로 하는 오디오 정보 발생 방법.
제1항 또는 제2항에 있어서, 상기 방법은,
상기 서브대역 신호들의 세트에 의해 표현되는 오디오 신호의 음조의 측정값을 구하는 단계; 및
상기 음조의 측정값에 응답하여 상기 스케일링 인벨롭을 적응시키는 단계;
를 포함하는 것을 특징으로 하는 오디오 정보 발생 방법.
제5항에 있어서, 상기 음조의 측정값을 상기 입력 신호로부터 구하는 것을 특징으로 하는 오디오 정보 발생 방법.
제5항에 있어서, 상기 제로 값을 갖는 스펙트럼 성분들이 상기 특정 서브대역 신호에 배열되는 방식으로부터 상기 음조의 측정값을 도출하는 것을 특징으로 하는 오디오 정보 발생 방법.
제1항 또는 제2항에 있어서, 상기 합성 필터뱅크는 블록 변환에 의해 수행되고, 상기 방법은,
상기 입력 신호로부터 서브대역 신호들의 세트들의 시퀀스를 얻는 단계;
상기 시퀀스 내의 각각의 세트에 대하여 하나 이상의 스펙트럼 성분이 비제로 값을 갖고 복수의 스펙트럼 성분이 제로 값을 갖는 공통 서브대역 신호를 상기 시퀀스 내에서 식별하는 단계;
비제로 값을 갖는 공통 스펙트럼 성분들의 세트에 선행 또는 후행하는 상기 시퀀스 내의 복수의 인접하는 세트 내의 제로 값을 갖는 공통 스펙트럼 성분을 상기 공통 서브대역 신호 내에서 식별하는 단계;
인간 청각 시스템의 일시적 마스킹 특성에 따라 상기 시퀀스 내의 전체 세트에 걸쳐 가변하는 상기 스케일링 인벨롭에 따라서, 상기 제로 값을 갖는 공통 스펙트럼 성분들에 대응하는 상기 합성 스펙트럼 성분들을 스케일링하는 단계;
상기 서브대역 신호들의 세트들 내의 비제로 값을 갖는 대응하는 공통 스펙트럼 성분들을 상기 합성 스펙트럼 성분들로 대체함으로써 수정된 서브대역 신호들의 세트들의 시퀀스를 발생시키는 단계; 및
상기 수정된 서브대역 신호들의 세트들의 시퀀스에 상기 합성 필터뱅크를 적용함으로써 상기 오디오 정보를 발생시키는 단계;
를 포함하는 것을 특징으로 하는 오디오 정보 발생 방법.
제1항 또는 제2항에 있어서, 상기 합성 필터뱅크는 블록 변환에 의해 수행되고, 상기 합성 스펙트럼 성분들은 상기 서브대역 신호들의 세트 내의 다른 스펙트럼 성분들의 스펙트럼 해석에 의해 발생하는 것을 특징으로 하는 오디오 정보 발생 방법.
제1항 또는 제2항에 있어서, 상기 스케일링 인벨롭은 인간 청각 시스템의 일시적 마스킹 특성에 따라 가변하는 것을 특징으로 하는 오디오 정보 발생 방법.
제1항 또는 제2항에 있어서, 상기 스케일링 인벨롭은 추정된 사이코아쿠스틱 마스킹 효과에 따라 가변하도록 설정되는 것을 특징으로 하는 오디오 정보 발생 방법.
제1항 또는 제2항의 방법의 단계들을 수행하기 위한 수단들을 포함하는 오디오 정보 발생 장치.
제1항 또는 제2항의 방법의 단계들을 수행하기 위한 명령들의 프로그램을 실행하는 장치에 의해 판독가능하고 명령들의 프로그램을 전달하는 컴퓨터 판독가능 매체.