KR20160091449A

KR20160091449A - 노이즈 채움 개념

Info

Publication number: KR20160091449A
Application number: KR1020167019946A
Authority: KR
Inventors: 사샤 디쉬; 마르크 가이어; 크리스티안 헴리히; 고란 마르코비치; 마리아 루이스 발레로
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2013-01-29
Filing date: 2014-01-28
Publication date: 2016-08-02
Also published as: BR112015017748B1; ZA201506266B; HK1218344A1; BR112015017633A2; ES2834929T3; AU2014211544B2; RU2015136502A; KR20150109437A; PL2951818T3; CN105190749B; ES2709360T3; RU2660605C2; EP2951818B1; US20150332686A1; KR20160090403A; KR20160091448A; TW201434035A; EP2951817A1; PL2951817T3; BR112015017633B1

Abstract

오디오 신호의 조성 의존적인 방식으로 노이즈 채움을 수행하여, 노이즈가 채워진 오디오 신호의 재생이 덜 짜증스럽도록 노이즈가 채워진 스펙트럼에 관해 오디오 신호의 스펙트럼의 노이즈 채움이 품질적으로 향상된다.

Description

노이즈 채움 개념{Noise Filling Concept}

본 출원은 오디오 코딩과 관련되며, 특히 오디오 코딩과 관련된 노이즈 채움(noise filling)에 관련된다.

변환 코딩에서 0(제로)으로 스펙트럼의 부분들을 양자화하는 것이 지각적 저하를 야기한다고 종종 인식된다(비교 [1], [2], [3]). 0으로 양자화되는 그러한 부분들은 종종 스펙트럼 홀(스펙트럼 구멍, spectrum holes)들로 불린다. [1], [2], [3] 및 [4]에서 제시되는 이러한 문제에 대한 해답은 노이즈를 갖는 제로-양자화된 스펙트럼 라인들(zero-quantized spectral lines)을 교체하는 것이다. 때때로, 노이즈의 삽입은 특정 주파수 아래에서 회피된다. 노이즈 채움(noise filling)의 시작 주파수는 고정되지만, 알려진 선행 기술들 사이에서 다르다.

때때로, FDNS (주파수 영역 노이즈 성형, Frequency Domain Noise Shaping)은 (삽입된 노이즈를 포함하여) 스펙트럼을 성형을 위해, USAC에서 처럼(비교 [4]), 양자화 노이즈의 제어를 위해, 이용된다. FDNS는 LPC 필터의 크기 응답을 이용하여 수행된다. LPC 필터 계수들은 프리-엠퍼시스된(pre-emphasized) 입력 신호를 이용하여 계산된다.

조성 구성요소의 바로 인접한 부분에서 노이즈를 더하는 것은 저하(degradation)를 야기한다는 것이 [1]에서 주목되었고, 따라서, 바로 [5]에서처럼, 주입된 써라운딩 노이즈에 의해 비-제로 양자화된 값들을 은폐하는 것을 피하기 위해 오래 진행되는 제로들(zeros)이 노이즈로 채워진다.

[3]에서 요구되는 부가 정보의 크기 및 노이즈 채움의 입도(granularity) 사이의 타협 문제가 존재한다는 것이 [3]에서 주목된다. [1], [2], [3] 및 [5]에서 완전한 스펙트럼 당 하나의 노이즈 채움 매개변수가 전송된다. 삽입된 노이즈는 [2]에서처럼 LPC를 이용하여 또는 [3]에서처럼 스케일 인수들을 이용하여 스펙트럼적 성형된다. [3]에서 어떻게 전체 스펙트럼에 대해 하나의 노이즈 채움 레벨을 갖는 노이즈 필링에 스케일 인수들을 적응(adapt)시키는지가 설명된다. [3]에서, 완전히 0(제로)로 양자화되는 대역들에 대한 스케일 인수들이 스펙트럼 홀들을 피하기 위해 그리고 정확한 노이즈 레벨을 갖기 위해 수정된다.

[1] 및 [5]의 솔루션이 작은 스펙트럼 홀(스펙트럼 구멍)들을 채우지 않도록 제안한다는 점에서 조성 구성요소들의 저하를 피하지만, 여전히 특히 아주 낮은 비트-레이트들에서, 노이즈 채움을 이용하여 코딩되는 오디오 신호의 품질을 더 향상시킬 필요가 있다.

향상된 특성들을 갖는 노이즈 채움의 개념을 제공하는 것이 본 발명의 목적이다.

이 목적은 여기에 첨부된 독립 청구항들의 주제에 의해 달성되고, 여기서 본 출원의 유리한 관점들이 종속 청구항들의 주제이다.

오디오 신호의 조성에 의존하는 방식으로 노이즈 채움을 수행하여, 노이즈가 채워진 오디오 신호의 재생이 덜 짜증나도록(less annoying), 오디오 신호의 스펙트럼의 노이즈 채움이 노이즈 채워진 스펙트럼과 관련하여 품질 향상될 수 있다는 것이 본 출원의 기본적인 발견이다.

본 출원의 바람직한 실시예들은 다음 도면들과 관련하여 아래에서 설명된다:
도 1은, 시간-정렬 방식으로, 겹쳐서, 위로부터 아래까지의, 오디오 신호에서의 시간 조각을 보여주며, 그 스펙트로그램은, 설명 목적을 위해, 오디오 신호의 조성 및 스펙트럼 에너지의 개략적으로 표시된 "그레이 스케일(gray scale)" 스펙트럼시간적(spectrotemporal) 변화를 이용한다;
도 2는 실시예에 따른 노이즈 채움 장치의 블록 다이어그램을 보여준다;
도 3은 실시예에 따른 이 스펙트럼의 인접 스펙트럼 제로-부분을 채우기 위해 이용되는 노이즈를 스펙트럼적으로 성형하기 위해 이용되는 함수 및 노이즈 채움의 대상이 되는 스펙트럼의 개략도를 보여준다;
도 4는 추가 실시예에 따라 이 스펙트럼의 인접 스펙트럼 제로-부분을 채우기 위해 이용되는 노이즈를 스펙트럼적으로 성형하는데 이용되는 함수 및 노이즈 채움의 대상이 되는 스펙트럼의 개략도를 보여준다;
도 5는 더 추가 실시예에 따른 이 스펙트럼의 인접 스펙트럼 제로-부분을 채우기 위해 이용되는 노이즈를 스펙트럼적으로 성형하는데 이용되는 함수 및 노이즈 채움의 대상이 되는 스펙트럼의 개략도를 보여준다;
도 6은 실시예에 따라 도 2의 노이즈 필러(noise filler)의 블록 다이어그램을 보여준다;
도 7은 실시예에 따라 한편으로 결정되는 오디오 신호의 조성 및 다른 한편으로 인접 스펙트럼 제로-부분을 스펙트럼적으로 성형하기 위해 이용가능한 가능 함수들(possible functions) 사이의 가능한 관계를 개략적으로 보여준다;
도 8은 실시예에 따라 노이즈의 레벨을 어떻게 스케일링하는지를 보여주기 위해 스펙트럼의 인접 스펙트럼 제로-부분들을 채우기 위해 노이즈를 스펙트럼적으로 성형하는데 이용되는 함수들을 추가적으로 보여주며 노이즈가 채워지는 스펙트럼을 개략적으로 보여준다;
도 9는 도 1 내지 8에 관해 설명되는 노이즈 채움 개념을 적응시키는 오디오 코덱 내에서 이용될 수 있는 인코더의 블록 다이어그램을 보여준다;
도 10은 실시예에 따라, 전체 노이즈 레벨 및 즉 스케일 인수들, 전송되는 부가 정보를 따라 도 9의 인코더에 의해 코딩되는 것처럼 노이즈가 채워지는 양자화된 스펙트럼을 개략적으로 보여준다;
도 11은 도 2에 따라 노이즈 채움 장치를 포함하는 그리고 도 9의 인코더에 맞는 디코더의 블록 다이어그램을 보여준다;
도 12는 도 9 및 11의 인코더 및 디코더의 실행의 변형에 따라 관련 부가 정보 데이터를 갖는 스펙트로그램(spectrogram)의 개략도를 보여준다;
도 13은 실시예에 따라 도 1 내지 8의 노이즈 채움 개념을 이용하여 오디오 코덱에 포함될 수 있는 선형 예측 변형 오디오 인코더를 보여준다;
도 14는 도 13의 인코더에 맞는 디코더의 블록 다이어그램을 보여준다;
도 15는 노이즈가 채워지는 스펙트럼의 조각들의 예들을 보여준다;
도 16은 실시예에 따라 노이즈가 채워지는 스펙트럼의 특정 인접 스펙트럼 제로-부분에 노이즈가 채워지는 성형을 위한 함수에 대한 명시적 예를 보여준다;
도 17a-d 는 상이한 조성들에 대해 이용되는 상이한 과도 너비들(transition widths) 및 상이한 제로-부분들 너비들에 대한 인접 스펙트럼 제로-부분들로(into) 채워지는 노이즈를 스펙트럼적으로 성형하기 위한 함수들에 대한 다양한 예들을 보여준다;
도 18a는 실시예에 따라 지각적 변환 오디오 인코더의 블록 다이어그램을 보여준다;
도 18b는 실시예에 따라 지각적 변환 오디오 디코더의 블록 다이어그램을 보여준다;
도 18c는 실시예에 따라 노이즈 채움에 도입되는 스펙트럼 전체 경사를 달성하는 가능한 방법을 설명하는 개략적 다이어그램을 보여준다.

본 출원의 실시예에 따라, 오디오 신호의 스펙트럼의 인접 스펙트럼 제로-부분(contiguous spectral zero-portion)은, 절대적 경사가 상기 조성에 음으로(negatively) 의존하는 외부로 떨어지는 모서리들을 갖는, 그리고 인접 스펙트럼 제로-부분의 내부에서 최대(maximum)를 추정하는 함수를 이용하여 스펙트럼적으로 성형되는 노이즈로 채워진다. 추가적으로 또는 대안적으로, 채움을 위해 이용되는 함수가 인접 스펙트럼 제로-부분의 내부에서 최대를 추정하며, 스펙트럼 너비가 상기 조성(tonality)에 양으로 의존하는 외부로 떨어지는 모서리들을 가지며, 즉 증가하는 조성과 함께 스펙트럼 너비가 증가한다. 더 나아가, 추가적으로 또는 대안적으로, 상수(constant) 함수 또는 단봉형(unimodal) 함수가 채움을 위해 이용될 수 있고, 인접 스펙트럼 제로-부분의 외곽 쿼터에 대해 - 1의 적분으로 정규화된(normalized to an integral of 1) - 적분이 상기 조성에 음으로 의존하며, 즉 적분이 증가하는 조성과 함께 감소한다. 이러한 모든 방법들에 의해, 노이즈 채움은 오디오 신호의 조성 부분들에 대해 덜 해로운 경향이 있지만, 그러나 그럼에도 불구하고 스펙트럼 홀의 감소 관점에서 오디오 신호의 비-조성 부분들(non-tonal parts)에 대해 효과적이다. 다른 말로, 오디오 신호가 조성 컨텐츠를 가질 때마다, 오디오 신호의 스펙트럼으로 채워지는 노이즈는 그것으로부터 충분한 거리를 유지하여 영향받지 않는 스펙트럼의 조성 피크(tonal peaks)들을 남기며, 그러나 여기서 비-조성 같은 오디오 컨텐츠를 갖는 오디오 신호의 시간적 위상들의 비-조성 특성은 그럼에도 불구하고 노이즈 채움에 의해 만족된다.

본 출원의 실시예에 따라, 오디오 신호의 스펙트럼의 인접 스펙트럼 제로-부분들이 식별되고 식별된 제로-부분들은 함수들로 스펙트럼적 성형된 노이즈로 채워지며, 각 인접 스펙트럼-제로 부분에 대해 각 함수는 오디오 신호의 조성 및 각 인접 스펙트럼 제로-부분의 너비에 의존하는 집합이 된다. 간편한 실시를 위해, 의존도(depecdency)는 함수의 룩업 테이블(look-up table)에서의 검색에 의해 달성될 수 있고, 또는 함수는 오디오 신호의 조성 및 인접 스펙트럼 제로 부분의 너비에 의존하여 수학적 공식을 이용하여 분석적으로 계산될 수 있다. 어떠한 경우에도, 의존도를 실현하기 위한 노력은 의존도로부터 도출되는 이점들과 비교하여 상대적으로 중요하지 않다. 특히, 의존도는 각 함수가 인접 스펙트럼 제로-부분의 너비에 의존하여 설정되어 함수가 각 인접 스펙트럼 제로-부분에 제한되고, 오디오 신호의 조성에 의존하여, 오디오 신호의 더 높은 조성에 대해, 함수의 매스(mass)가 각 인접 스펙트럼 제로-부분의 모서리로부터 떨어진 그리고 각 인접 스펙트럼 제로-부분의 내부에서 더 빽빽하게(more compact) 되는 것처럼 될 수 있다.

추가 실시예에 따라, 스펙트럼적으로 성형된 그리고 인접 스펙트럼 제로-부분들로(into) 채워진 노이즈는 스펙트럼 전체 노이즈 채움 레벨을 이용하여 보통 스케일링된다(scaled). 특히, 인접 스펙트럼 제로-부분들의 함수들에 대한 적분(integral) 또는 인접 스펙트럼 제로-부분들의 노이즈에 대한 적분(integral)이 전체 노이즈 채움 레벨에 대응하도록, 예를 들어, 동일하게, 노이즈가 스케일링된다. 유리하게, 전체 노이즈 채움 레벨은 추가 구문이 그러한 오디오 코덱들에 대해 제공되어야 할 필요가 없도록 어쨌든 존재하는 오디오 코덱들 내에서 코딩된다. 그것은, 전체 노이즈 채움 레벨은 오디오 신호가 낮은 노력으로 코딩되는 데이터 스트림으로 명시적으로(명확히, explicitly) 시그널링될 수 있다. 효과적으로, 인접 스펙트럼 제로-부분의 노이즈가 스펙트럼적으로 형성되는 함수들은 모든 인접 스펙트럼 제로-부분들이 채워지는 노이즈에 대한 적분이 전체 노이즈 채움 레벨에 대응하도록 스케일링될 수 있다.

본 출원의 실시예에 따라, 조성은 오디오 신호가 코딩되는 것을 이용하는 코딩 매개변수로부터 유도된다. 이러한 방법에 의해, 추가 정보는 기존 오디오 코덱 내에서 전송되어야 할 필요가 없다. 특정 실시예들에 따라, 코딩 매개변수는 LTP (장기 예측, Long-Term Prediction) 플래그(flag) 또는 이득(gain), TNS(시간적 노이즈 성형, Temporal Noise Shaping) 가능 플래그 또는 이득 및/또는 스펙트럼 재배치 가능 플래그(spectrum rearrangement enablement flag)이다.

추가 실시예에 따라 노이즈 채움의 성능은 고-주파수 스펙트럼 부분에 제한되며, 여기서 고-주파수 스펙트럼 부분의 저-주파수 시작 위치는 오디오 신호가 코딩되는 것에 그리고 데이터 스트림의 명시적 시그널링에 대응하여 설정된다. 이러한 방법에 의해, 노이즈 채움이 수행되는 것에서 고-주파수 스펙트럼 부분의 낮은 경계(lower bound)의 신호 적응적 설정이 실현 가능하다. 이러한 방법에 의해, 차례로, 노이즈 채움으로부터 도출되는 오디오 품질이 증가될 수 있다. 차례로, 명시적 시그널링에 의해 야기되는, 추가 부가 정보 필요는 비교적 작다.

본 출원의 추가 실시예에 따라, 상기 장치는 오디오 신호의 스펙트럼을 코딩하는데 이용되는 프리-엠퍼시스(pre-emphasis)에 의해 야기되는 스펙트럼 경사에 대응하기 위해 스펙트럼 로-패스 필터(spectral low-pass filter)를 이용하여 노이즈 채움을 수행하도록 구성된다. 이러한 방법에 의해, 노이즈 채움 품질은 훨씬 더 증가되고, 이는 잔여 스펙트럼 홀들의 깊이가 더 감소되기 때문이다. 더 일반적으로 말해, 지각적 변환 오디오 코덱들에서의 노이즈 채움은, 스펙트럼 홀들 내에서 노이즈를 조성 의존적 스펙트럼 성형에 더하여, 스펙트럼적으로 평탄한 방식(spectrally flat manner)보다, 스펙트럼적으로 전체적 경사지게 노이즈 채움을 수행하여 향상될 수 있다. 예를 들어, 스펙트럼적 전체 경사는, 노이즈 채움 스펙트럼을 스펙트럼 지각적 가중 함수의 대상으로 하여 야기되는 스펙트럼 경사를 적어도 부분적으로 역전시키기 위해, 즉 저주파수부터 고주파수까지의 감소를 나타내는, 음의 기울기(negative slope)를 가질 수 있다. 양의 기울기(positive slope)도 상상될 수 있고, 예를 들어, 코딩된 스펙트럼이 하이-패스(high-pass) 같은 특성을 나타내는 경우에서이다. 특히, 스펙트럼 지각 가중 함수들은 일반적으로 저주파수에서 고주파수까지의 증가를 나타내는 경향이 있다. 따라서, 스펙트럼적으로 평탄한 방식으로 지각적 변환 오디오 코더들의 스펙트럼들에 채워진 노이즈는, 최종적으로 복원된 스펙트럼의 경사진 노이즈 플로어(tilted noise floor)로 끝난다. 본 출원의 발명자는, 그러나, 최종 복원된 스펙트럼의 이러한 경사가 오디오 품질에 부정적인 영향을 미치며, 이는 스펙트럼의 노이즈 채워진 부분들에 남아있는 스펙트럼 홀들을 야기하기 때문이라는 것을 인식하였다. 따라서, 저주파수에서 고주파수까지의 노이즈 레벨이 감소하는 스펙트럼적 전체 경사를 갖는 노이즈의 삽입은 스펙트럼 지각적 가중 함수(spectral perceptual weighting function)를 이용하여 노이즈가 채워진 스펙트럼의 다음 성형에 의해 야기되는 그러한 스펙트럼 경사에 대해 적어도 부분적으로 보상하며, 그것에 의해 오디오 품질이 향상된다. 상기 상황에 기반하여, 예를 들어, 특정 하이-패스 같은 스펙트럼에서, 양의 기울기가 선호될 수 있다.

실시예에 따라, 스펙트럼적 전체 경사의 기울기는 스펙트럼이 코딩되는 데이터 스트림의 시그널링에 대응하여 변화된다. 예를 들어, 시그널링은 가파름을 명시적으로 시그널링할 수 있고, 인코딩 측면에서, 스펙트럼 지각적 가중 함수에 의해 야기되는 스펙트럼 경사의 양(amount)에 적응될 수 있다. 예를 들어, 스펙트럼 지각적 가중 함수에 의해 야기되는 스펙트럼 경사의 양은 LPC를 적용하기 전에 오디오 신호의 대상이 되는 프리-엠퍼시스로부터 연유할 수 있다.

노이즈 채움은 오디오 인코딩 및/또는 오디오 디코딩 측면에서 이용될 수 있다. 오디오 인코딩 측면에서 이용될 때, 노이즈 채워진 스펙트럼은 분석-합성 목적을 위해 이용될 수 있다.

실시예에 따라, 인코더는 조성 의존도를 고려하여 전체 노이즈 스케일링 레벨(global noise scaling level)을 결정한다.

도면의 다음 설명 어디에서든, 동일 도면부호들은 이러한 도면들에서 보여지는 요소들에 대해 이용되고, 하나의 도면에서 하나의 요소에 관해 앞선 설명들은 동일 도면부호를 이용하여 참조된 또다른 도면의 요소에 변환가능하게 해석될 것이다. 이러한 방식에 의해, 연장되고 반복적인 설명은 가능한 피해질 것이고, 그에 의해, 시작으로부터 새로운 모든 실시예들을 계속해서 다시 설명하는 것보다 서로들 중에서 차이에 관한 다양한 실시예들의 설명에 집중할 것이다.

다음 설명은 오디오 신호의 스펙트럼에 노이즈 채움을 수행하기 위한 장치에 대한 실시예로 먼저 시작한다. 두번째로, 다음 설명은 제공되는 각 오디오 코덱과 연결되어 적용될 수 있는 사양들에 따라, 노이즈 채움이 내장(built-in)될 수 있는 곳에서, 다양한 오디오 코덱들에 대해 상이한 실시예들이 제공된다. 다음에서 설명되는 노이즈 채움은, 어느 경우에서, 디코딩 측면에서 수행될 수 있다는 것이 주목된다. 인코더에 의존하여, 그러나 다음에서 설명되는 것 같은 노이즈 채움은, 예를 들어, 합성 분석(analysis-by-synthesis) 같이 인코딩 측면에서 수행될 수도 있다. 아래에서 설명되는 실시예들에 따른 노이즈 채움의 수정된 방식이, 예를 들어, 스펙트럼 전체 노이즈 채움 레벨을 결정하기 위해서, 단지 부분적으로 인코더가 작업하는 방식을 변화시키는 중간 케이스 또한 아래에서 설명된다.

도 1은 설명 목적으로 오디오 신호(10)를 보여주며, 즉 그것의 오디오 샘플들의 시간적 과정, 예를 들어, 오디오 신호(10)으로부터 유도된 오디오 신호의 시간-정렬 스펙트로그램(12)이, 예를 들어, 관련 변형 윈도우(16)의 중간에 대응하는 시간 인스턴스(time instance)에서 스펙트로그램(12) 중 슬라이스(slice)를 나타내는, 관련 스펙트럼(18) 및 두개의 연속 변형 윈도우(consecutive transform windows, 16)에 대해 예시로 (14)에서 도시된 겹쳐진 변형(transformation) 같이 적합한 변형을 통해, 적어도 인터 앨리어스(inter alias)된다.

스펙트로그램(12)에 대한 예들 및 어떻게 동일한 것이 유도되는지가 아래에서 더 나타내어진다. 어떠한 경우에서, 스펙트로그램(12)은 몇몇 종류의 양자화 대상이 되며 스펙트로그램(12)이 스펙트럼시간적(스펙트로템포럴리, spectrotemporally)으로 샘플링되는 곳에서 스펙트럼 값들이 인접하여 0(제로)인 제로-부분들(zero-portions)을 갖는다. 겹쳐진 변형(14)은, 예를 들어, MDCT 같은 임계적으로(critically) 샘플링된 변형일 수 있다. 게다가, 스펙트로그램(12)이 스펙트럼 값들로 샘플링되는 스펙트럼시간적 해상도는 시간적으로 변화할 수 있다. 다른 말로, 스펙트로그램(12)의 연속 스펙트럼(18) 사이의 시간적 거리는 시간적으로 변화할 수 있고, 동일한 것이 각 스펙트럼(18)의 스펙트럼 해상도에 적용된다. 특히, 연속 스펙트럼(18) 사이의 시간적 거리가 관련되는 한 시간적 변화는, 스펙트럼의 스펙트럼 해상도의 변화에 반대(역, inverse)일 수 있다. 양자화(quantization)는, 예를 들어, 데이터 스트림에서 시그널링되고, 음향심리학(psychoacoustic) 모델에 따라, 차례로, 결정되는 스케일 인수들에 따라, 또는 노이즈가 채워지는 스펙트럼(18)과 함께 스펙트로그램(12)의 양자화된 스펙트럼 값들이 코딩되는 곳의 데이터 스트림에서 시그널링되는 LP 계수들에 의해 설명되는 오디오 신호의 LPC 스펙트럼 포락선에 따라, 변화하는, 예를 들어, 스펙트럼적으로 변화하는, 신호-적응 양자화 스텝 크기(signal-adaptive quantization step size)를 이용한다.

그것을 넘어서, 시간-정렬 방식에서 도 1은 오디오 신호(10)의 특성 및 그것의 시간적 변화, 즉 오디오 신호의 조성(tonality)을 보여준다. 일반적으로 말해, "조성(tonality)"은 시간적으로 특정 시간 지점과 관련된 각 스펙트럼(18)의 특정 시간 지점에서의 오디오 신호의 에너지를 어떻게 압축(condensed)하였는지를 나타내는 방법을 표시한다.

도 2는 본 출원의 실시예에 따른 오디오 신호의 스펙트럼에 노이즈 채움(noise filling)을 수행하도록 구성되는 장치를 보여준다. 아래에서 더 자세히 설명되는 것처럼, 상기 장치는 오디오 신호의 조성에 의존하는 노이즈 채움을 수행하도록 구성된다.

도 2의 장치는 도면 부호 30을 이용하여 일반적으로 표시되고, 선택적인(optional), 노이즈 필러(noise filler, 32) 및 조성 결정기(tonality determiner, 34)를 포함한다.

실제 노이즈 채움은 노이즈 필러(32)에 의해 수행된다. 노이즈 필러(32)는 노이즈 채움이 적용되는 스펙트럼을 수신한다. 이 스펙트럼은 밀도가 희박한(sparse) 스펙트럼(34) 같이 도 2에서 도시된다. 밀도가 희박한 스펙트럼(34)은 스펙트로그램(12)의 스펙트럼(18)일 수 있다. 스펙트럼들(18)은 노이즈 필러(32)에 순차적으로 들어간다. 노이즈 필러(32)는 스펙트럼(34)을 노이즈 채움의 대상으로 하고 "채워진 스펙트럼"(36)을 출력한다. 노이즈 필러(32)는 도 1의 조성(20)같이, 오디오 신호의 조성에 의존하는 노이즈 채움을 수행한다. 상기 환경에 의존하여, 상기 조성은 직접적으로 이용가능하지 않을 수도 있다. 예를 들어, 기존 오디오 코덱들은 데이터 스트림의 오디오 신호의 조성의 명시적 시그널링에 대해 제공되지 않으며, 만약 장치(30)가 디코딩 측에서 설치되는 경우, 고도한 거짓 추정(false estimation) 없이 조성을 복원하는 것이 실현가능하지 않을 것이다. 예를 들어, 스펙트럼(34)은, 그것의 희박함(sparseness) 때문에 및/또는 그것의 신호-적응 변화 양자화 때문에, 조성 추정에 대해 최적 기반이 아닐 수 있다.

따라서, 아래에서 더 자세히 설명될 것처럼 또다른 조성 암시(tonality hint, 38)에 기반하여 조성의 추정(estimation)을 갖는 노이즈 필러(32)를 제공하는 것이 조성 결정기(3)의 업무이다. 나중에 설명되는 실시예에 따라, 장치(30)에서 예를 들어 이용되는 오디오 코덱의 데이터 스트림 내에서 각 코딩 매개변수를 거쳐 운반되는, 조성 힌트(tonality hint, 38)는 인코딩 및 디코딩 측에서 어쨌든 이용가능할 수 있다.

도 3은 희박한 스펙트럼(34)에 대한 예를 보여주며, 즉 제로(0)로 양자화되는, 스펙트럼(34)의 스펙트럼적 인접 스펙트럼 값들의 실행으로 구성되는 인접 부분들 (40) 및 (42)를 갖는 양자화된 스펙트럼이다. 인접 부분들 (40) 및 (42)는, 이와 같이, 제로 스펙트럼 라인에 양자화되지 않는 적어도 하나(one)를 통해 서로로부터 스펙트럼적으로 연결되지 않거나 멀리 떨어진다.

일반적으로 도 2에 관해 위에서 설명되는 노이즈 채움의 조성 의존도는 다음에 따라 실행될 수 있다. 도 3은 (46)에서 과장된, 인접 스펙트럼 제로-부분(40)을 포함하는 시간적 부분(44)을 보여준다. 노이즈 필러(32)는 스펙트럼(34)이 속하는 시간에서 오디오 신호의 조성에 의존하는 방식으로 이 인접 스펙트럼 제로-부분(40)을 채우도록 구성된다. 특히, 노이즈 필러(32)는 음으로(negatively) 조성에 의존하는 절대 기울기(absolute slope), 외부로 떨어지는 모서리들을 갖는, 그리고 인접 스펙트럼 제로-부분의 내부에서 최대를 추정하는 함수를 이용하여 스펙트럼적으로 성형되는(shaped) 노이즈로 인접 스펙트럼 제로-부분을 채운다. 도 3은 두개의 상이한 조성에 대한 두개의 함수들(48)을 예시적으로 보여준다. 양쪽 함수들은 "단봉(unimodal)"이며, 즉 인접 스펙트럼 제로-부분(40)의 내부에서 절대적 최대값(alsolute maximum)을 추정하며 플래토(높은 수평 상태, plateau) 또는 단일 스펙트럼 주파수일 수 있는 단 하나의 지역적 최대값(lacal maximum)을 갖는다. 여기서, 제로-부분(40)의 중심에 배치되는, 플래토(plateau)인, 연장된 인터벌(extended interval, 52)에 대해 연속적으로 함수(48 및 50)에 의해 지역적 최대가 추정된다. 중심 인터벌(52)은 단지 제로-부분(40)의 중심 부분을 커버하며 인터벌(52)의 고주파수 측면에서 모서리 부분(54)에 의해 측면에 배치되고, 인터벌(52)의 저주파수 측면에서 저주파수 모서리 부분(56)에 의해 측면에 배치된다. 함수(48 및 52)는 모서리 부분(54) 내에서, 떨어지는 모서리(58), 및 모서리 부분(56) 내에서, 상승하는 부분(60)을 갖는다. 모서리 부분(54 및 56) 각각 내에서 평균 기울기 같이, 절대 기울기가 각 모서리(58 및 60)에 각각 기여될 수 있다. 그것은, 떨어지는 모서리(falling edge, 58)에 기여하는 기울기가 모서리 부분(54) 내에서, 각각, 각 함수(48 및 52)의 평균 기울기일 수 있고, 상승하는 모서리(60)에 기여하는 기울기가 모서리 부분(56) 내에서, 각각, 함수(48 및 52)의 평균 기울기일 수 있다는 것이다.

보여질 수 있는 것처럼, 모서리들(58 및 60)의 기울기의 절대 값은 함수(48)보다 함수(50)에 대해 더 크다. 노이즈 필러(32)는 노이즈 필러(32)가 제로-부분(40)에 대한 함수(48)를 이용하도록 선택하는 조성들보다 더 낮은 조성들에 대한 함수(50)로 제로-부분(40)을 채우도록 선택한다. 이러한 방법에 의해, 노이즈 필러(32)는 예를 들어, 피크(peak, 62)같은, 스펙트럼(34)의 잠재적 조성 스펙트럼 피크의 바로 주변을 클러스터링(뭉치기, clustering)하는 것을 피한다.

노이즈 필러(32)는, 예를 들어, 오디오 신호의 조성이 t₂ 인 경우에 함수(48)을 선택하도록, 오디오 신호의 조성이 t₁ 인 경우에 함수(50)을 선택하도록 고를 수 있지만, 아래에서 더 보여질 설명은 노이즈 필러(32)가 오디오 신호의 조성의 두개의 상이한 상태들보다 더 많이 구별할 수 있다는 것을 나타내고, 즉 조성들로부터 함수들에 대한 전사 맵핑(전사상, surjective mapping)을 통해 조성에 의존하는 것들 사이에서 고르고 특정 인접 스펙트럼 제로-부분을 채우기 위한 두개 이상의 상이한 함수들(48, 50)을 지원할 수 있다.

단조 노트(minor note)에서, 단봉 함수를 도출하기 위해 모서리들(58 및 60)에 의해 측면에 배치되는, 내부 인터벌(52)의 플래토를 갖는 함수(48 및 50)의 구성은, 단지 예시라는 점이 알려진다. 대안적으로, 예를 들어, 대체에 따라 벨-형태(bell-shaped) 함수들이 이용될 수 있다. 인터벌(52)은 함수가 최대 값의 95%보다 높은 것들 사이의 간격으로 대안적으로 정의될 수 있다.

도 4는, 조성에서, 특정 인접 스펙트럼 제로-부분(40)이 노이즈 필러(32)에 의해 채워지는 노이즈를 스펙트럼적으로 성형하는데 이용되는 함수의 변화에 대한 대안을 보여준다. 도 4에 따라, 상기 변화는 각각 외부로 떨어지는 모서리들(58 및 60) 및 모서리 부분들(54 및 56)의 스펙트럼 너비에 관련된다. 도 4에서 보여지는 것처럼, 도 4의 예에 따라, 모서리들(58 및 60) 기울기는, 조성에 독립적일 수도 있고, 즉 조성에 따라 변하지 않을 수 있다. 특히, 도 4의 예에 따라서, 노이즈 필러(32)는 외부로 떨어지는 모서리들(58 및 60)의 스펙트럼 너비가 조성에 양으로(positively) 의존하도록 제로-부분(40)에 대한 노이즈가 스펙트럼적으로 성형되는 데 이용하는 함수를 설정하며, 즉, 높은 조성들에 대해, 함수(48)는 외부로 떨어지는 모서리들(58 및 60)의 스펙트럼 너비가 더 큰 것에 대해 이용되고, 낮은 조성들에 대해, 함수(50)은 외부로 떨어지는 모서리들(58 및 60)의 스펙트럼 너비가 더 작은 것에 이용된다.

도 4는 인접 스펙트럼 제로-부분(40)이 채워지는 노이즈를 스펙트럼적으로 성형하기 위한 노이즈 필러(32)에 의해 이용되는 함수의 변화의 또다른 예를 보여주며: 여기서, 조성이 변화하는 함수의 특성은 제로-부분(40)의 외부 쿼터들(outer quarters)에 대한 적분(integral)이다. 조성이 더 높을 수록, 인터벌이 더 크다. 인터벌을 결정하기에 앞서, 완전한 제로-부분(40)에 대한 함수들의 전체 인터벌은 1처럼 균등화/정규화된다(equalized/normalized).

이를 설명하기 위해, 도 5를 참조하자. 인접 스펙트럼 제로-부분(40)은 쿼터들 a 및 d가 외부 쿼터들이 외곽 쿼터들인, 네 개의 균등-크기 쿼터들(equal-sized quarters)로 분할되는 것이 보여진다. 보여질 수 있는 것처럼, 양쪽 함수(50 및 48)은 내부에서 그것들의 매스 중심을 가지며, 여기서 예시적으로 제로-부분(40)의 중심에서이지만, 그것들 양쪽 모두 내부 쿼터들 b. c 로부터 외곽 쿼터들 a 및 d로 연장한다. 외곽 쿼터들 a 및 d를 각각 중첩하는, 함수(48 및 50)의 중첩 부분은 간단히 음영으로 보여진다.

도 5에서, 양쪽 함수들은 전체 제로-부분(40)에 대한, 즉 전체 네 개 쿼터들 a, b, c, d에 대해서, 동일 적분을 갖는다. 상기 적분은, 예를 들어, 1로 정규화된다.

이러한 상황에서, 쿼터들 a, d에 대한 함수(50)의 적분은 쿼터들 a, d에 대한 함수(48)의 적분보다 더 크고, 따라서, 노이즈 필러(32)는 높은 조성에 대해 함수 (50)을 사용하고 낮은 조성에 대해 함수 (48)을 사용하며, 즉 정규화된 함수(50 및 48)의 외곽 쿼터들에 대한 적분은 조성에 음으로(negatively) 의존한다.

설명 목적들을 위해, 도 5의 경우에 양쪽 함수들(48 및 50)은 상수 또는 이진 함수들(constant or binary functions)로 예시적으로 보여진다. 함수(50)는, 예를 들어, 전체 영역, 즉 전체 제로-부분(40),에 대해 일정 값을 추정하는 함수이며, 함수(48)는 제로-부분(40)의 외곽 모서리에서 0이고, 그것들 사이의 비-제로 상수값을 추정하는 이진 함수(binary function)이다. 일반적으로 말해, 도 5의 예에 따라 함수(50 및 48)은 도 3 및 4에서 보여지는 것들에 대응하는 것처럼 어떠한 상수 또는 단봉 함수일 수 있다. 더 정확히, 적어도 하나는 단봉이고 적어도 하나는 (구간적, piecewise-) 상수이며 잠재적으로 추가적인 것은 단봉 또는 상수 중 어느 하나일 수 있다.

비록 조성에 의존하는 함수(48 및 50)의 변화 형태가 달라진다 하더라도, 도 3 내지 5의 모든 예시들은, 증가하는 조성에 대해, 노이즈 채움이 오디오 신호의 조성 위상들에 부정적인 영향을 미치지 않지만 그럼에도 불구하고 오디오 신호의 비-조성 위상(non-tonal phases)의 좋은 근사를 도출하기 때문에 노이즈 채움의 품질이 증가되도록 스펙트럼(34)의 조성 피크들의 스미어링-업 즉각 써라운딩(smearing-up immediate surroundings)의 정도가 감소되거나 피해진다는 점에서 공통점을 갖는다.

지금까지, 도 3 내지 5의 설명은 하나의 인접 스펙트럼 제로-부분의 채움에 초점이 맞추어졌다. 도 6의 실시예에 따라, 도 2의 장치는 오디오 신호의 스펙트럼의 인접 스펙트럼 제로-부분들을 식별하고 이와 같이 식별된 인접 스펙트럼 제로-부분들에 노이즈 채움을 적용하도록 구성된다. 특히, 도 6은 제로-부분 식별자(zero-portion identifier)(70) 및 제로-부분 필러(zero-portion filler)(72)를 포함하는 것처럼 더 자세히 도 2의 노이즈 필러(32)를 보여준다. 제로-부분 식별자는 도 3의 (40) 및 (42) 같은 인접 스펙트럼 제로-부분들에 대한 스펙트럼(34)을 검색한다(searches). 이미 위에서 설명된 것처럼, 인접 스펙트럼 제로-부분들은 0으로 양자화된 스펙트럼 값들의 실행(연장, runs)으로 정의될 수 있다. 제로-부분 식별자(70)는, 몇몇 시작 주파수에서 시작하는, 즉 위에 위치하는, 오디오 신호 스펙트럼의 고주파수 스펙트럼 부분에 식별(identification)을 제한하도록 구성될 수 있다. 따라서, 상기 장치는 고주파수 스펙트럼 부분같이 노이즈 채움의 성능을 제한하도록 구성될 수 있다. 제로-부분 식별자(70)가 인접 스펙트럼 제로-부분들의 식별을 수행하는 것 위의, 그리고 노이즈 채움의 성능을 제한하도록 구성되는 장치 위의, 시작 주파수는 고정되거나 또는 변할 수 있다. 예를 들어, 오디오 신호가 그 스펙트럼을 통해 코딩되는 오디오 신호의 데이터 스트림의 명시적 시그널링은 이용될 시작 주파수를 시그널링하는 데 이용될 수 있다.

제로-부분 필러(zero-portion filler, 72)는 도 3, 4 또는 5에 관해 위에서 설명된 함수에 따라 스펙트럼적으로 성형된 노이즈로 식별자(70)에 의해 식별되는 식별된 인접 스펙트럼 제로-부분들을 채우도록 구성된다. 따라서, 제로-부분 필러(72)는 오디오 신호의 조성 및, 각 인접 스펙트럼 제로-부분의 제로-양자화된 스펙트럼 값들의 실행의 0으로 양자화된 스펙트럼 값들의 숫자 같이, 각 인접 스펙트럼 제로-부분의 너비에 의존하는 함수 집합을 갖는 식별자(70)에 의해 식별되는 인접 스펙트럼 제로-부분들을 채운다.

특히, 식별자(70)에 의해 식별된 각 인접 스펙트럼 제로-부분의 개벼 채움은 다음에 따라 필러(72)에 의해 수행될 수 있다 : 상기 함수는 인접 스펙트럼 제로-부분의 너비에 의존하게 설정되어 상기 함수는 각 인접 스펙트럼 제로-부분에 제한되고, 즉 함수의 영역(domain)은 인접 스펙트럼 제로-부분의 너비와 일치한다. 함수의 설정은 오디오 신호의 조성에 더 의존하며, 즉, 도 3 내지 도 5와 관련하여 위에서 설명된 방식으로이며, 오디오 신호의 조성이 증가하는 경우, 함수의 매스(mass)는 각 인접 스펙트럼 제로-부분의 모서리로부터 거리가 떨어진 각 인접 제로-부분의 내부에서 더 빽빽해진다(more compact). 이러한 함수를 이용하여, 각 스펙트럼 값들이 임의(random), 의사-랜덤(pseudo-random) 또는 패치된/복제된 값으로 설정되는 인접 스펙트럼 제로-부분의 예비로 채워진 상태는, 스펙트럼적으로 성형되며, 즉 예비 스펙트럼 값들(preliminary spectral values)을 갖는 함수의 곱셈에 의한다.

조성에 대한 노이즈 채움의 의존도가, 3, 4 같은 또는 4보다 더 많은, 두 개 이상의 상이한 조성들 사이를 구별할 수 있다는 것은 위에서 이미 설명되었다. (76)에서, 도 7은 인접 스펙트럼 제로-부분들이 채워질 수 있는 노이즈를 스펙트럼적으로 성형하기 위해 이용되는 가능 함수들의 집합을 보여준다. 도 7에서 도시된대로 집합 (76)은 스펙트럼 너비 또는 영역 길이 및/또는 형상, 바깥쪽 모서리들로부터 거리 및 빽빽함이 서로로부터 상호 구별되는 개별 함수 예시의 집합이다. (78)에서, 도 7은 가능한 제로-부분 너비들의 영역을 더 보여준다. 인터벌(78)이 몇몇 최소 너비로부터 몇몇 최대 너비까지의 범위를 갖는 개별 값들의 인터벌인 반면, 결정기(34)에 의해 오디오 신호의 조성을 측정하도록 출력되는 조성 값들은 플로팅 포인트(floating point) 값들 같이, 정수 값 또는 몇몇 다른 형태일 수 있다. 인터벌들(74 및 78)의 쌍(pair)으로부터 가능 함수(76)의 집합으로의 맵핑은 수학적 함수를 이용하여 또는 테이블 룩-업(표 검색)에 의해 실현될 수 있다. 예를 들어, 식별자(70)에 의해 식별되는 특정 인접 스펙트럼 제로-부분에 대해, 제로-부분 필러(72)는, 예를 들어, 인접 스펙트럼 제로-부분의 너비와 일치하는 시퀀스(일련의 순서, sequence)의 길이, 함수 값의 시퀀스 같이 정의된 함수 집합(76)을 표에서 검색하기 위해 결정기(34)에 의해 결정될 때 현재 조성 및 각 인접 스펙트럼 제로-부분의 너비를 이용할 수 있다. 대안적으로, 각 인접 스펙트럼 제로-부분으로 채워질 노이즈를 스펙트럼적으로 성형하기 위해 이용되는 함수를 유도하기 위해 제로-부분 필러(72)는 함수 매개변수들을 검색하고 미리 결정된 함수로 이러한 함수의 매개변수들을 채운다. 또다른 대안에서, 제로-부분 필러(72)는 수학적으로 계산된 함수 매개변수에 따라 각 함수를 구축(build-up)하도록 함수 매개변수들에 도착하기 위해 수학적 공식에 현재 조성 및 각 인접 스펙트럼 제로-부분의 너비를 직접 삽입할 수 있다.

지금까지, 본 출원의 특정 실시예들의 설명은 특정 인접 스펙트럼 제로-부분들이 채워지는 노이즈를 스펙트럼적으로 성형하는데 이용되는 함수의 형상에 집중되었다. 그러나, 좋은 복원을 도출하기 위해, 노이즈가 채워질 특정 스펙트럼에 더해지는 노이즈의 전체 레벨을 제어하거나, 또는 스펙트럼적으로 노이즈 도입의 레벨을 제어하는 이점이 있다.

도 8은 노이즈가 채워지는 스펙트럼을 보여주고, 여기서 노이즈 채움의 대상이 아닌, 0으로 양자화되지 않는 부분들이, 상호 가로질러 빗금쳐져 표시되며, 여기서 세개의 인접 스펙트럼 제로-부분들(90, 92 및 93)은, 고려하지 않는(don't-care) 스케일을 이용하여, 세개의 부분들(90-94)로 채워지는 노이즈를 스펙트럼 성형하기 위해 선택된 함수로 쓰여지는 제로-부분들에 의해 보여지는 미리-채워진 상태에서 보여진다.

하나의 실시예에 따라, 부분들(90-94)로 채워질 노이즈를 스펙트럼적 성형하기 위해 함수(48, 50)의 이용가능한 집합, 모두는 인코더 및 디코더에 알려진 미리 정의된 스케일(scale)을 갖는다. 스펙트럼적 전체 스케일 인수(scaling factor)는 스펙트럼의 비-양자화 부분인, 오디오 신호가 코딩되는 데이터 스트림 내에서 명시적으로 시그널링된다. 부분들(90-94)은 디코딩 측면에서 미리-설정(pre-set)되고 이와 함께 그것들 그대로 조성 의존적으로 선택되는 함수들(48, 50)을 이용하여 스펙트럼적으로 성형되는 것과 함께, 이 인수는, 예를 들어, 노이즈 레벨에 대한 RMS 또는 또다른 단위를 나타내며, 임의(random) 또는 의사임의(pseudorandom) 스펙트럼 라인 값들을 나타낸다. 어떻게 인코더 측면에서 전체 노이즈 스케일링 인수(global noise scaling factor)가 결정될 수 있는지가 아래에서 더 설명된다. 예를 들어, A가 부분들(90-94)의 어느 곳에 속하는, 그리고 스펙트럼이 0으로 양자화되는 스펙트럼 라인들의 지수 i의 집합이라고 하고, N이 전체 노이즈 스케일링 인수를 나타낸다고 하자. 스펙트럼의 값들은 x_i에 의해 나타내진다. 추가로, "랜덤(N)"은 레벨 "N"에 대응하는 레벨의 랜덤 값을 주는 함수를 나타내며 left(i)는 어떠한 제로-양자화된 스펙트럼 값에 대해 지수 i에서 i가 속하는 제로-부분의 저주파수 끝에서 제로-양자화된 값의 지수를 나타내는 함수일 것이고 j=0에서 J_i -1 까지의 F_i (j)는 (제로-부분의 너비를 나타내는 J_i와 함께, 조성에 의존하여, 지수 i 에서 시작하는 제로-부분(90-94),에 할당되는 함수(48 또는 50)를 나타낸다. 이후, 부분(90-94)은 x_i = F_left _(i)(i - left(i))·random(N)에 따라 채워진다.

추가적으로, 부분들(90-94)로의 노이즈 채움은, 저주파수로부터 고주파수까지의 노이즈 레벨이 감소하도록 제어될 수 있다. 이는 부분들이 미리-설정되는 노이즈를 스펙트럼적으로 성형하여, 또는 로-패스 필터의 전달 함수에 따라 함수(48, 50)의 배치를 스펙트럼적으로 성형하여 수행될 수 있다. 이는 예를 들어, 양자화 스텝 크기의 스펙트럼 과정을 결정하는데 이용되는 프리-엠퍼시스 때문에 채워진 스펙트럼을 재-스케일링/역양자화할 때 야기되는 스펙트럼 경사에 대해 보상할 수 있다. 따라서, 감소의 가파름 또는 로-패스 필터의 전달 함수는 적용되는 프리-엠퍼시스 정도에 따라 제어될 수 있다. 위에서 이용된 명명자(nomenclature)를 적용하여, 부분들(90-94)은 선형일 수 있는 저주파수 필터의 전달 함수를 나타내는 LPF(i)와 함께 x_i = F_left _(i)(i - left(i))·random(N)·LPF(i)에 따라 채워질 수 있다. 상기 배경들에 기반하여, 함수(15)에 의존하는 함수 LPF는 HPF 를 따라서 읽도록 변경되는 LPF 및 양의 기울기를 가질 수 있다.

제로-부분의 너비 및 조성에 의존하여 선택되는 함수들의 고정된 스케일링을 이용하는 대신에, 방금 언급된 스펙트럼 경사 보정(spectral tilt correction)은, 각 인접 스펙트럼 제로-부분이 채워져야 하는 노이즈를 스펙트럼적으로 성형하기 위해 이용될 함수를 검색하거나 또는 결정(80)하는 데 있어 지수에 따라 각 인접 제로-부분의 스펙트럼 위치를 이용하여 직접 설명될 수 있다. 예를 들어, 스펙트럼의 전체 대역폭에 대해, 인접 스펙트럼 제로-부분들(90-94)에 대해 이용되는 함수들이 로-패스 필터 전달 함수를 모방(emulate)하도록 그리고 상기 스펙트럼의 비-제로 양자화된 부분들을 유도하는데 이용되는 어떠한 하이 패스 프리-엠퍼시스 전달 함수에 대해 보상하도록, 특정 제로-부분들(90-94)로 채워질 노이즈를 스펙트럼적 성형하는데 이용되는 함수의 평균 값 또는 그 프리-스케일링(pre-scaling)은 제로-부분들(90-94)의 스펙트럼 위치에 의존할 수 있다.

노이즈 채움을 수행하기 위한 실시예가 설명될 때, 다음에서 오디오 코덱들에 대한 실시예들이 위에서 설명된 노이즈 채움이 유리하게 내장될 수 있는 곳에서 제공된다. 도 9 및 10은 예를 들어, AAC(Advanced Audio Coding),에 기반하여, 각각 타입 형성의 변형-기반 지각적 오디오 코덱을 함께 실행하는, 인코더 및 디코더의 쌍(pair)을 예를 들어 보여준다. 도 9에서 보여지는 인코더(100)는 원래 오디오 신호(1020를 변환기(104)의 변환 대상으로 한다. 변환기(104)에 의해 수행되는 변환은, 예를 들어, 도 1의 변환(14)에 대응하는 겹쳐진 변환(lapped transform)이다: 연속적이고, 상호 중첩하는 원래 오디오 신호의 변환 윈도를 스펙트로그램(12)을 함께 구성하는 스펙트럼들(18)의 시퀀스의 대상으로 하여 들어오는(인바운드, inbound) 원래 오디오 신호(102)를 스펙트럼적으로 분해한다. 위에서 설명된 것처럼, 각 스펙트럼(18)의 스펙트럼 해상도를 정의하는 변환 윈도우의 시간적 길이가 할 수 있는 것처럼, 스펙트로그램(12)의 시간적 해상도를 정의하는 상호-변환-윈도우 패치는 시간에 따라 변할 수 있다. 인코더(100)는 변환기(104)로 들어가는 시간-영역 버젼 또는 변환기(104)에 의해 출력되는 스펙트럼적으로-분해된 버젼에 기반하여, 원래 오디오 신호로부터 파생하는 지각적 모델러(perceptual modeller, 106)를 더 포함하며, 지각적 마스킹 임계(perceptual masking threshold)는 지각할 수 없도록(not perceivable) 양자화 노이즈가 감추어질 수 있는 스펙트럼 곡선 아래에서 정의한다.

오디오 신호의 스펙트럼 라인-방향 표현, 즉 스펙트로그램(spectrogram, 12), 및 마스킹 임계(masking threshold)는 마스킹 임계에 의존하는 스펙트럼적으로 변하는 양자화 스텝 크기를 이용하여 스펙트로그램(12)의 스펙트럼 샘플들을 양자화하는 원인이 되는 양자화기(quantizer, 108)로 들어간다(enter): 마스킹 임계가 더 클수록, 양자화 스텝 크기가 더 작다. 특히, 상기 양자화기(108)는 한쪽의 양자화 스텝 크기 및 다른쪽의 지각적 마스킹 임계 사이의 방금 설명된 관계의 방식에 의해, 지각적 마스킹 임계 그 자체의 표현의 종류를 나타내는, 소위 스케일 인수들(scale factors)의 형태로 디코딩 측에 양자화 스텝 크기의 변화를 알린다. 디코딩 측에 스케일 인수들을 전송하기 위해 소비될 부가 정보의 양, 및 지각적 마스킹 임계에 대해 양자화 노이즈를 적응시키는 입도(granularity) 사이에 좋은 타협을 찾기 위해, 양자화기(108)는 양자화된 스펙트럼 레벨들이 오디오 신호의 스펙트로그램(12)의 스펙트럼 라인-별 표현을 나타내는 스펙트럼시간적 해상도, 보다 더 낮은, 또는 더 거칠은(coarser) 스펙트럼시간적 해상도의 스케일 인수들을 설정하거나/변화시킨다. 예를 들어, 양자화기(108)는 바크 대역들(bark bands) 같이 스케일 인수 대역들(110)로 각 스펙트럼을 세부분할(subdivides)하며, 스케일 인수 대역(110) 당 하나의 스케일 인수를 전송한다. 시간적 해상도에 관한 한, 스펙트로그램(12)의 스펙트럼 값들의 스펙트럼 레벨들과 비교하여, 동일한 것이 스케일 인수의 전송에 관련되는 한 낮아질 수 있다.

스케일 인수들(112) 뿐만 아니라 스펙트로그램(12)의 스펙트럼 값들의 스펙트럼 레벨들 양쪽은, 디코딩 측에 전송된다. 그러나, 오디오 품질을 향상시키기 위해서, 인코더(100)는 데이터 스트림 내에서 스케일 인수들(112)을 적용하여 스펙트럼을, 리스케일링(rescaling), 또는 역양자화(dequantization)하기 전에 표현(12)의 제로-양자화된 부분들이 노이즈로 채워져야 하는 곳까지의 노이즈 레벨을 디코딩 측에 시그널링하는 전체 노이즈 레벨도 전송한다. 이는 도 10에서 보여진다. 도 10은 도 9에서 (18) 같이 아직 리스케일링 되지 않은 오디오 신호의 스펙트럼을, 크로스-해칭을 이용하여, 보여준다. 이는 인접한 스펙트럼 제로-부분들(40a, 40b, 40c and 40d)을 갖는다. 각 스펙트럼(18)에 대해 데이터 스트림에서도 전송될 수 있는 전체 노이즈 레벨(114)은, 이러한 채워진 스펙트럼이 스케일 인수들(112)을 이용하여 리스케일링 또는 재양자화(requantization)의 대상으로 하기 전에, 이러한 제로-부분들(40a 내지 40d)이 노이즈로 채워질 곳까지의 레벨을 디코더에 대해 나타낸다.

이미 위에서 나타내어진 것처럼, 전체 노이즈 레벨(114)이 관련되는 노이즈 채움은, 노이즈 채움의 이러한 종류가 f_start 같이 단지 설명 목적을 위해 도 10에서 나타내어지는 몇몇 시작 주파수 위의 주파수들을 언급한다는 점에서 제한(restriction)의 대상이 될 수 있다.

도 10은 또한 인코더(100)에서 실행될 수 있는, 또다른 특정 특징을 도시한다: 각 스케일 인수 대역들 내의 모든 스펙트럼 값들이 0으로 양자화되는 스케일 인수 대역들(110)을 포함하는 스펙트럼(18)이 있을 수 있는 것처럼, 그러한 스케일 인수 대역과 관련된 스케일 인수(112)는 실제로 불필요하다(과잉이다, superfluous). 따라서, 양자화기(110)는 전체 노이즈 레벨(114)을 이용하여 스케일 인수 대역으로 채워지는 노이즈에 더하여 노이즈를 갖는 스케일 인수 대역을 개별적으로 채우기 위해, 또는 다른 관점에서, 전체 노이즈 레벨(114)에 대응하는 각 스케일 인수 대역에 기여되는 노이즈를 스케일링하기 위해, 바로 이러한 스케일 인수를 이용한다. 도 10을 예를 들어 참조하자. 도 10은 스케일 인수 대역들(110a 내지 110h)로 스펙트럼(18)의 예시적 세부분할을 보여준다. 스케일 인수 대역(110e)은 스케일 인수 대역이고, 그것의 스펙트럼 값들은 모두가 0으로 양자화 되었다. 따라서, 관련 스케일 인수(112)는 "프리(free)"이고, 이러한 스케일 인수 대역이 완전히 채워지는 것까지의 노이즈 레벨을 결정(114)하는데 이용된다. 비-제로 레벨들로 양자화되는 스펙트럼 값들을 포함하는 다른 스케일 인수 대역들은, 각각, 화살표(116)를 이용하여 스케일링(scaling)이 표시되는, 제로-부분들(40a 내지 40d)가 채워진 것을 이용하는 노이즈를 포함하고, 0(제로)로 양자화되지 않은 스펙트럼(18)의 스펙트럼 값들을 리스케일(rescale)하는데 이용되는 그것들 사이에 관련된 스케일 인수들을 갖는다.

도 9의 인코더(100)는, 전체 노이즈 레벨(114)을 이용하는 디코딩 측 내의 노이즈 채움이, 예를 들어, 조성에 대한 의존도를 이용하는 및/또는 노이즈에 스펙트럼 전체 경사를 도입하는 및/또는 노이즈 채움 시작 주파수를 변화시키는 등등의, 위에서 설명되는 노이즈 채움 실시예들을 이용하여 수행될 것이라는 점을 이미 고려할 수 있다.

조성에 대한 의존도에 관한 한, 각 제로-부분을 채우기 위해 노이즈를 스펙트럼적으로 성형하는 함수를 제로-부분들(40a 내지 40d)에 관련시켜, 인코더(100)는 전체 노이즈 레벨(114)를 결정할 수 있고, 데이터 스트림으로 이를 삽입할 수 있다. 특히, 상기 인코더는 전체 노이즈 레벨(114)을 결정하기 위해 이러한 부분들(40a 내지 40d)에서 원래의(original), 즉 가중되었지만 아직 양자화되지는 않은, 오디오 신호의 스펙트럼 값들을 가중하기 위한 이러한 함수들을 이용할 수 있다. 그것에 의해, 데이터 스트림 내에서 결정되고 전송되는 전체 노이즈 레벨(114)은, 원래 오디오 신호의 스펙트럼을 더 근접하게 회수하는 디코딩 측에서의 노이즈 채움을 이끌어낸다.

인코더(100)는, 오디오 신호의 컨텐츠에 의존하여, 디코딩 측이 부분들(40a 내지 40d)을 채우는데 이용되는 노이즈를 스펙트럼적으로 성형하기 위한 함수를 정확히 설정하는 것을 허용하기 위해, 도 2에서 보여지는 조성 힌트(tonality hint, 38) 같은 조성 힌트들로, 차례로, 이용될 수 있는 몇몇 코딩 옵션들을 이용하여 결정할 수 있다. 예를 들어, 인코더(100)는 소위 장기 예측 이득 매개변수를 이용하여 이전 스펙트럼으로부터 하나의 스펙트럼(18)을 예측하기 위해 시간적 예측을 이용할 수 있다. 다른 말로, 장기 예측 이득은 그러한 시간적 예측이 이용되거나 이용되지 않는 정도를 설정할 수 있다. 따라서, 장기 예측 이득, 또는 LTP 이득은, LTP 이득이 더 높을수록, 오디오 신호의 조성이 아마도 더 높아지기 때문에 조성 힌트로 이용될 수 있는 매개변수이다. 이와 같이, 도 2의 조성 결정기(34)는, 예를 들어, LTP 이득에 대한 단조로운(monotonous) 양의 의존도에 따라 조성을 설정할 수 있다. 대신에 또는, LTP 이득에 더하여, 상기 데이터 스트림은 LTP를 스위칭 온/오프를 시그널링하는 LTP 가능 플래그(enablement flag)를 포함할 수 있고, 그것에 의해 예를 들어 조성에 관련된 이진-값(binary-valued) 힌트를 또한 드러낸다.

추가적으로 또는 대안적으로, 인코더(100)는 시간적 노이즈 성형을 지원할 수 있다. 그것은, 스펙트럼(18) 당(per spectrum) 기반으로, 예를 들어, 인코더(100)가 디코더에 대한 시간적 노이즈 성형 가능 플래그 방식으로 스펙트럼(18)이 이러한 결정을 표시하는 시간적 노이즈 성형의 대상으로 하도록 선택할 수 있다는 것이다. TNS 가능 플래그는 스펙트럼(18)의 스펙트럼 레벨들이 스펙트럼의 예측 잔류를 형성하는지 여부를 나타내며, 즉 결정된 주파수 방향을 따라서, 스펙트럼의 선형 예측 또는 스펙트럼이 LP 예측되지 않는지 여부를 나타낸다. TNS가 사용가능하도록 시그널링되는 경우, 디코더가 리스케일링 또는 역양자화 전 또는 후에 스펙트럼에 동일한 것을 적용하는 것에 의해 이러한 선형 예측 계수들을 이용하여 스펙트럼을 복원할 수 있도록 데이터 스트림은 스펙트럼을 스펙트럼적으로 선형 예측하기 위한 선형 예측 계수들을 추가적으로 포함한다. TNS 가능 플래그는 또한 조성 힌트이다: 만약 TNS 가능 플래그가, 예를 들어, 과도 상태에서(on a transient), 스위칭 온 될 TNS를 시그널링하는 경우,스펙트럼은 주파수 축을 따라 선형 예측에 의해 잘 예측가능할 것처럼 보이고, 이런 이유로, 비-정상성(non-stationary)이기 때문에, 이후 오디오 신호는 조성이 아닐 것 같은 가능성이 크다. 따라서, 상기 조성은 TNS 가능 플래그가 TNS를 불가능하게 할 때(disables), 조성이 더 높고, TNS 가능 플래그가 TNS의 가능함을 시그널링할 때, 조성이 더 낮도록, TNS 가능 플래그에 기반하여 결정될 수 있다. TNS 가능 플래그 대신에, 또는 그에 더하여, TNS 필터 계수들로부터 스펙트럼을 예측하기 위해 TNS가 이용가능한 정도를 나타내는 TNS 이득을 유도하는 것이 가능할 수 있고, 그것에 의해 조성과 관련된 두 개 이상의 값 힌트를 드러낸다.

다른 코딩 매개변수들은 인코더에 의해 데이터 스트림 내에서 코딩될 수도 있다. 예를 들어, 스펙트럼 재배치 가능 플래그(spectral rearrangement enablement flag)는 디코더가 스펙트럼(18)을 복원하기 위해 스펙트럼 레벨들을 재배치하거나 리스크램블(rescramble)할 수 있도록 데이터 스트림 내에서 재배치 방안을 추가적으로 전송하는 것과 함께 스펙트럼 레벨들을 스펙트럼적으로 재배치하여 코딩되는, 즉 양자화된 스펙트럼 값들에 따른 하나의 코딩 옵션을 시그널링할 수 있다.

만약 스펙트럼 재배치 가능 플래그가 이용가능해지는 경우, 즉 스펙트럼 재배치가 적용되는 경우, 이는 오디오 신호가 아마도 스펙트럼 내에 많은 조성 피크들이 있는 경우 데이터 스트림을 압축하는 데 있어 더 레이트/왜곡 효과적인(rate/distortion effective) 재배치 경향에 따른 조성일 것이라는 점을 나타낸다. 따라서, 추가적으로 또는 대안적으로, 스펙트럼 재배치 가능 플래그는 조성 힌트(tonal hint)로 이용될 수 있고 노이즈 채움에 이용되는 조성은 스펙트럼 재배치 가능 플래그가 이용 가능할 때 더 크게, 그리고 스펙트럼 재배치 가능 플래그가 이용 불가능할 때 더 낮게 설정될 수 있다.

완전성을 위해, 그리고 또한 도 2b를 참조하여, 제로-부분(40a 내지 40d)를 스펙트럼적으로 성형하기 위해 상이한 함수들의 숫자, 즉 스펙트럼적 성형을 위한 함수를 설정하기 위해 구분된 상이한 조성들의 숫자는 미리 결정된 최소 너비 이상의 최소 인접 스펙트럼 제로-부분의 너비들에 대해 예를 들어 4보다 클 수 있고 또는 8보다 훨씬 더 클 수 있다는 것이 알려진다.

인코딩 측에서 노이즈 레벨 매개변수를 계산할 때 고려하는 그리고 노이즈에 스펙트럼적 전체 경사를 도입하는 개념에 관련되는 한, 인코더(100)는 전체 노이즈 레벨(114)를 결정할 수 있고, 이를 데이터 스트림으로 삽입할 수 있으며, 이는 아직 양자화되지 않은 가중 부분들에 의해, 그러나 가중된 비-양자화된 값들에 기반하여 레벨을 측정하는 그리고 예를 들어, 노이즈 채움을 위한 디코딩 측에서 이용되는 함수(15)에 관련된 반대 부호(opposite sign)의 기울기를 갖는 그리고 스펙트럼 대역폭의 전체 노이즈 채움 부분에 대해 적어도 스펙트럼적으로 연장하는 함수와 함께이며, 제로-부분들(40a 내지 40d)에 스펙트럼적으로 공동-위치된(co-located), 가중된 오디오 신호의 스펙트럼 값들을 지각적 가중 함수의 역(인버스, inverse)와 함께이다.

도 11은 도 9의 인코더에 맞는(fitting) 디코더를 보여준다. 도 11의 디코더는 참조 부호(130)를 이용하여 일반적으로 표시되며 역 변환기(inverse transformer, 134) 및 역양자화(132), 위 설명된 실시예들에 대응하는 노이즈 필러(noise filler, 30)를 포함한다. 노이즈 필러(30)는 스펙트로그램(12) 내의 스펙트럼(18)의 시퀀스를 수신하며, 즉 즉, 양자화된 스펙트럼 값들, 선택적으로, 위에서 논의된 하나의 또는 몇개의 코딩 매개변수들 같이 데이터 스트림으로부터 조성 힌트들을 포함하는 스펙트럼 라인-별 표현을 수신한다. 노이즈 필러(30)는 이후 위에서 설명된 조성 의존도를 이용 및/또는 노이즈에 대한 스펙트럼적 전체 경사를 도입, 그리고 위에서 설명된 것처럼 노이즈 레벨을 스케일링하기 위한 전체 노이즈 레벨(114)을 이용하는 것처럼, 위 설명에 따른 노이즈를 갖는 인접 스펙트럼 제로-부분들(40a 내지 40d)를 채운다(fills-up). 이후 채워진, 이러한 스펙트럼들은, 스케일 인수들(112)을 이용하여 노이즈가 채워진 스펙트럼을 차례로 역양자화하거나 리스케일링(rescale)하는, 역양자화기(dequantizer, 132)에 도달한다.

위에서 설명된 것처럼, 역 변환(134)은 역변환기(134)에 의해 적용되는 역 변환이 IMDCT(역 MDCT) 인 경우의, MDCT 같이 변환기(104)에 의해 이용되는 변환이 결정적으로 샘플링된 겹쳐진 변환(lapped transform)인 경우 야기되는 시간-영역 앨리어싱 취소(time-domain aliasing cancellation)를 달성하기 위해 중첩-가산-프로세스(overlap-add-process)를 포함할 수도 있다.

도 9 및 10과 관련하여 이미 설명된 것처럼, 역양자화기(132)는 미리-채워진 스펙트럼에 스케일 인수들을 적용한다. 그것은, 0으로 완전히 양자화되지 않은 스케일 인수 내의 스펙트럼 값이, 위에서 설명된 것처럼 노이즈 필러(30)에 의해 스펙트럼적 성형된 노이즈 또는 비-제로 스펙트럼 값을 표현하는 스펙트럼 값에 관계없는 스케일 인수를 이용하여 스케일링된다는 것이다. 완전히 제로-양자화된 스펙트럼 대역들은 그것들 사이의 관련된 스케일 인수들을 가지며, 이는 노이즈 채움을 제어하는데 완전히 자유로우며, 노이즈 필러(30)는 노이즈 필러(30)의 인접 스펙트럼 제로-부분들의 노이즈 채움 방식으로 스케일 인수 대역이 채워지는 노이즈를 개별적으로 스케일링하기 위한 이 스케일 인수를 이용할 수 있고, 또는 노이즈 필러(30)는 추가적인 채움을 위한 스케일 인수를 이용할 수 있고, 즉, 이러한 제로-양자화된 스펙트럼 대역들이 관련되는 한 추가 노이즈(additional noise)를 더할 수 있다.

노이즈 필러(30)가 위에서 설명된 방법에 의존적인 조성으로 스펙트럼적으로 성형하는 및/또는 위에서 설명된 방식으로 스펙트럼적 전체 경사의 대상이 되게 하는 노이즈가, 의사랜덤(pseudorandom) 노이즈 소스로부터 연유할 수 있고, 또는 시간적 선행 스펙트럼, 또는 또다른 채널의 시간-정렬 스펙트럼 같이, 관련된 스펙트럼들 또는 동일 스펙트럼의 다른 영역들로부터 스펙트럼 복제 또는 패칭(patching)에 기반하여 노이즈 필러(30)으로부터 유도될 수 있다. 스펙트럼(18)의 저주파수 영역들로부터의 복제(스펙트럼 복제) 같이, 동일 스펙트럼으로부터 패칭도 실현가능할 수 있다. 노이즈 필러(30)가 노이즈를 유도하는 방식에 관계 없이, 필러(30)는 위에서 설명된 조성 의존 방식으로 인접 스펙트럼 제로-부분들(40a 내지 40d)로 채우기 위해 노이즈를 스펙트럼적으로 성형하고 및/또는 위에서 설명된 방식으로 이를 스펙트럼적 전체 경사의 대상으로 한다.

오직 완전성(completeness)을 위해, 도 9 및 11의 인코더(100) 및 디코더(130)의 실시예는 한쪽의 스케일 인수들과 특정 노이즈 레벨이 다르게 실행되는 스케일 인수 사이의 병치(juxtaposition)에서 달라질 수 있다는 것이 도 12에서 보여진다. 도 12의 예에 따라, 인코더는 스케일 인수들(112) 뿐 아니라, 예를 들어, 스케일 인수들(112)에 따른 동일 스펙트럼시간적 해상도 같이, 스펙트로그램(12)의 스펙트럼 라인-별 해상도보다 더 거칠은(coarser) 해상도에서 스펙트럼시간적으로 샘플링된, 데이터 스트림 내에서 노이즈 포락선의 정보를 전송한다. 이러한 노이즈 포락선 정보는 도 12에서 도면 부호(140)을 이용하여 표시된다. 이러한 방식에 의해, 0으로 완전히 양자화되지 않는 스케일 인수 대역들에 대해 두개의 값이 존재한다: 스케일 인수 대역 내의 제로-양자화된 스펙트럼 값들의 노이즈 레벨을 개별 스케일링하는 스케일 인수 대역에 대한 노이즈 레벨(140) 뿐만 아니라, 각 스케일 인수 대역 내의 비-제로 스펙트럼 값들을 리스케일링하거나 역양자화하기 위한 스케일 인수. 이 개념은 때때로 IGF (지능형 갭 채움, Intelligent Gap Filling)으로 불린다.

여기서도, 노이즈 필러(30)는 도 12에서 예시적으로 보여지는 것처럼 인접 스펙트럼 제로-부분들(40a 내지 40d)의 조성 의존적 채움을 적용할 수 있다.

도 9 내지 12에 관해 위에서 설명된 오디오 코덱 예시들에 따라, 양자화 노이즈의 스펙트럼 성형은 스케일 인수들의 형태로 스펙트럼시간적 표현을 이용하여 지각적 마스킹 임계에 관련된 정보를 전송하여 수행되었다. 도 13 및 14는 도 1 내지 8에 관해 설명된 노이즈 채움 실시예들이 이용될 수도 있는, 그러나 오디오 신호의 스펙트럼의 LP (선형 예측)에 따라 양자화 노이즈가 스펙트럼적으로 성형되는, 인코더 및 디코더의 쌍(pair)을 보여준다. 양쪽 실시예들에서, 노이즈가 채워질 스펙트럼은 가중 영역에 있으며, 즉 가중된 영역 또는 지각적으로 가중된 영역에서 스펙트럼적으로 일정한 스텝 크기(spectrally constant step size)를 이용하여 양자화된다.

도 13은 변환기(transformer, 152), 양자화기(154), 프리-엠퍼사이저(pre-emphasizer, 156), LPC 분석기(158), 및 LPC-to-스펙트럼-라인-컨버터(LPC-to-spectral-line-converter, 160)를 포함하는 인코더(150)를 보여준다. 프리-엠퍼사이저(156)는 선택적이다. 프리-엠퍼사이저(156)는 들어오는(인바운드, inbound) 오디오 신호(12)를 프리-엠퍼시스의 대상으로 하며, 즉 예를 들어, FIR 또는 IIR 필터를 이용하여 얕은 하이패스 필터 전달 함수를 갖는 하이패스 필터링을 한다. 제1순서 하이 패스 필터는, 예는 들어, 실시예 중 하나에 따라, 스펙트럼으로 채워지는 노이즈가 대상인 스펙트럼 전체 경사가 변화되는, 라인에서 프리-엠퍼시스의 양 또는 강도를 설정하는 α와 함께, H(z) = 1 - αz-1 같이 프리-엠퍼사이저(156)에 대해 이용될 수 있다. α의 가능한 설정은 0.68 일 수 있다. 프리-엠퍼사이저(156)에 의해 야기되는 프리-엠퍼시스는 높은 주파수에서 낮은 주파수로, 인코더(150)에 의해 전송되는 양자화된 스펙트럼 값들의 에너지를 이동시키는 것이며, 그렇게 함으로써, 인간의 지각(perceprion)이 고주파수 영역에서보다 저주파수 영역에서 더 높다는 것에 따른 음향심리학적 법칙을 고려한다. 오디오 신호가 프리-엠퍼시스되건 아니건, LPC 분석기(158)는 오디오 신호를 선형적 예측하기 위해, 더 정확하게는, 그것의 스펙트럼 포락선을 추정하기 위해, 인바운드 오디오 신호(12)에 대한 LPC 분석을 수행한다. LPC 분석기(158)는 예를 들어, 오디오 신호(12)의 오디오 샘플들의 숫자로 구성되는 서브-프레임들의, 시간 유닛들(time units)로, 선형 예측 계수들을 결정하며, 동일한 것을 데이터 스트림 내의 디코딩 측에 대해 (162)에서 보여지는 것처럼 전송한다. LPC 분석기(158)는, 예를 들어, 레빈슨-더빈 알고리즘(Levinson-Durbin algorithm)을 이용하여, 그리고 분석 윈도우에서, 예를 들어, 자기상관(autocorrelation)을 이용하여 선형 예측 계수들을 결정한다. 선형 예측 계수들은 스펙트럼 라인 쌍들 또는 유사한 것들의 형태처럼 양자화 및/또는 변환된 버젼으로 데이터 스트림에서 전송될 수 있다. 어떠한 경우에서, LPC 분석기(158)는 데이터 스트림을 통해 디코딩 측에서도 이용가능한 것처럼 선형 예측 계수들을 LPC-to-스펙트럼-라인-컨버터(LPC-to-spectral-line-converter, 160)에 포워딩하며, 상기 컨버터(160)는 양쟈화 스텝 크기를 스펙트럼적으로 변화/설정하기 위한 양자화기(154)에 의해 이용되는 스펙트럼 커브(curve)로 선형 예측 계수들을 전환(변환, convert)시킨다. 특히, 변환기(152)는 변환기(104)가 하는 것과 동일한 방식으로 인바운드 오디오 신호(12)를 변환의 대상으로 한다. 이와 같이, 변환기(152)는, 예를 들어, 전체 스펙트럼에 대해 이후 스펙트럼적으로 일정한 양자화 크기를 이용하여 컨버터(160)로부터 얻어지는 스펙트럼 커브로 각 스펙트럼을 나눌 수 있다. 양자화기(154)에 의해 출력되는 스펙트럼의 시퀀스의 스펙트로그램은 도 13의 (164)에서 보여지며 디코딩 측에서 채워질 수 있는 몇몇 인접 스펙트럼 제로-부분들도 포함한다. 전체 노이즈 레벨 매개변수는 인코더(150)에 의해 데이터 스트림 내에서 전송될 수 있다.

도 14는 도 13의 인코더에 맞는 디코더를 보여준다. 도 14의 디코더는 일반적으로 도면 부호 170을 이용하여 표시되며 노이즈 필러(30, LPC-to-스펙트럼-라인-컨버터(172), 역양자화기(174) 및 역 변환기(176)를 포함한다. 노이즈 필러(30)는 역양자화 스펙트럼들(164)을 수신하며, 위에서 설명된 것처럼 인접 스펙트럼 제로-부분들에 대한 노이즈 채움을 수행하고, 이와 같이 채워진 스펙트로그램을 역양자화기(174)로 포워딩한다. 역양자화기(174)는 LPC-to-스펙트럼-라인 컨버터(172)로부터 채워진 스펙트럼을 재성형하기 위해, 또는, 다른 말로, 역양자화를 위해 역양자화기(174)에 의해 이용될 스펙트럼 커브를 수신한다. 이러한 프로세스는 때때로 소위 FDNS(Frequency Domain Noise Shaping)로 불린다. LPC-to-스펙트럼-라인 컨버터(172)는 데이터 스트림에서 LPC 정보(162)를 기반으로 스펙트럼 커브를 유도한다. 역양자화기(174)에 의해 출력된, 역양자화된 스펙트럼, 또는 재성형된 스펙트럼은 오디오 신호를 복원하기 위해 역 변환기(176)에 의해 역 변환의 대상이 된다. 다시, 재성형된 스펙트럼들의 시퀀스는, 변환기(152)의 변환이 MDCT 같이 임계적으로 샘플링되고 겹쳐진 변환인 경우에 연속 재변환들 사이의 시간-영역 앨리어싱 취소(time-domain aliasing cancellation)를 수행하기 위한 중첩-가산-프로세스가 뒤따르는 역 변환기(176)에 의한 역 변환의 대상이 된다.

도 13 및 도 14에서 점선 라인들의 방식으로 프리-엠퍼사이저(156)에 의해 적용되는 프리-엠퍼스시가, 데이터 스트림 내에서 시그널링되는 변화와 함께, 시간에 따라 변화할 수 있다는 것이 보여진다. 그러한 경우에, 노이즈 필러(30)는 도 8에 관해 위에서 설명된 것처럼 노이즈 채움을 수행할 때 프리-엠퍼시스를 고려할 수 있다. 특히, 프리-엠퍼시스는 양자화된 스펙트럼 값들, 즉 스펙트럼 레벨들이, 낮은 주파수로부터 높은 주파수까지 감소하는 경향을 띈다는 점에서, 즉 그것들이 스펙트럼적 경사를 보여준다는 점에서, 양자화기(154)에 의해 출력되는 양자화된 스펙트럼의 스펙트럼 경사를 야기한다. 이러한 스펙트럼 경사는 노이즈 필러(30)에 의해 위에서 설명된 방식으로, 보상되거나, 또는 더 잘 모방되거나 또는 적응될 수 있다. 만약 데이터 스트림에서 시그널링된다면, 시그널링되는 프리-엠퍼시스의 정도(the degree of pre-emphasis)는 프리-엠퍼시스 정도에 의존하는 방식으로 채워진 노이즈의 적응적 경사화(adaptive tilting)를 수행하도록 이용될 수 있다. 그것은, 데이터 스트림 내에서 시그널링되는 프리-엠퍼시스의 정도는 노이즈 필러(30)에 의한 스펙트럼에 채워진 노이즈에 도입되는 스펙트럼 경사도를 설정하도록 디코더에 의해 이용될 수 있다.

지금까지, 몇몇 실시예들이 설명되었고, 이 이후에 특정 실시예들이 제시된다. 이러한 예들에 관해 제시되는 자세한 내용은, 이를 더 특정하기 위한 위 실시예들에 개별적으로 전환가능한 것처럼 이해될 것이다. 그러나, 그 전에, 위에서 설명된 실시예들 전부가 스피치 코딩 뿐만 아니라 오디오에서 이용될 수 있다는 점을 알아야 한다. 그것들은 일반적으로 변환 코딩과 관련되며 부가 정보의 아주 작은 양을 이용하여 스펙트럼적 성형된 노이즈로 양자화 프로세스에서 도입되는 제로(0)들을 교체하기 위한 신호 적응적 개념을 이용한다. 위에서 설명된 실시예들에서, 만약 그러한 어떤 시작 주파수가 이용되는 경우 스펙트럼 홀들(구멍들, holes)은 때때로 노이즈 채움 시작 주파수 바로 아래에서 나타나며, 그러한 스펙트럼 홀들은 때때로 지각적으로 짜증스럽다는(perceptually annoying) 관찰이 이용되었다. 시작 주파수의 명시적 시그널링을 이용하는 위 실시예들은 악화(degradation)를 가져오지만 노이즈의 삽입이 왜곡을 야기하는 어디든지 저주파수에서의 노이즈 삽입을 피하게 할 수 있는 홀들(holes)을 제거하는 것을 가능하게 한다.

게다가, 위에서 설명된 실시예들 몇몇은 프리-엠퍼시스에 의해 야기되는 스펙트럼 경사를 보상하기 위해 프리-엠퍼스시스 제어된 노이즈 채움을 이용한다. 이러한 실시예들은, 디코딩 측에서 FDNS가 스펙트럼적으로 평탄한 삽입된 노이즈를 프리-엠퍼시스의 스펙트럼 경사를 여전히 보여주는 스펙트럼 성형의 대상으로 하는 것처럼, LPC 필터가 프리-엠퍼시스 신호에서 계산되는 경우, 노이즈의 전체 또는 평균 크기 또는 평균 에너지가 삽입되도록 단지 적용하는 것은 삽입된 노이즈에 스펙트럼 경사를 도입하기 위해 노이즈 성형을 야기할 것이라는 준수(observance)를 고려한다. 따라서, 나중의 실시예들은 프리-엠퍼시스로부터의 스펙트럼 경사가 고려되고 보상되는 그러한 방식으로 노이즈 채움을 수행하였다.

이와 같이, 다른 말로, 도 11 및 도 14 각각은 지각적 변환 오디오 디코더를 보여주었다. 그것은 오디오 신호의 스펙트럼(18)에 노이즈 채움을 수행하도록 구성되는 노이즈 필러(30)를 포함한다. 상기 수행은 위에서 설명되는 것처럼 조성 의존적으로 수행될 수 있다. 상기 수행은 위에서 설명된 것처럼, 노이즈-채움 스펙트럼을 얻기 위해 스펙트럼적 전체 경사를 나타내는 노이즈로 스펙트럼을 채우는 것에 의해 수행될 수 있다. "스펙트럼적 전체 경사(Spectrally global tilt)"는, 예를 들어, 경사(tilt)가 그 자체로, 경사진, 즉 비-제로(non-zero slope) 기울기를 갖는, 예를 들어, 노이즈로 채워질 모든 부분들(40)을 가로질러 노이즈를 감싸는(enveloping) 포락선(envelope)으로 나타내는 것을 의미할 것이다. "포락선(Envelope)"은, 예를 들어, 2차 또는 3차의 또다른 다항식 또는 선형 함수 같이 스펙트럼 회귀 곡선으로 정의되며, 예를 들어, 모두 자기-인접한(self-contiguous), 그러나 스펙트럼적으로는 떨어진, 부분(40)으로 채워진 노이즈의 지역적 최대값들을 거친다. "낮은 주파수에서 고주파수까지의 감소"는 이러한 경사가 음의 기울기를 갖는다는 것을 의미하고, "낮은 주파수에서 고주파수까지의 증가"는 이러한 경사가 양의 기울기를 갖는다는 것을 의미한다. 양쪽 수행 관점들은 동시에 또는 단지 그들 중 하나에 적용할 수 있다.

게다가, 지각적 변환 오디오 디코더는 노이즈-채움 스펙트럼을 스펙트럼 지각적 가중 함수를 이용하여 스펙트럼 성형의 대상으로 하도록 구성되는, 양자화기(132, 174)의 형태인 주파수 영역 노이즈 성형기(frequency domain noise shaper, 6)를 포함한다. 도 11의 경우에, 주파수 영역 노이즈 성형기(132)는 스펙트럼이 코딩되는 데이터 스트림에서 시그널링되는 선형 예측 계수 정보(162)로부터 스펙트럼 지각적 가중 함수를 결정하도록 구성된다. 도 14의 경우에, 주파수 영역 노이즈 성형기(174)는, 데이터 스트림에서 시그널링되는, 스케일 인수 대역들(110)에 관련된 스케일 인수들(112)로부터 스펙트럼 지각적 가중 함수를 결정하도록 구성된다. 도 8에서 관해 설명되고 도 11에 관해 도시된 것처럼, 노이즈 필러(34)는 데이터 스트림에서 명시적 시그널링에 대응하는 스펙트럼적 전체 경사의 기울기를 변화시키도록, 또는 스케일 인수들 또는 LPC 스펙트럼 포락선 같은 것들에 의해 스펙트럼 지각적 가중 함수를 시그널링하는 데이터 스트림의 부분으로부터 동일한 것을 추정하도록, 또는 양자화되고 전송된 스펙트럼(18)로부터 동일한 것을 추정하도록 구성될 수 있다.

게다가, 지각적 변환 오디오 디코더는 역 변환을 얻기 위해, 주파수 영역 노이즈 성형기에 의해 스펙트럼적 성형되는, 노이즈-채워진 스펙트럼을 역으로 변환하도록 구성되는 역 변환기(134, 176)를 포함하고, 역 변환을 중첩-가산-프로세스의 대상으로 한다.

대응하여, 도 13 및 9는 도 9 및 13에서 보여지는 양자화기 모듈들(108, 154)에서 실행되는 스펙트럼 가중(spectrum weighting)(1) 및 양자화(quantization)(2) 양쪽을 다 수행하도록 구성되는 지각걱 변환 오디오 인코더에 대한 예들을 모두 보여주었다. 스펙트럼 가중(1)은 지각적으로 가중된 스펙트럼을 얻기 위해 스펙트럼 지각적 가중 함수의 역(inverse)에 따라 오디오 신호의 원래 스펙트럼을 스펙트럼적으로 가중하며, 양자화(2)는 양자화된 스펙트럼을 얻기 위해 스펙트럼적으로 균일한 방식으로 지각적으로 가중된 스펙트럼을 양자화한다. 지각적 변환 오디오 인코더는 양자화 모듈들(108, 154) 내에서 노이즈 레벨 계산을 더 수행하고, 예를 들어, 저주파수에서 고주파수까지 증가하는 스펙트럼적 전체 경사와 함께 가중된 방식으로 양자화된 스펙트럼의 제로-부분들에 공존되는 지각적으로 가중된 스펙트럼의 레벨을 측정하여 노이즈 레벨 매개변수를 계산한다. 도 13에 따라, 지각적 변환 오디오 인코더는 오디오 신호의 원래 스펙트럼의 LPC 스펙트럼 포락선을 표현하는 선형 예측 계수 정보(162)를 결정하도록 구성되는 LPC 분석기(158)을 포함하며, 스펙트럼 가중기(154)는 LPC 스펙트럼 포락선을 따르기 위해 스펙트럼 지각적 가중 함수를 결정하도록 구성된다. 설명된 것처럼, LPC 분석기(158)는 오디오 신호의 버젼에 LP 분석을 수행하여 선형 예측 계수 정보(162)를 결정하도록, 프리-엠퍼시스 필터(156)의 대상으로 하도록 구성될 수 있다. 도 13에 관해 위에서 설명되는 것처럼, 프리-엠퍼시스 필터(156)는 오디오 신호의 버젼을 얻기 위해 변하는 프리-엠퍼시스 양을 갖는 오디오 신호를 하이-패스 필터링하도록, 프리-엠퍼시스 필터의 대상이 되도록 구성될 수 있고, 노이즈 레벨 계산은 프리-엠퍼시스 양에 의존하여 스펙트럼적 전체 경사의 양을 설정하도록 구성될 수 있다. 데이터 스트림 내에서 프리-엠퍼시스 양 또는 스펙트럼적 전체 경사의 양의 명시적 시그널링이 이용될 수 있다. 도 9의 경우에, 지각적 변환 오디오 인코더는, 마스킹 임계(masking threshold)를 따르기 위해 스케일 인수 대역들(110)에 관련된 스케일 인수들(112)을 결정하는, 지각적 모델(106)을 통해 제어되는, 스케일 인수 결정을 포함한다. 이 결정은 양자화 모듈(108)에서 실행되며, 예를 들어, 이는 스케일 인수들을 따르기 위해 스펙트럼 지각적 가중 함수를 결정하도록 구성되는 스펙트럼 가중기(spetral weighter)로서도 작동한다.

도 9 내지 14를 설명하기 위해 이용된 방금-적용된 대안 및 일반화한 표현은 도 18a 및 18b를 설명하기 위해 여기서 선택되었다.

도 18a는 본 출원의 실시예에 따라 지각적 변환 오디오 인코더를 보여주며, 도 18b는 본 출원의 실시예에 따른 지각적 변환 오디오 디코더를 보여주며, 양쪽 모두 지각적 변환 오디오 코덱을 형성하기 위해 함께 어울린다.

도 18a에서 보여지는 것처럼, 지각적 변환 오디오 인코더는 스펙트럼 가중기(1)를 포함하며, 여기 이후에 예시들이 보여지는 미리 결정된 방식으로 스펙트럼 가중기(1)에 의해 결정되는 스펙트럼 가중 지각적 가중 함수의 역(inverse)에 따라 스펙트럼 가중기(1)에 의해 수신된 오디오 신호의 원래 스펙트럼을 스펙트럼적으로 가중하도록 구성된다. 스펙트럼 가중기(1)는, 이러한 방식에 의해, 지각적 변환 오디오 인코더의 양자화기(2)에서, 스펙트럼적으로 균일한 방식으로, 즉 스펙트럼 라인들에 대해 동일한 방식으로, 이후 양자화의 대상이 될, 지각적으로 가중된 스펙트럼을 얻는다. 균일 양자화기(uniform quantizer, 2)에 의해 출력되는 결과는 지각적 변환 오디오 인코더에 의해 출력되는 데이터 스트림으로 최종적으로 코딩되는 양자화된 스펙트럼(34)이다.

노이즈 레벨을 설정하는 것과 관련하여, 스펙트럼(34)을 향상시키기 위해 디코딩 측면에서 수행될 노이즈 채움을 수행하기 위해, 지각적 변환 오디오 인코더의 노이즈 레벨 컴퓨터(3)가 선택적으로 제공될 수 있고 이는 양자화된 스펙트럼(34)의 제로-부분들(40)에 공존되는 부분들(5)에서 지각적으로 가중된 스펙트럼(4)의 레벨을 측정하는 것에 의해 노이즈 레벨 매개변수를 계산한다. 노이즈 레벨 매개변수들은 디코더에 도착하기 위해 앞서 언급된 데이터 스트림에서도 코딩될 수도 있다.

지각적 변환 오디오 디코더가 도 18b에서 보여진다. 이는 노이즈가 채워진 스펙트럼(36)을 얻기 위해 저주파수에서 고주파수까지 노이즈 레벨이 감소하도록 스펙트럼적 전체 경사를 나타내는 노이즈로 스펙트럼(34)을 채우는 것에 의해, 도 1a의 인코더에 의해 발생되는 데이터 스트림으로 코딩되는 것처럼, 오디오 신호의 인바운드 스펙트럼(34)에 노이즈 채움을 수행하도록 구성되는 노이즈 채움 장치(noise filling apparatus, 30)을 포함한다. 도면 부호(6)으로 표시되는, 지각적 변환 오디오 디코더의 노이즈 주파수 영역 노이즈 성형기(noise frequency domain noise shaper)는, 특정 실시예들에 의해 아래에서 더 설명될 방식으로 데이터 스트림을 통해 인코딩 측으로부터 얻어지는 스펙트럼 지각적 가중 함수를 이용하여 노이즈가 채워진 스펙트럼을 스펙트럼 성형(spectral shaping)의 대상으로 하도록 구성된다. 주파수 영역 노이즈 성형기(6)에 의해 출력되는 이러한 스펙트럼은 시간-영역에서 오디오 신호를 복원하도록 역 변환기(inverse transformer, 7)로 포워딩 될 수 있고 이와 유사하게, 지각적 변환 오디오 인코더 내에서, 변환기(8)는 스펙트럼 가중기(1)에 오디오 신호의 스펙트럼을 제공하기 위해 스펙트럼 가중기(1)를 선행할 수 있다.

스펙트럼적 전체 경사를 나타내는 노이즈(9)로 스펙트럼(34)을 채우는 중요성은 다음과 같다: 나중에, 노이즈가 채워진 스펙트럼(36)이 주파수 영역 노이즈 성형기(36)에 의해 스펙트럼적 성형의 대상이 될 때, 스펙트럼(36)은 경사진 가중 함수의 대상이 될 것이다. 예를 들어, 상기 스펙트럼은 저주파수의 가중과 비교할 때 고주파수에서 증폭될 것이다. 그것은, 스펙트럼(36)의 레벨이 저주파수에 관련된 고주파수들에서 높아지게 된다는 것이다. 이는 스펙트럼(36)의 원래 스펙트럼적으로 평탄한 부분들에서 양의 기울기를 갖는 스펙트럼적 전체 경사를 야기한다. 따라서, 스펙트럼적으로 평탄한(평평한, flat) 방식으로, 그것의 제로-부분들(40)을 채우기 위해 노이즈(9)가 스펙트럼(36)에 채워지는 경우, 이후 FDNS (6)에 의해 출력되는 스펙트럼은 이러한 부분들(40) 내에서, 예를 들어, 저주파수로부터 고주파수까지 증가하는 경향을 띄는 노이즈 플로어(noise floor)를 보일 것이다. 그것은 전체 스펙트럼 또는 적어도, 노이즈 채움이 수행되는, 스펙트럼 대역폭의 부분을 검사할 때, 부분들(40) 내의 노이즈가 양의 기울기 또는 음의 기울기를 갖는 경향(tendency) 또는 선형 회귀 함수를 갖는 것을 본다는 것이다. 그러나, 도 1b에서 α로 표시되는, 노이즈 채움 장치(30)가 양 또는 음의 기울기의 스펙트럼적 전체 경사를 나타내는 노이즈로 스펙트럼(34)을 채우고, FDNS (9)에 의해 야기되는 경사와 비교하여 반대 방향으로 경사질 때, FDNS(6)에 의해 야기되는 스펙트럼 경사는 보상되고 FDNS(6)의 출력에서 최종적으로 복원되는 스펙트럼에 도입되는 노이즈 플로어는 평평하거나 또는 적어도 더 평평하며, 그렇게 함으로써 오디오 품질을 증가시키고 덜 깊은 노이즈 홀들(noise holes)을 남긴다.

"스펙트럼적 전체 경사(Spectrally global tilt)"는 스펙트럼(34)에 채워지는 노이즈(9)가 저주파수로부터 고주파수까지 감소(또는 증가)하는 경향을 띄는 레벨을 갖는다는 것을 나타낼 것이다. 예를 들어, 상호 스펙트럼적으로 떨어진(거리가 ㅇ이있는, distanced), 인접 스펙트럼 제로 부분들(40)로 채워지는 동안 노이즈(9)의 지역적 최대값들(local maxima)을 통해 선형 회귀 라인을 위치시킬 때, 결과적인 선형 회귀 라인은 음(또는 양)의 기울기 α를 갖는다.

비록 의무적이지는 않지만, 지각적 변환 오디오 인코더의 노이즈 레벨 컴퓨터(noise level computer)는 예를 들어, α가 음인 경우 양의 기울기를 갖고 α가 양인 경우 음의 기울기를 갖는 스펙트럼적 전체 경사로 가중된 방식으로 부분들(portions, 5)에서 지각적 가중된 스펙트럼(4)의 레벨을 측정하여 스펙트럼(34)에 노이즈를 채우는 경사진 방식을 설명할 수 있다. 도 18a의 β로 표시되는, 노이즈 레벨 컴퓨터에 의해 적용된 기울기는, 그것의 절대값이 관련되는 한 디코딩 측에 적용되는 것과 동일해야 할 필요가 없지만, 실시예에 따라 이러한 경우도 있을 수 있다. 그렇게 함으로써, 노이즈 레벨 컴퓨터(3)는 디코딩 측에서 삽입되는 노이즈(9)의 레벨을 전체 스펙트럼 대역폭을 넘어 그리고 최적의 방식으로 원래 신호를 근사하는 노이즈 레벨에 더 정확히 적응시키는 것이 가능하다.

나중에 명시적 시그널링을 통해 또는 데이터 스트림 내의 명시적 시그널링을 통해 스펙트럼적 전체 경사 α의 기울기의 변화를 제어하는 것이 실현가능할 수 있다는 것이 설명될 것이며, 예를 들어, 노이즈 채움 장치(30)는, 예를 들어, 변환 윈도우 길이 스위칭으로부터 또는 스펙트럼 지각적 가중 함수 그 자체로부터, 가파름(steepness)을 추정한다. 레터 공제(letter deduction)에 의해, 예를 들어, 상기 기울기는 윈도우 길이에 적응될(adapted) 수도 있다.

스펙트럼적 전체 경사를 나타내기 위해 노이즈 채움 장치(30)가 노이즈(9)를 야기하는 방식으로 실현가능한 다른 방법들이 있을 수 있다. 도 18c는, 예를 들어, 노이즈(9)를 얻기 위해, 노이즈 채움 장치(30)가, 노이즈 채움 프로세스에서 중간 상태를 표시하는, 중간 노이즈 신호(intermediary noise signal, 13) 및 점증적으로 감소하는 (또는 증가하는) 함수(15), 즉 전체 스펙트럼 또는 적어도 노이즈 채움이 수행되는 부분을 가로질러 점증적이고 스펙트럼적으로 감소하는 함수, 사이의 스펙트럼 라인-별 곱셈(11)을 수행하는 것을 도시한다. 도 18c에서 도시되는 것처럼, 중간 노이즈 신호(13)는 이미 스펙트럼적으로 성형될 수 있다. 이와 관련된 세부사항들은 또한 조성 의존적으로 수행되는 노이즈 채움에 따라 아래에서 더 설명되는 특정 실시예들과 관련된다. 그러나, 스펙트럼 성형은 배제될 수도 있고 또는 곱셈(11) 후 수행될 수도 있다. 노이즈 레벨 매개변수 신호 및 데이터 스트림은 중간 노이즈 신호(13)의 레벨을 설정하는데 이용될 수 있지만, 대안적으로 중간 노이즈 신호는 곱셈(11) 후에 스펙트럼 라인을 스케일링하기(scale) 위해 스칼라(scalar) 노이즈 레벨 매개변수를 적용하여, 기준 레벨(standard level)을 이용하여 생성될 수 있다. 점증적으로 감소하는 함수(15)는, 도 18c에서 도시되는 것처럼, 선형 함수, 조각별 선형 함수, 다항 함수 또는 어떠한 다른 함수일 수 있다.

아래에서 더 자세히 설명되는 것처럼, 노이즈 채움이 노이즈 채움 장치(30)에 의해 수행되는 것들 내의 전체 스펙트럼의 부분을 적응적으로 설정하는 것이 실현 가능할 것이다.

아래에서 더 설명되는 실시예들과 연계하여, 스펙트럼(34)의 인접 스펙트럼 제로 부분들, 즉 스펙트럼 홀들이 특정 비-평면 및 조성 의존 방식으로 채워지는 것에 따라, 지금까지 논의된 스펙트럼적 전체 경사를 유발하기 위한 도 18c에서 도시되는 곱셈(11)에 대한 대안들도 있을 수 있다는 것이 설명될 것이다.

위에서 설명된 모든 실시예들은 스펙트럼 홀들이 피해지며 조성적 비-제로 양자화된 라인들의 은폐(concealing)도 피해진다는 점에서 공통된다. 위에서 설명된 방식으로, 신호의 시끄러운 부분들의 에너지는 보존될 수 있고 조성적 구성요소들을 마스킹한(masked) 노이즈의 가산(adding)은 위에서 설명된 방식으로 피해진다.

아래에서 설명되는 특정 실시예들에서, 조성 의존적 노이즈 채움을 수행하기 위한 부가 정보의 부분은 노이즈 채움이 이용되는 코덱의 기존 부가 정보에 어떠한 것도 더하지 않는다. 스펙트럼의 복원을 위해 이용되는 데이터 스트림으로부터의 모든 정보는, 노이즈 채움에 관계 없이, 노이즈 채움의 성형을 위해 이용될 수도 있다.

실시예들에 따라, 노이즈 필러(30)의 노이즈 채움은 다음에 따라 수행된다. 0으로 양자화되는 노이즈 채움 시작 지수(start index) 위의 모든 스펙트럼 라인들은 비-제로 값으로 교체된다. 이는, 예를 들어, 다른 스펙트럼 스펙트로그램 위치들(소스들)로부터 패칭(patching)을 이용하여 또는 스펙트럼적으로 일정한 개연성 밀도 함수(spectrally constant probability density function)을 가지고 랜덤 또는 의사랜덤 방식으로 수행된다. 예를 들어, 도 15를 참조하자. 도 15는 양자화기(154)에 의해 출력되는 스펙트럼들(164) 또는 양자화기(108)에 의해 출력되는 스펙트로그램(12)의 스펙트럼들(18) 또는 스펙트럼(34)처럼 노이즈 채움의 대상이 될 스펙트럼에 대한 두개의 예를 보여준다. 노이즈 채움 시작 지수는 iFreq0 및 iFreq1 사이의 스펙트럼 라인 지수이며(0 < iFreq0 <= iFreq1), 여기서 iFreq0 및 iFreq1은 미리 결정된, 비트레이트 및 대역폭 의존적인 스펙트럼 라인 지수들이다. 노이즈 채움 시작 지수는 지수 비-제로 값으로 양자화된 스펙트럼 라인의 지수 iStart (iFreq0 <= iStart <= iFreq1)와 동일하고, 지수들 j (iStart < j <= Freq1) 를 갖는 모든 스펙트럼 라인들은 0으로 양자화된다. iStart, iFreq0 또는 iFreq1 에 대한 상이한 값들은 특정 신호들에서 아주 낮은 주파수 노이즈를 삽입하는 것이 가능하도록 비트스트림에서 전송될 수도 있다.

삽입되는 노이즈는 다음 단계들로 성형된다:

1. 잔류 영역 또는 가중 영역에서. 잔류 영역 또는 가중 영역에서의 성형은 도 1-14와 관련하여 위에서 광범위하게 설명되었다.

2. (LPC의 크기 응답을 이용하여 변환 영역에서 성형하는) FDNS 또는 LPC를 이용한 스펙트럼 성형은 도 13 및 14와 관련하여 설명되었다. 스펙트럼은 (AAC에서처럼) 스케일 인수들을 이용하여 또는 도 9-12와 관련하여 설명된 것처럼 완전한 스펙트럼을 성형하기 위한 어떠한 다른 스펙트럼 성형 방법을 이용하여 성형될 수도 있다.

3. 더 작은 비트 숫자를 이용하는 TNS (시간적 노이즈 성형)을 이용한 선택적 성형은, 도 9-12와 관련하여 간략히 설명되었다.

노이즈 채움에 필요한 오직 추가적인 부가 정보는 레벨이며, 이는 예를 들어 3비트를 이용하여 전송된다.

*FDNS를 이용할 때 특정 노이즈 채움에 대해 그것을 적응시킬 필요가 없으며 그것은 스케일 인수들보다 더 작은 비트 숫자를 이용하여 완전한 스펙트럼에 대한 노이즈를 성형한다.

스펙트럼 경사는 LPC-기반 지각적 노이즈 성형에서 프리-엠퍼시스로부터 스펙트럼 경사에 대응하기 위해 삽입된 노이즈에서 도입될 수 있다. 프리-엠퍼시스는 입력 신호에 적용되는 부드러운 하이-패스 필터를 표현하기 때문에, 경사 보상(tilt compensation)은 삽입된 노이즈 스펙트럼에 미묘한 로-패스 필터의 전달 함수의 균등한 것을 곱하여 이에 대응할 수 있다. 이러한 로-패스 작업의 스펙트럼 경사는 프리-엠퍼시스 인수, 바람직하게는, 비트-레이트 및 대역폭에 의존적이다. 이는 도 8을 참조하여 논의되었다.

1 또는 더 연속적인 제로-양자화된 스펙트럼 라인들로부터 구성된, 각 스펙트럼 홀에 대해, 삽입된 노이즈는 도 16에서 설명된 것처럼 성형될 수 있다. 노이즈 채움 레벨은 인코더에서 발견되고 비트-스트림에서 전송된다. 비-제로 양자화된 스펙트럼 라인들에서는 노이즈 채움이 없고 풀 노이즈 채움(full noise filling)까지 전이 영역에서 증가한다. 이는 조성 구성요소들을 잠재적으로 마스킹(mask)하거나 왜곡(distort)시킬 수 있는 비-제로 양자화된 스펙트럼 라인들의 바로 인접부에서 높은 레벨의 노이즈를 삽입하는 것을 피한다.

전이 너비는 입력 신호의 조성에 의존적이다. 상기 조성은 각 시간 프레임에 대해 얻어진다. 도 17a-d에서 노이즈 채움 형태는 상이한 홀 크기들 및 전이 너비들에 대해 예시적으로 설명된다.

스펙트럼의 조성 측정은 비트스트림에서 이용가능한 정보에 기반할 수 있다:

·LTP 이득

·스펙트럼 재배치 가능 플래그 ([6] 참조)

·TNS 가능 플래그

전이 너비는 조성에 비례하며 - 노이즈 유사 신호들에 대해 작고, 아주 조성적인 신호들에 대해서는 크다.

실시예에서, LTP 이득 > 0 인 경우 전이 너비는 LTP 이득에 비례한다. 만약 LTP 이득이 0과 동일하고 스펙트럼 재배치가 가능하면 평균 LTP에 대한 전이 너비가 이용된다. TNS가 이용가능한 경우 전이 영역이 없지만, 풀 노이즈 채움(full noise filling)은 모든 제로-양자화된 스펙트럼 라인들에 적용되어야 한다. 만약 LTP 이득이 0과 동일하고 TNS 및 스펙트럼 재배치가 이용불가능한 경우, 최소 전이 너비가 이용된다.

만약 비트스트림에 조성 정보가 없는 경우 조성 측정은 노이즈 채움 없이 디코딩된 신호에서 계산될 수 있다. 만약 TNS 정보가 없는 경우, 시간적 평탄 측정(temporal flatness measure)은 디코딩된 신호에서 계산될 수 있다. 그러나, 만약 TNS 정보가 이용가능한 경우, 그러한 평탄함 측정은 TNS 필터 계수들로부터 직접적으로, 예를 들어, 필터의 예측 이득 계산에 의해, 유도될 수도 있다.

인코더에서, 노이즈 채움 레벨은 바람직하게는 전이 너비를 고려하여 계산될 수 있다. 양자화된 스펙트럼으로부터 노이즈 채움 레벨을 결정하는 몇몇 방법들이 가능하다. 가장 단순한 것은 0으로 양자화된 노이즈 채움 영역(즉, 위의 iStart)에서 정규화된 입력 스펙트럼의 모든 라인들의 에너지(제곱)을 합산하고, 이후 라인 당 평균 에너지를 얻기 위해 그러한 라인들 숫자에 의해 이 합산을 나누며, 최종적으로는 평균 라인 에너지의 제곱근(실효치, root mean sqaure)으로부터 양자화된 노이즈 레벨을 계산하는 것이다. 이러한 방식에서, 노이즈 레벨은 0으로 양자화되는 스펙트럼 구성요소의 RMS로부터 효과적으로 유도된다. 예를 들어, A가 그리고 스펙트럼이 0으로 양자화된 스펙트럼 라인들의 지수 i의 집합이며, 예를 들어, 시작 주파수 위인, 제로-부분들 중 어느 것에 속하고, N이 전체 노이즈 스케일링 인수를 나타낸다고 하자. 아직 양자화되지 않은 스펙트럼 값은 y_i로 표시될 것이다. 또한, left(i)는 어떠한 제로-양자화된 스펙트럼 값에 대해 지수 i에서 i가 속하는 제로-부분의 저주파수 끝에서 제로-양자화된 값의 지수를 나타내는 함수일 것이며, j=0 내지 J_i -1을 갖는 F_i (j)는, 제로-부분의 너비를 나타내는 J_i와 함께, 조성에 의존하여, 지수 i에서 시작하는 제로-부분에 할당되는 함수를 나타낼 것이다. 이후 N은 N = sqrt(

)에 의해 결정될 수 있다.

바람직한 실시예에서, 개별 홀 크기들(individual hole sizes) 뿐만 아니라 전이 너비(transition width)도 고려된다. 이런 이유로, 연속 제로-양자화된 라인들의 진행은 홀 영역들로 그룹화된다. 이전 섹션에서 설명되는 것처럼, 홀 영역에서 각 정규화된 입력 스펙트럼 라인, 즉 어떠한 인접 스펙트럼 제로-부분 내의 스펙트럼 위치에서의 원래 신호의 각 스펙트럼 값은, 전달 함수에 의해 스케일링되고, 이후 스케일링된 라인들의 에너지 합산이 계산된다. 이전의 단순한 실시예와 같이, 노이즈 채움 레벨은 이후 제로-양자화된 라인들의 RMS 로부터 계산될 수 있다. 위의 명명법(nomenclature)을 적용하여, N은 N = sqrt(

)에 의해 계산될 수 있다.

그러나, 이러한 접근의 문제는 작은 홀 영역들(즉 전이 너비 두배(twice) 보다 훨씬 작은 너비를 갖는 영역들)의 스펙트럼 에너지가 과소평가된다는 것이고, 이는 RMS 계산에서 에너지 합산이 분할되는 합산의 스펙트럼 라인들 숫자가 변하지 않기 때문이다. 다른 말로, 양자화된 스펙트럼들이 대부분 다수의 작은 홀 영역들을 나타낼 때, 결과 노이즈 채움 레벨은 스펙트럼이 희박하고(sparse) 오직 작은 긴 홀 영역들을 가질 때 더 낮아질 것이다. 이러한 경우들 양쪽 모두에서 유사한 노이즈 레벨이 발견되는 것을 보장하기 위해, 전이 너비에 RMS 계산의 분모에 이용되는 라인-수를 적응시키는(adapt) 것이 그래서 유리하다. 가장 중요하게, 만약 홀 영역 크기가 전이 너비 두배보다 작다면, 그 홀 영역의 스펙트럼 라인 숫자는 그대로 카운팅되지 않고, 즉 라인들이 정수(interger)로 수가 세어지지 않으며, 정수 라인-숫자보다 작은 분수(fractional) 라인-숫자로 세어진다. N이 관련되는 위 공식에서, 예를 들어, "카디널리티(cardinality)(A)"는 "작은" 제로-부분들의 숫자에 의존하는 작은 숫자로 교체될 것이다.

게다가, LPC-기반 지각적 코딩 때문에 노이즈 채움에서 스펙트럼 경사의 보상은 또한 노이즈 레벨 계산 동안 고려되어야 한다. 더 구체적으로, 디코더-측 노이즈 채움 경사 보상의 역(inverse)은 바람직하게는, 노이즈 레벨이 계산되기 전, 0으로 양자화된 원래 양자화되지 않은 스펙트럼 라인들에 적용된다. LPC-기반 이용 프리-엠퍼시스의 컨텍스트에서, 이는 고주파수 라인들이 노이즈 레벨 추정에 우선하여 저주파수 라인들과 관련되어 조금 증폭된다는 것을 의미한다. 위 명명법을 적용하여, N은 N = sqrt(

)으로 계산될 수 있다. 위에서 언급된 것처럼, 상황에 따라, 함수(15)에 대응하는 함수 LPF 는 양의 기울기를 가질 수 있고 LPF는 따라서 HPF를 읽도록 변화되었다. "LPF"를 이용하여 위의 모든 공식들에서, F_left 를 전부 1(one) 같이 일정한 함수로 설정하는 것은, 노이즈를 조성-의존적 홀 채움 없이 스펙트럼 전체 경사를 갖는 스펙트럼(34)에 채워지는 대상으로 하는 개념을 어떻게 적용하는가에 대한 방법을 드러낸다.

N의 가능한 계산들은, 예를 들어, 108 또는 154 같은 인코더에서 수행될 수 있다.

최종적으로, 아주 조성적이고, 정적인 신호된 신호가 0으로 양자화 되었을 때, 이러한 고조파들(하모닉스, harmonics)를 나타내는 라인들은 상대적으로 높은 또는 불안정한 (시간-변동적인) 노이즈 레벨을 야기한다는 것이 발견되었다. 이러한 아티팩트(artifact)는 노이즈 레벨 계산에서 그것들의 RMS 대신에 제로-양자화된 라인들의 평균 크기를 이용하여 감소될 수 있다. 반면 이러한 대안이 디코더에서 노이즈가 채워진 라인들의 에너지가 노이즈 채움 영역들에서 원래 라인들의 에너지를 재생하는 것을 항상 보장하는 것은 아니며, 노이즈 채움 영역들의 스펙트럼 피크(peaks)들은 전체 노이즈 레벨에 오직 제한된 기여를 가진다는 것을 확실히 하며, 그렇게 함으로써 노이즈 레벨의 과대평가의 위험을 감소시킨다.

최종적으로, 예를 들어, 합성에 의한 분석 목적을 위한 것처럼, 디코더와 함께 라인에서 그 자체를 유지하기 위해 인코더가 노이즈 채움을 완전히 수행하도록 구성될 수도 있다는 것이 알려진다.

이와 같이, 위 실시예는, 그 중에서도, 스펙트럼적 성형된 노이즈로 양자화 프로세스에서 도입되는 제로들(0들)을 교체하기 위한 신호 적응적 방법을 설명한다. 인코더 및 디코더에 대한 노이즈 채움 확장은 다음 사항을 실시하여 위에서 언급된 요구사항들을 만족시키는 것이 설명된다.

·노이즈 채움 시작 지수(Noise filling start index)는 스펙트럼 양자화 결과에 적응될 수 있지만 특정 범위에 제한된다.

·스펙트럼 경사는 지각적 노이즈 성형으로부터 스펙트럼 경사에 대응하기 위해 삽입되는 노이즈에 도입될 수 있다.

·노이즈 채움 시작 지수 위의 모든 제로-양자화된 라인들은 노이즈로 교체된다.

·전이 함수(transition function)에 의해, 삽입된 노이즈는 0으로 양자화되지 않은 스펙트럼 라인들에 근접하게 감쇠된다.

·전이 함수는 입력 신호의 순간 특성에 의존한다.

·노이즈 채움 시작 지수의 적응, 스펙트럼 경사 및 전이 함수는 디코더에서 이용가능한 정보에 기반할 수 있다.

노이즈 채움 레벨을 제외하고는, 추가적인 부가 정보가 필요 없다.

비록 몇몇 관점들이 장치의 관점에서 설명되었지만, 이러한 관점들은 또한 대응하는 방법의 묘사도 나타낸다는 것이 명백하며, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 대응한다.

유사하게, 방법 단계의 문맥에서 설명된 관점들은 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명 또한 나타낸다. 방법 발명의 몇몇 또는 전체는, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전기 회로같은, 하드웨어 장치에 의해 (또는 그것을 이용하여) 실행될 수 있다. 몇몇 실시예들에서, 가장 중요한 방법 단계들 중 몇몇 또는 그 이상은 그러한 장치에 의해 실행될 수 있다.

특정한 실행의 요구들에 의존하여, 이 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 실행될 수 있다. 실행들은 전자적으로 읽을 수 있는 컨트롤 신호들을 그곳에 저장하고 있는 디지털 저장매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리,를 이용하여 수행될 수 있고 그것은, 각 방법이 수행되는, 프로그래밍 가능한 컴퓨터 시스템과 연동한다(또는 연동할 수 있다). 그래서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.

본 발명에 따른 몇몇 실시 예들은 전자적 판독 가능한 컨트롤 신호들을 갖는 데이터 캐리어를 포함하며, 그것은 여기서 설명된 방법 중 하나가 수행되는 프로그래밍 가능한 컴퓨터 시스템과 연동 가능하다.

일반적으로 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로 실행될 수 있으며, 상기 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 수행될 때 상기 방법 중 하나를 수행하도록 작동되는 것이다. 프로그램 코드는 예시적으로 기계 판독가능 캐리어에 저장될 수도 있다.

다른 실시 예들은 여기에 설명되고, 기계 판독가능 캐리어에 저장된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

다른 말로, 발명의 방법의 실시 예는, 컴퓨터 프로그램이 컴퓨터에서 운영될 때 여기서 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

발명의 방법의 추가 실시 예는, 거기에 저장된, 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어이다(또는 디지털 저장 매체, 또는 컴퓨터 판독가능 매체). 데이터 캐리어, 디지털 저장 매체 또는 레코딩 매체는 일반적으로 유형 및/또는 무형이다.

발명의 방법의 또 다른 실시 예는, 그래서, 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 순서 또는 데이터 스트림이다. 데이터 스트림 또는 신호들의 순서는, 예를 들어 인터넷 같은 데이터 통신 연결을 통해 전송되기 위해 예시적으로 구성될 수 있다.

또다른 실시 예는 여기서 설명된 방법 중 하나를 수행하기 위해 구성되거나 적응되기 위하여 프로세싱 수단, 예를 들어 컴퓨터 또는 프로그래밍 가능한 논리 장치를 포함한다.

또다른 실시 예는 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 자체에 설치된 컴퓨터를 포함한다.

발명에 따른 추가 실시예는 여기서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 리시버에 (예를 들어, 전기적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 리시버는, 예를 들어, 컴퓨터, 모바일 장치, 메모리 장치 또는 유사품일 수 있다. 장치 또는 시스템은, 예를 들어, 컴퓨터 프로그램을 리시버에 전송하기 위한 파일 서버를 포함할 수 있다.

몇몇 실시예들에서, 프로그램 가능한 논리 장치(예를 들어, 필드 프로그래밍가능 게이트 어레이)는 여기서 설명된 방법들의 기능 중 몇몇 또는 전체를 수행하도록 이용될 수 있다. 몇몇 실시 예에서, 필드 프로그래밍 가능한 게이트 어레이는 여기서 설명된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 연동될 수 있다. 일반적으로, 상기 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해서도 수행된다.

여기서 설명된 장치는 하드웨어 장치를 이용하여, 컴퓨터를 이용하여, 또는 하드웨어 장치 및 컴퓨터의 조합을 이용하여 실행될 수 있다.

여기서 설명된 방법은 하드웨어 장치를 이용하여, 컴퓨터를 이용하여, 또는 하드웨어 장치 및 컴퓨터의 조합을 이용하여 실행될 수 있다.

상기 설명된 실시 예들은 단지 본 발명의 원리를 위해 설명적일 뿐이다. 본 상기 배치 및 여기서 설명된 자세한 내용의 변형, 변화는 기술분야의 다른 숙련자에게 명백하다고 이해되어야 한다. 그것의 의도는, 따라서, 여기의 실시 예의 설명 또는 묘사의 방법에 의해 표현된 특정 세부사항들에 의해 제한되는 것이 아닌 오직 목전의 특허 청구항의 범위에 의해서만 제한된다는 것이다.

[참고문헌(References)]

[1] B. G. G. F. S. G. M. M. H. P. J. H. S. W. G. S. J. H. Nikolaus Rettelbach, "Noise Filler, Noise Filling Parameter Calculator Encoded Audio Signal Representation, Methods and Computer Program". 미국 특허(Patent US) 2011/0173012 A1.

[2] Extended Adaptive Multi-Rate- Wideband (AMR- WB +) codec, 3GPP TS 26.290 V6.3.0, 2005-2006.

[3] B. G. G. F. S. G. M. M. H. P. J. H. S. W. G. S. J. H. Nikolaus Rettelbach, "Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program". 유럽 특허(Patent WO) 2010/003556 A1.

[4] M. M. N. R. G. F. J. R. J. L. S. W. S. B. S. D. C. H. R. L. P. G. B. B. J. L. K. K. H. Max Neuendorf, "MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types," in 132nd Convertion AES, Budapest, 2012. 'the Journal of the AES, vol. 61, 2013' 에서도 나타남.

[5] M. M. M. N. a. R. G. Guillaume Fuchs, "MDCT-Based Coder for Highly Adaptive Speech and Audio Coding," in 17th European Signal Processing Conference ( EUSIPCO 2009), Glasgow, 2009.

[6] H. Y. K. Y. M. T. Harada Noboru, "Coding Mmethod, Decoding Method, Coding Device, Decoding Device, Program, and Recording Medium". 유럽 특허(Patent WO) 2012/046685 A1.

Claims

오디오 신호의 조성에 의존하는 방식으로 오디오 신호의 스펙트럼(34)에 노이즈 채움을 수행하도록 구성되는 장치에 있어서,
상기 스펙트럼(34)이 코딩되는 데이터 스트림에서 시그널링되는, 스케일 인수 대역들(110)에 관련되는 스케일 인수들(112), 또는 상기 스펙트럼(34)이 코딩되는(164) 데이터 스트림의 선형 예측 계수들(162)을 통해 시그널링되는 선형 예측 스펙트럼 포락선을 통해 제어되는 스펙트럼적으로 변하고 신호-적응적인 양자화 스텝 크기를 이용하여, 노이즈-채움 후에 파생되는, 상기 스펙트럼(34)을 역양자화(dequantize)(132; 174)하고,
상기 오디오 신호의 스펙트럼의 인접 스펙트럼 제로-부분들을 식별하도록(70) 그리고 식별된 인접 스펙트럼 제로-부분들에 노이즈 채움을 적용하며,
함수가 상기 각 인접 스펙트럼 제로-부분에 한정되도록 각 인접 스펙트럼 제로-부분의 너비에 의존하며, 상기 오디오 신호의 조성이 증가하는 경우, 함수의 매스(mass)가 각 인접 스펙트럼 제로-부분의 내부에서 더 빽빽해지고 각 인접 스펙트럼 제로-부분의 외곽 모서리들로부터 멀어지도록 상기 오디오 신호의 조성에 의존하는, 함수 집합(80)과 함께 스펙트럼적으로 성형된 노이즈로 상기 오디오 신호의 스펙트럼의 인접 스펙트럼 제로-부분을 각각 채우도록 구성되는, 장치.
제1항에 있어서,
상기 스펙트럼이 스펙트럼적 전체 방식(spectrally global manner)으로 코딩되는 데이터 스트림에서 시그널링되는 스칼라 전체 노이즈 레벨(scalar global noise level)을 이용하여 인접 스펙트럼 제로-부분들이 채워지는 노이즈를 스케일링(scale)하도록 구성되는, 장치.
제1항에 있어서,
랜덤 또는 의사-랜덤(pseudo random) 처리를 이용하여 또는 패칭(patching)을 이용하여, 상기 인접 스펙트럼 제로-부분들이 채워지는 노이즈를 발생시키도록 구성되는, 장치.
제1항에 있어서,
상기 데이터 스트림 내에서 코딩되는 코딩 매개변수로부터 조성을 유도하도록 구성되는, 장치.
제4항에 있어서,
코딩 매개변수가 LTP(장기 예측) 또는 TNS (시간적 노이즈 성형) 실시가능 플래그 또는 이득 및/또는 스펙트럼 재배치 실시가능 플래그로 구성되며, 상기 스펙트럼 재배치 실시가능 플래그는 양자화된 스펙트럼 값들이 데이터 스트림 내에서 추가적으로 재배치 방안을 전송하는 것과 함께 스펙트럼적으로 재배치되는 것에 따른 코딩 옵션을 시그널링하는, 장치.
제1항에 있어서,
상기 오디오 신호의 스펙트럼의 고-주파수 스펙트럼 부분에 노이즈 채움의 성능을 제한하도록 구성되는, 장치.
제1항에 있어서,
데이터 스트림에서 명시적 시그널링에 대응하는 고주파수 스펙트럼 부분의 저주파수 시작 위치를 설정하도록 구성되는, 장치.
제1항에 있어서,
상기 노이즈 채움을 수행하는 데 있어, 상기 오디오 신호의 스펙트럼을 코딩하는데 이용되는 프리-엠퍼시스에 의해 야기되는 스펙트럼 경사에 대응하기 위해 스펙트럼 로-패스 필터의 전달 함수를 근사하여, 노이즈의 레벨이 저주파수로부터 고주파수까지의 감소를 보이는 노이즈로 스펙트럼(34)의 인접 스펙트럼 제로-부분들(40)을 채우도록 구성되는, 장치.
제8항에 있어서,
상기 프리-엠퍼시스의 프리-엠퍼시스 인수에 대해 상기 감소의 기울기를 적응시키도록(adapt) 구성되는, 장치.
제1항 내지 제9항 중 어느 한 항에 따른 장치를 포함하는 노이즈 채움을 지원하는 오디오 디코더.
제1항 내지 제10항 중 어느 한 항에 따른 장치; 및
상기 장치에 의해 제공되는 노이즈가 채워진 스펙트럼이 스펙트럼 지각적 가중 함수를 이용하는 스펙트럼 성형의 대상이 되도록 구성되는 주파수 영역 노이즈 성형기;를 포함하는, 지각적 변환 오디오 디코더.
제1항 내지 제11항 중 어느 한 항에 따른 장치를 포함하는 노이즈 채움을 지원하는 오디오 인코더에 있어서, 합성 분석(analysis-by-synthesis)을 위해, 상기 장치에 의해 노이즈로 채워지는 스펙트럼을 이용하도록 구성되는, 오디오 인코더.
오디오 신호의 스펙트럼을 데이터 스트림으로 양자화하고 코딩하고,
상기 오디오 신호의 조성에 의존하는 방식으로, 상기 오디오 신호의 스펙트럼에 노이즈 채움을 수행하기 위한 스펙트럼적 전체 노이즈 채움 레벨을, 상기 데이터 스트림으로 설정하고 코딩하도록 구성되는, 노이즈 채움을 지원하는 오디오 인코더에 있어서,

상기 인코더는, 상기 스펙트럼적 전체 노이즈 채움 레벨을 설정하고 코딩하는 데 있어, 상기 오디오 신호의 조성에 의존하여 스펙트럼적으로 형성되는, 상기 스펙트럼(34)의 인접 스펙트럼 제로-부분들(40) 내의 오디오 신호의 레벨을 측정하도록 구성되며,

함수가 상기 각 인접 스펙트럼 제로-부분에 한정되도록 각 인접 스펙트럼 제로-부분의 너비에 의존하며, 상기 오디오 신호의 조성이 증가하는 경우, 함수의 매스(mass)가 각 인접 스펙트럼 제로-부분의 내부에서 더 빽빽해지고 각 인접 스펙트럼 제로-부분의 외곽 모서리들로부터 멀어지도록 상기 오디오 신호의 조성에 의존하는, 함수 집합(80)을 이용하여,

상기 오디오 신호의 스펙트럼(34)의 인접 스펙트럼 제로-부분들(40)이 스펙트럼적으로 성형되는, 노이즈 채움을 지원하는 오디오 인코더.
제13항에 따른 오디오 인코더에 있어서, 상기 측정은 실효치(root mean square)인, 오디오 인코더.
제13항에 있어서,
상기 인코더는 선형 예측 스펙트럼 포락선에 따른 스펙트럼적으로 변화하고 신호-적응적인 양자화 스텝 크기를 이용하여 상기 스펙트럼(34)을 양자화하고, 데이터 스트림의 선형 예측 계수들(162)을 통해 선형 예측 스펙트럼 포락선을 시그널링하며, 상기 데이터 스트림으로 상기 스펙트럼(34)를 인코딩하도록 구성되는, 오디오 인코더.
제13항에 있어서,
스케일 인수 대역들(110)에 관련된 스케일 인수들(112)에 따른 스펙트럼적으로 변화하고 신호-적응적인 양자화 스텝 크기를 이용하여 상기 스펙트럼(34)을 양자화하고, 데이터 스트림으로 상기 스케일 인수들을 시그널링하며, 상기 데이터 스트림으로 상기 스펙트럼(34)를 인코딩하도록 구성되는, 오디오 인코더.
제13항에 있어서,
상기 오디오 신호의 스펙트럼을 코딩하는데 이용되는 코딩 매개변수로부터 상기 조성을 유도하도록 구성되는, 오디오 인코더.
오디오 신호의 조성에 의존하는 방식으로 오디오 신호의 스펙트럼(34)에 노이즈 채움을 수행하는 단계를 포함하는 방법에 있어서,
상기 방법은, 상기 스펙트럼(34)이 코딩되는 데이터 스트림에서 시그널링되는, 스케일 인수 대역들(110)에 관련되는 스케일 인수들(112), 또는 상기 스펙트럼(34)이 코딩되는(164) 데이터 스트림의 선형 예측 계수들(162)을 통해 시그널링되는 선형 예측 스펙트럼 포락선을 통해 제어되는 스펙트럼적으로 변하고 신호-적응적인 양자화 스텝 크기를 이용하여, 노이즈-채움 후에 파생되는, 상기 스펙트럼(34)을 역양자화(dequantize)(132; 174)하는 단계;

상기 오디오 신호의 스펙트럼의 인접 스펙트럼 제로-부분들을 식별하고(70) 식별된 인접 스펙트럼 제로-부분들에 노이즈 채움을 적용하는 단계; 및

함수가 상기 각 인접 스펙트럼 제로-부분에 한정되도록 각 인접 스펙트럼 제로-부분의 너비에 의존하며, 상기 오디오 신호의 조성이 증가하는 경우, 함수의 매스(mass)가 각 인접 스펙트럼 제로-부분의 내부에서 더 빽빽해지고 각 인접 스펙트럼 제로-부분의 외곽 모서리들로부터 멀어지도록 상기 오디오 신호의 조성에 의존하는, 함수 집합(80)과 함께 스펙트럼적으로 성형된 노이즈로 상기 오디오 신호의 스펙트럼의 인접 스펙트럼 제로-부분을 각각 채우는 단계;를 포함하는 방법.
노이즈 채움을 지원하는 오디오 인코딩 방법에 있어서,
상기 방법은, 데이터 스트림으로 오디오 신호의 스펙트럼을 양자화하고 코딩하는 단계 및 상기 오디오 신호의 조성에 의존하는 방식으로 오디오 신호의 스펙트럼에 노이즈 채움을 수행하기 위해 스펙트럼적 전체 노이즈 채움 레벨을, 상기 데이터 스트림으로 설정하고 코딩하는 단계를 포함하며,

상기 스펙트럼적 전체 노이즈 채움 레벨을 설정하고 코딩하는 단계는, 상기 오디오 신호의 조성에 의존하여 스펙트럼적으로 형성되는, 상기 스펙트럼(34)의 인접 스펙트럼 제로-부분들(40) 내의 오디오 신호의 레벨을 측정하는 단계를 포함하며,

함수가 상기 각 인접 스펙트럼 제로-부분에 한정되도록 각 인접 스펙트럼 제로-부분의 너비에 의존하며, 상기 오디오 신호의 조성이 증가하는 경우, 함수의 매스(mass)가 각 인접 스펙트럼 제로-부분의 내부에서 더 빽빽해지고 각 인접 스펙트럼 제로-부분의 외곽 모서리들로부터 멀어지도록 상기 오디오 신호의 조성에 의존하는, 함수 집합(80)을 이용하여,

상기 오디오 신호의 스펙트럼(34)의 인접 스펙트럼 제로-부분들(40)이 스펙트럼적으로 성형되는, 노이즈 채움을 지원하는 오디오 인코딩 방법.
컴퓨터 상에서 구동될 때, 제18항 또는 제19항에 따른 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램을 저장한 컴퓨터 판독가능 매체.