KR20160030193A

KR20160030193A - 지능형 갭 필링 프레임워크 내의 2-채널 프로세싱을 이용한 오디오 인코더, 오디오 디코더 및 관련 방법들

Info

Publication number: KR20160030193A
Application number: KR1020167001755A
Authority: KR
Inventors: 사샤 디쉬; 프레드리크 나겔; 랄프 가이거; 발라지 나겐드란 토슈카나; 콘스탄틴 슈미트; 스테판 바이어; 크리스티안 노이캄; 베른트 에들러; 크리스티안 헴리히
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2013-07-22
Filing date: 2014-07-15
Publication date: 2016-03-16
Also published as: CN111554310A; SG11201600494UA; US10311892B2; US20200082841A1; MX362036B; US20210217426A1; EP3723091B1; US10347274B2; EP3407350B1; WO2015010952A1; ZA201601046B; US20210295853A1; JP6310074B2; AU2014295295B2; RU2016105613A; CA2918524C; CA2973841C; CN105518776B; ES2813940T3; EP3025328A1

Abstract

디코딩된 2-채널 신호를 발생시키는 장치에 있어서, 제1스펙트럼 부분들의 제1세트를 얻기 위해 인코딩된 2-채널 신호를 디코딩하는 오디오 프로세서(802); 제2스펙트럼 부분들에 대해 제1 또는 제2의 상이한 2-채널 표현을 각각 식별하는 2-채널 식별 및 제2스펙트럼 부분들의 제2세트에 대한 파라미터 데이터를 제공하는 파라미터 디코더(804); 제2부분에 대한 2-채널 식별 및 제2부분에 대한 파라미터 데이터, 제1스펙트럼 부분들의 제1세트의 제1스펙트럼 부분에 의존하여 제2스펙트럼 부분을 재생하는 주파수 재생기(806);를 포함하는, 디코딩된 2-채널 신호를 발생시키는 장치.

Description

지능형 갭 필링 프레임워크 내의 2-채널 프로세싱을 이용한 오디오 인코더, 오디오 디코더 및 관련 방법들{AUDIO ENCODER, AUDIO DECODER AND RELATED METHODS USING TWO-CHANNEL PROCESSING WITHIN AN INTELLIGENT GAP FILLING FRAMEWORK}

본 발명은 오디오 코딩/디코딩에 관한 것으로서, 특히 지능형 갭 필링(Intelligent Gap Filling, IGF)을 사용하는 오디오 코딩에 관한 것이다.

오디오 코딩은 음향심리학적 지식을 사용하여 오디오 신호들 내의 중복과 무관성(irrelevancy)의 이용을 처리하는 신호 압축의 도메인이다. 오늘날 오디오 코덱들은 일반적으로 거의 모든 종류의 오디오 신호의 지각적 투명 코딩(perceptually transparent coding)을 위하여 약 60 kbps/채널이 필요하다. 새로운 코덱들은 대역폭 확장(BWE)과 같은 기술들을 사용하여 신호 내의 스펙트럼 유사성들을 이용함으로써 코딩 비트레이트를 감소시키는 것을 목표로 한다. 대역폭 확장 전략은 오디오 신호의 고주파수 성분들을 표현하기 위하여 낮은 비트레이트 파라미터 설정을 사용한다. 고주파수 스펙트럼은 저주파수 영역들과 스펙트럼 형상, 틸드 및 원래 신호의 음색(timbre)과 색(color)을 유지하도록 조정된 시간 지속성으로부터 스펙트럼 콘텐츠로 채워진다. 그러한 대역폭 확장 방법들은 오디오 코덱들이 약 24 kbps/채널의 낮은 비트레이트에서도 뛰어난 품질을 유지하는 것을 가능하게 한다.

오디오 신호들의 저장 또는 전송은 종종 엄격한 비트레이트 제약(bitrate constraint)의 대상의 된다. 과거에, 코더들은 매우 낮은 비트레이트만이 이용가능할 때 전송된 오디오 대역폭을 극적으로 감소시키도록 강요당했다.

현대 오디오 코덱들은 오늘날 대역폭 확장 방법들을 사용함으로써 광대역 신호들을 코딩할 수 있다([1]). 이러한 알고리즘들은 고주파수 콘텐츠의 파라미터 표현에 의존하는데, 이는 고주파수 스펙트럼 영역("패칭(patching)") 내로의 전위(transposition) 및 파라미터 구동 후처리의 적용에 의해 디코딩된 신호의 파형 코딩된 저주파수로부터 발생된다. 대역폭 확장 전략들에서, 주어진 이른바 크로스오버 주파수(cross-over frequency) 위의 고주파수 스펙트럼 영역의 재구성은 종종 스펙트럼 패칭을 기초로 한다. 일반적으로, 고주파수 영역은 다수의 인접한 패치로 분해되고 이러한 패치들 각각은 주어진 크로스오버 주파수 아래의 저주파수 스펙트럼의 대역-통과(band-pass, BP) 영역들로부터 근원된다. 최신 시스템들은 소스(source)로부터 표적 영역으로 인접한 부대역 계수들을 복사함으로써 필터뱅크 표현, 예를 들면 직각 대칭 필터(Quadrature Mirror Filter, QMF) 내에서 패칭을 실행한다.

압축 효율을 증가시키고 이에 의해 낮은 비트레이트에서 확장된 오디오 대역폭을 가능하게 하는 오늘날의 오디오 코덱들에서 발견되는 또 다른 기술은 오디오 스펙트럼의 적합한 부분들의 파라미터 구동 합성 대체(parasmeter driven synthetic replacement)이다. 예를 들면, 원래 오디오 신호의 잡음(noise) 같은 신호 부분들은 디코더 내에서 발생되고 부가 정보 파라미터들에 의해 스케일링되는 인공 잡음에 의한 주관적 품질의 실질적 손실 없이 대체될 수 있다. 일례가 MPEG-4 고급 오디오 코딩(AAC)에 포함되는 지각적 잡음 대체(perceptual noise substitution)이다([5]).

또한 확장된 오디오 대역폭을 가능하게 하는 또 다른 제공은 MPED-D 통합 음성 오디오 코딩(Unified Speech and Audio Coding, USAC) 내에 포함된 잡음 필링(noise filling) 기술이다([7]). 너무 거친(coarse) 양자화에 기인하여 양자화기(quantizer)의 사각지대(dead-zone)에 의해 추론되는 스펙트럼 갭들(제로들)은 그 뒤에 디코더 내의 인공 잡음으로 채워지고 파라미터-구동 후-처리에 의해 스케일링된다.

또 다른 최신 시스템은 정확한 스펙트럼 대체(Accurate Spectral Replacement, ASR)이다([2-4]). 파형 코덱에 더하여, 정확한 스펙트럼 대체는 디코더에서 신호의 지각적으로 중요한 정현파(sinusoidal) 부분들을 저장하는 전용 신호 합성 단계를 이용한다. 또한, [5]에서 설명되는 시스템은 낮은 비트레이트에서 적절한 지각 품질을 갖는 확장된 오디오 대역폭을 가능하게 하기 위하여 파형 코더의 고주파수 영역 내의 정현파 모델링에 의존한다. 이러한 모든 방법은 변형 이산 코사인 변환(MDCT)을 제외하고 제 2 도메인 내로의 데이터의 변환을 포함하며 또한 고주파수 정현파 성분들의 보존을 위한 상당히 복잡한 분석/합성 단계들을 포함한다.

도 13a는 예를 들면, 고효율 고급 오디오 코딩에서 사용되는 갓과 같은, 대역폭 확장 기술을 위한 오디오 인코더의 개략적인 다이어그램을 도시한다. 라인(1300)에서의 오디오 신호는 저역 통과(low pass,(1302) 및 고역 통과(1304)를 포함하는 필터 시스템 내로 입력된다. 고역 통과 필터(1304)에 의해 출력되는 신호는 파라미터 추출기/코더(1306) 내로 입력된다. 파라미터 추출기/코더(1306)는 예를 들면, 스펙트럼 엔벨로프 파라미터, 잡음 첨가 파라미터, 손실 고조파(missing harmonics) 파라미터, 또는 역 필터링 파라미터와 같은 파라미터들을 계산하고 코딩하도록 구성된다. 이러한 추출된 파라미터들은 비트 스트림 멀티플렉서(1308) 내로 입력된다. 저역 통과 출력 신호는 일반적으로 다운 샘플러(down sampler, 1310) 및 코어 코더(1312)의 기능성을 포함하는 프로세서 내로 입력된다. 저역 통과(1302)는 대역폭이 라인(1300) 상의 원래 입력 오디오 신호에서 발생하는 것보다 상당히 작은 대역폭으로 인코딩되도록 제한한다. 이는 코어 코더에서 발생하는 전체 기능이 감소된 대역폭을 갖는 신호 상에서 운용하여야만 한다는 사실에 기인하여 중요한 코딩 이득을 제공한다. 예를 들면 라인(1300) 상의 오디오 신호의 대역폭이 20 ㎑이고 저역 통과 필터(1302)가 바람직하게는 4 ㎑의 대역폭을 가질 때, 샘플링 정리(sampling theorem)을 충족시키기 위하여, 다운 샘플러 뒤의 신호는 적어도 40 ㎑이어야만 하는 오디오 신호(1300)를 위하여 필요한 샘플링 레이트에 대한 실질적인 감소인, 8 ㎑의 샘플링 주파수를 갖는 것이 이론적으로 충분하다.

도 13b는 상응하는 대역폭 확장 디코더의 개략적인 다이어그램을 도시한다. 디코더는 비트스트림 멀티플렉서(1320)를 포함한다. 비트스트림 디멀티플렉서(1320)는 코더 디코더(1322)를 위한 입력 신호 및 파라미터 디코더(1324)를 위한 입력 신호를 포함한다. 코어 디코더 출력 신호는 위의 예에서, 8 ㎑의 샘플링 레이트, 따라서 4 ㎑의 대역폭을 가지며 반면에 완전한 대역폭 재구성을 위하여, 고주파수 재구성기(1330)의 출력 신호는 적어도 40 ㎑의 샘플링 레이트를 필요로 하는 20 ㎑에 존재하여야만 한다. 이를 가능하게 하기 위하여, 업샘를러(upsampler, 1325)와 필터뱅크(1326)의 기능성을 갖는 디코더 프로세서가 필요하다. 고주파수 재구성기(1330)는 그리고 나서 필터뱅크(1326)에 의해 주파수 분석된 저주파수 신호 출력을 수신하고 고주파수 대역의 파라미터 표현을 사용하여 도 13a의 고역 통과 필터(1304)에 의해 정의되는 주파수 범위를 재구성한다. 고주파수 재구성기(1330)는 저주파수 범위 내의 소스 범위를 사용하여 상부 주파수 범위의 재생, 스펙트럼 엔벨로프 조정, 잡음 첨가 기능 및 상부 주파수 범위 내에 손실 고조파를 도입하기 위한 기능과 같은 몇몇 기능을 가지며 만일 도 13a의 인코더 내에 적용되고 계산되면, 고주파수 범위가 일반적으로 낮은 주파수 범위만큼 음조(tonal)가 아니라는 것을 설명하기 위하여 역 필터링의 작동을 갖는다. 고효율 고급 오디오 코딩에서, 손실 고조파는 디코더 면 상에서 재합성되고 정확하게 재구성 대역의 중간에 위치된다. 따라서, 특정 재구성 대역 내에서 결정된 모든 손실 고조파 라인은 원래 신호 내에 위치된 주파수 값들에 위치되지 않는다. 대신에, 그러한 손실 고조파 라인들은 특정 대역의 중앙 내의 주파수들에 위치된다. 따라서, 원래 신호 내의 손실 고조파 라인이 원래 신호의 재구성 대역 경계와 매우 가깝게 위치되었을 때, 이러한 손실 고조파를 대역의 중앙에서 재구성된 신호 내에 위치시킴으로써 도입되는 주파수 내의 오류는 파라미터들이 발생되고 전송된, 개별 재구성 대역의 50%에 가깝다.

게다가, 일반적인 오디오 코어 코더들이 스펙트럼 도메인 내에서 운용하더라도, 코어 디코더는 그럼에도 불구하고 그때 다시 필터 뱅크(1326) 기능성에 의해 스펙트럼 도인으로 전환되는, 시간 도메인 신호를 발생시킨다. 이는 부가적인 처리 지연을 도입하고, 처음에 스펙트럼 도메인으로부터 주파수 도메인으로 변환하고 다시 일반적으로 서로 다른 주파수 도메인으로 변환하는 이중 처리(tanden processiong)에 기인하는 아티팩트(artifact)들을 도입할 수 있으며, 물론 이는 상당한 양의 계산 복잡도 및 이에 의에 대역폭 확장이 휴대폰, 태블릿 또는 랩톱 컴퓨터 등과 같은 모바일 장치에 적용될 때 문제가 되는, 전력을 필요로 한다.

현재 오디오 코덱들은 코딩 전략의 구성 요소로서 대역폭 확장을 사용하여 낮은 비트레이트 오디오 코딩을 실행한다. 대역폭 확장 기술들은 고주파수 콘텐츠만을 대체하도록 한정된다. 게다가, 주어진 크로스오버 주파수 위의 지각적으로 중요한 콘텐츠가 파형 코딩되도록 허용하지 않는다. 따라서, 현재의 오디오 코덱들은 대역폭 확장이 구현될 때 고주파 상세부분 또는 음색을 손실하는데, 그 이유는 신호의 음조 고조파의 정확한 정렬이 대부분의 시스템에서 고려되지 않기 때문이다.

현재 기술의 대역폭 확장 시스템들의 또 다른 단점은 오디오 신호의 대역폭 확장의 구현을 위한 새로운 도메인으로의 변환(예를 들면, 변형 이산 코사인 변환(MDCT)으로부터 직각 대칭 필터(QMF) 도메인으로의 변환)을 위한 필요성이다. 이는 동기화의 복잡성, 부가적인 계산 복잡도 및 증가되는 메모리 요구량에 이르게 한다.

2-채널 쌍들의 경우에, 기본적으로 개별 채널 표현 또는 연결 채널 표현 같은 몇개의 채널 표현들이 존재한다. 잘 알려진 연결 표현은 미드/사이드(mid/side) 표현으로 미드 채널은 왼쪽 및 오른쪽 채널의 합이며 사이드 채널은 왼쪽 및 오른쪽 채널 사이의 차이이다.

또다른 표현은 다운믹스 채널 및 잔류 채널 및 상기 다운믹스 및 상기 잔류물로부터 왼쪽 및 오른쪽 채널을 재생성(recreate)하는 것을 가능케하는 추가 예측 계수이다. 개별 표현은, 이러한 경우에, 개별 채널 왼쪽 및 오른쪽 또는 일반적으로, 제1채널 및 제2채널이 될 것이다.

게다가, 갭 필링 작업들을 위한 소스 범위가 강한 상관관계(correlation)를 가지고, 반면 타겟 범위는 이러한 강한 상관을 보이지 않는 경우가 존재한다. 소스 범위가, 이러한 실시예에서, 코어 주파수 부분에 대한 비트레이트를 감소시키기 위해 미드/사이드 표현 같은 제1스테레오 표현을 이용하여 인코딩될 때, 잘못된 2-채널 이미지가 복원 부분 또는 타겟 범위에 대해 발생되게 된다. 다른 한편으로, 상기 소스 범위가 어떠한 상관관계도 보이지 않고 또는 아주 작은 상관관계만을 갖고 상기 타겟 범위가 작은 상관관계를 갖거나 상관관계를 갖지 않는 경우, 다시 간단한 갭 필링 작업은 아티팩트들을 도출할 것이다.

그렇기에, 본 발명의 목적은 2-채널 표현들에 대한 향상된 인코딩/디코딩 개념을 제공하는 것이다.

본 발명의 목적은 청구항 1항의 오디오 디코더, 청구항 14항의 오디오 인코더, 청구항 19항의 오디오 디코딩 방법, 청구항 20항의 오디오 디코딩 방법, 또는 청구항 21항의 컴퓨터 프로그램에 의해 달성된다.

또 다른 양상은 상관관계 상황이 소스 범위를 위하여 중요할 뿐만 아니라 표적 범위를 이해서도 중요하다는 사실을 기초로 한다. 게다가, 본 발명은 소스 범위와 표적 범위에서 서로 다른 상관관계 상황이 발생할 수 있다는 사실을 인식한다. 예를 들면, 높은 주파수 잡음을 갖는 음성 신호가 고려될 때, 상황은 스피커가 중간에 위치될 때 적은 수의 배음(overtone)을 갖는 음성 신호를 포함하는 저주파수 대역이 왼쪽 채널 및 오른쪽 채널과 높은 상관관계에 있을 수 있다는 것이다. 그러나, 고주파수 부분은 또 다른 고주파수 잡음과 비교하여 왼쪽 면 상에 서로 다른 고주파수 잡음이 존재할 수 있거나 또는 오른쪽 면 상에 어떠한 고주파수 잡음도 존재하지 않을 수 있다는 사실 때문에 매우 비-상관관계일 수 있다. 따라서, 이러한 상황을 무시하는 단순한 갭 필링 운용이 실행될 수 있을 때, 고주파수 부분이 상호관련될 수 있을 뿐만 아니라 이는 재구성되는 신호 내에 심각한 공간적 분리 아티팩트들을 발생시킬 수 있다. 이러한 문제를 다루기 위하여, 재구성 대역, 또는 일반적으로 제 1 스펙트럼 부분들의 제 1 세트를 사용하여 재구성되어야만 하는 제 2 스펙트럼 부분들의 제 2 세트를 위한 파라미터 데이터가 제 2 스펙트럼 대역 또는 달리 표현하여 재구성 대역을 위한 제 1 또는 제 2의 서로 다른 2-채널 표현을 식별하도록 계산된다. 인코더 면 상에서, 따라서 제 2 스펙트럼 부분들, 즉 부가적으로 재구성 대역을 위한 에너지 정보가 계산되는 부분들을 위하여 2-채널 식별이 계산된다. 디코더 면 상의 주파수 재생기는 그리고 나서 제 1 스펙트럼 부분들의 제 1 세트의 제 1 부분, 즉 소스 범위 및 스펙트럼 엔벨로프 에너지 정보 또는 어떠한 다른 스펙트럼 엔벨로프와 같은 제 2 부분을 위한 파라미터 데이터에 의존하고, 부가적으로 제 2 부분, 즉 재고려하에서의 이러한 재구성 대역을 위한 2-채널 식별에 의존하여 제 2 스펙트럼 부분을 재생한다.

2-채널 식별은 바람직하게는 각각의 재구성 대역을 위한 플래그로서 전송되고 이러한 데이터는 인코더로부터 디코더로 전송되며 디코더는 그리고 나서 바람직하게는 코어 대역들을 위하여 계산되는 플래그들에 의해 나타내는 것과 같이 코어 신호를 디코딩한다. 그리고 나서 일 구현에서, 코어 신호는 스테레오 표현들 모두(예를 들면, 왼쪽/오른쪽 및 중간/측면)에 저장되고 지능형 갭 필링 주파수 타일 필링을 위하여, 지능형 갭 필링 또는 재구성 대역들, 즉 표적 범위를 위한 2-채널 식별 플래그들에 의해 나타내는 것과 같이 표적 타일 식별에 적합하도록 소스 타일 표현이 선택된다.

이러한 과정은 스테레오 신호들, 즉 왼쪽과 오른쪽 채널을 위하여 운용할 뿐만 아니라 다중 채널 신호들을 위하여 운용한다. 다중 채널 신호의 경우에 있어서, 몇몇 서로 다른 채널들의 쌍은 제 1 쌍으로서 왼쪽과 오른쪽 채널, 제 2 쌍으로서 왼쪽 서라운드 채널과 오른쪽 서라운드 채널 및 제 3 쌍으로서 중앙 채널과 저주파수 효과(Low Frequency Effects, LFE) 채널과 같은 방법으로 처리될 수 있다. 7.1, 11.1 등과 같은 높은 출력 채널 포맷들을 위하여 다른 쌍(pairing)들이 결정될 수 있다.

또 다른 양상은 한편으로는 대역폭 확장의 분리 및 다른 한편으로는 코어 코딩과 관련된 문제점들이 코어 디코더가 운용하는 동일한 스펙트럼 도메인 내에서 대역폭 확장을 실행함으로써 다루어지고 극복될 수 있다는 사실을 기초로 한다. 따라서, 완전한 오디오 신호 범위를 인코딩하고 디코딩하는 완전 비율 코어 디코더가 제공된다. 이는 인코더-면 상에서의 다운샘플러 및 디코더-면 상에서의 업샘플러에 대한 필요성을 요구하지 않는다. 대신에, 완전한 샘플링 비율 또는 완전한 대역폭 도메인 내에서 전체 처리가 실행된다. 높은 코딩 이득을 획득하기 위하여, 오디오 신호는 높은 해상도로 인코딩되어야만 하는 제 1 스펙트럼 부분들의 제 1 세트를 발견하도록 분석되며, 이러한 제 1 스펙트럼 부분들의 제 1 세트는 일 실시 예에서, 오디오 신호의 음조 부분들을 포함할 수 있다. 다른 한편으로, 제 2 스펙트럼 부분들의 제 2 세트로 구성되는 오디오 신호 내의 비-음조 또는 잡음 성분들은 낮은 스펙트럼 해상도로 파라미터로 인코딩된다. 인코딩된 오디오 신호는 그리고 나서 파형 보존 방식으로 인코딩되는 제 1 스펙트럼 부분들의 제 1 세트 및 부가적으로, 제 1 세트로부터 기원하는 주파수 "타일들"을 사용하여 낮은 해상도로 파라미터로 인코딩되는 제 2 스펙트럼 부분들의 제 2 세트만을 필요로 한다. 디코더 면 상에서, 완전한 대역 디코더인, 코어 디코더는 파형 보존 방식으로, 즉 어떠한 부가적인 주파수 재생이 존재한다는 지식 없이 제 1 스펙트럼 부분들의 제 1 세트를 재구성한다. 그러나, 그렇게 재셍된 스펙트럼은 많은 스펙트럼 갭을 갖는다. 이러한 갭들은 그 뒤에 한편으로는 파라미터 데이터를 적용하고 다른 한편으로는 소스 스펙트럼 범위, 즉 완전 비율 오디오 디코더에 의해 재구성되는 제 1 스펙트럼 부분들을 사용하는 주파수 재생을 사용함으로써 본 발명의 지능형 갭 필링 기술로 채워진다.

또 다른 실시 예들에서, 대역폭 복제 또는 주파수 타일 필링보다는 잡음 필링에 의해서만 재구성되는, 스펙트럼 부분들은 제 3 스펙트럼 부분들의 제 3 세트를 구성한다. 코딩 개념이 한편으로는 코어 코딩/디코딩 및 다른 한편으로는 주파수 재생을 위한 단일 도메인 내에서 운용한다는 사실 때문에, 지능형 갭 필링은 주파수 재생이 없는 잡음 필링 또는 서로 다른 주파수 범위에서 주파수 타일을 사용하는 주파수 재생에 의해, 높은 주파수 범위를 채우도록 제한될 뿐만 아니라 낮은 주파수 범위들을 채울 수 있다.

게다가, 스펙트럼 에너지들에 대한 정보, 개별 에너지들에 대한 정보 또는 개별 에너지 정보, 생존 에너지(survive energy)에 대한 정보 또는 생존 에너지 정보, 타일 에너지에 대한 정보 또는 타일 에너지 정보, 혹은 손실 에너지에 대한 정보 또는 손실 에너지 정보가 에너지 값뿐만 아니라, (예를 들면, 절대) 진폭 값, 레벨 값 또는 최종 에너지 값이 유도될 수 있는 어떠한 다른 값을 포함할 수 있다는 것이 강조된다. 따라서, 에너지에 대한 정보는 예를 들면, 에너지 값 자체 및/또는 레벨의 값 및/또는 진폭 및/또는 절대 진폭을 포함할 수 있다.

또다른 양상은, 예를 들어, 높은 스펙트럼 범위에서 지각적으로 중요한 음조 부분들이 여전히 파라미터 대체보다 코어 코더에 의해 인코딩될 수 있도록, 전체 스펙트럼이 코어 인코더에 접근가능하기 때문에 복원된 신호의 오디오 품질이 IGF(지능형 갭 필링)을 통해 향상될 수 있다는 발견에 기초한다. 추가적으로, 예를 들어, 일반적으로 저주파수 범위뿐만 아니라, 이용가능한 경우 고주파수 범위로부터, 음조 부분들의 세트인, 제1스펙트럼 부분들의 제1세트로부터 주파수 타일들을 이용하는 갭 필링 작업이 수행된다. 그러나, 디코더 측에서 스펙트럼 엔벨로프(포락선) 조정에 대해, 복원 대역에 위치되는 스펙트럼 부분들의 제1세트로부터의 스펙트럼 부분들은, 예를 들어, 스펙트럼 조정에 의해 추가로 후-처리(post-processed)되지 않는다. 코어 디코더로부터 유래되지 않는 복원 대역에서 잔존 스펙트럼 값들만이 엔벨로프 정보를 이용하여 엔벨로프 조정될 것이다. 바람직하게는, 엔벨로프 정보는 복원 대역의 제1스펙트럼 부분들의 제1세트 및 동일 복원 대역의 제2스펙트럼의 제2세트의 에너지를 설명(차지)하는 전체 대역 엔벨로프 정보이며, 여기서 제2스펙트럼 부분들의 제2세트의 나중의(latter) 스펙트럼 값들은 제로(0, zero)로 표시되고, 그래서, 코어 인코더에 의해 인코딩되지 않으나, 저해상도 에너지 정보와 파라미터적으로 코딩된다.

대응 대역의 대역폭에 관해 정규화되거나 정규화되지 않은, 절대 에너지 값들은, 디코더 측에 적용시 유용하고 아주 효율적이라는 것이 발견되었다. 이는 특히 이득 인자(gain factors)가 복원 대역에서 잔류 에너지에 기반하여 계산되어야 할 때, 복원 대역의 손실 에너지 및 복원 대역의 주파수 타일 정보를 적용한다.

인코딩된 비트스트림이 복원 대역들에 대한 에너지 뿐만 아니라, 추가적으로, 게다가, 최대 주파수까지 확장하는 스케일 인수 대역들에 대한 스케일 인수까지 커버하는 것이 바람직하다. 이는 각 복원 대역에 대해, 특정 음조 부분, 즉 제1스펙트럼 부분이 이용가능하다는 것이 보장하며, 제1스펙트럼 부분의 이 제1세트는 실제적으로 올바른 진폭과 디코딩될 수 있다. 게다가, 각 복원 대역에 대한 스케일 인자에 더하여, 이러한 복원 대역에 대한 에너지는 인코더에서 발생되고 디코더에 전송된다. 게다가, 복원 대역이 스케일 인수 대역들과 일치하거나 또는 에너지가 그룹화하는 경우, 복원 대역의 적어도 경계들이 스케일 인수 대역들의 경계들과 일치하는 것이 바람직하다.

또 다른 양상은 오디오 품질 내의 특정 장애가 신호 적응적 주파수 타일 필링 전략을 적용함으로써 개선될 수 있다는 발견을 기초로 한다. 이를 위하여, 특정 표적 영역의 최상의 매칭 소스 영역을 발견하기 위하여 인코더-면에 대한 분석이 실행된다. 표적 영역을 위하여 선택적으로 일부 부가적인 정보와 함께 특정 소스 영역을 식별하는 매칭 정보가 발생되고 부가 정보로서 디코더에 전송된다. 디코더는 그리고 나서 매칭 정보를 사용하여 주파수 타일 필링 운용을 적용한다. 이를 위하여, 디코더는 전송된 데이터 스트림 또는 데이터 파일로부터 매칭 정보를 판독하고 특정 재구성 영역을 위하여 식별된 소스 영역을 액세스하며, 만일 매칭 정보 내에 표시되면, 재구성 대역을 위한 부가적으로 원시 스펙트럼 데이터(raw spectral data)를 발생시키기 위하여 이러한 소스 영역 데이터의 일부 처리를 실행한다. 그리고 나서, 주파수 타일 필링 운용의 이러한 결과, 즉 재구성 대역을 위한 원시 스펙트럼 데이터는 최종적으로 음조 부분들과 같은 제 1 스펙트럼 부분들을 포함하는 재구성 대역을 획득하기 위하여 스펙트럼 엔벨로프 정보를 사용하여 형상화된다. 그러나, 이러한 음조 부분들은 적응적 타일 필링 전략에 의해 발생되지 않으나, 이러한 제 1 스펙트럼 부분들은 오디오 디코더 또는 코어 디코더에 의해 직접적으로 출력된다.

적응적 스펙트럼 타일 선택 전략은 낮은 입상도로 운용할 수 있다. 이러한 구현에서, 소스 영역은 일반적으로 오버래핑 소스 영역들로 세분되고 비-오버래핑 주파수 표적 영역들에 의해 표적 영역 또는 재구성 대역들이 주어진다. 그리고 나서, 디코더-면에서 각각의 소스 영역과 각각의 표적 영역 사이의 유사성들이 결정되고 매칭 정보에 의해 소스 영역과 표적 영역의 최상의 매칭 쌍이 식별되며, 디코더-면 상에서, 재구성 대역을 위한 원시 스펙트럼 데이터를 발생시키기 위하여 매칭 정보 내에 식별된 소스 영역이 사용된다.

높은 입상도를 획득하기 위한 목적으로, 각각의 소스 영역은 유사성들이 최대인 특정 래그(lag)를 획득하기 위하여 이동하도록 허용된다. 이러한 래그는 주파수 빈(bin)만큼 훌륭하고 소스 영역과 표적 영역 사이의 훨씬 더 뛰어난 매칭을 허용한다.

게다가, 최상의 매칭 쌍의 식별에 더하여, 이러한 상관관계 래그는 또한 매칭 정보 내에 전송될 수 있으며 부가적으로,부호(sign)도 전송될 수 있다. 디코더- 면 상에서 부호가 음으로 결정될 때, 상응하는 부호 플래그가 또한 매칭 정보 내에 전송되고, 디코더-면 상에서, 소스 영역 스펙트럼 값들이 "-1"과 곱해지거나 또는 복소수 표현으로, 180도 회전된다.

본 발명의 또 다른 구현은 타일 백색화 운용(tile whitening operation)이다. 스텍트럼의 백색화는 거친 스펙트럼 엔벨로프 정보를 제거하고 타일 유사성의 평가를 위하여 가장 관심 있는 스펙트럼 미세 구조를 강조한다. 따라서, 한편으로는 주파수 타일 및/또는 다른 한편으로는 소스 신호가 상호 상관관계 측정을 계산하기 전에 백색화된다. 타일만이 백색화될 때, 미리 정의된 과정을 사용하여, 동일한 미리 정의된 백색화 과정이 지능형 갭 필링 내의 주파수에 적용되어야만 한다는 것을 디코더에 나타내는 백색화 플래그가 전송된다.

타일 선택과 관련하여, 변환 빈들의 정수(integer number)에 의해 재생된 스펙트럼을 스펙트럼으로 이동시키기 위하여 상관관계의 래그를 사용하는 것이 바람직하다. 근본적인 변환에 의존하여, 스펙트럼 이동은 부가적인 상관관계들을 필요로 할 수 있다. 홀수 래그들의 경우에, 타일은 변형 이산 코사인 변환 내의 모든 다른 대역의 주파수 역전된 표현을 보상하기 위하여 부가적으로 -1/1의 대안의 시간적 시퀀스와의 곱셈을 통하여 조절된다. 게다가, 주파수 타일을 발생시킬 때 상관관계 결과의 부호가 적용된다.

게다가, 동일한 재구성 영역 또는 표적 영역을 위한 소스 영역들의 고속 변화에 의해 생성되는 아티팩트들이 방지되는 것을 확인하기 위하여 타일 전지작업(tile pruning)과 안정화를 사용하는 것이 바람직하다. 이를 위하여, 서로 다른 식별된 소스 영역들 중에서 유사성 분석이 실행되고 소스 타일이 한계를 넘는 유사성을 갖는 다른 소스 타일들과 유사할 때, 이러한 소스 타일은 잠재적 소스 타일들의 세트로부터 떨어질 수 있는데 그 이유는 이것이 다른 소스 타일들과 높은 상관관계를 갖기 때문이다. 게다가, 타일 선택 안정화의 한 종류로서, 만일 현재 프레임 내의 어떠한 소스 타일도 현재 프레임 내의 표적 타일들과 전혀 관련되지 않으면, 이전 프레임으로부터 타일 순서를 유지하는 것이 바람직하다.

본 발명은 고주파수 재구성을 갖는 시간적 잡음 형상화(Temporal Noise Shaping, TNS) 또는 시간적 타일 형상화(TTS) 기술을 결합함으로써 오디오 신호들 내에 빈번히 발생됨에 따라 특히 트랜지언트 부분들을 포함하는 신호들을 위한 향상된 품질과 감소된 비트레이트가 획득된다는 사실을 기초로 한다. 주파수에 대한 예측에 의해 구현되는 인코더 면 상의 시간적 잡음 형상화/시간적 타일 형상화 처리는 오디오 신호의 시간 엔벨로프를 재구성한다. 구현에 따라, 즉, 시간적 잡음 형상화 필터가 소스 주파수 범위뿐만 아니라 주파수 재생 디코더 내에 재구성되려는 표적 주파수 범위를 포함하는 주파수 범위 내에서 결정될 때, 시간적 엔벨로프는 갭 필링 개시 주파수까지 코어 오디오 신호에 적용될 뿐만 아니라, 시간적 엔벨로프는 또한 재구성되는 제 2 스펙트럼 부분들의 스펙트럼 범위들에 적용된다. 따라서, 시간적 터일 형상화 없이 발생할 수 있는 전-에코들 또는 후-에코들 이 감소되거나 또는 제거된다. 이는 특정 갭 필링 개시 주파수까지의 코어 주파수 범위 내에서뿐만 아니라 코어 주파수 범위 위의 주파수 범위 내에서도 적용함으로써 달성된다. 이를 위하여, 주파수에 대한 예측을 적용하기 전에 디코더 면 상에서 주파수에 대한 역 예측을 적용함으로써 주파수 재생 또는 주파수 타일 재생이 실행된다. 그러나, 주파수에 대한 예측은 필터링 뒤의 스펙트럼 잔류 값들 또는 엔벨로프 형성화 이전의 (완전한) 스펙트럼 값들 상에서 에너지 정보 계산이 실행되었는지에 따라 스펙트럼 엔벨로프 형상화 이전에 또는 그 뒤에 적용될 수 있다.

하나 또는 그 이상의 주파수 타일에 대한 시간적 타일 형상화 처리는 소스 범위와 재구성 범위 사이 혹은 두 인접한 재구성 범위 또는 주파수 타일 내의 상관관계의 지속성을 수립한다.

일 구현에서, 복소수 시간적 잡음 형상화/시간적 타일 형상화 필터링을 사용하는 것이 바람직하다. 이에 의해, 변형 이산 코사인 변환 같은 중요하게 샘플링된 실제 표현의 시간적 얼라이싱 아티팩트들이 방지된다. 복소수 시간적 잡음 형상화 필터는 게다가 복소수 변형 변환을 획득하기 위하여 변형 이산 코사인 변환뿐만 아니라 변형 이산 사인 변환을 적용함으로써 인코더-면 상에서 계산될 수 있다. 그럼에도 불구하고, 변형 이산 코사인 변환, 즉 복소수 변환의 실수 부분만이 전송된다. 그러나 디코더-면 상에서, 선행 또는 뒤따르는 프레임들의 변형 이산 코사인 변환 스펙트럼을 사용하여 변환의 허수 부분을 추정하는 것이 가능하며, 따라서 디코더-면 상에서, 복소 필터(complex filter)가 다시 주파수에 대한 역 예측 및, 특히 소스 범위와 재구성 범위 사이의 경계 및 재구성 범위 내의 주파수 인접한 주파수 타일들 사이의 경계에 대한 예측에서도 다시 적용될 수 있다.

발명의 오디오 코딩 시스템은 광범위한 비트레이트들에서 임의 오디오 신호들을 효율적으로 코딩한다. 반면에, 높은 비트레이트를 위하여, 본 발명의 시스템은 투명성(transparency)에 집중되는데, 그 이유는 낮은 비트레이트 지각걱 어노이언스(annoyance)가 최소화되기 때문이다. 따라서, 이용가능한 비트레이트의 주된 공유는 인코더 내의 신호의 바로 지각적으로 가장 관련 있는 구조를 파형 코딩하도록 사용되고, 결과로서 생기는 스펙트럼 갭들은 원래 스펙트럼과 대략 근사치인 신호 콘텐츠를 갖는 디코더 내에 채워진다. 인코더로부터 디코더로 전송되는 전용 부가 정보에 의해 파라미터 구동되는 이른바 스펙트럼 지능형 갭 필링을 제어하기 위하여 매우 제한된 비트 예산(bit budget)이 소모된다.

본 발명의 바람직한 실시 예들이 첨부된 도면들을 참조하여 이후에 설명된다.
도 1a는 오디오 신호를 인코딩하기 위한 장치를 도시한다.
도 1b는 도 1a의 인코더와 매칭하는 인코딩된 오디오 신호를 디코딩하기 위한 장치를 도시한다.
도 2a는 디코더의 바람직한 일 구현을 도시한다.
도 2b는 인코더의 바람직한 일 구현을 도시한다.
도 3a는 도 1b의 스펙트럼 도메인 디코더에 의해 발생된 것과 같은 스펙트럼의 개략적 표현을 도시한다.
도 3b는 스케일 인자 대역들을 위한 스케일 인자들과 재구성 대역들을 위한 에너지들 및 잡음 필링 대역을 위한 잡음 필링 정보 사이의 관계를 나타내는 테이블을 도시한다.
도 4a는 스펙트럼 부분들의 제 1 및 제 2 세트 내로 스펙트럼 부분의 선택을 적용하기 위한 스펙트럼 도메인 인코더의 기능을 도시한다.
도 4b는 도 4a의 기능의 일 구현을 도시한다.
도 5a는 변형 이산 코사인 변환 인코더의 기능을 도시한다.
도 5b는 변형 이산 코사인 변환 기술을 갖는 디코더의 기능을 도시한다.
도 5c는 주파수 재생기의 일 구현을 도시한다.
도 6a는 시간적 잡음 형상화/시간적 타일 형상화 기능을 갖는 오디오 코더를 도시한다.
도 6b는 시간적 잡음 형상화/시간적 타일 형상화 기술을 갖는 디코더를 도시한다.
도 6c는 서로 다른 순서의 스펙트럼 예측 필터 및 스펙트럼 형상화기(spectral shaper)를 갖는 시간적 잡음 형상화/시간적 타일 형상화 기능의 또 다른 기능을 도시한다.
도 7a는 시간적 타일 형상화 기능의 일 구현을 도시한다.
도 7b는 도 7a이 인코더 구현과 매칭하는 디코더 구현을 도시한다.
도 7c는 시간적 타일 형상화 없이 원래 신호 및 확장된 신호의 스펙트로그램을 도시한다.
도 7d는 지능형 갭 필링 주파수들과 시간적 타일 형상화 에너지들 사이의 상응성을 나타내는 주파수 표현을 도시한다.
도 7e는 시간적 타일 형상화를 갖는 원래 신호 및 확장된 신호의 스펙트로그램을 도시한다.
도 8a는 주파수 재생을 갖는 2-채널 디코더를 도시한다.
도 8b는 서로 다른 표현들의 조합 및 소스/목적지(destination) 범위들을 나타내는 테이블을 도시한다.
도 8c는 도 8a의 주파수 재생을 갖는 2-채널 디코더의 기능을 나타내는 플로우 차트를 도시한다.
도 8d는 도 8a의 디코더의 더 상세한 구현을 도시한다.
도 8e는 도 8a의 디코더에 의해 디코딩되는 2-채널 처리를 위한 인코더의 일 구현을 도시한다.
도 9a는 재생 주파수 범위를 위한 에너지 값들을 사용하는 주파수 재생 기술을 갖는 디코더를 도시한다.
도 9b는 도 9a의 주파수 재생의 더 상세한 구현을 도시한다.
도 9c는 도 9b의 기능을 개략적으로 도시한다.
도 9d는 도 9a의 디코더의 또 다른 구현을 도시한다.
도 10a는 도 9a의 디코더와 매칭하는 인코더의 블록 다이어그램을 도시한다.
도 10b는 도 10a의 파라미터 계산기의 또 다른 기능을 나타내기 위한 블록 다이어그램을 도시한다.
도 10c는 도 10a의 파라미터 계산기의 또 다른 기능을 나타내는 블록 다이어그램을 도시한다.
도 10d는 도 10a의 파라미터 계산기의 또 다른 기능을 나타내는 블록 다이어그램을 도시한다.
도 11a는 디코더 내의 스펙트럼 타일 필링 운용을 위한 특정 소스 범위식별을 갖는 또 다른 디코더를 도시한다.
도 11b는 도 11a의 주파수 재생기의 또 다른 기능을 도시한다.
도 11c는 도 11a의 디코더와 협력하도록 사용되는 인코더를 도시한다.
도 11d는 도 11c의 파라미터 계산기의 일 구현의 블록 다이어그램을 도시한다.
도 12a 및 12b는 소스 범위 및 주파수 범위를 나타내기 위한 주파수 스케치(frequency sketch)들을 도시한다.
도 12c는 두 신호들의 일례의 상관관계의 플롯을 도시한다.
도 13a는 대역폭 확장을 갖는 종래 기술의 인코더를 도시한다.
도 13b는 대역폭 확장을 갖는 종래 기술의 디코더를 도시한다.

도 1a는 오디오 신호(99)를 인코딩하기 위한 장치를 도시한다. 오디오 신호(99)는 샘플링 레이트를 갖는 오디오 신호를 시간 스펙트럼 변환기(time spectrum converter)에 의해 출력되는 스펙트럼 표현(101)으로 변환하기 위한 시간 스펙트럼 변환기(100) 내로 입력된다. 스펙트럼(101)은 스펙트럼 표현(101)을 분석하기 위하여 스펙트럼 분석기(102) 내로 입력된다. 스펙트럼 분석기(102)는 제 1 스펙트럼 해상도로 인코딩되려는 제 1 스펙트럼 부분들(103)의 제 1 세트 및 제 2 스펙트럼 해상도로 인코딩되려는 제 2 스펙트럼 부분들(105)의 다른 제 2 세트를 결정하도록 구성된다. 제 2 스펙트럼 해상도는 제 1 스펙트럼 해상도보다 작다. 제 2 스펙트럼 부분들(105)의 제 2 세트는 제 2 스펙트럼 해상도를 갖는 스펙트럼 엔벨로프 정보를 계산하기 위한 파라미터 계산기 또는 파라미터 코더(104) 내로 입력된다. 게다가, 제 1 스펙트럼 해상도를 갖는 제 1 스펙트럼 부분들의 제 1 인코딩된 표현을 발생시키기 위하여 스펙트럼 도메인 오디오 코더(105)가 제공된다. 게다가, 파라미터 계산기/파라미터 코더(106)가 제 2 스펙트럼 부분들의 제 2 세트의 제 2 인코딩된 표현을 발생시키도록 구성된다. 제 1 인코딩된 표현(107)과 제 2 인코딩된 표현(109)은 비트 스트림 멀티플렉서 또는 비트 스트림 포머(108) 내로 입력되고 블록(108)이 최종적으로 저장 장치 상으로의 전송 또는 저장을 위하여 인코딩된 오디오 신호를 출력한다.

일반적으로, 도 3a의 306과 같은 제 1 스펙트럼 부분은 307a, 307b와 같은 두 개의 제 2 스펙트럼 부분에 의해 둘러싸일 것이다. 이는 코어 코더 주파수 범위가 대역 제한적인 고효율 고급 오디오 코딩에서는 그렇지 않다.

도 1b는 도 1a의 인코더와의 디코더 매칭을 도시한다. 제 1 인코딩된 표현(107)은 제 1 스펙트럼 부분들이 제 1 세트의 제 1 디코딩된 표현을 발생시키기 위하여 스펙트럼 도메인 오디오 디코더(112) 내로 입력되며, 디코딩된 표현은 제 1 스펙트럼 해상도를 갖는다. 게다가, 제 2 인코딩된 표현(109)은 제 1 스펙트럼 해상도보다 낮은 제 2 스펙트럼 해상도를 갖는 제 2 스펙트럼 부분들의 제 2 세트의 제 2 디코딩된 표현을 발생시키기 위하여 파라미터 디코더(114) 내로 입력된다.

디코더는 제 1 스펙트럼 부분을 사용하여 제 1 스펙트럼 해상도를 갖는 재구성된 제 2 스펙트럼 부분을 발생시키기 위한 주파수 재생기(116)를 더 포함한다. 주파수 재생기(116)는 타일 필링 운용을 실행하는데, 즉 타일 또는 제 1 스펙트럼 부분들이 제 1 세트를 사용하고 이러한 제 1 스펙트럼 부분들이 제 1 세트를 제 2 스펙트럼 부분을 갖는 재구성 범위 또는 재구성 대역 내로 복사하며 일반적으로 파라미터 디코더(114)에 의해, 즉 제 2 스펙트럼 부분들의 제 2 세트에 대한 정보를 사용함으로써 출력된 디코딩된 제 2 표현에 의해 나타낸 것과 같이 스펙트럼 엔벨로프 형상화 또는 다른 운용을 실행한다. 라인(117) 상기 주파수 재생기(116)의 출력에서 나타내는 것과 같이 제 1 스펙트럼 부분들의 디코딩된 제 1 세트 및 스펙트럼 부분들의 재구성된 제 2 세트는 제 1 디코딩된 표현과 재구성된 제 2 스펙트럼 부분을 시간 표현(119)으로 변환하도록 구성되는 스펙트럼-시간 변환기(118) 내로 입력되며, 시간 표현은 특정한 높은 샘플링 레이트를 갖는다.

도 2b는 도 1a의 인코더의 일 구현을 도시한다. 오디오 입력 신호(99)는 도 1a의 시간 스펙트럼 변환기(100)와 상응하는 분석 필터뱅크(220) 내로 입력된다. 그리고 나서, 시간적 잡음 형상화 블록(222) 내에서 시간적 잡음 형상화 운용이 실행된다. 따라서, 도 2b의 블록 음조 마스크(226)와 상응하는 도 1a의 스펙트럼 분석기(102) 내로의 입력은 시간적 잡음 형상화/시간적 타일 형상화 운용이 적용되지 않을 때 완전한 스펙트럼 값들일 수 있거나 또는 도 2b에 도시된 것과 같이 시간적 잡음 형상화 운용 블록(222)이 적용될 때, 스펙트럼 잔류 값들일 수 있다. 2-채널 신호들 또는 다중 채널 신호들을 위하여, 조인트 채널 코딩(228)이 부가적으로 실행될 수 있으며, 따라서 도 1a의 스펙트럼 도메인 인코더(106)는 조인트 채널 코딩 블록(228)을 포함할 수 있다. 게다가, 또한 도 1a의 스펙트럼 도에인 인코더(106)의 일부분인, 무손실 데이터 압축을 실행하기 위한 엔트로피 코더(232)가 제공된다.

스펙트럼 분석기/음조 마스크(226)는 시간적 잡음 형상화 블록(222)의 출력을 제 1 스펙트럼 부분들(103)의 제 1 세트와 상응하는 코어 대역과 음조 성분들 및 도 1a의 제 2 스펙트럼 부분들(105)의 제 2 세트와 상응하는 잔류 성분들로 분리한다. 지능형 갭 필링 파라미터 추출 인코딩으로서 표시되는 블록(224)은 도 1a의 파라미터 코어(104)와 상응하고 비트스트림 멀티플렉서(230)는 도 1a의 비트스트림 멀티플렉서(108)와 상응한다.

바람직하게는, 분석 필터뱅크(222)는 변형 이산 코사인 변환 필터뱅크로서 구현되고 변형 이산 코사인 변환 필터뱅크는 주파수 분석 공구로서 작용하는 변형 이산 코사인 변환으로 신호(99)를 시간-주파수 도메인으로 변환시키도록 사용된다.

스펙트럼 분석기(226)는 바람직하게는 음조성 마스크(tonality mask)를 적용한다. 음조성 마스크 추정 단계는 신호 내의 잡음 유사 성분들로부터 음조 성분들을 분리하도록 사용된다. 이는 코어 코더(228)가 모든 음조 성분을 음향심리학적 모듈로 인코딩하도록 허용한다. 음조성 마스크 추정 단계는 다양한 서로 다른 방법들로 구현될 수 있고 바람직하게는 음성/오디오 코딩을 위한 사인 및 잡음-모델링([8, 9]) 또는 [10]에서 설명되는 HILN(Harmonic and Individual Line plus Noise) 모델 기반 오디오 코더에서 사용된다. 바람직하게는, 출생-사망 궤도를 dnb지할 필요 없이 구현하기에 쉬운 구현이 사용되나, 다른 음조성 또는 잡음 검출기가 또한 사용될 수 있다.

지능형 갭 필링 모듈은 소스 영역과 표적 영역 사이에 존재하는 유사성을 계산한다. 표적 영역은 소스 영역으로부터의 스펙트럼에 의해 표현될 것이다. 소스 및 표적 영역 사이의 유사성의 측정은 상호 상관관계 접근법을 사용하여 수행된다. 표적 영역은 nTar 비-오버래핑 주파수 타일들로 분할된다. 표적 영역 내의 모든 타일을 위하여, 고정된 시작 주파수(start frequency)로부터 nSrc 소스 타일들이 생성된다. 이러한 소스 타일들은 0과 1 사이의 인자에 의해 오버래핑되는데, 0은 0% 오버랩을 의미하고 1은 100% 오버랩을 의미한다. 이러한 소스 타일들 각각은 표적 타일과 최적으로 매칭하는 소스 타일을 찾기 위하여 다양한 래그에서 표적 타일과 상호 연관된다.

최적으로 매칭하는 타일 수는 tileNum[idx_tar] 내에 저장되고, 표적과 가장 상호 관련되는 래그는 xcorr_lag[idx_tar][idx_src] 내에 저장되며 상관관계의 부호는 xcorr_sign[idx_tar][idx_src] 내에 저장된다. 상관관계가 고도로 음성일 때, 소스 타일은 디코더에서의 타일 필링 과정 전에 -1로 곱해질 필요가 있다. 지능형 갭 필링 모듈은 또한 스펙트럼 내의 음조 성분들의 비-오버라이팅(overwriting)을 처리하는데, 그 이유는 음조 성분들이 음조성 마스크를 사용하여 보존되기 때문이다. 스펙트럼을 정확하게 재구성하는 것을 가능하게 하는 표적 영역을 에너지를 저장하기 위하여 대역 방법 에너지 파라미터가 사용된다.

이러한 방법은 다중-톤(tone) 신호의 고조파 그리드(grid)가 코어 코더에 의해 보존되며 정현파들 사이의 갭들이 소스 영역으로부터 최적으로 매칭하는 "형상화된 잡음"에 의해 보존된다는 점에서 고전적인 스펙트럼 대역 복제([1])에 대하여 특정 장점을 갖는다. ASR과 비교하여 이러한 시스템의 또 다른 장점은 디코더에서 신호의 중요한 부분을 생성하는 신호 합성 단계의 부재이다. 대신에, 이러한 작업은 스펙트럼의 중요한 성분들의 보존을 가능하게 하는, 코어 코더에 의해 발생된다. 제안된 시스템의 또 다른 장점은 특징들이 제공하는 지속적인 확장성(scalability)이다. tileNum[idx_tar] 및 xcorr_lag=0만의 사용은 모든 타일을 위하여 총 입상도 매칭으로 불리고 변수 xcorr_lag를 사용하는 동안에 낮은 비트레이트를 위하여 사용될 수 있고 모든 타일을 위하여 표적 및 소스 스펙트럼을 더 잘 매칭하는 것을 가능하게 한다.

게다가, 트릴링(trilling)과 음악 잡음과 같은 주파수 도메인 아티팩트들을 제거하는 타일 선택 안정화 기술이 제안된다.

스테레오 채널 쌍들의 경우에 부가적인 조인트 스테레오 과정이 적용된다. 이는 특정 도착지 범위를 위하여 신호가 고도로 상관된 패닝된(panned) 음원을 할 수 있기 때문에 필요하다. 이러한 특정 영역을 위하여 선택된 소스 영역들이 상관관계를 잘 갖지 않는 경우에 있어서, 공간적 이미지는 비-상관된 소스 영역들 때문에 악화될 수 있다. 인코더는 일반적으로 스펙트럼 값들의 상호 상관관계를 실행하는, 각각의 목적지 영역 에너지 대역을 분석하고 만일 특정 한계값이 초과되면, 이러한 에너지 대역을 위한 조인트 플래그를 설정한다. 디코더에서 왼쪽 및 오른쪽 채널 에너지 대역은 만일 이러한 조인트 스테레오 플래그가 설정되지 않으면, 개별적으로 처리된다. 조인트 스테레오 플래그가 설정된 경우에 있어서, 에너지들과 패칭 모두 조인트 스테레오 도메인 내에서 실행된다. 지능형 갭 필링 영역들을 위한 조인트 스테레오 정보는 예측이 경우에 예측의 방향이 다운믹스로부터 잔류로 되거나 이와 반대인지를 나타내는 플래그를 포함하는, 코어 코딩을 위한 조인트 스테레오 정보와 유사하게 시그널링된다.

에너지들은 왼쪽/오른쪽 도메인 내의 전송된 에너지들로부터 계산될 수 있다.

midNrg[k] = leftNrg[k] + rightNrg[k];

sideNrg[k] = leftNrg[k] - rightNrg[k];

여기서 k는 변환 도메인 내의 주파수 지수이다.

도 다른 해결책은 조인트 스테레오가 활성인 대역들을 위하여 조인트 스테레오 도메인 내에서 직접적으로 에너지들을 계산하고 전송하는 것이며, 따라서 디코더 면에서 어떠한 부가적인 변환도 필요하지 않다.

소스 타일들은 항상 중면(mid/side) 매트릭스에 따라 생성된다:

midTile[k] = 0.5·(leftTile[k] + rightTile[k])

sideTile[k] = 0.5·(leftTile[k] - rightTile[k])

*에너지 조정:

midTile[k] = midTile[k] * midNrg[k];

sideTile[k] = sideTile[k] * sideNrg[k];

조인트 스테레오 → LR 변환

만일 어떠한 부가적인 예측 파라미터도 코딩되지 않으면:

leftTile[k] = midTile[k] + sideTile[k]

rightTile[k] = midTile[k] - sideTile[k]

만일 부가적인 예측 파라미터가 코딩되고 시그널링된 방향이 중간으로부터 측면이면:

sideTile[k] = sideTile[k] - predictionCoeff·midTile[k]

leftTile[k] = midTile[k] + sideTile[k]

leftTile[k] = midTile[k] - sideTile[k]

만일 시그널링된 방향이 측면으로부터 중간이면:

midTile[k] = midTile[k] - predictionCoeff·sideTile[k]

leftTile[k] = midTile[k] - sideTile[k]

leftTile[k] = midTile[k] + sideTile[k]

이러한 과정은 고도로 상관관계인 목적지 영역들과 패닝된 목적지 영역들을 발생시키기 위하여 사용되는 타일들로부터, 결과로서 생기는 왼쪽과 오른쪽 채널들은 만일 소스 영역들이 상관되지 않더라도, 여전히 상관되고 패닝된 음원을 표현하는 것을 보장하며, 그러한 영역들을 위한 스테레오 이미지를 보존한다.

바꾸어 말하면, 비트스트림 내에서, 일반적인 조인트 스테레오 코딩을 위한 예로서 왼쪽/오른쪽 또는 중/면이 사용되어야만 하는지를 나타내는 조인트 스테레오 플래그들이 전송된다. 디코더에서, 첫 번째로, 코어 신호가 코어 대역들을 위한 조인트 스테레오 플래그들에 의해 나타낸 것과 같이 디코딩된다. 두 번째로, 코어 신호는 오른쪽/왼쪽 및 중간/측면 모두에 저장된다, 지능형 갭 필링 타일 필링을 위하여, 지능형 갭 필링 대역들을 위한 조인트 스테레오 정보에 의해 나타낸 것과 같이 표적 타일 표현에 맞추기 위하여 소스 타일 표현이 선택된다.

시간적 잡음 형상화는 표준 기술이고 고급 오디오 코딩의 일부분이다([11-13]). 시간적 잡음 형상화는 필터뱅크와 양자화 단계 사이의 선택적 초리 단계를 삽입하는, 지각적 코더의 기본 전략의 확장으로서 고려될 수 있다. 시간적 잡음 형상화 모듈의 주요 작업은 트랜지언트 유사 신호들의 시간적 마스킹 영역 내에 생산된 양자화 잡음을 감추는 것이며 따라서 이는 더 효율적인 코딩 전략에 이르게 한다. 우선, 시간적 잡음 형상화는 변환 도메인 내의 "순방향 예측", 예들 들면 변형 이산 코사인 변환을 사용하여 예측 계수들의 세트를 계산한다. 이러한 계수들은 그리고 나서 신호의 시간적 엔벨로프를 평탄화(flattening)하기 위하여 사용된다. 양자화가 시간적 잡음 형상화 필터링된 스펙트럼에 영향을 미치기 때문에, 양자화 잡음이 시간적으로 편평하다. 디코더 면 상에 역 시간적 잡음 형상화를 적용함으로써, 양자화 잡음이 시간적 잡음 형상화 필터의 시간적 엔벨로프에 따라 형상화되고 따라서 양자화 잡음이 트랜지언트에 의해 마스킹된다.

지능형 갭 필링은 변형 이산 코사인 변환 표현을 기초로 한다. 효율적인 코딩을 위하여, 바람직하게는 약 20 ms의 긴 블록들이 사용되어야만 한다. 만일 그러한 긴 블록 내의 신호가 트랜지언트들을 포함하면, 타일 필링에 기인하여 지능형 갭 필링 스펙트럼 대역들 내에 가청(audible) 전- 및 후-에코들이 발생한다. 도 7c는 지능형 갭 필링에 기인하는 트랜지언트 개시 전에 일반적인 전-에코 효과를 도시한다. 왼쪽 면 상에, 원래 신호의 스펙트로그램이 도시되고 오른쪽 면 상에 시간적 잡음 형상화 필터링 없는 대역폭 확장된 신호의 스펙트로그램이 도시된다.

전-에코 효과는 지능형 갭 필링 콘텍스트 내의 시간적 잡음 형상화를 사용하여 감소된다. 여기서, 시간적 잡음 형상화는 시간적 타일 형상화로서 사용되는데 그 이유는 디코더 내의 스펙트럼 재생이 시간적 잡음 형상화 잔류 신호 상에서 실행되기 때문이다. 일반적으로 인코더 면 상에서 완전한 스펙트럼을 사용하여 필요한 시간적 타일 형상화 예측 계수들이 계산되고 적용된다. 시간적 잡음 형상화/시간적 타일 형상화 시작 및 중단 주파수(stop frequency)들은 지능형 갭 필링 공구의 지능형 갭 필링 시작 주파수(f_IGFstart)에 의해 영향을 받지 않는다. 레거시 시간적 잡음 형상화와 비교하여, 시간적 타일 형상화 중단 주파수는 지능형 갭 필링 공구의 중단 주파수로 중가되며, 이는 지능형 갭 필링 시작 주파수보다 높다. 디코더 면 상에서 시간적 잡음 형상화/시간적 타일 형상화 계수들이 완전한 스펙트럼 상에 다시 적용되는데, 즉 코어 스펙트럼 플러스 재생된 스펙트럼 플러스 음조성 맵으로부터의 음조 성분들이다(도 7e 참조). 시간적 타일 형상화의 적용은 원래 신호의 엔벨로프를 다시 매칭하기 위하여 재생된 스펙트럼의 시간적 엔벨로프를 형성하는데 필요하다. 따라서 도시된 전-에코들이 감소된다. 게다가, 시간적 잡음 형상화에서와 같이 지능형 갭 필링 시작 주파수 아래의 신호 내에 여전히 양자화 잡음을 형상화한다.

레거시 디코더들에서, 오디오 신호에 대한 스펙트럼 패칭은 패치 경계들에서 스펙트럼 상관관계에 오류를 발생시키고 이에 의해 분산(dispersion)을 도입함으로써 오디오 신호의 시간적 엔벨로프를 손상시킨다. 따라서, 잔류 신호 상의 지능형 갭 필링 타일 필링 실행의 또 다른 혜택은 형상화 필터의 적용 후에 타일 경계들이 균일하게 상관되고, 신호의 더 신뢰할 수 있는 시간적 재생을 야기한다는 것이다.

본 발명의 인코더에서, 명기된 시간적 잡음 형상화/시간적 타일 형상화를 갖는 스펙트럼, 음조성 마스크 처리 및 지능형 갭 필링 파라미터 추정은 음조 성분들을 제외하고 지능형 갭 필링 시작 주파수 위의 어떠한 신호도 없다. 이러한 희소 스펙트럼은 이제 산술 코딩과 예측 코딩의 원리들을 사용하여 코어 코더에 의해 코딩된다. 시그널링 비트들과 함께 이러한 코딩된 성분들은 오디오의 비트스트림을 형성한다.

도 2a는 상응하는 디코더 구현을 도시한다. 인코딩된 오디오 신호와 상응하는 도 2a의 비트스트림은 도 1b와 관련하여 블록들(112 및 114)에 연결될 수 있는 디멀티플렉서/디코더 내로 입력된다. 비트스트림 디멀티플렉서는 입력 오디오 신호를 도 1b의 제 1 인코딩된 표현(107) 및 도 1b의 제 2 인코딩된 표현(109)의 입력 오디오 신호로 분리한다. 제 1 스펙트럼 부분들의 제 1 세트를 갖는 제 1 인코딩된 표현은 도 1b의 스펙트럼 도메인 디코더와 상응하는 조인트 채널 디코딩 블록(204) 내로 입력된다. 제 2 인코딩된 표현은 도 2a에 도시되지 않은 파라미터 디코더(114) 내로 입력되고 그리고 나서 제 1b의 주파수 재생기(116)와 상응하는 지능형 갭 필링 블록(202) 내로 입력된다. 주파수 재생을 위하여 필요한 제 1 스펙트럼 부분들의 제 1 세트는 라인(203)을 거쳐 지능형 갭 필링 블록(202) 내로 입력된다. 게다가, 음조 마스크의 출력이 스펙트럼 도메인 디코더(112)의 출력과 상응하도록 조인트 채널 디코딩(204) 뒤에 특정 코어 디코딩이 음조 마스크 블록(206) 내에 적용된다. 그리고 나서, 결합기(208)에 의한 결합, 즉 결합기(208)의 출력이 이제 완전 범위 스펙트럼을 가지나, 여전히 시간적 잡음 형상화/시간적 타일 형상화 필터링된 도메인 내에 존재하는 프레임 빌딩이 실행된다. 그리고 나서, 블록(210)에서, 라인(109)을 통하여 제공되는 시간적 잡음 형상화/시간적 터일 형상화 정보를 사용하여 역 시간적 잡음 형상화/시간적 터일 형상화 운용이 실행되는데, 즉 시간적 타일 형상화 부가 정보는 바람직하게는 예를 들면 간단한 고급 오디오 코딩 또는 통합 음성 오디오 코딩일 수 있는, 스펙트럼 도메인 인코더(106)에 의해 발생되는 제 1 인코딩된 표현 내에 포함되거나, 또는 제 2 인코딩된 표현 내에 포함될 수 있다. 블록(210)의 출력에서, 최대 주파수까지 원래 입력 신호의 샘플링 레이트에 의해 정의되는 완전 범위 주파수인, 완전한 스펙트럼이 제공된다. 그리고 나서, 최종적으로 오디오 출력 신호를 획득하기 위하여 합성 필터뱅크(212) 내에서 스펙트럼/시간 변환이 실행된다.

도 3a는 스펙트럼의 개략적인 표현을 도시한다. 스펙트럼은 도 3a에 도시된 예에서 7개의 스케일 인자 대역(SCB1 내지 SCB7)이 존재하는 스케일 인자 대역(SCB)들로 세분된다. 스케일 인자 대역들은 고급 오디오 코딩 표준에서 정의되고 도 3에 개략적으로 도시된 것과 같이 상부 주파수들까지 증가하는 대역폭을 갖는 고급 오디오 코딩 스케일 인자일 수 있다. 스펙트럼의 바로 시작부터, 즉 낮은 주파수들에서 지능형 갭 필링을 실행하는 것이 아니고, 309에 도시된 지능형 갭 필링 시작 주파수에서 지능형 갭 필링 운용을 시작하는 것이 바람직하다. 따라서, 코어 주파수 대역은 스펙트럼 최저 주파수로부터 지능형 갭 필링 주파수로 확장한다. 지능형 갭 필링 시작 주파수 위에서, 제 2 스펙트럼 부분들의 제 2 세트에 의해 표현되는 낮은 해상도 성분들로부터 높은 해상도 스펙트럼 성분들(304, 305, 306, 307, 제 1 스펙트럼 부분들의 제 1 세트)을 분리하기 위하여 스펙트럼 분석이 적용된다. 도 3a는 바람직하게는 스펙트럼 도메인 인코더(106) 또는 조인트 채널 코더(228) 내로 입력되는 스펙트럼을 도시하는데, 즉 코어 인코더는 완전한 범위 내에서 운용하나, 상당한 양의 제로 스펙트럼 값들을 인코딩하는데, 즉 이러한 제로 스펙트럼 값들은 0으로 양자화되거나 또는 양자화 전에 양자화 뒤에 0으로 설정된다. 어쨌든, 코어 인코더는 완전한 범위 내에서 운용하는데, 즉 스펙트럼이 도시된 것과 같을 수 있으며, 즉 코어 디코더는 어떠한 지능형 갭 필링 또는 낮은 스펙트럼 해상도를 갖는 제 2 스펙트럼 부분들의 제 2 세트의 인코딩을 반드시 지각할 필요는 없다.

바람직하게는, 높은 해상도는 변형 이산 코사인 변환 라인들과 같은 스펙트럼 라인들의 라인 방식 코딩에 의해 정의되며, 제 2 해상도 또는 낮은 해상도는 예를 들면, 스케일 인자 대역 당 하나의 단일 스펙트럼 값을 계산함으로써 정의되는데, 스케일 인자는 일부 주파수 라인들을 포함한다. 따라서, 제 2 낮은 해상도는 그것의 스펙트럼 해상도와 관련하여, 일반적으로 고급 오디오 코딩 또는 통합 음성 오디오 코딩 코어 인코더와 같은 코어 인코더에 의해 적용되는 라인 방식 코딩에 의해 정의되는 제 1 또는 높은 해상도보다 훨씬 낮다.

스케일 인자 또는 에너지 계산과 관련하여, 상황이 도 3b에 도시된다. 인코더가 코어 인코더라는 사실 때문에, 그리고 각각의 대역 내의 스펙트럼 부분들의 제 1 세트의 성분들일 수는 있으나 반드시 그럴 필요는 없다는 사실 때문에, 코어 인코더는 지능형 갭 필링 시작 주파수(309) 아래뿐만 아니라, 샘플링 주파수의 반, 즉 f_s _/2와 유사하거나 또는 동일한 최대 주파수(f_IGFstop)까지 지능형 갭 필링 시작 주파수 위의 코어 범위 내의 각각의 대역을 위한 스케일 인자를 계산한다. 따라서, 도 3a의 인코딩된 음조 부분들(302, 304, 305, 306, 307)은 본 실시 예에서는 스케일 인자들(SCB1 내지 SCB7)과 함께 높은 해상도 스펙트럼 데이터와 상응한다. 낮은 해상도 스펙트럼 데이터는 지능형 갭 필링 시작 주파수로부터 시작하여 계산되며 스케일 인자들(SCB1 내지 SCB7)과 함께 전송되는, 에너지 정보 값들(E₁, E_2, E₃, E₄)과 상응한다.

특히, 코어 인코더가 낮은 비트레이트 상태 하일 때, 코어 대역, 즉 지능형 갭 필링 시작 주파수보다 주파수가 낮은, 즉 스케일 인자 대역들(SCB1 내지 SCB7) 내에서 부가적인 잡음-필링 운용이 적용될 수 있다. 디코더 면 상에서, 0으로 양자화된 이러한 값들은 재합성되고 재합성된 스펙트럼 값들은 도 3b의 308에 도시된 NF₂와 같은 잡음-필링 에너지를 사용하여 그것들의 진폭 내에서 조정된다. 특히 통합 음성 오디오 코딩에서와 같이 스케일 인자와 관련하여 절대 항들 또는 상대 항들 내에서 주어질 수 있는 잡음-필링 에너지는 0으로 양자화된 스펙트럼 값들의 세트의 에너지와 상응한다. 이러한 잡음-필링 스펙트럼 라인들은 또한 소스 범위와 에너지 정보(E₁, E_2, E₃, E₄)로부터 스펙트럼 값들을 사용하여 주파수 타일들을 재생하기 위하여 다른 주파수들로부터 주파수 타일들을 사용하는 주파수 재생에 의존하는 어떠한 지능형 갭 필링 운용 없이 간단한 잡음-필링 합성에 의해 재생되는 제 3 스펙트럼 부분들의 제 3 세트로서 고려될 수 있다.

바람직하게는, 에너지 정보가 계산되는 대역들은 스케일 인자 대역들과 일치한다. 다른 실시 예들에서, 에너지 정보 값 그룹화(grouping)가 적용되며 따라서 예를 들면 스케일 인자 대역들(4 및 5)을 위하여, 단일 에너지 정보 값만이 전송되나, 본 실시 예서도 그룹화된 재구성 대역들의 경계들은 스케일 인자 대역들의 경계들과 일치한다. 만일 서로 다른 대역 분리가 적용되면, 특정 재-계산들 또는 동기화 계산들이 적용될 수 있으며, 이는 특정 구현에 따라 이해할 수 있다.

바람직하게는, 도 1a의 스펙트럼 도메인 인코더(106)는 도 4a에 도시된 것과 같이 음향심리학적으로 구동되는 인코더이다. 일반적으로, 예를 들면 MPEG2/4 고급 오디오 코딩 표준 또는 MPEG1/2 계층 3 표준에서 나타내는 것과 같이, 스펙트럼 범위(도 4a의 401)로 변환된 후에 인코딩되려는 오디오 신호는 스케일 인자 계산기(400)로 전달된다. 스케일 인자 계산기는 부가적으로 인코딩되려는 오디오 신호를 수신하거나 또는 MPEG1/2 계층 3 또는 MPEG 고급 오디오 코딩 표준에서와 같이 오디오 신호의 복소수 스펙트럼 신호를 수신하는 음향심리학적 모델에 의해 제어된다. 음향심리학적 모델은 각각의 스케일 인자 대역을 위하여, 음향 심리학적 한계를 표현하는 스케일 인자를 계산한다. 부가적으로, 시간 인자들은 그리고 나서, 잘 알려진 내부 또는 외부 반복 루프들에 이하거나 또는 어떠한 다른 적절한 인코딩 과정에 의해 특정 비트레이트 상태들이 충족되도록 조정된다. 그리고 나서 한편으로는 양자화되려는 스펙트럼 값들 및 다른 한편으로는 계산된 스케일 인자들이 양자화기 프로세서(404) 내로 입력된다. 간단한 오디오 인코더 운용에서, 양자화되려는 스펙트럼 값들은 스케일 인자들에 의해 가중되고, 가중된 스케일 스펙트럼 값들은 그리고 나서 일반적으로 상부 진폭 범위들에 대하여 압축 기능을 갖는 고정된 양자화기 내로 입력된다. 그리고 나서, 양자화기 프로세서의 출력에서 일반적으로 인접한 주파수 값들을 위한 제로-양자화 지수들의 세트, 또는 종래에 제로 값들의 런(run)"으로 불린 것과 같은, 특이적이고 매우 효율적인 코딩을 갖는 엔트로피 인코더 내로 전달되는 양자화 지수들이 존재한다.

그러나, 도 1a의 오디오 인코더에서, 양자화기 프로세서는 일반적으로 스펙트럼 분석기로부터 제 2 스펙트럼 부분들에 대한 정보를 수신한다. 따라서, 양자화기 프로세서(404)는 양자화기 프로세서(404)의 출력에 있어서, 스펙트럼 분석기(102)에 의해 정의되는 것과 같이 제 2 스펙트럼 부분들이 0이거나 또는 특히 스펙트럼 내에 제로 값들의 "런"이 존재할 때, 매우 효율적으로 코딩될 수 있는 제로 표현으로서 인코더 또는 디코더에 의해 인정되는 표현을 갖도록 한다.

도 4b는 양자화기 프로세서의 일 구현을 도시한다. 변형 이산 코사인 변환 스펙트럼 값들은 제로 블록(410)으로의 설정 세트 내로 입력될 수 있다. 그리고 나서, 제 2 스펙트럼 부분들은 블록(412) 내에서 스펙트럼 인자들에 의한 가중 이전에 이미 0으로 설정된다. 부가적인 구현에서, 블록(410)은 제공되지 않으나, 가중 블록(412) 뒤의 블록(418)에서 0으로의 설정 협력이 실행된다. 또 다른 구현에서, 양자화 블록(420) 내에서의 양자화 뒤에 0으로의 설정 블록(422) 내에서 0으로의 설정 운용이 또한 실행될 수 있다. 이러한 구현에서, 블록들(410 및 413)은 존재하지 않을 수 있다. 일반적으로, 특정 구현에 따라 블록들(410, 418, 422) 중 적어도 하나가 제공된다.

그리고 나서, 블록(422)의 출력에서, 도 3a에 도시된 것과 상응하는 양자화된 스펙트럼이 획득된다. 양자화된 스펙트럼은 그리고 나서 허프만 코더(Huffman coder) 또는 예를 들면 통합 음성 오디오 코딩 표준에서 정의되는 것과 같은 산술 코더일 수 있는, 도 2b의 232와 같은 엔트로피 코더 내로 입력된다.

대안으로서 서로 또는 병렬로 제공되는 0으로의 설정 블록들(410, 418, 422)은 스펙트럼 분석기(424)에 의해 제어된다. 스펙트럼 분석기는 바람직하게는 잘 알려진 음조성 검출기의 어떠한 구현을 포함하거나 또는 스펙트럼을 높은 해상도로 인코딩되려는 성분들과 낮은 해상도로 인코딩되려는 성분들로 분리하도록 운용되는 어떠한 다른 종류의 검출기를 포함한다. 스펙트럼 분석기에서 구현되는 그러한 다른 알고리즘들은 보이스 활성 검출기(voice activity detector), 잡음 검출기, 음성 검출기 또는 서로 다른 스펙트럼 부분들을 위한 해상도 요구사항에 대한 스펙트럼 정보 또는 관련 메타데이터에 따라 결정하는 어떠한 다른 검출기일 수 있다.

도 5a는 예를 들면 고급 오디오 코딩 또는 통합 음성 오디오 코딩에서 구현되는 것과 같은, 도 1a의 시간 스펙트럼 변환기(100)의 바람직한 구현을 도시한다. 시간 스펙트럼 변환기(100)는 트랜지언트 검출기(504)에 의해 제어되는 윈도우어(windower, 502)를 포함한다. 트랜지언트 검출기(504)가 트랜지언트를 검출할 때, 긴 윈도우들로부터 짧은 윈도우들로의 전환(switchover)이 윈도우어에 시그널링된다. 윈도우어(502)는 그리고 나서 블록들의 오버래핑을 위하여, 윈도우잉된(windowed) 프레임들을 계산하는데, 각각의 윈도우잉된 프레임은 일반적으로 2048 값들과 같은 두 개의 N 값을 갖는다. 그리고 나서, 블록 변환기(506) 내의 변환이 실행되고, 이러한 블록 변환기는 일반적으로 부가적으로 대시메이션(decimation)을 제공하며, 따라서 변형 이산 코사인 변환 스펙트럼 값들과 같은 N 값들을 갖는 스펙트럼 프레임을 획득하기 위하여 결합된 데시메이션/변환이 실행된다. 따라서, 긴 윈도우 운용을 위하여, 블록(506)의 입력에서의 프레임은 2048 값들과 같은 두 개의 N 값을 포함하고 스펙트럼 프레임은 그때 1024 값들을 갖는다. 그러나, 그리고 나서 8개의 짧은 블록이 실행될 때 짧은 블록들로의 전환이 실행되며 각각의 짧은 블록은 긴 윈도우와 비교하여 1/8 윈도우잉된 시간 도메인을 갖고 각각의 스펙트럼 블록은 긴 블록과 비교하여 1/8 스펙트럼 값들을 갖는다. 따라서, 데시메이션이 윈도우어의 50% 오버랩 운용과 결합될 때, 스펙트럼은 시간 도메인 오디오 신호(99)의 중요하게 샘플링된 버전이다.

그 뒤에, 더 1b의 주파수 재생기(118) 및 스펙트럼-시간 변환기(118), 또는 도 2a의 블록들(208, 212)의 운용의 특정 구현을 도시한 도 5b가 참조된다. 도 5b에서, 도 3a의 스케일 인자 대역(6)과 같은 특정 재구성 대역이 고려된다. 이러한 재구성 대역 내의 제 1 스펙트럼 부분, 즉 도 3a의 제 1 스펙트럼 부분(306)은 프레임 빌더(frame builder)/조정기 블록(510) 내로 입력된다. 게다가, 스케일 인자 대역(6)을 위한 재구성된 제 2 스펙트럼 부분이 또한 프레임 빌더/조정기(510) 내로 입력된다. 게다가, 스케일 인자 대역(6)을 위한 도 3b의 E₃과 같은 에너지 정보가 또한 블록(510) 내로 입력된다. 재구성 대역 내의 재구성된 제 2 스펙트럼 부분은 이미 소스 영역을 사용하여 주파수 타일 필링에 의해 발생되었고 재구성 대역은 그리고 나서 표적 범위와 상응한다. 이제, 그리고 나서 예를 들면 도 2a의 결합기(208)의 출력에서 획득된 것과 같은 N 값을 갖는 최종적으로 완전한 재구성된 프레임을 획득하기 위하여 프레임의 에너지 조정이 실행된다. 그리고 나서 블록(512)에서, 예를 들면 블록(512)의 입력에서 124 스펙트럼 값들을 위한 248 시간 도메인 값들을 획득하기 위하여 역 블록 변환/보간(interpolation)이 실행된다. 그리고 나서, 인코딩된 오디오 신호 내의 부가 정보로서 전송된 긴 윈도우/짧은 윈도우 표시에 의해 다시 제어되는 합성 윈도우잉 운용이 실행된다. 그리고 나서 블록(516)에서, 이전 시간 프레임을 갖는 오버랩/애드 운용이 실행된다. 바람직하게는, 변형 이산 코사인 변환은 50% 오버랩을 적용하며, 따라서 2N 값들의 각각의 새로운 시간 프레임을 위하여, N 시간 도메인 값들이 최종적으로 출력된다. 50% 오버랩은 블록(516) 내의 오버랩/애드 운용에 기인하여 하나의 프레임으로부터 그 다음 프레임으로 중요한 샘플링과 지속적인 크로스오버를 제공한다는 사실 때문에 매우 바람직하다.

도 3a의 301에 도시된 것과 같이, 잡음-필링 운용은 부가적으로 도 3a의 스케일 인자 대역과 일치하는 고려된 재구성 대역을 위한 것과 같이 지능형 갭 필링 시작 주파수 아래에서뿐만 아니라 지능형 갭 필링 시작 주파수 위에서도 적용될 수 있다. 그리고 나서, 잡음-필링 스펙트럼 값들은 또한 프레임 빌더/조정기(510) 내로 입력될 수 있고 잡음-필링 스펙트럼 값들의 조정이 또한 이러한 블록 내에 적용될 수 있거나 또는 잡음-필링 스펙트럼 값들은 프레임 빌더/조정기(510) 내로 입력되기 전에 잡음-필링 에너지를 사용하여 이미 조정될 수 있다.

바람직하게는, 지능형 갭 필링 운용, 즉 다른 부분들로부터 스펙트럼 값들을 사용하는 주파수 타일 필링 운용은 완전한 스펙트럼 내에서 적용될 수 있다. 따라서, 스펙트럼 타일 필링 운용은 지능형 갭 필링 시작 주파수 위의 고대역에서 뿐만 아니라 저대역에서도 적용될 수 있다. 게다가, 주파수 타일 필링이 없는 잡음-필링은 또한 지능형 갭 필링 시작 주파수 아래에서뿐만 아니라 지능형 갭 필링 시작 주파수 위에서도 적용될 수 있다. 그러나, 높은 품질 및 고효율 오디오 인코딩은 잡음-필링 운용이 지능형 갭 필링 시작 주파수 아래의 주파수 범위에 한정될 때, 그리고 주파수 타일 필링 운용이 도 3a에 도시된 것과 같이 지능형 갭 필링 시작 주파수 위의 주파수 범위에 제한될 때 획득될 수 있다는 것을 발견하였다.

바람직하게는, 표적 터일(TT, 지능형 갭 필링 시작 주파수보다 큰 주파수들을 갖는)은 완전 비율 코더의 스케일 인자 대역 경계들로 향한다. 정보가 얻어지는 소스 타일들(ST)은, 즉 지능형 갭 필링 시작 주파수보다 낮은 주파수들을 위하여 스케일 인자 대역 경계들에 얽매이지 않는다. 소스 타일의 크기는 관련된 표적 타일의 크기와 상응하여야만 한다. 이는 다음의 예를 사용하여 설명된다. TT[0]은 10 변형 이산 코사인 변환 빈들의 크기를 갖는다. 이는 정확하게 두 개의 뒤따르는 스케일 인자 대역의 길이(4+6과 같이)와 상응한다. 그리고 나서 TT[0]과 상관되는 모든 가능한 소스 타일이 10 빈의 길이를 갖는다. TT[0]에 인접한 제 2 표적 타일(TT[1])은 15 빈의 길이를 갖는다(7+8의 길이를 갖는 스케일 인자 대역). 그리고 나서, 이를 위한 소스 타일은 TT[0]에 대하여 10 빈보다는 15 빈의 길이를 갖는다.

표적 타일의 길이를 갖는 소스 타일을 위한 표적 타일을 발견할 수 없는 경우가 발생하면(예를 들면 표적 타일의 길이가 이용가능한 소스 범위보다 클 때), 상관관계는 계산되지 않으며 소스 범위는 표적 타일(TT)이 완전히 채워질 때까지 이러한 표적 타일 내로 여러 번 복사된다(복사는 두 번째 복사의 최저 주파수를 위한 주파수 라인이 첫 번째 복사의 최고 주파수를 위한 주파수 라인을 바로 뒤따르도록 번갈아 수행된다).

그 뒤에, 도 1b의 주파수 재생기(116) 또는 도 2a의 지능형 갭 필링 블록(202)의 또 다른 바람직한 실시 예를 도시한 도 5c가 참조된다. 블록(522)은 표적 대역 식별뿐만 아니라 부가적으로 소스 대역 식별을 수신하는 주파수 타일 발생기이다. 바람직하게는, 인코더 면 상에서 도 3a의 스케일 인자 대역(3)이 스케일 인자 대역(7)을 재구성하기에 매우 적합하다는 것을 결정하였다. 따라서, 소스 대역 식별은 2일 수 있으며 표적 대역 식별은 7일 수 있다. 이러한 정보를 기초로 하여, 주파수 타일 발생기(522)는 스펙트럼 성분들(523)의 원시 제 2 부분들을 발생시키기 위하여 고조파 타일 필링 운용 또는 어떠한 다른 필링 운용까지 복사를 적용한다. 스펙트럼 성분들의 원시 제 2 부분들은 제 1 스펙트럼 부분들의 제 1 세트 내에 포함된 주파수 해상도와 동일한 주파수 해상도를 갖는다.

그리고 나서, 도 3a의 307과 같은 재구성 대역의 제 1 스펙트럼 부분이 프레임 빌더(524) 내로 입력되고 원시 제 2 부분(523)이 또한 프레임 빌더(524) 내로 입력된다. 그리고 나서, 재구성된 프레임은 이득 인자 계산기(528)에 의해 계산되는 재구성 대역을 위한 이득 인자를 사용하여 조정기(526)에 의해 조정된다. 그러나 중요하게도, 프레임 내의 제 1 스펙트럼 부분은 조정기(526)에 의해 영향을 받지 않으나, 재구성 프레임을 위한 원시 제 2 부분만이 조정기(526)에 의해 영향을 받는다. 이를 위하여, 이득 인자 계산기(528)는 소스 대역 또는 원시 제 2 부분(523)을 분석하고 부가적으로 스케일 인자 대역(7)이 고려될 때, 조정기(526)에 의해 출력된 조정된 프레임의 에너지가 에너지(E₄)를 갖도록 최종적으로 정확한 이득 인자(527)를 찾기 위하여 재구성 대역 내의 제 1 스펙트럼 부분을 분석한다.

이러한 문맥에서, 고효율 고급 오디오 코딩과 비교하여 본 발명의 고주파수 재구성 정확도를 평가하는 것은 매우 중요하다. 이는 도 3a의 스케일 인자 대역(7)과 관련하여 설명된다. 도 13a에 도시된 것과 같은 종래의 인코더는 "손실 고조파"로서 높은 해상도로 인코딩되려는 스펙트럼 부분(307)을 검출할 수 있는 것으로 추정된다. 그리고 나서, 이러한 스펙트럼 성분의 에너지는 스케일 인자 대역(7)과 같은 재구성 대역을 위한 스펙트럼 엔벨로프 정보와 함께 디코더로 전송될 수 있다. 그리고 나서, 디코더는 손실 고조파를 재생성할 수 있다. 그러나, 손실 고조파(307)가 도 13a의 종래의 디코더에 의해 재구성될 수 있는 스펙트럼 값은 재구성 주파수(390)에 의해 나타내는 주파수에서 대역(7)의 중간에 존재할 수 있다. 따라서, 본 발명은 도 13d의 종래의 디코더에 의해 도입될 수 있는 주파수 오류(391)를 방지한다.

일 구현에서, 스펙트럼 분석기는 또한 제 1 스펙트럼 부분들과 제 2 스펙트럼 부분들 사이의 유사성들을 계산하도록 구현되고 계산된 유사성들을 기초로 하여, 재구성 범위 내의 제 2 스펙트럼 부분을 위하여 가능한 한 빨리 제 2 스펙트럼 부분과 매칭하는 제 1 스펙트럼 부분을 결정한다. 그리고 나서 이러한 가변 소스/목적지 범위 구현에서, 파라미터 코더가 부가적으로 제 2 인코딩된 표현 내로 도입될 것이며 매칭 정보는 각각의 목적지 범위를 위하여 매칭 소스 범위를 나타낸다. 디코더 면 상에서, 이러한 정보는 그리고 나서 소스 대역 식별과 표적 대역 식별을 기초로 하여 원시 제 2 부분(523)의 발생을 나타내는 도 5c의 주파수 타일 발생기(522)에 의해 사용될 수 있다.

게다가, 도 3a에 도시된 것과 같이, 스펙트럼 분석기는 샘플링 주파수의 반 이하의 적은 양이고 바람직하게는 샘플링 주파수의 적어도 1/4 또는 일반적으로 높은 최대 분석 주파수까지 스펙트럼 표현을 분석하도록 구성된다.

도시된 것과 같이, 인코더는 다운샘플링 없이 운용하고 디코더는 업샘플링 없이 운용한다. 바꾸어 말하면, 스펙트럼 도메인 오디오 코더는 원래 입력된 오디오 신호의 샘플링 레이트에 의해 정의되는 나이퀴스트 주파수(Nyquist frequency)를 갖는 스펙트럼 표현을 발생시키도록 구성된다.

게다가, 도 3a에 도시된 것과 같이, 스펙트럼 분석기는 갭 필링 시작 주파수로 시작하여 스펙트럼 표현 내에 포함된 최대 주파수에 이해 표현되는 최대 주파수로 끝나는 스펙트럼 표현을 분석하도록 구성되며, 최소 주파수로부터 갭 필링 시작 주파수까지 확장하는 스펙트럼 부분은 스펙트럼 부분들의 제 1 세트에 속하고 갭 필링 주파수 위의 주파수 값들을 갖는 304, 305, 306, 307과 같은 또 다른 스펙트럼 부분은 부가적으로 제 1 스펙트럼 부분들의 제 1 세트 내에 포함된다.

설명된 것과 같이, 스펙트럼 도메인 오디오 디코더(112)는 제 1 디코딩된 표현 내의 스펙트럼 값에 의해 표현되는 최대 주파수가 샘플링 레이트를 갖는 시간 주파수 내에 포함되는 최대 주파수와 동일하도록 구성되며 제 1 스펙트럼 부분들의 제 1 세트 내의 최대 주파수를 위한 스펙트럼 값은 0이거나 또는 0과 다르다. 어쨌든, 스펙트럼 성분들의 제 1 세트 내의 최대 주파수를 위하여 스케일 인자 대역 내의 모든 스펙트럼 값이 도 3a와 3b의 맥락에서 논의된 것과 같이 0으로 설정되거나 또는 그렇지 않은지와 관계없이 발생되거나 또는 전송되는, 스케일 인자 대역을 위한 스케일 인자가 존재한다.

따라서, 본 발명은 압축 효율을 증가시키기 위한 다른 파라미터 기술들, 예를 들면 잡음 대체 및 잡음 필링(이러한 기술들은 독점적으로 잡음 같은 국부적 신호 콘텐츠의 효율적인 표현을 위한 것이다)과 관련하여 본 발명은 음조 성분들의 정확한 주파수 재생을 허용한다는 점에서 바람직하다. 지금까지, 어떠한 최신 기술도 저대역과 고대역 내의 고정된 연역적 세분의 제한 없이 스펙트럼 갭 필링에 의한 임의적 신호 콘텐츠의 효율적인 파라미터 표현을 다루지 못한다.

본 발명의 시스템의 실시 예들은 종래 접근법들을 향상시키고 이에 의해 낮은 비트레이트들에서도 높은 압출 효율, 없거나 매우 적은 지각적 어노이언스(annoyance), 및 완전한 오디오 대역폭을 제공한다.

*일반적인 시스템은 다음을 구성한다:

● 완전 대역 코어 코딩

● 지능형 갭 필링(타일 필링 또는 잡음 필링)

● 음조 마스크에 의해 선택되는 코어 내의 희소 음조 부분들

● 터일 필링을 포함하는, 완전 대역을 위한 조인트 스테레오 쌍 코딩

● 타일 상의 시간적 잡음 형상화

● 지능형 갭 필링 범위 내의 스펙트럼 백색화

더 효율적인 시스템을 향한 제 1 단계는 스펙트럼 데이터를 코어 코더와 다른 제 2 변환 도메인으로 변환하기 위한 필요성을 제거하는 것이다. 예를 들면 고급오디오 코딩과 같은, 대부분의 오디오 코덱들이 기본 변환으로서 변형 이산 코사인 변환을 사용하기 때문에 변형 이산 코사인 변환 도메인 내의 대역폭 확장을 실행하는 것이 또한 유용하다. 대역폭 확장 시스템의 두 번째 요구사항은 고주파수 음조 성분들이 보존되고 코딩된 오디오의 품질이 따라서 현존하는 시스템들보다 뛰어난 음조 그리드들 보존하기 위한 필요성일 수 있다. 위에 언급된 대역폭 확장 전략을 위한 요구사항 모두를 처리하기 위하여, 지능형 갭 필링으로 불리는 새로운 시스템이 제안된다. 도 2b는 인코더 면 상의 제안된 시스템의 다이어그램을 도시하고 도 2a는 디코더 면 상의 시스템을 도시한다.

도 6a는 본 발명이 또 다른 구현에서 인코딩된 오디오 신호를 디코딩하기 위한 장치를 도시한다. 디코딩을 위한 장치는 스펙트럼 부분들의 제 1 세트의 제 1 디코딩된 표현을 발생시키기 위한 스펙트럼 도메인 오디오 디코더(602) 및 제 1 스펙트럼 부분들의 제 1 세트의 제 1 스펙트럼 부분을 사용하여 재구성된 다운스트림을 발생시키기 위한 주파수 재생기(604)를 포함한다. 603에 도시된 것과 같이, 제 1 스펙트럼 부분과 제 2 스펙트럼 부분 내의 스펙트럼 값들은 스펙트럼 예측 잔류 값들이다. 이러한 스펙트럼 예측 잔류 값들을 완전한 스펙트럼 표현으로 변환하기 위하여, 스펙트럼 역 예측 필터(606)가 제공된다. 이러한 스펙트럼 역 예측 필터는 제 1 주파수의 제 1 세트와 재구성된 제 2 스펙트럼 부분들을 위한 스펙트럼 전류 값들을 사용하여 주파수에 대한 역 예측을 실행하도록 구성된다. 스펙트럼 역 예측 필터(606)는 인코딩된 오디오 신호 내에 포함된 필터 정보에 의해 구성된다. 도 6b는 도 6a의 더 상세한 구현을 도시한다. 스펙트럼 예측 잔류 값들(603)은 재구성 대역을 위하거나 또는 특정 제 2 주파수 부분을 위한 원시 스펙트럼 값들을 발생시키는 주파수 타일 발생기(612) 내로 입력되고 고해상도 제 1 스펙트럼 표현과 동일한 해상도를 갖는 이러한 원시 데이터는 스펙트럼 형상기(614) 내로 입력된다. 스펙트럼 형상기는 이제 비트스트림 내에 전송된 엔벨로프 정보를 사용하여 스펙트럼을 형상화하고 스펙트럼으로 형상화된 데이터는 그리고 나서 최종적으로 비트스트림을 거쳐 인코더로부터 디코더로 전송되는 필터 정보(607)를 사용하여 완전한 스펙트럼 값들의 프레임을 발생시키는 스펙트럼 예측 필터(616)에 적용된다.

도 6b에서, 디코더 면 상에서, 엔벨로프 정보의 계산 뒤에 비트스트림을 거쳐 전송되고 라인(607)을 거쳐 사용되는 필터 정보의 계산이 실행된다. 따라서, 바꾸어 말하면, 도 6b의 디코더와 매칭하는 인코더는 먼저 스펙트럼 잔류 값들을 계산할 수 있고 그리고 나서 예를 들면 도 7a에 도시된 것과 같이, 스펙트럼 전류 값들을 갖는 엔벨로프 정보를 계산할 수 있다. 그러나, 특정 구현들을 위하여 또한 다른 구현이 사용하며, 엔벨로프 정보는 인코더 면 상에서 시간적 잡음 형상화 또는 시간적 타일 형상화 필터링을 실행하기 전에 계산된다. 그리고 나서, 블록(524)에서 스펙트럼 형상화를 실행하기 전에 스펙트럼 예측 필터(622)가 적용된다. 따라서, 바꾸어 말하면, (완전한) 스펙트럼 값들은 스펙트럼 형상화 운용이 적용되기 전에 발생된다.

바람직하게는, 복소수 값의 시간적 잡음 형상화 필터 또는 시간적 타일 형상화 필터가 계산된다. 이는 도 7a에 도시된다. 원래 오디오 신호는 복소수 변형 이산 코사인 변환 블록(702) 내로 입력된다. 그리고 나서 복소수 도메인 내에서 시간적 타일 형상화 필터 계산과 시간적 타일 형상화 필터링이 실행된다. 그리고 나서, 블록(706) 내에서, 지능형 갭 필링 부가 정보가 계산되고 코딩 등을 위한 스펙트럼 분석과 같은 어떠한 다른 운용이 또한 계산된다. 그리고 나서, 도 7a의 X(k)에 나타낸 제 1 스펙트럼 부분들의 제 1 세트를 획득하기 위하여 블록(706)에 의해 발생되는 제 1 스펙트럼 부분의 제 1 세트가 708에 도시된 음향심리학적 모델 구동 인코더로 인코딩되며 이러한 모든 데이터는 비트스트림 멀티플렉서(710)에 전달된다.

디코더 면 상에서, 인코딩된 데이터는 한편으로는 지능형 갭 필링 부가 정보, 다른 한편으로는 시간적 타일 형상화 부가 정보 및 제 1 스펙트럼 부분들의 제 1 세트의 인코딩된 표현을 분리하기 위하여 디멀티플렉서(720) 내로 입력된다.

그리고 나서, 하나 또는 그 이상의 실수치(real-valued) 스펙트럼으로부터 복소수 스펙트럼을 계산하기 위하여 블록(724)이 사용된다. 그리고 나서, 재구성 대역을 위한 제 2 스펙트럼 부분들의 제 2 세트 내에 재구성된 주파수 값들을 발생시키기 위하여 실수치와 복소수 스펙트럼 모두 블록(726) 내로 입력된다. 그리고 나서, 완전히 획득되고 타일로 채워진 안전한 대역 프레임 상에서, 역 시간적 타일 형상화 운용이 실행되고, 디코더 면 상에서, 블록(730)에서 최종 역 복소수 변형 이산 코사인 변환 운용이 실행된다. 따라서, 복소수 시간적 잡음 형상화 필터 정보의 사용은 코어 대역 내에서 또는 개별 타일 대역들 내에서 적용될 뿐만 아니라 코어/타일 경계들 또는 타일/타일 경계들을 넘어 적용될 때 자동으로 타일 경계 처리를 발생시키도록 허용하며, 이는 결국에는 타일들 사이의 상관관계를 재도입한다. 타일 경계들을 넘는 이러한 스펙트럼 상관관계는 주파수 타일들의 발생 및 주파수 타일들의 이러한 원시 데이터에 대한 스펙트럼 엔벨로프 조정의 실행에 의해서만 획득되지는 않는다.

도 7c는 원래 신호(왼쪽 패널) 및 시간적 타일 형상화 없는 확장된 신호의 비교를 도시한다. 750에 도시된 상부 주파수 범위 내에 확장된 부분들에 의해 나타낸 강력한 아티팩트들이 존재한다는 것을 알 수 있다. 그러나, 이는 750에서의 동일한 스펙트럼 부분이 도 7c의 아티팩트 관련 성분(750)과 비교될 때 도 7e에서는 발생하지 않는다.

실시 예들 또는 본 발명의 오디오 코딩 시스템은 인코더 내의 신호의 지각적으로 가장 관련된 구조만을 파형 코딩하기 위하여 가변 비트레이트의 주요 공유를 사용하며, 결과로서 생기는 스펙트럼 갭들은 원래 스펙트럼과 거의 근사치의 신호 콘텐츠를 갖는 디코더에 채워진다. 인코더로부터 디코더로 전송되는 전용 부가 정보에 의해 파라미터로 구동되는 이른바 스펙트럼 지능형 갭 필링을 제어하기 위하여 매우 제한된 비트 예산이 소비된다.

오디오 신호들의 저장 또는 전송은 때때로 엄격한 비트레이트 제약의 대상이 된다. 과거에, 코더들은 매우 낮은 비트레이트만이 이용가능할 때 전송된 오디오 대역폭을 대폭 감소시키도록 강요당했다. 현대 오디오 코더들은 이제 스펙트럼 대역폭 복제(SBR)와 같은 대역폭 확장 방법들을 이용함으로써 광대역 신호들을 코딩할 수 있다([1]). 이러한 알고리즘들은 고주파수 콘텐츠의 파라미터 표현에 의존하며, 고주파수 스펙트럼 영역으로의 치환 및 파라미터 구동 후처리의 적용에 의해 디코딩된 신호의 파형 코딩된 저주파수 부분으로부터 발생된다. 대역폭 확장 전략들에서, 주어지는 이른바 크로스오버 주파수 위의 고주파수 스펙트럼 영역의 재구성은 종종 스펙트럼 패칭을 기초로 한다. 일반적으로, 고주파수 영역은 다수의 인접한 패치로 구성되고 이러한 패치들 각각은 주어진 크로스오버 주파수 아래의 저주파수 스펙트럼의 대역-통과 영역들로부터 기원한다. 최신 시스템들은 소스로부터 표적 영역으로 인접한 부대역 계수들의 세트를 복사함으로써 필터뱅크 표현 내에서 패칭을 효율적으로 실행한다.

만일 대역폭 확장 시스템이 필터뱅크 또는 시간-주파수 변환 도메인 내에서 구현되면, 대역폭 확장 신호의 시간적 형태를 제어하기 위하여 제한된 가능성만이 존재한다. 일반적으로, 시간적 입상도는 인접한 변환 원도우들 사이에서 사용되는 홉-크기에 의해 제한된다. 이는 대역폭 확장 스펙트럼 범위 내의 원치 않는 전- 또는 후-에코에 이르게 할 수 있다.

지각적 오디오 코딩으로부터, 오디오 신호의 시간적 엔벨로프의 형상은 시간적 엔벨로프 형상화 같은 스펙트럼 필터링 기술들을 사용함으로써 복원될 수 있다는 것이 알려졌다. 그러나, 최신 기술로부터 알려진 시간적 잡음 형상화 필터는 실수치 필터 또는 실수치 스펙트럼들이다. 실수치 스펙트럼 상의 그러한 실수치 필터는 특히 만일 기본적인 실제 변환이 변형 이산 코사인 변환이면, 에일리어싱 아티팩트(aliasing artifact)들에 의해 심각하게 손상될 수 있다.

시간적 엔벨로프 타일 형상화는 예를 들면 복소수 변형 이산 코사인 변환(CMDCT)으로부터 획득되는 것과 같은, 복소수 값의 스펙트럼 상에서 복소수 필터링을 적용한다. 이에 의해 에일리어싱 아티팩드들이 방지된다.

시간적 타일 형상화는 다음과 같이 구성된다:

● 복소수 필터 계수 추정 및 인코더 내의 원래 신호 스펙트럼 상의 편평화 필터의 적용

● 부가 정보 내의 필터 계수들의 전송

● 디코더 내의 타일 필링된 재구성된 스펙트럼 상의 형상화 필터의 적용

본 발명은 오디오 변환 코딩으로부터, 특히 대역폭 확장의 맥락에서 변형된 방식으로의 사용을 위하여, 주파수 방향을 따라 선형 예측에 의한 시간적 잡음 형상화로부터 알려진 최신 기술을 확장한다.

또한 본 발명의 대역폭 확장 알고리즘은 지능형 갭 필링을 기초로 하나, 신호의 임계적으로 샘플링된 변형 이산 코사인 변환 표현에 의존하는 지능형 갭 필링 표준 구성과는 대조적으로, 오버샘플링된, 복소수 값의 변환(CMDCT)을 사용한다. 복소수 변형 이산 코사인 변환은 각각의 복소수 값의 스펙트럼 계수들의 실수 부분 내의 변형 시산 코사인 변환 계수들 및 허수 부분의 변형 이산 코서인 변환 계수들의 결합으로서 알 수 있다.

지능형 갭 필링의 맥락에서 새로운 접근법이 설명되나, 본 발명의 처리는 오디오 신호의 필터 뱅크 표현을 기초로 하는 어떠한 대역폭 확장 방법과 조합하여 사용될 수 있다.

이러한 신규 맥락에서, 주파수 방향을 따른 선형 예측은 시간적 잡음 형상화로서 사용되지 않고, 오히려 시간적 타일 형상화 기술로서 사용된다. 타일 필링된 신호 성분들은 최신 지각적 변환 코더들 내의 시간적 타일 형상화에 의한 양자화 잡음 형상화와 대조적으로, 시간적 타일 형상화에 의해 형상화된다는 사실에 의해 재명명(renaming)이 정당화된다.

도 7a는 지능형 갭 필링을 사용하는 대역폭 확장 및 새로운 시간적 타일 형상화 접근법의 블록 다이어그램을 도시한다.

따라서 기본 인코딩 전략은 다음과 같이 운용된다:

- 주파수 도메인 신호(X9k))를 얻기 위하여 시간 도메인 신호(x(n))의 변형 이산 코사인 변환을 계산한다

- 복소수 값의 시간적 타일 형상화 필터를 계산한다

- 대역폭 확장을 위한 부가 정보를 획득하고 디코더에 의해 복제되어야만 하는 스펙트럼 정보를 제거한다

- 음향심리학적 모듈(PAM)을 사용하여 양자화를 적용한다

- 데이터를 저장/전송하며, 실수치의 변형 이산 코사인 변환 계수들만이 전송된다

도 7b는 상응하는 디코더를 도시한다. 이는 주로 인코더 내에서 수행되는 단계들과 반대된다.

여기서, 기본 디코딩 전략은 다음과 같이 운용한다:

- 변형 이산 코사인 변환 값들로부터 변형 이산 사인 변환 계수들을 추정하고(이러한 과정은 하나의 블록 디코더 지연을 추가한다) 변형 이산 코사인 변환 및 변형 이산 사인 변환 값들을 복소수 값의 복소수 변형 이산 코사인 변환 계수들로 결합한다

- 그것의 후처리로 타일 필링을 실행한다

- 전송된 시간적 타일 형상화 필터 계수들로 역 시간적 타일 형상화 필터링을 적용한다

- 역 복소수 변형 이산 코사인 변환

대안으로서, 시간적 타일 형상화 합성 및 지능형 갭 필링 후-처리의 순서는 또한 만일 시간적 타일 형상화 분석과 지능형 갭 필링 파라미터 추정이 인코더 내에서 지속적으로 역전되면 디코더 내에서 역전될 수 있다는 것에 유의하여야 한다.

*효율적인 변환 코딩을 위하여, 합리적인 변환 이득을 달성하기 위하여 바람직하게는 약 20 ms의 이른바 "긴 블록들"이 사용되어야만 한다. 만일 그러한 긴 블록 내의 신호가 트랜지언트들을 포함하면, 타일 필링에 기인하여 재구성된 스펙트럼 대역들 내에 가청 전- 및 후-에코들이 발생한다. 도 7c는 지능형 갭 필링에 기인하여 트랜지언트들을 손상시키는 일반적인 전- 및 후-에코 효과들을 도시한다. 도 76c의 왼쪽 패널 상에서, 원래 신호의 스펙트로그램이 도시되고, 오른쪽 패널 상에 본 발명의 시간적 타일 형상화 필터링 없이 타일 필링된 신호의 스펙트로그램이 도시된다. 이러한 예에서, 코어 대역과 타일 필링 대역 사이의 지능형 갭 필링 시작 주파수(f _IGFstart 또는 f _Split )는 f _s 1/4가 되도록 선택된다. 도 7c의 오른쪽 패널 상에서, 트랜지언트를 둘러싸는 뚜렷한 전- 및 후-에코들이 보이고 특히 복제된 주파수 영역의 상부 스펙트럼 단부에 두드러진다.

시간적 타일 형상화 모듈의 주요 작업은 트랜지언트 주위의 가까운 인근에 이러한 원치 않는 신호 성분들을 국한시키고 그것들을 인간 지각의 시간적 마스킹 효과에 의해 통제되는 시간적 영역 내에 감추는 것이다. 따라서, 복소수 변형 이산 코사인 변환 도메인 내의 "순방향 예측"을 사용하여 필요한 시간적 타일 형상화 예측 계수들이 계산되고 적용된다.

시간적 타일 형상화와 지능형 갭 필링을 하나의 코덱으로 결합하는 일 실시 예에서, 지능형 갭 필링 타일이 하나의 시간적 타일 형상화 필터(평탄화 또는 형상화 필터)에 의해 완전히 필터링되거나 또는 그렇게 되지 않는 것과 같이 특정 시간적 타일 형상화 파라미터들과 지능형 갭 필링 파라미터들을 정렬하는 것이 중요하다. 따라서, TTSstart[..] 또는 TTSstop[..] 주파수들은 지능형 갭 필링 타일 내에 포함되어서는 안 되며, 오히려 각각의 f _IGF .. 주파수들에 정렬되어야만 한다. 도 7d는 세 개의 시간적 타일 형상화 필터의 세트를 위한 시간적 타일 형상화 및 지능형 갭 필링 운용 영역들의 일례를 도시한다.

시간적 타일 형상화 중단 주파수는 f _IGFstart 보다 높은, 지능형 갭 필링 공구의 주파수를 중단시키도록 조정된다. 만일 시간적 타일 형상화가 하나보다 많은 필터를 사용하면, 두 개의 필터 사이의 크로스오버 주파수는 지능형 갭 필링 분할 주파수와 매칭하도록 해야만 한다는 것을 보장하여야만 한다. 그렇지 않으면, 하나의 시간적 타일 형상화 서브-필터가 과-형상화 같은 원치 않는 아티팩트들을 야기하는 f _IGFstart 에 대하여 구동할 것이다.

도 7a와 7c에 도시된 구현 변형에서, 부가적으로 디코더 지능형 갭 필링 에너지들이 정확하게 조정되도록 처리되어야만 한다. 이는 만일 시간적 타일 형상화 및 지능형 갭 필링 처리 과정에서, 서로 다른 예측 이득들을 갖는 서로 다른 시간적 타일 형상화 필터들이 하나의 지능형 갭 필링 타일의 소스 영역(평탄화 필터로서)과 표적 스펙트럼 영역(상기 평탄화 필터의 정확한 상대방(counterpart)dl 아닌 형상화 필터로서)에 적용되는 경우에 특히 그러하다. 이러한 경우에 있어서, 적용된 두 시간적 타일 형상화 필터의 예측 이득 비율은 더 이상 동일하지 않으며 따라서 이러한 비율에 의한 에너지 조정이 적용되어야만 한다.

대안의 구현 변형에서, 지능형 갭 필링 후처리와 시간적 타일 형상화의 순서는 역전된다. 디코더 내에서, 이는 지능형 갭 필링 후처리에 의한 에너지 조정이 시간적 타일 형상화 필터링 뒤에 계산되고 이에 의해 합성 변환 이전의 최종 처리 단계라는 것을 의미한다. 따라서, 코딩 동안에 하나의 타일에 적용되는 서로 다른 시간적 타일 형상화 필터 이득들에 상관없이, 최종 에너지는 지능형 갭 필링 처리에 의해 항상 정확하게 조정된다.

디코더 면 상에서, 시간적 타일 형상화 필터 계수들은 완전한 스펙트럼, 즉 재생된 스펙트럼에 의해 다시 확장되는 코어 스펙트럼 상에 다시 적용된다. 시간적 타일 형상화의 적용은 원래 신호의 엔벨로프를 다시 매칭시키기 위하여 재생된 스펙트럼의 시간적 엔벨로프를 형성하는데 필요하다. 따라서 도시된 전-에코들을 감소된다. 게다가, 여전히 레거시 시간적 잡음 형상화에서와 같이 f _IGFstart 아래의 신호 내의 양자화 잡음을 시간적으로 형상화한다.

레거시 코더들에서, 오디오 신호(예를 들면, 스펙트럼 대역 복제) 상의 스펙트럼 패칭은 패치 경계들에서 스펙트럼 상관관계의 오류를 발생시키고 이에 의해 분산의 도입에 의한 오디오 신호의 시간적 엔벨로프를 손상시킨다. 따라서, 잔류 신호 상의 지능형 갭 필링 타일 필링의 실행의 또 다른 혜택은 시간적 타일 형상화 필터의 적용 후에, 타일 경계들이 균일하게 상관되고, 더 충실한 신호의 시간적 재생을 야기한다는 것이다.

이에 따라 처리된 신호의 결과가 도 7e에 도시된다. 필터링되지 않은 버전(도 7c, 오른쪽 패널)과 비교하여, 시간적 타일 형상화 필터링된 신호는 원치 않는 전- 및 후-에코들의 뛰어난 감소를 나타낸다(도 7e, 오른쪽 패널).

게다가, 설명된 것과 같이, 도 7a는 도 7b의 디코더 또는 도 6a의 디코더와 매칭하는 인코더를 도시한다. 기본적으로, 오디오 신호를 인코딩하기 위한 장치는 오디오 신호를 스펙트럼 신호로 변환시키기 위한 702와 같은 시간-스펙트럼 변환기를 포함한다. 스펙트럼 표현은 실수 값 스펙트럼 표현일 수 있거나, 또는 블록(702) 내에 도시된 것과 같이 복소수 값 스펙트럼 표현일 수 있다. 게다가, 스펙트럼 잔류 값들을 발생시키기 위하여 주파수에 대한 예측을 실행하기 위한 704와 같은 예측 필터가 제공되며, 예측 필터(704)는 도 7a의 714에 도시된 것과 같이, 오디오 신호로부터 유래하고 비트스트림 멀티플렉서(710)로 전달되는 예측 필터 정보에 의해 정의된다. 게다가, 음향심리학적으로 구동되는 오디오 인코더(704)와 같은 오디오 코더가 제공된다. 오디오 코더는 인코딩된 제 1 스펙트럼 값들의 제 1 세트를 획득하기 위하여 스펙트럼 잔류 값들의 제 1 스펙트럼 부분들의 제 1 세트를 인코딩하도록 구성된다. 부가적으로, 도 7a의 706에 도시된 것과 같은 파라미터 코더가 제 2 스펙트럼 부분들의 제 2 세트를 인코딩하기 위하여 제공된다. 바람직하게는, 제 1 스펙트럼 부분들의 제 1 세트는 제 2 스펙트럼 부분들의 제 2 세트와 비교하여 높은 스펙트럼 해상도로 인코딩된다.

최종적으로, 도 7a에 도시된 것과 같이, 파라미터로 인코딩된 제 2 스펙트럼 부분들의 제 2 세트, 인코딩된 제 1 스펙트럼 부분들의 제 1 세트 및 도 7a의 714에 "TTS info"로서 도시된 필터 정보를 포함하는 인코딩된 신호를 출력하기 위하여 출력 인터페이스가 제공된다.

바람직하게는, 예측 필터(704)는 필터 정보를 계산하기 위하여 스펙트럼 표현의 스펙트럼 값들을 사용하도록 구성되는 필터 정보 계산기를 포함한다. 게다가, 예측 필터는 필터 정보를 계산하기 위하여 스펙트럼 표현의 동일한 스펙트럼 값들을 사용하여 스펙트럼 잔류 값들을 계산하도록 구성된다.

바람직하게는, 시간적 타일 형상화 필터(704)는 고급 오디오 코딩 표준에 따라 시간적 잡음 형상화 공구를 적용하는 종래 오디오 인코더들을 위하여 알려진 동일한 방법으로 구성된다.

그 다음에, 도 8a 내지 8e의 맥락에서 2-채널 디코딩을 사용하는 또 다른 구현이 논의된다. 게다가, 도 2a, 2b의 맥락에서(조인트 채널 코딩(228) 및 조인트 채널 디코딩(204)) 상응하는 소자들의 설명이 참조된다.

도 8a는 디코딩된 2-채널 신호를 발생시키기 위한 오디오 디코더를 도시한다. 오디오 디코더는 제 1 스펙트럼 부분들의 제 1 세트를 획득하기 위하여 인코딩된 2-채널 신호를 디코딩하기 위한 4개의 오디오 디코더(802) 및 부가적으로 제 2 스펙트럼 부분들의 제 2 세트를 위한 파라미터 데이터를 제공하기 위한 파라미터 디코더(804) 및 부가적으로, 제 2 스펙트럼 부분들의 제 1 또는 제 2의 서로 다른 2-채널 표현을 식별하는 2-채널 식별을 포함한다. 부가적으로, 제 1 스펙트럼 부분들의 제 1 세트의 제 1 스펙트럼 부분 및 제 2 부분을 위한 파라미터 데이터와 제 2 부분을 위한 2-채널 식별에 의존하여 제 2 스펙트럼 부분을 재생시키기 위하여 주파수 재생기(806)가 제공된다. 도 8b는 소스 범위와 목적지 범위 내의 2-채널 표현을 위한 서로 다른 결합들을 도시한다. 소스 범위는 2-채널 표현 내에 존재할 수 있고 목적지 범위는 또한 제 1 2-채널 표현 내에 존재할 수 있다. 대안으로서, 소스 범위는 제 1 2-채널 표현 내에 존재할 수 있고 목적지 범위는 제 2 2-채널 표현 내에 존재할 수 있다. 게다가, 소스 범위는 제 2 2-채널 표현 내에 존재할 수 있고 목적지 범위는 도 8b의 제 3 열에 표시된 것과 같이 제 1 2-채널 표현 내에 존재할 수 있다. 최종적으로, 소스 범위와 목적지 범위 모두 제 2 2-채널 표현 내에 존재할 수 있다. 일 실시 예에서, 제 1 2-채널 표현은 2-채널 신호의 두 채널이 개별적으로 표현되는 개별 2-채널 표현이다. 그때, 제 2 2-채널 표현은 2-채널 신호의 두 채널이 결합하여 표현되는, 즉 상응하는 스피커들로의 출력을 위하여 필요한 것과 같이 개별 2-채널 표현을 재계산하기 위하여 또 다른 처리 또는 표현 변환이 필요한, 조인트 표현이다.

일 구현에서, 제 1 2-채널 표현은 왼쪽/오른쪽(L/R) 표현일 수 있고 제 2 2-채널 표현은 조인트 스테레오 표현이다. 그러나, 본 발명을 위하여 왼쪽/오른쪽 또는 M/S 또는 스테레오 예측을 제외하고 다른 2-채널 표현들이 적용될 수 있고 사용될 수 있다.

도 8c는 도 8a의 오디오 디코더에 의해 실행되는 운용들을 위한 플로우 차트를 도시한다. 단계 812에서, 오디오 디코더(802)는 소스 범위의 디코딩을 실행한다. 소스 범위는 도 3a와 관련하여, 스케일 인자 대역들(SCB1 내지 SCB3)을 포함할 수 있다. 게다가, 각각의 스케일 인자 대역을 위하여 2-채널 식별이 존재할 수 있고 스케일 인자 대역(1)은 예를 들면, 제 1 표현(오른쪽/왼쪽과 같은) 내에 존재할 수 있고 제 3 스케일 인자 대역은 M/S 또는 예측 다운믹스/잔류와 같은 제 2 2-채널 표현 내에 존재할 수 있다. 따라서, 단계 812는 서로 다른 대역들을 위한 서로 다른 표현들을 야기할 수 있다. 그리고 나서, 단계 814에서, 주파수 재생기(806)는 주파수 재생을 위한 소스 범위를 선택하도록 구성된다. 단계 816에서, 주파수 재생기(806)는 그리고 나서 소스 범위의 표현을 검사하고 블록(818) 내에서 주파수 재생기(806)는 소스 범위의 2-채널 표현을 표적 범위의 2-채널 표현과 비교한다. 만일 두 표현이 동일하면, 주파수 재생기(806)는 2-채널 신호의 각각의 채널을 위한 개별 주파수 재생을 제공한다. 그러나, 블록(818) 내에 검출된 것과 같이 두 표현이 동일하지 않으면, 신호 흐름(824)이 얻어지고 블록(822)은 표적 범위의 재생을 위하여 소스 범위로부터 다른 2-채널 표현을 계산하고 계산된 다른 2-채널 표현을 사용한다. 따라서, 도 8a의 디코더는 제 1 2-채널 표현 내에 존재하는 소스 범위를 사용하여 제 2 2-채널 표현을 갖는 것과 같이 표시되는 목적지 범위를 재생하는 것을 가능하게 한다. 자연적으로, 본 발명은 부가적으로 동일한 2-채널 식별을 갖는 소스 범위를 사용하여 표적 범위를 재생하도록 허용한다. 그리고, 부가적으로, 본 발명은 조인트 2-채널 표현을 나타내는 2-채널 식별을 갖는 표적 범위를 재생하도록 허용하고 그리고 나서 이러한 표현을 2-채널 신호를 위한 상응하는 스피커들로의 저장 또는 전송에 필요한 개별 채널 표현으로 변환하도록 허용한다.

2-채널 표현의 2개의 채널은 왼쪽 채널 및 오른쪽 채널과 같은 두 개의 스테레오 채널일 수 있다는 것이 강조된다. 그러나, 신호는 또한 예를 들면, 5개의 채널과 하나의 서브-우퍼(sub-woofer)를 갖거나 또는 더 많은 채널을 갖는 다중 채널 신호일 수 있다. 그리고 나서, 도 8a 내지 8e의 맥락에서 논의된 것과 같이 쌍 방식의 2-채널 처리가 실행될 수 있으며 쌍들은 예를 들면, 왼쪽 채널과 오른쪽 채널, 왼쪽 서라운드 채널과 오른쪽 서라운드 채널, 및 중앙 채널과 저주파수 효과(서브우퍼) 채널일 수 있다. 예를 들면, 3가지 2-채널 과정에 의한 6개의 입력 채널을 표현하기 위하여 어떠한 다른 쌍들이 사용될 수 있다.

도 8d는 도 8a와 상응하는 본 발명의 디코더의 블록 다이어그램을 도시한다. 소스 범위 또는 코어 디코더(830)는 오디오 디코더(802)와 상응할 수 있다. 다른 블록들(832, 834, 836, 838, 840, 842 및 846)은 도 8a의 주파수 재생기(806)의 부분들일 수 있다. 특히, 블록(832)은 개별 대역들 내의 소스 범위 표현들을 변환하기 위한 표현 변환기(representation transformer)이며 따라서 블록(832)의 출력에서, 한편으로는 제 1 표현 및 다른 한편으로는 제 2 2-채널 표현 내의 소스 범위의 완전한 세트가 존재한다. 이러한 두 개의 완전한 소스 범위 표현은 소스 범위의 두 표현을 위한 저장장치(storage, 834) 내에 저장될 수 있다.

그리고 나서, 블록(836)은 입력으로서 소스 범위 식별을 사용하고 부가적으로 입력으로서 표적 범위를 를 2- 채널 식별을 사용하여 주파수 타일 재생을 적용한다. 표적 범위를 위한 2-채널 식별을 기초로 하여, 주파수 타일 발생기는 저장장치(834)를 액세스하고 835에서 주파수 타일 발생기 내로 입력된 표적 범위를 위한 2-채널 식별과 매칭하는 소스 범위의 2-채널 표현을 수신한다. 따라서, 표적 범위를 위한 2-채널 식별이 조인트 스테레오 처리를 나타내면, 주파수 타일 발생기(836)는 소스 범위 식별(833)에 의해 나타낸 소스 범위의 조인트 스테레오 표현을 획득하기 위하여 저장장치(834)를 액세스한다.

주파수 타일 발생기(836)는 각각의 표적 범위를 위하여 이러한 운용을 실행하고 주파수 타일 발생기의 출력은 2-채널 식별에 의해 식별되는 채널 표현의 각각의 채널이 존재하기 위한 것이다. 그리고 나서, 엔벨로프 조정기(838)에 의한 엔벨로프 조정이 실행된다. 엔벨로프 조정은 2-채널 식별에 의해 식별되는 2-채널 도메인 내에서 실행된다. 이를 위하여, 엔벨로프 조정 파라미터들이 필요하고 이러한 파라미터들은 설명된 것과 동일한 2-채널 표현 내에서 인코더로부터 디코더로 전송된다. 엔벨로프 조정기에 의해 처리되려는 표적 범위 내의 2-채널 식별이 이러한 표적 범위를 위한 엔벨로프 데이터와 다른 2-채널 표현을 나타내는 2-채널 식별을 가질 때, 파라미터 변환기(840)는 엔벨로프 파라미터들을 필요한 2-채널 표현으로 변환한다. 예를 들면 하나의 대역을 위한 2-채널 표현이 조인트 스테레오 코딩을 나타내고 이러한 표적 범위를 위한 파라미터들이 오른쪽/왼쪽 엔벨로프 파라미터들로서 전송되었을 때, 파라미터 변환기는 표적 범위의 스펙트럼 엔벨로프 조정을 위하여 정확한 파라미터 표현이 사용되도록 하기 위하여 설명된 것과 같이 오른쪽/왼쪽 엔벨로프 파라미터들로부터 조인트 스테레오 엔벨로프 파라미터들을 계산한다.

또 다른 바람직한 실시 예에서, 엔벨로프 파라미터들은 표적 대역 내에 조인트 스테레오가 사용될 때 조인트 스테레오 파라미터들로서 이미 전송된다.

엔벨로프 조정기(838) 내로의 입력이 서로 다른 2-채널 표현들을 갖는 표적 범위들의 세트로 가정될 때, 엔벨로프 조정기(838)로의 출력은 또한 서로 다른 2-채널 표현들 내의 표적 범위들의 세트이다. 표적 범위가 M/S와 같은 일련의 표현을 가질 때, 이러한 표적 범위는 확성기들로의 저장 또는 전송을 위하여 필요한 개별 표현을 계산하기 위한 표현 변환기(842)에 의해 처리된다. 그러나, 표적 범위가 이미 개별 표현을 가질 때, 신호 흐름(844)이 얻어지고 표현 변환기(842)는 우회된다. 블록(842)의 출력에서, 개별 2-채널 표현인 2-채널 스펙트럼 표현이 획득되고 그리고 나서 블록(846)에 의해 나타낸 것과 같이 더 처리되며, 이러한 뒤따르는 처리는 예를 들면, 주파수/시간 변환 또는 어떠한 다른 필요한 처리일 수 있다.

바람직하게는, 제 2 스펙트럼 부분들은 주파수 대역들과 상응하고, 각각의 주파수를 위하여 하나의 플래그가 존재하는 도 8b의 테이블과 상응하는 플래그들의 어레이로서 2-채널 식별이 제공된다. 그때, 파라미터 디코더는 제 1 스펙트럼 부분의 제 1 표현 또는 제 2 표현을 사용하기 위한 플래그에 따라 주파수 재생기(106)를 제어하도록 설정되는지 또는 그렇지 않은지를 검사하도록 구성된다.

일 실시 예에서, 도 3a의 지능형 갭 팔랑 시작 주파수(309)로 시작하는 재구성 범위만이 서로 다른 재구성 대역들을 위한 2-채널 식별들을 갖는다. 또 다른 실시 예에서, 이는 또한 지능형 갭 팔랑 시작 주파수(309) 아래의 범위를 위하여 적용된다.

또 다른 실시 예에서, 소스 대역 식별과 표적 대역 식별은 유사성 분석에 의해 적응적으로 결정될 수 있다. 그러나, 표적 범위에 대한 소스 범위의 고정된 연관성이 존재할 때 본 발명의 2-채널 처리가 또한 적용될 수 있다. 소스 범위는 고조파 주파수 타일 필링 운용에 의하거나 또는 고효율 고급 오디오 코딩으로부터 알려진 다중 패치를 위한 처리와 유사한 두 개 또는 그 이상의 주파수 타일 필링 운용을 사용하는 카피-업(copy-up) 주파수에 의해 주파수와 관련하여 더 넓은 표적 범위를 생성하도록 사용될 수 있다.

도 8a는 2-채널 오디오 신호를 인코딩하기 위한 오디오 인코더를 도시한다. 인코더는 2-채널 오디오 신호를 스펙트럼 표현으로 변환하기 위한 시간-스펙트럼 변환기(860)를 포함한다. 게다가, 2-채널 오디오 채널 오디오 신호를 스펙트럼 표현으로 변환하기 위한 스펙트럼 분석기(866)를 포함한다. 게다가, 스펙트럼 분석기(866)는 어떠한 스펙트럼 부분들이 높은 해상도로 인코딩되는지를 결정하기 위하여, 즉 제 1 스펙트럼 부분들의 제 1 세트를 찾고 부가적으로 제 2 스펙트럼 부분들의 제 2 세트를 찾기 위하여 분석을 실행하도록 제공된다.

게다가, 2-채널 식별이 제 1 2-채널 표현 또는 제 2 2-채널 표현을 식별하는지를 결정하기 위하여 제 2 스펙트럼 부분들의 제 2 세트를 분석하도록 2-채널 분석기(864)가 제공된다.

2-채널 분석기(864)의 결과에 의존하여, 제 2 스펙트럼 표현 내의 대역은 제 1 2-채널 표현 또는 제 2 2-채널 표현을 사용하여 파라미터화되고, 이는 파라미터 인코더(868)에 의해 실행된다. 코어 주파수 범위, 즉 도 3a의 지능형 갭 필링 시작 주파수(309) 아래의 주파수 대역은 코어 인코더(870)에 의해 인코딩된다. 블록들(868 및 870)의 결과는 출력 인터페이스(872) 내로 입력된다. 표시된 것과 같이, 2-채널 분석기는 지능형 갭 필링 시작 주파수 위의 각각의 대역을 위한, 또는 전체 주파수 범위를 위한 2-채널 식별을 제공하고, 이러한 2-채널 식별은 또한 이러한 데이터가 출력 인터페이스(872)에 의해 출력되는 인코딩된 신호(873) 내에 또한 포함되도록 출력 인터페이스(872)에 전달된다.

게다가, 오디오 인코더는 대역 방식(bandwise) 변환기(862)를 포함하는 것이 바람직하다. 2-채널 분석기(862)의 결정을 기초로 하여, 시간 스펙트럼 변환기(862)의 출력 신호는 2-채널 분석기 및 특히 2-채널 식별(835)에 의해 나타내는 표현으로 변환된다. 따라서, 대역 방식 변환기(862)의 출력은 각각의 주파수 대역이 제 1 2-채널 표현 또는 다른 제 2 2-채널 표현 내에 존재할 수 있는 주파수 대역들의 세트이다. 본 발명이 완전한 대역 내에 족용될 때, 즉 소스 범위와 재구성 범위 모두 대역 방식 변환기에 의해 처리될 때, 스펙트럼 분석기(860)는 이러한 표현을 분석할 수 있다. 그러나 대안으로서, 스펙트럼 분석기(860)는 또한 제어 라인(861)에 의해 표시된 것과 같이 시간 스펙트럼 변환기에 의해 신호 출력을 분석할 수 있다. 따라서, 스펙트럼 분석기(860)는 대역 방식 변환기(862)의 출력 또는 bandwise 변환기(862)에 의해 처리되기 전에 시간 스펙트럼 변환기(860)의 출력에 대한 바람직한 음조성 분석을 적용할 수 있다. 게다가, 스펙트럼 분석기는 대역 방식 변환기(862)의 결과 또는 시간 스펙트럼 변환기(860)의 결과에 대한 특정 표적 범위를 위하여 최상의 매칭 소스 범위의 식별을 적용할 수 있다.

그 다음에, 이미 도 3a 및 도 3b의 맥락에서 논의된 에너지 정보 값들의 바람직한 계산을 설명하기 위하여 도 9a 내지 9d가 참조된다.

현대 기술의 오디오 인코더들은 주어진 오디오 신호를 표현하는 데이터의 양을 최소화하기 위하여 다양한 기술들을 적용한다. 통합 음성 오디오 코딩([1]) 같은 오디오 코더들은 주어진 오디오 신호의 스펙트럼 표현을 얻기 위하여 변형 이산 코사인 변환 같은 주파수 변환에 시간을 적용한다. 이러한 변형 이산 코사인 변환 계수들은 인간 청각 시스템의 음향심리학적 양상들을 이용하여 양자화된다. 만일 이용가능한 비트레이트가 감소되면 양자화는 디코더 면에서 가청 아티팩트들에 이르게 하는 다수의 제로가 된 스펙트럼 값들의 거친 도입을 얻는다. 지각적 품질을 향상시키기 위하여, 최신 디코더들은 이러한 제로가 된 스펙트럼 부분들을 임의의 잡음으로 채운다. 지능형 갭 필링 방법은 스펙트럼 내에 그러한 갭들을 채우기 위하여 나머지 비-제로 신호로부터 타일들을 수확한다. 스펙트럼 계수들의 스펙트럼 엔벨로프 및 에너지 분포가 보존되는 것이 디코딩된 오디오 신호의 지각적 품질을 위하여 중요하다. 여기에 제시된 에너지 보존 방법은 오디오 신호의 스펙트럼 변형 이산 코사인 변환 엔벨로프를 재구성하기 위하여 전송된 부가 정보를 사용한다.

e스펙트럼 대역 복제([15]) 내에서 오디오 신호는 적어도 2의 인자에 의해 다운샘플링되고 스펙트럼의 고주파수 부분은 완전히 제로가 된다([1, 17]). 이러한 결실된 부분은 디코더 면 상에서 파라미터 기술들, e스펙트럼 대역 복제로 대체된다. e스펙트럼 대역 복제는 부가적인 변환, 빈 고주파수 부분을 채우기 위하여, 그리고 오디오 신호를 재샘플링하기 위하여 사용되는 직각 대칭 필터 변환의 사용을 암시한다. 이는 계산 복잡도와 메모리 소비 모두를 오디오 코더에 더한다.

통합 음성 오디오 코딩([15])은 스펙트럼 홀들(제로가 된 스펙트럼 라인들)을 임의의 잡음으로 채우는 가능성을 제공하나 다음의 불리한 면들을 갖는다: 임의의 잡음은 트랜지언트 신호의 시간적 미세 구조를 보존할 수 없으며 이는 음조 신호의 고조파 구조를 보존할 수 있다.

디코더 면 상에서 e스펙트럼 대역 복제가 운용하는 영역은 인코더에 의해 완전히 검출되었다([1]). 따라서 e스펙트럼 대역 복제는 고주파수 영역 내의 음조 라인들을 결실하거나 원래 신호의 고조파 구조들을 왜곡하기 쉽다. e스펙트럼 대역 복제의 직각 대창 필터 주파수 해상도가 매우 낮고 정현파 성분들의 재삽입이 기본적인 필터뱅크의 거친 해상도 내에서만 가능하기 때문에, 복제된 주파수 범위 내의 e스펙트럼 대역 복제 내의 음조 성분들의 재생은 매우 낮은 정확도를 갖는다.

e스펙트럼 대역 복제는 패칭된 영역들의 에너지들을 조정하기 위한 기술들, 스펙트럼 엔벨로프 조정([1])을 사용한다. 이러한 기술은 스펙트럼 엔벨로프를 재형상화하기 위하여 직각 대칭 필터 주파수 시간 그리드 상에 전송된 엔저지 값들을 사용한다. 최신 기술들은 부분적으로 결실된 스펙트럼을 처리하지 않으며 높은 시간 해상도 때문에 적절한 에너지 값을 전송하거나 또는 에너지 값들에 거친 양자화를 적용하기 위하여 상대적으로 많은 양의 비트를 필요로 하기 쉽다.

지능형 갭 필링의 방법은 부가적인 변환을 필요로 하지 않는데 그 이유는 [15]에 설명된 것과 같이 계산되는 레거시 변형 이산 코사인 변환을 사용하기 때문이다.

여기에 제시된 에너지 조정 방법은 오디오 신호의 스펙트럼 엔벨로프를 재구성하기 위하여 인코더에 의해 발생된 부가 정보를 사용한다. 이러한 부가 정보는 아래에 설명되는 것과 같이 인코더에 의해 발생된다:

a) 윈도우잉된 변형 이산 코사인 변환을 입력 오디오 신호에 적용하거나([16, 섹션 4.6]), 선택적으로 윈도우잉된 변형 이산 사인 변환을 계산하거나, 또는 계산된 변형 이산 코사인 변환으로부터 윈도우잉된 변형 이산 사인 변환을 추정한다.

b) 변형 이산 코사인 변환 계수들 상에 시간적 잡음 형상화/시간적 타일 형상화를 적용한다(15, 섹션 7.8]).

c) 지능형 갭 필링 중단 주파수(f _IGFstop )까지 지능형 갭 필링 시작 주파수(f _IGFstart ) 위의 모든 변형 이산 코사인 변형 스케일 인자 대역을 위한 평균 에너지를 계산한다.

d) 평균 에너지 값들을 양자화한다.

f _IGFstart 및 f _IGFstop 은 사용자에 주어진 파라미터들이다.

단계 c)와 d)로부터 계산된 값들은 손실 없이 인코딩되고 비트 스트림을 갖는 부가 정보로서 디코더에 전송된다.

디코더는 전송된 값들을 수신하고 스펙트럼 엔벨로프를 조정하기 위하여 그것들을 사용한다.

a) 전송된 변형 이산 코사인 변환 값들을 탈양자화한다.

b) 만일 시그널링되면 레거시 통합 음성 오디오 코딩 잡음 필링을 적용한다.

c) 지능형 갭 필링 타일 필링을 적용한다.

d) 전송된 에너지 값들을 탈양자화한다.

e) 스펙트럼 엔벨로프 스케일 인자 대역 방식을 조정한다.

f) 만일 시그널링되면 시간적 잡음 형상화/시간적 타일 형상화를 적용한다.

을 윈도우 길이(2N)의 윈도우잉된 오디오 신호의 변형 이산 코사인 변환된, 실수치 스펙트럼 표현으로 한다. 이러한 변환은 [16]에서 설명된다. 인코더는 선택적으로

상에 시간적 잡음 형상화를 적용한다.

[16, 4.6.2]에서, 스케일-인자 대역들 내의

의 파티션이 설명된다. 스케일-인자 대역들은 지수들의 세트이고 본 발명에서는 scb로 표시된다.

k = 0,1,2,...max _ sfb를 갖는 각각의 scb _k 의 한계들은 어레이(swb_offset(16, 4.6.2))에 의해 정의되고, swb _offset[k] 및 swb _offset[k+1]-1은 scb _k 내에 포함된 가장 낮고 가장 높은 스펙트럼 계수 라인을 위한 첫 번째 및 마지막 지수를 정의된다. 본 발명의 발명자들은 다음과 같이 스케일 인자 대역을 나타낸다:

만일 인코더에 의해 지능형 갭 필링 공구가 사용되면, 사용자는 지능형 갭 필링 시작 주파수 및 지능형 갭 필링 중단 주파수를 정의한다. 이러한 두 값은 최적으로 매칭하는 스케일-인자 대역 지수(igfStartSfb 및 igfStopSfb)에 매핑된다. 둘 모두 비트스트림 내에서 디코더로 시그널링된다.

[16]은 긴 블록 및 짧은 블록 변환 모두를 설명한다. 긴 블록들을 위하여 스펙트럼 계수들의 하나의 세트만이 스케일-인자들의 하나의 세트와 함께 디코더로 전송된다. 짧은 블록들을 위하여 스펙트럼 계수들의 8개의 서로 다른 세트를 갖는 8개의 짧은 윈도우가 계산된다. 비트레이트를 저장하기 위하여, 그러한 8개의 짧은 블록 윈도우의 스케일 인자들은 인코더에 의해 그룹화된다.

지능형 갭 필링의 경우에 있어서 여기에 제시된 방법은 디코더로 전송되는 스펙트럼 값들을 그룹화하기 위하여 레거시 스케일 인자를 사용한다:

여기서 k = igfStartSfb,1 + igfStartSfb,2 + igfStartSfb,...,igfEndSfb이다.

양자화를 위하여 다음이 계산된다. 모든 값(

)은 디코더로 전송된다.

본 발명의 발명자들은 인코더들이 num_window_group 스케일-인자 세트들을 그룹화하도록 결정한다는 것을 가정하였다. 본 발명의 발명자들은 w로 8개의 짧은 윈도우의 지수들인 세트 {0, 1, 2,..., 7}의 이러한 그룹화-파티션을 나타내었는데, w _l 은 w의 l번째 서브셋을 나타내며, l은 윈도우 그룹의 지수를 나타내며, 0≤l＜num_window_group이다.

짧은 블록 계산을 위하여 사용자 정의된 지능형 갭 필링 시작/중단 주파수는 적절한 스케일-인자 대역들에 매핑된다. 그러나, 단순성을 위하여, 짧은 블록들을 위하여 또한 k = igfStartSfb,1 + igfStartSfb,2 + igfStartSfb,...,igfEndSfb을 표시한다.

지능형 갭 필링 에너지 계산은 값들(E _k,l )을 그룹화하기 위하여 그룹화 정보를 사용한다:

양자화를 위하여 다음이 계산된다. 모든 값(

)은 디코더에 전송된다.

위에 언급된 인코딩 공식은 실수치 변형 이산 코사인 변환 계수들(

)만을 사용하여 운용한다. 지능형 갭 필링 범위 내의 더 안정적인 에너지 분포를 획득하기 위하여, 즉 시간적 진폭 변동들을 감소시키기 위하여, 값들(

)을 계산하기 위하여 대안의 방법이 사용될 수 있다:

을 윈도우 길이(2N)의 윈도우잉된 오디오 신호의 변형 이산 코사인 변환된, 실수치 스펙트럼 표현으로 하고,

을 오디오 신호의 동일한 부분의 실수치 변형 이산 사인 변환된 스펙트럼 표현으로 한다. 변형 이산 사인 변환 스펙트럼 표현(

)은

로부터 정확하게 계산되거나 또는 추정될 수 있다.

은 그것의 실수 부분으로서

을 갖고 그것의 허수 부분으로서

을 갖는 윈도우잉된 오디오 신호의 복소수 스펙트럼 표현을 나타낸다. 인코더는 선택적으로

및

상에 시간적 잡음 형상화를 적용한다.

이제 지능형 갭 필링 범위 내의 원래 신호의 에너지가 다음으로 측정될 수 있다:

재구성 대역의 실수- 및 복소수 값의 에너지들, 즉 지능형 갭 필링 범위(scb_k)의 재구성에서 디코더 면 상에 사용되어야만 하는 타일은 다음으로 계산되며:

*

여기서 tr_k는 scb_k에 의존하는, 지수들의 세트(관련 소스 타일 범위)이다. 위의 두 가지 공식에서, 지수 세트(scb_k) 대신에, 세트(

, 본 발명에서 뒤에 정의되는)는 더 정확한 값들(E_t 및 E_r)을 달성하기 위하여 tr_k를 생성하도록 사용될 수 있다.

다음을 계산한다:

만일 E_tk＞0이면, f_k = 0이다.

다음의 공식으로:

이제 E_k의 더 안정적인 버전이 계산되는데, 그 이유는 변형 이산 코사인 변환 값들만을 갖는 E_k의 계산은 변형 이산 코사인 변환 값들이 파시발의 정리(Parseval's theorem)를 따르지 않고, 따라서 스펙트럼 값들의 완전한 정보를 반영하지 않는다는 사실에 의해 손상되기 때문이다.

은 위와 같이 계산된다.

이미 설명된 것과 같이, 짧은 블록들을 위하여 본 발명의 발명자들은 인코다가 NUM-WINDOE_GROUP 스케일-인자 세트들을 그룹화하도록 결정한다는 것을 가정한다. 위에서와 같이, w _l 은 w의 l번째 서브셋을 나타내며, l은 윈도우 그룹의 지수를 나타내며, 0≤l＜num_window_group이다.

다시, E_k,l의 더 안정적인 버전을 계산하기 위하여 위에 설명된 대안의 버전이 계산될 수 있다.

, 변형 이산 코사인 변환된

및 길이(2N)의 변황 이산 사인 변환된 윈도우잉된 오디오 신호인

의 정의들로, 다음을 계산한다:

유사하게 다음을 계산하고:

인자(f_k,l)로 처리하며:

이는 이전에 계산된 E_rk,l을 조정하도록 사용된다:

은 위에서와 같이 계산된다.

복소수 재구성 대역 또는 변형 이산 코사인 변환 값들로부터 유래하는 재구성 대역의 에너지의 사용뿐만 아니라, 소스 범위로부터 에너지 정보의 사용 과정은 더 향상된 에너지 재구성을 제공한다.

특히, 파라미터 계산기(1006)는 재구성 대역의 에너지에 대한 정보를 사용하고 부가적으로 재구성 대역을 재구성하도록 사용되기 위하여 소스 범위의 에너지에 대한 정보를 사용하여 재구성 대역을 위한 에너지 정보를 계산하도록 구성된다.

게다가, 파라미터 계산기(1006)는 재구성 대역을 재구성하도록 사용되기 위하여 원래 신호의 복소수 스펙트럼의 실수치 부분의 소스 범위에 대한 또 다른 에너지 정보(E_rk)를 계산하기 위하여, 원래 신호의 복소수 스펙트럼의 재구성 대역에 대한 정보(E_ok)를 계산하도록 구성되며, 파라미터 계산기는 에너지 정보(E_ok) 및 또 다른 에너지 정보(E_rk)를 사용하여 재구성 대역을 위한 에너지 정보를 계산하도록 구성된다.

게다가, 파라미터 계산기(1006)는 원래 신호의 복소수 스펙트럼의 재구성되려는 스케일 인자 대역에 대한 제 1 에너지 정보(E_ok)를 결정하도록 구성되고, 재구성되려는 스케일 인자 대역을 재구성하도록 사용되기 위하여 원래 신호의 복소수 스펙트럼의 소스 범위에 대한 제 2 에너지 정보(E_tk)를 결정하도록 구성되며, 재구성되려는 스케일 인자 대역을 재구성하도록 사용되기 위하여 원래 신호의 복소수 스펙트럼의 실수치 부분의 소스 범위에 대한 제 2 에너지 정보(E_rk)를 결정하도록 구성되며, 제 1 에너지 정보, 제 2 에너지 정보 및 제 3 에너지 정보 중 적어도 두 개 사이의 연관성을 기초로 하여 가중 정보를 결정하도록 구성되며, 그리고 가중된 에너지 정보를 획득하기 위하여 가중 정보를 사용하여 제 1 에너지 정보와 제 3 에너지 정보 중 하나를 가중하고 재구성 대역을 위한 에너지 정보로서 가중된 에너지 정보를 사용하도록 구성된다.

계산을 위한 예들은 다음과 같으나, 위의 일반적인 원리와 관련하여 통상의지식을 가지 자들에 다른 많은 예들이 나타날 수 있다:

이러한 모든 예는 실수치 변형 이산 코사인 변환 값들만이 디코더 면 상에서 처리되더라도, 실제 계산은 - 오버랩 및 애드(add) 때문에-, 복소수들을 사용하여 암묵적으로 만들어지는 시간 도메인 에일리어싱 취소 과정이다. 그러나, 특히, 재구성 대역(920) 내의 주파수들을 갖는 제 1 스펙트럼 부분(921)과 다른 주파수 값들을 위한 재구성 대역(920)의 도 다른 스펙트럼 부분들(922, 923)의 에너지 정보의 결정(918)은 실수 변형 이산 코사인 변환 값들에 의존한다. 따라서, 디코더로 전송된 에너지 정보는 일반적으로 원래 신호의 복소수 스펙트럼의 재구성 대역에 대한 에너지 정보(E_ok)보다 작을 것이다. 예를 들면 위의 경우 C를 위하여, 이는 인자(f_k), 가중 정보)가 1보다 작을 것이라는 것을 의미한다.

디코더 면 상에서, 만일 지능형 갭 필링 공구가 온(ON)으로 시그널링되면, 전송된 값들(

)은 비트스트림으로부터 획득되고 다음으로 양자화되어야만 하며:

모두를 위하여 k = igfStartSfb,1 + igfStartSfb,2 + igfStartSfb,..,igfEndSfb이다.

디코더는 전송된 변형 이산 코사인 값들을 x∈R_N으로 양자화하고 나머지 생존 에너지를 계산하는데:

여기서 k는 위에 정의된 것과 같은 범위 내에 존재한다.

본 발명의 발명자들은

을 나타낸다. 이러한 설정은 인코더에 의해 0으로 양자회된, 스케일 인자 대역의 모든 지수(scb _k )를 포함한다.

지능형 갭 필링 획득 부대역 방법(여기서는 설명되지 않음)은 전송된 변형 이산 코사인 변환의 비-제로 값들을 사용함으로써 인코더 면에서 변형 이산 코사인 변환 스펙트럼 값들의 거친 양자화로부터 야기하는 스펙트럼 값들을 채우도록 사용된다. x는 부가적으로 이전에 0이 된 모든 값을 대체하는 값들을 포함한다. 타일 에너지는 다음에 의해 계산되는데:

여기서 k는 위에 정의된 것과 같은 범위 내에 존재한다.

재구성 대역 내의 에너지 손실은 다음에 의해 계산된다:

그리고 조정을 위한 이득 인자는 다음에 의해 계산된다:

여기서 g' = min(g, 10)이다.

이득 인자를 사용하는 스펙트럼 엔벨로프 조정은 다음과 같으며:

x _i : = g'x _i _,

모두를 위하여

이고 k는 위에 정의된 것과 같은 범위 내에 존재한다.

이는 x의 스펙트럼 엔벨로프를 원래 스펙트럼 엔벨로프(

)의 형태로 재형상화한다.

짧은 윈도우 시퀀스로 위에 설명된 것과 같은 모든 계산은 원칙적으로 그대로 유지되나, 스케일-인자 대역들의 그룹화가 고려된다. 본 발명의 발명자들은 E _k,l 로서 비트스트림으로부터 획득된 탈양자화된 그룹화된 에너지 값들을 나타내었다. 다음과 같이 계산한다:

및

지수(j)는 짧은 블록 시퀀스의 윈도우 지수를 설명한다.

다음과 같이 계산한다:

및

여기서

g' = min(g, 10)이다.

다음을 적용하며:

x _j,i : = g'x _j,i _,

모두를 위하여

이다.

낮은 비트레이트 적용을 위하여 너무 많은 정확도의 손실 없이 값들(E _k )의 쌍 방식의 그룹화가 가능하다. 이러한 방법은 긴 블록들로만 적용된다:

여기서 k = igfStartSfb,2 + igfStartSfb,4 + igfStartSfb,..,igfEndSfb이다.

다시, 양자화 후에 모든 값(E _k _≫ ₁)은 디코더로 전송된다.

도 9a는 제 1 스펙트럼 부분들의 제 1 세트의 인코딩된 표현 및 제 2 스펙트럼 부분들의 제 2 세트를 위한 스펙트럼 에너지들을 나타내는 파라미터 데이터의 인코딩된 표현을 포함하는 인코딩된 오디오 신호를 디코딩하기 위한 장치를 도시한다. 스펙트럼 부분들의 제 1 세트는 도 9a에서 901a에 표시되고, 파라미터 데이터의 인코딩된 표현은 도 9a에서 901b에 표시된다.

오디오 디코더(900)는 디코딩된 제 1 스펙트럼 부분들(904)의 제 1 세트를 획득하도록 제 1 스펙트럼 부분들의 제 1 세트의 인코딩된 표현(901a)을 디코딩하기 위하여, 그리고 개별 재구성 대역들을 위한 개별 에너지들을 나타내는 제 2 스펙트럼 부분들의 제 2 세트를 위한 디코딩된 파라미터 데이터(902)를 획득하도록 파라미터 데이터의 인코딩된 표현을 디코딩하기 위하여 제공되며, 제 2 스펙트럼 부분들은 재구성 대역들 내에 위치된다. 게다가, 제 2 스펙트럼 부분을 포함하는 재구성 대역의 스펙트럼 값들을 재구성하기 위하여 주파수 재생기(906)가 제공된다. 주파수 재생기(906)는 제 1 스펙트럼 부분들의 제 1 세트의 하나의 제 1 스펙트럼 부분 및 재구성 대역을 위한 하나의 개별 에너지 정보를 사용하며, 재구성 대역은 제 1 스펙트럼 부분과 제 2 스펙트럼 부분을 포함한다.

주파수 재생기(906)는 재구성 대역 내의 주파수들을 갖는 제 1 스펙트럼 부분의 축적된 에너지를 포함하는 생존 에너지 정보를 결정하기 위한 계산기(912)를 포함한다. 게다가, 주파수 재생기(906)는 재구성 대역의 또 다른 스펙트럼 부분들의 타일 에너지 정보를 결정하고 제 1 스펙트럼 부분과 다른 주파수 값들을 결정하기 위한 계산기(918)를 포함하며, 이러한 주파수 값들은 재구성 대역 내의 주파수들을 가지며, 또 다른 스펙트럼 부분들은 재구성 대역 내의 제 1 스펙트럼 부분과 다른 제 1 스펙트럼 부분을 사용하는 주파수 재생에 의해 발생된다.

주파수 재생기(906)는 재구성 대역 내의 손실 에너지를 위한 계산기(914)를 더 포함하며, 계산기(914)는 재구성 대역을 위한 개별 에너지 및 블록(912)에 의해 발생되는 생존 에너지를 사용하여 운용한다. 게다가, 주파수 재생기(906)는 손실 에너지 정보 및 블록(918)에 의해 발생된 에너지 정보를 기초로 하여 재구성 대역 내의 또 다른 스펙트럼 부분들을 조정하기 위한 스펙트럼 엔벨로프 조정기(916)를 포함한다.

특정 재구성 대역(920)을 도시한 도 9c가 참조된다. 재구성 대역은 921에 개략적으로 도시된 도 3a에서의 제 1 스펙트럼 부분(306)과 같은 재구성 대역 내의 제 1 스펙트럼 부분을 포함한다. 게다가, 재구성 대역 내의 스펙트럼 값들의 나머지는 예를 들면 도 3a의 지능형 갭 필링 시작 주파수(309) 아래의 스케일 인자 대역(1, 2, 3)으로부터, 소스 영역을 사용하여 발생된다. 주파수 재생기(906)는 제 2 스펙트럼 부분들(922 및 923)을 위한 원시 스펙트럼 값들을 발생시키도록 구성된다. 그리고 나서, 이제 동일한 스펙트럼 해상도, 즉 제 1 스펙트럼 부분(921)과 동일한 라인 거리를 갖는 재구성 대역(920) 내의 재구성되고 조정된 제 2 스펙트럼 부분들을 획득하기 위하여 최종적으로 주파수 대역들(922, 923) 내의 원시 스펙트럼 값들을 조정하도록 도 9c에 도시된 것과 같이 이득 인자(g)가 계산된다. 도 9c의 921에 도시된 재구성 대역 내의 제 1 스펙트럼 부분은 오디오 디코더(900)에 의해 디코딩되고 도 9b의 엔벨로프 조정 실행된 블록(916)에 의해 영향을 받지 않는다는 것을 이해하는 것이 중요하다. 대신에, 921에 표시된 재구성 대역 내의 제 1 스펙트럼 부분은 그대로 남는데, 그 이유는 이러한 스펙트럼 부분이 라인(904)을 통하여 완전 대역폭 또는 완전 비율 오디오 디코더(900)에 의해 출력되기 때문이다.

그 뒤에, 실수들을 갖는 특정 예가 설명된다. 블록(912)에 의해 계산된 것과 같은 나머지 생존 에너지는 예를 들면, 5개의 에너지 유닛이며 이러한 에너지는 제 1 스펙트럼 부분(921) 내에 바람직하게 표시된 4개의 스펙트럼 라인의 에너지이다.

게다가, 도 3b 또는 3a의 스케일 인자 대역(6)과 상응하는 재구성 대역을 위한 에너지 값(E3)은 10개의 유닛과 동일하다. 중요하게도, 에너지 값은 스펙트럼 부분들(922, 923)의 에너지뿐만 아니라,

인코더-면 상에서, 즉 예를 들면 음조성 마스크를 사용하여 스펙트럼 분석을 실행하기 전에 계산된 것과 같은 재구성 대역(920)의 완전한 에너지를 포함한다. 따라서, 10개의 에너지 유닛은 재구성 대역 내의 제 1 및 제 2 스펙트럼 부분들을 커버한다. 그때, 블록들(922, 923) 또는 블록들(922, 923)을 위한 원시 표적 범위 데이터를 위한 소스 범위 데이터의 에너지는 8개의 에너지 유닛과 동일한 것으로 가정된다. 따라서, 5개의 유닛의 손실 에너지가 계산된다.

타일 에너지(tEk)에 의해 세분된 손실 에너지를 기초로 하여, 0.79의 이득 인자가 계산된다. 그리고 나서 제 2 스펙트럼 부분들(922, 923)을 위한 원시 스펙트럼 라인들은 계산된 이득 인자와 곱해진다. 따라서, 제 2 스펙트럼 부분들(922, 923)을 위한 스펙트럼 값들만이 조정되고 제 1 스펙트럼 부분들(921)을 위한 스펙트럼 라인들은 이러한 엔벨로프 조정에 의해 영향을 받지 않는다. 제 2 스펙트럼 부분들(922, 923)을 위한 원시 스펙트럼 값들을 곱한 후에, 재구성 대역 내의 제 1 스펙트럼 부분들로 구성되고, 재구성 대역(920) 내의 제 2 스펙트럼 부분들(922, 923) 내의 스펙트럼 라인들로 구성되는 완전한 재구성 대역이 계산되었다.

바람직하게는, 대역들(922, 923) 내의 원시 스펙트럼 데이터를 발생시키기 위한 소스 범위는 주파수와 관련하여, 지능형 갭 필링 시작 주파수(309) 아래이고 재구성 대역(920)은 지능형 갭 필링 시작 주파수(309) 위이다.

게다가, 재구성 대역 경계들이 스케일 인자 대역 경계들과 일치하는 것이 바람직하다. 따라서, 재구성 대역은 일 실시 예에서, 코어 오디오 디코더의 스케일 인자 대역들의 상응하는 크기를 갖거나 또는 에너지 쌍이 적용될 때, 재구성 대역을 위한 에너지 값이 스케일 인자 대역들의 2 또는 그 이상의 정수를 제공하도록 크기화된다. 따라서, 스케일 인자 대역(4), 스케일 인자 대역(5) 및 스케일 인자 대역(6)을 위하여 에너지 축적이 실행된다고 가정될 때, 재구성 대역(920)의 낮은 주파수 경계는 스케일 인자 대역(4)의 낮은 경계와 동일하고 재구성 대역(920)의 높은 주파수 경계는 스케일 인자 대역(6)의 높은 경계와 동일하다.

그 뒤에, 도 9a의 디코더의 도 다른 기능을 나타내기 위하여 도 9d가 설명된다. 오디오 디코더(900)는 스펙트럼 부분들의 제 1 세트의 제 1 스펙트럼 부분들과 상응하는 탈양자화된 스펙트럼 값들을 수신하고, 부가적으로 도 3b에 도시된 것과 같은 스케일 인자 대역들을 위한 스케일 인자들이 역 스케일링 블록(940)에 제공된다. 역 스케일링 블록(940)은 도 3a의 지능형 갭 필링 시작 주파수(309) 아래의 제 1 스펙트럼 부분들의 모든 제 1 세트, 및 부가적으로 지능형 갭 필링 시작 주파수(309) 위의 제 1 스펙트럼 부분들, 즉 도 9d의 941에 도시된 것과 같은 재구성 대역 내에 모두 위치되는 도 3a의 제 1 스펙트럼 부분들(304, 305, 306, 307)을 제공한다. 게다가, 재구성 대역 내의 주파수 타일 필링을 위하여 사용되는 소스 대역 내의 제 1 스펙트럼 부분들이 엔벨로프 조정기/계산기(942)에 제공되고 이러한 블록은 부가적으로 도 9d의 943에 도시된 것과 같이 인코딩된 오디오 신호에 대한 파라미터 부가 정보로서 제공되는 재구성 대역을 위한 에너지 정보를 수신한다. 그리고 나서, 엔벨로프 조정기/계산기(942)는 도 9b와 9c의 기능들을 제공하고 최종적으로 재구성 대역 내의 제 2 스펙트럼 부분들을 위한 조정된 스펙트럼 값들을 출력한다. 재구성 대역 내의 제 2 스펙트럼 부분들의 이러한 조정된 스펙트럼 값들(922, 923) 및 도 9d의 라인(941)에 표시된 재구성 대역 내의 제 1 스펙트럼 부분들은 공동으로 재구성 대역 내의 완전한 스펙트럼 표현을 표현한다.

그 뒤에, 인코딩된 오디오 신호를 제공하거나 또는 발생시키기 위하여 오디오 신호의 인코딩을 위한 오디오 인코더의 바람직한 실시 예들을 설명하기 위하여 도 10a 내지 10b가 참조된다. 인코더는 스펙트럼 분석기(1004)를 공급하는 시간/스펙트럼 변환기(1002)를 포함하고, 스펙트럼 분석기(1004)는 한편으로는 파라미터 계산기(1006)에, 다른 한편으로는 오디오 인코더(1008)에 연결된다. 오디오 인코더(1008)는 제 1 스펙트럼 부분들의 제 1 세트의 인코딩된 표현을 제공하고 제 2 스펙트럼 부분들의 제 2 세트를 포함하지는 않는다. 다른 한편으로는, 파라미터 계산기(1006)는 제 1 및 제 2 스펙트럼 부분들을 포함하는 재구성 대역을 위한 에너지 정보를 제공한다. 게다가, 오디오 인코더(1008)는 제 1 스펙트럼 해상도를 갖는 제 1 스펙트럼 부분들의 제 1 세트의 제 1 인코딩된 표현을 발생시키도록 구성되며, 오디오 인코더(1008)는 블록(1002)에 의해 발생되는 스펙트럼 표현의 모든 대역을 위한 스케일 인자들을 제공한다. 부가적으로, 도 3b에 도시된 것과 같이, 인코더는 주파수와 관련하여, 적어도 도 3a에 도시된 것과 같은 지능형 갭 필링 시작 주파수(309) 위에 위치되는 재구성 대역들을 위한 에너지 정보를 제공한다. 따라서, 바람직하게는 스케일 인자 대역들과 일치하거나 또는 스케일 인자 대역들의 그룹들과 일치하는 재구성 대역들을 위하여, 두 개의 값, 즉 오디오 인코더(1008)로부터의 상응하는 스케일 인자 및 부가적으로, 파라미터 계산기(1006)에 의해 출력되는 에너지 정보가 주어진다.

오디오 인코더는 바람직하게는 서로 다른 주파수 대역폭들, 즉 서로 다른 수의 스펙트럼 값들을 갖는 스케일 인자 대역들을 갖는다. 따라서, 파라미터 계산기는 특정 재구성 대역의 대역폭과 관련하여 사로 다른 대역폭을 위한 에너지들을 정규화하기 위한 정규화기(normalizer, 1012)를 포함한다. 이를 이하여, 정규화기(1012)는 입력들로서, 대역 내의 에너지 및 대역 내의 스펙트럼 값들의 수를 수신하고 정규화기(1012)는 그리고 나서 재구성/스케일 인자 대역 당 정규화된 에너지를 출력한다.

게다가, 도 10a의 파라미터 계산기(1006a)는 도 10a의 라인(1007)에 의해 도시된 것과 같이 코어 또는 오디오 인코더(1008)로부터 제어 정보를 수신하는 에너지 값 계산기를 포함한다. 이러한 제어 정보는 오디오 인코더에 의해 사용되는 긴/짧은 블록들에 대한 정보 및/또는 그룹화 정보를 포함할 수 있다. 따라서, 긴/짧은 블록들에 대한 정보 및 짧은 윈도우들에 대한 그룹화 정보는 "시간" 그룹화와 관련되며, 그룹화 정보는 부가적으로 스펙트럼 그룹화, 즉 두 스케일 인자 대역의 단일 재구성 대역으로의 그룹화를 언급할 수 있다. 따라서, 에너지 값 계산기(1006)는 스펙트럼 부분들만이 그룹화되었을 때 제 1 및 제 2 스펙트럼 부분을 포함하는 각각의 그룹화된 대역을 위한 단일 에너지 값을 출력한다.

도 10d는 스펙트럼 그룹화를 구현하는 또 다른 실시 예를 도시한다. 이를 위하여, 블록(1016)은 두 개의 인접한 대역을 위한 에너지 값들을 계산하도록 구성된다. 그리고 나서, 불록(1018)에서, 인접한 대역들을 위한 에너지 값들이 비교되고, 에너지 값들이 예를 들면 한계(threshold)에 의해 정의되는 것과 크게 다르지 않거나 또는 약간 다를 때, 블록(1020)에 표시된 것과 같이 두 대역을 위한 단일(정규화된) 값이 발생된다. 라인(1024)에 의해 도시된 것과 같이, 블록(1018)은 우회될 수 있다. 게다가, 블록(1020)에 의해 실행되는 두 개 또는 그 이상의 대역을 위한 단일 값의 발생은 인코더 비트레이트 제어(1024)에 의해 제어될 수 있다. 따라서, 비트레이트가 감소될 때, 인코딩된 비트레이트 제어(1024)는 블록(1018) 내의 비교가 에너지 정보 값들을 그룹화하도록 허용되지 않았더라도 두 개 또는 그 이상의 대역을 위한 단일의 정규화된 값을 발생시키도록 블록(1020)을 제어한다.

오디오 인코더가 두 개 또는 그 이상의 짧은 윈도우의 그룹화를 실행하는 경우에 있어서, 이러한 그룹화는 또한 에너지 정보를 위하여 적용된다. 코어 인코더가 두 개 또는 그 이상의 짧은 블록의 그룹화를 실행할 때, 이러한 두 개 또는 그이상의 블록을 위하여, 스케일 인자들의 단일 세트만이 계산되고 전송된다. 디코더-면 상에서, 오디오 디코더는 그리고 나서 두 그룹화된 윈도우를 위하여 동일한 스케일 인자들의 세트를 적용한다.

에너지 정보 계산과 관련하여, 재구성 대역 내의 스펙트럼 값들은 두 개 또는 그 이상의 짧은 윈도우에 대하여 축적된다. 바꾸어 말하면, 이는 짧은 블록 및 뒤따르는 짧은 블록을 위한 특정 재구성 대역 내의 스펙트럼 값들이 함께 축적되고 두 개의 짧은 블록을 포함하는 이러한 재구성 대역을 위하여 단일 에너지 정보 값만이 전송되는 것을 의미한다. 그리고 나서 디코더-면 상에서, 도 9a 내지 9d와 관련하여 설명된 엔벨로프 조정이 각각의 짧은 블록을 위하여 개별적으로 실행되지 않고 그룹화된 짧은 윈도우들의 세트를 위하여 함께 실행된다.

상응하는 정규화는 그리고 나서 주파수 내의 어떠한 그룹화 또는 시간 내의 그룹화가 실행되었더라도 디코더-면 상에서 에너지 값 정보 계산을 위하여, 한편으로는 에너지 정보 값 및 재구성 대역 또는 그룹화된 재구성 대역들의 세트 내의 스펙트럼 라인들의 양이 알려져야만 하도록 쉽게 허용한다.

최신 대역폭 확장 전략들에서, 주어진 이른바 크로스-오버 주파수 위의 고주파수 스펙트럼 영역의 재구성은 종종 스펙트럼 패칭을 기초로 한다. 일반적으로, 고주파수 영역은 다수의 인접한 패치들로 구성되고 이러한 패치들 각각은 주어진 크로스-오버 주파수 아래의 저주파수 스펙트럼의 대역-통과(BP) 영역들로부터 기원한다. 신호의 필터뱅크 표현 내에서 그러한 시스템들은 표적 영역 내의 저주파수 스펙트럼 중에서 인접한 부대역 계수들의 세트를 복사한다. 선택된 세트들의 경계들은 일반적으로 시스템 의존적이고 신호 의존적이 아니다. 일부 신호 콘텐츠를 위하여, 이러한 정적 패치 선택은 재구성 대역의 불쾌한 음색 및 컬러링(cloloring)에 이르게 할 수 있다.

다른 접근법들은 신호 적응적 단측파대(Single Side Band, SSB) 변조를 통하여 저주파수 신호를 고주파수에 전달한다. 그러한 접근법들은 [1]과 비교하여 고도의 계산 복잡도를 갖는데, 그 이유는 시간 도메인 샘플들 상에서 높은 샘플링 비율로 운용하기 때문이다. 또한, 패칭은 특히 비-음조 신호들(예를 들면, 무성음)을 위하여 비안정적이며, 이에 의해 최신의 신호 적응적 패칭이 신호 내로 손상(impairment)들을 도입할 수 있다.

본 발명의 접근법은 지능형 갭 필링으로 불리며, 그것의 바람직한 구성에서, 이는 예를 들면 변형 이산 코사인 변환 같은, 시간-주파수 변환을 기초로 하는 대욕폭 확장 시스템 내에 적용된다. 그럼에도 불구하고, 본 발명의 원리는 일반적으로 예를 들면 직각 대칭 필터뱅크 기반 시스템 내에 유사하게 적용가능하다.

변형 이산 코사인 변환을 기초로 하는 지능형 갭 필링의 장점은 변형 이산 코사인 변환 기반 오디오 코더들, 예를 들면 MPEG 고급 오디오 코딩으로의 매끄러운 통합이다 파형 오디오 코딩 및 대역폭 확장을 위한 동일한 변환의 공유는 오디오 코덱을 위한 전체 계산 복잡도를 상당히 감소시킨다.

게다가, 본 발명은 최신의 적응적 패칭 전략들에서 발견되는 고유의 안정성 문제들을 위한 해결책을 제공한다.

제안된 시스템은 일부 신호를 위하여, 비유도된(unguided) 패치 선택이 음색 변화들과 신호 착색들에 이르게 할 수 있다는 관찰을 기초로 한다.

만일 스펙트럼 소스 영역(SSR)에서 음조이나 스펙트럼 표적 영역(STR)에서 잡음 유사이면, 음조 스펙트럼 소스 영역에 의해 잡음 유사 스펙트럼 표적 영역의 패칭은 부자연스러운 음색에 이르게 한다. 신호의 음색은 또한 변할 수 있는데 그 이유는 신호의 음조 구조가 패칭 과정에 의해 오정렬되거나 도는 심지어 파괴되기 때문이다.

처리된 지능형 갭 필링 시스템은 특정 스펙트럼 소스 영역과 특정 스펙트럼 표적 영역 사이의 유사성 측정으로서 상호 상관관계를 사용하여 지능형 타일 선택을 실행한다. 두 신호의 상호 상관관계는 그러한 신호들 및 또한 최대 상관관계의 래그와 그것의 부호의 유사성의 측정을 제공한다. 따라서, 타일 선택을 기초로 하는 상관관계의 접근법은 또한 원래 스펙트럼 구조에 가능한 한 가깝게 되도록 복사된 스펙트럼의 스펙트럼 개시를 정확하게 조정하도록 사용될 수 있다.

처리된 시스템의 기본적인 기여는 적절한 유사성 측정의 선택, 및 타일 선택 과정을 안정화하는 기술들이다. 처리된 기술은 즉각적인 신호 및 동시에 시간적 안정성 사이의 최적 균형을 제공한다. 시간적 안정성의 제공은 특히 SSR과 STR의 유사성을 거의 갖지 않고 따라서 상호 상관관계 값들들을 나타내는 신호들을 위하여 중요하거나 또는 만일 모호한 유사성 측정들이 이용되면 중요하다. 그러한 경우들에 있어서, 안정화는 적응적 타일 선택의 의사 난수(pseudo-random) 행동을 방지한다.

예를 들면, 최신 대역폭 확장에 대한 문제점들을 제기하는 신호들의 등급은 도 12a(왼쪽)에 도시된 것과 같이, 임의 스펙트럼 영역들에 대한 에너지의 뚜렷한 집중을 특징으로 한다.

비록 표적 영역 내의 재구성된 스펙트럼의 스펙트럼 엔벨로프와 음조성을 조정하는데 이용가능한 방법들이 존재하나. 일부 신호들을 위하여 이러한 방법들은 도 12a(오른쪽)에 도시된 것과 같이 음색을 잘 보존할 수 없다. 도 12a에 도시된 실시 예에서, 이른바 크로스오버 주파수(f _xover , 도 12a, 왼쪽) 위의 원래 신호의 표적 영역 내의 스펙트럼의 진폭은 거의 선형으로 감소한다. 이와 대조적으로, 재구성된 스펙트럼 내에서(도 12a, 오른쪽), 음색 채색 아티팩트로서 인지되는 하락과 피크의 뚜렷한 경사가 존재한다.

새로운 접근법의 중요한 단계는 뒤따르는 유사성 기반 선택이 발생할 수 있는 타일들의 세트를 정의하는 것이다. 우선, 소스 영역과 표적 영역이 타일 경계들이 서로에 따라 정의되어야만 한다. 따라서, 코어 코더의 지능형 갭 필링 시작 주파수(f _IGFstart )와 최고로 이용가능한 주파수(f _IGFstop ) 사이의 표적 영역이 타일들의 임의의 정수(nTar)로 세분되며, 이들 각각은 개별의 미리 정의된 크기를 갖는다. 그리고 나서, 각각의 표적 타일(tar[idx_tar])을 위하여, 동일한 크기의 소스 타일들(src[idx_src])의 세트가 발생된다. 이에 의해, 지능형 갭 필링 시스템의 기본적인 자유도가 결정된다. 소스 타일들(nSrc)의 총 수는 소스 영역의 대역폭에 의해 결정되며,

bw _src = (f _IGFstart - f _IGFmin )

여기서 f _IGFmin 는 소스 타일들의 정수(nSrc)가 bw _src 와 꼭 들어맞는 것과 같이 타일 선택을 위한 가장 낮은 이용가능한 주파수이다. 소스 타일들의 최소 수는 0이다.

선택과 조정을 위한 자유도를 더 증가시키기 위하여, 소스 타일들은 0과 1 사이의 오버랩 인자에 의해 서로 오버랩하도록 정의될 수 있으며, 0은 오버랩이 아닌 것을 의미하고 1은 100% 오버랩을 의미한다. 100% 오버랩 경우는 하나의 타일 소스만이 이용가능하거나 또는 어떠한 타일 소스도 이용가능하지 않는 것을 나타낸다.

도 12b는 타일들의 세트의 타일 경계들의 일례를 도시한다. 이러한 경우에 있어서, 모든 표적 타일은 각각의 소스 타일들과 상관된다. 이러한 예에서, 소스 타일들은 50%로 오버랩한다.

표적 타일을 위하여, 상호 상관관계는 xcorr_maxLag 빈들까지 래그들에서 다양한 소스 타일들로 계산된다. 주어진 표적 타일(idx_tar)과 소스 타일(idx_src)을 위하여, xcorr_val[idx_tar][idx_src]는 타일들 사이의 절대 상호 상관관계의 최대 값을 주며, 반면에 xcorr_lag[idx_tar][idx_src]는 이러한 최대가 발생하는 래그를 주며, xcorr_sign[idx_tar][idx_src]는 xcorr_lag[idx_tar][idx_src]에서 상호 상관관계의 부호를 준다.

파라미터(xcorr_lag)는 소스 및 표적 타일들 사이의 일치의 근사성을 제어하도록 사용된다. 이러한 파라미터는 감소된 아티팩트들에 이르게 하며 신호의 음색과 색을 보존하는데 더 도움을 준다.

일부 시나리오에서 특정 표적 타일의 크기가 이용가능한 소스 타일들의 크기보다 큰 경우가 발생할 수 있다. 이러한 경우에 있어서, 이용가능한 소스 타일은 특정 표적 타일을 완전히 채우는데 필요한 만큼 자주 반복된다. 상호 상관관계 래그(xcorr_lag) 및 부호(xcorr_sign)와 관련하여 표적 터일 내의 소스 타일의 최상의 위치를 얻기 위하여 가장 큰 표적 타일과 가장 작은 소스 타일 사이의 상호 상관관계를 실행하는 것이 또한 가능하다.

원시 스펙트럼 타일들과 원래 신호의 상호 상관관계는 강력한 포먼트 구조(formant structure)를 갖는 오디오 스펙트럼에 적용되는 가정 적절한 유사성 측정이 아닐 수 있다. 스펙트럼의 백색화는 거친 엔벨로프 정보를 제거하고 이에 의해 타일 유사성의 평가를 위하여 가정 중요한 관심인, 스펙트럼 미세 구조를 강조한다. 백색화는 또한 지능형 갭 필링에 의해 처리된 영역들을 위하여 디코더에서 STR의 쉬운 엔벨로프 형상화에 도움을 준다. 따라서, 선택적으로, 타일과 소스 신호는 상호 상관관계가 계산되기 전에 백색화된다.

다른 구현들에서, 미리 정의된 과정을 사용하여 타일만이 백색화된다. 전송된 "백색화" 플래그는 동일한 미리 정의된 백색화 과정이 지능형 갭 필링 내의 타일에 적용되어야만 한다는 것을 디코더에 나타낸다.

신호의 백색화를 위하여, 제 1 스펙트럼 엔벨로프 추정이 계산된다. 그리고 나서, 변형 이산 코사인 변환 스펙트럼은 스펙트럼 엔벨로프ㅜ에 의해 세분된다. 스펙트럼 엔벨로프 추정은 변형 이산 코사인 변환 스펙트럼, 변형 이산 코사인 변환 에너지들, 변형 이산 코사인 변환 기반 복소수 파워 스펙트럼 또는 파워 스펙트럼 추정들 상에서 추정될 수 있다. 엔벨로프가 추정되는 신호는 이제부터 기저 신호(base signal)로 불릴 것이다.

기저 신호로서 변형 이산 코사인 변환 기반 복소수 파워 스펙트럼 또는 파워 스펙트럼 추정들 상에서 계산된 엔벨로프들은 음조 성분들 상에서 시간적 변동을 갖지 않는 장점을 갖는다.

만일 기저 신호가 에너지 도메인 내에 존재하면, 변형 이산 코사인 변환 스펙트럼은 신호를 정확하게 백색화하기 위하여 엔벨로프의 제곱근으로 나눠진다.

엔벨로프를 계산하는 서로 다른 방법들이 존재한다:

● 이산 코사인 변환(DCT)으로 기저 신호를 변환, 낮은 이산 코사인 변환 계수들(가장 위를 0으로 설정)만을 유지, 그리고 나서 역 이산 코사인 변환을 계산

● 시간 도메인 오디오 프레임 상에서 계산된 선형 예측 계수들(LPC)의 세트의 스펙트럼 엔벨로프를 계산

● 저대역 필터로 기저 신호를 필터링

바람직하게는, 마지막 접근법이 선택된다. 낮은 계산 복잡도를 요구하는 적용들을 위하여, 변형 이산 코사인 변환 스펙트럼의 백색화에 일부 단순화가 수행될 수 있다. 우선 엔벨로프는 이동 평균에 의해 계산된다. 이는 변형 이산 코사인 변환 빈(bin) 당 두 개의 프로세서 사이클만을 필요로 한다. 그리고 나서 나눗셈과 제곱근의 계산을 방지하기 위하여, 스펙트럼 엔벨로프는 약 2n과 가깝게 되는데, 여기서 n은 엔벨로프의 정수 로그(integer logarithm)이다. 이러한 도메인에서 제곱근 연산은 간단하게 시프트 연산(shift operation)이 되며 게다가 엔벨로프의 세분은 또 다른 시프트 연산에 의해 실행된다.

각각의 소스 타일의 각각의 표적 타일과의 상관관계를 계산한 후에, 모든 nTar 표적 타일을 위하여 가장 높은 상관관계를 갖는 소스 타일이 이를 대체하기 위하여 선택된다. 원래 스텍트럼 구조를 최상으로 매칭하기 위하여, 상관관계의 래그는 변환 빈(bin)들의 정수에 의해 복제된 스펙트럼을 변조하도록 사용된다. 홀수 래그들의 경우에 있어서, 타일은 부가적으로 변형 이산 코사인 변환 내의 모든 다른 대역의 주파수-역전 표현을 보상하기 위하여 -1/1의 교번 시간적 시퀀스와의 곱셈을 통하여 변조된다.

도 12c는 소스 타일과 표적 타일 사이의 상관관계의 일례를 도시한다. 이러한 예에서 상관관계의 래그는 5이고, 따라서 소스 타일은 대역폭 확장 알고리즘의 카피-업 단계에서 높은 주파수 빈들을 향하여 5개의 빈에 의해 변조된다. 게다가, 타일의 부호는 최대 상관관계 값이 음이고 위에 설명된 것과 같이 부가적인 변조가 홀수 래그를 처리함에 따라 전위되어야만 한다.

따라서 인코더로부터 디코더로 전송하기 위한 부가 정보의 총 양은 다음의 데이터로 구성될 수 있다:

● tileNum[nTar]: 표적 타일 당 선택된 소스 타일의 지수

● tileSign[nTar]: 표적 타일의 부호

● tileMod[nTar]: 표적 타일 당 상관관계의 래그

전지작업 및 안정화는 지능형 갭 필링에서 중요하다. 그것의 필요성과 장점이 정상의 음조 오디오 신호 같은, 예를 들면 안정적인 피치 파이프 노트를 가정하는 일례로 설명된다. 논리는 만일 주어진 표적 영역을 위하여 소스 타일들이 항상 프레임들을 가로질러 동일한 소스 영역으로부터 선택되면, 적은 아티팩트들이 도입되는 것을 요구한다. 비록 신호가 정상으로 가정되더라도, 이러한 조건은 모든 프레임에서 잘 유지할 수 없는데 그 이유는 또 다른 동일하게 유사한 소스 영역의 유사성 측정(예를 들면, 상관관계)이 유사성 결과(예를 들면 상호 상관관계)를 지배할 수 있기 때문이다. 이는 두 가지 또는 그 이상의 매우 유사한 선택 사이를 망설이도록 하는 인접한 프레임들 사이에 tileNum[nTar]에 이르게 한다. 이는 짜증나는 음악 잡음 같은 아티팩트의 소스일 수 있다.

이러한 형태의 아티팩트들을 제거하기 위하여, 소스 타일들의 세트는 소스 세트의 나머지 구성원이 최대로 다른 것과 같이 전지작업되어야만 한다. 이는 다음과 같이 소스 타일들의 세트에 대하여 달성된다:

S = {s₁, s₃,...s_n}

어떠한 소스 타일(s₁)을 위하여, 본 발명의 발명자들은 다른 모든 소스 타일과 상관하였고, s_i와 s_j 사이의 최상의 상관관계를 발견하였으며 이를 매트릭스(S_x) 내에 저장하였다. 행을 따른 매트릭스(S_x)의 추가는 본 발명의 발명자들에 소스 타일(s_i와)과 모든 다른 소스 타일들(T)과의 상호상관관계의 합계를 준다.

T[i] = S_x[i][1] + S_x[i][2]...+S_x[i][n]

여기서 T는 소스가 다른 소스 타일들과 얼마나 유사한지의 추정을 나타낸다. 만일 어떠한 소스 타일(i)을 위하여 아래와 같으면

T ＞ 한계

소스 타일(i)은 잠재적 소스들로부터 떨어질 수 있는데 그 이유는 다른 소스들과 고도로 상관되기 때문이다. 방정식 1에서의 조건을 만족시키는 타일들의 세트와 가장 낮은 상관관계를 갖는 타일은 이러한 서브셋을 위한 대표적 타일로서 선택된다. 이러한 방식으로, 본 발명의 발명자들은 소스 타일들이 서로 최대로 다르다는 것을 보장한다.

타일 전지작업 방법은 또한 선행 프레임에서 사용된 전지작업된 타일 세트의 메모리를 포함한다. 이전 프레임에서 활성이었던 타일들은 만일 전지작업을 위한 대안의 후보가 존재하면 또한 그 다음 프레임에서 유지된다.

프레임(k) 내의 타일{s₁, s₃,...s_n}들 중에서 타일들(s₃, s₄ 및 s₅)을 활성화하도록 두고, 프레임(k+1) 내에서 s₁, s₃ 및 s₂가 다른 것과 최대로 상관되는 s3로 전지작업되려고 하더라도, s₃는 유지되는데 그 이유는 이것이 이전 프레임에서 유용한 소스 타일이었으며, 따라서 소스 타일들의 세트 내의 그것의 유지는 타일 선택에서의 시간적 지속성을 시행하는데 유익하기 때문이다. 이러한 방법은 바람직하게는 만일 T_x[i][j]로서 표현되는 소스(i)와 표적(j) 사이의 상호 상관관계가 높으면 적용된다.

타일 안정화를 위한 부가적인 방법은 만일 현재 프레임(k) 내의 소스 타일 중 어느 것도 표적 타일들과 상관되지 않으면 이전 프레임(k-1)으로부터 타일 순서를 유지하는 것이다. 이는 만일 소스(i) 및 타일(j) 사이의 상호 상관관계가 모든 소스 및 타일에 대하여 매우 낮으면 발생할 수 있다.

예를 들면, 만일

T_x[i][j] ＜ 0.6이면

이제 사용되는 잠정적인 한계는 이러한 프레임의 모든 nTar을 위하여 다음과 같다:

tileNuim[nTar]_k = tileNum[nTar]_k _-1

위의 두 기술은 프레임들을 가로질러 타일 수들의 급속한 변화로부터 발생하는 아티팩트들을 감소시킨다. 이러한 타일 전지작업과 안정화의 또 다른 장점은 디코더로 보내는데 어떠한 추가의 정보도 필요하지 않고 디코더 구조의 변화도 필요하지 않다는 것이다. 이러한 제안된 타일 전지작업은 타일 스펙트럼 영역들 내의 잠재적인 음악 잡음 같은 아티팩트들 또는 과도한 잡음을 감소시키는 우수한 방법이다.

도 11a는 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더를 도시한다. 오디오 디코더는 제 1 스펙트럼 부분들의 제 1 세트의 제 1 디코딩된 표현을 발생시키기 위한 오디오 (코어) 디코더(1102)를 포함하며, 디코딩된 표현은 제 1 스펙트럼 해상도를 갖는다.

게다가, 오디오 디코더는 제 1 스펙트럼 해상도보다 낮은 제 2 스펙트럼 해성도를 갖는 제 2 스펙트럼 부분들의 제 2 세트의 제 2 디코딩된 표현을 발생시키기 위한 파라미터 디코더(1104)를 포함한다. 게다가, 제 1 입력(1101)으로서 디코딩된 제 1 스펙트럼 부분들을 수신하고 제 2 입력(1103)으로서 각각의 표적 주파수 타일 또는 표적 재구성 대역을 위하여 소스 범위 정보를 포함하는 파라미터 정보를 수신하는 주파수 재생기(1106)가 제공된다. 주파수 재생기(1106)는 그리고 나서 표적 범위를 위한 스펙트럼 데이터를 발생시키기 위하여 매칭 정보에 의해 식별되는 소스 범위로부터 스펙트럼 값들을 사용함으로써 주파수 재생을 적용한다. 그리고 나서, 제 1 스펙트럼 부분들(1101) 및 주파수 재생기(1107)의 출력은 최종적으로 디코딩된 오디오 신호를 발생시키기 위하여 모두 스펙트럼-시간 변환기(1108) 내로 입력된다.

바람직하게는, 비록 오디오 디코더가 또한 시간 도메인 또는 파라미터 오디오 디코더와 같은 어떠한 다른 오디오 디코더로서 구현될 수 있더라도, 오디오 디코더(1102)는 스펙트럼 도메인 오디오 디코더이다.

도 11b에 도시된 것과 같이, 주파수 재생기(1106)는 홀수 래그들을 위한 소스 범위 선택기-타일 변조기의 기능성들, 백색화 플래그(1123)가 제공될 때 백색화 필터(1122), 및 부가적으로 블록(1120) 또는 블록(1122) 또는 두 블록의 협력에 의해 발생되는 원시 스펙트럼 데이터를 사용하여 구현되는 블록(1128)에 도시된 조정 기능성들을 갖는 스펙트럼 엔벨로프를 포함한다. 어쨌든, 주파수 재생기(1106)는 수신된 백색화 플래그(1123)에 반응하는 스위치(1124)를 포함할 수 있다. 백색화 플래그가 설정될 때, 홀수 래그들을 위한 소스 범위 선택기/타일 변조기는 백색화 필터(1122) 내로 입력된다. 그러나, 그리고 나서 백색화 플래그(1123)는 특정 재구성 대역을 위하여 설정되지 않고, 그때 어떠한 백색화 없이 스펙트럼 엔벨로프 조정 블록(1128)에 블록(1120)의 출력이 제공되도록 우회 라인(1126)이 활성화된다.

비트스트림 내에 시그널링되는 하나 이상의 백색화(1123)의 레벨이 존재할 수 있으며 이러한 레벨들은 타일 당 시그널링될 수 있다. 타일 당 시그널링되는 3개의 레벨이 존재하는 경우에, 다음의 방법으로 코딩되어야만 한다:

MID_WHITENING 및 STRONG_WHITENING은 엔벨로프가 계산되는 방법이 다를 수 있는(이전에 설명된 것과 같이) 서로 다른 백색화 필터들(1122)을 언급한다.

디코더-면 주파수 재생기는 가친 스펙트럼 타일 선택 전략만이 적용될 때 소스 범위 식별(1121)에 의해 제어될 수 있다. 그러나, 미세 조정된 스펙트럼 타일 선택 전략이 적용될 때, 부가적으로 소스 범위 래그(1119)가 제공된다. 게다가, 상관관계 계산이 음이 값을 제공할 때, 음의 부호를 설명하기 위하여 페이지 데이터 스펙트럼 라인들이 각각 "-1"로 곱해지도록 부가적으로 상관관계의 부호가 또한 블록(1120)에 적용될 수 있다.

따라서, 도 11a, 11b에 설명된 것과 같이 본 발명은 특정 목적지 또는 표적 범위를 위한 최상의 매칭 소스 범위가 인코더-면에서 계산되고 디코더-면 상에 적용된다는 사실에 기인하여 최적 오디오 품질이 획득되는 것을 보장한다.

도 11c는 시간-스펙트럼 변환디(1130), 그 뒤에 연결되는 스펙트럼 분석기(1132) 및 부가적으로, 파라미터 계산기(1134)와 코어 코더(1136)를 포함하는 오디오 신호를 인코딩하기 위한 특정 오디오 인코더이다. 코어 코더(1136)는 인코딩된 소스 범위들을 출력하고 파라미터 계산기(1134)는 표적 범위들을 위한 매칭 정보를 출력한다.

인코딩된 소스 범위들은 도 11a에 도시된 디코더가 주파수 재생을 실행하기 위한 위치 내에 존재하도록 표적 범위들을 위한 매칭 정보와 함께 디코더에 전송된다.

파라미터 계산기(1134)는 제 1 스펙트럼 부분들과 제 2 스펙트럼 부분들 사이의 유사성들을 계산하고, 계산된 유사성들을 기초로 하여 제 2 스펙트럼 부분을 위하여 제 2 스펙트럼 부분과 매칭하는 제 1 스펙트럼 부분의 매칭을 결정하도록 구성된다. 바람직하게는, 매칭은 제 2 스펙트럼 부분을 포함하는 선택된 매칭 쌍을 결정하기 위하여 도 12a, 12b에 도시된 것과 같이 서로 다른 소스 범위들과 표적 범위들을 위하여 발생하고, 파라미터 계산기는 매칭 쌍을 식별하는 이러한 매칭 정보를 인코딩된 오디오 신호 내로 제공하도록 구성된다. 바람직하게는, 이러한 파라미터 계산기(1134)는 예를 들면 도 12b에 도시된 것과 같이 제 2 스펙트럼 부분들의 제 2 세트 내의 미리 정의된 표적 범위들 또는 제 1 스펙트럼 부분들의 제 1 세트 내의 미리 정의된 소스 영역들을 사용하도록 구성된다. 바람직하게는, 미리 정의된 표적 영역들은 비-오버래핑하거나 또는 미리 정의된 소스 범위들은 오버래핑한다. 미리 정의된 소스 범위들이 도 3a의 갭 필링 시작 주파수(309) 아래의 제 1 스펙트럼 부분들의 제 1 세트의 서브세트일 때, 그리고 바람직하게는, 낮은 스펙트럼 영역을 포함하는 미리 정의된 표적 영역이 낮은 주파수 경계로 갭 필링 시작 주파수와 일치할 때, 어떠한 표적 범위들은 갭 필링 시작 주파수 위에 위치되고 소스 범위들은 갭 필링 시작 주파수 아래에 위치된다.

설명된 것과 같이, 미세 입상도는 표적 영역을 소스 영역에 대한 어떠한 래그도 없는 소스 영역과 비교하고 표적 영역을 특정 래그를 갖는 동일한 소스 영역과 비교함으로써 획득된다. 이러한 래그들은 도 11d의 상호 상관관계 계산기(1140) 내에 적용되고 매칭 쌍 선택은 타일 선택기(1144)에 의해 최종적으로 실행된다.

게다가, 블록(1142)에 도시된 것과 같이 소스 및/또는 표적 범위들 백색화를 실행하는 것이 바람직하다. 이러한 블록(1142)은 그리고 나서 도 11b의 디코더-면 스위치(1123)를 제어하도록 사용되는 비트스트림에 백색화 플래그를 제공한다. 게다가, 만일 상호 상호관계 계산기(1140)가 음의 결과를 제공하면, 이러한 음의 결과는 또한 디코더에 시그널링된다. 따라서, 바람직한 실시 예에서, 타일 선택기는 표적 범위, 래그, 부호를 위한 소스 범위 식별을 출력하고 블록(1142)은 부가적으로 백색화 플래그를 제공한다.

게다가, 파라미터 계산기(1134)는 소스 패치가 유사성 한계를 기초로 하는 잠재적 소스 타일들이 세트로부터 드롭된다는(dropped) 점에서 잠재적 소스 범위들의 수를 감소시킴으로써 소스 타일 전지작업(1146)을 실행하도록 구성된다. 따라서, 두 개의 소스 타일이 유사성 한계와 유사하거나 동일할 때, 이러한 두 개의 소스 타일 중 하나는 잠재적 소스들의 세트로부터 제거되고 제거된 소스 타일은 뒤따르는 처리를 위하여 더 이상 사용되지 않으며 특히, 타일 선택기에 의해 선택될 수 없거나 또는 블록(1140)에서 실행되는 것과 같이 서로 다른 소스 범위들과 표적 범위들 사이의 상호 상관관계 계산을 위하여 사용되지 않는다.

서로 다른 도면들과 관련하여 서로 다른 구현들이 설명되었다. 도 1a-5c는 완전 비율 또는 완전 대역폭 인코더/디코더 전략에 관한 것이다. 도 6a-7e는 시간적 잡음 형상화 또는 시간적 타일 형상화 처리를 갖는 인코더/디코더 전략에 관한 것이다. 도 8a-8e는 특정 2-채널 처리를 갖는 인코더/디코더 전략에 관한 것이다. 도 9a-10d는 특정 에너지 정보 계산과 적용에 관한 것이며, 도 11a-12c는 특정한 타일 선택 방법에 관한 것이다.

이러한 모든 서로 다른 양상은 서로 독립적으로 본 발명에서 사용될 수 있으며, 부가적으로 또한 기본적으로 도 2a와 2b에 도시된 것과 같이 함께 적용될 수 있다. 그러나, 특정 2-채널 처리는 또한 도 13에 도시된 인코더/디코더 전략에 적용될 수 있으며, 시간적 잡음 형상화/시간적 타일 형상화 처리, 재구성 대역 내의 엔벨로프 에너지 계산과 적용 또는 적응적 소스 범위 식별 및 디코더 면 상에서의 상응한 적용에서도 그러하다. 다른 한편으로, 완전 비율 양상은 시간적 잡음 형상화/시간적 타일 형상화 처리로 또는 처리 없이, 2-채널 처리로 또는 처리 없이, 적응적 소스 범위 식별 없이 또는 식별로 혹은 스펙트럼 엔벨로프 표현을 위한 다른 종류의 계산으로 적용될 수 있다. 따라서, 이러한 개별 양상들 중 어느 하나의 특징은 또한 다른 양상들에서 적용될 수 있다.

인코딩 또는 디코딩을 위한 장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 블록 아이템 혹은 상응하는 장치의 특징을 나타낸다. 일부 또는 모든 방법 단계는 예를 들면 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수 있다. 일부 실시 예들에서, 하나 또는 그 이상의 가중 중요한 방법 단계는 그러한 장치에 의해 실행될 수 있다.

본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.

다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.

바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(또는 데이터 저장 매체,또는 컴퓨터 판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 일반적으로 유형 및/또는 비-일시적이다.

본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.

또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.

또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터를 수신기로 전달하도록(예를 들면, 전자적으로 또는 광학적으로) 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들면, 컴퓨터 모바일 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들면 컴퓨터 프로그램을 수신기로 전달하기 위한 파일 서버를 포함할 수 있다.

일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.

위에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.

인용문헌의 목록

[1] Dietz, L. Liljeryd, K. Kjrling and O. Kunz, Spectral Band Replication, a novel approach in audio coding, in 112th AES Convention, Munich, May 2002.

[2] Ferreira, D. Sinha, Accurate Spectral Replacement, Audio Engineering Society Convention, Barcelona, Spain 2005.

[3] D. Sinha, A. Ferreira1 and E. Harinarayanan, A Novel Integrated Audio Bandwidth Extension Toolkit (ABET), Audio Engineering Society Convention, Paris, France 2006.

[4] R. Annadana, E. Harinarayanan, A. Ferreira and D. Sinha, New Results in Low Bit Rate Speech Coding and Bandwidth Extension, Audio Engineering Society Convention, San Francisco, USA 2006.

[5] T. ernicki, M. Bartkowiak, Audio bandwidth extension by frequency scaling of sinusoidal partials, Audio Engineering Society Convention, San Francisco, USA 2008.

[6] J. Herre, D. Schulz, Extending the MPEG-4 AAC Codec by Perceptual Noise Substitution, 104th AES Convention, Amsterdam, 1998, Preprint 4720.

[7] M. Neuendorf, M. Multrus, N. Rettelbach, et al., MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types, 132nd AES Convention, Budapest, Hungary, April, 2012.

[8] McAulay, Robert J., Quatieri, Thomas F. Speech Analysis/Synthesis Based on a Sinusoidal Representation. IEEE Transactions on Acoustics, Speech, And Signal Processing, Vol 34(4), August 1986.

[9] Smith, J.O., Serra, X. PARSHL: An analysis/synthesis program for non-harmonic sounds based on a sinusoidal representation, Proceedings of the International Computer Music Conference, 1987.

[10] Purnhagen, H.; Meine, Nikolaus, "HILN-the MPEG-4 parametric audio coding tools," Circuits and Systems, 2000. Proceedings. ISCAS 2000 Geneva. The 2000 IEEE International Symposium on , vol.3, no., pp.201,204 vol.3, 2000

[11] International Standard ISO/IEC 13818-3, Generic Coding of Moving Pictures and Associated Audio: Audio, Geneva, 1998.

[12] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Oikawa: "MPEG-2 Advanced Audio Coding", 101st AES Convention, Los Angeles 1996

[13] J. Herre, Temporal Noise Shaping, Quantization and Coding methods in Perceptual Audio Coding: A Tutorial introduction, 17th AES International Conference on High Quality Audio Coding, August 1999

[14] J. Herre, Temporal Noise Shaping, Quantization and Coding methods in Perceptual Audio Coding: A Tutorial introduction, 17th AES International Conference on High Quality Audio Coding, August 1999

[15] International Standard ISO/IEC 23001-3:2010, Unified speech and audio coding Audio, Geneva, 2010.

[16] International Standard ISO/IEC 14496-3:2005, Information technology - Coding of audio-visual objects - Part 3: Audio, Geneva, 2005.

[17] P. Ekstrand, Bandwidth Extension of Audio Signals by Spectral Band Replication, in Proceedings of 1st IEEE Benelux Workshop on MPCA, Leuven, November 2002

[18] F. Nagel, S. Disch, S. Wilde, A continuous modulated single sideband bandwidth extension, ICASSP International Conference on Acoustics, Speech and Signal Processing, Dallas, Texas (USA), April 2010

Claims

디코딩된 2-채널 신호를 발생시키는 장치에 있어서,
제1스펙트럼 부분들의 제1세트를 얻기 위해 인코딩된 2-채널 신호를 디코딩하는 오디오 프로세서(802);
제2스펙트럼 부분들에 대해 제1 또는 제2의 상이한 2-채널 표현을 각각 식별하는 2-채널 식별 및 제2스펙트럼 부분들의 제2세트에 대한 파라미터 데이터를 제공하는 파라미터 디코더(804);
제2부분에 대한 2-채널 식별 및 제2부분에 대한 파라미터 데이터, 제1스펙트럼 부분들의 제1세트의 제1스펙트럼 부분에 의존하여 제2스펙트럼 부분을 재생하는 주파수 재생기(806);를 포함하는, 디코딩된 2-채널 신호를 발생시키는 장치.
제1항에 있어서,
상기 2-채널 식별은 2-채널 신호의 2개 채널들을 개별 처리하거나 또는 2-채널 신호의 2개 채널들을 조인트 처리(공동 처리, joint processing)하며,
상기 주파수 재생기(806)는 제2채널의 제1부분 및 제1채널의 제1부분을 이용하여 2개의 채널들의 제2채널에 대한 제2스펙트럼 부분 및 2개의 채널들의 제1채널에 대한 제2스펙트럼 부분을 재생시키도록 구성되며, 상기 제1채널의 제1부분 및 제2채널의 제1부분은 제2스펙트럼 부분에 대한 2-채널 식별에 의해 식별되는 2-채널 표현인 것을 특징으로 하는 장치.
제1항 또는 제2항에 있어서,
상기 2-채널 식별은 2-채널 신호의 2개 채널들의 개별 처리 또는 2-채널 신호의 2개 채널들의 조인트 처리 각각을 식별하며,
상기 주파수 재생기(806)는 상기 2-채널 식별에 의해 식별될 때 상기 제2스펙트럼 부분의 2개 채널들의 조인트 표현(joint representation)을 재생하도록 구성되고,
상기 주파수 재생기(806)는 상기 제2스펙트럼 부분의 조인트 표현을 상기 제2스펙트럼 부분에 대한 개별 표현으로 변환하기 위한 표현 변환기(842)를 더 포함하는 것을 특징으로 하는 장치.
제3항에 있어서,
상기 표현 변환기는 표현 변환을 위한 추가 조인트 표현 파라미터들을 이용하는 것을 특징으로 하는 장치.
제3항에 있어서,
상기 조인트 표현은 미드/사이드 표현이며, 상기 표현 변환기는 다음 방정식에 기반하여 작동하도록 구성되며:

leftTile 및 rightTile은 제2스펙트럼 부분에 대한 개별 표현이며, midTile 및 sideTile은 제2스펙트럼 부분에 대한 조인트 표현인 것을 특징으로 하는 장치.
제3항에 있어서,
상기 조인트 표현은 추가 예측 계수를 포함하며, 상기 표현 변환기는 다음 방정식에 기반하여 작동하도록 구성되며:
예측 방향이 사이드로부터 중간(mid)을 향할 때,

또는 예측 방향이 사이드에서 중간으로 표시될 때,

leftTile 및 rightTile은 제2스펙트럼 부분에 대한 개별 표현이며, midTile 및 sideTile은 제2스펙트럼 부분에 대한 조인트 표현이며, predictionCoefficient는 추가 예측 계수인 것을 특징으로 하는 장치.
제1항 내지 제6항 중 어느 한 항에 있어서,
제2스펙트럼 부분들의 제2세트에 대한 파라미터 데이터가 2-채널 표현의 각 채널에 대해 개별적으로 주어지고,
상기 주파수 재생기(806)는, 상기 2-채널 식별이 상기 제2스펙트럼 부분에 대한 조인트 표현을 식별할 때, 제2스펙트럼 부분에 대한 파라미터 데이터를 제2스펙트럼 부분에 대한 조인트 표현으로 변환하도록 그리고 제1스펙트럼 부분의 조인트 표현에 파라미터 데이터를 적용하도록 구성되는 것을 특징으로 하는 장치.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 제2스펙트럼 부분들은 주파수 대역들에 대응하고, 상기 2-채널 식별은, 각 주파수 대역에 대해 하나의 플래그인, 플래그들의 어레이이며, 상기 파라미터 디코더(804)는 플래그가 설정되는지 아닌지 여부를 확인하고 2-채널 신호의 제1스펙트럼 부분의 제1의 2개 채널 표현 또는 제2의 2개 채널 표현 각각을 이용하기 위해 상기 플래그에 따른 주파수 재생을 제어하도록 구성되는 것을 특징으로 하는 장치.
제1항 내지 제8항 중 어느 한 항에 있어서,
파라미터 디코더(804)는 상기 제1스펙트럼 부분에 대한 제1의 또는 제2의 상이한 2-채널 표현을 각각 표현하는 제1스펙트럼 부분들의 제1세트에 대한 추가 2-채널 식별을 제공하도록 구성되며,
상기 장치는 제1스펙트럼 부분에 대한 상기 2-채널 식별에 의해 표현되는 것처럼 상기 제2의 2-채널 표현을 디코딩하도록 구성되며,
상기 주파수 재생기(806)는 상기 코어 디코딩(830) 이후에 상기 제2의 2-채널 표현을 상기 제1의 2-채널 표현으로 변환하도록 구성되는 것을 특징으로 하는 장치.
상기 제1항 내지 제9항 중 어느 한 항에 있어서,
상기 디코딩된 2-채널 신호를 얻기 위해 상기 주파수 재생기(806)에 의해 발생된 복원된 제2스펙트럼 부분 및 상기 오디오 프로세서(802)에 의해 발생된 제1스펙트럼 부분들의 제1세트를 결합하는 결합기(846)를 더 포함하는 것을 특징으로 하는 장치.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 파라미터 디코더는, 제2스펙트럼 부분에 대해, 상기 제2스펙트럼 부분을 재생하는데 이용될 특정 제1스펙트럼 부분을 표시하는 소스 대역 식별(1121)을 추가적으로 제공하도록 구성되며,
상기 주파수 재생기(806)는 상기 소스 대역 식별(833)에 의해 식별되는 상기 제1스펙트럼 부분을 이용하여 상기 제2스펙트럼 부분을 재생하도록 구성되는 장치.
제1항 내지 제11항 중 어느 한 항에 있어서,
상기 오디오 프로세서는 상기 제1스펙트럼 부분들의 제1세트에 대해 추가 2-채널 식별에 따른 제1스펙트럼 부분들의 제1세트를 디코딩하고 제1스펙트럼 부분들의 제1세트를 변환(832)하여 제1스펙트럼 부분들의 제1세트의 제1의 2-채널 표현 및 제1스펙트럼 부분들의 제1세트의 제2의 2-채널 표현이 얻어지도록 구성되며,
상기 주파수 재생기(806)는 상기 제2부분에 대한 상기 2-채널 식별에서 표시되는 것처럼 제1스펙트럼 부분들의 제1의 2-채널 표현 또는 제2의 2-채널 표현 각각을 이용하도록 구성되는 것을 특징으로 하는 장치.
제1항 내지 제12항 중 어느 한 항에 있어서,
상기 주파수 재생기(806)는 상기 오디오 프로세서(830)에 의해 발생되는 제1스펙트럼 부분들의 제1세트의 제1 및 제2의 2-채널 표현을 제공하기 위한 표현 변환기(832)를 포함하며,
상기 주파수 재생기(806)는 원시 데이터(raw data)를 발생시키기 위해 이용될 제1스펙트럼 부분들을 표현하는 소스 범위 식별(833)을 이용하고 2-채널 식별에 의해 식별되는 채널 표현의 각 채널에 대한 원시 데이터를 발생시키는 주파수 타일 발생기(836)를 더 포함하며,
각 채널에 대한 원시 데이터가 상기 주파수 타일 재생기(836)에 의해 표현되는 제2의 2-채널 표현으로 제공될 때, 상기 주파수 재생기(806)는 상기 파라미터들에 대한 제1의 2-채널 표현으로 제공된 파라미터들을 제2의 2-채널 표현으로 변환하기 위한 파라미터 변환기(840)을 더 포함하며,
상기 주파수 재생기(806)는 상기 2-채널 표현의 각 채널의 엔벨로프를 조정하기 위한 엔벨로프 조정기(838)를 더 포함하고, 상기 2-채널 표현은 상기 제2의 2-채널 표현이며,
상기 주파수 재생기(806)는 상기 제2의 스펙트럼 부분의 스펙트럼 값들의 2-채널 표현을 상기 제1의 2-채널 표현으로 변환하기 위한 표현 변환기(842)를 더 포함하며,
상기 장치는 표현 변환기(842)에 의해 발생되는 표현을 스펙트럼 영역에서 시간 영역으로 변환하기 위한 주파수-시간 변환기(846)를 더 포함하는 것을 특징으로 하는 장치.
2-채널 오디오 신호를 인코딩하기 위한 오디오 인코더에 있어서,
2-채널 오디오 신호를 스펙트럼 표현으로 변환하기 위한 시간-스펙트럼 변환기(860);
제1의 2-채널 표현 또는 제2의 2-채널 표현을 각각 식별하는 복원 대역에 대한 2-채널 식별을 결정하기 위해 복원 대역 내의 2-채널 오디오 신호의 대역들을 분석하는 2-채널 분석기(864);
제2스펙트럼 해상도가 제1스펙트럼 해상도보다 작으며, 제2스펙트럼 해상도에 의해 인코딩될 제2스펙트럼 부분들의 제2세트의 그리고 제1스펙트럼 해상도로 인코딩될 제1스펙트럼 부분들의 제1세트의 표현을 제공하는 스펙트럼 분석기(860);
제1인코딩된 표현을 제공하기 위해 제1스펙트럼 부분들의 제1세트를 인코딩하기 위한 코어 디코더(870); 및
제2스펙트럼 부분들의 제2세트에 대한 파라미터 데이터를 계산하기 위한 파라미터 계산기(868);을 포함하며,
인코딩된 2-채널 오디오 신호는 제2스펙트럼 부분들의 제2세트에 대한 2-채널 식별 및 인코딩된 파라미터 표현, 제1인코딩된 표현을 포함하는 것을 특징으로 하는, 2-채널 오디오 신호를 인코딩하기 위한 오디오 인코더.
제14항에 있어서,
상기 제1스펙트럼 부분들을 상기 2-채널 식별에 의해 표현되는 2-채널 표현으로 변환하기 위한 변환기(862)를 더 포함하며 상기 스펙트럼 분석기(860)는 대역 방식 변환기(862)에 의해 출력되는 2-채널 표현을 분석하도록 구성되는, 오디오 인코더.
제14항 또는 제15항 중 어느 한 항에 있어서,
상기 2-채널 분석기(864)는 개별 2-채널 표현 또는 조인트 2-채널 표현 각각을 결정하기 위해 상기 2-채널 표현의 2-채널들의 제2스펙트럼 부분 및 2-채널 표현의 제1채널의 제2스펙트럼 부분 사이의 상관관계 계산을 수행하도록 구성되는 것을 특징으로 하는, 오디오 인코더.
제14항 내지 제16항 중 어느 한 항에 따라,
상기 스펙트럼 분석기(860)는 적어도 하나의 채널의 제2스펙트럼 부분 및 적어도 하나의 채널의 제1스펙트럼 부분의 매칭 쌍을 결정하기 위해 그리고 최적 매칭 쌍에 대한 매칭 정보(833)를 제공하기 위해, 2-채널 표현의 적어도 하나의 채널의 상이한 스펙트럼 부분들에 대한 매칭 결과들을 2-채널 표현의 적어도 하나의 채널의 상이한 제1스펙트럼 부분에 대해 비교하도록 구성되며,
상기 오디오 인코더는, 인코딩된 오디오 신호에 더하여, 상기 제2스펙트럼 부분에 대한 매칭 정보(833)를 출력하도록 구성되는 것을 특징으로 하는 오디오 인코더.
제14항 내지 제17항 중 어느 한 항에 있어서,
시간-스펙트럼 변환기(860)의 출력에 연결되는 입력을 갖는 대역 방식 변환기(862)를 포함하며,
상기 스펙트럼 분석기(860)는, 입력으로서, 상기 대역 방향 변환기(862)의 출력을 수신하도록 구성되며,
상기 2-채널 분석기(864)는 상기 시간-스펙트럼 변환기(860)의 출력을 분석하도록 그리고 대역 방식 변환기(862)를 제어하기 위한 분석 결과를 제공하도록 구성되며,
상기 오디오 인코더는 상기 스펙트럼 분석기(860)에 의해 제어될 때 대역 방식 변환기(862)의 출력을 인코딩하도록 구성되어, 제1스펙트럼 부분들의 제1세트만이 상기 코어 인코더(870)에 의해 인코딩되며,
상기 파라미터 인코더(868)는 상기 대역 방식 변환기(862)의 출력으로 상기 스펙트럼 분석기(860)에 의해 표시되는 것처럼 제2스펙트럼 부분들의 제2세트를 파라미터적으로 인코딩하도록 구성되는 것을 특징으로 하는 오디오 인코더.
디코딩된 2-채널 신호를 발생시키는 방법에 있어서,
제1스펙트럼 부분들의 제1세트를 얻기 위해 인코딩된 2-채널 신호를 디코딩(802)하는 단계;
상기 제2스펙트럼 부분들에 대해 제1의 또는 제2의 상이한 2-채널 표현을 식별하는 2-채널 식별 및 제2스펙트럼 부분들의 제2세트에 대한 파라미터 데이터를 제공(804)하는 단계; 및
상기 제2부분에 대한 2-채널 식별 및 제2부분에 대한 파라미터 데이터, 제1스펙트럼 부분들의 제1세트의 제1스펙트럼 부분에 의존하여 제2스펙트럼 부분을 재생(806)하는 단계;를 포함하는, 디코딩된 2-채널 신호를 발생시키는 방법.
2-채널 오디오 신호를 인코딩하는 방법에 있어서,
2-채널 오디오 신호를 스펙트럼 표현으로 변환(860)하는 단계;
제1의 2-채널 표현 또는 제2의 2-채널 표현을 각각 식별하는 복원 대역에 대한 2-채널 식별을 결정하기 위해 복원 범위 내의 2-채널 오디오 신호의 대역들을 분석(864)하는 단계;
제2스펙트럼 해상도는 제1스펙트럼 해상도보다 작으며, 제2스펙트럼 해상도에 의해 인코딩될 스펙트럼 제2스펙트럼 부분들의 제2세트의 그리고 제1스펙트럼 해상도로 인코딩될 제1스펙트럼 부분들의 제1세트의 표현을 제공(860)하는 단계;
제1인코딩된 표현을 제공하기 위해 제1스펙트럼 부분들의 제1세트를 인코딩(870)하는 단계; 및
제2스펙트럼 부분들의 제2세트에 대한 파라미터 데이터를 계산(868)하는 단계;를 포함하며,
인코딩된 2-채널 오디오 신호는 제1인코딩된 표현, 인코딩된 파라미터 표현 및 제2스펙트럼 부분들의 제2세트에 대한 2-채널 식별을 포함하는 것을 특징으로 하는, 2-채널 오디오 신호를 인코딩하는 방법.
컴퓨터 또는 프로세서 상에서 수행될 때, 제19항 또는 제20항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터 프로그램.