KR20180016417A

KR20180016417A - 과도 프로세싱을 향상시키기 위한 사후 프로세서, 사전 프로세서, 오디오 인코더, 오디오 디코더, 및 관련 방법

Info

Publication number: KR20180016417A
Application number: KR1020177036732A
Authority: KR
Inventors: 플로린 기도; 사샤 디쉬; 위르겐 헤레; 알렉산더 아다미; 프란츠 루텔후버
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2016-02-17
Filing date: 2017-02-10
Publication date: 2018-02-14
Also published as: AU2017219696A1; EP3417544B1; RU2685024C1; MY191093A; MX371223B; EP3627507A1; JP7007344B2; US20200402520A1; CA2985019C; TWI618053B; CA2985019A1; AR107662A1; AU2017219696B2; US20200090670A1; US10720170B2; BR112017024480A2; PL3417544T3; EP3417544A1; CN107925388A; JP6603414B2

Abstract

부가 정보로서 시변 고주파 이득 정보(104)를 갖는 오디오 신호(102)를 사후 프로세싱하기 위한 오디오 사후 프로세서(100)로서, 오디오 신호(102)의 고주파 대역(112) 및 오디오 신호(102)의 저주파 대역(114)을 추출하기 위한 대역 추출기(110); 프로세싱된 고주파 대역(122)을 획득하기 위해 상기 시변 고주파 이득 정보(104)에 따라 고대역(112)의 시변 수정을 수행하기 위한 고대역 프로세서(120); 및 프로세싱된 고주파 대역(122)과 저주파 대역(114)을 결합하기 위한 결합기(130)를 포함한다. 또한 사전 프로세서가 설명된다.

Description

과도 프로세싱을 향상시키기 위한 사후 프로세서, 사전 프로세서, 오디오 인코더, 오디오 디코더, 및 관련 방법

본 발명은 오디오 프로세싱에 관한 것으로, 특히 오디오 사전 프로세싱 및 오디오 사후 프로세싱의 맥락에서의 오디오 프로세싱에 관한 것이다.

프리 에코 : 시간적 마스킹 문제

MP3 또는 AAC와 같은 고전적인 필터 뱅크 기반 지각 코더는 주로 동시 마스킹의 지각 효과를 이용하도록 설계되었지만 마스킹 현상의 시간적 측면도 처리해야 한다: 잡음은 마스킹 신호(프리 마스킹 및 포스트 마스킹 현상)의 프레젠테이션 전후에 잠깐 마스킹된다. 사후 마스킹은 사전 마스킹보다 훨씬 더 오랜 시간 동안 관찰된다 (마스커의 레벨 및 지속 시간에 따라 0.5-2.0ms 대신 대략 10.0-50.0ms 정도).

따라서, 마스킹의 시간적 측면은 지각 코딩 기법에 대한 추가적인 요구 사항을 야기한다: 지각적으로 투명한 코딩 품질을 달성하기 위해, 양자화 잡음은 또한 시간 의존 마스킹된 임계치를 초과하지 않아야 한다.

실제로, 지각 코더의 경우 이 요구 사항은 달성하기 쉽지 않은데, 양자화 및 코딩을 위한 스펙트럼 신호 분해법을 사용한다는 것은 이 도메인에 도입된 양자화 에러가 합성 필터 뱅크에 의한 재구성 이후의 시간에 확산된다(시간/주파수 불확실성 원리)는 것을 의미하기 때문이다. 통상적으로 사용되는 필터 뱅크 설계(예를 들어, 1024 라인 MDCT)의 경우, 이는 양자화 잡음이 CD 샘플링 레이트에서 40밀리초를 초과하여 확산될 수 있음을 의미한다. 이는 코딩될 신호가 분석 필터 뱅크 윈도우의 부분, 즉 과도 신호에 대해서만 강한 신호 성분을 포함하는 경우에 문제를 야기할 것이다. 특히, 양자화 잡음은 신호의 시작 이전에 확산되며, 극단적인 경우 특정 시간 간격 동안 레벨의 원래 신호 성분을 초과할 수 있다. 치명적인 타악기 신호의 공지된 예는 캐스터네츠 녹음으로, 디코딩 후에 양자화 잡음 성분이 원래 신호의 공격 이전의 특정 시간에 확산된다. 그러한 콘스털레이션은 전통적으로 프리 에코 현상으로 알려져 있다 [Joh92b].

인간의 청각 시스템의 속성으로 인해, 이러한 프리 에코는 상당한 양의 코딩 잡음이 신호가 시작되기 약 0.2ms보다 오래 존재하지 않는 경우에만 마스킹된다. 2.0ms before the onset of the signal. 그렇지 않으면, 코딩 잡음은 프리 에코 아티팩트, 즉 신호 시작 이전의 짧은 잡음 유사 이벤트로서인 지각될 것이다. 이러한 아티팩트를 피하기 위해, 양자화 잡음의 적절한 시간적 특성을 유지하여 시간적 마스킹을 위한 조건을 여전히 만족시키도록 주의를 기울여야 한다. 이러한 시간적 잡음 성형 문제는 전통적으로 캐스터네츠, 글로켄슈필(glockenspiel), 트라이앵글 등과 같은 과도 신호에 대해 낮은 비트 레이트에서 양호한 지각 신호 품질을 달성하는 것을 어렵게 만들었다.

박수와 같은 신호 : 매우 중요한 신호 클래스

앞서 언급한 과도 신호는 지각 오디오 코덱에서 프리 에코를 트리거할 수 있지만, 단일의 격리된 공격을 보인다. 즉, 다음 공격이 나타날 때까지 일정한 최소 시간이 있다. 따라서, 지각 코더는 마지막 공격을 프로세싱하는 것으로부터 회복할 시간이 있으며, 예를 들어 다음 공격에 대처하기 위해 여분의 비트를 다시 수집할 수 있다 (후술된 바와 같은 '비트 저장소' 참조). 이와는 대조적으로, 박수를 치는 청중의 사운드는 고밀도로 간격을 둔 박수의 꾸준한 흐름으로 구성되며, 그 각각은 자체의 과도 이벤트이다. 도 11은 스테레오 박수 신호의 고주파 시간 엔벨로프의 예시를 도시한다. 알 수 있는 바와 같이, 후속하는 박수 이벤트 사이의 평균 시간은 10ms보다 현저히 짧다.

이러한 이유 때문에, 박수 및 박수와 같은 신호(예컨대 빗방울 또는 불꽃 놀이)는 코딩하기 매우 어려운 클래스로 여겨지나 많은 라이브 녹음에서 흔한 것이다. 이는 2개 이상의 채널을 공동으로 코딩하기 위한 파라메트릭 방법을 이용할 때에도 마찬가지이다 [Hot08].

과도 신호의 코딩에 대한 전통적인 접근법

인코딩된/디코딩된 신호에서 프리 에코 아티팩트를 피하기 위한 일련의 기법이 제안되었다.

프리 에코 제어 및 비트 저장소

한 가지 방법은 과도 신호 부분을 처음으로 커버하는 필터 뱅크 윈도우의 스펙트럼 계수에 대한 코딩 정밀도를 증가시키는 것이다 (이른바 프리 에코 제어, [MPEG1]). 이러한 프레임의 코딩을 위해 필요한 비트의 양이 상당히 증가하기 때문에, 이 방법은 고정 비트 레이트 코더에 적용될 수 없다. 비트 저장소를 사용하여 비트 레이트 요구의 지역적 차이를 어느 정도 설명할 수 있다 ([Bra87], [MPEG1]). 이 기술은 평균 비트 레이트가 여전히 일정하면서, 이전 프레임의 코딩 동안에 따로 설정된 비트를 사용하여 비트 레이트의 피크 요구를 처리하는 것을 허용한다.

적응형 윈도우 스위칭

많은 지각적 오디오 코더에서 사용되는 다른 전략은 Edler에 의해 소개된 적응형 윈도우 스위칭이다 [Edl89]. 이 기술은 필터 뱅크 윈도우의 크기를 입력 신호의 특성에 맞게 적응시킨다. 정지된 신호 부분은 긴 윈도우 길이를 사용하여 코딩되지만, 짧은 윈도우가 신호의 과도 부분을 코딩하는 데 사용된다. 이러한 방식으로, 높은 코딩 정밀도가 요구되는 영역이 시간적으로 제한되기 때문에 피크 비트 요구가 상당히 감소될 수 있다. 프리 에코는 더 짧은 변환 크기로 암시적으로 지속 시간이 제한된다.

시간적 잡음 성형(Temporal Noise Shaping, TNS )

시간적 잡음 성형(TNS)은 [Her96]에서 소개되었으며, 스펙트럼 영역의 시간 블록에서 주파수 방향을 따라 개방 루프 예측 코딩을 적용함으로써 양자화 잡음의 시간적 성형을 달성한다.

이득 수정(이득 제어)

양자화 잡음의 시간적 확산을 피하는 다른 방법은 스펙트럼 분해 및 코딩을 계산하기 전에 신호에 동적 이득 수정(이득 제어 프로세스)을 적용하는 것다.

이 접근법의 원리가 도 12에 도시되어 있다. 입력 신호의 다이내믹은 인코딩하기 전에 이득 수정(곱셈 사전 프로세싱)에 의해 감소된다. 이러한 방식으로, 신호의 피크는 인코딩 전에 감쇠된다. 이득 수정의 파라미터는 비트스트림에서 송신된다. 이 정보를 사용하여, 프로세스는 디코더 측에서 역전된다, 즉 다른 이득 수정을 디코딩한 후에 원래 신호 다이내믹을 복원한다.

[Lin93]은 시간 도메인 신호(따라서 전체 신호 스펙트럼)에서 이득 수정이 수행되는 지각 오디오 코더에 추가하여 이득 제어를 제안했다.

주파수 의존적인 이득 수정/제어가 이전에 많은 경우에 사용되었다.

필터 기반 이득 제어 : 그의 논문 [Vau91]에서, Vaupel은 전체 대역 이득 제어가 제대로 작동하지 않는다는 것을 알게 되었다. 주파수 의존적인 이득 제어를 달성하기 위해, 그는 이득 특성을 동적으로 제어할 수 있는 압축기 및 팽창기 필터 쌍을 제안한다. 이 기법이 도 13a 및 도 13b에 도시되어 있다.

필터의 주파수 응답의 변화가 도 13b에 도시되어 있다.

하이브리드 필터 뱅크를 이용한 이득 제어 (도 14에 도시되어 있음) : MPEG-2 고급 오디오 코딩 [Bos96] 기법의 SSR 프로파일에서, 하이브리드 필터 뱅크 구조 내에서 이득 제어가 사용된다. 제1 필터 뱅크 스테이지(PQF)는 입력 신호를 동일한 폭의 4개의 대역으로 분할한다. 그 다음에, 이득 검출기 및 이득 수정기가 이득 제어 인코더 프로세싱을 수행한다. 마지막으로, 제2 스테이지로서, 축소된 크기(1024 대신 256)를 갖는 4개의 개별 MDCT 필터 뱅크는 결과 신호를 더 분할하고 후속 코딩에 사용되는 스펙트럼 성분을 생성한다.

가이딩된 엔벨로프 성형(guided envelope shaping, GES )은 채널 개별적인 시간 엔벨로프 파라미터를 송신하고 디코더 측에서 시간 엔벨로프를 복원하는 MPEG 서라운드에 포함된 도구이다. HREP 프로세싱과는 달리, 다운믹스에 대한 하위 호환성을 유지하기 위해 인코더 측에서 엔벨로프 평탄화가 없다는 것에 유의한다. 엔벨로프 성형을 수행하는 기능을 하는 MPEG 서라운드의 다른 도구는 서브 대역 시간 프로세싱(Subband Temporal Processing, STP)이다. 여기서는, 저 차원 LPC 필터가 오디오 신호의 QMF 필터 뱅크 표현 내에 적용된다.

관련 선행 기술은 특허 공보 WO 2006/045373 A1, WO 2006/045371 A1, WO 2007/042108 A1, WO 2006/108543 A1, 또는 WO 2007/110101 A1에 문서화되어 있다.

참조문헌

[Bos96] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Oikawa: MPEG-2 Advanced Audio Coding, 101st AES Convention, Los Angeles 1996

[Bra87] K. Brandenburg: OCF - A New Coding Algorithm for High Quality Sound Signals, Proc. IEEE ICASSP, 1987

[Joh92b] J. D. Johnston, K. Brandenburg: Wideband Coding Perceptual Considerations for Speech and Music, in S. Furui and M. M. Sondhi, editors: Advances in Speech Signal Processing, Marcel Dekker, New York, 1992

[Edl89] B. Edler: Codierung von Audiosignalen mit uberlappender Transformation und adaptiven Fensterfunktionen, Frequenz, Vol. 43, pp. 252-256, 1989

[Her96] J. Herre, J. D. Johnston: Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS), 101st AES Convention, Los Angeles 1996, Preprint 4384

[Hot08] Gerard Hotho, Steven van de Par, and Jeroen Breebaart: Multichannel coding of applause signals, EURASIP Journal of Advances in Signal Processing, Hindawi, January 2008, doi: 10.1155/2008/531693

[Lin93] M. Link: An Attack Processing of Audio Signals for Optimizing the Temporal Characteristics of a Low Bit-Rate Audio Coding System, 95th AES convention, New York 1993, Preprint 3696

[MPEG1] ISO/IEC JTC1/SC29/WG11 MPEG, International Standard ISO 11172-3 Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s

[Vau91] T. Vaupel: Ein Beitrag zur Transformationscodierung von Audiosignalen unter Verwendung der Methode der 'Time Domain Aliasing Cancellation (TDAC)' und einer Signalkompandierung im Zeitbereich, PhD Thesis, Universitat-Gesamthochschule Duisburg, Germany, 1991

비트 저장소는 지각 코더의 비트레이트에 대한 피크 요구를 처리하여 과도 신호의 지각 품질을 개선시키는 데 도움이 될 수 있다. 그러나 실제로, 비트 저장소의 크기는 추가 예방 조치없이 매우 과도 특성의 입력 신호를 코딩할 때 아티팩트를 피하기 위해 비현실적으로 커야 한다.

적응형 윈도우 스위칭은 신호의 과도 부분의 비트 요구를 제한하고, 과도를 짧은 변환 블록으로 제한하여 프리 에코를 감소시킨다. 적응형 윈도우 스위칭의 제한은 레이턴시 및 반복 시간에 의해 주어진다: 2개의 짧은 블록 시퀀스 사이에서 가장 빠른 가능한 순환 주기는 적어도 3개의 블록( 짧은→ 정지→ 시작→ 짧은, 통상적인 블록 크기 512 - 1024 샘플의 경우 약 30.0 - 60.0ms)이 필요로 하며, 이는 박수를 포함하여 특정 유형의 입력 신호에 있어서는 너무 길다. 결과적으로, 박수와 같은 신호에 대한 양자화 잡음의 시간적 확산은 짧은 윈도우 크기를 영구적으로 선택함으로써 피할 수 있었을 뿐이며, 이는 보통 코더의 소스 코딩 효율의 감소를 야기한다.

TNS는 인코더에서 시간적 평탄화를, 그리고 디코더에서 시간적 성형을 수행한다. 원칙적으로, 임의의 미세한 시간 해상도가 가능하다. 그러나 실제로, 성능은 코더 필터 뱅크의 시간적 앨리어싱(aliasing)에 의해 제한된다 (통상적으로 MDCT, 즉, 50%의 중첩을 갖는 중첩 블록 변환). 따라서, 성형된 코딩 잡음은 합성 필터 뱅크의 출력에서 미러링된 방식으로 또한 나타난다.

광대역 이득 제어 기술은 스펙트럼 해상도의 부족으로 어려움을 겪고 있다. 그러나 많은 신호에 대해 잘 수행하기 위해서는, 과도 이벤트가 종종 스펙트럼의 일부에서만 우세하기 때문에 이득 수정 프로세싱이 오디오 스펙트럼의 상이한 부분에서 독립적으로 적용되는 것이 중요하다 (실제로는 코딩하기 어려운 이벤트가 스펙트럼의 고주파 부분에 거의 항상 존재한다). 효과적으로, 인코더에서 스펙트럼 분해 이전에 입력 신호의 동적 곱셈 수정을 적용하는 것은 필터 뱅크의 분석 윈도우의 동적 수정과 동일하다. 이득 수정 함수의 형상에 따라, 분석 필터의 주파수 응답은 합성 윈도우 함수에 따라 변경된다. 그러나, 필터 뱅크의 저주파 필터 채널의 주파수 응답을 넓히는 것은 바람직하지 못한데, 이것은 임계 대역폭 스케일과의 불일치를 증가시키기 때문이다.

하이브리드 필터 뱅크를 사용하는 이득 제어는 제1 스테이지의 필터 뱅크가 제2 필터 뱅크 스테이지에 의한 후속 분할 후에 앨리어싱 왜곡을 피하기 위해 상당한 선택성을 달성해야 하므로 계산량이 증가한다는 결점이 있다. 또한, 이득 제어 대역들 사이의 크로스 오버 주파수는 나이퀴스트 주파수의 1/4로 고정된다, 즉 48kHz의 샘플링 레이트에 있어서 6, 12, 및 18kHz이다. 대부분의 신호의 경우, 6kHz에서 제1 크로스 오버가 너무 높아서 성능이 좋지 않다.

MPEG 서라운드(STP, GES)와 같은 준 파라메트릭 멀티 채널 코딩 솔루션에 포함된 엔벨로프 성형 기술은 디코더에서 출력 신호 또는 그 부분의 시간적 재형성을 통해 과도의 지각 품질을 개선시키는 것으로 공지되어 있다. 그러나, 이들 기술은 인코더 전에 시간적 평탄화를 수행하지 않는다. 따라서, 과도 신호는 여전히 원래의 짧은 시간 다이내믹으로 인코더로 들어가고, 인코더 비트 예산에 높은 비트 레이트 요구를 부과한다.

본 발명의 목적은 오디오 사전 프로세싱, 오디오 사후 프로세싱, 또는 오디오 인코딩, 또는 반대로 오디오 디코딩의 개선된 개념을 제공하는 것이다.

이 목적은 청구항 1의 오디오 사후 프로세서, 청구항 32의 오디오 사전 프로세서, 청구항 53의 오디오 인코딩 장치, 청구항 55의 오디오 디코딩 장치, 청구항 57의 사후 프로세싱 방법, 청구항 58의 사전 프로세싱 방법, 청구항 59의 인코딩 방법, 청구항 60의 오디오 디코딩 방법, 또는 청구항 61의 컴퓨터 프로그램에 의해 달성된다.

본 발명의 제1 양태는 부가 정보로서 시변 고주파 이득 정보를 갖는 오디오 신호를 사후 프로세싱하기 위한 오디오 사후 프로세서로서, 오디오 신호의 고주파 대역 및 오디오 신호의 저주파 대역을 추출하기 위한 대역 추출기; 프로세싱된 고주파 대역을 획득하기 위해 상기 시변 고주파 이득 정보에 따라 고대역의 시변 수정을 수행하기 위한 고대역 프로세서; 및 프로세싱된 고주파 대역과 저주파 대역을 결합하기 위한 결합기를 포함한다.

본 발명의 제2 양태는 오디오 신호를 사전 프로세싱하기 위한 오디오 사전 프로세서로서, 시변 고주파 이득 정보를 결정하기 위해 오디오 신호를 분석하기 위한 신호 분석기; 오디오 신호의 고주파 대역과 오디오 신호의 저주파 대역을 추출하기 위한 대역 추출기; 프로세싱된 고주파 대역을 획득하기 위해 시변 고주파 이득 정보에 따라 고대역의 시변 수정을 수행하기 위한 고대역 프로세서; 사전 프로세싱된 오디오 신호를 획득하기 위해 프로세싱된 고주파 대역과 저주파 대역을 결합하기 위한 결합기; 및 부가 정보로서 사전 프로세싱된 오디오 신호 및 시변 고주파 이득 정보를 포함하는 출력 신호를 생성하기 위한 출력 인터페이스를 포함한다.

본 발명의 제3 양태는 오디오 신호를 인코딩하기 위한 오디오 인코딩 장치로서, 부가 정보로서 시변 고주파 이득 정보를 갖는 출력 신호를 생성하도록 구성된 제1 양태의 오디오 사전 프로세서; 코어 인코딩된 신호 및 코어 부가 정보를 생성하기 위한 코어 인코더; 및 추가적인 부가 정보로서 코어 인코딩된 신호, 코어 부가 정보, 및 시변 고주파 이득 정보를 포함하는 인코딩된 신호를 생성하기 위한 출력 인터페이스를 포함한다.

본 발명의 제4 양태는 오디오 디코딩 장치로서, 추가적인 부가 정보로서 코어 인코딩된 신호, 코어 부가 정보, 및 시변 고주파 이득 정보를 포함하는 인코딩된 오디오 신호를 수신하기 위한 입력 인터페이스; 디코딩된 코어 신호를 획득하기 위해 코어 부가 정보를 이용하여 코어 인코딩된 신호를 디코딩하기 위한 코어 디코더; 및 상기 제2 양태에 따라 시변 고주파 이득 정보를 사용하여 디코딩된 코어 신호를 사후 프로세싱하기 위한 사후 프로세서를 포함한다.

본 발명의 제5 양태는 부가 정보로서 시변 고주파 이득 정보를 갖는 오디오 신호를 사후 프로세싱하는 방법으로서, 오디오 신호의 고주파 대역 및 오디오 신호의 저주파 대역을 추출하는 단계; 프로세싱된 고주파 대역을 획득하기 위해 상기 시변 고주파 이득 정보에 따라 고대역의 시변 수정을 수행하는 단계; 및 프로세싱된 고주파 대역과 저주파 대역을 결합하는 단계를 포함한다.

본 발명의 제6 양태는 오디오 신호를 사전 프로세싱하는 방법으로서, 시변 고주파 이득 정보를 결정하기 위해 오디오 신호를 분석하는 단계; 오디오 신호의 고주파 대역과 오디오 신호의 저주파 대역을 추출하는 단계; 프로세싱된 고주파 대역을 획득하기 위해 시변 고주파 이득 정보에 따라 고대역의 시변 수정을 수행하는 단계; 사전 프로세싱된 오디오 신호를 획득하기 위해 프로세싱된 고주파 대역과 저주파 대역을 결합하는 단계; 및 부가 정보로서 사전 프로세싱된 오디오 신호 및 시변 고주파 이득 정보를 포함하는 출력 신호를 생성하는 단계를 포함한다.

본 발명의 제7 양태는 오디오 신호를 인코딩하는 방법으로서, 부가 정보로서 시변 고주파 이득 정보를 갖는 출력 신호를 생성하도록 구성된 제6 양태의 오디오 사전 프로세싱하는 방법; 코어 인코딩된 신호 및 코어 부가 정보를 생성하는 단계; 및 추가적인 부가 정보로서 코어 인코딩된 신호, 코어 부가 정보, 및 시변 고주파 이득 정보를 포함하는 인코딩된 신호를 생성하는 단계를 포함한다.

본 발명의 제8 양태는 오디오 디코딩 방법으로서, 추가적인 부가 정보로서 코어 인코딩된 신호, 코어 부가 정보, 및 시변 고주파 이득 정보를 포함하는 인코딩된 오디오 신호를 수신하는 단계; 디코딩된 코어 신호를 획득하기 위해 코어 부가 정보를 이용하여 코어 인코딩된 신호를 디코딩하는 단계; 및 제5 양태에 따라 시변 고주파 이득 정보를 사용하여 디코딩된 코어 신호를 사후 프로세싱하는 단계를 포함한다.

본 발명의 제9 양태는 컴퓨터 또는 프로세서 상에서 실행될 때, 위의 제5 양태, 제7 양태, 또는 제8 양태에 따른 방법 중 임의의 하나를 수행하기 위한 컴퓨터 프로그램을 저장한 컴퓨터 프로그램 또는 비일시적 저장 매체이다.

본 발명은 고대역에 대한 시변 고주파 이득 정보를 갖는 과도 신호와 같은 특정 클래스의 신호를 선택적으로 인코딩하기 위해 사전 프로세서에서의 선택적인 감쇠 또는 사후 프로세서에서의 선택적 증폭과 같은 대역 선택적 고주파 프로세싱을 제공한다. 따라서, 사전 프로세싱된 신호는 간단한 시변 고주파 이득 정보 및 신호 자체의 형태로 추가적인 부가 정보를 갖는 신호이기 때문에, 과도 신호와 같은 특정 클래스의 신호가 사전 프로세싱된 신호에서 더 이상 발생하지 않거나 어느 정도로만 발생한다. 오디오 사후 프로세싱에서, 원래 신호 형상은 부가 정보로서 오디오 신호와 연관된 시변 고주파 이득 정보에 따라 고주파 대역의 시변 곱셈을 수행함으로써 복구되어, 결국에, 즉 사전 프로세싱, 코딩, 디코딩, 사후 프로세싱으로 구성되는 체인에 후속하여, 청취자는 원래 신호에 대한 실질적인 차이를 지각하지 않고, 특히 감소된 과도 성질을 갖는 신호를 지각하지 않는데, 내부 코어 인코더/코어 디코더가 차단할지라도 - 여기서 덜 과도인 신호를 프로세싱하기 위한 위치는 한편으로는 인코더 프로세싱에 있어서 감소된 양의 필요한 비트를 가져오고, 다른 한편으로는 증가된 오디오 품질을 가져오는데, 인코딩하기 힘든 클래스의 신호가 인코더가 실제로 그 작업을 시작하기 전에 신호로부터 제거되었기 때문이다. 그러나, 이러한 신호 부분이 디코더 동작에 후속하는 오디오 사후 프로세싱에 의해 재구성되기 때문에, 인코딩하기 힘든 신호 부분의 이러한 제거는 감소된 오디오 품질을 초래하지 않는다.

바람직한 실시예에서, 사전 프로세서는 또한 또한 평균 배경 레벨보다 약간 더 조용한 부분을 증폭시키고, 사후 프로세서는 이들을 감쇠시킨다. 이 추가적인 프로세싱은 개별적인 강력한 공격 및 연속적인 과도 이벤트 사이의 부분 양자 모두에 잠재적으로 유용하다.

후속하여, 바람직한 실시예의 특별한 이점이 개략적으로 설명된다.

HREP(High Resolution Envelope Processing, 고해상도 엔벨로프 프로세싱)는 주로 박수, 비가 내리는 소리 등과 같이 많은 조밀한 과도 이벤트로 주로 구성되는 개선된 신호 코딩을 위한 도구이다. 인코더 측에서, 그 도구는 입력 신호를 분석하고, 그에 따라 과도 이벤트의 고주파 부분을 감쇠시키고 일시적으로 평탄화하여, 소량의 부가 정보(스테레오 신호의 경우 1-4kbps)를 생성함으로써 실제 지각 오디오 코덱보다 높은 시간 해상도를 갖는 사전 프로세서로 작동한다. 디코더 측에서, 그 도구는 인코딩 중에 생성된 부가 정보를 사용하여 과도 이벤트의 고주파 부분을 부스팅하여 시간적으로 성형하여 오디오 코덱 이후의 사후 프로세서로 작동한다. HREP 적용의 이점은 두 가지이다: HREP는 입력 신호의 짧은 시간 다이내믹을 감소시킴으로써 인코더에 부과된 비트레이트 요구를 완화한다; 또한, HREP는 디코더의 (업)믹싱 스테이지에서 적절한 엔벨로프 복원을 보장하는데, 이는 코덱 내에서 파라메트릭 멀티 채널 코딩 기술이 적용된 경우 더욱 중요하다.

또한, 본 발명은 적절한 신호 처리 방법을 예를 들어, 한편으로는 사전 프로세싱에서 또는 다른 한편으로는 사후 프로세싱에서 사용함으로써 박수와 같은 신호에 대한 코딩 성능을 향상시킨다는 점에서 유리하다.

본 발명의 다른 이점은, 본 발명의 고해상도 엔벨로프 프로세싱(HREP), 즉 오디오 사전 프로세싱 또는 오디오 사후 프로세싱이 인코더 이전에 사전 평탄화 또는 디코더에 후속하여 대응하는 역 평탄화를 수행함으로써 선행 기술의 문제를 해결한다는 것이다.

후속적으로, HREP 신호 프로세싱에 관한 본 발명의 실시예의 특성 및 신규한 특징이 요약되고 독특한 이점이 설명된다.

HREP는 필터에 의해 분할된 단지 2개의 주파수 대역에서 오디오 신호를 프로세싱한다. 이는 프로세싱을 간단하게 하고 계산적 및 구조적 복잡도를 낮춘다. 고대역만이 프로세싱되며, 저대역은 수정되지 않은 방식으로 통과한다.

이러한 주파수 대역은 입력 신호의 저역 통과 필터링에 의해 도출되어 제1 대역을 계산한다. 고역 통과(제2) 대역은 입력 신호에서 저역 통과 성분을 감산함으로써 간단히 도출된다. 이러한 방식으로, 2개가 아니라 하나의 필터만 명시적으로 계산될 필요가 있으며, 이는 복잡도를 감소시킨다. 대안적으로, 고역 통과 필터링된 신호는 명시적으로 계산될 수 있고, 저역 통과 성분은 입력 신호와 고역 통과 신호 사이의 차이로서 도출될 수 있다.

낮은 복잡도의 사후 프로세서 구현을 지원하기 위해, 다음과 같은 제한이 가능하다.

활성 HREP 채널/객체의 제한

사소하지 않은 최대 송신된 이득 팩터 g(k)에 대한 제한 (0dB의 사소한 이득 팩터는 연관된 DFT/iDFT 쌍의 필요성을 완화시킨다)

효율적인 분할 기수 2 스파스(sparse) 토폴로지에서 DFT/iDFT의 계산.

일 실시예에서, 인코더 또는 코어 인코더와 연관된 오디오 사전 프로세서는 HREP가 동시에 활성인 채널 또는 객체의 최대 수를 제한하도록 구성되거나, 디코더 또는 코어 디코더와 연관된 오디오 사후 프로세서는 HREP가 동시에 활성인 최대 수의 채널 또는 객체로 사후 프로세스만을 수행하도록 구성된다. 활성 채널 또는 객체의 제한에 대한 바람직한 수는 16이고, 훨씬 더 바람직한 수는 8이다.

다른 실시예에서, HREP 인코더 또는 코어 인코더와 연관된 오디오 사전 프로세서는 출력을 사소하지 않은 이득 팩터의 최대치로 제한하도록 구성되거나, 디코더 또는 코어 디코더와 연관된 오디오 사후 프로세서는 값 1의 사소한 이득 팩터가 DFT/iDFT 쌍을 계산하지 않고 변경되지 않은(윈도윙된) 시간 도메인 신호를 통과하도록 구성된다. 사소하지 않은 이득 팩터의 제한에 대한 바람직한 수는 24이며, 프레임 및 채널 또는 객체 당 16이 더 바람직하다.

다른 실시예에서, HREP 인코더 또는 코어 인코더와 연관된 오디오 사전 프로세서는 효율적인 분할 기수 2 스파스 토폴로지에서 DFT/iDFT를 계산하도록 구성되거나, 디코더 또는 코어 디코더와 연관된 오디오 사후 프로세서는 또한 효율적인 분할 기수 2 스파스 토폴로지에서 DFT/iDFT를 또한 계산하도록 구성된다.

HREP 저역 통과 필터는 스파스 FFT 알고리즘을 사용하여 효율적으로 구현될 수 있다. 여기서, N=8 포인트의 데시메이션인 시간 기수 2 FFT 토폴로지로부터 시작하는 예가 제공되며, 여기서 X(0) 및 X(1)만이 추후의 프로세싱에 필요하다; 결과적으로, E(2)및 E(3)와 O(2) 및 O(3)은 필요하지 않다; 다음으로, 두 N/2 포인트 DFT가 각각 2개의 N/4 포인트 DFT와 후속하는 버터플라이(butterfly)로 더 세분화된다고 여긴다. 이제, 도 15에 도시된 바와 같이, 전술한 생략을 유사한 방식으로 반복할 수 있다.

하이브리드 필터 뱅크(여기서 프로세싱 대역 크로스 오버 주파수는 제1 필터 뱅크 단계에 의해 판단되고, 실질적으로 나이퀴스트 주파수의 2의 제곱수와 연결됨)에 기초한 이득 제어 기법과 달리, HREP의 분할 주파수는 필터를 적용하여 자유롭게 조정할 수 있다. 이는 신호 특성 및 음향 심리학의 요구 사항에 대한 최적의 적응을 가능하게 한다.

하이브리드 필터 뱅크에 기초한 이득 제어 기법과는 대조적으로, 제2 필터 뱅크 스테이지 이후에 앨리어싱 문제를 피하기 위해 프로세싱 대역을 분할하는 긴 필터가 필요하지 않다. 이는 HREP가 임계적으로 샘플링된 필터 뱅크와 함께 동작할 필요가 없는 독립형 사전/사후 프로세서이기 때문에 가능하다.

다른 이득 제어 기법과 대조적으로, HREP는 신호의 로컬 통계에 동적으로 적응한다 (입력 고주파 배경 에너지 엔벨로프의 양면 슬라이딩 평균을 계산함). 이는 입력 신호의 다이내믹을 원래 크기의 특정 부분(이른바 알파 팩터)으로 감소시킨다. 이는 오디오 코덱과의 바람직하지 않은 상호 작용으로 인한 아티팩트를 도입하지 않으면서 기법의 '부드럽게' 동작을 가능하게 한다.

다른 이득 제어 기법과는 대조적으로, HREP는 에너지 다이내믹의 특정 부분 손실(이른바 베타 팩터)을 모델링하고 이 손실을 되돌리는 것으로 낮은 비트레이트 오디오 코덱으로 다이내믹의 추가 손실을 보상할 수 있다.

HREP 사전/사후 프로세서 쌍은 양자화가 없는 경우(즉, 코덱없이) (거의) 완벽하게 재구성한다.

이를 달성하기 위해, 사후 프로세서는 고주파 진폭 가중 팩터에 따라 분할 필터에 적응 기울기를 사용하고, 시간 도메인에서 정정 팩터를 적용함으로써 중첩 T/F 변환에 적용된 시간 변화 스펙트럼 가중치를 되돌릴 시에 발생하는 보간 에러를 정정한다.

HREP 구현예는 HREP 프로세싱에 의해 제공되는 지각 효과의 강도를 정상적으로 제어하고 박수가 아닌 신호를 프로세싱할 때 아티팩트를 피할 수 있는 이른바 메타 이득 제어(Meta Gain Control, MGC)를 포함할 수 있다. 따라서, HREP의 적용을 제어하기 위해 외부 입력 신호 분류의 정확성 요구 사항을 완화한다.

박수 구분 결과를 MGC 및 HREP 설정에 맵핑.

HREP는 대역폭 확장 및 파라메트릭 공간 코딩 도구를 포함하는 다른 모든 코더 구성 요소를 포함하는 독립형 사전/사후 프로세서이다.

HREP는 고주파 시간 엔벨로프의 사전 평탄화를 통해 저 비트레이트 오디오 코더에 대한 요구 사항을 완화한다. 효과적으로, 코더에서 더 짧은 블록이 트리거되고 더 적은 수의 활성 TNS 필터가 필요할 것이다.

HREP는 제한된 시간 공간 큐 해상도로 인해 일반적으로 발생하는 프로세싱된 채널들 사이의 크로스 토크를 감소시킴으로써 파라메트릭 멀티 채널 코딩을 또한 개선시킨다.

코덱 토폴로지 : TNS/TTS, IGF, 및 스테레오 필링과의 상호 작용

비트스트림 형식 : HREP 시그널링

본 발명의 바람직한 실시예는 첨부된 도면의 맥락에서 후술되며, 여기서:
도 1은 일 실시예에 따른 오디오 사후 프로세서를 도시한다;
도 2는 도 1의 대역 추출기의 바람직한 구현예를 도시한다;
도 3a는 부가 정보로서 시변 고주파 이득 정보를 갖는 오디오 신호의 개략적 표현이다;
도 3b는 중첩 영역을 갖는 중첩 블록을 갖는 대역 추출기, 고대역 프로세서, 또는 결합기에 의한 프로세싱의 개략적 표현이다;
도 3c는 중첩 가산기를 갖는 오디오 사후 프로세서를 도시한다;
도 4는 도 1의 대역 추출기의 바람직한 구현예를 도시한다;
도 5a는 오디오 사후 프로세서의 다른 바람직한 구현예를 도시한다;
도 5b는 MPEG-H 3D 오디오 디코더의 프레임워크에 오디오 사후 프로세서(HREP)의 바람직한 임베딩을 도시한다;
도 5c는 MPEG-H 3D 오디오 디코더의 프레임워크에 오디오 사후 프로세서(HREP)의 다른 바람직한 임베딩을 도시한다;
도 6a는 대응하는 위치 정보를 포함하는 부가 정보의 바람직한 실시예를 도시한다;
도 6b는 오디오 사후 프로세서를 위한 부가 정보 디코더와 결합된 부가 정보 추출기를 도시한다;
도 7은 바람직한 실시예에 따른 오디오 사전 프로세서를 도시한다;
도 8a는 오디오 사전 프로세서에 의해 수행되는 단계의 흐름도를 도시한다;
도 8b는 오디오 사전 프로세서의 신호 분석기에 의해 수행되는 단계들 흐름도를 도시한다;
도 8c는 오디오 사전 프로세서의 신호 분석기, 고대역 프로세서, 및 출력 인터페이스에 의해 수행되는 절차의 흐름도를 도시한다;
도 8d는 도 7의 오디오 사전 프로세서에 의해 수행되는 절차를 도시한다;
도 9a는 일 실시예에 따른 오디오 사전 프로세서를 갖는 오디오 인코딩 장치를 도시한다;
도 9b는 오디오 사후 프로세서를 포함하는 오디오 디코딩 장치를 도시한다;
도 9c는 오디오 사전 프로세서의 바람직한 구현예를 도시한다;
도 10a는 멀티 채널/멀티 객체 기능을 갖는 오디오 인코딩 장치를 도시한다;
도 10b는 멀티 채널/멀티 객체 기능을 갖는 오디오 디코딩 장치를 도시한다;
도 10c는 사전 프로세서 및 사후 프로세서를 인코딩/디코딩 체인에 임베딩하는 것의 추가 구현예를 도시한다;
도 11은 스테레오 박수 신호의 고주파 시간 엔벨로프를 도시한다;
도 12는 이득 수정 프로세싱의 기능을 도시한다;
도 13a는 필터 기반 이득 제어 프로세싱을 도시한다;
도 13b는 도 13a의 대응하는 필터에 대한 상이한 필터 기능을 도시한다;
도 14는 하이브리드 필터 뱅크를 이용한 이득 제어를 도시한다;
도 15는 스파스 디지털 푸리에 변환 구현의 구현예를 도시한다;
도 16은 청취 테스트 개요를 도시한다;
도 17a는 128kbps 5.1ch 테스트에 대한 절대 MUSHRA 스코어를 도시한다;
도 17b는 128kbps 5.1ch 테스트에 대한 상이한 MUSHRA 스코어를 도시한다;
도 17c는 128kbps 5.1ch 테스트 박수 신호에 대한 절대 MUSHRA 스코어를 도시한다;
도 17d는 128kbps 5.1ch 테스트 박수 신호에 대한 상이한 MUSHRA 스코어를 도시한다;
도 17e는 48kbps 스테레오 테스트에 대한 절대 MUSHRA 스코어를 도시한다;
도 17f는 48kbps 스테레오 테스트에 대한 상이한 MUSHRA 스코어를 도시한다;
도 17g는 128kbps 스테레오 테스트에 대한 절대 MUSHRA 스코어를 도시한다; 그리고
도 17h는 128kbps 스테레오 테스트에 대한 상이한 MUSHRA 스코어를 도시한다.

도 1은 도 3a에 도시된 부가 정보(106)로서 시변 고주파 이득 정보(104)를 갖는 오디오 신호(102)를 사후 프로세싱하기 위한 오디오 사후 프로세서(100)의 바람직한 실시예를 도시한다. 오디오 사후 프로세서는 오디오 신호(102)의 고주파 대역(112) 및 오디오 신호(102)의 저주파 대역(114)을 추출하기 위한 대역 추출기(110)를 포함한다. 또한, 본 실시예에 따른 오디오 사후 프로세서는 프로세싱된 고주파 대역(122)을 획득하기 위해 시변 고주파 이득 정보(104)에 따라 고주파 대역(112)의 시변 수정을 수행하기 위한 고대역 프로세서(120)를 포함한다. 또한, 오디오 사후 프로세서는 프로세싱된 고주파 대역(122)과 저주파 대역(114)을 결합하는 결합기(130)를 포함한다.

바람직하게는, 고대역 프로세서(120)는 이 특정 대역에 대한 시변 고주파 이득 정보에 따라 고주파 대역의 선택적 증폭을 수행한다. 이것은 대응하는 고주파 대역이 후술될 도 7의 오디오 사전 프로세서와 같은 오디오 사전 프로세서 전에 감쇠되기 때문에 원래의 고주파 대역을 취소하거나 재구성하는 것이다.

특히, 그 실시예에서, 대역 추출기(110)에는 그 입력에서, 연관된 부가 정보를 갖는 오디오 신호로부터 추출된 오디오 신호(102)가 제공된다. 또한, 대역 추출기의 출력은 결합기의 입력에 접속된다. 또한, 결합기의 제2 입력은 고대역 프로세서(120)의 출력에 연결되어 프로세싱된 고주파 대역(122)을 결합기(130)에 공급한다. 또한, 대역 추출기(110)의 추가 출력은 고대역 프로세서(120)의 입력에 연결된다. 또한, 고대역 프로세서는 도 1에 도시된 바와 같이 시변 고주파 이득 정보를 수신하기 위한 제어 입력을 부가적으로 갖는다.

도 2는 대역 추출기(110)의 바람직한 구현예를 도시한다. 특히, 대역 추출기(110)는 그 출력에서, 저주파 대역(114)을 전달하는 저역 통과 필터(111)를 포함한다. 또한, 고주파 대역(112)은 오디오 신호(102), 즉 저역 통과 필터(111)에 입력된 오디오 신호로부터 저주파 대역(114)을 감산함으로써 생성된다. 그러나, 감산기(113)는 도 4의 오디오 신호 윈도우어(121) 또는 도 5a의 대응하는 블록(121)과 관련하여 도시될 바와 같이 실제 전형적 샘플 단위(sample-wise)의 감산 이전에 일종의 사전 프로세싱을 수행할 수 있다. 따라서, 대역 추출기(110)는 도 2에 도시된 바와 같이, 저역 통과 필터(111) 및 후속 적으로 연결된 감산기(113), 즉 입력이 저역 통과 필터(111)의 출력에 연결되고 추가 입력은 저역 통과 필터(111)의 입력에 연결되는 감산기(113)를 포함할 수 있다.

대안적으로, 그러나, 대역 추출기(110)는 실제로 고역 통과 필터를 사용하고 오디오 신호로부터 고역 통과 출력 신호 또는 고주파 대역을 감산하여 저주파 대역을 얻음으로써 또한 구현될 수 있다. 또는, 대안적으로, 대역 추출기는 예를 들어 2 채널 필터 뱅크의 방식에서 저역 통과 필터와 고역 통과 필터의 조합에 의해 임의의 감산기 없이 구현될 수 있다. 바람직하게는, 도 1(또는 도 2)의 대역 추출기(110)는 단지 2개의 대역, 즉 단일 저주파 대역 및 단일 고주파 대역을 추출하도록 구현되며, 한편 이들 대역은 함께 오디오 신호의 전체 주파수 범위에 걸쳐 있다.

바람직하게는, 대역 추출기(110)에 의해 추출된 저주파 대역의 컷오프 주파수 또는 코너 주파수는 오디오 신호의 최대 주파수의 1/8 내지 1/3 사이, 바람직하게는 오디오 신호의 최대 주파수의 1/6이다.

도 3a는 블록(300, 301, 302, 303)의 시퀀스에 유용한 정보를 갖는 오디오 신호(102)의 개략적 표현을 도시하며, 여기서 설명의 이유로, 블록(301)은 샘플링 값의 제1 블록으로 간주되며, 블록(302)은 오디오 신호의 샘플링 값의 제2 나중 블록인 것으로 가중된다. 블록(300)은 시간에서 제1 블록(301)에 선행하고, 블록(303)은 시간에서 블록(302)에 뒤따르며, 제1 블록(301)과 제2 블록(302)은 서로 시간적으로 인접해 있다. 또한, 도 3a의 106에 도시된 바와 같이, 각각의 블록은 제1 블록(301)에 대해 제1 이득 정보(311)를 포함하고 제2 블록에 대해 제2 이득 정보(312)를 포함하는 연관된 부가 정보(106)를 갖는다.

도 3b는 중첩 블록에서의 대역 추출기(110)(및 고대역 프로세서(120) 및 결합기(130))의 프로세싱을 도시한다. 따라서, 제1 블록(301)을 계산하기 위해 사용된 윈도우(313)는 제2 블록(302)을 추출하기 위해 사용된 윈도우(314)와 중첩되며, 두 윈도우(313 및 314)는 중첩 범위(321) 내에서 중첩된다.

도 3a 및 도 3b의 스케일은 각각의 블록의 길이가 윈도우의 길이의 크기의 절반이라고 설명하지만, 상황이 다를 수도 있다, 즉 각각의 블록의 길이는 대응하는 블록을 윈도윙하는 데 사용되는 윈도우와 동일한 크기이다. 사실, 이것은 도 4에, 또는 특히 사후 프로세서에 대해 도 5a에, 또는 사전 프로세서에 대해 도 9c에 도시된 후속하는 바람직한 실시예에 대한 바람직한 구현이다.

그러면, 중첩 범위(321)의 길이는 샘플링 값의 블록의 크기 또는 길이의 절반에 대응하는 윈도우의 크기의 절반이다.

특히, 시변 고주파 이득 정보는 오디오 신호(102)의 샘플링 값의 블록의 시퀀스(300 내지 303)에 제공되어, 샘플링 값의 제1 블록(301)은 제1 이득 정보(311)와 연관되고, 오디오 신호의 샘플링 값의 제2 후속 블록(302)은 상이한 제2 이득 정보(312)를 가지며, 여기서 대역 추출기(110)는 샘플링 값의 제1 블록(301)으로부터 제1 저주파 대역 및 제1 고주파 대역을 추출하고, 샘플링 값의 제2 블록(302)으로부터 제2 저주파 대역 및 데2 고주파 대역을 추출하도록 구성된다. 또한, 고대역 프로세서(120)는 제1 이득 정보(311)를 이용하여 제1 고주파 대역을 수정하여 제1 프로세싱된 고주파 대역을 획득하고, 제2 이득 정보(312)를 사용하여 제2 고주파 대역을 수정하여 제2 프로세싱된 고주파 대역을 획득하도록 구성된다. 또한, 그 다음에, 결합기(130)는 제1 저주파 대역과 제1 프로세싱된 고주파 대역을 결합하여 제1 결합된 블록을 획득하고, 제2 저주파 대역과 제2 프로세싱된 고주파 대역을 결합하여 제2 결합된 블록을 획득하도록 구성된다.

도 3c에 도시된 바와 같이, 대역 추출기(110), 고대역 프로세서(120), 및 결합기(130)는 도 3b에 도시된 중첩 블록과 함께 동작하도록 구성된다. 또한, 오디오 사후 프로세서(100)는 블록 중첩 범위(321)에서 제1 블록(301)의 오디오 샘플과 제2 블록(302)의 오디오 샘플을 가산함으로써 사후 프로세싱된 부분을 계산하기 위한 중첩 가산기(140)를 또한 포함한다. 바람직하게는, 중첩 가산기(140)는 감소 또는 페이드 아웃 함수를 사용하여 제1 블록의 제2 절반의 오디오 샘플을 가중하고, 페이드 인 또는 증가 함수를 사용하여 제1 블록에 후속하는 제2 블록의 제1 절반을 가중하도록 구성된다. 페이드 아웃 함수 및 페이드 인 함수는 페이드 인 함수의 경우 단조롭게 증가하고 페이드 아웃 함수인 경우 단조롭게 감소하는 선형 또는 비선형 함수일 수 있다.

중첩 가산기(140)의 출력에서, 부가 정보가 도 3a에 오디오 사후 프로세서(100)에 의해 소비되었기 때문에, 예를 들어 도 3a에 도시된 바와 같으나 임의의 부가 정보가 없는 사후 프로세싱된 오디오 신호의 샘플의 시퀀스가 존재한다.

도 4는 도 1에 도시된 오디오 사후 프로세서의 대역 추출기(110), 또는 대안적으로 도 7의 오디오 사전 프로세서(200)의 대역 추출기(210)의 바람직한 구현예를 도시한다. 도 1의 대역 추출기(110) 또는 도 7의 대역 추출기(210) 양자 모두는 도 4에 도시되거나, 사후 프로세서에 대해 도 5a에 도시되거나, 사전 프로세서에 대해 도 9c에 도시된 바와 동일한 방식으로 구현될 수 있다. 일 실시예에서, 오디오 사후 프로세서는 분석 윈도우를 사용하여 오디오 신호의 샘플링 값의 블록의 시퀀스를 생성하기 위한 분석 윈도우어(115)를 특정 특징부로서 갖는 대역 추출기를 포함하며, 여기서 블록은 도 3b에 도시된 바와 같이 중첩 범위(321)만큼 시간 중첩된다. 또한, 대역 추출기(110)는 스펙트럼 값의 블록의 시퀀스를 생성하기 위해 이산 푸리에 변환을 수행하기 위한 DFT 프로세서(116)를 포함한다. 따라서, 샘플링 값의 각각의 개별 블록은 스펙트럼 값의 블록인 스펙트럼 표현으로 컨버팅된다. 따라서, 동일한 수의 스펙트럼 값의 블록이 샘플링 값의 블록인 것처럼 생성된다.

DFT 프로세서(116)는 저역 통과 성형기(117)의 입력에 연결된 출력을 갖는다. 저역 통과 성형기(117)는 실제로 저역 통과 필터링 액션을 수행하고, 저역 통과 성형기(117)의 출력은 저역 통과 시간 도메인 샘플링 값의 블록의 시퀀스를 생성하기 위한 DFT 역 프로세서(118)에 연결된다. 마지막으로, 합성 윈도우를 사용하여 저역 통과 시간 도메인 샘플링 값의 블록의 시퀀스를 윈도윙하기 위한 합성 윈도우어(119)가 DFT 역 프로세서의 출력에 제공된다. 합성 윈도우어(119)의 출력은 시간 도메인 저역 통과 신호이다. 따라서, 블록(115 내지 119)은 도 2의 저역 필터 블록(111)에 대응하고, 블록(121 및 113)은 도 2의 감산기(113)에 대응한다. 따라서,도 4에 도시된 실시예에서, 대역 추출기는 분석 윈도우 및 합성 윈도우를 사용하여 오디오 신호(102)를 윈도윙하여 오디오 신호 값의 윈도윙된 블록의 시퀀스를 획득하기 위한 오디오 신호 윈도우어(121)를 더 포함한다. 특히, 오디오 신호 윈도우어(121)는 분석 윈도우어(115) 및/또는 합성 윈도우어(119)와 동기화되어, 합성 윈도우어(119)에 의해 출력된 저역 통과 시간 도메인 샘플링 값의 블록의 시퀀스는 블록(121)에 의해 출력된, 전체 대역 신호인, 오디오 신호 값의 윈도윙된 블록의 시퀀스와 시간 동기화된다.

그러나, 전체 대역 신호는 이제 오디오 신호 윈도우어(121)를 사용하여 윈도윙되고, 따라서, 도 4의 샘플 단위의 감산기(113)에 의해 샘플 단위의 감산이 수행되어 최종적으로 고역 통과 신호를 획득한다. 따라서, 샘플 단위의 감산(113)이 각각의 블록에 대해 수행되었기 때문에, 고역 통과 신호가 또한 블록들의 시퀀스에서 이용 가능하다.

또한, 고대역 프로세서(120)는 도 3c의 블록(110)에 의해 생성된 고역 시간 도메인 샘플링 값의 블록의 시퀀스의 각각의 블록의 각각의 샘플에 수정을 적용하도록 구성된다. 바람직하게는, 블록의 샘플에 대한 수정은 다시 이전 블록의 정보, 그리고 다시 현재 블록의 정보, 또는 대안적으로 추가로 다시 현재 블록, 그리고 다시 다음 블록의 정보에 의존한다. 특히 그리고 바람직하게는, 수정은 도 5a의 곱셈기(125)에 의해 행해지고, 수정은 보간 정정 블록(124)에 선행된다. 도 5a에 도시된 바와 같이, 보간 정정은 선행 이득 값 g[k-1], g[k] 및 다시 현재 블록에 뒤따르는 다음 블록의 팩터 g[k+1] 사이에서 행해진다.

또한, 전술한 바와 같이, 곱셈기(125)는 한편으로는 β_팩터(500)에 의해 제어되고, 다른 한편으로는 현재 블록에 대한 이득 팩터 g[k](104)에 의해 제어되는 이득 보상 블록(126)에 의해 제어된다. 특히, β_팩터는 현재 블록과 연관된 이득 팩터 g[k]로부터 1/gc[k]로 표시된 곱셈기(125)에 의해 적용된 실제 수정을 계산하기 위해 사용된다.

따라서, beta_factor는 이 beta_factor에 의해 대략적으로 모델링되는 과도의 추가 감쇠를 설명하며, 여기서 과도 이벤트의 이러한 추가적인 감쇠는 도 5a에 도시된 사후 프로세서 이전에 동작하는 인코더 또는 디코더의 부작용이다.

사전 프로세싱 및 사후 프로세싱은 입력 신호를 저역 통과(low-pass, LP) 부분 및 고역 통과(high-pass, HP) 부분으로 분할하여 적용된다. 이는 a) LP 부분 또는 HP 부분을 계산하기 위해 FFT를 사용함으로써, b) 제로 위상 FIR 필터를 사용하여 LP 부분 또는 HP 부분을 계산함으로써, 또는 c) 양방향으로 적용된 IIR 필터를 사용하여 제로 위상을 얻어 LP 부분 또는 HP 부분을 계산함으로써 달성될 수 있다. LP 부분 또는 HP 부분이 주어지면, 다른 부분은 시간 도메인에서의 간단한 감산으로 획득될 수 있다. 시간 의존적인 스칼라 이득이 HP 부분에 적용되며, 이는 LP 부분에 다시 추가되어 사전 프로세싱되거나 사후 프로세싱된 출력을 생성한다.

FFT를 사용하여 신호를 LP 부분과 HP 부분으로 분할(도 5a, 도 9c)

제안된 구현예에서, FFT가 LP 부분을 계산하는 데 사용된다. FFT 변환 크기는 N, 특히 N=128로 한다. 입력 신호 s는 절반이 중첩하고, 입력 블록

을 생성하는, 크기 N의 블록으로 분할되고, 여기서 k는 블록 인덱스이고, i는 블록 k에서의 샘플 위치이다. 윈도우 w[i]는 다음에서 정의된 바와 같이, ib[k], 특히 사인 윈도우에 적용되고(115, 215),

인 경우,

그리고 그 후에 또한 FFT에 적용되며(116, 216), 복소 계수 c[k][f]는 다음과 같이 획득된다.

인 경우,

인코더 측(도 9c)(217a)에서, LP 부분을 획득하기 위해, 프로세싱 형상 ps[f]와의 c[k][f]의 요소 측면의 곱셈(217a)이 적용되며, 이는 다음과 같이 이루어진다:

파라미터는 저역 통과 영역의 FFT 라인의 폭을 나타내고,

파라미터는 전이 영역의 FFT 라인의 폭을 나타낸다. 제안된 프로세싱 형상의 형상은 선형이지만, 어떤 임의의 형상이 사용될 수 있다.

LP 블록 lpb[k]는 다시 다음과 같이 IFFT(218) 및 윈도윙(219)을 적용함으로써 획득된다.

위의 방정식은 도 9c의 인코더/사전 프로세서에 유효하다. 디코더 또는 사후 프로세서의 경우, ps[f] 대신에 적응형 프로세싱 형상 rs[f]가 사용된다.

그 다음에, HP 블록 hpb[k]는 다음과 같이 시간 도메인에서 간단한 감산(113, 213)에 의해 획득된다.

출력 블록 ob[k]는 다음과 같이 HP 블록에 스칼라 이득 g[k]를 적용함으로써 획득된다(225)(230).

출력 블록 ob[k]는 다음과 같이 사전 프로세싱된 출력 신호 o에 대해

개의 추가적인 최종 샘플을 생성하기 위해 이전 출력 블록 ob[k-1]과의 중첩 가산을 사용하여 최종적으로 결합된다.

(여기서

)

모든 프로세싱은 각각의 입력 채널에 대해 개별적으로 행해지며, 이는 sig에 의해 인덱싱된다.

사전 프로세싱 측의 적응형 재구성 형상(도 5a)

디코더 측에서, 전이 영역에서 완벽한 재구성을 얻기 위해, 전이 영역의 적응형 재구성 형상 rs[f](117b)이 다음과 같이 프로세싱 형상 ps[f] 및 g[k]에 따라 인코더 측에서 사용된 프로세싱 형상 ps[f](217b) 대신에 사용되어야 한다.

LP 영역에서, ps[f]와 rs[f]가 양자 모두가 1이며, HP 영역에서 ps[f]와 rs[f] 양자 모두가 모두 제로이며, 전이 영역에서만 상이하다. 또한, g[k]=1일 때, rs[f]=ps[f]를 갖는다.

적응형 재구성 형상은 전이 영역에서 FFT 라인의 크기가 사전 프로세싱 후에 복원됨을 보장함으로써 공제될 수 있으며, 이는 다음의 관계식을 제공한다.

프로세싱은 다음과 같이 ps[f] 대신 rs[f]가 사용된다는 점을 제외하고는 사전 처리 측과 유사하고,

(여기서

)

출력 블록 다음과 같이 ob[k][i]은 스칼라 이득 g[k]의 역을 사용하여 계산된다(125).

사후 프로세싱 측의 보간 정정(124)(도 5a)

최종 사전 프로세싱된 출력에 대한 출력 블록 k 기여의 전반부는

(여기서

)에 의해 주어진다. 따라서, 사전 프로세싱 측에 적용된 이득 g[k-1] 및 g[k]는 윈도윙 및 중첩-가산 동작으로 인해 암시적으로 보간된다. HP 영역에서 각각의 FFT 라인의 크기는 스칼라 팩터

이 시간 영역에서 효과적으로 곱해진다.

유사하게, 사후 프로세싱 측에서, HP 영역의 각각의 FFT 라인의 크기는 팩터

이 시간 영역에서 효과적으로 곱해진다.

완벽한 재구성을 달성하기 위해, HP 영역의 각각의 FFT 라인에 대한 위치 j에서 전체 시간 도메인 이득을 나타내는, 다음의 2개의 이전 항의 곱은

출력 블록 k의 전반부에서 다음과 같이 정규화되어야 한다.

corr[j]의 값은 다음과 같이 단순화되고 다시 작성될 수 있다.

최종 사전 프로세싱된 출력에 대한 출력 블록 k 기여의 후반부는

으로 주어지고, 보건 정정은 다음과 같이 이득 g[k] 및 g[k+1]에 기초하여 작성될 수 있다.

출력 블록 k의 후반부에 대한 업데이트된 값은 다음과 같이 주어진다.

사전 프로세싱 측에서의 이득 계산(도 9c)

사전 프로세싱 측에서, 과도 이벤트를 포함한다고 가정된 블록 k의 HP 부분은 스칼라 이득 g[k]를 사용하여 이웃에 있는 배경과 더 유사하게 조정된다. 블록 k의 HP 부분의 에너지는 hp_e[k]로 표시될 것이고, 블록 k의 근처에 있는 HP 배경의 평균 에너지는 hp_bge[k]로 표시될 것이다.

조정량을 제어하는 파라미터 α∈ [0,1]은 다음과 같이 정의된다.

g_float[k]의 값은 양자화되어 확장된 이득 범위구성 옵션의 선택된 값에 허용된 범위로 클리핑되어 다음과 같이 이득 인덱스 gainIdx[k][sig]를 생성한다.

프로세싱에 사용된 값 g[k]는 다음과 같이 디코더 측에서 다음과 같이 정의된, 양자화된 값이다.

α가 0 때, 이득은 값 g_float[k]=1을 가지므로, 조정이 이루어지지 않고, α가 1일 때, 이득은 값 g_float[k]=hp_bge[k]/hp_e[k]를 가지므로, 조정된 에너지가 배경의 평균 에너지와 일치하게 된다. 위의 관계식은 다음과 같이 다시 작성될 수 있으며,

이는 배경

의 대응하는 평균 에너지 주위의 조정된 에너지 g_float[k]×hp_e[k]의 변화는 팩터 (1-α)로 감소됨을 표시한다. 제안된 시스템에서, α=0.75가 사용되었기 때문에, 배경의 대응하는 평균 에너지 주위의 각각의 블록의 HP 에너지의 변화가 원래의 25%로 감소된다.

사후 프로세싱 측에서의 이득 보상(126)(도 5a)

코어 인코더 및 디코더는 다음과 같이, 코어 인코더 구성 및 프레임의 신호 특성에 따라 파라미터 β∈[0,1]을 사용하여, 추가 감쇠 단계를 도입하여 대략적으로 모델링된, 과도 이벤트의 추가적인 감쇠를 도입하며,

이는 코어 인코더 및 디코더를 통과한 후, 배경 hp_bge[k]의 대응하는 평균 에너지 주위의 디코딩된 에너지 gc__float[k]×hp_e[k]의 변화가 추가적인 팩터 (1-β)로 더 감소됨을 표시한다.

g[k], α, 및 β만을 사용하여, 다음과 같이 디코더 측에서 gc[k]의 추정치를 다음과 같이 계산할 수 있다.

파라미터

는 betaFactorIdx[sig]로 양자화되어 각각의 프레임에 대한 부가 정보로서 송신된다. 보상된 이득 gc[k]는 다음과 같이 beta_factor를 사용하여 계산될 수 있다.

메타 이득 제어( Meta Gain Contro , MGC )

라이브 콘서트 등의 박수 신호에는 일반적으로 손뼉 소리뿐만 아니라, 군중이 외치는 소리, 휘파람 소리, 및 관객의 발이 쿵쿵거리는 소리를 포함한다. 종종, 아티스트는 박수 또는 악기 (핸들링) 소리가 지속되는 박수와 겹치는 동안 말을 한다. 여기서, STP 또는 GES와 같은 시간 엔벨로프 성형의 기존 방법은 간섭 사운드의 순간에 활성화될 경우 이러한 박수가 아닌 성분을 손상시킬 수 있다. 따라서, 신호 분류기가 이러한 신호 동안의 비활성화를 보장한다. HREP는 이른바 메타 이득 제어(MGC)의 기능을 제공한다. MGC는 HREP 프로세싱의 지각 효과를 정상적으로 완화하기 위해 사용되며, 매우 정확한 입력 신호 분류의 필요성을 피한다. MGC를 사용하면, 모든 종류의 주변 환경 및 간섭 사운드와 섞인 박수는 원치 않는 아티팩트를 도입하지 않고 처리될 수 있다.

이전에 논의된 바와 같이, 바람직한 실시예는 추가로 제어 파라미터(807), 또는 대안적으로 도 5a에 500으로 표시된 제어 파라미터 beta_factor를 갖는다. 대안적으로 또는 추가로, 앞에서 논의된 바와 같이 개별 팩터인 알파 또는 베타가 추가적인 부가 정보로서 송신될 수 있지만, 한편으로는 베타로, 다른 한편으로는 알파로 구성된 단일 제어 파라미터 beta_factor를 갖는 것이 바람직하며, 여기서 베타는 0과 1 사이의 파라미터이며 코어 인코더 구성 및 더불어 임의적으로 신호 특성에 따라 달라지고, 또한 팩터 알파는 배경의 대응하는 평균 에너지 주위의 각각의 블록의 고주파 부분 에너지의 변화를 결정하고, 또한 알파는 0과 1 사이의 파라미터이다. 한 프레임의 과도의 수가 1-2와 같이 매우 작으면, TNS가 잠재적으로 이를 더 잘 보존할 수 있으므로, 결과적으로 프레임에 대한 인코더 및 디코더를 통한 추가적인 감쇠가 감소될 수 있다. 따라서, 고급 인코더는 그에 대응하여 과대 증폭을 방지하기 위해 beta_factor를 약간 감소시킬 수 있다.

다시 말해, MGC는 현재 g'=g^p와 같은 확률과 같은 파라미터 p를 사용하여 계산된 이득 g (여기서는 gfloat[k]로 표기됨)를 현재 수정하며, 이는 양자화되기 전에 1을 향해 이득을 압박하여 얻어낸다. beta_factor 파라미터는 양자화된 이득의 확장을 제어하는 추가적인 메커니즘이지만, 현재 구현에서는 비트레이트와 같은 코어 인코더 구성을 기초하여 고정된 값을 사용한다.

beta_factor는 β x (1-α)/α에 의해 결정되고 바람직하게는 인코더 측에서 계산되고 양자화되고, 양자화된 beta_factor 인덱스 betaFactorIdx는 시변 고주파 이득 정보 g[k]에 부가하여 프레임 당 한 번 부가 정보로서 송신된다.

특히, 베타 또는 beta_factor(500)와 같은 추가적인 제어 파라미터(807)는 시변 고주파 이득 정보의 시간 해상도보다 낮은 시간 해상도를 가지거나, 추가적인 제어 파라미터는 심지어 특정 코어 인코더 구성 또는 오디오 피스(piece)에 대해서 고정적이다.

바람직하게는, 고대역 프로세서, 대역 추출기, 및 결합기는 중첩 블록에서 동작하며, 여기서 블록 길이의 40% 내지 60%의 중첩 범위, 바람직하게는 50%의 중첩 범위(321)가 사용된다.

다른 실시예에서 또는 동일한 실시예에서, 블록 길이는 0.8ms 내지 5.0ms이다.

또한, 바람직하게 또는 추가로, 고대역 프로세서(120)에 의해 수행되는 수정은 g[k]에 따라, 추가로 제어 파라미터(500)에 따라, 그리고 추가로 도 5a의 블록(124)의 맥락에서 논의된 바와 같은 보간 정정과 일치하여 시간 도메인에서 블록의 각각의 샘플에 적용되는 시간 의존적인 곱셈 팩터이다.

또한, 대역 추출기(110)에 의해 추출된 저주파 대역의 컷오프 주파수 또는 코너 주파수는 오디오 신호의 최대 주파수의 1/8 내지 1/3 사이, 바람직하게는 오디오 신호의 최대 주파수의 1/6이다.

또한, 바람직한 실시예에서 도 5a의 117b 및 117a로 구성된 저역 통과 성형기는 대응하는 블록에 대한 시변 고주파 이득 정보에 의존하는 성형 함수 rs[f]를 적용하도록 구성된다. 성형 함수 rs[f]의 바람직한 구현예는 이전에 논의되었지만, 대안적인 함수가 또한 사용될 수 있다.

또한, 바람직하게는, 성형 함수 rs[f]는 대응하는 블록에 대한 시변 고주파 이득 정보를 사용하여 오디오 신호의 고주파 대역을 수정 또는 감쇠하기 위해 오디오 사전 프로세서(200)에서 사용되는 성형 함수 ps[f]에 또한 의존한다. ps[f]로부터의 rs[f]의 특정 의존성은 도 5a와 관련하여 이전에 논의되었지만, 다른 의존성 또한 사용될 수 있다.

또한, 도 5a의 블록(124)과 관련하여 앞서 논의된 바와 같이, 블록의 샘플에 대한 수정은, 예를 들어, 윈도우 함수 w[j] 에 의존하는 정정 팩터에 대해 앞서 논의된 분석 윈도우 함수 또는 합성 윈도우 함수, 및 더욱 바람직하게는 윈도우 팩터 w[j]의 제곱근에 의해 정의된 특정 샘플에 적용된 윈도윙 팩터에 또한 의존한다.

전술한 바와 같이, 특히 도 3b와 관련하여, 대역 추출기, 결합기, 및 고대역 프로세서에 의해 수행되는 프로세싱은 이전 블록의 후반 부분이 이전 블록과 시간에서 인접한 이후 블록의 전반 부분과 오디오 신호의 동일한 오디오 샘플로부터 도출되도록 중첩 블록에서 수행된다, 즉 프로세싱은 중첩 범위(321) 내에서 수행되고, 중첩 범위(321)를 사용하여 수행된다. 중첩 블록(313 및 314)의 이 중첩 범위(321)는 이전 블록의 절반과 동일하고 후속 블록은 다수의 샘플 값에 대해 이전 블록과 동일한 길이를 가지며, 사후 프로세서는 도 3c에 도시된 바와 같이 중첩 가산 동작을 수행하기 위한 중첩 가산기(140)를 추가로 포함한다.

특히, 대역 추출기(110)는 분할 필터의 정지 범위와 통과 범위 사이의 분할 필터(111)의 기울기를 오디오 샘플의 블록에 적용하도록 구성되며, 여기서 이 기울기는 샘플의 블록에 대한 시변 고주파 이득 정보에 의존한다. 바람직한 기울기는 도 5a의 맥락에서 앞서 정의되고 논의된 바와 같은 이득 정보 g[k]에 의존하는 기울기 rs[f]에 대해 주어지지만, 다른 의존성이 또한 유용할 수 있다.

일반적으로, 고주파 이득 정보는 바람직하게는 현재 블록 k에 대한 이득 값 g[k]를 가지며, 여기서 기울기는 보다 낮은 이득 값에 대한 기울기의 증가와 비교하여 보다 높은 이득 값에 대해 보다 강하게 증가된다.

도 6a는 도 3의 부가 정보(106)의보다 상세한 표현을 도시한다. 특히, 부가 정보는 일련의 이득 인덱스(601), 이득 정밀도 정보(602), 이득 보상 정보(603), 및 보상 정밀도 정보(604)의 시퀀스를 포함한다.

바람직하게는, 오디오 사후 프로세서는 오디오 신호(102) 및 부가 정보를 갖는 오디오 신호로부터의 부가 정보(106)를 추출하기 위한 부가 정보 추출기(610)를 포함하고, 부가 정보는 대응하는 이득 정밀도 정보 및 대응하는 보상 정밀도 정보에 기초하여 디코딩된 이득(621) 및/또는 디코딩된 이득 보상 값(622)을 생성하고 계산하는 부가 정보 디코더(620)로 포워딩된다.

특히, 정밀도 정보는 다수의 상이한 값을 결정하며, 여기서 높은 이득 정밀도 정보는 이득 인덱스가 이득 값이 가질 수 있는 더 적은 수의 값을 표시하는 더 낮은 이득 정밀도 정보와 비교될 수 있는 더 많은 수의 값을 정의한다.

따라서, 고정밀도 이득 정보는 이득 정보를 송신하는데 사용되는 더 낮은 비트 수를 표시하는 더 낮은 이득 정밀도 정보와 비교하여 이득 인덱스를 송신하는데 사용되는 더 높은 비트 수를 표시할 수 있다. 고정밀 정보는 4 비트(이득 정보에 대해 16개의 값)를 표시할 수 있고, 보다 낮은 이득 정보는 이득 양자화에 대해 단지 3 비트(8개의 값)일 수 있다. 따라서, 이득 정밀도 정보는 예를 들어 extendedGainRange로 표시된 단순 플래그 일 수 있다. 후자의 경우, 구성 플래그 extendedGainRange는 정확도 또는 정밀도 정보가 아니라 이득이 정상 범위 또는 확장된 범위를 갖는지 여부를 표시한다. 확장된 범위는 정상 범위의 모든 값, 더불어 정상 범위를 사용하여 가능한 것보다 작거나 큰 값을 포함한다. 특정 실시예에서 사용될 수 있는 확장된 범위는 잠재적으로 과도 이벤트에 대해 보다 강렬한 사전 프로세싱 효과를 적용할 수 있게 하며, 그렇지 않으면 강한 과도 이벤트는 정상 범위로 클리핑될 것이다.

유사하게, 베타 팩터 정밀도에 대해, 즉 이득 보상 정밀도 정보에 대해, beta_factor 인덱스가 3비트 또는 4비트를 사용하는지 여부를 개략적으로 설명하는 플래그가 또한 사용될 수 있으며,이 플래그는 extendedBetaFactorPrecision이라 칭할 수 있다.

바람직하게는, FFT 프로세서(116)는 N 샘플링 값의 블록 길이를 갖는 블록 단위 이산 푸리에 변환을 수행하여 스파스 이산 푸리에 알고리즘을 수행함으로써 N/2 복소 스펙트럼 값의 수보다 낮은 스펙트럼 값의 수를 획득하도록 구성되고, 여기서 최대 주파수를 초과하는 스펙트럼 값에 대한 브랜치의 계산은 스킵되고, 대역 추출기는 전이 시작 주파수 범위까지의 스펙트럼 값을 사용함으로써 그리고 전이 주파수 범위 내에서 스펙트럼 값을 가중함으로써 저주파 대역 신호를 계산하도록 구성되고, 여기서 전이 주파수 범위는 최대 주파수 또는 최대 주파수보다 작은 주파수까지만 확장된다.

이 절차는 예를 들어, 특정 버터플라이 동작이 도시되는 도 15에 도시되어 있다. N=8 포인트 데시메이션인 시간 기수2 FFT 토폴로지로부터 시작하는 예가 주어지며, 여기서 추가 프로세싱에는 X(0) 및 X(1)만 필요하다; 결과적으로, E(2)와 E(3), 및 O(2)와 O(3)는 필요하지 않다. 다음으로, 두 N/2 포인트 DFT가 각각 2개의 N/4 포인트 DFT 및 후속하는 버터플라이로 각각 더 세분화된다고 생각한다. 이제, 도 15에 도시된 바와 같이, 전술한 생략을 유사한 방식으로 반복할 수 있다.

후속하여, 오디오 사전 프로세서(200)는 도 7과 관련하여 보다 상세하게 논의된다.

오디오 사전 프로세서(200)는 시변 고주파 이득 정보(204)를 결정하기 위해 오디오 신호(202)를 분석하기 위한 신호 분석기(260)를 포함한다.

또한, 오디오 사전 프로세서(200)는 오디오 신호(202)의 고주파 대역(212) 및 오디오 신호(202)의 저주파 대역(214)을 추출하기 위한 대역 추출기(210)를 포함한다. 또한, 프로세싱된 고주파 대역(222)을 획득하기 위해 시변 고주파 이득 정보(204)에 따라 고주파 대역(212)의 시변 수정을 수행하기 위한 고대역 프로세서(220)가 제공된다.

오디오 사전 프로세서(200)는 사전 프로세싱된 오디오 신호(232)를 획득하기 위해 프로세싱된 고주파 대역(222) 및 저주파 대역(214)을 결합하기 위한 결합기(230)를 또한 포함한다. 또한, 출력 인터페이스(250)는 도 3의 맥락에서 논의된 부가 정보(106)에 대응하는 부가 정보(206)로서 사전 프로세싱된 오디오 신호(232) 및 시변 고주파 이득 정보(204)를 포함하는 출력 신호(252)를 생성하기 위해 제공된다.

바람직하게는, 신호 분석기(260)는 오디오 신호를 분석하여 도 8a의 블록(801)에 의해 도시된 바와 같은 제1 시간 블록(301)의 제1 특성 및 오디오 신호의 제2 시간 블록(302)의 제2 특성을 결정하도록 구성되고, 제2 특성은 도 8a의 블록(802)에 도시된 바와 같이 제1 특성보다 과도적이다.

또한, 분석기(260)는 도 8a의 블록(803)에 도시된 바와 같이 제1 특성에 대한 제1 이득 정보(311) 및 제2 특성에 대한 제2 이득 정보(312)를 결정하도록 구성된다. 그 다음에, 고대역 프로세서(220)는 도 8a의 블록(804)에 도시된 바와 같은 제1 이득 정보에 따른 제1 시간 블록(301)의 고대역 부분보다 강한 제2 이득 정보에 따라 제2 시간 블록(302)의 고대역 부분을 감쇠시키도록 구성된다.

또한, 신호 분석기(260)는 도 8b의 블록(805)에서 도시된 바와 같이, 현재 시간 블록 이전에 배치된 현재 시간 블록에 후속하여 배치된 또는 현재 시간 블록 전에 그리고 후속하여 배치된 시간 상에서 이웃하는, 또는 현재 시간 블록을 포함하는, 또는 현재 시간 블록을 제외한 하나 이상의 시간 블록에 대해 고대역의 배경 에너지에 대한 배경 측정치를 계산하도록 구성된다. 또한, 블록(808)에 도시된 바와 같이, 현재 블록의 고대역에 대한 에너지 측정치가 계산되고, 블록(809)에 개략적으로 설명된 바와 같이, 이득 팩터는 한편으로는 배경 측정치, 및 다른 한편으로는 에너지 측정치를 사용하여 계산된다. 따라서, 블록(809)의 결과는 도 8b의 810에 도시된 이득 팩터이다.

바람직하게는, 신호 분석기(260)는 gfloat 이전에 도시된 방정식에 기초하여 이득 팩터(810)를 계산하도록 구성되지만, 다른 계산 방식이 또한 수행될 수 있다.

또한, 파라미터 알파는 이득 팩터에 영향을 미치므로, 배경의 대응하는 평균 에너지 주변의 각각의 블록의 에너지의 변화가 적어도 50%, 바람직하게는 75% 감소된다. 따라서, 배경의 대응하는 평균 에너지 주의의 각각의 블록의 고역 통과 에너지의 변화는 바람직하게는 팩터 알파에 의해 원래의 25%로 감소된다.

또한, 메타 이득 제어 블록/기능(806)은 제어 팩터 p를 생성하도록 구성된다. 일 실시예에서, MGC 블록(806)은 잠재적인 과도 현상을 식별하기 위한 통계적 검출 방법을 사용한다. (예를 들어, 128개의 샘플의) 각각의 블록에 대해, 그것은 0과 1 사이의 확률과 같은 신뢰 팩터 p를 생성한다. 블록에 적용될 최종 이득은 g'=g^p이며, 여기서 g는 원래 이득이다. p가 제로일 때, g'= 1이므로 프로세싱이 적용되지 않고, p가 1일 때, g'= g이므로 전체 프로세싱 강도가 적용된다.

MGC(806)는 무 변경과 전체 효과 사이의 처리 강도를 제어하기 위해, 사전 프로세싱 동안 양자화 전에 1을 향한 이득을 압박하여 얻어내는 데 사용된다. 파라미터 beta_factor(매개 베타의 개선된 파라미터화임)는 사후 프로세싱 동안 역 양자화 후에 이득을 확장하는 데 사용되며, 비트레이트에 의해 정의된 각각의 인코더 구성에 고정된 값을 사용하는 것이 하나의 방법이다.

일 실시예에서, 파라미터 알파는 0.75로 고정된다. 따라서, 팩터 α는 평균 배경 주위의 에너지 변화의 감소이며, 이는 MPEG-H 구현에서 75%로 고정된다. 도 8b의 제어 팩터 p는 확률과 같은 신뢰 팩터 p의 역할을 한다.

도 8c에 도시된 바와 같이, 신호 분석기는 시변 고주파 이득 정보를 양자화된 값의 시퀀스로서 획득하기 위해 이득 정보 값의 미가공 시퀀스를 양자화하고 클리핑하도록 구성되며, 고대역 프로세서(220)는 양자화되지 않은 값 대신에 양자화된 값의 시퀀스에 따라 고대역의 시변 수정을 수행하도록 구성된다.

또한, 출력 인터페이스(250)는 도 8c의 블록(814)에서 도시된 바와 같이 시변 고주파 이득 정보(204)로서 부가 정보(206)에 양자화된 값의 시퀀스를 도입하도록 구성된다.

또한 오디오 사전 프로세서(200)는 후속하여 연결된 인코더 또는 디코더에 의해 도입된 에너지 변화의 손실을 기술하는 추가 이득 보상 값을 결정하도록(815) 구성되고, 또한 오디오 사전 프로세서(200)는 이 추가 이득 보상 정보를 양자화하고(816) 이 양자화된 추가 이득 보상 정보를 부가 정보로 도입하고(817), 또한 신호 분석기는 추가적인 제어 데이터(807)에 따라 오디오 신호에 대한 고대역 프로세서의 효과를 점차적으로 감소시키거나 점차적으로 향상시키기 위해 시변 고주파 이득 정보의 결정에 메타 이득 제어를 적용하도록 구성되는 것이 바람직하다.

바람직하게는, 오디오 사전 프로세서(200)의 대역 추출기(210)는 도 4 또는 도 9c에 도시된 바와 같이 보다 상세하게 구현된다. 따라서, 대역 추출기(210)는 사후 프로세서 디바이스와 관련하여 앞서 논의된 것과 정확히 동일한 방식으로, 저역 통과 필터 디바이스(111)를 이용하여 저주파 대역을 추출하고, 오디오 신호로부터 저주파 대역을 감산하여(113) 고주파 대역을 추출하도록 구성된다.

또한, 대역 추출기(210), 고대역 프로세서(220), 및 결합기(230)는 중첩 블록으로 동작하도록 구성된다. 결합기(230)는 제1 블록의 오디오 샘플 및 제2 블록의 오디오 샘플을 블록 중첩 범위에 가산함으로써 사후 프로세싱된 부분을 계산하기 위한 중첩 가산기를 또한 포함한다. 따라서, 도 7의 결합기(230)와 연관된 중첩 가산기는 도 3c의 참조 번호 130에서 도시된 사후 프로세서에 대한 중첩 가산기와 동일한 방식으로 구현될 수 있다.

일 실시예에서, 오디오 사전 프로세서에 대해, 중첩 범위(320)는 블록 길이의 40% 내지 블록 길이의 60% 사이이다. 다른 실시예들에서, 블록 길이는 0.8ms 내지 5.0ms 사이이고/이거나, 고대역 프로세서(220)에 의해 수행되는 수정은 시간 도메인에서 블록의 각각의 샘플에 적용되는 곱셈 팩터이기 때문에, 전체 사전 프로세싱의 결과는 감소된 과도 성질을 갖는 신호이다.

추가 실시예에서, 저주파 대역의 컷오프 주파수 또는 코너 주파수는 오디오 신호의 최대 주파수의 1/8 내지 1/3 사이, 바람직하게는 오디오 신호의 최대 주파수의 1/6이다.

예를 들어도 9c에 도시되고 도 4의 사후 프로세서와 관련하여 논의된 바와 같이, 대역 추출기(210)는 분석 윈도우를 사용하여 오디오 신호의 샘플링 값의 블록의 시퀀스를 생성하기 위한 분석 윈도우어(215)를 포함하고, 여기서 이들 블록은 도 3b의 도면 부호 321에 도시된 바와 같이 시간 중첩된다. 또한 스펙트럼 값의 블록의 시퀀스를 생성하기 위한 이산 푸리에 변환 프로세서(216)가 제공되고, 또한 스펙트럼 값의 각각의 블록을 성형하여 스펙트럼 값의 저역 통과 성형된 블록의 시퀀스를 획득하기 위한, 후속하여 연결된 저역 통과 성형기(217a, 217b)가 제공된다. 또한, 시간 도메인 샘플링 값의 블록의 시퀀스를 생성하기 위한 이산 푸리에 역 변환 프로세서(218)가 제공되고, 합성 윈도우를 사용하여 저역 통과 시간 도메인 샘플링 값에 대한 블록의 시퀀스를 윈도윙하기 위해 합성 윈도우어(219)가 이산 푸리에 역 변환 프로세서(218)의 출력에 연결된다.

바람직하게는, 블록(217a, 217b)으로 구성된 저역 통과 성형기는 곱셈기(217a)에 의해 도시된 바와 같이 개별적인 FFT 라인을 곱함으로써 저역 통과 성형 ps[f]을 적용한다. 저역 통과 성형 ps[f]는 도 9c와 관련하여 이전에 표시된 바와 같이 계산된다.

또한, 오디오 신호 자체, 즉 전체 대역 오디오 신호가 또한 오디오 신호 윈도우어(221)를 사용하여 윈도윙되어 오디오 신호 값의 윈도윙된 블록의 시퀀스를 획득하고, 여기서 이 오디오 신호 윈도우어(221)는 분석 윈도우어(215) 및/또는 합성 윈도우어(219)와 동기화되어, 저역 통과 시간 도메인 샘플링 값의 블록의 시퀀스가 오디오 신호 값의 윈도우 블록의 시퀀스와 동기화된다.

또한, 도 7의 분석기(260)는 무 효과와 완전 효과 사이의 사전 프로세싱의 강도를 제어하는 데 사용되는 제어 파라미터(807), 및 500, 즉 추가 부가 정보로서 beta_factor를 추가로 제공하도록 구성되고, 여기서 고대역 프로세서(220)는 추가적인 제어 파라미터(807)를 또한 고려하여 수정을 적용하도록 구성되고, 여기서 베타_팩 파라미터의 시간 해상도는 시변 고주파 이득 정보의 시간 해상도보다 낮거나, 추가 제어 파라미터는 특정 오디오 피스에 대해 고정되어 있다. 전술한 바와 같이, MGC로부터의 확률과 같은 제어 파라미터는 양자화 전에 1을 향한 이득을 압박하여 얻어내는 데 사용되며, 부가 정보로서 명시적으로 송신되지 않는다.

또한, 결합기(230)는 도 3c에서 사후 프로세서 측에 대해 도시된 바와 같이 결합 신호 값의 블록의 시퀀스를 획득하기 위해, 저역 통과 시간 도메인 샘플링 값의 블록의 시퀀스, 및 고역 통과 시간 도메인 샘플링 값의 수정된, 즉 프로세싱된 블록의 시퀀스의 대응하는 블록의 샘플 단위의 추가를 수행하도록 구성된다.

도 9a는 부가 정보로서 시변 고주파 이득 정보를 출력 신호(252)를 생성하도록 구성된 이전에 논의된 바와 같은 오디오 사전 프로세서9200)를 포함하는 오디오 신호를 인코딩하기 위한 오디오 인코딩 장치를 도시한다. 또한, 코어 인코딩된 신호(902) 및 코어 부가 정보(904)를 생성하기 위한 코어 인코더(900)가 제공된다. 또한, 오디오 인코딩 장치는 코어 인코딩된 신호(902), 코어 부가 정보(904), 및 추가적인 부가 정보(106)로서 시변 고주파 이득 정보를 포함하는 인코딩된 신호(912)를 생성하기 위한 출력 인터페이스(910)를 포함한다.

바람직하게는, 오디오 사전 프로세서(200)는 도 10a에 도시된 바와 같이 개별적으로 각각의 채널 또는 각각의 객체의 사전 프로세싱을 수행한다. 이 경우, 오디오 신호는 멀티 채널 또는 멀티 객체 신호이다. 도 5c에 도시된 추가 실시예에서, 오디오 사전 프로세서(200)는 도 10a에 도시된 바와 같이 개별적으로 각각의 SAOC 전송 채널 또는 각각의 고차 앰비소닉(High Order Ambisonics, HOA) 전송 채널의 사전 프로세싱을 수행한다. 이 경우, 오디오 신호는 공간 오디오 객체 전송 채널 또는 고차 앰비소닉 전송 채널이다.

이와 대조적으로, 코어 인코더(900)는 사전 프로세싱된 채널(232)에 조인트 멀티 채널 인코더 프로세싱 또는 조인트 멀티 객체 인코더 프로세싱 또는 인코더 갭 필링 또는 인코더 대역폭 확장 프로세싱을 적용하도록 구성된다.

따라서, 통상적으로, 코어 인코더(900)가 통상적으로 일종의 다운믹스 동작을 포함하기 때문에, 코어 인코딩된 신호(902)는 조인트 멀티 채널/멀티 객체 코어 인코더(900)에 도입된 것보다 적은 채널을 갖는다.

오디오 디코딩 장치가 도 9b에 도시되어 있다. 오디오 디코딩 장치는 코어 인코딩된 신호(902), 코어 부가 정보(904), 및 추가적인 부가 정보(106)로서 시변 고주파 이득 정보(104)를 포함하는 인코딩된 오디오 신호(912)를 수신하기 위한 오디오 입력 인터페이스(920)를 갖는다. 또한, 오디오 디코딩 장치는 디코딩된 코어 신호(102)를 획득하기 위해 코어 부가 정보(904)를 사용하여 코어 인코딩된 신호(902)를 디코딩하기 위한 코어 디코더(930)를 포함한다. 또한, 오디오 디코딩 장치는 시변 고주파 이득 정보(104)를 사용하여 디코딩된 코어 신호(102)를 사전 프로세싱하기 위한 사후 프로세서(100)를 갖는다.

바람직하게는 도 10b에 도시된 바와 같이, 코어 디코더(930)는 멀티 채널 신호(102)의 디코딩된 채널 또는 멀티 객체 신호(102)의 디코딩된 객체를 생성하기 위해 멀티 채널 디코더 프로세싱 또는 멀티 객체 디코더 프로세싱 또는 대역폭 확장 디코더 프로세싱 또는 갭 필링 디코더 프로세싱을 적용하도록 구성된다. 따라서, 다시 말해, 조인트 디코더 프로세서(930)는 통상적으로 인코딩된 오디오 신호(902)의 보다 낮은 수의 채널로부터 보다 많은 수의 개별 객체/채널을 생성하기 위해 일종의 업 믹스를 포함한다. 이러한 개별 채널/객체는 도 10b의 104에 도시된 바와 같이 각각의 채널 또는 각각의 객체에 대한 개별 시변 고주파 이득 정보를 사용하여 오디오 사후 프로세서(100)에 의해 채널 개별적인 사후 프로세싱으로 입력된다. 채널 개별 사후 프로세서(100)는 디지털/아날로그 컨버터 및 후속하여 연결된 라우드 스피커로 출력될 수 있거나, 오디오 객체 또는 오디오 채널을 프로세싱하기 위한 일종의 추가 프로세싱 또는 저장 또는 임의의 다른 적합한 절차로 출력될 수 있는, 사후 처리된 채널 출력한다.

도 10c는 도 9a 또는 도 9에 도시된 것과 유사한 상황, 즉 비트스트림을 생성하기 위해 인코더(900)에 연결된 고해상도 엔벨로프 프로세싱 사전 프로세서(100) 포함하는 전체 체인으로서, 비트 스트림은 디코더(930)에 의해 디코딩되고, 디코더 출력은 최종 출력 신호를 생성하기 위해 고해상도 엔벨로프 프로세서 사후 프로세서(100)에 의해 사후 처리되는 것을 도시한다.

도 16 및 도 17a 내지 도 17h는 5.1 채널 라우드 스피커 청취(128kbps)에 대한 청취 테스트 결과를 도시한다. 또한, 중간(48 kbps) 및 높은(128 kbps) 품질로 청취하는 스테레오 헤드폰에 대한 결과가 제공된다. 도 16a는 청취 테스트 설정을 요약한다. 결과가 도 17a 내지 도 17h에 도시되어 있다.

도 17a에서, 지각 품질은 양호한 내지 우수한 범위 내에 있다. 박수 같은 신호는 양호한 범위에서 가장 스코어가 낮은 항목 중 하나임에 유의한다.

도 17b는 모든 박수 항목이 상당한 개선을 보인 반면, 박수가 아닌 항목에 대해서는 지각 품질의 상당한 변화가 관찰되지 않았음을 도시한다. 항목 중 어느 것도 크게 저하되지 않는다.

도 17c 및 도 17d에 관해서는, 절대 지각 품질이 양호한 범위에 있다고 개략적으로 설명되어 있다. 차이에서, 전반적으로, 7점의 상당한 이득이 있다. 개별적인 품질 이득은 4점 내지 9점 사이이며 ,모두 중요하다.

도 17e에서, 테스트 세트의 모든 신호는 박수 신호이다. 지각 품질은 괜찮은 내지 양호한 범위에 있다. 일관되게, HREP조건은 NOHREP조건보다 스코어가 높다. 도 17f에서, 하나를 제외한 모든 항목에서 HREP 스코어가 NOHREP보다 상당히 우수하다는 것을 알 수 있다. 3점에서 17점 사이의 개선이 관찰된다. 전반적으로, 12점의 상당한 평균 이득이 있다. 항목 중 어느 것도 크게 저하되지 않는다.

도 17g 및 도 17h에 관해서는, 절대 스코어에서, 모든 신호가 우수한 범위에서 스코어링하는 것을 알 수 있다. 차이 스코어에서, 지각 품질이 투명해졌음에도 불구하고, 8개의 신호 중 6개의 신호에 대해, 전반적으로 3점 내지 9점의 상당한 개선이 있으며 평균 5 MUSHRA 포인트에 달함을 알 수 있다. 항목 중 어느 것도 상당히 저하되지 않는다.

결과는 바람직한 실시예의 HREP 기술이 광범위한 비트 레이트/절대 품질에서 박수와 같은 신호의 코딩에 대해 상당한 장점이 있음을 명확하게 보여준다. 더욱이, 박수가 아닌 신호에 대해서는 손상이 전혀 없음을 보여준다. HREP는 박수, 빗소리 등과 같은 많은 조밀한 과도 이벤트로 주로 구성되는 신호의 개선된 지각 코딩을 위한 도구이다. HREP 적용의 이점은 두 가지이다: HREP는 입력 신호의 짧은 시간 다이내믹을 감소시킴으로써 인코더에 부과된 비트 레이트 요구를 완화한다; 또한, HREP는 디코더의 (업)믹싱 스테이지에서 적절한 엔벨로프 복원을 보장하는데, 이는 코덱 내에서 파라메트릭 멀티 채널 코딩 기술이 적용된 경우 더욱 중요하다. 주관적 테스트는 48kbps 스테레오에서의 HREP 프로세싱에서 약 12 MUSHRA 포인트 및 128kbps 5.1 채널에서 7 MUSHRA 포인트의 개선을 보여주었다.

후속하여, 한편으로는 MPEG-H 3D 오디오 인코더/디코더 프레임워크 내에서 사후 프로세싱의 구현예 또는 다른 한편으로는 사전 프로세싱의 구현예를 도시하는 도 5b를 참조한다. 특히, 도 5b는 MPEG-H 3D 오디오 디코더 내에서 구현되는 HREP 사후 프로세서(100)를 도시한다. 특히, 본 발명의 사후 프로세서는 도 5b에 100으로 표시되어 있다.

HREP 디코더가 550으로 도시된 3D 오디오 코어 디코더의 출력에 연결되는 것을 볼 수 있다. 또한, 상부의 요소(550)와 블록(100) 사이에서, 블록(560)의 출력에서 더 많은 출력 채널을 획득하기 위해 블록(560)의 입력에서 베이스 채널로부터 MPEG 서라운드가 구현된 업믹스를 통상적으로 수행하는 MPEG 서라운드 요소가 도시되어 있다.

또한, 도 5b는 오디오 코어 부분 이외의 다른 요소를 도시한다. 이것들은, 오디오 렌더링 부분에서, 한편으로는 채널에 대한 그리고 다른 한편으로는 객체에 대한 drc_1(570)이다. 또한, 이전 컨버젼 블록(580), 객체 렌더러(590), 객체 메타 데이터 디코더(592), SAOC 3D 디코더(594), 및 고차 앰비소닉(HOA) 디코더(596)가 제공된다.

이들 모든 요소는 리샘플러(582)에 공급하고, 리샘플러는 그 출력 데이터를 믹서(584)에 공급한다. 믹서는 그 출력 채널을 라우드 스피커 피드(586) 또는 헤드폰 피드(588)로 포워딩하는데, 이들은 체인의 끝에 있는 요소를 나타내며, 믹서(584) 출력에 후속하는 추가적인 사후 프로세싱을 나타낸다.

도 5c는 MPEG-H 3D 오디오 디코더의 프레임워크에 오디오 사후 프로세서(HREP)의 다른 바람직한 임베딩을 도시한다. 도 5b와는 대조적으로, HREP 프로세싱은 또한 SAOC 전송 채널 및/또는 HOA 전송 채널에 적용된다. 도 5c의 다른 기능은 도 5b의 기능과 유사하다.

대역 추출기와 관련된 첨부된 청구항은 사후 프로세서 또는 사전 프로세서 중 하나에서 사후 프로세서에 대해서만 청구항이 제공되는 경우에도 오디오 사후 프로세서 및 오디오 사전 프로세서에서의 대역 추출기에 적용되는 것임에 유의한다. 고대역 프로세서 및 결합기에도 동일하게 적용된다.

부록 및 부록 A에 예시된 다른 실시예가 특별히 참조된다.

본 발명이 몇몇 실시예에의 면에서 설명되었지만, 본 발명의 범위 내에 속하는 변경, 치환 및 등가물이 존재한다. 또한, 본 발명의 방법 및 조성물을 구현하는 많은 다른 방법이 있음에 유의한다. 그러므로, 다음의 첨부된 청구범위는 본 발명의 진정한 사상 및 범위 내에 속하는 그러한 모든 변경, 치환 및 등가물을 포함하는 것으로 해석되어야 한다.

몇몇 양태가 장치의 맥락에서 설명되었지만, 이들 양태가 또한 대응하는 방법의 설명을 나타내는 것이 명백하며, 여기서 블록 및 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 양태는 또한 대응하는 블록 또는 항목 또는 대응하는 장치의 특징의 설명을 나타낸다. 방법 단계의 일부 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 사용하여) 실행될 수 있다. 일부 실시예에서, 가장 중요한 방법 단계 중 하나 이상이 그러한 장치에 의해 실행될 수 있다.

본 발명의 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있거나 인터넷과 같은 유선 송신 매체 또는 무선 송신 매체와 같은 송신 매체를 통해 송신될 수 있다.

특정 구현 요건에 따라, 본 발명의 실시예는 하드웨어로 또는 소프트웨어로 구현될 수 있다. 현은 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전기적으로 판독 가능한 제어 신호가 저장된, 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루 레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.

본 발명에 따른 일부 실시예는 본원에 설명된 방법 중 하나가 수행되도록 프로그램 가능 컴퓨터 시스템과 협력할 수 있는 전자 판독 가능 제어 신호를 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동될 때 방법들 중 하나를 수행하도록 동작하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 머신 판독 가능 캐리어에 저장될 수 있다.

다른 실시예는 기계 판독 가능 캐리어 상에 저장된, 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

다시 말해, 본 발명의 방법의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 구동될 때, 본원에 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서, 본 발명의 방법의 다른 실시예는 그 위에 기록된, 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록 매체는 통상적으로 유형 및/또는 비일시적이다.

따라서, 본 발명의 방법의 다른 실시예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 데이터 통신 접속을 통해, 예를 들어, 인터넷을 통해 전송되도록 구성될 수 있다.

다른 실시예는 본원에 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 프로세싱 수단, 예를 들어, 컴퓨터 또는 프로그램 가능 논리 디바이스를 포함한다.

다른 실시예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 다른 실시예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.

일부 실시예에서, 프로그램 가능 논리 디바이스(예를 들어, 필드 프로그램 가능 게이트 어레이)는 본원에 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예에서, 필드 프로그램 가능 게이트 어레이는 본원에 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.

본원에 설명된 장치는 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.

본원에 설명된 방법은 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.

위에서 설명된 실시예는 본 발명의 원리를 예시하기 위한 것일 뿐이다. 본원에 설명된 구성 및 세부사항의 수정 및 변형은 당업자에게 명백할 것임을 이해한다. 따라서, 곧 있을 청구범위의 범위에 의해서만 제한되고 본원의 실시예에 대한 기술 및 설명에 의해 제공된 특정 세부사항에 의해서만 한정되는 것은 아니다.

부록

MPEG-H 3DAudio에서의 HREP의 다른 실시예에 대한 설명

고해상도 엔벨로프 프로세싱(HREP)은 주로 박수, 비가 내리는 소리 등과 같이 많은 조밀한 과도 이벤트로 주로 구성되는 개선된 신호 코딩을 위한 도구이다. 이러한 신호는 전통적으로 특히 낮은 비트레이트에서 MPEG 오디오 코덱을 코딩하기가 매우 어려웠다. 주관적 테스트는 48kbps 스테레오에서 HREP 프로세싱을 통해 약 12 MUSHRA 포인트의 상당한 개선을 보여줬다.

실행 요약

HREP 도구는 라이브 녹음의 중요한 부분인 박수 신호와 같이 조밀한 과도 이벤트를 포함하는 신호에 대해 개선된 코딩 성능을 제공한다. 비슷하게, 빗방울 소리 또는 불꽃 놀이와 같은 다른 소리는 그러한 특성을 나타낼 수 있다. 불행히도, 이러한 클래스의 사운드는 특히 낮은 비트레이트 및/또는 파라메트릭 코딩 도구로 코딩될 때 기존 오디오 코덱에 어려움을 겪는다.

도 10c는 HREP가 구비된 코덱의 신호 흐름을 도시한다. 인코더 측에서는, 도구가 고주파 신호를 일시적으로 평탄화하면서 작은 양의 부가 정보(스테레오 신호의 경우 1 ~ 4kbps)를 생성하는 사전 프로세서로 작동한다. 디코더 측에서, 이 도구는 고주파 신호를 일시적으로 성형하는 사후 프로세서로 작동하여 부가 정보를 사용한다. HREP 적용의 이점은 두 가지이다: HREP는 입력 신호의 짧은 시간 다이내믹을 감소시킴으로써 인코더에 부과된 비트레이트 요구를 완화한다; 또한, HREP는 디코더의 (업)믹싱 스테이지에서 적절한 엔벨로프 복원을 보장하는데, 이는 코덱 내에서 파라메트릭 멀티 채널 코딩 기술이 적용된 경우 더욱 중요하다.

도 10c : HREP가 구비된 코덱의 신호 흐름의 개요.

HREP 도구는 모든 입력 채널 구성(모노, 스테레오, 3D를 포함한 멀티 채널) 및 오디오 객체에 대해서도 작동한다.

핵심 실험에서는, 박수 신호를 코딩하는 HREP의 장점을 보여주는 MUSHRA 청취 테스트 결과를 제시한다. 다음과 같은 테스트 케이스에서 지각 품질의 상당한 개선이 입증되었다.

128kbit/s의 5.1 채널에 있어서 7 MUSHRA 포인트 평균 개선

12스테레오 48kbit/s에 있어서 12 MUSHRA 포인트 평균 개선

스테레오 128kbit/s에 있어서 5 MUSHRA 포인트 평균 개선

예를 들어, 잘 알려진 MPEG 서라운드 테스트 세트를 사용하는 5.1ch 신호에 대한 지각 품질을 평가함으로써, 박수가 아닌 신호의 품질이 HREP에 의해 손상되지 않는다는 것을 증명한다.

HREP에 대한 상세한 설명

도 10c는 HREP가 구비된 코덱의 신호 흐름을 도시한다. 인코더 측에서, 그 도구는 입력 신호를 분석하고, 그에 따라 과도 이벤트의 고주파 부분을 감쇠시키고 일시적으로 평탄화하여, 소량의 부가 정보(스테레오 신호의 경우 1-4kbps)를 생성함으로써 실제 지각 오디오 코덱보다 높은 시간 해상도를 갖는 사전 프로세서로 작동한다. 박수 분류기는 HREP를 활성화할지 여부에 대한 인코더 결정을 가이드할 수 있다. 디코더 측에서, 그 도구는 인코딩 중에 생성된 부가 정보를 사용하여 과도 이벤트의 고주파 부분을 부스팅하여 시간적으로 성형하여 오디오 코덱 이후의 사후 프로세서로 작동한다.

도 9c : 인코더에서의 상세한 HREP 신호 흐름.

도 9c는 인코더 내의 HREP 프로세서 내부의 신호 흐름을 디스플레이한다. 사전 프로세싱은 입력 신호를 저역 통과(Low Pass, LP) 부분과 고역 통과(High Pass, HP) 부분으로 분할하여 적용된다. 이는 FFT를 사용하여 LP 부분을 계산함으로써 수행된다. LP 부분이 주어지면, HP 부분은 시간 도메인에서 감산에 의해 획득된다. 시간 의존적인 스칼라 이득이 HP 부분에 적용되며, 이는 LP 부분에 다시 추가되어 사전 프로세싱된 출력을 생성한다.

부가 정보는 저역 통과(LP) 성형 정보 및 HREP 분석 블록(미도시) 내에서 추정된 스칼라 이득을 포함한다. HREP 분석 블록은 HREP가 완전히 적용되지 않는 신호 내용( 박수가 아닌 신호)에 대한 HREP 프로세싱의 효과를 정상적으로 줄여주는 추가 메커니즘을 포함할 수 있다. 따라서, 박수 소리 검출 정확도에 대한 요구 사항이 상당히 완화된다.

도 5a : 디코더에서의 상세한 HREP 신호 흐름.

디코더 측 프로세싱은 도 5a에서 개략적으로 설명된다. HP 성형 정보 및 스칼라 이득에 대한 부가 정보는 비트 스트림(미도시)으로부터 파싱되고, 인코더 사전 프로세싱의 역인 디코더 사후 프로세싱과 유사한 신호에 적용된다. 사후 프로세싱은 신호를 저역 통과(LP) 부분과 고역 통과(HP) 부분으로 다시 분할하여 적용된다. 이는 FFT를 사용하여 LP 부분을 계산함으로써 수행된다. LP 부분이 주어지면, HP 부분은 시간 도메인에서 감산에 의해 획득된다. 송신된 부가 정보에 의존하는 스칼라 이득이 HP 부분에 적용되며, 이는 LP 부분에 다시 추가되어 사전 프로세싱된 출력을 생성한다.

모든 HREP 부가 정보는 확장 페이로드에서 시그널링되고, MPEG-H 3DAudio 비트 스트림 내에서 호환적으로 거꾸로 임베딩된다.

사양 텍스트

디코딩 프로세스에 대한 필요한 WD 변경, 제안된 비트 스트림 구문, 의미, 및 상세한 설명은 문서의 부록 A에서 diff-text로 찾을 수 있다.

복잡도

HREP 프로세싱의 계산 복잡도는 신호의 LP/HP 분할을 구현하는 DFT/IDFT 쌍의 계산에 의해 좌우된다. 1024 시간 도메인 값을 포함하는 각각의 오디오 프레임에 대해, 16쌍의 128 포인트 실수 값 DFT/IDFT가 계산되어야 한다.

낮은 복잡도(low complexity, LC) 프로파일에 포함시키기 위해, 다음과 같은 제한 사항을 제안한다.

활성 HREP 채널/객체의 제한

사소하지 않은 최대 송신된 이득 팩터 g(k)에 대한 제한(0dB의 사소한 이득 팩터는 연관된 DFT/iDFT 쌍의 필요성을 완화시킨다)

효율적인 분할 기수 2 스파스 토폴로지에서 DFT/iDFT의 계산.

장점에 대한 증거

청취 테스트

장점에 대한 증거로서, 5.1 채널 라우드 스피커 청취(128kbps)에 대한 청취 테스트 결과가 제시될 것이다. 또한, 중간(48kbps) 및 높은(128kbps) 품질의 스테레오 헤드폰 청취 결과가 제공된다. 도 16a는 청취 테스트 설정을 요약한다.

도 16 - 청취 테스트 개관.

결과

128kbps 5.1ch

도 4는 128kbps 5.1ch 테스트의 절대 MUSHRA 스코어를 도시한다. 지각 품질은 양호한 내지 우수한 범위에 있다. 박수 같은 신호는 양호한 범위에서 가장 스코어가 낮은 항목 중 하나임에 유의한다.

도 17a : 128kbps 5.1ch 테스트에 대한 절대 MUSHRA 스코어.

도 17b는 128kbps 5.1ch 테스트의 차이 MUSHRA 스코어를 도시한다. 모든 박수 항목이 상당한 개선을 보인 반면, 박수가 아닌 항목에 대해서는 지각 품질의 상당한 변화가 관찰되지 않았음을 보여준다. 항목 중 어느 것도 크게 저하되지 않는다.

도 17b : 128kbps 5.1ch 테스트에 대한 차이 MUSHRA 스코어.

도 17c는 테스트 세트에 포함된 모든 박수 항목에 대한 절대 MUSHRA 스코어를 도시하고, 도 17d는 테스트 세트에 포함된 모든 박수 항목에 대한 차이 MUSHRA 스코어를 도시한다. 절대 지각 품질은 양호한 범위에 있다. 차이에서, 전반적으로, 7점의 상당한 이득이 있다. 개별적인 품질 이득은 4점 내지 9점 사이이며 ,모두 중요하다.

도 17c : 128kbps 5.1ch 테스트 박수 신호에 대한 절대 MUSHRA 스코어.

도 17d : 128kbps 5.1ch 테스트 박수 신호에 대한 차이 MUSHRA 스코어.

48kbps 스테레오

도 17e는 48kbps 5.1ch 테스트의 절대 MUSHRA 스코어를 도시한다. 여기서, 세트의 모든 신호는 박수 신호이다. 지각 품질은 괜찮은 내지 양호한 범위에 있다. 일관되게, hrep조건은 nohrep조건보다 스코어가 높다. 도 17f는 차이 MUSHRA 스코어를 도시한다. 하나를 제외한 모든 항목에 대해, hrep스코어는 nohrep보다 상당히 우수하다. 3점에서 17점 사이의 개선이 관찰된다. 전반적으로, 12점의 상당한 평균 이득이 있다. 항목 중 어느 것도 크게 저하되지 않는다.

도 17e : 48kbps 스테레오 테스트에 대한 절대 MUSHRA 스코어.

도 17f : 48kbps 스테레오 테스트에 대한 차이 MUSHRA 스코어.

128kbps 스테레오

도 17g 및 도 17h는 각각 128kbps 스테레오 테스트의 절대 및 차이 MUSHRA 스코어를 도시한다. 절대 스코어에서, 모든 신호는 우수한 범위에서 스코어를 얻는다. 차이 스코어에서, 지각 품질이 투명해졌음에도 불구하고, 8개의 신호 중 6개의 신호에 대해, 전반적으로 3점 내지 9점의 상당한 개선이 있으며 평균 5 MUSHRA 포인트에 달함을 알 수 있다. 항목 중 어느 것도 크게 저하되지 않는다.

도 17g : 128kbps 스테레오 테스트에 대한 절대 MUSHRA 스코어.

도 17h : 128kbps 스테레오 테스트에 대한 차이 MUSHRA 스코어.

결과는 CE 제안의 HREP 기술이 광범위한 비트레이트/절대 품질에서 박수와 같은 신호의 코딩에 대해 상당한 장점이 있음을 명확하게 보여준다. 더욱이, 박수가 아닌 신호에 대해서는 손상이 전혀 없음을 보여준다.

결론

HPREP는 박수, 비가 내리는 소리 등과 같은 많은 조밀한 과도 이벤트로 주로 구성되는 신호의 향상된 지각 코딩을 위한 도구이다. HREP 적용의 이점은 두 가지이다: HREP는 입력 신호의 짧은 시간 다이내믹을 감소시킴으로써 인코더에 부과된 비트레이트 요구를 완화한다; 또한, HREP는 디코더의 (업)믹싱 스테이지에서 적절한 엔벨로프 복원을 보장하는데, 이는 코덱 내에서 파라메트릭 멀티 채널 코딩 기술이 적용된 경우 더욱 중요하다. 주관적 테스트는 48 kbps 스테레오에서의 HREP 프로세싱에서 약 12 MUSHRA 포인트 및 128 kbps 5.1 ch에서 7 MUSHRA 포인트의 개선을 보여주었다.

부록 A

MPEG-H 3DAudio 내의 HREP의 바람직한 실시예

후속하여, ISO/IEC 23008-3:2015 및 ISO/IEC 23008-3:2015/EAM3 문서와 관련하여 HREP에 필요한 변경에 대한 데이터 수정이 제공된다.

표 1 MPEG-H 3DA 기능 블록 및 내부 프로세싱 도메인에 다음 줄을 추가한다. fs , core는 코어 디코더 출력 샘플링 레이트를 나타내고, fs,out은 디코더 출력 샘플링 레이트를 나타낸다., 섹션 10.2:

표 1 - MPEG-H 3DA 기능 블록 및 내부 프로세싱 도메인. fs , core는 코어 디코더 출력 샘플링 레이트를 나타내고, fs,out은 디코더 출력 샘플링 레이트를 나타낸다.

섹션 5.2.2.3의 표 13, mpegh3daExtElementConfig ()의 구문에 다음 사례를 추가한다:

표 13 - mpegh3daExtElementConfig()의 구문

섹션 5.3.4의 표 50 usacExtElementType의 값에 다음 값 정의를 추가한다:

표 50 - usacExtElementType의 값

섹션 5.3.4의 표 51 확장 페이로드 디코딩을 위한 데이터 블록의 해석에 다음 해석을 추가한다:

표 51 - 확장 페이로드 디코딩을 위한 데이터 블록의 해석

5.2.2 끝에 새로운 하위 절을 추가하고 다음 표를 추가한다:

5.2. 2.X 확장 요소 구성

표 2 - HREPConfig()의 구문

5.2.2.3의 끝에 다음 표를 추가한다:

표 3 - HREPFrame()의 구문

도움 함수 HREP_decode_ac_data (gain_count, signal_count)는 다음의 USAC 하위 레벨 산술 코딩 함수를 사용하여 배열 gainIdx에 대한 이득 값 판독을 설명한다:

arith_decode(*ari_state, cum_freq, cfl),

arith_start_decoding(*ari_state),

arith_done_decoding(*ari_state).

다음의 2개의 추가적인 도움 함수가 도입된다,

ari_decode_bit_with_prob(*ari_state, count_0, count_total),

이는

및

이며 하나의 비트를 디코딩한다, 그리고

ari_decode_bit(*ari_state),

이는 이는 p₀=0.5 및 p₁=0.5이며 모델링하지 않고 하나의 비트를 디코딩한다.

하위 절 5.5의 끝에 5.5.X 고해상도 엔벨로프 프로세싱( HREP ) 도구라는 새로운 하위 절을 추가한다:

5.5.X 고해상도 엔벨로프 프로세싱( HREP ) 도구

5.5.X .1 도구 설명

도 5b 또는 도 5c는 HREP가 구비된 코덱의 신호 흐름을 도시한다. 인코더 측에서는, 도구가 고주파 신호를 일시적으로 평탄화하면서 작은 양의 부가 정보(스테레오 신호의 경우 1-4kbps)를 생성하는 사전 프로세서로 작동한다. 디코더 측에서는, 도구가 고주파 신호를 일시적으로 성형하는 사후 프로세서로 작동하여 부가 정보를 사용한다. HREP 적용의 이점은 두 가지이다: HREP는 입력 신호의 짧은 시간 다이내믹을 감소시킴으로써 인코더에 부과된 비트 레이트 요구를 완화한다; 또한, HREP는 디코더의 (업)믹싱 스테이지에서 적절한 엔벨로프 복원을 보장하는데, 이는 코덱 내에서 파라메트릭 멀티 채널 코딩 기술이 적용된 경우 더욱 중요하다. HREP 도구는 모든 입력 채널 구성(모노, 스테레오, 3D를 포함한 멀티 채널) 및 오디오 객체에 대해서도 작동한다.

5.5.X .2 데이터 및 도움말 요소

current_signal_group : current_signal_group 파라미터는 Signals3d() 구문 요소 및 mpegh3daDecoderConfig() 구문 요소에 기초한다.

signal_type : 채널 신호와 객체, HOA 및 SAOC 신호를 구별하는 데 사용되는 현재 신호 그룹의 유형.

signal_coun : 현재 신호 그룹의 신호 수.

channel_layout : 현재 신호 그룹에 채널 신호가 있는 경우, LFE 스피커를 식별하는 데 사용되는 각각의 채널에 대한 스피커 속성을 포함한다.

extendedGainRange : nBitsGain에 의해 계산된 이득 인덱스가 3 비트(8 값) 또는 4 비트(16 값)를 사용하는지 여부를 나타낸다.

extendedBetaFactorPrecision : nBitsBeta에 의해 계산된 베타 요소 인덱스가 3 비트 또는 4 비트를 사용하는지 여부를 나타낸다.

isHREPActive [ sig ] : 도구가 현재 신호 그룹의 인덱스 sig에 있는 신호에 대해 활성화되어 있는지 여부를 나타낸다.

lastFFTLine [ sig ] : FFT를 사용하여 구현된 저역 통과 절차에서 사용된 마지막 제로가 아닌 라인의 위치.

transitionWidthLines [ sig ] : FFT를 사용하여 구현된 저역 통과 절차에서 사용되는 전이 영역의 선폭이다.

defaultBetaFactorIdx [ sig ] : 이득 보상 절차에서 이득을 수정하는 데 사용되는 디폴트 베타 팩터 인덱스.

outputFrameLength USAC : 표준에 정의된 원래 샘플링 빈도를 사용하는 프레임 당 샘플의 동등한 수.

gain_count : 한 프레임의 신호 당 이득 수.

useRawCoding : 이득 인덱스가 각각 nBitsGain을 사용하여 미가공 코딩되었는지, 또는 산술 코딩을 사용하여 코딩되었는지를 나타낸다.

gainIdx [ pos ][ sig ] : 현재 신호 그룹 내의 위치 sig 상의 신호의 위치 pos상의 블록에 대응하는 이득 인덱스. extendedGainRange = 0이면 가능한 값은 {0, ..., 7} 범위에 있고, extendedGainRange = 1이면 가능한 값은 {0, ..., 15} 범위에 있다.

GAIN_INDEX_0dB : 0dB에 대응하는 이득 인덱스 오프셋, extendedGainRange = 0이면 4의 값이 사용되고 extendedGainRange = 1이면 8의 값이 사용된다. 이득 인덱스는 원래 부호의 데이터 범위에 GAIN_INDEX_0dB를 추가하여 부호없는 값으로 송신된다.

all_zero : 현재 신호의 한 프레임에서 모든 이득 인덱스가 GAIN_INDEX_0dB 값을 갖는지 여부를 나타낸다.

useDefaultBetaFactorIdx : 현재 신호의 베타 팩터 인덱스가 defaultBetaFactor[sig]에 의해 지정된 디폴트 값을 가지는지 여부를 나타낸다.

betaFactorIdx [ sig ] : 이득 보상 절차에서 이득을 수정하는 데 사용되는 베타 팩터 인덱스.

5.5.X .2.1 낮은 복잡도 프로파일에 대한 제한 사항

모든 신호 그룹에 대해 카운트된 총 신호 수가 6 이하이면 제한이 없다.

그렇지 않고, HREP가 활성 상태인 신호의 총 수가 HREPConfig()의 isHREPActive[sig] 구문 요소로 표시되고, 모든 신호 그룹에 대해 카운트된 총 신호 수가 4 이하이면, 추가 제한이 없다.

그렇지 않고, HREP가 활성 상태인 신호의 총 수가 HREPConfig()의 isHREPActive[sig] 구문 요소로 표시되고, 모든 신호 그룹에 대해 카운트되면 8 이하로 제한될 것이다.

또한, 각각의 프레임에 대해, HREP가 활성 상태 신호와 모든 신호 그룹에 대해 카운트된 GAIN_INDEX_0dB와 상이한 총 이득 인덱스 수는 대부분 4 x gain_count를 초과해야 한다. 이득 인덱스가 GAIN_INDEX_0dB와 동일한 블록의 경우, FFT, 보간 정정, 및 IFFT는 스킵되어야 한다. 이 경우, 입력 블록은 사인 윈도우의 제곱과 곱해져서 중첩-가산 절차에서 직접 사용되어야 한다.

5.5.X .3 디코딩 프로세스

5.5.X .3.1 일반

구문 요소 mpegh3daExtElementConfig()에서, IDEA_EXT_ELE_HREP 요소의 경우 usacExtElementPayloadFrag 필드는 0이어야 한다. HREP 도구는 Signals3d() 구문 요소의 SignalGroupType[grp]에 정의된대로 SignalGroupTypeChannels 및 SignalGroupTypeObject 유형의 신호 그룹에만 적용할 수 있다. 따라서, ID_EXT_ELE_HREP 요소는 SignalGroupTypeChannels 및 SignalGroupTypeObject 유형의 신호 그룹에 대해서만 존재해야 한다.

블록 크기 및 대응하는 사용된 FFT 크기는 N= 28이다.

전체 프로세싱은 현재 신호 그룹의 각각의 신호에 독립적으로 행해진다. 따라서, 표기법을 단순화하기 위해, 디코딩 프로세스는 위치 sig 상의 하나의 신호에 대해서만 기술된다.

도 5a : 디코딩 측에서 고해상도 엔벨로프 프로세싱( HREP ) 도구의 블록 다이어그램

5.5.X .3.2 양자화된 베타 팩터의 디코딩

extendedBetaFactorPrecision의 값에 따라 베타 요소 인덱스 betaFactorIdx[sig]를 베타 요소 베타_펙터로 변환하기 위해 다음 조회 표를 사용해야 한다.

extendedBetaFactorPrecision = 0이면, 컨버젼은 다음과 같이 계산된다.

beta_factor = tab_beta_factor_dequant_coarse[betaFactorIndex[sig]]

extendedBetaFactorPrecision = 1이면, 컨버젼은 다음과 같이 계산된다.

beta_factor = tab_beta_factor_dequant_precise[betaFactorIndex[sig]]

5.5.X .3.3 양자화된 이득의 디코딩

한 프레임은 각각 N개의 샘플로 구성된 gain_count블록으로 프로세싱되며, 이는 절반이 중첩한다. extendedGainRange의 값에 따라 각각의 블록의 스칼라 이득이 도출된다.

5.5.X .3.4 LP 부분 및 HP 부분의 계산

입력 신호 s는 절반이 중첩하고, 입력 블록

을 생성하는, 크기 N의 블록으로 분할되고, 여기서 k는 블록 인덱스이고, i는 블록 k에서의 샘플 위치이다. 윈도우 w[i]는 다음에서 정의된 바와 같이, ib[k], 특히 사인 윈도우에 적용되고,

그리고 그 후에 또한 FFT에 적용되며, 복소 계수 c[k][f]는 다음과 같이 획득된다.

인코더 측에서, LP 부분을 획득하기 위해, 프로세싱 형상 ps[f]와의 c[k]의 요소 측면의 곱셈이 적용되며, 이는 다음과 같이 이루어진다:

lp_size= lastFFTLine[sig] + 1 - transitionWidthLines[sig] 파라미터는 저역 통과 영역의 FFT 라인의 폭을 나타내고, tr_size= transitionWidthLines[sig] 파라미터는 전이 영역의 FFT 라인의 폭을 나타낸다.

디코더 측에서, 전이 영역에서 완벽한 재구성을 얻기 위해, 전이 영역의 적응형 재구성 형상 rs[f]이 다음과 같이 프로세싱 형상 ps[f] 및 g[k]에 따라 인코더 측에서 사용된 프로세싱 형상 ps[f] 대신에 사용되어야 한다.

LP 블록 lpb[k]는 다시 다음과 같이 IFFT 및 윈도윙을 적용함으로써 획득된다.

그 다음에, HP 블록 hpb[k]는 다음과 같이 시간 도메인에서 간단한 감산에 의해 획득된다.

5.5.X .3.5 보간 정정의 계산

인코더 측에서 위치 k-1 및 k 상의 블록에 인가된 이득 g[k-1] 및 g[k]는 윈도윙 및 중첩-가산 동작으로 인해 암시적으로 보간된다. 전이 영역 위의 HP 부분에서 완벽한 재구성을 달성하기 위해, 보간 정정 계수가 다음과 같이 필요하다.

5.5.X .3.6 보상된 이득의 계산

코어 인코더와 디코더는 다음과 같이 이전에 계산된 beta_factor를 사용하여 이득 g[k]를 조정함으로써 보상되는 과도 이벤트의 추가적인 감쇠를 도입한다.

5.5.X .3.7 출력 신호의 계산

gc[k] 및 core[i]에 기초하여, 출력 블록 ob[k]의 값은 다음과 같이 계산된다.

마지막으로, 출력 신호는 다음과 같이 중첩-가산을 사용하여 출력 블록을 사용하여 계산된다.

5.5.X .4 인코더 설명(정보)

도 9c : 인코딩 측에서 고해상도 엔벨로프 프로세싱( HREP ) 도구의 블록 다이어그램

5.5.X .4.1 이득 및 베타 팩터 계산

파라미터 α∈[0,1]을 정의하며, 이는 다음과 같이 조정의 양을 제어한다.

α가 0 때, 이득은 값 g_float[k]=1을 가지므로, 조정이 이루어지지 않고, α가 1 일 때, 이득은 값

를 가지므로, 조정된 에너지가 배경의 평균 에너지와 일치하게 된다. 위의 관계식은 다음과 같이 다시 쓸 수 있다.

이는 배경

의 대응하는 평균 에너지 주위의 조정된 에너지

의 변화는 팩터 (1-α)로 감소됨을 표시한다. 제안된 시스템에서, α = 0.75가 사용되었기 때문에, 배경의 대응하는 평균 에너지 주위의 각각의 블록의 HP 에너지의 변화가 원래의 25%로 감소된다.

이는 코어 인코더 및 디코더를 통과한 후, 배경

의 대응하는 평균 에너지 주위의 디코딩된 에너지

의 변화가 추가적인 팩터 (1-β)로 더 감소됨을 표시한다.

파라미터

5.5.X .4.2 LP 부분 및 HP 부분의 계산

프로세싱은 다음과 같이 다시 IFFT 및 윈도윙을 적용함으로써 획득되는 LP 블록

의 계산에서 적응형 재구성 성형 rs[f] 대신에 프로세싱 성형 ps[f]가 사용된다는 것을 제외하고, 앞서 정의된 디코더 측에서의 대응하는 것과 동일하다.

5.5.X .4.3 출력 신호의 계산

g[k]에 기초하여, 출력 블록 ob[k]의 값은 다음과 같이 계산된다.

디코더 측과 동일하게, 출력 신호는 다음과 같이 중첩-가산을 사용하여 출력 블록을 사용하여 계산된다.

5.5.X .4.4 산술 코딩을 사용한 이득의 인코딩

도움 함수 HREP_encode_ac_data(gain_count, signal_count)는 다음의 USAC 하위 레벨 산술 코딩 함수를 사용하여 배열 gainIdx로부터의 이득 값의 기입을 설명한다:

arith_encode(*ari_state, symbol, cum_freq),

arith_encoder_open(*ari_state),

arith_encoder_flush(*ari_state).

다음의 2개의 추가적인 도움 함수가 도입된다,

ari_encode_bit_with_prob(*ari_state, bit_value, count_0, count_total),

이는 p_0=count_0/total_count 이고 p_1=1-p_0인 1 비트 bit_value을 인코딩하고,

ari_encode_bit(*ari_state, bit_value),

이는 모델링을 하지 않고, p_0=0.5 이고 p_1=0.5인 1 비트 bit_value을 인코딩한다.

Claims

부가 정보(106)로서 시변 고주파 이득 정보(104)를 갖는 오디오 신호(102)를 사후 프로세싱하기 위한 오디오 사후 프로세서(100)에 있어서,
상기 오디오 신호(102)의 고주파 대역(112) 및 상기 오디오 신호(102)의 저주파 대역(114)을 추출하기 위한 대역 추출기(110);
프로세싱된 고주파 대역(122)을 획득하기 위해 상기 시변 고주파 이득 정보(104)에 따라 상기 고주파 대역(112)의 시변 증폭을 수행하기 위한 고대역 프로세서(120); 및
상기 프로세싱된 고주파 대역(122)과 상기 저주파 대역(114)을 결합하기 위한 결합기(130)를 포함하는 것을 특징으로 하는 오디오 사후 프로세서.
제1항에 있어서,
상기 대역 추출기(110)는 저역 통과 필터 디바이스(111)를 이용하여 상기 저주파 대역을 추출하고, 상기 저주파 대역을 상기 오디오 신호로부터 감산함으로써(113) 상기 고주파 대역을 추출하도록 구성되는 것을 특징으로 하는 오디오 사후 프로세서.
제1항 또는 제2항에 있어서,
상기 시변 고주파 이득 정보(104)는 샘플링 값의 제1 블록(301)이 제1 이득 정보(311)와 연관되고 상기 오디오 신호의 샘플링 값의 제2 후속 블록(302)이 상이한 제2 이득 정보(312)를 가지도록 상기 오디오 신호(102)의 샘플링 값의 블록의 시퀀스(300-303)에 대해 제공되고, 상기 대역 추출기(110)는 상기 샘플링 값의 제1 블록(301)으로부터 제1 저주파 대역 및 제1 고주파 대역을 추출하고, 상기 샘플링 값의 제2 블록(302)으로부터 제2 저주파 대역 및 제2 고주파 대역을 추출하도록 구성되고,
상기 고대역 프로세서(120)는 상기 제1 이득 정보(311)를 사용하여 상기 제1 고주파 대역을 수정하여 제1 프로세싱된 고주파 대역을 획득하고, 상기 제2 이득 정보(312)를 사용하여 상기 제2 고주파 대역을 수정하여 제2 프로세싱된 고주파 대역을 획득하도록 구성되고,
상기 결합기(130)는 상기 제1 저주파 대역과 상기 제1 프로세싱된 고주파 대역을 결합하여 제1 결합된 블록을 획득하고, 상기 제2 저주파 대역과 상기 제2 프로세싱된 고주파 대역을 결합하여 제2 결합된 블록을 획득하도록 구성되는 것을 특징으로 하는 오디오 사후 프로세서.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 대역 추출기(110) 및 상기 고대역 프로세서(120) 및 상기 결합기(130)는 중첩 블록에서 동작하도록 구성되고,
상기 오디오 사후 프로세서(100)는 블록 중첩 범위에서 제1 블록(301)의 오디오 샘플 및 제2 블록(302)의 오디오 샘플을 가산함으로써 사후 프로세싱된 부분을 산출하기 위한 중첩-가산기(140)를 더 포함하는 것을 특징으로 하는 오디오 사후 프로세서.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 대역 추출기(110)는
분석 윈도우를 사용하여 상기 오디오 신호의 샘플링 값의 블록의 시퀀스를 생성하기 위한 분석 윈도우어(115)로서, 상기 블록은 시간 중첩하는, 윈도우어(115);
스펙트럼 값의 블록의 시퀀스를 생성하기 위한 이산 푸리에 변환 프로세서(116);
스펙트럼 값의 저역 통과 성형된 블록의 시퀀스를 획득하기 위해 스펙트럼 값의 각각의 블록을 성형하기 위한 저역 통과 성형기(117);
저역 통과 시간 도메인 샘플링 값의 블록의 시퀀스를 생성하기 위한 이산 푸리에 역 변환 프로세서(118); 및
합성 윈도우를 사용하여 상기 저역 통과 시간 도메인 샘플링 값의 블록의 시퀀스를 윈도윙하기 위한 합성 윈도우어(119)를 포함하는 것을 특징으로 하는 오디오 사후 프로세서.
제5항에 있어서,
상기 대역 추출기(110)는
상기 분석 윈도우 및 상기 합성 윈도우를 사용하여 상기 오디오 신호(102)를 윈도윙하여 오디오 신호 값의 윈도윙된 블록의 시퀀스를 획득하기 위한 오디오 신호 윈도우어(121)로서, 상기 오디오 신호 윈도우어(121)는 상기 저역 통과 시간 도메인 샘플링 값의 블록의 시퀀스가 상기 오디오 신호 값의 윈도윙된 블록의 시퀀스와 동기화되도록 상기 윈도우어(115, 119)와 동기화되는, 윈도우어(121)를 더 포함하는 것을 특징으로 하는 오디오 사후 프로세서.
제5항 또는 제6항에 있어서,
상기 대역 추출기(110)는 상기 오디오 신호로부터 도출된 블록의 대응하는 시퀀스로부터 상기 저역 통과 시간 도메인 값의 블록의 시퀀스의 샘플 단위 감산(113)을 수행하여 고역 통과 시간 도메인 샘플링 값의 블록의 시퀀스를 획득하도록 구성되는 것을 특징으로 하는 오디오 사후 프로세서.
제7항에 있어서,
상기 고대역 프로세서(120)는 상기 고역 통과 시간 도메인 샘플링 값의 블록의 시퀀스의 각각의 블록의 각각의 샘플에 수정을 적용하도록 구성되고,
블록의 샘플에 대한 수정은
이전 블록의 이득 정보와 현재 블록의 이득 정보, 또는
상기 현재 블록의 이득 정보 및 다음 블록의 이득 정보
에 의존하는 것을 특징으로 하는 오디오 사후 프로세서.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 오디오 신호는 추가 부가 정보로서 추가적인 제어 파라미터(500)를 포함하고, 상기 고대역 프로세서(120)는 상기 추가적인 제어 파라미터(500)를 또한 고려하여 수정을 적용하도록 구성되고, 상기 추가적인 제어 파라미터(500)의 시간 해상도는 상기 시변 고주파 이득 정보의 시간 해상도보다 낮거나, 상기 추가적인 제어 파라미터는 특정 오디오 피스에 대해 고정되어 있는 것을 특징으로 하는 오디오 사후 프로세서.
제8항에 있어서,
상기 결합기(130)는 상기 저역 통과 시간 도메인 샘플링 값의 블록의 시퀀스의 대응하는 블록 및 상기 고역 통과 시간 도메인 샘플링 값의 증폭된 블록의 시퀀스의 샘플 단위 가산을 수행하여 결합 신호 값의 블록의 시퀀스를 획득하도록 구성되는 것을 특징으로 하는 오디오 사후 프로세서.
제10항에 있어서,
블록 중첩 범위(321)에서 상기 결합 신호 값의 시퀀스의 제1 블록(301)의 오디오 샘플 및 상기 제1 블록에 인접한 이웃하는 제2 블록(302)의 오디오 샘플을 가산함으로써 사후 프로세싱된 오디오 신호 부분을 산출하기 위한 중첩-가산(140) 프로세서를 더 포함하는 것을 특징으로 하는 오디오 사후 프로세서.
제1항 내지 제11항 중 어느 한 항에 있어서,
상기 대역 추출기(110), 상기 고대역 프로세서(120), 및 상기 결합기(130)는 중첩 블록에서 동작하고, 중첩 범위(321)는 블록 길이의 40% 내지 블록 길이의 60% 사이이거나,
블록 길이는 0.8밀리초 내지 5밀리초 사이이거나,
상기 고대역 프로세서(120)에 의해 수행되는 수정은 시간 도메인에서 블록의 각각의 샘플에 적용되는 곱셈 팩터이거나,
상기 저주파 대역의 컷오프 주파수 또는 코너 주파수는 상기 오디오 신호의 최대 주파수의 1/8 내지 1/3 사이, 바람직하게는 상기 오디오 신호의 최대 주파수의 1/6과 동일한 것을 특징으로 하는 오디오 사후 프로세서.
제5항에 있어서,
상기 저역 통과 성형기(117)는 대응하는 블록에 대한 상기 시변 고주파 이득 정보(104)에 의존하여 성형 함수를 적용하도록 구성되는 것을 특징으로 하는 오디오 사후 프로세서.
제13항에 있어서,
상기 성형 함수는 대응하는 블록에 대한 상기 시변 고주파 이득 정보를 사용하여 상기 오디오 신호의 고주파 대역을 수정 또는 감쇠하기 위해 오디오 사전 프로세서(200)에서 사용되는 성형 함수에 추가로 의존하는 것을 특징으로 하는 오디오 사후 프로세서.
제8항에 있어서,
상기 블록의 샘플에 대한 수정은 상기 분석 윈도우 함수 또는 상기 합성 윈도우 함수에 의해 정의되는 바와 같은 특정 샘플에 적용된 윈도윙 팩터에 추가로 의존하는 것을 특징으로 하는 오디오 사후 프로세서.
제1항 내지 제15항 중 어느 한 항에 있어서,
상기 대역 추출기(110), 상기 고대역 프로세서(120), 및 상기 결합기(130)는 상기 오디오 신호로부터 도출된 블록의 시퀀스(300-303)를 중첩 블록으로서 프로세싱하도록 구성되어, 이전 블록의 후속 부분은 상기 이전 블록에 시간적으로 인접한 후속 블록의 이전 부분과 동일한 상기 오디오 신호의 오디오 샘플로부터 도출되는 것을 특징으로 하는 오디오 사후 프로세서.
제16항에 있어서,
상기 중첩 블록의 중첩 범위(321)는 상기 이전 블록의 절반과 동일하고, 상기 후속 블록은 샘플 값의 수에 대해서 상기 이전 블록과 동일한 길이를 가지고, 사후 프로세서는 중첩 가산 동작을 수행하기 위한 중첩 가산기(140)를 추가로 포함하는 것을 특징으로 하는 오디오 사후 프로세서.
제16항 또는 제17항에 있어서,
상기 대역 추출기(110)는 분할 필터의 정지 범위와 통과 범위 사이의 분할 필터(111)의 기울기를 오디오 샘플의 블록에 적용하도록 구성되고, 상기 기울기는 상기 샘플의 블록에 대한 상기 시변 고주파 이득 정보에 의존하는 것을 특징으로 하는 오디오 사후 프로세서.
제18항에 있어서,
상기 고주파 이득 정보는 이득 값을 포함하고, 상기 기울기는 보다 낮은 이득 값에 대한 기울기의 증가에 비해 높은 이득 값에 대해 더 강하게 증가되는 것을 특징으로 하는 오디오 사후 프로세서.
제17항 내지 제19항 중 어느 한 항에 있어서,
상기 분할 필터(111)의 기울기는 다음의 방정식에 기초하여 정의되고,

rs[f]는 상기 분할 필터(111)의 기울기이고, ps[f]는 상기 오디오 신호를 생성할 때 사용되는 분할 필터의 기울기이고, g[k]는 상기 시변 고주파 이득 정보로부터 도출된 이득 팩터이고, f는 주파수 인덱스이고, k는 블록 인덱스인 것을 특징으로 하는 오디오 사후 프로세서.
제16항 내지 제20항 중 어느 한 항에 있어서,
상기 고주파 이득 정보는 인접한 블록에 대한 이득 값을 포함하고, 상기 고대역 프로세서(120)는 상기 인접한 블록에 대한 이득 값에 의존하여 그리고 대응하는 샘플에 대한 윈도우 팩터에 의존하여 각각의 샘플에 대한 정정 팩터를 산출하도록 구성되는 것을 특징으로 하는 오디오 사후 프로세서.
제21항에 있어서,
상기 고대역 프로세서(120)는 다음의 방정식에 기초하여 동작하도록 구성되고,

인 경우,

인 경우,

corr[j]는 인덱스 j를 갖는 샘플에 대한 정정 팩터이고, g[k-1]은 선행 블록에 대한 이득 팩터이고, g[k]는 현재 블록의 이득 팩터이고, w[j]는 샘플 인덱스 j를 갖는 샘플에 대한 윈도우 함수 팩터이고, N은 블록의 샘플 길이이고, g[k+1]은 후속 블록에 대한 이득 팩터이고, k는 블록 인덱스이고, 상기 방정식들로부터의 상위 방정식은 출력 블록 k의 제1 절반에 대한 것이고, 상기 방정식들의 하위 방정식은 상기 출력 블록 k의 제2 절반에 대한 것인 것을 특징으로 하는 오디오 사후 프로세서.
제17항 내지 제22항 중 어느 한 항에 있어서,
상기 고대역 프로세서(120)는 상기 오디오 사후 프로세서(100)에 의한 프로세싱 전에 수행되는 프로세싱에 의해 상기 오디오 신호에 도입된 과도 이벤트의 감쇠를 추가로 보상하도록 구성되는 것을 특징으로 하는 오디오 사후 프로세서.
제23항에 있어서,
상기 고대역 프로세서는 다음의 방정식에 기초하여 동작하도록 구성되고,

gc[k]는 블록 인덱스 k를 갖는 블록에 대한 보상된 이득이고, g[k]는 상기 부가 정보로서 포함된 상기 시변 고주파 이득 정보에 의해 나타내어진 보상되지 않은 이득이고, beta_factor(500)는 상기 부가 정보(106) 내에 포함된 추가적인 제어 파라미터 값인 것을 특징으로 하는 오디오 사후 프로세서.
제22항 및 제24항에 있어서,
상기 고대역 프로세서(120)는 다음의 방정식에 기초하여 상기 프로세싱된 고대역을 산출하도록 구성되고,

인 경우,

phpb[k][i]는 블록 k 및 샘플 값 i에 대한 상기 프로세싱된 고대역을 나타내고, gc[k]는 보상된 이득이고, corr[i]는 정정 팩터이고, k는 블록 인덱스이고, i는 샘플링 값 인덱스이고, hpb[k][i]는 블록 k 및 샘플 값 i에 대한 고대역이고, N은 블록의 샘플 길이인 것을 특징으로 하는 오디오 사후 프로세서.
제25항에 있어서,
상기 결합기(130)는 다음과 같이 상기 결합된 블록을 산출하도록 구성되고,
ob[k][i] = lpb[k][i] + phpb[k][i]
lpb[k][i]는 블록 k 및 샘플 인덱스 i에 대한 저주파 대역인 것을 특징으로 하는 오디오 사후 프로세서.
제16항 내지 제26항 중 어느 한 항에 있어서,
다음의 방정식에 기초하여 동작하는 중첩-가산기(140)를 더 포함하고,

인 경우,

인 경우,

o[]는 k 및 j로부터 도출된 샘플 인덱스에 대한 사후 프로세싱된 오디오 출력 신호의 샘플의 값이고, k는 블록 값이고, N은 블록의 샘플 길이이고, j는 블록 내의 샘플링 인덱스이고, ob[]는 이전 블록 인덱스 k-1, 현재 블록 인덱스 k, 또는 후속 블록 인덱스 k+1에 대한 결합된 블록을 나타내는 것을 특징으로 하는 오디오 사후 프로세서.
제1항 내지 제27항 중 어느 한 항에 있어서,
상기 시변 고주파 이득 정보는 이득 인덱스(600)의 시퀀스 및 이득 확장된 범위 정보(602)를 포함하거나, 상기 부가 정보는 이득 보상 정보(603) 및 이득 보상 정밀도 정보(604)를 추가로 포함하고,
상기 오디오 사후 프로세서는
상기 이득 정밀도 정보(602)에 의존하여 이득 인덱스(601)를 디코딩하여 제1 정밀도 정보에 대한 상이한 값의 제1 수의 디코딩된 이득(621) 또는 제2 정밀도 정보에 대한 상이한 값의 제2 수의 디코딩된 이득(621)을 획득하기 위한 디코더(620)로서, 상기 제2 수는 상기 제1 수보다 큰, 디코더(620), 또는
상기 보상 정밀도 정보(604)에 의존하여 이득 보상 인덱스(603)를 디코딩하여 제1 보상 정밀도 정보에 대한 상이한 값의 제1 수의 디코딩된 이득 보상 값(622) 또는 제2 상이한 보상 정밀도 정보에 대한 값의 제2 상이한 수의 디코딩된 이득 보상 값(622)을 획득하기 위한 디코더(620)로서, 상기 제1 수는 상기 제2 수보다 큰, 디코더(620)를 포함하는 것을 특징으로 하는 오디오 사후 프로세서.
제28항에 있어서,
상기 디코더(620)는 블록에 대한 이득 팩터(621)를 산출하도록 구성되고,

g[k]는 블록 인덱스 k를 갖는 블록(301)에 대한 이득 팩터(621)이고, gainIdx[k][sig]는 상기 부가 정보에 상기 시변 고주파 이득 정보(104)로서 포함된 양자화된 값이고, GAIN_INDEX_0dB는 상기 이득 정밀도 정보가 제1 상태를 가질 때 제1 값을 가지고, 상기 이득 정밀도 정보가 제2 상태를 가질 때 제2 상이한 값을 갖는 0dB에 대응하는 이득 인덱스 오프셋인 것을 특징으로 하는 오디오 사후 프로세서.
제1항 내지 제29항 중 어느 한 항에 있어서,
상기 대역 추출기(110)는 최대 주파수보다 높은 스펙트럼 값에 대한 브랜치의 산출이 스킵되는 스파스 이산 푸리에 변환 알고리즘을 수행함으로써 N/2 복소 스펙트럼 값의 수보다 낮은 스펙트럼 값의 수를 획득하기 위해 N 샘플링 값의 블록 길이를 갖는 블록 단위 이상 푸리에 변환(116)을 수행하도록 구성되고,
상기 대역 추출기(110)는 전이 시작 주파수 범위까지의 스펙트럼 값을 사용함으로써 그리고 상기 전이 시작 주파수 범위 내의 스펙트럼 값을 가중함으로써(117a, 117b) 상기 저주파 대역 신호를 산출하도록 구성되고, 상기 전이 시작 주파수 범위는 상기 최대 주파수 또는 상기 최대 주파수보다 작은 주파수까지만 확장되는 것을 특징으로 하는 오디오 사후 프로세서.
제1항 내지 제30항 중 어느 한 항에 있어서,
상기 고주파 대역의 시변 증폭을 위한 부가 정보(106)가 이용 가능한 최대 수의 채널 또는 객체로만 사후 프로세싱만을 수행하고, 상기 고주파 대역의 시변 증폭을 위한 임의의 부가 정보가 이용 가능하지 않은 다수의 채널 또는 객체로는 임의의 사후 프로세싱을 수행하지 않도록 구성되거나,
상기 대역 추출기(110)는 상기 고주파 대역의 시변 증폭을 위한 사소한 이득 팩터에 대해 임의의 대역 추출을 수행하지 않거나 이산 푸리에 변환 및 역 이산 푸리에 변환 쌍을 계산하지 하지 않고, 상기 사소한 이득 팩터와 연관된 변경되지 않은 또는 윈도윙된 시간 도메인 신호를 통과시키도록 구성되는 것을 특징으로 하는 오디오 사후 프로세서.
오디오 신호(202)를 사전 프로세싱하기 위한 오디오 사전 프로세서(200)에 있어서,
시변 고주파 이득 정보(204)를 결정하기 위해 상기 오디오 신호(202)를 분석하기 위한 신호 분석기(260);
상기 오디오 신호(202)의 고주파 대역(212)과 상기 오디오 신호의 저주파 대역(214)을 추출하기 위한 대역 추출기(210);
프로세싱된 고주파 대역(222)을 획득하기 위해 상기 시변 고주파 이득 정보에 따라 상기 고주파 대역(212)의 시변 수정을 수행하기 위한 고대역 프로세서(220);
사전 프로세싱된 오디오 신호(232)를 획득하기 위해 상기 프로세싱된 고주파 대역(222)과 상기 저주파 대역(214)을 결합하기 위한 결합기(230); 및
상기 사전 프로세싱된 오디오 신호(232) 및 부가 정보(206)로서 상기 시변 고주파 이득 정보(204)를 포함하는 출력 신호(252)를 생성하기 위한 출력 인터페이스(250)를 포함하는 것을 특징으로 하는 오디오 사전 프로세서.
제32항에 있어서,
상기 신호 분석기(260)는 상기 오디오 신호를 분석하여 상기 오디오 신호의 제1 시간 블록(301)에서 제1 특성 및 상기 오디오 신호의 제2 시간 블록(302)에서 제2 특성을 결정하도록(801, 802) 구성되고, 상기 제2 특성은 상기 제1 특성보다 과도적이거나 상기 제1 특성보다 큰 고주파 에너지 레벨이고,
상기 신호 분석기(260)는 상기 제1 특성에 대한 제1 이득 정보(311) 및 상기 제2 특성에 대한 제2 이득 정보(312)를 결정하도록(803) 구성되고,
상기 고대역 프로세서(220)는 상기 제1 이득 정보에 따른 상기 제1 시간 블록(301)의 고대역 부분보다 강한 상기 제2 이득 정보에 따른 상기 제2 시간 블록(302)의 고대역 부분에 곱셈 팩터(804)를 적용하도록 구성되는 것을 특징으로 하는 오디오 사전 프로세서.
제32항 내지 제33항 중 어느 한 항에 있어서,
상기 신호 분석기(260)는
현재 시간 블록 앞에 배치된 또는 상기 현재 시간 블록에 후속하여 배치된 또는 상기 현재 시간 블록 앞에 그리고 후속하여 배치된 또는 상기 현재 시간 블록을 포함하여 또는 상기 현재 시간 블록을 제외하고 시간에서 이웃하는 하나 이상의 시간 블록에 대한 상기 고대역의 배경 에너지에 대한 배경 측정치를 산출하고(805);
상기 현재 블록의 고대역에 대한 에너지 측정치를 산출하고(808);
상기 배경 측정치 및 상기 에너지 측정치를 사용하여 이득 팩터를 산출하도록(809) 구성되는 것을 특징으로 하는 오디오 사전 프로세서.
제33항에 있어서,
상기 신호 분석기(260)는 다음의 방정식에 기초하여 상기 이득 팩터를 산출하도록 구성되고,

g_float는 양자화되지 않은 이득 팩터이고, k는 블록 인덱스이고, α는 변화에 영향을 미치는 팩터이고, hp_bg_e[k]는 블록 k에 대한 고주파 배경 에너지이고, hp_e[k]는 고주파 블록의 에너지이고, T_quiet는 정적 임계치이고, 팩터 α 및 상기 정적 임계치는 추가적인 제어 파라미터에 의해 미리 결정되거나 제어 가능한 것을 특징으로 하는 오디오 사전 프로세서.
제32항 내지 제35항 중 어느 한 항에 있어서,
상기 신호 분석기(260) 및 상기 고대역 프로세서(120)는 상기 시변 고주파 이득 정보를 산출하고 상기 시변 고주파 이득 정보를 적용하여 배경의 대응하는 평균 에너지 주위의 각각의 블록의 에너지의 변화가 적어도 50%, 바람직하게는 75%만큼 감소되도록 구성되는 것을 특징으로 하는 오디오 사전 프로세서.
제32항 내지 제36항 중 어느 한 항에 있어서,
상기 신호 분석기(260)는 상기 시변 고주파 이득 정보를 양자화된 값의 시퀀스로서 획득하기 위해 이득 정보 값의 미가공 시퀀스를 양자화하고 클리핑하도록(812) 구성되고,
상기 고대역 프로세서(220)는 상기 양자화된 값의 시퀀스에 따라 상기 고대역의 시변 수정을 수행하도록(813) 구성되고,
상기 출력 인터페이스(250)는 상기 양자화된 값의 시퀀스를 상기 시변 고주파 이득 정보(204)로서 상기 부가 정보(206)에 도입하도록(814) 구성되는 것을 특징으로 하는 오디오 사전 프로세서.
제32항 내지 제37항 중 어느 한 항에 있어서,
상기 오디오 사전 프로세서(200)는
후속하여 연결된 인코더 또는 디코더에 의해 도입된 에너지 변화의 손실을 기술하는 추가 이득 보상 값을 결정하고(815),
상기 추가 이득 보상 정보를 양자화하도록(816) 구성되고,
상기 출력 인터페이스(250)는 상기 양자화된 추가 이득 보상 정보를 상기 부가 정보에 도입하도록(817) 구성되는 것을 특징으로 하는 오디오 사전 프로세서.
제32항 내지 제38항 중 어느 한 항에 있어서,
상기 신호 분석기(260)는 상기 오디오 신호로부터 추가로 도출된 추가적인 제어 데이터(807)에 따라 상기 오디오 신호에 대한 상기 고대역 프로세서(220)의 효과를 점진적으로 감소시키거나 점진적으로 향상시키기 위해 산출된 시변 고주파 이득 정보의 추가 수정을 제어하는 메타 이득 제어(806)를 적용하도록 구성되거나,
상기 신호 분석기(260)는 다음의 방정식에 기초하여 상기 이득 정보를 산출할 때 팩터 알파에 영향을 미치도록 구성되고, 알파를 증가시키는 것은 보다 강한 영향을 초래하고 알파를 감소시키는 것은 보다 낮은 영향을 초래하고,

g_float는 양자화되지 않은 이득 팩터이고, k는 블록 인덱스이고, hp_bg_e[k]는 블록 k에 대한 고주파 배경 에너지이고, hp_e[k]는 고주파 블록의 에너지이고, T_quiet는 정적 임계치이고, 팩터 α 및 상기 정적 임계치는 추가적인 제어 파라미터에 의해 미리 결정되거나 제어 가능한 것을 특징으로 하는 오디오 사전 프로세서.
제32항 내지 제39항 중 어느 한 항에 있어서,
상기 대역 추출기(210)는 저역 통과 필터 디바이스(111)를 사용하여 상기 저주파 대역을 추출하고, 상기 저주파 대역을 상기 오디오 신호로부터 감산함으로써(113) 상기 고주파 대역을 추출하도록 구성되는 것을 특징으로 하는 오디오 사전 프로세서.
제32항 내지 제40항 중 어느 한 항에 있어서,
상기 시변 고주파 이득 정보(204)는 샘플링 값의 제1 블록(301)이 제1 이득 정보(311)와 연관되고 상기 오디오 신호의 샘플 값의 제2 후속 블록(302)이 상이한 제2 이득 정보(312)를 가지도록 상기 오디오 신호의 샘플링 값의 블록의 시퀀스(300-303)에 대해 제공되고, 상기 대역 추출기는 상기 샘플링 값의 제1 블록으로부터 제1 저주파 대역 및 제1 고주파 대역을 추출하고, 상기 샘플링 값의 제2 블록으로부터 제2 저주파 대역 및 제2 고주파 대역을 추출하도록 구성되고,
상기 고대역 프로세서(220)는 상기 제1 이득 정보(311)를 사용하여 상기 제1 고주파 대역을 수정하여 제1 프로세싱된 고주파 대역을 획득하고, 상기 제2 이득 정보(312)를 사용하여 상기 제2 고주파 대역을 수정하여 제2 프로세싱된 고주파 대역을 획득하도록 구성되고,
상기 결합기(230)는 상기 제1 저주파 대역과 상기 제1 프로세싱된 고주파 대역을 결합하여 제1 결합된 블록을 획득하고, 상기 제2 저주파 대역과 상기 제2 프로세싱된 고주파 대역을 결합하여 제2 결합된 블록을 획득하도록 구성되는 것을 특징으로 하는 오디오 사전 프로세서.
제32항 내지 제41항 중 어느 한 항에 있어서,
상기 대역 추출기(210) 및 상기 고대역 프로세서(220) 및 상기 결합기(230)는 중첩 블록에서 동작하도록 구성되고,
상기 결합기(230)는 블록 중첩 범위(321)에서 제1 블록의 오디오 샘플과 제2 블록의 오디오 샘플을 가산함으로써 사후 프로세싱된 부분을 산출하기 위한 중첩 가산기를 더 포함하거나,
상기 대역 추출기(210), 상기 고대역 프로세서(220), 및 상기 결합기(230)는 중첩 블록에서 동작하고, 중첩 범위(321)는 블록 길이의 40% 내지 블록 길이의 60% 사이이거나,
블록 길이는 0.8밀리초 내지 5밀리초 사이이거나,
상기 고대역 프로세서(220)에 의해 수행되는 수정은 시간 도메인에서 블록의 각각의 샘플에 적용되는 감쇠이거나,
상기 저주파 대역의 컷오프 주파수 또는 코너 주파수는 상기 오디오 신호(202)의 최대 주파수의 1/8 내지 1/3 사이, 바람직하게는 상기 오디오 신호의 최대 주파수의 1/6과 동일한 것을 특징으로 하는 오디오 사전 프로세서.
제32항 내지 제42항 중 어느 한 항에 있어서,
상기 대역 추출기(210)는
분석 윈도우를 사용하여 상기 오디오 신호의 샘플링 값의 블록의 시퀀스를 생성하기 위한 분석 윈도우어(215)로서, 상기 블록은 시간 중첩하는, 윈도우어(215);
스펙트럼 값의 블록의 시퀀스를 생성하기 위한 이산 푸리에 변환 프로세서(216);
스펙트럼 값의 저역 통과 성형된 블록의 시퀀스를 획득하기 위해 스펙트럼 값의 각각의 블록을 성형하기 위한 저역 통과 성형기(217a, 217b);
저역 통과 시간 도메인 샘플링 값의 블록의 시퀀스를 생성하기 위한 이산 푸리에 역 변환 프로세서(218); 및
합성 윈도우를 사용하여 상기 저역 통과 시간 도메인 샘플링 값의 블록의 시퀀스를 윈도윙하기 위한 합성 윈도우어(219)를 포함하는 것을 특징으로 하는 오디오 사전 프로세서.
제43항 중 어느 한 항에 있어서,
상기 저역 통과 성형기(217a, 217b)는 다음의 방정식에 기초하여 동작하도록 구성되고,

ps[f]는 주파수 값 f에 대해 상기 저역 통과 성형기에 의해 적용될 성형의 성형 팩터를 나타내고, f는 주파수 값이고, tr_size는 전이 영역의 스펙트럼 선의 폭을 결정하는 값이고, lp_size는 상기 전이 영역이 없는 저역 통과 부분의 크기를 나타내고, N은 블록에 대한 샘플링 값의 수를 나타내는 것을 특징으로 하는 오디오 사전 프로세서.
제43항 또는 제44항에 있어서,
상기 대역 추출기는
상기 분석 윈도우 및 상기 합성 윈도우를 사용하여 상기 오디오 신호를 윈도윙하여 오디오 신호 값의 윈도윙된 블록의 시퀀스를 획득하기 위한 오디오 신호 윈도우어(221)로서, 상기 오디오 신호 윈도우어는 상기 저역 통과 시간 도메인 샘플링 값의 블록의 시퀀스가 상기 오디오 신호 값의 윈도윙된 블록의 시퀀스와 동기화되도록 상기 윈도우어(215, 219)와 동기화되는, 윈도우어(221)를 더 포함하는 것을 특징으로 하는 오디오 사전 프로세서.
제43항 내지 제45항 중 어느 한 항에 있어서,
상기 대역 추출기(210)는 상기 오디오 신호로부터 도출된 블록의 대응하는 시퀀스로부터 상기 저역 통과 시간 도메인 값의 블록의 시퀀스의 샘플 단위 감산(113)을 수행하여 고역 통과 시간 도메인 샘플링 값의 블록의 시퀀스를 획득하도록 구성되는 것을 특징으로 하는 오디오 사전 프로세서.
제32항 내지 제46항 중 어느 한 항에 있어서,
상기 분석기(260)는 메타 이득 제어(806)에 의해 계산된 제어 파라미터(807)를 추가로 제공하고, 상기 고대역 프로세서(220)는 또한 상기 제어 파라미터를 또한 고려하여 수정을 적용하도록 구성되는 것을 특징으로 하는 오디오 사전 프로세서.
제43항 내지 제47항 중 어느 한 항에 있어서,
상기 결합기(230)는 상기 저역 통과 시간 도메인 샘플링 값의 블록의 시퀀스의 대응하는 블록 및 상기 고역 통과 시간 도메인 샘플링 값의 수정된 블록의 시퀀스의 샘플 단위 가산을 수행하여 결합 신호 값의 블록의 시퀀스를 획득하도록 구성되는 것을 특징으로 하는 오디오 사전 프로세서.
제48항에 있어서,
블록 중첩 범위에서 상기 결합 신호 값의 시퀀스의 제1 블록의 오디오 샘플 및 상기 제1 블록에 인접한 이웃하는 제2 블록의 오디오 샘플을 가산함으로써 사전 프로세싱된 오디오 신호 부분을 산출하기 위한 중첩-가산 프로세서를 더 포함하는 것을 특징으로 하는 오디오 사전 프로세서.
제32항 내지 제49항 중 어느 한 항에 있어서,
상기 대역 추출기(211), 상기 고대역 프로세서(720), 및 상기 결합기(230)는 중첩 블록에서 동작하고, 중첩 범위는 블록 길이의 40% 내지 블록 길이의 60% 사이이거나,
블록 길이는 0.8밀리초 내지 5밀리초 사이이거나,
상기 고대역 프로세서(220)에 의해 수행되는 수정은 시간 도메인에서 블록의 각각의 샘플에 적용되는 곱셈 팩터인 특징으로 하는 오디오 사전 프로세서.
제32항 내지 제50항 중 어느 한 항에 있어서,
상기 중첩 블록의 중첩 범위(321)는 이전 블록의 절반과 동일하고, 상기 후속 블록은 샘플 값의 수에 대해서 상기 이전 블록과 동일한 길이를 가지고, 상기 결합기는 중첩 가산 동작을 수행하기 위한 중첩 가산기를 포함하는 것을 특징으로 하는 오디오 사전 프로세서.
제32항 내지 제51항 중 어느 한 항에 있어서,
최대 수의 채널 또는 객체에 대한 상기 부가 정보(206)를 생성하기 위해 상기 최대 수의 채널 또는 객체로만 사전 프로세싱을 수행하고, 상기 부가 정보(206)가 생성되지 않는 다수의 채널 또는 객체로는 임의의 사전 프로세싱을 수행하지 않도록 구성되거나,
상기 대역 추출기(210)는 상기 신호 분석기(260)에 의해 결정된 상기 시변 고주파 이득 정보(204)에 대한 사소한 이득 팩터에 대해 임의의 대역 추출을 수행하지 않거나 이산 푸리에 변환 및 역 이산 푸리에 변환 쌍을 계산하지 하지 않고, 상기 사소한 이득 팩터와 관련된 변경되지 않은 또는 윈도윙된 시간 도메인 신호를 통과시키도록 구성되는 것을 특징으로 하는 오디오 사후 프로세서.
오디오 신호를 인코딩하기 위한 오디오 인코딩 장치에 있어서,
부가 정보로서 시변 고주파 이득 정보를 갖는 출력 신호(252)를 생성하도록 구성된 제32항 내지 제52항 중 어느 한 항의 오디오 사전 프로세서;
코어 인코딩된 신호(902) 및 코어 부가 정보(904)를 생성하기 위한 코어 인코더(900); 및
상기 코어 인코딩된 신호(902), 상기 코어 부가 정보(904), 및 추가적인 부가 정보(106)로서 상기 시변 고주파 이득 정보(106)를 포함하는 인코딩된 신호(912)를 생성하기 위한 출력 인터페이스(910)를 포함하는 것을 특징으로 하는 오디오 인코딩 장치.
제53항에 있어서,
상기 오디오 신호는 멀티 채널 또는 멀티 객체 신호이고, 상기 오디오 사전 프로세서(200)는 각각의 채널 또는 각각의 객체를 개별적으로 사전 프로세싱하도록 구성되고, 상기 코어 인코더(900)는 사전 프로세싱된 채널(232)에 조인트 멀티 채널 인코더 프로세싱 또는 조인트 멀티 객체 인코더 프로세싱 또는 인코더 대역 갭 필링 또는 인코더 대역폭 확장 프로세싱을 적용하도록 구성되는 것을 특징으로 하는 오디오 인코딩 장치.
오디오 디코딩 장치에 있어서,
코어 인코딩된 신호(902), 코어 부가 정보(904), 및 추가적인 부가 정보로서 시변 고주파 이득 정보(104)를 포함하는 인코딩된 오디오 신호(912)를 수신하기 위한 입력 인터페이스(920);
디코딩된 코어 신호를 획득하기 위해 상기 코어 부가 정보(904)를 이용하여 상기 코어 인코딩된 신호(902)를 디코딩하기 위한 코어 디코더(930); 및
제1항 내지 제31항 중 어느 한 항에 따라 상기 시변 고주파 이득 정보(104)를 사용하여 상기 디코딩된 코어 신호(02)를 사후 프로세싱하기 위한 사후 프로세서(100)를 포함하는 것을 특징으로 하는 오디오 디코딩 장치.
제55항에 있어서,
상기 코어 디코더(930)는 멀티 채널 신호(102)의 디코딩된 채널 또는 멀티 객체 신호(102)의 디코딩된 객체를 생성하기 위해 멀티 채널 디코더 프로세싱 또는 멀티 객체 디코더 프로세싱 또는 대역폭 확장 디코더 프로세싱 또는 갭 필링 디코더 프로세싱을 적용하도록 구성되고,
상기 사후 프로세서(100)는 각각의 채널 또는 각각의 객체에 대한 개별적인 시변 고주파 이득 정보를 사용하여 각각의 채널 또는 각각의 객체에 개별적으로 사후 프로세싱을 적용하도록 구성되는 것을 특징으로 하는 오디오 디코딩 장치.
부가 정보(106)로서 시변 고주파 이득 정보(104)를 갖는 오디오 신호(102)를 사후 프로세싱하는 방법(100)에 있어서,
상기 오디오 신호의 고주파 대역(112) 및 상기 오디오 신호의 저주파 대역(114)을 추출하는 단계(110);
프로세싱된 고주파 대역(122)을 획득하기 위해 상기 시변 고주파 이득 정보(104)에 따라 고대역의 시변 수정을 수행하는 단계(120); 및
상기 프로세싱된 고주파 대역(122)과 상기 저주파 대역(114)을 결합하는 단계(130)를 포함하는 것을 특징으로 하는, 오디오 신호를 사후 프로세싱하는 방법.
오디오 신호(202)를 사전 프로세싱하는 방법(200)에 있어서,
시변 고주파 이득 정보(204)를 결정하기 위해 상기 오디오 신호(202)를 분석하는 단계(260);
상기 오디오 신호의 고주파 대역(212)과 상기 오디오 신호의 저주파 대역(214)을 추출하는 단계(210);
프로세싱된 고주파 대역을 획득하기 위해 상기 시변 고주파 이득 정보에 따라 상기 고주파 대역의 시변 수정을 수행하는 단계(220);
사전 프로세싱된 오디오 신호를 획득하기 위해 상기 프로세싱된 고주파 대역(222)과 상기 저주파 대역(214)을 결합하는 단계(230); 및
상기 사전 프로세싱된 오디오 신호(232) 및 부가 정보(106)로서 상기 시변 고주파 이득 정보(204)를 포함하는 출력 신호(252)를 생성하는 단계(250)를 포함하는 것을 특징으로 하는 오디오 신호를 사전 프로세싱하는 방법.
오디오 신호를 인코딩하는 방법에 있어서,
부가 정보(106)로서 시변 고주파 이득 정보(204)를 갖는 출력 신호를 생성하도록 구성된 제58항의 오디오 사전 프로세싱하는 방법(200);
코어 인코딩된 신호(902) 및 코어 부가 정보(904)를 생성하는 단계; 및
코어 인코딩된 신호(902), 코어 부가 정보(904), 및 추가적인 부가 정보(106)로서 시변 고주파 이득 정보(204)를 포함하는 인코딩된 신호(912)를 생성하는 단계(910)를 포함하는 것을 특징으로 하는 오디오 신호를 인코딩하는 방법.
오디오 디코딩 방법에 있어서,
코어 인코딩된 신호(902), 코어 부가 정보(904), 및 추가적인 부가 정보(106)로서 시변 고주파 이득 정보(204)를 포함하는 인코딩된 오디오 신호(912)를 수신하는 단계(920);
디코딩된 코어 신호(102)를 획득하기 위해 상기 코어 부가 정보(904)를 이용하여 상기 코어 인코딩된 신호(902)를 디코딩하는 단계(930); 및
제55항의 방법에 따라 상기 시변 고주파 이득 정보(104)를 사용하여 상기 디코딩된 코어 신호(102)를 사후 프로세싱하는 단계(100)를 포함하는 것을 특징으로 하는 오디오 디코딩 방법.
컴퓨터 또는 프로세서 상에서 실행될 때, 제57항, 제58항, 제59항, 제60항에 따른 방법 중 임의의 하나의 방법을 수행하기 위한 컴퓨터 프로그램.