KR20210040974A - 신호 화이트닝 또는 신호 후처리를 이용하는 다중신호 인코더, 다중신호 디코더, 및 관련 방법들 - Google Patents

신호 화이트닝 또는 신호 후처리를 이용하는 다중신호 인코더, 다중신호 디코더, 및 관련 방법들 Download PDF

Info

Publication number
KR20210040974A
KR20210040974A KR1020217003630A KR20217003630A KR20210040974A KR 20210040974 A KR20210040974 A KR 20210040974A KR 1020217003630 A KR1020217003630 A KR 1020217003630A KR 20217003630 A KR20217003630 A KR 20217003630A KR 20210040974 A KR20210040974 A KR 20210040974A
Authority
KR
South Korea
Prior art keywords
signal
joint
processing
encoded
signals
Prior art date
Application number
KR1020217003630A
Other languages
English (en)
Other versions
KR102606259B1 (ko
Inventor
엘레니 포토풀루
마르쿠스 물트루스
사샤 딕
고란 마르코비치
팔라비 마벤
스리칸스 코르스
스테판 바이어
사샤 디쉬
유르겐 헤르레
Original Assignee
프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 filed Critical 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Publication of KR20210040974A publication Critical patent/KR20210040974A/ko
Application granted granted Critical
Publication of KR102606259B1 publication Critical patent/KR102606259B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

적어도 3개의 오디오 신호를 인코딩하기 위한 다중신호 인코더는 적어도 3개의 전처리된 오디오 신호를 얻기 위해 각 오디오 신호를 개별적으로 전처리하고, 상기 전처리는 전처리된 오디오 신호가 전처리 전 신호에 비해 화이트닝 처리되는 전처리기(100); 적어도 3개의 조인트 처리된 신호 또는 적어도 2개의 조인트 처리된 신호 및 처리되지 않은 신호를 획득하기 위해 적어도 3개의 전처리된 오디오 신호의 처리를 수행하기 위한 적응형 조인트 신호 프로세서(200); 하나 이상의 인코딩된 신호를 얻기 위해 각각의 신호를 인코딩하는 신호 인코더(300); 및 하나 이상의 인코딩된 신호, 전처리에 관한 부가 정보 및 프로세싱에 관한 부가 정보를 포함하는 인코딩된 다중신호 오디오 신호를 전송 또는 저장하기 위한 출력 인터페이스(400)를 포함한다.

Description

신호 화이트닝을 전처리로 사용하는 다중신호 오디오 코딩
실시 예들은 신호-적응형 조인트 채널 프로세싱(signal-adaptive joint channel processing)을 갖는 MDCT-기반 다중-신호 인코딩 및 디코딩 시스템에 관한 것으로, 여기서 신호는 채널일 수 있고, 다중신호는 다중채널 신호이거나 대안적으로 예컨대, 1차 앰비소닉스(Ambisonics)에서 W, X, Y, Z 와 같은 앰비소닉스 컴포넌트 또는 고차 앰비소닉스 표현에서의 기타 다른 컴포넌트와 같은 음장 표현(sound field description)의 컴포넌트가 되는 오디오 신호이다. 이 신호는 A-포맷, B-포맷 또는 음장의 기타 포맷 표현의 신호일 수도 있다.
ㆍ MPEG USAC [1]에서는 복합 예측(Complex Prediction), MPS 2-1-2 또는 대역 제한 또는 전대역 잔차(residual) 신호가 있는 통합 스테레오를 사용하여 두 채널의 조인트 스테레오 코딩이 수행된다.
ㆍ MPEG Surround [2]는 잔차 신호 전송 유무에 관계없이 다중채널 오디오의 조인트 코딩을 위해 OTT 및 TTT 박스를 계층적으로 결합한다.
ㆍ MPEG-H Quad 채널 요소 [3]는 "고정" 4x4 리믹싱 트리를 구축하는 복합 예측 /MS 스테레오 박스에 위해 수반되는 MPS2-1-2 스테레오 박스를 계층적으로 적용한다.
ㆍ AC4 [4]는 전송된 믹스 매트릭스 및 후속 조인트 스테레오 코딩 정보를 통해 전송된 채널을 리믹스 할 수 있는 새로운 3-, 4- 및 5-채널 요소를 도입한다.
ㆍ 이전 공개본에서는 향상된 다중채널 오디오 코딩 [5]을 위해 KLT (Karhunen-Loeve Transform)과 같은 직교 변환을 사용할 것을 제안한다.
ㆍ MCT(Multichannel Coding Tool) [6] - 두 개 이상의 채널에 대한 조인트 코딩을 지원하므로 MDCT 영역에서 유연하고 신호 적응형 조인트 채널 코딩이 가능하다. 이것은 두 개의 지정된 채널의 회전 스테레오 코딩(KLT, rotation stereo coding)뿐만 아니라 실수-값 복합 스테레오 예측과 같은 스테레오 코딩 기술의 반복적 조합 및 연접(concatenation)에 의해 달성된다.
3D 오디오 컨텍스트에서 라우드스피커 채널은 여러 높이의 레이어로 분배되어 수평 및 수직 채널 쌍이 된다. USAC에서 정의한 두 채널만의 조인트 코딩(Joint coding)은 채널 간의 공간 및 지각(perceptual) 관계를 고려하기에는 충분하지 않다. MPEG 서라운드는 추가적인 전/후처리 단계에서 적용되며, 잔차 신호(residual signals)는 조인트 스테레오 코딩 가능성이 없이 개별적으로 전송되고, 예를 들어 좌우 수직 잔차 신호 간의 종속성을 이용한다. AC-4에서는 조인트 코딩 파라미터를 효율적으로 인코딩할 수 있는 전용 N-채널 요소가 도입되지만, 새로운 몰입형 재생 시나리오(7.1+4, 22.2)에 대해 제안된 것처럼 더 많은 채널이 있는 일반 스피커 설정에서는 실패한다. MPEG-H 쿼드(Quad) 채널 요소도 4개의 채널로 제한되며, 임의 채널에는 동적으로 적용할 수 없으며, 사전에 구성되고 고정된 대수의 채널에만 적용된다. MCT는 임의 채널의 신호-적응형 조인트 채널 코딩의 유연성을 도입하지만, 스테레오 처리는 윈도우 되고 변환된 역-정규화(디-화이트닝(de-whitening)) 신호에 대해 수행된다. 또한 각 스테레오 박스에 대해 각 대역의 예측 계수 또는 각도를 코딩하려면 상당한 수의 비트가 필요하다.
본 발명의 목적은 다중신호 인코딩 또는 디코딩을 위해 향상되고 보다 유연한 개념을 제공하는 것이다.
상기 목적은 청구항 1의 다중-신호 인코더, 청구항 32의 다중-신호 디코더, 청구항 44의 다중-신호 인코딩을 수행하는 방법, 청구항 45항의 다중-신호 디코딩을 수행하는 방법, 청구항 46항의 컴퓨터 프로그램, 또는 청구항 47의 인코딩된 신호에 의해 달성된다.
본 발명은 다중-신호 인코딩 효율이 원래 신호가 아닌 전처리된 오디오 신호에 대해 적응형 조인트 신호 프로세싱을 수행하는 것에 의해 상당히 향상되었다는 사실에 기초하고 있으며, 이때, 상기 전처리는 전처리된 오디오 신호가 전처리되기 전의 신호에 비해서 화이트닝 처리되도록 수행된다. 디코더 측에서는, 이는 조인트 신호 프로세싱에 이어서 후처리를 수행하여 적어도 3개의 처리된 디코딩된 신호를 획득한다는 것을 의미한다. 이러한 적어도 3개의 처리된 디코딩된 신호는 인코딩된 신호에 포함된 부가 정보(side information)에 따라 후처리되며, 후처리는 후처리된 신호가 후처리되기 전의 신호에 비해 덜 화이트닝 되는 방식으로 수행된다. 후처리된 신호는 최종적으로, 직접 또는 추가 신호 프로세싱 작업 다음에, 디코딩된 오디오 신호 즉, 디코딩된 다중-신호를 나타낸다.
특히, 몰입형 3D 오디오 포맷의 경우, 전체적인 지각(perceptual) 오디오 품질을 유지하는 동시에 전송 데이터의 양을 줄이기 위해 복수의 신호의 속성을 활용하는 효율적인 다중채널 코딩이 얻어진다. 바람직한 구현에서, 다중채널 시스템 내의 신호 적응형 조인트 코딩은 지각 화이트닝과, 추가로 채널 간 레벨 차이(ILD, inter-channel level difference) 보상 스펙트럼을 사용하여 수행된다. 조인트 코딩은 엔트로피 코더의 예상 비트 수에 기초하여 구동되는 단순 대역별 M/S 변환 결정을 사용하여 수행하는 것이 바람직하다.
적어도 3개의 오디오 신호를 인코딩하기 위한 다중-신호 인코더는 각각의 오디오 신호를 개별적으로 전처리하여 적어도 3개의 전처리된 오디오 신호를 얻는 전처리기를 포함하고, 전처리는 전처리된 오디오 신호가 전처리 되기 전의 신호에 비해 화이트닝 되도록 수행된다. 적어도 3개의 전처리된 오디오 신호의 적응형 조인트 신호 프로세싱은 적어도 3개의 조인트 프로세싱된 신호를 얻기 위해 수행된다. 상기 프로세싱은 화이트닝된 신호에 대해 수행한다. 상기 전처리는 스펙트럼 포락선(spectral envelope) 등과 같은 특정 신호 특성을 추출하고, 만약 추출되지 않는 경우 조인트 스테레오 또는 조인트 다중채널 프로세싱과 같은 조인트 신호 프로세싱의 효율성을 감소시킨다. 추가적으로, 조인트 신호 프로세싱 효율성을 높이기 위해, 적어도 3개의 전처리된 오디오 신호의 광대역 에너지 정규화를 수행하여, 각각의 전처리된 오디오 신호가 정규화된 에너지를 갖도록 한다. 상기 광대역 에너지 정규화가 역 조인트 스테레오(inverse joint stereo) 또는 조인트 다중채널 프로세싱에 이어 디코더 측에서 되돌려질 수 있도록, 상기 광대역 에너지 정규화가 부가 정보로서 인코딩된 오디오 신호에 시그널링 된다. 이러한 바람직한 추가 광대역 에너지 정규화 절차를 통해 적응형 조인트 신호 프로세싱 효율이 향상되어 좌/우 프로세싱(듀얼 모노 프로세싱)에 비해 미드/사이드(mid/side) 프로세싱의 대상이 될 수 있는 대역의 수 또는 전체 프레임의 수가 크게 향상된다. 전체 스테레오 인코딩 프로세스의 효율성은 미드/사이드 프로세싱과 같은 다중채널 프로세싱 또는 공통 스테레오의 대상이 되는 대역 또는 전체 프레임의 수가 증가할수록 점점 더 향상된다.
가장 낮은 효율은 스테레오 프로세싱 뷰에서, 적응형 조인트 신호 프로세서가 대역 또는 프레임에 대해 "듀얼 모노(dual mono)" 또는 좌/우 프로세싱으로 처리될 프레임 또는 대역을 적응적으로 결정해야 할 때 얻어진다. 여기서, 좌채널과 우채널은 그대로 처리되지만, 자연스럽게 화이트닝 및 에너지 정규화된 영역에서 처리된다. 그러나 적응형 조인트 신호 프로세서가 미드/사이드 처리가 수행되는 특정 대역이나 프레임에 대해 적응적으로 판단할 경우, 미드 신호는 제1 및 제2 채널을 추가하여 산출되고, 사이드 신호는 채널 쌍의 제1 및 제2 채널과의 차이를 계산하여 산출된다. 일반적으로, 미드 신호는 값 범위와 관련하여 제1 및 제2 채널 중 하나와 비교되지만, 사이드 신호는 일반적으로 고효율로 인코딩될 수 있는 작은 에너지를 가진 신호이거나, 가장 바람직한 상황이라도, 사이드 신호가 0 또는 0에 가까워서 사이드 신호의 스펙트럼 영역이 0으로 양자화될 수 있으므로, 엔트로피가 매우 효율적인 방식으로 인코딩될 수 있다. 이러한 엔트로피 인코딩은 신호 인코더가 각 신호의 인코딩을 수행하여 하나 이상의 인코딩된 신호를 획득하며, 다중-신호 인코더의 출력 인터페이스는 하나 이상의 인코딩된 신호, 전처리와 관련된 부가 정보 및 적응형 조인트 신호 프로세싱과 관련된 부가 정보를 포함하는 인코딩된 다중-신호 오디오 신호를 전송하거나 저장한다.
디코더 측에서는, 일반적으로 엔트로피 디코더를 포함하는 신호 디코더는 일반적으로 선호되는 포함된 비트 분포 정보에 의존하는 적어도 3개의 인코딩된 신호를 디코딩한다. 상기 비트 분포 정보는 인코딩된 다중-신호 오디오 신호의 부가 정보로 포함되며, 예를 들어 신호 (엔트로피) 인코더의 입력에서 신호의 에너지를 살펴봄으로써 인코더 측에서 도출할 수 있다. 다중-신호 디코더 내의 신호 디코더의 출력은 조인트 신호 프로세서에 입력되어, 인코딩된 신호에 포함된 부가 정보에 따라 조인트 신호 프로세싱을 수행하여 적어도 3개의 처리된 디코딩된 신호를 획득한다. 상기 조인트 신호 프로세서는 인코더 측에서 수행된 조인트 신호 프로세싱을 취소하고 원상태로 되돌리며, 일반적으로 역(inverse) 스테레오 또는 역 다중채널 프로세싱을 수행한다. 바람직한 구현에서, 조인트 신호 프로세서는 프로세싱 작업을 적용하여 미드/사이드 신호로부터 좌/우 신호를 산출한다. 그러나, 조인트 신호 프로세서가 부가 정보로부터 특정 채널 쌍에 대해 듀얼 모노 처리가 이미 존재한다고 판단할 경우, 이러한 상황은 추가 프로세싱을 위해 디코더에 기록되고 사용된다.
디코더 측의 조인트 신호 프로세서는, 인코더 측의 적응형 조인트 신호 프로세서로서 캐스케이드 채널-쌍 트리(cascaded channel pair tree) 또는 단순 트리(simplified tree) 모드에서 작동하는 프로세서일 수 있다. 단순 트리도 일종의 캐스케이드 프로세싱을 나타내지만, 단순 트리는 처리된 쌍의 출력이 처리될 다른 쌍의 입력이 될 수 없다는 점에서 캐스케이드 채널 쌍 트리와 다르다.
조인트 신호 프로세싱을 시작하기 위해서 다중신호 디코더 측에서 조인트 신호 프로세서에 의해 사용되는 제1 채널 쌍과 관련하여, 인코더 측에서 처리된 마지막 채널 쌍이었던 이 제1 채널쌍이 특정 대역에 대해 듀얼 모노를 나타내는 부가 정보를 가지고 있는 경우일 수 있지만, 이러한 듀얼 모노 신호는 나중에 미드 신호 또는 사이드 신호로 채널 쌍 처리에서 사용될 수 있다. 이는 디코더 측에서 디코딩될 적어도 3개의 개별 인코딩된 채널을 획득하기 위해 수행되는 쌍별(pair-wise) 프로세싱과 관련된 대응하는 부가 정보에 의해 시그널링된다.
실시예들은 신호-적응형 조인트 채널 프로세싱을 갖는 MDCT-기반 다중-신호 인코딩 및 디코딩 시스템에 관한 것으로, 여기서 신호는 채널일 수 있고, 다중신호는 다중채널 신호이거나 대안적으로 앰비소닉스(Ambisonics) 컴포넌트 즉, 1차 앰비소닉스의 W, X, Y, Z 또는 고차 앰비소닉스 표현의 기타 다른 컴포넌트와 같은 음장 표현의 컴포넌트인 오디오 신호일 수 있다. 상기 신호는 A 포맷 또는 B 포맷의 신호이거나 음장에 대한 다른 포맷 표현일 수도 있다.
다음으로, 바람직한 실시 예의 추가적인 이점을 설명한다. 상기 코덱은 조인트 스테레오 코딩에 대해 [7]에서 설명한 개념을 도입하여 [6]에서 설명한 대로 임의 채널의 신호 적응형 조인트 코딩의 유연성을 병합하는 새로운 개념을 사용하며, 이는 다음과 같다:
a) 추가 코딩에 지각 화이트닝 신호의 사용(음성 코더에서 사용되는 방식과 유사). 이는 여러 장점이 있다:
ㆍ 코덱 아키텍처의 단순화
ㆍ 잡음 정형(noise shaping) 특성/마스킹 임계값(masking threshold, 예: LPC 계수로서)의 콤팩트 표현
ㆍ 변환 및 음성 코덱 아키텍처를 통합하여 결합된 오디오/음성 코딩 가능
b) 패닝된 소스를 효율적으로 코드화하기 위한 임의 채널의 ILD 파라미터 사용
c) 에너지를 기반으로 처리된 채널 간의 유연한 비트 분포(distribution).
또한 코덱은 더 나아가 주파수 영역 잡음 정형(FDNS, Frequency Domain Noise Shaping)을 사용하여 [9]에서 설명한 스펙트럼 포락선 워핑(spectral envelope warping)과 결합된 [8]에서 설명한 레이트-루프(rate-loop)를 사용하여 신호를 지각(perceptually) 화이트닝한다. 코덱은 또한 ILD 파라미터를 사용하여 평균 에너지 수준으로 FDNS-화이트닝된 스펙트럼을 정규화했다. 조인트 코딩을 위한 채널 쌍은 [6]에 설명된 대로 적응형 방식으로 선택되며, 여기서 스테레오 코딩은 대역별(band-wise) M/S 대 L/R 결정으로 구성된다. 대역별 M/S 결정은 [7]에서 설명한 대로 L/R 및 M/S 모드에서 코드화될 때 각 대역에서 추정된 비트레이트를 기반으로 한다. 대역별 M/S 처리된 채널 간 비트레이트 분포는 에너지를 기반으로 한다.
본 발명에 따르면 적응형 조인트 신호 프로세싱 효율과 전체 스테레오 인코딩 프로세스의 효율성이 향상되며, 모든 채널 쌍에 대해 전송해야 하는 총 정보 비트 양을 크게 감소시킨다.
본 발명의 바람직한 실시예를 첨부된 도면과 함께 설명하며, 도면은 아래와 같다:
도 1은 바람직한 구현에서 단일-채널 전처리의 블록도를 나타낸다;
도 2는 다중-신호 인코더의 블록도의 바람직한 구현을 나타낸다;
도 3은 도 2의 상호-상관 벡터 및 채널 쌍 선택 절차의 바람직한 구현을 나타낸다;
도 4는 바람직한 구현에서 채널 쌍의 인덱싱 방식을 보여준다;
도 5a는 본 발명에 따른 다중-신호 인코더의 바람직한 구현을 나타낸다;
도 5b는 인코딩된 다중-채널 오디오 신호 프레임의 개략도를 나타낸다;
도 6은 도 5a의 적응형 조인트 신호 프로세서에 의해 수행되는 절차를 나타낸다;
도 7은 도 8의 적응형 조인트 신호 프로세서에 의해 수행되는 바람직한 구현을 나타낸다;
도 8은 도 5의 적응형 조인트 신호 프로세서에 의해 수행되는 또 다른 바람직한 구현을 나타낸다;
도 9는 도 5의 양자화 인코딩 프로세서에 의해 사용되는 비트 할당의 수행 목적의 또 다른 절차를 나타낸다;
도 10은 다중-신호 디코더의 바람직한 구현의 블록도를 나타낸다;
도 11은 도 10의 조인트 신호 프로세서에 의해 수행되는 바람직한 구현을 나타낸다;
도 12는 도 10의 신호 디코더의 바람직한 구현을 나타낸다;
도 13은 대역폭 확장 또는 지능형 갭 필링(IGF, intelligent gap filling)의 맥락에서 조인트 신호 프로세서의 또 다른 바람직한 구현을 나타낸다;
도 14는 도10의 조인트 신호 프로세서의 추가적인 바람직한 구현을 나타낸다;
도 15a는 도 10의 조인트 신호 프로세서와 신호 디코더에 의해 수행되는 바람직한 프로세싱 블록들을 나타낸다;
도 15b는 디-화이트닝(de-whitening) 작업과 선택적 기타 절차를 수행하기 위한 후처리기의 구현을 나타낸다.
도 5는 적어도 3개의 오디오 신호를 인코딩하기 위한 다중 신호 인코더의 바람직한 구현을 보여준다. 적어도 3개의 오디오 신호는 신호 처리기(100)로 입력되고, 각 오디오 신호는 개별적으로 전처리되어 적어도 3개의 전처리된 오디오 신호(180)가 획득된다. 여기서 전처리는 전처리된 신호가 전처리 전의 해당 신호에 비해 화이트닝 되도록 수행된다. 적어도 3개의 전처리된 오디오 신호(180)는, 적어도 3개의 전처리된 오디오 신호를 처리하여 적어도 3개의 조인트 프로세싱된 신호, 또는 실시예에서, 후술하는 바와 같이 미처리된 신호와 적어도 2개의 조인트 프로세싱된 신호를 얻기 위해, 전처리된 적어도 3개의 오디오 신호의 처리를 수행하도록 구성된 적응형 조인트 신호 프로세서(200)에 입력된다. 다중-신호 인코더는, 적응형 조인트 신호 프로세서(200)의 출력에 연결되고, 하나 이상의 인코딩된 신호를 얻기 위해, 적응형 조인트 신호 프로세서(200)에 의해 출력된 각각의 신호를 인코딩하도록 구성된 신호 인코더(300)를 포함한다. 신호 인코더(300)의 출력에서 이 인코딩된 신호는 출력 인터페이스(400)로 전달된다. 출력 인터페이스(400)는 인코딩된 다중-신호 오디오 신호(500)을 전송하거나 저장하도록 구성되며, 출력 인터페이스(400)의 출력에서 인코딩된 다중-신호 오디오 신호(500)는, 신호 인코더(300)에 의해 생성된 하나 이상의 인코딩된 신호, 화이트닝 정보와 같이 신호 전처리기(200)에 의해 수행된 전처리 관련 부가 정보(520)를 포함하고, 추가적으로 인코딩된 다중-신호 오디오 신호는 적응형 조인트 신호 프로세싱 관련 부가 정보와 같이 적응형 조인트 신호 프로세싱이기(200)에 의해 수행된 프로세싱 관련 부가 정보(530)를 추가적으로 포함한다.
바람직한 구현에서, 신호 인코더(300)는, 적응형 조인트 신호 프로세서(200)에 의해 생성되고, 블록(200)에서 블록(300)으로 전달될 뿐만 아니라 부가 정보(530) 내에서 출력 인터페이스(400)로 전달되고, 이에 따라 인코딩된 다중-신호 오디오 신호로 전달되는 비트 분포 정보(536)에 의해 제어되는 레이트 루프 프로세서(rate loop processor)를 포함한다. 인코딩된 다중- 신호 오디오 신호(500)는 일반적으로 프레임별(frame-by-frame) 방식으로 생성되며, 일반적으로 신호 전처리기(100) 내에서 대응하는 윈도윙(windowing) 및 시간-주파수 변환이 수행된다.
도 5b에서는 인코딩된 다중-신호 오디오 신호(500)의 프레임의 일 예를 도시한다. 도 5b는 블록(300)에 의해 생성된 개별 인코딩된 신호에 대한 비트 스트림 부분(510)을 보여준다. 블록(520)은 블록(100)에 의해 생성되고 출력 인터페이스(400)에 전달되는 전처리 부가 정보에 관한 것이다. 또한, 조인트 프로세싱 부가 정보(530)는 도 5a의 적응형 조인트 신호 프로세서(200)에 의해 생성되고, 도 5b에 설명된 인코딩된 다중-신호 오디오 신호 프레임에 도입된다. 도 5b의 우측에는 인코딩된 다중-신호 오디오 신호의 다음 프레임이 직렬 비트 스트림에 기록되고, 도 5b의 좌측에는 인코딩된 다중-신호 오디오 신호의 이전 프레임이 기록된다.
후술하는 바와 같이, 전처리는 시간적 잡음 정형 프로세싱 및/또는 주파수 영역 잡음 정형 프로세싱 또는 LTP(long term prediction) 프로세싱 또는 윈도윙 프로세싱(windowing processing) 작업을 포함한다. 대응하는 전처리 부가 정보(550)는 적어도 하나의 시간적 잡음 정형(TNS, temporal noise shaping) 정보, 주파수 영역 잡음 정형(FDNS, frequency domain noise shaping) 정보, 장기 예측(LTP, long term prediction) 정보 또는 윈도윙(windowing) 또는 윈도우 정보 중 적어도 하나를 포함할 수 있다.
시간적 잡음 정형은 주파수에 대한 스펙트럼 프레임의 예측을 포함한다. 높은 주파수를 갖는 스펙트럼 값은 주파수가 더 낮은 스펙트럼 값의 가중 조합(weighted combination)을 사용하여 예측된다. TNS 부가 정보는 주파수에 대한 예측에 의해 도출된 LPC 계수라고도 알려진 가중 조합의 가중치를 포함한다. 화이트닝된 스펙트럼 값은 예측 잔차 값, 즉, 원래 스펙트럼 값과 예측된 스펙트럼 값 사이의 스펙트럼 값당 차이이다. 디코더 측에서 인코더 측에서의 TNS 프로세싱을 원상태로 되돌리기 위해 LPC 합성 필터링의 역 예측을 수행한다.
FDNS 프로세싱은 대응하는 스펙트럼 값에 대한 가중 인자를 사용하는 프레임의 가중치 스펙트럼 값을 포함하고, 여기서 가중치 값은 윈도우된 시간 영역 신호의 블록/프레임으로부터 계산된 LPC 계수에서 도출된다. FDNS 부가 정보는 시간 영역 신호에서 유도된 LPC 계수의 표현을 포함한다.
본 발명에 유용한 또 다른 화이트닝 절차도 균등화된 스펙트럼이 비균등화된 버전보다 더 화이트닝된 버전을 나타내도록 하는 스케일 인자를 사용하는 스펙트럼 균등화이다. 부가 정보는 가중치에 사용되는 스케일 인자일 수 있으며, 역(inverse) 절차는 전송된 스케일 인자들을 사용하여 디코더 측에서의 균등화를 원상태로 되돌리는 것을 포함한다.
또 다른 화이트닝 절차는 음성 코딩 분야에서 알려진 시간 영역 프레임으로부터 유도된 LPC 계수에 의해 제어되는 역 필터를 사용하여 스펙트럼의 역 필터링을 수행하는 것을 포함한다. 부가 정보는 역 필터 정보이며, 이러한 역 필터링은 전송된 부가 정보를 사용하여 디코더에서 원상태로 되돌려진다.
또 다른 화이트닝 절차는 시간 영역에서 LPC 분석을 수행하고 그 후 스펙트럼 범위로 변환되는 시간 영역 잔차 값을 산출하는 것을 포함한다. 일반적으로, 이렇게 얻은 스펙트럼 값은 FDNS에 의해 얻은 스펙트럼 값과 유사하다. 디코더 측에서, 후처리는 전송된 LPC 계수 표현을 사용하여 LPC 합성을 수행하는 것을 포함한다.
조인트 프로세싱 부가 정보(530)는 바람직한 구현에서, 쌍별(pair-wise) 프로세싱 부가 정보(532), 에너지 스케일링 정보(534) 및 비트 분포 정보(536)를 포함한다. 쌍별 프로세싱 부가 정보는 적어도 하나의 채널 쌍 부가 정보 비트, 전체(full) 미드/사이드 또는 듀얼 모노 또는 대역별(band-wise) 미드/사이드 정보를 포함할 수 있으며, 대역별 미드/사이드 인디케이션의 경우, 프레임의 각 대역폭에 대해, 대역이 미드/사이드 또는 L/R 처리에 의해 처리되는지 여부를 나타내는 미드/사이드 마스크를 포함할 수 있다. 쌍별 프로세싱 부가 정보는 추가적으로 IGF(intelligent gap filling) 또는 SBR(spectral band replication) 정보와 같은 기타 대역폭 확장 정보를 포함할 수 있다.
에너지 스케일링 정보(534)는 각각의 화이트닝된 즉, 전처리된 신호에 대해, 에너지 스케일링이 업스케일링인지 다운 스케일인지 여부를 나타내는 플래그 및 에너지 스케일링 값을 포함할 수 있다. 예를 들어, 8개 채널의 경우, 블록(534)은 8개의 채널 각각에 대해, 인코더 내에서 업스케일링 또는 다운 스케일이 수행되었는지 여부 또는 이것이 디코더 내에서 수행되어야 하는지 여부를 나타내는 8개의 플래그와, 8개의 양자화된 ILD 값과 같은 8개의 스케일링 값을 포함할 수 있다. 인코더의 업스케일링은 프레임 내의 특정 전처리된 채널의 실제 에너지가 모든 채널 중 프레임에 대한 평균 에너지보다 낮을 때 필요하며, 다운스케일링은 프레임 내의 특정 채널의 실제 에너지가 프레임 내의 모든 채널에 대한 평균 에너지보다 높을 때 필요하다. 조인트 프로세싱 부가 정보는 조인트 프로세싱된 각각의 신호 또는 각각의 조인트 프로세싱된 신호, 및 사용 가능한 경우 미처리된 신호에 대한 비트 분포 정보를 포함할 수 있으며, 이 비트 분포 정보는 도 5a에 도시된 바와 같이 신호 인코더(300)에 의해 사용되고, 인코딩된 신호로부터 입력 인터페이스를 통해 이 비트 스트림 정보를 수신하는 도 10에 도시된 신호 디코더에 의해 상응하여 사용된다.
도 6은 적응형 조인트 신호 프로세서의 바람직한 구현예를 설명한다. 적응형 조인트 신호 프로세서(200)는 각각의 전처리된 오디오 신호가 정규화된 에너지를 갖도록, 적어도 3개의 전처리된 오디오 신호의 광대역 에너지 정규화를 수행하도록 구성된다. 출력 인터페이스(400)는 추가 부가 정보로서, 도 5b의 에너지 스케일링 정보(534)에 해당하는 각각의 전처리된 오디오 신호에 대한 광대역 에너지 정규화 값을 포함하도록 구성된다. 도 6은 광대역 에너지 정규화의 바람직한 구현예를 보여준다. 단계(211)에서, 각 채널에 대한 광대역 에너지를 계산한다. 블록(211)에 대한 입력은 전처리된(화이트닝된) 채널로 구성된다. 그 결과는 Ctotal 채널의 각 채널에 대한 광대역 에너지 값이다. 블록(212)에서, 평균 광대역 에너지는 일반적으로 개별 값을 합산하고 개별 값을 채널 수로 나눠서 계산한다. 하지만, 기하 평균과 같은 다른 평균 계산 절차가 수행될 수도 있다.
단계(213)에서 각각의 채널이 정규화된다. 이를 위해, 스케일링 인자 또는 값, 및 업 또는 다운스케일링 정보가 결정되며, 이에 따라 블록(213)은 534a로 표시된 각 채널에 대한 스케일링 플래그를 출력하도록 구성된다. 블록(214)에서, 블록(212)에서 결정된 스케일링 비율의 실제 양자화가 수행되며, 양자화된 스케일링 비율은 각 채널에 대해 534b로 출력된다. 이 양자화된 스케일링 비율은, 평균 에너지를 가진 기준 채널에 대한 특정 채널 k에 대해서 채널 간 레벨 차이
Figure pct00001
로도 표시된다. 블록(215)에서, 각 채널의 스펙트럼은 양자화된 스케일링 비율을 사용하여 스케일링된다. 블록(215)의 스케일링 작업은 블록(213)의 출력, 즉, 업스케일링 또는 다운스케일링 수행 여부에 대한 정보에 의해 제어된다. 블록(215)의 출력은 각 채널에 대해 스케일링된 스펙트럼을 나타낸다.
도 7은 캐스케이드 쌍 프로세싱(cascaded pair processing)에 대한 적응형 조인트 신호 프로세서(200)의 바람직한 구현예를 보여준다. 적응형 조인트 신호 프로세서(200)는 블록(221)에 표시된 바와 같이 각각의 가능한 채널 쌍에 대한 상호-상관 값을 계산하도록 구성된다. 블록(229)은 가장 높은 상호-상관값을 가진 쌍의 선택을 나타내며, 블록(232a)에서는 이 쌍에 대해 조인트 스테레오 프로세싱 모드가 결정된다. 조인트 스테레오 프로세싱 모드는 전체 프레임에 대한 미드/사이드 코딩, 대역별 방식의 미드/사이드 코딩을 포함할 수 있으며, 즉, 여기서 복수 대역의 각 밴드에 대해, 이 밴드가 미드/사이드 또는 L/R 모드에서 처리되는지 여부, 또는 실제 프레임에 대해, 고려중인 이 특정 쌍에 대해 전대역 듀얼-모노 처리가 수행되어야 하는지 여부를 결정한다. 블록(232b)에서, 선택된 쌍의 조인트 스테레오 프로세싱은 블록(232a)에서 결정된 모드를 사용하여 실제로 수행된다.
블록(235, 238)에서, 전체 트리를 사용한 캐스케이드 처리 또는 단순 트리 프로세싱 또는 비-캐스케이드 프로세싱이 특정 종료 기준까지 계속된다. 특정 종료 기준에서, 예를 들어, 블록(229)에 의한 쌍 인디케이션 출력과 블록(232a)에 의해 출력된 스테레오 모드 프로세싱 정보가 생성되어, 도 5b에서 설명한 쌍별 프로세싱 부가 정보(532)의 비트 스트림에 입력된다.
도 8은 도 5a의 신호 인코더(300)에 의해 수행되는 신호 인코딩을 준비하기 위한 목적으로 적응형 조인트 신호 프로세서의 바람직한 구현예를 나타낸다. 이를 위해, 적응형 조인트 신호 프로세서(200)는 블록(282)에서 처리된 각각의 스테레오 신호에 대한 신호 에너지를 계산한다. 블록(282)은 입력으로 조인트 스테레오 프로세싱 신호를 수신하며, 이 채널이 유용한 채널 쌍을 형성하기 위해 다른 채널과 충분한 상호-상관성을 갖는 것으로 밝혀지지 않아서 스테레오 처리를 받지 못한 채널의 경우, 이 채널은 역전된(reversed) 또는 수정된(modified) 또는 비-정규화된(non-normalized) 에너지로 블록(282)으로 입력된다. 이는 일반적으로 "에너지 복구된 신호(energy reverted signal)"로 표현되지만, 도 6의 블록(215)에서 수행한 에너지 정규화는 반드시 전체로 복구될 필요는 없다. 다른 채널과 함께 채널 쌍 처리를 위해 유용하다고 확인되지 않은 채널 신호를 처리할 수 있는 특정 대안이 존재한다. 하나의 절차는 도 6의 블록(215)에서 처음 수행된 스케일링을 역으로 되돌리는 것이다. 다른 절차는 스케일링을 부분적으로만 되돌리거나, 또는 다른 절차는 경우에 따라 특정 다른 방식으로 스케일링된 채널에 가중치를 부여하는 것이다.
블록(284)에서, 적응형 조인트 신호 프로세서(200)에 의해 출력되는 모든 신호 중 총 에너지가 계산된다. 비트 분포 정보는 블록(286)에서 각각의 스테레오 처리 신호에 대한 신호 에너지, 또는 사용 가능한 경우, 에너지 복구된 또는 에너지 가중된 신호에 기반하여 각각의 신호에 대해 산출되며, 블록(284)에 의해 출력된 전체 에너지에 기반한다. 블록(286)에 의해 생성된 이 부가 정보(536)는 한편으로 도 5a의 신호 인코더(300)로 전달되고, 추가적으로 이 비트 분포 정보가 도 5a 또는 도 5b의 인코딩된 다중-신호 오디오 신호(500)에 포함되도록 논리 연결(530)을 통해 출력 인터페이스(400)로 전달된다.
실제 비트 할당은 도 9에 도시된 절차에 기초하여 바람직한 실시예에서 수행된다. 첫 번째 절차에서, 비-LFE(non-low frequency enhancement) 채널에 대한 최소 비트 수가 할당되고, 가능하다면, 저주파 향상 채널 비트를 할당한다. 이러한 최소 비트 수는 특정 신호 콘텐츠에 관계없이 신호 인코더 (300)에 의해 요구된다. 나머지 비트는 도 8의 블록(286)에 의해 생성된 비트 분포 정보(536)에 따라 할당되고 블록(291)에 입력된다. 할당은 양자화된 에너지 비율에 기초하여 수행되며, 비-양자화된 에너지(non-quantized energy)보다 양자화된 에너지 비율을 사용하는 것이 바람직하다.
단계(292)에서, 개선(refinement)이 수행된다. 나머지 비트가 할당되고 그 결과가 사용 가능한 비트 수보다 높도록 양자화가 되는 경우, 블록(291)에서 할당된 비트의 감산이 수행되어야 한다. 그러나 블록(291)의 할당 절차가 추가 할당되어야 할 비트가 여전히 존재하도록 에너지 비율의 양자화가 되는 경우, 이러한 비트는 개선 단계(292)에서 추가로 제공되거나 분배될 수 있다. 개선 단계까지, 신호 인코더에 의해 사용할 비트가 여전히 존재하는 경우, 최종 공여(donation) 단계 (293)가 수행되고, 최종 공여는 최대 에너지로 채널에 수행된다. 단계(293)의 출력에서, 각 신호에 대해 할당된 비트 예산(bit budget)이 이용 가능하다.
단계(300)에서, 단계(290, 291, 292, 293)의 과정에 의해 생성된 할당된 비트 예산을 사용하여 각 신호의 양자화 및 엔트로피 인코딩이 수행된다. 기본적으로, 비트 할당은 더 높은 에너지 채널/신호가 더 낮은 에너지 채널/신호보다 더 정밀하게 양자화되는 방식으로 수행된다. 중요하게도 비트 할당은 원래 신호 또는 화이트닝 된 신호를 사용하여 수행되지 않지만, 조인트 채널 프로세싱으로 인해 적응형 조인트 신호 프로세싱으로 입력된 신호와 다른 에너지를 갖는 적응형 조인트 신호 프로세서(200)의 출력에서의 신호를 사용하여 수행된다. 이러한 맥락에서, 채널 쌍 프로세싱이 선호되는 구현임에도 불구하고, 다른 채널 그룹이 상호 상관에 의해 선택되고 처리될 수 있다는 것도 주목해야 한다. 예를 들어, 3 개 또는 4 개 채널의 그룹은 적응형 조인트 신호 프로세서를 통해 형성될 수 있으며, 이에 따라 캐스케이드 전체 절차 또는 단순화된 트리를 사용하는 캐스케이드 절차 또는 비-캐스케이드 절차 내에서 처리될 수 있다.
블록(290, 291, 292, 293)에 설명된 비트 할당은 인코딩된 다중-신호 오디오 신호(500)로부터 추출된 분포 정보(536)를 사용하여, 도 10의 신호 디코더(700)에 의해 디코더 측에서 동일한 방식으로 수행된다.
Figure pct00002
바람직한 실시예들
본 구현에서, 코덱은 조인트 스테레오 코딩에 대해 [7]에 설명된 개념을 도입하여 [6]에 설명된 임의 채널의 신호 적응형 조인트 코딩의 유연성에 병합하는 새로운 개념을 사용하며, 이는 다음과 같다:
a) 추가 코딩에 지각적인 화이트닝 신호의 사용(음성 코더에서 사용되는 방식과 유사). 이는 여러 장점이 있다:
ㆍ 코덱 아키텍처의 단순화
ㆍ 잡음 정형(noise shaping) 특성/마스킹 임계값(예: LPC 계수)의 콤팩트 표현.
ㆍ 변환 및 음성 코덱 아키텍처를 통합하여 결합된 오디오/음성 코딩 가능.
b) 패닝된 소스를 효율적으로 코드화하기 위한 임의 채널의 ILD 파라미터 사용.
c) 에너지를 기반으로 처리된 채널 간의 유연한 비트 분포
또한 코덱은 주파수 영역 잡음 정형(FDNS, Frequency Domain Noise Shaping)을 사용하여 [9]에서 설명된 스펙트럼 포락선 워핑(spectral envelope warping)과 결합된 [8]에서 설명된 레이트-루프(rate-loop)를 사용하여 신호를 지각적으로 화이트닝한다. 코덱은 또한 ILD 파라미터를 사용하여 평균 에너지 수준으로 FDNS-화이트닝된 스펙트럼을 정규화했다. 조인트 코딩을 위한 채널 쌍은 [6]에 설명된 대로 적응형 방식으로 선택되며, 여기서 스테레오 코딩은 대역별 M/S 대(vs) L/R 결정으로 구성된다. 대역별 M/S 결정은 [7]에서 설명한 대로 L/R및 M/S 모드에서 코드화될 때 각 대역에서 추정된 비트레이트를 기반으로 한다. 대역별 M/S 처리된 채널 간 비트레이트 분포는 에너지를 기반으로 한다.
실시 예들은 신호-적응형 조인트 채널 프로세싱(signal-adaptive joint channel processing)를 갖는 MDCT-기반 다중-신호 인코딩 및 디코딩 시스템에 관한 것으로, 여기서 신호는 채널일 수 있고, 다중 신호는 다중 채널 신호이거나 대안 적으로 1 차 앰비소닉스(Ambisonics)에서 W, X, Y, Z 와 같은 앰비소닉스 컴포넌트 또는 고차 앰비소닉스 표현에서 기타 다른 컴포넌트와 같은 음장 표현(sound field description)의 컴포넌트가 되는 오디오 신호이다. 이 신호는 또한 A-포맷, B-포맷 또는 음장의 기타 포맷 표현의 신호일 수 있다. 따라서, "채널"에 대해 주어진 동일한 개시는 다중-신호 오디오 신호의 "컴포넌트" 또는 다른 "신호"에 대해서도 유효하다.
Figure pct00003
화이트닝된 스펙트럼까지 인코더 단일 채널 프로세싱
각각의 단일 채널 k는 도1의 블록도에 도시된 처리 단계에 따라 분석되고 화이트닝된 MDCT-영역 스펙트럼으로 변환된다.
시간-영역 과도(Transient) 검출기, 윈도윙(Windowing), MDCT, MDST 및 OLA의 처리 블록은 [8]에 설명되어 있다. MDCT 및 MDST는 MCLT(Modulated Complex Lapped Transform)를 형성하고; MDCT와 MDST를 별도로 수행하는 것은 MCLT를 수행하는 것과 같고; "MCLT to MDCT"는 MCLT의 MDCT 부분만 취하고 MDST를 버리는 것을 나타낸다.
TNS(Temporal Noise Shaping)는 TNS의 순서와 FDNS(Frequency Domain Noise Shaping)가 적응적이라는 점을 추가하여 [8]에서 설명한 것과 유사하게 수행된다. 도면에서 2개의 TNS 블록이 존재하는 것은 FDNS와 TNS의 순서를 변경할 수 있는 가능성으로 이해되어야 한다. TNS 및 FDNS의 순서 결정은 예를 들어 [9]에 설명된 것 중 하나일 수 있다.
FDNS(Frequency Domain Noise Shaping) 및 FDNS 파라미터 계산은 [9]에 설명된 절차와 유사하다. 한 가지 차이점은 TNS가 비활성화된 프레임에 대한 FDNS 파라미터가 MCLT 스펙트럼으로부터 계산된다는 것이다. TNS가 활성화된 프레임에서, MDST 스펙트럼은 MDCT 스펙트럼으로부터 추정된다.
도 1은 개별적으로 전처리된 화이트닝 신호(180)를 얻기 위해 적어도 3개의 오디오 신호의 화이트닝을 수행하는 신호 프로세서(100)의 바람직한 구현을 도시한다. 신호 전처리기(100)는 채널 k의 시간 영역 입력 신호를 위한 입력을 포함한다. 이 신호는 윈도우어(windower, 102), 과도 검출기(104) 및 LTP 파라미터 계산기(106)에 입력된다. 과도 검출기(104)는 입력 신호의 현재 부분이 과도인지 여부를 검출하고, 과도인 것으로 확인되면 과도 검출기(104)는 윈도우어(102)가 더 작은 윈도우 길이를 설정하도록 제어한다. 윈도우 표시(window indication), 즉 어떤 윈도우 길이가 선택되었는지도 부가 정보에 포함되며, 특히 도 5b의 전처리 부가 정보(520)에 포함된다. 추가적으로, 블록(106)에 의해 계산된 LTP 파라미터도 부가 정보 블록에 도입되고, 이러한 LTP 파라미터는 예를 들어, 디코딩된 신호의 후처리의 일종 또는 당업계에 알려진 기타 다른 절차를 수행하는 데 사용될 수 있다. 윈도우어(140)는 시간-스펙트럼(time-to-spectral) 변환기(108)로 도입되는 윈도우화 된 시간 영역 프레임을 생성한다. 시간-스펙트럼 변환기 (108)는 바람직하게는 복합 랩핑 변환(complex lapped transform)을 수행한다. 이 복합 랩핑 변환으로부터, 블록(112)에 표시된 바와 같이 MDCT 변환의 결과를 얻기 위해 실수부(real part)가 도출될 수 있다. 블록(112)의 결과, 즉 MDCT 스펙트럼이 TNS 블록(114a)과 후속적으로 연결된 FDNS 블록(116)으로 입력된다. 대안적으로, FDNS만 TNS 블록(114a) 없이 수행되거나 그 반대로 수행되거나 또는 블록(114b)에 표시된 바와 같이 FDNS 처리 후에 TNS 처리가 수행된다. 일반적으로, 블록(114a) 또는 블록(114b)이 존재한다. 블록(114b)의 출력에서, 블록(114a)이 존재하지 않거나 또는 블록(116)의 출력에서 블록(114b)이 존재하지 않을 때, 화이트닝된 개별 처리된 신호, 즉, 각 채널 k에 대해 전처리된 신호가 획득된다. TNS 블록(114a 또는 114b) 및 FDNS 블록(116)은 전처리 정보를 생성하여 부가 정보(520)로 전달한다.
어떤 경우에도 블록(108) 내에서 복소 변환(complex transform)을 가질 필요는 없다. 추가적으로, MDCT 만 수행하는 시간-스펙트럼 변환기도 특정 애플리케이션에 대해 충분하며, 변환의 허수부(imaginary part)가 필요한 경우, 허수부도 이 경우와 같이 실수부로부터 추정할 수 있다. TNS/FDNS 처리의 특징은 TNS가 비활성화된 경우 FDNS 파라미터가 복소 스펙트럼(complex spectrum), 즉 MCLT 스펙트럼으로부터 계산되는 반면, TNS가 활성화된 프레임에서는 MDST 스펙트럼은 MDCT 스펙트럼으로부터 추정되므로 주파수 영역 잡음 정형 작업의 경우 항상 전체 복소 스펙트럼을 사용할 수 있다.
Figure pct00004
조인트 채널 인코딩 시스템 설명
전술한 시스템에서, 각각의 채널이 화이트닝된 MDCT 영역으로 변환된 후, [6]에서 설명된 알고리즘을 기반으로 조인트 코딩을 위한 임의 채널 간의 다양한 유사성에 대한 신호-적응적 활용(signal-adaptive exploitation)이 적용된다. 이러한 절차로부터, 각 채널 쌍이 감지되고 대역별 M/S 변환을 사용하여 조인트 코딩되도록 선택된다.
인코딩 시스템의 개요는 도 2에 도시되어 있다. 단순화하기 위해 블록 화살표는 단일 채널 프로세싱 (즉, 처리 블록이 각각의 채널에 적용됨)을 나타내고, 블록 "MDCT-영역 분석"은 도 1에 상세히 표현되어 있다.
다음 단락에서, 프레임당 적용되는 알고리즘의 개별 단계에 대해 상세히 설명한다. 설명하는 알고리즘의 데이터 흐름도는 도 3에 도시되어 있다.
시스템의 초기 구성에서, 다중-채널 조인트 코딩 툴이 활성화된 채널을 나타내는 채널 마스크가 있다는 점을 유의해야 한다. 따라서, LFE (Low-Frequency Effects/Enhancement) 채널이 있는 입력의 경우, 툴의 처리 단계에서 고려되지 않는다.
Figure pct00005
평균 에너지를 향한 모든 채널의 에너지 정규화
M/S 변환은 ILD가 존재하는 경우, 즉 채널이 패닝된 경우 효율적이지 않다. 우리는 모든 채널의 지각적으로 화이트닝된 스펙트럼의 진폭을 평균 에너지 레벨
Figure pct00006
로 정규화하여 이 문제를 방지한다.
o 각각의 채널
Figure pct00007
에 대해 에너지
Figure pct00008
를 산출
Figure pct00009
여기서,
Figure pct00010
은 스펙트럼 계수의 총 개수임.
o 평균 에너지 산출
Figure pct00011
o 평균 에너지를 향한 각 채널의 스펙트럼 정규화
if
Figure pct00012
(downscaling)
Figure pct00013
여기서,
Figure pct00014
는 스케일 비율임. 스케일 비율은 균일하게 양자화되고 부가 정보 비트로서 디코더로 전송됨.
Figure pct00015
여기서,
Figure pct00016
그 다음, 스펙트럼이 최종적으로 스케일링되는 양자화된 스케일링 비율은 다음과 같이 주어짐
Figure pct00017
if
Figure pct00018
(upscaling)
Figure pct00019
and
Figure pct00020
여기서,
Figure pct00021
는 이전 경우와 같이 산출됨.
디코더에서 다운스케일링/업스케일링을 가졌는지 여부를 구별하고 정규화를 복구(revert) 하기 위해, 각 채널에 대한
Figure pct00022
값 외에 1비트 플래그 (0 = 다운스케일링/1 = 업스케일링)가 전송된다.
Figure pct00023
는 전송된 양자화 스케일링 값
Figure pct00024
에 사용된 비트 수를 나타내며, 이 값은 인코더와 디코더에 알려져 있으며 인코딩된 오디오 신호로 전송될 필요가 없다.
Figure pct00025
가능한 모든 채널 쌍에 대한 정규화된 채널 간 상호-상관 값 산출
이 단계에서, 어떤 채널 쌍이 가장 높은 유사성을 가지고 있어 스테레오 조인트 코딩을 위한 쌍으로 선택하기에 적합한지를 결정하고 선택하기 위해, 가능한 각 채널 쌍에 대한 채널 간 정규화된 상호-상관 값을 산출한다. 각 채널 쌍에 대한 정규화된 상호-상관 값은 다음과 같이 상호-스펙트럼에 의해 주어진다.
Figure pct00026
여기서,
Figure pct00027
Figure pct00028
은 프레임당 스펙트럼 계수의 총 개수이고,
Figure pct00029
Figure pct00030
는 고려중인 채널 쌍의 각 스펙트럼임.
각 채널 쌍에 대한 정규화된 상호-상관 값은 상호 -상관 벡터에 저장된다.
Figure pct00031
여기서,
Figure pct00032
는 가능한 최대 쌍 개수임.
도 1에 도시된 바와 같이, 과도 감지기에 따라 상이한 블록 크기(예: 10 또는 20ms 윈도우 블록 크기)를 가질 수 있다. 따라서. 두 채널의 스펙트럼 분해능이 동일하다고 주어질 때 채널 간 상호-상관이 계산된다. 그렇지 않은 경우, 값이 0으로 설정되므로, 이러한 채널 쌍은 조인트 코딩에 선택되지 않음을 보장한다.
각 채널 쌍을 고유하게 표현하는 인덱싱 방식이 사용된다. 6개의 입력 채널을 인덱싱하는 이러한 방식의 예가 도 4에 도시되어 있다.
동일한 인덱싱 방식이 알고리즘 전체에 걸쳐 유지되며 채널 쌍을 디코더에 시그널링 하는데도 사용된다. 하나의 채널 쌍을 시그널링 하는데 필요한 비트 수는 아래와 같다.
Figure pct00033
Figure pct00034
채널-쌍 선택 및 조인트 코딩된 스테레오 프로세싱
상호-상관 벡터를 계산한 후, 조인트 코딩을 위해 고려되어야 하는 제1 채널-쌍은 가장 높은 상호-상관 값을 가지며 바람직하게는 0.3의 최소값 임계값보다 높은 값을 가진 것이다.
선택된 채널 쌍은 스테레오 인코딩 절차, 즉 대역별 M/S 변환에 대한 입력으로 제공된다. 각 스펙트럼 대역에 대해, M/S 또는 이산 L/R 코딩을 사용하여 채널을 코딩할지 여부는 각각의 경우에 대해 예상된 비트레이트에 따라 결정된다. 비트 측면에서 부담이 적은 코딩 방법이 선택된다. 이 절차는 [7]에 자세히 설명되어 있다.
이 프로세스의 출력은 선택된 채널- 쌍의 각 채널에 대해 업데이트된 스펙트럼으로 귀결된다. 또한, 이 채널 쌍에 관해 디코더와 공유해야 하는 정보(부가 정보), 즉, 어떤 스테레오 모드가 선택되었는지 (Full M/S, 듀얼 모노 또는 대역별 M /S), 대역별 M/S가 선택된 모드인 경우 M/S 코딩이 선택되었는지(1) 또는 L/R (0)인지를 나타내는 각자의 마스크를 생성한다.
다음 단계에 대해 알고리즘의 두 가지 변형이 있다:
o 캐스케이드 채널(Cascaded channel) - 쌍 트리(pair tree)
이 변형의 경우, 선택한 채널쌍의 변경된 스펙트럼(예를 들어, M/S 변환이 있는 경우)의 영향을 받는 채널 쌍에 대해 상호-상관 벡터가 업데이트된다. 예를 들어, 6개 채널이 있는 경우, 선택 및 처리된 채널 쌍이 도 4의 0으로 인덱스 된 경우라면, 스테레오 처리 후 영향을 받는 채널 쌍, 예컨대, 인덱스 0,1,2,3,4,5,6,7, 8에 대한 상호-상관을 다시 계산해야 하는 것보다 채널 0과 채널 1의 코딩을 의미한다.
그 다음, 절차는 전술한 바와 같이 계속된다. 최대 상호-상관이 있는 채널-쌍을 선택하고 최소 임계 값 이상인지 확인하고 스테레오 작업을 적용한다. 이것은 이전 채널-쌍의 일부였던 채널들이 다시 선택되어 새로운 채널-쌍, 용어 "캐스케이드"에 대한 입력으로 제공될 수 있음을 의미한다. 이것은 채널-쌍의 출력과 공간 영역에서 다른 방향을 나타내는 다른 임의의 채널 사이에 남아있는 상관 관계가 여전히 존재할 수 있기 때문에 발생할 수 있다. 물론, 동일한 채널-쌍을 두 번 선택해서는 안된다.
허용되는 최대 반복 횟수 (절대 최대값은 P)에 도달하거나 상호-상관 벡터를 업데이트 한 후 채널-쌍 값이 임계 값 0.3을 초과하지 않은 경우(임의 채널 간에 상관관계 없음) 절차가 계속된다.
o 단순 트리(Simplified tree)
캐스케이드 채널-쌍 트리 프로세스는 모든 임의 채널의 상관성을 제거하고 최대 에너지 압축을 제공하기 때문에 이론적으로 최적이다. 다른 한편으로, 선택된 채널 쌍의 수가
Figure pct00035
보다 많을 수 있으므로 추가적인 계산 복잡성(스테레오 작업의 M/S 결정 프로세스에서 비롯됨)을 초래하고 각 채널 쌍에 대해 디코더로 전송되어야 하는 추가 메타 데이터가 필요하다.
단순 트리 변형의 경우, "캐스케이드"가 허용되지 않는다. 이는 전술한 프로세스에서 상호-상관 벡터를 업데이트하는 동안 이전 채널-쌍 스테레오 작업의 영향을 받은 채널-쌍의 값이 다시 계산되지 않고 0으로 설정될 때 보장된다. 그러므로, 채널 중 하나가 이미 기존 채널-쌍의 일부인 채널 쌍을 선택할 수 없다.
이는 도 2의 "적응형 조인트 채널 프로세싱" 블록을 설명하는 변형예이다.
이 경우, 선택할 수 있는 최대 채널-쌍이
Figure pct00036
이므로 미리 정의된 채널-쌍 (예: L 및 R, 후면 L 및 후면 R)이 있는 시스템과 유사한 복잡성이 발생한다.
선택한 채널-쌍의 스테레오 작업이 채널의 스펙트럼을 변경하지 않는 경우가 있을 수 있음을 유의해야 한다. 이는 M/S 결정 알고리즘이 코딩 모드가 "듀얼 모노" 여야 한다고 결정할 때 발생한다. 이 경우, 관련된 임의의 채널은 별도로 코딩되므로 더 이상 채널-쌍으로 간주되지 않는다. 또한, 상호-상관 벡터를 업데이트해도 효과가 없다. 프로세스를 계속하기 위해서는, 그 다음으로 가장 높은 값을 가진 채널-쌍이 고려된다. 이 경우의 단계들은 전술한 바와 같이 계속된다.
Figure pct00037
이전 프레임의 채널 쌍 선택 (스테레오 트리) 유지
많은 경우 프레임에서 프레임으로 임의의 채널-쌍의 정규화된 상호-상관 값이 근접할 수 있으므로, 선택이 이 근접 값 사이에서 자주 전환될 수 있다. 이로 인해 빈번한 채널-쌍 트리 전환이 발생하여 출력 시스템에 가청 불안정성(audible instabilities)을 초래할 수 있다. 따라서, 새로운 채널 쌍 집합이 신호가 크게 변경되고 임의 채널 간의 유사성이 변경된 경우에만 선택되는 안정화 메커니즘을 사용하도록 선택된다. 이를 감지하기 위해, 현재 프레임의 상호-상관 벡터와 이전 프레임의 벡터를 비교하고 그 차이가 특정 임계 값보다 크면 새로운 채널 쌍을 선택하도록 해준다.
상호-상관 벡터의 시간의 변동은 다음과 같이 산출된다:
Figure pct00038
만약
Figure pct00039
이면, 이전 단계에서 설명한대로 조인트 코딩할 새로운 채널-쌍을 선택할 수 있다. 선택한 임계 값은 아래와 같이 주어진다.
Figure pct00040
반면, 차이가 작으면 이전 프레임과 동일한 채널-쌍 트리가 사용된다. 주어진 각각의 채널 쌍에 대해, 전술한대로 대역별 M/S 연산이 적용된다. 그러나 주어진 채널-쌍의 정규화된 상호-상관 값이 임계값 0.3을 초과하지 않으면 새로운 트리를 만드는 새로운 채널 쌍의 선택이 시작된다.
Figure pct00041
단일 채널의 에너지 복구(revert)
채널 쌍 선택을 위한 반복 프로세스가 종료된 후 채널/쌍의 일부가 아니어서 별도로 코딩되는 채널이 있을 수 있다. 이러한 채널의 경우, 평균 에너지 수준에 대한 에너지 수준의 초기 정규화가 그들의 원래 에너지 수준으로 복구된다. 업스케일링 또는 다운스케일링을 시그널링하는 플래그에 따라 이러한 채널의 에너지는 양자화된 스케일링 비율
Figure pct00042
의 역(inverse)을 사용하여 복구된다.
Figure pct00043
다중-채널 프로세싱을 위한 IGF
IGF 분석과 관련하여, 스테레오 채널 쌍의 경우 [10]에 상세히 설명된 대로 추가 조인트 스테레오 처리가 적용된다. 이는 IGF 스펙트럼의 특정 대상 범위(destination range)에 대해 신호는 높은 상관성이 있는 패닝된 음원(panned sound source)이 될 수 있기 때문에 필요하다. 이 특정 영역에 대해 선택된 소스 영역이 잘 상관되지 않은 경우, 에너지가 대상 영역에 대해 일치하더라도 공간적 이미지는 상관성이 없는 소스 영역으로 인해 손상될 수 있다.
따라서 코어 영역의 스테레오 모드가 IGF 영역의 스테레오 모드와 다르거나 코어 영역의 스테레오 모드가 대역별 M/S로 플래그 된 경우, 각 채널 쌍에 대해 스테레오 IGF가 적용된다. 이러한 조건이 적용되지 않으면 단일 채널 IGF 분석이 수행된다. 채널 쌍에 조인트 코딩되지 않은 단일 채널이 있는 경우, 단일 채널 IGF 분석도 진행된다.
Figure pct00044
각 채널의 스펙트럼을 인코딩하는 데 사용가능한 비트 분포
조인트 채널-쌍 스테레오 프로세싱의 절차 후, 각 채널은 엔트로피 코더에 의해 개별적으로 양자화되고 코딩된다. 따라서, 각 채널에 대해 사용 가능한 비트 수가 주어져야 한다. 이 단계에서, 사용 가능한 총 비트는 처리된 채널의 에너지를 사용하여 각 채널에 분배된다.
전술한 정규화 단계에서 산출된 각 채널의 에너지는 각 채널의 스펙트럼이 조인트 프로세싱으로 인해 변경될 수 있으므로 다시 계산된다. 새로운 에너지는
Figure pct00045
으로 나타낸다. 첫 번째 단계로 비트가 분배되는 에너지-기반 비율이 계산된다:
Figure pct00046
여기서, 입력이 LFE 채널로부터도 구성되는 경우에는 비율 계산에 고려되지 않는다는 점을 유의해야 한다. LFE 채널의 경우, 채널에 이 아닌 콘텐츠가 있는 경우에만 최소 비트
Figure pct00047
가 할당된다. 비율은 균일하게 양자화된다:
Figure pct00048
Figure pct00049
양자화된 비율
Figure pct00050
은 전송된 채널 스펙트럼 계수를 읽기 위해 각 채널에 동일한 양의 비트를 할당하기 위해 디코더에서 사용되는 비트 스트림에 저장된다.
비트 분포 방식은 아래와 같다:
o 각 채널에 대해 엔트로피 코더에 필요한 최소 비트 수를 할당한다
Figure pct00051
o 나머지 비트, 즉,
Figure pct00052
는 양자화 비율
Figure pct00053
을 사용하여 나눈다:
Figure pct00054
o 양자화된 비율로 인해 비트는 대략적으로 분포되어 있으므로
Figure pct00055
일 수 있다. 따라서 두 번째 개선(refining) 단계에서 차이
Figure pct00056
는 채널 비트
Figure pct00057
에서 비례적으로 차감된다:
Figure pct00058
o 개선 단계 후에도
Figure pct00059
과 비교하여
Figure pct00060
의 불일치가 여전히 존재하는 경우, 차이 (일반적으로 매우 적은 비트)가 최대 에너지로 채널에 공여된다.
각 채널의 스펙트럼 계수를 디코딩하기 위해 판독할 비트의 양을 결정하기 위해 디코더로부터 정확히 동일한 절차가 따른다.
Figure pct00061
는 비트 분포 정보
Figure pct00062
에 사용되는 비트 수를 나타내며, 이 값은 인코더와 디코더에 알려져 있으며 인코딩된 오디오 신호로 전송될 필요가 없다.
Figure pct00063
각 채널의 양자화 및 코딩
레이트-루프(rate-loop)를 포함한 양자화, 노이즈 필링 및 엔트로피 인코딩은 [8]에 설명되어 있다. 레이트-루프는 추정된
Figure pct00064
를 사용하여 최적화될 수 있다. 전력 스펙트럼 P(MCLT의 크기)는 [8]에 설명된 대로 양자화 및 IGF(Intelligent Gap Filling)에서 음조(tonality)/노이즈 측정에 사용된다. 화이트닝 및 대역별 M/S 처리된 MDCT 스펙트럼이 전력 스펙트럼에 사용되기 때문에, MDST 스펙트럼에서 동일한 FDNS 및 M/S 처리가 수행되어야 한다. MDCT에서 행해진 것과 마찬가지로 MDST 스펙트럼에 대해서도 ILD를 기반으로 한 동일한 정규화 스케일링이 수행되어야 한다. TNS가 활성화된 프레임의 경우 전력 스펙트럼 계산에 사용되는 MDST 스펙트럼은 화이트닝 및 M/S 처리된 MDCT 스펙트럼으로부터 추정된다.
도 2는 인코더, 특히 도 2의 적응형 조인트 신호 프로세서(200)의 바람직한 구현예의 블록도를 나타낸다. 모든 적어도 3개의 전처리된 오디오 신호(180)는 에너지 정규화 블록(210)으로 입력된다. 에너지 정규화 블록(210)은 그 출력에서, 한편으로는 양자화된 비율, 다른 한편으로는 업스케일링 또는 다운스케일링을 나타내는 각 채널에 대한 플래그로 이루어지는 채널 에너지 비율 부가 비트(534)를 생성한다. 그러나 업스케일링 또는 다운스케일링에 대한 명시적 플래그가 없는 다른 절차도 수행될 수 있다.
정규화된 채널은 상호- 상관 벡터 계산 및 채널 쌍 선택을 수행하기 위해 블록 (220)에 입력된다. 바람직하게는 캐스케이드 전체 트리 또는 캐스케이드 단순 트리 프로세싱을 사용하는 반복적 절차이거나 또는 대안적으로 비-반복적 비-캐스케이드 프로세싱인 블록(220)의 절차에 기초하여, 대응하는 스테레오 작업이 블록(240)에서 수행된다. 블록(240)은 전대역 또는 대역별 미드/사이드 처리 또는 회전, 스케일링, 임의의 가중 또는 비-가중 선형 또는 비선형 조합 등과 같은 기타 대응하는 스테레오 프로세싱 작업을 수행할 수 있다.
블록(240)의 출력에서, 스테레오 지능형 갭 필링(IGF) 프로세싱 또는 스펙트럼 대역 복제 프로세싱 또는 고조파 대역폭 프로세싱과 같은 임의의 다른 대역폭 확장 프로세싱이 수행될 수 있다. 개별 채널 쌍의 프로세싱은 채널 쌍 부가 정보 비트를 통해 시그널링되고, 도 2에 도시되지 않았지만, IGF 또는 블록(260)에 의해 생성된 일반적인 대역폭 확장 파라미터도 조인트 프로세싱 부가 정보(530) 특히, 도 5b의 쌍별 프로세싱 부가 정보(532)에 대한 비트 스트림에 기록된다.
도 2의 최종 단계는 예를 들어, 도 9와 관련하여 설명한 바와 같이 비트 할당 비율을 계산하는 채널 비트 분포 프로세서(280)이다. 도 2는 채널 비트레이트 부가 정보(530)에 의해 제어되는 코더 및 양자화기로서 신호 인코더(300)와, 추가적으로, 도 5b의 모든 필요한 부가 정보 비트(520, 530)와 신호 인코더(300)의 결과를 결합하는 비트 스트림 기록기(400) 또는 출력 인터페이스(400)의 개략적인 표현을 나타낸다.
도 3은 블록(210, 220, 240)에 의해 수행되는 실질적인 절차의 바람직한 구현을 도시한다. 절차의 시작에 이어, 도 2 또는 도 3에서 210에 표현된 바와 같이 ILD 정규화가 수행된다. 단계(221)에서, 상호-상관 벡터가 계산된다. 상호-상관 벡터는 블록(210)에 의해 출력되는 0에서 N까지 채널의 가능한 각 채널 쌍에 대한 정규화된 상호-상관 값으로 이루어진다. 6개의 채널이 있는 도 4의 예에서는 0에서 14까지의 15가지 다른 가능성이 검토될 수 있다. 상호-상관 벡터의 첫 번째 요소는 채널 0과 채널 1 사이의 상호-상관 값을 가지며, 예를 들어 인덱스 11을 갖는 상호-상관 벡터의 요소는 채널 2와 채널 5 사이의 상호-상관을 갖는다.
단계(222)에서, 이전 프레임에 대해 결정된 트리를 유지할 것인지 여부를 결정하기 위해 계산이 수행된다. 이를 위해, 상호-상관 벡터의 시간적 변화를 계산하고, 바람직하게는 상호-상관 벡터의 개별 차이, 특히 차이의 크기의 합을 계산한다. 단계(223)에서, 차이의 합이 임계값보다 큰지 여부를 결정한다. 이 경우, 단계(224)에서 플래그 keepTree가 0으로 설정되며, 이는 트리가 유지되지 않고 새로운 트리가 계산됨을 의미한다. 그러나, 합이 임계 값보다 작은 것으로 결정되면, 블록(225)은 이전 프레임으로부터 결정된 트리가 현재 프레임에도 적용되도록 플래그 keepTree = 1로 설정한다.
단계(226)에서, 반복 종료 기준을 확인한다. 채널 쌍(CP, channel pairs)의 최대 개수에 도달하지 않은 것으로 결정된 경우, 즉, 블록(226)에 처음으로 액세스 했을 때, 블록 (228)에 의해 결정된 바와 같이 플래그 keepTree가 0으로 설정된 경우, 절차는 상호-상관 벡터로부터 최대 상호-상관을 갖는 채널 쌍의 선택을 위한 블록(229)으로 진행된다. 그러나, 이전 프레임의 트리가 유지될 때, 즉 블록(225)에서 확인된 바와 같이 keepTree가 1인 경우, 블록(230)은 "강제된" 채널 쌍의 상호-상관이 임계 값보다 큰지 여부를 결정한다. 그렇지 않은 경우라면, 절차는 단계 (227)로 계속되며, 이는 그럼에도 불구하고 블록(223)의 절차에서 반대로 결정하더라도 새로운 트리가 결정된다는 것을 의미한다. 블록(230)에서의 평가 및 블록(227)에서의 해당 결과는 블록(223 및 225)의 결정을 뒤집을 수 있다.
블록(231)에서, 최대 상호-상관을 갖는 채널 쌍이 0.3보다 큰지 여부를 결정한다. 이 경우, 블록 (232)에서 스테레오 작업이 수행되며, 이는 도 2에서 240으로 도시되어 있다. 블록(233)에서 스테레오 작업이 듀얼 모노라고 결정되면, 블록(234)에서 keepTree값은 0으로 설정된다. 그러나, 스테레오 모드가 듀얼 모노와 다르다고 결정되면, 상호-상관 벡터(235)를 다시 계산해야 한다. 왜냐하면, 미드/사이드 작업이 수행되었고 스테레오 작업 블록(240 또는 232)의 출력이 처리로 인해 상이하기 때문이다. CC 벡터(235)의 업데이트는 실제로 미드/사이드 스테레오 작업이 있거나 일반적으로 듀얼 모노와 다른 스테레오 작업이 있을 때만 필요하다.
그러나, 블록(226)의 확인 또는 블록(231)의 확인이 "아니오" 로 응답할 때, 제어는 단일 채널이 존재하는지를 확인하기 위해 블록(236)으로 이동한다. 이 경우, 즉 채널-쌍 처리에서 다른 채널과 함께 처리되지 않은 단일 채널이 발견된 경우, ILD 정규화가 블록(237)에서 역으로 되돌려진다. 대안적으로, 블록(237)의 되돌림은 부분 되돌림이거나 일종의 가중치가 될 수 있다.
반복이 완료되고 블록(236 및 237)도 완료되는 경우, 절차가 종료되고 모든 채널 쌍이 처리되었으며, 적응형 조인트 신호 프로세서의 출력에서, 블록(236)에서 "아니오" 응답을 초래하는 경우 적어도 3개의 조인트 프로세싱된 신호가 존재하거나, 또는 블록(236)이 "예" 응답을 초래하는 경우 적어도 2개의 조인트 프로세싱된 신호 및 "단일 채널"에 대응하는 처리되지 않은 신호가 존재한다.
Figure pct00065
디코딩 시스템 설명
디코딩 프로세스는 조인트 코딩된 채널의 스펙트럼을 디코딩 및 역 양자화하는 것으로 시작되며, [11] 또는 [12]의 6.2.2 "MDCT 기반 TCX"에 설명된 대로 노이즈 필링(noise fillig)이 이어진다. 각 채널에 할당되는 비트 수는 비트 스트림에 코딩된 비트레이트 비율
Figure pct00066
, 스테레오 모드 및 윈도우 길이에 따라 결정된다. 비트 스트림을 완전히 디코딩하기 전에 각 채널에 할당된 비트 수를 알아야 한다.
IGF (Intelligent Gap Filling) 블록에서 대상 타일(target tile)이라고 불리는 특정 범위의 스펙트럼에서 0으로 양자화된 라인들은 소스 타일(source tile)이라고 불리는 다른 범위의 스펙트럼에서 처리된 콘텐츠로 채워진다. 대역별 스테레오 프로세싱으로 인해 스테레오 표현 (즉, L/R 또는 M/S)이 소스 및 대상 타일에 대해 다를 수 있다. 좋은 품질을 보장하기 위해, 소스 타일의 표현이 타겟 타일의 표현과 다른 경우, 소스 타일은 디코더에서 갭 필링을 하기 전에 타겟 파일의 표현으로 변환하도록 처리된다. 이 절차는 [10]에 이미 설명되어 있다. IGF 자체는 [11] 및 [12]와는 달리, 원래의 스펙트럼 영역 대신 화이트닝된 스펙트럼 영역에서 적용된다. 알려진 스테레오 코덱(예, [10])과는 달리, IGF는 화이트닝된 ILD 보상 스펙트럼 영역에서 적용된다.
비트 스트림 시그널링으로부터 조인트 코딩된 채널 쌍이 있는지 여부 또한 알 수 있다. 각 채널의 원래 화이트닝된 스펙트럼으로 다시 변환하기 위해, 특히 캐스케이드 채널 쌍-트리의 경우, 역 처리는 인코더에서 형성된 마지막 채널 쌍에서 시작되어야 한다. 각 채널 쌍에 대해, 스테레오 모드 및 대역별 M/S 결정에 따라 역 스테레오 처리가 적용된다.
채널 쌍에 포함되고 조인트 코딩된 모든 채널에 대해, 스펙트럼은 인코더에서 전송된
Figure pct00067
값을 기반으로 원래 에너지 수준으로 역-정규화(de-normalize)된다.
도 10은 인코딩된 신호(500)를 디코딩하기 위한 다중-신호 디코더의 바람직한 구현을 도시한다. 다중-신호 디코더는 입력 인터페이스(600), 입력 인터페이스(600)에 의해 출력된 적어도 3개의 인코딩된 신호를 디코딩하기 위한 신호 디코더(700)를 포함한다. 다중-신호 디코더는 적어도 3개의 처리된 디코딩된 신호를 획득하기 위해 인코딩된 신호에 포함된 부가 정보에 따라 조인트 신호 프로세싱을 수행하기 위한 조인트 신호 프로세서(800)를 포함한다. 다중-신호 디코더는 인코딩된 신호에 포함된 부가 정보에 따라 적어도 3개의 처리된 디코딩된 신호를 후 처리하기 위한 후처리기(900)를 포함한다. 특히, 후처리는 후처리된 신호가 후처리 전의 신호보다 덜 화이트닝 되도록 수행된다. 후처리 된 신호는 직접 또는 간접적으로, 디코딩된 오디오 신호 (1000)를 나타낸다.
입력 인터페이스(600)에 의해 추출되어 조인트 신호 프로세서(800)로 전달되는 부가 정보는 도 5b에 도시된 부가 정보(530)이고, 디-화이트닝 작업을 위해 후처리기(900)로 전달되는 인코딩된 다중-신호 오디오 신호로부터 입력 인터페이스(600)에 의해 추출된 부가 정보는 도 5b와 관련하여 도시되고 설명된 부가 정보(520)이다.
조인트 신호 프로세서(800)는 각각의 조인트 스테레오 디코딩된 신호에 대한 에너지 정규화 값을 입력 인터페이스(600)로부터 추출하거나 수신하도록 구성된다. 각각의 조인트 스테레오 디코딩된 신호에 대한 이러한 에너지 정규화 값은 도 5b의 에너지 스케일링 정보(530)에 대응한다. 적응형 조인트 신호 프로세서(200)는 블록(820)의 출력에서 조인트 스테레오 디코딩된 신호를 획득하기 위해, 인코딩된 오디오 신호(500)에 포함된 조인트 스테레오 부가 정보(532)에 의해 지시되는 조인트 스테레오 모드 또는 조인트 스테레오 부가 정보를 사용하여 디코딩된 신호를 쌍별(pair-wise) 프로세싱(820) 하도록 구성된다. 블록(830)에서, 도 10의 블록 (800)의 출력에서 처리된 디코딩된 신호를 얻기 위해 에너지 정규화 값을 사용하여 리스케일링(rescaling) 작업 및 특히, 조인트 스테레오 디코딩된 신호의 에너지 리스케일링이 수행된다.
블록(237)에서 도 3과 관련하여 설명한 바와 같이, 역(reverse) ILD 정규화를 수신한 채널을 확인하기 위해, 조인트 신호 프로세서(800)는 특정 신호에 대해 인코딩된 신호로부터 추출된 에너지 정규화는 미리 정의된 값을 가지는지 여부를 확인하도록 구성된다. 이 경우, 에너지 리스케일링이 수행되지 않거나 특정 신호에 대한 감소된 에너지 리스케일링만 수행되거나, 또는 에너지 정규화 값이 이러한 미리 정의된 값을 가질 때 이러한 개별 채널에 대한 기타 다른 가중치 작업이 수행된다.
일 실시 예에서, 신호 디코더(700)는 블록(620)에 표시된 바와 같이 각각의 인코딩된 신호에 대한 비트 분포 값을 입력 인터페이스(600)로부터 수신하도록 구성된다. 도 12의 536에 도시된 이 비트 분포 값은 블록(720)으로 전달되어, 신호 디코더(700)가 사용된 비트 분포를 결정하게 해준다. 바람직하게는, 도 6 및 도 9의 인코더 측에 대해 전술한 바와 동일한 단계, 즉 단계(290, 291, 292, 293)가 도 12의 블록(720)에서 사용된 비트 분포의 결정을 위해 신호 디코더 (700)에 의해 수행된다. 블록(710/730)에서, 도 10의 조인트 신호 프로세서(800)로의 입력을 얻기 위해 개별 디코딩이 수행된다.
조인트 신호 프로세서(800)는 부가 정보 블록(532)에 포함된 특정 부가 정보를 사용하는 지능형 갭 필링 프로세싱 기능, 대역 복제, 또는 대역폭 확장 기능을 갖는다. 이 부가 정보는 블록(810)으로 전달되고 블록(820)은 블록(810)에 의해 적용된 대역폭 확장 절차의 결과를 사용하여 조인트 스테레오 (디코더) 처리를 수행한다. 블록(810)에서, 지능형 갭 필링 절차는 대역폭 확장 또는 IGF의 대상 범위가 다른 스테레오 표현을 갖는 것으로 나타날 때, 하나의 스테레오 표현에서 다른 스테레오 표현으로 소스 범위를 변환하도록 구성된다. 대상 범위가 미드/사이드 스테레오 모드를 갖는 것으로 표시되고, 소스 범위가 L/R 스테레오 모드를 갖는 것으로 표시되면, L/R 소스 범위 모드는 미드/사이드 소스 범위 스테레오 모드로 변환되고, 그 다음, IGF 처리는 소스 범위의 미드/사이드 스테레오 모드 표현으로 수행된다.
도 14는 조인트 신호 프로세서(800)의 바람직한 구현을 나타낸다. 조인트 신호 프로세서는 블록 (630)에 도시된 바와 같이 순서화된 신호 쌍 정보를 추출하도록 구성된다. 이러한 추출은 입력 인터페이스(600)에 의해 수행될 수 있거나 조인트 신호 프로세서가 입력 인터페이스의 출력으로부터 정보를 추출할 수 있거나 또는 특정 입력 인터페이스 없이 직접 정보를 추출할 수 있다. 이는 조인트 신호 프로세서 또는 신호 디코더에 대해 설명한 다른 추출 절차의 경우에도 마찬가지이다.
블록(820)에서, 조인트 신호 프로세서는 마지막 신호 쌍에서 시작하여 바람직하게는 캐스케이드 역 프로세싱을 수행하며, 여기서 용어 "마지막"은 인코더에 의해 결정되고 수행되는 처리 순서를 지칭한다. 디코더에서, "마지막" 신호 쌍은 처음 처리되는 신호 쌍이다. 블록(820)은 블록 (630)에 설명된 신호 쌍 정보로 표시된 각 신호 쌍에 대해 부가 정보(532)를 수신하며, 예를 들어 도 4에 설명된 방법으로 구현된 경우, 이는 특정 쌍이 관련 MS 마스크를 사용하는 대역별 MS 절차였는지, 전체 MS였는지, 또는 듀얼 모노였는지 여부를 나타낸다.
블록(820)의 역 처리 이후, 채널당 정규화 정보를 나타내는 부가 정보에 기초하여 채널 쌍에 포함된 신호의 역-정규화(de-normalization)가 다시 한번 블록(830)에서 수행된다. 도 14의 블록(830)과 관련하여 도시된 역-정규화는 플래그 534a가 제1 값을 가질 때 다운스케일링으로 에너지 정규화 값을 사용하여 리스케일링을 수행하고, 플래그(534a)가 제1 값과 상이한 제2 값을 가질 때 업스케일링으로 리스케일링을 수행하는 것이 바람직하다.
도 15a는 도10의 신호 디코더와 조인트 신호 프로세서의 블록도로서 바람직한 구현을 나타내고, 도 15b는 도 10의 후처리기(900)의 바람직한 구현의 블록도를 나타낸다.
신호 디코더(700)는 인코딩된 신호 (500)에 포함된 스펙트럼을 위한 디코더 및 역양자화기 스테이지(710)를 포함한다. 신호 디코더(700)는 부가 정보로서, 바람직하게는 윈도우 길이, 특정 스테레오 모드, 및 인코딩된 신호 당 비트 할당 정보를 수신하는 비트 할당기(720)를 포함한다. 비트 할당기(720)는 특히 바람직한 구현에서, 단계(290, 291, 292, 293)를 사용하여 비트 할당을 수행하는데, 여기서 인코딩된 신호당 비트 할당 정보는 단계(291)에서 사용되고, 윈도우 길이 및 스테레오 모드에 관한 정보는 블록(290 또는 291)에서 사용된다.
블록(730)에서, 노이즈 필링은 바람직하게는 노이즈 필링 부가 정보를 사용하여 0으로 양자화되고 IGF 범위 내에 있지 않은 스펙트럼의 범위에 대해 수행된다. 노이즈 필링은 바람직하게는 블록(710)에 의해 출력된 신호의 저대역 부분으로 제한된다. 블록(810)에서, 특정 부가 정보를 사용하여, 중요하게는 화이트닝된 스펙트럼에서 동작하는, 일반적인 대역폭 확장 프로세싱 또는 지능형 갭 필링이 수행된다.
블록(820)에서, 부가 정보를 사용하여, 역 스테레오 프로세서는 도 2, 항목 240에서 수행된 처리를 원상태로 되돌리는 절차를 수행한다. 최종 디스케일링(descaling)은 부가 정보에 포함된 전송된 채널당 양자화된 ILD 파라미터를 사용하여 수행된다. 블록(830)의 출력은 역 TNS 처리 및/또는 역 주파수 영역 잡음 정형 처리 또는 임의의 다른 디-화이트닝 작업을 수행하는 후처리기의 블록(910)에 입력된다. 블록(910)의 출력은 주파수-시간 변환기(920)에 의해 시간 영역으로 변환되는 직진(straightforward) 스펙트럼이다. 인접 프레임에 대한 블록(920)의 출력은 특정 코딩 또는 디코딩 규칙에 따라 중첩-가산 프로세서(930)에서 중첩-가산되어, 중첩 작업을 통해서 최종적으로 디코딩된 다수(multiplicity)의 오디오 신호, 또는 일반적으로, 디코딩된 오디오 신호(1000)를 얻는다. 이 신호 (1000)는 개별 채널로 구성될 수 있거나 앰비소닉스 컴포넌트와 같은 음장 표현의 컴포넌트로 구성될 수 있으며, 고차 앰비소닉스 표현의 기타 다른 컴포넌트로 구성될 수 있다. 신호는 A 포맷 또는 B 포맷의 신호 또는 음장에 대한 기타 형식 표현일 수도 있다. 이러한 모든 대안들은 도 15b에서 디코딩된 오디오 신호(1000)로서 집합적으로 표현된다.
이하, 바람직한 실시 예들의 추가적인 이점 및 특정 특징을 설명한다.
본 발명의 범위는 지각적으로 화이트닝 되고 ILD 보상된 신호를 처리할 때 [6]의 원리에 대한 솔루션을 제공하는 것이다.
o [9]에 설명된 스펙트럼 포락선 워핑(spectral envelope warping)과 결합된 [8]에 설명된 레이트-루프가 있는 FDNS는 양자화 노이즈와 레이트-루프의 지각 정형(perceptual shaping)을 분리하는 간단하면서도 매우 효과적인 방법을 제공한다.
o FDNS-화이트닝된 스펙트럼의 모든 채널에 대해 평균 에너지 레벨을 사용하면 조인트 코딩을 위해 선택한 각 채널 쌍에 대해 [7]에 설명된 대로 M/S 처리의 이점이 있는지 여부를 간단하고 효과적인 방법으로 결정할 수 있다.
o 전술한 시스템의 각 채널에 대해 단일 광대역 ILD를 코딩하는 것으로 충분하므로 주지의 접근 방식과 달리 비트 절약이 달성된다.
o 상호-상관성이 높은 신호의 조인트 코딩을 위한 채널 쌍을 선택하면 일반적으로 풀 스펙트럼 M/S 변환이 이루어지므로, 각 대역에 대한 신호 M/S 또는 L/R이 대부분 단일 비트의 시그널링 풀 M/S 변환으로 대체됨에 따라 추가 평균 비트 절약이 생긴다.
o 처리된 채널의 에너지를 기반으로 한 유연하고 간단한 비트 분포.
Figure pct00068
바람직한 실시예들의 특징
이전 단락에서 설명했듯이, 이 구현에서 코덱은 조인트 스테레오 코딩에 대해 [7]에 설명된 개념을 도입하여 [6]에 설명된 대로 임의 채널의 신호 적응형 조인트 코딩의 유연성을 병합하는 새로운 수단을 사용한다. 제안된 발명의 신규성은 다음과 같은 차이점으로 요약된다:
o 각 채널-쌍에 대한 조인트 프로세싱은 글로벌 ILD 보상과 관련하여 [6]에 설명된 다중-채널 프로세싱과 다르다. 글로벌 ILD는 채널 쌍을 선택하고 M/S 결정 및 프로세싱을 수행하기 전에 채널 레벨을 균등화하므로 특히 패닝된 소스의 보다 효율적인 스테레오 코딩이 가능하다.
o 각 채널-쌍에 대한 조인트 처리는 글로벌 ILD 보상과 관련하여 [7]에 설명된 스테레오 프로세싱과 다르다. 제안된 시스템에서는 각 채널-쌍에 대한 글로벌 ILD 보상이 없다. 임의의 채널에 대해 [7]에 설명된 M/S 결정 메커니즘을 사용할 수 있도록 모든 채널을 단일 에너지 레벨, 즉 평균 에너지 레벨로 정규화한다. 이 정규화는 조인트 프로세싱을 위한 채널-쌍을 선택하기 전에 이루어진다.
o 적응형 채널-쌍 선택 프로세스 후에 조인트 프로세싱을 위한 채널 쌍의 일부가 아닌 다른 채널이 있는 경우 해당 에너지 레벨은 초기 에너지 레벨로 복구된다.
o 엔트로피 코딩을 위한 비트 분포는 [7]에 설명된 대로 각 채널 쌍에서 구현되지 않는다. 대신, 모든 채널 에너지가 고려되고 이 문서의 각 단락에 설명된 대로 비트가 분배된다.
o [6]에서 설명한 적응형 채널-쌍 선택에는 명시적인 "저-복합도 (low-complexity)" 모드가 있으며, 반복적인 채널-쌍 선택 프로세스 동안 채널-쌍의 일부인 단일 채널은 그 뒤의 다음으로 반복되는 채널 쌍 선택 프로세스 동안 다른 채널 쌍의 일부가 된다.
o 각 채널 쌍에 대해 간단한 대역별 M/S를 사용하여 비트 스트림 내에서 전송해야 하는 정보의 양을 줄이는 이점은 [6]의 신호 적응형 채널 쌍 선택을 사용한다는 사실에 의해 향상된다. 조인트 코딩할 높은 상관을 가진 채널을 선택하면 광대역 M/S 변환이 대부분의 경우에 최적이다. 즉, M/S 코딩이 모든 대역에 사용된다. 이는 단일 비트로 신호를 보낼 수 있으므로 대역별 M/S 결정에 비해 훨씬 적은 신호 정보를 요구한다. 모든 채널 쌍에 대해 전송해야 하는 총 정보 비트 양을 크게 감소시킨다.
이 발명의 실시예는 지각적 화이트닝 및 ILD 보정된 스펙트럼을 가진 다중채널 시스템의 신호 적응형 조인트 코딩과 관련된 것으로, 여기서 조인트 코딩은 엔트로피 코더의 추정된 비트 수에 기초한 단순한 대역당 M/S 변환 결정으로 구성된다.
실시예의 일부 측면이 장치의 맥락에서 설명되었지만, 이러한 측면은 또한 대응하는 방법의 설명으로도 표현되었음이 명백하며, 여기서 블록이나 디바이스가 방법 단계나 방법 단계의 특징에 대응한다. 이와 유사하게, 방법 단계의 맥락에서 기술된 측면은 해당 장치의 해당 블록 또는 항목 또는 특징에 대한 설명으로도 나타난다. 일부 또는 모든 방법 단계는 예컨대, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치 또는 이의 사용에 의해 실행될 수 있다. 일부 구현에서는 가장 중요한 방법의 단계 중 하나 이상이 그러한 장치에 의해 실행될 수 있다.
본 발명의 인코딩된 오디오 신호는 디지털 저장 매체에 저장되거나 인터넷과 같은 유선 전송 매체 또는 무선전송매체 등과 같은 전송 매체를 통해 전송될 수 있다.
특정 구현 요구 사항에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 예를 들어, 플로피 디스크, DVD, 블루-레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리와 같은 디지털 저장 매체를 사용하여 수행할 수 있으며, 거기에 전자적으로 판독 가능한 제어 신호가 저장되어 있으며, 프로그래밍 가능한 컴퓨터 시스템과 협력(또는 협력할 수 있음)하여 각각의 방법을 수행한다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
본 발명에 따른 일부 실시예는 여기에 설명된 방법 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 상기 방법 중 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어 기계 판독 가능한 캐리어에 저장될 수 있다.
다른 실시 예는 기계 판독 가능한 캐리어에 저장된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 본 방법 발명의 실시예는 컴퓨터 프로그램이 컴퓨터에서 실행될 때 여기에 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 추가 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다. 데이터 매체, 디지털 저장 매체 또는 기록 매체는 일반적으로 유형적 및/또는 비과도적(non-transitionary)이다.
따라서, 본 방법 발명의 추가 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호 시퀀스이다. 데이터 스트림 또는 신호 시퀀스는 예를 들어, 데이터 통신 연결을 통해, 예컨대 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는 여기에 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 프로세싱 수단, 예를 들어 컴퓨터, 또는 프로그램 가능한 논리 디바이스를 포함한다.
추가 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가 실시 예는 본 명세서에 설명된 방법 중 하나를 수신기로 수행하기 위한 컴퓨터 프로그램을 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 장치, 메모리 장치 등일 수 있다. 예를 들어, 장치 또는 시스템은 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예에서, 프로그래밍 가능 논리 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 여기에 설명된 방법의 기능의 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예에서, 필드 프로그래밍 가능 게이트 어레이는 여기에 설명된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
본 명세서에 설명된 장치는 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.
본 명세서에 설명된 방법은 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.
전술한 실시예는 본 발명의 원리에 대한 예시일 뿐이다. 본 명세서에 기술된 세부 사항 및 배열의 수정 및 변형은 당업자에게 명백할 것으로 이해된다. 따라서, 본 명세서의 실시예의 설명 및 설명에 의해 제시된 특정 세부 사항이 아니라 뒤따르는 특허 청구 범위에 의해서만 제한되어야 할 것이다.
Figure pct00069
참고 문헌(모두 그 전체가 본원에 참고로 포함됨)
[1] "Information technology - MPEG audio technologies Part 3: Unified speech and audio coding," ISO/IEC 23003-3, 2012.
[2] "Information technology - MPEG audio technologies Part 1: MPEG Surround," ISO/IEC 23003-1, 2007.
[3] J. Herre, J. Hilpert, K. Achim and J. Plogsties, "MPEG-H 3D Audio―The New Standard for Coding of Immersive Spatial Audio," Journal of Selected Topics in Signal Processing, vol. 5, no. 9, pp. 770-779, August 2015.
[4] "Digital Audio Compression (AC-4) Standard," ETSI TS 103 190 V1.1.1, 2014-04.
[5] D. Yang, H. Ai, C. Kyriakakis and C. Kuo, "High-fidelity multichannel audio coding with Karhunen-Loeve transform," Transactions on Speech and Audio Processing, vol. 11, no. 4, pp. 365-380, July 2003.
[6] F. Schuh, S. Dick, R. Fug, C. R. Helmrich, N. Rettelbach and T. Schwegler, "Efficient Multichannel Audio Transform Coding with Low Delay and Complexity," in AES Convention, Los Angeles, September 20, 2016.
[7] G. Markovic, E. Fotopoulou, M. Multrus, S. Bayer, G. Fuchs, J. Herre, E. Ravelli, M. Schnell, S. Doehla, W. Jaegers, M. Dietz and C. Helmrich, "Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision". International Patent WO2017125544A1, 27 July 2017.
[8] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.
[9] G. Markovic, F. Guillaume, N. Rettelbach, C. Helmrich and B. Schubert, "Linear prediction based coding scheme using spectral domain noise shaping". EU Patent 2676266 B1, 14 February 2011.
[10] S. Disch, F. Nagel, R. Geiger, B. N. Thoshkahna, K. Schmidt, S. Bayer, C. Neukam, B. Edler and C. Helmrich, "Audio Encoder, Audio Decoder and Related Methods Using Two-Channel Processing Within an Intelligent Gap Filling Framework". International Patent PCT/EP2014/065106, 15 07 2014.
[11] "Codec for Encanced Voice Services (EVS); Detailed algorithmic description," 3GPP TS 26.445 V 12.5.0, December 2015.
[12] "Codec for Encanced Voice Services (EVS); Detailed algorithmic description," 3GPP TS 26.445 V 13.3.0, September 2016.
[13] Sascha Dick, F. Schuh, N. Rettelbach , T. Schwegler, R. Fueg, J. Hilpert and M. Neusinger, "APPARATUS AND METHOD FOR ENCODING OR DECODING A MULTI-CHANNEL SIGNAL". Inernational Patent PCT/EP2016/054900, 08 March 2016.

Claims (47)

  1. 적어도 3개의 오디오 신호를 인코딩하기 위한 다중신호 인코더에 있어서,
    각각의 오디오 신호를 개별적으로 전처리를 수행하여, 적어도 3개의 전처리된 오디오 신호를 획득하기 위한 신호 전처리기로서, 상기 전처리는 전처리된 오디오 신호가 전처리 전의 신호에 비해 화이트닝 되도록 수행되는 상기 신호 전처리기(100);
    상기 적어도 3개의 전처리된 오디오 신호의 프로세싱을 수행하여, 적어도 3개의 조인트 처리된 신호 또는 적어도 2개의 조인트 처리된 신호 및 처리되지 않은 신호를 획득하기 위한 적응형 조인트 신호 프로세서(200);
    각각의 신호를 인코딩하여 하나 이상의 인코딩된 신호를 획득하기 위한 신호 인코더(300); 및
    상기 하나 이상의 인코딩된 신호, 상기 전처리에 관한 부가 정보, 및 상기 프로세싱에 관한 부가 정보를 포함하는 인코딩된 다중신호 오디오 신호를 전송하거나 저장하기 위한 출력 인터페이스(400)를 포함하는 다중신호 인코더.
  2. 제1항에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 상기 적어도 3개의 전처리된 오디오 신호의 광대역 에너지 정규화(210)를 수행하여 각각의 전처리된 오디오 신호가 정규화된 에너지를 갖도록 구성되고,
    상기 출력 인터페이스(400)는 추가 부가 정보로서 각각의 전처리된 오디오 신호에 대해 광대역 에너지 정규화 값(534)을 포함하도록 구성되는 다중신호 인코더.
  3. 제2항에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는,
    상기 전처리된 오디오 신호의 평균 에너지에 대한 정보를 산출(212)하고;
    각각의 전처리된 오디오 신호의 에너지에 대한 정보를 산출(211)하고;
    특정 전처리된 오디오 신호의 상기 에너지에 대한 정보 및 상기 평균 에너지에 대한 정보에 기초하여 상기 에너지 정규화 값을 산출(213, 214)하도록 구성되는 다중신호 인코더.
  4. 전술한 청구항들 중 어느 하나에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 상기 전처리된 오디오 신호의 에너지와 평균 에너지로부터 특정 전처리된 오디오 신호에 대한 스케일링 비율(534b)을 산출(213, 214)하도록 구성되고,
    상기 적응형 조인트 신호 프로세서(200)는 상기 스케일링 비율이 업스케일링을 위한 것인지 또는 다운스케일링을 위한 것인지 여부를 나타내는 플래그(534a)를 결정하도록 구성되고, 각각의 신호에 대한 상기 플래그는 상기 인코딩된 신호에 포함되는 다중신호 인코더.
  5. 제4항에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 상기 스케일링이 업스케일링인지 다운스케일링인지 여부에 관계없이 상기 스케일링 비율을 동일한 양자화 범위로 양자화(214)하도록 구성되는 다중신호 인코더.
  6. 전술한 청구항들 중에서 어느 하나에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는,
    적어도 3개의 정규화된 신호를 획득하기 위해 각각의 전처리된 오디오 신호를 기준 에너지에 대해 정규화(210)하고;
    상기 적어도 3개의 정규화된 신호의 각각의 가능한 정규화된 신호 쌍에 대한 상호-상관 값을 산출(220)하고;
    가장 높은 상호-상관 값을 갖는 신호 쌍을 선택(229)하고;
    선택된 상기 신호 쌍에 대한 조인트 스테레오 프로세싱 모드를 결정(232a)하며;
    처리된 신호 쌍을 획득하기 위해, 결정된 상기 조인트 스테레오 프로세싱 모드에 따라 선택한 상기 신호 쌍을 조인트 스테레오 프로세싱(232b)하도록 구성되는 다중신호 인코더.
  7. 제6항에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는, 캐스케이드 신호 쌍 전처리(cascaded signal pair preprocessing)를 적용하도록 구성되거나, 상기 적응형 조인트 신호 프로세서(200)는 비-캐스케이드 신호 쌍 프로세싱(non-cascaded signal pair processing)을 적용하도록 구성되고;
    상기 캐스케이드 신호 쌍 전처리에서, 처리된 신호 쌍의 신호는, 업데이트된 상호-상관 값들의 산출, 가장 높은 상호-상관 값을 가진 신호 쌍의 선택, 선택된 상기 신호 쌍에 대한 조인트 스테레오 프로세싱 모드의 결정, 및 결정된 상기 조인트 스테레오 프로세싱 모드에 따른 선택된 상기 신호 쌍의 상기 조인트 스테레오 프로세싱을 포함하는 추가 반복 단계에서 선택 가능하거나, 또는
    상기 비-캐스케이드 신호 쌍 프로세싱에서, 처리된 신호 쌍의 신호는, 가장 높은 상호-상관값을 갖는 신호 쌍의 추가적인 선택, 선택한 상기 신호 쌍에 대한 조인트 스테레오 프로세싱 모드의 선택, 및 선택한 상기 조인트 스테레오 프로세싱 모드에 따른 선택한 상기 신호 쌍의 상기 조인트 스테레오 프로세싱에서 선택 가능하지 않은 다중신호 인코더.
  8. 전술한 청구항들 중 어느 하나에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 쌍별(pairwise) 프로세싱 절차 이후에 남겨진 신호로서 개별적으로 인코딩 되어야 하는 신호를 결정하도록 구성되고,
    상기 적응형 조인트 신호 프로세서(200)는 복구(reverting, 237)와 같이 상기 쌍별 프로세싱 절차를 수행하기 전에 상기 신호에 적용된 에너지 정규화를 수정하거나, 상기 쌍별 프로세싱 절차를 수행하기 전에 상기 신호에 수행된 에너지 정규화를 적어도 부분적으로 복구하도록 구성되는 다중신호 인코더.
  9. 전술한 청구항들 중 어느 하나에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 상기 신호 인코더(300)에 의해 처리될 각각의 신호에 대해 비트 분포 정보(536)를 결정하도록 구성되고, 상기 출력 인터페이스(400)는 각각의 신호에 대해 상기 비트 분포 정보(536)를 상기 인코딩된 신호로 도입하도록 구성되는 다중신호 인코더.
  10. 전술한 청구항들 중 어느 하나에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는, 상기 신호 인코더(300)에 의해 처리될 각각의 신호의 신호 에너지 정보를 산출(282)하고,
    상기 신호 인코더(300)에 의해 인코딩될 복수의 신호의 총 에너지를 산출(284)하며,
    상기 신호 에너지 정보 및 총 에너지 정보에 기초하여 각각의 신호에 대한 비트 분포 정보(536)를 산출(286)하도록 구성되고;
    상기 출력 인터페이스(400)는 각각의 신호에 대해 상기 비트 분포 정보를 상기 인코딩된 신호로 도입하도록 구성되는 다중신호 인코더.
  11. 제10항에 있어서,
    상기 적응형 조인트 신호 프로세서 (200)는 각각의 신호에 초기 비트 수를 선택적으로 할당(290)하고, 상기 비트 분포 정보에 기초하여 비트 수를 할당(291)하고, 선택적으로 추가 개선 단계를 수행(292)하거나 또는 선택적으로 최종 공여(donation) 단계를 수행(292)하도록 구성하고;
    상기 신호 인코더(300)는 신호당 할당된 비트를 사용하여 상기 신호의 인코딩을 수행하도록 구성되는 다중신호 인코더.
  12. 전술한 청구항들 중 어느 하나의 항에 있어서,
    상기 신호 전처리기(100)는 각각의 오디오 신호에 대해,
    각각의 오디오 신호에 대한 스펙트럼을 획득하기 위해 시간-스펙트럼 변환 작업(108, 110, 112), 및
    각각의 신호 스펙트럼에 대한 시간적 잡음 정형(temporal noise shaping) 작업(114a, 114b) 및/또는 주파수 영역 잡음 정형(frequency domain noise shaping) 작업(116)을 수행하도록 구성되고;
    상기 신호 전처리기(100)는 상기 시간적 잡음 정형 작업 및/또는 상기 주파수 영역 잡음 정형 작업에 이어서 상기 적응형 조인트 신호 프로세서(200)에 상기 신호 스펙트럼을 공급하도록 구성되고;
    상기 적응형 조인트 신호 프로세서(200)는 수신된 상기 신호 스펙트럼에 대해 조인트 신호 프로세싱을 수행하도록 구성되는 다중신호 인코더.
  13. 전술한 청구항들 중 어느 하나에 있어서,
    상기 적응형 조인트 신호프로세서(200)는,
    선택된 신호 쌍의 각각의 신호에 대해 L/R과 같은 전대역 분리 인코딩 모드에 필요한 비트레이트, 또는 M/S와 같은 전대역 조인트 인코딩 모드에 필요한 비트레이트, 또는 M/S 마스크와 같은 대역별 시그널링에 필요한 비트가 추가된 M/S와 같은 대역별(bandwise) 조인트 인코딩 모드에 대한 비트레이트를 결정하고,
    다수의 대역이 특정 모드로 결정되고 대역의 10% 미만의 소수의 대역이 다른 인코딩 모드로 결정되면, 모든 대역의 신호 쌍에 대해 상기 특정 모드로서 상기 분리 인코딩 모드 또는 상기 조인트 인코딩 모드를 결정하거나, 또는 가장 적은 양의 비트를 요구하는 코딩 모드를 결정하도록 구성되고;
    상기 출력 인터페이스(400)는 상기 인코딩된 신호에 인디케이터를 포함하도록 구성되고, 상기 인디케이터는 프레임에 대한 코딩 모드 마스크 대신에 상기 프레임의 모든 대역에 대해 상기 특정 모드를 나타내는 다중신호 인코더.
  14. 내용없음
  15. 전술한 청구항들 중에서 어느 하나에 있어서,
    상기 신호 인코더(300)는 각각의 개별 신호에 대한 또는 둘 이상의 신호에 대한 레이트 루프 프로세서를 포함하고, 상기 레이트 루프 프로세서는 특정 신호에 대한 또는 둘 이상의 신호에 대한 비트 분포 정보(536)를 수신 및 사용하도록 구성되는 다중신호 인코더.
  16. 전술한 청구항들 중 어느 하나에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 조인트 코딩을 위해 신호 쌍을 적응적으로 선택하도록 구성되거나, 상기 적응형 조인트 신호 프로세서(200)는 각각의 선택된 신호 쌍에 대해 대역별 미드/사이드 인코딩 모드, 전대역 미드/사이드 인코딩 모드, 또는 전대역 좌/우 인코딩 모드를 결정하도록 구성되고, 상기 출력 인터페이스(400)는 상기 인코딩된 다중신호 오디오 신호에서 선택된 코딩 모드를 부가 정보(532)로서 나타내도록 구성되는 다중신호 인코더.
  17. 전술한 청구항들 중 어느 하나에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 미드/사이드 모드 또는 좌/우 모드로 코딩될 때 각각의 밴드의 추정 비트레이트에 기초하여 대역별 미드/사이드 결정 대(versus) 좌/우 결정을 형성하도록 구성되고, 최종 조인트 코딩 모드는 상기 대역별 미드/사이드 대 좌/우 결정의 결과에 기초하여 결정되는 다중신호 인코더.
  18. 전술한 청구항들 중 어느 하나에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 스펙트럼 대역 복제 프로세싱 또는 지능형 갭 필링(intelligent gap filling) 프로세싱에 대한 파라미터 부가 정보를 결정하기 위해 상기 스펙트럼 대역 복제 프로세싱 또는 상기 지능형 갭 필링 프로세싱을 수행(260)하도록 구성되고, 상기 출력 인터페이스(400)는 추가 부가 정보로서 상기 스펙트럼 대역 복제 또는 지능형 갭 필링 부가 정보(532)를 상기 인코딩된 신호에 포함하도록 구성되는 다중신호 인코더.
  19. 제18항에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 인코딩된 신호 쌍에 대해 스테레오 지능형 갭 필링 프로세싱을 수행하고, 추가적으로, 개별적으로 인코딩될 적어도 하나의 신호에 대해 단일 신호 지능형 갭 필링 프로세싱을 수행하도록 구성되는 다중신호 인코더.
  20. 전술한 청구항들 중 어느 하나에 있어서,
    상기 적어도 3개의 오디오 신호는 저주파 향상 신호를 포함하고, 상기 적응형 조인트 신호 프로세서(200)는 신호 마스크를 적용하도록 구성되고, 상기 신호 마스크는 상기 적응형 조인트 신호 프로세서(200)가 활성화될 신호를 나타내고, 상기 신호 마스크는 상기 저주파 향상 신호가 상기 적어도 3개의 전처리된 오디오 신호의 쌍별 프로세싱에 사용되지 않음을 나타내도록 구성되는 다중신호 인코더.
  21. 제1항 내지 제5항 중 어느 하나의 항에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 신호의 에너지에 대한 정보로서 상기 신호의 MDCT 스펙트럼의 에너지를 산출하거나, 또는
    상기 적어도 3개의 전처리된 오디오 신호의 평균 에너지에 대한 정보로서, 상기 적어도 3개의 전처리된 오디오 신호의 MDCT 스펙트럼의 평균 에너지를 산출하도록 구성된 다중신호 인코더.
  22. 제1항 내지 제5항 중 어느 하나의 항에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 특정 신호에 대한 에너지 정보 및 상기 적어도 3개의 오디오 신호의 평균 에너지에 대한 에너지 정보에 기초하여 각각의 신호에 대한 스케일링 인자를 산출(213)하도록 구성되고,
    상기 적응형 조인트 신호 프로세서(200)는 양자화된 스케일링 비율 값을 획득하기 위해 스케일링 비율을 양자화(214)하도록 구성되고, 양자화된 상기 스케일링 비율 값은 상기 인코딩된 신호에 포함된 각각의 신호에 대해 상기 스케일링 비율에 대한 부가 정보를 도출하는데 사용되며,
    상기 적응형 조인트 신호 프로세서(200)는 양자화된 상기 스케일링 비율 값으로부터 양자화된 스케일링 비율을 도출하도록 구성되며, 상기 전처리된 오디오 신호는 상기 스케일링된 신호와 또 다른 대응하는 스케일링된 신호의 쌍별 프로세싱에 사용되기 전에 상기 양자화된 스케일링 비율을 사용하여 스케일되는 다중신호 인코더.
  23. 전술한 청구항들 중 어느 하나에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는, 가장 유사성이 높아서 상기 적어도 3개의 전처리된 오디오 신호에 관한 쌍별 프로세싱을 위한 쌍으로 선택되기에 적합한 신호 쌍을 결정 및 선택하기 위해, 가능한 신호 쌍에 대한 정규화된 신호-간 상호-상관 값을 산출(221)하도록 구성되고,
    각각의 신호 쌍에 대한 정규화된 상기 상호-상관 값은 상호-상관 벡터에 저장되고,
    상기 적응형 조인트 신호 프로세서(200)는 이전 프레임의 상호-상관 벡터를 현재 프레임의 상호-상관 벡터와 비교(222, 223)함으로써, 하나 이상의 이전 프레임의 신호 쌍 선택의 유지 여부를 결정하도록 구성되고, 상기 현재 프레임의 상기 상호-상관 벡터와 상기 이전 프레임의 상기 상호-상관 벡터 간의 차이가 미리 정의된 임계값보다 낮은 경우, 상기 이전 프레임의 상기 신호 쌍 선택이 유지되는(225) 다중신호 인코더.
  24. 전술한 청구항들 중 어느 하나에 있어서,
    상기 신호 전처리기(100)는 복수의 다양한 윈도우 길이에서 선택한 특정 윈도우 길이를 사용하여 시간-주파수 변환을 수행하도록 구성되고,
    상기 적응형 조인트 신호 프로세서(200)는 상기 전처리된 오디오 신호를 비교하여 쌍별 프로세싱할 신호 쌍을 결정할 때, 상기 신호 쌍이 동일한 관련 윈도우 길이를 가지는지 여부를 결정하도록 구성되며,
    상기 적응형 조인트 신호 프로세서(200)는 두 신호가 신호 전처리기(100)에 의해 적용된 동일한 윈도우 길이와 연관된 경우, 상기 두 신호를 쌍별 프로세싱만 허용하도록 구성되는 다중신호 인코더.
  25. 전술한 청구항들 중 어느 하나에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 비-캐스케이드 신호-쌍 프로세싱을 적용하도록 구성되고, 여기서 처리된 신호 쌍의 신호는 추가 신호 쌍 프로세싱에 선택될 수 없으며, 상기 적응형 조인트 신호 프로세서(200)는 쌍별 프로세싱에 대해 신호 쌍 간의 상호-상관에 기초하여 상기 신호 쌍을 선택하도록 구성되고, 선택된 여러 신호 쌍의 상기 쌍별 프로세싱은 병렬로 수행되는 다중신호 인코더.
  26. 제25항에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 선택된 성가 신호 쌍에 대해 스테레오 인코딩 모드를 결정하도록 구성되며, 상기 스테레오 인코딩 모드가 듀얼 모노 모드로 결정되면 이 신호 쌍에 포함된 신호는 적어도 부분적으로 리-스케일링되고(re-scaled) 개별적으로 인코딩될 신호로 표시되는 다중신호 인코더.
  27. 제18항 또는 제19항에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 코어 영역의 스테레오 모드가 IGF(intelligent gap filling) 영역의 스테레오 모드와 다르거나, 또는 상기 코어 영역의 상기 스테레오 모드가 대역별 미드/사이드 코딩으로 플래그가 지정되는 경우, 쌍별 프로세싱된 신호 쌍에 대해 스테레오 IGF 작업을 수행하도록 구성되거나,
    상기 적응형 조인트 신호 프로세서(200)는 상기 코어 영역의 상기 스테레오 모드가 상기 IGF 영역의 스테레오 모드와 다르지 않거나, 또는 상기 코어 영역의 상기 스테레오 모드가 대역별 미드/사이드 인코딩 모드로 플래그되지 않은 경우, 쌍별 프로세싱된 신호 쌍의 신호에 대해 단일 신호 IGF 분석을 적용하도록 구성되는 다중신호 인코더.
  28. 전술한 청구항들 중 어느 하나에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 IGF(intelligent gap filling) 작업의 결과가 상기 신호 인코더(300)에 의해 개별적으로 인코딩되기 전에, 상기 IGF 작업을 수행하도록 구성되고,
    전력 스펙트럼은 양자화 및 IGF(intelligent gap filling)에서 음조(tonality)/노이즈 결정에 사용되고, 상기 신호 전처리기(100)는 MDCT 스펙트럼에 적용된 것과 마찬가지로 상기 MDST 스펙트럼에 대해 동일한 주파수 영역 잡음 정형을 수행하도록 구성되고,
    상기 적응형 조인트 신호 프로세서(200)는 전처리된 MDST 스펙트럼에 대해 동일한 미드/사이드 프로세싱을 수행하도록 구성되어, 처리된 MDST 스펙트럼의 결과가 상기 신호 인코더(300)에 의해 수행되는 양자화 내에서 또는 상기 적응형 조인트 신호 프로세스(200)에 의해 수행되는 지능형 갭 필링 프로세싱 내에서 사용되거나, 또는
    상기 적응형 조인트 신호 프로세서(200)는 동일한 양자화된 스케일링 벡터를 사용하여 상기 MDCT 스펙트럼에 대해 행해진 것과 같이 상기 MDST 스펙트럼에 대해 전대역 스케일링 벡터에 기반하여 동일한 정규화 스케일링을 적용하도록 구성되는 다중신호 인코더.
  29. 전술한 청구항들 중 어느 하나에 있어서,
    상기 적응형 조인트 신호 프로세서(200)는 상기 적어도 3개의 전처리된 오디오 신호의 쌍별 프로세싱을 수행하여, 상기 적어도 3개의 조인트 처리된 신호 또는 적어도 2개의 조인트 처리된 신호 및 개별적으로 인코딩될 신호를 획득하도록 구성되는 다중신호 인코더.
  30. 전술한 청구항들 중 어느 하나에 있어서,
    상기 적어도 3개의 오디오 신호의 상기 오디오 신호는 오디오 채널이거나, 또는
    상기 적어도 3개의 오디오 신호의 오디오 신호는 앰비소닉스(Ambisonics) 음장 표현(sound field description)과 같은 음장 표현, B 포맷 표현, A 포맷 표현 또는 참조 위치에 대한 음장을 기술하는 음장 표현과 같은 다른 음장 표현의 오디오 컴포넌트 신호인 다중신호 인코더.
  31. 전술한 청구항들 중 어느 하나에 있어서,
    상기 신호 인코더(300)는 각 신호를 개별적으로 인코딩하여 적어도 3개의 인코딩된 신호를 얻도록 구성되거나, 또는 하나 이상의 신호와 (엔트로피) 코딩을 수행하도록 구성되는 다중신호 인코더.
  32. 인코딩된 신호를 디코딩하기 위한 다중신호 디코더에 있어서,
    적어도 3개의 인코딩된 신호를 디코딩하기 위한 신호 디코더(700);
    상기 인코딩된 신호에 포함된 부가 정보에 따라 조인트 신호 프로세싱을 수행하여 적어도 3개의 처리된 디코딩된 신호를 획득하는 조인트 신호 프로세서(800); 및
    상기 인코딩된 신호에 포함된 부가 정보에 따라 상기 적어도 3개의 처리된 디코딩된 신호를 후처리 하기 위한 후처리기(900)를 포함하고, 상기 후처리는 후처리된 신호가 후처리 전의 신호에 비해 덜 화이트닝 되도록 수행되고, 후처리된 상기 신호는 디코딩된 오디오 신호를 나타내는 다중신호 디코더.
  33. 제32항에 있어서,
    상기 조인트 신호 프로세서(800)는,
    상기 인코딩된 신호에서 각각의 조인트 스테레오 디코딩된 신호에 대한 에너지 정규화 값을 추출(610)하도록 구성되고;
    조인트 스테레오 디코딩된 신호를 획득하기 위해 상기 인코딩된 신호에 부가 정보로 지시된 조인트 스테레오 모드를 사용하여 상기 디코딩된 신호를 쌍별 프로세싱(820) 하도록 구성되며,
    상기 처리된 디코딩된 신호를 획득하기 위해 상기 에너지 정규화 값을 사용하여 상기 조인트 스테레오 디코딩된 신호를 리-스케일링(830) 하도록 구성되는 다중신호 디코더.
  34. 제32항에 있어서,
    상기 조인트 신호 프로세서(800)는 특정 신호에 대해 상기 인코딩된 신호에서 추출된 에너지 정규화 값이 사전 정의된 값을 가지는지 여부를 확인하도록 구성되고,
    상기 조인트 신호 프로세서(800)는 상기 에너지 정규화 값이 상기 사전 정의된 값을 가질 때, 상기 특정 신호에 대해 감소된 에너지 리-스케일링만을 수행하거나 또는 에너지 리-스케일링을 수행하지 않도록 구성되는 다중신호 디코더.
  35. 제32항 내지 제34항 중 어느 하나에 있어서,
    상기 신호 디코더(700)는,
    상기 인코딩된 신호로부터 각각의 인코딩된 신호에 대한 비트 분포 값을 추출(620)하고;
    상기 신호에 대해 상기 비트 분포 값, 모든 신호에 대해 남아 있는 비트 수, 및 선택적으로, 추가 개선(refinement) 단계 또는 선택적으로 최종 공여 단계를 사용하여 신호에 사용된 비트 분포를 결정(720)하며;
    각각의 신호에 대해 상기 사용된 비트 분포를 기반으로 개별 디코딩을 수행(710, 730)하도록 구성되는 다중신호 디코더.
  36. 제32항 내지 제35항 중 하나에 있어서,
    상기 조인트 신호 프로세서(800)는,
    스펙트럼상 향상된 개별 신호를 획득하기 위해, 상기 인코딩된 신호의 부가 정보를 사용하여 개별적으로 디코딩된 신호에 대해 대역 복제 또는 지능형 갭 필링 프로세싱을 수행(820)하고;
    상기 스펙트럼상 향상된 개별 신호를 사용하여 조인트 프로세싱 모드에 따라 조인트 프로세싱을 수행(820)하도록 구성되는 다중신호 디코더.
  37. 제36항에 있어서,
    상기 조인트 신호 프로세서(800)는 대상 범위(destination range)가 다른 스테레오 표현을 갖는 것으로 나타난 경우, 소스 범위를 하나의 스테레오 표현에서 다른 스테레오 표현으로 변환하도록 구성되는 다중신호 디코더.
  38. 제32항 내지 제37항 중 어느 하나에 있어서,
    상기 조인트 신호 프로세서(800)는,
    상기 인코딩된 신호에서 각각의 조인트 스테레오 디코딩된 신호에 대한 에너지 정규화 값(534b)을 추출하고, 추가적으로, 상기 에너지 정규화 값이 업스케일링 값인지 다운스케일링 값인지 여부를 나타내는 플래그(534a)를 추출하고,
    상기 플래그가 제1 값을 가질 때, 다운스케일링으로서 상기 에너지 정규화 값을 이용하여 리스케일링을 수행하고, 상기 플래그가 상기 제1 값과 다른 제2 값을 가질 때 업스케일링으로서 상기 에너지 정규화 값을 이용하여 리스케일링을 수행(830)하도록 구성되는 다중신호 디코더.
  39. 제32항 내지 제38항 중 어느 하나에 있어서,
    상기 조인트 신호 프로세서(800)는,
    상기 인코딩된 신호에서, 조인트 코딩 작업에서 비롯된 신호 쌍을 나타내는 부가 정보를 추출하고(630);
    각각의 신호의 본래 전처리된 스펙트럼으로 다시 변환하기 위해, 마지막 신호 쌍에서부터 시작하여 역 스테레오(inverse stereo) 또는 다중채널 프로세싱을 수행하여 상기 인코딩된 신호를 획득하고, 부가 정보(532)에 나타난 스테레오 모드 및/또는 대역별 미드/사이드 결정을 기반으로 상기 인코딩된 신호에 대해 상기 역 스테레오 프로세싱을 수행(820)하도록 구성되는 다중신호 디코더.
  40. 제32항 내지 제39항 중 어느 하나에 있어서,
    상기 조인트 신호 프로세서(800)는 신호 쌍에 연관된 모든 신호를 각각의 개별 신호에 대해 포함된 양자화된 에너지 스케일링 정보를 기반으로 대응하는 본래 에너지 레벨로 역-정규화(de-normalize, 830)하도록 구성되고, 신호 쌍 프로세싱에 연관되지 않은 다른 신호는 신호 쌍 프로세싱과 연관된 신호로 역-정규화되지 않는 다중신호 디코더.
  41. 제32항 내지 제40항 중 어느 하나에 있어서,
    상기 후처리기(900)는 각각의 개별 처리된 디코딩된 신호에 대해, 시간적 잡음 정형 작업(910) 또는 주파수 영역 잡음 정형 작업(910)과 스펙트럼 영역에서 시간 영역으로 변환(920)을 수행하고, 이어서 후처리된 신호의 후속 시간 프레임 간의 후속 오버랩/추가 작업(930)을 수행하도록 구성되는 다중신호 디코더.
  42. 제32항 내지 제41항 중 어느 하나에 있어서,
    상기 조인트 신호 프로세서(800)는, 상기 인코딩된 신호에서, 신호 쌍의 시간 프레임에 대해 여러 대역을 미드/사이드 또는 좌/우 인코딩을 사용하여 역(inverse) 처리할지 여부를 나타내는 플래그를 추출하도록 구성되고, 상기 조인트 신호 프로세서(800)는 상기 플래그를 사용하여 상기 플래그의 값에 따라 상기 신호 쌍에 대응하는 대역을 미드/사이드 프로세싱 또는 좌/우 프로세싱을 집합적으로 적용하도록 구성되고,
    동일한 신호 쌍에 대한 상이한 시간 프레임 또는 동일한 시간 프레임에 있는 상이한 신호 쌍에 대해, 각각의 개별 대역에 대해 개별 코딩 모드를 나타내는 인코딩 모드 마스크가 상기 인코딩된 신호의 부가 정보로부터 추출되고, 상기 조인트 신호 프로세서(800)는 이 대역과 연관된 비트에 나타난 대로 해당 대역에 대해 역(inverse) 미드/사이드 프로세싱 또는 좌/우 프로세싱을 적용하도록 구성되는 다중신호 디코더.
  43. 제32항 내지 제42항 중 어느 하나에 있어서,
    상기 인코딩된 신호는 인코딩된 다중채널 신호이고, 상기 다중신호 디코더는 다중채널 디코더이고, 상기 인코딩된 신호는 인코딩된 다중채널 신호이고, 상기 신호 디코더(700)는 채널 디코더이고, 상기 인코딩된 신호는 인코딩된 채널이고, 상기 조인트 신호 프로세싱은 조인트 채널 프로세싱이고, 상기 적어도 3개의 처리된 디코딩된 신호는 적어도 3개의 디코딩된 신호이고, 상기 후처리된 신호는 채널이거나; 또는
    상기 인코딩된 신호는 앰비소닉스 음장 표현과 같은 음장 표현, B포맷 표현, A 포맷 표현 또는 참조 위치와 관련하여 음장을 기술하는 음장 표현과 같은 기타 음장 표현의 오디오 컴포넌트 신호를 나타내는 인코딩된 다중 컴포넌트 신호이고, 상기 다중신호 디코더는 다중컴포넌트 디코더이고, 상기 신호 디코더(700)는 컴포넌트 디코더이고, 상기 인코딩된 신호는 인코딩된 컴포넌트이고, 상기 조인트 신호 프로세싱은 조인트 컴포넌트 프로세싱이고, 상기 적어도 3개의 처리된 디코딩된 신호는 적어도 3개의 처리된 디코딩된 컴포넌트이고, 상기 후처리된 신호는 컴포넌트 오디오 신호인 다중신호 디코더.
  44. 적어도 3개의 오디오 신호의 다중신호 인코딩을 수행하는 방법에 있어서,
    각각의 오디오 신호를 개별적으로 전처리 하여 적어도 3개의 전처리된 오디오 신호를 획득하고, 상기 전처리는 전처리된 오디오 신호가 전처리 전의 신호에 비해 화이트닝 되도록 수행되고;
    상기 적어도 3개의 전처리된 오디오 신호의 프로세싱을 수행하여 적어도 3개의 조인트 처리된 신호 또는 적어도 2개의 조인트 처리된 신호 및 개별적으로 인코딩될 신호를 획득하고;
    각각의 신호를 인코딩하여 하나 이상의 인코딩된 신호를 획득하고;
    상기 하나 이상의 인코딩된 신호, 상기 전처리와 관련된 부가 정보 및 상기 프로세싱과 관련된 부가정보를 포함하는 인코딩된 다중신호 오디오 신호를 전송하거나 또는 저장하는 단계를 포함하는 적어도 3개의 오디오 신호의 다중신호 인코딩을 수행하는 방법.
  45. 인코딩된 신호를 다중신호 디코딩하는 방법에 있어서,
    적어도 3개의 인코딩된 신호를 개별적으로 디코딩하고;
    상기 인코딩된 신호에 포함된 부가 정보에 따라 조인트 신호 프로세싱을 수행하여 적어도 3개의 처리된 디코딩된 신호를 획득하고;
    상기 인코딩된 신호에 포함된 부가 정보에 따라 적어도 3개의 처리된 디코딩된 신호를 후처리하는 단계를 포함하고, 상기 후처리는 후처리된 신호가 후처리 전 신호보다 덜 화이트닝 되도록 수행되며, 상기 후처리된 신호는 디코딩된 오디오 신호를 나타내는 것을 특징으로 하는 인코딩된 신호를 다중신호 디코딩하는 방법.
  46. 컴퓨터 또는 프로세서에서 실행될 때 제44항 또는 제45항에 따른 방법을 수행하는 컴퓨터 프로그램.
  47. 인코딩된 신호에 있어서,
    적어도 3개의 개별적으로 인코딩된 신호(510);
    상기 적어도 3개의 개별적으로 인코딩된 신호를 획득하기 위해 수행된 전처리에 관련된 부가 정보(520); 및
    상기 적어도 3개의 개별적으로 인코딩된 신호를 획득하기 위해 수행된 쌍별 프로세싱에 관련된 부가 정보(532)를 포함하고;
    상기 인코딩된 신호는, 다중신호 인코딩을 통해 획득한 적어도 3개의 인코딩된 신호의 각각에 대해 에너지 스케일링 값(534), 또는 상기 개별적으로 인코딩된 신호의 각자에 대해 비트 분포 값(536)을 포함하는 인코딩된 신호.

KR1020217003630A 2018-07-04 2019-06-27 신호 화이트닝 또는 신호 후처리를 이용하는 다중신호 인코더, 다중신호 디코더, 및 관련 방법들 KR102606259B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18181767.7 2018-07-04
EP18181767 2018-07-04
PCT/EP2019/067256 WO2020007719A1 (en) 2018-07-04 2019-06-27 Multisignal audio coding using signal whitening as preprocessing

Publications (2)

Publication Number Publication Date
KR20210040974A true KR20210040974A (ko) 2021-04-14
KR102606259B1 KR102606259B1 (ko) 2023-11-29

Family

ID=62985884

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217003630A KR102606259B1 (ko) 2018-07-04 2019-06-27 신호 화이트닝 또는 신호 후처리를 이용하는 다중신호 인코더, 다중신호 디코더, 및 관련 방법들

Country Status (15)

Country Link
US (1) US20210104249A1 (ko)
EP (2) EP4336497A3 (ko)
JP (2) JP7384893B2 (ko)
KR (1) KR102606259B1 (ko)
CN (1) CN112639967A (ko)
AR (1) AR116665A1 (ko)
AU (2) AU2019298307A1 (ko)
BR (1) BR112020026967A2 (ko)
CA (1) CA3105508C (ko)
MX (1) MX2020014077A (ko)
RU (1) RU2769788C1 (ko)
SG (1) SG11202012936VA (ko)
TW (1) TWI720530B (ko)
WO (1) WO2020007719A1 (ko)
ZA (1) ZA202100719B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023113490A1 (ko) * 2021-12-15 2023-06-22 한국전자통신연구원 복소수 데이터를 이용한 오디오 처리 방법 및 그를 수행하는 장치

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11664037B2 (en) * 2020-05-22 2023-05-30 Electronics And Telecommunications Research Institute Methods of encoding and decoding speech signal using neural network model recognizing sound sources, and encoding and decoding apparatuses for performing the same
CN113948096A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号编解码方法和装置
CN113948097A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号编码方法和装置
CN113948095A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号的编解码方法和装置
CN114023338A (zh) * 2020-07-17 2022-02-08 华为技术有限公司 多声道音频信号的编码方法和装置
KR20220151953A (ko) * 2021-05-07 2022-11-15 한국전자통신연구원 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기
CN115472171A (zh) * 2021-06-11 2022-12-13 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序
WO2023153228A1 (ja) * 2022-02-08 2023-08-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、及び、符号化方法
GB2624890A (en) * 2022-11-29 2024-06-05 Nokia Technologies Oy Parametric spatial audio encoding

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2830054A1 (en) * 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
WO2017125544A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision
US20190043515A1 (en) * 2018-07-12 2019-02-07 Intel IP Corporation Joint beamforming and echo cancellation for reduction of noise and non-linear echo

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2676266A (en) 1951-03-10 1954-04-20 California Inst Res Found Cloud chamber
US7742913B2 (en) * 2005-10-24 2010-06-22 Lg Electronics Inc. Removing time delays in signal paths
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
CN101115051B (zh) * 2006-07-25 2011-08-10 华为技术有限公司 音频信号处理方法、系统以及音频信号收发装置
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
KR102201713B1 (ko) * 2012-07-19 2021-01-12 돌비 인터네셔널 에이비 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
JP2015011076A (ja) * 2013-06-26 2015-01-19 日本放送協会 音響信号符号化装置、音響信号符号化方法、および音響信号復号化装置
MY195412A (en) * 2013-07-22 2023-01-19 Fraunhofer Ges Forschung Multi-Channel Audio Decoder, Multi-Channel Audio Encoder, Methods, Computer Program and Encoded Audio Representation Using a Decorrelation of Rendered Audio Signals
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
TWI774136B (zh) * 2013-09-12 2022-08-11 瑞典商杜比國際公司 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統
EP3293734B1 (en) * 2013-09-12 2019-05-15 Dolby International AB Decoding of multichannel audio content
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP3067889A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
EP3067887A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3067885A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
JP6721977B2 (ja) * 2015-12-15 2020-07-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声音響信号符号化装置、音声音響信号復号装置、音声音響信号符号化方法、及び、音声音響信号復号方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2830054A1 (en) * 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
WO2015010948A1 (en) * 2013-07-22 2015-01-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain
WO2017125544A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision
US20190043515A1 (en) * 2018-07-12 2019-02-07 Intel IP Corporation Joint beamforming and echo cancellation for reduction of noise and non-linear echo

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Florian Schuh, et al. Efficient multichannel audio transform coding with low delay and complexity. Audio Engineering Society Convention 141. 2016.09.29.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023113490A1 (ko) * 2021-12-15 2023-06-22 한국전자통신연구원 복소수 데이터를 이용한 오디오 처리 방법 및 그를 수행하는 장치

Also Published As

Publication number Publication date
WO2020007719A1 (en) 2020-01-09
KR102606259B1 (ko) 2023-11-29
US20210104249A1 (en) 2021-04-08
AR116665A1 (es) 2021-06-02
EP4336497A2 (en) 2024-03-13
JP2021529354A (ja) 2021-10-28
ZA202100719B (en) 2022-08-31
SG11202012936VA (en) 2021-01-28
EP4336497A3 (en) 2024-03-20
JP2024010207A (ja) 2024-01-23
AU2019298307A1 (en) 2021-02-25
CA3105508A1 (en) 2020-01-09
CN112639967A (zh) 2021-04-09
AU2022235537A1 (en) 2022-10-13
TWI720530B (zh) 2021-03-01
BR112020026967A2 (pt) 2021-03-30
EP3818520B1 (en) 2024-01-24
RU2769788C1 (ru) 2022-04-06
TW202016924A (zh) 2020-05-01
MX2020014077A (es) 2021-03-09
EP3818520A1 (en) 2021-05-12
EP3818520C0 (en) 2024-01-24
CA3105508C (en) 2024-03-26
JP7384893B2 (ja) 2023-11-21

Similar Documents

Publication Publication Date Title
KR102606259B1 (ko) 신호 화이트닝 또는 신호 후처리를 이용하는 다중신호 인코더, 다중신호 디코더, 및 관련 방법들
CN109074810B (zh) 用于多声道编码中的立体声填充的装置和方法
CA2978812A1 (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
JP6535730B2 (ja) 独立したノイズ充填を用いた強化された信号を生成するための装置および方法
KR102230668B1 (ko) 미드/사이드 결정이 개선된 전역 ild를 갖는 mdct m/s 스테레오의 장치 및 방법
KR20090089638A (ko) 신호 부호화 및 복호화 방법 및 장치
KR102380642B1 (ko) 스테레오 신호 인코딩 방법 및 인코딩 장치
US11527252B2 (en) MDCT M/S stereo
KR102353050B1 (ko) 스테레오 신호 인코딩에서의 신호 재구성 방법 및 디바이스
CA3193869A1 (en) Method and device for audio band-width detection and audio band-width switching in an audio codec

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant