KR20220076480A - 다중채널 오디오 신호에 적용될 보정의 결정, 관련 코딩 및 디코딩 - Google Patents

다중채널 오디오 신호에 적용될 보정의 결정, 관련 코딩 및 디코딩 Download PDF

Info

Publication number
KR20220076480A
KR20220076480A KR1020227013459A KR20227013459A KR20220076480A KR 20220076480 A KR20220076480 A KR 20220076480A KR 1020227013459 A KR1020227013459 A KR 1020227013459A KR 20227013459 A KR20227013459 A KR 20227013459A KR 20220076480 A KR20220076480 A KR 20220076480A
Authority
KR
South Korea
Prior art keywords
signal
channel signal
decoded
decoding
channel
Prior art date
Application number
KR1020227013459A
Other languages
English (en)
Inventor
피에르 끌레망 마에
스테판 라고
제롬 다니엘
Original Assignee
오렌지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오렌지 filed Critical 오렌지
Publication of KR20220076480A publication Critical patent/KR20220076480A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 다중채널 사운드 신호에 이루어질 보정(Corr.) 세트를 결정하기 위한 방법에 관한 것으로서, 보정 세트는, 원래의 다중채널 신호(Inf.B)의 공간 영상을 나타내는 정보의 항목, 및 코딩된 다음 디코딩된 원래의 다중채널 신호(Inf. B)의 공간 영상을 나타내는 정보의 항목에 기초하여 결정된다. 또한, 본 발명은 결정 방법을 구현하는 코딩 방법 및 디코딩 방법, 및 관련 코딩 및 디코딩 장치에 관한 것이다.

Description

다중채널 오디오 신호에 적용될 보정의 결정, 관련 코딩 및 디코딩
본 발명은 특히 앰비오포니(ambiophonic) 환경(이하에서 "앰비소닉스(ambisonic)"로도 지칭됨)에서, 공간화된(spatialized) 사운드 데이터의 코딩/디코딩에 관한 것이다.
이동 전화에서 현재 사용되는 인코더/디코더(이하에서 "코덱(codec)"으로 지칭됨)는 모노(mono)(단일 스피커(loudspeaker)를 통해 렌더링(rendering)될 단일 신호 채널)이다. 3GPP EVS("인핸스드 음성 서비스(Enhanced Voice Services)") 코덱은, 32 또는 48 kHz로 샘플링된 신호의 경우 초광대역(SWB) 오디오 대역을 통해, 또는 48 kHz로 샘플링된 신호의 경우 전대역(FB) 오디오 대역을 통해, "슈퍼-HD" 품질("고화질 플러스" 또는 HD+ 보이스로도 지칭됨)을 제공할 수 있게 한다; 오디오 대역폭은 SWB 모드(9.6 내지 128 kbit/s)에서 14.4 내지 16 kHz이고, FB 모드(16.4 내지 128 kbit/s)에서 20 kHz이다.
운영자에 의해 제공되는 대화형 서비스의 다음 품질 발전은, 간단한 2D 스테레오 렌더링보다 훨씬 더 몰입적인 공간화된 3D 사운드 렌더링을 통해, 다수의 마이크로폰 또는 원격 프레전스(remote presence)를 구비한 스마트폰, 또는 360° 비디오 공간화된 오디오 회의 또는 비디오 회의 장비, 또는 심지어 "라이브" 오디오 콘텐츠 공유 장비와 같은 단말기를 사용하여, 몰입형 서비스로 구성되어야 한다. 오디오 헤드셋 및 첨단 오디오 장비 온셋(onset)(3D 마이크로폰, 음향 안테나를 갖는 음성 보조기, 가상현실 헤드셋 등과 같은 부속품)을 갖는 이동 전화를 통해 청취하는 점점 더 광범위한 사용에 따라, 공간화된 사운드 장면을 포착 및 렌더링하는 것은 이제 몰입형 커뮤니케이션 경험을 제공하기 위해 충분히 흔한 일이다.
이를 위해, 향후의 3GPP 표준 "IVAS"("몰입형 음성 및 오디오 서비스")는, 코덱 입력 포맷으로서, 아래에 나열되는 적어도 공간화된 사운드 포맷(및 이들의 조합)을 허용함으로써, 몰입을 위한 EVS 코덱을 확장시키는 것을 제안하고 있다:
- 각각의 채널이 스피커에 제공하는 스테레오 또는 5.1 다중채널(채널 기반) 포맷(예를 들어, 스테레오에서 L 및 R, 또는 5.1에서 L, R, Ls, Rs 및 C);
- 사운드 객체(sound object)가 이러한 객체의 특성(공간 내의 위치, 소스의 공간 폭 등)을 표현하는 메타데이터와 관련된 오디오 신호(일반적으로 모노)로서 표현되는, 객체(객체 기반) 포맷;
- 일반적으로 구면 마이크로폰에 의해 포착되거나 구면 고조파의 영역에서 합성되는, 주어진 지점의 사운드 필드를 표현하는 앰비소닉스(장면 기반) 포맷.
전형적으로 이하에서 관심사는, 예시적인 실시형태로서, 앰비소닉스 포맷의 사운드의 코딩이다(이하의 본 발명과 관련하여 제시되는 적어도 일부 양태는 앰비소닉스 이외의 포맷에도 적용될 수 있음).
앰비소닉스는, 공간화된 사운드를 레코딩(음향 의미에서의 "코딩")하기 위한 방법, 및 재생(음향 의미에서의 "디코딩")을 위한 시스템이다. (제1차(1st-order)) 앰비소닉스 마이크로폰은, 구면 그리드(예를 들어, 정사면체의 정점) 상에 배치된 (전형적으로, 카디오이드(cardioid) 또는 서브-카디오이드 유형의) 적어도 4개의 캡슐(capsule)을 포함한다. 이러한 캡슐과 관련된 오디오 채널은 "A-포맷"으로 지칭된다. 이러한 포맷은 "B-포맷"으로 변환되며, 사운드 필드는, 4개의 일치하는 가상 마이크로폰에 해당하는 W, X, Y, Z로 표시되는 4개의 성분(구면 고조파)으로 분해된다. 성분 W는 사운드 필드의 전방향성 포착에 해당하는 반면에, 보다 방향성인 성분 X, Y 및 Z는, 공간의 3개의 직교 축을 따라 지향된 압력 구배 마이크로폰과 유사하다. 앰비소닉스 시스템은, 레코딩 및 렌더링이 별개이고 분리되어 있다는 점에서 유연한 시스템이다. 이는 임의의 구성의 스피커(예를 들어, 스테레오, 5.1 또는 7.1.4 다중채널 (고도를 갖는) "서라운드" 사운드)를 통한 디코딩(음향 의미에서)을 가능하게 한다. 앰비소닉스 접근법은, B-포맷의 4개 초과의 채널로 일반화될 수 있으며, 이러한 일반화된 표현은 통상적으로 "HOA"("고차 앰비소닉스")로 지칭된다. 사운드를 더 많은 구면 고조파로 분해함으로써, 스피커를 통해 렌더링할 때 공간 렌더링 정밀도가 개선된다.
M차 앰비소닉스 신호는 K=(M+1)2 성분을 포함하며, 1차에서(M=1인 경우), FOA(1차 앰비소닉스)로 통상적으로 지칭되는 4개의 성분(W, X, Y, 및 Z)이 있다. 또한, 대체로 수평면인 평면으로 한정된 사운드를 분해하는, 소위 앰비소닉스(W, X, Y)의 "평면형" 변형예가 있다. 이 경우, 성분의 수는 K=2M+1 채널이다. 1차 앰비소닉스(4 채널: W, X, Y, Z), 평면형 1차 앰비소닉스(3 채널: W, X, Y), 및 고차 앰비소닉스는 모두 용이한 이해를 위해 아래에서 "앰비소닉스"로서 일률적으로 지칭되며, 제시되는 처리 작업은, 평면형 또는 비평면형 유형 및 앰비소닉스 성분의 수와 무관하게 적용 가능하다.
이하에서, "앰비소닉스 신호"는, 일정한 수의 앰비소닉스 성분을 갖는 B-포맷의 미리 결정된 차수 신호에 주어진 명칭일 것이다. 또한, 이는 하이브리드 경우를 포함하며, 예를 들어, 2차에서, (9개 대신에) 8개 채널만이 있으며, 보다 정확하게는, 2차에서, 4개의 1차 채널(W, X, Y, Z) 플러스 일반적으로 5개 채널(일반적으로 R, S, T, U, V로 표시됨)이 있고, 예를 들어, 고차 채널 중 하나(예를 들어, R)를 무시하는 것이 가능하다.
인코더/디코더에 의해 처리될 신호는, 아래에서 "프레임" 또는 "서브-프레임"으로 지칭되는 일련의 사운드 샘플 블록의 형태를 취한다.
또한, 아래에서, 수학적 표기법은 이하의 규칙을 따른다:
- 스칼라: s 또는 N(변수의 경우 소문자, 또는 상수의 경우 대문자);
- 연산자 Re(.)은 복소수의 실수부를 나타낸다;
- 벡터: u(굵은 소문자);
- 행렬: A(굵은 대문자).
A T A H 표시는, A의 전치 및 에르미트 전치(Hermitian transposition)(전치 및 켤레 결합)를 각각 나타낸다.
- 길이 L의 시간 간격(i=0,…,L-1)에 걸쳐서 한정된, 1차원 이산 시간 신호(
Figure pct00001
)는, 행 벡터
Figure pct00002
로 표현된다.
괄호 사용을 방지하기 위해,
Figure pct00003
로 쓰는 것도 가능하다.
- K 차원을 갖고 길이 L의 시간 간격(i=0,…,L-1)에 걸쳐서 한정된, 다차원 이산 시간 신호(
Figure pct00004
)는, 크기 LxK의 행렬로 표현된다:
Figure pct00005
.
괄호 사용을 방지하기 위해,
Figure pct00006
로 표시하는 것도 가능하다.
- 데카르트 좌표(x,y,z)를 갖는 3D 포인트는 구면 좌표(
Figure pct00007
)로 변환될 수 있으며, 여기서 r은 원점까지의 거리이고,
Figure pct00008
는 방위각이며,
Figure pct00009
는 고도이다. 보편성을 상실하지 않으면서, 수평면(0xy)에 대하여 고도가 한정되는 수학적 규칙이 여기서 사용된다; 본 발명은 방위각이 축(Oz)에 대하여 한정되는 물리학에 사용되는 규칙을 포함하는 다른 정의에 용이하게 적응될 수 있다.
또한, (ACN(앰비소닉스 채널 넘버), SID(단일 인덱스 표시), FuMA(Furse-Malham)를 포함하는) 앰비소닉스 성분의 차수와 관련하여 앰비소닉스에서 종래기술로부터 알려진 규칙, 및 앰비소닉스 성분의 정규화(SN3D, N3D, maxN)를 여기서 상기시키지 않는다. 보다 상세한 내용은 예를 들어, 온라인으로 입수 가능한 리소스에서 확인될 수 있다:
https://en.wikipedia.org/wiki/Ambisonic_data_exchange_formats
규칙에 따라, 앰비소닉스 신호의 제1 성분은 대체로 전방향성 성분(W)에 해당한다.
앰비소닉스 신호를 코딩하기 위한 가장 간단한 접근법은, 모노 인코더를 사용하여, 채널에 따라 가능하게는 상이한 비트 할당으로 모든 채널에 병렬로 이를 적용하는 단계로 이루어진다. 이러한 접근법은 여기서 "다중-모노"로 지칭된다. 다중-모노 접근법은 다중-스테레오 코딩(채널 쌍이 스테레오 코덱에 의해 개별적으로 코딩됨)으로 확장될 수 있거나, 보다 일반적으로는, 동일한 코어 코덱의 다수의 병렬 인스턴스의 사용으로 확장될 수 있다.
이러한 실시형태는 도 1에 도시된다. 입력 신호는 블록(100)에 의해 채널(하나의 모노 채널 또는 다수의 채널)로 분할된다. 이러한 채널은, 미리 결정된 분배 및 비트 할당에 기초하여, 블록(120 내지 122)에 의해 개별적으로 코딩된다. 이들의 비트스트림은 멀티플렉싱되며(블록(130)), 전송 및/또는 저장 후에, 이는 재조합되는(블록(160)) 디코딩된 채널을 재구성(블록(150 내지 152)하기 위한 디코딩을 적용하기 위해 디멀티플렉싱된다(블록(140)).
관련 품질은, 사용된 코어 코딩 및 디코딩(블록(120 내지 122 및 150 내지 152))에 따라 가변되며, 이는 매우 높은 비트 레이트에서만 대체로 만족스럽다. 예를 들어, 다중-모노 경우에, EVS 코딩은, 채널(모노)당 적어도 48 kbit/s의 비트 레이트에서 (지각의 관점에서) 준-투과성(quasi-transparent)인 것으로 간주될 수 있다; 따라서, 1차 앰비소닉스 신호의 경우, 4x48 = 192 kbit/s의 최소 비트 레이트가 획득된다. 다중-모노 코딩 접근법은 채널간 상관관계를 고려하지 않기 때문에, 이는 고스트 음원(ghost sound source)의 출현, 확산 소음, 또는 음원 궤적의 변위와 같은, 다양한 아티팩트(artifact)의 추가에 따라 공간 변형을 생성한다. 따라서, 이러한 접근법을 사용하여 앰비소닉스 신호를 코딩하는 것은, 공간화의 저하를 유발한다.
모든 채널을 별도로 코딩하는 것에 대한 한 가지 대안적인 접근법은, 스테레오 또는 다중채널 신호의 경우, 파라메트릭(parametric) 코딩으로 주어진다. 이러한 유형의 코딩의 경우, 입력 다중채널 신호는, "다운믹스(downmix)"로 지칭되는 처리 작업 후에, 더 적은 수의 채널로 감소되며, 이러한 채널은 코딩되어 전송되고, 추가적인 공간화 정보가 또한 코딩된다. 파라메트릭 디코딩은, 디코딩된 추가적인 공간화 정보에 기초하는 공간 합성 및 (전형적으로, 상관 제거(decorrelation)를 통해 구현되는) "업믹스(upmix)"로 지칭되는 처리 작업을 사용하여, 전송 채널을 디코딩한 후에 채널의 수를 증가시키는 단계로 이루어진다. 스테레오 파라메트릭 코딩의 일 실시예는, 3GPP e-AAC+ 코덱으로 주어진다. 다운믹스 작업은 공간화의 저하를 또한 유발한다는 점을 유의한다; 이 경우, 공간 영상이 변형된다.
본 발명은 종래기술을 개선하는 것을 목적으로 한다.
이를 위해, 이는 다중채널 사운드 신호에 이루어질 보정 세트(set of corrections)를 결정하기 위한 방법을 제안하며, 보정 세트는, 원래의 다중채널 신호의 공간 영상을 나타내는 정보로부터, 그리고 원래의 코딩된 다음 디코딩된 다중채널 신호의 공간 영상을 나타내는 정보로부터 결정된다.
따라서, 디코딩된 다중채널 신호에 적용될 결정된 보정 세트는, 코딩으로 인한 그리고 가능하게는 채널 감소/증가 작업으로 인한 공간 저하를 제한할 수 있게 한다. 따라서, 보정을 구현함으로써, 원래의 다중채널 신호의 공간 영상에 가장 가까운 디코딩된 다중채널 신호의 공간 영상을 복구할 수 있다.
하나의 특정 실시형태에서, 보정 세트는, 전대역 시간 영역(하나의 주파수 대역)에서 결정된다. 일부 변형예에서, 이는 주파수 부대역에 의해 시간 영역에서 수행된다. 이에 따라, 주파수 대역에 따라 보정을 조정할 수 있다.
다른 변형예에서, 이는 단시간 이산 푸리에 변환(STFT), 변형된 이산 코사인 변환(MDCT) 유형 등의 실수 또는 복소수 변환된 영역(전형적으로, 주파수 영역)에서 수행된다.
또한, 본 발명은 다중채널 사운드 신호를 디코딩하기 위한 방법에 관한 것으로서, 방법은,
- 원래의 다중채널 신호의 공간 영상을 나타내는 정보, 및 원래의 다중채널 신호로부터의 코딩된 오디오 신호를 포함하는 비트스트림을 수신하는 단계;
- 수신된 코딩된 오디오 신호를 디코딩하여 디코딩된 다중채널 신호를 획득하는 단계;
- 원래의 다중채널 신호의 공간 영상을 나타내는 정보를 디코딩하는 단계;
- 디코딩된 다중채널 신호의 공간 영상을 나타내는 정보를 결정하는 단계;
- 전술한 결정 방법을 사용하여, 디코딩된 신호에 이루어질 보정 세트를 결정하는 단계;
- 결정된 보정 세트를 사용하여, 디코딩된 다중채널 신호를 보정하는 단계를 포함한다.
따라서, 이러한 실시형태에서, 디코더는, 인코더로부터 수신된 원래의 다중채널 신호의 공간 영상을 나타내는 정보로부터, 디코딩된 다중채널 신호에 이루어질 보정을 결정할 수 있다. 따라서, 인코더로부터 수신된 정보는 제한된다. 보정을 결정할 뿐만 아니라 적용하는 것을 담당하는 것은 디코더이다.
또한, 본 발명은 다중채널 사운드 신호를 코딩하기 위한 방법에 관한 것으로서, 방법은,
- 원래의 다중채널 신호로부터 오디오 신호를 코딩하는 단계;
- 원래의 다중채널 신호의 공간 영상을 나타내는 정보를 결정하는 단계;
- 코딩된 오디오 신호를 로컬로 디코딩하여 디코딩된 다중채널 신호를 획득하는 단계;
- 디코딩된 다중채널 신호의 공간 영상을 나타내는 정보를 결정하는 단계;
- 전술한 결정 방법을 사용하여, 디코딩된 다중채널 신호에 이루어질 보정 세트를 결정하는 단계;
- 결정된 보정 세트를 코딩하는 단계를 포함한다.
이러한 실시형태에서, 디코딩된 다중채널 신호에 이루어질 보정 세트를 결정하고, 디코더에 이를 전송하는 것은 인코더이다.
따라서, 이러한 보정 결정을 개시하는 것은 인코더이다.
전술한 바와 같은 디코딩 방법 또는 전술한 바와 같은 코딩 방법의 제1 특정 실시형태에서, 공간 영상을 나타내는 정보는 공분산 행렬이며, 보정 세트를 결정하는 단계는,
- 가상 스피커 세트와 관련된 가중 벡터를 포함하는 가중 행렬을 획득하는 단계;
- 획득된 가중 행렬로부터 그리고 원래의 다중채널 신호의 수신된 공분산 행렬로부터 원래의 다중채널 신호의 공간 영상을 결정하는 단계;
- 획득된 가중 행렬로부터 그리고 결정된 디코딩된 다중채널 신호의 공분산 행렬로부터 디코딩된 다중채널 신호의 공간 영상을 결정하는 단계;
- 이득 세트를 획득하기 위해, 가상 스피커 세트의 스피커의 방향으로 디코딩된 다중채널 신호의 공간 영상과 원래의 다중채널 신호의 공간 영상 간의 비율을 계산하는 단계를 더 포함한다.
이러한 실시형태에 따라, 스피커를 통한 렌더링을 사용하는 이러한 방법은, 인코더로부터 디코더로 제한된 양의 데이터만을 전송할 수 있게 한다. 실제로, 주어진 차수 M의 경우, (동일한 수의 가상 스피커와 관련된) 전송될 K=(M+1)2 계수는 충분할 수 있지만, 보다 안정적인 보정을 위해, 더 많은 가상 스피커를 사용하여 더 많은 포인트를 전송하는 것이 권장될 수 있다. 또한, 보정은, 가상 스피커와 관련된 이득의 측면에서 용이하게 해석될 수 있다.
다른 변형 실시형태에서, 인코더가 다양한 방향으로의 신호의 에너지를 직접 결정하고, 원래의 다중채널 신호의 이러한 공간 영상을 디코더에 전송하는 경우, 디코딩 방법을 위한 보정 세트를 결정하는 단계는,
- 가상 스피커 세트와 관련된 가중 벡터를 포함하는 가중 행렬을 획득하는 단계;
- 획득된 가중 행렬로부터 그리고 결정된 디코딩된 다중채널 신호의 공간 영상을 나타내는 정보로부터 디코딩된 다중채널 신호의 공간 영상을 결정하는 단계;
- 이득 세트를 획득하기 위해, 가상 스피커 세트의 스피커의 방향으로 디코딩된 다중채널 신호의 공간 영상과 원래의 다중채널 신호의 공간 영상 간의 비율을 계산하는 단계를 더 포함한다.
너무 급격하지 않은 보정 값을 보장하기 위해, 디코딩 방법 또는 코딩 방법은, 적어도 하나의 임계치에 따라 획득되는 이득 값을 제한하는 단계를 포함한다.
이러한 이득 세트는 보정 세트를 구성하며, 예를 들어, 이에 따라 결정된 이득 세트를 포함하는 보정 행렬의 형태일 수 있다.
디코딩 방법 또는 코딩 방법의 제2 특정 실시형태에서, 공간 영상을 나타내는 정보는 공분산 행렬이며, 보정 세트를 결정하는 단계는, 2개의 공분산 행렬의 행렬 분해를 통해 변환 행렬을 결정하는 단계를 포함하고, 변환 행렬은 보정 세트를 구성한다.
이러한 실시형태는, 앰비소닉스 다중채널 신호의 경우에, 앰비소닉스 영역에서 직접 보정을 수행하는 이점을 갖는다. 따라서, 스피커를 통해 렌더링된 신호를 앰비소닉스 영역으로 변환하는 단계가 방지된다. 추가적으로, 이러한 실시형태는, 스피커를 통해 렌더링하는 방법과 비교하여, 더 많은 수의 계수의 전송이 필요하더라도, 수학 항(mathematical term)이 최적이도록 보정을 최적화할 수 있게 한다. 실제로, 차수 M 및 이에 따른 성분의 수 K=(M+1)2의 경우, 전송될 계수의 수는 Kx(K+1)/2이다.
특정 주파수 영역에 걸친 과도한 증폭을 방지하기 위해, 정규화 인자가 결정되어 변환 행렬에 적용된다.
보정 세트가 전술한 바와 같은 변환 행렬 또는 보정 행렬에 의해 표현되는 경우, 디코딩된 다중채널 신호는, 디코딩된 다중채널 신호에(즉, 앰비소닉스 신호의 경우 앰비소닉스 영역에서 직접) 보정 세트를 적용함으로써, 결정된 보정 세트에 의해 보정된다.
디코더에 의해 구현되는 스피커를 통해 렌더링하는 실시형태에서, 디코딩된 다중채널 신호는, 이하의 단계에서, 결정된 보정 세트를 사용하여 보정된다:
- 한정된 가상 스피커 세트를 통해 디코딩된 다중채널 신호를 음향적으로 디코딩하는 단계;
- 음향 디코딩으로 인해 비롯되는 신호에 획득된 이득 세트를 적용하는 단계;
- 다중채널 신호의 성분을 획득하기 위해, 음향 디코딩으로 인해 비롯되는 보정된 신호를 음향적으로 코딩하는 단계;
- 보정된 다중채널 신호를 획득하기 위해, 이에 따라 획득된 다중채널 신호의 성분을 합산하는 단계.
하나의 변형 실시형태에서, 상기 디코딩하는 단계, 이득을 적용하는 단계, 및 코딩/합산하는 단계는, 보정 행렬을 사용하는 직접 보정 작업으로 함께 그룹화된다. 이러한 보정 행렬은 디코딩된 다중채널 신호에 직접 적용될 수 있으며, 이는 전술한 바와 같이, 앰비소닉스 영역에서 직접 보정을 수행하는 이점을 갖는다.
코딩 방법이 보정 세트를 결정하기 위한 방법을 구현하는 제2 실시형태에서, 디코딩 방법은,
- 디코딩된 다중채널 신호에 이루어질 코딩된 보정 세트, 및 원래의 다중채널 신호로부터의 코딩된 오디오 신호를 포함하는 비트스트림을 수신하는 단계로서, 보정 세트는 전술한 코딩 방법을 사용하여 코딩된, 단계;
- 수신된 코딩된 오디오 신호를 디코딩하여 디코딩된 다중채널 신호를 획득하는 단계;
- 코딩된 보정 세트를 디코딩하는 단계;
- 디코딩된 보정 세트를 디코딩된 다중채널 신호에 적용함으로써, 디코딩된 다중채널 신호를 보정하는 단계를 포함한다.
이러한 실시형태에서, 앰비소닉스 영역에서 직접, 디코딩된 다중채널 신호에 이루어질 보정을 결정하는 것은 인코더이며, 앰비소닉스 영역에서 직접, 이러한 보정을 디코딩된 다중채널 신호에 적용하는 것은 디코더이다.
이 경우, 보정 세트는, 변환 행렬, 또는 이득 세트를 포함하는 다른 보정 행렬일 수 있다.
스피커를 통해 렌더링하는 디코딩 방법의 하나의 변형 실시형태에서, 디코딩 방법은,
- 디코딩된 다중채널 신호에 이루어질 코딩된 보정 세트, 및 원래의 다중채널 신호로부터의 코딩된 오디오 신호를 포함하는 비트스트림을 수신하는 단계로서, 보정 세트는 전술한 바와 같은 코딩 방법을 사용하여 코딩된, 단계;
- 수신된 코딩된 오디오 신호를 디코딩하여 디코딩된 다중채널 신호를 획득하는 단계;
- 코딩된 보정 세트를 디코딩하는 단계;
- 하기의 단계에서, 디코딩된 보정 세트를 사용하여 디코딩된 다중채널 신호를 보정하는 단계를 포함하며, 하기의 단계는,
한정된 가상 스피커 세트를 통해 디코딩된 다중채널 신호를 음향적으로 디코딩하는 단계;
음향 디코딩으로 인해 비롯되는 신호에 획득된 이득 세트를 적용하는 단계;
다중채널 신호의 성분을 획득하기 위해, 음향 디코딩으로 인해 비롯되는 보정된 신호를 음향적으로 코딩하는 단계;
보정된 다중채널 신호를 획득하기 위해, 이에 따라 획득된 다중채널 신호의 성분을 합산하는 단계이다.
이러한 실시형태에서, 가상 스피커 세트를 통한 음향 디코딩으로 인해 비롯되는 신호에 이루어질 보정을 결정하는 것은 인코더이며, 음향 디코딩으로 인해 비롯되는 신호에 이러한 보정을 적용한 다음, 앰비소닉스 다중채널 신호의 경우에 앰비소닉스 영역으로 리턴시키기 위해 이러한 신호를 변환하는 것은 디코더이다.
하나의 변형 실시형태에서, 상기 디코딩하는 단계, 이득을 적용하는 단계, 및 코딩/합산하는 단계는, 보정 행렬을 사용하는 직접 보정 작업으로 함께 그룹화된다. 그 다음, 보정 행렬을 디코딩된 다중채널 신호(예를 들어, 앰비소닉스 신호)에 적용함으로써, 보정이 직접 수행된다. 전술한 바와 같이, 이는 앰비소닉스 영역에서 직접 보정을 수행하는 이점을 갖는다.
또한, 본 발명은 전술한 바와 같은 디코딩 방법을 구현하기 위한 처리 회로를 포함하는 디코딩 장치에 관한 것이다.
또한, 본 발명은 전술한 바와 같은 코딩 방법을 구현하기 위한 처리 회로를 포함하는 디코딩 장치에 관한 것이다.
본 발명은 프로세서에 의해 실행될 때, 전술한 바와 같은 디코딩 방법 또는 코딩 방법을 구현하기 위한 명령을 포함하는 컴퓨터 프로그램에 관한 것이다.
마지막으로, 본 발명은, 전술한 디코딩 방법 또는 코딩 방법을 실행하기 위한 명령을 포함하는 컴퓨터 프로그램을 저장하는, 프로세서에 의해 판독될 수 있는 저장 매체에 관한 것이다.
본 발명의 다른 특징 및 이점은, 간단한 예시적이고 비-제한적인 실시예 및 첨부된 도면을 통해 제공되는, 특정 실시형태에 대한 이하의 설명을 읽을 때 더 명확하게 분명해질 것이며, 첨부된 도면으로서:
도 1은 종래기술에 따른 전술한 바와 같은 다중-모노(multi-mono) 코딩을 도시한다;
도 2는 본 발명의 일 실시형태에 따른 보정 세트를 결정하기 위한 방법의 단계를 흐름도의 형태로 도시한다;
도 3은 본 발명에 따른 제1 실시형태의 인코더 및 디코더, 코딩 방법 및 디코딩 방법을 도시한다;
도 4는 보정 세트를 결정하기 위한 블록의 상세한 제1 실시형태를 도시한다;
도 5는 보정 세트를 결정하기 위한 블록의 상세한 제2 실시형태를 도시한다;
도 6은 본 발명에 따른 제2 실시형태의 인코더 및 디코더, 코딩 방법 및 디코딩 방법을 도시한다; 그리고
도 7은 본 발명의 일 실시형태에 따른 인코더 및 디코더의 구조적 실시형태의 실시예를 도시한다.
아래에 설명되는 방법은, 특히 디코딩된 신호의 공간 영상이 원래의 신호에 가능한 한 가깝도록 보장하기 위해, 공간 저하를 보정하는 것에 기초한다. 지각 큐(perceptual cue)가 코딩되는 스테레오 또는 다중채널 신호를 위한 알려진 파라메트릭 코딩 접근법과 달리, 본 발명은 앰비소닉스 영역이 직접 "청취 가능"하지 않기 때문에, 공간 영상 정보의 지각 해석에 기초하지 않는다.
도 2는 코딩된 다음 디코딩된 다중채널 신호에 적용될 보정 세트를 결정하기 위해 구현되는 주요 단계를 도시한다.
크기 KxL의 원래의 다중채널 신호(B)(즉, L 시간 또는 주파수 샘플의 K 성분)는, 결정 방법의 입력에 있다. 단계(S1)에서, 원래의 다중채널 신호의 공간 영상을 나타내는 정보가 추출된다.
여기서 관심사는, 전술한 바와 같이, 앰비소닉스 표현을 갖는 다중채널 신호의 경우이다. 또한, 본 발명은, 예를 들어 특정 성분의 억제(예를 들어, 8 채널만을 유지하기 위한 2차 R 성분의 억제)와 같은, 변형을 갖는 B-포맷 신호, 또는 3GPP TS 26.260 규격에 설명된 바와 같은 등가 영역("등가 공간 영역"으로 지칭됨)에 전달하기 위한 B-포맷의 매트릭싱(matrixing)(다른 실시예의 매트릭싱은, 3GPP TS 26.918 규격(6.1.6.3 절)에서 그리고 IETF Opus 코덱의 "채널 매핑 3"으로 주어짐)과 같은, 다른 유형의 다중채널 신호에 적용될 수 있다.
여기서 "공간 영상"은, 공간 내의 다양한 방향으로의 앰비소닉스 사운드 장면의 사운드 에너지의 분포에 주어지는 명칭이다; 일부 변형예에서, 사운드 장면을 표현하는 이러한 공간 영상은, 예를 들어, 도착 방향의 히스토그램(도착 방향이 미리 결정된 방향으로 주어진 이산화에 따라 카운트됨) 또는 이러한 방향으로 샘플링된 MUSIC(MUltiple SIgnal Classification: 다중 신호 분류) 의사-스펙트럼의 형태로, 대체로 공간 내의 다양한 미리 결정된 방향으로 평가된 양수 값에 해당한다; 이러한 양수 값은, 본 발명의 설명을 단순화하기 위해, 에너지로서 해석될 수 있으며, 아래에서 이와 같이 간주된다.
따라서, 앰비소닉스 사운드 장면과 관련된 공간 영상은, 공간 내의 다양한 방향에 따라 상대적 사운드 에너지(또는 보다 일반적으로 양수 값)를 나타낸다. 본 발명에서, 공간 영상을 나타내는 정보는, 예를 들어 다중채널 신호의 채널 간에 계산된 공분산 행렬일 수 있거나, 사운드가 비롯되는 방향과 관련된(단위 구면에 걸쳐서 분포된 가상 스피커의 방향과 관련된) 다른 에너지 정보일 수 있다.
다중채널 신호에 적용될 보정 세트는, 변환 행렬 또는 이러한 이득 세트를 포함하는 보정 행렬의 형태일 수 있는, 사운드가 비롯되는 방향과 관련된 이득 세트에 의해 한정될 수 있는 정보이다.
다중채널 신호(B)의 공분산 행렬은 예를 들어, 단계(S1)에서 획득된다. 도 3 및 도 6을 참조하여 후술되는 바와 같이, 이러한 행렬은 예를 들어 다음과 같이 계산된다:
정규화 인자 이내까지의
Figure pct00010
(실수 경우)
또는
정규화 인자 이내까지의
Figure pct00011
(복소수 경우)
일부 변형예에서, 공분산 행렬을 일시적으로 평활화하는 작업이 사용될 수 있다. 시간 영역에서의 다중채널 신호의 경우, 공분산은 다음과 같은 형식으로 재귀적으로(샘플마다) 추정될 수 있다:
Figure pct00012
.
하나의 변형 실시형태에서, 에너지 정보는, (단위 구면에 걸쳐서 분포된 가상 스피커의 방향과 관련된) 다양한 방향으로 획득된다. 이러한 목적을 위해, 예를 들어, 도 3 및 도 4를 참조하여 후술되는 SRP("조향식-응답 전력(Steered-Response Power)") 방법이 적용될 수 있다. 일부 변형예에서, 다른 공간 영상 컴퓨팅 방법(MUSIC 의사-스펙트럼, 도착 방향의 히스토그램)이 사용될 수 있다.
원래의 다중채널 신호를 코딩하기 위한 다수의 실시형태가 안출 가능하고 여기서 설명된다.
제1 실시형태에서, 단계(S2)에서, 다중-모노 코딩을 사용하여, B의 다양한 채널(
Figure pct00013
)(k=0, .., K-1)이 코딩되며, 각각의 채널(
Figure pct00014
)은 개별적으로 코딩된다. 일부 변형 실시형태에서, 채널(
Figure pct00015
)이 별도의 쌍으로 코딩되는 다중-스테레오 코딩도 가능하다. 5.1 입력 신호의 하나의 통상적인 실시예는, C 및 LFE(저주파수 전용) 모노 코딩 작업과 함께 L/R 및 Ls/Rs의 2개의 개별 스테레오 코딩 작업을 사용하는 단계로 이루어진다; 앰비소닉스의 경우, 다중-스테레오 코딩은, B-포맷으로 채널을 매트릭싱한 후에 획득된 등가 다중채널 신호 또는 앰비소닉스 성분(B-포맷)에 적용될 수 있다(예를 들어, 1차에서, 채널(W, X, Y, Z)은 4개의 변환된 채널로 변환될 수 있고, 2개의 채널 쌍이 개별적으로 코딩되어 디코딩 시에 B-포맷으로 다시 변환된다). 하나의 실시예는 최신 버전의 Opus 코덱("채널 매핑 3") 및 3GPP TR 26.918 규격(6.1.6.3 절)으로 주어진다.
다른 변형예에서, 단계(S2)에서, 예를 들어 앰비소닉스(장면 기반) 포맷을 위한 MPEG-H 3D 오디오 코덱과 같은, 공동 다중채널 코딩을 사용하는 것도 가능하다; 이 경우, 코덱은 입력 채널을 공동으로 코딩한다. MPEG-H 실시예에서, 이러한 공동 코딩은, 앰비소닉스 신호에 대해, 다수의 단계로 분해된다(예를 들어, 우세한 모노 소스를 추출 및 코딩하는 단계, 앰비언스(ambiance)를 추출하는 단계(전형적으로 1차 앰비소닉스 신호로 감소됨), 우세한 채널을 추출하기 위해, 음향 빔형성 벡터를 표현하는 메타데이터 및 모든 추출된 채널("전송 채널"로 지칭됨)을 코딩하는 단계). 공동 다중채널 코딩은, 예를 들어, 우세한 오디오 소스 및 앰비언스를 추출하거나, 모든 오디오 콘텐츠를 고려하는 전체 비트 할당을 수행하기 위해, 모든 채널 간의 관계를 이용할 수 있게 한다.
바람직한 실시형태에서, 단계(S2)의 예시적인 실시형태는, 전술한 바와 같은 3GPP EVS 코덱을 사용하여 수행되는 다중-모노 코딩이다. 그러나, 본 발명에 따른 방법은, 코딩될 채널을 표현하기 위해 사용되는 코어 코덱(다중-모노, 다중-스테레오, 공동 코딩)과 무관하게 이에 따라 사용될 수 있다.
이에 따라 비트스트림의 형태로 코딩된 신호는, 단계(S3)에서, 인코더의 로컬 디코더에 의해, 또는 전송 후에 디코더에 의해 디코딩될 수 있다. 이러한 신호는, 다중채널 신호(
Figure pct00016
)의 채널을 복구하기 위해 디코딩된다(예를 들어, 다중-모노 디코딩을 사용하는 다중 EVS 디코더 인스턴스에 의해).
단계(S2a, S2b, S3a, S3b)는, 다중채널 신호(B)의 코딩 및 디코딩의 하나의 변형 실시형태를 나타낸다. 전술한 단계(S2)의 코딩과의 차이점은, 단계(S2a)에서 채널의 수를 감소("다운믹스")시키고 단계(S3b)에서 채널의 수를 증가("업믹스")시키기 위한 추가적인 처리 작업의 사용에 있다. 이러한 코딩 및 디코딩 단계(S2b 및 S3a)는, 단계(S2b 및 S3a)에서 각각의 입력 및 출력 채널의 수가 더 작다는 것을 제외하고는, 단계(S2 및 S3)와 유사하다.
1차 앰비소닉스 입력 신호에 대한 다운믹싱의 일 실시예는 W 채널만을 유지하는 단계로 이루어진다; 차수 >1의 앰비소닉스 입력 신호의 경우, 처음 4개의 성분(W, X, Y, Z)은 다운믹스로 간주될 수 있다(따라서, 신호를 1차로 절단(truncate)한다). 일부 변형예에서, 앰비소닉스 성분의 서브세트(예를 들어, 성분 R이 없는 8개의 2차 채널)는 다운믹스로 간주될 수 있으며, 예를 들어, 이하에서 형식으로 획득된 스테레오 다운믹스와 같은, 매트릭싱의 경우도 고려될 수 있다:
Figure pct00017
(FOA 채널만을 사용).
모노 신호를 업믹싱하는 한 가지 실시예는, 시간 또는 주파수 영역에서의 (전통과(all-pass) 유형의) 다양한 상관 제거 필터 또는 다양한 공간 룸 임펄스 응답(SRIR)을 적용하는 단계로 이루어진다. 주파수 영역에서의 상관 제거의 하나의 예시적인 실시형태는, 예를 들어, 돌비 VRStream 오디오 프로파일 후보에 관한 문서 3GPP S4-180975, pCR 내지 26.118(X.6.2.3.5 절)에 주어진다.
이러한 "다운믹스" 처리 작업으로 인해 비롯되는 신호(B')는, 예를 들어 3GPP EVS 코덱을 통한 모노 또는 다중-모노 접근법을 사용하여, 코어 코덱(다중-모노, 다중-스테레오, 공동 코딩)에 의해 단계(S2b)에서 코딩된다. 코딩 단계(S2b)로부터의 입력 오디오 신호, 및 디코딩 단계(S3a)로부터의 출력 오디오 신호는, 원래의 다중채널 오디오 신호보다 더 적은 수의 채널을 갖는다. 이 경우, 코어 코덱에 의해 표현되는 공간 영상은, 코딩 전에도 이미 실질적으로 저하된다. 극단적인 경우, W 채널만을 코딩함으로써, 채널의 수가 단일 모노 채널로 감소된다; 그 다음, 입력 신호는 단일 오디오 채널로 제한되며, 이에 따라 공간 영상이 상실된다. 본 발명에 따른 방법은, 이러한 공간 영상을 원래의 다중채널 신호의 공간 영상에 가능한 한 가깝게 표현하여 재구성할 수 있게 한다.
이러한 변형 실시형태의 업믹스 단계(S3b)의 출력에서, 디코딩된 다중채널 신호(
Figure pct00018
)가 복구된다.
단계(S4)에서, 디코딩된 다중채널 신호의 공간 영상을 나타내는 정보는, 2개의 변형예(S2-S3 또는 S2a-S2b-S3a-S3b)에 따라, 디코딩된 다중채널 신호(
Figure pct00019
)로부터 추출된다. 원래의 영상에 대해서와 동일한 방식으로, 이러한 정보는, 디코딩된 다중채널 신호를 통해 계산된 공분산 행렬일 수 있거나, 사운드가 비롯되는 방향(또는 동등하게, 단위 구면 상의 가상 포인트)과 관련된 다른 에너지 정보일 수 있다.
원래의 다중채널 신호 및 디코딩된 다중채널 신호를 나타내는 이러한 정보는, 공간 저하를 제한하기 위해, 디코딩된 다중채널 신호에 이루어질 보정 세트를 결정하기 위한 단계(S5)에서 사용된다.
이러한 단계를 예시하기 위해, 도 4 및 도 5를 참조하여 2개의 실시형태가 아래에 설명될 것이다.
도 2에서 설명된 방법은, 시간 영역으로, 주파수 전대역으로(단일 대역을 가짐), 또는 달리 주파수 부대역에 의해(다수의 대역을 가짐) 구현될 수 있으며, 이는 방법의 작업을 변경하지 않고, 이 경우 각각의 부대역은 별도로 처리된다. 방법이 부대역에 의해 수행되는 경우, 보정 세트는 부대역당 결정되며, 이는 단일 대역의 경우와 비교하여, 디코더에 전송될 데이터 및 컴퓨팅의 측면에서 추가 비용을 유발한다. 부대역으로의 분할은 균일할 수 있거나, 불균일할 수 있다. 예를 들어, 32 kHz로 샘플링된 신호의 스펙트럼은 다양한 변형예에 따라 분할될 수 있다:
- 1, 3, 4 및 8 kHz 또는 심지어 2, 2, 4 및 8 kHz의 각각의 폭을 갖는 4개 대역;
- 24개 바크(Bark) 대역(저주파수에서의 100 Hz의 폭 내지 마지막 부대역을 위한 3.5~4 kHz);
- 24개 바크 대역은, 가능하게는 6개 또는 4개 "집합(agglomerated)" 대역의 세트를 각각 형성하기 위해, 4개 또는 6개 연속 대역의 블록으로 함께 그룹화될 수 있다.
상이한 샘플링 주파수(예를 들어, 16 또는 48 kHz)의 경우를 포함하는, 다른 분할이 가능하다(예를 들어, "등가 직사각형 대역폭"의 경우, ERB 대역, 또는 옥타브의 1/3로).
일부 변형예에서, 본 발명은 변환된 영역에서, 예를 들어, 단시간 이산 푸리에 변환(STFT)의 영역에서, 또는 변형된 이산 코사인 변환(MDCT)의 영역에서 구현될 수도 있다.
이러한 보정 세트의 결정을 구현하고, 이러한 보정 세트를 디코딩된 신호에 적용하기 위한 다수의 실시형태가 이제 설명된다.
앰비소닉스 포맷으로 음원을 인코딩하기 위한 알려진 기술을 여기서 상기시킨다. 모노 음원은, 동일한 수의 앰비소닉스 성분을 획득하기 위해, 이의 원점 방향과 관련된 구면 고조파의 값과 이의 신호를 곱함으로써(신호는 평면파에 의해 전달된다고 가정함), 인위적으로 공간화될 수 있다. 이는 원하는 차수에서 방위각(
Figure pct00020
) 및 고도(
Figure pct00021
)로 결정된 위치에 대해, 각각의 구면 고조파에 대한 계수를 계산하는 단계를 포함한다:
Figure pct00022
여기서, s는 공간화될 모노 신호이고,
Figure pct00023
는 M차수에 대해 방향(
Figure pct00024
)과 관련된 구면 고조파의 계수를 한정하는 인코딩 벡터이다. 인코딩 벡터의 일 실시예는, SN3D 규칙으로 1차수에 대해, 그리고 SID 또는 FuMa 채널의 차수에 대해 아래와 같이 주어진다:
Figure pct00025
일부 변형예에서, 다른 정규화 규칙(예를 들어, maxN, N3D) 및 채널 차수(예를 들어, ACN)가 사용될 수 있으며, 이 경우, 다양한 실시형태는 앰비소닉스 성분(FOA 또는 HOA)의 하나 이상의 정규화의 차수에 사용되는 규칙에 따라 조정된다. 이는 행
Figure pct00026
의 차수를 변경하거나, 미리 한정된 상수와 이러한 행을 곱하는 것에 해당한다.
더 높은 차수의 경우, 구면 고조파의 계수
Figure pct00027
는, B. Rafaely의 저서 "구면 어레이 처리의 기본 원칙"(Springer, 2015년)에서 확인될 수 있다. 일반적으로, 차수 M의 경우, K=(M+1)2 앰비소닉스 신호가 있다.
마찬가지로, 스피커에 의한 앰비소닉스 렌더링에 관한 몇 가지 개념을 여기서 상기시킬 것이다. 앰비소닉스 사운드는 이와 같이 청취되도록 의도되지 않는다; 스피커 또는 헤드폰을 통한 몰입형 청취를 위해, 렌더링("렌더러(renderer)")로도 지칭되는, 음향 의미에서의 "디코딩" 단계가 수행되어야 한다. 전형적으로 단위 반경을 갖는 구면에 걸쳐서 분포된 N개 (가상 또는 물리적) 스피커의 경우를 고려하며, 방위각 및 고도의 관점에서, 이의 방향(
Figure pct00028
)(n=0, …, N-1)은 알려져 있다. 여기서 고려되는 바와 같은 디코딩은, 행렬
Figure pct00029
로 조합될 수 있는 스피커의 신호(
Figure pct00030
)를 획득하기 위해, 앰비소닉스 신호(B)에 행렬(D)을 적용하는 단계로 이루어진 선형 연산이며, 여기서
Figure pct00031
.
행렬(D)은 행 벡터(
Figure pct00032
)로 분해될 수 있으며, 즉
Figure pct00033
이고,
Figure pct00034
은 n번째 스피커에 대한 가중 벡터로 간주될 수 있고, 앰비소닉스 신호의 성분을 재조합하여 n번째 스피커를 통해 재생되는 신호를 계산하기 위해 사용될 수 있다:
Figure pct00035
.
음향 의미에서 "디코딩"을 위한 다수의 방법이 있다. "모드-매칭(mode-matching)"으로도 지칭되는, "기본 디코딩" 방법으로 알려져 있는 것은, 가상 스피커의 모든 방향과 관련된 인코딩 행렬(E)을 기초로 한다:
Figure pct00036
이러한 방법에 따라, 행렬(D)은 전형적으로 E의 의사 역행렬(pseudo-inverse)로서 정의된다:
Figure pct00037
.
대안으로서, "투영(projection)" 방법으로 지칭될 수 있는 방법은, 방향의 특정 규칙적 분포에 대해 유사한 결과를 제공하며, 다음의 방정식으로 표현된다:
Figure pct00038
후자의 경우, 인덱스(n)의 각각의 방향에 대해, 다음과 같이 간주될 수 있다:
Figure pct00039
본 발명의 맥락에서, 이러한 행렬은, 분석 및/또는 공간 변환을 수행하기 위해, 공간 내의 방향의 신호 특성을 획득하는 방법을 표현하는 방향성 빔형성 행렬로서 작용할 것이다.
본 발명의 맥락에서, 이는 스피커 영역으로부터 앰비소닉스 영역으로 통과하기 위한 상호 변환을 표현하기 위해 유용하다. 두 가지 변환의 연속적인 적용은, 스피커 영역에 중간 변경이 적용되지 않는 경우, 원래의 앰비소닉스 신호를 정확히 재현해야 한다. 따라서, 상호 변환은 D의 의사 역행렬을 처리하는 것으로서 정의된다:
Figure pct00040
K=(M+1)2인 경우, 크기 KxK의 행렬(D)은 특정 조건에 따라 반전될 수 있으며, 이 경우:
Figure pct00041
"모드-매칭" 방법의 경우,
Figure pct00042
인 것으로 보인다. 일부 변형예에서, 해당 역변환(E)과 함께, D를 사용하여 디코딩하기 위한 다른 방법이 사용될 수 있다; 충족될 유일한 조건은, D를 사용하는 디코딩 및 E를 사용하는 역변환의 조합이 완벽한 재구성을 제공해야 한다는 점이다(음향 디코딩과 음향 인코딩 사이에 중간 처리 연산이 수행되지 않는 경우).
이러한 변형예는 예를 들어 다음과 같이 주어진다:
- 다음과 같은 형식
Figure pct00043
으로 정규 항을 갖는, "모드-매칭" 디코딩(여기서, ε은 낮은 값임(예를 들어 0.01));
- 종래기술로부터 알려진 "동위상" 또는 "max-rE" 디코딩;
- 또는 스피커의 방향의 분포가 구면에 걸쳐서 규칙적이지 않는 변형예.
도 3은 도 2를 참조하여 설명된 바와 같은 보정 세트를 결정하기 위한 방법을 포함하는 코딩 및 디코딩 방법을 구현하기 위한 코딩 장치 및 디코딩 장치의 제1 실시형태를 도시한다.
이러한 실시형태에서, 인코더는 원래의 다중채널 신호의 공간 영상을 나타내는 정보를 계산하며, 코딩으로 인해 유발된 공간 저하를 보정할 수 있도록 하기 위해, 이를 디코더에 전송한다. 이에 따라, 디코딩 동안, 디코딩된 앰비소닉스 신호에서 공간 아티팩트를 감쇠시킬 수 있다.
따라서, 인코더는, 예를 들어, 앰비소닉스 표현(FOA 또는 HOA), 또는 주어진 부분 앰비소닉스 차수까지의 앰비소닉스 성분의 서브세트를 갖는 하이브리드 표현의 다중채널 입력 신호를 수신하며, 후자의 경우는, 사실상 FOA 또는 HOA 경우에 동등한 방식으로 포함되고, 누락된 앰비소닉스 성분은 0이며, 앰비소닉스 차수는, 모든 한정된 성분을 포함하기 위해 필요한 최소 차수로 주어진다. 따라서, 보편성을 상실하지 않으면서, FOA 또는 HOA 경우의 설명을 아래에서 고려한다.
이에 따라 설명된 실시형태에서, 입력 신호는 32 kHz로 샘플링된다. 인코더는, 바람직하게는 20 ms 길이인 프레임(즉, 32 kHz에서 프레임당 L=640 샘플)으로 작동된다. 일부 변형예에서, 다른 프레임 길이 및 샘플링 주파수가 가능하다(예를 들어, 48 kHz에서 10 ms의 프레임당 L=480 샘플). 하나의 바람직한 실시형태에서, 코딩은 (하나 이상의 대역으로) 시간 영역에서 수행되지만, 일부 변형예에서, 본 발명은 예를 들어 단시간 이산 푸리에 변환(STFT) 또는 변형된 이산 코사인 변환(MDCT) 후에, 변환된 영역에서 구현될 수 있다.
도 2를 참조하여 설명된 바와 같이, 사용된 코딩 실시형태에 따라, 채널(DMX)의 수를 감소시키기 위한 블록(310)이 구현될 수 있다; 블록(311)의 입력은, 다운믹스가 구현되는 경우 블록(310)의 출력에서의 신호 B'이거나, 그렇지 않은 경우 신호 B이다. 일 실시형태에서, 다운믹스가 적용되는 경우, 이는 예를 들어, 1차 앰비소닉스 입력 신호의 경우, W 채널만을 유지하는 단계로 이루어지며, 차수 >1의 앰비소닉스 입력 신호의 경우, 처음 4개의 앰비소닉스 성분(W, X, Y, Z)만을 유지하는 단계로 이루어진다(따라서, 1차로 신호를 절단하는 단계로 이루어진다). 본 발명에 따른 방법을 이와 같이 변경하지 않으면서, 다른 유형의 다운믹스(예를 들어, 매트릭싱 및/또는 채널의 서브세트의 선택을 통해 전술한 바와 같은 것들)가 구현될 수 있다.
블록(311)은, 다운믹스 단계가 수행되는 경우 블록(310)의 출력에서의 B'의 오디오 신호(
Figure pct00044
)를 코딩하거나, 원래의 다중채널 신호(B)의 오디오 신호(
Figure pct00045
)를 코딩한다. 이러한 신호는, 채널의 수를 감소시키는 처리 작업이 적용되지 않은 경우, 원래의 다중채널 신호의 앰비소닉스 성분에 해당한다.
하나의 바람직한 실시형태에서, 블록(311)은 고정식 또는 가변식 할당을 갖는 다중-모노 코딩(COD)을 사용하며, 코어 코덱은 표준 3GPP EVS 코덱이다. 이러한 다중-모노 접근법에서, 각각의 채널(
Figure pct00046
또는
Figure pct00047
)은, 코덱의 하나의 인스턴스에 의해 개별적으로 코딩된다; 그러나, 일부 변형예에서, 예를 들어 다중-스테레오 코딩 또는 공동 다중채널 코딩과 같은, 다른 코딩 방법이 가능하다. 따라서, 이에 따라, 이러한 코딩 블록(311)의 출력에서, 멀티플렉서(340)에 전송되는 비트스트림의 형태로, 원래의 다중채널 신호로부터 비롯되는 코딩된 오디오 신호를 제공한다.
선택적으로, 블록(320)은 부대역으로의 분할을 수행한다. 일부 변형예에서, 부대역으로의 이러한 분할은, 블록(310 또는 311)에서 수행된 동등한 처리 작업을 재사용할 수 있다; 여기서 블록(320)의 분할은 기능적이다.
하나의 바람직한 실시형태에서, 원래의 다중채널 오디오 신호의 채널은, 1 kHz, 3 kHz, 4 kHz, 8 kHz의 각각의 폭을 갖는 4개의 주파수 부대역으로 분할된다(이는 주파수를 0~1000, 1000~4000, 4000~8000 및 8000~16000 Hz로 분할하는 것에 해당한다). 이러한 분할은, 단시간 이산 푸리에 변환(STFT), 푸리에 영역에서의 대역통과 필터링(주파수 마스크를 적용함으로써), 및 중첩 가산(overlap addition)을 통한 역변환을 통해 구현될 수 있다. 이 경우, 부대역은 동일한 원래의 주파수로 계속 샘플링되며, 본 발명에 따른 처리 작업은 시간 영역에서 적용된다; 일부 변형예에서, 임계 샘플링과 함께 필터 뱅크를 사용하는 것이 가능하다. 일반적으로, 부대역으로 분할하는 작업은, 구현되는 필터 뱅크의 유형에 따라 좌우되는 처리 지연을 포함한다는 점을 유의한다; 본 발명에 따라, 공간 영상 정보가 보정된 신호와 시간에 맞게 적절히 동기화되도록, 공간 영상 정보의 추출 전에 및/또는 코딩-디코딩 전에 또는 후에, 시간 정렬이 적용될 수 있다.
일부 변형예에서, 전대역 처리가 수행될 수 있거나, 전술한 바와 같은 부대역으로의 분할이 상이할 수 있다.
다른 변형예에서, 원래의 다중채널 오디오 신호의 변환으로 인해 비롯되는 신호가 직접적으로 사용되며, 본 발명은, 변환된 영역에서의 부대역으로의 분할과 함께, 변환된 영역에서 적용된다.
설명의 나머지 부분에서, 코딩 및 디코딩의 다양한 단계는, 설명을 단순화하기 위해, 이들이 단일 주파수 대역으로 (실수 또는 복소수) 시간 또는 주파수 영역에서의 처리 작업을 포함하는 것처럼 설명된다.
예를 들어, 차단 주파수가 바람직하게는 20 또는 50 Hz(일부 변형예에서 50 Hz)로 설정되는, 2차 타원형 IIR 필터의 형태로, 선택적으로, 각각의 부대역에서, 고역통과 필터링(전형적으로 20 또는 50 Hz의 차단 주파수를 가짐)을 구현하는 것도 가능하다. 이러한 전처리는, 코딩 동안 후속적인 공분산 추정에 대한 잠재적인 편향을 방지한다; 이러한 전처리가 없으면, 후술되는 블록(390)에서 구현되는 보정은, 전대역 처리 동안 저주파수를 증폭시키는 경향이 있을 것이다.
블록(321)은 원래의 다중채널 신호의 공간 영상을 나타내는 정보를 결정한다(
Figure pct00048
).
일 실시형태에서, 이러한 정보는, 사운드가 비롯되는 방향과 관련된(단위 구면에 걸쳐서 분포된 가상 스피커의 방향과 관련된) 에너지 정보이다.
이러한 목적을 위해, 단위 반경을 갖는 가상 3D 구면이 한정되며, 이러한 3D 구면은 N개 포인트("포인트" 가상 스피커)에 의해 이산화되고, 이의 위치는 n번째 스피커에 대해 방향(
Figure pct00049
)에 의해 구면 좌표로 한정된다. 스피커는 전형적으로 구면에 걸쳐서 (준)균일한 방식으로 배치된다. 가상 스피커의 수(N)는 적어도 N=K 포인트를 갖는 이산화로서 결정되며, 여기서 M은 신호의 앰비소닉스 차수이고, K=(M+1)2(즉, N≥K)이다. 예를 들어, "레베데프(Lebedev)" 구적법은, V. I. Lebedev, 및 D. N. Laikov의 "131차 대수적 차수의 정확도의 구면을 위한 구적법 공식"(Doklady 수학, vol. 59, no. 3, 1999년, pp. 477-481), 또는 Pierre Lecomte, Philippe-Aubert Gauthier, Christophe Langrenne, Alexandre Garcia 및 Alain Berry의 "앰비소닉스를 위한 레베데프 그리드의 사용"(AES 컨벤션 139, 뉴욕, 2015년)의 인용예에 따라, 이러한 이산화를 수행하기 위해 사용될 수 있다.
일부 변형예에서, 예를 들어, J. Fliege 및 U. Maier의 인용예 "구면에 대한 입체 구적법 식을 계산하기 위한 2단계 접근법"(기술 보고서, 도르트문트 대학, 1999년)에 설명된 바와 같이, 적어도 N=K 포인트(N≥K)를 통한 Fliege 이산화, 또는 R. H. Hardin 및 N. J. A. Sloane의 논문 "McLaren의 개선된 스너브 큐브(Snub Cube) 및 3차원으로의 다른 새로운 구면 설계"(이산 및 계산 기하학, 15(1996년), pp. 429-441)에 설명된 바와 같은 "구면 t-설계"의 포인트를 선택함으로써 다른 이산화와 같은, 다른 이산화가 사용될 수 있다.
이러한 이산화로부터, 다중채널 신호의 공간 영상을 결정하는 것이 가능하다. 한 가지 가능한 방법은 예를 들어, SRP("조향식-응답 전력") 방법이다. 실제로, 이러한 방법은, 방위각 및 고도의 관점에서 한정된 다양한 방향으로부터 비롯되는 단기 에너지를 계산하는 단계로 이루어진다. 이러한 목적을 위해, 전술한 바와 같이, N개 스피커를 통한 렌더링과 유사하게, 앰비소닉스 성분의 가중 행렬이 계산된 다음, 성분의 기여도를 합산하여 N개 음향 빔(또는 "빔형성기")의 세트를 생성하기 위해, 이러한 행렬이 다중채널 신호에 적용된다.
n번째 스피커의 방향(
Figure pct00050
)에 대한 음향 빔으로부터의 신호는
Figure pct00051
로 주어지며,
여기서,
Figure pct00052
은 주어진 방향에 대한 음향 빔형성 계수를 제공하는 가중 (행) 벡터이고, B는, 길이 L의 시간 간격 동안, K 성분을 갖는 앰비소닉스 신호(B-포맷)를 나타내는 크기 KxL의 행렬이다.
N개 음향 빔으로부터의 신호 세트는 방정식을 유발한다:
Figure pct00053
여기서,
Figure pct00054
이고,
S는, 길이 L의 시간 간격 동안 N개 가상 스피커의 신호를 나타내는 크기 NxL의 행렬이다.
각각의 방향(
Figure pct00055
)에 대한 길이 L의 시간 세그먼트 동안의 단기 에너지는 다음과 같다:
Figure pct00056
여기서
Figure pct00057
(실수 경우) 또는
Figure pct00058
(복소수 경우)는 B의 공분산 행렬이다.
각각의 항
Figure pct00059
는, 가상 스피커에 의한 3D 구면의 이산화에 해당하는 모든 방향(
Figure pct00060
)에 대해 이러한 방식으로 계산될 수 있다.
그 다음, 공간 영상(
Figure pct00061
)은 다음과 같이 주어진다:
Figure pct00062
SRP 방법 이외에 공간 영상(
Figure pct00063
)을 계산하기 위한 변형예가 사용될 수 있다.
- 값(
Figure pct00064
)은 사용되는 음향 빔형성의 유형(지연-합, MVDR, LCMV 등)에 따라 가변될 수 있다. 또한, 본 발명은 행렬( D ) 및 공간 영상(
Figure pct00065
)을 계산하는 이러한 변형예에 적용된다.
- 또한, MUSIC(다중 신호 분류) 방법은, 부분 공간 접근법으로 공간 영상을 계산하는 다른 방식을 제공한다.
본 발명은 또한 공간 영상(
Figure pct00066
)을 계산하는 이러한 변형예에 적용되며,
이는 공분산 행렬을 대각선화함으로써 계산되고 방향(
Figure pct00067
)에 대해 평가되는 MUSIC 의사-스펙트럼에 해당한다.
- 공간 영상은, 예를 들어, S. Tervo의 논문 "사운드 강도 벡터에 기초하는 방향 추정"(Proc. EUSIPCO, 2009년), 또는 의사-강도 벡터로의 이의 일반화에서처럼, 강도 벡터(1차)의 히스토그램으로부터 계산될 수 있다. 이 경우, 히스토그램(이의 값은 미리 결정된 방향(
Figure pct00068
)으로의 도착 값의 방향의 발생의 수임)은, 미리 결정된 방향으로의 에너지 세트로서 해석된다.
그 다음, 블록(330)은 예를 들어, 계수당 16 비트로의 스칼라 양자화(16 비트로 절단된 부동 소수점 표현을 직접 사용함으로써)를 통해, 이에 따라 결정된 공간 영상을 양자화한다. 일부 변형예에서, 다른 스칼라 또는 벡터 양자화 방법이 가능하다.
다른 실시형태에서, 원래의 다중채널 신호의 공간 영상을 나타내는 정보는 입력 채널(B)의 (부대역의) 공분산 행렬이다. 이러한 행렬은, 정규화 인자 이내까지의
Figure pct00069
로서 계산된다(실수 경우).
본 발명이 복소수값 변환된 영역에서 구현되는 경우, 이러한 공분산은 정규화 인자 이내까지의
Figure pct00070
로서 계산된다.
일부 변형예에서, 공분산 행렬을 일시적으로 평활화하는 작업이 사용될 수 있다. 시간 영역에서의 다중채널 신호의 경우, 공분산은 재귀적으로(샘플마다) 추정될 수 있다.
(크기 KxK의) 공분산 행렬(C)이 정의에 따라 대칭적임으로써, 하부 또는 상부 삼각형 중 하나만이 양자화 블록(330)으로 전송되어,
Figure pct00071
계수를 코딩하며(Q), K는 앰비소닉스 성분의 수이다.
이러한 블록(330)은 예를 들어, 계수당 16 비트로의 스칼라 양자화(16 비트로 절단된 부동 소수점 표현을 직접 사용함으로써)를 통해, 이러한 계수를 양자화한다. 일부 변형예에서, 공분산 행렬의 스칼라 또는 벡터 양자화를 위한 다른 방법이 구현될 수 있다. 예를 들어, 공분산 행렬의 최대 값(최대 분산)을 계산한 다음, 더 작은 수의 비트(예를 들어, 8 비트)로 코딩하기 위한 로그(logarithmic) 단계를 갖는 스칼라 양자화를 사용하는 것이 가능하며, 공분산 행렬의 상부(또는 하부) 삼각형의 값은 이의 최대 값으로 정규화된다.
일부 변형예에서, 공분산 행렬(C)은
Figure pct00072
형식으로 양자화 전에 정규화될 수 있다.
양자화된 값은 멀티플렉서(340)에 전송된다.
이러한 실시형태에서, 디코더는, 디멀티플렉서 블록(350)에서, 원래의 다중채널 신호의 공간 영상을 나타내는 정보, 및 원래의 다중채널 신호로부터 비롯되는 코딩된 오디오 신호를 포함하는 비트스트림을 수신한다.
블록(360)은 원래의 신호의 공간 영상을 나타내는 공분산 행렬 또는 다른 정보를 디코딩한다(Q-1). 블록(370)은 비트스트림으로 표현되는 바와 같은 오디오 신호를 디코딩한다(DEC).
다운믹스 및 업믹스 단계를 구현하지 않는, 코딩 및 디코딩의 일 실시형태에서, 디코딩된 다중채널 신호(
Figure pct00073
)가 디코딩 블록(370)의 출력에서 획득된다.
다운믹스 단계가 코딩을 위해 사용된 실시형태에서, 블록(370)에서 구현된 디코딩은, 업믹스 블록(371)의 입력에 전송되는 디코딩된 오디오 신호(
Figure pct00074
)를 획득할 수 있게 한다.
따라서, 블록(371)은 채널의 수를 증가시키는 선택적인 단계(UPMIX)를 구현한다. 이러한 단계의 일 실시형태에서, 모노 신호(
Figure pct00075
)의 채널의 경우, 이는 다양한 공간 룸 임펄스 응답(SRIR)을 사용하여 신호(
Figure pct00076
)를 콘벌빙(convolving)하는 단계로 이루어진다; 이러한 SRIR은 B의 원래의 앰비소닉스 차수로 한정된다. 예를 들어, 신호(
Figure pct00077
)의 다양한 채널에 전통과 상관 제거 필터를 적용하는 것과 같은, 다른 상관 제거 방법이 가능하다.
블록(372)은, 시간 영역 또는 변환된 영역에서 부대역을 획득하기 위해, 부대역으로 분할하는 선택적인 단계(SB)를 구현한다. 블록(391)에서, 역 단계는, 출력에서 다중채널 신호를 복구하기 위해, 부대역을 함께 그룹화한다.
블록(375)은, 블록(321)에 대해(원래의 다중채널 신호에 대해) 설명된 것과 유사한 방식으로, 디코딩된 다중채널 신호의 공간 영상을 나타내는 정보를 결정하며(
Figure pct00078
), 이러한 시간은, 디코딩 실시형태에 따라 블록(371) 또는 블록(370)의 출력에서 획득된 디코딩된 다중채널 신호(
Figure pct00079
)에 적용된다.
블록(321)에 대해 설명된 것과 동일한 방식으로, 일 실시형태에서, 이러한 정보는, 사운드가 비롯되는 방향과 관련된(단위 구면에 걸쳐서 분포된 가상 스피커의 방향과 관련된) 에너지 정보이다. 전술한 바와 같이, 디코딩된 다중채널 신호의 공간 영상을 결정하기 위해, SRP 방법 등이 사용될 수 있다.
다른 실시형태에서, 이러한 정보는, 디코딩된 다중채널 신호의 채널의 공분산 행렬이다.
이 경우, 이러한 공분산 행렬은 다음과 같이 획득된다:
Figure pct00080
(실수 경우) 또는
정규화 인자 이내까지의
Figure pct00081
(복소수 경우).
일부 변형예에서, 공분산 행렬을 일시적으로 평활화하는 작업이 사용될 수 있다. 시간 영역에서의 다중채널 신호의 경우, 공분산은 재귀적으로(샘플마다) 추정될 수 있다.
디코딩된 다중채널 신호(
Figure pct00082
) 및 원래의 다중채널 신호(
Figure pct00083
)의 공간 영상을 각각 나타내는 정보(예를 들어, 공분산 행렬(C
Figure pct00084
))로부터, 블록(380)은 도 2를 참조하여 설명된 바와 같은 보정 세트를 결정(Det.Corr)하기 위한 방법을 구현한다.
이러한 결정의 두 가지 특정 실시형태는 도 4 및 도 5를 참조하여 설명된다.
도 4의 실시형태에서, 가상 스피커를 통한 (명시적 또는 비-명시적) 렌더링을 사용하는 방법이 사용되며, 도 5의 실시형태에서, 콜레스키(Cholesky) 인수 분해에 기초하여 구현되는 방법이 사용된다.
도 3의 블록(390)은, 보정된 디코딩된 다중채널 신호를 획득하기 위해, 블록(380)에 의해 결정된 보정 세트를 사용하여, 디코딩된 다중채널 신호의 보정(CORR)을 구현한다.
따라서, 도 4는 보정 세트를 결정하는 단계의 일 실시형태를 도시한다. 이러한 실시형태는 가상 스피커를 통한 렌더링을 사용하여 수행된다.
이러한 실시형태에서, 디코딩된 다중채널 신호 및 원래의 다중채널 신호의 공간 영상을 나타내는 정보는 각각의 공분산 행렬(C
Figure pct00085
)이라고 초기에 간주된다.
이 경우, 블록(420 및 421)은 원래의 다중채널 신호 및 디코딩된 다중채널 신호의 공간 영상을 각각 결정한다.
이러한 목적을 위해, 전술한 바와 같이, 단위 반경을 갖는 가상 3D 구면이 N개 포인트("포인트" 가상 스피커)에 의해 이산화되고, 이의 방향은 n번째 스피커에 대해 방향(
Figure pct00086
)에 의해 구면 좌표로 한정된다.
다수의 이산화 방법이 위에 정의되었다.
이러한 이산화로부터, 다중채널 신호의 공간 영상을 결정하는 것이 가능하다. 전술한 바와 같이, 한 가지 가능한 방법은, 방위각 및 고도의 관점에서 한정된 다양한 방향으로부터 비롯되는 단기 에너지를 계산하는 단계로 이루어지는 SRP 방법 등이다.
위에 나열된 바와 같은 이러한 방법 또는 다른 유형의 방법은, 420(
Figure pct00087
)에서 원래의 다중채널 신호 및 421(
Figure pct00088
)에서 디코딩된 다중채널 신호의 공간 영상(
Figure pct00089
Figure pct00090
)(
Figure pct00091
Figure pct00092
)을 각각 결정하기 위해 사용될 수 있다.
디코더에 의해 360에서 수신되어 디코딩된 원래의 신호(
Figure pct00093
)의 공간 영상을 나타내는 정보가 공간 영상 자체(즉, 사운드가 비롯되는 방향과 관련된(단위 구면에 걸쳐서 분포된 가상 스피커의 방향과 관련된) 에너지 정보(또는 양수 값))인 경우, 더 이상 420에서 이를 계산할 필요가 없다. 이 경우, 이러한 공간 영상은 아래에 설명되는 블록(430)에 의해 직접 사용된다.
마찬가지로, 디코딩된 다중채널 신호(
Figure pct00094
)의 공간 영상을 나타내는 정보의 375에서의 결정이 디코딩된 다중채널 신호의 공간 영상 자체인 경우, 421에서 더 이상 이를 계산할 필요가 없다. 이 경우, 이러한 공간 영상은 아래에 설명되는 블록(430)에 의해 직접 사용된다.
공간 영상(
Figure pct00095
Figure pct00096
)으로부터, 블록(430)은, (
Figure pct00097
)에 의해 주어진 각각의 포인트에 대해, 원래의 신호의 에너지(
Figure pct00098
)와 디코딩된 신호의 에너지(
Figure pct00099
) 간의 에너지 비율을 계산한다(비율). 따라서, 이득(gn) 세트는 이하의 방정식을 사용하여 획득된다:
Figure pct00100
방향(
Figure pct00101
) 및 주파수 대역에 따라, 에너지 비율은 매우 클 수 있다. 블록(440)은, 이득(gn)이 취할 수 있는 최대 값을 선택적으로 제한(gn 제한)할 수 있게 한다. 여기서,
Figure pct00102
Figure pct00103
으로 표시되는 양수 값은, 보다 일반적으로는, 이산화된 방향(
Figure pct00104
)으로의 도착 방향의 히스토그램으로 인해 비롯되는 값, 또는 MUSIC 의사-스펙트럼으로 인해 비롯되는 값에 해당할 수 있음을 상기한다.
하나의 가능한 실시형태에서, 임계치는 gn의 값에 적용된다. 이러한 임계치보다 더 큰 임의의 값은, 이러한 임계치와 동일하게 된다. 임계치는 예를 들어 6 dB로 설정될 수 있으므로, 간격(+/- 6 dB) 외부의 이득 값이 6 dB로 포화된다.
따라서, 이러한 이득(gn) 세트는, 디코딩된 다중채널 신호에 이루어질 보정 세트를 구성한다.
이러한 이득 세트는 도 3의 보정 블록(390)의 입력에서 수신된다.
디코딩된 다중채널 신호에 직접 적용될 수 있는 보정 행렬은, 예를 들어
Figure pct00105
형식으로 한정될 수 있으며, 여기서 DE는 위에 한정된 음향 디코딩 및 인코딩 행렬이다. 이러한 행렬(G)은, 보정된 출력 앰비소닉스 신호(
Figure pct00106
)를 획득하기 위해, 디코딩된 다중채널 신호(
Figure pct00107
)에 적용된다.
보정을 위해 구현된 단계의 분석이 이제 설명된다. 블록(390)은, 각각의 가상 스피커에 대해, 이전에 결정된 해당 이득(gn)을 적용한다. 이러한 이득을 적용함으로써, 이러한 스피커를 통해, 원래의 신호와 동일한 에너지를 획득할 수 있다.
따라서, 각각의 스피커를 통한 디코딩된 신호의 렌더링이 보정된다.
그 다음, 음향 인코딩 단계, 예를 들어 행렬(E)을 사용하는 앰비소닉스 인코딩은, 다중채널 신호의 성분(예를 들어, 앰비소닉스 성분)을 획득하기 위해 구현된다. 이러한 앰비소닉스 성분은, 보정된 출력 다중채널 신호(
Figure pct00108
)를 획득하기 위해 최종적으로 합산된다. 따라서, 가상 스피커와 관련된 채널을 명시적으로 계산하고, 이에 이득을 적용한 다음, 처리된 채널을 재조합하거나, 동등한 방식으로, 보정될 신호에 행렬(G)을 적용하는 것이 가능하다.
일부 변형예에서, 코딩된 다음 디코딩된 다중채널 신호의 공분산 행렬(
Figure pct00109
)로부터, 그리고 보정 행렬(G)로부터, 다음과 같이 블록(390)에서 보정된 신호의 공분산 행렬을 계산하는 것이 가능하다:
Figure pct00110
전방향성 성분(W 채널)에 해당하는 행렬(R)의 제1 계수(R 00)의 값만이 유지되어, 정규화 인자로서, R에 적용되며, 보정 행렬(G)로 인한 전체 이득의 증가를 방지한다:
Figure pct00111
Figure pct00112
Figure pct00113
이고,
여기서,
Figure pct00114
은 디코딩된 다중채널 신호의 공분산 행렬의 제1 계수에 해당한다.
일부 변형예에서, 정규화 인자(
Figure pct00115
)는, R00(및 이에 따른
Figure pct00116
)을 결정하기 위해, 행렬 요소의 서브세트만을 계산하기에 충분하기 때문에, 전체 행렬(R)을 계산하지 않으면서 결정될 수 있다.
이에 따라 획득된 행렬(G 또는 G norm )은, 디코딩된 다중채널 신호에 이루어질 보정 세트에 해당한다.
이제 도 5는 도 3의 블록(380)에서 구현된 보정 세트를 결정하기 위한 방법의 다른 실시형태를 도시한다.
이러한 실시형태에서, 원래의 다중채널 신호 및 디코딩된 다중채널 신호의 공간 영상을 나타내는 정보는 각각의 공분산 행렬(C
Figure pct00117
)이라고 간주된다.
이러한 실시형태에서는, 다중채널 신호의 공간 영상을 보정하기 위해 가상 스피커를 통한 렌더링을 수행하려고 시도되지 않는다. 특히, 앰비소닉스 신호의 경우, 앰비소닉스 영역에서 직접 공간 영상의 보정을 계산하려고 시도된다.
이러한 목적을 위해, 디코딩된 신호에 적용될 변환 행렬(T)이 결정됨으로써, 변환 행렬(T)을 디코딩된 신호(
Figure pct00118
)에 적용한 후에 변형된 공간 영상은 원래의 신호(B)의 공간 영상과 동일하다.
따라서, 이하의 방정식을 충족시키는 행렬(T)을 구한다:
Figure pct00119
여기서,
Figure pct00120
B의 공분산 행렬이고,
Figure pct00121
는 현재 프레임에서
Figure pct00122
의 공분산 행렬이다.
이러한 실시형태에서, 콜레스키 인수 분해로 알려진 인수 분해가 이러한 방정식을 풀기 위해 사용된다.
크기 n x n의 행렬(A)을 고려하면, 콜레스키 인수 분해는,
Figure pct00123
(실수 경우) 및
Figure pct00124
(복소수 경우)이도록, (하부 또는 상부) 삼각 행렬(L)을 결정하는 단계로 이루어진다. 분해가 가능하도록 하기 위해, 행렬(A)은 양의 한정(positive definite) 대칭 행렬(실수 경우) 또는 양의 한정 에르미트 행렬(복소수 경우)이어야 한다; 실수 경우에서, L의 대각선 계수는 정확히 양수이다.
실수 경우에서, 크기 n x n의 행렬(M)은, 그것이 대칭이고(
Figure pct00125
) 양의 한정(
Figure pct00126
의 임의의 값에 대해
Figure pct00127
)인 경우, 양의 한정 대칭이라고 지칭된다.
대칭 행렬(M)에서, 모든 이의 고유값이 정확히 양수인 경우(
Figure pct00128
), 행렬이 양의 한정임을 입증하는 것이 가능하다. 고유값이 양수인 경우(
Figure pct00129
), 행렬은 양의 준한정(positive semi-definite)으로 지칭된다.
크기 n x n의 행렬(M)은, 그것이 에르미트(
Figure pct00130
)이고 양의 한정인 경우(
Figure pct00131
는,
Figure pct00132
의 임의의 값에 대해 실수 >0임), 양의 한정 대칭 에르미트로 지칭된다.
콜레스키 인수 분해는 예를 들어,
Figure pct00133
유형의 1차 방정식 시스템에 대한 해법을 구하기 위해 사용된다. 예를 들어, 복소수 경우에서, 콜레스키 인수 분해를 사용하여 ALL H 로 변환하고, Ly=b를 푼 다음, L H x=y를 푸는 것이 가능하다.
동등한 방식으로, 콜레스키 인수 분해는
Figure pct00134
(실수 경우) 및
Figure pct00135
(복소수 경우)로서 작성될 수 있으며, 여기서 U는 상부 삼각 행렬이다.
여기에 설명된 실시형태에서, 보편성을 상실하지 않으면서, 삼각 행렬(L)을 통한 콜레스키 인수 분해의 경우만이 다루어진다.
따라서, 콜레스키 인수 분해는, 행렬(C)이 양의 한정 대칭인 조건으로, 행렬(
Figure pct00136
)을 2개의 삼각 행렬로 분해할 수 있게 한다. 이는 다음과 같은 방정식을 제공한다:
Figure pct00137
.
증명(Identification)은 다음을 구하기 위해 사용된다:
Figure pct00138
즉:
Figure pct00139
공분산 행렬(C
Figure pct00140
)은 일반적으로 양의 준한정 행렬이기 때문에, 콜레스키 인수 분해는 이와 같이 사용될 수 없다.
여기서, 행렬(L
Figure pct00141
)이 하부(각각 상부) 삼각형인 경우, 변환 행렬(T)도 하부(각각 상부) 삼각형이라는 점을 유의한다.
따라서, 블록(510)은 공분산 행렬(C)이 양의 한정이 되게 한다. 이러한 목적을 위해, 행렬이 실제로 양의 한정(
Figure pct00142
)이도록 보장하기 위해, 행렬의 대각선의 계수에 값(ε)이 가산되며(Fact. C(C의 인수 분해)), 여기서 ε은 예를 들어 10-9로 설정된 낮은 값이고, I는 단위 행렬이다.
유사하게, 블록(520)은, 이러한 행렬을
Figure pct00143
형식으로 변형시킴으로써, 공분산 행렬(
Figure pct00144
)이 양의 한정이도록 하며, 여기서 ε은 예를 들어 10-9로 설정된 낮은 값이고, I는 단위 행렬이다.
2개의 공분산 행렬(C
Figure pct00145
)이 양의 한정인 것으로 조건부인 경우, 블록(530)은 관련된 콜레스키 인수 분해를 계산하고,
Figure pct00146
형식의 최적의 변환 행렬(T)을 구한다(Det.T).
일부 변형예에서, 대안적인 분해는 고유값으로의 분해로 수행될 수 있다.
고유값으로의 분해("고유 분해")는,
Figure pct00147
형식으로 크기 n×n의 실수 또는 복소수 행렬(A)을 인수 분해하는 단계로 이루어지며,
여기서
Figure pct00148
는 고유값(λi)을 포함하는 대각선 행렬이고, Q는 고유 벡터의 행렬이다.
행렬이 실수인 경우:
Figure pct00149
복소수의 경우, 분해는
Figure pct00150
로 작성된다.
그 다음, 이 경우, 구하고자 하는 것은,
Figure pct00151
이도록 하는 행렬(T)이며,
여기서
Figure pct00152
Figure pct00153
이고,
즉:
Figure pct00154
증명은 다음을 구하기 위해 사용된다:
Figure pct00155
즉:
Figure pct00156
하나의 프레임으로부터 다른 프레임으로의 솔루션의 안정성은, 전형적으로 콜레스키 인수 분해 접근법만큼 좋지 않다. 이러한 불안정성은, 고유값으로의 분해 동안 잠재적으로 더 큰 보다 유효한 계산 근사치에 의해 악화된다.
일부 변형예에서, 대각선 행렬은,
Figure pct00157
이고,
여기서,
Figure pct00158
Figure pct00159
형식으로 요소별로 계산될 수 있으며,
여기서,
Figure pct00160
은 부호 함수이고(양수인 경우 +1이고, 그렇지 않으면 -1), ε은 0으로 나누는 것을 방지하기 위한 정규화 항이다(예를 들어, ε=10-9).
이러한 실시형태에서, 특히 다중-모노 EVS 코딩과 같이, 인코더에 의해 강하게 저하될 수 있는 고주파의 측면에서, 디코딩된 앰비소닉스 신호와 보정된 앰비소닉스 신호 간의 에너지의 상대적 차이가 매우 큰 것이 가능하다. 특정 주파수 영역을 과도하게 증폭시키는 것을 방지하기 위해, 정규화 항이 추가될 수 있다. 선택적으로, 블록(640)은 이러한 보정을 정규화하는 것(Norm. T)을 담당한다.
따라서, 바람직한 실시형태에서, 정규화 인자는 주파수 영역을 증폭시키지 않도록 계산된다.
코딩된 다음 디코딩된 다중채널 신호의 공분산 행렬(
Figure pct00161
)로부터 그리고 변환 행렬(T)로부터, 다음과 같이 보정된 신호의 공분산 행렬을 계산하는 것이 가능하다:
Figure pct00162
전방향성 성분(W 채널)에 해당하는 행렬(R)의 제1 계수(R00)의 값만이 유지되어, 정규화 인자로서, T에 적용되며, 보정 행렬(T)로 인한 전체 이득의 증가를 방지한다:
Figure pct00163
Figure pct00164
Figure pct00165
이고,
여기서,
Figure pct00166
은 디코딩된 다중채널 신호의 공분산 행렬의 제1 계수에 해당한다.
일부 변형예에서, 정규화 인자(
Figure pct00167
)는, R00(및 이에 따른
Figure pct00168
)을 결정하기 위해, 행렬 요소의 서브세트만을 계산하기에 충분하기 때문에, 전체 행렬(R)을 계산하지 않으면서 결정될 수 있다.
이에 따라 획득된 행렬(T 또는 T norm )은, 디코딩된 다중채널 신호에 이루어질 보정 세트에 해당한다.
이러한 실시형태에서, 도 3의 블록(390)은, 보정된 출력 앰비소닉스 신호(
Figure pct00169
)를 획득하기 위해, 앰비소닉스 영역에서, 변환 행렬(T 또는 T norm )을 디코딩된 다중채널 신호에 직접 적용함으로써, 디코딩된 다중채널 신호를 보정하는 단계를 수행한다.
본 발명에 따른 인코더/디코더의 제2 실시형태가 이제 설명될 것이며, 보정 세트를 결정하기 위한 방법이 인코더에서 구현된다. 도 6은 이러한 실시형태를 설명한다. 따라서, 이러한 도면은 도 2를 참조하여 설명된 바와 같은 보정 세트를 결정하기 위한 방법을 포함하는 코딩 및 디코딩 방법을 구현하기 위한 코딩 장치 및 디코딩 장치의 제2 실시형태를 도시한다.
이러한 실시형태에서, 보정 세트(예를 들어, 방향과 관련된 이득)를 결정하기 위한 방법은 인코더에서 수행되며, 그 다음, 인코더는 이러한 보정 세트를 디코더에 전송한다. 디코더는, 디코딩된 다중채널 신호에 이를 적용하기 위해, 이러한 보정 세트를 디코딩한다. 따라서, 이러한 실시형태는 인코더에서 로컬 디코딩을 구현하는 단계를 포함하며, 이러한 로컬 디코딩은 블록(612 내지 613)으로 표현된다.
블록(610, 611, 620 및 621)은, 도 3을 참조하여 설명된 블록(310, 311, 320 및 321)과 각각 동일하다.
따라서, 원래의 다중채널 신호(
Figure pct00170
)의 공간 영상을 나타내는 정보가 블록(621)의 출력에서 획득된다.
블록(612)은, 블록(611)에 의해 수행된 코딩에 따라 로컬 디코딩(DEC_loc)을 구현한다.
이러한 로컬 디코딩은, 블록(611)으로부터의 비트스트림으로부터의 완전한 디코딩으로 구성될 수 있거나, 바람직하게는 이는 블록(611) 내에 통합될 수 있다.
다운믹스 및 업믹스 단계를 구현하지 않는, 코딩 및 디코딩의 일 실시형태에서, 디코딩된 다중채널 신호(
Figure pct00171
)가 로컬 디코딩 블록(612)의 출력에서 획득된다.
610에서의 다운믹스 단계가 코딩을 위해 사용된 실시형태에서, 블록(612)에서 구현된 로컬 디코딩은, 업믹스 블록(613)의 입력에 전송되는 디코딩된 오디오 신호(
Figure pct00172
)를 획득할 수 있게 한다.
따라서, 블록(613)은 채널의 수를 증가시키는 선택적인 단계(UPMIX)를 구현한다. 이러한 단계의 일 실시형태에서, 모노 신호(
Figure pct00173
)의 채널의 경우, 이는 다양한 공간 룸 임펄스 응답(SRIR)을 사용하여 신호(
Figure pct00174
)를 콘벌빙하는 단계로 이루어진다; 이러한 SRIR은 B의 원래의 앰비소닉스 차수로 한정된다. 예를 들어, 신호(
Figure pct00175
)의 다양한 채널에 전통과 상관 제거 필터를 적용하는 것과 같은, 다른 상관 제거 방법이 가능하다.
블록(614)은, 시간 영역 또는 변환된 영역에서 부대역을 획득하기 위해, 부대역으로 분할하는 선택적인 단계(SB)를 구현한다.
블록(615)은, 블록(621 및 321)에 대해(원래의 다중채널 신호에 대해) 설명된 것과 유사한 방식으로, 디코딩된 다중채널 신호의 공간 영상을 나타내는 정보를 결정하며(
Figure pct00176
), 이러한 시간은, 로컬 디코딩의 실시형태에 따라 블록(612) 또는 블록(613)의 출력에서 획득된 디코딩된 다중채널 신호(
Figure pct00177
)에 적용된다. 이러한 블록(615)은 도 3의 블록(375)과 동일하다.
블록(621 및 321)에 대해서와 동일한 방식으로, 일 실시형태에서, 이러한 정보는, 사운드가 비롯되는 방향과 관련된(단위 구면에 걸쳐서 분포된 가상 스피커의 방향과 관련된) 에너지 정보이다. 전술한 바와 같이, 디코딩된 다중채널 신호의 공간 영상을 결정하기 위해, SRP 방법 등(전술한 변형예와 같음)이 사용될 수 있다.
다른 실시형태에서, 이러한 정보는, 디코딩된 다중채널 신호의 채널의 공분산 행렬이다.
이 경우, 이러한 공분산 행렬은 다음과 같이 획득된다:
정규화 인자 이내까지의
Figure pct00178
(실수 경우)
또는
정규화 인자 이내까지의
Figure pct00179
(복소수 경우)
원래의 다중채널 신호(
Figure pct00180
) 및 디코딩된 다중채널 신호(
Figure pct00181
)의 공간 영상을 각각 나타내는 정보(예를 들어, 공분산 행렬(C
Figure pct00182
))로부터, 블록(680)은 도 2를 참조하여 설명된 바와 같은 보정 세트를 결정(Det.Corr)하기 위한 방법을 구현한다.
이러한 결정의 두 가지 특정 실시형태가 가능하며, 도 4 및 도 5를 참조하여 설명되었다.
도 4의 실시형태에서, 스피커를 통한 렌더링을 사용하는 방법이 사용되며, 도 5의 실시형태에서는, 앰비소닉스 영역에서 직접 그리고 콜레스키 인수 분해에 기초하여 또는 고유값으로의 분해에 의해 구현되는 방법이 사용된다.
따라서, 도 4의 실시형태가 630에서 적용되는 경우, 결정된 보정 세트는, 가상 스피커 세트에 의해 한정된 방향(
Figure pct00183
) 세트에 대한 이득(gn) 세트이다. 이러한 이득 세트는, 도 4를 참조하여 설명된 바와 같이, 보정 행렬(G)의 형식으로 결정될 수 있다.
그 다음, 이러한 이득 세트(Corr.)는 640에서 코딩된다. 이러한 이득 세트를 코딩하는 단계는, 보정 행렬(G 또는 G norm )을 코딩하는 단계로 이루어질 수 있다.
크기 KxK의 행렬(G)은 대칭적이므로, 본 발명에 따라, G 또는 G norm (즉, Kx(K+1)/2 값)의 하부 또는 상부 삼각형만을 코딩하는 것이 가능하다는 점을 유의한다. 일반적으로, 대각선 상의 값은 양수이다. 일 실시형태에서, 행렬(G 또는 G norm )은, 값이 비대각선(off-diagonal)인지 여부에 따라, (부호 비트가 있거나 없는) 스칼라 양자화를 사용하여 코딩된다. G norm 이 사용되는 변형예에서, 그것이 항상 1에 있기 때문에, G norm 의 (전방향성 성분에 해당하는) 대각선의 제1 값을 코딩하여 전송하는 단계를 없애는 것이 가능하다; 예를 들어, K=4 채널을 갖는 1차 앰비소닉스 경우에, 이는 Kx(K+1)/2=10 값 대신에 9개 값만을 전송하는 것에 해당한다. 일부 변형예에서, (예측이 있거나 없는) 다른 스칼라 또는 벡터 양자화 방법이 사용될 수 있다.
도 5의 실시형태가 630에서 적용되는 경우, 결정된 보정 세트는, 640에서 이후에 코딩되는 변환 행렬(T 또는 T norm )이다.
크기 KxK의 행렬(T)은, 콜레스키 인수 분해를 사용하는 변형예에서 삼각형이고, 고유값 분해를 사용하는 변형예에서 대칭적임을 유의한다; 따라서, 본 발명에 따라, T 또는 T norm (즉, Kx(K+1)/2 값)의 하부 또는 상부 삼각형만을 코딩하는 것이 가능하다.
일반적으로, 대각선 상의 값은 양수이다. 일 실시형태에서, 행렬(T 또는 T norm )은, 값이 비대각선인지 여부에 따라, (부호 비트가 있거나 없는) 스칼라 양자화를 사용하여 코딩된다. 일부 변형예에서, (예측이 있거나 없는) 다른 스칼라 또는 벡터 양자화 방법이 사용될 수 있다. T norm 이 사용되는 변형예에서, 그것이 항상 1에 있기 때문에, T norm 의 (전방향성 성분에 해당하는) 대각선의 제1 값을 코딩하여 전송하는 단계를 없애는 것이 가능하다; 예를 들어, K=4 채널을 갖는 1차 앰비소닉스 경우에, 이는 Kx(K+1)/2=10 값 대신에 9개 값만을 전송하는 것에 해당한다.
따라서, 블록(640)은 결정된 보정 세트를 코딩하고, 코딩된 보정 세트를 멀티플렉서(650)에 전송한다.
디코더는, 디멀티플렉서 블록(660)에서, 디코딩된 다중채널 신호에 적용될 코딩된 보정 세트 및 원래의 다중채널 신호로부터 비롯되는 코딩된 오디오 신호를 포함하는 비트스트림을 수신한다.
블록(670)은 코딩된 보정 세트를 디코딩한다(Q-1). 블록(680)은, 스트림으로 수신되는 코딩된 오디오 신호를 디코딩한다(DEC).
다운믹스 및 업믹스 단계를 구현하지 않는, 코딩 및 디코딩의 일 실시형태에서, 디코딩된 다중채널 신호(
Figure pct00184
)가 디코딩 블록(680)의 출력에서 획득된다.
다운믹스 단계가 코딩을 위해 사용된 실시형태에서, 블록(680)에서 구현된 디코딩은, 업믹스 블록(681)의 입력에 전송되는 디코딩된 오디오 신호(
Figure pct00185
)를 획득할 수 있게 한다.
따라서, 블록(681)은 채널의 수를 증가시키는 선택적인 단계(UPMIX)를 구현한다. 이러한 단계의 일 실시형태에서, 모노 신호(
Figure pct00186
)의 채널의 경우, 이는 다양한 공간 룸 임펄스 응답(SRIR)을 사용하여 신호(
Figure pct00187
)를 콘벌빙하는 단계로 이루어진다; 이러한 SRIR은 B의 원래의 앰비소닉스 차수로 한정된다. 예를 들어, 신호(
Figure pct00188
)의 다양한 채널에 전통과 상관 제거 필터를 적용하는 것과 같은, 다른 상관 제거 방법이 가능하다.
블록(682)은, 시간 영역 또는 변환된 영역에서 부대역을 획득하기 위해, 부대역으로 분할하는 선택적인 단계(SB)를 구현하며, 블록(691)은, 출력 다중채널 신호를 복구하기 위해 부대역을 함께 그룹화한다.
블록(690)은, 보정된 디코딩된 다중채널 신호(
Figure pct00189
)를 획득하기 위해, 블록(670)에서 디코딩된 보정 세트를 사용하여, 디코딩된 다중채널 신호의 보정(CORR)을 구현한다.
보정 세트가 도 4를 참조하여 설명된 바와 같은 이득 세트인 일 실시형태에서, 이러한 이득 세트는 보정 블록(690)의 입력에서 수신된다.
이득 세트가 예를 들어,
Figure pct00190
또는
Figure pct00191
형식으로 한정되는, 디코딩된 다중채널 신호에 직접 적용될 수 있는 보정 행렬의 형식인 경우, 이러한 행렬(G 또는 G norm)은, 보정된 출력 앰비소닉스 신호(
Figure pct00192
)를 획득하기 위해, 디코딩된 다중채널 신호(
Figure pct00193
)에 적용된다.
블록(690)이 이득(gn) 세트를 수신하는 경우, 블록(690)은 각각의 가상 스피커에 대해 해당 이득(gn)을 적용한다. 이러한 이득을 적용함으로써, 이러한 스피커를 통해, 원래의 신호와 동일한 에너지를 획득할 수 있다.
따라서, 각각의 스피커를 통한 디코딩된 신호의 렌더링이 보정된다.
그 다음, 다중채널 신호의 성분(예를 들어, 앰비소닉스 성분)을 획득하기 위해, 음향 인코딩 단계, 예를 들어 앰비소닉스 인코딩이 구현된다. 그 다음, 이러한 앰비소닉스 성분은, 보정된 다중채널 출력 신호(
Figure pct00194
)를 획득하기 위해 합산된다.
보정 세트가 도 5를 참조하여 설명된 바와 같은 변환 행렬인 일 실시형태에서, 670에서 디코딩된 변환 행렬(T)은 보정 블록(690)의 입력에서 수신된다.
이러한 실시형태에서, 블록(690)은, 보정된 출력 앰비소닉스 신호(
Figure pct00195
)를 획득하기 위해, 앰비소닉스 영역에서, 변환 행렬(T 또는 T norm )을 디코딩된 다중채널 신호에 직접 적용함으로써, 디코딩된 다중채널 신호를 보정하는 단계를 수행한다.
본 발명은 앰비소닉스 경우에 적용되지만, 일부 변형예에서, 설명된 다양한 실시형태에 따라 구현되는 방법을 적용하기 위해, 다른 포맷(다중채널, 객체 등)을 앰비소닉스로 변환하는 것이 가능하다. 다중채널 또는 객체 포맷으로부터 앰비소닉스 포맷으로의 이러한 변환의 예시적인 일 실시형태는 3GPP TS 26.259 규격(V15.0.0)의 도 2에 설명된다.
도 7은 본 발명의 의미 내에서, 코딩 장치(DCOD) 및 디코딩 장치(DDEC)를 도시하며, 이러한 장치는 ("가역적"의 의미에서) 서로에 대해 이중이고, 통신 네트워크(RES)에 의해 서로 연결된다.
코딩 장치(DCOD)는 처리 회로를 포함하며, 처리 회로는 전형적으로,
- 본 발명의 의미 내에서, 컴퓨터 프로그램의 명령 데이터를 저장하기 위한 메모리(MEM1)(이러한 명령은 가능하게는 인코더(DCOD)와 디코더(DDEC) 사이에 분포됨);
- 본 발명의 의미 내에서, 이를 압축-코딩할 목적으로, 원래의 다중채널 신호(B), 예를 들어 다양한 채널(예를 들어, 4개의 1차 채널(W, Y, Z, X))에 걸쳐서 분포된 앰비소닉스 신호를 수신하기 위한 인터페이스(INT1);
- 이러한 신호를 수신하고, 이를 코딩할 목적으로, 메모리(MEM1)에 저장된 컴퓨터 프로그램 명령을 실행함으로써 이를 처리하기 위한 프로세서(PROC1); 및
- 네트워크를 통해 코딩된 신호를 전송하기 위한 통신 인터페이스(COM1)를 포함한다.
디코딩 장치(DDEC)는 그 자체의 처리 회로를 포함하며, 처리 회로는 전형적으로,
- 본 발명의 의미 내에서, 컴퓨터 프로그램의 명령 데이터를 저장하기 위한 메모리(MEM2)(이러한 명령은 가능하게는 위에 나타낸 바와 같이, 인코더(DCOD)와 디코더(DDEC) 사이에 분포됨);
- 본 발명의 의미 내에서, 이들을 압축-디코딩할 목적으로, 네트워크(RES)로부터 코딩된 신호를 수신하기 위한 인터페이스(COM2);
- 이들을 디코딩할 목적으로, 메모리(MEM2)에 저장된 컴퓨터 프로그램 명령을 실행함으로써 이러한 신호를 처리하기 위한 프로세서(PROC2); 및
- 이들을 렌더링할 목적으로, 예를 들어 앰비소닉스 채널(W…X)의 형태로, 보정된 디코딩된 신호(
Figure pct00196
)를 전달하기 위한 출력 인터페이스(INT2)를 포함한다.
물론, 이러한 도 7은 본 발명의 의미 내에서 코덱(인코더 또는 디코더)의 구조적 실시형태의 일 실시예를 도시한다. 위에 언급된 도 3 내지 도 6은 이러한 코덱의 보다 기능적인 실시형태를 상세히 설명한다.

Claims (14)

  1. 다중채널 사운드 신호에 이루어질 보정(Corr.) 세트를 결정하기 위한 방법으로서,
    상기 보정 세트는, 원래의 다중채널 신호(
    Figure pct00197
    )의 공간 영상을 나타내는 정보로부터, 그리고 원래의 코딩된 다음 디코딩된 다중채널 신호(
    Figure pct00198
    )의 공간 영상을 나타내는 정보로부터 결정되는,
    다중채널 사운드 신호에 이루어질 보정(Corr.) 세트를 결정하기 위한 방법.
  2. 제1항에 있어서,
    상기 보정 세트는 주파수 부대역에 의해 결정되는, 방법.
  3. 다중채널 사운드 신호를 디코딩하기 위한 방법으로서,
    - 원래의 다중채널 신호의 공간 영상을 나타내는 정보, 및 상기 원래의 다중채널 신호로부터의 코딩된 오디오 신호를 포함하는 비트스트림을 수신하는 단계(350);
    - 상기 수신된 코딩된 오디오 신호를 디코딩하여(370) 디코딩된 다중채널 신호를 획득하는 단계;
    - 상기 원래의 다중채널 신호의 공간 영상을 나타내는 상기 정보를 디코딩하는 단계(360);
    - 상기 디코딩된 다중채널 신호의 공간 영상을 나타내는 정보를 결정하는 단계(375);
    - 제1항 또는 제2항에 따른 결정 방법을 사용하여, 상기 디코딩된 신호에 이루어질 보정 세트를 결정하는 단계(380);
    - 상기 결정된 보정 세트를 사용하여, 상기 디코딩된 다중채널 신호를 보정하는 단계(390)를 포함하는,
    다중채널 사운드 신호를 디코딩하기 위한 방법.
  4. 다중채널 사운드 신호를 코딩하기 위한 방법으로서,
    - 원래의 다중채널 신호로부터 오디오 신호를 코딩하는 단계(611);
    - 상기 원래의 다중채널 신호의 공간 영상을 나타내는 정보를 결정하는 단계(621);
    - 상기 코딩된 오디오 신호를 로컬로 디코딩하여(612) 디코딩된 다중채널 신호를 획득하는 단계;
    - 상기 디코딩된 다중채널 신호의 공간 영상을 나타내는 정보를 결정하는 단계(615);
    - 제1항 또는 제2항에 따른 결정 방법을 사용하여, 상기 디코딩된 다중채널 신호에 이루어질 보정 세트를 결정하는 단계(630);
    - 상기 결정된 보정 세트를 코딩하는 단계(640)를 포함하는,
    다중채널 사운드 신호를 코딩하기 위한 방법.
  5. 제3항 또는 제4항에 있어서,
    공간 영상을 나타내는 상기 정보는 공분산 행렬이며,
    상기 보정 세트를 결정하는 단계는,
    - 가상 스피커 세트와 관련된 가중 벡터를 포함하는 가중 행렬을 획득하는 단계;
    - 상기 획득된 가중 행렬로부터 그리고 상기 원래의 다중채널 신호의 공분산 행렬로부터 상기 원래의 다중채널 신호의 공간 영상을 결정하는 단계;
    - 상기 획득된 가중 행렬로부터 그리고 상기 결정된 디코딩된 다중채널 신호의 공분산 행렬로부터 상기 디코딩된 다중채널 신호의 공간 영상을 결정하는 단계;
    - 이득 세트를 획득하기 위해, 상기 가상 스피커 세트의 스피커의 방향으로 상기 디코딩된 다중채널 신호의 공간 영상과 상기 원래의 다중채널 신호의 공간 영상 간의 비율을 계산하는 단계를 더 포함하는, 디코딩 방법 또는 코딩 방법.
  6. 제3항에 있어서,
    상기 원래의 다중채널 신호의 공간 영상을 나타내는 상기 수신된 정보는, 상기 원래의 다중채널 신호의 공간 영상이며,
    상기 보정 세트를 결정하는 단계는,
    - 가상 스피커 세트와 관련된 가중 벡터를 포함하는 가중 행렬을 획득하는 단계;
    - 상기 획득된 가중 행렬로부터 그리고 상기 결정된 디코딩된 다중채널 신호의 공간 영상을 나타내는 상기 정보로부터 상기 디코딩된 다중채널 신호의 공간 영상을 결정하는 단계;
    - 이득 세트를 획득하기 위해, 상기 가상 스피커 세트의 스피커의 방향으로 상기 디코딩된 다중채널 신호의 공간 영상과 상기 원래의 다중채널 신호의 공간 영상 간의 비율을 계산하는 단계를 더 포함하는, 디코딩 방법.
  7. 제3항 또는 제4항에 있어서,
    공간 영상을 나타내는 상기 정보는 공분산 행렬이며,
    상기 보정 세트를 결정하는 단계는, 상기 2개의 공분산 행렬의 행렬 분해를 통해 변환 행렬을 결정하는 단계를 포함하고,
    상기 변환 행렬은 상기 보정 세트를 구성하는, 디코딩 방법 또는 코딩 방법.
  8. 제5항 내지 제7항 중 어느 한 항에 있어서,
    상기 디코딩된 다중채널 신호는, 상기 보정 세트를 상기 디코딩된 다중채널 신호에 적용함으로써 상기 결정된 보정 세트에 의해 보정되는, 디코딩 방법.
  9. 제5항 또는 제6항에 있어서,
    상기 디코딩된 다중채널 신호는, 하기의 단계에서, 상기 결정된 보정 세트에 의해 보정되며,
    상기 하기의 단계는,
    - 상기 한정된 가상 스피커 세트를 통해 상기 디코딩된 다중채널 신호를 음향적으로 디코딩하는 단계;
    - 상기 음향 디코딩으로 인해 비롯되는 상기 신호에 상기 획득된 이득 세트를 적용하는 단계;
    - 상기 다중채널 신호의 성분을 획득하기 위해, 상기 음향 디코딩으로 인해 비롯되는 상기 보정된 신호를 음향적으로 코딩하는 단계;
    - 보정된 다중채널 신호를 획득하기 위해, 이에 따라 획득된 상기 다중채널 신호의 상기 성분을 합산하는 단계인, 디코딩 방법.
  10. 다중채널 사운드 신호를 디코딩하기 위한 방법으로서,
    - 디코딩된 다중채널 신호에 이루어질 코딩된 보정 세트, 및 원래의 다중채널 신호로부터의 코딩된 오디오 신호를 포함하는 비트스트림을 수신하는 단계로서, 상기 보정 세트는 제4항, 제5항 또는 제7항 중 어느 한 항에 따른 코딩 방법을 사용하여 코딩된, 단계;
    - 상기 수신된 코딩된 오디오 신호를 디코딩하여 디코딩된 다중채널 신호를 획득하는 단계;
    - 상기 코딩된 보정 세트를 디코딩하는 단계;
    - 상기 디코딩된 보정 세트를 상기 디코딩된 다중채널 신호에 적용함으로써, 상기 디코딩된 다중채널 신호를 보정하는 단계를 포함하는,
    다중채널 사운드 신호를 디코딩하기 위한 방법.
  11. 다중채널 사운드 신호를 디코딩하기 위한 방법으로서,
    - 디코딩된 다중채널 신호에 이루어질 코딩된 보정 세트, 및 원래의 다중채널 신호로부터의 코딩된 오디오 신호를 포함하는 비트스트림을 수신하는 단계로서, 상기 보정 세트는 제5항에 따른 코딩 방법을 사용하여 코딩된, 단계;
    - 상기 수신된 코딩된 오디오 신호를 디코딩하여 디코딩된 다중채널 신호를 획득하는 단계;
    - 상기 코딩된 보정 세트를 디코딩하는 단계;
    - 하기의 단계에서, 상기 디코딩된 보정 세트를 사용하여 상기 디코딩된 다중채널 신호를 보정하는 단계를 포함하며,
    상기 하기의 단계는,
    상기 가상 스피커 세트를 통해 상기 디코딩된 다중채널 신호를 음향적으로 디코딩하는 단계;
    상기 음향 디코딩으로 인해 비롯되는 상기 신호에 상기 획득된 이득 세트를 적용하는 단계;
    상기 다중채널 신호의 성분을 획득하기 위해, 상기 음향 디코딩으로 인해 비롯되는 상기 보정된 신호를 음향적으로 코딩하는 단계;
    보정된 다중채널 신호를 획득하기 위해, 이에 따라 획득된 상기 다중채널 신호의 상기 성분을 합산하는 단계인,
    다중채널 사운드 신호를 디코딩하기 위한 방법.
  12. 제3항 또는 제5항 내지 제11항 중 어느 한 항에 따른 디코딩 방법을 구현하기 위한 처리 회로를 포함하는 디코딩 장치.
  13. 제4항, 제5항 또는 제7항 중 어느 한 항에 따른 코딩 방법을 구현하기 위한 처리 회로를 포함하는 코딩 장치.
  14. 제3항 또는 제5항 내지 제11항 중 어느 한 항에 따른 디코딩 방법, 또는 제4항, 제5항 또는 제7항 중 어느 한 항에 따른 코딩 방법을 실행하기 위한 명령을 포함하는 컴퓨터 프로그램을 저장하는, 프로세서에 의해 판독될 수 있는 저장 매체.
KR1020227013459A 2019-10-02 2020-09-24 다중채널 오디오 신호에 적용될 보정의 결정, 관련 코딩 및 디코딩 KR20220076480A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FRFR1910907 2019-10-02
FR1910907A FR3101741A1 (fr) 2019-10-02 2019-10-02 Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés
PCT/FR2020/051668 WO2021064311A1 (fr) 2019-10-02 2020-09-24 Détermination de corrections à appliquer a un signal audio multicanal, codage et décodage associés

Publications (1)

Publication Number Publication Date
KR20220076480A true KR20220076480A (ko) 2022-06-08

Family

ID=69699960

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227013459A KR20220076480A (ko) 2019-10-02 2020-09-24 다중채널 오디오 신호에 적용될 보정의 결정, 관련 코딩 및 디코딩

Country Status (10)

Country Link
US (1) US20220358937A1 (ko)
EP (1) EP4042418B1 (ko)
JP (1) JP2022550803A (ko)
KR (1) KR20220076480A (ko)
CN (1) CN114503195A (ko)
BR (1) BR112022005783A2 (ko)
ES (1) ES2965084T3 (ko)
FR (1) FR3101741A1 (ko)
WO (1) WO2021064311A1 (ko)
ZA (1) ZA202203157B (ko)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
ATE538469T1 (de) * 2008-07-01 2012-01-15 Nokia Corp Vorrichtung und verfahren zum justieren von räumlichen hinweisinformationen eines mehrkanaligen audiosignals
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
CN104282309A (zh) * 2013-07-05 2015-01-14 杜比实验室特许公司 丢包掩蔽装置和方法以及音频处理系统
EP3067887A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal

Also Published As

Publication number Publication date
ES2965084T3 (es) 2024-04-10
EP4042418A1 (fr) 2022-08-17
BR112022005783A2 (pt) 2022-06-21
EP4042418B1 (fr) 2023-09-06
JP2022550803A (ja) 2022-12-05
ZA202203157B (en) 2022-11-30
WO2021064311A1 (fr) 2021-04-08
US20220358937A1 (en) 2022-11-10
FR3101741A1 (fr) 2021-04-09
CN114503195A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
US11081117B2 (en) Methods, apparatus and systems for encoding and decoding of multi-channel Ambisonics audio data
US20240040327A1 (en) Method and device for decoding a higher-order ambisonics (hoa) representation of an audio soundfield
US9980073B2 (en) Method and apparatus for compressing and decompressing a higher order ambisonics signal representation
US8817991B2 (en) Advanced encoding of multi-channel digital audio signals
CN111316354B (zh) 目标空间音频参数和相关联的空间音频播放的确定
US9014377B2 (en) Multichannel surround format conversion and generalized upmix
US11832080B2 (en) Spatial audio parameters and associated spatial audio playback
US8332229B2 (en) Low complexity MPEG encoding for surround sound recordings
US11950063B2 (en) Apparatus, method and computer program for audio signal processing
EP3933834A1 (en) Enhanced soundfield coding using parametric component generation
TWI657434B (zh) 解碼壓縮高階保真立體音響表示之方法及裝置,及編碼壓縮高階保真立體音響表示之方法及裝置
US20210250717A1 (en) Spatial audio Capture, Transmission and Reproduction
CN113439303A (zh) 用于使用扩散分量进行与基于DirAC的空间音频编码有关的编码、解码、场景处理和其他过程的装置、方法和计算机程序
KR20220076480A (ko) 다중채널 오디오 신호에 적용될 보정의 결정, 관련 코딩 및 디코딩
KR20220093158A (ko) 방향성 메타데이터를 사용한 멀티채널 오디오 인코딩 및 디코딩
US20230260522A1 (en) Optimised coding of an item of information representative of a spatial image of a multichannel audio signal
US20230274747A1 (en) Stereo-based immersive coding

Legal Events

Date Code Title Description
A201 Request for examination