KR20230049660A - 오디오 신호를 인코딩하거나 인코딩된 오디오 장면을 디코딩하기 위한 장치, 방법 및 컴퓨터 프로그램 - Google Patents

오디오 신호를 인코딩하거나 인코딩된 오디오 장면을 디코딩하기 위한 장치, 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20230049660A
KR20230049660A KR1020237006968A KR20237006968A KR20230049660A KR 20230049660 A KR20230049660 A KR 20230049660A KR 1020237006968 A KR1020237006968 A KR 1020237006968A KR 20237006968 A KR20237006968 A KR 20237006968A KR 20230049660 A KR20230049660 A KR 20230049660A
Authority
KR
South Korea
Prior art keywords
frame
sound field
audio signal
field parameter
signal
Prior art date
Application number
KR1020237006968A
Other languages
English (en)
Inventor
기욤 푹스
아키트 타마라푸
안드레아 아이첸셔
스리칸스 코르세
스테판 돌라
마르쿠스 멀트러스
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20230049660A publication Critical patent/KR20230049660A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

인코딩된 오디오 장면을 생성하기 위한 장치, 및 인코딩된 오디오 장면을 디코딩 및/또는 프로세싱하기 위한 장치; 뿐만 아니라 관련 방법들, 및 프로세서에 의해 실행될 때, 프로세서로 하여금 관련 방법을 수행하게 하는 명령들을 저장하는 비-일시적인 저장 유닛들이 개시된다.
인코딩된 오디오 장면(304)을 프로세싱하기 위한 장치(200)는 제1 프레임(346)에 제1 음장 파라미터 표현(316) 및 인코딩된 오디오 신호(346)를 포함할 수 있으며, 제2 프레임(348)은 비활성 프레임이고, 그 장치는,
제2 프레임(348)이 비활성 프레임이라는 것을 검출하기 위한 활동 검출기(2200);
제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 사용하여 제2 프레임(308)에 대한 합성 오디오 신호(228)를 합성하기 위한 합성 신호 합성기(210);
제1 프레임(306)에 대한 인코딩된 오디오 신호(346)를 디코딩하기 위한 오디오 디코더(230); 및
제1 음장 파라미터 표현(316)을 사용하여 그리고 제2 프레임(308)에 대한 합성 오디오 신호(228)를 사용하여 제1 프레임(306)에 대한 오디오 신호(202)를 공간적으로 렌더링하기 위한 공간 렌더러(240), 또는 제1 프레임(306)에 대한 오디오 신호(346), 제1 프레임(306)에 대한 제1 음장 파라미터 표현(316), 제2 프레임(308)에 대한 합성 오디오 신호(228), 및 제2 프레임(308)에 대한 제2 음장 파라미터 표현(318)을 포함하는 메타 데이터 보조 출력 포맷을 생성하기 위한 트랜스코더를 포함한다.

Description

오디오 신호를 인코딩하거나 인코딩된 오디오 장면을 디코딩하기 위한 장치, 방법 및 컴퓨터 프로그램
본 문서는 특히, 인코딩된 오디오 장면을 생성하기 위한 장치 및 인코딩된 오디오 장면을 디코딩 및/또는 프로세싱하기 위한 장치를 참조한다. 본 문서는 또한, 프로세서에 의해 실행될 때, 프로세서로 하여금 관련 방법을 수행하게 하는 명령들을 저장하는 관련 방법들 및 비-일시적인 저장 유닛들을 참조한다.
본 문서는, 공간 이미지가 방향성 오디오 코딩(directional audio coding; DirAC) 패러다임에 의해 파라메트릭적으로(parametrically) 코딩되었거나 또는 메타데이터-보조 공간 오디오(MASA) 포맷으로 송신되었던 오디오 장면들에 대한 불연속 송신 모드(DTX) 및 컴포트 노이즈 생성(comfort noise generation; CNG)에 관한 방법들을 논의한다.
실시예들은 DirAC 및 MASA에 대한 DTX 모드와 같은 파라메트릭적으로 코딩된 공간 오디오의 불연속 송신에 관한 것이다.
본 발명의 실시예들은, 예를 들어 음장(soundfield) 마이크로폰들을 이용하여 캡처된 대화 스피치를 효율적으로 송신 및 렌더링하는 것에 관한 것이다. 이에 따라 캡처된 오디오 신호는 일반적으로 3차원(3D) 오디오로 지칭되는데, 그 이유는 사운드 이벤트들이 3차원 공간에서 로컬화될 수 있고, 이는 몰입도를 강화시키고 명료도 및 사용자 경험 둘 모두를 증가시키기 때문이다.
예를 들어, 3차원들에서 오디오 장면을 송신하는 것은, 일반적으로 송신할 많은 양의 데이터를 불러일으키는 다수의 채널들을 핸들링할 것을 요구한다. 예를 들어, 방향성 오디오 코딩(DirAC) 기법 [1]이 큰 오리지널(original) 데이터 레이트를 감소시키기 위해 사용될 수 있다. DirAC는 오디오 장면을 분석하고 이를 파라메트릭적으로 표현하기 위한 효율적인 접근법으로 고려된다. 그것은 지각적으로 동기부여되며, 주파수 대역마다 측정된 도달 방향(DOA) 및 확산의 도움으로 음장을 표현한다. 그것은 하나의 시간 순간에 그리고 하나의 임계 대역에 대해, 청각 시스템의 공간 해상도가 방향에 대한 하나의 큐(cue) 및 양이-간(inter-aural) 코히어런스에 대한 다른 큐를 디코딩하는 것으로 제한된다는 가정 하에 구축된다. 이어서, 공간 사운드는 2개의 스트림들, 즉 비-방향성 확산 스트림 및 방향성 비-확산 스트림을 교차-페이딩(cross-fade)함으로써 주파수 도메인에서 재생된다.
게다가, 통상적인 대화에서, 각각의 스피커는 시간의 약 60 퍼센트 동안 무음(silent)된다. 배경 노이즈 또는 무음만을 포함하는 프레임들("비활성 프레임들")로부터 스피치를 포함하는 오디오 신호의 프레임들("활성 프레임들")을 구별함으로써, 스피치 코더들은 상당한 데이터 레이트를 절약할 수 있다. 비활성 프레임들은 통상적으로 정보를 거의 또는 전혀 전달하지 않는 것으로 인지되며, 스피치 코더들은 일반적으로 그러한 프레임들에 대한 그들의 비트-레이트를 감소시키거나 심지어 정보를 송신하지 않도록 구성된다. 그러한 경우, 코더들은 소위 불연속 송신(DTX) 모드로 구동되며, 이는 음성 입력이 없을 시에 통신 코덱의 송신 레이트를 극적으로 감소시키기 위한 효율적인 방식이다. 이러한 모드에서, 배경 노이즈만으로 이루어지는 것으로 결정되는 대부분의 프레임들은 송신으로부터 드롭되고, 디코더에서 일부 컴포트 노이즈 생성(CNG)으로 대체된다. 이들 프레임들의 경우, 신호의 매우 낮은 레이트의 파라메트릭(parametric) 표현은 모든 프레임이 아니라 정기적으로 전송되는 무음 삽입 디스크립터(Silence Insertion Descriptor; SID) 프레임들에 의해 전달된다. 이는 디코더 내의 CNG가 실제 배경 잠음과 유사한 인공 노이즈를 생성하게 허용한다.
본 발명의 실시예들은 DTX 시스템, 및 특히, 예를 들어 음장 마이크로폰에 의해 캡처되고, 그리고 DirAC 패러다임 등에 기초하여 코딩 방식에 의해 파라메트릭적으로 코딩될 수 있는 3D 오디오 장면들에 대한 SID 및 CNG에 관한 것이다. 본 발명은 대화 몰입형 스피치를 송신하기 위한 비트-레이트 요구의 극적인 감소를 허용한다.
종래 기술
[1] V. Pulkki, M-V. Laitinen, J. Vilkamo, J. Ahonen, T. Lokki, and T. Pihlajamaki, "Directional audio coding - perception-based reproduction of spatial sound", International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.
[2] 3GPP TS 26.194; Voice Activity Detector (VAD); - 3GPP technical specification Retrieved on 2009-06-17.
[3] 3GPP TS 26.449, "Codec for Enhanced Voice Services (EVS); Comfort Noise Generation (CNG) Aspects".
[4] 3GPP TS 26.450, "Codec for Enhanced Voice Services (EVS); Discontinuous Transmission (DTX)"
[5] A. Lombard, S. Wilde, E. Ravelli, S. Dohla, G. Fuchs and M. Dietz, "Frequency-domain Comfort Noise Generation for Discontinuous Transmission in EVS," 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, QLD, 2015, pp. 5893-5897, doi: 10.1109/ICASSP.2015.7179102.
[6] V. Pulkki, "Virtual source positioning using vector base amplitude panning", J. Audio Eng. Soc., 45(6):456-466, June 1997.
[7] J. Ahonen and V. Pulkki, "Diffuseness estimation using temporal variation of intensity vectors", in Workshop on Applications of Signal Processing to Audio and Acoustics WASPAA, Mohonk Mountain House, New Paltz, 2009.
[8] T. Hirvonen, J. Ahonen, and V. Pulkki, "Perceptual compression methods for metadata in Directional Audio Coding applied to audiovisual teleconference", AES 126th Convention 2009, May 7?10, Munich, Germany.
[9] Vilkamo, Juha & Backstrom, Tom & Kuntz, Achim. (2013). Optimized Covariance Domain Framework for Time--Frequency Processing of Spatial Audio. Journal of the Audio Engineering Society. 61.
[10] M. Laitinen and V. Pulkki, "Converting 5.1 audio recordings to B-format for directional audio coding reproduction," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 61-64, doi: 10.1109/ICASSP.2011.5946328.
일 양상에 따르면, 제1 프레임 및 제2 프레임을 갖는 오디오 신호로부터 인코딩된 오디오 장면을 생성하기 위한 장치가 제공되며, 그 장치는,
제1 프레임 내의 오디오 신호로부터 제1 프레임에 대한 제1 음장 파라미터 표현 및 제2 프레임 내의 오디오 신호로부터 제2 프레임에 대한 제2 음장 파라미터 표현을 결정하기 위한 음장 파라미터 생성기;
오디오 신호에 의존하여, 제1 프레임이 활성 프레임이고 제2 프레임이 비활성 프레임이라고 결정하기 위해 오디오 신호를 분석하기 위한 활동 검출기;
활성 프레임인 제1 프레임에 대한 인코딩된 오디오 신호를 생성하고, 비활성 프레임인 제2 프레임에 대한 파라메트릭 디스크립션(description)을 생성하기 위한 오디오 신호 인코더; 및
제1 프레임에 대한 제1 음장 파라미터 표현, 제2 프레임에 대한 제2 음장 파라미터 표현, 제1 프레임에 대한 인코딩된 오디오 신호, 및 제2 프레임에 대한 파라메트릭 디스크립션을 합침으로써, 인코딩된 오디오 장면을 구성하기 위한 인코딩된 신호 형성기를 포함한다.
음장 파라미터 생성기는, 제1 음장 파라미터 표현 또는 제2 음장 파라미터 표현이 청취자 위치에 대한 오디오 신호의 특성을 표시하는 파라미터를 포함하도록 제1 음장 파라미터 표현 또는 제2 음장 파라미터 표현을 생성하도록 구성될 수 있다.
제1 또는 제2 음장 파라미터 표현은 제1 프레임에서의 청취자 위치에 대한 사운드의 방향을 표시하는 하나 이상의 방향 파라미터들, 또는 제1 프레임에서의 직접 사운드에 대한 확산 사운드의 일부를 표시하는 하나 이상의 확산 파라미터들, 또는 제1 프레임에서의 직접 사운드와 확산 사운드의 에너지 비율을 표시하는 하나 이상의 에너지 비율 파라미터들, 또는 제1 프레임에서의 채널-간/서라운드 코히어런스 파라미터를 포함할 수 있다.
음장 파라미터 생성기는 오디오 신호의 제1 프레임 또는 제2 프레임으로부터 복수의 개별 사운드 소스들을 결정하고, 각각의 사운드 소스에 대해 파라메트릭 디스크립션을 결정하도록 구성될 수 있다.
음장 생성기는 제1 프레임 또는 제2 프레임을 복수의 주파수 빈들로 분해하고 - 각각의 주파수 빈은 개별 사운드 소스를 표현함 -, 각각의 주파수 빈에 대해 적어도 하나의 음장 파라미터를 결정하도록 구성될 수 있으며, 음장 파라미터는 예시적으로, 방향 파라미터, 도달 방향 파라미터, 확산 파라미터, 에너지 비율 파라미터, 또는 청취자 위치에 대한 오디오 신호의 제1 프레임에 의해 표현된 음장의 특성을 표현하는 임의의 파라미터를 포함한다.
제1 프레임 및 제2 프레임에 대한 오디오 신호는 청취자에 대한 음장을 표현하는 복수의 컴포넌트들을 갖는 입력 포맷을 포함할 수 있으며,
음장 파라미터 생성기는, 예를 들어 복수의 컴포넌트들의 다운믹스(downmix)를 사용하여 제1 프레임 및 제2 프레임에 대한 하나 이상의 전송 채널들을 계산하고, 하나 이상의 전송 채널들에 관련된 제1 파라미터 표현을 결정하기 위해 입력 포맷을 분석하도록 구성되거나, 또는
음장 파라미터 생성기는, 예를 들어 복수의 컴포넌트들의 다운믹스를 사용하여 하나 이상의 전송 채널들을 계산하도록 구성되고,
활동 검출기는 제2 프레임 내의 오디오 신호로부터 도출된 하나 이상의 전송 채널들을 분석하도록 구성된다.
제1 프레임 또는 제2 프레임에 대한 오디오 신호는 제1 및 제2 프레임들의 각각의 프레임에 대해 각각의 프레임과 연관된 하나 이상의 전송 채널들 및 메타데이터를 갖는 입력 포맷을 포함할 수 있으며,
음장 파라미터 생성기는 제1 프레임 및 제2 프레임으로부터 메타데이터를 판독하고, 제1 프레임에 대한 메타데이터를 제1 음장 파라미터 표현으로서 사용 또는 프로세싱하고, 제2 프레임의 메타데이터를 프로세싱하여 제2 음장 파라미터 표현을 획득하도록 구성되고, 제2 음장 파라미터 표현을 획득하기 위한 프로세싱은 제2 프레임에 대한 메타데이터의 송신을 위해 요구되는 정보 유닛들의 양이 프로세싱 전에 요구되는 양에 대해 감소되도록 이루어진다.
음장 파라미터 생성기는 제2 프레임에 대한 메타데이터를 프로세싱하여, 메타데이터 내의 정보 항목들의 수를 감소시키거나 또는 메타데이터 내의 정보 항목들을 시간 해상도 또는 주파수 해상도와 같은 더 낮은 해상도로 리샘플링하거나, 또는 재양자화 이전의 상황에 대해 제2 프레임에 대한 메타데이터의 정보 유닛들을 더 개략적인 표현으로 재양자화하도록 구성될 수 있다.
오디오 신호 인코더는 비활성 프레임에 대한 무음 정보 디스크립션을 파라메트릭 디스크립션으로서 결정하도록 구성될 수 있으며,
무음 정보 디스크립션은 예시적으로, 진폭-관련 정보, 예컨대 제2 프레임에 대한 에너지, 전력 또는 라우드니스(loudness), 및 형상화 정보, 예컨대 스펙트럼 형상화 정보, 또는 제2 프레임에 대한 진폭-관련 정보, 예컨대 에너지, 전력, 또는 라우드니스, 및 제2 프레임에 대한 선형 예측 코딩(LPC) 파라미터들, 또는 상이한 스케일 파라미터들이 상이한 폭들을 갖는 주파수 대역들을 지칭하도록, 변하는 연관된 주파수 해상도를 갖는 제2 프레임에 대한 스케일 파라미터들을 포함한다.
오디오 신호 인코더는 제1 프레임에 대해 시간 도메인 또는 주파수 도메인 인코딩 모드를 사용하여 오디오 신호를 인코딩하도록 구성될 수 있으며, 인코딩된 오디오 신호는, 예를 들어 인코딩된 시간 도메인 샘플들, 인코딩된 스펙트럼 도메인 샘플들, 인코딩된 LPC 도메인 샘플들, 및 예를 들어, 다운믹싱 동작에 의해 오디오 신호의 컴포넌트들로부터 획득되거나 또는 오디오 신호의 컴포넌트들로부터 도출된 하나 이상의 전송 채널들로부터 획득된 사이드 정보(side information)를 포함한다.
오디오 신호는 1차 앰비소닉(Ambisonics) 포맷, 고차 앰비소닉 포맷, 5.1 또는 7.1 또는 7.1 + 4와 같은 주어진 라우드스피커 셋업과 연관된 다중-채널 포맷인 입력 포맷, 또는 연관된 메타데이터에 포함된 정보에 의해 표시된 바와 같이 공간에 로컬화된 하나 또는 여러 개의 상이한 오디오 오브젝트들을 표현하는 하나 이상의 오디오 채널들, 또는 메타데이터 연관된 공간 오디오 표현인 입력 포맷을 포함할 수 있으며,
음장 파라미터 생성기는 파라미터들이 정의된 청취자 위치에 대한 음장을 표현하도록 제1 음장 파라미터 표현 및 제2 음장 표현을 결정하도록 구성되거나, 또는
오디오 신호는 실제 마이크로폰 또는 가상 마이크로폰에 의해 픽업(pick up)된 마이크로폰 신호 또는, 예를 들어 1차 앰비소닉 포맷 또는 고차 앰비소닉 포맷인 합성적으로 생성된 마이크로폰 신호를 포함한다.
활동 검출기는 제2 프레임 및 제2 프레임에 후속하는 하나 이상의 프레임들에 걸쳐 비활동 페이즈를 검출하도록 구성될 수 있으며,
오디오 신호 인코더는 프레임들의 시간 시퀀스에 대해 제2 프레임으로부터 적어도 하나의 프레임만큼 분리된 추가적인 제3 프레임에 대해서만 비활성 프레임에 대한 추가적인 파라메트릭 디스크립션을 생성하도록 구성되고,
음장 파라미터 생성기는 오디오 신호 인코더가 파라메트릭 디스크립션을 결정했던 프레임에 대해서만 추가적인 음장 파라미터 표현을 결정하도록 구성되거나, 또는
활동 검출기는 제2 프레임 및 제2 프레임에 후속하는 8개의 프레임들을 포함하는 비활성 페이즈를 결정하도록 구성되고, 오디오 신호 인코더는 매 8번째 프레임에서만 비활성 프레임에 대한 파라메트릭 디스크립션을 생성하도록 구성되고, 음장 파라미터 생성기는 각각의 8번째 비활성 프레임에 대한 음장 파라미터 표현을 생성하도록 구성되거나, 또는
음장 파라미터 생성기는 오디오 신호 인코더가 비활성 프레임에 대한 파라메트릭 디스크립션을 생성하지 않을 때에도 각각의 비활성 프레임에 대한 음장 파라미터 표현을 생성하도록 구성되거나, 또는
음장 파라미터 생성기는 오디오 신호 인코더가 하나 이상의 비활성 프레임들에 대한 파라메트릭 디스크립션을 생성하는 것보다 높은 프레임 레이트를 갖는 파라미터 표현을 결정하도록 구성된다.
음장 파라미터 생성기는,
주파수 대역들에서의 하나 이상의 방향들에 대한 공간 파라미터들 및 총 에너지에 대한 하나의 방향 컴포넌트의 비율에 대응하는 주파수 대역들에서의 연관된 에너지 비율들을 사용하여, 또는
확산 사운드 또는 직접 사운드의 비율을 표시하는 확산 파라미터를 결정하기 위해, 또는
제1 프레임에서의 양자화와 비교하여 더 개략적인 양자화 방식을 사용하여 방향 정보를 결정하기 위해, 또는
더 개략적인 시간 또는 주파수 해상도를 획득하기 위해 시간 또는 주파수에 걸친 방향의 평균을 사용하여, 또는
활성 프레임에 대한 제1 음장 파라미터 표현에서와 동일한 주파수 해상도를 갖고, 비활성 프레임에 대한 음장 파라미터 표현에서의 방향 정보에 대해 활성 프레임들에 대한 시간 발생보다 낮은 시간 발생을 갖는 하나 이상의 비활성 프레임들에 대한 음장 파라미터 표현을 결정하기 위해, 또는
확산 파라미터를 갖는 제2 음장 파라미터 표현을 결정하기 위해 - 확산 파라미터는 활성 프레임들에 대한 것과 동일한 시간 또는 주파수 해상도로, 그러나 더 개략적인 양자화로 송신됨 -, 또는
비트들의 제1 수로 제2 음장 표현에 대한 확산 파라미터를 양자화하기 위해 - 각각의 양자화 인덱스의 비트들의 제2 수만이 송신되고, 비트들의 제2 수는 비트들의 제1 수보다 작음 -, 또는
제2 음장 파라미터 표현에 대해, 오디오 신호가 공간 도메인에 위치된 채널들에 대응하는 입력 채널들을 갖는다면 채널-간 코히어런스 또는 오디오 신호가 공간 도메인에 위치된 채널들에 대응하는 입력 채널들을 갖는다면 채널-간 레벨 차이들을 결정하기 위해, 또는
오디오 신호에 의해 표현되는 음장에서 코히어런트한 확산 에너지의 비율로서 정의되는 서라운드 코히어런스를 결정하기 위해,
제2 프레임에 대한 제2 음장 파라미터 표현을 결정하도록 구성될 수 있다.
일 양상에 따르면, 제1 프레임에 제1 음장 파라미터 표현 및 인코딩된 오디오 신호를 포함하는 인코딩된 오디오 장면을 프로세싱하기 위한 장치가 제공되며, 제2 프레임은 비활성 프레임이고, 그 장치는,
제2 프레임이 비활성 프레임이라는 것을 검출하기 위한 활동 검출기;
제2 프레임에 대한 파라메트릭 디스크립션을 사용하여 제2 프레임에 대한 합성 오디오 신호를 합성하기 위한 합성 신호 합성기;
제1 프레임에 대한 인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더; 및
제1 음장 파라미터 표현을 사용하여 그리고 제2 프레임에 대한 합성 오디오 신호를 사용하여 제1 프레임에 대한 오디오 신호를 공간적으로 렌더링하기 위한 공간 렌더러, 또는 제1 프레임에 대한 오디오 신호, 제1 프레임에 대한 제1 음장 파라미터 표현, 제2 프레임에 대한 합성 오디오 신호, 및 제2 프레임에 대한 제2 음장 파라미터 표현을 포함하는 메타 데이터 보조 출력 포맷을 생성하기 위한 트랜스코더를 포함한다.
인코딩된 오디오 장면은 제2 프레임에 대해 제2 음장 파라미터 디스크립션을 포함할 수 있으며, 장치는 제2 음장 파라미터 표현으로부터 하나 이상의 음장 파라미터들을 도출하기 위한 음장 파라미터 프로세서를 포함하고, 공간 렌더러는 제2 프레임에 대한 합성 오디오 신호의 렌더링을 위해, 제2 프레임에 대한 하나 이상의 음장 파라미터들을 사용하도록 구성된다.
장치는 제2 프레임에 대한 하나 이상의 음장 파라미터들을 도출하기 위한 파라미터 프로세서를 포함할 수 있으며,
파라미터 프로세서는, 제1 프레임에 대한 음장 파라미터 표현을 저장하고, 제1 프레임에 대한 저장된 제1 음장 파라미터 표현을 사용하여 제2 프레임에 대한 하나 이상의 음장 파라미터들을 합성하도록 구성되고, 제2 프레임은 시간상 제1 프레임에 후속하거나, 또는
파라미터 프로세서는, 제2 프레임에 대한 하나 이상의 음장 파라미터들을 결정하기 위해 여러 개의 프레임들에 대한 하나 이상의 음장 파라미터 표현들 중 적어도 2개의 음장 파라미터 표현들을 사용하여 외삽 또는 보간하기 위하여 제2 프레임 전의 시간에 발생하거나 제2 프레임에 후속하는 시간에 발생하는 여러 개의 프레임들에 대한 하나 이상의 음장 파라미터 표현들을 저장하도록 구성되고,
공간 렌더러는 제2 프레임에 대한 합성 오디오 신호의 렌더링을 위해 제2 프레임에 대한 하나 이상의 음장 파라미터들을 사용하도록 구성된다.
파라미터 프로세서는, 제2 프레임에 대한 하나 이상의 음장 파라미터들을 결정하기 위해 외삽 또는 보간할 때, 제2 프레임 이전 또는 이후의 시간에 발생하는 적어도 2개의 음장 파라미터 표현들에 포함된 방향들로 디더링(dithering)을 수행하도록 구성될 수 있다.
인코딩된 오디오 장면은 제1 프레임에 대한 하나 이상의 전송 채널들을 포함할 수 있으며,
합성 신호 생성기는 제2 프레임에 대한 하나 이상의 전송 채널들을 합성 오디오 신호로서 생성하도록 구성되고,
공간 렌더러는 제2 프레임에 대한 하나 이상의 전송 채널들을 공간적으로 렌더링하도록 구성된다.
합성 신호 생성기는 제2 프레임에 대해, 공간 렌더러의 오디오 출력 포맷에 관련된 개별 컴포넌트들에 대한 복수의 합성 컴포넌트 오디오 신호들을 합성 오디오 신호로서 생성하도록 구성될 수 있다.
합성 신호 생성기는 오디오 출력 포맷에 관련된 적어도 2개의 개별 컴포넌트들의 서브세트 중 적어도 하나의 개별 컴포넌트에 대해 적어도 개별 합성 컴포넌트 오디오 신호를 생성하도록 구성될 수 있으며,
제1 개별 합성 컴포넌트 오디오 신호는 제2 개별 합성 컴포넌트 오디오 신호로부터 역상관되고,
공간 렌더러는 제1 개별 합성 컴포넌트 오디오 신호와 제2 개별 합성 컴포넌트 오디오 신호의 조합을 사용하여 오디오 출력 포맷의 컴포넌트를 렌더링하도록 구성된다.
공간 렌더러는 공분산(covariance) 방법을 적용하도록 구성될 수 있다.
공간 렌더러는 공분산 방법에 의해 표시된 바와 같이 역상관기 프로세싱에 의해 생성되는 역상관된 신호들의 양만이 오디오 출력 포맷의 컴포넌트를 생성하는데 사용되도록 임의의 역상관기 프로세싱을 사용하지 않거나 역상관기 프로세싱을 제어하도록 구성될 수 있다.
합성 신호 생성기는 컴포트 노이즈 생성기이다.
합성 신호 생성기는 노이즈 생성기를 포함할 수 있으며, 제1 개별 합성 컴포넌트 오디오 신호는 노이즈 생성기의 제1 샘플링에 의해 생성되고, 제2 개별 합성 컴포넌트 오디오 신호는 노이즈 생성기의 제2 샘플링에 의해 생성되고, 제2 샘플링은 제1 샘플링과 상이하다.
노이즈 생성기는 노이즈 테이블을 포함할 수 있으며, 제1 개별 합성 컴포넌트 오디오 신호는 노이즈 테이블의 제1 부분을 취함으로써 생성되고, 제2 개별 합성 컴포넌트 오디오 신호는 노이즈 테이블의 제2 부분을 취함으로써 생성되고, 노이즈 테이블의 제2 부분은 노이즈 테이블의 제1 부분과 상이하거나, 또는
노이즈 생성기는 의사(pseudo) 노이즈 생성기를 포함하고, 제1 개별 합성 컴포넌트 오디오 신호는 의사 노이즈 생성기에 대한 제1 시드(seed)를 사용함으로써 생성되고, 제2 개별 합성 컴포넌트 오디오 신호는 의사 노이즈 생성기에 대한 제2 시드를 사용하여 생성된다.
인코딩된 오디오 장면은 제1 프레임에 대해 2개 이상의 전송 채널들을 포함할 수 있으며,
합성 신호 생성기는 노이즈 생성기를 포함하고, 제2 프레임에 대한 파라메트릭 디스크립션을 사용하여, 노이즈 생성기를 샘플링함으로써 제1 전송 채널 및 노이즈 생성기를 샘플링함으로써 제2 전송 채널을 생성하도록 구성되고, 노이즈 생성기를 샘플링함으로써 결정된 바와 같은 제1 및 제2 전송 채널들은 제2 프레임에 대해 동일한 파라메트릭 디스크립션을 사용하여 가중된다.
공간 렌더러는,
제1 음장 파라미터 표현의 제어 하에서 직접 신호와 직접 신호로부터 역상관기에 의해 생성된 확산 신호의 믹싱(mixing)을 사용하여 제1 프레임에 대한 제1 모드에서, 그리고
제1 합성 컴포넌트 신호와 제2 합성 컴포넌트 신호의 믹싱을 사용하여 제2 프레임에 대한 제2 모드에서
동작하도록 구성될 수 있으며, 제1 및 제2 합성 컴포넌트 신호들은 노이즈 프로세스 또는 의사 노이즈 프로세스의 상이한 실현들에 의해 합성 신호 합성기에 의해 생성된다.
공간 렌더러는 파라미터 프로세서에 의해 제2 프레임에 대해 도출된 확산 파라미터, 에너지 분포 파라미터, 또는 코히어런스 파라미터에 의해 제2 모드에서 믹싱을 제어하도록 구성될 수 있다.
합성 신호 생성기는 제2 프레임에 대한 파라메트릭 디스크립션을 사용하여 제1 프레임에 대한 합성 오디오 신호를 생성하도록 구성될 수 있으며,
공간 렌더러는 공간 렌더링 이전 또는 이후 제1 프레임에 대한 오디오 신호와 제1 프레임에 대한 합성 오디오 신호의 가중된 조합을 수행하도록 구성되고, 가중된 조합에서, 제1 프레임에 대한 합성 오디오 신호의 세기는 제2 프레임에 대한 합성 오디오 신호의 세기에 대해 감소된다.
파라미터 프로세서는 제2 비활성 프레임에 대해, 제2 프레임에 의해 표현되는 음장에서 코히어런트한 확산 에너지의 비율로서 정의되는 서라운드 코히어런스를 결정하도록 구성될 수 있고, 공간 렌더러는 사운드 코히어런스에 기초하여 제2 프레임에서 직접 및 확산 신호들 사이에 에너지를 재분배하도록 구성되고, 사운드 서라운드 코히어런트 컴포넌트들의 에너지는 방향 컴포넌트들로 재분배되기 위해 확산 에너지로부터 제거되고, 방향 컴포넌트들은 재생 공간에서 패닝(pan)된다.
장치는 공간 렌더러에 의해 생성된 오디오 출력 포맷을, 미리 정의된 위치들에 배치될 라우드스피커들에 대해 전용인 다수의 출력 채널들을 포함하는 출력 포맷과 같은 트랜스코딩된 출력 포맷 또는 FOA 또는 HOA 데이터를 포함하는 트랜스코딩된 출력 포맷으로 변환하기 위한 출력 인터페이스를 포함할 수 있거나, 또는
공간 렌더러 대신에, 트랜스코더는 제1 프레임에 대한 오디오 신호, 제1 프레임에 대한 제1 음장 파라미터들, 및 제2 프레임에 대한 합성 오디오 신호 및 제2 프레임에 대한 제2 음장 파라미터 표현을 포함하는 메타 데이터 보조 출력 포맷을 생성하기 위해 제공된다.
활동 검출기는 제2 프레임이 비활성 프레임이라는 것을 검출하도록 구성될 수 있다.
일 양상에 따르면, 제1 프레임 및 제2 프레임을 갖는 오디오 신호로부터 인코딩된 오디오 장면을 생성하는 방법이 제공되며, 그 방법은,
제1 프레임 내의 오디오 신호로부터 제1 프레임에 대한 제1 음장 파라미터 표현 및 제2 프레임 내의 오디오 신호로부터 제2 프레임에 대한 제2 음장 파라미터 표현을 결정하는 단계;
오디오 신호에 의존하여, 제1 프레임이 활성 프레임이고 제2 프레임이 비활성 프레임이라고 결정하기 위해 오디오 신호를 분석하는 단계;
활성 프레임인 제1 프레임에 대한 인코딩된 오디오 신호를 생성하고, 비활성 프레임인 제2 프레임에 대한 파라메트릭 디스크립션을 생성하는 단계; 및
제1 프레임에 대한 제1 음장 파라미터 표현, 제2 프레임에 대한 제2 음장 파라미터 표현, 제1 프레임에 대한 인코딩된 오디오 신호, 및 제2 프레임에 대한 파라메트릭 디스크립션을 합침으로써, 인코딩된 오디오 장면을 구성하는 단계를 포함한다.
일 양상에 따르면, 제1 프레임에 제1 음장 파라미터 표현 및 인코딩된 오디오 신호를 포함하는 인코딩된 오디오 장면을 프로세싱하는 방법이 제공되며, 제2 프레임은 비활성 프레임이고, 그 방법은,
제2 프레임이 비활성 프레임이라는 것을 검출하고, 제2 프레임에 대한 파라메트릭 디스크립션을 제공하는 단계;
제2 프레임에 대한 파라메트릭 디스크립션을 사용하여 제2 프레임에 대한 합성 오디오 신호를 합성하는 단계;
제1 프레임에 대한 인코딩된 오디오 신호를 디코딩하는 단계; 및
제1 음장 파라미터 표현을 사용하여 그리고 제2 프레임에 대한 합성 오디오 신호를 사용하여 제1 프레임에 대한 오디오 신호를 공간적으로 렌더링하거나, 또는 제1 프레임에 대한 오디오 신호, 제1 프레임에 대한 제1 음장 파라미터 표현, 제2 프레임에 대한 합성 오디오 신호, 및 제2 프레임에 대한 제2 음장 파라미터 표현을 포함하는 메타 데이터 보조 출력 포맷을 생성하는 단계를 포함한다.
방법은 제2 프레임에 대한 파라메트릭 디스크립션을 제공하는 단계를 포함할 수 있다.
일 양상에 따르면, 다음을 포함하는 인코딩된 오디오 장면이 제공된다:
제1 프레임에 대한 제1 음장 파라미터 표현;
제2 프레임에 대한 제2 음장 파라미터 표현;
제1 프레임에 대한 인코딩된 오디오 신호; 및
제2 프레임에 대한 파라메트릭 디스크립션.
일 양상에 따르면, 컴퓨터 또는 프로세서 상에서 실행될 때, 위의 또는 아래의 방법을 수행하기 위한 컴퓨터 프로그램이 제공된다.
도 1(도 1a 및 도 1b로 분할됨)은 예들에 따른 분석 및 합성을 위해 사용될 수 있는 종래 기술에 따른 일 예를 도시한다.
도 2는 예들에 따른 디코더 및 인코더의 일 예를 도시한다.
도 3는 일 예에 따른 인코더의 일 예를 도시한다.
도 4 및 도 5는 컴포넌트들의 예들을 도시한다.
도 5는 일 예에 따른 컴포넌트의 일 예를 도시한다.
도 6 내지 도 11은 디코더들의 예들을 도시한다.
실시예들
먼저, 알려진 패러다임들(DTX, DirAC, MASA 등)의 일부 논의가 제공되며, 기법들의 설명을 이용하여, 적어도 일부 경우들에서, 이들 중 일부가 본 발명의 예들에서 구현될 수 있다.
DTX
컴포트 노이즈 생성기들은 일반적으로 스피치의 불연속 송신(DTX)에서 사용된다. 그러한 모드에서, 스피치는 먼저 음성 활동 검출기(Voice Activity Detector; VAD)에 의해 활성 및 비활성 프레임들로 분류된다. VAD의 일 예는 [2]에서 발견될 수 있다. VAD 결과에 기초하여, 활성 스피치 프레임들만이 코딩되고, 공칭 비트-레이트로 송신된다. 긴 일시정지들 동안, 배경 노이즈만이 존재하는 경우, 비트-레이트는 낮아지거나 0이 되고, 배경 노이즈는 간헐적으로(episodically) 그리고 파라메트릭적으로 코딩된다. 이어서, 평균 비트-레이트가 상당히 감소된다. 노이즈는 컴포트 노이즈 생성기(CNG)에 의해 디코더 측에서 비활성 프레임들 동안 생성된다. 예를 들어, 스피치 코더들 AMR-WB [2] 및 3GPP EVS [3, 4] 둘 모두는 DTX 모드에서 실행될 가능성을 갖는다. 효율적인 CNG의 일 예가 [5]에서 주어진다.
본 발명의 실시예들은 그것이 동일한 원리를 사운드 이벤트들의 공간적 로컬화와 함께 몰입형 대화 스피치에 적용하는 방식으로 이러한 원리를 확장시킨다.
DirAC
DirAC는 공간 사운드의 지각적 동기부여된 재생이다. 하나의 시간 순간에 그리고 하나의 임계 대역에 대해, 청각 시스템의 공간 해상도가 방향에 대한 하나의 큐 및 양이-간 코히어런스에 대한 다른 큐를 디코딩하는 것으로 제한된다고 가정된다.
이들 가정들에 기초하여, DirAC는 2개의 스트림들, 즉 비-방향성 확산 스트림 및 방향성 비-확산 스트림을 교차-페이딩함으로써 하나의 주파수 대역에서의 공간 사운드를 표현한다. DirAC 프로세싱은 도 1(도 1a는 합성을 도시하고, 도 1b는 분석을 도시함)에 도시된 바와 같이 2개의 페이즈들, 즉 분석 및 합성에서 수행된다.
DirAC 분석 스테이지에서, B-포맷의 1차 일치(coincident) 마이크로폰은 입력으로서 고려되고, 사운드의 확산 및 도달 방향이 주파수 도메인에서 분석된다.
DirAC 합성 스테이지에서, 사운드는 2개의 스트림들, 즉 비-확산 스트림 및 확산 스트림으로 분할된다. 비-확산 스트림은 진폭 패닝을 사용하여 포인트 소스들로서 재생되며, 이는 벡터 베이스 진폭 패닝(vector base amplitude panning; VBAP)[6]을 사용함으로써 행해질 수 있다. 확산 스트림은 일반적으로, 감싸이는 느낌(sensation of envelopment)을 담당하고, 상호 역상관된 신호들을 라우드스피커들에 전달함으로써 생성된다.
다음에서 공간 메타데이터 또는 DirAC 메타데이터로 또한 불리는 DirAC 파라미터들은 확산 및 방향의 튜플(tuple)들로 이루어진다. 방향은 2개의 각도들, 즉 방위각 및 고도에 의해 구형 좌표로 표현될 수 있는 반면, 확산은 0과 1 사이의 스칼라 인자일 수 있다.
DirAC 패러다임이 공간 오디오 코딩을 위해 그리고 원격회의 시나리오들에서 사용될 수 있게 하기 위해 메타데이터의 사이즈를 감소시키기 위한 일부 작업들이 행해졌다[8].
발명가가 아는 한, 어떠한 DTX 시스템도 파라메트릭 공간 오디오 코덱을 중심으로 그리고 훨씬 더 적게는 DirAC 패러다임에 기초하여 구축되거나 제안되지 않았다. 이것이 본 발명의 실시예들의 주제이다.
MASA
메타데이터 보조 공간 오디오(MASA)는 DirAC 원리로부터 도출된 공간 오디오 포맷이며, 이는 원시(raw) 마이크로폰 신호들로부터 직접 계산되고, 앰비소닉과 같은 중간 포맷을 통과할 필요 없이 오디오 코덱으로 전달될 수 있다. 예를 들어, 주파수 대역들에서의 방향 파라미터 및/또는, 예를 들어 주파수 대역들에서의 에너지 비율 파라미터(예를 들어, 방향성인 사운드 에너지의 비율을 표시함)로 이루어질 수 있는 파라미터 세트는 또한, 오디오 코덱 또는 렌더러에 대한 공간 메타데이터로서 이용될 수 있다. 이들 파라미터들은 마이크로폰-어레이 캡처된 오디오 신호들로부터 추정될 수 있으며; 예를 들어, 모노 또는 스테레오 신호는 공간 메타데이터와 함께 전달되도록 마이크로폰 어레이 신호들로부터 생성될 수 있다. 모노 또는 스테레오 신호는, 예를 들어 3GPP EVS 또는 그것의 파생물과 같은 코어 코더를 이용하여 인코딩될 수 있다. 디코더는 바이노럴(binaural) 출력, 라우드스피커 다중-채널 신호 또는 앰비소닉 포맷의 다중채널 신호일 수 있는 공간 출력을 획득하기 위해 (송신된 공간 메타데이터를 사용하여) 주파수 대역들로 오디오 신호들을 디코딩하고, 주파수 대역들에서 사운드를 프로세싱할 수 있다.
동기부여
몰입형 스피치 통신은 새로운 연구 영역이고, 매우 적은 시스템들이 존재하며, 게다가, 어떠한 DTX 시스템들도 그러한 애플리케이션에 대해 설계되지 않았다.
그러나, 기존의 솔루션들을 결합하는 것은 간단할 수 있다. 예를 들어, 각각의 개별 다중-채널 신호 상에 DTX를 독립적으로 적용할 수 있다. 이러한 간단한 접근법은 여러가지 문제들에 직면한다. 이를 위해, 낮은 비트-레이트 통신 제약들과 호환가능하지 않고 그에 따라 낮은 비트-레이트 통신 경우들에 대해 설계된 DTX와 거의 호환가능하지 않은 각각의 개별 채널을 별개로 송신할 필요가 있다. 게다가, 이어서, 채널들에 걸쳐 VAD 결정을 동기화시켜, 특이성(oddity)들 및 마스킹해제 효과들을 피하고, 또한 DTX 시스템의 비트-레이트 감소를 완전히 활용하는 것이 요구된다. 실제로, 송신을 중단하고 그로부터 이익을 얻기 위해, 음성 활동 결정들이 모든 채널들에 걸쳐 동기화되는 것을 보장할 필요가 있다.
컴포트 노이즈 생성기(들)에 의해 비활성 프레임들 동안, 누락된 배경 노이즈를 생성할 때 수신기 측 상에서 다른 문제가 발생한다. 몰입형 통신들을 위해, 특히 DTX를 개별 채널들에 직접 적용할 때, 채널당 하나의 생성기가 요구된다. 통상적으로 랜덤 노이즈를 샘플링하는 이들 생성기들이 독립적으로 사용되면, 채널들 사이의 코히어런스는 0이거나 0에 가까울 것이고, 지각적으로 오리지널 사운드스케이프(soundscape)로부터 벗어날 수 있다. 반면에, 하나의 생성기만이 사용하고 결과적인 컴포트 노이즈가 모든 출력 채널들에 복사되었다면, 코히어런스가 매우 높을 것이고, 몰입도가 극적으로 감소될 것이다.
이들 문제들은 시스템의 입력 또는 출력 채널들에 직접적으로 적용하는 것이 아니라 DirAC와 같은 파라메트릭 공간 오디오 코딩 방식 이후 결과적인 전송 채널들(이들은 일반적으로 오리지널 다중-채널 신호의 다운믹싱된 또는 감소된 버전임)에 적용함으로써 부분적으로 해결될 수 있다. 이러한 경우, 비활성 프레임들이 어떻게 파라미터화되고 이어서 DTX 시스템에 의해 공간화되는지를 정의하는 것이 필요하다. 이는 사소하지 않으며 본 발명의 실시예들의 주제이다. 공간 이미지는 활성 및 비활성 프레임들 사이에 일관적이어야 하며, 오리지널 배경 노이즈에 가능한 지각적으로 충실해야 한다.
도 3은 일 예에 따른 인코더(300)를 도시한다. 인코더(300)는 오디오 신호(302)로부터, 인코딩된 오디오 장면(304)을 생성할 수 있다.
오디오 신호(304)(비트스트림) 또는 오디오 장면(304)(및 또한 아래에 개시되는 다른 오디오 신호들)은 프레임들로 분할될 수 있다(예를 들어, 그것은 프레임들의 시퀀스일 수 있음). 프레임들은 시간 슬롯에 연관될 수 있으며, 이는 후속하여 서로 정의될 수 있다(일부 예들에서, 선행 양상이 후속 프레임과 중첩될 수 있음). 각각의 프레임에 대해, 시간 도메인(TD) 또는 주파수 도메인(FD)에서의 값들이 비트스트림(304)에 기입될 수 있다. TD에서, 값들은 각각의 샘플에 대해 제공될 수 있다(각각의 프레임은, 예를 들어 샘플들의 이산 시퀀스를 가짐). FD에서, 값들은 각각의 주파수 빈에 대해 제공될 수 있다. 나중에 설명될 바와 같이, 각각의 프레임은 활성 프레임(306)(예를 들어, 비어있지 않은(non-void) 프레임) 또는 비활성 프레임(308)(예를 들어, 비어있는 프레임들, 무음 프레임들, 또는 노이즈만 있는 프레임들) 중 어느 하나로서 (예를 들어, 활동 검출기에 의해) 분류될 수 있다. 상이한 파라미터들(예를 들어, 활성 공간 파라미터들(316) 또는 비활성 공간 파라미터들(318))이 또한 활성 프레임(306) 및 비활성 프레임(308)과 관련하여 제공될 수 있다(데이터가 없는 경우, 참조 번호(319)는 어떠한 데이터도 제공되지 않다는 것을 나타냄).
오디오 신호(302)는, 예를 들어 다중-채널 오디오 신호(예를 들어 2개 이상의 채널들을 가짐)일 수 있다. 오디오 신호(302)는, 예를 들어 스테레오 오디오 신호일 수 있다. 예를 들어, 오디오 신호(302)는, 예를 들어 A-포맷 또는 B-포맷의 앰비소닉 신호일 수 있다. 오디오 신호(302)는, 예를 들어 메타데이터 보조 공간 오디오(MASA) 포맷을 가질 수 있다. 오디오 신호(302)는 1차 앰비소닉 포맷, 고차 앰비소닉 포맷, 5.1 또는 7.1 또는 7.1 + 4와 같은 주어진 라우드스피커 셋업과 연관된 다중-채널 포맷인 입력 포맷, 또는 연관된 메타데이터에 포함된 정보에 의해 표시된 바와 같이 공간에 로컬화된 하나 또는 여러 개의 상이한 오디오 오브젝트들을 표현하는 하나 이상의 오디오 채널들, 또는 메타데이터 연관된 공간 오디오 표현인 입력 포맷을 가질 수 있다. 오디오 신호(302)는 실제 마이크로폰들 또는 가상 마이크로폰들에 의해 픽업된 바와 같은 마이크로폰 신호를 포함할 수 있다. 오디오 신호(302)는 합성적으로 생성된 마이크로폰 신호(예를 들어, 1차 앰비소닉 포맷 또는 고차 앰비소닉 포맷임)를 포함할 수 있다.
오디오 장면(304)은 다음 중 적어도 하나 또는 이들의 조합을 포함할 수 있다:
제1 프레임(306)에 대한 제1 음장 파라미터 표현(예를 들어, 활성 공간 파라미터)(316);
제2 프레임(308)에 대한 제2 음장 파라미터 표현(예를 들어, 비활성 공간 파라미터)(318);
제1 프레임(306)에 대한 인코딩된 오디오 신호(346); 및
제2 프레임(308)에 대한 파라메트릭 디스크립션(348)(일부 예들에서, 비활성 공간 파라미터(318)는 파라메트릭 디스크립션(348)에 포함될 수 있지만, 파라메트릭 디스크립션(348)은 또한 공간 파라미터들이 아닌 다른 파라미터들을 포함할 수 있음).
활성 프레임들(306)(제1 프레임들)은 스피치(또는 일부 예들에서, 또한, 순수 노이즈과 상이한 다른 오디오 사운드들)를 포함하는 이들 프레임들일 수 있다. 비활성 프레임들(308)(제2 프레임들)은 스피치(또는 일부 예들에서, 또한, 순수한 노이즈와 상이한 다른 오디오 사운드들)를 포함하지 않는 이들 프레임들인 것으로 이해될 수 있고, 노이즈를 고유하게 포함하는 것으로 이해될 수 있다.
예를 들어, 오디오 신호(302)의 전송 채널 버전(324)(326과 328 사이에서 세분됨)을 생성하기 위해 오디오 장면 분석기(음장 파라미터 생성기)(310)가 제공될 수 있다. 여기서, 본 발명은 각각의 제1 프레임(306)의 전송 채널(들)(326) 및/또는 각각의 제2 프레임(308)의 전송 채널(들)(328)을 참조할 수 있다(예를 들어, 전송 채널(들)(328)은 무음 또는 노이즈의 파라메트릭 디스크립션을 제공하는 것으로 이해될 수 있음). 전송 채널(들)(324(326, 328))은 입력 포맷(302)의 다운믹스 버전일 수 있다. 일반적인 표현들로, 전송 채널들(326, 328) 각각은, 예를 들어 입력 오디오 신호(302)가 스테레오 채널이면 하나의 단일 채널일 수 있다. 입력 오디오 신호(302)가 2개 초과의 채널들을 갖는다면, 입력 오디오 신호(302)의 다운믹스 버전(324)은 입력 오디오 신호(302)보다 적은 채널들을 가질 수 있지만, 일부 예들에서는 여전히 하나 초과의 채널을 가질 수 있다(예를 들어, 입력 오디오 신호(302)가 4개의 채널들을 갖는다면, 다운믹스 버전(324)은 1개, 2개, 또는 3개의 채널들을 가질 수 있음).
오디오 신호 분석기(310)는 부가적으로 또는 대안적으로 314로 표시된 음장 파라미터들(공간 파라미터들)을 제공할 수 있다. 특히, 음장 파라미터들(314)은 제1 프레임(306)에 연관된 활성 공간 파라미터들(제1 공간 파라미터들 또는 제1 공간 파라미터 표현)(316) 및 제2 프레임(308)에 연관된 비활성 공간 파라미터들(제2 공간 파라미터들 또는 제2 공간 파라미터 표현)(318)을 포함할 수 있다. 각각의 활성 공간 파라미터(314(316, 318))는, 예를 들어 청취자 위치에 대한 오디오 신호(302)의 공간 특성을 표시하는 파라미터를 포함할 수 있다(예를 들어, 그 파라미터일 수 있음). 일부 다른 예들에서, 활성 공간 파라미터(314(316, 318))는 라우드스피커들의 위치에 대한 오디오 신호(302)의 특성을 표시하는 파라미터를 적어도 부분적으로 포함할 수 있다(예를 들어, 그 파라미터일 수 있음). 일부 예들에서, 활성 공간 파라미터(314(316, 318))는 신호 소스로부터 취해진 바와 같은 오디오 신호의 특성들이거나 이들을 적어도 부분적으로 포함할 수 있다.
예를 들어, 공간 파라미터들(314(316, 318))은 확산 파라미터들, 예를 들어, 제1 프레임(306) 및/또는 제2 프레임(308) 내의 사운드에 대한 확산 대 신호비를 표시하는 하나 이상의 확산 파라미터(들), 또는 제1 프레임(306) 및/또는 제2 프레임(308) 내의 직접 사운드와 확산 사운드의 에너지 비율을 표시하는 하나 이상의 에너지 비율 파라미터(들), 또는 제1 프레임(306) 및/또는 제2 프레임(308)에서의 채널-간/서라운드 코히어런스 파라미터(들), 또는 제1 프레임(306) 및/또는 제2 프레임(308)에서의 코히어런트-확산 전력 비(들), 또는 제1 프레임(306) 및/또는 제2 프레임(308)에서의 신호-확산 비(들)를 포함할 수 있다.
예들에서, 활성 공간 파라미터(들)(제1 음장 파라미터 표현)(316) 및/또는 비활성 공간 파라미터(들)(318)(제2 음장 파라미터 표현)는 그의 전체-채널 버전의 입력 신호(302), 또는 고차 앰비소닉 입력 신호의 1차 컴포넌트와 같은 그의 서브세트로부터 획득될 수 있다.
장치(300)는 활동 검출기(320)를 포함할 수 있다. 활동 검출기(320)는 오디오 신호(302 또는 324)에 의존하여, 프레임이 활성 프레임(306)인지 비활성 프레임인지(308)를 결정하여, 그에 따라 프레임에 대한 분류를 수행하기 위해 입력 오디오 신호를 (그의 입력 버전(302) 또는 그의 다운믹스 버전(324) 중 어느 하나에서) 분석할 수 있다. 도 3으로부터 알 수 있는 바와 같이, 활동 검출기(320)는 제1 편차기(deviator)(322) 및 제2 편차기(322a)를 (예를 들어, 제어부(321)를 통해) 제어하는 것으로 가정될 수 있다. 제1 편차기(322)는 활성 공간 파라미터(316)(제1 음장 파라미터 표현)와 비활성 공간 파라미터들(318)(제2 음장 파라미터 표현) 사이에서 선택할 수 있다. 따라서, 활동 검출기(320)는 활성 공간 파라미터들(316)이 출력될 것인지(예를 들어, 비트스트림(304)에서 시그널링될 것인지) 또는 비활성 공간 파라미터들(318)이 출력될 것인지(예를 들어, 비트스트림(304)에서 시그널링될 것인지)를 결정할 수 있다. 동일한 제어부(321)는 전송 채널(324)에서 제1 프레임(326(306))을 또는 전송 채널(326)에서 제2 프레임(328(308))(예를 들어, 파라메트릭 디스크립션)을 출력하는 것 사이에서 선택할 수 있는 제2 편차기(322a)를 제어할 수 있다. 제1 및 제2 편차기들(322 및 322a)의 활동들은 서로 조정되며: 활성 공간 파라미터들(316)이 출력될 때, 이어서 제1 프레임(306)의 전송 채널들(326)이 또한 출력되고, 비활성 공간 파라미터들(318)이 출력될 때, 이어서 제1 프레임(306)의 전송 채널들(328)의 전송 채널들이 출력된다. 이는, 활성 공간 파라미터들(316)(제1 음장 파라미터 표현)이 제1 프레임(306)의 공간 특성들을 설명하는 반면, 비활성 공간 파라미터들(318)(제2 음장 파라미터 표현)이 제2 프레임(308)의 공간 특성들을 설명하기 때문이다.
따라서, 활동 검출기(320)는 기본적으로 제1 프레임(306(326, 346)) 및 그의 관련 파라미터들(316)과 제2 프레임(308(328, 348)) 및 그의 관련 파라미터들(318) 중 어느 하나가 출력될 것인지를 결정할 수 있다. 활동 검출기(320)는 또한, 프레임이 활성인지 또는 비활성인지를 시그널링하는 비트스트림에서의 일부 시그널링의 인코딩을 제어할 수 있다(다른 기법들이 사용될 수 있음).
활동 검출기(320)는 (예를 들어, 프레임 내의, 예를 들어 오디오 신호의 특정 프레임들의 모든 또는 적어도 복수의 주파수 빈들 내의 에너지를 측정함으로써) 입력 오디오 신호(302)의 각각의 프레임(306/308)에 대한 프로세싱을 수행할 수 있고, 특정 프레임을 제1 프레임(306) 또는 제2 프레임(308)인 것으로 분류할 수 있다. 일반적인 표현들로, 활동 검출기(320)는 동일한 프레임의 상이한 주파수 빈들과 상이한 샘플들을 구별하지 않으면서 하나의 단일의 전체 프레임에 대해 하나의 단일 분류 결과를 결정할 수 있다. 예를 들어, 하나의 분류 결과는 "스피치"(이는 활성 공간 파라미터들(316)에 의해 공간적으로 설명된 제1 프레임(306, 326, 346)에 해당할 것임) 또는 "무음"(이는 비활성 공간 파라미터들(318)에 의해 공간적으로 설명된 제2 프레임(308, 328, 348)에 해당할 것임)일 수 있다. 따라서, 활동 검출기(320)에 의해 행사된 분류에 따르면, 편차기들(322 및 322a)은 그들의 스위칭을 수행할 수 있고, 그들의 결과는 분류된 프레임의 모든 주파수 빈들(및 샘플들)에 대해 원칙적으로 유효하다.
장치(300)는 오디오 신호 인코더(330)를 포함할 수 있다. 오디오 신호 인코더(330)는 인코딩된 오디오 신호(344)를 생성할 수 있다. 오디오 신호 인코더(330)는, 특히, 예를 들어 오디오 신호 인코더(330)의 일부일 수 있는 전송 채널 인코더(340)에 의해 생성된, 제1 프레임(306, 326)에 대한 인코딩된 오디오 신호(346)를 제공할 수 있다. 인코딩된 오디오 신호(344)는 무음의 파라메트릭 디스크립션(348)(예를 들어, 노이즈의 파라메트릭 디스크립션)이거나 이를 포함할 수 있고, 오디오 신호 인코더(330)의 일부일 수 있는 전송 채널 SI 디스크립터(350)에 의해 생성될 수 있다. 생성된 제2 프레임(348)은 오리지널 오디오 입력 신호(302)의 적어도 하나의 제2 프레임(308)에 그리고 다운믹스 신호(324)의 적어도 하나의 제2 프레임(328)에 대응할 수 있고, 비활성 공간 파라미터들(318)(제2 음장 파라미터 표현)에 의해 공간적으로 설명될 수 있다. 특히, 인코딩된 오디오 신호(344)(346이든 348이든 간에)가 또한 전송 채널에 있을 수 있다(그에 따라, 다운믹스 신호(324)일 수 있음). 인코딩된 오디오 신호(344)(346이든 348이든 간에)는 그의 사이즈를 감소시키기 위해 압축될 수 있다.
장치(300)는 인코딩된 신호 형성기(370)를 포함할 수 있다. 인코딩된 신호 형성기(370)는 적어도 인코딩된 오디오 장면(304)의 인코딩된 버전을 기입할 수 있다. 인코딩된 신호 형성기(370)는 제1 프레임(306)에 대한 제1 (활성) 음장 파라미터 표현(316), 제2 프레임(308)에 대한 제2 (비활성) 음장 파라미터 표현(318), 제1 프레임(306)에 대한 인코딩된 오디오 신호(346), 및 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 합침으로써 동작할 수 있다. 따라서, 오디오 장면(304)은, 송신 또는 저장(또는 둘 모두를 행함)되고, 오리지널 입력 신호(302)의 사본인 출력될 오디오 신호를 생성하기 위해 일반 디코더에 의해 사용될 수 있는 비트스트림일 수 있다. 따라서, 오디오 장면(비트스트림)(304)에서, 입력 신호(306)의 재생을 허용하기 위해 "제1 프레임들"/"제2 프레임들"의 시퀀스가 획득될 수 있다.
도 2는 인코더(300) 및 디코더(200)의 일 예를 도시한다. 일부 예들에서, 인코더(300)는 도 3의 인코더와 동일할 수 있다(또는 그의 변형일 수 있음)(일부 다른 예들에서, 그들은 상이한 실시예들일 수 있음). 인코더(300)는 입력으로 오디오 신호(302)(이는, 예를 들어 B-포맷일 수 있음)를 가질 수 있고, 제1 프레임(306)(이는, 예를 들어 활성 프레임일 수 있음) 및 제2 프레임(308)(이는, 예를 들어 비활성 프레임일 수 있음)을 가질 수 있다. 오디오 신호(302)는 신호(324)로서(예를 들어, 제1 프레임에 대한 인코딩된 오디오 신호(326) 및 제2 프레임에 대한 인코딩된 오디오 신호(328) 또는 파라메트릭 표현으로서), 선택기(320)(이는 편차기들(322 및 322a)에 연관된 오디오를 포함할 수 있음)에서의 내부 선택 이후 오디오 신호 인코더(330)에 제공될 수 있다. 특히, 블록(320)은 또한, 입력 신호(302(306, 308))로부터 전송 채널들(324(326, 328))로의 다운믹스를 형성하는 능력들을 가질 수 있다. 기본적으로, 블록(320)(빔포밍/신호-선택 블록)은 도 3의 활동 검출기(320)의 기능들을 포함하는 것으로 이해될 수 있지만, 도 3에서 블록(310)에 의해 수행되는 일부 다른 기능들(예컨대, 공간 파라미터들(316 및 318)의 생성)은 도 2의 "DirAC 분석 블록"(310)에 의해 수행될 수 있다. 따라서, 채널 신호(324(326, 328))는 오리지널 신호(302)의 다운믹스된 버전일 수 있다. 그러나, 일부 경우들에서, 신호(302)에 대해 어떠한 다운믹싱도 수행되지 않는 것이 또한 가능할 수 있으며, 신호(324)는 간단히 제1 및 제2 프레임들 사이의 선택이다. 오디오 신호 인코더(330)는 위에서 설명된 바와 같이 블록들(340 및 350) 중 적어도 하나를 포함할 수 있다. 오디오 신호 인코더(330)는 제1 프레임(346) 또는 제2 프레임(348) 중 어느 하나에 대해, 인코딩된 오디오 신호(344)를 출력할 수 있다. 도 2는 인코딩된 신호 형성기(370)를 도시하지 않으며, 이는 그럼에도 불구하고 존재할 수 있다.
도시된 바와 같이, 블록(310)은 DirAC 분석 블록(또는 더 일반적으로 음장 파라미터 생성기(310))을 포함할 수 있다. 블록(310)(음장 파라미터 생성기)은 필터뱅크(filterbank) 분석(390)을 포함할 수 있다. 필터뱅크 분석(390)은 입력 신호(302)의 각각의 프레임을 복수의 주파수 빈들로 세분할 수 있으며, 이들은 필터뱅크 분석(390)의 출력(391)일 수 있다. 확산 추정 블록(392a)은, 예를 들어 필터뱅크 분석(390)에 의해 출력된 복수의 주파수 빈들(391)의 각각의 주파수 빈에 대해 확산 파라미터들(314a)(이들은 활성 프레임(306)에 대한 활성 공간 파라미터(들)(316)의 하나의 확산 파라미터 또는 비활성 프레임(308)에 대한 비활성 공간 파라미터(들)(318)의 하나의 확산 파라미터일 수 있음)을 제공할 수 있다. 음장 파라미터 생성기(310)는 방향 추정 블록(392b)을 포함할 수 있으며, 그의 출력(314b)은, 예를 들어 필터뱅크 분석(390)에 의해 출력된 복수의 주파수 빈들(391)의 각각의 주파수 빈에 대한 방향 파라미터(이는 활성 프레임(306)에 대한 활성 공간 파라미터(들)(316)의 하나의 방향 파라미터 또는 비활성 프레임(306)에 대한 비활성 공간 파라미터(들)(318)의 하나의 방향 파라미터일 수 있음)일 수 있다.
도 4는 블록(310)(음장 파라미터 생성기)의 일 예를 도시한다. 음장 파라미터 생성기(310)는 도 2의 음장 파라미터 생성기와 동일할 수 있고, 그리고/또는 도 3의 블록(310)이 또한 입력 신호(302)의 다운믹스를 수행할 수 있지만, 이것이 도 4의 음장 파라미터 생성기(310)에서 도시되지 않은(또는 구현되지 않은) 사실에 불구하고, 도 3의 블록(310)의 기능들과 동일하거나 이들을 적어도 구현할 수 있다.
도 4의 음장 파라미터 생성기(310)는 필터뱅크 분석 블록(390)(이는 도 2의 필터뱅크 분석 블록(390)과 동일할 수 있음)을 포함할 수 있다. 필터뱅크 분석 블록(390)은 각각의 프레임에 대한 그리고 각각의 빈(주파수 타일)에 대한 주파수 도메인 정보(391)를 제공할 수 있다. 주파수 도메인 정보(391)는 도 3에 도시된 것들일 수 있는 확산 분석 블록(392a) 및/또는 방향 분석 블록(392b)에 제공될 수 있다. 확산 분석 블록(392a) 및/또는 방향 분석 블록(392b)은 확산 정보(314a) 및/또는 방향 정보(314b)를 제공할 수 있다. 이들은 각각의 제1 프레임(306(346))에 대해 그리고 각각의 제2 프레임(308(348))에 대해 제공될 수 있다. 복합적으로, 블록(392a 및 392b)에 의해 제공된 정보는 제1 음장 파라미터들(316)(활성 공간 파라미터들) 및 제2 음장 파라미터들(318)(비활성 공간 파라미터들) 둘 모두를 포함하는 음장 파라미터들(314)로 고려된다. 활성 공간 파라미터들(316)은 활성 공간 메타데이터 인코더(396)에 제공될 수 있고, 비활성 공간 파라미터들(318)은 비활성 공간 메타데이터 인코더(398)에 제공될 수 있다. 그 결과는, (예를 들어, 인코더 신호 형성기(370)를 통해) 비트스트림(304)으로 인코딩될 수 있고, 후속하여 디코더에 의해 재생되기 위해 저장될 수 있는 제1 및 제2 음장 파라미터 표현들(314로 복합적으로 표시된 316, 318)이다. 활성 공간 메타데이터 인코더(396)가 프레임을 인코딩할지 또는 비활성 공간 파라미터들(318)이 프레임을 인코딩할지에 관계없이, 이는, 예를 들어 활동 검출기에 의해 동작되는 분류를 통해 도 3의 제어부(321)와 같은 제어부에 의해 제어될 수 있다(편차기(322)는 도 2에 도시되지 않음). (인코더들(396, 398)이 또한 일부 예들에서 양자화를 수행할 수 있다는 것을 유의해야 한다).
도 5는, 도 4의 음장 파라미터 생성기에 대한 대안일 수 있고 또한 도 2 및 도 3의 예들에서 구현될 수 있는 가능한 음장 파라미터 생성기(310)의 다른 예를 도시한다. 이러한 예에서, 입력 오디오 신호(302)는 이미 MASA 포맷에 있을 수 있으며, 여기서 공간 파라미터들은 이미, 예를 들어 복수의 주파수 빈들의 각각의 주파수 빈에 대한 (예를 들어, 공간 메타데이터로서의) 입력 오디오 신호(302)의 일부이다. 따라서, 확산 분석 블록 및/또는 방향 블록을 가질 필요성이 없지만, 그들은 MASA 판독기(390M)로 대체될 수 있다. MASA 판독기(390M)는 (신호(302)의 프레임이 제1 프레임(306)인지 또는 제2 프레임(308)인지의 사실에 따라) 활성 공간 파라미터(들)(316) 및 비활성 공간 파라미터(들)(318)와 같은 정보를 이미 포함하는 오디오 신호(302) 내의 특정 데이터 필드들을 판독할 수 있다. 신호(302)에서 인코딩될 수 있는(그리고 MASA 판독기(390M)에 의해 판독될 수 있는) 파라미터들의 예들은 방향, 에너지 비율, 서라운드 코히어런스, 확산 코히어런스 등 중 적어도 하나를 포함할 수 있다. MASA 판독기(390M) 하류에서, 활성 공간 메타데이터 인코더(396)(예를 들어, 도 4의 활성 공간 메타데이터 인코더와 유사함) 및 비활성 공간 메타데이터 인코더(398)(예를 들어, 도 4의 비활성 공간 메타데이터 인코더와 유사함)는 제1 음장 파라미터 표현(316) 및 제2 음장 파라미터 표현(318)을 각각 출력하기 위해 제공될 수 있다. 입력 오디오 신호(302)가 MASA 신호이면, 활동 검출기(320)는, 입력 MASA 신호(302)에서, 결정된 데이터 필드를 판독하고, 데이터 필드에서 인코딩된 값에 기초하여 활성 프레임(306) 또는 비활성 프레임(308)으로 분류하는 요소로서 구현될 수 있다. 도 5의 예는 활성 공간 파라미터(316) 또는 비활성 공간 파라미터(318)로서 인코딩될 수 있는 공간 정보를 이미 인코딩한 오디오 신호(302)에 대해 일반화될 수 있다.
본 발명의 실시예들은, 예를 들어 DirAC-기반 공간 오디오 인코더 및 디코더가 묘사되어 있는 도 2에 예시된 공간 오디오 코딩 시스템에 적용된다. 이의 논의가 여기에서 후속된다.
인코더(300)는 일반적으로 B-포맷의 공간 오디오 장면을 분석할 수 있다. 대안적으로, DirAC 분석은 오디오 오브젝트들 또는 다중채널 신호들 또는 임의의 공간 오디오 포맷들의 조합과 같은 상이한 오디오 포맷들을 분석하기 위해 조정될 수 있다.
(예를 들어, 스테이지들(392a, 392b) 중 임의의 스테이지에서 수행된 바와 같은) DirAC 분석은 입력 오디오 장면(302)(입력 신호)으로부터 파라메트릭 표현을 추출할 수 있다. 시간-주파수 유닛당 측정된 도달 방향(DOA)(314b) 및/또는 확산(314a)은 파라미터(들)(316, 318)를 형성한다. (예를 들어, 스테이지들(392a, 392b) 중 임의의 스테이지에서 수행된 바와 같은) DirAC 분석에는 공간 메타데이터 인코더(예를 들어, 396 및/또는 398)가 뒤따를 수 있으며, 이는 낮은 비트-레이트 파라메트릭 표현을 획득하기 위해 DirAC 파라미터들을 양자화 및/또는 인코딩할 수 있다(도면들에서, 낮은 비트-레이트 파라메트릭 표현들(316, 318)은 공간 메타데이터 인코더들(396 및/또는 398)의 상류에 있는 파라메트릭 표현들의 동일한 참조 번호들로 표시됨).
파라미터들(316 및/또는 318)과 함께, 상이한 소스(들)(예를 들어, 상이한 마이크로폰들) 또는 오디오 입력 신호(들)(예를 들어, 다중채널 신호의 상이한 컴포넌트들)(302)로부터 도출된 다운-믹스 신호(324(326))는 기존의 오디오 코어-코더에 의해 (예를 들어, 송신을 위해 그리고/또는 저장을 위해) 코딩될 수 있다. 바람직한 실시예에서, EVS 오디오 코더(예를 들어, 도 2의 330)가 다운-믹스 신호(324(326, 328))를 코딩하기 위해 바람직할 수 있지만, 본 발명의 실시예들은 이러한 코어-코더에 제한되지 않고, 임의의 오디오 코어-코더에 적용될 수 있다. 다운-믹스 신호(324(326, 328))는, 예를 들어 전송 채널들로 또한 불리는 상이한 채널들로 이루어질 수 있으며: 신호(324)는, 예를 들어, 타겟팅된 비트-레이트에 의존하여 B-포맷 신호, 스테레오 쌍 또는 모노포닉(monophonic) 다운-믹스를 포함하는 4개의 계수 신호들이거나 이들을 포함할 수 있다. 코딩된 공간 파라미터들(328) 및 코딩된 오디오 비트스트림(326)은 통신 채널을 통해 송신(또는 저장)되기 전에 멀티플렉싱될 수 있다.
디코더(아래 참조)에서, 전송 채널들(344)은 코어-디코더에 의해 디코딩되는 반면, DirAC 메타데이터(예를 들어, 공간 파라미터들(316, 318))는 디코딩된 전송 채널들과 함께 DirAC 합성으로 전달되기 전에 먼저 디코딩될 수 있다. DirAC 합성은 직접 사운드 스트림 및 확산 사운드 스트림과의 그의 혼합물의 재생을 제어하기 위해, 디코딩된 메타데이터를 사용한다. 재생된 음장은 임의의 라우드스피커 레이아웃 상에서 재생될 수 있거나 또는 임의의 순서로 앰비소닉 포맷(HOA/FOA)으로 생성될 수 있다.
DirAC 파라미터 추정
여기서, 공간 파라미터들(316, 318)(예를 들어, 확산(314a), 방향(314b))을 추정하기 위한 비-제한적인 기법이 설명된다. B-포맷의 예가 제공된다.
(예를 들어, 필터뱅크 분석(390)으로부터 획득된 바와 같은) 각각의 주파수 대역에서, 사운드의 확산(314b)과 함께 사운드의 도달 방향(314a)이 추정될 수 있다. 입력 B-포맷 컴포넌트들 wi(n), xi(n), yi(n), zi(n)의 시간-주파수 분석으로부터, 압력 및 속도 벡터들이 다음과 같이 결정될 수 있으며:
Figure pct00001
여기서, i는 입력(302)의 인덱스이고, k 및 n은 시간-주파수 타일의 시간 및 주파수 인덱스들이고, ex, ey, ez는 데카르트(Cartesian) 단위 벡터들을 표현한다. 일부 예들에서, P(n,k) 및 U(n,k)는, 예를 들어 세기 벡터의 계산을 통해 DirAC 파라미터들(316, 318), 즉 DOA(314a) 및 확산(314a)를 계산하는 데 필요할 수 있으며:
Figure pct00002
여기서,
Figure pct00003
는 복소 켤레(conjugation)를 나타낸다. 결합된 음장의 확산은 다음과 같으며:
Figure pct00004
여기서,
Figure pct00005
는 시간적 평균 연산자를 나타내고, c는 소리의 속도를 나타내고, E(k,n)는 다음과 같이 주어진 음장 에너지를 나타낸다:
Figure pct00006
음장의 확산은 0 내지 1의 값들을 갖는 사운드 세기와 에너지 밀도 사이의 비율로서 정의된다.
도달 방향(DOA)은 다음과 같이 정의된 단위 벡터 direction(n,k)에 의해 표현된다:
Figure pct00007
도달 방향(314b)은 B-포맷 입력 신호(302)의 (예를 들어, 392b에서의) 에너지 분석에 의해 결정될 수 있고, 세기 벡터의 반대 방향으로서 정의될 수 있다. 방향은 데카르트 좌표들로 정의되지만, 예를 들어 단위 반경, 방위각 각도 및 고도 각도에 의해 정의된 구형 좌표들로 쉽게 변환된다.
송신의 경우, 파라미터들(314a, 314b(316, 318))은 비트스트림(예를 들어, 304)을 통해 수신기 측(예를 들어, 디코더 측)에 송신될 필요가 있었다. 제한된 용량을 갖는 네트워크를 통한 더 견고한 송신을 위해, 낮은 비트-레이트 비트스트림이 바람직하거나 심지어 필요하며, 이는 DirAC 파라미터들(314a, 314b(316, 318))에 대한 효율적인 코딩 방식을 설계함으로써 달성될 수 있다. 그것은, 예를 들어 상이한 주파수 대역들 및/또는 시간 유닛들에 걸쳐 파라미터들을 평균하는 것에 의한 주파수 대역 그룹화, 예측, 양자화 및 엔트로피 코딩과 같은 기법들을 이용할 수 있다. 디코더에서, 송신된 파라미터들은 네트워크에서 어떠한 오류도 발생하지 않았던 경우 각각의 시간/주파수 유닛(k,n)에 대해 디코딩될 수 있다. 그러나, 네트워크 상태들이 적절한 패킷 송신을 보장하는 데 충분히 양호하지 않으면, 송신 동안 패킷이 손실될 수 있다. 본 발명의 실시예들은 후자의 경우 솔루션을 제공하는 것을 목적으로 한다.
디코더
도 6은 디코더 장치(200)의 일 예를 도시한다. 그것은 제1 프레임(346)에 제1 음장 파라미터 표현(316) 및 인코딩된 오디오 신호(346)를 포함하는 인코딩된 오디오 장면(304)을 프로세싱하기 위한 장치일 수 있으며, 여기서 제2 프레임(348)은 비활성 프레임이다. 디코더 장치(200)는 다음 중 적어도 하나를 포함할 수 있다:
제2 프레임(348)이 비활성 프레임이라는 것을 검출하고, 제2 프레임(308)에 대한 파라메트릭 디스크립션(328)을 제공하기 위한 활동 검출기(2200);
제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 사용하여 제2 프레임(308)에 대한 합성 오디오 신호(228)를 합성하기 위한 합성 신호 합성기(210);
제1 프레임(306)에 대한 인코딩된 오디오 신호(346)를 디코딩하기 위한 오디오 디코더(230); 및
제1 음장 파라미터 표현(316)을 사용하여 그리고 제2 프레임(308)에 대한 합성 오디오 신호(228)를 사용하여 제1 프레임(306)에 대한 오디오 신호(202)를 공간적으로 렌더링하기 위한 공간 렌더러(240).
특히, 활동 검출기(2200)는 입력 프레임이 활성 프레임(346)로서 분류되는지 또는 비활성 프레임(348)으로서 분류되는지를 결정할 수 있는 커맨드(221')을 행사할 수 있다. 활동 검출기(2200)는, 예를 들어 시그널링되거나, 또는 획득된 프레임의 길이로부터 결정된 정보(221)로부터 입력 프레임의 분류를 결정할 수 있다.
예를 들어, 합성 신호 합성기(210)는, 예를 들어 파라메트릭 표현(348)으로부터 획득된 정보(예를 들어, 파라메트릭 정보)를 사용하여 노이즈(228)를 생성할 수 있다. 공간 렌더러(220)는, 사람 청취자가 노이즈의 출처(provenience)의 3D 공간 인상을 갖는다는 것을 획득하기 위해, 비활성 프레임들(228)(인코딩된 프레임들(348)로부터 획득됨)이 비활성 공간 파라미터(들)(318)를 통해 프로세싱되는 그러한 방식으로 출력 신호(202)를 생성할 수 있다.
도 6에서, 숫자들(314, 316, 318, 344, 346, 348)은 그들이 비트스트림(304)으로부터 획득된 것으로 대응하기 때문에 도 3의 숫자들과 동일하다는 것을 유의한다. 그럼에도 불구하고, (예를 들어, 양자화로 인한) 일부 약간의 차이들이 존재할 수 있다.
도 6은 또한, 신호(226)(합성 신호 합성기(210)에 의해 출력됨) 또는 오디오 신호(228)(오디오 디코더(230)에 의해 출력됨)가, 예를 들어 활동 검출기(220)에 의해 동작되는 분류를 통해 선택될 수 있도록 편차기(224')를 제어할 수 있는 제어부(221')를 도시한다. 특히, 신호(224)(226 또는 228 중 어느 하나)는 여전히 다운믹스 신호일 수 있으며, 이는 공간 렌더러가 활성 또는 비활성 공간 파라미터들(314(316, 318))을 통해 출력 신호(202)를 생성하도록 공간 렌더러(220)에 제공될 수 있다. 일부 예들에서, 신호(224)(226 또는 228 중 어느 하나)는 그럼에도 불구하고 업믹싱될 수 있으므로, 신호(224)의 채널들의 수는 인코딩된 버전(344(346, 348))에 대해 증가된다. 일부 예들에서, 업믹싱됨에도 불구하고, 신호(224)의 채널들의 수는 출력 신호(202)의 채널의 수보다 적을 수 있다.
본 명세서의 아래에서, 디코더 장치(200)의 다른 예들이 제공된다. 도 7 내지 10은 디코더 장치(200)를 구현할 수 있는 디코더 장치(700, 800, 900, 1000)의 예들을 도시한다.
도 7 내지 도 10에서, 일부 요소들이 공간 렌더러(220) 내부에 있는 것으로 도시되어 있더라도, 일부 예들에서, 그들은 그럼에도 불구하고 공간 렌더러(220) 외부에 있을 수 있다. 예를 들어, 합성 합성기(210)는 부분적으로 또는 완전히 공간 렌더러(220) 외부에 있을 수 있다.
이들 예들에서, 파라미터 프로세서(275)(이는 공간 렌더러(220) 내부 또는 외부 중 어느 하나일 수 있음)가 포함될 수 있다. 파라미터 프로세서(275)는 도시되지 않았음에도 불구하고 도 6의 디코더에 존재하는 것으로 또한 고려될 수 있다.
도 7 내지 도 10 중 임의의 도면의 파라미터 프로세서(275)는, 예를 들어 비활성 프레임들을 제공하기 위한 비활성 공간 파라미터 디코더(278)를 포함할 수 있으며, 비활성 프레임들은 (예를 들어, 비트 스트림에서의 시그널링으로부터 획득된 바와 같은) 파라미터들(318) 및/또는 블록(279)(송신되지 않은 프레임들의 디코더에서 공간 파라미터들을 복구함)일 수 있고, 블록(279)은 비트스트림(304)에서 판독되는 것이 아니라, 예를 들어 외삽에 의해 획득(예를 들어, 복구, 재구성, 외삽, 추론 등)되거나 합성적으로 생성되는 비활성 공간 파라미터들을 제공한다.
따라서, 제2 음장 파라미터 표현은 또한, 비트스트림(304)에 존재하지 않았던 생성된 파라미터(219)일 수 있다. 나중에 설명될 바와 같이, 복구된(재구성된, 외삽된, 추론된 등) 공간 파라미터들(219)은, 예를 들어 "홀드 전략"을 통해, "방향 전략의 외삽"으로 그리고/또는 "방향의 디더링"을 통해 획득될 수 있다(아래 참조). 따라서, 파라미터 프로세서(275)는 이전의 프레임들로부터 공간 파라미터들(219)을 외삽하거나 어쨌든 획득할 수 있다. 도 6 내지 도 9로부터 알 수 있는 바와 같이, 스위치(275')는 비트스트림(304)에서 시그널링된 바와 같은 비활성 공간 파라미터들(318)과 복구된 공간 파라미터들(219) 사이에서 선택할 수 있다. 위에서 설명된 바와 같이, 무음 프레임(348)(SID)(및 또한, 비활성 공간 파라미터들(318))의 인코딩은 제1 프레임들(346)의 인코딩보다 낮은 비트레이트로 업데이트되며: 비활성 공간 파라미터들(318)은 활성 공간 파라미터들(316)에 대해 더 낮은 주파수로 업데이트되고, 일부 전략들은 송신되지 않은 비활성 프레임들에 대한 시그널링되지 않은 공간 파라미터들(219)을 복구하기 위해 파라미터 프로세서(275(1075))에 의해 수행된다. 따라서, 스위치(275')는 시그널링된 비활성 공간 파라미터들(318)과 시그널링되지 않은(그러나, 복구되거나 달리 재구성된) 비활성 공간 파라미터들(219) 사이에서 선택할 수 있다. 일부 경우들에서, 파라미터 프로세서(275')는 제2 프레임에 대한 음장 파라미터들(219)을 외삽(또는 보간)하기 위해, 제2 프레임 전에 발생하거나 제2 프레임에 후속하는 시간에 발생하는 여러 개의 프레임들에 대한 하나 이상의 음장 파라미터 표현들(318)을 저장할 수 있다. 일반적인 표현들로, 공간 렌더러(220)는 제2 프레임(308)에 대한 합성 오디오 신호(202)의 렌더링을 위해 제2 프레임(219)에 대한 하나 이상의 음장 파라미터들(318)을 사용할 수 있다. 부가적으로 또는 대안적으로, 파라미터 프로세서(275)는 (도 10에 도시된) 활성 공간 파라미터들에 대한 음장 파라미터 표현들(316)을 저장할 수 있고, 복구된 공간 파라미터(319)를 생성하기 위해, 저장된 제1 음장 파라미터 표현(316)(활성 프레임들)을 사용하여 제2 프레임(비활성 프레임)에 대한 음장 파라미터들(219)을 합성할 수 있다. 도 10에 도시된 바와 같이(그러나 또한, 도 6 내지 도 9 중 임의의 도면에 구현가능함), 활성 공간 파라미터들(316)이 비트스트림(304)으로부터 획득될 수 있는 활성 공간 파라미터 디코더(276)를 또한 포함하는 것이 또한 가능하다. 이는, 제2 프레임(308)에 대한 하나 이상의 음장 파라미터들을 결정하기 위해 외삽 또는 보간할 때, 제2 프레임(308) 이전 또는 이후의 시간에 발생하는 적어도 2개의 음장 파라미터 표현들에 포함된 방향들로 디더링을 수행할 수 있다.
합성 신호 합성기(210)는 공간 렌더러(220) 내부에 있을 수 있거나 외부에 있을 수 있거나, 또는 일부 경우들에서, 그것은 내부 부분과 외부 부분을 가질 수 있다. 합성 합성기(210)는 전송 채널들(228)의 다운믹스 채널들(이들은 출력 채널들보다 적음) 상에서 동작할 수 있다(여기서, M은 다운믹스 채널들의 수이고 N은 출력 채널들의 수라는 것을 유의한다). 합성 신호 생성기(210)(합성 신호 합성기에 대한 다른 이름)는 제2 프레임에 대해, 합성 오디오 신호로서 공간 렌더러의 출력 포맷에 관련된 개별 컴포넌트들에 대한 복수의 합성 컴포넌트 오디오 신호들을 (전송 신호의 채널들 중 적어도 하나에서 또는 출력 오디오 포맷의 적어도 하나의 개별 컴포넌트에서) 생성할 수 있다. 일부 경우들에서, 이는 다운믹스 신호(228)의 채널들에 있을 수 있고, 일부 경우들에서, 공간 렌더링의 내부 채널들 중 하나에 있을 수 있다.
도 7은 (예를 들어, 필터뱅크 분석(720)에 하류인 그의 버전(228b)에서) 합성 오디오 신호(228)로부터 획득된 적어도 K개의 채널들(228a)이 역상관될 수 있는 일 예를 도시한다. 이는, 예를 들어 합성 합성기(210)가 합성 오디오 신호(228)의 M개의 채널들 중 적어도 하나에서 합성 오디오 신호(228)를 생성할 때 획득된다. 이러한 상관 프로세싱(730)은 필터뱅크 분석 블록(720)의 하류에서 신호(228b)(또는 그의 컴포넌트들 중 적어도 하나 또는 일부)에 적용될 수 있어서, 적어도 K개의 채널들(K ≥ M 및/또는 K ≤ N이고, N은 출력 채널들의 수임)이 획득될 수 있다. 후속하여, 신호(228b)의 K개의 역상관된 채널들(228a) 및/또는 M개의 채널들은, 믹싱된 신호(742)를 공간 파라미터들(218, 219)(위 참조)을 통해 제공할 수 있는 믹싱 이득들/행렬들을 생성하기 위한 블록(740)에 제공될 수 있다. 믹싱된 신호(742)는 N개의 출력 채널들(202)에서 출력 신호를 획득하기 위해 필터뱅크 합성 블록(746)을 겪을 수 있다. 기본적으로, 도 7의 참조 번호(228a)는 개별 합성 컴포넌트 오디오 신호(228b)로부터 역상관된 개별 합성 컴포넌트 오디오 신호일 수 있어서, 공간 렌더러(및 블록(740))는 컴포넌트(228a)와 컴포넌트(228b)의 조합을 이용한다. 도 8은 전체 채널들(228)이 K개의 채널들에서 생성된 일 예를 도시한다.
더욱이, 도 7에서, 역상관기(730)는 필터뱅크 분석 블록(720)의 하류에서 K개의 역상관된 채널들(228b)에 적용되었다. 이는, 예를 들어 확산 필드에 대해 수행될 수 있다. 일부 경우들에서, 피드백 분석 블록(720) 하류에 있는 신호(228b)의 M개의 채널들은 믹싱 이득/행렬들을 생성하는 블록(744)에 제공될 수 있다. 예를 들어, 상이한 채널들 사이의 공분산에 상보적인 값과 연관된 값만큼 채널들(228b)을 스케일링함으로써 역상관기들(730)의 문제들을 감소시키기 위해 공분산 방법이 사용될 수 있다.
도 8은 주파수 도메인에 있는 합성 신호 합성기(210)의 일 예를 도시한다. 공분산 방법이 도 8의 합성 합성기(210(810))에 대해 사용될 수 있다. 특히, 합성 오디오 합성기(210(810))는 K개의 채널들(K ≥ M)에서 그의 출력(228c)을 제공하는 한편, 전송 채널(228)은 M개의 채널들에 있을 것이다.
도 9는 도 8의 디코더(800) 및 도 7의 디코더(700)의 하이브리드 기법을 이용하는 것으로 이해될 수 있는 디코더(900)의 일 예(디코더(200)의 실시예)를 도시한다. 여기에 알 수 있는 바와 같이, 합성 신호 합성기(210)는 다운믹스 신호(228)의 M개의 채널들에서 합성 오디오 신호(228)를 생성하는 제1 부분(210(710))을 포함한다. 신호(228)는 복수의 필터 대역들이 서로 구별되는 출력(228b)을 제공할 수 있는 필터뱅크 분석 블록(730)에 입력될 수 있다. 이러한 시간에, 채널들(228b)은 K개의 채널들에서, 역상관된 신호(228a)를 획득하기 위해 역상관될 수 있다. 한편, M개의 채널들에서의 필터뱅크 분석의 출력(228b)은 믹싱된 신호(742)의 믹싱된 버전을 제공할 수 있는 믹싱 이득 행렬들을 생성하기 위한 블록(740)에 제공된다. 믹싱된 신호(742)는 비활성 프레임들(219)에 대한 비활성 공간 파라미터들(318) 및/또는 복구된(재구성된) 공간 파라미터들을 고려할 수 있다. 역상관기(730)의 출력(228a)이 또한, 가산기(920)에서 합성 신호 합성기(210)의 제2 부분(810)의 출력(228d)에 추가될 수 있으며, 합성 신호 합성기(210)는 K개의 채널들에서 합성 신호(228d)를 제공한다는 것을 유의해야 한다. 신호(228d)는 가산 블록(920)에서 역상관된 신호(228a)에 합산되어, 합산된 신호(228e)를 믹싱 블록(740)에 제공할 수 있다. 따라서, 역상관된 컴포넌트들(228a) 및 생성된 컴포넌트들(228d) 둘 모두를 고려하는 컴포넌트(228b)와 컴포넌트(228e)의 조합을 사용함으로써 최종 출력 신호(202)를 렌더링하는 것이 가능하다. 도 8 및 도 7의 컴포넌트들(228b, 228a, 228d, 228e)(존재함)은, 예를 들어 합성 신호(228)의 확산 및 비-확산 컴포넌트들로 이해될 수 있다. 특히, 도 9의 디코더(900)를 참조하면, 기본적으로 신호(228e)의 저주파수 대역들은 전송 채널(710)로부터 획득될 수 있고(그리고 228a로부터 획득됨) 신호(228e)의 고주파수 대역들은 합성기(810)에서 생성될 수 있으며(그리고 채널들(228d)에 있음), 가산기(920)에서의 그들이 가산은 신호(228e)에서 둘 모두를 갖게 한다.
특히, 위의 도 7 내지 도 10에서, 활성 프레임들에 대한 전송 채널 디코더가 도시되어 있지 않다.
도 10은, 오디오 디코더(230)(이는 디코딩된 채널들(226)을 제공함) 및 합성 신호 합성기(210)(여기서, 제1 외부 부분(710)과 제2 내부 부분(810) 사이에서 분할되는 것으로 고려됨) 둘 모두가 도시되어 있는 디코더(1000)(디코더(200)의 실시예)의 일 예를 도시한다. 도 6의 스위치와 유사할 수 있는 스위치(224')가 도시되어 있다(예를 들어, 활동 검출기(220)에 의해 제공되는 제어 또는 커맨드(221')에 의해 제어됨). 기본적으로, 디코딩된 오디오 장면(226)이 공간 렌더러(220)에 제공되는 모드와 합성 오디오 신호(228)가 제공되는 다른 모드 사이에서 선택하는 것이 가능하다. 다운믹스 신호(224(226, 228))는, 일반적으로 출력 신호(202)의 N개의 출력 채널들보다 작은 M개의 채널들에 있다.
신호(224(226, 228))는 필터뱅크 분석 블록(720)에 입력될 수 있다. (복수의 주파수 빈들에서의) 필터뱅크 분석(720)의 출력(228b)은, 합성 신호 합성기(210)의 제2 부분(810)에 의해 제공되는 신호(228d)에 의해 또한 입력될 수 있는 업믹스 추가 블록(750)에 입력될 수 있다. 업믹스 추가 블록(750)의 출력(228f)은 상관기 프로세싱(730)에 입력될 수 있다. 역상관기 프로세싱(730)의 출력(228a)은 업믹스 가산 블록(750)의 출력(228f)과 함께, 믹싱 이득 및 행렬들을 생성하기 위한 블록(740)에 제공될 수 있다. 업믹스 추가 블록(750)은, 예를 들어 채널들의 수를 M으로부터 K로 증가시킬 수 있고(그리고 일부 경우들에서, 그것은, 예를 들어 상수 계수들과의 곱셈에 의해 채널들의 수를 스케일링할 수 있음), K개의 채널들을 추가할 수 있으며, K개의 채널들(228d)은 합성 신호 합성기(210)(예를 들어, 제2 내부 부분(810))에 의해 생성된다. 제1 (활성) 프레임을 렌더링하기 위해, 믹싱 블록(740)은 활성 공간 파라미터들(316)을 비트 스트림(304)에서 제공된 것으로 고려하는 것, 복구된(재구성된) 공간 파라미터들(210)을 외삽되거나 또는 달리 획득된(위 참조) 것으로 고려하는 것 중 적어도 하나를 고려할 수 있다.
일부 예들에서, 필터뱅크 분석 블록(720)의 출력은 M개의 채널들에 있을 수 있지만, 상이한 주파수 대역들을 고려할 수 있다. 제1 프레임들(및 도 10에서와 같이 배치된 스위치(224') 및 스위치(222'))에 대해, (적어도 2개의 채널들 내의) 디코딩된 신호(226)가 필터뱅크 분석(720)에 제공될 수 있으며, 따라서 K개의 채널들에서 신호(228f)를 획득하기 위해 K개의 노이즈 채널들(228d)(합성 신호 채널들)을 통해 업믹스 추가 블록(750)에서 가중될 수 있다. K ≥ M이고, 예를 들어 확산 채널 및 방향 채널을 포함할 수 있다는 것을 기억한다. 특히, 확산 채널은 역상관된 신호(228a)를 획득하기 위해 역상관기(730)에 의해 역상관될 수 있다. 따라서, 디코딩된 오디오 신호(224)는 활성 및 비활성 프레임들(제1 프레임들과 제2 프레임들) 사이의 전환을 마스킹할 수 있는 합성 오디오 신호(228d)를 이용하여 (예를 들어 블록(750)에서) 가중될 수 있다. 이어서, 합성 신호 합성기(210)의 제2 부분(810)은 활성 프레임들에 대해 뿐만 아니라 비활성 프레임들에 대해 사용된다.
도 11은 제1 프레임(346)에 제1 음장 파라미터 표현(316) 및 인코딩된 오디오 신호(346)를 포함할 수 있는 디코더(200)의 다른 예를 도시하며, 여기서 제2 프레임(348)은 비활성 프레임이고, 장치는, 제2 프레임(348)이 비활성 프레임이라는 것을 검출하고 제2 프레임(308)에 대한 파라메트릭 디스크립션(328)을 제공하기 위한 활동 검출기(220); 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 사용하여 제2 프레임(308)에 대한 합성 오디오 신호(228)를 합성하기 위한 합성 신호 합성기(210); 제1 프레임(306)에 대한 인코딩된 오디오 신호(346)를 디코딩하기 위한 오디오 디코더(230); 및 제1 음장 파라미터 표현(316)을 사용하여 그리고 제2 프레임(308)에 대한 합성 오디오 신호(228)를 사용하여 제1 프레임(306)에 대한 오디오 신호(202)를 공간적으로 렌더링하기 위한 공간 렌더러(240), 또는 제1 프레임(306)에 대한 오디오 신호(346), 제1 프레임(306)에 대한 제1 음장 파라미터 표현(316), 제2 프레임(308)에 대한 합성 오디오 신호(228), 및 제2 프레임(308)에 대한 제2 음장 파라미터 표현(318)을 포함하는 메타 데이터 보조 출력 포맷을 생성하기 위한 트랜스코더를 포함한다.
위의 예들에서 합성 신호 합성기(210)를 참조하면, 위에서 설명된 바와 같이, 그것은 노이즈 생성기(예를 들어, 컴포트 노이즈 생성기)를 포함할 수 있다(또는 심지어 노이즈 생성기가 될 수 있음). 예들에서, 합성 신호 생성기(210)는 노이즈 생성기를 포함할 수 있으며, 제1 개별 합성 컴포넌트 오디오 신호는 노이즈 생성기의 제1 샘플링에 의해 생성되고, 제2 개별 합성 컴포넌트 오디오 신호는 노이즈 생성기의 제2 샘플링에 의해 생성되고, 제2 샘플링은 제1 샘플링과 상이하다.
부가적으로 또는 대안적으로, 노이즈 생성기는 노이즈 테이블을 포함하며, 제1 개별 합성 컴포넌트 오디오 신호는 노이즈 테이블의 제1 부분을 취함으로써 생성되고, 제2 개별 합성 컴포넌트 오디오 신호는 노이즈 테이블의 제2 부분을 취함으로써 생성되고, 노이즈 테이블의 제2 부분은 노이즈 테이블의 제1 부분과 상이하다.
예들에서, 노이즈 생성기는 의사 노이즈 생성기를 포함하고, 제1 개별 합성 컴포넌트 오디오 신호는 의사 노이즈 생성기에 대한 제1 시드를 사용함으로써 생성되고, 제2 개별 합성 컴포넌트 오디오 신호는 의사 노이즈 생성기에 대한 제2 시드를 사용하여 생성된다.
일반적인 표현들로, 도 6, 도 7, 도 9, 도 10 및 도 11의 예들의 공간 렌더러(220)는 제1 음장 파라미터 표현(316)의 제어 하에서 직접 신호와 직접 신호로부터 역상관기(730)에 의해 생성된 확산 신호의 믹싱을 사용하여 제1 프레임(306)에 대한 제1 모드에서, 그리고 제1 합성 컴포넌트 신호와 제2 합성 컴포넌트 신호의 믹싱을 사용하여 제2 프레임(308)에 대한 제2 모드에서 동작할 수 있으며, 여기서 제1 및 제2 합성 컴포넌트 신호들은 노이즈 프로세스 또는 의사 노이즈 프로세스의 상이한 실현들에 의해 합성 신호 합성기(210)에 의해 생성된다.
위에서 설명된 바와 같이, 공간 렌더러(220)는 파라미터 프로세서에 의해 제2 프레임(308)에 대해 도출된 확산 파라미터, 에너지 분포 파라미터, 또는 코히어런스 파라미터에 의해 제2 모드에서 믹싱(740)을 제어하도록 구성될 수 있다.
위의 예들은 또한, 제1 프레임(306) 및 제2 프레임(308)을 갖는 오디오 신호로부터 인코딩된 오디오 장면을 생성하는 방법에 관한 것이며, 그 방법은, 제1 프레임(306) 내의 오디오 신호로부터 제1 프레임(306)에 대한 제1 음장 파라미터 표현(316) 및 제2 프레임(308) 내의 오디오 신호로부터 제2 프레임(308)에 대한 제2 음장 파라미터 표현(318)을 결정하는 단계; 오디오 신호에 의존하여, 제1 프레임(306)이 활성 프레임이고 제2 프레임(308)이 비활성 프레임이라고 결정하기 위해 오디오 신호를 분석하는 단계; 활성 프레임인 제1 프레임(306)에 대한 인코딩된 오디오 신호를 생성하고, 비활성 프레임인 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 생성하는 단계; 및 제1 프레임(306)에 대한 제1 음장 파라미터 표현(316), 제2 프레임(308)에 대한 제2 음장 파라미터 표현(318), 제1 프레임(306)에 대한 인코딩된 오디오 신호, 및 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 합침으로써, 인코딩된 오디오 장면을 구성하는 단계를 포함한다.
위의 예들은 또한, 제1 프레임(306)에 제1 음장 파라미터 표현(316) 및 인코딩된 오디오 신호를 포함하는 인코딩된 오디오 장면을 프로세싱하는 방법에 관한 것이며, 제2 프레임(308)은 비활성 프레임이고, 그 방법은, 제2 프레임(308)이 비활성 프레임이라는 것을 검출하고, 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 제공하는 단계; 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 사용하여 제2 프레임(308)에 대한 합성 오디오 신호(228)를 합성하는 단계; 제1 프레임(306)에 대한 인코딩된 오디오 신호를 디코딩하는 단계; 및 제1 음장 파라미터 표현(316)을 사용하여 그리고 제2 프레임(308)에 대한 합성 오디오 신호(228)를 사용하여 제1 프레임(306)에 대한 오디오 신호를 공간적으로 렌더링하거나, 또는 제1 프레임(306)에 대한 오디오 신호, 제1 프레임(306)에 대한 제1 음장 파라미터 표현(316), 제2 프레임(308)에 대한 합성 오디오 신호(228), 및 제2 프레임(308)에 대한 제2 음장 파라미터 표현(318)을 포함하는 메타 데이터 보조 출력 포맷을 생성하는 단계를 포함한다.
제1 프레임(306)에 대한 제1 음장 파라미터 표현(316); 제2 프레임(308)에 대한 제2 음장 파라미터 표현(318); 제1 프레임(306)에 대한 인코딩된 오디오 신호; 및 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 포함하는 인코딩된 오디오 장면(304)이 또한 제공된다.
위의 예들에서, 공간 파라미터들(316 및/또는 318)이 각각의 주파수 대역(서브밴드)에 대해 송신될 수 있다.
일부 예들에 따르면, 이러한 무음 파라메트릭 디스크립션(348)은 이러한 부분 파라미터(318)를 포함할 수 있고, 따라서, 이러한 부분 파라미터(318)는 SID(348)의 일부일 수 있다.
비활성 프레임들에 대한 공간 파라미터(318)는 각각의 주파수 서브대역(또는 대역 또는 주파수)에 대해 유효할 수 있다.
활성 페이즈(346) 동안 그리고 SID(348)에서 송신되거나 인코딩된, 위에서 논의된 공간 파라미터들(316 및/또는 318)은 상이한 주파수 해상도를 가질 수 있고, 부가적으로 또는 대안적으로, 활성 페이즈(346) 동안 그리고 SID(348)에서 송신되거나 인코딩된, 위에서 논의된 공간 파라미터들(316 및/또는 318)은 상이한 시간 해상도를 가질 수 있고, 부가적으로 또는 대안적으로, 활성 페이즈(346) 동안 그리고 SID(348)에서 송신되거나 인코딩된, 위에서 논의된 공간 파라미터들(316 및/또는 318)은 상이한 양자화 해상도를 가질 수 있다.
디코딩 디바이스 및 인코딩 디바이스가 CELP 또는 DCX 또는 대역폭 확장 모듈들과 같은 디바이스들일 수 있다는 것을 유의한다.
MDCT-기반 코딩 방식(수정된 이산 코사인 변환(modified discrete cosine transform))을 이용하는 것이 또한 가능하다.
디코더 장치(200)의 본 발명의 예들에서(그의 실시예들 중 임의의 실시예, 예를 들어 도 6 내지 도 11의 실시예들에서), 제1 프레임에 대한 오디오 신호, 제1 프레임에 대한 제1 음장 파라미터 표현, 제2 프레임에 대한 합성 오디오 신호, 및 제2 프레임에 대한 제2 음장 파라미터 표현을 포함하는 메타 데이터 보조 출력 포맷을 생성하기 위한 트랜스코더로 오디오 디코더(230) 및 공간 렌더러(240)를 대체하는 것이 가능하다.
논의
본 발명의 실시예들은 DTX를 파라메트릭 공간 오디오 코딩으로 확장하기 위한 방식을 제안한다. 따라서, 다운믹스/전송 채널들(예를 들어, 324, 224) 상에 종래의 DTX/CNG를 적용하고 이를 공간 파라미터들(이후, 공간 SID로 불림), 예를 들어 316, 318) 및 디코더 측에서의 비활성 프레임들(예를 들어, 308, 328, 348, 228)에 대한 공간 렌더링을 이용하여 확장하는 것이 제안된다. 비활성 프레임들(예를 들어, 308, 328, 348, 228)의 공간 이미지를 되돌리기 위해, 전송 채널 SID(326, 226)는 몰입형 배경 노이즈들에 대해 특수하게 설계되고 관련있는 일부 공간 파라미터들(공간 SID)(319)(또는 219)을 이용하여 수정된다. 본 발명의 실시예들(아래에서 그리고/또는 위에서 논의됨)은 적어도 2개의 양상들을 커버한다:
● 공간 렌더링을 위해 전송 채널 SID를 확장시킨다. 이를 위해, 디스크립터는 공간 파라미터들(318)을 이용하여 수정되고, 예를 들어 DirAC 패러다임 또는 MASA 포맷으로부터 도출된다. 확산(314a), 및/또는 도달 방향(들)(314b), 및/또는 채널-간/서라운드 코히어런스(들), 및/또는 에너지 비율들과 같은 파라미터들(318) 중 적어도 하나는 전송 채널 SID(328(348))와 함께 송신될 수 있다. 특정 경우들에서 그리고 특정 가정들 하에서, 파라미터들(318) 중 일부가 폐기될 수 있다. 예를 들어, 배경 노이즈가 완전히 확산되었다고 본 발명이 가정하면, 본 발명은 방향들(314b)의 송신을 폐기할 수 있으며, 이어서 이는 무의미해진다.
● 공간에서 전송 채널 CNG를 렌더링함으로써 수신기 측에서 비활성 프레임들을 공간화한다: DirAC 합성 원리 또는 그의 파생물들 중 하나는 배경 노이즈의 공간 SID 디스크립터 내에서 최종적으로 송신된 공간 파라미터들(318)에 의해 안내되어 이용될 수 있다. 심지어 조합될 수 있는 적어도 2개의 옵션들이 존재하며: 전송 채널 컴포트 노이즈 생성은 전송 채널들(228)에 대해서만 생성될 수 있거나(이는 도 7의 경우이고, 여기서 컴포트 노이즈(228)는 합성 신호 합성기(710)에 의해 생성됨); 또는 전송 채널 CNG는 전송 채널들에 대해, 그리고 또한, 업믹싱을 위해 렌더러에서 사용되는 부가적인 채널들에 대해 생성될 수 있다(이는 도 9의 경우이고, 여기서 일부 컴포트 노이즈(228)는 합성 신호 합성기의 제1 부분(710)에 의해 생성되지만, 일부 다른 컴포트 노이즈(228d)는 합성 신호 합성기의 제2 부분(810)에 의해 생성됨). 가장 최근의 경우, CNG의 제2 부분(710), 예를 들어 상이한 시드를 이용하여 랜덤 노이즈(228d)를 샘플링하는 것은 생성된 채널들(228d)을 자동으로 역상관시킬 수 있고, 전형적인 아티팩트들의 소스들일 수 있는 역상관기들(730)의 이용을 최소화할 수 있다. 게다가, CNG는 또한 (도 10에 도시된 바와 같이) 활성 프레임들에서, 그러나 일부 예들에서는, 활성 및 비활성 페이즈들(프레임들) 사이의 전환을 평활화하기 위해 그리고 또한 전송 채널 코더 및 파라메트릭 DirAC 패러다임으로부터의 최종 아티팩트들을 마스킹하기 위해, 감소된 강도로 이용될 수 있다.
도 3은 인코더 장치(300)의 실시예들의 개요를 묘사한다. 인코더 측에서, DirAC 분석에 의해 신호가 분석될 수 있다. DirAC는 B-포맷 또는 1차 앰비소닉(FOA)과 같은 신호들을 분석할 수 있다. 그러나, 원리를 고차 앰비소닉(HOA)으로 확장시키고, 그리고 심지어 [10]에서 제안된 바와 같이 5.1, 또는 7.1 또는 7.1 + 4와 같은 주어진 라우드스피커 셋업과 연관된 다중-채널 신호들로 확장시키는 것이 또한 가능하다. 입력 포맷(302)은 또한, 연관된 메타데이터에 포함된 정보에 의해 공간에서 로컬화된 하나 또는 여러 개의 상이한 오디오 오브젝트들을 표현하는 개별 오디오 채널들일 수 있다. 대안적으로, 입력 포맷(302)은 메타데이터 연관 공간 오디오(MASA)일 수 있다. 이러한 경우, 공간 파라미터들 및 전송 채널들은 인코더 장치(300)에 직접 전달된다. 이어서, 오디오 장면 분석(예를 들어, 도 5에 도시된 바와 같음)은 스킵될 수 있으며, 최종 공간 파라미터 (재)양자화 및 리샘플링만이 공간 파라미터들(318)의 비활성 세트에 대해 또는 공간 파라미터들(316, 318)의 활성 및 비활성 세트들 둘 모두에 대해 수행되어야 한다.
오디오 장면 분석은 활성 및 비활성 프레임들(306, 308) 둘 모두에 대해 행해지고, 공간 파라미터들(316, 318)의 2개의 세트들을 생성할 수 있다. 활성 프레임(308)의 경우에는 제1 세트(316) 및 비활성 프레임(308)의 경우에는 다른 세트(318)가 존재한다. 어떠한 비활성 공간 파라미터들도 갖지 않는 것이 가능하지만, 본 발명의 바람직한 실시예에서, 비활성 공간 파라미터들(318)은 활성 공간 파라미터들(316)보다 더 적고 그리고/또는 더 개략적으로 양자화된다. 그 이후, 공간 파라미터들(또한, DirAC 메타데이터로 불림)의 2개의 버전들이 이용가능할 수 있다. 중요하게도, 본 발명의 실시예들은 주로 청취자의 관점으로부터의 오디오 장면의 공간적 표현들에 관한 것일 수 있다. 따라서, 최종 확산 인자 또는 에너지 비율(들)과 함께 하나 또는 여러 개의 방향(들)을 포함하는 DirAC 파라미터(318, 316)와 같은 공간 파라미터들이 고려된다. 채널-간 파라미터들과 달리, 청취자의 관점으로부터의 이들 공간 파라미터들은 사운드 캡처 및 재생 시스템에 불가지론적(agnostic)이라는 큰 장점을 갖는다. 이러한 파라미터화는 임의의 특정 마이크로폰 어레이 또는 라우드스피커 레이아웃에 특정하지 않다.
이어서, 음성 활동 검출기(또는 더 일반적으로는 활동 검출기)(320)는 오디오 장면 분석기에 의해 생성된 입력 신호(302) 및/또는 전송 채널들(326) 상에 적용될 수 있다. 전송 채널들은 입력 채널들(일반적으로는 모노-다운믹스, 스테레오 다운믹스, A-포맷 또는 1차 앰비소닉 신호)의 수보다 적다. VAD 결정에 기초하여, 프로세스 하의 현재 프레임이 활성(306, 326) 또는 비활성(308, 328)으로서 정의된다. 활성 프레임들(306, 326)의 경우, 전송 채널들의 종래의 스피치 또는 오디오 인코딩이 수행된다. 이어서, 결과적인 코드 데이터는 활성 공간 파라미터들(316)과 결합된다. 비활성 프레임들(308, 328)의 경우, 전송 채널들(324)의 무음 정보 디스크립션(328)은, 일반적으로 비활성 페이즈 동안 규칙적인 프레임 간격들로, 예를 들어 8번째 활성 프레임들(306, 326, 346)마다 간헐적으로 생성된다. 이어서, 전송 채널 SID(328, 348)는 비활성 공간 파라미터들을 이용하여 멀티플렉서(인코딩된 신호 형성기)(370)에서 수정될 수 있다. 비활성 공간 파라미터들(318)이 널(null)인 경우, 이어서, 전송 채널 SID(348)만이 송신된다. 전체 SID는 일반적으로, 예를 들어 2.4 또는 4.25 kbps만큼 낮은 매우 낮은 비트-레이트 디스크립션일 수 있다. 대부분의 시간에 어떠한 송신도 행해지지 않고 어떠한 데이터도 전송되지 않으므로, 평균 비트-레이트는 비활성 페이즈에서 훨씬 더 감소된다.
본 발명의 바람직한 실시예에서, 전송 채널 SID(348)는 2.4 kbps의 사이즈를 갖고, 공간 파라미터들을 포함하는 전체 SID는 4.25 kbps의 사이즈를 갖는다. 비활성 공간 파라미터들의 계산은, MASA 입력 포맷에 대한 도 5에서 고차 앰비소닉(HOA)으로부터 직접 도출될 수 있는 FOA와 같은 다중-채널 신호를 입력으로서 갖는 DirAC에 대해 도 4에 설명되어 있다. 앞서 설명된 바와 같이, 비활성 공간 파라미터들(318)은 이미 코딩된 활성 공간 파라미터들(318)을 평균 및/또는 재양자화하여, 활성 공간 파라미터들(316)과 병렬로 도출될 수 있다. 입력 포맷(302)으로서의 FOA와 같은 다중-채널 신호의 경우, 다중-채널 신호(302)의 필터뱅크 분석은 각각의 시간 및 주파수 타일에 대한 공간 파라미터들, 방향 및 확산을 계산하기 전에 수행될 수 있다. 메타데이터 인코더들(396, 398)은 양자화된 파라미터의 코딩 및 양자화기를 적용하기 전에 상이한 주파수 대역들 및/또는 시간 슬롯들에 걸쳐 파라미터(316, 318)들을 평균할 수 있다. 추가적인 비활성 공간 메타데이터 인코더는 활성 공간 메타데이터 인코더에서 도출된 양자화된 파라미터들 중 일부를 상속(inherit)하여, 비활성 공간 파라미터들에서 이들을 직접 사용하거나 또는 이들을 재양자화할 수 있다. MASA 포맷(예를 들어, 도 5)의 경우, 먼저 입력 메타데이터가 판독되고, 주어진 시간-주파수 및 비트 깊이 해상도에서 메타데이터 인코더들(396, 398)에 제공될 수 있다. 이어서, 메타데이터 인코더(들)(396, 398)는, 최종적으로 일부 파라미터들을 변환하고, 그들의 해상도를 적응시키고(즉, 해상도를 낮추고, 예를 들어 이들을 평균하고), 그리고 예를 들어 엔트로피 코딩 방식에 의해 이들을 코딩하기 전에 이들을 재양자화함으로써 추가로 프로세싱할 것이다.
예를 들어, 도 6에 묘사된 바와 같이, 디코더 측에서, VAD 정보(221)(예를 들어, 프레임이 활성으로서 분류되는지 또는 비활성으로서 분류되는지)는 송신된 패킷(예를 들어, 프레임)의 사이즈를 검출하는 것 또는 패킷의 비-송신을 검출하는 것 중 어느 하나에 의해 먼저 복구된다. 활성 프레임들(346)에서, 디코더는 활성 모드에서 실행되고, 전송 채널 코더 페이로드 뿐만 아니라 활성 공간 파라미터들이 디코딩된다. 이어서, 공간 렌더러(220)(DirAC 합성)는 출력 공간 포맷의 디코딩된 공간 파라미터들(316, 318)을 사용하여, 디코딩된 전송 채널들을 업믹싱/공간화한다. 비활성 프레임들에서, 컴포트 노이즈는 (예를 들어, 도 10에서) 전송 채널 CNG 부분(810)에 의해 전송 채널들에서 생성될 수 있다. CNG는 (예를 들어, 주파수 도메인에서 적용되는 스케일 인자들 또는 시간 도메인 합성 필터를 통해 적용되는 선형 예측 코딩 계수들을 통해) 일반적으로 에너지 및 스펙트럼 형상을 조정하기 위해 전송 채널 SID로 안내된다. 이어서, 컴포트 노이즈(들)(228d, 228a 등)는 비활성 공간 파라미터들(318)에 의해 이러한 시간에 안내되는 공간 렌더러(DirAC 합성)(740)에서 렌더링/공간화된다. 출력 공간 포맷(202)은 바이노럴 신호(2개의 채널들), 주어진 라우드스피커 레이아웃에 대한 다중-채널, 또는 앰비소닉 포맷의 다중-채널 신호일 수 있다. 대안적인 실시예에서, 출력 포맷은 메타데이터 보조 공간 오디오(MASA)일 수 있으며, 이는 디코딩된 전송 채널들 또는 전송 채널 컴포트 노이즈들이 외부 디바이스에 의한 렌더링을 위해 각각 활성 또는 비활성 공간 파라미터들과 함께 직접 출력된다는 것을 의미한다.
비활성 공간 파라미터들의 인코딩 및 디코딩
비활성 공간 파라미터들(318)은 주파수 대역들에서의 다수의 방향들, 및 총 에너지에 대한 하나의 방향 컴포넌트의 비율에 대응하는 주파수 대역들에서의 연관된 에너지 비율들 중 하나로 이루어질 수 있다. 하나의 방향의 경우, 바람직한 실시예에서와 같이, 에너지 비율은, 에너지 비율에 상보적이고 이어서, 파라미터들의 오리지널 DirAC 세트를 따르는 확산으로 대체될 수 있다. 방향 컴포넌트(들)가 일반적으로 비활성 프레임들 내의 확산 부분보다 덜 관련있을 것으로 예상되므로, 그것은 또한, 활성 프레임들에서와 같이 더 개략적인 양자화 방식을 사용하여 그리고/또는 더 개략적인 시간 및/또는 주파수 해상도를 얻기 위해 시간 또는 주파수에 걸쳐 방향을 평균함으로써 더 적은 비트들 상에서 송신될 수 있다. 바람직한 실시예에서, 방향은 활성 프레임들에 대해 5 ms 대신 20 ms마다, 그러나 5개의 불균일 대역들의 동일한 주파수 해상도를 사용하여 전송될 수 있다.
바람직한 실시예에서, 확산(314a)은 활성 프레임들에서와 동일한 시간/주파수를 이용하여, 그러나 더 적은 비트들 상에서 송신되어, 최소 양자화 인덱스를 강제할 수 있다. 예를 들어, 확산(314a)이 활성 프레임들의 4 비트들 상에서 양자화되면, 그것은 2 비트들 상에서만 송신되어, 0 내지 3의 오리지널 인덱스들의 송신을 피한다. 이어서, 디코딩된 인덱스가 +4의 오프셋으로 추가된다.
일부 예들에서, 방향(314b)을 전송하는 것을 완전히 피하거나 대안적으로 확산(314a)을 전송하는 것을 피하고, 디코더에서 이를 디폴트 또는 추정된 값으로 대체하는 것이 또한 가능하다.
게다가, 입력 채널들이 공간 도메인에 위치된 채널들에 대응하면, 채널-간 코히어런스를 송신하는 것으로 고려할 수 있다. 채널-간 레벨 차이들이 또한 방향들에 대한 대안이다.
더 관련있는 것은 음장에서 코히어런트한 확산 에너지의 비율로서 정의되는 서라운드 코히어런스를 전송하는 것이다. 그것은, 예를 들어 직접 및 확산 신호들 사이에 에너지를 재분배함으로써 공간 렌더러(DirAC 합성)에서 활용될 수 있다. 서라운드 코히어런트 컴포넌트들의 에너지는 방향 컴포넌트들로 재분배되도록 확산 에너지로부터 제거되며, 이어서 방향 컴포넌트들은 공간에서 더 균일하게 패닝될 것이다.
당연히, 이전에 나열된 파라미터들의 모든 조합들이 비활성 공간 파라미터들에 대해 고려될 수 있다. 비활성 페이즈에서 어떠한 파라미터들도 전송하지 않는 것이 비트 절약 목적들을 위해 또한 예상될 수 있다.
비활성 공간 메타데이터 인코더의 예시적인 의사 코드는 다음과 같이 주어진다:
Figure pct00008
Figure pct00009
Figure pct00010
비활성 공간 메타데이터 디코더의 예시적인 의사 코드는 다음과 같이 주어진다:
Figure pct00011
Figure pct00012
디코더 측에서의 비-송신의 경우의 공간 파라미터 복구
비활성 페이즈 동안 SID의 경우, 공간 파라미터들은 완전히 또는 부분적으로 디코딩되고, 이어서 후속 DirAC 합성을 위해 사용될 수 있다.
데이터 송신이 없는 경우 또는 어떠한 공간 파라미터들(318)도 상기 전송 채널(348)과 함께 송신되지 않으면, 공간 파라미터들(219)은 되돌려질 필요가 있을 수 있다. 이는 과거에-수신된 파라미터들(예를 들어, 316 및 318)을 고려함으로써, 누락된 파라미터들(219)(예를 들어, 도 7 내지 도 10)을 합성적으로 생성함으로써 달성될 수 있다. 불안정된 공간 이미지가 인지될 수 있으며, 특히 안정적이고 빠르게 전개되지 않는 것으로 고려되는 배경 노이즈 상에서 불쾌감을 준다. 반면에, 엄격하게 일정한 공간 이미지는 부자연스러운 것으로 인지될 수 있다. 상이한 전략들이 적용될 수 있다:
홀드 전략:
공간 이미지가 시간에 걸쳐 비교적 안정적이어야 한다고 고려하는 것이 일반적으로 안전하며, 그 공간 이미지는 DirAC 파라미터들, 즉 그들이 프레임들 사이에서 많이 변화되지 않는 DOA 및 확산에 대해 변환될 수 있다. 이러한 이유 때문에, 간단하지만 효과적인 접근법은 마지막으로 수신된 공간 파라미터들(316 및/또는 318)을 복구된 공간 파라미터들(219)로서 유지하는 것이다. 그것은 적어도, 장기 특성을 갖는 확산에 대해 매우 견고한 접근법이다. 그러나, 방향에 대해, 상이한 전략들이 아래에 열거된 바와 같이 예상될 수 있다.
방향의 외삽:
대안으로 또는 부가적으로, 오디오 장면에서 사운드 이벤트들의 궤적을 추정하고, 이어서, 추정된 궤적을 외삽하기 시도하는 것이 예상될 수 있다. 그것은, 사운드 이벤트가 낮은 확산에 의해 DirAC 모델에 반영되는 포인트 소스로서 공간에 매우 양호하게 로컬화되면 특히 관련있다. 추정된 궤적은 과거 방향들의 관찰들로부터 그리고 이들 포인트들 사이에 곡선을 피팅(fit)하여 계산될 수 있으며, 이는 보간 또는 평활화 중 어느 하나를 전개할 수 있다. 회귀 분석이 또한 사용될 수 있다. 이어서, 파라미터(219)의 외삽은 관찰된 데이터의 범위(예를 들어, 이전의 파라미터들(316 및/또는 318)을 포함함)를 넘어, 피팅된 곡선을 평가함으로써 수행될 수 있다. 그러나, 이러한 접근법은 배경 노이즈가 쓸모없고 크게 확산될 것으로 예상되는 비활성 프레임들(348)에 대해 덜 관련있을 수 있다.
방향의 디더링:
사운드 이벤트가 더 확산될 때(이는 특히 배경 노이즈에 대한 경우임), 방향들은 덜 의미가 있고, 스토캐스틱(stochastic) 프로세스의 실현으로 고려될 수 있다. 이어서, 디더링은 송신되지 않은 프레임들에 대해 그것을 사용하기 전에 이전의 방향들에 랜덤 노이즈를 주입함으로써, 렌더링된 음장을 더 자연스럽고 즐겁게 만드는 것을 도울 수 있다. 주입된 노이즈 및 그의 분산은 확산의 함수일 수 있다. 예를 들어, 방위각 및 고도에서의 주입된 노이즈들의 분산들
Figure pct00013
Figure pct00014
는 다음과 같이 확산
Figure pct00015
의 간단한 모델 함수를 따를 수 있다:
Figure pct00016
컴포트 노이즈 생성 및 공간화(디코더 측)
위에서 제공된 일부 예들이 이제 논의된다.
제1 실시예에서, 컴포트 노이즈 생성기(210(710))는 도 7에 묘사된 바와 같이 코어 디코더에서 행해진다. 결과적인 컴포트 노이즈들은 전송 채널들에 주입되고, 이어서, 송신된 비활성 공간 파라미터들(318)의 도움으로 또는 비송신의 경우에는, 이전에 설명된 바와 같이 추론된 공간 파라미터들(219)을 사용하여 DirAC 합성에서 공간화된다. 이어서, 공간화는 앞서 설명된 바와 같은 방식으로, 예를 들어 디코딩된 전송 채널들로부터 그리고 비활성 프레임들의 경우에는 전송 채널 컴포트 노이즈들로부터 도출되는 2개의 스트림들(방향성 및 비-방향성)을 생성함으로써 실현될 수 있다. 이어서, 2개의 스트림들은 공간 파라미터들(318)에 의존하여 블록(740)에서 함께 업믹싱 및 믹싱된다.
대안적으로, 컴포트 노이즈 또는 그 일부가 필터뱅크 도메인의 DirAC 합성 내에서 직접 생성될 수 있다. 실제로, DirAC는 전송 채널들(224), 공간 파라미터들(318, 316, 319), 및 일부 역상관기들(예를 들어, 730)의 도움으로, 되돌려진 장면의 코히어런스를 제어할 수 있다. 역상관기들(730)은 합성된 음장의 코히어런스를 감소시킬 수 있다. 이어서, 공간 이미지는 헤드폰 재생의 경우 더 큰 폭, 깊이, 확산, 잔향 또는 외재화(externalization)로 인지된다. 그러나, 역상관기들에는 종종 통상적인 가청 아티팩트들이 발생하기 쉬우며, 그들의 사용을 감소시키는 것이 바람직하다. 이는, 예를 들어 전송 채널들의 이미 존재하는 코히어런트하지 않은 컴포넌트를 활용함으로써 소위 공분산 합성 방법 [5]에 의해 달성될 수 있다. 그러나, 이러한 접근법은 특히, 모노포닉 전송 채널의 경우 제한들을 가질 수 있다.
랜덤 노이즈에 의해 생성된 컴포트 노이즈의 경우, 각각의 출력 채널들 또는 적어도 그들의 서브세트에 대해 전용 컴포트 노이즈를 생성하는 것이 유리하다. 더 구체적으로, 전송 채널들 상에 뿐만 아니라 공간 렌더러(DirAC 합성)(220)에서(그리고 믹싱 블록(740)에서) 사용되는 중간 오디오 채널들에 컴포트 노이즈 생성을 적용하는 것이 유리하다. 이어서, 확산 필드의 역상관은 역상관기들(730)을 사용하기보다는 상이한 노이즈 생성기들을 사용함으로써 직접적으로 주어질 것이며, 이는 아티팩트들의 양 뿐만 아니라 전체 복잡성을 낮출 수 있다. 실제로, 랜덤 노이즈의 상이한 실현들이 정의에 의해 역상관된다. 도 8 및 9는 공간 렌더러(220) 내에서 컴포트 노이즈를 완전히 또는 부분적으로 생성함으로써 이를 달성하는 2개의 방식들을 예시한다. 도 8에서, CN은 [5]에 설명된 바와 같이 주파수 도메인에서 행해지며, 그것은 필터뱅크 분석(720) 및 역상관기들(730) 둘 모두를 피하는 공간 렌더러의 필터뱅크 도메인을 이용하여 직접 생성될 수 있다. 여기서, 컴포트 노이즈가 생성되는 채널들의 수 K는 전송 채널들의 수인 M 이상이고, 출력 채널들의 수인 N 이하이다. 가장 간단한 경우, K=N이다.
도 9는 렌더러에 컴포트 노이즈 생성(810)을 포함하기 위한 다른 대안을 예시한다. 컴포트 노이즈 생성은 공간 렌더러(220)의 내부(710)와 외부(810) 사이에서 분할된다. 렌더러(220) 내의 컴포트 노이즈(228d)는 (가산기(920)에서) 최종 역상관기 출력(228a)에 추가된다. 예를 들어, 낮은 대역은 필요한 메모리들을 쉽게 업데이트할 수 있기 위해 코어 코더에서와 동일한 도메인에서 외부에 생성될 수 있다. 반면에, 컴포트 노이즈 생성은 고주파수들에 대해 렌더러에서 직접 수행될 수 있다.
추가로, 컴포트 노이즈 생성은 또한 활성 프레임들(346) 동안 적용될 수 있다. 활성 프레임들(346) 동안 컴포트 노이즈 생성을 완전히 스위칭 오프하는 대신에, 그의 강도를 감소시킴으로써 그것은 활성으로 유지될 수 있다. 이어서, 그것은 활성 및 비활성 프레임들 사이의 전환을 마스킹하여, 또한 코어 코더 및 파라메트릭 공간 오디오 모델 둘 모두의 아티팩트들 및 결함들을 마스킹하는 역할을 한다. 이는 모노포닉 스피치 코딩을 위해 [11]에서 제안되었다. 동일한 원리가 공간 스피치 코딩으로 확장될 수 있다. 도 10은 일 구현을 예시한다. 이러한 시간에, 공간 렌더러(220)에서의 컴포트 노이즈 생성들은 활성 및 비활성 페이즈 둘 모두 상에서 스위칭된다. 비활성 페이즈(348)에서, 그것은 전송 채널들에서 수행되는 컴포트 노이즈 생성에 상보적이다. 렌더러에서, 컴포트 노이즈는 M개의 전송 채널들 이상인 K개의 채널들 상에서 행해져서, 역상관기들의 사용을 감소시키는 것을 목적으로 한다. 공간 렌더러(220)에서의 컴포트 노이즈 생성은 전송 채널들의 업믹스 버전(228f)에 추가되며, 이는 K개의 채널들로의 M개의 채널들의 간단한 복사에 의해 달성될 수 있다.
양상들
인코더의 경우:
1. 오디오 장면을 설명하는 메타데이터를 갖는 다수의 채널들 또는 하나 또는 여러 개의 오디오 채널들을 갖는 공간 오디오 포맷을 인코딩하기 위한 오디오 인코더 장치(300)로서 다음 중 적어도 하나를 포함한다:
a. 공간 이미지, 및 하나 또는 여러 개의 전송 채널들을 포함하는 입력 신호(202)의 다운믹스 버전(326)을 설명하는 공간 파라미터들(318, 319)의 제1 세트 또는 제1 및 제2 세트들을 생성하도록 구성된 공간 오디오 입력 신호(302)의 장면 오디오 분석기(310) - 전송 채널들의 수는 입력 채널들의 수보다 적음 -;
b. 활성 페이즈(306)에서 전송 채널들을 포함하는 다운믹스된 신호(326)를 인코딩함으로써, 인코딩된 데이터(346)를 생성하도록 구성된 전송 채널 인코더 디바이스(340);
c. 비활성 페이즈(308)에서 전송 채널들(328)의 배경 노이즈의 무음 삽입 디스크립션(348)을 생성하기 위한 전송 채널 무음 삽입 디스크립터(350);
d. 활성 페이즈들(306) 동안 공간 파라미터들(318)의 제1 세트와 인코딩된 데이터(344)를 비트스트림(304)으로 결합하고, 데이터를 전송하지 않거나 무음 삽입 디스크립션(348)을 송신하거나, 또는 비활성 페이즈들(308) 동안 무음 삽입 디스크립션(348)과 공간 파라미터들(318)의 제2 세트를 전송하는 것을 결합하기 위한 멀티플렉서(370).
2. 1에 따른 오디오 인코더에 있어서, 장면 오디오 분석기(310)는 방향성 오디오 코딩(DirAC) 원리를 따른다.
3. 1에 따른 오디오 인코더에 있어서, 장면 오디오 분석기(310)는 하나 또는 여러 개의 전송 채널들(348)과 함께 입력 메타데이터를 해석한다.
4. 1에 따른 오디오 인코더에 있어서, 장면 오디오 분석기(310)는 입력 메타데이터로부터 파라미터들(316, 318)의 하나 또는 2개의 세트들을 도출했고, 하나 또는 여러 개의 입력 오디오 채널들로부터 전송 채널들을 도출했다.
5. 1에 따른 오디오 인코더에 있어서, 공간 파라미터들은 하나 또는 여러 개의 도달 방향들(DOA(들))(314b), 또는 확산(314a), 또는 하나 또는 여러 개의 코히어런스들 중 어느 하나이다.
6. 1에 따른 오디오 인코더에 있어서, 공간 파라미터들은 상이한 주파수 서브대역들에 대해 도출된다.
7. 1에 따른 오디오 인코더에 있어서, 전송 채널 인코더 장치는 CELP 원리를 따르거나, 또는 MDCT-기반 코딩 방식, 또는 2개의 방식들의 스위칭된 조합이다.
8. 1에 따른 오디오 인코더에 있어서, 활성 페이즈들(306) 및 비활성 페이즈들(308)은 전송 채널들 상에서 수행되는 음성 활동 검출기(320)에 의해 결정된다.
9. 1에 따른 오디오 인코더에 있어서, 공간 파라미터들(316, 318)의 제1 및 제2 세트들은 시간 또는 주파수 해상도, 또는 양자화 해상도, 또는 파라미터들의 속성이 상이하다.
10. 1에 따른 오디오 인코더에 있어서, 공간 오디오 입력 포맷(202)은 앰비소닉 포맷, 또는 B-포맷, 또는 주어진 라우드스피커 셋업에 연관된 다중-채널 신호, 또는 마이크로폰 어레이로부터 도출된 다중-채널 신호, 또는 메타데이터와 함께 개별 오디오 채널들의 세트, 또는 메타데이터-보조 공간 오디오이다.
11. 1에 따른 오디오 인코더에 있어서, 공간 오디오 입력 포맷은 2개 초과의 오디오 채널들로 이루어진다.
12. 1에 따른 오디오 인코더에 있어서, 전송 채널(들)의 수는 1, 2 또는 4이다(다른 수들이 선택될 수 있음).
디코더의 경우:
1. 비트스트림(304)으로부터 공간 오디오 출력 신호(202)를 생성하기 위해 비트스트림(304)을 디코딩하기 위한 오디오 디코더 장치(200)로서, 비트스트림(304)은 적어도 활성 페이즈(306), 뒤이어 적어도 비활성 페이즈(308)를 포함하고, 비트스트림은 전송/다운믹스 채널들(228)의 배경 노이즈 특성들 및/또는 공간 이미지 정보를 설명하는 적어도 무음 삽입 디스크립터 프레임(SID)(348)을 내부에서 인코딩했고, 오디오 디코더 장치(200)는 다음 중 적어도 하나를 포함한다:
a. 전송/다운믹스 채널들(228)에서 배경 노이즈를 재구성하기 위해 무음 SlD(348)를 디코딩하도록 구성된 무음 삽입 디스크립터 디코더(210);
b. 활성 페이즈(306) 동안 비트스트림(304)으로부터 전송/다운믹스 채널들(226)을 재구성하도록 구성된 디코딩 디바이스(230);
c. 활성 페이즈(306) 동안, 디코딩된 전송/다운믹스 채널들(224) 및 송신된 공간 파라미터들(316)로부터 그리고 비활성 페이즈(308) 동안 전송/다운믹스 채널들(228) 내의 재구성된 배경 노이즈로부터 공간 출력 신호(202)를 재구성(740)하도록 구성된 공간 렌더링 디바이스(220).
2. 1에 따른 오디오 디코더에 있어서, 활성 페이즈에서 송신된 공간 파라미터들(316)은 확산, 또는 도달 방향 또는 코히어런스로 이루어진다.
3. 1에 따른 오디오 디코더에 있어서, 공간 파라미터들(316, 318)은 주파수 서브-대역들에 의해 송신된다.
4. 1에 따른 오디오 디코더에 있어서, 무음 삽입 디스크립션(348)은 전송/다운믹스 채널들(228)의 배경 노이즈 특성들에 부가적으로 공간 파라미터들(318)을 포함한다.
5. 4에 따른 오디오 디코더에 있어서, SID(348)에서 송신된 파라미터들(318)은 확산, 또는 도달 방향 또는 코히어런스로 이루어질 수 있다.
6. 4에 따른 오디오 디코더에 있어서, SID(348)에서 송신된 공간 파라미터들(318, 348)은 주파수 서브-대역들에 의해 송신된다.
7. 4에 따른 오디오 디코더에 있어서, 활성 페이즈(346) 동안 그리고 SID(348)에서 송신되거나 인코딩된 공간 파라미터들(316, 318)은 상이한 주파수 해상도, 또는 시간 해상도, 또는 양자화 해상도 중 어느 하나를 갖는다.
8. 1에 따른 오디오 디코더에 있어서, 공간 렌더러(220)는 다음으로 이루어질 수 있다:
a. 디코딩된 전송/다운믹스 채널(들)(226) 및/또는 재구성된 배경 노이즈(228)의 역상관된 버전(228b)을 얻기 위한 역상관기(730);
b. 디코딩된 전송/다운믹스 채널(들)(226) 또는 재구성된 배경 노이즈(228) 및 그들의 역상관된 버전(228b)으로부터 그리고 공간 파라미터들(348)로부터 출력 신호들을 도출하기 위한 업믹서.
9. 8에 따른 오디오 디코더에 있어서, 공간 렌더러의 업믹서는 다음을 포함한다:
a. 무음 디스크립터들(448)에 설명되고 그리고/또는 활성 페이즈(346)에서 적용된 노이즈 추정에 의해 주어진 특성들을 갖는 적어도 2개의 역상관된 배경 노이즈들(228, 228a, 228d)을 생성하기 위한 적어도 2개의 노이즈 생성기들(710, 810).
10. 9에 따른 오디오 디코더에 있어서, 업믹서 내의 생성된 역상관된 배경 노이즈는 활성 페이즈에서 송신된 공간 파라미터들 및/또는 SID에 포함된 공간 파라미터들을 고려하여, 디코딩된 전송 채널들 또는 전송 채널들 내의 재구성된 배경 노이즈와 혼합된다.
11. 제1 양상 또는 제10 양상 중 어느 한 양상에 따른 오디오 디코더에 있어서, 디코딩 디바이스는 CELP와 같은 스피치 코더 또는 TCX와 같은 일반 오디오 코더 또는 대역폭 확장 모듈을 포함한다.
도면들의 추가적인 특성화
도 1: [1]로부터의 DirAC 분석 및 합성.
도 2: 낮은 비트-레이트 3D 오디오 코더에서의 DirAC 분석 및 합성의 상세한 블록도.
도 3: 디코더의 블록도.
도 4: DirAC 모드의 오디오 장면 분석기의 블록도.
도 5: MASA 입력 포맷에 대한 오디오 장면 분석기의 블록도.
도 6: 디코더의 블록도.
도 7: 렌더러 외부에 있는, 전송 채널들에서 CNG를 이용하는 공간 렌더러(DirAC 합성)의 블록도.
도 8: K개의 채널들(K>=M개의 전송 채널들)에 대해 렌더러의 필터뱅크 도메인에서 직접 수행되는 CNG를 이용하는 공간 렌더러(DirAC 합성)의 블록도.
도 9: 공간 렌더러의 외부 및 내부 둘 모두에서 수행되는 CNG를 이용하는 공간 렌더러(DirAC 합성)의 블록도.
도 10: 공간 렌더러의 외부 및 내부 둘 모두에서 수행되고 활성 및 비활성 프레임들 둘 모두에 대해 스위칭 온되는 CNG를 이용하는 공간 렌더러(DirAC 합성)의 블록도.
장점들
본 발명의 실시예들은 효율적인 방식으로 DTX를 파라메트릭 공간 오디오 코딩으로 확장시키는 것을 허용한다. 그것은 통신 대역폭 절약을 위해 송신이 중단될 수 있는 비활성 프레임들에 대해서도 높은 지각적 충실도로 배경 노이즈를 되돌릴 수 있다.
이를 위해, 전송 채널들의 SID는 배경 노이즈의 공간 이미지를 설명하기 위해 관련있는 비활성 공간 파라미터들에 의해 확장된다. 생성된 컴포트 노이즈는 렌더러(DirAC 합성)에 의해 공간화되기 전에 전송 채널들에 적용된다. 대안적으로, 품질의 개선을 위해, 렌더링 내에서 전송 채널들보다 더 많은 채널들에 CNG가 적용될 수 있다. 그것은 복잡성을 절감하고 역상관기 아티팩트들의 성가심을 감소시키는 것을 허용한다.
다른 양상들
이전에 논의된 바와 같은 모든 대안들 또는 양상들 및 다음의 양상들 내의 독립 양상들에 의해 정의된 바와 같은 모든 양상들이 개별적으로, 즉 고려된 대안, 오브젝트 또는 독립 양상 이외의 임의의 다른 대안 또는 오브젝트 없이 사용될 수 있다는 것이 본 명세서에서 언급되어야 한다. 그러나, 다른 실시예들에서, 대안들 또는 양상들 또는 독립 양상들 중 2개 이상은 서로 조합될 수 있고, 다른 실시예들에서, 모든 양상들, 또는 대안들 및 모든 독립 양상들이 서로 조합될 수 있다.
본 발명의 인코딩된 신호는, 디지털 저장 매체 또는 비-일시적인 저장 매체 상에 저장될 수 있거나, 무선 송신 매체와 같은 송신 매체 또는 인터넷과 같은 유선 송신 매체 상에서 송신될 수 있다.
일부 양상들이 장치의 맥락에서 설명되었지만, 이들 양상들이 또한 대응하는 방법의 설명을 표현한다는 것은 명확하며, 여기서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한, 대응하는 장치의 대응하는 블록 또는 항목 또는 특징부의 설명을 표현한다.
특정한 구현 요건들에 의존하여, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은, 각각의 방법이 수행되도록 프로그래밍가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 전자적으로 판독가능한 제어 신호들이 저장된 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있다.
본 발명에 따른 일부 실시예들은, 본 명세서에 설명된 방법들 중 하나가 수행되도록, 프로그래밍가능한 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는, 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 방법들 중 하나를 수행하기 위해 동작된다. 프로그램 코드는, 예를 들어, 머신 판독가능 캐리어 상에 저장될 수 있다.
다른 실시예들은, 머신 판독가능 캐리어 또는 비-일시적인 저장 매체 상에 저장되는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
따라서, 다시 말하면, 본 발명의 방법의 일 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법들의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램(데이터 캐리어 상에 레코딩되어 있음)을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다.
따라서, 본 발명의 방법의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는, 예를 들어, 데이터 통신 연결을 통해, 예를 들어, 인터넷을 통해 전달되도록 구성될 수 있다.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하도록 구성 또는 적응되는 프로세싱 수단, 예를 들어, 컴퓨터, 또는 프로그래밍가능 로직 디바이스를 포함한다.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시예들에서, 프로그래밍가능 로직 디바이스(예를 들어, 필드 프로그래밍가능 게이트 어레이)는, 본 명세서에 설명된 방법들의 기능들 중 일부 또는 모두를 수행하기 위해 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍가능 게이트 어레이는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
위에서 설명된 실시예들은 단지, 본 발명의 원리들에 대해 예시적일 뿐이다. 본 명세서에 설명된 배열들 및 세부사항들의 수정들 및 변경들이 당업자들에게는 명백할 것이라는 것이 이해된다. 따라서, 본 명세서의 실시예들의 설명 및 해설에 의해 제시된 특정 세부사항들이 아니라 임박한 특허 양상들의 범위에 의해서만 제한되는 것이 의도된다.
실시예들의 제1 세트 및 실시예들의 제2 세트에 대한 후속하여 정의된 양상들은 실시예들의 하나의 세트의 특정 특징들이 실시예들의 다른 세트에 포함될 수 있도록 결합될 수 있다.

Claims (37)

  1. 제1 프레임(306) 및 제2 프레임(308)을 갖는 오디오 신호(302)로부터, 인코딩된 오디오 장면(304)을 생성하기 위한 장치(300)로서,
    상기 제1 프레임(306) 내의 상기 오디오 신호(302)로부터 상기 제1 프레임(306)에 대한 제1 음장(soundfield) 파라미터 표현(316) 및 상기 제2 프레임(308) 내의 상기 오디오 신호(302)로부터 상기 제2 프레임(308)에 대한 제2 음장 파라미터 표현(318)을 결정하기 위한 음장 파라미터 생성기(310);
    상기 오디오 신호(302)에 의존하여, 상기 제1 프레임이 활성 프레임(304)이고 상기 제2 프레임이 비활성 프레임(306)이라고 결정하기 위해 상기 오디오 신호(302)를 분석하기 위한 활동 검출기(320);
    상기 활성 프레임(306)인 상기 제1 프레임에 대한 인코딩된 오디오 신호(346)를 생성하고, 상기 비활성 프레임(308)인 상기 제2 프레임에 대한 파라메트릭 디스크립션(parametric description)(348)을 생성하기 위한 오디오 신호 인코더(330); 및
    상기 제1 프레임(306)에 대한 제1 음장 파라미터 표현(316), 상기 제2 프레임(308)에 대한 제2 음장 파라미터 표현(318), 상기 제1 프레임(306)에 대한 인코딩된 오디오 신호(346), 및 상기 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 합침으로써, 상기 인코딩된 오디오 장면(304)을 구성하기 위한 인코딩된 신호 형성기(370)를 포함하는, 인코딩된 오디오 장면을 생성하기 위한 장치.
  2. 제1항에 있어서,
    상기 음장 파라미터 생성기(310)는, 상기 제1 음장 파라미터 표현(316) 또는 상기 제2 음장 파라미터 표현(318)이 청취자 위치에 대한 상기 오디오 신호(302)의 특성을 표시하는 파라미터를 포함하도록 상기 제1 음장 파라미터 표현(316) 또는 상기 제2 음장 파라미터 표현(318)을 생성하도록 구성되는, 인코딩된 오디오 장면을 생성하기 위한 장치.
  3. 제1항 또는 제2항에 있어서,
    상기 제1 또는 제2 음장 파라미터 표현(316)은 상기 제1 프레임(306)에서의 청취자 위치에 대한 사운드의 방향을 표시하는 하나 이상의 방향 파라미터들, 또는 상기 제1 프레임(306)에서의 직접 사운드에 대한 확산 사운드의 일부를 표시하는 하나 이상의 확산 파라미터들, 또는 상기 제1 프레임(306)에서의 직접 사운드와 확산 사운드의 에너지 비율을 표시하는 하나 이상의 에너지 비율 파라미터들, 또는 상기 제1 프레임(306)에서의 채널-간/서라운드 코히어런스(coherence) 파라미터를 포함하는, 인코딩된 오디오 장면을 생성하기 위한 장치.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 음장 파라미터 생성기(310)는 상기 오디오 신호의 상기 제1 프레임(306) 또는 상기 제2 프레임(308)으로부터 복수의 개별 사운드 소스들을 결정하고, 각각의 사운드 소스에 대해 파라메트릭 디스크립션(348)을 결정하도록 구성되는, 인코딩된 오디오 장면을 생성하기 위한 장치.
  5. 제4항에 있어서,
    상기 음장 생성기(310)는 상기 제1 프레임(306) 또는 상기 제2 프레임(308)을 복수의 주파수 빈들로 분해하고 - 각각의 주파수 빈은 개별 사운드 소스를 표현함 -, 각각의 주파수 빈에 대해 적어도 하나의 음장 파라미터를 결정하도록 구성되며, 상기 음장 파라미터는 예시적으로, 방향 파라미터, 도달 방향 파라미터, 확산 파라미터, 에너지 비율 파라미터, 또는 청취자 위치에 대한 상기 오디오 신호의 상기 제1 프레임(306)에 의해 표현된 음장의 특성을 표현하는 임의의 파라미터를 포함하는, 인코딩된 오디오 장면을 생성하기 위한 장치.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 제1 프레임(306) 및 상기 제2 프레임(308)에 대한 상기 오디오 신호는 청취자에 대한 음장을 표현하는 복수의 컴포넌트들을 갖는 입력 포맷을 포함하며,
    상기 음장 파라미터 생성기(310)는, 예를 들어 상기 복수의 컴포넌트들의 다운믹스(downmix)를 사용하여 상기 제1 프레임(306) 및 상기 제2 프레임(308)에 대한 하나 이상의 전송 채널들을 계산하고, 상기 하나 이상의 전송 채널들에 관련된 제1 파라미터 표현을 결정하기 위해 상기 입력 포맷을 분석하도록 구성되거나, 또는
    상기 음장 파라미터 생성기(310)는, 예를 들어 상기 복수의 컴포넌트들의 다운믹스를 사용하여 하나 이상의 전송 채널들을 계산하도록 구성되고,
    상기 활동 검출기(320)는 상기 제2 프레임(308) 내의 상기 오디오 신호로부터 도출된 하나 이상의 전송 채널들을 분석하도록 구성되는, 인코딩된 오디오 장면을 생성하기 위한 장치.
  7. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 제1 프레임(306) 또는 상기 제2 프레임(308)에 대한 상기 오디오 신호는 상기 제1 프레임 및 상기 제2 프레임의 각각의 프레임에 대해 각각의 프레임과 연관된 하나 이상의 전송 채널들 및 메타데이터를 갖는 입력 포맷을 포함하며,
    상기 음장 파라미터 생성기(310)는 상기 제1 프레임(306) 및 상기 제2 프레임(308)으로부터 상기 메타데이터를 판독하고, 상기 제1 프레임(306)에 대한 메타데이터를 상기 제1 음장 파라미터 표현(316)으로서 사용 또는 프로세싱하고, 상기 제2 프레임(308)의 메타데이터를 프로세싱하여 상기 제2 음장 파라미터 표현(318)을 획득하도록 구성되고, 상기 제2 음장 파라미터 표현(318)을 획득하기 위한 프로세싱은 상기 제2 프레임(308)에 대한 메타데이터의 송신을 위해 요구되는 정보 유닛들의 양이 상기 프로세싱 전에 요구되는 양에 대해 감소되도록 이루어지는, 인코딩된 오디오 장면을 생성하기 위한 장치.
  8. 제7항에 있어서,
    상기 음장 파라미터 생성기(310)는 상기 제2 프레임(308)에 대한 메타데이터를 프로세싱하여, 상기 메타데이터 내의 정보 항목들의 수를 감소시키거나 또는 상기 메타데이터 내의 정보 항목들을 시간 해상도 또는 주파수 해상도와 같은 더 낮은 해상도로 리샘플링하거나, 또는 재양자화 이전의 상황에 대해 상기 제2 프레임(308)에 대한 메타데이터의 정보 유닛들을 더 개략적인 표현으로 재양자화하도록 구성되는, 인코딩된 오디오 장면을 생성하기 위한 장치.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 오디오 신호 인코더(330)는 상기 비활성 프레임에 대한 무음(silence) 정보 디스크립션을 상기 파라메트릭 디스크립션(348)으로서 결정하도록 구성되며,
    상기 무음 정보 디스크립션은 예시적으로, 진폭-관련 정보, 예컨대 상기 제2 프레임(308)에 대한 에너지, 전력 또는 라우드니스(loudness), 및 형상화 정보, 예컨대 스펙트럼 형상화 정보, 또는 상기 제2 프레임(308)에 대한 진폭-관련 정보, 예컨대 에너지, 전력, 또는 라우드니스, 및 상기 제2 프레임(308)에 대한 선형 예측 코딩(LPC) 파라미터들, 또는 상이한 스케일 파라미터들이 상이한 폭들을 갖는 주파수 대역들을 지칭하도록, 변하는 연관된 주파수 해상도를 갖는 상기 제2 프레임(308)에 대한 스케일 파라미터들을 포함하는, 인코딩된 오디오 장면을 생성하기 위한 장치.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 오디오 신호 인코더(330)는 상기 제1 프레임(306)에 대해 시간 도메인 또는 주파수 도메인 인코딩 모드를 사용하여 상기 오디오 신호를 인코딩하도록 구성되며, 상기 인코딩된 오디오 신호는, 예를 들어 인코딩된 시간 도메인 샘플들, 인코딩된 스펙트럼 도메인 샘플들, 인코딩된 LPC 도메인 샘플들, 및 예를 들어, 다운믹싱 동작에 의해 상기 오디오 신호의 컴포넌트들로부터 획득되거나 또는 상기 오디오 신호의 컴포넌트들로부터 도출된 하나 이상의 전송 채널들로부터 획득된 사이드 정보(side information)를 포함하는, 인코딩된 오디오 장면을 생성하기 위한 장치.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 오디오 신호(302)는 1차 앰비소닉(Ambisonics) 포맷, 고차 앰비소닉 포맷, 5.1 또는 7.1 또는 7.1 + 4와 같은 주어진 라우드스피커 셋업과 연관된 다중-채널 포맷인 입력 포맷, 또는 연관된 메타데이터에 포함된 정보에 의해 표시된 공간에 로컬화된 하나 또는 여러 개의 상이한 오디오 오브젝트들을 표현하는 하나 이상의 오디오 채널들, 또는 메타데이터 연관된 공간 오디오 표현인 입력 포맷을 포함하며,
    상기 음장 파라미터 생성기(310)는 파라미터들이 정의된 청취자 위치에 대한 음장을 표현하도록 상기 제1 음장 파라미터 표현(316) 및 상기 제2 음장 표현을 결정하도록 구성되거나, 또는
    상기 오디오 신호는 실제 마이크로폰 또는 가상 마이크로폰에 의해 픽업(pick up)된 마이크로폰 신호 또는, 예를 들어 1차 앰비소닉 포맷 또는 고차 앰비소닉 포맷인 합성적으로 생성된 마이크로폰 신호를 포함하는, 인코딩된 오디오 장면을 생성하기 위한 장치.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 활동 검출기(320)는 상기 제2 프레임(308) 및 상기 제2 프레임(308)에 후속하는 하나 이상의 프레임들에 걸쳐 비활동 페이즈를 검출하도록 구성되며,
    상기 오디오 신호 인코더(330)는 프레임들의 시간 시퀀스에 대해 상기 제2 프레임(308)으로부터 적어도 하나의 프레임만큼 분리된 추가적인 제3 프레임에 대해서만 비활성 프레임에 대한 추가적인 파라메트릭 디스크립션(348)을 생성하도록 구성되고,
    상기 음장 파라미터 생성기(310)는 상기 오디오 신호 인코더(330)가 파라메트릭 디스크립션을 결정했던 프레임에 대해서만 추가적인 음장 파라미터 표현을 결정하도록 구성되거나, 또는
    활동 검출기(320)는 상기 제2 프레임(308) 및 상기 제2 프레임(308)에 후속하는 8개의 프레임들을 포함하는 비활성 페이즈를 결정하도록 구성되고, 상기 오디오 신호 인코더(330)는 매 8번째 프레임에서만 비활성 프레임에 대한 파라메트릭 디스크립션을 생성하도록 구성되고, 상기 음장 파라미터 생성기(310)는 각각의 8번째 비활성 프레임에 대한 음장 파라미터 표현을 생성하도록 구성되거나, 또는
    상기 음장 파라미터 생성기(310)는 상기 오디오 신호 인코더(330)가 비활성 프레임에 대한 파라메트릭 디스크립션을 생성하지 않을 때에도 각각의 비활성 프레임에 대한 음장 파라미터 표현을 생성하도록 구성되거나, 또는
    상기 음장 파라미터 생성기(310)는 상기 오디오 신호 인코더(330)가 하나 이상의 비활성 프레임들에 대한 파라메트릭 디스크립션을 생성하는 것보다 높은 프레임 레이트를 갖는 파라미터 표현을 결정하도록 구성되는, 인코딩된 오디오 장면을 생성하기 위한 장치.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서,
    상기 음장 파라미터 생성기(310)는,
    주파수 대역들에서의 하나 이상의 방향들에 대한 공간 파라미터들 및 총 에너지에 대한 하나의 방향 컴포넌트의 비율에 대응하는 주파수 대역들에서의 연관된 에너지 비율들을 사용하여, 또는
    확산 사운드 또는 직접 사운드의 비율을 표시하는 확산 파라미터를 결정하기 위해, 또는
    상기 제1 프레임(306)에서의 양자화와 비교하여 더 개략적인 양자화 방식을 사용하여 방향 정보를 결정하기 위해, 또는
    더 개략적인 시간 또는 주파수 해상도를 획득하기 위해 시간 또는 주파수에 걸친 방향의 평균을 사용하여, 또는
    활성 프레임에 대한 상기 제1 음장 파라미터 표현(316)에서와 동일한 주파수 해상도를 갖고, 상기 비활성 프레임에 대한 음장 파라미터 표현에서의 방향 정보에 대해 활성 프레임들에 대한 시간 발생보다 낮은 시간 발생을 갖는 하나 이상의 비활성 프레임들에 대한 음장 파라미터 표현을 결정하기 위해, 또는
    확산 파라미터를 갖는 상기 제2 음장 파라미터 표현(318)을 결정하기 위해 - 상기 확산 파라미터는 활성 프레임들에 대한 것과 동일한 시간 또는 주파수 해상도로, 그러나 더 개략적인 양자화로 송신됨 -, 또는
    비트들의 제1 수로 상기 제2 음장 표현에 대한 확산 파라미터를 양자화하기 위해 - 각각의 양자화 인덱스의 비트들의 제2 수만이 송신되고, 상기 비트들의 제2 수는 상기 비트들의 제1 수보다 작음 -, 또는
    상기 제2 음장 파라미터 표현(318)에 대해, 상기 오디오 신호가 공간 도메인에 위치된 채널들에 대응하는 입력 채널들을 갖는다면 채널-간 코히어런스 또는 상기 오디오 신호가 상기 공간 도메인에 위치된 채널들에 대응하는 입력 채널들을 갖는다면 채널-간 레벨 차이들을 결정하기 위해, 또는
    상기 오디오 신호에 의해 표현되는 음장에서 코히어런트한 확산 에너지의 비율로서 정의되는 서라운드 코히어런스를 결정하기 위해,
    상기 제2 프레임(308)에 대한 제2 음장 파라미터 표현(318)을 결정하도록 구성되는, 인코딩된 오디오 장면을 생성하기 위한 장치.
  14. 제1 프레임(346)에 제1 음장 파라미터 표현(316) 및 인코딩된 오디오 신호(346)를 포함하는 인코딩된 오디오 장면(304)을 프로세싱하기 위한 장치(200)로서,
    제2 프레임(348)은 비활성 프레임이며,
    상기 장치는,
    상기 제2 프레임(348)이 상기 비활성 프레임이라는 것을 검출하기 위한 활동 검출기(2200);
    상기 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 사용하여 상기 제2 프레임(308)에 대한 합성 오디오 신호(228)를 합성하기 위한 합성 신호 합성기(210);
    상기 제1 프레임(306)에 대한 상기 인코딩된 오디오 신호(346)를 디코딩하기 위한 오디오 디코더(230); 및
    상기 제1 음장 파라미터 표현(316)을 사용하여 그리고 상기 제2 프레임(308)에 대한 합성 오디오 신호(228)를 사용하여 상기 제1 프레임(306)에 대한 오디오 신호(202)를 공간적으로 렌더링하기 위한 공간 렌더러(240), 또는
    상기 제1 프레임(306)에 대한 오디오 신호(346), 상기 제1 프레임(306)에 대한 제1 음장 파라미터 표현(316), 상기 제2 프레임(308)에 대한 합성 오디오 신호(228), 및 상기 제2 프레임(308)에 대한 제2 음장 파라미터 표현(318)을 포함하는 메타 데이터 보조 출력 포맷을 생성하기 위한 트랜스코더를 포함하는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  15. 제14항에 있어서,
    상기 인코딩된 오디오 장면(304)은 상기 제2 프레임(308)에 대해 제2 음장 파라미터 디스크립션(318)을 포함하며, 상기 장치는 상기 제2 음장 파라미터 표현(318)으로부터 하나 이상의 음장 파라미터들(219, 318)을 도출하기 위한 음장 파라미터 프로세서(275, 1075)를 포함하고, 상기 공간 렌더러(220)는 상기 제2 프레임(308)에 대한 합성 오디오 신호(228)의 렌더링을 위해, 상기 제2 프레임(308)에 대한 하나 이상의 음장 파라미터들을 사용하도록 구성되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  16. 제14항에 있어서,
    상기 제2 프레임(308)에 대한 하나 이상의 음장 파라미터들(219, 318)을 도출하기 위한 파라미터 프로세서(275, 1075)를 포함하며,
    상기 파라미터 프로세서(275, 1075)는, 상기 제1 프레임(306)에 대한 음장 파라미터 표현을 저장하고, 상기 제1 프레임(306)에 대한 저장된 제1 음장 파라미터 표현(316)을 사용하여 상기 제2 프레임(308)에 대한 하나 이상의 음장 파라미터들을 합성하도록 구성되고, 상기 제2 프레임(308)은 시간상 상기 제1 프레임(306)에 후속하거나, 또는
    상기 파라미터 프로세서(275, 1075)는, 상기 제2 프레임(308)에 대한 하나 이상의 음장 파라미터들을 결정하기 위해 여러 개의 프레임들에 대한 하나 이상의 음장 파라미터 표현들 중 적어도 2개의 음장 파라미터 표현들을 사용하여 외삽 또는 보간하기 위하여 상기 제2 프레임(308) 전의 시간에 발생하거나 상기 제2 프레임(308)에 후속하는 시간에 발생하는 여러 개의 프레임들에 대한 하나 이상의 음장 파라미터 표현들(318)을 저장하도록 구성되고,
    상기 공간 렌더러는 상기 제2 프레임(308)에 대한 합성 오디오 신호(228)의 렌더링을 위해 상기 제2 프레임(308)에 대한 하나 이상의 음장 파라미터들을 사용하도록 구성되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  17. 제16항에 있어서,
    상기 파라미터 프로세서(275)는, 상기 제2 프레임(308)에 대한 하나 이상의 음장 파라미터들을 결정하기 위해 외삽 또는 보간할 때, 상기 제2 프레임(308) 이전 또는 이후의 시간에 발생하는 상기 적어도 2개의 음장 파라미터 표현들에 포함된 방향들로 디더링(dithering)을 수행하도록 구성되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  18. 제14항 내지 제17항 중 어느 한 항에 있어서,
    상기 인코딩된 오디오 장면(304)은 상기 제1 프레임(306)에 대한 하나 이상의 전송 채널들(326)을 포함하며,
    상기 합성 신호 생성기(210)는 상기 제2 프레임(308)에 대한 하나 이상의 전송 채널들(228)을 상기 합성 오디오 신호(228)로서 생성하도록 구성되고,
    상기 공간 렌더러(220)는 상기 제2 프레임(308)에 대한 하나 이상의 전송 채널들(228)을 공간적으로 렌더링하도록 구성되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  19. 제14항 내지 제18항 중 어느 한 항에 있어서,
    상기 합성 신호 생성기(210)는 상기 제2 프레임(308)에 대해, 상기 공간 렌더러의 오디오 출력 포맷에 관련된 개별 컴포넌트들에 대한 복수의 합성 컴포넌트 오디오 신호들을 상기 합성 오디오 신호(228)로서 생성하도록 구성되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  20. 제19항에 있어서,
    상기 합성 신호 생성기(210)는 상기 오디오 출력 포맷(202)에 관련된 적어도 2개의 개별 컴포넌트들(228a, 228b)의 서브세트 중 적어도 하나의 개별 컴포넌트에 대해 적어도 개별 합성 컴포넌트 오디오 신호를 생성하도록 구성되며,
    제1 개별 합성 컴포넌트 오디오 신호(228a)는 제2 개별 합성 컴포넌트 오디오 신호(228b)로부터 역상관(decorrelate)되고,
    상기 공간 렌더러는 상기 제1 개별 합성 컴포넌트 오디오 신호(228a)와 상기 제2 개별 합성 컴포넌트 오디오 신호(228b)의 조합을 사용하여 상기 오디오 출력 포맷(202)의 컴포넌트를 렌더링하도록 구성되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  21. 제20항에 있어서,
    상기 공간 렌더러(220)는 공분산(covariance) 방법을 적용하도록 구성되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  22. 제21항에 있어서,
    상기 공간 렌더러(220)는, 상기 공분산 방법에 의해 표시된 역상관기 프로세싱(730)에 의해 생성되는 역상관된 신호들(228a)의 양만이 상기 오디오 출력 포맷(202)의 컴포넌트를 생성하는데 사용되도록 임의의 역상관기 프로세싱을 사용하지 않거나 상기 역상관기 프로세싱(730)을 제어하도록 구성되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  23. 제14항 내지 제22항 중 어느 한 항에 있어서,
    상기 합성 신호 생성기(210, 710, 810)는 컴포트 노이즈(comfort noise) 생성기인, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  24. 제20항 내지 제23항 중 어느 한 항에 있어서,
    상기 합성 신호 생성기(210)는 노이즈 생성기를 포함하며, 상기 제1 개별 합성 컴포넌트 오디오 신호는 상기 노이즈 생성기의 제1 샘플링에 의해 생성되고, 상기 제2 개별 합성 컴포넌트 오디오 신호는 상기 노이즈 생성기의 제2 샘플링에 의해 생성되고, 상기 제2 샘플링은 상기 제1 샘플링과 상이한, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  25. 제24항에 있어서,
    상기 노이즈 생성기는 노이즈 테이블을 포함하고, 상기 제1 개별 합성 컴포넌트 오디오 신호는 상기 노이즈 테이블의 제1 부분을 취함으로써 생성되고, 상기 제2 개별 합성 컴포넌트 오디오 신호는 상기 노이즈 테이블의 제2 부분을 취함으로써 생성되고, 상기 노이즈 테이블의 제2 부분은 상기 노이즈 테이블의 제1 부분과 상이하거나, 또는
    상기 노이즈 생성기는 의사(pseudo) 노이즈 생성기를 포함하고, 상기 제1 개별 합성 컴포넌트 오디오 신호는 상기 의사 노이즈 생성기에 대한 제1 시드(seed)를 사용함으로써 생성되고, 상기 제2 개별 합성 컴포넌트 오디오 신호는 상기 의사 노이즈 생성기에 대한 제2 시드를 사용하여 생성되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  26. 제14항 내지 제25항 중 어느 한 항에 있어서,
    상기 인코딩된 오디오 장면(304)은 상기 제1 프레임(306)에 대해 2개 이상의 전송 채널들(326)을 포함하며,
    상기 합성 신호 생성기(210, 710, 810)는, 노이즈 생성기를 포함하고, 상기 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 사용하여, 상기 노이즈 생성기(810)를 샘플링함으로써 제1 전송 채널 및 상기 노이즈 생성기(810)를 샘플링함으로써 제2 전송 채널을 생성하도록 구성되고, 상기 노이즈 생성기(180)를 샘플링함으로써 결정된 상기 제1 전송 채널 및 상기 제2 전송 채널은 상기 제2 프레임(308)에 대해 동일한 파라메트릭 디스크립션(348)을 사용하여 가중되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  27. 제14항 내지 제26항 중 어느 한 항에 있어서,
    상기 공간 렌더러(220)는,
    상기 제1 음장 파라미터 표현(316)의 제어 하에서 직접 신호와 상기 직접 신호로부터 역상관기(730)에 의해 생성된 확산 신호의 믹싱을 사용하여 상기 제1 프레임(306)에 대한 제1 모드에서, 그리고
    제1 합성 컴포넌트 신호와 제2 합성 컴포넌트 신호의 믹싱을 사용하여 상기 제2 프레임(308)에 대한 제2 모드에서
    동작하도록 구성되며,
    상기 제1 합성 컴포넌트 신호 및 상기 제2 합성 컴포넌트 신호는 노이즈 프로세스 또는 의사 노이즈 프로세스의 상이한 실현들에 의해 상기 합성 신호 합성기(210)에 의해 생성되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  28. 제27항에 있어서,
    상기 공간 렌더러(220)는 파라미터 프로세서에 의해 상기 제2 프레임(308)에 대해 도출된 확산 파라미터, 에너지 분포 파라미터, 또는 코히어런스 파라미터에 의해 상기 제2 모드에서 믹싱(740)을 제어하도록 구성되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  29. 제14항 내지 제28항 중 어느 한 항에 있어서,
    상기 합성 신호 생성기(210)는 상기 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 사용하여 상기 제1 프레임(306)에 대한 합성 오디오 신호(228)를 생성하도록 구성되며,
    상기 공간 렌더러는 상기 공간 렌더링 이전 또는 이후 상기 제1 프레임(306)에 대한 오디오 신호와 상기 제1 프레임(306)에 대한 합성 오디오 신호(228)의 가중된 조합을 수행하도록 구성되고, 상기 가중된 조합에서, 상기 제1 프레임(306)에 대한 합성 오디오 신호(228)의 세기는 상기 제2 프레임(308)에 대한 합성 오디오 신호(228)의 세기에 대해 감소되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  30. 제14항 내지 제29항 중 어느 한 항에 있어서,
    파라미터 프로세서(275, 1075)는 제2 비활성 프레임(308)에 대해, 상기 제2 프레임(308)에 의해 표현되는 음장에서 코히어런트한 확산 에너지의 비율로서 정의되는 서라운드 코히어런스를 결정하도록 구성되고, 상기 공간 렌더러는 사운드 코히어런스에 기초하여 상기 제2 프레임(308)에서 직접 및 확산 신호들 사이에 에너지를 재분배하도록 구성되고, 사운드 서라운드 코히어런트 컴포넌트들의 에너지는 방향 컴포넌트들로 재분배되기 위해 상기 확산 에너지로부터 제거되고, 상기 방향 컴포넌트들은 재생 공간에서 패닝(pan)되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  31. 제14항 내지 제18항 중 어느 한 항에 있어서,
    상기 공간 렌더러에 의해 생성된 오디오 출력 포맷을, 미리 정의된 위치들에 배치될 라우드스피커들에 대해 전용인 다수의 출력 채널들을 포함하는 출력 포맷과 같은 트랜스코딩된 출력 포맷 또는 FOA 또는 HOA 데이터를 포함하는 트랜스코딩된 출력 포맷으로 변환하기 위한 출력 인터페이스를 더 포함하거나, 또는
    상기 공간 렌더러 대신에, 상기 트랜스코더는 상기 제1 프레임(306)에 대한 오디오 신호, 상기 제1 프레임(306)에 대한 제1 음장 파라미터들, 및 상기 제2 프레임(308)에 대한 합성 오디오 신호(228) 및 상기 제2 프레임(308)에 대한 제2 음장 파라미터 표현(318)을 포함하는 메타 데이터 보조 출력 포맷을 생성하기 위해 제공되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  32. 제14항 내지 제31항 중 어느 한 항에 있어서,
    상기 활동 검출기(2200)는 상기 제2 프레임(348)이 상기 비활성 프레임이라는 것을 검출하도록 구성되는, 인코딩된 오디오 장면을 프로세싱하기 위한 장치.
  33. 제1 프레임(306) 및 제2 프레임(308)을 갖는 오디오 신호로부터, 인코딩된 오디오 장면을 생성하는 방법으로서,
    상기 제1 프레임(306) 내의 상기 오디오 신호로부터 상기 제1 프레임(306)에 대한 제1 음장 파라미터 표현(316) 및 상기 제2 프레임(308) 내의 상기 오디오 신호로부터 상기 제2 프레임(308)에 대한 제2 음장 파라미터 표현(318)을 결정하는 단계;
    상기 오디오 신호에 의존하여, 상기 제1 프레임(306)이 활성 프레임이고 상기 제2 프레임(308)이 비활성 프레임이라고 결정하기 위해 상기 오디오 신호를 분석하는 단계;
    상기 활성 프레임인 상기 제1 프레임(306)에 대한 인코딩된 오디오 신호를 생성하고, 상기 비활성 프레임인 상기 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 생성하는 단계; 및
    상기 제1 프레임(306)에 대한 제1 음장 파라미터 표현(316), 상기 제2 프레임(308)에 대한 제2 음장 파라미터 표현(318), 상기 제1 프레임(306)에 대한 인코딩된 오디오 신호, 및 상기 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 합침으로써, 상기 인코딩된 오디오 장면(304)을 구성하는 단계를 포함하는, 인코딩된 오디오 장면을 생성하는 방법.
  34. 제1 프레임(346)에 제1 음장 파라미터 표현(316) 및 인코딩된 오디오 신호를 포함하는 인코딩된 오디오 장면을 프로세싱하는 방법으로서,
    제2 프레임(308)은 비활성 프레임이며,
    상기 방법은,
    상기 제2 프레임(308)이 상기 비활성 프레임이라는 것을 검출하는 단계;
    상기 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 사용하여 상기 제2 프레임(308)에 대한 합성 오디오 신호(228)를 합성하는 단계;
    상기 제1 프레임(306)에 대한 상기 인코딩된 오디오 신호를 디코딩하는 단계; 및
    상기 제1 음장 파라미터 표현(316)을 사용하여 그리고 상기 제2 프레임(308)에 대한 합성 오디오 신호(228)를 사용하여 상기 제1 프레임(306)에 대한 오디오 신호를 공간적으로 렌더링하거나, 또는 상기 제1 프레임(306)에 대한 오디오 신호, 상기 제1 프레임(306)에 대한 제1 음장 파라미터 표현(316), 상기 제2 프레임(308)에 대한 합성 오디오 신호(228), 및 상기 제2 프레임(308)에 대한 제2 음장 파라미터 표현(318)을 포함하는 메타 데이터 보조 출력 포맷을 생성하는 단계를 포함하는, 인코딩된 오디오 장면을 프로세싱하는 방법.
  35. 제34항에 있어서,
    상기 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 제공하는 단계를 더 포함하는, 인코딩된 오디오 장면을 프로세싱하는 방법.
  36. 인코딩된 오디오 장면(304)으로서,
    제1 프레임(306)에 대한 제1 음장 파라미터 표현(316);
    제2 프레임(308)에 대한 제2 음장 파라미터 표현(318);
    상기 제1 프레임(306)에 대한 인코딩된 오디오 신호; 및
    상기 제2 프레임(308)에 대한 파라메트릭 디스크립션(348)을 포함하는, 인코딩된 오디오 장면.
  37. 컴퓨터 또는 프로세서 상에서 실행될 때, 제33항 또는 제34항의 방법을 수행하기 위한, 컴퓨터 프로그램.
KR1020237006968A 2020-07-30 2021-05-31 오디오 신호를 인코딩하거나 인코딩된 오디오 장면을 디코딩하기 위한 장치, 방법 및 컴퓨터 프로그램 KR20230049660A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20188707 2020-07-30
EP20188707.2 2020-07-30
PCT/EP2021/064576 WO2022022876A1 (en) 2020-07-30 2021-05-31 Apparatus, method and computer program for encoding an audio signal or for decoding an encoded audio scene

Publications (1)

Publication Number Publication Date
KR20230049660A true KR20230049660A (ko) 2023-04-13

Family

ID=71894727

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237006968A KR20230049660A (ko) 2020-07-30 2021-05-31 오디오 신호를 인코딩하거나 인코딩된 오디오 장면을 디코딩하기 위한 장치, 방법 및 컴퓨터 프로그램

Country Status (12)

Country Link
US (1) US20230306975A1 (ko)
EP (1) EP4189674A1 (ko)
JP (1) JP2023536156A (ko)
KR (1) KR20230049660A (ko)
CN (1) CN116348951A (ko)
AU (2) AU2021317755B2 (ko)
BR (1) BR112023001616A2 (ko)
CA (1) CA3187342A1 (ko)
MX (1) MX2023001152A (ko)
TW (2) TW202347316A (ko)
WO (1) WO2022022876A1 (ko)
ZA (1) ZA202301024B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051955A1 (en) 2022-09-09 2024-03-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata
WO2024051954A1 (en) 2022-09-09 2024-03-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder and encoding method for discontinuous transmission of parametrically coded independent streams with metadata
WO2024056701A1 (en) * 2022-09-13 2024-03-21 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive stereo parameter synthesis
CN116368460A (zh) * 2023-02-14 2023-06-30 北京小米移动软件有限公司 音频处理方法、装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
CN103180899B (zh) * 2010-11-17 2015-07-22 松下电器(美国)知识产权公司 立体声信号的编码装置、解码装置、编码方法及解码方法
HUE054452T2 (hu) * 2011-07-01 2021-09-28 Dolby Laboratories Licensing Corp Rendszer és eljárás adaptív hangjel elõállítására, kódolására és renderelésére
MX340634B (es) * 2012-09-11 2016-07-19 Ericsson Telefon Ab L M Generacion de confort acustico.
US9502045B2 (en) * 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
CN110556120B (zh) * 2014-06-27 2023-02-28 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CA3011915C (en) * 2016-01-22 2021-07-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
KR102480710B1 (ko) * 2016-09-28 2022-12-22 후아웨이 테크놀러지 컴퍼니 리미티드 다중 채널 오디오 신호 처리 방법, 장치 및 시스템
EP3815082B1 (en) * 2018-06-28 2023-08-02 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive comfort noise parameter determination
CN109448741B (zh) * 2018-11-22 2021-05-11 广州广晟数码技术有限公司 一种3d音频编码、解码方法及装置

Also Published As

Publication number Publication date
WO2022022876A1 (en) 2022-02-03
TWI794911B (zh) 2023-03-01
CA3187342A1 (en) 2022-02-03
MX2023001152A (es) 2023-04-05
BR112023001616A2 (pt) 2023-02-23
CN116348951A (zh) 2023-06-27
TW202230333A (zh) 2022-08-01
AU2021317755B2 (en) 2023-11-09
AU2023286009A1 (en) 2024-01-25
TW202347316A (zh) 2023-12-01
EP4189674A1 (en) 2023-06-07
JP2023536156A (ja) 2023-08-23
ZA202301024B (en) 2024-04-24
AU2021317755A1 (en) 2023-03-02
US20230306975A1 (en) 2023-09-28

Similar Documents

Publication Publication Date Title
US20230410819A1 (en) Apparatus and Method for encoding or Decoding Directional Audio Coding Parameters Using Different Time/Frequency Resolutions
EP2535892B1 (en) Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
TWI794911B (zh) 用以編碼音訊信號或用以解碼經編碼音訊場景之設備、方法及電腦程式
RU2406165C2 (ru) Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
AU2014295216A1 (en) Apparatus and method for enhanced spatial audio object coding
US11854560B2 (en) Audio scene encoder, audio scene decoder and related methods using hybrid encoder-decoder spatial analysis
KR20160033734A (ko) 렌더러 제어 공간 업믹스
JP2023546851A (ja) 複数の音声オブジェクトをエンコードする装置および方法、または2つ以上の関連する音声オブジェクトを使用してデコードする装置および方法
JP2023546850A (ja) ダウンミックス中に方向情報を使用して複数の音声オブジェクトをエンコードするための装置および方法、または最適化された共分散合成を使用してデコードするための装置および方法
CN114008704A (zh) 编码已缩放空间分量
RU2809587C1 (ru) Устройство, способ и компьютерная программа для кодирования звукового сигнала или для декодирования кодированной аудиосцены
JP2023548650A (ja) 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
JP2023549038A (ja) パラメータ変換を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
JP2023549033A (ja) パラメータ平滑化を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム

Legal Events

Date Code Title Description
A201 Request for examination