KR20230133341A - 공간 오디오 파라미터들의 변환 - Google Patents

공간 오디오 파라미터들의 변환 Download PDF

Info

Publication number
KR20230133341A
KR20230133341A KR1020237027800A KR20237027800A KR20230133341A KR 20230133341 A KR20230133341 A KR 20230133341A KR 1020237027800 A KR1020237027800 A KR 1020237027800A KR 20237027800 A KR20237027800 A KR 20237027800A KR 20230133341 A KR20230133341 A KR 20230133341A
Authority
KR
South Korea
Prior art keywords
spatial audio
direction parameter
audio direction
quantized
parameter
Prior art date
Application number
KR1020237027800A
Other languages
English (en)
Inventor
아드리아나 바실라케
Original Assignee
노키아 테크놀로지스 오와이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 테크놀로지스 오와이 filed Critical 노키아 테크놀로지스 오와이
Publication of KR20230133341A publication Critical patent/KR20230133341A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

특히, 둘 이상의 오디오 신호들에 대해, 공간 오디오 재생을 제공하기 위한 제1 공간 오디오 방향 파라미터 및 제2 공간 오디오 방향 파라미터를 결정하고; 제1 공간 오디오 방향 파라미터를 양자화하고(301); 반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하고(303); 변환된 제2 공간 오디오 방향 파라미터와 양자화된 제1 공간 오디오 방향 파라미터 사이의 차이를 결정하고(305); 그리고 차이를 양자화하도록(307) 구성되는 공간 오디오 인코딩을 위한 장치가 개시된다.

Description

공간 오디오 파라미터들의 변환
본 출원은 음장(sound-field) 관련 파라미터 인코딩(parameter encoding)을 위한 장치 및 방법들에 관한 것이지만, 오디오 인코더 및 디코더를 위한 시간-주파수 도메인(domain) 방향 관련 파라미터 인코딩에만 국한되는 것은 아니다.
파라메트릭(parametric) 공간 오디오 프로세싱은 사운드(sound)의 공간적 양상이 파라미터들의 세트를 사용하여 설명되는 오디오 신호 프로세싱 분야이다. 예컨대, 마이크 어레이(microphone array)들로부터의 파라메트릭 공간 오디오 캡처에서, 마이크 어레이 신호들로부터 주파수 대역들의 사운드 방향들과 같은 파라미터들의 세트와 주파수 대역들에서 캡처된 사운드의 방향성 및 비방향성 부분들 사이의 비들을 추정하는 것이 통상적이고 효과적인 선택이다. 이러한 파라미터들은 마이크 어레이의 포지션에서 캡처된 사운드의 지각 공간 속성들을 잘 설명하는 것으로 알려져 있다. 이러한 파라미터들은 입체 음향 헤드폰(headphone binaurally)들, 확성기들, 또는 앰비소닉(Ambisonic)들과 같은 다른 포맷들에 따라 공간 사운드의 합성에 이용될 수 있다.
따라서, 주파수 대역들의 방향들 및 직접-총 에너지 비(direct-to-total energy ratio)들은 공간 오디오 캡처에 특히 효과적인 파라미터화 방식(parameterization)이다.
주파수 대역들의 방향 파라미터와 주파수 대역들의 에너지 비 파라미터(사운드의 방향성을 표시함)로 구성된 파라미터 세트는 또한, 오디오 코덱에 대한 공간 메타데이터(이는 또한 서라운드 코히어런스(surround coherence), 확산 코히어런스(spread coherence), 방향들의 수, 거리 등과 같은 다른 파라미터들을 포함할 수 있음)로 이용될 수 있다. 예컨대, 이러한 파라미터들은 마이크 어레이 캡처 오디오 신호들로부터 추정될 수 있고, 예컨대, 스테레오 또는 모노 신호는 공간 메타데이터와 함께 전달될 마이크 어레이 신호들로부터 생성될 수 있다. 예컨대, 스테레오 신호는 AAC 인코더로 인코딩될 수 있고, 모노 신호는 EVS 인코더로 인코딩될 수 있다. 디코더는 오디오 신호들을 PCM 신호들로 디코딩하고, (공간 메타데이터 사용하여) 주파수 대역들에서 사운드를 프로세싱하여 공간 출력, 예컨대, 바이노럴(binaural) 출력을 획득할 수 있다.
전술된 솔루션(solution)은 마이크 어레이들로부터(예컨대, 모바일 폰들, VR 카메라들, 독립형 마이크 어레이들에서) 캡처된 공간 사운드를 인코딩하는 데 특히 적합하다. 그러나, 그러한 인코더는 마이크 어레이 캡처 신호들 이외의 다른 입력 타입들, 예컨대, 확성기 신호들, 오디오 오브젝트(object) 신호들, 또는 앰비소닉 신호들을 또한 갖는 것이 바람직할 수 있다.
공간 메타데이터 추출을 위한 1차 앰비소닉(FOA: first-order Ambisonics) 입력들을 분석하는 것은 방향성 오디오 코딩(DirAC: Directional Audio Coding) 및 조화 평면파 확장(Harpex: Harmonic planewave expansion)과 관련된 과학 문헌에 철저히 문서화되어 있다. 이는 FOA 신호(더 정확하게는, 변형된 B-포맷 신호)를 직접 제공하는 마이크 어레이들이 존재하고, 따라서 그러한 입력을 분석하는 것이 이 분야에서의 연구 포인트이기 때문이다. 게다가, 다방향 공간 메타데이터 추출을 위한 고차 앰비소닉(HOA: higher-order Ambisonics) 입력의 분석은 또한 고차 방향성 오디오 코딩(HO-DirAC: higher-order directional audio coding)과 관련된 과학 문헌에 문서화되어 있다.
인코더에 대한 추가적인 입력은 또한, 5.1 또는 7.1 채널 서라운드 입력들 및 오디오 오브젝트들과 같은 다중 채널 확성기 입력이다.
그러나, 공간 메타데이터의 컴포넌트(component)들과 관련하여, 공간 오디오 파라미터들의 압축 및 인코딩은 공간 오디오 파라미터들을 표현하는 데 필요한 전체 비트 수를 최소화하기 위해 상당한 관심을 끌고 있다.
제1 양상에 따르면, 둘 이상의 오디오 신호들에 대해, 공간 오디오 재생을 제공하기 위한 제1 공간 오디오 방향 파라미터 및 제2 공간 오디오 방향 파라미터를 결정하는 단계; 제1 공간 오디오 방향 파라미터를 양자화하는 단계; 반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하는 단계; 변환된 제2 공간 오디오 방향 파라미터와 양자화된 제1 공간 오디오 방향 파라미터 사이의 차이를 결정하는 단계; 및 차이를 양자화하는 단계를 포함하는 공간 오디오 인코딩을 위한 방법이 존재한다.
반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하는 단계, 변환된 제2 공간 오디오 방향과 양자화된 제1 공간 오디오 방향 사이의 차이를 결정하는 단계, 및 차이를 양자화하는 단계는, 둘 이상의 오디오 신호들에 대한 제1 직접-총 에너지 비 파라미터가 사전 결정된 임계 값 초과인 것에 따라 조건부일 수 있다.
대안적으로, 반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하는 단계, 변환된 제2 공간 오디오 방향과 양자화된 제1 공간 오디오 방향 사이의 차이를 결정하는 단계, 및 차이를 양자화하는 단계는, 양자화된 제1 공간 오디오 방향 파라미터를 양자화하는 데 사용되는 비트 수가 사전 결정된 임계 값을 초과하는 것에 따라 조건부일 수 있다.
반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향을 변환하는 단계는, 제2 공간 오디오 방향 파라미터를 180 도 각도 회전시키는 단계를 포함할 수 있다.
제2 공간 오디오 방향 파라미터는 방위각 값을 포함할 수 있고, 제1 공간 오디오 방향 파라미터는 방위각 값을 포함한다.
반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향을 변환하는 단계는 제2 공간 오디오 방향 파라미터의 방위각 값을 180 도로 변환하는 단계를 포함할 수 있고, 변환된 제2 공간 오디오 방향과 양자화된 제1 공간 오디오 방향 사이의 차이를 결정하는 단계는 제2 공간 오디오 방향 파라미터의 변환된 방위각 값과 양자화된 제1 공간 오디오 방향 파라미터의 양자화된 방위각 값 사이의 차이를 결정하는 단계를 포함할 수 있다.
제1 공간 오디오 파라미터는 둘 이상의 오디오 신호들의 주파수 서브대역(sub band) 및 시간 서브프레임(sub frame)에서 제1 음원(sound source) 방향과 연관될 수 있고, 제2 공간 오디오 파라미터는 둘 이상의 오디오 신호들의 주파수 서브대역 및 시간 서브프레임에서 제2 음원 방향과 연관된다.
제2 양상에 따르면, 변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하는 단계 ― 양자화된 차이는 변환된 제2 공간 오디오 방향 파라미터와 양자화된 제1 공간 오디오 방향 파라미터 사이의 양자화된 차이임 ― ; 및 반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하는 단계를 포함하는 공간 오디오 디코딩을 위한 방법이 존재한다.
변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하는 단계 및 반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하는 단계는, 제1 직접-총 에너지 비 파라미터가 사전 결정된 임계 값 초과인 것에 따라 조건부일 수 있다.
대안적으로, 변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하는 단계 및 반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하는 단계는, 양자화된 제1 공간 오디오 방향 파라미터를 양자화하는 데 사용되는 비트 수가 사전 결정된 임계 값을 초과하는 것에 따라 조건부일 수 있다.
반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향을 변환하는 단계는, 제2 공간 오디오 방향 파라미터를 180 도 각도 회전시키는 단계를 포함할 수 있다.
제2 공간 오디오 방향 파라미터는 방위각 값을 포함할 수 있고, 제1 공간 오디오 방향 파라미터는 방위각 값을 포함할 수 있다.
반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향을 변환하는 단계는 제2 공간 오디오 방향 파라미터의 방위각 값을 180 도로 변환하는 단계를 포함할 수 있고, 변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하는 단계는, 양자화된 제1 공간 오디오 방향 파라미터의 양자화된 방위각 값에 양자화된 차이를 추가하는 단계를 포함할 수 있다.
제3 양상에 따르면, 둘 이상의 오디오 신호들에 대해, 공간 오디오 재생을 제공하기 위한 제1 공간 오디오 방향 파라미터 및 제2 공간 오디오 방향 파라미터를 결정하기 위한 수단; 제1 공간 오디오 방향 파라미터를 양자화하기 위한 수단; 반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단; 변환된 제2 공간 오디오 방향 파라미터와 양자화된 제1 공간 오디오 방향 파라미터 사이의 차이를 결정하기 위한 수단; 및 차이를 양자화하기 위한 수단을 포함하는 공간 오디오 인코딩을 위한 장치가 제공된다.
반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단, 변환된 제2 공간 오디오 방향과 양자화된 제1 공간 오디오 방향 사이의 차이를 결정하기 위한 수단, 및 차이를 양자화하기 위한 수단은, 둘 이상의 오디오 신호들에 대한 제1 직접-총 에너지 비 파라미터가 사전 결정된 임계 값 초과인 것에 따라 조건부일 수 있다.
반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단, 변환된 제2 공간 오디오 방향과 양자화된 제1 공간 오디오 방향 사이의 차이를 결정하기 위한 수단, 및 차이를 양자화하기 위한 수단은, 양자화된 제1 공간 오디오 방향 파라미터를 양자화하는 데 사용되는 비트 수가 사전 결정된 임계 값을 초과하는 것에 따라 조건부일 수 있다.
반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향을 변환하기 위한 수단은, 제2 공간 오디오 방향 파라미터를 180 도 각도 회전시키기 위한 수단을 포함할 수 있다.
제2 공간 오디오 방향 파라미터는 방위각 값을 포함할 수 있고, 제1 공간 오디오 방향 파라미터는 방위각 값을 포함할 수 있다.
반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향을 변환하기 위한 수단은 제2 공간 오디오 방향 파라미터의 방위각 값을 180 도로 변환하기 위한 수단을 포함할 수 있고, 변환된 제2 공간 오디오 방향과 양자화된 제1 공간 오디오 방향 사이의 차이를 결정하기 위한 수단은 제2 공간 오디오 방향 파라미터의 변환된 방위각 값과 양자화된 제1 공간 오디오 방향 파라미터의 양자화된 방위각 값 사이의 차이를 결정하기 위한 수단을 포함할 수 있다.
제1 공간 오디오 파라미터는 둘 이상의 오디오 신호들의 주파수 서브대역 및 시간 서브프레임에서 제1 음원 방향과 연관될 수 있고, 제2 공간 오디오 파라미터는 둘 이상의 오디오 신호들의 주파수 서브대역 및 시간 서브프레임에서 제2 음원 방향과 연관될 수 있다.
제4 양상에 따르면, 변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하기 위한 수단 ― 양자화된 차이는 변환된 제2 공간 오디오 방향 파라미터와 양자화된 제1 공간 오디오 방향 파라미터 사이의 양자화된 차이임 ― ; 및 반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단을 포함하는 공간 오디오 디코딩을 위한 장치가 제공된다.
변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하기 위한 수단 및 반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단은, 제1 직접-총 에너지 비 파라미터가 사전 결정된 임계 값 초과인 것에 따라 조건부일 수 있다.
대안적으로, 변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하기 위한 수단 및 반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단은, 양자화된 제1 공간 오디오 방향 파라미터를 양자화하는 데 사용되는 비트 수가 사전 결정된 임계 값을 초과하는 것에 따라 조건부일 수 있다.
반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향을 변환하기 위한 수단은, 제2 공간 오디오 방향 파라미터를 180 도 각도 회전시키기 위한 수단을 포함할 수 있다.
제2 공간 오디오 방향 파라미터는 방위각 값을 포함할 수 있고, 제1 공간 오디오 방향 파라미터는 방위각 값을 포함할 수 있다.
반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향을 변환하기 위한 수단은 제2 공간 오디오 방향 파라미터의 방위각 값을 180 도로 변환하기 위한 수단을 포함할 수 있고, 변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하기 위한 수단은, 양자화된 제1 공간 오디오 방향 파라미터의 양자화된 방위각 값에 양자화된 차이를 추가하기 위한 수단을 포함할 수 있다.
제5 양상에 따르면, 적어도 하나의 프로세서 및 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하는 공간 오디오 인코딩을 위한 장치가 존재하며, 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는, 둘 이상의 오디오 신호들에 대해, 공간 오디오 재생을 제공하기 위한 제1 공간 오디오 방향 파라미터 및 제2 공간 오디오 방향 파라미터를 결정하고; 제1 공간 오디오 방향 파라미터를 양자화하고; 반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하고; 변환된 제2 공간 오디오 방향 파라미터와 양자화된 제1 공간 오디오 방향 파라미터 사이의 차이를 결정하고; 그리고 차이를 양자화하도록 구성된다.
제6 양상에 따르면, 적어도 하나의 프로세서 및 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하는 공간 오디오 디코딩을 위한 장치가 존재하며, 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는, 변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하고 ― 양자화된 차이는 변환된 제2 공간 오디오 방향 파라미터와 양자화된 제1 공간 오디오 방향 파라미터 사이의 양자화된 차이임 ― ; 그리고 반대 공간 오디오 방향을 갖도록 제2 공간 오디오 방향 파라미터를 변환하도록 구성된다.
매체에 저장된 컴퓨터 프로그램 제품은, 장치로 하여금, 본원에 설명된 바와 같은 방법을 수행하게 할 수 있다.
전자 디바이스는 본원에 설명된 바와 같은 장치를 포함할 수 있다.
칩셋은 본원에 설명된 바와 같은 장치를 포함할 수 있다.
본 출원의 실시예들은 최신 기술과 연관된 문제들을 해결하는 것을 목적으로 한다.
본 출원의 더 나은 이해를 위해, 이제 예로서 첨부된 도면들에 대한 참조가 이루어질 것이다.
도 1은 일부 실시예들을 구현하기에 적합한 장치의 시스템을 개략적으로 도시한다.
도 2는 일부 실시예들에 따른 메타데이터 인코더를 개략적으로 도시한다.
도 3은 일부 실시예들에 따른 도 2에 도시된 바와 같은 메타데이터 인코더의 동작의 흐름 다이어그램을 도시한다.
도 4는 도시된 장치를 구현하기에 적합한 예시적인 디바이스를 개략적으로 도시한다.
다음의 설명은 메타데이터 파라미터들이 유도되는 효과적인 공간 분석을 제공하기 위한 적합한 장치 및 가능한 메커니즘들을 더 상세하게 설명한다. 다음의 논의들에서, 다중 채널 시스템은 다중 채널 마이크 구현과 관련하여 논의된다. 그러나, 위에서 논의된 바와 같이, 입력 포맷은 다중 채널 확성기, 앰비소닉(FOA/HOA) 등과 같은 임의의 적합한 입력 포맷일 수 있다. 일부 실시예들에서, 채널 위치는 마이크의 위치에 기초하거나 또는 가상 위치 또는 방향이라는 것을 이해한다. 게다가, 예시적인 시스템의 출력은 다중 채널 확성기 배열이다. 그러나, 출력은 확성기들 이외의 수단을 통해 사용자에게 렌더링될 수 있다는 것을 이해해야 한다. 게다가, 다중 채널 확성기 신호들은 둘 이상의 재생 오디오 신호들로 일반화될 수 있다. 그러한 시스템은 현재 몰입형 음성 및 오디오 서비스(IVAS: Immersive Voice and Audio Service)로서 3GPP 표준화 기구에 의해 표준화되고 있다. IVAS는 기존 및 추후 모바일(셀룰러) 및 고정 회선 네트워크들을 통해 몰입형 음성 및 오디오 서비스들을 용이하게 하기 위해 기존 3GPP 향상된 음성 서비스(EVS: Enhanced Voice Service) 코덱을 확장하기 위한 것으로 의도된다. IVAS의 응용예는 3GPP 4세대(4G) 및 5세대(5G) 네트워크들을 통해 몰입형 음성 및 오디오 서비스들을 제공하는 것일 수 있다. 또한, EVS에 대한 확장인 IVAS 코덱은 오디오 및 스피치 콘텐츠(speech content)가 인코딩되어 재생을 위해 파일에 저장되는 저장 및 전달 애플리케이션들에 사용될 수 있다. IVAS는 오디오 및 스피치 신호들의 샘플들을 코딩하는 기능을 갖는 다른 오디오 및 음성 코딩 기술들과 함께 사용될 수 있다는 것을 이해할 것이다.
메타데이터는 적어도, 각각의 고려되는 시간-주파수(TF) 블록 또는 타일(다시 말해서, 시간/주파수 하위 대역)에 대해, 구형 방향들(고도(elevation), 방위각(azimuth)), 결과 방향의 적어도 하나의 에너지 비, 확산 코히어런스, 및 방향과 무관한 서라운드 코히어런스로 구성된다. 전체적으로, IVAS는 각각의 시간-주파수(TF) 타일에 대한 다수의 상이한 타입들의 메타데이터 파라미터들을 가질 수 있다. IVAS에 대한 메타데이터를 구성하는 공간 오디오 파라미터들의 타입들이 아래의 표 1에 도시된다.
분야  비트들  설명 

방향 인덱스 

16 
시간-주파수 파라미터 인터벌(interval)로 사운드가 도달하는 방향. 약 1 도 정확도의 구형 표현.
값들의 범위: "약 1° 정확도로 모든 방향들을 커버" 

직접-총 에너지 비 

8 
방향 인덱스(즉, 시간-주파수 서브프레임)에 대한 에너지 비.
방향 에너지 / 총 에너지로서 계산됨.
값들의 범위: [0.0, 1.0] 


확산 코히어런스 


8 
방향 인덱스(즉, 시간-주파수 서브프레임)에 대한 에너지의 확산.
포인트 소스(point source)로서 재생되거나 또는 방향을 중심으로 코히어런트하게(coherently) 재생될 방향을 정의.
값들의 범위: [0.0, 1.0] 


확산-총 에너지 비

8 
서라운딩(surrounding) 방향들에 대한 비방향성 사운드의 에너지 비.
비방향성 사운드의 에너지 / 총 에너지로서 계산됨.
값들의 범위: [0.0, 1.0]
(파라미터는 제공된 방향들의 수와 무관.) 
서라운드 코히어런스
8 
서라운딩 방향들에 대한 비방향성 사운드의 코히어런스.
값들의 범위: [0.0, 1.0]
(파라미터는 제공된 방향들의 수와 무관.) 


나머지-총 에너지 비


8 
에너지 비들의 합이 1이라는 요건을 충족하기 위한 나머지(이를테면, 마이크 노이즈(noise)) 사운드 에너지의 에너지 비가 1임.
나머지 사운드의 에너지 / 총 에너지로서 계산됨.
값들의 범위: [0.0, 1.0]
(파라미터는 제공된 방향들의 수와 무관.) 


거리 


8 
로그 스케일에서 미터 단위의 방향 인덱스(즉, 시간-주파수 서브프레임들)로부터 발신되는 사운드의 거리.
값들의 범위: 예컨대, 0 내지 100 m.
(주로 향후 확장들을 위해 의도되는 특징, 예컨대, 6DoF 오디오) 
이 데이터는 디코더에서 공간 신호를 재구성할 수 있도록 인코더에 의해 인코딩 및 송신(또는 저장)될 수 있다.
더욱이, 일부 경우들에서, 메타데이터 보조 공간 오디오(MASA: metadata assisted spatial audio)는 위의 파라미터들이 TF 타일별 각각의 방향에 대해 인코딩 및 송신될 필요가 있을 각각의 TF 타일에 대해 최대 두 개의 방향들을 지원할 수 있다. 그에 의해, 표 1에 따라 필요한 비트레이트(bit rate)가 두 배로 증가된다. 또한, 다른 MASA 시스템들이 TF 타일당 두 개 초과의 방향들을 지원할 수 있다는 것을 예측하기 쉽다.
실제 몰입형 오디오 통신 코덱에서 메타데이터에 배정된 비트레이트는 크게 변할 수 있다. 코덱의 통상적인 전체 동작 비트레이트들은 공간 메타데이터의 송신/저장을 위해 2 내지 10 kbps만을 남길 수 있다. 그러나, 일부 추가적인 구현들은 공간 메타데이터의 송신/저장을 위해 최대 30 kbps 이상을 허용할 수 있다. 코히어런스 데이터의 인코딩과 함께 방향 파라미터들 및 에너지 비 컴포넌트들의 인코딩이 이전에 검사되었다. 그러나, 공간 메타데이터에 할당된 송신/저장 비트 레이트가 무엇이든 간에, 특히 TF 타일이 공간 오디오 장면에서 상이한 음원들에 대응하는 다수의 방향들을 지원할 수 있을 때, 이러한 파라미터들을 표현하기 위해 가능한 한 적은 비트들을 사용하는 것이 항상 필요할 것이다.
이후에 논의되는 바와 같은 개념은 (TF 타일별) 각각의 음원과 연관된 방향 파라미터를 동일한 방향을 가리키도록 변환함으로써 공간 오디오 방향 파라미터들을 양자화하는 효율성을 개선하는 것이다.
이와 관련하여, 도 1은 애플리케이션의 실시예를 구현하기 위한 예시적인 장치 및 시스템을 묘사한다. 시스템(100)은 '분석' 부분(121) 및 '합성' 부분(131)으로 도시된다. '분석' 부분(121)은 다중 채널 확성기 신호들을 수신하는 것부터 메타데이터 및 다운믹스 신호의 인코딩까지의 부분이고, '합성' 부분(131)은 인코딩된 메타데이터 및 다운믹스 신호의 디코딩으로부터 재생성된 신호(예컨대, 다중 채널 확성기 형태)의 표현까지의 부분이다.
시스템(100) 및 '분석' 부분(121)에 대한 입력은 다중 채널 신호들(102)이다. 다음의 예들에서, 마이크 채널 신호 입력이 설명되지만, 임의의 적합한 입력(또는 합성 다중 채널) 포맷이 다른 실시예들로 구현될 수 있다. 예컨대, 일부 실시예들에서, 공간 분석기 및 공간 분석은 인코더 외부에서 구현될 수 있다. 예컨대, 일부 실시예들에서, 오디오 신호들과 연관된 공간 메타데이터는 인코더에 별도의 비트스트림으로서 제공될 수 있다. 일부 실시예들에서, 공간 메타데이터는 공간(방향) 인덱스 값들의 세트로서 제공될 수 있다. 메타데이터 기반 오디오 입력 포맷의 예들이 존재한다.
다중 채널 신호들은 전송 신호 생성기(103) 및 분석 프로세서(105)로 전달된다.
일부 실시예들에서, 전송 신호 생성기(103)는, 다중 채널 신호들을 수신하도록 그리고 결정된 수의 채널들을 포함하는 적합한 전송 신호를 생성하여 전송 신호들(104)을 출력하도록 구성된다. 예컨대, 전송 신호 생성기(103)는 다중 채널 신호들의 2-오디오 채널 다운믹스를 생성하도록 구성될 수 있다. 결정된 채널 수는 임의의 적합한 채널 수일 수 있다. 일부 실시예들에서, 전송 신호 생성기는 예컨대, 빔형성 기법들에 의해, 입력 오디오 신호들을 결정된 수의 채널들로 다른 방식으로 선택하거나 또는 결합하고 그리고 이들을 전송 신호들로서 출력하도록 구성된다.
일부 실시예들에서, 전송 신호 생성기(103)는 선택적이고, 다중 채널 신호들은 전송 신호가 이 예에서 그러한 것과 동일한 방식으로 프로세싱되지 않은 상태로 인코더(107)로 전달된다.
일부 실시예들에서, 분석 프로세서(105)는 또한, 다중 채널 신호들을 수신하고 신호들을 분석하여 다중 채널 신호들과 연관되고 따라서 전송 신호들(104)과 연관된 메타데이터(106)를 생성하도록 구성된다. 분석 프로세서(105)는 각각의 시간-주파수 분석 인터벌에 대해 방향 파라미터(108) 및 에너지 비 파라미터(110) 및 코히어런스 파라미터(112)(및 일부 실시예들에서는 확산 파라미터)를 포함할 수 있는 메타데이터를 생성하도록 구성될 수 있다. 일부 실시예들에서, 방향, 에너지 비, 및 코히어런스 파라미터들은 공간 오디오 파라미터들인 것으로 간주될 수 있다. 다시 말해서, 공간 오디오 파라미터들은 다중 채널 신호들(또는 일반적으로 둘 이상의 오디오 신호들)에 의해 생성/캡처된 음장을 특성화하는 것을 목표로 하는 파라미터들을 포함한다.
일부 실시예들에서, 생성된 파라미터들은 주파수 대역마다 상이할 수 있다. 따라서, 예컨대, 대역 X에서는 모든 파라미터들이 생성 및 송신되는 반면, 대역 Y에서는 파라미터들 중 하나만이 생성 및 송신되고, 게다가, 대역 Z에서는 어떠한 파라미터들도 생성 또는 송신되지 않는다. 이것의 실질적인 예는, 가장 높은 대역과 같은 일부 주파수 대역들의 경우 파라미터들 중 일부가 지각상의 이유들로 필요하지 않다는 것이다. 전송 신호들(104) 및 메타데이터(106)는 인코더(107)로 전달될 수 있다.
인코더(107)는 전송(예컨대, 다운믹스) 신호들(104)을 수신하고 이러한 오디오 신호들의 적합한 인코딩을 생성하도록 구성되는 오디오 인코더 코어(109)를 포함할 수 있다. 인코더(107)는 일부 실시예들에서 컴퓨터(메모리 및 적어도 하나의 프로세서 상에 저장된 적합한 소프트웨어를 실행함)일 수 있거나, 또는 대안적으로 예컨대, FPGA들 또는 ASIC들을 이용하는 특정 디바이스일 수 있다. 인코딩은 임의의 적합한 방식을 사용하여 구현될 수 있다. 게다가, 인코더(107)는, 메타데이터를 수신하고 정보의 인코딩 또는 압축된 형태를 출력하도록 구성되는 메타데이터 인코더/양자화기(111)를 포함할 수 있다. 일부 실시예들에서, 인코더(107)는 추가로 인터리빙(interleave)하거나, 단일 데이터 스트림으로 멀티플렉싱(multiplex)하거나, 또는 도 1에 파선으로 도시된 송신 또는 저장 이전에 인코딩된 다운믹스 신호들 내에 메타데이터를 임베딩(embed)할 수 있다. 멀티플렉싱은 임의의 적합한 방식을 사용하여 구현될 수 있다.
디코더 측에서, 수신 또는 검색된 데이터(스트림)는 디코더/디멀티플렉서(demultiplexer)(133)에 의해 수신될 수 있다. 디코더/디멀티플렉서(133)는 인코딩된 스트림들을 디멀티플렉싱(demultiplex)하고, 오디오 인코딩된 스트림을 전송 추출기(135)로 전달할 수 있으며, 이는 오디오 신호들을 디코딩하여 전송 신호들을 획득하도록 구성된다. 유사하게, 디코더/디멀티플렉서(133)는, 인코딩된 메타데이터를 수신하고 메타데이터를 생성하도록 구성되는 메타데이터 추출기(137)를 포함할 수 있다. 디코더/디멀티플렉서(133)는 일부 실시예들에서 컴퓨터(메모리 및 적어도 하나의 프로세서 상에 저장된 적합한 소프트웨어를 실행함)일 수 있거나, 또는 대안적으로 예컨대, FPGA들 또는 ASIC들을 이용하는 특정 디바이스일 수 있다.
디코딩된 메타데이터 및 전송 오디오 신호들은 합성 프로세서(139)로 전달될 수 있다.
시스템(100) '합성' 부분(131)은 추가로, 전송 및 메타데이터를 수신하고 전송 신호들 및 메타데이터에 기초하여 다중 채널 신호들(110)의 형태로 합성된 공간 오디오를 임의의 적합한 포맷으로 재생성하도록 구성되는 합성 프로세서(139)를 도시한다(이들은 사용 사례 또는 실제로 MASA 포맷에 따라 다중 채널 확성기 포맷 또는 일부 실시예들에서는 바이노럴 또는 앰비소닉 신호들과 같은 임의의 적합한 출력 포맷일 수 있음).
따라서, 요약하면, 먼저, 시스템(분석 부분)은 다중 채널 오디오 신호들을 수신하도록 구성된다.
그런 다음, 시스템(분석 부분)은 (예컨대, 오디오 신호 채널들 중 일부를 선택하거나 또는 다운믹싱(downmix)함으로써) 적합한 전송 오디오 신호 및 공간 오디오 파라미터들을 메타데이터로서 생성하도록 구성된다.
그런 다음, 시스템은 전송 신호 및 메타데이터를 저장/송신하기 위해 인코딩하도록 구성된다.
그 후 시스템은 인코딩된 전송 신호 및 메타데이터를 저장/송신할 수 있다.
시스템은 인코딩된 전송 신호 및 메타데이터를 검색/수신할 수 있다.
그런 다음, 시스템은 인코딩된 전송 신호 및 메타데이터 파라미터들로부터 전송 신호 및 메타데이터를 추출하도록 구성되며, 예컨대, 인코딩된 전송 신호 및 메타데이터 파라미터들을 디멀티플렉싱 및 디코딩하도록 구성된다.
시스템(합성 부분)은 추출된 전송 오디오 신호들 및 메타데이터에 기초하여 출력 다중 채널 오디오 신호를 합성하도록 구성된다.
도 2와 관련하여, 일부 실시예들에 따른 예시적인 분석 프로세서(105) 및 메타데이터 인코더/양자화기(111)(도 1에 도시되는 바와 같음)가 더 상세하게 설명된다.
도 1 및 도 2는 메타데이터 인코더/양자화기(111) 및 분석 프로세서(105)를 함께 커플링(couple)되어 있는 것으로 묘사한다. 그러나, 일부 실시예들은 이 두 개의 개개의 프로세싱 엔티티들을 너무 엄격하게(tightly) 커플링하지 않아 분석 프로세서(105)가 메타데이터 인코더/양자화기(111)와 상이한 디바이스 상에 존재할 수 있다는 것을 이해해야 한다. 결과적으로, 메타데이터 인코더/양자화기(111)를 포함하는 디바이스에는 캡처 및 분석 프로세스와 무관하게 프로세싱 및 인코딩을 위해 전송 신호들 및 메타데이터 스트림들이 제공될 수 있다.
일부 실시예들에서, 분석 프로세서(105)는 시간-주파수 도메인 변환기(201)를 포함한다.
일부 실시예들에서, 시간-주파수 도메인 변환기(201)는, 다중 채널 신호들(102)을 수신하고, 입력 시간 도메인 신호들을 적합한 시간-주파수 신호들로 컨버팅(convert)하기 위해 적합한 시간을 단시간 푸리에 변환(STFT: Short Time Fourier Transform)와 같은 주파수 도메인 변환에 적용하도록 구성된다. 이러한 시간-주파수 신호들은 공간 분석기(203)로 전달될 수 있다.
따라서, 예컨대, 시간-주파수 신호들(202)은,
에 의해 시간-주파수 도메인 표현으로 표현될 수 있으며, 여기서 b는 주파수 빈 인덱스이고, n은 시간-주파수 블록(프레임) 인덱스이며, i는 채널 인덱스이다. 다른 표현으로, n은 원래 시간-도메인 신호들보다 샘플링 레이트가 낮은 시간 인덱스로 간주될 수 있다. 이러한 주파수 빈들은 빈들 중 하나 이상을 대역 인덱스 k = 0,..., K-1의 서브대역(sub band)으로 그룹화하는 서브대역들로 그룹화될 수 있다. 각각의 서브대역 k는 가장 낮은 빈 bk,low 및 가장 높은 빈 bk,high를 갖고, 서브대역은 bk,low 내지 bk,high의 모든 빈들을 포함한다. 서브대역들의 폭들은 임의의 적합한 분포를 근사화할 수 있다. 예컨대, 등가 직사각형 대역폭(ERB) 스케일 또는 Bark 스케일.
따라서, 시간 주파수(TF) 타일(또는 블록)은 프레임의 서브프레임 내의 특정 서브대역이다.
공간 오디오 파라미터들을 표현하는 데 필요한 비트들의 수는 시간-주파수(TF) 타일 해상도(즉, TF 서브프레임들 또는 타일들의 수)에 적어도 부분적으로 의존할 수 있다는 것을 인식할 수 있다. 예컨대, 20 ms 오디오 프레임은 한 피스(piece)에 5 ms인 4 개의 시간-도메인 서브프레임들로 분할될 수 있고, 각각의 시간-도메인 서브프레임은 그 근사인 Bark 스케일에 따라 주파수 도메인에서 최대 24 개의 주파수 서브대역들로 분할될 수 있으며, 또는 임의의 다른 적합한 분할로 분할될 수 있다. 이러한 특정 예에서, 오디오 프레임은 96 TF 서브프레임들/타일들, 다시 말해서, 24 개의 주파수 서브대역들을 갖는 4 개의 시간-도메인 서브프레임들로 분할될 수 있다. 따라서, 오디오 프레임에 대한 공간 오디오 파라미터들을 표현하는 데 필요한 비트들의 수는 TF 타일 해상도에 의존할 수 있다. 예컨대, 각각의 TF 타일이 위의 표 1의 분포에 따라 인코딩된다면, 각각의 TF 타일은 음원 방향당 64 비트를 요구할 것이다. TF 타일당 두 개의 음원 방향들의 경우, 두 방향들 모두의 완전한 인코딩을 위해 2x64 비트가 필요할 것이다. 음원이라는 용어의 사용은 TF 타일에서 전파되는 사운드의 우세한 방향들을 의미할 수 있다는 점에 유의할 것이다.
실시예들은 TF 타일당 하나 초과의 음원 방향이 존재할 때 비트 수를 감소시키는 것을 목표로 한다.
실시예들에서, 분석 프로세서(105)는 공간 분석기(203)를 포함할 수 있다. 공간 분석기(203)는 시간-주파수 신호들(202)을 수신하고, 이 신호들에 기초하여 방향 파라미터들(108)을 추정하도록 구성될 수 있다. '방향' 결정에 기초한 임의의 오디오에 기초하여 방향 파라미터들이 결정될 수 있다.
예컨대, 일부 실시예들에서, 공간 분석기(203)는 두 개 이상의 신호 입력들로 음원의 방향을 추정하도록 구성된다.
따라서, 공간 분석기(203)는 방위각 및 고도 로 나타내는 오디오 신호의 프레임 내의 각각의 주파수 대역 및 시간상의 시간-주파수(temporal time-frequency) 블록에 적어도 하나의 방위각 및 고도를 제공하도록 구성될 수 있다. 또한, 시간 서브프레임에 대한 방향 파라미터들(108)은 공간 파라미터 세트 인코더(207)로 전달될 수 있다.
또한, 공간 분석기(203)는 에너지 비 파라미터(110)를 결정하도록 구성될 수 있다. 에너지 비는 방향으로부터 도착하는 것으로 간주될 수 있는 오디오 신호의 에너지의 결정으로 간주될 수 있다. 직접-총 에너지 비 r(k,n)은 예컨대, 방향성 추정의 안정성 측정을 사용하여 또는 임의의 상관 측정 또는 비 파라미터를 획득하기 위한 임의의 다른 적합한 방법을 사용하여 추정될 수 있다. 각각의 직접-총 에너지 비는 특정 공간 방향에 대응하고, 총 에너지와 비교하여 특정 공간 방향으로부터 나오는 에너지의 양을 설명한다. 또한, 이 값은 각각의 시간-주파수 타일에 대해 별도로 표현될 수 있다. 공간 방향 파라미터들 및 직접-총 에너지 비는 특정 방향으로부터 나오는 각각의 시간-주파수 타일의 총 에너지 양을 설명한다. 일반적으로, 공간 방향 파라미터는 또한 도착 방향(DOA: direction of arrival)으로 여겨질 수 있다.
실시예들에서, 직접-총 에너지 비 파라미터는 대역 k에서 마이크 쌍 사이의 정규화된 교차-상관 파라미터 cor'(k,n)에 기초하여 추정될 수 있으며, 교차-상관 파라미터의 값은 -1 내지 1에 있다. 직접-총 에너지 비 파라미터 r(k,n)은 정규화된 교차 상관 파라미터를 확산 필드 정규화된 교차 상관 파라미터 cor' D (k,n)과 비교함으로써 으로서 결정될 수 있다. 직접-총 에너지 비는 본원에 인용에 의해 포함된 PCT 공보 WO2017/005978에 추가로 설명되어 있다. 에너지 비는 공간 파라미터 병합기(207)로 전달될 수 있다.
실시예들에서, (TF 타일에 대한) 제2 방향에 관한 파라미터들은 HOA 입력을 갖는 고차 방향성 오디오 코딩 또는 모바일 디바이스 입력을 갖는 PCT 공보 WO2019/215391에 제시된 바와 같은 방법을 사용하여 분석될 수 있다. 고차 방향성 오디오 코딩에 대한 세부사항들은 IEEE Journal of Selected Topics in Signal Processing "Sector-Based Parametric Sound Field Reproduction in the Spherical Harmonic Domain," Volume 9 Issue 5에서 발견될 수 있다.
게다가, 공간 분석기(203)는 시간-주파수 도메인에서 모두 분석된 서라운딩 코히어런스() 및 확산 코히어런스()를 포함할 수 있는 다수의 코히어런스 파라미터들(112)을 결정하도록 구성될 수 있다.
공간 분석기(203)는 결정된 코히어런스 파라미터들인 확산 코히어런스 파라미터 및 서라운딩 코히어런스 파라미터 를 공간 파라미터 세트 인코더(207)로 출력하도록 구성될 수 있다.
따라서, 각각의 TF 타일의 경우, 각각의 음원 방향과 연관된 공간 오디오 파라미터들의 집합이 존재할 것이다. 이 경우, 각각의 TF 타일은 음원 방향별로 연관된 다음과 같은 공간 파라미터들을 가질 수 있다; 방위각 및 고도 로 나타내는 방위각 및 고도, 확산 코히어런스(), 및 직접-총 에너지 비 파라미터 r(k,n). 또한, 각각의 TF 타일은 또한 음원별로 배정되지 않는 서라운드 코히어런스()를 가질 수 있다.
두 개의 음원 방향들의 경우, 각각의 TF 타일에 대한 공간 오디오 파라미터들의 집합은 적어도 방위각 및 고도 구형 방향 컴포넌트뿐만 아니라 제1 음원 방향에 대한 에너지 대 총 비와, 방위각 및 고도 구형 방향 컴포넌트들 및 제2 소스 방향에 대한 에너지 대 총 비(energy to total ratio)를 포함할 수 있다.
후속 프로세싱 단계들은 TF 타일별로 수행될 수 있다는 것을 인식할 것이다. 다시 말해서, 오디오 프레임의 각각의 서브대역 k 및 서브프레임 n에 대해 프로세싱이 수행된다.
연구들은 TF별 제1 음원 방향이 제2 음원 방향과 반대 방향을 가리킬 가능성이 더 높음을 표시하였다. 이 관찰은 방위각 및 고도 방향 파라미터들의 후속 양자화 효율성을 개선하는 데 사용될 수 있다. 예컨대, 제1(또는 제2) 음원이 180°의 회전에 의해 더 가깝게 정렬되게 될 수 있다면, 두 개의 음원 방향 파라미터들 사이의 차이(또는 분산)는 매우 감소될 수 있다. 이러한 분산 감소는 방향 파라미터들의 (벡터) 양자화를 개선하는 데 사용될 수 있다. 명백하게, (다른 방향 파라미터에 대해 한 방향 파라미터를 180° 회전시킴으로써) 양자화 효율성의 개선은 하나의 음원이 원래(회전 전) 제2 음원과 반대 방향을 가리키고 있을 때 달성된다. 그에 의해, 회전 변환이 적용될 때, 제1 음원 및 제2 음원의 방향 파라미터들이 더 가깝게 정렬될 것이다.
대부분의 경우들에서, 제1 음원 방향이 제2 음원 방향과 반대 방향을 가리킬 가능성이 더 높다는 것이 (실험들을 통해) 관찰되었다. 따라서, 양자화 이전에 방향 파라미터들의 정렬을 용이하게 하기 위해 대부분의 경우들에서 제1 음원 방향 파라미터 또는 제2 음원 방향 파라미터에 회전 변환을 적용하는 것이 적절할 수 있다.
실시예들에서, 먼저 초기에 양자화되지 않은 공간 오디오 방향 파라미터에 회전 변환이 적용된다는 것을 인식할 것이다. 예컨대, (제1 음원 방향과 연관된) 제1 공간 오디오 방향 파라미터는 초기에 양자화되어 양자화된 제1 공간 오디오 방향을 제공할 수 있다. 이 경우, 제2 공간 오디오 방향 파라미터는 양자화된 제1 공간 오디오 방향 파라미터에 대해 회전될 수 있다.
이를 위해, TF 타일에 대한 공간 오디오 방향 파라미터들의 양자화 이전에 다음의 단계들이 적용될 수 있다:
1. (제1 음원 방향에 대해) 제1 공간 오디오 방향 파라미터를 양자화한다.
2. 제2 음원 방향의 방향 파라미터들에 회전 변환을 적용한다.
3. 일단 방향 파라미터가 동일한 TF 타일 내의 다른 방향 파라미터에 대해 회전되면, 회전된(제2) 방향 파라미터와 다른 양자화된(제1) 방향 파라미터 사이의 차이가 양자화에 대한 사전 단계를 형성하기 위해 획득될 수 있다.
위의 접근법은 제1 음원 방향과 제2 음원 방향에 대한 방위각 방향 파라미터들의 관점에서 전개될 수 있다.
여기서
여기서 은 제1 음원 방향의 양자화된 방위각 값이고, 는 TF 타일에 대한 제2 음원 방향이다. 위의 단계들에서, 제1 음원 양자화된 방향 에 대해 정렬(또는 회전)되는 것은 제2 음원 방향 이다. 회전된 제2 방향 파라미터와 양자화된 제1 방향 파라미터 사이의 차이는 로 주어진다. 그런 다음, 차이 방향 파라미터 가 양자화될 수 있다. 의 양자화는 아래에 나열된 기법들에 따라 수행될 수 있다.
또한, 위의 접근법은 TF 타일(k,n)에 대한 방향 고도 값들 에 적용될 수 있다. 대안적으로, 위의 방법은 또한, 고도 축 및 방위각 축 둘 모두에 대한 값들에 적용될 수 있다.
그러나, 고도 값들은 일반적으로, 오디오 프레임의 TF 타일들에 대해 다소 정렬되고 반대 방향들로 놓이는 경향이 적다는 것으로 발견되었다는 것이 추가로 관찰되었다. 따라서, 일부 실시예들에서, 위의 회전 변환은 위의 알고리즘에 의해 묘사된 바와 같이, 방위각 값들에 대해서만 구현되었다.
일부 실시예들에서, 위의 단계 1 내지 단계 3에 의해 개략된 바와 같은 프로세스(즉, 회전 변환을 수행하는 것은 제2 공간 오디오 방향 파라미터에 적용됨)는 제1 음원 방향 (또는 n,k 타일에 대한 명명법을 드롭하는 )에 대한 직접-총 에너지 비 파라미터에 의존할 수 있다. 이러한 실시예들에서, 프로세싱 단계들은 TF 타일별로 적용될 수 있다:
1. (제1 음원 방향에 대해) 제1 공간 오디오 방향 파라미터를 양자화한다.
2. 제1 음원 방향 에 대한 제1 에너지 대 총 비의 값을 확인한다. 의 값이 (에 대해) 사전 결정된 임계 값 초과이면, 단계 3 및 단계 4를 수행한다. 그러나, 의 값이 (에 대해) 사전 결정된 임계 값 미만이면(또는 그와 동일하면), 아래의 단계 3 및 단계 4를 수행하지 않는다. 대신 제1 공간 오디오 방향 파라미터는 회전 변환 없이 양자화된다.
3. 제2 음원 방향의 방향 파라미터들에 회전 변환을 적용한다.
4. 일단 방향 파라미터가 동일한 TF 타일 내의 다른 방향 파라미터에 대해 회전되면, 회전된(제2) 방향 파라미터와 다른 양자화된(제1) 방향 파라미터 사이의 차이가 양자화에 대한 사전 단계를 형성하기 위해 획득될 수 있다.
다른 실시예들에서, 위의 회전 변환 단계들의 적용은 제1 공간 오디오 방향 파라미터를 양자화하기 위해 이용 가능한 비트 수에 따라 조건부일 수 있다. 이러한 실시예들에서, 프로세싱 단계들은 TF 타일별로 적용될 수 있다:
1. (제1 음원 방향에 대해) 제1 공간 오디오 방향 파라미터를 양자화한다.
2. 제1 공간 오디오 방향 파라미터를 양자화하는 데 이용 가능한 비트 수가 (이용 가능한 비트들에 대한) 사전 결정된 임계 값 초과인지를 확인한 다음, 단계 3 및 단계 4를 수행한다. 그러나, 비트 수가 (이용 가능한 비트들에 대한) 사전 결정된 임계 값 미만이면(또는 그와 동일하면), 아래의 단계 3 및 단계 4를 수행하지 않는다. 대신 제1 공간 오디오 방향 파라미터는 회전 변환 없이 양자화된다.
3. 제2 음원 방향의 방향 파라미터들에 회전 변환을 적용한다.
4. 일단 방향 파라미터가 동일한 TF 타일 내의 다른 방향 파라미터에 대해 회전되면, 회전된(제2) 방향 파라미터와 다른 양자화된(제1) 방향 파라미터 사이의 차이가 양자화에 대한 사전 단계를 형성하기 위해 획득될 수 있다.
도 3은 양자화에 대한 사전 단계로서 공간 오디오 방향 파라미터들(이를테면, 방위각 및 고도 값들)을 회전시키기 위한 컴퓨터 소프트웨어 또는 하드웨어 구현 가능 프로세스를 묘사한다.
프로세싱 단계(301)는 제1 공간 오디오 방향 파라미터, 예컨대, TF 타일에서 제1 음원 방향과 연관된 방위각 값을 양자화하는 단계를 도시한다.
프로세싱 단계(302)는 방향 파라미터를 반대 방향으로 회전시킴으로써 제2 공간 오디오 방향 파라미터(예컨대, TF 타일에서 제2 음원 방향과 연관된 방위각 값)를 변환하는 단계를 묘사한다. 실시예들에서, 이는 제2 공간 오디오 방향 파라미터의 각도 값(예컨대, 방위각 값)을 180 도 회전시킴으로써 구현될 수 있다.
프로세싱 단계(305)는 변환된(또는 회전된) 제2 공간 오디오 방향 파라미터와 제1(양자화된) 공간 오디오 방향 파라미터 사이의 차이를 결정하는 단계를 묘사한다. 예컨대, 제2 공간 오디오 방향 파라미터의 회전된 방위각 값과 제1 공간 오디오 방향 파라미터의 방위각 값 사이의 차이.
마지막으로, 프로세싱 단계(307)는 단계(305)에 의해 생성된 차이를 양자화하는 단계를 묘사한다.
공간 파라미터 세트 인코더(207)는 에너지 비 파라미터들(110) 및 코히어런스 파라미터들(112)에 더하여 방향 파라미터들(108)을 양자화하도록 배열될 수 있다.
방향 파라미터들(108)(이를테면, 방위각 및 고도 )의 양자화는, 결정된 양자화 해상도에 의해 정의된 룩업 테이블(look up table)에 의해 정의되는 '표면' 구(sphere) 상에 링(ring)들로 배열된 구형 그리드(spherical grid)를 형성하는 구들의 배열에 기초할 수 있다. 다시 말해서, 구형 그리드는, 더 작은 구들로 구를 덮고 거의 등거리 방향들의 그리드를 정의하는 포인트들로서 더 작은 구들의 중심들을 고려한다는 아이디어(idea)를 사용한다. 따라서, 더 작은 구들은 임의의 적합한 인덱싱 알고리즘에 따라 인덱싱될 수 있는 중심 포인트를 중심으로 하는 원뿔들 또는 입체각들을 정의한다. 그런 다음, 방위각 및 고도 방향 파라미터들(108)은 양자화 인덱스를 구형 그리드에 제공하기 위해 벡터 거리 메트릭을 사용하는 구형 그리드의 포인트들에 매핑될 수 있다. 그러한 구형 양자화 방식은 특허 출원 공보들 WO2019/091575 및 WO2019/129350에서 발견될 수 있다. 대안적으로, 방위각 및 고도 방향 파라미터들(108)은 임의의 적합한 선형 또는 비선형 양자화 수단에 따라 양자화될 수 있다.
도 3의 위의 알고리즘 및 프로세싱 단계들을 참조하면, 제1 방위각 값 은 위에서 나열된 양자화 기법들 중 임의의 기법에 따라 양자화될 수 있고, 그런 다음, 차이 방위각 값 는 또한 제1 방위각 값 에 사용되는 바와 동일한 양자화 기법을 사용하여 양자화될 수 있다. 따라서, 바람직한 실시예에서, 다음의 양자화된 방향 파라미터들 , , 는 두 개의 음원 방향들을 갖는 각각의 TF 타일에 대해 생성될 수 있다.
또한, 메타데이터 인코더/양자화기(111)는 각각의 TF 타일에 대한 에너지 비 파라미터(들)를 수신하고 적합한 압축 및 인코딩 방식을 수행하도록 구성될 수 있는 에너지 비 파라미터 인코더를 포함할 수 있다.
유사하게, 공간 파라미터 세트 인코더(207)는 또한, 서라운드 코히어런스 값들 및 확산 코히어런스 값들 을 수신하고, 서라운드 및 확산 코히어런스 값들을 압축하기 위한 적합한 인코딩을 결정하도록 구성되는 코히어런스 인코더를 포함할 수 있다.
인코딩된 방향, 에너지 비들, 및 코히어런스 값들은 결합기로 전달될 수 있다. 결합기는, 인코딩된(또는 양자화된/압축된) 방향성 파라미터들, 에너지 비 파라미터들, 및 코히어런스 파라미터들을 수신하고 이들을 결합하여 적합한 출력(예컨대, 전송 신호와 결합되거나 또는 전송 신호로부터 별도로 송신 또는 저장될 수 있는 메타데이터 비트 스트림)을 생성하도록 구성될 수 있다.
일부 실시예들에서, 인코딩된 데이터스트림은 디코더/디멀티플렉서(133)로 전달된다. 디코더/디멀티플렉서(133)는 프레임에 대한 인코딩된 양자화된 공간 오디오 파라미터 세트들을 디멀티플렉싱하고, 이들을 메타데이터 추출기(137)로 전달하며, 또한 디코더/디멀티플렉서(133)는 일부 실시예들에서, 디코딩 및 추출을 위해 전송 오디오 신호들을 전송 추출기로 추출할 수 있다.
인코딩된 오디오 공간 파라미터 에너지 비 인덱스들, 방향 인덱스들, 및 코히어런스 인덱스들은 TF 타일에 대한 디코딩된 에너지 비들, 방향들, 및 코히어런스들을 생성하기 위해 메타데이터 추출기(137)에서 이들의 개개의 디코더들에 의해 디코딩될 수 있다. 이는 인코더에서 사용되는 다양한 인코딩 프로세스들의 역을 적용함으로써 수행될 수 있다.
일부 실시예들에 따르면, 공간 오디오 파라미터 방향 인덱스들은, 두 개의 음원 방향들을 갖는 각각의 TF 타일에 대한 다음의 양자화된 방향 파라미터들 , , , 및 를 표시하는 인덱스들을 포함할 수 있다. 공간 오디오 파라미터 방향 인덱스들은, 역양자화 프로세스에 의해 각각의 TF 타일에 대한 역양자화된 파라미터들 , , , 및 를 생성하기 위해 메타데이터 추출기(137)에 의해 사용될 수 있다.
실시예들에서, TF 타일에 대한 디코딩된 공간 오디오 방향 파라미터들은 다음 단계들에 의해 발견될 수 있다:
1. 양자화된 제1 방향 파라미터에 (회전된(제2) 방향 파라미터와 양자화된(제1) 방향 파라미터 사이의) 양자화된 차이를 추가한다. 회전된 양자화된 제2 방향 파라미터를 제공하기 위해.
2. 반대 방향을 갖도록 회전된 양자화된 제2 방향 파라미터를 회전시키기 위해 회전된 양자화된 제2 방향 파라미터에 회전 변환을 적용한다. 그에 의해, 양자화된 제2 방향 파라미터를 제공한다. 회전된 제2 방향 파라미터에 적용된 회전 변환은 인코더에서 적용된 회전에 대한 결과일 수 있다. 예컨대, 인코더가 180°의 회전을 이용하면, 디코더는 회전된 제2 방향 파라미터를 다시 제2 방향 파라미터로 변환하기 위해 180°의 결과 회전을 적용해야 한다.
인코더에서 채택된 특정 인코딩 방식에 따라, 디코더는 TF 타일의 공간 오디오 파라미터들의 방위각 값들, 또는 방향 고도 값들, 또는 대안적으로 고도 및 방위각 축들 둘 모두 상의 방향 값들에 대해서만 위의 프로세싱 단계들을 구현할 수 있다.
인코더가 공간 오디오 방향 파라미터들을 인코딩하기 위한 조건부 방식을 전개하는 경우, 디코딩 프로세스가 또한 뒤따를 수 있다는 점에 유의할 것이다.
예컨대, 인코더가 위에서 설명된 바와 같이, 제1 음원 방향 에 대한 직접-총 에너지 비 파라미터에 의존하는 방식을 사용하는 경우. TF 타일에 대한 제1 음원 방향 에 대한 제1 에너지 대 총 비의 값을 확인한 결과가 (에 대해) 사전 결정된 임계치 초과인 경우, 디코더는 위의 디코딩 단계 1 및 단계 2에 따라 공간 오디오 방향 파라미터들을 디코딩할 수 있다.
유사하게, 인코더가 공간 오디오 방향 파라미터들을 양자화하는 데 이용 가능한 비트 수에 의존하는 방식을 사용하는 경우. 공간 오디오 방향 파라미터들을 인코딩하는 데 사용되는 비트 수를 확인한 결과가 (사용되는 비트들에 대해) 사전 결정된 임계값 초과인 경우, 디코더는 위의 디코딩 단계 1 및 단계 2에 따라 공간 오디오 방향 파라미터들을 디코딩할 수 있다.
일반적으로, 디인덱싱(de-index)은 양자화된 파라미터를 표현하는 인덱스를 양자화된 파라미터로 컨버팅하는 프로세스를 지칭한다. 이 프로세스는 통상적으로 인덱스를 역양자화기를 통해 양자화된 값으로 컨버팅하는 것을 수반한다. 역양자화기는 최종 역양자화된 값들을 생성하는 데 사용될 수 있는 역양자화된 값들 및/또는 프로세싱 기능을 보유하는 테이블 또는 코드북을 포함할 수 있다.
그런 다음, 디코딩된 공간 오디오 파라미터들은 다중 채널 신호들(110)을 형성하기 위해 메타데이터 추출기(137)로부터 출력되고 합성 프로세서(139)로 전달되는 디코딩된 메타데이터를 형성할 수 있다.
도 4와 관련하여, 분석 또는 합성 디바이스로서 사용될 수 있는 예시적인 전자 디바이스가 도시된다. 디바이스는 임의의 적합한 전자 디바이스 또는 장치일 수 있다. 예컨대, 일부 실시예들에서, 디바이스(1400)는 모바일 디바이스, 사용자 장비, 태블릿 컴퓨터, 컴퓨터, 오디오 재생 장치 등이다.
일부 실시예들에서, 디바이스(1400)는 적어도 하나의 프로세서 또는 중앙 프로세싱 유닛(1407)을 포함한다. 프로세서(1407)는 본원에 설명된 바와 같은 방법들과 같은 다양한 프로그램 코드들을 실행하도록 구성될 수 있다.
일부 실시예들에서, 디바이스(1400)는 메모리(1411)를 포함한다. 일부 실시예들에서, 적어도 하나의 프로세서(1407)는 메모리(1411)에 커플링된다. 메모리(1411)는 임의의 적합한 저장 수단일 수 있다. 일부 실시예들에서, 메모리(1411)는 프로세서(1407) 상에서 구현 가능한 프로그램 코드들을 저장하기 위한 프로그램 코드 섹션을 포함한다. 게다가, 일부 실시예들에서, 메모리(1411)는 데이터(예컨대, 본원에 설명된 바와 같은 실시예들에 따라 프로세싱되었거나 또는 프로세싱될 데이터)를 저장하기 위한 저장된 데이터 섹션을 더 포함할 수 있다. 프로그램 코드 섹션 내에 저장된 구현된 프로그램 코드 및 저장된 데이터 섹션 내에 저장된 데이터는 메모리-프로세서 커플링을 통해 필요할 때마다 프로세서(1407)에 의해 검색될 수 있다.
일부 실시예들에서, 디바이스(1400)는 사용자 인터페이스(1405)를 포함한다. 일부 실시예들에서, 사용자 인터페이스(1405)는 프로세서(1407)에 커플링될 수 있다. 일부 실시예들에서, 프로세서(1407)는 사용자 인터페이스(1405)의 동작을 제어하고, 사용자 인터페이스(1405)로부터 입력들을 수신할 수 있다. 일부 실시예들에서, 사용자 인터페이스(1405)는 사용자가 예컨대, 키패드를 통해 디바이스(1400)에 커맨드들을 입력하는 것을 가능하게 할 수 있다. 일부 실시예들에서, 사용자 인터페이스(1405)는 사용자가 디바이스(1400)로부터 정보를 획득하는 것을 가능하게 할 수 있다. 예컨대, 사용자 인터페이스(1405)는 디바이스(1400)로부터의 정보를 사용자에게 디스플레이하도록 구성되는 디스플레이를 포함할 수 있다. 일부 실시예들에서, 사용자 인터페이스(1405)는 정보가 디바이스(1400)에 입력되는 것을 가능하게 하고 추가로 디바이스(1400)의 사용자에게 정보를 디스플레이할 수 있는 터치 스크린 또는 터치 인터페이스를 포함할 수 있다. 일부 실시예들에서, 사용자 인터페이스(1405)는 본원에 설명된 바와 같이 포지션 결정기와 통신하기 위한 사용자 인터페이스일 수 있다.
일부 실시예들에서, 디바이스(1400)는 입력/출력 포트(1409)를 포함한다. 일부 실시예들에서, 입력/출력 포트(1409)는 트랜시버(transceiver)를 포함한다. 그러한 실시예들에서, 트랜시버는 프로세서(1407)에 커플링될 수 있고, 예컨대, 무선 통신 네트워크를 통해 다른 장치 또는 전자 디바이스들과의 통신을 가능하게 하도록 구성될 수 있다. 일부 실시예들에서, 트랜시버 또는 임의의 적합한 트랜시버 또는 송신기 및/또는 수신기 수단은 와이어 또는 유선 커플링을 통해 다른 전자 디바이스들 또는 장치와 통신하도록 구성될 수 있다.
트랜시버는 임의의 적합한 알려진 통신 프로토콜에 의해 추가적인 장치와 통신할 수 있다. 예컨대, 일부 실시예들에서, 트랜시버는 적합한 범용 모바일 전기통신 시스템(UMTS: universal mobile telecommunications system) 프로토콜, 예컨대, IEEE 802.X와 같은 무선 근거리 네트워크(WLAN: wireless local area network) 프로토콜, Bluetooth와 같은 적합한 단거리 라디오 주파수 통신 프로토콜, 또는 적외선 데이터 통신 경로(IRDA: infrared data communication pathway)를 사용할 수 있다.
트랜시버 입력/출력 포트(1409)는 신호들을 수신하고, 일부 실시예들에서는, 적합한 코드를 실행하는 프로세서(1407)를 사용함으로써 본원에 설명된 바와 같이 파라미터들을 결정하도록 구성될 수 있다. 게다가, 디바이스는 합성 디바이스에 송신될 적합한 다운믹스 신호 및 파라미터 출력을 생성할 수 있다.
일부 실시예들에서, 디바이스(1400)는 합성 디바이스의 적어도 일부로서 사용될 수 있다. 이와 같이, 입력/출력 포트(1409)는, 다운믹스 신호들 및 일부 실시예들에서 본원에 설명된 바와 같은 캡처 디바이스 또는 프로세싱 디바이스에서 결정된 파라미터들을 수신하고, 적합한 코드를 실행하는 프로세서(1407)를 사용함으로써 적합한 오디오 신호 포맷 출력을 생성하도록 구성될 수 있다. 입력/출력 포트(1409)는 예컨대, 다중 채널 스피커 시스템 및/또는 헤드폰들 또는 그와 유사한 것들에 대한 임의의 적합한 오디오 출력에 커플링될 수 있다.
일반적으로, 본 발명의 다양한 실시예들은 하드웨어 또는 특수 목적 회로들, 소프트웨어, 로직, 또는 이들의 임의의 조합으로 구현될 수 있다. 예컨대, 일부 양상들은 하드웨어로 구현될 수 있는 반면, 다른 양상들은 컨트롤러(controller), 마이크로프로세서, 또는 다른 컴퓨팅 디바이스에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있지만, 본 발명은 이에 제한되지 않는다. 본 발명의 다양한 양상들이 블록 다이어그램들로서, 흐름도들로서, 또는 일부 다른 도면 표현을 사용하여 예시되고 설명될 수 있지만, 본원에 설명된 이러한 블록들, 장치, 시스템들, 기법들, 또는 방법들은 비제한적 예들로서, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로들 또는 로직, 범용 하드웨어 또는 컨트롤러, 또는 다른 컴퓨팅 디바이스들, 또는 이들의 일부 조합으로 구현될 수 있다는 것을 잘 이해한다.
본 발명의 실시예들은 모바일 디바이스의 데이터 프로세서에 의해, 이를테면, 프로세서 엔티티에서 실행 가능한 컴퓨터 소프트웨어에 의해, 또는 하드웨어에 의해, 또는 소프트웨어와 하드웨어의 조합에 의해 구현될 수 있다. 이와 관련하여, 추가로, 도면들에서와 같은 로직 흐름의 임의의 블록들이 프로그램 단계들, 또는 상호 연결된 로직 회로들, 블록들 및 기능들, 또는 프로그램 단계들 및 로직 회로들, 블록들 및 기능들의 조합을 표현할 수 있다는 점에 유의해야 한다. 소프트웨어는, 프로세서 내에서 구현되는 메모리 칩들 또는 메모리 블록들과 같은 그러한 물리적 매체들, 하드 디스크 또는 플로피 디스크들과 같은 자기 매체들, 및 예컨대, DVD 및 이의 데이터 변형들인 CD와 같은 광학 매체들 상에 저장될 수 있다.
메모리는 로컬 기술적 환경에 적합한 임의의 타입일 수 있으며, 임의의 적합한 데이터 저장 기술, 이를테면, 반도체 기반 메모리 디바이스들, 자기 메모리 디바이스들 및 시스템들, 광학 메모리 디바이스들 및 시스템들, 고정 메모리, 및 탈착식(removable) 메모리를 사용하여 구현될 수 있다. 데이터 프로세서들은 로컬 기술적 환경에 적합한 임의의 타입일 수 있고, 비제한적 예들로서, 범용 컴퓨터들, 특수 목적 컴퓨터들, 마이크로프로세서들, 디지털 신호 프로세서(DSP: digital signal processor)들, 주문형 집적 회로(ASIC: application specific integrated circuit)들, 게이트 레벨 회로들 및 멀티코어 프로세서 아키텍처에 기초하는 프로세서들 중 하나 이상을 포함할 수 있다.
본 발명들의 실시예들은 집적 회로 모듈들과 같은 다양한 컴포넌트들에서 실시될 수 있다. 집적 회로들의 설계는 대규모로 고도로 자동화된 프로세스이며, 이에 의한 것이다. 로직 레벨 설계를 반도체 기판 상에서 에칭 및 형성될 준비가 된 반도체 회로 설계로 컨버팅하기 위해 복잡한 그리고 강력한 소프트웨어 도구들이 이용 가능하다.
프로그램들은 잘 설정된 설계 규칙들뿐만 아니라 사전 저장된 설계 모듈들의 라이브러리(library)들을 사용하여 반도체 칩 상에서 전도체들을 라우팅하고, 컴포넌트들을 위치 지정(locate)할 수 있다. 일단 반도체 회로에 대한 설계가 완료되면, 표준화된 전자 포맷으로의 결과적인 설계가 제조를 위해 반도체 제조 시설 또는 "fab"에 송신될 수 있다.
위의 설명은, 예시로서 그리고 비제한적 예들로서, 본 발명의 예시적인 실시예의 완전한 그리고 유익한 설명을 제공하였다. 그러나, 첨부한 도면들 및 첨부된 청구항들과 함께 읽을 때, 다양한 수정들 및 적응들이 전술된 설명의 관점에서 당업자들에게 명백해질 수 있다. 그러나, 본 발명의 교시들의 모든 그러한 그리고 유사한 수정들은 여전히, 첨부된 청구항들에서 정의되는 바와 같은 본 발명의 범위 내에 속할 것이다.

Claims (26)

  1. 공간 오디오 신호 인코딩(encoding)을 위한 방법으로서,
    둘 이상의 오디오 신호들에 대해, 공간 오디오 재생을 제공하기 위한 제1 공간 오디오 방향 파라미터(parameter) 및 제2 공간 오디오 방향 파라미터를 결정하는 단계;
    상기 제1 공간 오디오 방향 파라미터를 양자화하는 단계;
    반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하는 단계;
    상기 변환된 제2 공간 오디오 방향 파라미터와 상기 양자화된 제1 공간 오디오 방향 파라미터 사이의 차이를 결정하는 단계; 및
    상기 차이를 양자화하는 단계를 포함하는, 공간 오디오 신호 인코딩을 위한 방법.
  2. 제1 항에 있어서,
    상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하는 단계, 상기 변환된 제2 공간 오디오 방향 파라미터와 상기 양자화된 제1 공간 오디오 방향 파라미터 사이의 차이를 결정하는 단계, 및 상기 차이를 양자화하는 단계는, 상기 둘 이상의 오디오 신호들에 대한 제1 직접-총 에너지 비(direct-to-total energy ratio) 파라미터가 사전 결정된 임계 값 초과인 것에 따라 조건부인, 공간 오디오 신호 인코딩을 위한 방법.
  3. 제1 항에 있어서,
    상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하는 단계, 상기 변환된 제2 공간 오디오 방향 파라미터와 상기 양자화된 제1 공간 오디오 방향 파라미터 사이의 차이를 결정하는 단계, 및 상기 차이를 양자화하는 단계는, 상기 양자화된 제1 공간 오디오 방향 파라미터를 양자화하는 데 사용되는 비트 수가 사전 결정된 임계 값을 초과하는 것에 따라 조건부인, 공간 오디오 신호 인코딩을 위한 방법.
  4. 제1 항, 제2 항 및 제3 항에 있어서,
    상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하는 단계는,
    상기 제2 공간 오디오 방향 파라미터를 180 도 각도 회전시키는 단계를 포함하는, 공간 오디오 신호 인코딩을 위한 방법.
  5. 제1 항 내지 제4 항에 있어서,
    상기 제2 공간 오디오 방향 파라미터는 방위각 값을 포함하고,
    상기 제1 공간 오디오 방향 파라미터는 방위각 값을 포함하는, 공간 오디오 신호 인코딩을 위한 방법.
  6. 제5 항에 있어서,
    상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하는 단계는 상기 제2 공간 오디오 방향 파라미터의 방위각 값을 180 도로 변환하는 단계를 포함하고,
    상기 변환된 제2 공간 오디오 방향 파라미터와 상기 양자화된 제1 공간 오디오 방향 파라미터 사이의 차이를 결정하는 단계는 상기 제2 공간 오디오 방향 파라미터의 변환된 방위각 값과 상기 양자화된 제1 공간 오디오 방향 파라미터의 양자화된 방위각 값 사이의 차이를 결정하는 단계를 포함하는, 공간 오디오 신호 인코딩을 위한 방법.
  7. 제1 항 내지 제6 항에 있어서,
    상기 제1 공간 오디오 방향 파라미터는 상기 둘 이상의 오디오 신호들의 주파수 서브대역(sub band) 및 시간 서브프레임(sub frame)에서 제1 음원 방향과 연관되고,
    상기 제2 공간 오디오 방향 파라미터는 상기 둘 이상의 오디오 신호들의 주파수 서브대역 및 시간 서브프레임에서 제2 음원 방향과 연관되는, 공간 오디오 신호 인코딩을 위한 방법.
  8. 공간 오디오 신호 디코딩을 위한 방법으로서,
    변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하는 단계 ― 상기 양자화된 차이는 상기 변환된 제2 공간 오디오 방향 파라미터와 상기 양자화된 제1 공간 오디오 방향 파라미터 사이의 양자화된 차이임 ― ; 및
    반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하는 단계를 포함하는, 공간 오디오 신호 디코딩을 위한 방법.
  9. 제8 항에 있어서,
    상기 변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하는 단계 및 상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하는 단계는, 제1 직접-총 에너지 비 파라미터가 사전 결정된 임계 값 초과인 것에 따라 조건부인, 공간 오디오 신호 디코딩을 위한 방법.
  10. 제8 항에 있어서,
    상기 변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하는 단계 및 상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하는 단계는, 상기 양자화된 제1 공간 오디오 방향 파라미터를 양자화하는 데 사용되는 비트 수가 사전 결정된 임계 값을 초과하는 것에 따라 조건부인, 공간 오디오 신호 디코딩을 위한 방법.
  11. 제8 항 내지 제10 항에 있어서,
    상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하는 단계는,
    상기 제2 공간 오디오 방향 파라미터를 180 도 각도 회전시키는 단계를 포함하는, 공간 오디오 신호 디코딩을 위한 방법.
  12. 제8 항 내지 제11 항에 있어서,
    상기 제2 공간 오디오 방향 파라미터는 방위각 값을 포함하고,
    상기 제1 공간 오디오 방향 파라미터는 방위각 값을 포함하는, 공간 오디오 신호 디코딩을 위한 방법.
  13. 제12 항에 있어서,
    상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하는 단계는 상기 제2 공간 오디오 방향 파라미터의 방위각 값을 180 도로 변환하는 단계를 포함하고,
    상기 변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하는 단계는, 상기 양자화된 제1 공간 오디오 방향 파라미터의 양자화된 방위각 값에 상기 양자화된 차이를 추가하는 단계를 포함하는, 공간 오디오 신호 디코딩을 위한 방법.
  14. 공간 오디오 신호 인코딩을 위한 장치로서,
    둘 이상의 오디오 신호들에 대해, 공간 오디오 재생을 제공하기 위한 제1 공간 오디오 방향 파라미터 및 제2 공간 오디오 방향 파라미터를 결정하기 위한 수단;
    상기 제1 공간 오디오 방향 파라미터를 양자화하기 위한 수단;
    반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단;
    상기 변환된 제2 공간 오디오 방향 파라미터와 상기 양자화된 제1 공간 오디오 방향 파라미터 사이의 차이를 결정하기 위한 수단; 및
    상기 차이를 양자화하기 위한 수단을 포함하는, 공간 오디오 신호 인코딩을 위한 장치.
  15. 제14 항에 있어서,
    상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단, 상기 변환된 제2 공간 오디오 방향 파라미터와 상기 양자화된 제1 공간 오디오 방향 파라미터 사이의 차이를 결정하기 위한 수단, 및 상기 차이를 양자화하기 위한 수단은, 상기 둘 이상의 오디오 신호들에 대한 제1 직접-총 에너지 비 파라미터가 사전 결정된 임계 값 초과인 것에 따라 조건부인, 공간 오디오 신호 인코딩을 위한 장치.
  16. 제14 항에 있어서,
    상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단, 상기 변환된 제2 공간 오디오 방향 파라미터와 상기 양자화된 제1 공간 오디오 방향 파라미터 사이의 차이를 결정하기 위한 수단, 및 상기 차이를 양자화하기 위한 수단은, 상기 양자화된 제1 공간 오디오 방향 파라미터를 양자화하는 데 사용되는 비트 수가 사전 결정된 임계 값을 초과하는 것에 따라 조건부인, 공간 오디오 신호 인코딩을 위한 장치.
  17. 제14 항, 제15 항 및 제16 항에 있어서,
    상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단은,
    상기 제2 공간 오디오 방향 파라미터를 180 도 각도 회전시키기 위한 수단을 포함하는, 공간 오디오 신호 인코딩을 위한 장치.
  18. 제14 항 내지 제17 항에 있어서,
    상기 제2 공간 오디오 방향 파라미터는 방위각 값을 포함하고, 상기 제1 공간 오디오 방향 파라미터는 방위각 값을 포함하는, 공간 오디오 신호 인코딩을 위한 장치.
  19. 제18 항에 있어서,
    상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단은 상기 제2 공간 오디오 방향 파라미터의 방위각 값을 180 도로 변환하기 위한 수단을 포함하고,
    상기 변환된 제2 공간 오디오 방향 파라미터와 상기 양자화된 제1 공간 오디오 방향 파라미터 사이의 차이를 결정하기 위한 수단은 상기 제2 공간 오디오 방향 파라미터의 변환된 방위각 값과 상기 양자화된 제1 공간 오디오 방향 파라미터의 양자화된 방위각 값 사이의 차이를 결정하기 위한 수단을 포함하는, 공간 오디오 신호 인코딩을 위한 장치.
  20. 제14 항 내지 제19 항에 있어서,
    상기 제1 공간 오디오 방향 파라미터는 상기 둘 이상의 오디오 신호들의 주파수 서브대역 및 시간 서브프레임에서 제1 음원 방향과 연관되고,
    상기 제2 공간 오디오 방향 파라미터는 상기 둘 이상의 오디오 신호들의 주파수 서브대역 및 시간 서브프레임에서 제2 음원 방향과 연관되는, 공간 오디오 신호 인코딩을 위한 장치.
  21. 공간 오디오 신호 디코딩을 위한 장치로서,
    변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하기 위한 수단 ― 상기 양자화된 차이는 상기 변환된 제2 공간 오디오 방향 파라미터와 상기 양자화된 제1 공간 오디오 방향 파라미터 사이의 양자화된 차이임 ― ; 및
    반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단을 포함하는, 공간 오디오 신호 디코딩을 위한 장치.
  22. 제21 항에 있어서,
    상기 변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하기 위한 수단 및 상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단은, 제1 직접-총 에너지 비 파라미터가 사전 결정된 임계 값 초과인 것에 따라 조건부인, 공간 오디오 신호 디코딩을 위한 장치.
  23. 제21 항에 있어서,
    상기 변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하기 위한 수단 및 상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단은, 상기 양자화된 제1 공간 오디오 방향 파라미터를 양자화하는 데 사용되는 비트 수가 사전 결정된 임계 값을 초과하는 것에 따라 조건부인, 공간 오디오 신호 디코딩을 위한 장치.
  24. 제21 항 내지 제23 항에 있어서,
    상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단은,
    상기 제2 공간 오디오 방향 파라미터를 180 도 각도 회전시키기 위한 수단을 포함하는, 공간 오디오 신호 디코딩을 위한 장치.
  25. 제21 항 내지 제24 항에 있어서,
    상기 제2 공간 오디오 방향 파라미터는 방위각 값을 포함하고,
    상기 제1 공간 오디오 방향 파라미터는 방위각 값을 포함하는, 공간 오디오 신호 디코딩을 위한 장치.
  26. 제25 항에 있어서,
    상기 반대 공간 오디오 방향을 갖도록 상기 제2 공간 오디오 방향 파라미터를 변환하기 위한 수단은 상기 제2 공간 오디오 방향 파라미터의 방위각 값을 180 도로 변환하기 위한 수단을 포함하고,
    상기 변환된 제2 공간 오디오 방향 파라미터를 제공하기 위해 양자화된 제1 공간 오디오 방향 파라미터에 양자화된 차이를 추가하기 위한 수단은, 상기 양자화된 제1 공간 오디오 방향 파라미터의 양자화된 방위각 값에 상기 양자화된 차이를 추가하기 위한 수단을 포함하는, 공간 오디오 신호 디코딩을 위한 장치.
KR1020237027800A 2021-01-18 2021-01-18 공간 오디오 파라미터들의 변환 KR20230133341A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FI2021/050023 WO2022152960A1 (en) 2021-01-18 2021-01-18 Transforming spatial audio parameters

Publications (1)

Publication Number Publication Date
KR20230133341A true KR20230133341A (ko) 2023-09-19

Family

ID=82448110

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237027800A KR20230133341A (ko) 2021-01-18 2021-01-18 공간 오디오 파라미터들의 변환

Country Status (6)

Country Link
US (1) US20240079014A1 (ko)
EP (1) EP4278347A1 (ko)
KR (1) KR20230133341A (ko)
CN (1) CN116940983A (ko)
CA (1) CA3208666A1 (ko)
WO (1) WO2022152960A1 (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3711047B1 (en) * 2017-11-17 2022-10-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions
WO2019106221A1 (en) * 2017-11-28 2019-06-06 Nokia Technologies Oy Processing of spatial audio parameters
GB2585187A (en) * 2019-06-25 2021-01-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding

Also Published As

Publication number Publication date
CN116940983A (zh) 2023-10-24
US20240079014A1 (en) 2024-03-07
WO2022152960A1 (en) 2022-07-21
CA3208666A1 (en) 2022-07-21
EP4278347A1 (en) 2023-11-22

Similar Documents

Publication Publication Date Title
KR102587641B1 (ko) 공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정
US20230197086A1 (en) The merging of spatial audio parameters
US20230402053A1 (en) Combining of spatial audio parameters
CN111542877A (zh) 空间音频参数编码和相关联的解码的确定
CN111316353A (zh) 确定空间音频参数编码和相关联的解码
WO2022223133A1 (en) Spatial audio parameter encoding and associated decoding
CN117083881A (zh) 分离空间音频对象
KR20230133341A (ko) 공간 오디오 파라미터들의 변환
US20230335143A1 (en) Quantizing spatial audio parameters
US20240185869A1 (en) Combining spatial audio streams
US20240046939A1 (en) Quantizing spatial audio parameters
WO2022200666A1 (en) Combining spatial audio streams
US20230178085A1 (en) The reduction of spatial audio parameters
EP3948861A1 (en) Determination of the significance of spatial audio parameters and associated encoding
WO2020201619A1 (en) Spatial audio representation and associated rendering