KR20200141981A - 방향성 사운드 소스의 인코딩 및 디코딩을 위한 방법, 장치 및 시스템 - Google Patents

방향성 사운드 소스의 인코딩 및 디코딩을 위한 방법, 장치 및 시스템 Download PDF

Info

Publication number
KR20200141981A
KR20200141981A KR1020207024870A KR20207024870A KR20200141981A KR 20200141981 A KR20200141981 A KR 20200141981A KR 1020207024870 A KR1020207024870 A KR 1020207024870A KR 20207024870 A KR20207024870 A KR 20207024870A KR 20200141981 A KR20200141981 A KR 20200141981A
Authority
KR
South Korea
Prior art keywords
metadata
audio
radiation pattern
data
directional
Prior art date
Application number
KR1020207024870A
Other languages
English (en)
Inventor
니콜라스 알. 칭고스
마크 알. 피. 토마스
크리스토프 페르쉬
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션, 돌비 인터네셔널 에이비 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20200141981A publication Critical patent/KR20200141981A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

일부의 개시된 방법은 방향성 오디오 데이터를 인코딩 또는 디코딩하는 것을 포함한다. 일부의 인코딩 방법은 오디오 객체에 대응하는 모노 오디오 신호 및 오디오 객체에 대응하는 방사 패턴의 표현을 수신하는 것을 포함할 수 있다. 방사 패턴은 복수의 샘플 시간, 복수의 주파수 대역 및 복수의 방향에 대응하는 사운드 레벨을 포함할 수 있다. 방법은, 방사 패턴 메타데이터를 결정하기 위해 모노 오디오 신호를 인코딩하고 소스 방사 패턴을 인코딩하는 것을 포함할 수 있다. 방사 패턴을 인코딩하는 것은, 방사 패턴의 표현의 구형 고조파 변환을 결정하는 것, 및 인코딩된 방사 패턴 메타데이터를 얻기 위해 구형 고조파 변환을 압축하는 것을 포함할 수 있다.

Description

방향성 사운드 소스의 인코딩 및 디코딩을 위한 방법, 장치 및 시스템
관련 출원에 대한 상호 참조
본원은, 2018년 4월 16일자로 출원된 미국특허출원 제62/658,067호; 2018년 6월 6일자로 출원된 미국특허출원 제62/681,429호; 및 2018년 10월 4일자로 출원된 미국특허출원 제62/741,419호의 우선권이 이익을 주장하며, 그들 전체 내용은 본원에 참조로서 포함되어 있다.
본 개시는, 다중의 동적 및/또는 이동하는 방향성 소스에 기초하는 방향성 사운드 소스 및 청각 장면의 인코딩 및 디코딩에 관한 것이다.
자연적이든 인공적이든(라우드스피커, 악기, 음성, 기계적 디바이스) 현실 세계의 사운드 소스는 비등방성 방식으로 소리를 발산한다. 사운드 소스의 방사 패턴(또는 "방향성")을 특성화하는 것은, 특히 비디오 게임, 및 가상/증강 현실(VR/AR) 애플리케이션과 같은 상호작용형 환경의 맥락에서 적절한 렌더링을 위해 중요할 수 있다. 이들 환경에서 사용자는, 일반적으로, 주변을 걸어 다님으로써 방향성 오디오 객체와 상호 작용하고, 이에 의해 생성된 사운드에 대한 그들의 청각적 관점을 변경한다(6자유도[DoF] 렌더링으로도 알려짐). 사용자는 또한, 가상 객체를 붙잡고 동적으로 회전시킬 수 있으며, 대응하는 사운드 소스(들)의 방사 패턴에서 상이한 방향의 렌더링을 다시 필요로 한다. 방사 특성은, 소스로부터 청취자로의 직접 전파 효과의 보다 사실적인 렌더링 외에도, 소스와 그의 환경(예를 들어, 게임에 있어서의 가상 환경) 사이의 고차 음향 커플링에서 중요한 역할을 하며, 따라서 반향음(즉, 에코에서와 같이 전후 이동하는 음파)에 영향을 준다. 그 결과, 그러한 반향은 지각되는 거리와 같은 다른 공간적 큐(cues)에 영향을 미칠 수 있다.
대부분의 오디오 게임 엔진은 방향성 사운드 소스를 표현하고 렌더링하는 어떤 방법을 제공하지만, 일반적으로, 단순한 1차 코사인 함수 또는 "사운드 콘(sound cones)"(예를 들어, 파워 코사인 함수)의 정의 및 단순한 고주파 롤-오프(roll-off) 필터에 의존하는 단순한 방향성 이득에 제한된다. 이들 표현은 현실 세계의 방사 패턴을 표현하기에 불충분하며 다수의 방향성 사운드 소스의 단순화된/결합된 표현에도 적합하지 않다.
다양한 오디오 처리 방법이 본원에 개시되어 있다. 이러한 방법의 일부는 방향성 오디오 데이터의 인코딩을 포함할 수 있다. 예를 들어, 일부의 방법은 오디오 객체에 대응하는 모노 오디오 신호 및 오디오 객체에 대응하는 방사 패턴의 표현을 수신하는 것을 포함할 수 있다. 예를 들어 방사 패턴은, 복수의 샘플 시간, 복수의 주파수 대역 및 복수의 방향에 대응하는 사운드 레벨을 포함할 수 있다. 이러한 일부의 방법은 방사 패턴 메타데이터를 결정하기 위해 모노 오디오 신호를 인코딩하고 소스 방사 패턴을 인코딩하는 것을 포함할 수 있다. 방사 패턴의 인코딩은 방사 패턴의 표현의 구형 고조파 변환을 결정하고 인코딩된 방사 패턴 메타데이터를 얻기 위해 구형 고조파 변환을 압축하는 것을 포함할 수 있다.
이러한 일부의 방법은 오디오 객체의 클러스터에 기초하여 복수의 방향성 오디오 객체를 인코딩하는 것을 포함할 수 있다. 방사 패턴은 각 주파수 대역에 대한 평균 사운드 레벨값을 반영하는 센트로이드(centroid)를 나타낼 수 있다. 이러한 일부의 구현에서, 복수의 방향성 오디오 객체는 각 오디오 객체의 구형 고조파 계수의 시변동 에너지-가중 평균(time-varying energy-weighted average)에 대응하는 방향성을 갖는 단일 방향성 오디오 객체로서 인코딩된다. 인코딩된 방사 패턴 메타데이터는 각 오디오 객체의 위치의 평균인 오디오 객체의 클러스터의 위치를 나타낼 수 있다.
일부의 방법은 방향성 오디오 객체의 그룹의 방사 패턴에 관한 그룹 메타데이터를 인코딩하는 것을 포함할 수 있다. 일부의 예에서, 소스 방사 패턴은 정규화된 방사 패턴을 결정하기 위해 주파수별 기반의(on a per frequency basis) 방향으로 입력 방사 패턴의 진폭으로 리스케일링 될 수 있다. 일부의 구현에 따르면, 구형 고조파 변환을 압축하는 것은 특이값 분해 방법(Singular Value Decomposition method), 주성분 분석(principal component analysis), 이산 코사인 변환(discrete cosine transforms), 데이터 독립적 기반(data-independent bases) 및/또는 구형 고조파 계수의 임계 차수(order) 위의, 구형 고조파 변환의 구형 고조파 계수의 제거를 포함할 수 있다.
일부의 대안적인 방법은 오디오 데이터를 디코딩하는 것을 포함할 수 있다. 예를 들어, 그러한 일부의 방법은 코어 오디오 신호를 결정하기 위해 인코딩된 코어 오디오 신호, 인코딩된 방사 패턴 메타데이터 및 인코딩된 오디오 객체 메타데이터를 수신하고, 인코딩된 코어 오디오 신호를 디코딩하는 것을 포함할 수 있다. 그러한 일부의 방법은 디코딩된 방사 패턴을 결정하기 위해 인코딩된 방사 패턴 메타데이터를 디코딩하고, 오디오 객체 메타데이터를 디코딩하고, 오디오 객체 메타데이터 및 디코딩된 방사 패턴에 기초하여 코어 오디오 신호를 렌더링하는 것을 포함할 수 있다.
일부의 예에서, 오디오 객체 메타데이터는 시변동 3자유도(3DoF) 또는 6자유도(6DoF) 소스 배향 정보 중 적어도 하나를 포함할 수 있다. 코어 오디오 신호는 객체의 클러스터에 기초하는 복수의 방향성 객체를 포함할 수 있다. 디코딩된 방사 패턴은 각 주파수 대역에 대한 평균 값을 반영하는 센트로이드를 나타낼 수 있다. 일부의 예에서, 렌더링은 디코딩된 방사 데이터에 적어도 부분적으로 기초하여, 디코딩된 코어 오디오 신호에 대해 서브밴드 이득을 적용하는 것에 기초할 수 있다. 인코딩된 방사 패턴 메타데이터는 시변동(time-varying) 및 주파수 변동하는(frequency-varying) 구형 고조파 계수의 세트에 대응할 수 있다.
일부의 구현에 따르면, 인코딩된 방사 패턴 메타데이터는 오디오 객체 유형 메타데이터를 포함할 수 있다. 오디오 객체 유형 메타데이터는, 예를 들어, 파라메트릭 방향성 패턴 데이터를 나타낼 수 있다. 파라메트릭 방향성 패턴 데이터는 코사인 함수, 사인 함수 및/또는 카디오이드(cardioidal) 함수를 포함할 수 있다. 일부 예들에서, 오디오 객체 유형 메타데이터는 데이터베이스 방향성 패턴 데이터를 나타낼 수 있다. 디코딩된 방사 패턴을 결정하기 위해 인코딩된 방사 패턴 메타데이터를 디코딩하는 것은 오디오 객체 유형 및 대응하는 방향성 패턴 데이터를 포함하는 방향성 데이터 구조를 쿼리하는 것을 포함할 수 있다. 일부의 예에서, 오디오 객체 유형 메타데이터는 동적 방향성 패턴 데이터를 나타낼 수 있다. 동적 방향성 패턴 데이터는 시변동(time-varying) 및 주파수 변동하는(frequency-varying) 구형 고조파 계수의 세트에 대응할 수 있다. 일부 방법은 인코딩된 코어 오디오 신호를 수신하기 전에 동적 방향성 패턴 데이터를 수신하는 것을 포함할 수 있다.
본원에 설명된 방법 중 일부 또는 전부는, 하나 이상의 비일시적 매체에 저장된 명령어(예를 들어, 소프트웨어)에 따라 하나 이상의 디바이스에 의해 수행될 수 있다. 그러한 비일시적 매체는, 랜덤 액세스 메모리(RAM) 디바이스, 읽기 전용 메모리(ROM) 디바이스 등을 포함하지만 이에 제한되지 않는, 본원에 설명된 것과 같은 메모리 디바이스를 포함할 수 있다. 이에 따라, 본 개시에서 설명된 주제의 여러 혁신적인 양태는 소프트웨어가 저장된 하나 이상의 비일시적 매체로 구현될 수 있다. 예를 들어, 소프트웨어는 오디오 데이터를 처리하기 위해 적어도 하나의 디바이스를 제어하기 위한 명령어를 포함할 수 있다. 예를 들어, 소프트웨어는 본원에 개시된 것과 같은 제어 시스템의 하나 이상의 구성 요소에 의해 실행될 수 있다. 예를 들어, 소프트웨어는 본원에 개시된 방법 중 하나 이상을 수행하기 위한 명령어를 포함할 수 있다.
본 개시의 적어도 일부 양태는 장치를 통해 구현될 수 있다. 예를 들어, 하나 이상의 디바이스가 본원에 개시된 방법을 적어도 부분적으로 수행하도록 구성될 수 있다. 일부 구현에서, 장치는 인터페이스 시스템 및 제어 시스템을 포함할 수 있다. 인터페이스 시스템은 하나 이상의 네트워크 인터페이스, 제어 시스템과 메모리 시스템 사이의 하나 이상의 인터페이스, 제어 시스템과 다른 디바이스 사이의 하나 이상의 인터페이스 및/또는 하나 이상의 외부 디바이스 인터페이스를 포함할 수 있다. 제어 시스템은 범용의 단일칩 또는 다중칩 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그래머블 게이트 어레이(FPGA) 또는 다른 프로그래머블 논리 디바이스, 디스크리트(discrete) 게이트 또는 트랜지스터 로직, 또는 디스크리트 하드웨어 구성 요소 중 적어도 하나를 포함할 수 있다. 이에 따라, 일부 구현에서 제어 시스템은 하나 이상의 프로세서 및 하나 이상의 프로세서에 동작 가능하게 커플링된 하나 이상의 비일시적 저장 매체를 포함할 수 있다.
이러한 일부 예에 따르면, 제어 시스템은, 인터페이스 시스템을 통해, 적어도 하나의 오디오 객체에 대응하는 오디오 데이터를 수신하도록 구성될 수 있다. 일부의 예에서, 오디오 데이터는 모노포닉 오디오 신호, 오디오 객체 위치 메타데이터, 오디오 객체 사이즈 메타데이터 및 렌더링 파라미터를 포함할 수 있다. 일부의 이러한 방법은 렌더링 파라미터가 위치 모드 또는 방향성 모드를 나타내는지를 결정하고, 렌더링 파라미터가 방향성 모드를 나타내는 것으로 결정하면, 위치 메타데이터 및/또는 사이즈 메타데이터에 의해 표시된 방향성 패턴에 따라 적어도 하나의 라우드스피커를 통한 재생을 위해 오디오 데이터를 렌더링하는 것을 포함할 수 있다.
일부의 예에서, 오디오 데이터를 렌더링하는 것은 오디오 객체 위치 메타데이터를 오디오 객체 배향 메타데이터로서 해석하는 것을 포함할 수 있다. 오디오 객체 위치 메타데이터는 예를 들어, x, y, z 좌표 데이터, 구형 좌표 데이터 및/또는 원통형 좌표 데이터를 포함할 수 있다. 일부 사례에서, 오디오 객체 배향 메타데이터는 요(yaw), 피치(pitch) 및 롤(roll) 데이터를 포함할 수 있다.
일부 예에 따르면, 오디오 데이터를 렌더링하는 것은 오디오 객체 사이즈 메타데이터를 방향성 패턴에 대응하는 방향성 메타데이터로서 해석하는 것을 포함할 수 있다. 일부 구현에서, 오디오 데이터를 렌더링하는 것은 복수의 방향성 패턴을 포함하는 데이터 구조를 쿼리하고 위치 메타데이터 및/또는 사이즈 메타데이터를 하나 이상의 방향성 패턴에 매핑하는 것을 포함할 수 있다. 일부 사례에서 제어 시스템은 인터페이스 시스템을 통해 데이터 구조를 수신하도록 구성될 수 있다. 일부의 예에서, 데이터 구조는 오디오 데이터 이전에 수신될 수 있다. 일부 구현에서, 오디오 데이터는 돌비 애트모스(Dolby Atmos) 포맷으로 수신될 수 있다. 오디오 객체 위치 메타데이터는 예를 들어 세계 좌표 또는 모델 좌표에 대응할 수 있다.
본 명세서에서 설명된 주제의 하나 이상의 구현에 대한 세부 사항은 첨부 도면 및 아래의 설명에서 제시된다. 다른 특징, 양태 및 이점은 설명, 도면 및 청구범위로부터 명백해진다. 이하의 도면의 상대적인 치수는 축적에 맞게 그려지지 않을 수 있다. 여러 도면에서 유사한 참조 번호 및 부호는 일반적으로 유사한 요소를 나타낸다.
도 1a는 일례에 따른 오디오 인코딩 방법의 블록을 보여주는 흐름도이다.
도 1b는 일례에 따라 방향성 오디오 객체에 대한 프레임 별 방향성 정보를 동적으로 인코딩하기 위해 인코딩 시스템에 의해 구현될 수 있는 프로세스의 블록을 나타낸다.
도 1c는 일례에 따른 디코딩 시스템에 의해 구현될 수 있는 프로세스의 블록을 나타낸다.
도 2a 및 2b는 2개의 상이한 주파수 대역에서 오디오 객체의 방사 패턴을 나타낸다.
도 2c는 일례에 따른 정규화 및 비정규화 방사 패턴의 예를 보여주는 그래프이다.
도 3은 오디오 데이터 및 다양한 유형의 메타데이터를 포함하는 계층(hierarchy)의 일례를 보여준다.
도 4는 일례에 따른 오디오 디코딩 방법의 블록을 보여주는 흐름도이다.
도 5a는 드럼 심벌즈(cymbal)를 도시한다.
도 5b는 스피커 시스템의 일례를 보여준다.
도 6은 일례에 따른 오디오 디코딩 방법의 블록을 보여주는 흐름도이다.
도 7은 다수의 오디오 객체를 인코딩하는 일례를 나타낸다.
도 8은 본원에 개시된 방법 중 적어도 일부를 수행하도록 구성될 수 있는 장치의 구성 요소의 예를 보여주는 블록도이다.
여러 도면에서 유사한 참조 번호 및 부호는 유사한 요소를 나타낸다.
본 개시의 일 양태는 복잡한 방사 패턴의 표현 및 효율적인 코딩에 관한 것이다. 일부의 이러한 구현은 다음 중 하나 이상을 포함할 수 있다.
1. 실수값의(real-valued) 구형 고조파(SPH) 분해의 시간 및 주파수 의존 N차 계수로서 일반적인 사운드 방사 패턴의 표현(N>=1). 또한 이 표현은 재생 오디오 신호의 레벨에 의존하도록 확장될 수 있다. 방향성 소스 신호 자체는 HOA와 유사한 PCM 표현인 것에 반하여, 모노 객체 신호는, 서브밴드에서 시간 종속적인 스칼라 SPH 계수의 세트로서 표현되는, 그의 방향성 정보와 별도로 인코딩될 수 있다.
2. 이 정보를 표현하는데 요구되는 비트레이트(bitrate)를 낮추기 위한 효율적인 인코딩 스킴(scheme)
3. 수개의 방사 사운드 소스로 구성된 장면을 렌더링시에 그의 지각적 품질을 유지하면서 동일한 저감된 수의 소스에 의해 표현할 수 있도록 방사 패턴을 동적으로 결합하는 솔루션.
본 개시의 일 양태는, 차수 N의(N>=1)의 구형 고조파 기반에 투영된 모노 오디오 객체의 방향성을 나타내는 시간/주파수 의존적 계수의 세트에 의해 각 모노 오디오 객체에 대한 메타데이터를 보완하기 위해, 일반적인 방사 패턴을 표현하는 것에 관한 것이다.
1차 방사 패턴은 미리 정의된 주파수 대역의 세트(예를 들어, 1/3rd 옥타브)에 대한 4개의 스칼라 이득 계수의 세트에 의해 표현될 수 있다. 주파수 대역의 세트는 빈(bin) 또는 서브밴드라고도 알려져 있을 수 있다. 빈 또는 서브밴드는 단시간 푸리에 변환(STFT) 또는 데이터의 단일 프레임(예를 들어, 돌비 애트모스(Dolby Atmos)에서와 같이 512개의 샘플)에 대한 지각 필터뱅크(perceptual filterbank)를 기반으로 결정될 수 있다. 결과로서 얻어진 패턴은 객체 주변의 요구된 방향에서 구형 고조파 분해를 평가함으로써 렌더링될 수 있다.
일반적으로, 이 방사 패턴은 소스의 특성이며 시간에 따라 일정할 수 있다. 그러나 객체가 회전하거나 변경되는 동적 장면을 나타내거나, 또는 데이터에 무작위로 액세스할 수 있도록 하려면, 일정한 시간 간격으로 이 계수의 세트를 업데이트하는 것이 이로울 수 있다. 움직이는 객체가 있는 동적 청각 장면의 맥락에서, 객체 회전의 결과는 객체 배향의 명시적인 별도의 인코딩을 요구하지 않고 시변동의 계수로 직접 인코딩될 수 있다.
각각의 유형의 사운드 소스는, 주파수 대역과 전형적으로 상이한, 특징적인 방사/방출 패턴을 갖는다. 예를 들어, 바이올린은 트럼펫, 드럼 또는 벨과는 매우 다른 방사 패턴을 가질 수 있다. 또한 악기와 같은 사운드 소스는 피아니시모(pianissimo) 및 포르티시모(fortissimo) 연주 레벨에서 다르게 방출될 수 있다. 결과적으로 방사 패턴은 소리를 내는 객체 주변의 방향뿐만 아니라 그가 방출하는 오디오 신호의 압력 레벨의 함수가 될 수 있으며, 여기서 또한 압력 레벨은 시변동하는 것일 수 있다.
이에 따라, 일부 구현은, 공간의 한 지점에서 음장을 단순히 표현하는 대신에, 오디오 객체의 방사 패턴에 대응하는 오디오 데이터를 인코딩하여 그들이 서로 다른 유리한 지점에서 렌더링될 수 있게 하는 것을 포함한다. 일부의 예에서, 방사 패턴은 시간 및 주파수 변동하는 방사 패턴일 수 있다. 인코딩 프로세스에 입력되는 오디오 데이터는, 일부의 경우에, 방향성 마이크로폰으로부터의 오디오 데이터의 복수의 채널(예를 들어 4, 6, 8, 20 또는 그 이상의 채널)을 포함할 수 있다. 각 채널은 방사 패턴이 파생될 수 있는 사운드 소스 주변 공간의 특정 위치에 있는 마이크로폰으로부터의 데이터에 대응할 수 있다. 각각의 마이크로폰으로부터 소스로의 상대적인 방향을 알고 있다고 가정하면, 이것은 결과로서 얻어지는 구형 함수가 각각의 입력된 마이크로폰 신호의 서로 다른 서브밴드에서 관찰된 에너지 레벨과 가장 잘 일치하도록 구형 고조파 계수의 세트를 수치적으로 피팅함으로써 달성될 수 있다. 예를 들어, 본원에 참조로서 포함된 "Nicolas Tsingos" 및 "Pradeep Kumar Govindaraju"의 출원 제PCT/US2017/053946호, 오디오 표현을 결정하기 위한 방법, 시스템 및 장치와 관련하여 설명된 방법 및 시스템을 참조한다. 다른 예에서, 오디오 객체의 방사 패턴은 수치 시뮬레이션(numerical simulation)을 통해 결정될 수 있다.
샘플 레벨에서 방향성 마이크로폰으로부터의 오디오 데이터를 단순히 인코딩하는 대신, 일부 구현은 인코딩된 오디오 객체 중 적어도 일부에 대한 방사 패턴을 나타내는 대응하는 방사 패턴 메타데이터에 의해 모노포닉 오디오 객체 신호를 인코딩하는 것을 포함한다. 일부 구현에서, 방사 패턴 메타데이터는 구형 고조파 데이터로서 표현될 수 있다. 이러한 일부 구현은 평활화 프로세스 및/또는 압축/데이터 감소 프로세스를 포함할 수 있다.
도 1a는 일례에 따른 오디오 인코딩 방법의 블록을 보여주는 흐름도이다. 예를 들어 방법 1은, 하나 이상의 프로세서 및 하나 이상의 비일시적 메모리 디바이스를 포함하는 (도 8을 참조하여 아래에서 설명되는 제어 시스템(815)과 같은) 제어 시스템에 의해 구현될 수 있다. 다른 개시된 방법과 마찬가지로, 방법 1의 모든 블록이 반드시 도 1a에 나타낸 순서대로 수행되는 것은 아니다. 더욱이, 대안적인 방법은 더 많거나 또는 더 적은 블록을 포함할 수 있다.
이 예에서, 블록(5)은, 오디오 객체에 대응하는 모노 오디오 신호를 수신하고 그리고 또 오디오 객체에 대응하는 방사 패턴의 표현을 수신하는 것을 포함한다. 이 구현에 따르면, 방사 패턴은 복수의 샘플 시간, 복수의 주파수 대역 및 복수의 방향에 대응하는 사운드 레벨을 포함한다. 이 예에 따르면, 블록(10)은 모노 오디오 신호를 인코딩하는 것을 포함한다.
도 1a에 나타낸 예에서, 블록(15)은 방사 패턴 메타데이터를 결정하기 위해 소스 방사 패턴을 인코딩하는 것을 포함한다. 이 구현에 따르면, 방사 패턴의 표현을 인코딩하는 것은 방사 패턴의 표현의 구형 고조파 변환을 결정하고, 인코딩된 방사 패턴 메타데이터를 얻기 위해 구형 고조파 변환을 압축하는 것을 포함한다. 일부 구현에서, 방사 패턴의 표현은 정규화된 방사 패턴을 결정하기 위해 주파수별 기반의(on a per frequency basis) 방향으로 입력 방사 패턴의 진폭으로 리스케일링 될 수 있다.
일부의 예에서, 구형 고조파 변환을 압축하는 것은 일부 고차 구형 고조파 계수를 폐기하는 것을 포함할 수 있다. 이러한 일부 예는 구형 고조파 계수의 임계 차수(order) 위의, 예를 들어 차수 3 위의, 차수 4 위의, 차수 5 위 등의 구형 고조파 변환의 구형 고조파 계수를 제거하는 것을 포함할 수 있다.
그러나, 일부 구현은 대안의 및/또는 추가의 압축 방법을 포함할 수 있다. 이러한 일부 구현에 따르면, 구형 고조파 변환을 압축하는 것은 특이값 분해 방법(Singular Value Decomposition method), 주성분 분석(principal component analysis), 이산 코사인 변환(discrete cosine transforms), 데이터 독립적 기반(data-independent bases) 및/또는 다른 방법을 포함할 수 있다.
일부 예에 따르면, 방법 1은 또한 오디오 객체의 그룹 또는 "클러스터"로서 복수의 방향성 오디오 객체를 인코딩하는 것을 포함할 수 있다. 일부 구현은 방향성 오디오 객체의 그룹의 방사 패턴에 관한 그룹 메타데이터를 인코딩하는 것을 포함할 수 있다. 일부의 예에서, 복수의 방향성 오디오 객체는, 방향성이 각 오디오 객체의 구형 고조파 계수의 시변동 에너지-가중 평균과 대응하는 단일의 방향성 오디오 객체로서 인코딩될 수 있다. 이러한 일부의 예에서, 인코딩된 방사 패턴 메타데이터는 각 주파수 대역에 대한 평균 사운드 레벨값에 대응하는 센트로이드를 나타낼 수 있다. 예를 들어, 인코딩된 방사 패턴 메타데이터(또는 관련된 메타데이터)는 클러스터 내의 각 방향성 오디오 객체의 위치의 평균인 오디오 객체의 클러스터의 위치를 나타낼 수 있다.
도 1b는 일례에 따른 방향성 오디오 객체에 대한 프레임별 방향성 정보를 동적으로 인코딩하기 위해 인코딩 시스템(100)에 의해 구현될 수 있는 프로세스의 블록을 나타낸다. 프로세스는 예를 들어, 도 8을 참조하여 아래에 설명되는 제어 시스템(815)과 같은 제어 시스템을 통해 구현될 수 있다. 인코딩 시스템(100)은 위에서 논의된 바와 같은 모노 객체 신호에 대응할 수 있는 모노 오디오 신호(101)를 수신할 수 있다. 모노 오디오 신호(101)는 블록(111)에서 인코딩되고 시리얼라이제이션 블록(112)에 제공될 수 있다.
블록(102)에서, 기준 좌표계에 대한 주파수 대역의 세트에서 상이한 사운드 레벨에서 정적 또는 시변동 방향성 에너지 샘플이 처리될 수 있다. 기준 좌표계는 모델 좌표 공간이나 세계 좌표 공간과 같은 특정 좌표 공간에서 결정될 수 있다.
블록(105)에서, 블록(102)으로부터의 시변동의 방향성 에너지 샘플의 주파수 의존의 리스케일링이 수행될 수 있다. 일례에서, 주파수 의존의 리스케일링은 아래에 설명된 바와 같이 도 2a 내지 도 2c에 나타낸 예에 따라 수행될 수 있다. 정규화는 예를 들어 저주파수 방향에 대한 고주파수에 대한 진폭의 리스케일링에 기초할 수 있다.
주파수 의존의 리스케일링은 코어 오디오 가정 캡쳐 방향(core audio assumed capture direction)에 기초하여 재정규화될 수 있다. 이러한 코어 오디오 가정 캡쳐 방향은 사운드 소스에 대한 청취 방향을 나타낼 수 있다. 예를 들어, 이 청취 방향은 시선 방향이라고 불릴 수 있으며, 시선 방향은 좌표계에 대한 특정 방향(예를 들어, 정방향(forward direction) 또는 역방향(backward direction))일 수 있다.
블록(106)에서, 블록(105)의 리스케일링된 방향성 출력은 구형 고조파 기반에 투영되어 구형 고조파의 계수를 생성할 수 있다.
블록(108)에서, 블록(106)의 구형 계수는 순간 사운드 레벨(107) 및/또는 회전 블록(109)으로부터의 정보에 기초하여 처리된다. 순간 사운드 레벨(107)은 특정 방향으로 특정 시간에 측정될 수 있다. 회전 블록(109)으로부터의 정보는 시변동 소스 배향(103)의 (선택으로서의) 회전을 나타낼 수 있다. 일례에서, 블록(109)에서, 구형 계수는 본래 기록된 입력 데이터에 대한 소스 배향에서의 시간 의존적 수정을 고려하도록 조정될 수 있다.
블록(108)에서, 코어 오디오 신호의 가정된 캡처 방향의 방향에 대해 결정되는 이퀄라이제이션(equalization)에 기초하여 타겟 레벨 결정이 더 수행될 수 있다. 블록(108)은 타겟 레벨 결정에 기초하여 이퀄라이제이션화된 회전된 구형 계수의 세트를 출력할 수 있다.
블록(110)에서, 방사 패턴의 인코딩은 소스 방사 패턴에 관련된 구형 계수의 보다 작은 서브스페이스에의 투영에 기초하여 인코딩된 방사 패턴 메타데이터를 생성할 수 있다. 도 1a에 나타낸 바와 같이, 블록(110)에서, SVD 분해 및 압축 알고리즘이 블록(108)에 의해 출력된 구형 계수에 대해 수행될 수 있다. 일례에서, 블록(110)의 SVD 분해 및 압축 알고리즘은 아래에 설명된 식 11 내지 13과 관련하여 설명되는 원리에 따라 수행될 수 있다.
대안적으로, 블록(110)은 손실 압축이 일어나기 쉽게 하는 공간 내로 구형 고조파 표현
Figure pct00001
를 투영하기 위해 주성분 분석(PCA; Principal Component Analysis) 및/또는 2D DCT와 같은 데이터 독립적 기반과 같은 다른 방법을 활용하는 것을 포함할 수 있다. 블록(110)의 출력은 입력, 즉 인코딩된 방사 패턴 T의 보다 작은 서브스페이스 내로 데이터의 투영을 표현하는 행렬 T일 수 있다. 인코딩된 방사 패턴 T, 인코딩된 코어 모노 오디오 신호(111) 및 임의의 다른 객체 메타데이터(104)(예를 들어, x, y, z, 선택적인 소스 배향 등)은 인코딩된 비트 스트림을 출력하기 위해 시리얼라이제이션 블록(112)에서 시리얼라이즈될 수 있다. 일부의 예에서, 방사 구조는 각각의 인코딩된 오디오 프레임에서 이하의 비트스트림 신택스 구조로 표현될 수 있다:
Byte freqBandModePreset (예를 들어, 광대역, 옥타브, 광대역, 1/3 rd 옥타브, 통상).
(이것은 서브밴드의 중심 주파수 값 및 숫자 N을 결정한다.)
Byte order (구형 고조파 차수 N)
Int * coefficients ( (N+1) *(N+1) * K 값들 )
이러한 신택스는 사운드 소스의 상이한 압력/강도 레벨에 대한 상이한 계수의 세트를 포함할 수 있다. 대안적으로, 방향성 정보가 상이한 신호 레벨에서 이용 가능한 경우, 그리고 소스의 레벨이 재생 시간에 더 이상 결정될 수 없는 경우, 단일한 계수의 세트가 동적으로 생성될 수 있다. 예를 들어, 이러한 계수는 인코딩 시간에 오브젝트 오디오 신호의 시변동 레벨에 기초하여 로우 레벨 계수와 하이 레벨 계수 사이에서 보간함으로써 생성될 수 있다.
또한 모노 오디오 객체 신호에 대한 입력 방사 패턴은 (레코딩된 방향 또는 다수의 레코딩의 평균일 수 있는) 주 응답 축 및 인코딩된 방향성과 같은 주어진 방향으로 '정규화'될 수 있으며, 최종 렌더링은 이 "정규화"와 일치해야 할 수 있다. 일례에서 이 정규화는 메타데이터로서 명시될 수 있다. 일반적으로, 방향성 정보가 적용되지 않은 경우 객체 음색을 잘 표현할 수 있는 코어 오디오 신호를 인코딩하는 것이 바람직하다.
방향성 인코딩
본 개시의 일 양태는, 계수의 수가 분해의 차수에 따라 2차적으로(quadratically) 증가함에 따라, 방향성 정보에 대한 효율적인 인코딩 방식을 구현하는 것에 관한 것이다. 예를 들어 제한된 대역폭 네트워크를 통해 엔드 포인트 렌더링 디바이스로 청각 장면의 최종 방출 전달을 위해 방향성 정보에 대한 효율적인 인코딩 방식이 구현될 수 있다.
각 계수를 표현하기 위해 16비트가 사용된다고 가정하면, 1/3rd 옥타브 대역에서 4차 구형 고조파 표현은 프레임당 25*31~=12kbit를 필요로 할 것이다. 이 정보를 30Hz에서 새로 고치려면(refreshing) 최소 400kbps의 전송 비트레이트가 필요하고, 현재 객체 기반 오디오 코덱이 오디오 및 객체 메타데이터 양쪽 모두를 전송하는데 현재 필요한 것보다 더 많다. 일례에서, 방사 패턴은 다음에 의해 표현될 수 있다:
Figure pct00002
식 1에서
Figure pct00003
는 음향 소스에 대한 이산 적도 각도
Figure pct00004
와 방위각
Figure pct00005
를 나타내고, P는 이산 각도의 총 수를 나타내고 ω는 스펙트럼 주파수를 나타낸다. 도 2a 및 도 2b는 두 개의 상이한 주파수 대역에서 오디오 객체의 방사 패턴을 나타낸다. 예를 들어, 도 2a는 100~300 Hz의 주파수 대역에서 오디오 객체의 방사 패턴을 나타낼 수 있는 반면, 도 2b는 예를 들어 1 kHz에서 2 kHz까지의 주파수 대역에서 동일한 오디오 객체의 방사 패턴을 나타낼 수 있다. 저주파는 상대적으로 무방향성인 경향이 있으므로 도 2a에 나타낸 방사 패턴은 도 2b에 나타낸 방사 패턴보다 상대적으로 더 원형이다. 도 2a에서,
Figure pct00006
는 주 응답 축(200)의 방향으로의 방사 패턴을 나타내는 반면,
Figure pct00007
는 임의의 방향(205)으로의 방사 패턴을 나타낸다.
일부의 예에서, 방사 패턴은 오디오 객체에 대응하는 사운드 소스 주위에 물리적으로 배치된 다수의 마이크로폰에 의해 포착되고 결정될 수 있는 반면, 다른 예에서 방사 패턴은 수치 시뮬레이션을 통해 결정될 수 있다. 다수의 마이크로폰의 예에서, 방사 패턴은 예를 들어 라이브 레코딩을 반영하는 시변동의 것일 수 있다. 방사 패턴은 낮은(예를 들어, <100Hz), 중간(100Hz< 그리고 >1kHz) 및 높은 주파수(>10KHz)를 포함한 다양한 주파수에서 캡처될 수 있다. 방사 패턴은 공간 표현이라고도 알려져 있다.
다른 예에서, 방사 패턴은, 다음과 같이, 특정 방향
Figure pct00008
으로의 특정 주파수에서의 캡처된 방사 패턴에 기초한 정규화를 반영할 수 있다:
Figure pct00009
식 2에서
Figure pct00010
는 주 응답 축의 방향으로의 방사 패턴을 나타낸다. 다시 도 2b를 참조하면, 일례에서 방사 패턴
Figure pct00011
및 정규화된 방사 패턴
Figure pct00012
을 볼 수 있다. 도 2c는 일례에 따른 정규화 및 비정규화 방사 패턴의 예를 보여주는 그래프이다. 이 예에서, 도 2c에서
Figure pct00013
로서 표현되는 주 응답 축의 방향으로의 정규화된 방사 패턴은, 도시된 주파수 대역의 범위에 걸쳐 실질적으로 동일한 진폭을 갖는다. 이 예에서, 도 2c에서
Figure pct00014
로서 표현되는 방향 205으로의 정규화된 방사 패턴(도 2a에 나타냄)은, 도 2c에서
Figure pct00015
로서 표현된 비정규화된 방사 패턴보다 더 높은 주파수에서 상대적으로 더 높은 진폭을 갖는다. 주어진 주파수 대역에 대해, 방사 패턴은 표기의 편의를 위해 일정한 것으로 가정할 수 있지만 실제로는 예를 들어 현악기에 채용되는 상이한 활을 다루는 기술에 의해 시간에 따라 변동할 수 있다.
방사 패턴 또는 그의 파라메트릭 표현이 전송될 수 있다. 방사 패턴의 전처리가 전송 전에 수행될 수 있다. 일례에서, 방사 패턴 또는 파라메트릭 표현은 컴퓨팅 알고리즘에 의해 전처리될 수 있으며, 그 예는 도 1a와 관련하여 나타내져 있다. 전처리 후, 방사 패턴은 예를 들어 다음에 기초하여 직교 구형 기반으로 분해될 수 있다.
Figure pct00016
식 3에서
Figure pct00017
는 공간 표현을 나타내고
Figure pct00018
은 공간 표현보다 적은 요소를 갖는 구형 고조파 표현을 나타낸다.
Figure pct00019
Figure pct00020
사이의 변환은 예를 들어 실제의 완전 정규화된 구형 고조파 사용에 기초할 수 있다:
Figure pct00021
식 4에서
Figure pct00022
는 연관된 르장드르 다항식, 오더
Figure pct00023
, 차수
Figure pct00024
을 나타낸다, 그리고
Figure pct00025
다른 구형 기반도 사용할 수 있다. 이산 데이터에 대해 구형 고조파 변환을 수행하는 모든 접근 방식을 사용할 수 있다. 일례에서, 최소 제곱 접근법은 먼저 변환 행렬
Figure pct00026
를 정의함으로써 사용될 수 있다.
Figure pct00027
따라서 구형 고조파 표현을 다음의 공간 표현과 관련시킨다.
Figure pct00028
식 7에서
Figure pct00029
이다. 구형 고조파 표현 및/또는 공간 표현은 추가 처리를 위해 저장될 수 있다.
의사 역행렬(pseudo-inverse)
Figure pct00030
은 다음 형태의 가중 최소 제곱 솔루션일 수 있다.
Figure pct00031
구형 샘플의 분포가 많은 양의 누락된 데이터를 포함한 경우 정규화된 솔루션을 적용할 수도 있다. 누락된 데이터는 (예를 들어, 마이크로폰 커버리지가 불균일하기 때문에) 이용 가능한 방향성 샘플이 없는 영역 또는 방향에 대응할 수 있다. 많은 경우에 공간 샘플의 분포는 정방 가중치 행렬(identity weighting matrix) W가 허용 가능한 결과를 산출할만큼 충분히 균일하다. 또한 종종 P≫(N + 1)2라고 가정할 수 있으므로 구형 고조파 표현
Figure pct00032
(ω)은 공간 표현
Figure pct00033
보다 적은 요소를 포함하고, 이에 의해 방사 패턴 데이터를 평활화하는 손실 압축의 제1 스테이지가 생성된다.
이제 이산 주파수 대역
Figure pct00034
을 고려한다. 행렬
Figure pct00035
은 각 주파수 대역이 행렬의 열로 표현되도록 적층될 수 있다.
Figure pct00036
즉, 공간 표현
Figure pct00037
은 주파수 빈(bin)/대역/세트에 기초하여 결정될 수 있다. 결과적으로 구형 고조파 표현은 다음에 기초할 수 있다.
Figure pct00038
식 10에서
Figure pct00039
는 구형 고조파 도메인의 모든 이산 주파수에 대한 방사 패턴을 나타낸다.
Figure pct00040
의 인접한 열은 높은 상관 관계가 있어 표현이 중복될 것으로 예상된다. 일부 구현은 다음과 같은 형태의 행렬 분해에 의해
Figure pct00041
를 더 분해하는 것을 포함한다.
Figure pct00042
일부의 실시예는 SVD(Singular Value Decomposition)를 수행하는 것을 포함할 수 있으며, 여기서
Figure pct00043
Figure pct00044
는 왼쪽 및 오른쪽의 특이 행렬을 나타내고,
Figure pct00045
는 그 대각선을 따라 특이값이 감소하는 행렬을 나타낸다. 행렬 V 정보는 수신되거나 저장될 수 있다. 대안으로서, PCA(Principal Component Analysis) 및 2D DCT와 같은 데이터 독립적 기반을 사용하여 손실 압축이 일어나기 쉽게 하는 공간 내로
Figure pct00046
를 투영할 수 있다.
O=(N+1)2라고 하자. 일부의 예에서, 압축을 달성하기 위해, 인코더는 다음에 기초하여 적(product)을 연산함으로써 더 작은 특이값에 대응하는 구성 요소를 폐기할 수 있다:
Figure pct00047
식 12에서
Figure pct00048
는 Σ의 트런케이티드 카피(truncated copy)를 나타낸다. 행렬 T는 입력의 더 작은 서브스페이스 내로의 데이터의 투영을 나타낼 수 있다. T는 이어서 추가의 처리를 위해 전송되는 인코딩된 방사 패턴 데이터를 나타낸다. 디코딩 시 수신 측에서, 일부의 예에서 행렬 T가 수신될 수 있고
Figure pct00049
에 대한 로우 랭크(low-rank) 근사가 다음에 기초하여 재구축될 수 있다:
Figure pct00050
식 13에서
Figure pct00051
는 V의 트런케이티드 카피를 나타낸다. 행렬 V는 디코더 측에서 전송되거나 저장될 수 있다.
다음은 트런케이티드 분해 및 트런케이티드 우측 특이 벡터를 전송하는 세 가지 예이다.
1. 송신기는 각각의 객체에 대해 인코딩된 방사선 T 및 트런케이티드 우측 특이 벡터
Figure pct00052
를 독립적으로 전송할 수 있다.
2. 객체는 예를 들어 유사도 측정에 따라 그룹화될 수 있으며 U 및 V는 다수의 객체에 대한 대표 베이스로 연산될 수 있다. 따라서 인코딩된 방사선 T는 객체별로 전송될 수 있고 U 및 V는 객체 그룹별로 전송될 수 있다.
3. 좌측 및 우측 특이 행렬 U 및 V는 대표 데이터(예를 들어, 훈련 데이터)의 대규모 데이터베이스에서 미리 연산될 수 있으며 V에 관한 정보는 수신기 측에 저장될 수 있다. 그러한 일부의 예에서, 인코딩된 방사선 T만이 객체별로 전송될 수 있다. DCT는 수신기 측에 저장될 수 있는 베이스의 다른 예이다.
방향 객체의 공간 코딩
다수의 객체로 구성된 복잡한 청각 장면을 인코딩하여 전송하는 경우, 장면의 청각 인식을 가장 잘 보존하는 방식으로 개별 객체가 더 적은 수의 대표 클러스터에 의해 대체되는 공간 코딩 기술을 적용하는 것이 가능하다. 일반적으로, 사운드 소스 그룹을 대표 "센트로이드"로 대체하려면 각 메타데이터 필드에 대한 합계/평균 값을 연산할 것이 요구된다. 예를 들어, 사운드 소스의 클러스터의 위치는 각 소스의 위치의 평균이 될 수 있다. 위에 개략 설명된 구형 고조파 분해를 사용하여 각 소스의 방사 패턴을 표현함으로써(예를 들어, 식 1 내지 12 참조), 소스의 클러스터에 대한 평균 방사 패턴을 구축하기 위해 각 소스에 대한 각 서브밴드의 계수의 세트를 선형적으로 결합할 수 있다. 시간 경과에 따른 구형 고조파 계수의 라우드니스(loudness) 또는 에너지-가중 평균을 연산함으로써, 본래의 장면을 더 잘 보존하는 시변동하며 지각적으로 최적화된 표현을 구축할 수 있다.
도 1c는 일례에 따른 디코딩 시스템에 의해 구현될 수 있는 프로세스의 블록을 나타낸다. 도 1c에 나타낸 블록은, 예를 들어, 하나 이상의 프로세서 및 하나 이상의 비일시적 메모리 디바이스를 포함하는, (도 8을 참조하여 아래에 설명되는 제어 시스템(815)과 같은) 디코딩 디바이스의 제어 시스템에 의해 구현될 수 있다. 블록(150)에서, 메타데이터 및 인코딩된 코어 모노 오디오 신호가 수신되고 디시리얼라이즈될 수 있다. 디시리얼라이즈된 정보는 객체 메타데이터(151), 인코딩된 코어 오디오 신호 및 인코딩된 구형 계수를 포함할 수 있다. 블록(152)에서, 인코딩된 코어 오디오 신호는 디코딩될 수 있다. 블록(153)에서, 인코딩된 구형 계수는 디코딩될 수 있다. 인코딩된 방사 패턴 정보는 인코딩된 방사 패턴 T 및/또는 매트릭스 V를 포함할 수 있다. 매트릭스 V는 공간에
Figure pct00053
를 투영하는데 사용되는 방법에 의존할 것이다. 도 1b의 블록(110)에서 SVD 알고리즘이 사용되면, 행렬 V는 디코딩 시스템에 의해 수신되거나 저장될 수 있다.
객체 메타데이터(151)는 소스 대 청취자 상대 방향과 관련한 정보를 포함할 수 있다. 일례에서, 메타데이터(151)는 청취자의 거리 및 방향, 6DoF 공간에 대한 하나 이상의 객체 거리 및 방향에 관한 정보를 포함할 수 있다. 예를 들어, 메타데이터(151)는 6DoF 공간에서 소스의 상대적인 회전, 거리 및 방향에 관련한 정보를 포함할 수 있다. 클러스터에 있는 다수의 객체의 예에서, 메타데이터 필드는 객체의 클러스터의 합계/평균 값을 반영하는 대표 "센트로이드"에 관련한 정보를 반영할 수 있다.
이어서 렌더러(154)는 디코딩된 코어 오디오 신호 및 디코딩된 구형 고조파 계수를 렌더링할 수 있다. 일례에서, 렌더러(154)는 객체 메타데이터(151)에 기초하여 디코딩된 코어 오디오 신호 및 디코딩된 구형 고조파 계수를 렌더링할 수 있다. 렌더러(154)는, 예를 들어 소스 대 청취자 상대 방향과 같은 메타데이터(151)로부터의 정보에 기초하여 방사 패턴의 구형 계수에 대한 서브밴드 이득을 결정할 수 있다. 이어서 렌더러(154)는, 대응하는 디코딩된 방사 패턴(들), 소스 및/또는 청취자 포즈 정보(예를 들어, x, y, z, 요, 피치, 롤)(155)의 결정된 서브밴드 이득에 기초하여 코어 오디오 객체 신호를 렌더링할 수 있다. 청취자 포즈 정보는 6DoF 공간에서 사용자의 위치 및 시선 방향에 대응할 수 있다. 청취자 포즈 정보는, 예를 들어 광학 추적 장치와 같은 VR 재생 시스템에 로컬한 소스로부터 수신될 수 있다. 소스 포즈 정보는 공간에서 소리를 내는 객체의 위치 및 배향에 대응한다. 또한 로컬 추적 시스템으로부터, 예를 들어 사용자의 손이 추적되고 가상의 소리를 내는 객체를 상호작용적으로 조작하는 것인지, 또는 추적된 물리적 프롭(prop)/프록시(proxy) 객체가 사용되는 지를 추론할 수 있다.
도 3은 오디오 데이터 및 여러가지 유형의 메타데이터를 포함하는 계층의 일례를 보여준다. 본원에 제공된 다른 도면과 마찬가지로, 도 3에 나타낸 오디오 데이터 및 메타데이터의 수와 유형은 단지 예로서 제공된다. 일부 인코더는 도 3에 나타낸 오디오 데이터 및 메타데이터의 완전한 세트(데이터 세트(345))를 제공할 수 있는 반면, 다른 인코더는 도 3에 나타낸 메타데이터의 일부만을, 예를 들어 데이터 세트(315)만을, 데이터 세트(325)만을 또는 데이터 세트(335)만을 제공할 수 있다.
이 예에서, 오디오 데이터는 모노포닉 오디오 신호(301)를 포함한다. 모노포닉 오디오 신호(301)는 본원에서 때때로 "코어 오디오 신호"로서 지칭될 수 있는 것의 일례이다. 그러나, 일부의 예에서 코어 오디오 신호는 클러스터에 포함된 복수의 오디오 객체에 대응하는 오디오 신호를 포함할 수 있다.
이 예에서, 오디오 객체 위치 메타데이터(305)는 데카르트 좌표로서 표현된다. 그러나 대안적인 예에서, 오디오 객체 위치 메타데이터(305)는 구형 또는 극 좌표와 같은 다른 유형의 좌표를 통해 표현될 수 있다. 이에 따라서, 오디오 객체 위치 메타데이터(305)는 3자유도(3DoF) 위치 정보를 포함할 수 있다. 이 예에 따르면, 오디오 객체 메타데이터는 오디오 객체 사이즈 메타데이터(310)를 포함한다. 대안적인 예에서, 오디오 객체 메타데이터는 하나 이상의 다른 유형의 오디오 객체 메타데이터를 포함할 수 있다.
이 구현에서, 데이터 세트(315)는 모노포닉 오디오 신호(301), 오디오 객체 위치 메타데이터(305) 및 오디오 객체 사이즈 메타데이터(310)를 포함한다. 데이터 세트(315)는, 예를 들어 Dolby Atmos ™ 오디오 데이터 포맷으로 제공될 수 있다.
이 예에서, 데이터 세트(315)는 또한, 선택으로서의 렌더링 파라미터 R을 포함한다. 일부 개시된 구현에 따르면, 선택으로서의 렌더링 파라미터 R은 데이터 세트(315)의 오디오 객체 메타데이터 중 적어도 일부가 그의 "정상적인" 의미(예를 들어, 위치 또는 사이즈 메타데이터로서)로 해석되어야 하는지 또는 방향성 메타데이터로서 해석되어야하는지를 나타낼 수 있다. 일부 개시된 구현에서, "정상" 모드는 본원에서 "위치 모드"라 지칭될 수 있으며, 대안의 모드는 본원에서 "방향성 모드"라 지칭될 수 있다. 도 5a 내지 도 6을 참조하여 몇몇의 예를 아래에 설명한다.
이 예에 따르면, 배향 메타데이터(320)는 오디오 객체의 요, 피치 및 롤을 표현하기 위한 각도 정보를 포함한다. 이 예에서, 배향 메타데이터(320)는 요, 피치 및 롤을 ф, θ 및 ψ로서 표시한다. 데이터 세트(325)는 6자유도(6DoF) 애플리케이션을 위해 오디오 객체를 배향하기에 충분한 정보를 포함한다.
이 예에서, 데이터 세트(335)는 오디오 객체 유형 메타데이터(330)를 포함한다. 일부 구현에서, 오디오 객체 유형 메타데이터(330)는 대응하는 방사 패턴 메타데이터를 나타내기 위해 사용될 수 있다. 인코딩된 방사 패턴 메타데이터는 디코딩된 방사 패턴을 결정하기 위해 (예를 들어, 디코더로부터 오디오 데이터를 수신하는 디바이스 또는 디코더에 의해) 사용될 수 있다. 일부의 예에서, 오디오 객체 유형 메타데이터(330)는, 본질적으로 "나는 트럼펫이다", "나는 바이올린이다" 등을 나타낼 수 있다. 일부의 예에서, 디코딩 디바이스는 오디오 객체 유형들 및 대응하는 방향성 패턴들의 데이터베이스에 대한 액세스를 가질 수 있다. 일부 예에 따르면, 데이터베이스는 인코딩된 오디오 데이터와 함께, 또는 오디오 데이터의 전송 전에 제공될 수 있다. 이러한 오디오 객체 유형 메타데이터(330)는 본원에서 "데이터베이스 방향성 패턴 데이터"로서 지칭될 수 있다.
일부 예에 따르면, 오디오 객체 유형 메타데이터는 파라메트릭 방향성 패턴 데이터를 나타낼 수 있다. 일부의 예에서, 오디오 객체 유형 메타데이터(330)는 지정된 파워의 코사인 함수에 대응하는 방향성 패턴을 나타낼 수 있으며, 카디오이드 함수 등을 나타낼 수 있다.
일부의 예에서, 오디오 객체 유형 메타데이터(330)는 방사 패턴이 한 세트의 구형 고조파 계수들과 대응함을 나타낼 수 있다. 예를 들어, 오디오 객체 유형 메타데이터(330)는 구형 고조파 계수(340)가 데이터 세트(345)에 제공되고 있음을 나타낼 수 있다. 이러한 일부의 예에서, 구형 고조파 계수(340)는, 예를 들어 위에서 설명한 바와 같은 시변동하는 및/또는 주파수 변동하는 구형 고조파 계수의 세트일 수 있다. 그러한 정보는 도 3에 나타낸 나머지 메타데이터 계층과 비교하여 가장 많은 양의 데이터를 요구할 수 있다. 그러므로, 이러한 일부의 예에서, 구형 고조파 계수(340)는 모노포닉 오디오 신호(301) 및 대응하는 오디오 객체 메타데이터와 별도로 제공될 수 있다. 예를 들어, 구형 고조파 계수(340)는, 실시간 작업(예를 들어, 게임, 영화, 뮤지컬 공연 등을 위한 실시간 렌더링 작업)이 시작되기 전에, 오디오 데이터의 전송 시작에서 제공될 수 있다.
일부 구현에 따르면, 오디오를 재생 시스템에 제공하는 디바이스와 같은 디코더 측의 디바이스는 재생 시스템의 능력을 결정하고 그 능력에 따라 방향성 정보를 제공할 수 있다. 예를 들어, 전체 데이터 세트(345)가 디코더에 제공되더라도, 이러한 일부 구현에서 방향성 정보의 사용 가능한 부분만이 재생 시스템에 제공될 수 있다. 일부의 예에서, 디코딩 디바이스는 디코딩 디바이스의 능력에 따라 어느 방향성 정보의 유형(들)을 사용할지를 결정할 수 있다.
도 4는 일례에 따른 오디오 디코딩 방법의 블록을 보여주는 흐름도이다. 방법(400)은, 예를 들어, 하나 이상의 프로세서 및 하나 이상의 비일시적 메모리 디바이스를 포함하는 (도 8을 참조하여 아래에서 설명되는 제어 시스템(815)과 같은) 디코딩 디바이스의 제어 시스템에 의해 구현될 수 있다. 다른 개시된 방법과 마찬가지로, 방법(400)의 모든 블록이 반드시 도 4에 나타낸 순서대로 수행되는 것은 아니다. 더욱이, 대안적인 방법은 더 많거나 또는 더 적은 블록을 포함할 수 있다.
이 예에서, 블록(405)은 인코딩된 코어 오디오 신호, 인코딩된 방사 패턴 메타데이터 및 인코딩된 오디오 객체 메타데이터를 수신하는 것을 포함한다. 인코딩된 방사 패턴 메타데이터는 오디오 객체 유형 메타데이터를 포함할 수 있다. 인코딩된 코어 오디오 신호는, 예를 들어 모노포닉 오디오 신호를 포함할 수 있다. 일부의 예에서, 오디오 객체 메타데이터는 3DoF 위치 정보, 6DoF 위치 및 소스 배향 정보, 오디오 객체 사이즈 메타데이터 등을 포함할 수 있다. 오디오 객체 메타데이터는 일부 사례에서 시변동일 수 있다.
이 예에서, 블록(410)은 코어 오디오 신호를 결정하기 위해 인코딩된 코어 오디오 신호를 디코딩하는 것을 포함한다. 여기서, 블록(415)은 디코딩된 방사 패턴을 결정하기 위해 인코딩된 방사 패턴 메타데이터를 디코딩하는 것을 포함한다. 이 예에서, 블록(420)은 다른 인코딩된 오디오 객체 메타데이터 중 적어도 일부를 디코딩하는 것을 포함한다. 여기서, 블록(430)은 오디오 객체 메타데이터(예를 들어, 오디오 객체 위치, 배향 및/또는 사이즈 메타데이터) 및 디코딩된 방사 패턴에 기초하여 코어 오디오 신호를 렌더링하는 것을 포함한다.
블록(415)은 특정 구현에 따라 여러가지 유형의 동작을 포함할 수 있다. 일부 사례에서 오디오 객체 유형 메타데이터는 데이터베이스 방향성 패턴 데이터를 나타낼 수 있다. 디코딩된 방사 패턴을 결정하기 위해 인코딩된 방사 패턴 메타데이터를 디코딩하는 것은 오디오 객체 유형 및 대응하는 방향성 패턴 데이터를 포함하는 방향성 데이터 구조를 쿼리하는 것을 포함할 수 있다. 일부의 예에서, 오디오 객체 유형 메타데이터는 코사인 함수, 사인 함수 또는 카디오이드 함수에 대응하는 방향성 패턴 데이터와 같은 파라메트릭 방향성 패턴 데이터를 나타낼 수 있다.
일부 구현에 따르면, 오디오 객체 유형 메타데이터는 시변동하는 및/또는 주파수 변동하는 구형 고조파 계수의 세트와 같은 동적 방향성 패턴 데이터를 나타낼 수 있다. 이러한 일부 구현은 인코딩된 코어 오디오 신호를 수신하기 전에 동적 방향성 패턴 데이터를 수신하는 것을 포함할 수 있다.
일부 사례에 있어서 블록(405)에서 수신된 코어 오디오 신호는 클러스터에 포함된 복수의 오디오 객체에 대응하는 오디오 신호를 포함할 수 있다. 일부 그러한 예에 따르면, 코어 오디오 신호는 복수의 방향성 오디오 객체를 포함할 수 있는 오디오 객체의 클러스터에 기초할 수 있다. 블록(415)에서 결정된 디코딩된 방사 패턴은 클러스터의 센트로이드에 대응할 수 있으며 복수의 방향성 오디오 객체 각각의 각 주파수 대역에 대한 평균 값을 나타낼 수 있다. 블록(430)의 렌더링 프로세스는, 디코딩된 방사 데이터에 적어도 부분적으로 기초하여, 디코딩된 코어 오디오 신호에 대해 서브밴드 이득을 적용하는 것을 포함할 수 있다. 일부의 예에서, 신호는, 디코딩 및 코어 오디오 신호에 대한 방향성 처리의 적용 후, 오디오 객체 위치 메타데이터, 및 헤드폰을 통한 양쪽 귀의(binaural) 렌더링, 재생 환경의 라우드스피커를 사용한 렌더링 등과 같은 알려진 렌더링 프로세스를 사용하여 청취자 위치에 대한 의도된 위치에 보다 더 가상화될 수 있다.
도 3을 참조하여 위에서 논의된 바와 같이, 일부 구현에서 오디오 데이터는 렌더링 파라미터(도 3에서 R로 표시됨)를 수반할 수 있다. 렌더링 파라미터는 돌비 애트모스(Dolby Atmos) 메타데이터와 같은 적어도 일부의 오디오 객체 메타데이터가 정상적인 방식으로(예를 들어, 위치 또는 사이즈 메타데이터로서) 해석되어야하는지 또는 방향성 메타데이터로서 해석되어야하는지를 나타낼 수 있다. 정상 모드는 "위치 모드"라 지칭될 수 있고 대안의 모드는 본원에서 "방향성 모드"라 지칭될 수 있다. 이에 따라, 일부의 예에서 렌더링 파라미터는 적어도 일부의 오디오 객체 메타데이터를 스피커에 대한 방향성으로서 해석할지, 또는 방이나 다른 재생 환경에 대한 위치로서 해석할지를 나타낼 수 있다. 이러한 구현은, 예를 들어 아래에 설명된 바와 같이 다수의 드라이버를 갖는 스마트 스피커를 사용하는 방향성 렌더링에 특히 유용할 수 있다.
도 5a는 드럼 심벌즈를 나타낸다. 이 예에서, 드럼 심벌즈(505)는 실질적으로 수직의 주 응답 축(515)을 갖는 방향성 패턴(510)을 갖는 사운드를 방출하는 것으로 도시되어 있다. 또한 방향성 패턴(510) 자체는, 주 응답 축(515)으로부터 어느 정도 퍼져나가며 주로 수직이다.
도 5b는 스피커 시스템의 일례를 보여준다. 이 예에서, 스피커 시스템(525)은 상방을 포함한 여러 방향으로 소리를 방출하도록 구성된 다수의 스피커/변환기를 포함한다. 어떤 경우, 최상단 스피커를 종래의 돌비 애트모스 방식("위치 모드")으로 사용하여 위치를 렌더링할 수 있으며, 예를 들어, 사운드가 천장에서 반사되어 높낮이(height)/천장(ceiling) 스피커를 시뮬레이션하도록 할 수 있다(z=1). 그러한 일부의 사례에서, 대응하는 돌비 애트모스 렌더링은 특정 위치를 갖는 오디오 객체의 인식을 향상시키는 추가적인 높이 가상화 처리를 포함할 수 있다.
다른 사용 사례에서, 예를 들어 드럼, 심벌즈, 또는 도 5a에 나타낸 방향성 패턴(510)과 유사한 방향성 패턴을 갖는 다른 오디오 객체의 방향성 패턴을 시뮬레이션하도록, 동일한 상향 발사 스피커(들)가 "방향성 모드"에서 작동될 수 있다. 일부 스피커 시스템(525)은 원하는 방향성 패턴의 구성을 도울 수 있는 빔형성(beamforming)이 가능할 수 있다. 일부의 예에서, 특정 위치를 갖는 오디오 객체의 인식을 감소시키기 위해, 가상화 처리가 수반되지 않을 수 있다.
도 6은 일례에 따른 오디오 디코딩 방법의 블록을 보여주는 흐름도이다. 방법(600)은, 예를 들어, 하나 이상의 프로세서 및 하나 이상의 비일시적 메모리 디바이스를 포함한 (도 8을 참조하여 아래에 설명되는 제어 시스템(815)과 같은) 디코딩 디바이스의 제어 시스템에 의해 구현될 수 있다. 다른 개시된 방법과 마찬가지로, 방법(600)의 모든 블록이 반드시 도 6에 도시된 순서대로 수행되는 것은 아니다. 더욱이, 대안적인 방법은 더 많거나 또는 더 적은 블록을 포함할 수 있다.
이 예에서, 블록(605)은 적어도 하나의 오디오 객체에 대응하는 오디오 데이터를 수신하는 것을 포함하고, 상기 오디오 데이터는 모노포닉 오디오 신호, 오디오 객체 위치 메타데이터, 오디오 객체 사이즈 메타데이터, 및 렌더링 파라미터를 포함한다. 이 구현에서, 블록(605)은 (도 8의 인터페이스 시스템(810)과 같은) 디코딩 디바이스의 인터페이스 시스템을 통해 이들 데이터를 수신하는 것을 포함한다. 일부의 사례에서, 오디오 데이터는 Dolby Atmos ™ 포맷으로 수신될 수 있다. 오디오 객체 위치 메타데이터는, 특정 구현에 따라, 세계 좌표 또는 모델 좌표에 대응할 수 있다.
이 예에서, 블록(610)은 렌더링 파라미터가 위치 모드 또는 방향성 모드를 나타내는지를 결정하는 것을 포함한다. 도 6에 도시된 예에서, 렌더링 파라미터가 방향성 모드를 나타내는 것으로 결정되면, 블록(615)에서 오디오 데이터는 위치 메타데이터 또는 사이즈 메타데이터 중 적어도 하나에 의해 나타내지는 방향성 패턴에 따라 (예를 들어, 적어도 하나의 라우드스피커를 통해, 헤드폰 등을 통해) 재생을 위해 렌더링 된다. 예를 들어, 방향성 패턴은 도 5a에 나타낸 것과 유사할 수 있다.
일부의 예에서, 오디오 데이터를 렌더링하는 것은 오디오 객체 위치 메타데이터를 오디오 객체 배향 메타데이터로서 해석하는 것을 포함할 수 있다. 오디오 객체 위치 메타데이터는 데카르트(Cartesian)/x, y, z 좌표 데이터, 구형 좌표 데이터 또는 원통형 좌표 데이터일 수 있다. 오디오 객체 배향 메타데이터는 요, 피치 및 롤 메타데이터일 수 있다.
일부 구현에 따르면, 오디오 데이터를 렌더링하는 것은 오디오 객체 사이즈 메타데이터를 방향성 패턴에 대응하는 방향성 메타데이터로서 해석하는 것을 포함할 수 있다. 이러한 일부의 예에서, 오디오 데이터를 렌더링하는 것은 복수의 방향성 패턴을 포함하는 데이터 구조를 쿼리하고 위치 메타데이터 또는 사이즈 메타데이터 중 적어도 하나를 방향성 패턴 중 하나 이상에 매핑하는 것을 포함할 수 있다. 이러한 일부 구현은 인터페이스 시스템을 통해 데이터 구조를 수신하는 것을 포함할 수 있다. 일부 그러한 구현에 따르면, 데이터 구조는 오디오 데이터 이전에 수신될 수 있다.
도 7은 다수의 오디오 객체를 인코딩하는 일례를 나타낸다. 일례에서, 객체 1-n 정보(701, 702, 703) 등이 인코딩될 수 있다. 일례에서, 오디오 객체(701-703)에 대한 대표 클러스터는 블록(710)에서 결정될 수 있다. 일례에서, 사운드 소스의 그룹은 집약되며 메타데이터 필드에 대한 합계/평균 값을 연산하는 것을 포함하는 대표 "센트로이드"에 의해 표현될 수 있다. 예를 들어, 사운드 소스의 클러스터의 위치는 각 소스의 위치의 평균이 될 수 있다. 블록(720)에서, 대표 클러스터에 대한 방사 패턴이 인코딩될 수 있다. 일부의 예에서, 클러스터에 대한 방사 패턴은 도 1a 또는 도 1b를 참조하여 위에서 설명된 원리에 따라 인코딩될 수 있다.
도 8은 본원에 개시된 방법 중 적어도 일부를 수행하도록 구성될 수 있는 장치의 구성 요소의 예를 보여주는 블록도이다. 예를 들어, 장치(805)는 도 1a 내지 도 1c, 도 4, 도 6 및/또는 도 7을 참조하여 위에서 설명된 방법 중 하나 이상을 수행하도록 구성될 수 있다. 일부의 예에서, 장치(805)는 개인용 컴퓨터, 데스크톱 컴퓨터 또는 오디오 처리를 제공하도록 구성된 다른 로컬 디바이스이거나, 또는 이들을 포함할 수 있다. 일부의 예에서, 장치(805)는 서버일 수 있거나 서버를 포함할 수 있다. 일부 예에 따르면, 장치(805)는 네트워크 인터페이스를 통해 서버와 통신하도록 구성된 클라이언트 디바이스일 수 있다. 장치(805)의 구성 요소는 하드웨어를 통해, 비일시적 매체에 저장된 소프트웨어를 통해, 펌웨어를 통해 및/또는 이들의 조합에 의해 구현될 수 있다. 본원에 개시된 다른 도면들뿐만 아니라, 도 8에 나타낸 구성 요소의 유형 및 수는 단지 예로서 나타낸 것이다. 대안적인 구현은 더 많거나, 더 적거나, 및/또는 상이한 구성 요소를 포함할 수 있다.
이 예에서, 장치(805)는 인터페이스 시스템(810) 및 제어 시스템(815)을 포함한다. 인터페이스 시스템(810)은 하나 이상의 네트워크 인터페이스, 제어 시스템(815)과 메모리 시스템 사이의 하나 이상의 인터페이스 및/또는 (하나 이상의 USB(universal serial bus) 인터페이스와 같은) 하나 이상의 외부 디바이스 인터페이스를 포함할 수 있다. 일부 구현에서, 인터페이스 시스템(810)은 사용자 인터페이스 시스템을 포함할 수 있다. 사용자 인터페이스 시스템은 사용자로부터 입력을 수신하도록 구성될 수 있다. 일부 구현에서, 사용자 인터페이스 시스템은 사용자에게 피드백을 제공하도록 구성될 수 있다. 예를 들어, 사용자 인터페이스 시스템은 대응하는 터치 및/또는 제스처 검출 시스템을 갖는 하나 이상의 디스플레이를 포함할 수 있다. 일부의 예에서, 사용자 인터페이스 시스템은 하나 이상의 마이크로폰 및/또는 스피커를 포함할 수 있다. 일부 예에 따르면, 사용자 인터페이스 시스템은 모터, 진동기 등과 같은 햅틱 피드백을 제공하기 위한 장치를 포함할 수 있다. 제어 시스템(815)은, 예를 들어 범용의 단일칩 또는 다중칩 프로세서, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), FPGA(Field Programmable Gate Array) 또는 다른 프로그래머블 논리 디바이스, 디스크리트 게이트 또는 트랜지스터 로직, 및/또는 디스크리트 하드웨어 구성 요소를 포함할 수 있다.
일부의 예에서, 장치(805)는 단일 디바이스로 구현될 수 있다. 그러나, 일부 구현에서, 장치(805)는 하나보다 많은 디바이스로 구현될 수 있다. 이러한 일부 구현에서, 제어 시스템(815)의 기능은 하나보다 많은 디바이스에 포함될 수 있다. 일부의 예에서, 장치(805)는 다른 디바이스의 구성 요소일 수 있다.
본 개시의 다양한 예시적인 실시예는 하드웨어 또는 특수 목적 회로, 소프트웨어, 로직 또는 이들의 임의의 조합으로 구현될 수 있다. 일부 양태는 하드웨어로 구현될 수 있는 반면, 다른 양태는 컨트롤러, 마이크로 프로세서 또는 다른 컴퓨팅 디바이스에 의해 실행될 수 있는 펌웨어 또는 소프트웨어로 구현될 수 있다. 일반적으로, 본 개시는 위에서 설명된 방법을 수행하기에 적합한 장치, 예를 들어 메모리 및 메모리에 커플링된 프로세서를 갖는 장치(공간 렌더러) 또한 포함하는 것으로 이해되며, 여기서 프로세서는 명령을 실행하고 본 개시의 실시예에 따른 방법을 수행하도록 구성된다.
본 개시의 예시적인 실시예의 다양한 양태가 블록도, 흐름도, 또는 다른 도면적 표현을 사용하여 예시되고 설명되었지만, 본원에 설명된 블록, 장치, 시스템, 기술 또는 방법은, 비제한적인 예로서, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로 또는 로직, 범용 하드웨어 또는 컨트롤러, 또는 다른 컴퓨팅 디바이스, 또는 이들의 조합으로 구현될 수 있음을 이해할 수 있다.
추가적으로, 흐름도에 나타낸 다양한 블록은 방법 단계로서, 및/또는 컴퓨터 프로그램 코드의 실행으로부터 얻어지는 동작으로서 및/또는 관련 기능(들)을 수행하도록 구성된 복수의 결합된 논리 회로 요소로서 볼 수 있다. 예를 들어, 본 개시의 실시예는 기계-판독가능 매체 상에서 실체적으로 구현된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 여기서 컴퓨터 프로그램은 전술한 방법을 수행하도록 구성된 프로그램 코드를 포함한다.
본 개시의 맥락에서, 기계-판독가능 매체는 명령어 실행 시스템, 장치 또는 디바이스에 의해 또는 이와 관련하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 임의의 유형의 매체일 수 있다. 기계-판독가능 매체는 기계-판독가능 신호 매체 또는 기계-판독가능 저장 매체일 수 있다. 기계-판독가능 매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템, 장치, 또는 디바이스, 또는 이들의 임의의 적절한 조합을 포함할 수 있지만 이에 제한되지 않는다. 기계 판독가능 저장 매체의 보다 구체적인 예는, 하나 이상의 배선을 갖는 전기적 연결, 휴대용 컴퓨터 디스켓, 하드 디스크, RAM(Random Access Memory), ROM(Read-Only Memory), 소거가능 프로그래머블 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 디바이스, 자기 저장 디바이스, 또는 이들의 적절한 조합을 포함한다.
본 개시의 방법을 수행하기 위한 컴퓨터 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 이들 컴퓨터 프로그램 코드는 범용 컴퓨터, 특수 목적 컴퓨터, 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서에 제공될 수 있으며, 프로그램 코드는 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서에 의해 실행될 때 순서도 및/또는 블록 다이어그램에 지정된 구현하려는 기능/동작을 일으킨다. 프로그램 코드는 전적으로 하나의 컴퓨터 상에서, 일부는 컴퓨터 상에서, 독립형 소프트웨어 패키지로서, 일부는 컴퓨터에서 그리고 일부는 원격 컴퓨터에서 또는 전적으로 원격 컴퓨터나 서버에서 실행할 수 있다.
또한, 동작은 특정 순서로 도시되어 있지만, 바람직한 결과를 얻기 위해 이러한 동작이 도시된 특정 순서로 또는 순차적으로 수행되거나 모든 예시된 동작이 수행될 것을 요구하는 것으로서 이해되어서는 안된다. 특정 상황에서는 멀티태스킹 및 병렬 처리가 유리할 수 있다. 마찬가지로, 몇몇 특정 구현 세부 사항이 위의 논의에 포함되어 있지만, 이는 임의의 발명의 범위, 또는 청구된 바에 대한 제한으로서 해석되어서는 안되며, 이와는 달리 특정 발명의 특정 실시예에 특유할 수 있는 특징에 대한 설명으로서 해석되어야 한다. 별도의 실시예의 맥락에서 본 명세서에서 설명된 특정한 특징은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 맥락에서 설명된 다양한 특징은 또한 다수의 실시예에서 개별적으로 또는 임의의 적절한 하위 조합으로 구현될 수 있다.
설명 및 도면은 단지 제안된 방법 및 장치의 원리를 예시한다는 점에 유의해야 한다. 따라서 당업자는, 본원에 명시적으로 설명되거나 도시되지 않았지만, 본 발명의 원리를 구현하고 본 발명의 사상 및 범위 내에 포함되는 다양한 배열을 안출할 수 있음을 이해할 것이다. 더욱이, 본원에 언급된 모든 예는 주로 읽는 이가 제안된 방법 및 장치의 원리, 및 본 발명자가 기술을 발전시키는 데 기여한 개념을 이해하는데 도움이 되기 위한 교육적 목적만을 위한 것이며, 구체적으로 언급된 예 및 조건에 대해 제한이 없는 것으로 해석되어야 한다. 더욱이, 본 발명의 특정 예뿐만 아니라, 본 발명의 원리, 양태 및 실시예를 언급하는 모든 진술은 그 등가물을 포함하는 것을 의도하고 있다.

Claims (26)

  1. 방향성 오디오 데이터를 인코딩하기 위한 방법으로서,
    오디오 객체에 대응하는 모노 오디오 신호 및 상기 오디오 객체에 대응하는 방사 패턴의 표현을 수신하는 단계 - 상기 방사 패턴은 복수의 샘플 시간, 복수의 주파수 대역 및 복수의 방향에 대응하는 사운드 레벨을 포함함 - ;
    상기 모노 오디오 신호를 인코딩하는 단계; 및
    방사 패턴 메타데이터를 결정하기 위해 상기 소스 방사 패턴을 인코딩하는 단계를 포함하고,
    상기 방사 패턴의 상기 인코딩하는 단계는 상기 방사 패턴의 상기 표현의 구형 고조파 변환을 결정하는 단계 및 인코딩된 방사 패턴 메타데이터를 얻기 위해 상기 구형 고조파 변환을 압축하는 단계를 포함하는, 방법.
  2. 제1항에 있어서,
    오디오 객체의 클러스터에 기초하여 복수의 방향성 오디오 객체를 인코딩하는 단계를 더 포함하고,
    상기 방사 패턴은 각 주파수 대역에 대한 평균 사운드 레벨값을 반영하는 센트로이드(centroid)를 나타내는, 방법.
  3. 제2항에 있어서,
    상기 복수의 방향성 오디오 객체는 각 오디오 객체의 구형 고조파 계수의 시변동 에너지 가중 평균(time-varying energy-weighted average)에 대응하는 방향성을 갖는 단일 방향성 오디오 객체로서 인코딩되는, 방법.
  4. 제2항 또는 제3항에 있어서,
    상기 인코딩된 방사 패턴 메타데이터는 각 오디오 객체의 위치의 평균인 오디오 객체의 클러스터의 위치를 나타내는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    방향성 오디오 객체의 그룹의 방사 패턴에 관한 그룹 메타데이터를 인코딩하는 단계를 더 포함하는, 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 소스 방사 패턴은, 정규화된 방사 패턴을 결정하기 위해, 주파수별 기반의(on a per frequency basis) 방향으로 상기 입력 방사 패턴의 진폭으로 리스케일링 되는, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 구형 고조파 변환을 압축하는 단계는 특이값 분해 방법(Singular Value Decomposition method), 주성분 분석(principal component analysis), 이산 코사인 변환(discrete cosine transforms), 데이터 독립적 기반(data-independent bases), 또는 구형 고조파 계수의 임계 차수(order) 위의, 상기 구형 고조파 변환의 구형 고조파 계수의 제거 중 적어도 하나를 포함하는, 방법.
  8. 오디오 데이터를 디코딩하기 위한 방법으로서,
    인코딩된 코어 오디오 신호, 인코딩된 방사 패턴 메타데이터 및 인코딩된 오디오 객체 메타데이터를 수신하는 단계;
    코어 오디오 신호를 결정하기 위해 인코딩된 코어 오디오 신호를 디코딩하는 단계;
    디코딩된 방사 패턴을 결정하기 위해 상기 인코딩된 방사 패턴 메타데이터를 디코딩하는 단계;
    상기 오디오 객체 메타데이터를 디코딩하는 단계; 및
    상기 오디오 객체 메타데이터 및 상기 디코딩된 방사 패턴에 기초하여 상기 코어 오디오 신호를 렌더링하는 단계를 포함하는, 방법.
  9. 제8항에 있어서,
    상기 오디오 객체 메타데이터는 시변 3자유도(DoF) 또는 6DoF 소스 배향 정보 중 적어도 하나를 포함하는, 방법.
  10. 제8항 또는 제9항에 있어서,
    상기 코어 오디오 신호는 객체의 클러스터에 기초한 복수의 방향성 객체를 포함하고, 상기 디코딩된 방사 패턴은 각 주파수 대역에 대한 평균 값을 반영하는 센트로이드를 나타내는, 방법.
  11. 제8항 내지 제10항 중 어느 한 항에 있어서,
    상기 렌더링은, 상기 디코딩된 방사 데이터에 적어도 부분적으로 기초하여, 상기 디코딩된 코어 오디오 신호에 대해 서브밴드 이득(subband gains)을 적용하는 것에 기초하는, 방법.
  12. 제8항 내지 제11항 중 어느 한 항에 있어서,
    상기 인코딩된 방사 패턴 메타데이터는 시변동(time-varying) 및 주파수 변동하는(frequency-varying) 구형 고조파 계수의 세트에 대응하는, 방법.
  13. 제8항 내지 제12항 중 어느 한 항에 있어서,
    상기 인코딩된 방사 패턴 메타데이터는 오디오 객체 유형 메타데이터를 포함하는, 방법.
  14. 제13항에 있어서,
    상기 오디오 객체 유형 메타데이터는 파라메트릭 방향성 패턴 데이터를 나타내고,
    상기 파라메트릭 방향성 패턴 데이터는 코사인 함수, 사인 함수 또는 카디오이드(cardioidal) 함수로 구성된 함수 목록 중에서 선택된 하나 이상의 함수를 포함하는, 방법.
  15. 제13항에 있어서,
    상기 오디오 객체 유형 메타데이터는 데이터베이스 방향성 패턴 데이터를 나타내고,
    상기 디코딩된 방사 패턴을 결정하기 위해 상기 인코딩된 방사 패턴 메타데이터를 디코딩하는 단계는 오디오 객체 유형 및 대응하는 방향성 패턴 데이터를 포함하는 방향성 데이터 구조를 질의하는 단계를 포함하는, 방법.
  16. 제13항에 있어서,
    상기 오디오 객체 유형 메타데이터는 동적 방향성 패턴 데이터를 나타내며,
    상기 동적 방향성 패턴 데이터는 시변동(time-varying) 및 주파수 변동하는 구형 고조파 계수의 세트에 대응하는 방법.
  17. 제16항에 있어서,
    상기 인코딩된 코어 오디오 신호를 수신하기 전에 상기 동적 방향성 패턴 데이터를 수신하는 단계를 더 포함하는, 방법.
  18. 오디오 디코딩 장치로서,
    인터페이스 시스템; 및
    상기 인터페이스 시스템을 통해, 적어도 하나의 오디오 객체에 대응하는 오디오 데이터를 수신하는 단계 - 상기 오디오 데이터는 모노포닉 오디오 신호, 오디오 객체 위치 메타데이터, 오디오 객체 사이즈 메타데이터 및 렌더링 파라미터를 포함함 - ;
    상기 렌더링 파라미터가 위치 모드 또는 방향성 모드를 나타내는지를 결정하는 단계; 및
    상기 렌더링 파라미터가 방향성 모드를 나타내는 것으로 결정하면, 위치 메타데이터 또는 사이즈 메타데이터 중 적어도 하나에 의해 표시된 방향성 패턴에 따라 적어도 하나의 라우드스피커를 통한 재생을 위해 상기 오디오 데이터를 렌더링하는 단계
    를 행하도록 구성된 제어 시스템을 포함하는, 장치.
  19. 제18항에 있어서,
    상기 오디오 데이터를 렌더링하는 단계는 상기 오디오 객체 위치 메타데이터를 오디오 객체 배향 메타데이터로서 해석하는 단계를 포함하는, 장치.
  20. 제19항에 있어서,
    상기 오디오 객체 위치 메타데이터는 x, y, z 좌표 데이터, 구형 좌표 데이터 또는 원통형 좌표 데이터 중 적어도 하나를 포함하고,
    상기 오디오 객체 배향 메타데이터는 요(yaw), 피치(pitch) 및 롤(roll) 데이터를 포함하는, 장치.
  21. 제18항 내지 제20항 중 어느 한 항에 있어서,
    상기 오디오 데이터를 렌더링하는 단계는 상기 오디오 객체 사이즈 메타데이터를 상기 방향성 패턴에 대응하는 방향성 메타데이터로서 해석하는 단계를 포함하는, 장치.
  22. 제18항 내지 제21항 중 어느 한 항에 있어서,
    상기 오디오 데이터를 렌더링하는 단계는 복수의 방향성 패턴을 포함하는 데이터 구조를 질의하는 단계 및 위치 메타데이터 또는 사이즈 메타데이터 중 적어도 하나를 하나 이상의 상기 방향성 패턴에 매핑하는 단계를 포함하는, 장치.
  23. 제22항에 있어서,
    상기 제어 시스템은 상기 인터페이스 시스템을 통해 상기 데이터 구조를 수신하도록 구성된, 장치.
  24. 제23항에 있어서,
    상기 데이터 구조는 상기 오디오 데이터 이전에 수신되는, 장치.
  25. 제18항 내지 제24항 중 어느 한 항에 있어서,
    상기 오디오 데이터는 돌비 애트모스(Dolby Atmos) 포맷으로 수신되는, 장치.
  26. 제18항 내지 제25항 중 어느 한 항에 있어서,
    상기 오디오 객체 위치 메타데이터는 세계 좌표 또는 모델 좌표에 대응하는, 장치.
KR1020207024870A 2018-04-16 2019-04-15 방향성 사운드 소스의 인코딩 및 디코딩을 위한 방법, 장치 및 시스템 KR20200141981A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862658067P 2018-04-16 2018-04-16
US62/658,067 2018-04-16
US201862681429P 2018-06-06 2018-06-06
US62/681,429 2018-06-06
US201862741419P 2018-10-04 2018-10-04
US62/741,419 2018-10-04
PCT/US2019/027503 WO2019204214A2 (en) 2018-04-16 2019-04-15 Methods, apparatus and systems for encoding and decoding of directional sound sources

Publications (1)

Publication Number Publication Date
KR20200141981A true KR20200141981A (ko) 2020-12-21

Family

ID=66323991

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207024870A KR20200141981A (ko) 2018-04-16 2019-04-15 방향성 사운드 소스의 인코딩 및 디코딩을 위한 방법, 장치 및 시스템

Country Status (7)

Country Link
US (2) US11315578B2 (ko)
EP (1) EP3782152A2 (ko)
JP (2) JP7321170B2 (ko)
KR (1) KR20200141981A (ko)
CN (1) CN111801732A (ko)
BR (1) BR112020016912A2 (ko)
WO (1) WO2019204214A2 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7493412B2 (ja) 2020-08-18 2024-05-31 日本放送協会 音声処理装置、音声処理システムおよびプログラム
JP7493411B2 (ja) 2020-08-18 2024-05-31 日本放送協会 バイノーラル再生装置およびプログラム
CN112259110B (zh) * 2020-11-17 2022-07-01 北京声智科技有限公司 音频编码方法及装置、音频解码方法及装置
US11646046B2 (en) * 2021-01-29 2023-05-09 Qualcomm Incorporated Psychoacoustic enhancement based on audio source directivity
EP4342193A1 (en) * 2021-05-17 2024-03-27 Dolby International AB Method and system for controlling directivity of an audio source in a virtual reality environment
WO2023051708A1 (zh) * 2021-09-29 2023-04-06 北京字跳网络技术有限公司 用于空间音频渲染的系统、方法和电子设备
US11716569B2 (en) 2021-12-30 2023-08-01 Google Llc Methods, systems, and media for identifying a plurality of sets of coordinates for a plurality of devices

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US8942387B2 (en) 2002-02-05 2015-01-27 Mh Acoustics Llc Noise-reducing directional microphone array
US7624021B2 (en) * 2004-07-02 2009-11-24 Apple Inc. Universal container for audio data
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
CN105578380B (zh) * 2011-07-01 2018-10-26 杜比实验室特许公司 用于自适应音频信号产生、编码和呈现的系统和方法
TW202339510A (zh) * 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
US9711126B2 (en) 2012-03-22 2017-07-18 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for simulating sound propagation in large scenes using equivalent sources
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9516446B2 (en) * 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
US9609452B2 (en) * 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US9959875B2 (en) 2013-03-01 2018-05-01 Qualcomm Incorporated Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams
US9412385B2 (en) * 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
EP3149971B1 (en) * 2014-05-30 2018-08-29 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US9712936B2 (en) 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
JP6905824B2 (ja) 2016-01-04 2021-07-21 ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー 非常に多数のリスナのための音響再生
CA3219566A1 (en) * 2017-10-04 2019-04-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding

Also Published As

Publication number Publication date
JP2023139188A (ja) 2023-10-03
WO2019204214A2 (en) 2019-10-24
WO2019204214A3 (en) 2019-11-28
EP3782152A2 (en) 2021-02-24
RU2020127190A (ru) 2022-02-14
US20220328052A1 (en) 2022-10-13
JP2021518923A (ja) 2021-08-05
US11887608B2 (en) 2024-01-30
RU2020127190A3 (ko) 2022-02-14
US20210118452A1 (en) 2021-04-22
CN111801732A (zh) 2020-10-20
US11315578B2 (en) 2022-04-26
BR112020016912A2 (pt) 2020-12-15
JP7321170B2 (ja) 2023-08-04

Similar Documents

Publication Publication Date Title
US11887608B2 (en) Methods, apparatus and systems for encoding and decoding of directional sound sources
Raghuvanshi et al. Parametric directional coding for precomputed sound propagation
CN113316943B (zh) 再现空间扩展声源的设备与方法、或从空间扩展声源生成比特流的设备与方法
JP6284955B2 (ja) 仮想スピーカーを物理スピーカーにマッピングすること
CN109891503B (zh) 声学场景回放方法和装置
US11659349B2 (en) Audio distance estimation for spatial audio processing
KR102540642B1 (ko) 다중-층 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
WO2019197349A1 (en) Methods, apparatus and systems for a pre-rendered signal for audio rendering
US20240098416A1 (en) Audio enhancements based on video detection
EP4091344A1 (en) Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a description for a spatially extended sound source using anchoring information
RU2772227C2 (ru) Способы, аппараты и системы кодирования и декодирования направленных источников звука
US20240212693A1 (en) Methods, apparatus and systems for encoding and decoding of directional sound sources
CN111869241A (zh) 使用多通道扬声器系统的空间声音再现
JP2022539217A (ja) 離散指向性情報の表現、符号化、および復号化のための方法、装置、およびシステム
CN116569566A (zh) 一种输出声音的方法及扩音器