KR20160041941A - 3차원 오디오 콘텐츠의 공간 오디오 오브젝트 코딩 다운믹스의 실현을 위한 장치 및 방법 - Google Patents

3차원 오디오 콘텐츠의 공간 오디오 오브젝트 코딩 다운믹스의 실현을 위한 장치 및 방법 Download PDF

Info

Publication number
KR20160041941A
KR20160041941A KR1020167004312A KR20167004312A KR20160041941A KR 20160041941 A KR20160041941 A KR 20160041941A KR 1020167004312 A KR1020167004312 A KR 1020167004312A KR 20167004312 A KR20167004312 A KR 20167004312A KR 20160041941 A KR20160041941 A KR 20160041941A
Authority
KR
South Korea
Prior art keywords
audio
channels
information
audio transmission
transmission signal
Prior art date
Application number
KR1020167004312A
Other languages
English (en)
Other versions
KR101774796B1 (ko
Inventor
사샤 디쉬
하랄드 푹스
올리버 헬무트
위르겐 헤레
아드리안 무르타자
팔코 리더부슈
레온 테렌티브
조우니 파울루스
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP20130177378 external-priority patent/EP2830045A1/en
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20160041941A publication Critical patent/KR20160041941A/ko
Application granted granted Critical
Publication of KR101774796B1 publication Critical patent/KR101774796B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/006Systems employing more than two channels, e.g. quadraphonic in which a plurality of audio signals are transformed in a combination of audio signals and modulated signals, e.g. CD-4 systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

하나 이상의 오디오 출력 채널을 발생시키기 위한 장치가 제공된다. 장치는 출력 채널 믹싱 정보를 계산하기 위한 파라미터 프로세서(110) 및 하나 이상의 오디오 출력 채널을 발생시키기 위한 다운믹스 프로세서(120)를 포함한다. 다운믹스 프로세서(120)는 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 수신하도록 구성되고, 오디오 전송 신호 내에 두 개 이상의 오디오 오브젝트 신호가 믹싱되며, 하나 이상의 오디오 전송 채널의 수는 두 개 이상의 오디오 오브젝트 신호의 수보다 적다. 오디오 전송 신호는 제 1 믹싱 규칙 및 제 2 믹싱 규칙에 의존한다. 제 1 믹싱 규칙은 복수의 프리믹싱된 채널을 획득하기 위하여 두 개 이상의 오디오 오브젝트 신호가 어떻게 믹싱되는지를 나타낸다. 게다가, 제 2 믹싱 규칙은 오디오 전송 신호의 하나 이상의 오디오 전송 채널을 획득하기 위하여 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타낸다. 파라미터 프로세서(110)는 제 2 믹싱 규칙에 대한 정보를 수신하도록 구성되고, 제 2 믹싱 규칙에 대한 정보는 하나 이상의 오디오 전송 채널이 획득되도록 복수의 프리믹싱된 신호를 어떻게 믹싱하는지를 나타낸다. 게다가, 파라미터 프로세서(110)는 두 개 이상의 오디오 오브젝트 신호의 수를 나타내는 오디오 오브젝트들 수에 의존하고, 복수의 프리믹싱된 채널의 수를 나타내는 프리믹싱된 채널들 수에 의존하며, 제 2 믹싱 규칙에 대한 정보에 의존하여 출력 채널 믹싱 정보를 계산하도록 구성된다. 다운믹스 프로세서(120)는 출력 채널 믹싱 정보에 의존하여 오디오 전송 신호로부터 하나 이상의 오디오 출력 채널을 발생시키도록 구성된다.

Description

3차원 오디오 콘텐츠의 공간 오디오 오브젝트 코딩 다운믹스의 실현을 위한 장치 및 방법{APPARATUS AND METHOD FOR REALIZING A SAOC DOWNMIX OF 3D AUDIO CONTENT}
본 발명은 오디오 인코딩/디코딩, 특히 공간 오디오 코딩 및 공간 오디오 오브젝트 코딩(Spatial Audio Object Coding, SAOC, 이하 SAOC로 표기)에 관한 것으로서, 더 구체적으로는 3차원 오디오 콘텐츠의 공간 오디오 오브젝트 코딩 다운믹스(downmix)의 실현을 위한 장치와 방법 및 3차원 오디오 콘텐츠의 공간 오디오 오브젝트 코딩 다운믹스를 효율적으로 디코딩하기 위한 장치와 방법에 관한 것이다.
공간 오디오 코딩 툴들은 종래에 잘 알려져 있으며 예를 들면, MPEG-서라운드 표준에서 표준화된다. 공간 오디오 코딩은 재생 설정, 즉, 왼쪽 채널, 중앙 채널, 오른쪽 채널, 왼쪽 서라운드 채널, 오른쪽 서러운드 채널 및 저주파수 강화 채널(low frequency enhancement channel)에서 그것들의 위치에 의해 식별되는 5 또는 7채널과 같은 원래(original) 입력 채널로부터 시작한다. 공간 오디오 인코더는 일반적으로 원래 채널들로부터 하나 이상의 다운믹스 채널을 유도하고, 부가적으로 채널간 레벨 차이들, 채널간 위상 차이들, 채널간 시간 차이들 등과 같은 공간 신호(spatial cue)에 대한 파라미터 데이터를 유도한다. 하나 이상의 다운믹스 채널은 최종적으로 원래 입력 채널들의 근사치 버전인 출력 채널들을 획득하기 위하여 공간 신호들을 나타내는 파라미터 부가 정보와 함께 다운믹스 채널과 관련 파라미터 데이터를 디코딩하는 공간 오디오 디코더로 전송한다. 출력 설정에서의 채널들의 위치는 일반적으로 고정되고 예를 들면, 5.1 포맷, 7.1 포맷 등이다.
그러한 채널 기반 오디오 포맷들은 각각의 채널이 주어진 위치에서 특정 확성기(loudspeaker)와 관련되는 다채널 오디오 콘텐츠의 저장 또는 전송을 위하여 광범위하게 사용된다. 이러한 종류의 포맷들의 신뢰할만한 재생은 스피커들이 오디오 신호들의 생산 동안에 사용된 스피커들과 동일한 위치에 위치되는 확성기 설정을 필요로 한다. 확성기들의 수의 증가는 실제로 거대한 3차원 장면들의 재생을 증가시키나, 이러한 요구조건(특히 거실과 같은 가정 환경에서)을 충족시키는 것은 더욱 어려워진다.
특별한 확성기 설정의 필요성은 재생 설정을 위하여 확성기 신호들이 분명하게 제공되는 오브젝트 기반 접근법에 의해 극복될 수 있다.
예를 들면, 공간 오디오 오브젝트 코딩 툴들이 종래에 잘 알려져 있으며 MPEG 공간 오디오 오브젝트 코딩 표준에서 표준화된다. 원래 채널들로부터 시작하는 공간 오디오 코딩과 대조적으로, 공간 오디오 오브젝트 코딩은 특정 렌더링(rendering) 재생 설정을 위하여 자동으로 전용되지 않는 오디오 오브젝트들로부터 시작한다. 대신에, 재생 장면 내의 오디오 오브젝트의 위치는 유연적이고 특정 렌더링 정보를 공간 오디오 오브젝트 코딩 디코더에 입력함으로써 사용자에 의해 결정될 수 있다. 대안으로서, 또는 부가적으로, 렌더링 정보, 즉 재생 내의 위치가 특정 오디오 오브젝트를 일반적으로 시간에 따라 위치되도록 설정하는 정보는 부가적인 부가 정보 또는 메타데이터로서 전송될 수 있다. 특정 데이터 압축을 획득하기 위하여, 특정 다운믹싱 정보에 따라 오브젝트들을 다운믹싱함으로써 입력 오브젝트들로부터, 하나 이상의 전송 채널을 계산하는 SAOC 인코더에 의해 다수의 오디오 오브젝트들이 인코딩된다. 게다가, SAOC 인코더는 오브젝트 레벨 차이들(OLD), 오브젝트 간섭 값(coherence value)들 등과 같은 오브젝트-간 신호를 표현하는 파라미터 부가 정보를 계산한다. 오브젝트-간 파라미터 데이터는 파라미터 시간/주파수 타일들을 위하여, 즉 예를 들면 28, 20, 14 또는 10 등의 처리 대역들이 고려되는, 1024 또는 2048 샘플들을 포함하는 오디오 신호의 특정 프레임을 위하여 계산되고 따라서 파라미터 데이터는 각각의 프레임 및 각각의 처리 대역을 위하여 존재한다. 일례로서, 오디오 피스(audio piece)가 20개의 프레임을 갖고 각각의 프레임이 28개의 처리 대역들로 세분될 때, 시간/주파수 타일들의 수는 560이다.
오브젝트 기반 접근법에서, 음장(sound field)은 이산 오디오 오브젝트들에 의해 설명된다. 이는 그중에서도 3차원 공간 내의 각각의 음원의 시간 변이적 위치를 설명하는 오브젝트 메타데이터를 필요로 한다.
종래 기술의 첫 번째 메타데이터 코딩 개념은 공간 음향 기술 교환 포맷(SpaDIF), 여전히 개발중인 오디오 장면 설명 포맷[M1]이다., 이는 오브젝트 기반 음향 정면들을 위한 교환 포맷으로서 디자인되고 오브젝트 궤도들을 위한 어떠한 압축 방법도 제공하지 않는다. SpaDIF는 오브젝트 메타데이터를 구성하기 위하여 텍스트 기반 개방 음향 제어(OSC) 포맷을 사용한다[M2]. 그러나, 간단한 텍스트 기반 표현은 오브젝트 궤도들의 압축된 전송을 위한 선택사항이 아니다.
종래 기술의 또 다른 메타데이터 개념은 동일한 단점을 갖는 텍스트 기반 솔루션인, 오디오 장면 설명 포맷(ASDF)이다[M3]. 데이터는 확장성 마크업 언어(Extensible Markup Language, XML)의 서브셋인 동기화된 멀티미디어 통합 언어(SMIL)의 확장에 의해 구성된다[M4][M5].
종래 기술의 또 다른 메타데이터 개념은 MPEG-4 사양의 일부분인 2진 포맷인, 장면들을 위한 오디오 2진 포맷(AudioBIFS)이다[M6][M7]. 이는 시청각(audio-visual) 3차원 장면 및 대화형 가상 현실 적용들의 설명을 위하여 개발된 XML 기반 가상 현실 모델링 언어(Virtual Reality Modeling Language, VRML)과 밀접하게 관련된다. 복잡한 AudioBIFS 사양은 오브젝트 이동들의 경로들을 지정하기 위하여 장면 그래프들을 사용한다. AudioBIFS의 중요한 단점은 제한된 시스템 지연 및 데이터 스트림으로의 랜덤 액세스가 필요한 실시간 운영을 위하여 디자인되지 않는다는 것이다. 게다가, 오브젝트 위치들의 인코딩은 인간 청취자들의 제한된 정위(localization) 성능을 활용하지 않는다. 시청각 장면 내의 고정된 청취자 위치를 위하여, 오브젝트 데이터는 훨씬 낮은 수의 비트들로 양자화될 수 있다[M9]. 따라서, AudioBIFS에 적용되는 오브젝트 메타데이터의 인코딩은 데이터 압축과 관련하여 효율적이지 않다.
본 발명의 목적은 오디오 콘텐츠의 다운믹싱을 위한 향상된 개념들을 제공하는 것이다. 본 발명의 목적은 청구항 1에 따른 장치, 청구항 9에 따른 장치, 청구항 12에 따른 시스템, 청구항 13에 따른 방법, 청구항 14에 따른 방법 및 청구항 15에 따른 컴퓨터 프로그램에 의해 해결된다.
실시 예들에 따르면, 효율적인 전송이 실현되고 3차원 오디오 콘텐츠를 위한 다운믹스를 어떻게 디코딩하는지의 수단이 제공된다.
하나 이상의 오디오 출력 채널을 발생시키기 위한 장치가 제공된다. 장치는 출력 채널 믹싱 정보를 계산하기 위한 파라미터 프로세서 및 하나 이상의 오디오 출력 채널을 발생시키기 위한 다운믹스 프로세서를 포함한다. 다운믹스 프로세서는 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 수신하도록 구성되고, 오디오 전송 신호 내에 두 개 이상의 오디오 오브젝트 신호가 믹싱되며, 하나 이상의 오디오 전송 채널의 수는 두 개 이상의 오디오 오브젝트 신호의 수보다 적다. 오디오 전송 신호는 제 1 믹싱 규칙 및 제 2 믹싱 규칙에 의존한다. 제 1 믹싱 규칙은 복수의 프리믹싱된(pre-mixed) 채널을 획득하기 위하여 두 개 이상의 오디오 오브젝트 신호가 어떻게 믹싱되는지를 나타낸다. 게다가, 제 2 믹싱 규칙은 오디오 전송 신호의 하나 이상의 오디오 전송 채널을 획득하기 위하여 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타낸다. 파라미터 프로세서는 제 2 믹싱 규칙에 대한 정보를 수신하도록 구성되고, 제 2 믹싱 규칙에 대한 정보는 하나 이상의 오디오 전송 채널이 획득되도록 복수의 프리믹싱된 신호를 어떻게 믹싱하는지를 나타낸다. 게다가, 파라미터 프로세서는 두 개 이상의 오디오 오브젝트 신호의 수를 나타내는 오디오 오브젝트들 수에 의존하고, 복수의 프리믹싱된 채널의 수를 나타내는 프리믹싱된 채널들 수에 의존하며, 제 2 믹싱 규칙에 대한 정보에 의존하여 출력 채널 믹싱 정보를 계산하도록 구성된다. 다운믹스 프로세서는 출력 채널 믹싱 정보에 의존하여 오디오 전송 신호로부터 하나 이상의 오디오 출력 채널을 발생시키도록 구성된다.
게다가, 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 발생시키기 위한 장치가 제공된다. 장치는 두 개 이상의 오디오 오브젝트 신호가 오디오 전송 신호 내에 믹싱되도록, 두 개 이상의 오디오 오브젝트 신호로부터 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 발생시키기 위한 오브젝트 믹서를 포함하고, 하나 이상의 오디오 전송 채널의 수는 두 개 이상의 오디오 오브젝트 신호의 수보다 적다. 오브젝트 믹서는 제 1 믹싱 규칙에 의존하고 제 2 믹싱 규칙에 의존하여 오디오 전송 신호의 하나 이상의 오디오 전송 채널을 발생시키도록 구성되고, 제 1 믹싱 규칙은 복수의 프리믹싱된 채널을 획득하기 위하여 두 개 이상의 오디오 오브젝트 신호가 어떻게 믹싱되는지를 나타내고, 제 2 믹싱 규칙은 오디오 전송 신호의 하나 이상의 오디오 전송 채널을 획득하기 위하여 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타낸다. 제 1 믹싱 규칙은 두 개 이상의 오디오 오브젝트 신호의 수를 나타내는, 오디오 오브젝트 수에 의존하고, 복수의 프리믹싱된 채널의 수를 나타내는, 프리믹싱된 채널들 수에 의존한다. 제 2 믹싱 규칙은 프리믹싱된 채널들 수에 의존한다. 출력 인터페이스는 제 2 믹싱 규칙에 대한 정보를 출력하도록 구성된다.
게다가 시스템이 제공된다. 시스템은 위에 설명된 것과 같은 오디오 전송 신호를 발생시키기 위한 장치 및 위에 설명된 것과 같은 하나 이상의 오디오 출력 채널을 발생시키기 위한 장치를 포함한다. 하나 이상의 오디오 출력 채널을 발생시키기 위한 장치는 오디오 전송 신호를 발생시키기 위한 장치로부터 오디오 전송 신호 및 제 2 믹싱 규칙에 대한 정보를 수신하도록 구성된다. 게다가, 하나 이상의 오디오 출력 채널을 발생시키기 위한 장치는 제 2 믹싱 규칙에 대한 정보에 의존하여 오디오 전송 신호로부터 하나 이상의 오디오 출력 채널을 발생시키도록 구성된다.
게다가, 하나 이상의 오디오 출력 채널을 발생시키기 위한 방법이 제공된다. 방법은 다음의 단계를 포함한다:
- 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 수신하는 단계 - 오디오 전송 신호 내에 두 개 이상의 오디오 오브젝트 신호가 믹싱되고, 하나 이상의 오디오 전송 채널의 수는 두 개 이상의 오디오 오브젝트 신호의 수보다 적으며, 오디오 전송 신호는 제 1 믹싱 규칙 및 제 2 믹싱 규칙에 의존하고, 제 1 믹싱 규칙은 복수의 프리믹싱된 채널을 획득하기 위하여 두 개 이상의 오디오 오브젝트 신호가 어떻게 믹싱되는지를 나타내고, 제 2 믹싱 규칙은 오디오 전송 신호의 하나 이상의 오디오 전송 채널을 획득하기 위하여 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타냄 -,
- 제 2 믹싱 규칙에 대한 정보를 수신하는 단계 - 제 2 믹싱 규칙에 대한 정보는 하나 이상의 오디오 전송 채널을 획득하기 위하여 어떻게 복수의 프리믹싱된 신호를 믹싱하는지를 나타냄 -,
- 두 개 이상의 오디오 오브젝트 신호의 수를 나타내는 오디오 오브젝트들 수에 의존하고, 복수의 프리믹싱된 채널의 수를 나타내는 프리믹싱된 채널들 수에 의존하며, 제 2 믹싱 규칙에 대한 정보에 의존하여 출력 채널 믹싱 정보를 계산하는 단계, 및
- 출력 채널 믹싱 정보에 의존하여 오디오 전송 신호로부터 하나 이상의 오디오 출력 채널을 발생시키는 단계.
게다가, 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 발생시키기 위한 방법이 제공된다. 방법은 다음의 단계를 포함한다:
- 두 개 이상의 오디오 오브젝트 신호로부터 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 발생시키는 단계,
- 오디오 전송 신호를 출력하는 단계, 및
- 제 2 믹싱 규칙에 따라 정보를 출력하는 단계.
두 개 이상의 오디오 오브젝트 신호로부터 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 발생시키는 단계는 두 개 이상의 오디오 오브젝트 신호가 오디오 전송 신호 내에서 믹싱되는 것과 같이 수행되고, 하나 이상의 오디오 전송 채널의 수는 두 개 이상의 오디오 오브젝트 신호의 수보다 적다. 오디오 전송 신호로부터 하나 이상의 오디오 전송 채널을 발생시키는 단계는 제 1 믹싱 규칙에 의존하고 제 2 믹싱 규칙에 의존하여 수행되며, 제 1 믹싱 규칙은 복수의 프리믹싱된 채널을 획득하기 위하여 두 개 이상의 오디오 오브젝트 신호가 어떻게 믹싱되는지를 나타내고, 제 2 믹싱 규칙은 오디오 전송 신호의 하나 이상의 오디오 전송 채널을 획득하기 위하여 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타낸다. 제 1 믹싱 규칙은 두 개 이상의 오디오 오브젝트 신호의 수를 나타내는, 오디오 오브젝트 수에 의존하고, 복수의 프리믹싱된 채널의 수를 나타내는, 프리믹싱된 채널들 수에 의존한다. 제 2 믹싱 규칙은 프리믹싱된 채널들 수에 의존한다.
게다가, 컴퓨터 또는 신호 프로세서 상에서 실행될 때, 위에 설명된 방법을 구현하기 위한 컴퓨터 프로그램이 제공된다.
아래에, 도면들을 참조하여 본 발명의 실시 예들이 더 상세히 설명된다.
도 1은 일 실시 예에 따라 하나 이상의 오디오 출력 채널을 발생시키기 위한 장치를 도시한다.
도 2는 일 실시 예에 따라 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 발생시키는 장치를 도시한다.
도 3은 일 실시 예에 따른 시스템을 도시한다.
도 4는 3차원 오디오 인코더의 제 1 실시 예를 도시한다.
도 5는 3차원 오디오 디코더의 제 1 실시 예를 도시한다.
도 6은 3차원 오디오 인코더의 제 2 실시 예를 도시한다.
도 7은 3차원 오디오 디코더의 제 2 실시 예를 도시한다.
도 8은 3차원 오디오 인코더의 제 3 실시 예를 도시한다.
도 9는 3차원 오디오 디코더의 제 3 실시 예를 도시한다.
도 10은 방위각, 고도 및 반경에 의해 표현되는 기원(origin)으로부터 3차원 공간 내의 오디오 오브젝트의 위치를 도시한다.
도 11은 오디오 채널 발생기에 의해 추정된 오디오 오브젝트들의 위치 및 확성기 설정을 도시한다.
본 발명의 바람직한 실시 예들을 상세히 설명하기 전에, 새로운 3차원 오디오 코덱 시스템이 설명된다.
종래에, 낮은 비트 레이트들에서 수용 가능한 오디오 품질들을 획득하기 위하여 한편으로는 채널 코딩 및 다른 한편으로는 오브젝트 코딩을 결합하는 어떠한 유연한 기술도 존재하지 않았다.
이러한 제한은 3차원 오디오 코덱 시스템에 의해 극복된다.
바람직한 실시 예들을 상세히 설명하기 전에, 새로운 3차원 오디오 코덱 시스템이 설명된다.
도 4는 본 발명의 일 실시 예에 따른 3차원 오디오 인코더를 도시한다. 3차원 오디오 인코더는 오디오 출력 데이터(501)를 획득하기 위하여 오디오 입력 데이터(101)를 인코딩하도록 구성된다. 3차원 오디오 인코더는 CH에 의해 표시되는 복수의 오디오 채널 및 OBJ에 의해 표시되는 복소의 오디오 오브젝트을 수신하기 위한 입력 인터페이스를 포함한다. 게다가, 도 4에 도시된 것과 같이, 입력 인터페이스(1100)는 부가적으로 복수의 오디오 오브젝트(OBJ) 중 하나 이상과 관련된 메타데이터를 수신한다. 게다가, 3차원 오디오 인코더는 복수의 프리믹싱된 채널을 획득하기 위하여 복수의 오브젝트 및 복수의 채널을 믹싱하기 위한 믹서(mixer, 200)를 포함하고, 각각의 프리믹싱된 채널은 하나의 채널의 오디오 데이터 및 적어도 하나의 오브젝트의 오디오 데이터를 포함한다.
게다가, 3차원 오디오 인코더는 인코더 입력 데이터를 코어 인코딩하기 위한 코어 인코더(300), 복수의 오디오 오브젝트 중 하나 이상과 관련된 메타데이터를 압축하기 위한 메타데이터 압축기(400)를 포함한다.
게다가, 3차원 오디오 인코더는 몇몇 운영 모드들 중 하나에서 믹서, 코어 인코더 및/또는 출력 인터페이스(500)를 제어하기 위한 모드 컨트롤러(600)를 포함할 수 있고, 제 1 모드에서, 코더 인코더는 믹서에 의한 어떠한 상호작용 없이, 즉 믹서(200)에 의한 어떠한 믹싱 없이 입력 인터페이스(1100)에 의해 수신되는 복수의 오디오 채널 및 복수의 오디오 오브젝트를 인코딩하도록 구성된다. 그러나 믹서(200)가 활성화된, 제 2 모드에서, 코어 인코더는 복수의 믹싱된 채널, 즉 블록(200)에 의해 발생되는 출력을 인코딩한다. 이러한 후자의 경우에, 더 이상 어떠한 오브젝트 데이터도 인코딩하지 않는 것이 바람직하다. 대신에, 오디오 오브젝트들의 위치들을 나타내는 메타데이터가 메타데이터에 의해 나타내는 것과 같은 채널들 상으로 오브젝트들을 제공하기 위한 믹서(200)에 의해 이미 사용된다. 바꾸어 말하면, 믹서(200)는 오디오 오브젝트를 사전에 제공하기 위하여 복수의 오디오 오브젝트와 관련된 메타데이터를 사용하고 그리고 나서 믹서의 출력에서 믹싱된 채널들을 획득하기 위하여 채널들과 믹싱된다. 이러한 실시 예에서, 어떠한 오브젝트들도 반드시 전송될 필요는 없으며 이는 또한 블록(400)에 의한 출력으로서 압축된 메타데이터를 위하여 적용된다. 그러나, 만일 인터페이스(1100) 내로 입력된 모든 오브젝트가 믹싱되지 않고 특정 양의 오브젝트만이 믹싱되면, 나머지 믹싱되지 않은 오브젝트들 및 관련 메타데이터만이 그럼에도 불구하고 각각 코어 인코더(300) 또는 메타데이터 압축기(400)로 전송된다.
도 6은 부가적으로 공간 오디오 오브젝트 코딩 인코더(800)를 포함하는, 3차원 오디오 인코더의 또 다른 실시 예를 도시한다. 공간 오디오 오브젝트 코딩 인코더(800)는 공간 오디오 오브젝트 인코더 입력 데이터로부터 하나 이상의 전송 채널 및 파라미터 데이터를 발생시키도록 구성된다. 도 6에 도시된 것과 같이, 공간 오디오 오브젝트 인코더 입력 데이터는 프리렌더러(pre-renderer)/믹서에 의해 처리되지 않은 오브젝트들이다. 대안으로서, 프리렌더러/믹서가 개별 채널/오브젝트 코딩이 활성화되는 모드 1에서와 같이 우회되면, 입력 인터페이스(1100) 내로 입력된 모든 오브젝트는 공간 오디오 오브젝트 코딩 인코더(800)에 의해 인코딩된다.
게다가, 도 6에 도시된 것과 같이, 코어 인코더(300)는 바람직하게는 통합 음성 및 오디오 코딩(USAC, Unified Speech and Audio Coding, 이하 USAC로 표기) 인코더, 즉 MPEG-USAC 표준에서 정의되고 표즌화된 것과 같은 인코더로서 구현된다. 도 6에 도시된 전체 3차원 오디오 인코더의 출력은 개별 데이터 형태들을 위하여 컨테이너 유사 구조들을 갖는, MPEG 4 데이터 스트림, MPEG H 데이터 스트림 또는 3차원 오디오 데이터 스트림이다. 게다가, 메타데이터는 "OAM" 데이터로서 표시되고 도 4의 메타데이터 압축기(400)는 도 6에서 알 수 있는 것과 같이, 부가적으로 인코딩된 채널/오브젝트뿐만 아니라 압축된 OAM 데이터를 갖는 MP4 출력 데이터 스트림을 획득하기 위하여 출력 페이스를 포함하는, USAC 인코더(300) 내로 입력되는 압축된 OAM 데이터를 획득하기 위한 OAM 인코더(400)와 상응한다.
도 8은 도 6과 대조적으로, 공간 오디오 오브젝트 코딩 인코더가 공간 오디오 오브젝트 인코딩 알고리즘으로, 이러한 모드에서 활성이 아닝 프리-렌더러/믹서(200)에 제공되는 채널들을 인코딩하거나, 또는 대안으로서, 프리-렌더링된 채널들 및 오브젝트들을 공간 오디오 오브젝트 인코딩하도록 구성될 수 있는, 3차원 오디오 인코더의 또 다른 실시 예를 도시한다. 따라서, 도 8에서, 공간 오디오 오브젝트 코딩 인코더(800)는 즉, 어떠한 프리-렌더링된 오브젝트도 없는 채널들, 프리-렌더링된 오브젝트들과 채널들 또는 오브젝트들 단독인 3가지 상이한 종류의 입력 데이터 상에서 운영할 수 있다. 게다가, 공간 오디오 오브젝트 코딩 인코더(800)가 그것의 처리를 위하여, 디코더 측 상에서와 동일한 데이터, 즉 원래 OAM 데이터보다 손실 압축에 의해 획득되는 데이터를 사용하기 위하여 도 8에서 부가적인 OAM 디코더(420)를 제공하는 것이 바람직하다.
도 8의 3차원 오디오 인코더는 몇몇 개별 모드들에서 운영할 수 있다.
도 4의 문맥에서 설명된 것과 같은 제 1 및 제 2 모드에 더하여, 도 8의 3차원 오디오 인코더는 부가적으로 프리-렌더러/믹서(200)가 활성화되지 않았을 때 코어 인코더가 개별 오브젝트들로부터 하나 이상의 전송 채널을 발생시키는 제 3 모드에서 운영할 수 있다. 대안으로서 또는 부가적으로, 이러한 제 3 모드에서 공간 오디오 오브젝트 코딩 인코더(800)는 즉, 다시 도 4의 믹서(200)와 상응하는 프리-렌더러/믹서(200)가 활성화되지 않았을 때, 원래 채널들로부터 하나 이상의 대안 또는 부가적인 전송 채널을 발생시킬 수 있다.
마지막으로, SAOC 인코더(800)는 3차원 오디오 인코더가 제 4 방식으로 구성될 때, 프리-렌더러/믹서에 의해 발생된 것과 같은 채널들 및 프리-렌더링된 오브젝트들을 인코딩할 수 있다. 따라서 제 4 모드에서, 가장 낮은 비트 레이트 적용들은 채널들 및 오브젝트들이 개별 SAOC 전송 채널들 및 "SAOC-SI"로서 도 3과 5에 표시된 것과 같은 관련 부가 정보로 완전하게 변환되었다는 사실에 기인하여 뛰어난 품질을 제공할 것이며, 부가적으로, 어떠한 압축된 메타데이터도 이러한 제 4 모드에서 전송될 필요가 없다.
도 5는 본 발명의 일 실시 예에 따른 3차원 오디오 디코더를 도시한다. 3차원 오디오 디코더는 입력으로서, 인코딩된 오디오 데이터, 즉 도 4의 데이터(501)를 수신한다.
3차원 오디오 디코더는 메타데이터 압축해제기(metadata decompressor, 1400), 코어 디코더(1300), 오브젝트 프로세서(1200), 모드 컨트롤러(1600) 및 포스트프로세서(후처리기, postprocessor, 1700)를 포함한다.
특히, 3차원 오디오 디코더는 인코딩된 오디오 데이터를 디코딩하도록 구성되고 입력 인터페이스는 인코딩된 오디오 데이터를 수신하도록 구성되며, 인코딩된 오디오 데이터는 복수의 인코딩된 채널과 복수의 인코딩된 오브젝트 및 특정 모드에서 복수의 오브젝트와 관련된 압축된 메타데이터를 포함한다.
게다가, 코어 디코더(1300)는 복수의 인코딩된 채널 및 복수의 인코딩된 오브젝트를 디코딩하도록 구성되고 부가적으로, 메타데이터 압축해제기는 압축된 메타데이터를 압축해제하도록 구성된다.
게다가, 오브젝트 프로세서(1200)는 오브젝트 데이터 및 디코딩된 데이터를 포함하는 미리 결정된 수의 출력 채널들을 획득하기 위하여 압축해제된 메타데이터를 사용하여 코어 디코더(1300)에 의해 발생되는 것과 같이 복수의 디코딩된 오브젝트를 처리하도록 구성된다. 1205에 표시된 것과 같은 이러한 출력 채널들은 그리고 나서 포스트프로세서(1700) 내로 입력된다. 포스트프로세서(1700)는 출력 채널들의 수를 바이노럴(binaural) 출력 포맷 또는 5.1, 7.1 등의 출력 포맷과 같은 확성기 출력 포맷일 수 있는 특정 출력 포맷으로 전환하도록 구성된다.
바람직하게는, 3차원 오디오 디코더는 모드 표시를 검출하기 위하여 인코딩된 데이터를 분석하도록 구성되는 모드 컨트롤러(1600)를 포함한다. 따라서, 모드 컨트롤러(1600)는 도 5의 입력 인터페이스(1100)에 연결된다. 그러나 대안으로서, 모드 컨트롤러는 반드시 그 위치에 위치할 필요는 없다. 대신에, 유연한 오디오 디코더는 사용자 입력 또는 어떠한 다른 제어와 같은 다른 종류의 제어 데이터에 의해 사전 설정될 수 있다. 도 5 및 바람직하게는 모드 컨트롤러(1600)에 의해 제어되는 3차원 오디오 디코더는 오브젝트 프로세서를 우회하거나 또는 복수의 디코딩된 채널을 포스트프로세서(1700) 내로 제공하도록 구성된다. 이는, 모드 2, 즉 프리-렌더링된 채널들만이 수신되는, 즉 도 4의 3차원 오디오 인코더에서 모드 2가 적용되었을 때의 운영이다. 대안으로서, 3차원 오디오 인코더에 모드 1이 적용되었을 때, 즉 3차원 오디오 인코더가 개별 채널/오브젝트 코딩을 실행하였을 때, 오브젝트 프로세서(1200)는 우회되지 않으나, 복수의 디코딩된 채널 및 복수의 디코딩된 오브젝트가 메타데이터 압축해제기(1400)에 의해 발생되는 압축해제된 메타데이터와 함께 오브젝트 프로세서(1200) 내로 제공된다.
바람직하게는, 모드 1 또는 모드 2가 적용되는지의 표시는 인코딩된 오디오 데이터 내에 포함되고 그리고 나서 모드 표시를 검출하기 위하여 모드 컨트롤러(1600)가 인코딩된 데이터를 분석한다. 모드 1은 모드 표시가 인코딩된 오디오 데이터가 인코딩된 채널들 및 인코딩된 오브젝트들을 포함하는 것을 나타낼 때 사용되고 모드 2는 모드 표시가 인코딩된 오디오 데이터가 어떠한 오디오 오브젝트도 포함하지 않는, 즉 도 4의 3차원 오디오 인코더의 모드 2에 의해 획득된 프리-렌더링된 채널들만을 포함하는 것을 나타낼 때 적용된다.
도 7은 도 5의 3차원 오디오 디코더외 비교되는 바람직한 실시 예를 도시하고 도 7의 실시 예는 도 6의 3차원 오디오 인코더와 상응한다. 도 5의 3차원 오디오 디코더 구현에 더하여, 도 7의 3차원 오디오 디코더는 SAOC 디코더(1800)를 포함한다. 게다가, 도 5의 오브젝트 프로세서(1200)는 개별 오브젝트 렌더러(1210) 및 믹서(1220)로서 구현되나, 모드에 의존하여, 오브젝트 렌더러(1210)의 기능성은 또한 SAOC 디코더(1800)에 의해 구현될 수 있다.
게다가, 포스트프로세서(1700)는 바이노럴 렌더러(1710) 또는 포맷 컨버터(1720)로서 구현될 수 있다. 대안으로서, 도 5의 데이터(1205)의 직접적인 출력이 또한 1730에 의해 도시된 것과 같이 구현될 수 있다. 따라서, 가장 높은 수의 채널 상의 디코더에서 유연성을 갖기 위하여 22.2 또는 32와 같은 가장 높은 수의 채널들 상에서 디코더 내의 처리를 실행하고 그리고 나서 더 작은 포맷이 필요하면 후처리하는 것이 바람직하다. 그러나, 처음부터 5.1 포맷과 같은 더 작은 수의 채널들을 갖는 상이한 포맷만이 필요한 것이 자명할 때, 단축키(short cut, 1727)에 의해 도 9에 의해 표시된 것과 같이, SAOC 디코더 및/또는 USAC 디코더에 대한 특정 제어는 불필요한 업믹싱 운영들 및 뒤따르는 다운믹싱 운영들을 방지하도록 적용될 수 있는 것이 바람직하다.
본 발명의 바람직한 실시 예에서, 오브젝트 프로세서(1200)는 SAOC 디코더(1800)를 포함하고 SAOC 디코더는 복수의 렌더링된 오디오 오브젝트를 획득하기 위하여 코어 디코더에 의해 출력된 하나 이상의 전송 채널 및 관련 파라미터 데이터를 디코딩하고 압축해제된 메타데이터를 사용하도록 구성된다. 이를 위하여, OAM 출력이 박스(1800)에 연결된다.
게다가, 오브젝트 프로세서(1200)는 SAOC 전송 채널들 내에서 인코딩되지 않으나 오브젝트 렌더러(1210)에 의해 나타낸 것과 같이 일반적으로 단일 채널식 요소들 내에 개별적으로 인코딩되는 코어 디코더에 의해 출력된 디코딩된 오브젝트들을 렌더링하도록 구성된다. 게다가, 디코더는 믹서의 출력을 확성기들로 출력하기 위한 출력(1730)과 상응하는 출력 인터페이스를 포함한다.
또 다른 실시 예에서, 오브젝트 프로세서(1200)는 하나 이상의 전송 채널 및 인코딩된 오디오 신호들 또는 인코딩된 오디오 채널들을 표현하는 관련 파라미터 부가 정보를 디코딩하기 위한 공간 오디오 오브젝트 코딩 디코더(1800)를 포함하고, 공간 오디오 오브젝트 코딩 디코더는 예를 들면 SAOC의 초기 버전에서 정의된 것과 같이, 직접적으로 출력 포맷을 렌더링하기에 유용한 트랜스코딩된 파라미터 정보 내로 관련 파라미터 정보 및 압축해제된 메타데이터를 트랜스코딩하도록(transcode) 구성된다. 포스트프로세서(1700)는 디코딩된 전송 채널들 및 트랜스코딩된 파라미터 부가 정보를 사용하여 출력 포맷의 오디오 채널들을 계산하도록 구성된다. 포스트프로세서에 의해 실행되는 처리는 MPEG 서라운드 처리와 유사할 수 있거나 또는 BCC 처리 등과 같은 어떠한 다른 처리일 수 있다.
또 다른 실시 예에서, 오브젝트 프로세서(1200)는 디코딩된(코어 디코더에 의해) 전송 채널들 및 파라미터 부가 정보를 사용하여 출력 포맷을 위한 채널 신호들을 직접적으로 업믹스하고 렌더링하도록 구성되는 공간 오디오 오브젝트 코딩 디코더(1800)를 포함한다.
게다가, 그리고 중요하게, 도 5의 오브젝트 프로세서(1200)는 부가적으로 채널들과 믹싱된 프리-렌더링된 오브젝트들이 존재할 때, 즉 도 4의 믹서(200)가 활성이었을 때, 입력으로서, 직접적으로 USAC 디코더(1300)에 의해 출력된 데이터를 수신하는 믹서(1220)를 포함한다. 부가적으로, 믹서(1220)는 SAOC 디코딩 없이 오브젝트 렌더링을 실행하는 오브젝트 렌더러(object renderer)로부터 데이터를 수신한다. 게다가, 믹서는 SAOC 디코더 출력 데이터, 즉 SAOC 렌더링된 오브젝트들을 수신한다.
믹서(1220)는 출력 인터페이스(1730), 바이노럴 렌더러(1710) 및 포맷 컨버터(1720)에 연결된다. 바이노럴 렌더러(1710)는 헤드(head) 관련 전송 함수들 또는 바이노럴 룸 임펄스 응답(binaural room impulse response, BRIR)들을 사용하여 출력 채널들을 두 개의 바이오럴 채널로 렌더링하도록 구성된다. 포맷 컨버터(1720)는 출력 채널들을 믹서의 출력 채널(1205)보다 낮은 수의 채널을 갖는 출력 포맷으로 전환하도록 구성되고 포맷 컨버터(1720)는 5.1 스피커들 등과 같은 재생 레이아웃에 대한 정보를 필요로 한다.
도 9의 3차원 오디오 디코더는 SAOC 디코더가 렌더링된 오브젝트들뿐만 아니라 렌더링된 채널들을 발생시킬 수 있다는 점에서 도 7의 3차원 오디오 디코더와 다르고 이는 도 8의 3차원 오디오 인코더가 사용되었고 채널들/프리-렌더링된 오브젝트들 및 SAOC 인코더(800) 출력 인터페이스 사이의 연결(900)이 활성일 때 사실이다.
게다가, SAOC 디코더로부터 재생 레이아웃에 대한 정보를 수신하고 SAOC 디코더가 결국에는 1205, 즉 32 확성기의 고채널 포맷 내의 믹서의 어떠한 추가 운영 없이 렌더링된 채널을 제공하기 위하여 렌더링 매트릭스를 SAOC 디코더로 출력하는, 벡터 기반 진폭 패닝(vector base amplitude panning, VBAP, 이하 VBAP로 표기) 스테이지(1810)가 구성된다.
VBAP 블록은 렌더링 매트릭스들을 유도하기 위하여 바람직하게는 디코딩된 OAM 데이터를 수신한다. 더 일반적으로, 이는 바람직하게는 재생 레이아웃에 대한 기하학적 정보뿐만 아니라 입력 신호들이 재생 레이아웃 상에 렌더링되어야만 하는 위치들의 기하학적 정보를 필요로 한다. 이러한 기하학적 입력 데이터 오브젝트들을 위한 OAM 데이터 또는 SAOC를 사용하여 전송된 채널들을 위한 채널 위치 정보일 수 있다.
그러나, 만일 특정 출력 인터페이스만이; 필요하면 VBAP 스테이지(1810)는 예를 들면 5.1 출력을 위하여 필요한 렌더링 매트릭스을 이미 제공할 수 있다. SAOC 디코더(1800)는 그리고 나서 믹서(1220)의 어떠한 상호작용 없이 필요한 출력 포맷 내로 직접 렌더링하여, SAOC 전송 채널들, 관련 파라미터 데이터 및 압축해제된 메타데이터로부터 직접적인 렌더링을 실행한다. 그러나, 모드들 사이의 특정 믹스가 적용되면, 즉 몇몇 채널들이 SAOC 인코딩되나 모든 채널이 SAOC 인코딩되지는 않고 나머지 채널들이 SAOC 처리되지 않을 때 믹서는 개별 입력 부분들로부터, 즉 직접적으로 코어 디코더(1300)로부터 오브젝트 렌더러(1210)로부터, 그리고 SAOC 디코더(1800)로부터 데이터를 종합할 것이다.
3차원 오디오에서, 오디오 오브젝트의 위치를 정의하기 위하여 방위각, 고도각 및 반경이 사용된다. 이는 도 10을 참조하여 설명된다.
도 10은 방위각, 고도 및 반경에 의해 표현되는 기원(400)으로부터 3차원 공간 내의 오디오 오브젝트의 위치(410)를 도시한다.
방위각은 예를 들면, xy-면(x-축과 y-축에 의해 정의되는 면)에서의 각도를 정의한다. 고도각은 예를 들면, xz-면(x-축과 z-축에 의해 정의되는 면)에서의 각도를 정의한다. 방위각과 고도각을 지정함으로써, 오디오 오브젝트의 기원(400)과 위치(410)를 통한 일직선(415)이 정의될 수 있다. 반경을 더 지정함으로써, 오디오 오브젝트의 예상 위치(410)가 정의될 수 있다.
일 실시 예에서, 방위각은 다음의 범위에 대하여 정의되고: -180o<방위각≤180o, 고도각은 다음의 범위에 대하여 정의되며: -90o<고도각≤90o, 반경은 예를 들면, (0m보다 크거나 또는 동일한) 미터들[m]로 정의될 수 있다. 방위, 고도 및 각도에 의해 설명되는 구체(sphere)는 두 개의 반구체로 세분된다: 왼쪽 반구체(0o<방위각≤180o) 및 오른쪽 반구체(-180o<방위각≤0o), 또는 상부 반구체(0o<고도각≤90o) 및 하부 반구체(-90o<방위각≤0o).
예를 들면 xyz-좌표 시스템 내의 오디오 오브젝트 위치들의 모든 x-값이 0보다 크거나 또는 동일한, 또 다른 실시 예에서, 방위각은 다음이 범위에 대하여 정의될 수 있고: -90o≤방위각≤90o, 고도각은 다음의 범위에 대하여 정의될 수 있으며: -90o<고도각≤90o, 반경은 예를 들면, 미터들[m]로 정의된다.
다운믹스 프로세서(120)는 예를 들면, 재구성된 메타데이터 정보 값들에 의존하는 하나 이상의 오디오 오브젝트 신호에 의존하여 하나 이상이 오디오 채널을 발생시키도록 구성될 수 있고, 재구성된 메타데이터 정보 값들은 예를 들면, 오디오 오브젝트들의 위치를 나타낼 수 있다.
일 실시 예에서, 메타데이터 정보 값들은 예를 들면, 다음의 범위에 대하여 정의되는 방위각: -180o<방위각≤180o, 다음의 범위에 대하여 정의되는 고도각: -90o<고도각≤90o을 나타낼 수 있고, 반경은 예를 들면, (0m보다 크거나 또는 동일한) 미터들[m]로 정의될 수 있다.
도 11은 오디오 채널 발생기에 의해 추정되는 오디오 오브젝트들의 위치 및 확성기 설정을 도시한다. xyz-좌표 시스템의 기원(500)이 도시된다. 게다가, 제 1 오디오 오브젝트의 위치(510) 및 제 2 오디오 오브젝트의 위치(520)가 도시된다. 게다가, 도 11은 오디오 채널 발생기(120)가 4개의 확성기를 위한 4개의 오디오 채널을 발생시키는, 시나리오를 도시한다. 오디오 채널 발생기(120)는 4개의 확성기(511, 512, 513 및 514)가 도 11에 도시된 위치들에 위치되는 것을 추정한다.
도 11에서, 제 1 오디오 오브젝트는 확성기들(511 및 512)의 추정된 위치들에 가까운 위치(510)에 위치되고, 확성기들(513 및 514)로부터 멀리 떨어져 위치된다. 따라서, 오디오 채널 발생기(120)는 제 1 오디오 오브젝트(510)가 확성기들(513 및 514)이 아닌 확성기들(511 및 512)에 의해 재생되도록 4개의 오디오 채널을 발생시킬 수 있다.
다른 실시 예들에서, 오디오 채널 발생기(120)는 제 1 오디오 오브젝트(510)가 확성기들(511 및 512)에 의해 고레벨로, 그리고 확성기들(513 및 514)에 의해 저레벨로 재생되도록 4개의 오디오 채널을 발생시킬 수 있다.
게다가, 제 2 오디오 오브젝트는 확성기들(513 및 514)의 추정된 위치들에 가까운 위치(520)에 위치되고, 확성기들(511 및 512)로부터 멀리 떨어져 위치된다. 따라서, 오디오 채널 발생기(120)는 제 2 오디오 오브젝트(520)가 확성기들(511 및 512)이 아닌 확성기들(513 및 514)에 의해 재생되도록 4개의 오디오 채널을 발생시킬 수 있다.
다른 실시 예들에서, 다운믹스 프로세서(120)는 제 2 오디오 오브젝트(520)가 확성기들(513 및 514)에 의해 고레벨로, 그리고 확성기들(511 및 512)에 의해 저레벨로 재생되도록 4개의 오디오 채널을 발생시킬 수 있다.
대안의 실시 예들에서, 오디오 오브젝트의 위치를 지정하기 위하여 두 개의 메타데이터 정보 값만이 사용된다. 예를 들면, 모든 오디오 오브젝트가 단일 평면 내에 위치될 때, 예를 들면 방위 및 반경만이 지정될 수 있다.
또 다른 실시 예들에서, 각각이 오디오 오브젝트를 위하여, 메타데이터 신호의 단일 메타데이터 정보 값만이 위치 정보로서 인코딩되고 전송된다. 예를 들면, 방위각만이 오디오 오브젝트를 위한 위치 정보로서 지정될 수 있다(예를 들면, 이는 모든 오디오 오브젝트가 중앙 지점으로부터 동일한 거리를 갖는 동일한 평면을 갖는 것으로 추정될 수 있고, 따라서 동일한 반경을 갖는 것으로 추정된다). 방위 정보는 예를 들면, 오디오 오브젝트가 왼쪽 확성기에 가깝게 위치되고 오른쪽 확성기로부터 멀리 떨어져 위치되는 것을 결정하는데 충분할 수 있다. 그러한 상황에서, 오디오 채널 발생기(!20)는 예를 들면, 오디오 오브젝트가 오른쪽 확성기가 아닝 왼쪽 확성기에 의해 재생되도록 하나 이상의 오디오 채널을 발생시킬 수 있다.
예를 들면, VBAP는 각각의 오디오 출력 채널들 내의 오디오 오브젝트 신호의 중량을 결정하도록 사용될 수 있다(예를 들면, [VBAP] 참조). VBAP와 관련하여, 오디오 오브젝트 신호가 가상 소스(virtual source)로 할당되는 것이 추정되고, 게다가 오디오 출력 채널이 확성기의 출력인 것이 추정된다.
실시 예들에서, 예를 들면 추가의 메타데이터 신호의 추가 메타데이터 정보 값은 각각의 오디오 오브젝트에 대한 볼륨, 즉 이득(예를 들면, 데시벨[dB]로 표현되는)을 지정할 수 있다.
예를 들면 도 11에서, 위치(520)에 위치되는 제 2 오디오 오브젝트에 대한 또 다른 추가 메타데이터 정보 값에 의해 지정되는 제 2 이득 값보다 높은 위치(510)에 위치되는 제 1 오디오 오브젝트의 추가 메타데이터 정보 값에 의해 제 1 이득 값이 지정될 수 있다. 그러한 상황에서, 확성기들(511 및 512)은 확성기들(513 및 514)이 제 2 오디오 오브젝트를 재생하는 레벨보다 높은 레벨로 제 1 오디오 오브젝트를 재생할 수 있다.
SAOC 기술에 따르면, SAOC 인코더는 복수의 오디오 오브젝트 신호(X)를 수신하고 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호(Y)를 획득하기 위하여 다운믹스 매트릭스(D)를 사용함으로써 이것들을 다운믹스한다. 다음이 공식이 사용될 수 있다.
Y = DX
SAOC 인코더는 오디오 전송 신호(Y) 및 다운믹스 매트릭스(D)에 대한 정보(예를 들면, 다운믹스 매트릭스(D)의 계수들)를 SAOC 디코더로 전송한다. 게다가, SAOC 인코더는 공분산 매트릭스(E)에 대한 정보(예를 들면, 공분산 매트릭스(E)의 계수들)를 SAOC 디코더로 전송한다.
디코더 측 상에서, 오디오 오브젝트 신호들(X)은 다음이 공식을 사용함으로써 재구성된 오디오 오브젝트 신호들(
Figure pct00001
)을 획득하도록 재구성될 수 있는데:
Figure pct00002
여기서 GG = ED H (DED H )-1인, 파라미터 소스 추정 매트릭스이다.
그리고 나서, 다음이 공식에 따라 재구성된 오디오 오브젝트들(
Figure pct00003
) 상에 렌더링 매트릭스(R)를 적용함으로써 하나 이상의 오디오 출력 채널(Z)이 발생될 수 있다:
Figure pct00004
그러나, 오디오 전송 신호로부터, 하나 이상의 오디오 출력 채널(Z)의 발생은 또한 다음의 공식에 따라 매트릭스(U)를 사용함으로써 단일 단계에서 수행될 수 있다:
Z = UY, 여기서 U = RG.
렌더링 매트릭스(R)의 각각의 열은 발생되어야만 하는 오디오 출력 채널들 중 하나와 관련된다. 렌더링 매트릭스(R)의 열들 중 하나 내의 각각의 계수는 상기 렌더링 매트릭스(R)의 열이 관련된, 오디오 출력 채널 내의 재구성된 오디오 오브젝트 신호들 중 하나의 중량을 결정한다.
예를 들면, 렌더링 매트릭스(R)는 메타데이터 정보 내의 SAOC 디코더로 전송된 각각의 오디오 오브젝트 신호들에 대한 위치 정보에 의존할 수 있다. 예를 들면, 추정된 또는 실제 확성기 위치에 가깝게 위치되는 위치를 갖는 오디오 오브젝트 신호는 예를 들면, 위치가 상기 확성기로부터 멀리 떨어져 위치되는, 오디오 오브젝트 신호의 중량보다 상기 확성기의 오디오 출력 내에서 높은 중량을 가질 수 있다(도 5 참조). 예를 들면, VBAP는 각각의 오디오 출력 채널 내의 오디오 오브젝트 신호의 중량을 결정하도록 사용될 수 있다(예를 들면, [VBAP] 참조). VBAP와 관련하여, 오디오 오브젝트 신호가 가상 소스로 할당되는 것이 추정되고, 게다가 오디오 출력 채널이 확성기의 출력인 것이 추정된다.
도 6 및 8에서, SAOC 인코더(800)가 도시된다. SAOC 인코더(800)는 낮은 수의 전송 채널들로 다운믹싱하고 3차원 오디오 비트스트림 내에 내장된 필요한 보조 정보를 추출함으로써 다수의 입력 오브젝트/채널을 파라미터로 인코딩하도록 사용된다.
낮은 수의 전송 채널들로의 다운믹싱은 각각의 입력 신호 및 다운믹스 채널에 대한 다운믹싱 계수들을 사용하여 수행된다(예를 들면, 다운믹스 매트릭스를 사용함으로써).
오디오 오브젝트 신호들을 처리하는 종래 기술은 MPEG SAOC 시스템이다. 그러한 시스템의 한 가지 중요한 특성은 중간 다운믹스 신호들(또는 도 6과 8에 따른 SAOC 전송 채널들)이 SAOC 정보를 디코딩할 수 없는 레거시 장치(legacy device)들로 청취될 수 있다는 것이다. 이는 일반적으로 콘텐츠 생성기(content creator)에 의해 제공되는, 사용되려는 다운믹스 계수들 상에 제한을 부과한다.
3차원 오디오 코덱 시스템은 많은 수의 오브젝트들 또는 채널들의 코딩을 위한 효율성을 증가시키기 위하여 SAOC 기술을 사용하기 위한 목적을 갖는다. 많은 수의 오브젝트들의 적은 수의 전송 채널들로의 다운믹싱은 비트레이트를 절약한다.
도 2는 일 실시 예에 따라 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 발생시키기 위한 장치를 도시한다.
장치는 두 개 이상의 오디오 오브젝트 신호가 오디오 전송 신호 내에 믹싱되도록, 두 개 이상의 오디오 오브젝트 신호로부터 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 발생시키기 위한 오브젝트 믹서(210)를 포함하고, 하나 이상의 오디오 전송 채널의 수는 두 개 이상의 오디오 오브젝트 신호의 수보다 적다.
게다가, 장치는 오디오 전송 신호를 출력하기 위한 출력 인터페이스(220)를 포함한다.
오브젝트 믹서(210)는 제 1 믹싱 규칙에 의존하고 제 2 믹싱 규칙에 의존하여 오디오 전송 신호의 하나 이상의 오디오 전송 채널을 발생시키도록 구성되고, 제 1 믹싱 규칙은 복수의 프리믹싱된 채널을 획득하기 위하여 두 개 이상의 오디오 오브젝트 신호가 어떻게 믹싱되는지를 나타내고, 제 2 믹싱 규칙은 오디오 전송 신호의 하나 이상의 오디오 전송 채널을 획득하기 위하여 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타낸다. 제 1 믹싱 규칙은 두 개 이상의 오디오 오브젝트 신호의 수를 나타내는 오디오 오브젝트들 수에 의존하고, 복수의 프리믹싱된 채널의 수를 나타내는 프리믹싱된 채널들 수에 의존하며, 제 2 믹싱 규칙은 프리믹싱된 채널들 수에 의존한다. 출력 인터페이스(220)는 제 2 믹싱 규칙에 대한 정보를 출력하도록 구성된다.
도 1은 일 실시 예에 따라 하나 이상의 오디오 출력 채널을 발생시키기 위한 장치를 도시한다.
장치는 출력 채널 믹싱 정보를 계산하기 위한 파라미터 프로세서(110) 및 하나 이상이 오디오 출력 채널을 발생시키기 위한 다운믹스 프로세서(120)를 포함한다.
다운믹스 프로세서(120)는 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 수신하도록 구성되고, 오디오 전송 신호 내에 두 개 이상의 오디오 오브젝트 신호가 믹싱되며, 하나 이상의 오디오 전송 채널의 수는 두 개 이상의 오디오 오브젝트 신호의 수보다 적다. 오디오 전송 신호는 제 1 믹싱 규칙 및 제 2 믹싱 규칙에 의존한다. 제 1 믹싱 규칙은 복수의 프리믹싱된 채널을 획득하기 위하여 두 개 이상의 오디오 오브젝트 신호가 어떻게 믹싱되는지를 나타낸다. 게다가, 제 2 믹싱 규칙은 오디오 전송 신호의 하나 이상의 오디오 전송 채널을 획득하기 위하여 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타낸다.
파라미터 프로세서(110)는 제 2 믹싱 규칙에 대한 정보를 수신하도록 구성되고, 제 2 믹싱 규칙에 대한 정보는 하나 이상의 오디오 전송 채널이 획득되도록 복수의 프리믹싱된 신호를 어떻게 믹싱하는지를 나타낸다. 파라미터 프로세서(110)는 두 개 이상의 오디오 오브젝트 신호의 수를 나타내는 오디오 오브젝트들 수에 의존하고, 복수의 프리믹싱된 채널의 수를 나타내는 프리믹싱된 채널들 수에 의존하며, 제 2 믹싱 규칙에 대한 정보에 의존하여 출력 채널 믹싱 정보를 계산하도록 구성된다.
다운믹스 프로세서(120)는 출력 채널 믹싱 정보에 의존하여 오디오 전송 신호로부터 하나 이상의 오디오 출력 채널을 발생시키도록 구성된다.
일 실시 예에 따르면, 장치는 예를 들면, 오디오 오브젝트들 수 및 미리믹싱된 채널들 수 중 적어도 하나를 수신하도록 구성될 수 있다.
또 다른 실시 예에서, 파라미터 프로세서(110)는 복수의 프리믹싱된 채널을 획득하기 위하여 제 1 믹싱 규칙에 대한 정보가 두 개 이상의 오디오 오브젝트 신호를 어떻게 믹싱하는지를 나타내도록, 예를 들면, 오디오 오브젝트들 수에 의존하고 프리믹싱된 채널들 수에 의존하여, 제 1 믹싱 규칙에 대한 정보를 결정하도록 구성될 수 있다. 그러한 실시 예에서, 파라미터 프로세서(110)는 예를 들면 제 1 믹싱 규칙에 대한 정보에 의존하고 제 2 믹싱 규칙에 대한 정보에 의존하여, 출력 채널 믹싱 정보를 계산하도록 구성될 수 있다.
일 실시 예에 따르면, 파라미터 프로세서(110)는 예를 들면, 오디오 오브젝트들 수에 의존하고 프리믹싱된 채널들 수에 의존하여, 제 1 믹싱 규칙에 대한 정보로서 제 1 매트릭스(P)의 복수의 계수를 결정하도록 구성될 수 있고, 제 1 매트릭스(P)는 오디오 전송 신호의 하나 이상의 오디오 전송 채널을 획득하기 위하여 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타낸다. 그러한 실시 예에서, 파라미터 프로세서(110)는 예를 들면, 제 2 믹싱 규칙에 대한 정보로서 제 2 매트릭스(Q)의 복수의 계수들을 수신하도록 구성될 수 있고, 제 2 매트릭스(Q)는 오디오 전송 신호의 하나 이상의 오디오 전송 채널을 획득하기 위하여 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타낸다. 그러한 실시 예의 파라미터 프로세서(110)는 예를 들면, 제 1 매트릭스(P)에 의존하고 제 2 매트릭스(Q)에 의존하여 출력 채널 믹싱 정보를 계산하도록 구성될 수 있다.
실시 예들은 다음이 공식에 따라 다운믹스 매트릭스(D)를 사용함으로써 인코더 측 상에서 오디오 전송 신호(Y)를 획득하기 위하여 두 개 이상의 오디오 오브젝트 신호(X)를 다운믹싱할 때
Y = DX,
다운믹스 매트릭스(D)는 다음의 공식에 두 개의 더 작은 매트릭스들(PQ)로 세분될 수 있다는 사실을 기초로 한다:
D = QP.
여기서, 제 1 매트릭스(P)는 다음의 공식에 따라 오디오 오브젝트 신호들(X)로부터 복수의 프리믹싱된 채널(Xpre)로의 믹싱을 실현한다:
X pre = PX.
제2 매트릭스(Q)는 다음의 공식에 따라 복수의 프리믹싱된 채널(X pre)로부터 오디오 전송 신호(Y)의 하나 이상의 오디오 전송 채널로의 믹싱을 실현한다:
Y = QX pre .
실시 예들에 따르면, 제 2 믹싱 규칙, 예를 들면 제 2 믹싱 매트릭스(Q)의 계수들에 대한 정보가 디코더로 전송된다.
제 1 믹싱 매트릭스(P)의 계수들은 디코더로 전송될 필요가 없다. 대신에, 디코더는 오디오 오브젝트 신호들의 수에 대한 정보 및 프리믹싱된 채널들의 수에 대한 정보를 수신한다. 이러한 정보로부터, 디코더는 제 1 믹싱 매트릭스(P)를 재구성할 수 있다. 예를 들면, 인코더와 디코더는 오디오 오브젝트 신호들의 제 1 수(N objects)를 피리믹싱된 채널들의 제 2 수(N pre)로 믹싱할 때, 동일한 방식으로 믹싱 매트릭스(P)를 결정한다.
도 3은 일 실시 예에 따른 시스템을 도시한다. 시스템은 도 2와 관련하여 위에 설명된 것과 같이 오디오 전송 신호를 발생시키기 위한 장치(310) 및 도 1과 관련하여 위에 설명된 것과 같이 하나 이상의 오디오 출력 채널을 발생시키기 위한 장치(320)를 포함한다.
하나 이상의 오디오 출력 채널을 발생시키기 위한 장치(320)는 오디오 전송 신호를 발생시키기 위한 장치로부터 오디오 전송 신호 및 제 2 믹싱 규칙에 대한 정보를 수신하도록 구성된다. 게다가, 하나 이상의 오디오 출력 채널을 발생시키기 위한 장치(320)는 제 2 믹싱 규칙에 대한 정보에 의존하여 오디오 전송 신호로부터 하나 이상의 오디오 출력 채널을 발생시키도록 구성된다.
예를 들면, 파라미터 프로세서(110)는 예를 들면 두 개 이상의 오디오 오브젝트 신호 각각에 대한 위치를 정보를 포함하는 메타데이터 정보를 수신하고, 예를 들면 VBAP를 사용함으로써 두 개 이상의 오디오 오브젝트 신호 각각의 위치 정보에 의존하여 제 1 다운믹스 규칙에 대한 정보를 결정하도록 구성될 수 있다. 예를 들면, 인코더는 또한 두 개 이상이 오디오 오브젝트 신호 각각의 위치 정보로의 액세스를 가질 수 있고 또한 VBAP를 프리믹싱된 채널들 내의 오디오 오브젝트 신호들의 중량들의 결정에 사용할 수 있으며, 이에 의해 뒤에 디코더에 의해 수행되는 것과 동일한 방법으로 제 1 매트릭스(P)의 계수들을 결정한다(예를 들면, 인코더와 디코더 모두는 N pre 프리믹싱된 채널들에 할당된 추정된 확성기들의 동일한 위치선정을 추정할 수 있다).
제 2 매트릭스(Q)의 계수들을 수신하고 제 1 매트릭스(P)를 결정함으로써, 디코더는 D = QP에 따라 다운믹스 매트릭스(D)를 결정할 수 있다.
일 실시 예에서, 파라미터 프로세서는 예를 들면, 두 개 이상의 오디오 오브젝트 신호 각각에 대한 오브젝트 레벨 차이를 나타내고, 가능하게는 오디오 오브젝트 신호들 중 하나 및 오디오 오브젝트 신호들 중 또 다른 하나 사이의 적어도 하나의 오브젝트-간 상관관계를 나타내는, 공분산 정보, 예를 들면 공분산 매트릭스(E)의 정보를 수신하도록(예를 들면, 오디오 전송 신호의 발생을 위한 장치로부터) 구성될 수 있다.
그러한 실시 예에서, 파라미터 프로세서(110)는 오디오 오브젝트들 수에 의존하고, 프리믹싱된 채널들 수에 의존하며, 제 2 믹싱 규칙에 의존하며, 그리고 공분산 정보에 의존하여, 출력 채널 믹싱 정보를 계산하도록 구성될 수 있다.
예를 들면, 공분산 매트릭스(E)를 사용하여, 오디오 오브젝트 신호들(X)은 다음의 공식을 사용함으로써 재구성된 오디오 오브젝트들(
Figure pct00005
)을 획득하도록 재구성될 수 있고:
Figure pct00006
여기서 GG = ED H (DED H )-1인, 파라미터 소스 추정 매트릭스이다.
그리고 나서, 다음의 공식에 따라 재구성된 오디오 오브젝트들(
Figure pct00007
) 상에 렌더링 매트릭스(R)를 적용함으로써 하나 이상의 오디오 출력 채널(Z)이 발생될 수 있다:
Figure pct00008
그러나, 오디오 전송 신호로부터, 하나 이상의 오디오 출력 채널(Z)의 발생은 또한 다음의 공식에 따라 매트릭스(U)를 사용함으로써 단일 단계에서 수행될 수 있다:
Z = UY, 여기서 S = UG.
그러한 매트릭스(S)는 파라미터 프로세서(110)에 의해 결정되는 출력 채널 믹싱 정보를 위한 일례이다.
예를 들면, 위에서 이미 설명된 것과 같이, 렌더링 매트릭스(R)의 각각의 열은 발생되어야만 하는 오디오 출력 채널들 중 하나와 관련된다. 렌더링 매트릭스(R)의 열들 중 하나 내의 각각의 계수는 상기 렌더링 매트릭스(R)의 열이 관련된, 오디오 출력 채널 내의 재구성된 오디오 오브젝트 신호들 중 하나의 중량을 결정한다.
일 실시 예에 따르면, 파라미터 프로세서(110)는 예를 들면, 두 개 이상의 오디오 오브젝트 각각에 대한 위치 정보를 포함하는 메타데이터 정보를 수신하도록 구성될 수 있고, 예를 들면, 두 개 이상의 오디오 오브젝트 신호 각각의 위치 정보에 의존하여 렌더링 정보, 예를 들면 렌더링 매트릭스(R)의 계수들을 결정하도록 구성될 수 있으며, 예를 들면, 오디오 오브젝트들 수에 의존하고, 미리믹싱된 채널들 수에 의존하며, 제 2 믹싱 규칙에 의존하며, 그리고 렌더링 정보(예를 들면, 렌더링 매트릭스(R))에 의존하여 출력 채널 믹싱 정보(예를 들면, 위의 매트릭스(S))를 계산하도록 구성될 수 있다.
따라서, 렌더링 매트릭스(R)는 예를 들면, 메타데이터 정보 내의 SAOC 디코더로 전송되는 오디오 오브젝트 신호들 각각에 대한 위치 정보에 의존할 수 있다. 예를 들면, 추정된 또는 실제 확성기 위치에 가깝게 위치되는 위치를 갖는 오디오 오브젝트 신호는 예를 들면, 위치가 상기 확성기로부터 멀리 떨어져 위치되는, 오디오 오브젝트 신호의 중량보다 상기 확성기의 오디오 출력 내에서 높은 중량을 가질 수 있다(도 5 참조). 예를 들면, VBAP는 각각의 오디오 출력 채널 내의 오디오 오브젝트 신호의 중량을 결정하도록 사용될 수 있다(예를 들면, [VBAP] 참조). VBAP와 관련하여, 오디오 오브젝트 신호가 가상 소스로 할당되는 것이 추정되고, 게다가 오디오 출력 채널이 확성기의 출력인 것이 추정된다. 렌더링 매트릭스(R)의 상응하는 계수(고려되는 오디오 출력 채널 및 고려되는 오디오 오브젝트 신호에 할당된 계수)는 그리고 나서 그러한 중량에 의존하는 값으로 설정될 수 있다. 예를 들면, 중량 자체는 렌더링 매트릭스(R) 내의 상기 상응하는 계수의 값일 수 있다.
아래에, 오브젝트 기반 신호들을 위한 공간 다운믹스를 실현하는 실시 예들이 더 상세히 설명된다.
다음의 표기와 정의가 참조된다:
N Objects 입력 오디오 오브젝트 신호들의 수
N Channels 입력 채널들의 수
N 입력 신호들이 수;
NN Objects , N Channels 또는 N Objects +N Channels 과 동일할 수 있다.
N DmxCh 다운믹스(처리된) 채널들의 수
N pre 프리믹스 채널들의 수
N Samples 처리된 데이터 샘플들의 수
D 다운믹스 매트릭스, 크기 N DmxCh ×N
X 두 개 이상의 오디오 입력 신호를 포함하는 입력 오디오 신호, 크기 N×N Samples
Y 다운믹스 오디오 신호(오디오 전송 신호), 크기 Y = DX와 같이 정의되는, N DmxCh ×N Samples
DMG 모든 입력 신호, 다운믹스 채널, 및 파라미터 세트를 위한 다운믹스 이득 데이터
D DMG 이는 모든 입력 신호, 다운믹스 채널, 및 파라미터 세트를 위한, 탈양자화되고 매핑된 DMG 데이터를 유지하기 위한 3차원 매트릭스이다
일반성의 손실 없이, 도입된 모든 변수를 위한, 방정식의 가독도(readability)를 향상시키기 위하여, 시간을 나타내는 지수들 및 주파수 의존은 생략된다.
만일 입력 신호들(채널들 또는 오브젝트들)과 관련하여 어떠한 제한도 지정되지 않으면, 다운믹스 계수들은 입력 채널 신호들 및 입력 오브젝트 신호들을 위한 것과 동일한 방법으로 계산된다. 입력 신호들의 수를 위한 기호(N)가 사용된다.
일부 실시 예들은 예를 들면, 오브젝트메타데이터 내에서 이용 가능한 공간 정보에 의해 안내되는, 채널 신호들보다 상이한 방식으로 오브젝트 신호들의 다운믹싱을 위하여 디자인될 수 있다.
다운믹싱은 두 단계로 분리될 수 있다:
- 제 1 단계에서, 오브젝트들은 확성기들의 가장 높은 수(N pre )로(예를 들면, 22.2 구성에 의해 주어진 N pre = 22) 재생 레이아웃에 프리렌더링될(prerendered) 수 있다.
- 제 2 단계에서, 획득된 N pre 프리렌더링된 신호들은 이용 가능한 전송 채널들의 수(N DmxCh )로 다운믹싱된다(예를 들면, 직각 다운믹스 분포 알고리즘에 따라). 예를 들면, 제 2 매트릭스(Q)가 사용될 수 있다.
그러나, 일부 실시 예들에서, 다운믹스는 예를 들면 공식 D = QP에 따라 정의되는 매트릭스(D)를 사용하고 D = QP인, Y = DX를 적용함으로써, 단일 단계에서 수행된다.
그중에서도, 제안된 개념들의 또 다른 장점은 예를 들면, 오디오 장면에서, 동일한 공간 위치에서 렌더링되는 것으로 추정되는 입력 오브젝트 신호들이 동일한 전송 채널들 내에서 함께 다운믹싱된다는 것이다. 그 결과 디코더 측에서 프리렌더링된 신호들의 더 나은 분리가 획득되고, 최종 재생 장면에서 다시 함께 혼합될 것인 오디오 오브젝트의 분리를 방지한다.
특히 바람직한 실시 예들에 따르면, 다운믹스는 다음에 의한 매트릭스 곱셈으로서 설명될 수 있는데:
X pre = PXY = QX pre
여기서 크기(N pre × N Objects )의 P 및 (N DmxCh ×N pre )의 크기 Q는 아래에 설명되는 것과 같이 계산된다.
P 내의 믹싱 계수들은 패닝 알고리즘(예를 들면, 벡터 기반 진폭 패닝)을 사용하여 오브젝트 신호들 메타데이터(반경 이득, 방위각과 고도각)로부터 구성된다. 패닝 알고리즘은 출력 채널들의 구성을 위하여 디코더 측에서 사용된 것과 동일하여야만 한다.
Q 내의 믹싱 계수들은 N pre 입력 신호들 및 N DmxCh 이용 가능한 전송 채널들을 위하여 디코더 측에 주어진다.
계산 복잡도를 감소시키기 위하여, 두 단계 다운믹스는 다음과 같이 최종 다운믹스 이득들을 계산함으로써 하나의 단계로 단순화될 수 있다:
D = QP
그리고 나서 다운믹스 신호들이 다음에 의해 주어진다:
Y = DX
P 내의 믹싱 계수들은 비트스트림 내에서 전송되지 않는다. 대신에 그것들은 동일한 패닝 알고리즘을 사용하여 디코더 측에서 재구성된다. 따라서 비트레이트는 Q 내의 믹싱 계수들만을 전송함으로써 감소된다. 특히, P 내의 믹싱 계수들은 일반적으로 시간 변이적이고, P는 전송되지 않기 때문에, 높은 비트레이트 감소가 달성될 수 있다.
아래에, 일 실시 예에 따른 비트스트림 구문이 고려된다.
제 1 단계에서 오브젝트들을 프리렌더링하기 위하여 사용된 다운믹스 방법 및 채널들의 수(N pre )의 시그널링을 위하여, MPEG SAOC 비트스트림 구문은 4 비트로 확장된다:
Figure pct00009
Figure pct00010
MPEG SAOC의 맥락에서, 이는 다음의 변형에 의해 달성될 수 있다:
bsSaocDmxMethod: 다운믹스 매트릭스가 어떻게 구성되는지를 나타냄.
SAOC3DSpecificConfig()의 구문 - 시그널링
Figure pct00011
.
Saoc3DFrame()의 구문: 상이한 모드들을 위하여 DMG들이 판독되는 방법
Figure pct00012
bsNumSaocDmxChannels 기반 콘텐츠의 채널들을 위한 다운믹스 채널들의 수를 정의. 만일 다운믹스 내에 어떠한 채널도 존재하지 않으면 bsNumSaocDmxChannels는 0으로 설정됨.
bsNumSaocChannels SAOC 3차원 파라미터들이 전송되는 입력 채널들의 수를 정의. 만일 bsNumSaocChannels = 0이면 어떠한 채널도 다운믹스 내에 존재하지 않음.
bsNumSaocDmxObjects 오브젝트 기반 콘텐츠의 다운믹스 채널들의 수를 정의. 만일 다운믹스 내에 어떠한 채널도 존재하지 않으면 bsNumSaocDmxObjects는 0으로 설정됨.
bsNumPremixedChannels 입력 오디오 오브젝트들을 위한 프리믹싱 채널들의 수를 정의. 만일 bsSaocDmxMethod이 15와 동일하면 프리믹싱된 채널들의 실제 수는 bsNumPremixedChannels의 값에 의해 직접적으로 시그널링됨. 다른 모든 경우에서 bsNumPremixedChannels는 이전 테이블에 따라 설정됨.
일 실시 예에 따르면, 입력 오디오 신호들(S)에 적용된 다운믹스 매트릭스(D)는 다음과 같이 다운믹스 신호를 결정한다:
X = DS.
크기 N dmx ×N의 다운믹스 매트릭스(D)는 다음과 같이 획득된다:
D = D dmx D premix
매트릭스(D dmx ) 및 매트릭스(D premix )는 처리 모드에 따라 상이한 크기들을 갖는다.
매트릭스(D dmx )는 다음과 같이 DMG 파라미터들로부터 획득된다:
Figure pct00013
여기서, 탈양자화된 다운믹스 파라미터들은 다음과 같이 획득된다:
DMG i,j = D DMG(i,j,l)
직접적인 모드의 경우에, 어떠한 프리믹싱도 사용되지 않는다. 매트릭스(D premix )는 크기(N×N)를 갖고 다음에 의해 주어진다: D premix = 1. 매트릭스(D dmx )는 크기(N dmx ×N)를 갖고 다음과 같이 DMG 파라미터들로부터 획득된다.
프리믹싱 모드의 경우에 매트릭스(D premix )는 크기((N ch +N premix N)를 갖고 다음에 의해 주어지는데:
Figure pct00014
여기서 크기(N premix ×N obj )의 프리믹싱 매트릭스(A)가 오브젝트 렌더러로부터, 입력으로서 SAOC 3차원 디코더에 수신된다.
매트릭스(D dmx )는 크기(N dmx ×(N ch +N premix ))를 갖고 DMG 파라미터들로부터 획득된다.
장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 블록 또는 아이템 또는 장치의 특징을 나타낸다.
본 발명의 분해 신호들은 디지털 저장 매체 상에 저장될 수 있거나 혹은 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체 상에 전송될 수 있다.
특정 구현 요구사항들에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들면, 그 안에 저장되는 전자적으로 판독가능한 제어 신호들을 갖는, 플로피 디스크, DVD, CD, RON, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있으며, 이는 각각의 방법이 실행되는 것과 같이 프로그램가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 따라서, 디지털 저장 매체는 컴퓨터로 판독 가능할 수 있다.
본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법들의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(또는 데이터 저장 매체,또는 컴퓨터 판독가능 매체)이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.
또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.
또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.
이에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.
참고문헌
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.
[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
[VBAP] Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning"; J. Audio Eng. Soc., Level 45, Issue 6, pp. 456-466, June 1997.
[M1] Peters, N., Lossius, T. and Schacher J. C., "SpatDIF: Principles, Specification, and Examples", 9th Sound and Music Computing Conference, Copenhagen, Denmark, Jul. 2012.
[M2] Wright, M., Freed, A., "Open Sound Control: A New Protocol for Communicating with Sound Synthesizers", International Computer Music Conference, Thessaloniki, Greece, 1997.
[M3] Matthias Geier, Jens Ahrens, and Sascha Spors. (2010), "Object-based audio reproduction and the audio scene description format", Org. Sound, Vol. 15, No. 3, pp. 219-227, December 2010.
[M4] W3C, "Synchronized Multimedia Integration Language (SMIL 3.0)", Dec. 2008.
[M5] W3C, "Extensible Markup Language (XML) 1.0 (Fifth Edition)", Nov. 2008.
[M6] MPEG, "ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio", 2009.
[M7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116th AES Convention, Berlin, Germany, May 2004.
[M8] Web3D, "International Standard ISO/IEC 14772-1:1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997.
[M9] Sporer, T. (2012), "Codierung raumlicher Audiosignale mit leichtgewichtigen Audio-Objekten", Proc. Annual Meeting of the German Audiological Society (DGA), Erlangen, Germany, Mar. 2012.
101 : 오디오 입력 데이터
110 : 파라미터 프로세서
120 : 다운믹스 프로세서
200 : 믹서
210 : 오브젝트 믹서
220 : 출력 인터페이스
300 : 코어 인코더
400 : 메타데이터 압축기
500 : 출력 인터페이스
501 : 오디오 출력 데이터
510 : 제 1 오디오 오브젝트
511, 512, 513, 514 : 확성기
520 : 제 2 오디오 오브젝트
600 : 모드 컨트롤러
800 : 공간 오디오 오브젝트 코딩 인코더
1100 : 입력 인터페이스
1200 : 오브젝트 프로세서
1205 : 출력 채널
1210 : 오브젝트 렌더러
1220 : 믹서
1300 : 코어 디코더
1400 : 메타데이터 압축해제기
1600 : 모드 컨트롤러
1700 : 포스트프로세서
1710 : 바이노럴 렌더러
1720 : 포맷 컨버터
1727 : 단축키
1730 : 출력 인터페이스
1810 : 벡터 기반 진폭 패닝 스테이지

Claims (15)

  1. 하나 이상의 오디오 출력 채널을 발생시키기 위한 장치에 있어서,
    출력 채널 믹싱 정보를 출력하기 위한 파라미터 프로세서(110); 및
    상기 하나 이상의 오디오 출력 채널을 발생시키기 위한 다운믹스 프로세서(120), - 상기 다운믹스 프로세서(120)는 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 수신하도록 구성되고, 상기 오디오 전송 신호 내에 두 개 이상의 오디오 오브젝트 신호가 믹싱되며, 상기 하나 이상의 오디오 전송 채널의 수는 상기 두 개 이상의 오디오 오브젝트 신호의 수보다 적음 -;을 포함하고,
    상기 오디오 전송 신호는 제 1 믹싱 규칙 및 제 2 믹싱 규칙에 의존하고, 상기 제 1 믹싱 규칙은 복수의 프리믹싱된 채널을 획득하기 위하여 상기 두 개 이상의 오디오 오브젝트 신호가 어떻게 믹싱되는지를 나타내고, 상기 제 2 믹싱 규칙은 상기 오디오 전송 신호의 상기 하나 이상의 오디오 전송 채널을 획득하기 위하여 상기 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타내며,
    상기 파라미터 프로세서(110)는 상기 제 2 믹싱 규칙에 대한 정보를 수신하도록 구성되고, 상기 제 2 믹싱 규칙에 대한 상기 정보는 상기 하나 이상의 오디오 전송 채널이 획득되도록 상기 복수의 프리믹싱된 신호를 어떻게 믹싱하는지를 나타내며,
    상기 파라미터 프로세서(110)는 상기 두 개 이상의 오디오 오브젝트 신호의 수를 나타내는 오디오 오브젝트들 수에 의존하고, 복수의 프리믹싱된 채널의 수를 나타내는 프리믹싱된 채널들 수에 의존하며, 상기 제 2 믹싱 규칙에 대한 정보에 의존하여 상기 출력 채널 믹싱 정보를 계산하도록 구성되며,
    상기 다운믹스 프로세서(120)는 상기 출력 채널 믹싱 정보에 의존하여 상기 오디오 전송 신호로부터 상기 하나 이상의 오디오 출력 채널을 발생시키도록 구성되는 것을 특징으로 하는 하나 이상의 오디오 출력 채널을 발생시키기 위한 장치
  2. 제 1항에 있어서, 상기 장치는 상기 오디오 오브젝트들 수 및 상기 프리믹싱된 채널들 수 중 적어도 하나를 수신하도록 구성되는 것을 특징으로 하는 장치.
  3. 제 1항 또는 2항에 있어서,
    상기 파라미터 프로세서(110)는 상기 복수의 프리믹싱된 채널을 획득하기 위하여 상기 제 1 믹싱 규칙에 대한 정보가 상기 두 개 이상의 오디오 오브젝트 신호를 어떻게 믹싱하는지를 나타내도록, 상기 오디오 오브젝트들 수에 의존하고 상기 프리믹싱된 채널들 수에 의존하여, 상기 제 1 믹싱 규칙에 대한 정보를 결정하도록 구성되고,
    상기 파라미터 프로세서(110)는 상기 제 1 믹싱 규칙에 대한 정보에 의존하고 상기 제 2 믹싱 규칙에 대한 정보에 의존하여, 상기 출력 채널 믹싱 정보를 계산하도록 구성되는 것을 특징으로 하는 장치.
  4. 제 3항에 있어서,
    상기 파라미터 프로세서(110)는 상기 오디오 오브젝트들 수에 의존하고 상기 프리믹싱된 채널들 수에 의존하여, 상기 제 1 믹싱 규칙에 대한 정보로서 제 1 매트릭스(P)의 복수의 계수를 결정하도록 구성될 수 있고, 상기 제 1 매트릭스(P)는 상기 오디오 전송 신호의 상기 하나 이상의 오디오 전송 채널을 획득하기 위하여 상기 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타내고,
    상기 파라미터 프로세서(110)는 상기 제 2 믹싱 규칙에 대한 정보로서 제 2 매트릭스(Q)의 복수의 계수들을 수신하도록 구성될 수 있고, 상기 제 2 매트릭스(Q)는 상기 오디오 전송 신호의 상기 하나 이상의 오디오 전송 채널을 획득하기 위하여 상기 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타내며,
    상기 파라미터 프로세서(110)는 상기 제 1 매트릭스(P)에 의존하고 상기 제 2 매트릭스(Q)에 의존하여 상기 출력 채널 믹싱 정보를 계산하도록 구성되는 것을 특징으로 하는 장치.
  5. 제 1항 내지 4항 중 어느 한 항에 있어서,
    상기 파라미터 프로세서(110)는 상기 두 개 이상의 오디오 오브젝트 신호 각각에 대한 위치를 정보를 포함하는 메타데이터 정보를 수신하도록 구성되고,
    상기 파라미터 프로세서(110)는 상기 두 개 이상의 오디오 오브젝트 신호 각각의 상기 위치 정보에 의존하여 상기 제 1 다운믹스 규칙에 대한 정보를 결정하도록 구성되는 것을 특징으로 하는 장치.
  6. 제 5항에 있어서,
    상기 파라미터 프로세서(110)는 상기 두 개 이상의 오디오 오브젝트 신호 각각의 상기 위치 정보에 의존하여 렌더링 정보를 결정하도록 구성되고,
    상기 파라미터 프로세서(110)는 상기 오디오 오브젝트들 수에 의존하고, 상기 프리믹싱된 채널들 수에 의존하며, 제 2 믹싱 규칙에 대한 정보에 의존하며, 그리고 상기 렌더링 정보에 의존하여 상기 출력 채널 믹싱 정보를 계산하도록 구성되는 것을 특징으로 하는 장치.
  7. 제 1항 내지 6항 중 어느 한 항에 있어서,
    상기 파라미터 프로세서(110)는 상기 두 개 이상의 오디오 오브젝트 신호 각각에 대한 오브젝트 레벨 차이를 나타내는 공분산 정보를 수신하도록 구성되고,
    상기 파라미터 프로세서(110)는 상기 오디오 오브젝트들 수에 의존하고, 상기 프리믹싱된 채널들 수에 의존하며, 상기 제 2 믹싱 규칙에 의존하며, 그리고 상기 공분산 정보에 의존하여, 출력 채널 믹싱 정보를 계산하도록 구성되는 것을 특징으로 하는 장치.
  8. 제 7항에 있어서,
    상기 공분산 정보는 상기 오디오 오브젝트 신호들 중 하나 및 상기 오디오 오브젝트 신호들 중 또 다른 하나 사이의 적어도 하나의 오브젝트-간 상관관계를 더 나타내고,
    상기 파라미터 프로세서(110)는 상기 오디오 오브젝트들 수에 의존하고, 상기 프리믹싱된 채널들 수에 의존하며, 상기 제 2 믹싱 규칙에 의존하며, 상기 두 개 이상의 오디오 오브젝트 신호 각각에 대한 상기 오브젝트 레벨 차이에 의존하며, 그리고 상기 오디오 오브젝트 신호들 중 하나 및 상기 오디오 오브젝트 신호들 중 또 다른 하나 사이의 상기 적어도 하나의 오브젝트-간 상관관계에 의존하여, 출력 채널 믹싱 정보를 계산하도록 구성되는 것을 특징으로 하는 장치.
  9. 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 발생시키기 위한 장치에 있어서,
    두 개 이상의 오디오 오브젝트 신호가 상기 오디오 전송 신호 내에 믹싱되도록, 상기 두 개 이상의 오디오 오브젝트 신호로부터 상기 하나 이상의 오디오 전송 채널을 포함하는 상기 오디오 전송 신호를 발생시키기 위한 오브젝트 믹서(210, - 상기 하나 이상의 오디오 전송 채널의 수는 두 개 이상의 오디오 오브젝트 신호의 수보다 적음 -; 및
    상기 오디오 전송 신호를 출력하기 위한 출력 인터페이스(220);를 포함하고,
    상기 오브젝트 믹서(210)는 제 1 믹싱 규칙에 의존하고 제 2 믹싱 규칙에 의존하여 상기 오디오 전송 신호의 상기 하나 이상의 오디오 전송 채널을 발생시키도록 구성되고, 상기 제 1 믹싱 규칙은 복수의 프리믹싱된 채널을 획득하기 위하여 상기 두 개 이상의 오디오 오브젝트 신호가 어떻게 믹싱되는지를 나타내고, 상기 제 2 믹싱 규칙은 상기 오디오 전송 신호의 상기 하나 이상의 오디오 전송 채널을 획득하기 위하여 상기 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타내며,
    상기 제 1 믹싱 규칙은 상기 두 개 이상의 오디오 오브젝트 신호의 수를 나타내는, 오디오 오브젝트 수에 의존하고, 상기 복수의 프리믹싱된 채널의 수를 나타내는, 프리믹싱된 채널들 수에 의존하고, 상기 제 2 믹싱 규칙은 상기 프리믹싱된 채널들 수에 의존하며,
    상기 출력 인터페이스(220)는 상기 제 2 믹싱 규칙에 대한 정보를 출력하도록 구성되는 것을 특징으로 하는 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 발생시키기 위한 장치.
  10. 제 9항에 있어서,
    상기 오브젝트 믹서(210)는 상기 오디오 전송 신호의 상기 하나 이상의 오디오 전송 채널을 획득하기 위하여 상기 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타내는, 제 1 매트릭스(P)에 의존하고 상기 오디오 전송 신호의 상기 하나 이상의 오디오 전송 채널을 획득하기 위하여 상기 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타내는, 제 2 매트릭스(Q)에 의존하여, 상기 오디오 전송 신호의 상기 하나 이상의 오디오 전송 채널을 발생시키도록 구성되고,
    상기 파라미터 프로세서(110)는 상기 제 2 믹싱 규칙에 대한 정보로서 상기 제 2 매트릭스(Q)의 복수의 계수들을 출력하도록 구성되는 것을 특징으로 하는 장치.
  11. 제 9항 또는 10항에 있어서,
    상기 오브젝트 믹서(210)는 상기 두 개 이상의 오디오 오브젝트 신호 각각에 대한 위치 정보를 수신하도록 구성되고,
    상기 오브젝트 믹서(210)는 상기 두 개 이상의 오디오 오브젝트 신호 각각에 대한 상기 위치 정보에 의존하여 상기 제 1 믹싱 규칙을 결정하도록 구성되는 것을 특징으로 하는 장치.
  12. 오디오 전송 신호를 발생시키기 위한 제 9항 내지 11항 중 어느 한 항에 따른 장치(310); 및
    하나 이상의 오디오 출력 채널을 발생시키기 위한 제 1항 내지 8항 중 어느 한 항에 따른 장치(320);를 포함하고,
    상기 제 1항 내지 8항 중 어느 한 항에 따른 장치(320)는 상기 제 9항 내지 11항 중 어느 한 항에 따른 장치(310)로부터 상기 오디오 전송 신호 및 상기 제 2 믹싱 규칙에 대한 정보를 수신하도록 구성되고,
    상기 제 1항 내지 8항 중 어느 한 항에 따른 장치(320)는 상기 제 2 믹싱 규칙에 대한 정보에 의존하여 상기 오디오 전송 신호로부터 상기 하나 이상의 오디오 출력 채널을 발생시키도록 구성되는 것을 특징으로 하는 시스템.
  13. 하나 이상의 오디오 출력 채널을 발생시키기 위한 방법에 있어서,
    하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 수신하는 단계 - 상기 오디오 전송 신호 내에 두 개 이상의 오디오 오브젝트 신호가 믹싱되고, 상기 하나 이상의 오디오 전송 채널의 수는 상기 두 개 이상의 오디오 오브젝트 신호의 수보다 적으며, 상기 오디오 전송 신호는 제 1 믹싱 규칙 및 제 2 믹싱 규칙에 의존하고, 상기 제 1 믹싱 규칙은 복수의 프리믹싱된 채널을 획득하기 위하여 상기 두 개 이상의 오디오 오브젝트 신호가 어떻게 믹싱되는지를 나타내고, 상기 제 2 믹싱 규칙은 상기 오디오 전송 신호의 상기 하나 이상의 오디오 전송 채널을 획득하기 위하여 상기 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타냄 -;
    상기 제 2 믹싱 규칙에 대한 정보를 수신하는 단계 - 상기 제 2 믹싱 규칙에 대한 정보는 상기 하나 이상의 오디오 전송 채널을 획득하기 위하여 어떻게 상기 복수의 프리믹싱된 신호를 믹싱하는지를 나타냄 -;
    상기 두 개 이상의 오디오 오브젝트 신호의 수를 나타내는 오디오 오브젝트들 수에 의존하고, 상기 복수의 프리믹싱된 채널의 수를 나타내는 프리믹싱된 채널들 수에 의존하며, 상기 제 2 믹싱 규칙에 대한 정보에 의존하여 출력 채널 믹싱 정보를 계산하는 단계; 및
    상기 출력 채널 믹싱 정보에 의존하여 상기 오디오 전송 신호로부터 상기 하나 이상의 오디오 출력 채널을 발생시키는 단계;를 포함하는 것을 특징으로 하는 하나 이상의 오디오 출력 채널을 발생시키기 위한 방법.
  14. 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 발생시키기 위한 방법에 있어서,
    두 개 이상의 오디오 오브젝트 신호로부터 상기 하나 이상의 오디오 전송 채널을 포함하는 상기 오디오 전송 신호를 발생시키는 단계;
    상기 오디오 전송 신호를 출력하는 단계; 및
    제 2 믹싱 규칙에 따라 정보를 출력하는 단계;를 포함하고,
    상기 두 개 이상의 오디오 오브젝트 신호로부터 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 발생시키는 단계는 상기 두 개 이상의 오디오 오브젝트 신호가 상기 오디오 전송 신호 내에서 믹싱되도록 수행되고, 상기 하나 이상의 오디오 전송 채널의 수는 상기 두 개 이상의 오디오 오브젝트 신호의 수보다 적으며,
    상기 오디오 전송 신호로부터 하나 이상의 오디오 전송 채널을 발생시키는 단계는 제 1 믹싱 규칙에 의존하고 제 2 믹싱 규칙에 의존하여 수행되며, 상기 제 1 믹싱 규칙은 복수의 프리믹싱된 채널을 획득하기 위하여 상기 두 개 이상의 오디오 오브젝트 신호가 어떻게 믹싱되는지를 나타내고, 상기 제 2 믹싱 규칙은 상기 오디오 전송 신호의 상기 하나 이상의 오디오 전송 채널을 획득하기 위하여 상기 복수의 프리믹싱된 채널을 어떻게 믹싱하는지를 나타내며, 상기 제 1 믹싱 규칙은 상기 두 개 이상의 오디오 오브젝트 신호의 수를 나타내는, 오디오 오브젝트 수에 의존하고, 상기 복수의 프리믹싱된 채널의 수를 나타내는, 상기 프리믹싱된 채널들 수에 의존하고 상기 제 2 믹싱 규칙은상기 프리믹싱된 채널들 수에 의존하는 것을 특징으로 하는 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 발생시키기 위한 방법.
  15. 컴퓨터 또는 신호 프로세서 상에서 실행될 때, 제 13항 또는 14항의 방법을 구현하기 위한 컴퓨터 프로그램.
KR1020167004312A 2013-07-22 2014-07-16 3차원 오디오 콘텐츠의 공간 오디오 오브젝트 코딩 다운믹스의 실현을 위한 장치 및 방법 KR101774796B1 (ko)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
EP13177357.4 2013-07-22
EP13177371.5 2013-07-22
EP20130177378 EP2830045A1 (en) 2013-07-22 2013-07-22 Concept for audio encoding and decoding for audio channels and audio objects
EP13177378.0 2013-07-22
EP13177357 2013-07-22
EP13177371 2013-07-22
EP13189281.2 2013-10-18
EP13189281.2A EP2830048A1 (en) 2013-07-22 2013-10-18 Apparatus and method for realizing a SAOC downmix of 3D audio content
PCT/EP2014/065290 WO2015010999A1 (en) 2013-07-22 2014-07-16 Apparatus and method for realizing a saoc downmix of 3d audio content

Publications (2)

Publication Number Publication Date
KR20160041941A true KR20160041941A (ko) 2016-04-18
KR101774796B1 KR101774796B1 (ko) 2017-09-05

Family

ID=49385153

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167004312A KR101774796B1 (ko) 2013-07-22 2014-07-16 3차원 오디오 콘텐츠의 공간 오디오 오브젝트 코딩 다운믹스의 실현을 위한 장치 및 방법
KR1020167003120A KR101852951B1 (ko) 2013-07-22 2014-07-17 향상된 공간적 오디오 오브젝트 코딩을 위한 장치 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020167003120A KR101852951B1 (ko) 2013-07-22 2014-07-17 향상된 공간적 오디오 오브젝트 코딩을 위한 장치 및 방법

Country Status (19)

Country Link
US (4) US9578435B2 (ko)
EP (4) EP2830050A1 (ko)
JP (3) JP6395827B2 (ko)
KR (2) KR101774796B1 (ko)
CN (3) CN105593929B (ko)
AU (2) AU2014295270B2 (ko)
BR (2) BR112016001244B1 (ko)
CA (2) CA2918529C (ko)
ES (2) ES2768431T3 (ko)
HK (1) HK1225505A1 (ko)
MX (2) MX355589B (ko)
MY (2) MY176990A (ko)
PL (2) PL3025333T3 (ko)
PT (1) PT3025333T (ko)
RU (2) RU2666239C2 (ko)
SG (2) SG11201600460UA (ko)
TW (2) TWI560700B (ko)
WO (2) WO2015010999A1 (ko)
ZA (1) ZA201600984B (ko)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX370034B (es) 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
BR112017002758B1 (pt) * 2015-06-17 2022-12-20 Sony Corporation Dispositivo e método de transmissão, e, dispositivo e método de recepção
WO2017209477A1 (ko) * 2016-05-31 2017-12-07 지오디오랩 인코포레이티드 오디오 신호 처리 방법 및 장치
US10349196B2 (en) * 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US10535355B2 (en) 2016-11-18 2020-01-14 Microsoft Technology Licensing, Llc Frame coding for spatial audio data
CN108182947B (zh) * 2016-12-08 2020-12-15 武汉斗鱼网络科技有限公司 一种声道混合处理方法及装置
CN110447071B (zh) 2017-03-28 2024-04-26 索尼公司 信息处理装置、信息处理方法和记录程序的可拆卸介质
CN109688497B (zh) * 2017-10-18 2021-10-01 宏达国际电子股份有限公司 声音播放装置、方法及非暂态存储介质
GB2574239A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
US10620904B2 (en) 2018-09-12 2020-04-14 At&T Intellectual Property I, L.P. Network broadcasting for selective presentation of audio content
WO2020067057A1 (ja) 2018-09-28 2020-04-02 株式会社フジミインコーポレーテッド 酸化ガリウム基板研磨用組成物
GB2577885A (en) 2018-10-08 2020-04-15 Nokia Technologies Oy Spatial audio augmentation and reproduction
GB2582748A (en) * 2019-03-27 2020-10-07 Nokia Technologies Oy Sound field related rendering
US11622219B2 (en) * 2019-07-24 2023-04-04 Nokia Technologies Oy Apparatus, a method and a computer program for delivering audio scene entities
US11972767B2 (en) 2019-08-01 2024-04-30 Dolby Laboratories Licensing Corporation Systems and methods for covariance smoothing
GB2587614A (en) * 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding
EP4120250A4 (en) * 2020-03-09 2024-03-27 Nippon Telegraph & Telephone SOUND SIGNAL REDUCING MIXING METHOD, SOUND SIGNAL CODING METHOD, SOUND SIGNAL REDUCING MIXING DEVICE, SOUND SIGNAL CODING DEVICE, PROGRAM AND RECORDING MEDIUM
GB2595475A (en) * 2020-05-27 2021-12-01 Nokia Technologies Oy Spatial audio representation and rendering
KR102508815B1 (ko) 2020-11-24 2023-03-14 네이버 주식회사 오디오와 관련하여 사용자 맞춤형 현장감 실현을 위한 컴퓨터 시스템 및 그의 방법
US11930348B2 (en) * 2020-11-24 2024-03-12 Naver Corporation Computer system for realizing customized being-there in association with audio and method thereof
JP2022083445A (ja) 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
WO2023131398A1 (en) * 2022-01-04 2023-07-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for implementing versatile audio object rendering

Family Cites Families (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2605361A (en) 1950-06-29 1952-07-29 Bell Telephone Labor Inc Differential quantization of communication signals
JP3576936B2 (ja) 2000-07-21 2004-10-13 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
SE0402651D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
RU2411594C2 (ru) * 2005-03-30 2011-02-10 Конинклейке Филипс Электроникс Н.В. Кодирование и декодирование аудио
CN101151658B (zh) 2005-03-30 2011-07-06 皇家飞利浦电子股份有限公司 多声道音频编码和解码方法、编码器和解码器
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
CN101310328A (zh) * 2005-10-13 2008-11-19 Lg电子株式会社 用于处理信号的方法和装置
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN101410891A (zh) * 2006-02-03 2009-04-15 韩国电子通信研究院 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置
EP1989920B1 (en) 2006-02-21 2010-01-20 Koninklijke Philips Electronics N.V. Audio encoding and decoding
EP2005787B1 (en) * 2006-04-03 2012-01-25 Srs Labs, Inc. Audio signal processing
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
WO2008002098A1 (en) 2006-06-29 2008-01-03 Lg Electronics, Inc. Method and apparatus for an audio signal processing
ES2623226T3 (es) 2006-07-04 2017-07-10 Dolby International Ab Unidad de filtro y procedimiento de generación de respuestas al impulso de filtro de subbanda
CN101617360B (zh) * 2006-09-29 2012-08-22 韩国电子通信研究院 用于编码和解码具有各种声道的多对象音频信号的设备和方法
EP2071564A4 (en) * 2006-09-29 2009-09-02 Lg Electronics Inc METHOD AND DEVICES FOR CODING AND DECODING OBJECT-BASED AUDIO SIGNALS
MY145497A (en) * 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
EP2095365A4 (en) * 2006-11-24 2009-11-18 Lg Electronics Inc METHOD FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS AND APPARATUS THEREOF
EP2122613B1 (en) * 2006-12-07 2019-01-30 LG Electronics Inc. A method and an apparatus for processing an audio signal
EP2595152A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transkoding apparatus
EP2115739A4 (en) * 2007-02-14 2010-01-20 Lg Electronics Inc METHODS AND APPARATUSES FOR ENCODING AND DECODING AUDIO SIGNALS BASED ON OBJECTS
CN101542596B (zh) * 2007-02-14 2016-05-18 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
RU2406166C2 (ru) 2007-02-14 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
KR20080082917A (ko) * 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
US8463413B2 (en) 2007-03-09 2013-06-11 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2008114984A1 (en) 2007-03-16 2008-09-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US7991622B2 (en) 2007-03-20 2011-08-02 Microsoft Corporation Audio compression and decompression using integer-reversible modulated lapped transforms
US8639498B2 (en) 2007-03-30 2014-01-28 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
AU2008243406B2 (en) * 2007-04-26 2011-08-25 Dolby International Ab Apparatus and method for synthesizing an output signal
PT2165328T (pt) 2007-06-11 2018-04-24 Fraunhofer Ges Forschung Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
BRPI0816557B1 (pt) 2007-10-17 2020-02-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Codificação de áudio usando upmix
US8527282B2 (en) 2007-11-21 2013-09-03 Lg Electronics Inc. Method and an apparatus for processing a signal
KR100998913B1 (ko) 2008-01-23 2010-12-08 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
KR101061129B1 (ko) 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
ES2592416T3 (es) 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2194527A3 (en) 2008-12-02 2013-09-25 Electronics and Telecommunications Research Institute Apparatus for generating and playing object based audio contents
KR20100065121A (ko) * 2008-12-05 2010-06-15 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
WO2010085083A2 (en) * 2009-01-20 2010-07-29 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8139773B2 (en) * 2009-01-28 2012-03-20 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
WO2010090019A1 (ja) * 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
MX2011009660A (es) 2009-03-17 2011-09-30 Dolby Int Ab Codificacion estereo avanzada basada en una combinacion de codificacion izquierda/derecha o media/lateral seleccionable de manera adaptable y de codificacion estereo parametrica.
WO2010105695A1 (en) 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
CN102449689B (zh) 2009-06-03 2014-08-06 日本电信电话株式会社 编码方法、编码装置、编码程序、以及它们的记录介质
TWI404050B (zh) 2009-06-08 2013-08-01 Mstar Semiconductor Inc 多聲道音頻信號解碼方法與裝置
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101283783B1 (ko) 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
WO2011013381A1 (ja) 2009-07-31 2011-02-03 パナソニック株式会社 符号化装置および復号装置
KR101842411B1 (ko) * 2009-08-14 2018-03-26 디티에스 엘엘씨 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템
BR112012007138B1 (pt) 2009-09-29 2021-11-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de sinal de áudio, codificador de sinal de áudio, método para prover uma representação de mescla ascendente de sinal, método para prover uma representação de mescla descendente de sinal e fluxo de bits usando um valor de parâmetro comum de correlação intra- objetos
MX2012004621A (es) * 2009-10-20 2012-05-08 Fraunhofer Ges Forschung Aparato para proporcionar una representacion de una señal de conversion ascendente sobre la base de una representacion de una señal de conversion descendente, aparato para proporcionar una corriente de bits que representa una señal de audio de canales multiples, metodos, programa de computacion y corriente de bits que utiliza una señalizacion de control de distorsion.
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
KR101490725B1 (ko) 2010-03-23 2015-02-06 돌비 레버러토리즈 라이쎈싱 코오포레이션 비디오 디스플레이 장치, 오디오-비디오 시스템, 음향 재생을 위한 방법 및 로컬라이즈된 지각적 오디오를 위한 음향 재생 시스템
US8675748B2 (en) 2010-05-25 2014-03-18 CSR Technology, Inc. Systems and methods for intra communication system information transfer
US8755432B2 (en) 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
TWI800092B (zh) 2010-12-03 2023-04-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
AR084091A1 (es) * 2010-12-03 2013-04-17 Fraunhofer Ges Forschung Adquisicion de sonido mediante la extraccion de informacion geometrica de estimativos de direccion de llegada
US9165558B2 (en) 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
KR102374897B1 (ko) 2011-03-16 2022-03-17 디티에스, 인코포레이티드 3차원 오디오 사운드트랙의 인코딩 및 재현
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
AU2012279349B2 (en) 2011-07-01 2016-02-18 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
TW202339510A (zh) 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
JP5740531B2 (ja) 2011-07-01 2015-06-24 ドルビー ラボラトリーズ ライセンシング コーポレイション オブジェクトベースオーディオのアップミキシング
CN102931969B (zh) 2011-08-12 2015-03-04 智原科技股份有限公司 数据提取的方法与装置
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
BR112014010062B1 (pt) * 2011-11-01 2021-12-14 Koninklijke Philips N.V. Codificador de objeto de áudio, decodificador de objeto de áudio, método para a codificação de objeto de áudio, e método para a decodificação de objeto de áudio
EP2721610A1 (en) 2011-11-25 2014-04-23 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding

Also Published As

Publication number Publication date
CN112839296A (zh) 2021-05-25
PL3025335T3 (pl) 2024-02-19
EP3025335B1 (en) 2023-08-30
CA2918869C (en) 2018-06-26
CN112839296B (zh) 2023-05-09
KR101774796B1 (ko) 2017-09-05
BR112016001244B1 (pt) 2022-03-03
EP2830048A1 (en) 2015-01-28
MX355589B (es) 2018-04-24
CA2918869A1 (en) 2015-01-29
BR112016001244A2 (ko) 2017-07-25
TW201519216A (zh) 2015-05-16
CN105593929A (zh) 2016-05-18
CN105593930A (zh) 2016-05-18
KR101852951B1 (ko) 2018-06-04
US20160142846A1 (en) 2016-05-19
US11330386B2 (en) 2022-05-10
TW201519217A (zh) 2015-05-16
PL3025333T3 (pl) 2020-07-27
SG11201600396QA (en) 2016-02-26
TWI560701B (en) 2016-12-01
JP2016527558A (ja) 2016-09-08
RU2660638C2 (ru) 2018-07-06
ES2768431T3 (es) 2020-06-22
EP3025333A1 (en) 2016-06-01
ZA201600984B (en) 2019-04-24
US20160142847A1 (en) 2016-05-19
AU2014295270B2 (en) 2016-12-01
JP6873949B2 (ja) 2021-05-19
JP2018185526A (ja) 2018-11-22
CN105593929B (zh) 2020-12-11
BR112016001243B1 (pt) 2022-03-03
US20170272883A1 (en) 2017-09-21
JP2016528542A (ja) 2016-09-15
CN105593930B (zh) 2019-11-08
MY192210A (en) 2022-08-08
MX2016000914A (es) 2016-05-05
EP3025335C0 (en) 2023-08-30
RU2016105472A (ru) 2017-08-28
EP3025333B1 (en) 2019-11-13
HK1225505A1 (zh) 2017-09-08
MX357511B (es) 2018-07-12
RU2666239C2 (ru) 2018-09-06
CA2918529A1 (en) 2015-01-29
SG11201600460UA (en) 2016-02-26
ES2959236T3 (es) 2024-02-22
US9699584B2 (en) 2017-07-04
EP2830050A1 (en) 2015-01-28
AU2014295270A1 (en) 2016-03-10
TWI560700B (en) 2016-12-01
PT3025333T (pt) 2020-02-25
MX2016000851A (es) 2016-04-27
JP6333374B2 (ja) 2018-05-30
AU2014295216A1 (en) 2016-03-10
EP3025335A1 (en) 2016-06-01
US9578435B2 (en) 2017-02-21
AU2014295216B2 (en) 2017-10-19
BR112016001243A2 (ko) 2017-07-25
CA2918529C (en) 2018-05-22
US20200304932A1 (en) 2020-09-24
WO2015011024A1 (en) 2015-01-29
MY176990A (en) 2020-08-31
JP6395827B2 (ja) 2018-09-26
US10701504B2 (en) 2020-06-30
RU2016105469A (ru) 2017-08-25
WO2015010999A1 (en) 2015-01-29
KR20160053910A (ko) 2016-05-13

Similar Documents

Publication Publication Date Title
US11330386B2 (en) Apparatus and method for realizing a SAOC downmix of 3D audio content
JP6239110B2 (ja) 効率的なオブジェクト・メタデータ符号化の装置と方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right