KR20160053910A - 향상된 공간적 오디오 오브젝트 코딩을 위한 장치 및 방법 - Google Patents

향상된 공간적 오디오 오브젝트 코딩을 위한 장치 및 방법 Download PDF

Info

Publication number
KR20160053910A
KR20160053910A KR1020167003120A KR20167003120A KR20160053910A KR 20160053910 A KR20160053910 A KR 20160053910A KR 1020167003120 A KR1020167003120 A KR 1020167003120A KR 20167003120 A KR20167003120 A KR 20167003120A KR 20160053910 A KR20160053910 A KR 20160053910A
Authority
KR
South Korea
Prior art keywords
audio
information
channel
signals
downmix
Prior art date
Application number
KR1020167003120A
Other languages
English (en)
Other versions
KR101852951B1 (ko
Inventor
위르겐 헤레
아드리안 무르타자
조우니 파울루스
사샤 디쉬
하랄드 푹스
올리버 헬무트
팔코 리더부슈
레온 테렌티브
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP20130177378 external-priority patent/EP2830045A1/en
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20160053910A publication Critical patent/KR20160053910A/ko
Application granted granted Critical
Publication of KR101852951B1 publication Critical patent/KR101852951B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/006Systems employing more than two channels, e.g. quadraphonic in which a plurality of audio signals are transformed in a combination of audio signals and modulated signals, e.g. CD-4 systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)

Abstract

하나 이상의 오디오 출력 채널을 생성하는 장치가 제공된다. 상기 장치는 믹싱 정보를 계산하기 위한 파라미터 프로세서(110) 및 상기 하나 이상의 오디오 출력 채널을 생성하기 위한 다운믹스 프로세서(120)를 포함한다. 상기 다운믹스 프로세서(120)는 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 수신하도록 구성된다. 하나 이상의 오디오 채널 신호가 상기 오디오 전송 신호 내에 믹싱되며, 하나 이상의 오디오 오브젝트 신호가 상기 오디오 전송 신호 내에 믹싱되고, 상기 하나 이상의 오디오 전송 채널의 개수는 상기 하나 이상의 오디오 채널 신호의 개수 더하기 상기 하나 이상의 오디오 오브젝트 신호의 개수보다 더 적다. 상기 파라미터 프로세서(110)는 상기 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호가 상기 하나 이상의 오디오 전송 채널 내에 어떻게 믹싱되는지에 대한 정보를 표시하는 다운믹스 정보를 수신하도록 구성되고, 상기 파라미터 프로세서(110)는 공분산 정보를 수신하도록 구성된다. 더욱이, 상기 파라미터 프로세서(110)는 상기 다운믹스 정보에 따라서 그리고 상기 공분산 정보에 따라서 상기 믹싱 정보를 계산하도록 구성된다. 상기 다운믹스 프로세서(120)는 상기 믹싱 정보에 따라서 상기 하나 이상의 오디오 출력 채널을 상기 오디오 전송 신호로부터 생성하도록 구성된다. 상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 적어도 하나에 대한 레벨차 정보를 표시하고, 상기 하나 이상의 오디오 오브젝트 신호 중 적어도 하나에 대한 레벨차 정보를 더 표시한다. 그러나, 상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 하나와 상기 하나 이상의 오디오 오브젝트 신호 중 하나의 임의의 쌍에 대한 상관 정보를 표시하지 않는다.

Description

향상된 공간적 오디오 오브젝트 코딩을 위한 장치 및 방법{APPARATUS AND METHOD FOR ENHANCED SPATIAL AUDIO OBJECT CODING}
본 발명은 오디오 인코딩/디코딩에 관한 것이고, 특히, 공간적 오디오 코딩 및 공간적 오디오 오브젝트 코딩에 관한 것이며, 좀 더 자세하게 설명하면, 향상된 공간적 오디오 오브젝트 코딩을 위한 장치 및 방법에 관한 것이다.
공간적 오디오 코딩 툴은 당업계에 잘 알려져 있으며, 예를 들어, MPEG-써라운드 표준에서 표준화된다. 공간적 오디오 코딩은, 재생 설정에서의 그들의 배치에 의하여 식별되는 5 개의 또는 7 개의 채널, 즉, 좌측 채널, 센터 채널, 우측 채널, 좌측 써라운드 채널, 우측 써라운드 채널 및 저 주파수 강화 채널과 같은 원본 입력 채널로부터 개시된다. 공간적 오디오 인코더는 통상적으로 원본 채널로부터 하나 이상의 다운믹스 채널을 유도하고, 추가적으로 공간적 큐(spatial cues)에 관련된 파라메트릭(parametric) 데이터, 예컨대 채널 코히어런스(coherence) 값에서의 채널간 레벨차, 채널간 위상차, 채널간 시간차, 등을 더 유도한다. 하나 이상의 다운믹스 채널은 공간적 큐를 표시하는 파라메트릭 부가 정보(side information)와 함께 공간적 오디오 디코더로 송신되고, 디코더는 원본 입력 채널의 근사화된 버전인 출력 채널을 최종적으로 획득하기 위하여 다운믹스 채널 및 연관된 파라메트릭 데이터를 디코딩한다. 출력 설정에서의 채널의 배치는 통상적으로 고정되고 있으며, 예를 들어, 5.1 포맷, 7.1 포맷, 등이다.
이러한 채널-기초 오디오 포맷은, 각각의 채널이 주어진 위치에 있는 특정 라우드스피커에 관련되는 멀티-채널 오디오 콘텐츠를 저장 또는 송신하기 위하여 널리 사용된다. 이러한 종류의 포맷을 충실하게 재생하기 위해서는, 스피커들이 오디오 신호를 생성하는 도중에 사용되었던 스피커들과 같은 위치에 배치되는 라우드스피커 설정이 필요하다. 라우드스피커의 개수를 증가시키면 완전 몰입형 3D 오디오 장면(scene)을 재생하는 것을 개선시키는 반면에, 이러한 요구 사항을, 특히 거실과 같은 가정 환경에서 달성하는 것은 점점 더 어려워진다.
특정한 라우드스피커 설정을 가져야 한다는 필요성은, 라우드스피커 신호들이 해당 재생 설정에 대하여 특이적으로 렌더링되는 오브젝트-기초 접근법을 사용하면 극복될 수 있다.
예를 들어, 공간적 오디오 오브젝트 코딩 툴이 당업계에 잘 알려져 있으며, MPEG SAOC 표준에서 표준화된다(SAOC는 공간적 오디오 오브젝트 코딩(spatial audio object coding)과 같음). 원본 채널로부터 시작되는 공간적 오디오 코딩과 대조적으로, 공간적 오디오 오브젝트 코딩은 특정 렌더링 재생 설정에 대하여 자동적으로 독점되지 않는 오디오 오브젝트로부터 시작된다. 그 대신에, 재생 장면에서의 오디오 오브젝트들의 배치는 탄력적이며, 특정한 렌더링 정보를 공간적 오디오 오브젝트 코딩 디코더에 입력함으로써 사용자에 의하여 결정될 수 있다. 대안적으로 또는 이에 추가적으로, 렌더링 정보, 즉, 재생 설정 내의 어떤 위치에 어떤 오디오 오브젝트가 통상적으로 시간이 지남에 따라 배치되어야 하는지에 대한 정보는 추가적 부가 정보 또는 메타데이터로서 송신될 수 있다. 특정한 데이터 압축이 일어나게 하기 위해서는, 다수 개의 오디오 오브젝트가, 오브젝트들을 특정한 다운믹스 정보에 따라서 다운믹싱함으로써 입력 오브젝트로부터 하나 이상의 전송 채널을 계산하는 SAOC 인코더에 의하여 인코딩된다. 더욱이, SAOC 인코더는 오브젝트간(inter-object) 큐, 예컨대 오브젝트 레벨차(object level differences; OLD), 오브젝트 코히어런스 값, 등을 계산한다. SAC에서와 같이(SAC는 공간적 오디오 코딩(spatial audio coding)과 같음), 오브젝트간 파라메트릭 데이터는 파라미터 시간/주파수 타일(frequency tiles)에 대하여, 즉, 예를 들어 1024 개 또는 2048 개의 샘플을 포함하는 오디오 신호의 특정 프레임에 대하여 계산된다. 결과적으로 파라메트릭 데이터가 각각의 프레임 및 각각의 처리 대역에 대하여 존재하도록 28 개, 20 개, 14 개 또는 10 개 등의 처리 대역이 고려된다. 일 예로서, 오디오 조각이 20 개의 프레임을 가지는 경우 그리고 각각의 프레임이 28 개의 처리 대역으로 하부분할되는 경우, 파라미터 시간/주파수 타일의 개수는 560 개이다.
오브젝트-기초 접근법에서, 사운드 필드는 이산 오디오 오브젝트에 의하여 기술된다. 이를 위해서는 무엇보다도 3D 공간 내의 각각의 음원의 시변이 위치(time-variant position)를 기술하는 오브젝트 메타데이터가 필요하다.
종래 기술에서의 제 1 메타데이터 코딩 개념은 여전히 개발 중인 오디오 장면 기술 포맷인 공간적 사운드 기술자 교환 포맷(spatial sound description interchange format; SpatDIF)이다([M1] 참조). 이것은 오브젝트-기초 사운드 장면에 대한 교환 포맷으로서 설계되고, 오브젝트 궤적(object trajectories)에 대한 어떠한 압축 방법도 제공하지 않는다. SpatDIF는 텍스트-기초 개방형 사운드 제어(OSC) 포맷을 사용하여 오브젝트 메타데이터를 구성한다([M2] 참조). 그러나, 간단한 텍스트-기초 표현은 오브젝트 궤적의 압축된 송신을 위한 하나의 옵션이 아니다.
종래 기술에서 다른 메타데이터 개념은 동일한 단점을 가지는 텍스트-기초 솔루션인 오디오 장면 기술 포맷(ASDF)이다([M3] 참조). 데이터는 확장가능 마크업 언어(Extensible Markup Language; XML)의 서브 세트인 동기화된 멀티미디어 통합 언어(Synchronized Multimedia Integration Language; SMIL)의 확장판에 의하여 구성된다([M4], [M5] 참조).
종래 기술에서의 다른 메타데이터 개념은 MPEG-4 사양의 이진 포맷인 장면용 오디오 이진 포맷(audio binary format for scenes; AudioBIFS)이다([M6], [M7] 참조). 이것은 음향-시각적 3D 장면의 기술 및 대화형 가상 현실 애플리케이션을 위하여 개발되었던 XML-기초 가상 현실 모델 언어(Virtual Reality Modeling Language; VRML)에 밀접하게 관련된다([M8] 참조). 복잡한 AudioBIFS 사양은 오브젝트 이동의 경로를 특정하기 위하여 장면 그래프를 사용한다. AudioBIFS의 주된 단점은, 이것이, 제한된 시스템 지연 및 데이터 스트림으로의 무작위 액세스가 요구되는 실시간 동작을 위하여 설계되지 않는다는 것이다. 더욱이, 오브젝트 위치를 인코딩하는 것은 인간 청취자의 제한된 국지화 실행(localization performance)을 이용하지 않는다. 음향-시각적 장면 내의 고정된 청취자 위치에 대하여, 오브젝트 데이터는 훨씬 더 적은 비트수로 양자화될 수 있다([M9] 참조). 그러므로, AudioBIFS에 적용되는 오브젝트 메타데이터를 인코딩하는 것은 데이터 압축의 관점에서 효율적이지 않다.
본 발명의 목적은 공간적 오디오 오브젝트 코딩(Spatial Audio Object Coding)을 위한 개선된 개념을 제공하는 것이다. 본 발명의 목적은 제 1 항에 따르는 장치에 의하여, 제 14 항에 따르는 장치에 의하여, 제 16 항에 따르는 시스템에 의하여, 제 17 항에 따르는 방법에 의하여, 제 18 항에 따르는 방법에 의하여, 그리고 제 19 항에 따르는 컴퓨터 프로그램에 의하여 달성된다.
하나 이상의 오디오 출력 채널을 생성하는 장치가 제공된다. 상기 장치는 믹싱 정보를 계산하기 위한 파라미터 프로세서 및 상기 하나 이상의 오디오 출력 채널을 생성하기 위한 다운믹스 프로세서를 포함한다. 상기 다운믹스 프로세서는 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 수신하도록 구성된다. 하나 이상의 오디오 채널 신호가 상기 오디오 전송 신호 내에 믹싱되며, 하나 이상의 오디오 오브젝트 신호가 상기 오디오 전송 신호 내에 믹싱되고, 상기 하나 이상의 오디오 전송 채널의 개수는 상기 하나 이상의 오디오 채널 신호의 개수 더하기 상기 하나 이상의 오디오 오브젝트 신호의 개수보다 더 적다. 상기 파라미터 프로세서는 상기 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호가 상기 하나 이상의 오디오 전송 채널 내에 어떻게 믹싱되는지에 대한 정보를 표시하는 다운믹스 정보를 수신하도록 구성되고, 상기 파라미터 프로세서는 공분산 정보를 수신하도록 구성된다. 더욱이, 상기 파라미터 프로세서는 상기 다운믹스 정보에 따라서 그리고 상기 공분산 정보에 따라서 상기 믹싱 정보를 계산하도록 구성된다. 상기 다운믹스 프로세서는 상기 믹싱 정보에 따라서 상기 하나 이상의 오디오 출력 채널을 상기 오디오 전송 신호로부터 생성하도록 구성된다. 상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 적어도 하나에 대한 레벨차 정보를 표시하고, 상기 하나 이상의 오디오 오브젝트 신호 중 적어도 하나에 대한 레벨차 정보를 더 표시한다. 그러나, 상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 하나와 상기 하나 이상의 오디오 오브젝트 신호 중 하나의 임의의 쌍에 대한 상관 정보를 표시하지 않는다.
더욱이, 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 생성하기 위한 장치가 제공된다. 상기 장치는 상기 하나 이상의 오디오 전송 신호의 오디오 전송 채널을 생성하기 위한 채널/오브젝트 믹서, 및 출력 인터페이스를 포함한다. 상기 채널/오브젝트 믹서는, 상기 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호가 상기 하나 이상의 오디오 전송 채널 내에 어떻게 믹싱되어야 하는지에 대한 정보를 표시하는 다운믹스 정보에 따라서, 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호를 상기 오디오 전송 신호 내에 믹싱함으로써 상기 하나 이상의 오디오 전송 채널을 포함하는 상기 오디오 전송 신호를 생성하도록 구성되며, 상기 하나 이상의 오디오 전송 채널의 개수는 상기 하나 이상의 오디오 채널 신호의 개수 더하기 상기 하나 이상의 오디오 오브젝트 신호의 개수보다 더 작다. 상기 출력 인터페이스는 상기 오디오 전송 신호, 상기 다운믹스 정보 및 상기 공분산 정보를 출력하도록 구성된다. 상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 적어도 하나에 대한 레벨차 정보를 표시하고, 상기 하나 이상의 오디오 오브젝트 신호 중 적어도 하나에 대한 레벨차 정보를 더 표시한다. 그러나, 상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 하나와 상기 하나 이상의 오디오 오브젝트 신호 중 하나의 임의의 쌍에 대한 상관 정보를 표시하지 않는다.
더욱이, 시스템이 제공된다. 상기 시스템은 위에서 기술된 바와 같이 오디오 전송 신호를 생성하기 위한 장치 및 위에서 기술된 바와 같이 하나 이상의 오디오 출력 채널을 생성하기 위한 장치를 포함한다. 상기 하나 이상의 오디오 출력 채널을 생성하기 위한 장치는, 상기 오디오 전송 신호를 생성하기 위한 장치로부터 상기 오디오 전송 신호, 다운믹스 정보 및 공분산 정보를 수신하도록 구성된다. 더욱이, 오디오 출력 채널을 생성하기 위한 장치는 오디오 전송 신호 다운믹스 정보에 따라서 그리고 공분산 정보에 따라서 상기 하나 이상의 오디오 출력 채널을 생성하도록 구성된다.
더욱이, 하나 이상의 오디오 출력 채널을 생성하기 위한 방법이 제공된다. 이러한 방법은:
- 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 수신하는 단계로서, 하나 이상의 오디오 채널 신호가 상기 오디오 전송 신호 내에 믹싱되며, 하나 이상의 오디오 오브젝트 신호가 상기 오디오 전송 신호 내에 믹싱되고, 상기 하나 이상의 오디오 전송 채널의 개수는 상기 하나 이상의 오디오 채널 신호의 개수 더하기 상기 하나 이상의 오디오 오브젝트 신호의 개수보다 더 적은, 단계;
- 상기 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호가 상기 하나 이상의 오디오 전송 채널 내에 어떻게 믹싱되는지에 대한 정보를 표시하는 다운믹스 정보를 수신하는 단계;
- 공분산 정보를 수신하는 단계;
- 상기 다운믹스 정보에 따라서 그리고 상기 공분산 정보에 따라서 상기 믹싱 정보를 계산하는 단계; 및
- 하나 이상의 오디오 출력 채널을 생성하는 단계; 및
- 상기 믹싱 정보에 따라서 상기 오디오 전송 신호로부터 상기 하나 이상의 오디오 출력 채널을 생성하는 단계를 포함한다. 상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 적어도 하나에 대한 레벨차 정보를 표시하고, 상기 하나 이상의 오디오 오브젝트 신호 중 적어도 하나에 대한 레벨차 정보를 더 표시한다. 그러나, 상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 하나와 상기 하나 이상의 오디오 오브젝트 신호 중 하나의 임의의 쌍에 대한 상관 정보를 표시하지 않는다.
더욱이, 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 생성하는 방법이 제공된다. 이러한 방법은:
- 상기 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호가 상기 하나 이상의 오디오 전송 채널 내에 어떻게 믹싱되어야 하는지에 대한 정보를 표시하는 다운믹스 정보에 따라서, 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호를 상기 오디오 전송 신호 내에 믹싱함으로써 상기 하나 이상의 오디오 전송 채널을 포함하는 상기 오디오 전송 신호를 생성하는 단계로서, 상기 하나 이상의 오디오 전송 채널의 개수는 상기 하나 이상의 오디오 채널 신호의 개수 더하기 상기 하나 이상의 오디오 오브젝트 신호의 개수보다 더 작은 단계; 및
- 상기 오디오 전송 신호, 상기 다운믹스 정보 및 상기 공분산 정보를 출력하는 단계를 포함한다.
상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 적어도 하나에 대한 레벨차 정보를 표시하고, 상기 하나 이상의 오디오 오브젝트 신호 중 적어도 하나에 대한 레벨차 정보를 더 표시한다. 그러나, 상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 하나와 상기 하나 이상의 오디오 오브젝트 신호 중 하나의 임의의 쌍에 대한 상관 정보를 표시하지 않는다.
더욱이, 컴퓨터 또는 신호 프로세서에서 실행될 때에 위에 설명된 방법을 구현하기 위한 컴퓨터 프로그램이 제공된다.
후속하는 설명에서, 본 발명의 실시예들은 첨부 도면을 참조하여 더욱 상세하게 설명될 것이다:
도 1 은 일 실시예에 따르는, 하나 이상의 오디오 출력 채널을 생성하기 위한 장치를 도시한다,
도 2 는 일 실시예에 따르는, 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 생성하기 위한 장치를 도시한다,
도 3 은 일 실시예에 따르는 시스템을 도시한다,
도 4 는 3D 오디오 인코더의 제 1 실시예를 도시한다,
도 5 는 3D 오디오 디코더의 제 1 실시예를 도시한다,
도 6 은 3D 오디오 인코더의 제 2 실시예를 도시한다,
도 7 은 3D 오디오 디코더의 제 2 실시예를 도시한다,
도 8 은 3D 오디오 인코더의 제 3 실시예를 도시한다,
도 9 는 3D 오디오 디코더의 제 3 실시예를 도시한다,
도 10 은 일 실시예에 따르는 통합 처리 유닛 을 도시한다.
본 발명의 바람직한 실시예를 자세하게 설명하기 이전에, 새로운 3D 오디오 코덱 시스템이 설명된다.
종래 기술에서, 낮은 비트레이트에서의 수락가능한 오디오 품질이 획득되도록 일면에서 채널 코딩을 그리고 다른 면에서 오브젝트 코딩을 결합하는 탄력적인 기술은 존재하지 않는다.
이러한 제한사항은 신규한 3D 오디오 코덱 시스템에 의하여 극복된다.
바람직한 실시예를 자세하게 설명하기 이전에, 새로운 3D 오디오 코덱 시스템이 설명된다.
도 4 는 본 발명의 일 실시예에 따르는 3D 오디오 인코더를 도시한다. 3D 오디오 인코더는 오디오 입력 데이터(101)를 인코딩하여 오디오 출력 데이터(501)를 획득하도록 구성된다. 3D 오디오 인코더는 CH로 표시되는 복수 개의 오디오 채널 및 OBJ로 표시되는 복수 개의 오디오 오브젝트를 수신하기 위한 입력 인터페이스를 포함한다. 더욱이, 도 4 에 도시된 바와 같이, 입력 인터페이스(1100)는 복수 개의 오디오 오브젝트(OBJ) 중 하나 이상에 관련되는 메타데이터를 더 수신한다. 더욱이, 3D 오디오 인코더는 믹싱 복수 개의 오브젝트 및 복수 개의 채널을 믹싱하여 복수 개의 사전-믹싱된 채널을 획득하기 위한 믹서(200)를 포함하는데, 각각의 사전-믹싱된 채널은 한 채널의 오디오 데이터 및 적어도 하나의 오브젝트의 오디오 데이터를 포함한다.
더욱이, 3D 오디오 인코더는 인코더 입력 데이터를 코어 인코딩(core encoding)하기 위한 코어 인코더(core encoder; 300), 및 하나 이상의 복수 개의 오디오 오브젝트에 관련되는 메타데이터를 압축하기 위한 메타데이터 압축기(400)를 포함한다.
더욱이, 3D 오디오 인코더는 믹서, 코어 인코더 및/또는 출력 인터페이스(500)를 여러 동작 모드들 중 하나에서 제어하기 위한 모드 제어기(600)를 포함하는데, 제 1 모드에서, 코어 인코더는 믹서에 의한 임의의 상호작용이 없이, 즉, 믹서(200)에 의한 임의의 믹싱이 없이, 입력 인터페이스(1100)에 의하여 수신되는 복수 개의 오디오 채널 및 복수 개의 오디오 오브젝트를 인코딩하도록 구성된다. 그러나, 믹서(200)가 활성화되었던 제 2 모드에서는, 코어 인코더는 복수 개의 믹싱된 채널, 즉, 블록(200)에 의하여 생성되는 출력을 인코딩한다. 후자의 경우에, 어떠한 오브젝트 데이터도 더 이상 인코딩하지 않는 것이 바람직하다. 대신에, 오디오 오브젝트의 위치를 표시하는 메타데이터가 이미 믹서(200)에 의하여 사용되어 오브젝트를 메타데이터에 의하여 표시된 바와 같이 채널 상에 렌더링한다. 다르게 말하면, 믹서(200)는 복수 개의 오디오 오브젝트에 관련되는 메타데이터를 사용하여 오디오 오브젝트를 사전-렌더링하고, 이제 사전-렌더링된 오디오 오브젝트는 채널과 믹싱되어 믹서의 출력에서 믹싱된 채널을 획득한다. 이러한 실시예에서, 임의의 오브젝트는 반드시 송신되어야 하는 것이 아닐 수 있고, 이러한 사실이 블록(400)에 의해 출력된 바와 같은 압축된 메타데이터에도 역시 적용된다. 그러나, 만일 인터페이스(1100)로 입력된 모든 오브젝트들이 믹싱되지 않고 오브젝트들의 어느 정도의 양만이 믹싱된다면, 그럼에도 불구하고 오직 남은 믹싱되지 않은 오브젝트 및 연관된 메타데이터가 코어 인코더(300) 또는 메타데이터 압축기(400)로 각각 송신된다.
도 6 은 3D 오디오 인코더의 다른 실시예를 도시하는데, 이것은 SAOC 인코더(800)를 더 포함한다. SAOC 인코더(800)는 공간적 오디오 오브젝트 인코더 입력 데이터로부터 하나 이상의 전송 채널 및 파라메트릭 데이터를 생성하도록 구성된다. 도 6 에 도시된 바와 같이, 공간적 오디오 오브젝트 인코더 입력 데이터는 사전-렌더러/믹서에 의하여 처리된 바 있는 오브젝트들이다. 대안적으로는, 개개의 채널/오브젝트 코딩이 활성화되는 모드 1 에서와 같이 사전-렌더러/믹서가 바이패스되었다면, 입력 인터페이스(1100)로 입력되는 모든 오브젝트들은 SAOC 인코더(800)에 의하여 인코딩된다.
더욱이, 도 6 에 도시된 바와 같이, 코어 인코더(300)는 USAC 인코더로서, 즉, MPEG-USAC 표준에 정의되고 표준화되는 것과 같은 인코더로서 구현되는 것이 바람직하다(USAC는 통합된 발화 및 오디오 코딩(Unified Speech and Audio Coding)을 의미함). 도 6 에 도시되는 전체 3D 오디오 인코더의 출력은 개개의 데이터 타입에 대한 컨테이너-유사 구조를 가지는 MPEG 4 데이터 스트림, MPEG H 데이터 스트림 또는 3D 오디오 데이터 스트림이다. 더욱이, 메타데이터는 "OAM" 데이터로 표시되고, 도 4 의 메타데이터 압축기(400)는 USAC 인코더(300)로 입력되는 압축된 OAM 데이터를 획득하기 위한 OAM 인코더(400)에 대응하며, OAM 인코더는 도 6 에서 알 수 있는 바와 같이, 인코딩된 채널/오브젝트 데이터만을 가지는 것이 아니라 압축된 OAM 데이터도 역시 가지는 MP4 출력 데이터 스트림을 획득하기 위한 출력 인터페이스를 더 포함한다.
도 8 은 3D 오디오 인코더의 다른 실시예를 도시하는데, 도 6 과 대조적으로, SAOC 인코더는 SAOC 인코딩 알고리즘으로써 이러한 모드에서는 활성화되지 않는 사전-렌더러/믹서(200)에 제공되는 채널을 인코딩하거나, 또는 사전-렌더링된 채널 플러스 오브젝트를 SAOC 인코딩하도록 구성될 수 있다. 따라서, 도 8 에서, SAOC 인코더(800)는 3 개의 다른 종류의 입력 데이터, 즉, 사전-렌더링된 오브젝트가 없는 채널, 채널과 사전-렌더링된 오브젝트 또는 오브젝트 만에 대하여 동작할 수 있다. 더욱이, 도 8 에서 추가적 OAM 디코더(420)를 제공함으로써, SAOC 인코더(800)가 자신의 처리 동작을 위하여 디코더측에서와 동일한 데이터를, 즉, 원본 OAM 데이터가 아니라 손실 압축 기법에 의하여 획득된 데이터를 사용하게 하는 것이 바람직하다.
도 8 의 3D 오디오 인코더는 여러 개의 개별 모드에서 동작할 수 있다.
도 4 의 콘텍스트에서 논의된 바와 같은 제 1 및 제 2 모드에 추가하여, 도 8 의 3D 오디오 인코더는 추가적으로 제 3 모드에서 동작할 수 있는데, 이 모드에서 코어 인코더는 사전-렌더러/믹서(200)가 활성화되지 않는 경우에 개개의 오브젝트로부터 하나 이상의 전송 채널을 생성한다. 대안적으로 또는 추가적으로, 이러한 제 3 모드에서 SAOC 인코더(800)는, 역시 도 4 의 믹서(200)에 대응하는 사전-렌더러/믹서(200)가 활성화되지 않는 경우에 원본 채널로부터 하나 이상의 대안적 또는 추가적 전송 채널을 생성할 수 있다.
마지막으로, 3D 오디오 인코더가 제 4 모드로 구성되는 경우, SAOC 인코더(800)는 채널과 사전-렌더러/믹서에 의하여 생성되는 바와 같은 사전-렌더링된 오브젝트를 인코딩할 수 있다. 따라서, 제 4 모드에서는 최저 비트레이트 애플리케이션이 양호한 품질을 제공할 것인데, 이는 채널 및 오브젝트가 도 3 및 도 5 에서 "SAOC-SI"라고 표시되는 바와 같은 개개의 SAOC 전송 채널 및 연관된 부가 정보로 완전히 변환되었다는 사실 그리고 추가적으로 임의의 압축된 메타데이터가 이러한 제 4 모드에서 송신될 필요가 없다는 사실에 기인한다.
도 5 는 본 발명의 일 실시예에 따르는 3D 오디오 디코더를 도시한다. 3D 오디오 디코더는 입력으로서 인코딩된 오디오 데이터, 즉, 도 4 의 데이터(501)를 수신한다.
3D 오디오 디코더는 메타데이터 압축해제기(1400), 코어 디코더(1300), 오브젝트 프로세서(1200), 모드 제어기(1600) 및 후처리기(1700)를 포함한다.
구체적으로 설명하면, 3D 오디오 디코더는 인코딩된 오디오 데이터를 디코딩하도록 구성되고, 입력 인터페이스는 인코딩된 오디오 데이터를 수신하도록 구성되며, 인코딩된 오디오 데이터는 복수 개의 인코딩된 채널 및 복수 개의 인코딩된 오브젝트 및 특정 모드에서의 복수 개의 오브젝트에 관련되는 압축된 메타데이터를 포함한다.
더욱이, 코어 디코더(1300)는 복수 개의 인코딩된 채널 및 복수 개의 인코딩된 오브젝트를 디코딩하도록 구성되고, 추가적으로, 메타데이터 압축해제기는 압축된 메타데이터를 압축해제하도록 구성된다.
더욱이, 오브젝트 프로세서(1200)는 압축해제된 메타데이터를 사용하여 코어 디코더(1300)에 의하여 생성되는 바와 같은 복수 개의 디코딩된 오브젝트를 처리하여, 오브젝트 데이터 및 디코딩된 채널을 포함하는 선결정된 개수의 출력 채널을 획득하도록 구성된다. 그러면 1205 로 표시되는 이러한 출력 채널들은 후처리기(1700)로 입력된다. 후처리기(1700)는 복수 개의 출력 채널(1205)을 바이너럴(binaural) 출력 포맷 또는 5.1, 7.1, 등의 출력 포맷과 같은 라우드스피커 출력 포맷일 수 있는 특정한 출력 포맷으로 변환하도록 구성된다.
바람직하게는, 3D 오디오 디코더는 인코딩된 데이터를 분석하여 모드 표시자(mode indication)를 검출하도록 구성되는 모드 제어기(1600)를 포함한다. 그러므로, 모드 제어기(1600)는 도 5 의 입력 인터페이스(1100)에 연결된다. 그러나, 대안적으로는, 모드 제어기는 반드시 거기에 있어야 하는 것은 아니다. 대신에, 탄력적인 오디오 디코더는 임의의 다른 종류의 제어 데이터, 예컨대 사용자 입력 또는 임의의 다른 제어에 의하여 사전설정될 수 있다. 도 5 에 도시되며 바람직하게는 모드 제어기(1600)에 의하여 제어되는 3D 오디오 디코더는 오브젝트 프로세서를 바이패스하고 복수 개의 디코딩된 채널을 후처리기(1700)로 공급하도록 구성된다. 이것은 모드 2 에서의 동작이고, 즉, 이 경우 모드 2 가 도 4 의 3D 오디오 인코더에 적용된 바 있는 경우 사전-렌더링된 채널만이 수신된다. 대안적으로는, 모드 1 이 3D 오디오 인코더에 적용된 바 있는 경우, 즉, 3D 오디오 인코더가 개개의 채널/오브젝트 코딩을 수행한 경우, 오브젝트 프로세서(1200)는 바이패스되지 않고, 반면에 복수 개의 디코딩된 채널 및 복수 개의 디코딩된 오브젝트가 메타데이터 압축해제기(1400)에 의하여 생성된 압축해제된 메타데이터와 함께 오브젝트 프로세서(1200)로 공급된다.
바람직하게는, 모드 1 또는 모드 2 가 적용되어야 하는지 여부의 표시자는 인코딩된 오디오 데이터에 포함되고, 이제 모드 제어기(1600)는 인코딩된 데이터를 분석하여 모드 표시자를 검출한다. 모드 표시자가 인코딩된 오디오 데이터가 인코딩된 채널 및 인코딩된 오브젝트를 포함한다고 표시하는 경우 모드 1 이 사용되고, 인코딩된 오디오 데이터가 임의의 오디오 오브젝트를 포함하지 않는다는 것, 즉 도 4 의 3D 오디오 인코더의 모드 2 에 의하여 획득된 사전-렌더링된 채널만을 포함한다는 것을 모드 표시자가 표시하는 경우에 모드 2 가 적용된다.
도 7 은 도 5 의 3D 오디오 디코더와 비교되는 바람직한 실시예를 도시하고, 도 7 의 실시예는 도 6 의 3D 오디오 인코더에 대응한다. 도 5 의 3D 오디오 디코더 구현형태에 추가하여, 도 7 의 3D 오디오 디코더는 SAOC 디코더(1800)를 포함한다. 더욱이, 도 5 의 오브젝트 프로세서(1200)는 별개의 오브젝트 렌더러(1210) 및 믹서(1220)인 것으로 구현되는데, 하지만 모드에 따라서는, 오브젝트 렌더러(1210)의 기능성은 SAOC 디코더(1800)에 의해서도 구현될 수 있다.
더욱이, 후처리기(1700)는 바이너럴 렌더러(1710) 또는 포맷 컨버터(1720)로서 구현될 수 있다. 대안적으로는, 도 5 의 데이터(1205)의 직접적 출력은 1730 으로 도시되는 바와 같이 구현될 수 있다. 그러므로, 탄력성을 가지기 위하여 처리 동작을 22.2 또는 32 와 같은 채널의 최대 개수가 있는 측의 디코더에서 처리하고, 더 작은 포맷이 요구된다면 후처리하는 것이 바람직하다. 그러나, 아예 처음부터 5.1 포맷과 같은 오직 작은 포맷만이 요구된다는 것이 명백해지는 경우, 지름길 1727 에 의하여 도 5 또는 도 6 에서 표시되는 바와 같이 불필요한 업믹싱(upmixing) 동작 및 후속하는 다운믹싱 동작을 피하기 위하여 SAOC 디코더 및/또는 USAC 디코더를 거치는 특정 제어가 적용될 수 있는 것이 바람직하다.
본 발명의 바람직한 실시예에서, 오브젝트 프로세서(1200)는 SAOC 디코더(1800)를 포함하고, SAOC 디코더는 코어 디코더에 의하여 출력되는 하나 이상의 전송 채널 및 연관된 파라메트릭 데이터를 디코딩하고, 압축해제된 메타데이터를 사용하여 복수 개의 렌더링된 오디오 오브젝트를 획득하도록 구성된다. 이러한 목적을 위해서, OAM 출력이 박스 1800 에 연결된다.
더욱이, 오브젝트 프로세서(1200)는, SAOC 전송 채널에서 인코딩되지 않고 오히려 통상적으로 오브젝트 렌더러(1210)로 표시되는 바와 같은 단일 채널형(channeled) 엘리먼트에서 개별적으로 인코딩되는, 코어 디코더에 의하여 출력되는 디코딩된 오브젝트를 렌더링하도록 구성된다. 더욱이, 디코더는 믹서의 출력을 라우드스피커로 출력하기 위하여 출력(1730)에 대응하는 출력 인터페이스를 포함한다.
추가적인 실시예에서, 오브젝트 프로세서(1200)는 하나 이상의 전송 채널 및 인코딩된 오디오 신호 또는 인코딩된 오디오 채널을 나타내는 연관된 파라메트릭 부가 정보를 디코딩하기 위한 공간적 오디오 오브젝트 코딩 디코더(1800)를 포함하는데, 여기에서 공간적 오디오 오브젝트 코딩 디코더는 연관된 파라메트릭 정보 및 압축해제된 메타데이터를, 예를 들어 SAOC의 앞선 버전에서 정의된 바와 같이 출력 포맷을 직접적으로 렌더링하기 위하여 사용가능한 트랜스코딩된 파라메트릭 부가 정보로 트랜스코딩하도록 구성된다. 후처리기(1700)는 디코딩된 전송 채널 및 트랜스코딩된 파라메트릭 부가 정보를 사용하여 출력 포맷의 오디오 채널을 계산하도록 구성된다. 후처리기에 의하여 수행되는 처리는 MPEG 써라운드 처리와 유사할 수 있고, BCC 처리 등과 같은 임의의 다른 처리일 수 있다.
추가적인 실시예에서, 오브젝트 프로세서(1200)는, 디코딩된(코어 디코더에 의하여) 전송 채널 및 파라메트릭 부가 정보를 사용하여 출력 포맷에 대하여 채널 신호를 직접적으로 업믹싱하고 렌더링하도록 구성되는 공간적 오디오 오브젝트 코딩 디코더(1800)를 포함한다.
더욱이, 그리고 중요하게, 도 5 의 오브젝트 프로세서(1200)는, 채널과 믹싱된 사전-렌더링된 오브젝트가 존재하는 경우, 즉, 도 4 의 믹서(200)가 활성화되었던 경우, USAC 디코더(1300)에 의하여 출력된 데이터를 입력으로서 직접적으로 수신하는 믹서(1220)를 더 포함한다. 추가적으로, 믹서(1220)는 SAOC 디코딩이 없이 오브젝트 렌더링을 수행하는 오브젝트 렌더러로부터 데이터를 수신한다. 더욱이, 믹서는 SAOC 디코더 출력 데이터, 즉, SAOC 렌더링된 오브젝트를 수신한다.
믹서(1220)는 출력 인터페이스(1730), 바이너럴 렌더러(1710) 및 포맷 컨버터(1720)에 연결된다. 바이너럴 렌더러(1710)는 머리에 관련된(head related) 전달 함수 또는 바이너럴 실내 임펄스 응답(binaural room impulse responses; BRIR)을 사용하여 출력 채널을 두 개의 바이너럴 채널로 렌더링하도록 구성된다. 포맷 컨버터(1720)는 믹서의 출력 채널(1205) 보다 더 적은 개수의 채널을 가지는 출력 포맷으로 출력 채널을 변환하도록 구성되고, 포맷 컨버터(1720)는 5.1 스피커 등과 같은 재생 레이아웃에 대한 정보를 요구한다.
도 9 의 3D 오디오 디코더는, SAOC 디코더가 렌더링된 오브젝트뿐만 아니라 렌더링된 채널도 역시 생성할 수 있다는 점에서 도 7 의 3D 오디오 디코더와 다른데, 이것은 도 8 의 3D 오디오 인코더가 사용되었고, 채널/사전-렌더링된 오브젝트와 SAOC 인코더(800) 입력 인터페이스 사이의 연결(900)이 활성화 상태일 경우이다.
더욱이, SAOC 디코더로부터 재생 레이아웃에 대한 정보를 수신하고, 렌더링 행렬을 SAOC 디코더로 출력함으로써 SAOC 디코더가 결국에 1205 의 고채널 포맷에서의 임의의 다른 동작이 없이 렌더링된 채널 즉, 32 개의 라우드스피커를 제공할 수 있게 하는, 벡터 기초 진폭 패닝(vector base amplitude panning; VBAP) 스테이지(1810)가 구성된다.
VBAP 블록은 디코딩된 OAM 데이터를 수신하여 렌더링 행렬을 유도하는 것이 바람직하다. 더 일반적으로는, 이것은 재생 레이아웃에 대한 것 뿐만이 아니라 재생 레이아웃 상에 입력 신호가 렌더링되어야 하는 위치에 대한 기하학적 정보를 요구하는 것이 바람직하다. 이러한 기하학적 입력 데이터는 SAOC에 의하여 송신되지 않았던 오브젝트에 대한 OAM 데이터 또는 채널에 대한 채널 위치 정보일 수 있다.
그러나, 오직 특정한 출력 인터페이스만이 요구된다면, VBAP 상태(1810)는 예를 들어, 5.1 출력에 대한 요구된 렌더링 행렬을 이미 제공할 수 있다. 그러면 SAOC 디코더(1800)는 믹서(1220)와의 임의의 상호작용이 없이, SAOC 전송 채널, 연관된 파라메트릭 데이터 및 압축해제된 메타데이터로부터의 직접적 렌더링 및 요구된 출력 포맷으로의 직접적 렌더링을 수행한다. 그러나, 소정의 믹싱이 모드들 사이에 인가되는 경우, 즉, 여러 채널들이 SAOC 인코딩되지만 모든 채널이 SAOC 인코딩되지는 않는 경우, 또는 여러 오브젝트들이 SAOC 인코딩되지만 모든 오브젝트들이 SAOC 인코딩되지는 않는 경우, 또는 채널과 사전 렌더링된 특정 양의 사전 렌더링된 오브젝트만이 SAOC 디코딩되고 잔여 채널들은 SAOC 처리되지 않는 경우에는, 믹서는 개개의 입력 부분으로부터의 데이터, 즉, 코어 디코더(1300)로부터 직접적으로 주어지는 데이터, 오브젝트 렌더러(1210)로부터의 데이터 및 SAOC 디코더(1800)로부터의 데이터를 서로 조합할 것이다.
후속하는 수학적 명명법이 채용된다:
N objects 는 입력 오디오 오브젝트 신호의 개수
N channels 은 입력 채널의 개수
N은 입력 신호의 개수;
NN objects , N channels 또는 N objects + N channels 과 같을 수 있음
N DmxCh 는 다운믹스(처리된) 채널의 개수
N samples 는 처리된 데이터 샘플의 개수
N OutputChannels 은 디코더측에서의 출력 채널의 개수
D는 다운믹스 행렬, 사이즈 N DmxCh x N
X는 입력 오디오 신호, 사이즈 N x N samples
E X 는 사이즈가 N x N이고 E X = X X H 라고 정의되는 입력 신호 공분산 행렬
Y는 사이즈 N DmxCh x N samples 이고 Y = DX라고 정의되는 다운믹스 오디오 신호
E Y 는 사이즈 N DmxCh x N DmxCh 이고 E Y = Y Y H 라고 정의되는 다운믹스 신호의 공분산 행렬
G는 사이즈가 N x N DmxCh 이고 E X D H (D E X D H )-1을 근사화하는 파라메트릭 소스 추정 행렬
Figure pct00001
는 사이즈가 N objects x N samples 이고 X를 근사화하며
Figure pct00002
= GY와 같이 정의되는 파라미터로 복원된 입력 신호
(·) H 는 (·)의 공액 전치행렬을 나타내는 자동-수반(self-adjoint) 에르미트(Hermitian) 연산자
R은 사이즈 N OutputChannels x N의 렌더링 행렬
S는 S = RG와 같이 정의되는 사이즈 N OutputChannels x N DmxCh 의 출력 채널 생성 행렬
Z는 다운믹스 신호로부터 디코더 측에서 생성되는, 사이즈 N OutputChannels x N samples 의 출력 채널
Figure pct00003
는 사이즈 N OutputChannels x N samples 의 원하는 출력 채널이고,
Figure pct00004
임.
일반성을 잃지 않으면서, 수학식이 더 쉽게 이해되도록 하기 위하여, 모든 도입된 변수에 대하여 시간 및 주파수 의존성을 나타내는 인덱스는 본 명세서에서 생략된다.
3D 오디오 콘텍스트에서, 라우드스피커 채널이 여러 높이층에서 분포되어 결과적으로 수평 및 수직 채널 쌍이 생긴다. USAC에서 정의되는 바와 같은 오직 두 개의 채널의 통합 코딩으로는 채널들 사이의 공간적 그리고 지각적 관련성을 고려하기에 충분하지 않다.
3D 오디오 콘텍스트에서 채널들 사이의 공간적 및 지각적 관련성을 고려하기 위해서는, 입력 채널(SAOC 인코더에 의하여 인코딩되는 오디오 채널 신호 및 오디오 오브젝트 신호)을 복원하여 디코더측에서 복원 입력 채널을 획득하는 SAOC-유사 파라메트릭 기법이 사용될 수 있다. SAOC 디코딩은 최소 평균 제곱 오차(Minimum Mean Squared Error; MMSE) 알고리즘에 기초한다:
Figure pct00005
이고
Figure pct00006
이다.
입력 채널을 복원하여 복원 입력 채널
Figure pct00007
을 획득하는 대신에, 렌더링 행렬 R을 고려함으로써 출력 채널 Z가 디코더측에 직접적으로 생성될 수 있다.
Figure pct00008
여기서 S = RG.
이해될 수 있는 바와 같이, 입력 오디오 오브젝트 및 입력 오디오 채널을 명백하게 복원하는 대신에, 출력 채널 Z는 출력 채널 생성 행렬 S를 다운믹스 오디오 신호 Y에 인가함으로써 직접적으로 생성될 수도 있다.
출력 채널 생성 행렬 S를 획득하기 위하여, 렌더링 행렬 R은, 예를 들어 결정될 수 있거나 또는 예를 들어 이미 이용가능할 수도 있다. 더욱이, 파라메트릭 소스 추정 행렬 G는, 예를 들어 위에서 설명된 바와 같이 계산될 수도 있다. 그러면 출력 채널 생성 행렬 S가 렌더링 행렬 R 및 파라메트릭 소스 추정 행렬 G로부터 행렬곱 S = RG와 같이 획득될 수도 있다.
3D 오디오 시스템은 채널 및 오브젝트를 인코딩하기 위하여 결합된 모드를 요구할 수도 있다.
일반적으로, 이러한 결합형 모드에 대하여, SAOC 인코딩/디코딩은 두 개의 다른 방법으로 적용될 수도 있다:
하나의 접근법은 SAOC-유사 파라메트릭 시스템의 하나의 인스턴스(instance)를 채용할 수 있는데, 여기에서 이러한 인스턴스는 채널 및 오브젝트를 처리할 수 있다. 이러한 솔루션은 계산이 복잡하다는 단점을 가지는데, 이것은 입력 신호의 개수가 많아질수록 유사한 복원 품질을 유지하기 위해서는 전송 채널의 개수도 증가하기 때문이다. 결과적으로 행렬 D E X D H 의 사이즈가 증가할 것이고 역으로 계산하는 복잡성도 증가할 것이다. 더욱이, 이러한 솔루션은 행렬 D E X D H 의 사이즈가 증가함에 따라 더 많은 수치적 불안정성이 생기게 할 수도 있다. 더욱이, 다른 단점으로서, 행렬 D E X D H 의 역행렬(inversion)은 복원 채널과 복원 오브젝트 사이에 추가적 크로스-토크(cross-talk)가 일어나게 할 수도 있다. 이것은 제로의 값을 가지기로 되어 있는 복원 행렬 G의 일부 계수가 수치적 부정확성 때문에 비-제로 값으로 설정되기 때문이다.
다른 접근법은 SAOC-유사 파라메트릭 시스템의 두 개의를 채용할 수 있는데, 하나의 인스턴스는 채널 기초 처리에 대한 것이고 다른 인스턴스는 오브젝트 기초 처리에 대한 것이다. 이러한 접근법은 필터뱅크 및 디코더 구성의 초기화를 위하여 동일한 정보가 두 번 송신된다는 것이다. 더욱이, 요구된다고 하여도 채널 및 오브젝트를 함께 믹싱하는 것이 가능하지 않고, 결과적으로 채널과 오브젝트 사이의 상관 속성을 사용하는 것이 가능하지 않다.
오디오 오브젝트 및 오디오 채널에 대하여 다른 인스턴스를 채용하는 접근법의 단점을 피하기 위하여, 실시예들은 제 1 접근법을 채용하며, 효율적인 방식으로 오직 하나의 시스템 인스턴스를 사용하여 채널, 오브젝트 또는 채널 및 오브젝트를 처리할 수 있는 향상된 SAOC 시스템을 제공한다. 비록 오디오 채널 및 오디오 오브젝트가 동일한 인코더 및 디코더 인스턴스에 의하여 각각 처리되지만 제 1 접근법의 단점이 회피될 수 있도록 하는 효율적 개념들이 제공된다.
도 2 는 일 실시예에 따르는, 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 생성하기 위한 장치를 도시한다.
상기 장치는 상기 하나 이상의 오디오 전송 신호의 오디오 전송 채널을 생성하기 위한 채널/오브젝트 믹서(210), 및 출력 인터페이스(220)를 포함한다.
상기 채널/오브젝트 믹서(210)는, 하나 이상의 오디오 채널 신호 및 하나 이상의 오디오 오브젝트 신호가 하나 이상의 오디오 전송 채널 내에 어떻게 믹싱되어야 하는지에 대한 정보를 표시하는 다운믹스 정보에 따라서, 하나 이상의 오디오 채널 신호 및 하나 이상의 오디오 오브젝트 신호를 오디오 전송 신호 내에 믹싱함으로써 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 생성하도록 구성된다.
하나 이상의 오디오 전송 채널의 개수는 하나 이상의 오디오 채널 신호의 개수 더하기 하나 이상의 오디오 오브젝트 신호의 개수보다 더 작다. 따라서, 채널/오브젝트 믹서(210)는 하나 이상의 오디오 채널 신호와 함께 하나 이상의 오디오 오브젝트 신호를 다운믹싱할 수 있는데, 이것은 채널/오브젝트 믹서(210)가 하나 이상의 오디오 채널 신호의 개수 더하기 하나 이상의 오디오 오브젝트 신호의 개수보다 더 적은 채널을 가지는 오디오 전송 신호를 생성하도록 구성되기 때문이다.
출력 인터페이스(220)는 오디오 전송 신호, 다운믹스 정보 및 공분산 정보를 출력하도록 구성된다.
예를 들어, 채널/오브젝트 믹서(210)는 하나 이상의 오디오 채널 신호 및 하나 이상의 오디오 오브젝트 신호를 다운믹싱하기 위하여 사용되는 다운믹스 정보를 출력 인터페이스(220)로 공급하도록 구성될 수도 있다.
더욱이, 예를 들어 출력 인터페이스(220)는 하나 이상의 오디오 채널 신호 및 하나 이상의 오디오 오브젝트 신호를 수신하도록 구성될 수도 있고 더 나아가 하나 이상의 오디오 채널 신호 및 하나 이상의 오디오 오브젝트 신호에 기초하여 공분산 정보를 결정하도록 구성될 수도 있다. 또는, 출력 인터페이스(220)는, 예를 들어 이미 결정된 공분산 정보를 수신하도록 구성될 수도 있다.
상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 적어도 하나에 대한 레벨차 정보를 표시하고, 상기 하나 이상의 오디오 오브젝트 신호 중 적어도 하나에 대한 레벨차 정보를 더 표시한다. 그러나, 상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 하나와 상기 하나 이상의 오디오 오브젝트 신호 중 하나의 임의의 쌍에 대한 상관 정보를 표시하지 않는다.
도 1 은 일 실시예에 따르는, 하나 이상의 오디오 출력 채널을 생성하기 위한 장치를 도시한다.
상기 장치는 믹싱 정보를 계산하기 위한 파라미터 프로세서(110) 및 상기 하나 이상의 오디오 출력 채널을 생성하기 위한 다운믹스 프로세서(120)를 포함한다.
상기 다운믹스 프로세서(120)는 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 수신하도록 구성된다. 하나 이상의 오디오 채널 신호는 오디오 전송 신호 내에 믹싱된다. 더욱이, 하나 이상의 오디오 오브젝트 신호는 오디오 전송 신호 내에 믹싱된다. 하나 이상의 오디오 전송 채널의 개수는 하나 이상의 오디오 채널 신호의 개수 더하기 하나 이상의 오디오 오브젝트 신호의 개수보다 더 작다.
상기 파라미터 프로세서(110)는 상기 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호가 상기 하나 이상의 오디오 전송 채널 내에 어떻게 믹싱되는지에 대한 정보를 표시하는 다운믹스 정보를 수신하도록 구성된다. 더욱이, 상기 파라미터 프로세서(110)는 공분산 정보를 수신하도록 구성된다. 상기 파라미터 프로세서(110)는 다운믹스 정보에 따라서 그리고 공분산 정보에 따라서 믹싱 정보를 계산하도록 구성된다.
다운믹스 프로세서(120)는 믹싱 정보에 따라서 하나 이상의 오디오 출력 채널을 오디오 전송 신호로부터 생성하도록 구성된다.
상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 적어도 하나에 대한 레벨차 정보를 표시하고, 상기 하나 이상의 오디오 오브젝트 신호 중 적어도 하나에 대한 레벨차 정보를 더 표시한다. 그러나, 공분산 정보는 하나 이상의 오디오 채널 신호 중 하나와 하나 이상의 오디오 오브젝트 신호 중 하나의 임의의 쌍에 대한 상관 정보를 표시하지 않는다.
일 실시예에서, 공분산 정보는, 예를 들어 하나 이상의 오디오 채널 신호의 각각에 대한 레벨차 정보를 표시할 수도 있고, 더 나아가, 예를 들어 하나 이상의 오디오 오브젝트 신호의 각각에 대한 레벨차 정보를 표시할 수도 있다.
일 실시예에 따르면, 두 개 이상의 오디오 오브젝트 신호는, 예를 들어 오디오 전송 신호 내에 믹싱될 수도 있고 두 개 이상의 오디오 채널 신호는, 예를 들어 오디오 전송 신호 내에 믹싱될 수도 있다. 공분산 정보는, 예를 들어 두 개 이상의 오디오 채널 신호 중 제 1 오디오 채널 신호 및 두 개 이상의 오디오 채널 신호 중 제 2 오디오 채널 신호의 하나 이상의 쌍에 대한 상관 정보를 표시할 수도 있다. 또는, 공분산 정보는, 예를 들어 두 개 이상의 오디오 오브젝트 신호 중 제 1 오디오 오브젝트 신호 및 두 개 이상의 오디오 오브젝트 신호 중 제 2 오디오 오브젝트 신호의 하나 이상의 쌍에 대한 상관 정보를 표시할 수도 있다. 또는, 공분산 정보는, 예를 들어 두 개 이상의 오디오 채널 신호 중 제 1 오디오 채널 신호 및 두 개 이상의 오디오 채널 신호 중 제 2 오디오 채널 신호의 하나 이상의 쌍에 대한 상관 정보를 표시할 수도 있고, 두 개 이상의 오디오 오브젝트 신호 중 제 1 오디오 오브젝트 신호 및 두 개 이상의 오디오 오브젝트 신호 중 제 2 오디오 오브젝트 신호의 하나 이상의 쌍에 대한 상관 정보를 표시한다.
오디오 오브젝트 신호에 대한 레벨차 정보는, 예를 들어 오브젝트 레벨차(object level difference; OLD)일 수도 있다. "레벨(level)"은, 예를 들어 에너지 레벨에 관련될 수도 있다. "차분(또는 차; difference)"은, 예를 들어 오디오 오브젝트 신호들 사이의 최대 레벨에 대한 차분에 관련될 수도 있다.
오디오 오브젝트 신호 중 제 1 오디오 오브젝트 신호 및 오디오 오브젝트 신호 중 제 2 오디오 오브젝트 신호의 쌍에 대한 상관 정보는, 예를 들어 오브젝트간 상관(inter-object correlation; IOC)일 수도 있다.
예를 들어, 일 실시예에 따르면, SAOC 3D의 최적 성능을 보장하기 위하여, 호환가능한 파워를 가진 입력 오디오 오브젝트 신호를 사용하는 것이 추천된다. 두 개의 입력 오디오 신호의 곱(대응하는 시간/주파수 타일에 따라 정규화됨)은 다음과 같이 결정된다:
Figure pct00009
여기에서, ij는 오디오 오브젝트 신호 xi 및 xj 각각에 대한 인덱스들이고, n은 시간을 나타내며, k는 주파수를 나타내고, l은 시간 인덱스의 세트를 나타내며 m은 주파수 인덱스의 세트를 나타낸다.
Figure pct00010
은 제로에 의한 나눗셈을 피하기 위한 가산 상수이며, 예를 들어
Figure pct00011
이다.
최고 에너지를 가진 오브젝트의 절대 오브젝트 에너지(absolute object energy; NRG)는, 예를 들어 다음과 같이 계산될 수도 있다:
Figure pct00012
대응하는 입력 오브젝트 신호(OLD)의 파워의 비율은, 예를 들어
Figure pct00013
에서와 같이 주어질 수도 있다.
입력 오브젝트(IOC)의 유사성 측정은, 예를 들어 교차 상관에 의하여 주어질 수도 있다:
Figure pct00014
.
예를 들어, 일 실시예에서, IOC는 비트스트림 변수 bsRelatedTo[i][j]가 1 로 설정되는 오디오 신호 및 의 모든 쌍에 대하여 송신될 수도 있다.
오디오 채널 신호에 대한 레벨차 정보는, 예를 들어 채널 레벨차(channel level difference; CLD)일 수도 있다. "레벨"은, 예를 들어 에너지 레벨에 관련될 수도 있다. "차분"은, 예를 들어 오디오 채널 신호들 사이의 최대 레벨에 대한 차분에 관련될 수도 있다.
오디오 채널 신호 중 제 1 오디오 채널 신호 및 오디오 채널 신호 중 제 2 오디오 채널 신호의 쌍에 대한 상관 정보는, 예를 들어 채널간 상관(inter-channel correlation; ICC)일 수도 있다.
일 실시예에서, 채널 레벨차(CLD)는 위의 오브젝트 레벨차(OLD)와 동일한 방법으로 정의될 수도 있고, 위의 수학식의 오디오 오브젝트 신호가 오디오 채널 신호로 바뀌게 된다. 더욱이, 채널간 상관(ICC)은 위의 오브젝트간 상관(IOC)과 동일한 방법으로 정의될 수도 있고, 위의 수학식의 오디오 오브젝트 신호가 오디오 채널 신호로 바뀌게 된다.
SAOC에서, SAOC 인코더는 복수 개의 오디오 오브젝트 신호를 다운믹싱하여(다운믹스 정보에 따라서, 예를 들어 다운믹스 행렬 D에 따라서) 하나 이상의 오디오 전송 채널(예를 들어, 더 적은 개수)을 획득한다. 디코더측에서, SAOC 디코더는 인코더로부터 수신된 다운믹스 정보를 사용하여 그리고 인코더로부터 수신되는 공분산 정보를 사용하여 하나 이상의 오디오 전송 채널을 디코딩한다. 공분산 정보는, 예를 들어 공분산 행렬 E의 계수일 수도 있는데, 이것은 오디오 오브젝트 신호들의 오브젝트 레벨차 및 두 개의 오디오 오브젝트 신호들 사이의 오브젝트간 상관을 표시한다. SAOC에서, 결정된 다운믹스 행렬 D 및 결정된 공분산 행렬 E는 하나 이상의 오디오 전송 채널의 복수 개의 샘플(예를 들어, 하나 이상의 오디오 전송 채널의 2048 개의 샘플)을 디코딩하기 위하여 사용된다. 이러한 개념을 채용함으로써, 비트레이트는 인코딩이 없이 하나 이상의 오디오 오브젝트 신호를 송신하는 것과 비교하여 절약된다.
실시예들은, 비록 오디오 오브젝트 신호와 오디오 채널 신호는 큰 차이를 보이지만, 오디오 전송 신호 내에 오디오 오브젝트 신호뿐만 아니라 오디오 채널 신호도 역시 믹싱되도록 하는 이러한 오디오 전송 신호가 향상된 SAOC 인코더에 의하여 생성될 수도 있다는 발견에 기초한다.
오디오 오브젝트 신호 및 오디오 채널 신호는 많이 다르다. 예를 들어, 복수 개의 오디오 오브젝트 신호의 각각은 어떤 사운드 장면의 오디오 소스를 나타낼 수도 있다. 그러므로, 일반적으로, 두 개의 오디오 오브젝트는 매우 비상관될 수도 있다. 이에 반해, 오디오 채널 신호는 다른 마이크로폰에 의하여 녹음되고 있는 것과 같이 어떤 사운드 장면의 다른 채널을 나타낸다. 일반적으로, 이러한 오디오 채널 신호들 중 두 개는 높게 상관되고, 특히, 일반적으로 높게 비상관되는 두 개의 오디오 오브젝트 신호의 상관과 비교할 때 높게 상관된다. 따라서, 실시예들은 두 개의 오디오 채널 신호들의 쌍 사이의 상관성을 송신하고 이러한 송신된 상관값을 디코딩을 위하여 사용하는 것에 의하여, 오디오 채널 신호들이 특히 이익을 볼 것이라는 발견에 기초한다.
더욱이, 오디오 오브젝트 신호 및 오디오 채널 신호는, 예를 들어 그로부터 오디오 오브젝트 신호가 유래하는(가정된) 음원의 위치(예를 들어, 오디오 오브젝트)를 나타내는 위치 정보가 오디오 오브젝트 신호에 지정된다는 점에 있어서 다르다. 이러한 위치 정보(예를 들어, 메타데이터 정보에 포함되는)는 디코더측에서 오디오 전송 신호로부터 오디오 출력 채널을 생성할 때에 사용될 수 있다. 그러나, 이에 반해, 오디오 채널 신호는 위치를 나타내지 않고, 위치 정보가 오디오 채널 신호에는 지정되지 않는다. 그러나, 실시예들은 오디오 채널 신호를 오디오 오브젝트 신호와 함께 SAOC 인코딩하는 것이 그럼에도 불구하고 효율적이라는 발견에 기초하는데, 이것은 예를 들어 오디오 채널 신호를 생성하는 것이 두 개의 하부 문제들, 즉: 위치 정보가 필요하지 않는 디코딩 정보를 결정하는 것(예를 들어, 언믹싱(unmixing)을 위한 행렬 G를 결정하는 것, 아래 참조); 및 생성되는 오디오 출력 채널 내에 오디오 오브젝트를 렌더링하기 위하여 오디오 오브젝트 신호 상의 위치 정보가 채용될 수도 있는, 렌더링 정보를 결정하는 것(예를 들어, 렌더링 행렬 R을 결정함으로써, 아래 참조)으로 분할될 수 있기 때문이다.
더욱이, 본 발명은 오디오 오브젝트 신호 중 하나와 오디오 채널 신호 중 하나의 임의의 쌍 사이에 상관이 존재하지 않는다(또는 적어도 유의미한 상관은 존재하지 않는다)는 발견에 기초한다. 그러므로, 인코더는 하나 이상의 오디오 채널 신호 중 하나와 하나 이상의 오디오 오브젝트 신호 중 하나의 임의의 쌍에 대한 상관 정보를 송신하지 않는다. 이를 통하여, 상당한 송신 대역폭이 절약되고 상당량의 계산 시간이 인코딩 및 디코딩 양자 모두에 대하여 절약된다. 이러한 무의미한 상관 정보를 처리하지 않도록 구성되는 디코더는 믹싱 정보(디코더측에서 오디오 전송 신호로부터 오디오 출력 채널을 생성하기 위하여 채용됨)를 결정할 때에 상당량의 계산 시간을 절약한다.
일 실시예에 따르면, 파라미터 프로세서(110)는, 예를 들어 하나 이상의 오디오 채널 신호 및 하나 이상의 오디오 오브젝트 신호가 하나 이상의 오디오 출력 채널 내에 어떻게 믹싱되는지에 대한 정보를 표시하는 렌더링 정보를 수신하도록 구성될 수도 있다. 파라미터 프로세서(110)는, 예를 들어 다운믹스 정보에 따라서, 공분산 정보에 따라서 그리고 렌더링 정보에 따라서 믹싱 정보를 계산하도록 구성될 수도 있다.
예를 들어, 파라미터 프로세서(110)는, 예를 들어 렌더링 행렬 R의 복수 개의 계수를 렌더링 정보로서 수신하도록 구성될 수도 있고, 다운믹스 정보에 따라서, 공분산 정보에 따라서 그리고 렌더링 행렬 R에 따라서 믹싱 정보를 계산하도록 구성될 수도 있다. 예를 들어, 파라미터 프로세서는 렌더링 행렬 R의 계수를 인코더측으로부터, 또는 사용자로부터 수신할 수도 있다. 다른 실시예에서, 파라미터 프로세서(110)는, 예를 들어 메타데이터 정보, 예를 들어 위치 정보 또는 이득 정보를 수신하도록 구성될 수도 있고, 예를 들어 수신된 메타데이터 정보에 따라서 렌더링 행렬 R의 계수를 계산하도록 구성될 수도 있다. 추가적인 실시예에서, 파라미터 프로세서는 양자 모두(인코더로부터의 렌더링 정보 및 사용자로부터의 렌더링 정보)를 수신하도록 그리고 양자 모두에 기초하여(이것은 기본적으로 상호작용이 실현되었음을 의미함) 렌더링 행렬을 생성하도록 구성될 수도 있다.
또는, 파라미터 프로세서는, 예를 들어 두 개의 렌더링 부분행렬 R ch , R obj 를 렌더링 정보로 수신할 수도 있는데, 여기에서 R=(R ch , R obj )이고, R ch 는 예를 들어 오디오 채널 신호를 오디오 출력 채널에 어떻게 믹싱하는지를 표시하며, R obj 는 OAM 정보로부터 획득된 렌더링 행렬이고, R obj 는, 예를 들어 도 9 의 VBAP 블록(1810)에 의하여 제공될 수도 있다.
특정 실시예에서, 두 개 이상의 오디오 오브젝트 신호는, 예를 들어 오디오 전송 신호 내에 믹싱될 수도 있고 두 개 이상의 오디오 채널 신호는 오디오 전송 신호 내에 믹싱된다. 이러한 실시예에서, 공분산 정보는, 예를 들어 두 개 이상의 오디오 채널 신호 중 제 1 오디오 채널 신호 및 두 개 이상의 오디오 채널 신호 중 제 2 오디오 채널 신호의 하나 이상의 쌍에 대한 상관 정보를 표시할 수도 있다. 더욱이, 이러한 실시예에서, 공분산 정보(즉 예를 들어 인코더측으로부터 디코더측으로 송신되는 정보)는 하나 이상의 오디오 오브젝트 신호 중 제 1 오디오 오브젝트 신호와 하나 이상의 오디오 오브젝트 신호 중 제 2 오디오 오브젝트 신호의 임의의 쌍에 대한 상관 정보를 표시하지 않는데, 이것은 오디오 오브젝트 신호들 사이의 상관이 작아서 무시될 수 있고, 따라서, 예를 들어 비트레이트 및 처리 시간을 절약하기 위하여 송신되지 않기 때문이다. 이러한 실시예에서, 파라미터 프로세서(110)는 다운믹스 정보에 따라서, 하나 이상의 오디오 채널 신호의 각각의 레벨차 정보에 따라서, 하나 이상의 오디오 오브젝트 신호의 각각의 제 2 레벨차 정보에 따라서, 그리고 두 개 이상의 오디오 채널 신호 중 제 1 오디오 채널 신호 및 두 개 이상의 오디오 채널 신호 중 제 2 오디오 채널 신호의 하나 이상의 쌍의 상관 정보에 따라서, 믹싱 정보를 계산하도록 구성된다. 이러한 일 실시예는, 오디오 오브젝트 신호들 사이의 상관은 일반적으로 상대적으로 낮고 무시될 수 있는 반면에, 일반적으로 두 개의 오디오 채널 신호들 사이의 상관은 상대적으로 높고 고려되어야 한다는 위에서 설명된 발견을 채용한다. 오디오 오브젝트 신호들 사이의 관련성이 없는 상관 정보를 처리하지 않음으로써, 처리 시간이 절약될 수 있다. 오디오 채널 신호들 사이의 관련성이 있는 상관을 처리함으로써, 코딩 효율이 향상될 수 있다.
특정 실시예들에서, 하나 이상의 오디오 채널 신호는 오디오 전송 채널 중 하나 이상의 제 1 그룹 내에 믹싱되고, 하나 이상의 오디오 오브젝트 신호는 오디오 전송 채널 중 하나 이상의 제 2 그룹 내에 믹싱되며, 상기 제 1 그룹의 각각의 오디오 전송 채널은 제 2 그룹에 포함되지 않고, 상기 제 2 그룹의 각각의 오디오 전송 채널은 제 1 그룹에 포함되지 않는다. 이러한 실시예에서, 다운믹스 정보는 하나 이상의 오디오 채널 신호가 하나 이상의 오디오 전송 채널의 제 1 그룹 내에 어떻게 믹싱되는지에 대한 정보를 표시하는 제 1 다운믹스 부정보를 포함하고, 다운믹스 정보는 하나 이상의 오디오 오브젝트 신호가 하나 이상의 오디오 전송 채널의 제 2 그룹 내에 어떻게 믹싱되는지에 대한 정보를 표시하는 제 2 다운믹스 부정보를 포함한다. 이러한 실시예에서, 파라미터 프로세서(110)는 제 1 다운믹스 부정보에 따라서, 제 2 다운믹스 부정보에 따라서 그리고 공분산 정보에 따라서 믹싱 정보를 계산하도록 구성되고, 다운믹스 프로세서(120)는 하나 이상의 오디오 전송 채널의 상기 제 1 그룹으로부터 그리고 오디오 전송 채널 상기 제 2 그룹으로부터 믹싱 정보에 따라서 하나 이상의 오디오 출력 신호를 생성하도록 구성된다. 이러한 접근법에 의하여 코딩 효율이 증가되는데, 이것은 어떤 사운드 장면의 오디오 채널 신호들 사이에는 높은 상관성이 존재하기 때문이다. 더욱이, 오디오 오브젝트 신호를 인코딩하고 그 반대의 경우도 마찬가지인 오디오 전송 채널에 대한 오디오 채널 신호의 영향을 나타내는, 다운믹스 행렬의 계수는 인코더에 의하여 계산될 필요가 없고, 송신될 필요가 없으며, 이들을 처리할 필요가 없이 디코더에 의하여 제로로 설정될 수 있다. 이렇게 함으로써 인코더 및 디코더에 대한 송신 대역폭 및 계산 시간이 절약된다.
일 실시예에서, 다운믹스 프로세서(120)는 오디오 전송 신호를 비트스트림으로 수신하도록 구성되고, 다운믹스 프로세서(120)는 오디오 채널 신호만을 인코딩하는 오디오 전송 채널의 개수를 나타내는 제 1 채널 카운트수를 수신하도록 구성되며, 다운믹스 프로세서(120)는 오디오 오브젝트 신호만을 인코딩하는 오디오 전송 채널의 개수를 나타내는 제 2 채널 카운트수를 수신하도록 구성된다. 이러한 실시예에서, 다운믹스 프로세서(120)는 오디오 전송 신호의 오디오 전송 채널이 오디오 채널 신호를 인코딩하는지 여부 또는 오디오 전송 신호의 오디오 전송 채널이 오디오 오브젝트 신호를 인코딩하는지 여부를, 제 1 채널 카운트수에 따라서 또는 제 2 채널 카운트수에 따라서, 또는 제 1 채널 카운트수 및 제 2 채널 카운트수에 따라서 식별하도록 구성된다. 예를 들어, 비트스트림에서, 오디오 채널 신호를 인코딩하는 오디오 전송 채널이 처음 나타나고, 오디오 오브젝트 신호를 인코딩하는 오디오 전송 채널이 그 뒤에 나타난다. 그러면, 만일 제 1 채널 카운트수가, 예를 들어 3 이고 제 2 채널 카운트수가, 예를 들어 2 라면, 다운믹스 프로세서는 처음 세 개의 오디오 전송 채널이 인코딩된 오디오 채널 신호를 포함하고 후속하는 두 개의 오디오 전송 채널이 인코딩된 오디오 오브젝트 신호를 포함한다고 결론을 내릴 수 있다.
일 실시예에서, 파라미터 프로세서(110)는 위치 정보를 포함하는 메타데이터 정보를 수신하도록 구성되는데, 여기에서 위치 정보는 하나 이상의 오디오 오브젝트 신호의 각각에 대한 위치를 나타내고, 위치 정보는 하나 이상의 오디오 채널 신호 중 임의의 것에 대한 위치를 나타내지 않는다. 이러한 실시예에서, 파라미터 프로세서(110)는 다운믹스 정보에 따라서, 공분산 정보에 따라서, 및 위치 정보에 따라서 믹싱 정보를 계산하도록 구성된다. 추가적으로 또는 대안적으로는, 메타데이터 정보는 이득 정보를 더 포함하는데, 여기에서 이득 정보는 하나 이상의 오디오 오브젝트 신호의 각각에 대한 이득값을 나타내고, 이득 정보는 하나 이상의 오디오 채널 신호 중 임의의 것에 대한 이득값을 나타내지 않는다. 이러한 실시예에서, 파라미터 프로세서(110)는 다운믹스 정보에 따라서, 공분산 정보에 따라서, 위치 정보에 따라서, 및 이득 정보에 따라서 믹싱 정보를 계산하도록 구성될 수도 있다. 예를 들어, 파라미터 프로세서(110)는 더 나아가 위에서 설명된 부분 행렬 R ch 에 따라서 믹싱 정보를 계산하도록 구성될 수도 있다.
일 실시예에 따르면, 파라미터 프로세서(110)는 믹싱 행렬 S를 믹싱 정보로서 계산하도록 구성되는데, 여기에서 믹싱 행렬 S는 수학식 S = RG에 따라서 정의되고, G는 다운믹스 정보에 따르는 그리고 공분산 정보에 따르는 디코딩 행렬이며, 여기에서 R은 메타데이터 정보에 따르는 렌더링 행렬이다. 이러한 실시예에서, 다운믹스 프로세서(120)는 수학식 Z = SY를 적용함으로써 오디오 출력 신호의 하나 이상의 오디오 출력 채널을 생성하도록 구성될 수도 있는데, 여기에서 Z는 오디오 출력 신호이고 Y는 오디오 전송 신호이다. 예를 들어, R은 위에서 설명된 부분행렬 R ch 및/또는 R obj (예를 들어, R= (R ch, R obj ))에 의존할 수도 있다.
도 3 은 일 실시예에 따르는 시스템을 도시한다. 상기 시스템은 위에서 기술된 바와 같이 오디오 전송 신호를 생성하기 위한 장치(310) 및 위에서 기술된 바와 같이 하나 이상의 오디오 출력 채널을 생성하기 위한 장치(320)를 포함한다.
상기 하나 이상의 오디오 출력 채널을 생성하기 위한 장치(320)는, 상기 오디오 전송 신호를 생성하기 위한 장치(310)로부터 상기 오디오 전송 신호, 다운믹스 정보 및 공분산 정보를 수신하도록 구성된다. 더욱이, 오디오 출력 채널을 생성하기 위한 장치(320)는 오디오 전송 신호 다운믹스 정보에 따라서 그리고 공분산 정보에 따라서 상기 하나 이상의 오디오 출력 채널을 생성하도록 구성된다.
일 실시예에 따르면, 오브젝트 코딩을 실현하는 객체 지향 시스템인 SAOC 시스템의 기능성은, 오브젝트(오브젝트 코딩) 또는 오디오 채널(채널 코딩) 또는 오디오 채널 및 오디오 오브젝트 양자 모두(믹싱된 코딩)가 인코딩될 수 있도록 확장된다.
위에서 설명된 도 6 및 도 8 의 SAOC 인코더(800)는, 이것이 입력으로서 오디오 오브젝트를 수신할 수 있는 것뿐만 아니라, 입력으로서 오디오 채널도 역시 수신할 수 있도록, 그리고 SAOC 인코더가 수신된 오디오 오브젝트 및 수신된 오디오 채널이 그 안에 인코딩되는 다운믹스 채널(예를 들어, SAOC 전송 채널)을 생성할 수 있도록 향상된다. 위에서 설명된 실시예에서, 예를 들어 도 6 및 도 8 에서, 이러한 SAOC 인코더(800)는 입력으로서 오디오 오브젝트뿐만 아니라 오디오 채널을 수신하고, 수신된 오디오 오브젝트 및 수신된 오디오 채널이 그 안에서 인코딩되는 다운믹스 채널(예를 들어, SAOC 전송 채널)을 생성한다. 예를 들어, 도 6 및 도 8 의 SAOC 인코더는 도 2 를 참조하여 설명된 바와 같이 오디오 전송 신호(하나 이상의 오디오 전송 채널, 예를 들어 하나 이상의 SAOC 전송 채널을 포함)를 생성하기 위한 장치로서 구현되고, 도 6 및 도 8 의 실시예는 오브젝트뿐만 아니라 채널들 중 일부 또는 전부가 SAOC 인코더(800) 내로 공급되도록 변경된다.
위에서 설명된 도 7 및 도 9 의 SAOC 디코더(1800)는, 오디오 오브젝트 및 오디오 채널이 그 안에서 인코딩되는 다운믹스 채널(예를 들어, SAOC 전송 채널)을 수신할 수 있도록, 그리고 오디오 오브젝트 및 오디오 채널이 그 안에서 인코딩되는 수신된 다운믹스 채널(예를 들어, SAOC 전송 채널)로부터 출력 채널(렌더링된 채널 신호 및 렌더링된 오브젝트 신호)을 생성할 수 있도록 개선된다. 위에서 설명된 실시예에서, 예를 들어, 도 7 및 도 9 의 실시예에서, 이러한 SAOC 디코더(1800)는 오디오 오브젝트뿐만 아니라 오디오 채널도 그 안에서 인코딩되는 다운믹스 채널(예를 들어, SAOC 전송 채널)을 수신하고, 오디오 오브젝트 및 오디오 채널이 그 안에서 인코딩되는 수신된 다운믹스 채널(예를 들어, SAOC 전송 채널)로부터 출력 채널(렌더링된 채널 신호 및 렌더링된 오브젝트 신호)을 생성한다. 예를 들어, 도 7 및 도 9 의 SAOC 디코더는 도 1 을 참조하여 설명된 바와 같이 하나 이상의 오디오 출력 채널을 생성하기 위한 장치로서 구현되고, 도 7 및 도 9 의 실시예들은, USAC 디코더(1300)와 믹서(1220) 사이에 도시된 채널들 중 하나, 일부, 또는 전부가 USAC 디코더(1300)에 의하여 생성(복원)되지 않고, 반면에 그 대신 SAOC 전송 채널(오디오 전송 채널)로부터 SAOC 디코더(1800)에 의하여 복원되도록 변경된다.
애플리케이션에 의존하여, SAOC 시스템의 다른 장점들이 이러한 향상된 SAOC 시스템을 사용함으로써 활용될 수 있다.
몇 가지 실시예에 따르면, 이러한 향상된 SAOC 시스템은 임의의 개수의 다운믹스 채널을 지원하고 임의의 개수의 출력 채널로의 렌더링을 지원한다. 몇 가지 실시예들에서, 예를 들어, 다운믹스 채널(SAOC 전송 채널)의 개수는 감소되어(예를 들어, 런타임에서), 예를 들어 전체 비트레이트를 상당히 하향조정할 수 있다. 이것은 낮은 비트레이트가 되게 할 것이다.
더욱이, 몇 가지 실시예에 따르면, 이러한 향상된 SAOC 시스템의 SAOC 디코더는, 예를 들어 사용자 상호작용을 예를 들어 허용할 수도 있는 통합된 탄력적 렌더러를 가질 수도 있다. 이에 의하여, 사용자는 오디오 장면 내의 오브젝트의 위치를 변화시킬 수 있고, 개개의 오브젝트의 레벨을 감쇠 또는 증가시킬 수 있으며, 오브젝트를 완전히 억제할 수 있는 것 등을 할 수 있다. 예를 들어, 채널 신호를 배경 오브젝트(background objects; BGOs)라고 간주하고 오브젝트 신호를 전경 오브젝트(foreground objects; FGOs)라고 간주하면, SAOC의 상호작용 특징이 대화 향상(dialogue enhancement)과 같은 애플리케이션에 대하여 사용될 수도 있다. 이러한 상호작용 특징에 의하여, 사용자는 제한된 범위에서, 대화 명료성(dialogue intelligibility)(예를 들어, 대화는 전경 오브젝트에 의하여 표현될 수도 있음)을 증가시키거나 대화(예를 들어, FGO에 의하여 표현됨)와 주변 배경(예를 들어, BGO에 의하여 표현됨) 사이의 균형을 획득하기 위하여, BGO 및 FGO를 조작할 수 있는 자유를 가질 수도 있다.
더욱이, 실시예에 따르면, 디코더측에서의 이용가능한 계산 복잡성에 따라서, SAOC 디코더는 자동적으로, "낮은-계산-복잡성(low-computation-complexity)" 모드에서 동작함으로써, 예를 들어 역상관기(decorrelators)의 개수를 줄임으로써, 및/또는, 예를 들어 재생 레이아웃으로 직접적으로 렌더링하고 위에서 설명된 후속 포맷 컨버터(1720)를 비활성화함으로써, 계산 복잡성을 자동적으로 하향조정할 수 있다. 예를 들어, 렌더링 정보는 22.2 시스템의 채널을 5.1 시스템의 채널로 어떻게 다운믹싱할지를 조종할 수도 있다.
일 실시예에 따르면, 향상된 SAOC 인코더는 가변 개수의 입력 채널(N channels )의 개수는 및 입력 오브젝트(N objects )를 처리할 수도 있다. 채널 및 오브젝트의 개수는 디코더측에게 채널 경로의 존재를 시그널링하기 위하여 비트스트림 안으로 송신된다. SAOC 인코더로의 입력 신호는 언제나 채널 신호가 앞에 오고 오브젝트 신호가 나중에 오도록 순서가 결정된다.
다른 실시예에 따르면, 채널/오브젝트 믹서(210)는, 상기 오디오 전송 신호의 하나 이상의 오디오 전송 채널의 개수가, 얼마나 많은 비트레이트가 오디오 전송 신호를 송신하기 위하여 이용가능한지에 의존하도록, 오디오 전송 신호를 생성하도록 구성된다.
예를 들어, 다운믹스(전송) 채널의 개수는, 예를 들어 이용가능한 비트레이트의 그리고 입력 신호의 총수의 함수로서 계산될 수도 있다:
N DmxCh = f (bitrate, N).
D 안의 다운믹스 계수는 입력 신호들(채널 및 오브젝트)의 믹싱을 결정한다. 애플리케이션에 따라서, 행렬 D의 구성은 채널 및 오브젝트가 함께 믹싱되거나 분리되게 유지되도록 특정될 수 있다.
몇 가지 실시예는 오브젝트를 채널과 함께 믹싱하지 않는 것이 유리하다는 발견에 기초한다. 오브젝트를 채널과 함께 믹싱하지 않기 위해서, 다운믹스 행렬은, 예를 들어 다음과 같이 구성될 수도 있다:
Figure pct00015
별개의 믹싱을 비트스트림 내로 시그널링하기 위하여, 채널 경로(
Figure pct00016
)로 지정된 다운믹스 채널의 개수 및 오브젝트 경로(
Figure pct00017
)로 지정된 다운믹스 채널의 개수의 값들이, 예를 들어 송신될 수도 있다.
블록-단위 다운믹싱 행렬 D ch D obj 는 다음 사이즈를 가진다: 각각,
Figure pct00018
x N channels
Figure pct00019
x N objects .
디코더에서 파라메트릭 소스 추정 행렬
Figure pct00020
의 계수는 다른 방식으로 계산된다. 행렬 형태를 사용하면, 이것은 다음과 같이 표현된다:
Figure pct00021
여기에서:
- 사이즈 N channels x
Figure pct00022
Figure pct00023
- 사이즈 N objects x
Figure pct00024
Figure pct00025
채널 신호 공분산(
Figure pct00026
) 및 오브젝트 신호 공분산(
Figure pct00027
)의 값들은, 예를 들어 대응하는 대각 블록만을 선택함으로써 입력 신호 공분산 행렬(E X )로부터 획득될 수도 있다:
Figure pct00028
직접적인 결과로서 비트레이트는 채널과 오브젝트 사이의 교차-공분산 행렬을 복원하기 위한 추가적 정보(예를 들어, OLD, IOC)를 전송하지 않음으로써 절감된다:
Figure pct00029
.
몇 가지 실시예에 따르면,
Figure pct00030
이고, 따라서:
Figure pct00031
이다.
일 실시예에 따르면, 향상된 SAOC 인코더는 오디오 오브젝트 중 임의의 하나와 오디오 채널 중 임의의 하나 사이의 공분산에 대한 정보를 향상된 SAOC 디코더로 송신하지 않도록 구성된다.
더욱이, 일 실시예에 따르면, 향상된 SAOC 디코더는 오디오 오브젝트 중 임의의 하나와 오디오 채널 중 임의의 하나 사이의 공분산에 대한 정보를 수신하지 않도록 구성된다.
G의 대각선 이외의(off-diagonal) 블록-단위 원소들은 계산되지 않고 제로로 설정된다. 그러므로 복원 채널과 오브젝트 사이에 발생할 수 있는 크로스-토크가 회피된다. 더욱이, 이를 통하여 계산 복잡성이 절감되는데, 이것은 G의 더 적은 계수가 계산되면 되기 때문이다.
더욱이, 실시예들에 따르면, 다음의 더 큰 행렬을 반전시키는(inverting) 대신에:
사이즈
Figure pct00032
인 D E X D H ,
두 개의 후속하는 작은 행렬들이 반전된다:
사이즈
Figure pct00033
Figure pct00034
사이즈
Figure pct00035
Figure pct00036
더 작은 행렬
Figure pct00037
Figure pct00038
를 반전시키는 것은 계산 복잡성의 관점에 있어서 더 큰 행렬 D E X D H 를 반전시키는 것보다 훨씬 저렴하다.
더욱이, 별개의 행렬
Figure pct00039
Figure pct00040
을 반전시킴으로써, 존재할 수 있는 숫자 불안정성이 더 큰 행렬 D E X D H 를 반전시키는 것과 비교하여 감소된다. 예를 들어, 최악의 경우의 시나리오에서, 전송 채널
Figure pct00041
Figure pct00042
의 공분산 행렬이 신호 유사성에 기인하여 선형 의존성을 가진다면, 전체 행렬 D E X D H 는 불량 조건인(ill-conditioned) 반면에 더 작은 개별 행렬들은 양호 조건이 된다(well-conditioned).
행렬
Figure pct00043
가 디코더측에서 계산된 이후에는, 이제, 예를 들어 입력 신호를 파라미터를 이용하여 추정하여, 예를 들어 다음을 사용하여 복원된 입력 신호
Figure pct00044
(입력 오디오 채널 신호 및 입력 오디오 오브젝트 신호)를 얻는 것이 가능해진다:
Figure pct00045
.
더욱이, 위에서 설명된 바와 같이, 예를 들어 렌더링 행렬 R을 채용함으로써 출력 채널 Z를 획득하기 위하여 렌더링이 디코더측에서 수행될 수도 있다:
Figure pct00046
Z = RGY
Z = SY; 여기서 S = RG
입력 신호(입력 오디오 채널 신호 및 입력 오디오 오브젝트 신호)를 명백하게 복원하여 복원된 입력 채널
Figure pct00047
을 획득하는 대신에, 출력 채널 Z는 출력 채널 생성 행렬 S를 다운믹스 오디오 신호 Y에 적용함으로써 디코더측에서 직접적으로 생성될 수도 있다.
이미 위에서 설명된 바와 같이, 출력 채널 생성 행렬 S를 획득하기 위하여, 렌더링 행렬 R은, 예를 들어 결정될 수도 있거나 또는 예를 들어 이미 이용가능할 수도 있다. 더욱이, 파라메트릭 소스 추정 행렬 G는, 예를 들어 위에서 설명된 바와 같이 계산될 수도 있다. 그러면 출력 채널 생성 행렬 S가 렌더링 행렬 R 및 파라메트릭 소스 추정 행렬 G로부터 행렬곱 S = RG와 같이 획득될 수도 있다.
복원된 오디오 오브젝트 신호와 관련하여, 인코더로부터 디코더로 송신되는 오디오 오브젝트에 대한 압축 메타데이터(compress metadata)가 고려될 수도 있다. 예를 들어, 오디오 오브젝트에 대한 메타데이터는 오디오 오브젝트의 각각에 대한 위치 정보를 표시할 수도 있다. 이러한 위치 정보는 예를 들어 방위각(azimuth angle), 상하각(elevation angle) 및 반경일 수도 있다. 이러한 위치 정보는 3D 공간 내의 오디오 오브젝트의 위치를 표시할 수도 있다. 예를 들어, 오디오 오브젝트가 가정된 또는 실제 라우드스피커 위치에 가깝게 위치된다면, 이러한 오디오 오브젝트는 상기 라우드스피커로부터 멀리 위치된 출력 채널 내의 다른 오디오 오브젝트의 가중치와 비교할 때 상기 라우드스피커에 대한 출력 채널에서 더 높은 가중치를 가진다. 예를 들어, 오디오 오브젝트에 대한 렌더링 행렬 R의 렌더링 계수를 결정하기 위하여 벡터 기초 진폭 패닝(vector base amplitude panning; VBAP)이 채용될 수도 있다(예를 들어, [VBAP] 참조).
더욱이, 몇 가지 실시예들에서, 압축 메타데이터는 오디오 오브젝트의 각각에 대한 이득값을 포함할 수도 있다. 예를 들어, 오디오 오브젝트 신호의 각각에 대하여, 이득값은 상기 오디오 오브젝트 신호에 대한 이득 인자를 표시할 수도 있다.
오디오 오브젝트와 대조적으로, 오디오 채널 신호에 대해서는 위치 정보 메타데이터가 인코더로부터 디코더로 송신되지 않는다. 예를 들어, 추가적 행렬(예를 들어, 22.2 를 5.1 로 변환하는 행렬) 또는 항등 행렬(identity matrix)(채널들의 입력 구성이 출력 구성과 동일한 경우)이 오디오 채널들에 대한 렌더링 행렬 R의 렌더링 계수를 결정하기 위하여 채용될 수도 있다.
렌더링 행렬 R은 N OutputChannels x N의 사이즈일 수도 있다. 여기에서, 출력 채널의 각각에 대하여, 행렬 R에는 한 행이 존재한다. 더욱이, 렌더링 행렬 R의 각각의 행 내에서, N 개의 계수가 대응하는 출력 채널 내의 N 개의 입력 신호(입력 오디오 채널 및 입력 오디오 오브젝트)의 가중치를 결정한다. 상기 출력 채널의 라우드스피커에 근접하게 위치되는 그러한 오디오 오브젝트들이 대응하는 출력 채널의 라우드스피커로부터 멀리 떨어져 위치되는 오디오 오브젝트들의 계수보다 더 큰 계수를 가진다.
예를 들어, 라우드스피커의 오디오 채널들의 각각 내의 오디오 오브젝트 신호의 가중치를 결정하기 위하여, 벡터 기초 진폭 패닝(VBAP)이 채용될 수도 있다(예를 들어, [VBAP] 참조). 예를 들어, VBAP에 대하여, 하나의 오디오 오브젝트가 하나의 가상 소스에 관련된다고 가정된다.
오디오 오브젝트와 대조적으로, 오디오 채널이 위치를 가지지 않기 때문에, 렌더링 행렬 내의 오디오 채널에 관련되는 계수들은, 예를 들어 위치 정보로부터 독립적일 수도 있다.
후속하는 설명에서, 실시예들에 따르는 비트스트림 신택스가 설명된다.
MPEG SAOC의 콘텍스트에서, 가능한 동작 모드(채널 기초 모드, 오브젝트 기초 모드 또는 결합형 모드)의 시그널링은, 예를 들어 두 개의 후속하는 가능성들(제 1 가능성: 동작 모드를 시그널링하기 위하여 플래그를 사용함; 제 2 가능성: 동작 모드를 시그널링하기 위하여 플래그를 사용하지 않음) 중 하나를 사용함으로써 달성될 수 있다:
따라서, 제 1 실시예에 따르면, 플래그들은 동작 모드를 시그널링하기 위하여 사용된다.
동작 모드를 시그널링하기 위하여 플래그를 사용하기 위하여, SAOCSpecifigConfig() 엘리먼트 또는 SAOC3DSpecifigConfig() 엘리먼트의 신택스는 예를 들어 다음을 포함할 수도 있다:
bsSaocChannelFlag; 1 uimsbf
NumInputSignals = 0;
bsSaocCombinedModeFlag = 0;
if(bsSaocChannelFlag) {
bsNumSaocChannels; 5 uimsbf
bsNumSaocDmxChannels; 5 uimsbf
NumInputSignals += bsNumSaocChannels + 1;
}
bsSaocObjectFlag; 1 uimsbf
if(bsSaocObjectFlag) {
bsNumSaocObjects; 7 uimsbf
bsNumSaocDmxObjects; 5 uimsbf
bsSaocCombinedModeFlag; 1
uimsbfNumInputSignals += bsNumSaocObjects + 1;
}
for(i=0; i< bsNumSaocChannels+1; i++) {
bsRelatedTo[i][i] = 1;
for(j=i+1; j< bsNumSaocChannels+1; j++) {
bsRelatedTo[i][j]; 1 uimsbf
bsRelatedTo[j][i] = bsRelatedTo[i][j];
}
}
for(i= bsNumSaocChannels+1; i< bs NumInputSignals; i++) {
for(j=0; j< bsNumSaocChannels+1; j++) {
bsRelatedTo[i][j] = 0
bsRelatedTo[j][i] = 0
}
}
for(i= bsNumSaocChannels+1; i< bs NumInputSignals; i++) {
bsRelatedTo[i][i] = 1;
for(j=i+1; j< NumInputSignals; j++) {
bsRelatedTo[i][j]; 1 uimsbf
bsRelatedTo[j][i] = bsRelatedTo[i][j];
}
}
만일 비트스트림 변수 bsSaocChannelFlag가 1 로 설정된다면 첫 번째 bsNumSaocChannels+1 개의 입력 신호가 채널 기초 신호와 유사하게 처리된다. 만일 비트스트림 변수 bsSaocObjectFlag가 1 로 설정된다면 마지막 bsNumSaocObjects+1 개의 입력 신호가 오브젝트 신호와 유사하게 처리된다. 그러므로 양자 모두의 비트스트림 변수(bsSaocChannelFlag , bsSaocObjectFlag)가 제로가 아닌 경우에는, 오디오 전송 채널 내의 채널 및 오브젝트의 존재가 시그널링된다.
만일 비트스트림 변수 bsSaocCombinedModeFlag가 1 과 같다면, 결합형 디코딩 모드가 비트스트림 내로 시그널링되고, 디코더는 전체 다운믹스 행렬 D를 사용하여 bsNumSaocDmxChannels 개의 전송 채널을 처리할 것이다(이것은 채널 신호 및 오브젝트 신호가 함께 믹싱된다는 것을 의미한다).
만일 비트스트림 변수 bsSaocCombinedModeFlag가 제로와 같다면, 독립 디코딩 모드가 시그널링되고, 디코더는 (bsNumSaocDmxChannels+1) + (bsNumSaocDmxObjects+1) 개의 전송 채널을 위에서 설명된 바와 같이 블록-단위 다운믹스 행렬을 사용하여 처리할 것이다.
바람직한 제 2 실시예에 따르면, 동작 모드를 시그널링하기 위하여 플래그가 필요하지 않다.
예를 들어, 플래그를 사용하지 않고 동작 모드를 시그널링하는 것은 후속하는 신택스를 채용함으로써 실현될 수도 있다
시그널링:
SAOC3DSpecificConfig()의 신택스:
bsNumSaocDmxChannels; 5 uimsbf
bsNumSaocDmxObjects; 5 uimsbf
NumInputSignals = 0;
if(bsNumSaocDmxChannels > 0) {
bsNumSaocChannels; 6 uimsbf
bsNumSaocLFEs; 2 uimsbf
NumInputSignals += bsNumSaocChannels;
}
bsNumSaocObjects; 8 uimsbf
NumInputSignals += bsNumSaocObjects;
채널과 오브젝트 사이의 상호 상관을 제로로 한정시킴:
for(i=0; i<bsNumSaocChannels; i++) {
bsRelatedTo[i][i] = 1;
for(j=i+1; j< bsNumSaocChannels; j++) {
bsRelatedTo[i][j]; 1 uimsbf
bsRelatedTo[j][i] = bsRelatedTo[i][j];
}
}
for(i=bsNumSaocChannels;
i<NumInputSignals; i++) {
for(j=0; j<bsNumSaocChannels; j++) {
bsRelatedTo[i][j] = 0;
bsRelatedTo[j][i] = 0;
}
}
for(i=bsNumSaocChannels;
i<NumInputSignals; i++) {
bsRelatedTo[i][i] = 1;
for(j=i+1; j<NumInputSignals; j++) {
bsRelatedTo[i][j]; 1 uimsbf
bsRelatedTo[j][i] = bsRelatedTo[i][j];
}
}
오디오 채널 및 오디오 오브젝트가 다른 오디오 전송 채널 내에 믹싱되는 경우 및 이들이 오디오 전송 채널 내에서 함께 믹싱되는 경우에 대하여 다운믹싱 이득을 다르게 읽음:
if(bsNumSaocDmxObjects==0) {
for(i=0; i< bsNumSaocDmxChannels; i++) {
idxDMG[i] = EcDataSaoc(DMG, 0, NumInputSignals);
}
} else {
dmgIdx = 0;
for(i=0; i<bsNumSaocDmxChannels; i++) {
idxDMG[i] = EcDataSaoc(DMG, 0, bsNumSaocChannels);
}
dmgIdx = bsNumSaocDmxChannels;
if(bsSaocDmxMethod == 0) {
for(i=dmgIdx; i<dmgIdx + bsNumSaocDmxObjects; i++) {
idxDMG[i] = EcDataSaoc(DMG, 0, bsNumSaocObjects);
}
}
if(bsSaocDmxMethod == 1) {
for(i= dmgIdx; i<dmgIdx + bsNumSaocDmxObjects; i++) {
idxDMG[i] = EcDataSaoc(DMG, 0, bsNumPremixedChannels);
}
}
}
만일 비트스트림 변수 bsNumSaocChannels가 제로가 아니라면 첫 번째 bsNumSaocChannels 개의 입력 신호가 채널 기초 신호와 유사하게 처리된다. 만일 비트스트림 변수 bsNumSaocObjects가 제로가 아니라면 마지막 bsNumSaocObjects 개의 입력 신호 오브젝트 신호와 유사하게 처리된다. 그러므로 양자 모두의 비트스트림 변수가 제로가 아닌 경우에는, 오디오 전송 채널 내의 채널 및 오브젝트의 존재가 시그널링된다.
만일 비트스트림 변수 bsNumSaocDmxObjects가 제로이면 결합 디코딩 모드가 비트스트림 내에 시그널링되고, 디코더는 bsNumSaocDmxChannels 개의 전송 채널을 전체 다운믹스 행렬 D를 사용하여 처리할 것이다(이것은 채널 신호 및 오브젝트 신호가 함께 믹싱된다는 것을 의미함).
만일 비트스트림 변수 bsNumSaocDmxObjects가 제로가 아니면 독립 디코딩 모드가 시그널링되고, 디코더는 bsNumSaocDmxChannels + bsNumSaocDmxObjects 개의 전송 채널을 위에서 설명된 바와 같이 블록-단위 다운믹스 행렬을 사용하여 처리할 것이다.
후속하는 설명에서, 일 실시예에 따르는 다운믹스 처리의 양태들이 설명된다:
다운믹스 프로세서의 출력 신호(하이브리드 QMF 도메인에서 표현됨)는 ISO/IEC 23003-1:2007 에 기술되는 바와 같은 대응하는 합성 필터뱅크 내로 공급되어, SAOC 3D 디코더의 최종 출력을 제공한다.
도 1 의 파라미터 프로세서(110) 및 도 1 의 다운믹스 프로세서(120)는 통합 처리 유닛으로서 구현될 수도 있다. 이러한 통합 처리 유닛이 도 1 에 도시되는데, 여기에서 유닛 U 및 R은 믹싱 정보를 제공함으로써 파라미터 프로세서(110)를 구현한다.
출력 신호
Figure pct00048
은 다음과 같이 멀티-채널 다운믹스 신호
Figure pct00049
및 역상관된 멀티-채널 신호
Figure pct00050
로부터 계산된다:
Figure pct00051
여기에서
Figure pct00052
는 파라메트릭 언믹싱 행렬을 나타낸다.
믹싱 행렬
Figure pct00053
는 믹싱 행렬이다.
역상관된 멀티-채널 신호
Figure pct00054
는 다음과 같이 정의된다
Figure pct00055
.
디코딩 모드는 비트스트림 엘리먼트 bsNumSaocDmxObjects에 의하여 제어된다:
bsNumSaocDmxObjects 디코딩 모드 의미
0 결합형 입력 채널 기초 신호 및 입력 오브젝트 기초 신호는 채널 내로 함께 다운믹스된다.
>= 1 독립적 입력 채널 기초 신호가 채널 내로 다운믹스된다.
입력 오브젝트 기초 신호가 채널 내로 다운믹스된다.
결합형 디코딩 모드의 경우, 파라메트릭 언믹싱 행렬
Figure pct00056
는 다음과 같이 주어진다:
Figure pct00057
.
사이즈
Figure pct00058
의 행렬
Figure pct00059
Figure pct00060
에 의하여 주어지고,
Figure pct00061
이다.
독립 디코딩 모드의 경우에, 언믹싱 행렬
Figure pct00062
는 다음과 같이 주어진다:
Figure pct00063
,
여기에서
Figure pct00064
Figure pct00065
이다.
사이즈
Figure pct00066
의 채널 기초 공분산 행렬
Figure pct00067
및 사이즈
Figure pct00068
의 오브젝트 기초 공분산 행렬 가 대응하는 대각 블록들만을 선택함으로써 공분산 행렬
Figure pct00070
로부터 획득된다:
Figure pct00071
,
여기에서 행렬
Figure pct00072
는 입력 채널과 입력 오브젝트 사이의 교차-공분산 행렬이고, 계산될 필요가 없다.
사이즈
Figure pct00073
의 채널 기초 다운믹스 행렬
Figure pct00074
및 사이즈
Figure pct00075
의 오브젝트 기초 다운믹스 행렬
Figure pct00076
는 대응하는 대각 블록만을 선택함으로써 다운믹스 행렬
Figure pct00077
로부터 획득된다:
Figure pct00078
.
사이즈
Figure pct00079
의 행렬
Figure pct00080
가 다음에 대하여 행렬 J의 정의로부터 유도된다
Figure pct00081
.
사이즈
Figure pct00082
의 행렬
Figure pct00083
이 다음에 대하여 행렬 J의 정의로부터 유도된다
Figure pct00084
행렬
Figure pct00085
는 후속하는 수학식을 사용하여 계산된다:
Figure pct00086
.
여기에서 행렬
Figure pct00087
의 특이 벡터
Figure pct00088
는 후속하는 특성 방정식을 사용하여 획득된다
Figure pct00089
.
대각 특이값 행렬
Figure pct00090
의 정규화된 반전
Figure pct00091
은 다음과 같이 계산된다
Figure pct00092
,
상대적인 정규화 스칼라
Figure pct00093
는 절대 임계
Figure pct00094
Figure pct00095
의 최대값을 사용하여 다음과 같이 결정된다
Figure pct00096
.
후속하는 설명에서, 일 실시예에 따르는 렌더링 행렬이 설명된다:
입력 오디오 신호 S에 적용되는 렌더링 행렬 R는 타겟 렌더링된 출력을 Y= RS와 같이 결정한다. 사이즈 NoutxN 의 렌더링 행렬 R이 다음과 같이 주어진다
Figure pct00097
,
여기서 사이즈
Figure pct00098
Figure pct00099
은 입력 채널과 연관된 렌더링 행렬을 나타내고, 사이즈
Figure pct00100
Figure pct00101
은 입력 오브젝트와 연관된 렌더링 행렬을 나타낸다.
후속하는 설명에서, 일 실시예에 따르는 역상관된 멀티-채널 신호
Figure pct00102
가 설명된다:
역상관된 신호
Figure pct00103
는, 예를 들어 ISO/IEC 23003-1:2007 의 6.6.2 에서 설명된 바와 같은 역상관기로부터, bsDecorrConfig == 0 이고, 예를 들어, 역상관기 인덱스 X 인 상태로 생성된다. 그러므로, decorrFunc( )는, 예를 들어 다음과 같은 역상관 프로세스를 나타낸다:
Figure pct00104
.
비록 몇 가지 양태들이 장치의 콘텍스트에서 설명되었지만, 이러한 양태들이 대응하는 방법의 설명을 역시 나타낸다는 것이 명백한데, 여기에서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 이와 유사하게, 방법의 콘텍스트에서 설명된 양태들도 역시 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명을 역시 나타낸다.
본 발명에 의한 분해된 신호는 디지털 저장 매체에 저장될 수 있거나 무선 송신 매체 또는 인터넷과 같은 유선 송신 매체와 같은 송신 매체에서 송신될 수 있다.
특정한 구현형태의 요구 사항에 의존하여, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현형태는 저장된 전자적으로 판독가능한 제어 신호를 가지는 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있는데, 이것은 각각의 방법이 수행되도록 프로그래밍가능한 컴퓨터 시스템과 상호동작한다(또는 상호 동작할 수 있다).
본 발명에 따르는 몇 가지 실시예는 전자적으로 판독가능한 제어 신호를 가지는 비-일시적 데이터 캐리어를 포함하는데, 이것은 프로그래밍가능한 컴퓨터 시스템과 함께 상호 동작하여 본 명세서에서 설명되는 방법들 중 하나가 수행되게 할 수 있다.
일반적으로, 본 발명의 실시예들은 프로그램 코드가 있는 컴퓨터 프로그램 제품으로서 구현될 수 있는데, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때에 방법들 중 하나를 수행하기 위하여 동작가능하다. 프로그램 코드는, 예를 들어 머신 판독가능 캐리어에 저장될 수도 있다.
다른 실시예들은 본 명세서에서 설명되는 방법들 중 하나를 수행하기 위하여 머신 판독가능 캐리어에 저장되는 컴퓨터 프로그램을 포함한다.
다르게 말하면, 그러므로, 본 발명의 방법의 일 실시예는 컴퓨터 프로그램이 컴퓨터에서 실행될 때에 본 명세서에서 설명되는 방법들 중 하나를 수행하기 위한 프로그램 코드를 가지는 컴퓨터 프로그램이다.
그러므로, 본 발명의 방법의 다른 실시예는 본 명세서에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 위에 기록되는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다.
그러므로, 본 발명의 방법의 다른 실시예는 본 명세서에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는, 예를 들어 데이터 통신 접속을 통하여, 예를 들어 인터넷을 통하여 전송되도록 구성될 수도 있다.
다른 실시예는, 본 명세서에서 설명되는 중 방법들 중 하나를 수행하도록 구성되거나 적응되는, 처리 수단, 예를 들어 컴퓨터, 또는 프로그래밍가능한 로직 디바이스를 포함한다.
다른 실시예는 본 명세서에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 그 위에 설치한 컴퓨터를 포함한다.
몇 가지 실시예들에서, 프로그래밍가능한 로직 디바이스(예를 들어 필드 프로그램가능 게이트 어레이)가 본 명세서에서 설명되는 방법의 기능성 중 일부 또는 전부를 수행하도록 사용될 수도 있다. 몇 가지 실시예들에서, 필드 프로그램가능 게이트 어레이는 본 명세서에서 설명되는 방법들 중 하나를 수행하기 위하여 마이크로프로세서와 함께 상호동작할 수도 있다. 일반적으로, 이러한 방법은 임의의 하드웨어 장치에 의하여 수행되는 것이 바람직하다.
위에서 설명된 실시예는 본 발명의 원리에 대한 예시일 뿐이다. 본 명세서에서 설명되는 배치구성 및 세부 사항의 변경 및 변형이 당업자에게는 명백하게 이해될 것이라는 것이 이해된다. 그러므로, 출원 중인 청구항의 범위에 의해서만 제한되고 본 명세서의 실시예를 기술하고 설명하는 것에 의하여 제시되는 구체적인 세부사항에 의해서 제한되는 것은 의도되지 않는다.
참조 문헌
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.
[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
[VBAP] Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning"; J. Audio Eng. Soc., Level 45, Issue 6, pp. 456-466, June 1997.
[M1] Peters, N., Lossius, T. and Schacher J. C., "SpatDIF: Principles, Specification, and Examples", 9th Sound and Music Computing Conference, Copenhagen, Denmark, Jul. 2012.
[M2] Wright, M., Freed, A., "Open Sound Control: A New Protocol for Communicating with Sound Synthesizers", International Computer Music Conference, Thessaloniki, Greece, 1997.
[M3] Matthias Geier, Jens Ahrens, and Sascha Spors. (2010), "Object-based audio reproduction and the audio scene description format", Org. Sound, Vol. 15, No. 3, pp. 219-227, December 2010.
[M4] W3C, "Synchronized Multimedia Integration Language (SMIL 3.0)", Dec. 2008.
[M5] W3C, "Extensible Markup Language (XML) 1.0 (Fifth Edition)", Nov. 2008.
[M6] MPEG, "ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio", 2009.
[M7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116th AES Convention, Berlin, Germany, May 2004.
[M8] Web3D, "International Standard ISO/IEC 14772-1:1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997.
[M9] Sporer, T. (2012), "Codierung raeumlicher Audiosignale mit leichtgewichtigen Audio-Objekten", Proc. Annual Meeting of the German Audiological Society (DGA), Erlangen, Germany, Mar. 2012.

Claims (19)

  1. 하나 이상의 오디오 출력 채널을 생성하는 장치로서,
    믹싱 정보를 계산하기 위한 파라미터 프로세서(110), 및
    하나 이상의 오디오 출력 채널을 생성하기 위한 다운믹스 프로세서(120)를 포함하고,
    상기 다운믹스 프로세서(120)는 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 수신하도록 구성되고, 하나 이상의 오디오 채널 신호가 상기 오디오 전송 신호 내에 믹싱되며, 하나 이상의 오디오 오브젝트 신호가 상기 오디오 전송 신호 내에 믹싱되고, 상기 하나 이상의 오디오 전송 채널의 개수는 상기 하나 이상의 오디오 채널 신호의 개수 더하기 상기 하나 이상의 오디오 오브젝트 신호의 개수보다 더 적으며,
    상기 파라미터 프로세서(110)는 상기 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호가 상기 하나 이상의 오디오 전송 채널 내에 어떻게 믹싱되는지에 대한 정보를 표시하는 다운믹스 정보를 수신하도록 구성되고, 상기 파라미터 프로세서(110)는 공분산 정보를 수신하도록 구성되며,
    상기 파라미터 프로세서(110)는 상기 다운믹스 정보에 따라서 그리고 상기 공분산 정보에 따라서 상기 믹싱 정보를 계산하도록 구성되고,
    상기 다운믹스 프로세서(120)는 상기 믹싱 정보에 따라서 상기 하나 이상의 오디오 출력 채널을 상기 오디오 전송 신호로부터 생성하도록 구성되며,
    상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 적어도 하나에 대한 레벨차 정보를 표시하고, 상기 하나 이상의 오디오 오브젝트 신호 중 적어도 하나에 대한 레벨차 정보를 더 표시하며, 그리고
    상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 하나와 상기 하나 이상의 오디오 오브젝트 신호 중 하나의 임의의 쌍에 대한 상관 정보를 표시하지 않는, 하나 이상의 오디오 출력 채널을 생성하는 장치.
  2. 제 1 항에 있어서,
    상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호의 각각에 대한 레벨차 정보를 표시하고, 상기 하나 이상의 오디오 오브젝트 신호의 각각에 대한 레벨차 정보를 더 표시하는, 하나 이상의 오디오 출력 채널을 생성하는 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    두 개 이상의 오디오 오브젝트 신호가 상기 오디오 전송 신호 내에 믹싱되고, 두 개 이상의 오디오 채널 신호가 상기 오디오 전송 신호 내에 믹싱되며,
    상기 공분산 정보는 상기 두 개 이상의 오디오 채널 신호 중 제 1 오디오 채널 신호와 상기 두 개 이상의 오디오 채널 신호 중 제 2 오디오 채널 신호의 하나 이상의 쌍에 대한 상관 정보를 표시하거나,
    상기 공분산 정보는 상기 두 개 이상의 오디오 오브젝트 신호 중 제 1 오디오 오브젝트 신호와 상기 두 개 이상의 오디오 오브젝트 신호 중 제 2 오디오 오브젝트 신호의 하나 이상의 쌍에 대한 상관 정보를 표시하거나,
    상기 공분산 정보는 상기 두 개 이상의 오디오 채널 신호 중 제 1 오디오 채널 신호와 상기 두 개 이상의 오디오 채널 신호 중 제 2 오디오 채널 신호의 하나 이상의 쌍에 대한 상관 정보를 표시하고, 상기 두 개 이상의 오디오 오브젝트 신호 중 제 1 오디오 오브젝트 신호와 상기 두 개 이상의 오디오 오브젝트 신호 중 제 2 오디오 오브젝트 신호의 하나 이상의 쌍에 대한 상관 정보를 표시하는, 하나 이상의 오디오 출력 채널을 생성하는 장치.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 공분산 정보는 사이즈 N x N의 공분산 행렬
    Figure pct00105
    의 복수 개의 공분산 계수를 포함하고, N은 하나 이상의 오디오 채널 신호의 개수 더하기 하나 이상의 오디오 오브젝트 신호의 개수를 포함하며,
    다운믹스 행렬
    Figure pct00106
    는 수학식
    Figure pct00107

    에 따라 정의되고,
    Figure pct00108
    는 사이즈 N channels x N channels 의 제 1 공분산 부분 행렬의 계수를 나타내며, N channels 은 하나 이상의 오디오 채널 신호의 개수를 나타내고,
    Figure pct00109
    는 사이즈 N objects x N objects 의 제 2 공분산 부분 행렬의 계수를 나타내며 N objects 는 하나 이상의 오디오 오브젝트 신호의 개수를 나타내고,
    Figure pct00110
    는 영행렬을 나타내며,
    상기 파라미터 프로세서(110)는 상기 다운믹스 행렬
    Figure pct00111
    의 복수 개의 다운믹스 계수를 수신하도록 구성되고, 그리고
    상기 파라미터 프로세서(110)는, 상기 파라미터 프로세서(110)에 의하여 수신되지 않는 상기 다운믹스 행렬
    Figure pct00112
    의 모든 계수를 0 으로 설정하도록 구성되는, 하나 이상의 오디오 출력 채널을 생성하는 장치.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 하나 이상의 오디오 채널 신호는 하나 이상의 오디오 전송 채널의 제 1 그룹 내에 믹싱되고, 상기 하나 이상의 오디오 오브젝트 신호는 하나 이상의 오디오 전송 채널의 제 2 그룹 내에 믹싱되며, 상기 제 1 그룹의 각각의 오디오 전송 채널은 상기 제 2 그룹에 포함되지 않고, 상기 제 2 그룹의 각각의 오디오 전송 채널은 상기 제 1 그룹에 포함되지 않으며,
    상기 다운믹스 정보는 상기 하나 이상의 오디오 채널 신호가 상기 하나 이상의 오디오 전송 채널의 제 1 그룹 내에 어떻게 믹싱되는지에 대한 정보를 표시하는 제 1 다운믹스 부정보를 포함하고, 상기 다운믹스 정보는 상기 하나 이상의 오디오 오브젝트 신호가 상기 하나 이상의 오디오 전송 채널의 제 2 그룹 내에 어떻게 믹싱되는지에 대한 정보를 표시하는 제 2 다운믹스 부정보를 포함하며,
    상기 파라미터 프로세서(110)는 상기 제 1 다운믹스 부정보에 따라서, 상기 제 2 다운믹스 부정보에 따라서, 그리고 상기 공분산 정보에 따라서 상기 믹싱 정보를 계산하도록 구성되고, 그리고
    상기 다운믹스 프로세서(120)는 상기 믹싱 정보에 따라서 하나 이상의 오디오 전송 채널의 상기 제 1 그룹으로부터 그리고 오디오 전송 채널의 상기 제 2 그룹으로부터 상기 하나 이상의 오디오 출력 신호를 생성하도록 구성되는, 하나 이상의 오디오 출력 채널을 생성하는 장치.
  6. 제 5 항에 있어서,
    상기 다운믹스 정보는 사이즈 N DmxCh x N의 다운믹스 행렬
    Figure pct00113
    의 복수 개의 다운믹스 계수를 포함하고, N DmxCh 는 상기 하나 이상의 오디오 전송 채널의 개수를 나타내며, N은 상기 하나 이상의 오디오 채널 신호의 개수 더하기 상기 하나 이상의 오디오 오브젝트 신호의 개수를 나타내고,
    상기 다운믹스 행렬
    Figure pct00114
    는 수학식
    Figure pct00115

    에 따라 정의되며,
    Figure pct00116
    는 사이즈
    Figure pct00117
    x N channels 의 제 1 다운믹스 부분 행렬의 계수를 나타내고,
    Figure pct00118
    는 상기 하나 이상의 오디오 전송 채널의 상기 제 1 그룹의 상기 하나 이상의 오디오 전송 채널의 개수를 나타내며, N channels 은 상기 하나 이상의 오디오 채널 신호의 개수를 나타내고,
    Figure pct00119
    는 사이즈
    Figure pct00120
    x N objects 의 제 2 다운믹스 부분 행렬의 계수를 나타내고,
    Figure pct00121
    는 상기 하나 이상의 오디오 전송 채널의 상기 제 2 그룹의 하나 이상의 오디오 전송 채널의 개수를 나타내고, N objects 는 상기 하나 이상의 오디오 채널 신호의 개수를 나타내며,
    Figure pct00122
    는 영행렬을 나타내고,
    상기 파라미터 프로세서(110)는 상기 다운믹스 행렬
    Figure pct00123
    의 복수 개의 다운믹스 계수를 수신하도록 구성되며, 그리고
    상기 파라미터 프로세서(110)는 상기 파라미터 프로세서(110)에 의하여 수신되지 않는 상기 다운믹스 행렬
    Figure pct00124
    의 모든 계수를 0 으로 설정하도록 구성되는, 하나 이상의 오디오 출력 채널을 생성하는 장치.
  7. 제 5 항 또는 제 6 항에 있어서,
    상기 다운믹스 프로세서(120)는 상기 오디오 전송 신호의 오디오 전송 채널을 포함하는 데이터 스트림을 수신하도록 구성되고,
    상기 다운믹스 프로세서(120)는 상기 하나 이상의 오디오 전송 채널의 상기 제 1 그룹의 상기 오디오 전송 채널의 개수를 표시하는 제 1 채널 카운트수를 수신하도록 구성되며,
    상기 다운믹스 프로세서(120)는 상기 하나 이상의 오디오 전송 채널의 상기 제 2 그룹의 상기 오디오 전송 채널의 개수를 표시하는 제 2 채널 카운트수를 수신하도록 구성되고,
    상기 다운믹스 프로세서(120)는 상기 제 1 채널 카운트수에 따라서 또는 상기 제 2 채널 카운트수에 따라서, 또는 상기 제 1 채널 카운트수 및 제 2 채널 카운트수에 따라서, 상기 데이터 스트림 내의 상기 오디오 전송 채널이 상기 제 1 그룹에 속하는지 또는 상기 제 2 그룹에 속하는지 여부를 식별하도록 구성되는, 하나 이상의 오디오 출력 채널을 생성하는 장치.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 파라미터 프로세서(110)는 상기 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호가 상기 하나 이상의 오디오 출력 채널 내에 어떻게 믹싱되는지에 대한 정보를 표시하는 렌더링 정보를 수신하도록 구성되고,
    상기 파라미터 프로세서(110)는 상기 다운믹스 정보에 따라서, 상기 공분산 정보에 따라서, 그리고 상기 렌더링 정보에 따라서 상기 믹싱 정보를 계산하도록 구성되는, 하나 이상의 오디오 출력 채널을 생성하는 장치.
  9. 제 8 항에 있어서,
    상기 파라미터 프로세서(110)는 상기 렌더링 정보로서 렌더링 행렬 R의 복수 개의 계수를 수신하도록 구성되고, 그리고
    상기 파라미터 프로세서(110)는 상기 다운믹스 정보에 따라서, 상기 공분산 정보에 따라서 그리고 상기 렌더링 행렬 R에 따라서 상기 믹싱 정보를 계산하도록 구성되는, 하나 이상의 오디오 출력 채널을 생성하는 장치.
  10. 제 8 항에 있어서,
    상기 파라미터 프로세서(110)는 상기 렌더링 정보로서 메타데이터 정보를 수신하도록 구성되고, 상기 메타데이터 정보는 위치 정보를 포함하며,
    상기 위치 정보는 상기 하나 이상의 오디오 오브젝트 신호의 각각에 대한 위치를 표시하고,
    상기 위치 정보는 상기 하나 이상의 오디오 채널 신호 중 임의의 것에 대한 위치를 표시하지 않으며,
    상기 파라미터 프로세서(110)는 상기 다운믹스 정보에 따라서, 상기 공분산 정보에 따라서, 그리고 상기 위치 정보에 따라서 상기 믹싱 정보를 계산하도록 구성되는, 하나 이상의 오디오 출력 채널을 생성하는 장치.
  11. 제 10 항에 있어서,
    상기 메타데이터 정보는 이득 정보를 더 포함하고,
    상기 이득 정보는 상기 하나 이상의 오디오 오브젝트 신호의 각각에 대한 이득값을 표시하며,
    상기 이득 정보는 상기 하나 이상의 오디오 채널 신호 중 임의의 것에 대한 이득값을 표시하지 않고,
    상기 파라미터 프로세서(110)는 상기 다운믹스 정보에 따라서, 상기 공분산 정보에 따라서, 상기 위치 정보에 따라서, 그리고 상기 이득 정보에 따라서 상기 믹싱 정보를 계산하도록 구성되는, 하나 이상의 오디오 출력 채널을 생성하는 장치.
  12. 제 10 항 또는 제 11 항에 있어서,
    상기 파라미터 프로세서(110)는 상기 믹싱 정보로서 믹싱 행렬 S를 계산하도록 구성되고, 상기 믹싱 행렬 S는 수학식
    S = RG,
    에 따라서 정의되고, G는 상기 다운믹스 정보에 따르는 그리고 상기 공분산 정보에 따르는 디코딩 행렬이며,
    R은 상기 메타데이터 정보에 따르는 렌더링 행렬이고,
    상기 다운믹스 프로세서(120)는 수학식
    Z = SY,
    을 적용함으로써 상기 오디오 출력 신호의 상기 하나 이상의 오디오 출력 채널을 생성하도록 구성되며, Z는 상기 오디오 출력 신호이고, 그리고 Y는 상기 오디오 전송 신호인, 하나 이상의 오디오 출력 채널을 생성하는 장치.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
    두 개 이상의 오디오 오브젝트 신호가 상기 오디오 전송 신호 내에 믹싱되고, 두 개 이상의 오디오 채널 신호가 상기 오디오 전송 신호 내에 믹싱되며,
    상기 공분산 정보는 상기 두 개 이상의 오디오 채널 신호 중 제 1 오디오 채널 신호 및 상기 두 개 이상의 오디오 채널 신호 중 제 2 오디오 채널 신호의 하나 이상의 쌍에 대한 상관 정보를 표시하고,
    상기 공분산 정보는 상기 하나 이상의 오디오 오브젝트 신호 중 제 1 오디오 오브젝트 신호와 상기 하나 이상의 오디오 오브젝트 신호 중 제 2 오디오 오브젝트 신호의 임의의 쌍에 대한 상관 정보를 표시하지 않으며, 그리고
    상기 파라미터 프로세서(110)는 상기 다운믹스 정보에 따라서, 상기 하나 이상의 오디오 채널 신호의 각각의 레벨차 정보에 따라서, 상기 하나 이상의 오디오 오브젝트 신호의 각각의 제 2 레벨차 정보에 따라서, 그리고 상기 두 개 이상의 오디오 채널 신호 중 제 1 오디오 채널 신호 및 상기 두 개 이상의 오디오 채널 신호 중 제 2 오디오 채널 신호의 상기 하나 이상의 쌍의 상기 상관 정보에 따라서 상기 믹싱 정보를 계산하도록 구성되는, 하나 이상의 오디오 출력 채널을 생성하는 장치.
  14. 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 생성하는 장치로서,
    상기 하나 이상의 오디오 전송 신호의 오디오 전송 채널을 생성하기 위한 채널/오브젝트 믹서(210), 및
    출력 인터페이스(220)를 포함하고,
    상기 채널/오브젝트 믹서(210)는, 상기 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호가 상기 하나 이상의 오디오 전송 채널 내에 어떻게 믹싱되어야 하는지에 대한 정보를 표시하는 다운믹스 정보에 따라서, 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호를 상기 오디오 전송 신호 내에 믹싱함으로써 상기 하나 이상의 오디오 전송 채널을 포함하는 상기 오디오 전송 신호를 생성하도록 구성되며, 상기 하나 이상의 오디오 전송 채널의 개수는 상기 하나 이상의 오디오 채널 신호의 개수 더하기 상기 하나 이상의 오디오 오브젝트 신호의 개수보다 더 작고,
    상기 출력 인터페이스(220)는 상기 오디오 전송 신호, 상기 다운믹스 정보 및 상기 공분산 정보를 출력하도록 구성되며,
    상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 적어도 하나에 대한 레벨차 정보를 표시하고, 상기 하나 이상의 오디오 오브젝트 신호 중 적어도 하나에 대한 레벨차 정보를 더 표시하며, 그리고
    상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 하나와 상기 하나 이상의 오디오 오브젝트 신호 중 하나의 임의의 쌍에 대한 상관 정보를 표시하지 않는, 오디오 전송 신호를 생성하는 장치.
  15. 제 14 항에 있어서,
    상기 채널/오브젝트 믹서(210)는, 상기 오디오 전송 신호의 상기 하나 이상의 오디오 전송 채널의 개수가, 얼마나 많은 비트레이트가 상기 오디오 전송 신호를 송신하기 위하여 이용가능한지에 의존하도록, 상기 오디오 전송 신호를 생성하도록 구성되는, 오디오 전송 신호를 생성하는 장치.
  16. 시스템으로서,
    오디오 전송 신호를 생성하기 위한, 제 14 항 또는 제 15 항에 따르는 장치(310); 및
    하나 이상의 오디오 출력 채널을 생성하기 위한, 제 1 항 내지 제 13 항 중 어느 한 항에 따르는 장치(320)를 포함하고,
    상기 제 1 항 내지 제 13 항 중 어느 한 항에 따르는 장치(320)는 제 14 항 또는 제 15 항에 따르는 장치(310)로부터 상기 오디오 전송 신호, 다운믹스 정보 및 공분산 정보를 수신하도록 구성되며, 그리고
    상기 제 1 항 내지 제 13 항 중 어느 한 항에 따르는 장치(320)는 상기 다운믹스 정보에 따라서 그리고 상기 공분산 정보에 따라서, 상기 오디오 전송 신호로부터 상기 하나 이상의 오디오 출력 채널을 생성하도록 구성되는, 시스템.
  17. 하나 이상의 오디오 출력 채널을 생성하는 방법으로서,
    하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 수신하는 단계로서, 하나 이상의 오디오 채널 신호가 상기 오디오 전송 신호 내에 믹싱되며, 하나 이상의 오디오 오브젝트 신호가 상기 오디오 전송 신호 내에 믹싱되고, 상기 하나 이상의 오디오 전송 채널의 개수는 상기 하나 이상의 오디오 채널 신호의 개수 더하기 상기 하나 이상의 오디오 오브젝트 신호의 개수보다 더 적은, 단계;
    상기 파라미터 프로세서는 상기 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호가 상기 하나 이상의 오디오 전송 채널 내에 어떻게 믹싱되는지에 대한 정보를 표시하는 다운믹스 정보를 수신하는 단계;
    공분산 정보를 수신하는 단계;
    상기 다운믹스 정보에 따라서 그리고 상기 공분산 정보에 따라서 상기 믹싱 정보를 계산하는 단계; 및
    상기 믹싱 정보에 따라서 상기 하나 이상의 오디오 출력 채널을 상기 오디오 전송 신호로부터 생성하는 단계를 포함하고,
    상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 적어도 하나에 대한 레벨차 정보를 표시하고, 상기 하나 이상의 오디오 오브젝트 신호 중 적어도 하나에 대한 레벨차 정보를 더 표시하며, 그리고
    상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 하나와 상기 하나 이상의 오디오 오브젝트 신호 중 하나의 임의의 쌍에 대한 상관 정보를 표시하지 않는, 하나 이상의 오디오 출력 채널을 생성하는 방법.
  18. 하나 이상의 오디오 전송 채널을 포함하는 오디오 전송 신호를 생성하는 방법으로서,
    상기 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호가 상기 하나 이상의 오디오 전송 채널 내에 어떻게 믹싱되어야 하는지에 대한 정보를 표시하는 다운믹스 정보에 따라서, 하나 이상의 오디오 채널 신호 및 상기 하나 이상의 오디오 오브젝트 신호를 상기 오디오 전송 신호 내에 믹싱함으로써 상기 하나 이상의 오디오 전송 채널을 포함하는 상기 오디오 전송 신호를 생성하는 단계로서, 상기 하나 이상의 오디오 전송 채널의 개수는 상기 하나 이상의 오디오 채널 신호의 개수 더하기 상기 하나 이상의 오디오 오브젝트 신호의 개수보다 더 작은 단계; 및
    상기 오디오 전송 신호, 상기 다운믹스 정보 및 상기 공분산 정보를 출력하는 단계를 포함하고,
    상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 적어도 하나에 대한 레벨차 정보를 표시하고, 상기 하나 이상의 오디오 오브젝트 신호 중 적어도 하나에 대한 레벨차 정보를 더 표시하며, 그리고
    상기 공분산 정보는 상기 하나 이상의 오디오 채널 신호 중 하나와 상기 하나 이상의 오디오 오브젝트 신호 중 하나의 임의의 쌍에 대한 상관 정보를 표시하지 않는, 오디오 전송 신호를 생성하는 방법.
  19. 컴퓨터 또는 신호 프로세서에서 실행될 때에 제 17 항 또는 제 18 항의 방법을 구현하기 위한 컴퓨터 프로그램.
KR1020167003120A 2013-07-22 2014-07-17 향상된 공간적 오디오 오브젝트 코딩을 위한 장치 및 방법 KR101852951B1 (ko)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
EP20130177378 EP2830045A1 (en) 2013-07-22 2013-07-22 Concept for audio encoding and decoding for audio channels and audio objects
EPEP13177371 2013-07-22
EPEP13177378 2013-07-22
EPEP13177357 2013-07-22
EP13177357 2013-07-22
EP13177371 2013-07-22
EPEP13189290 2013-10-18
EP13189290.3A EP2830050A1 (en) 2013-07-22 2013-10-18 Apparatus and method for enhanced spatial audio object coding
PCT/EP2014/065427 WO2015011024A1 (en) 2013-07-22 2014-07-17 Apparatus and method for enhanced spatial audio object coding

Publications (2)

Publication Number Publication Date
KR20160053910A true KR20160053910A (ko) 2016-05-13
KR101852951B1 KR101852951B1 (ko) 2018-06-04

Family

ID=49385153

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167004312A KR101774796B1 (ko) 2013-07-22 2014-07-16 3차원 오디오 콘텐츠의 공간 오디오 오브젝트 코딩 다운믹스의 실현을 위한 장치 및 방법
KR1020167003120A KR101852951B1 (ko) 2013-07-22 2014-07-17 향상된 공간적 오디오 오브젝트 코딩을 위한 장치 및 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020167004312A KR101774796B1 (ko) 2013-07-22 2014-07-16 3차원 오디오 콘텐츠의 공간 오디오 오브젝트 코딩 다운믹스의 실현을 위한 장치 및 방법

Country Status (19)

Country Link
US (4) US9578435B2 (ko)
EP (4) EP2830050A1 (ko)
JP (3) JP6395827B2 (ko)
KR (2) KR101774796B1 (ko)
CN (3) CN105593929B (ko)
AU (2) AU2014295270B2 (ko)
BR (2) BR112016001244B1 (ko)
CA (2) CA2918529C (ko)
ES (2) ES2768431T3 (ko)
HK (1) HK1225505A1 (ko)
MX (2) MX355589B (ko)
MY (2) MY176990A (ko)
PL (2) PL3025333T3 (ko)
PT (1) PT3025333T (ko)
RU (2) RU2666239C2 (ko)
SG (2) SG11201600460UA (ko)
TW (2) TWI560700B (ko)
WO (2) WO2015010999A1 (ko)
ZA (1) ZA201600984B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017209477A1 (ko) * 2016-05-31 2017-12-07 지오디오랩 인코포레이티드 오디오 신호 처리 방법 및 장치
US11074921B2 (en) 2017-03-28 2021-07-27 Sony Corporation Information processing device and information processing method

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX370034B (es) 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
BR112017002758B1 (pt) * 2015-06-17 2022-12-20 Sony Corporation Dispositivo e método de transmissão, e, dispositivo e método de recepção
US10349196B2 (en) * 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
US10535355B2 (en) 2016-11-18 2020-01-14 Microsoft Technology Licensing, Llc Frame coding for spatial audio data
CN108182947B (zh) * 2016-12-08 2020-12-15 武汉斗鱼网络科技有限公司 一种声道混合处理方法及装置
CN109688497B (zh) * 2017-10-18 2021-10-01 宏达国际电子股份有限公司 声音播放装置、方法及非暂态存储介质
GB2574239A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
US10620904B2 (en) 2018-09-12 2020-04-14 At&T Intellectual Property I, L.P. Network broadcasting for selective presentation of audio content
WO2020067057A1 (ja) 2018-09-28 2020-04-02 株式会社フジミインコーポレーテッド 酸化ガリウム基板研磨用組成物
GB2577885A (en) 2018-10-08 2020-04-15 Nokia Technologies Oy Spatial audio augmentation and reproduction
GB2582748A (en) * 2019-03-27 2020-10-07 Nokia Technologies Oy Sound field related rendering
US11622219B2 (en) * 2019-07-24 2023-04-04 Nokia Technologies Oy Apparatus, a method and a computer program for delivering audio scene entities
US11972767B2 (en) 2019-08-01 2024-04-30 Dolby Laboratories Licensing Corporation Systems and methods for covariance smoothing
GB2587614A (en) * 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding
EP4120250A4 (en) * 2020-03-09 2024-03-27 Nippon Telegraph & Telephone SOUND SIGNAL REDUCING MIXING METHOD, SOUND SIGNAL CODING METHOD, SOUND SIGNAL REDUCING MIXING DEVICE, SOUND SIGNAL CODING DEVICE, PROGRAM AND RECORDING MEDIUM
GB2595475A (en) * 2020-05-27 2021-12-01 Nokia Technologies Oy Spatial audio representation and rendering
KR102508815B1 (ko) 2020-11-24 2023-03-14 네이버 주식회사 오디오와 관련하여 사용자 맞춤형 현장감 실현을 위한 컴퓨터 시스템 및 그의 방법
US11930348B2 (en) * 2020-11-24 2024-03-12 Naver Corporation Computer system for realizing customized being-there in association with audio and method thereof
JP2022083445A (ja) 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
WO2023131398A1 (en) * 2022-01-04 2023-07-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for implementing versatile audio object rendering

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090326958A1 (en) * 2007-02-14 2009-12-31 Lg Electronics Inc. Methods and Apparatuses for Encoding and Decoding Object-Based Audio Signals
US20100121647A1 (en) * 2007-03-30 2010-05-13 Seung-Kwon Beack Apparatus and method for coding and decoding multi object audio signal with multi channel
KR20110002489A (ko) * 2006-11-24 2011-01-07 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치

Family Cites Families (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2605361A (en) 1950-06-29 1952-07-29 Bell Telephone Labor Inc Differential quantization of communication signals
JP3576936B2 (ja) 2000-07-21 2004-10-13 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
SE0402651D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
RU2411594C2 (ru) * 2005-03-30 2011-02-10 Конинклейке Филипс Электроникс Н.В. Кодирование и декодирование аудио
CN101151658B (zh) 2005-03-30 2011-07-06 皇家飞利浦电子股份有限公司 多声道音频编码和解码方法、编码器和解码器
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
CN101310328A (zh) * 2005-10-13 2008-11-19 Lg电子株式会社 用于处理信号的方法和装置
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN101410891A (zh) * 2006-02-03 2009-04-15 韩国电子通信研究院 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置
EP1989920B1 (en) 2006-02-21 2010-01-20 Koninklijke Philips Electronics N.V. Audio encoding and decoding
EP2005787B1 (en) * 2006-04-03 2012-01-25 Srs Labs, Inc. Audio signal processing
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
WO2008002098A1 (en) 2006-06-29 2008-01-03 Lg Electronics, Inc. Method and apparatus for an audio signal processing
ES2623226T3 (es) 2006-07-04 2017-07-10 Dolby International Ab Unidad de filtro y procedimiento de generación de respuestas al impulso de filtro de subbanda
CN101617360B (zh) * 2006-09-29 2012-08-22 韩国电子通信研究院 用于编码和解码具有各种声道的多对象音频信号的设备和方法
EP2071564A4 (en) * 2006-09-29 2009-09-02 Lg Electronics Inc METHOD AND DEVICES FOR CODING AND DECODING OBJECT-BASED AUDIO SIGNALS
MY145497A (en) * 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
EP2122613B1 (en) * 2006-12-07 2019-01-30 LG Electronics Inc. A method and an apparatus for processing an audio signal
EP2595152A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Transkoding apparatus
CN101542596B (zh) * 2007-02-14 2016-05-18 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
RU2406166C2 (ru) 2007-02-14 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
KR20080082917A (ko) * 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
US8463413B2 (en) 2007-03-09 2013-06-11 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2008114984A1 (en) 2007-03-16 2008-09-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US7991622B2 (en) 2007-03-20 2011-08-02 Microsoft Corporation Audio compression and decompression using integer-reversible modulated lapped transforms
AU2008243406B2 (en) * 2007-04-26 2011-08-25 Dolby International Ab Apparatus and method for synthesizing an output signal
PT2165328T (pt) 2007-06-11 2018-04-24 Fraunhofer Ges Forschung Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
BRPI0816557B1 (pt) 2007-10-17 2020-02-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Codificação de áudio usando upmix
US8527282B2 (en) 2007-11-21 2013-09-03 Lg Electronics Inc. Method and an apparatus for processing a signal
KR100998913B1 (ko) 2008-01-23 2010-12-08 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
KR101061129B1 (ko) 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
ES2592416T3 (es) 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2194527A3 (en) 2008-12-02 2013-09-25 Electronics and Telecommunications Research Institute Apparatus for generating and playing object based audio contents
KR20100065121A (ko) * 2008-12-05 2010-06-15 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
WO2010085083A2 (en) * 2009-01-20 2010-07-29 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8139773B2 (en) * 2009-01-28 2012-03-20 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
WO2010090019A1 (ja) * 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
MX2011009660A (es) 2009-03-17 2011-09-30 Dolby Int Ab Codificacion estereo avanzada basada en una combinacion de codificacion izquierda/derecha o media/lateral seleccionable de manera adaptable y de codificacion estereo parametrica.
WO2010105695A1 (en) 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
CN102449689B (zh) 2009-06-03 2014-08-06 日本电信电话株式会社 编码方法、编码装置、编码程序、以及它们的记录介质
TWI404050B (zh) 2009-06-08 2013-08-01 Mstar Semiconductor Inc 多聲道音頻信號解碼方法與裝置
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101283783B1 (ko) 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
WO2011013381A1 (ja) 2009-07-31 2011-02-03 パナソニック株式会社 符号化装置および復号装置
KR101842411B1 (ko) * 2009-08-14 2018-03-26 디티에스 엘엘씨 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템
BR112012007138B1 (pt) 2009-09-29 2021-11-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de sinal de áudio, codificador de sinal de áudio, método para prover uma representação de mescla ascendente de sinal, método para prover uma representação de mescla descendente de sinal e fluxo de bits usando um valor de parâmetro comum de correlação intra- objetos
MX2012004621A (es) * 2009-10-20 2012-05-08 Fraunhofer Ges Forschung Aparato para proporcionar una representacion de una señal de conversion ascendente sobre la base de una representacion de una señal de conversion descendente, aparato para proporcionar una corriente de bits que representa una señal de audio de canales multiples, metodos, programa de computacion y corriente de bits que utiliza una señalizacion de control de distorsion.
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
KR101490725B1 (ko) 2010-03-23 2015-02-06 돌비 레버러토리즈 라이쎈싱 코오포레이션 비디오 디스플레이 장치, 오디오-비디오 시스템, 음향 재생을 위한 방법 및 로컬라이즈된 지각적 오디오를 위한 음향 재생 시스템
US8675748B2 (en) 2010-05-25 2014-03-18 CSR Technology, Inc. Systems and methods for intra communication system information transfer
US8755432B2 (en) 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
TWI800092B (zh) 2010-12-03 2023-04-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
AR084091A1 (es) * 2010-12-03 2013-04-17 Fraunhofer Ges Forschung Adquisicion de sonido mediante la extraccion de informacion geometrica de estimativos de direccion de llegada
US9165558B2 (en) 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
KR102374897B1 (ko) 2011-03-16 2022-03-17 디티에스, 인코포레이티드 3차원 오디오 사운드트랙의 인코딩 및 재현
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
AU2012279349B2 (en) 2011-07-01 2016-02-18 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
TW202339510A (zh) 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
JP5740531B2 (ja) 2011-07-01 2015-06-24 ドルビー ラボラトリーズ ライセンシング コーポレイション オブジェクトベースオーディオのアップミキシング
CN102931969B (zh) 2011-08-12 2015-03-04 智原科技股份有限公司 数据提取的方法与装置
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
BR112014010062B1 (pt) * 2011-11-01 2021-12-14 Koninklijke Philips N.V. Codificador de objeto de áudio, decodificador de objeto de áudio, método para a codificação de objeto de áudio, e método para a decodificação de objeto de áudio
EP2721610A1 (en) 2011-11-25 2014-04-23 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110002489A (ko) * 2006-11-24 2011-01-07 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그 장치
US20090326958A1 (en) * 2007-02-14 2009-12-31 Lg Electronics Inc. Methods and Apparatuses for Encoding and Decoding Object-Based Audio Signals
US20100121647A1 (en) * 2007-03-30 2010-05-13 Seung-Kwon Beack Apparatus and method for coding and decoding multi object audio signal with multi channel

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jonas Engdegard, et al. Spatial audio object coding (SAOC) - The upcoming MPEG standard on parametric object based audio coding. Audio Engineering Society Convention 124. 2008.05.20. *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017209477A1 (ko) * 2016-05-31 2017-12-07 지오디오랩 인코포레이티드 오디오 신호 처리 방법 및 장치
US10271157B2 (en) 2016-05-31 2019-04-23 Gaudio Lab, Inc. Method and apparatus for processing audio signal
US11074921B2 (en) 2017-03-28 2021-07-27 Sony Corporation Information processing device and information processing method

Also Published As

Publication number Publication date
CN112839296A (zh) 2021-05-25
PL3025335T3 (pl) 2024-02-19
EP3025335B1 (en) 2023-08-30
CA2918869C (en) 2018-06-26
CN112839296B (zh) 2023-05-09
KR101774796B1 (ko) 2017-09-05
BR112016001244B1 (pt) 2022-03-03
EP2830048A1 (en) 2015-01-28
MX355589B (es) 2018-04-24
CA2918869A1 (en) 2015-01-29
BR112016001244A2 (ko) 2017-07-25
TW201519216A (zh) 2015-05-16
CN105593929A (zh) 2016-05-18
CN105593930A (zh) 2016-05-18
KR101852951B1 (ko) 2018-06-04
US20160142846A1 (en) 2016-05-19
US11330386B2 (en) 2022-05-10
TW201519217A (zh) 2015-05-16
PL3025333T3 (pl) 2020-07-27
SG11201600396QA (en) 2016-02-26
TWI560701B (en) 2016-12-01
JP2016527558A (ja) 2016-09-08
RU2660638C2 (ru) 2018-07-06
ES2768431T3 (es) 2020-06-22
EP3025333A1 (en) 2016-06-01
ZA201600984B (en) 2019-04-24
US20160142847A1 (en) 2016-05-19
AU2014295270B2 (en) 2016-12-01
JP6873949B2 (ja) 2021-05-19
JP2018185526A (ja) 2018-11-22
CN105593929B (zh) 2020-12-11
BR112016001243B1 (pt) 2022-03-03
US20170272883A1 (en) 2017-09-21
JP2016528542A (ja) 2016-09-15
CN105593930B (zh) 2019-11-08
MY192210A (en) 2022-08-08
MX2016000914A (es) 2016-05-05
EP3025335C0 (en) 2023-08-30
RU2016105472A (ru) 2017-08-28
EP3025333B1 (en) 2019-11-13
KR20160041941A (ko) 2016-04-18
HK1225505A1 (zh) 2017-09-08
MX357511B (es) 2018-07-12
RU2666239C2 (ru) 2018-09-06
CA2918529A1 (en) 2015-01-29
SG11201600460UA (en) 2016-02-26
ES2959236T3 (es) 2024-02-22
US9699584B2 (en) 2017-07-04
EP2830050A1 (en) 2015-01-28
AU2014295270A1 (en) 2016-03-10
TWI560700B (en) 2016-12-01
PT3025333T (pt) 2020-02-25
MX2016000851A (es) 2016-04-27
JP6333374B2 (ja) 2018-05-30
AU2014295216A1 (en) 2016-03-10
EP3025335A1 (en) 2016-06-01
US9578435B2 (en) 2017-02-21
AU2014295216B2 (en) 2017-10-19
BR112016001243A2 (ko) 2017-07-25
CA2918529C (en) 2018-05-22
US20200304932A1 (en) 2020-09-24
WO2015011024A1 (en) 2015-01-29
MY176990A (en) 2020-08-31
JP6395827B2 (ja) 2018-09-26
US10701504B2 (en) 2020-06-30
RU2016105469A (ru) 2017-08-25
WO2015010999A1 (en) 2015-01-29

Similar Documents

Publication Publication Date Title
KR101852951B1 (ko) 향상된 공간적 오디오 오브젝트 코딩을 위한 장치 및 방법
US11227616B2 (en) Concept for audio encoding and decoding for audio channels and audio objects
JP7000488B2 (ja) マルチチャネル非相関器、マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダおよび非相関器入力信号のリミックスを使用したコンピュータ・プログラム

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant