KR101795324B1 - 렌더러 제어 공간 업믹스 - Google Patents

렌더러 제어 공간 업믹스 Download PDF

Info

Publication number
KR101795324B1
KR101795324B1 KR1020167003937A KR20167003937A KR101795324B1 KR 101795324 B1 KR101795324 B1 KR 101795324B1 KR 1020167003937 A KR1020167003937 A KR 1020167003937A KR 20167003937 A KR20167003937 A KR 20167003937A KR 101795324 B1 KR101795324 B1 KR 101795324B1
Authority
KR
South Korea
Prior art keywords
output
signal
processor
channels
channel
Prior art date
Application number
KR1020167003937A
Other languages
English (en)
Other versions
KR20160033734A (ko
Inventor
크리스티안 에르텔
요하네스 힐퍼트
안드레아스 홀저
아힘 쿤츠
얀 프록스티스
미하엘 크래슈머
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20160033734A publication Critical patent/KR20160033734A/ko
Application granted granted Critical
Publication of KR101795324B1 publication Critical patent/KR101795324B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스는, 프로세서 입력 신호(38, 38')를 기초로 프로세서 출력 신호(37)를 생성하기 위한 하나 또는 그보다 많은 프로세서들(36, 36')을 갖는 적어도 하나의 코어 디코더(6, 24) ―프로세서 출력 신호(37, 37')의 출력 채널들(37.1, 37.2, 37.1', 37.2')의 수는 프로세서 입력 신호(38, 38')의 입력 채널들(38.1, 38.1')의 수보다 더 많고, 하나 또는 그보다 많은 프로세서들(36, 36') 각각은 역상관기(39, 39') 및 믹서(40, 40')를 포함하며, 복수의 채널들(13.1, 13.2, 13.3, 13.4)을 갖는 코어 디코더 출력 신호(13)는 프로세서 출력 신호(37, 37')를 포함하고, 코어 디코더 출력 신호(13)는 기준 라우드스피커 셋업(42)에 적합함 ―; 코어 디코더 출력 신호(13)를 타깃 라우드스피커 셋업(45)에 적합한 출력 오디오 신호(31)로 변환하도록 구성된 적어도 하나의 포맷 변환기 디바이스(9, 10); 및 프로세서(36, 36')의 역상관기(39, 39')가 프로세서(36, 36')의 믹서(40, 40')와 독립적으로 제어될 수 있게 적어도 하나 또는 그보다 많은 프로세서들(36, 36')을 제어하도록 구성된 제어 디바이스(46)를 포함하며, 여기서 제어 디바이스(46)는 타깃 라우드스피커 셋업(45)에 따라 하나 또는 그보다 많은 프로세서들(36, 36')의 역상관기들(39, 39') 중 적어도 하나를 제어하도록 구성된다.

Description

렌더러 제어 공간 업믹스{RENDERER CONTROLLED SPATIAL UPMIX}
본 발명은 오디오 신호 처리에 관한 것으로, 특히, 다채널 오디오 신호들의 포맷 변환에 관한 것이다.
포맷 변환은 특정 개수의 오디오 채널들을 다른 개수의 오디오 채널들을 통한 재생에 적합한 다른 표현에 맵핑하는 프로세스를 설명한다.
포맷 변환에 대한 일반적인 사용 경우는 오디오 채널들의 다운믹싱이다. Ref. [1]에서, 다운믹싱은 전체 '홈 씨어터' 5.1 모니터링 시스템이 이용 가능하지 않은 경우에도 최종 사용자들이 5.1 원자료의 버전을 다시 보기할 수 있게 하는 일례가 주어진다. 돌비 디지털 자료를 받아들이도록 설계되지만, 단지 모노 또는 스테레오 출력들(예를 들어, 휴대용 DVD 플레이어들, 셋톱 박스들 등)을 제공하는 장비는 오리지널 5.1 채널들을 표준인 하나 또는 2개의 출력 채널들로 다운믹싱하기 위한 설비들을 통합한다.
다른 한편으로, 포맷 변환은 또한 예를 들어, 스테레오 자료를 업믹싱하여 5.1 호환 가능 버전을 형성하는 업믹스 프로세스를 설명할 수 있다. 또한, 바이노럴(binaural) 렌더링이 포맷 변환으로 간주될 수 있다.
다음에는, 압축된 오디오 신호들의 디코딩 프로세스에 대한 포맷 변환의 결과들이 논의된다. 여기서, 오디오 신호의 압축된 표현(mp4 파일)은 고정된 라우드스피커 셋업에 의한 재생이 의도된 고정된 개수의 오디오 채널들을 나타낸다.
오디오 디코더와 원하는 재생 포맷으로의 이후의 포맷 변환 간의 상호 작용은 세 가지 카테고리들로 구분될 수 있다:
1. 디코딩 프로세스는 최종 재생 시나리오에 대해 인지 불가능(agnostic)하다. 따라서 전체 오디오 표현이 리트리브되고 이후에 변환 처리가 적용된다.
2. 오디오 디코딩 프로세스는 그 성능들이 제한되며 고정된 포맷만을 출력할 것이다. 예들은 스테레오 FM 프로그램들을 수신하는 모노 라디오들, 또는 HE-AAC v2 비트스트림을 수신하는 모노 HE-AAC 디코더이다.
3. 오디오 디코딩 프로세스는 최종 재생 셋업을 알고 그에 따라 그 처리를 조정한다. 일례는 Ref. [2]에 MPEG Surround에 대해 정의된 것과 같은 "Scalable Channel Decoding for Reduced Speaker Configurations"이다. 여기서, 디코더는 출력 채널들의 수를 감소시킨다.
이러한 방법들의 단점들은 디코딩된 자료의 이후의 처리(다운믹스를 위한 빗형(comb) 필터링, 업믹스를 위한 언마스킹)(1.) 및 최종 출력 포맷에 관한 제한된 유연성(2. 및 3.)에 의한 불필요하게 높은 복잡도 및 잠재적 아티팩트들이다.
본 발명의 과제는 오디오 신호 처리에 대한 개선된 개념들을 제공하는 것이다. 본 발명의 과제는 제 1 항에 따른 디코더에 의해, 제 14 항에 따른 방법에 의해, 그리고 제 15 항에 따른 컴퓨터 프로그램에 의해 해결된다.
압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스가 제공되며, 이 오디오 디코더 디바이스는 프로세서 입력 신호를 기초로 프로세서 출력 신호를 생성하기 위한 하나 또는 그보다 많은 프로세서들을 갖는 적어도 하나의 코어 디코더 ― 프로세서 출력 신호의 출력 채널들의 수는 프로세서 입력 신호의 입력 채널들의 수보다 더 많고, 하나 또는 그보다 많은 프로세서들 각각은 역상관기 및 믹서를 포함하며, 복수의 채널들을 갖는 코어 디코더 출력 신호는 프로세서 출력 신호를 포함하고, 코어 디코더 출력 신호는 기준 라우드스피커 셋업에 적합함 ―;
코어 디코더 출력 신호를 타깃 라우드스피커 셋업에 적합한 출력 오디오 신호로 변환하도록 구성된 적어도 하나의 포맷 변환기; 및
프로세서의 역상관기가 프로세서의 믹서와 독립적으로 제어될 수 있게 적어도 하나 또는 그보다 많은 프로세서들을 제어하도록 구성된 제어 디바이스를 포함하며, 여기서 제어 디바이스는 타깃 라우드스피커 셋업에 따라 하나 또는 그보다 많은 프로세서들의 역상관기들 중 적어도 하나를 제어하도록 구성된다.
프로세서들의 목적은 프로세서 입력 신호의 입력 채널들의 수보다 더 많은 수의 비간섭성/비상관 채널들을 갖는 프로세서 출력 신호를 생성하는 것이다. 더 상세하게는, 프로세서들 각각은 더 적은 수의 입력 채널들을 갖는 프로세서 입력 신호로부터의, 예를 들어 모노 입력 신호로부터의 정확한 공간 큐들에 의한 복수의 비간섭성/비상관 출력 채널들을 갖는, 예를 들어 2개의 출력 채널들을 갖는 프로세서 출력 신호를 생성한다.
이러한 프로세서들은 역상관기 및 믹서를 포함한다. 역상관기는 프로세서 입력 신호의 채널로부터 역상관기 신호를 생성하는 데 사용된다. 일반적으로 역상관기(역상관 필터)는 모든 통과(IIR) 섹션들이 이어지는 주파수 의존 사전 지연으로 구성된다.
역상관기 신호 및 프로세서 입력 신호의 각각의 채널이 다음에 믹서에 공급된다. 믹서는 역상관기 신호 및 프로세서 입력 신호의 각각의 채널을 믹싱함으로써 프로세서 출력 신호를 설정하도록 구성되며, 여기서는 프로세서 출력 신호의 출력 채널들의 정확한 간섭/상관 및 정확한 강도비를 합성하기 위해 부가 정보가 사용된다.
이후, 프로세서 출력 신호의 출력 채널들은 비간섭성/비상관되므로, 프로세서의 출력 채널들이 서로 다른 위치들에서 서로 다른 라우드스피커들에 공급된다면 이들은 독립적인 음원들로서 인지될 것이다.
포맷 변환기는 코어 디코더 출력 신호를 기준 라우드스피커 셋업과는 다를 수 있는 라우드스피커 셋업에서 재생에 적합하도록 변환할 수 있다. 이러한 셋업은 타깃 라우드스피커 셋업이라 한다.
하나의 프로세서의 출력 채널들이 비간섭성/비상관 형태인 이후의 포맷 변환기에 의한 특정 타깃 라우드스피커 셋업에 필요하지 않은 경우, 정확한 상관의 합성은 지각적으로 무관하게 된다. 그러므로 이러한 프로세서들에 대해서는 역상관기가 생략될 수도 있다. 그러나 일반적으로 역상관기가 오프 전환될 때 믹서는 계속 완전 가동 상태이다. 그 결과, 역상관기가 오프 전환되더라도 프로세서 출력 신호의 출력 채널들이 생성된다.
이 경우, 프로세서 출력 신호의 채널들은 간섭/상관되지만 동일하지 않다는 점이 주목되어야 한다. 그것은 프로세서의 다운스트림에서 프로세서 출력 신호의 채널들이 서로 독립적으로 추가 처리될 수 있음을 의미하며, 여기서는 예를 들어, 출력 오디오 신호의 채널들의 레벨들을 설정하기 위해 포맷 변환기에 의해 강도비 및/또는 다른 공간 정보가 사용될 수 있다.
역상관 필터링은 상당한 계산 복잡도를 필요로 하므로, 제안된 디코더 디바이스에 의해 전체 디코딩 작업량이 크게 감소될 수 있다.
역상관기들, 특히 이들의 모든 통과 필터들이 주관적인 음향 품질에 최소한의 영향을 갖는 식으로 설계되더라도, 가청 아티팩트들이 유도되는 것, 예를 들어 특정 주파수 성분들의 위상 왜곡들 또는 "링잉(ringing)"으로 인한 트랜션트들의 스미어링은 항상 회피될 수 없다. 따라서 생략된 역상관기 프로세스의 부가 영향들로서, 오디오 음질의 개선이 달성될 수 있다.
역상관이 적용되는 주파수 대역들에 대해서만 이 프로세스가 적용될 것이라는 점에 주목한다. 잉여 코딩이 사용되는 주파수 대역들은 영향을 받지 않는다.
선호되는 실시예들에서, 제어 디바이스는 프로세서 입력 신호의 입력 채널들이 미처리 형태로 프로세서 출력 신호의 출력 채널들에 공급되게 적어도 하나 또는 그보다 많은 프로세서들을 비활성화하도록 구성된다. 이러한 특징에 의해, 동일하지 않은 채널들의 수가 감소될 수도 있다. 타깃 라우드스피커 셋업이 기준 라우드스피커 셋업의 라우드스피커들의 수에 비해 매우 적은 수의 라우드스피커들을 포함한다면, 이것이 유리할 수도 있다.
유리한 실시예들에서 프로세서는 1 입력 2 출력 디코딩 툴(OTT: one input two output decoding tool)이며, 여기서 역상관기는 프로세서 입력 신호의 적어도 하나의 채널을 역상관함으로써 역상관된 신호를 생성하도록 구성되고, 여기서 믹서는 프로세서 출력 신호가 2개의 비간섭성 출력 채널들로 구성되도록 채널 레벨 차(CLD: channel level difference) 신호 및/또는 채널 간 간섭성(ICC: inter-channel coherence) 신호를 기초로 프로세서 입력 오디오 신호와 역상관된 신호를 믹싱한다. 이러한 1 입력 2 출력 디코딩 툴들은 쉬운 방식으로 서로에 대해 정확한 진폭 및 간섭을 갖는 채널들의 쌍으로 프로세서 출력 신호를 생성하는 것을 가능하게 한다.
일부 실시예들에서, 제어 디바이스는 역상관된 오디오 신호를 0으로 설정함으로써 또는 믹서가 역상관된 신호를 각각의 프로세서의 프로세서 출력 신호로 믹싱하는 것을 막음으로써 프로세서들 중 하나의 프로세서의 역상관기를 오프 전환하도록 구성된다. 두 방법들 모두 역상관기를 쉬운 방식으로 오프 전환하는 것을 가능하게 한다.
선호되는 실시예들에서, 코어 디코더는 USAC 디코더와 같은 음악 및 음성 모두에 대한 디코더이고, 여기서 프로세서들 중 적어도 하나의 프로세서의 프로세서 입력 신호는 USAC 채널 쌍 엘리먼트들과 같은 채널 쌍 엘리먼트들을 포함한다. 이 경우, 채널 쌍 엘리먼트들의 디코딩이 현재 타깃 라우드스피커 셋업에 필수적이지 않다면, 이를 생략하는 것이 가능하다. 이런 식으로 역상관 프로세스로부터뿐만 아니라 다운믹스 프로세스로부터 발생하는 계산 복잡도 및 아티팩트들이 상당히 감소될 수 있다.
일부 실시예들에서, 코어 디코더는 SAOC 디코더와 같은 파라메트릭 객체 코더이다. 이런 식으로 역상관 프로세스로부터뿐만 아니라 다운믹스 프로세스로부터 발생하는 계산 복잡도 및 아티팩트들이 더 감소될 수 있다.
일부 실시예들에서, 기준 라우드스피커 셋업의 라우드스피커들의 수는 타깃 라우드스피커 셋업의 라우드스피커들의 수보다 많다. 이 경우, 포맷 변환기는 오디오에 대한 코어 디코더 출력 신호를 출력 오디오 신호로 다운믹싱할 수 있으며, 여기서 출력 채널들의 수는 코어 디코더 출력 신호의 출력 채널들의 수보다 더 적다.
여기서, 다운믹싱은 타깃 라우드스피커 셋업에 사용되는 것보다 더 많은 수의 라우드스피커들이 기준 라우드스피커 셋업에 사용되는 경우를 설명한다. 이러한 경우들에, 하나 또는 그보다 많은 프로세서들의 출력 채널들은 흔히 비간섭성 신호들의 형태일 필요는 없다. 이러한 프로세서들의 역상관기들이 오프 전환된다면, 역상관 프로세스로부터뿐만 아니라 다운믹스 프로세스로부터 발생하는 계산 복잡도 및 아티팩트들이 상당히 감소될 수 있다.
일부 실시예들에서, 제어 디바이스는 프로세서 출력 신호의 상기 출력 채널들 중 하나인 제 1 출력 채널을 출력 오디오 신호의 공통 채널로 믹싱하기 위한 제 1 스케일링 팩터가 제 1 임계치를 초과하고 그리고/또는 프로세서 출력 신호의 상기 출력 채널들 중 하나인 제 2 출력 채널을 공통 채널로 믹싱하기 위한 제 2 스케일링 팩터가 제 2 임계치를 초과한다면, 상기 출력 채널들 중 제 1 출력 채널과 상기 출력 채널들 중 제 2 출력 채널이 타깃 라우드스피커 셋업에 따라 공통 채널로 믹싱되는 경우, 적어도 상기 출력 채널들 중 제 1 출력 채널 및 상기 출력 채널들 중 제 2 출력 채널에 대해 역상관기들을 오프 전환하도록 구성된다.
상기 출력 채널들 중 제 1 출력 채널 및 상기 출력 채널들 중 제 2 출력 채널이 출력 오디오 신호의 공통 채널로 믹싱되는 경우, 제 1 및 제 2 출력 채널에 대해서는 코어 디코더에서의 역상관이 생략될 수도 있다. 이런 식으로 역상관 프로세스로부터뿐만 아니라 다운믹스 프로세스로부터 발생하는 계산 복잡도 및 아티팩트들이 상당히 감소될 수 있다. 이런 식으로 불필요하게 역상관이 피해질 수도 있다.
보다 발전된 실시예에서는, 프로세서 출력 신호의 상기 출력 채널들 중 제 1 출력 채널을 믹싱하기 위한 제 1 스케일링 팩터가 예상될 수도 있다. 같은 식으로, 프로세서 출력 신호의 상기 출력 채널들 중 제 2 출력 채널을 믹싱하기 위한 제 2 스케일링 팩터가 사용될 수도 있다. 여기서 스케일링 팩터는 대개 0 내지 1인 수치값이며, 이는 원래 채널(프로세서 출력 신호의 출력 채널)의 신호 강도와 믹싱된 채널(출력 오디오 신호의 공통 채널)의 합성 신호의 신호 강도 간의 비를 설명한다. 스케일링 팩터들은 다운믹스 행렬에 포함될 수도 있다. 제 1 스케일링 팩터에 제 1 임계치를 사용함으로써 그리고/또는 제 2 스케일링 팩터에 제 2 임계치를 사용함으로써, 제 1 출력 채널의 적어도 결정된 부분 및/또는 제 2 출력 채널의 적어도 결정된 부분이 공통 채널로 믹싱된다면, 단지 제 1 출력 채널 및 제 2 출력 채널에 대한 역상관이 오프 전환됨이 보장될 수 있다. 일례로, 임계치는 0으로 설정될 수도 있다.
선호되는 실시예들에서, 제어 디바이스는 포맷 변환기로부터 한 세트의 규칙들을 수신하도록 구성되는데, 한 세트의 규칙들에 따라 포맷 변환기가 프로세서 출력 신호의 채널들을 타깃 라우드스피커 셋업에 따라 출력 오디오 신호의 채널들로 믹싱하고, 여기서 제어 디바이스는 수신된 한 세트의 규칙들에 따라 프로세서들을 제어하도록 구성된다. 여기서, 프로세서들의 제어는 역상관기들의 그리고/또는 믹서들의 제어를 포함할 수도 있다. 이러한 특징에 의해, 제어 디바이스가 프로세서들을 정확한 방식으로 제어하는 것이 보장될 수 있다.
한 세트의 규칙들에 의해, 프로세서의 출력 채널들이 이후의 포맷 변환 단계에 의해 결합되는지 여부의 정보가 제어 디바이스에 제공될 수 있다. 제어 디바이스에 의해 수신된 규칙들은 일반적으로 포맷 변환기에 의해 사용되는 각각의 오디오 출력 채널에 대해 각각의 코어 디코더 출력 채널에 대한 스케일링 팩터들을 정의하는 다운믹스 행렬의 형태이다. 다음 단계에서, 역상관기들을 제어하기 위한 제어 규칙들이 다운믹스 규칙들로부터 제어 디바이스에 의해 계산될 수 있다. 이 제어 규칙들은 소위 믹스 행렬에 포함될 수 있는데, 이는 제어 디바이스에 의해 타깃 라우드스피커 셋업에 따라 생성될 수 있다. 이 제어 규칙들은 다음에 역상관기들 및/또는 믹서들을 제어하는 데 사용될 수 있다. 그 결과, 제어 디바이스는 수동 개입 없이 서로 다른 타깃 라우드스피커 셋업들에 적응될 수 있다.
선호되는 실시예들에서, 제어 디바이스는 코어 디코더 출력 신호의 비간섭성 채널들의 수가 타깃 라우드스피커 셋업의 라우드스피커들의 수와 동일하게 되는 식으로 코어 디코더의 역상관기들을 제어하도록 구성된다. 이 경우, 역상관 프로세스로부터뿐만 아니라 다운믹스 프로세스로부터 발생하는 계산 복잡도 및 아티팩트들이 상당히 감소될 수 있다.
실시예들에서, 포맷 변환기는 코어 디코더 출력 신호를 다운믹싱하기 위한 다운믹서를 포함한다. 만들어진 다운믹서는 직접 출력 오디오 신호를 생성한다. 그러나 일부 실시예들에서, 다운믹서는 포맷 변환기의 다른 엘리먼트에 접속될 수도 있으며, 이는 다음에 출력 오디오 신호를 발생시킨다.
일부 실시예들에서, 포맷 변환기는 바이노럴 렌더러를 포함한다. 바이노럴 렌더러들은 일반적으로 다채널 신호를 스테레오 헤드폰들에서의 사용을 위해 적응된 스테레오 신호로 변환하는 데 사용된다. 바이노럴 렌더러는 이에 공급되는 신호의 바이노럴 다운믹스를 발생시켜, 이 신호의 각각의 채널이 가상 음원으로 표현되게 한다. 처리는 구적 미러 필터(QMF: quadrature mirror filter) 도메인에서 프레임 단위로 구성될 수 있다. 바이노럴화는 측정된 바이노럴 룸 임펄스 응답들을 기초로 하며 극도로 높은 계산 복잡도를 야기하는데, 이는 바이노럴 렌더러에 공급되는 신호의 비간섭성/비상관 채널들의 수와 상관한다.
선호되는 실시예들에서, 코어 디코더 출력 신호는 바이노럴 렌더러에 바이노럴 렌더러 입력 신호로서 공급된다. 이 경우, 제어 디바이스는 대개 코어 디코더 출력 신호의 채널들의 수가 헤드폰들의 라우드스피커들의 수보다 더 많게 되는 식으로 코어 디코더의 프로세서들을 제어하도록 구성된다. 예를 들어, 바이노럴 렌더러는 3차원 오디오 인상을 발생시키기 위해 헤드폰들에 공급되는 스테레오 신호의 주파수 특성들을 조정하기 위해 채널들에 포함된 공간 음향 정보를 사용할 수 있기 때문에 이것이 요구될 수도 있다.
일부 실시예들에서, 다운믹서의 다운믹서 출력 신호는 바이노럴 렌더러에 바이노럴 렌더러 입력 신호로서 공급된다. 다운믹서의 출력 오디오 신호가 바이노럴 렌더러에 공급되는 경우, 그 입력 신호의 채널들의 수는 코어 디코더 출력 신호가 바이노럴 렌더러에 공급되는 경우들보다 상당히 더 적으므로, 계산 복잡도가 감소된다.
더욱이, 압축된 입력 오디오 신호를 디코딩하기 위한 방법이 제공되며, 이 방법은 프로세서 입력 신호를 기초로 프로세서 출력 신호를 생성하기 위한 하나 또는 그보다 많은 프로세서들을 갖는 적어도 하나의 코어 디코더를 제공하는 단계 ― 상기 프로세서 출력 신호의 출력 채널들의 수는 상기 프로세서 입력 신호의 입력 채널들의 수보다 더 많고, 상기 하나 또는 그보다 많은 프로세서들 각각은 역상관기 및 믹서를 포함하며, 복수의 채널들을 갖는 코어 디코더 출력 신호는 상기 프로세서 출력 신호를 포함하고, 상기 코어 디코더 출력 신호는 기준 라우드스피커 셋업에 적합함 ―; 상기 코어 디코더 출력 신호를 타깃 라우드스피커 셋업에 적합한 출력 오디오 신호로 변환하도록 구성된 적어도 하나의 포맷 변환기를 제공하는 단계; 및 프로세서의 역상관기가 프로세서의 믹서와 독립적으로 제어될 수 있게 적어도 하나 또는 그보다 많은 프로세서들을 제어하도록 구성된 제어 디바이스를 제공하는 단계를 포함하고, 여기서 제어 디바이스는 타깃 라우드스피커 셋업에 따라 하나 또는 그보다 많은 프로세서들의 역상관기들 중 적어도 하나를 제어하도록 구성된다.
더욱이, 컴퓨터 또는 신호 프로세서 상에서 실행될 때 앞서 언급한 방법을 구현하기 위한 컴퓨터 프로그램이 제공된다.
다음에는, 도면들을 참조로 본 발명의 실시예들이 더 상세히 설명된다.
도 1은 본 발명에 따른 디코더의 선호되는 실시예의 블록도를 보여준다.
도 2는 본 발명에 따른 디코더의 제 2 실시예의 블록도를 보여준다.
도 3은 개념적인 프로세서의 모델을 보여주는데, 여기서 역상관기는 온 전환된다.
도 4는 개념적인 프로세서의 모델을 보여주는데, 여기서 역상관기는 오프 전환된다.
도 5는 포맷 변환과 디코딩 간의 상호 작용을 설명한다.
도 6은 본 발명에 따른 디코더의 일 실시예의 세부사항의 블록도를 보여주는데, 여기서는 5.1 채널 신호가 생성된다.
도 7은 본 발명에 따른 디코더에 대한 도 6의 실시예의 세부사항의 블록도를 보여주는데, 여기서는 5.1 채널이 2.0 채널 신호로 다운믹싱된다,
도 8은 본 발명에 따른 디코더에 대한 도 6의 실시예의 세부사항의 블록도를 보여주는데, 여기서는 5.1 채널 신호가 4.0 채널 신호로 다운믹싱된다.
도 9는 본 발명에 따른 디코더의 일 실시예의 세부사항의 블록도를 보여주는데, 여기서는 9.1 채널 신호가 생성된다.
도 10은 본 발명에 따른 디코더에 대한 도 9의 실시예의 세부사항의 블록도를 보여주는데, 여기서는 9.1 채널 신호가 4.0 채널 신호로 다운믹싱된다.
도 11은 3D-오디오 인코더의 개념적인 개요의 개략적인 블록도를 보여준다.
도 12는 3D-오디오 디코더의 개념적인 개요의 개략적인 블록도를 보여준다.
도 13은 포맷 변환기의 개념적인 개요의 개략적인 블록도를 보여준다.
본 발명의 실시예들을 설명하기 전에, 최신 기술의 인코더-디코더 시스템들에 대한 더 많은 배경이 제공된다.
도 11은 3D-오디오 인코더(1)의 개념적인 개요의 개략적인 블록도를 보여주는 반면, 도 12는 3D-오디오 디코더(2)의 개념적인 개요의 개략적인 블록도를 보여준다.
3D 오디오 코덱 시스템(1, 2)은 채널 신호들(4) 및 객체 신호들(5)의 코딩을 위한 MPEG-D 통합 음성 및 오디오 코딩(USAC: unified speech and audio coding) 인코더(3)를 기반으로 할 뿐만 아니라 인코더(3)의 출력 오디오 신호(7)의 디코딩을 위한 MPEG-D 통합 음성 및 오디오 코딩(USAC) 디코더(6)도 기반으로 할 수도 있다. 상당한 양의 객체들(5)을 코딩하기 위한 효율을 향상시키기 위해, 공간 오디오 객체 코딩(SAOC: spatial audio object coding) 기술이 채택되었다. 세 가지 타입들의 렌더러들(8, 9, 10)이 객체들(11, 12)을 채널들(13)로 렌더링하고, 채널들(13)을 헤드폰들로 렌더링하거나 채널들을 서로 다른 라우드스피커 셋업으로 렌더링하는 작업들을 수행한다.
객체 신호들이 명확하게 송신되거나 SAOC를 사용하여 파라미터에 의해 인코딩되면, 대응하는 객체 메타데이터(OAM: Object Metadata)(14) 정보가 압축되어 3D-오디오 비트스트림(7)으로 멀티플렉싱된다.
프리렌더러/믹서(15)는 선택적으로, 채널 및 객체 입력 장면(4, 5)을 인코딩 전에 채널 장면(4, 16)으로 변환하는 데 사용될 수 있다. 기능적으로 이는 아래 설명되는 객체 렌더러/믹서(15)와 동일하다.
객체들(5)의 프리렌더링은 동시에 액티브한 객체 신호들(5)의 수와는 기본적으로 독립적인 인코더(3)의 입력에서 결정적 신호 엔트로피를 보장한다. 객체들(5)의 프리렌더링에는, 어떠한 객체 메타데이터(14) 송신도 요구되지 않는다.
이산 객체 신호들(5)은 인코더(3)가 사용하도록 구성된 채널 레이아웃으로 렌더링된다. 각각의 채널(16)에 대한 객체들(5)의 가중치들이 연관된 객체 메타데이터(14)로부터 얻어진다.
라우드스피커-채널 신호들(4), 이산 객체 신호들(5), 객체 다운믹스 신호들(14) 및 프리렌더링된 신호들(16)에 대한 코어 코덱은 MPEG-D USAC 기술을 기반으로 할 수 있다. 이는 입력의 채널 및 객체 할당의 기하학적 그리고 의미 정보를 기초로 채널 및 객체 맵핑 정보를 생성함으로써 신호들(4, 5, 14)의 크기의 코딩을 다룬다. 이러한 맵핑 정보는 입력 채널들(4) 및 객체들(5)이 USAC-채널 엘리먼트들에, 즉 채널 쌍 엘리먼트(CPE: channel pair element)들, 단일 채널 엘리먼트(SCE: single channel element)들, 저주파 강화(LFE: low frequency enhancement)들에 어떻게 맵핑되는지를 설명하며, 대응하는 정보가 디코더(6)에 송신된다.
SAOC 데이터(17) 또는 객체 메타데이터(14)와 같은 모든 추가 페이로드들이 확장 엘리먼트들을 통해 전달될 수 있고 인코더(3)의 레이트 제어에서 고려될 수 있다.
객체들(5)의 코딩은 렌더러에 대한 레이트/왜곡 요건들 및 상호 작용 요건들에 따라 여러 가지 방식들로 가능하다. 다음의 객체 코딩 변형들이 가능하다:
- 프리렌더링된 객체들(16): 객체 신호들(5)이 인코딩 전에 프리렌더링되고 채널 신호들(4)로, 예를 들어 22.2 채널 신호들(4)로 믹싱된다. 이후의 코딩 체인이 22.2 채널 신호들(4)을 확인한다.
- 이산 객체 파형들: 객체들(5)이 모노포닉 파형들로서 인코더(3)에 공급된다. 인코더(3)는 단일 채널 엘리먼트(SCE)들을 사용하여 채널 신호들(4)뿐만 아니라 객체들(5)도 송신한다. 디코딩된 객체들(18)이 수신기 측에서 렌더링되어 믹싱된다. 압축된 객체 메타데이터 정보(19, 20)가 동시에 수신기/렌더러(21)에 송신된다.
- 파라메트릭 객체 파형들(17): 객체 특성들 및 이들의 서로의 관계가 SAOC 파라미터들(22, 23)에 의해 기술된다. 객체 신호들(17)의 다운믹스가 USAC로 코딩된다. 파라메트릭 정보(22)가 함께 송신된다. 다운믹스 채널들(17)의 수는 객체들(5)의 수와 전체 데이터 레이트에 따라 선택된다. 압축된 객체 메타데이터 정보(23)가 SAOC 렌더러(24)에 송신된다.
객체 신호들(5)에 대한 SAOC 인코더(25) 및 디코더(24)는 MPEG SAOC 기술을 기반으로 한다. 시스템은 더 적은 수의 송신된 채널들(7) 및 추가 파라메트릭 데이터(22, 23), 예컨대 객체 레벨 차(OLD: object level difference)들, 객체 간 상관(IOC: inter-object correlation)들 및 다운믹스 이득 값(DMG: downmix gain value)들을 기초로 다수의 오디오 객체들(5)을 재생성, 수정 및 렌더링할 수 있다. 추가 파라메트릭 데이터(22, 23)는 모든 객체들(5)을 개별적으로 송신하는 데 필요한 것보다 상당히 더 낮은 데이터 레이트를 나타내어, 코딩을 매우 효율적이게 한다.
SAOC 인코더(25)는 모노포닉 파형들인 객체/채널 신호들(5)을 입력으로 취하여 (3D-오디오 비트스트림(7)으로 패킹되는) 파라메트릭 정보(22) 및 (단일 채널 엘리먼트들을 사용하여 인코딩되고 송신되는) SAOC 전송 채널들(17)을 출력한다. SAOC 디코더(24)는 디코딩된 SAOC 전송 채널들(26) 및 파라메트릭 정보(23)로부터 객체/채널 신호들(5)을 재구성하고, 재생 레이아웃, 압축 해제된 객체 메타데이터 정보(20) 그리고 선택적으로 사용자 상호 작용 정보에 기초하여 출력 오디오 장면(27)을 생성한다.
각각의 객체(5)에 대해, 3D 공간에서 객체의 기하학적 위치 및 볼륨을 특정하는 연관된 객체 메타데이터(14)가 객체 메타데이터 인코더(28)에 의해 시간 및 공간에서 객체 특성들의 양자화에 의해 효율적으로 코딩된다. 압축된 객체 메타데이터(cOAM)(19)는 OAM-디코더(29)에 의해 디코딩될 수 있는 부가 정보(20)로서 수신기에 송신된다.
객체 렌더러(21)는 압축된 객체 메타데이터(20)를 이용하여 주어진 재생 포맷에 따라 객체 파형들(12)을 생성한다. 각각의 객체(5)는 그 메타데이터(19, 20)에 따라 특정 출력 채널들(12)로 렌더링된다. 이 블록(21)의 출력은 부분적인 결과들의 합으로부터 발생한다. 채널 기반 콘텐츠(11, 30)뿐만 아니라 이산/파라메트릭 객체들(12, 27) 모두가 디코딩된다면, 채널 기반 파형들(11, 30)과 렌더링된 객체 파형들(12, 27)이 합성 파형들(13)을 출력하기 전에(또는 이들을 바이노럴 렌더러(9) 또는 라우드스피커 렌더러 모듈(10)과 같은 포스트프로세서 모듈(9, 10)에 공급하기 전에) 믹서(8)에 의해 믹싱된다.
바이노럴 렌더러 모듈(9)이 다채널 오디오 자료(13)의 바이노럴 다운믹스를 발생시켜, 각각의 입력 채널(13)이 가상 음원으로 표현된다. 처리는 구적 미러 필터(QMF) 도메인에서 프레임 단위로 구성된다. 바이노럴화는 측정된 바이노럴 룸 임펄스 응답들을 기초로 한다.
도 13에 보다 상세히 도시된 라우드스피커 렌더러(10)는 송신된 채널 구성(13)과 원하는 재생 포맷(31) 간에 변환한다. 따라서 이는 다음에 '포맷 변환기'(10)로 불린다. 포맷 변환기(10)는 더 적은 수들의 출력 채널들(31)로의 변환들을 수행하는데, 즉, 이는 다운믹서(32)에 의한 다운믹스들을 발생시킨다. DMX 구성기(33)는 입력 포맷들(13)과 출력 포맷들(31)의 주어진 결합에 대한 최적화된 다운믹스 행렬들을 자동으로 생성하고 이러한 행렬들을 다운믹스 프로세스(32)에 적용하는데, 여기서는 믹서 출력 레이아웃(34) 및 재생 레이아웃(35)이 사용된다. 포맷 변환기(10)는 표준 라우드스피커 구성들뿐만 아니라 비-표준 라우드스피커 위치들을 갖는 임의 구성들도 허용한다.
도 1은 본 발명에 따른 디코더(2)의 선호되는 실시예의 블록도를 보여준다.
압축된 입력 오디오 신호(38, 38')를 디코딩하기 위한 오디오 디코더 디바이스(2)는 프로세서 입력 신호(38, 38')를 기초로 프로세서 출력 신호(37, 37')를 생성하기 위한 하나 또는 그보다 많은 프로세서들(36, 36')을 갖는 적어도 하나의 코어 디코더(6)를 포함하며, 여기서 프로세서 출력 신호(37, 37')의 출력 채널들(37.1, 37.2, 37.1', 37.2')의 수는 프로세서 입력 신호(38, 38')의 입력 채널들(38.1, 38.1')의 수보다 더 많고, 하나 또는 그보다 많은 프로세서들(36, 36') 각각은 역상관기(39, 39') 및 믹서(40, 40')를 포함하며, 복수의 채널들(13.1, 13.2, 13.3, 13.4)을 갖는 코어 디코더 출력 신호(13)는 프로세서 출력 신호(37, 37')를 포함하고, 코어 디코더 출력 신호(13)는 기준 라우드스피커 셋업(42)에 적합하다.
또한, 오디오 디코더 디바이스(2)는 코어 디코더 출력 신호(13)를 타깃 라우드스피커 셋업(45)에 적합한 출력 오디오 신호(31)로 변환하도록 구성된 적어도 하나의 포맷 변환기 디바이스(9, 10)를 포함한다.
더욱이, 오디오 디코더 디바이스(2)는 프로세서(36, 36')의 역상관기(39, 39')가 프로세서(36, 36')의 믹서(40, 40')와 독립적으로 제어될 수 있게 적어도 하나 또는 그보다 많은 프로세서들(36, 36')을 제어하도록 구성된 제어 디바이스(46)를 포함하며, 여기서 제어 디바이스(46)는 타깃 라우드스피커 셋업에 따라 하나 또는 그보다 많은 프로세서들(36, 36')의 역상관기들(39, 39') 중 적어도 하나를 제어하도록 구성된다.
프로세서들의 목적(36, 36')은 프로세서 입력 신호(38)의 입력 채널들(38.1, 38.1')의 수보다 더 많은 수의 비간섭성/비상관 채널들(37.1, 37.2, 37.1', 37.2)을 갖는 프로세서 출력 신호(37, 37')를 생성하는 것이다. 더 상세하게는, 프로세서들(36, 36') 각각은 더 적은 수의 입력 채널들(38.1, 38.1')을 갖는 프로세서 입력 신호(38, 38')로부터의 정확한 공간 큐들에 의한 복수의 비간섭성/비상관 출력 채널들(37.1, 37.2, 37.1', 37.2')을 갖는 프로세서 출력 신호(37)를 생성할 수도 있다.
도 1에 도시된 실시예에서, 제 1 프로세서(36)는 모노 입력 신호(38)로부터 생성되는 2개의 출력 채널들(37.1, 37.2)을 갖고, 제 2 프로세서(36')는 모노 입력 신호(38')로부터 생성되는 2개의 출력 채널들(37.1', 37.2')을 갖는다.
포맷 변환기 디바이스(9, 10)는 코어 디코더 출력 신호(13)를 기준 라우드스피커 셋업(42)과는 다를 수 있는 라우드스피커 셋업(45)에서 재생에 적합하도록 변환할 수 있다. 이러한 셋업은 타깃 라우드스피커 셋업(45)이라 한다.
도 1의 실시예에서, 기준 라우드스피커 셋업(42)은 왼쪽 전면 라우드스피커(L), 오른쪽 전면 라우드스피커(R), 왼쪽 서라운드 라우드스피커(LS) 및 오른쪽 서라운드 라우드스피커(RS)를 포함한다. 또한, 타깃 라우드스피커 셋업(42)은 왼쪽 전면 라우드스피커(L), 오른쪽 전면 라우드스피커(R) 및 중앙 서라운드 라우드스피커(CS)를 포함한다.
하나의 프로세서(36, 36')의 출력 채널들(37.1, 37.2, 37.1', 37.2')이 비간섭성/비상관 형태인 이후의 포맷 변환기 디바이스(9, 10)에 의한 특정 타깃 라우드스피커 셋업(45)에 필요하지 않은 경우, 정확한 상관의 합성은 지각적으로 무관하게 된다. 그러므로 이러한 프로세서들(36, 36')에 대해서는, 역상관기(39, 39')가 생략될 수도 있다. 그러나 일반적으로 역상관기가 오프 전환될 때 믹서(40, 40')는 계속 완전 가동 상태이다. 그 결과, 역상관기(39, 39')가 오프 전환되더라도 프로세서 출력 신호의 출력 채널들(37.1, 37.2, 37.1', 37.2')이 생성된다.
이 경우, 프로세서 출력 신호(37, 37')의 채널들(37.1, 37.2, 37.1', 37.2')이 간섭/상관되지만 동일하지 않다. 그것은 프로세서(36, 36')의 다운스트림에서 프로세서 출력 신호(37, 37')의 채널들(37.1, 37.2, 37.1', 37.2')이 서로 독립적으로 추가 처리될 수 있음을 의미하며, 여기서는 예를 들어, 출력 오디오 신호(31)의 채널들(31.1, 31.2, 31.3)의 레벨들을 설정하기 위해 포맷 변환기 디바이스(9, 10)에 의해 강도비 및/또는 다른 공간 정보가 사용될 수 있다.
역상관 필터링은 상당한 계산 복잡도를 필요로 하므로, 제안된 디코더 디바이스(2)에 의해 전체 디코딩 작업량이 크게 감소될 수 있다.
역상관기들(39, 39'), 특히 이들의 모든 통과 필터들이 주관적인 음향 품질에 최소한의 영향을 갖는 식으로 설계되더라도, 가청 아티팩트들이 유도되는 것, 예를 들어 특정 주파수 성분의 위상 왜곡들 또는 "링잉"으로 인한 트랜션트들의 스미어링은 항상 회피될 수 없다. 따라서 생략된 역상관기 프로세스의 부가 영향들로서, 오디오 음질의 개선이 달성될 수 있다.
역상관이 적용되는 주파수 대역들에 대해서만 이 프로세스가 적용될 것이라는 점에 주목한다. 잉여 코딩이 사용되는 주파수 대역들은 영향을 받지 않는다.
선호되는 실시예들에서 제어 디바이스(46)는 프로세서 입력 신호(38)의 입력 채널들(38.1, 38.1')이 미처리 형태로 프로세서 출력 신호(37, 37')의 출력 채널들(37.1, 37.2, 37.1', 37.2')에 공급되게 적어도 하나 또는 그보다 많은 프로세서들(36, 36')을 비활성화하도록 구성된다. 이러한 특징에 의해, 동일하지 않은 채널들의 수가 감소될 수도 있다. 타깃 라우드스피커 셋업(45)이 기준 라우드스피커 셋업(42)의 라우드스피커들의 수에 비해 매우 적은 수의 라우드스피커들을 포함한다면, 이것이 유리할 수도 있다.
선호되는 실시예들에서, 코어 디코더(6)는 USAC 디코더(6)와 같은 음악 및 음성 모두에 대한 디코더(6)이고, 여기서 프로세서들 중 적어도 하나의 프로세서의 프로세서 입력 신호(38, 38')는 USAC 채널 쌍 엘리먼트들과 같은 채널 쌍 엘리먼트들을 포함한다. 이 경우, 채널 쌍 엘리먼트들의 디코딩이 현재 타깃 라우드스피커 셋업(45)에 필수적이지 않다면, 이를 생략하는 것이 가능하다. 이런 식으로 역상관 프로세스로부터뿐만 아니라 다운믹스 프로세스로부터 발생하는 계산 복잡도 및 아티팩트들이 상당히 감소될 수 있다.
일부 실시예들에서, 코어 디코더는 SAOC 디코더(24)와 같은 파라메트릭 객체 코더(24)이다. 이런 식으로 역상관 프로세스로부터뿐만 아니라 다운믹스 프로세스로부터 발생하는 계산 복잡도 및 아티팩트들이 더 감소될 수 있다.
일부 실시예들에서, 기준 라우드스피커 셋업(42)의 라우드스피커들의 수는 타깃 라우드스피커 셋업(45)의 라우드스피커들의 수보다 많다. 이 경우, 포맷 변환기 디바이스(9, 10)는 오디오에 대한 코어 디코더 출력 신호(13)를 출력 오디오 신호(31)로 다운믹싱할 수 있으며, 여기서 출력 채널들(31.1, 31.2, 31.3)의 수는 코어 디코더 출력 신호(13)의 출력 채널들(13.1, 13.2, 13.3, 13.4)의 수보다 더 적다.
여기서, 다운믹싱은 타깃 라우드스피커 셋업(45)에 사용되는 것보다 더 많은 수의 라우드스피커들이 기준 라우드스피커 셋업(42)에 사용되는 경우를 설명한다. 이러한 경우들에, 하나 또는 그보다 많은 프로세서들(36, 36')의 출력 채널들(37.1, 37.2, 37.1', 37.2')은 흔히 비간섭성 신호들의 형태일 필요는 없다. 도 1에는 코어 디코더 출력 신호(13)의 4개의 디코더 출력 채널들(13.1, 13.2, 13.3, 13.4)이 존재하지만, 오디오 출력 신호(31)의 단지 3개의 출력 채널들(31.1, 31.2, 31.3)만이 존재한다. 이러한 프로세서들(36, 36')의 역상관기들(39, 39')이 오프 전환된다면, 역상관 프로세스로부터뿐만 아니라 다운믹스 프로세스로부터 발생하는 계산 복잡도 및 아티팩트들이 상당히 감소될 수 있다.
아래 설명되는 이유들로, 도 1의 디코더 출력 채널들(13.3, 13.4)은 비간섭성 신호들의 형태일 필요는 없다. 따라서 제어 디바이스(46)에 의해 역상관기(39')는 오프 전환되는 반면, 역상관기(39) 및 믹서들(40, 40')은 온 전환된다.
일부 실시예들에서, 제어 디바이스(46)는 프로세서 출력 신호(37')의 상기 출력 채널들 중 하나인 제 1 출력 채널(37,1')을 출력 오디오 신호(31)의 공통 채널(31.3)로 믹싱하기 위한 제 1 스케일링 팩터가 제 1 임계치를 초과하고 그리고/또는 프로세서 출력 신호(37')의 상기 출력 채널들 중 하나인 제 2 출력 채널(37.2')을 공통 채널(31.3)로 믹싱하기 위한 제 2 스케일링 팩터가 제 2 임계치를 초과한다면, 상기 출력 채널들 중 제 1 출력 채널(37.1')과 상기 출력 채널들 중 제 2 출력 채널(37.2')이 타깃 라우드스피커 셋업(45)에 따라 공통 채널(31.3)로 믹싱되는 경우, 적어도 상기 출력 채널들 중 제 1 출력 채널(37.1') 및 상기 출력 채널들 중 제 2 출력 채널(37.2')에 대해 역상관기들(36')을 오프 전환하도록 구성된다.
도 1에서, 디코더 출력 채널들(13.3, 13.4)이 출력 오디오 신호(31)의 공통 채널(31.3)로 믹싱된다. 제 1 및 제 2 스케일링 팩터는 0.7071일 수도 있다. 이 실시예에서 제 1 및 제 2 임계치가 0으로 설정되므로, 이들의 역상관기(39')는 오프 전환된다.
상기 출력 채널들 중 제 1 출력 채널(37.1') 및 상기 출력 채널들 중 제 2 출력 채널(37.2')이 출력 오디오 신호(31)의 공통 채널(31.3)로 믹싱되는 경우, 제 1 및 제 2 출력 채널(37.1', 37.2')에 대해서는 코어 디코더(6)에서의 역상관이 생략될 수도 있다. 이런 식으로 역상관 프로세스로부터뿐만 아니라 다운믹스 프로세스로부터 발생하는 계산 복잡도 및 아티팩트들이 상당히 감소될 수 있다. 이런 식으로, 불필요한 역상관이 피해질 수도 있다.
보다 발전된 실시예에서는, 프로세서 출력 신호(37')의 상기 출력 채널들 중 제 1 출력 채널(37.1')을 믹싱하기 위한 제 1 스케일링 팩터가 예상될 수도 있다. 같은 식으로, 프로세서 출력 신호(37')의 상기 출력 채널들 중 제 2 출력 채널(37.2')을 믹싱하기 위한 제 2 스케일링 팩터가 사용될 수도 있다. 여기서 스케일링 팩터는 대개 0 내지 1인 수치값이며, 이는 원래 채널(프로세서 출력 신호(37')의 출력 채널(37.1', 37.2'))의 신호 강도와 믹싱된 채널(출력 오디오 신호(31)의 공통 채널(31.1))의 합성 신호의 신호 강도 간의 비를 설명한다. 스케일링 팩터들은 다운믹스 행렬에 포함될 수도 있다. 제 1 스케일링 팩터에 제 1 임계치를 사용함으로써 그리고/또는 제 2 스케일링 팩터에 제 2 임계치를 사용함으로써, 제 1 출력 채널(37.1')의 적어도 결정된 부분 및/또는 제 2 출력 채널(37.2')의 적어도 결정된 부분이 공통 채널(31.3)로 믹싱된다면, 단지 제 1 출력 채널(37.1') 및 제 2 출력 채널(37.2')에 대한 역상관이 오프 전환됨이 보장될 수 있다. 일례로, 임계치들은 0으로 설정될 수도 있다.
도 1의 실시예에서 디코더 출력 채널들(13.3, 13.4)은 출력 오디오 신호(31)의 공통 채널(31.3)로 믹싱된다. 제 1 및 제 2 스케일링 팩터는 0.7071일 수 있다. 이 실시예에서 제 1 및 제 2 임계치는 0으로 설정되므로, 이들의 역상관기(39')는 오프 전환된다.
선호되는 실시예들에서, 제어 디바이스(46)는 포맷 변환기 디바이스(9, 10)로부터 한 세트의 규칙들(47)을 수신하도록 구성되는데, 한 세트의 규칙들(47)에 따라 포맷 변환기 디바이스(9, 10)가 프로세서 출력 신호(37, 37')의 채널들(37.1, 37.2, 37.1', 37.2')을 타깃 라우드스피커 셋업(45)에 따라 출력 오디오 신호(31)의 채널들(31.1, 31.2, 31.3)로 믹싱하고, 여기서 제어 디바이스(46)는 수신된 한 세트의 규칙들(47)에 따라 프로세서들(36, 36')을 제어하도록 구성된다. 여기서, 프로세서들(36, 36')의 제어는 역상관기들(39, 39')의 그리고/또는 믹서들(40, 40')의 제어를 포함할 수도 있다. 이러한 특징에 의해, 제어 디바이스(46)가 프로세서들(36, 36')을 정확한 방식으로 제어하는 것이 보장될 수 있다.
한 세트의 규칙들(47)에 의해, 프로세서의 출력 채널들(36, 36')이 이후의 포맷 변환 단계에 의해 결합되는지 여부의 정보가 제어 디바이스(9, 10)에 제공될 수 있다. 제어 디바이스(46)에 의해 수신된 규칙들은 일반적으로 포맷 변환기 디바이스(9, 10)에 의해 사용되는 각각의 오디오 출력 채널(31.1, 31.2, 31.3)에 대해 각각의 코어 디코더 출력 채널(13.1, 13.2, 13.3, 13.4)에 대한 스케일링 팩터들을 정의하는 다운믹스 행렬의 형태이다. 다음 단계에서, 역상관기들을 제어하기 위한 제어 규칙들이 다운믹스 규칙들로부터 제어 디바이스에 의해 계산될 수 있다. 이 제어 규칙들은 소위 믹스 행렬에 포함될 수 있는데, 이는 제어 디바이스(46)에 의해 타깃 라우드스피커 셋업(45)에 따라 생성될 수 있다. 이 제어 규칙들은 다음에 역상관기들(39, 39') 및/또는 믹서들(40, 40')을 제어하는 데 사용될 수 있다. 그 결과, 제어 디바이스(46)는 수동 개입 없이 서로 다른 타깃 라우드스피커 셋업들(45)에 적응될 수 있다.
도 1에서, 한 세트의 규칙들(47)은 디코더 출력 채널들(13.3, 13.4)이 출력 오디오 신호(31)의 공통 채널(31.3)로 믹싱되는 정보를 포함할 수 있다. 이는, 기준 라우드스피커 셋업(42)의 왼쪽 서라운드 라우드스피커 및 오른쪽 서라운드 라우드스피커가 타깃 라우드스피커 셋업(45)에서 중앙 서라운드 라우드스피커로 교체될 때 도 1의 실시예에서 이루어질 수 있다.
선호되는 실시예들에서, 제어 디바이스(46)는 코어 디코더 출력 신호(13)의 비간섭성 채널들의 수가 타깃 라우드스피커 셋업(45)의 라우드스피커들의 수와 동일하게 되는 식으로 코어 디코더(6)의 역상관기들(39, 39')을 제어하도록 구성된다. 이 경우, 역상관 프로세스로부터뿐만 아니라 다운믹스 프로세스로부터 발생하는 계산 복잡도 및 아티팩트들이 상당히 감소될 수 있다.
예를 들어, 도 1에는 3개의 비간섭성 채널들이 존재하는데, 역상관기(39')의 생략으로 인해 디코더 출력 채널들(13.3, 13.4)이 간섭성이므로, 첫 번째는 디코더 출력 채널(13.1)이고, 두 번째는 디코더 출력 채널(13.2)이며, 세 번째는 디코더 출력 채널들(13.3, 13.4) 각각이다.
실시예들에서, 예컨대 도 1의 실시예에서, 포맷 변환기 디바이스(9, 10)는 코어 디코더 출력 신호(13)를 다운믹싱하기 위한 다운믹서(10)를 포함한다. 다운믹서(10)는 도 1에 도시된 바와 같이 직접 출력 오디오 신호(31)를 발생시킬 수도 있다. 그러나 일부 실시예들에서, 다운믹서(10)는 바이노럴 렌더러(9)와 같은 포맷 변환기(10)의 다른 엘리먼트에 접속될 수도 있으며, 이는 다음에 출력 오디오 신호(31)를 발생시킨다.
도 2는 본 발명에 따른 디코더의 제 2 실시예의 블록도를 보여준다. 다음에는, 제 1 실시예에 대한 차이점들만이 논의될 것이다. 도 2에서 포맷 변환기(9, 10)는 바이노럴 렌더러(9)를 포함한다. 바이노럴 렌더러들(9)은 일반적으로 다채널 신호를 스테레오 헤드폰들에서의 사용을 위해 적응된 스테레오 신호로 변환하는 데 사용된다. 바이노럴 렌더러(9)는 이에 공급되는 신호의 바이노럴 다운믹스(LB, RB)를 발생시켜, 이 신호의 각각의 채널이 가상 음원으로 표현되게 한다. 다채널 신호는 최대 32개의 채널들 또는 그 이상을 가질 수도 있다. 그러나 도 2에서는 문제들을 간단히 하기 위해 4 채널 신호가 도시된다. 처리는 구적 미러 필터(QMF) 도메인에서 프레임 단위로 구성될 수 있다. 바이노럴화는 측정된 바이노럴 룸 임펄스 응답들을 기초로 하며 극도로 높은 계산 복잡도를 야기하는데, 이는 바이노럴 렌더러(9)에 공급되는 신호의 비간섭성/비상관 채널들의 수와 상관한다. 계산 복잡도를 감소시키기 위해, 역상관기들(39, 39') 중 적어도 하나가 오프 전환될 수도 있다.
도 2의 실시예에서, 코어 디코더 출력 신호(13)가 바이노럴 렌더러 입력 신호(13)로서 바이노럴 렌더러(9)에 공급된다. 이 경우, 제어 디바이스(46)는 대개 코어 디코더 출력 신호(13)의 채널들(13.1, 13.2, 13.3, 13.4)의 수가 헤드폰들의 라우드스피커들의 수보다 더 많게 되는 식으로 코어 디코더(6)의 프로세서들을 제어하도록 구성된다. 예를 들어, 바이노럴 렌더러(9)는 3차원 오디오 인상을 발생시키기 위해 헤드폰들에 공급되는 스테레오 신호의 주파수 특성들을 조정하기 위해 채널들에 포함된 공간 음향 정보를 사용할 수 있기 때문에 이것이 요구될 수도 있다.
도시되지 않은 실시예들에서, 다운믹서(10)의 다운믹서 출력 신호는 바이노럴 렌더러(9)에 바이노럴 렌더러 입력 신호로서 공급된다. 다운믹서(10)의 출력 오디오 신호가 바이노럴 렌더러(9)에 공급되는 경우, 그 입력 신호의 채널들의 수는 코어 디코더 출력 신호(13)가 바이노럴 렌더러(9)에 공급되는 경우들보다 상당히 더 적으므로, 계산 복잡도가 감소된다.
유리한 실시예들에서, 프로세서(36)는 도 3과 도 4에 도시된 바와 같이 1 입력 2 출력 디코딩 툴(OTT)(36)이다.
도 3에 도시된 바와 같이, 역상관기(39)는 프로세서 입력 신호(38)의 적어도 하나의 채널(38.1)을 역상관함으로써 역상관된 신호(48)를 생성하도록 구성되고, 여기서 믹서(40)는 프로세서 출력 신호(37)가 2개의 비간섭성 출력 채널들(37.1, 37.2)로 구성되도록 채널 레벨 차(CLD) 신호 및/또는 채널 간 간섭성(ICC) 신호(50)를 기초로 프로세서 입력 오디오 신호(48)와 역상관된 신호(48)를 믹싱한다.
이러한 1 입력 2 출력 디코딩 툴(36)은 쉬운 방식으로 서로에 대해 정확한 진폭 및 간섭을 갖는 채널들(37.1, 37.2)의 쌍으로 프로세서 출력 신호(37)를 생성하는 것을 가능하게 한다. 일반적으로 역상관기(역상관 필터)는 모든 통과(IIR) 섹션들이 이어지는 주파수 의존 사전 지연으로 구성된다.
일부 실시예들에서, 제어 디바이스는 역상관된 오디오 신호(48)를 0으로 설정함으로써 또는 믹서가 역상관된 신호(48)를 각각의 프로세서(36)의 프로세서 출력 신호(37)로 믹싱하는 것을 막음으로써 프로세서들(36) 중 하나의 프로세서의 역상관기(39)를 오프 전환하도록 구성된다. 두 방법들 모두 역상관기(39)를 쉬운 방식으로 오프 전환하는 것을 가능하게 한다.
일부 실시예들은 "ISO/IEC IS 23003-3 Unified speech and audio coding"을 기반으로 다채널 디코더(2)에 대해 정의될 수 있다.
다채널 코딩의 경우, USAC는 서로 다른 채널 엘리먼트들로 구성된다. 5.1 오디오 채널들에 대한 일례가 아래에 주어진다.
단순한 비트 스트림 페이로드의 예
Figure 112016015186901-pct00001
각각의 스테레오 엘리먼트(ID_USAC_CPE)는 OTT(36)에 의한 모노에서 스테레오로의 업믹싱에 MPEG 서라운드를 사용하도록 구성될 수 있다. 아래 도시된 바와 같이, 각각의 엘리먼트는 모노 입력 신호를 그 모노 입력 신호와 공급되는 역상관기(39)의 출력과 믹싱함으로써 정확한 공간 큐들에 의해 2개의 출력 채널들(37.1, 37.2)을 생성한다[2][3].
중요한 빌딩 블록은 출력 채널들(37.1, 37.2)의 정확한 간섭/상관을 합성하는 데 사용되는 역상관기(39)이다. 일반적으로, 상관 해제 필터들은 모든 통과(IIR) 섹션들이 이어지는 주파수 의존 사전 지연으로 구성된다.
하나의 OTT 디코딩 블록(36)의 출력 채널들(37.1, 37.2)이 이후의 포맷 변환 단계에 의해 다운믹싱되는 경우, 정확한 상관의 합성은 지각적으로 무관하게 된다. 그러므로 이러한 업믹싱 블록들에 대해서는 역상관기(39)가 생략될 수 있다. 이는 다음과 같이 달성될 수 있다.
포맷 변환(9, 10)과 디코딩 간의 상호 작용은 도 5에 도시된 것과 같이 설정될 수 있다. OTT 디코딩 블록(36)의 출력 채널들이 이후의 포맷 변환 단계(9, 10)에 의해 다운믹싱되는지 여부의 정보가 생성될 수도 있다. 이 정보는 소위 믹스 행렬에 포함되는데, 이는 행렬 계산기(46)에 의해 생성되어 USAC 디코더(6)로 전달된다. 행렬 계산기에 의해 처리되는 정보는 일반적으로 포맷 변환 모듈(9, 10)에 의해 제공되는 다운믹스 행렬이다.
포맷 변환 처리 블록(9, 10)은 오디오 데이터를 기준 라우드스피커 셋업(42)과는 다를 수 있는 라우드스피커 셋업(45)에서 재생에 적합하도록 변환한다. 이러한 셋업은 타깃 라우드스피커 셋업(45)이라 한다.
다운믹싱은 기준 라우드스피커 셋업(42)에 존재하는 더 적은 수의 라우드스피커들이 타깃 라우드스피커 셋업(45)에 사용되는 경우를 설명한다.
도 6에서는, 왼쪽 전면 라우드스피커 채널(L), 오른쪽 전면 라우드스피커 채널(R), 왼쪽 서라운드 라우드스피커 채널(LS), 오른쪽 서라운드 라우드스피커 채널(RS), 중앙 전면 라우드스피커 채널(C) 및 저주파 강화 라우드스피커 채널(LFE)을 포함하는 5.1 기준 라우드스피커 셋업(42)에 적합한 출력 채널들(13.1 - 13.6)을 포함하는 코어 디코더 출력 신호를 제공하는 코어 디코더(6)가 도시된다. 프로세서(36)의 역상관기(39)가 온 전환될 때, 프로세서(36)에 공급되는 채널 쌍 엘리먼트들(ID_USAC_CPE)을 기초로 프로세서(36)에 의해 출력 채널들(13.1, 13.2)이 역상관된 채널들(13.1, 13.2)로서 생성된다.
왼쪽 전면 라우드스피커 채널(L), 오른쪽 전면 라우드스피커 채널(R), 왼쪽 서라운드 라우드스피커 채널(LS), 오른쪽 서라운드 라우드스피커 채널(RS) 및 중앙 전면 라우드스피커 채널(C)은 메인 채널들인 반면, 저주파 강화 라우드스피커 채널(LFE)은 선택적이다.
같은 식으로, 프로세서(36')의 역상관기(39')가 온 전환될 때, 프로세서(36')에 공급되는 채널 쌍 엘리먼트들(ID_USAC_CPE)을 기초로 프로세서(36')에 의해 출력 채널들(13.3, 13.4)이 역상관된 채널들(13.3, 13.4)로서 생성된다.
출력 채널(13.5)은 단일 채널 엘리먼트들(ID_USAC_SCE)을 기초로 하는 반면, 출력 채널(13.6)은 저주파 강화 엘리먼트들(ID_USAC_LFE)을 기초로 한다.
6개의 적당한 라우드스피커들이 이용 가능한 경우, 코어 디코더 출력 신호(13)가 어떠한 다운믹싱도 없이 재생에 사용될 수 있다. 그러나 스테레오 라우드스피커 세트만이 이용 가능한 경우에는, 코어 디코더 출력 신호(13)가 다운믹싱될 수도 있다.
일반적으로 다운믹싱 처리는 각각의 타깃 채널에 대해 각각의 소스 채널에 대한 스케일링 팩터들을 정의하는 다운믹스 행렬에 의해 설명될 수 있다.
예를 들어, ITU BS775는 5.1 메인 채널들을 스테레오로 다운믹싱하기 위해 다음의 다운믹스 행렬을 정의하는데, 이는 채널들(L, R, C, LS, RS)을 스테레오 채널들(L', R')에 맵핑한다.
Figure 112016015186901-pct00002
다운믹스 행렬은 m×n 치수를 갖는데, 여기서 n은 소스 채널들의 수이고 m은 목적지 채널들의 수이다.
다운믹스 행렬(M DMX )로부터 행렬 계산기 처리 블록에서 소위 믹스 행렬(M Mix )이 추정되는데, 이는 소스 채널들 중 어느 것이 결합되고 있는지를 설명한다. 이것은 n×n 치수를 갖는다.
Figure 112016015186901-pct00003
M Mix 는 대칭 행렬이라는 점에 주목한다.
다운믹싱 5개의 채널들을 스테레오로 다운믹싱하는 상기 예의 경우, 믹스 행렬(M Mix )은 다음과 같다:
Figure 112016015186901-pct00004
믹스 행렬을 얻기 위한 방법은 다음의 의사 코드로 주어진다:
Figure 112016015186901-pct00005
Figure 112016015186901-pct00006
일례로, 임계치(thr)는 0으로 설정될 수 있다.
각각의 OTT 디코딩 블록은 채널 번호 i 및 j에 대응하는 2개의 출력 채널들을 산출한다. 믹스 행렬 M Mix (i, j)가 1과 같다면, 이 디코딩 블록에 대해서는 역상관이 오프 전환된다.
역상관기(39)를 생략하기 위해, 엘리먼트들(q l,m )이 0으로 설정된다. 대안으로, 아래 도시된 바와 같이 역상관 경로가 생략될 수 있다.
이는 업믹스 행렬(
Figure 112016015186901-pct00007
)의 엘리먼트들(
Figure 112016015186901-pct00008
,
Figure 112016015186901-pct00009
)이 각각 0으로 설정되거나 생략되게 한다. (세부사항들에 대해서는 Ref. [2]의 "6.5.3.2 Derivation of arbitrary matrix element" 참조).
다른 선호되는 실시예에서는, ICC l,m = 1을 설정함으로써 업믹스 행렬(
Figure 112016015186901-pct00010
)의 엘리먼트들(
Figure 112016015186901-pct00011
,
Figure 112016015186901-pct00012
)이 계산될 것이다.
도 7은 스테레오 채널들(L', R')로의 메인 채널들(L, R, LS, LR, C)의 다운믹스를 설명한다. 프로세서(36)에 의해 생성된 채널들(L, R)이 출력 오디오 신호(31)의 공통 채널로 믹싱되지 않으므로, 프로세서(36)의 역상관기(39)는 그대로 온 전환된다. 같은 식으로, 프로세서(36')에 의해 생성된 채널들(LS, RS)이 출력 오디오 신호(31)의 공통 채널로 믹싱되지 않으므로, 프로세서(36')의 역상관기(39')는 그대로 온 전환된다. 저주파 강화 라우드스피커 채널(LFE)이 선택적으로 사용될 수도 있다.
도 8은 4.0 타깃 라우드스피커 셋업(45)으로의, 도 6에 도시된 5.1 기준 라우드스피커 셋업(42)의 다운믹스를 설명한다. 프로세서(36)에 의해 생성된 채널들(L, R)이 출력 오디오 신호(31)의 공통 채널로 믹싱되지 않으므로, 프로세서(36)의 역상관기(39)는 그대로 온 전환된다. 그러나 프로세서(36')에 의해 생성된 채널들(13.3(도 6에서 LS), 13.4(도 6에서 RS))은 중앙 서라운드 라우드스피커 채널(CS)을 형성하기 위해 출력 오디오 신호(31)의 공통 채널(31.3)로 믹싱된다. 따라서 채널(13.3)이 중앙 서라운드 라우드스피커 채널(CS')이 되도록 그리고 채널(13.4)이 중앙 서라운드 라우드스피커 채널(CS'')이 되도록 프로세서(36')의 역상관기(39')가 오프 전환된다. 그렇게 함으로써, 수정된 기준 라우드스피커 셋업(42')이 생성된다. 채널들(CS', CS'')은 상관되지만 동일하지 않다는 점에 주목한다.
완전성을 위해, 채널들(13.5(C), 13.6(LFE))이 중앙 전면 라우드스피커 채널(C)을 형성하기 위해 출력 오디오 신호(31)의 공통 채널(31.4)로 믹싱된다는 점이 추가되어야 한다.
도 9에서는, 왼쪽 전면 라우드스피커 채널(L), 왼쪽 전면 중앙 라우드스피커 채널 LC, 왼쪽 서라운드 라우드스피커 채널(LS), 왼쪽 서라운드 수직 높이 후면(LVR), 오른쪽 전면 라우드스피커 채널(R), 오른쪽 서라운드 라우드스피커 채널(RS), 오른쪽 전면 중앙 라우드스피커 채널(RC), 오른쪽 서라운드 라우드스피커 채널(RS), 왼쪽 서라운드 수직 높이 후면(RVR), 중앙 전면 라우드스피커 채널(C) 및 저주파 강화 라우드스피커 채널(LFE)을 포함하는 9.1 기준 라우드스피커 셋업(42)에 적합한 출력 채널들(13.1 - 13.10)을 포함하는 코어 디코더 출력 신호(13)를 제공하는 코어 디코더(6)가 도시된다.
프로세서(36)의 역상관기(39)가 온 전환될 때, 프로세서(36)에 공급되는 채널 쌍 엘리먼트들(ID_USAC_CPE)을 기초로 프로세서(36)에 의해 출력 채널들(13.1, 13.2)이 역상관된 채널들(13.1, 13.2)로서 생성된다.
프로세서(36')의 역상관기(39')가 온 전환될 때, 프로세서(36')에 공급되는 채널 쌍 엘리먼트들(ID_USAC_CPE)을 기초로 프로세서(36')에 의해 유사한 출력 채널들(13.3, 13.4)이 역상관된 채널들(13.3, 13.4)로서 생성된다.
또한, 프로세서(36'')의 역상관기(39'')가 온 전환될 때, 프로세서(36'')에 공급되는 채널 쌍 엘리먼트들(ID_USAC_CPE)을 기초로 프로세서(36'')에 의해 출력 채널들(13.5, 13.6)이 역상관된 채널들(13.5, 13.6)로서 생성된다.
더욱이, 프로세서(36''')의 역상관기(39''')가 온 전환될 때, 프로세서(36''')에 공급되는 채널 쌍 엘리먼트들(ID_USAC_CPE)을 기초로 프로세서(36''')에 의해 출력 채널들(13.7, 13.8)이 역상관된 채널들(13.7, 13.8)로서 생성된다.
출력 채널(13.9)은 단일 채널 엘리먼트들(ID_USAC_SCE)을 기초로 하는 반면, 출력 채널(13.10)은 저주파 강화 엘리먼트들(ID_USAC_LFE)을 기초로 한다.
도 10은 5.1 타깃 라우드스피커 셋업(45)으로의, 도 9에 도시된 9.1 기준 라우드스피커 셋업(42)의 다운믹스를 설명한다. 프로세서(36)에 의해 생성된 채널들(13.1, 13.2)은 왼쪽 전면 라우드스피커 채널(L')을 형성하기 위해 출력 오디오 신호(31)의 공통 채널(31.1)로 믹싱되므로, 채널(13.1)이 왼쪽 전면 라우드스피커 채널(L')이 되도록 그리고 채널(13.2)이 왼쪽 전면 라우드스피커 채널(L'')이 되도록 프로세서(36)의 역상관기(39)가 오프 전환된다.
또한, 프로세서(36')에 의해 생성된 채널들(13.3, 13.4)은 왼쪽 서라운드 라우드스피커 채널(LS)을 형성하기 위해 출력 오디오 신호(31)의 공통 채널(31.2)로 믹싱된다. 따라서 채널(13.3)이 왼쪽 서라운드 라우드스피커 채널(LS')이 되도록 그리고 채널(13.4)이 왼쪽 서라운드 라우드스피커 채널(LS'')이 되도록 프로세서(36')의 역상관기(39')가 오프 전환된다.
프로세서(36'')에 의해 생성된 채널들(13.5, 13.6)은 오른쪽 전면 라우드스피커 채널(R)을 형성하도록 출력 오디오 신호(31)의 공통 채널(31.3)로 믹싱되므로, 채널(13.5)이 오른쪽 전면 라우드스피커 채널(R')이 되도록 그리고 채널(13.2)이 오른쪽 전면 라우드스피커 채널(R'')이 되도록 프로세서(36'')의 역상관기(39'')가 오프 전환된다.
더욱이, 프로세서(36''')에 의해 생성된 채널들(13.7, 13.8)은 오른쪽 서라운드 라우드스피커 채널(RS)을 형성하도록 출력 오디오 신호(31)의 공통 채널(31.4)로 믹싱된다. 따라서 채널(13.7)이 오른쪽 서라운드 라우드스피커 채널(RS')이 되도록 그리고 채널(13.8)이 오른쪽 서라운드 라우드스피커 채널(RS'')이 되도록 프로세서(36''')의 역상관기(39''')가 오프 전환된다.
그렇게 함으로써, 수정된 기준 라우드스피커 셋업(42')이 생성되며, 여기서 코어 디코더 출력 신호(13)의 비간섭성 채널들의 수는 타깃 셋업(45)의 라우드스피커 채널들의 수와 같다.
역상관이 적용되는 주파수 대역들에 대해서만 이 처리가 적용될 것이라는 점이 주목되어야 한다. 잉여 코딩이 사용되는 주파수 대역들은 영향을 받지 않는다.
앞서 언급한 바와 같이, 본 발명은 바이노럴 렌더링에 적용 가능하다. 바이노럴 재생은 일반적으로 헤드폰들 및/또는 모바일 디바이스들 상에서 일어난다. 따라서 제약들이 존재할 수 있으며, 이는 디코더 및 렌더링 복잡도를 제한한다.
역상관기 처리의 감소/생략이 수행될 수도 있다. 오디오 신호가 결국 바이노럴 재생을 위해 처리되는 경우, 모든 또는 일부 OTT 디코딩 블록들에서 역상관을 생략하거나 감소시키는 것이 제안된다.
이는 디코더에서 역상관된 다운믹싱 오디오 신호들로부터의 아티팩트들을 피한다.
바이노럴 렌더링을 위한 디코딩된 출력 채널들의 수가 감소될 수도 있다. 역상관을 생략하는 것뿐만 아니라, 이후에 바이노럴 렌더링, 예를 들어, 모바일 디바이스 상에서 디코딩이 일어난다면, 오리지널 22.2 채널 자료, 5.1로의 디코딩 그리고 22 대신 단지 5개의 채널들의 바이노럴 렌더링을 위한 더 적은 수의 비간섭성 입력 채널들이 되는 더 적은 수의 비간섭성 출력 채널들로 디코딩하는 것이 바람직할 수도 있다.
전체 디코더 복잡도를 감소시키기 위해, 다음의 처리를 적용하는 것이 제안된다:
A) 오리지널 채널 구성보다 더 적은 수의 채널들로 타깃 라우드스피커 셋업을 정의한다. 타깃 채널들의 수는 품질 및 복잡도 제약들에 좌우된다.
타깃 라우드스피커 셋업에 도달하기 위해, 두 가지 가능성들(B1, B2)이 존재하는데, 이는 또한 결합될 수 있다:
B1) 더 적은 수의 채널들로, 즉 디코더에서 완전한 OTT 처리 블록을 스킵함으로써 디코딩한다. 이는 디코더 처리를 제어하기 위해 바이노럴 렌더러에서 (USAC) 코어 디코더로의 정보 경로를 필요로 한다.
B2) 오리지널 라우드스피커 채널 구성 또는 중간 채널 구성에서 타깃 라우드스피커 셋업으로의 포맷 변환(즉, 다운믹싱) 단계를 적용한다. 이는 (USAC) 코어 디코더 이후의 후처리 단계에서 이루어질 수 있으며 변경된 디코딩 프로세스를 필요로 하지 않는다.
마지막으로, 단계 C)가 수행된다:
C) 더 적은 수의 채널들의 바이노럴 렌더링을 수행한다.
SAOC 디코딩에 대한 적용
앞서 설명한 방법들은 또한 파라메트릭 객체 코딩(SAOC) 처리에 적용될 수 있다.
역상관기 처리의 감소/생략에 의한 포맷 변환이 수행될 수도 있다. SAOC 디코딩 이후에 포맷 변환이 적용된다면, 포맷 변환기로부터 SAOC 디코더로의 정보가 송신된다. SAOC 디코더 내에서의 이러한 정보 상관은 인위적으로 역상관된 신호들을 양을 줄이도록 제어된다. 이 정보는 전체 다운믹스 행렬 또는 도출된 정보일 수 있다.
또한, 역상관기 처리의 감소/생략에 의한 바이노럴 렌더링이 실행될 수도 있다. 파라메트릭 객체 코딩(SAOC)의 경우, 디코딩 프로세스에 역상관이 적용된다. 바이노럴 렌더링이 이어진다면, SAOC 디코더 내에서의 역상관 처리가 생략 또는 감소되어야 한다.
더욱이, 감소된 수의 채널들을 갖는 바이노럴 렌더링이 실행될 수도 있다. SAOC 디코딩 이후에 바이노럴 재생이 적용된다면, SAOC 디코더는 포맷 변환기로부터의 정보를 기초로 구성되는 다운믹스 행렬을 사용하여 더 적은 수의 채널들로 렌더링하도록 구성될 수 있다.
역상관 필터링은 상당한 계산 복잡도를 필요로 하므로, 제안된 방법에 의해 전체 디코딩 작업량이 크게 감소될 수 있다.
모든 통과 필터들이 주관적인 음향 품질에 최소한의 영향을 갖는 식으로 설계되더라도, 가청 아티팩트들이 유도되는 것, 예를 들어 특정 주파수 성분들의 위상 왜곡들 또는 "링잉"으로 인한 트랜션트들의 스미어링은 항상 회피될 수 없다. 따라서 생략된 역상관 필터링 프로세서의 부가 영향들로서, 오디오 음질의 개선이 달성될 수 있다. 또한, 이후의 다운믹싱에 의한 이러한 역상관기 아티팩트들의 임의의 언마스킹, 업믹싱 또는 바이노럴 처리가 피해진다.
추가로, (USAC) 코어 디코더 또는 SAOC 디코더와 결합한 바이노럴 렌더링의 경우에 복잡도 감소를 위한 방법들이 논의되었다.
설명한 실시예들의 방법들과 디코더 및 인코더에 관해, 다음이 언급된다:
일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타냄이 명백하며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 비슷하게, 방법 단계와 관련하여 설명된 양상들은 또한 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명을 나타낸다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 전기적으로 판독 가능한 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있는데, 이는 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력한다(또는 협력할 수 있다).
본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전기적으로 판독 가능한 제어 신호들을 갖는 데이터 반송파를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 가진 컴퓨터 프로그램 물건으로서 구현될 수 있는데, 프로그램 코드는 컴퓨터 상에서 컴퓨터 프로그램 물건이 실행될 때 방법들 중 하나를 수행하도록 동작 가능하다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수도 있다.
다른 실시예들은 기계 판독 가능 캐리어 또는 비-일시적 저장 매체 상에 저장되어, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
따라서 다시 말하면, 본 발명의 방법의 한 실시예는 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서 본 발명의 방법들의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 기록된 데이터 반송파(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다.
따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 시퀀스 또는 데이터 스트림이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수도 있다.
추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 처리 수단, 예를 들어 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.
추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시예들에서, 프로그래밍 가능한 로직 디바이스(예를 들어, 필드 프로그래밍 가능한 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는 데 사용될 수도 있다. 일부 실시예들에서, 필드 프로그래밍 가능한 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수도 있다. 일반적으로, 이 방법들은 유리하게는 임의의 하드웨어 장치에 의해 수행된다.
본 발명은 여러 가지 실시예들에 관해 설명되었지만, 본 발명의 범위 내에 속하는 변경들, 치환들 및 등가물들이 있다. 본 발명의 방법들 및 구성들을 구현하는 많은 대안적인 방법들이 존재한다는 점이 또한 주목되어야 한다. 따라서 다음의 첨부된 청구항들은 본 발명의 진의 및 범위 내에 속하는 이러한 모든 변경들, 치환들 및 등가물들을 포함하는 것으로 해석되는 것으로 의도된다.
참조들
[1] Surround Sound Explained ― Part 5. Published in: soundonsound magazine, December 2001.
[2] ISO/IEC IS 23003-1, MPEG audio technologies ― Part 1: MPEG Surround.
[3] ISO/IEC IS 23003-3, MPEG audio technologies ― Part 3: Unified speech and audio coding.

Claims (16)

  1. 압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스로서,
    프로세서 입력 신호(38, 38')를 기초로 프로세서 출력 신호(37, 37')를 생성하기 위한 하나 또는 그보다 많은 프로세서들(36, 36')을 갖는 적어도 하나의 코어 디코더(6, 24) ― 상기 프로세서 출력 신호(37, 37')의 출력 채널들(37.1, 37.2, 37.1', 37.2')의 수는 상기 프로세서 입력 신호(38, 38')의 입력 채널들(38.1, 38.1')의 수보다 더 많고, 상기 하나 또는 그보다 많은 프로세서들(36, 36') 각각은 역상관기(39, 39') 및 믹서(40, 40')를 포함하며, 복수의 채널들(13.1, 13.2, 13.3, 13.4)을 갖는 코어 디코더 출력 신호(13)는 상기 프로세서 출력 신호(37, 37')를 포함하고, 상기 코어 디코더 출력 신호(13)는 기준 라우드스피커 셋업(42)에 적합함 ―;
    상기 코어 디코더 출력 신호(13)를 타깃 라우드스피커 셋업(45)에 적합한 출력 오디오 신호(31)로 변환하도록 구성된 적어도 하나의 포맷 변환기 디바이스(9, 10); 및
    프로세서(36, 36')의 역상관기(39, 39')가 상기 프로세서(36, 36')의 믹서(40, 40')와 독립적으로 제어될 수 있게 적어도 하나 또는 그보다 많은 프로세서들(36, 36')을 제어하도록 구성된 제어 디바이스(46)를 포함하며,
    상기 제어 디바이스(46)는 상기 타깃 라우드스피커 셋업(45)에 따라, 상기 프로세서(36, 36')의 역상관기(39, 39')가 스위치 오프될 때 상기 프로세서(36, 36')의 믹서(40, 40')가 가동적(operational)인 방식으로, 상기 하나 또는 그보다 많은 프로세서들(36, 36')의 역상관기들(39, 39') 중 적어도 하나를 제어하도록 구성되는,
    압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스.
  2. 제 1 항에 있어서,
    상기 제어 디바이스(46)는 상기 프로세서 입력 신호(38, 38')의 입력 채널들(38.1, 38.1')이 미처리 형태로 상기 프로세서 출력 신호(37, 37')의 출력 채널들(37.1, 37.2, 37.1', 37.2')에 공급되게 적어도 하나 또는 그보다 많은 프로세서들(36, 36')을 비활성화하도록 구성되는,
    압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스.
  3. 제 1 항에 있어서,
    상기 프로세서(36, 36')는 1 입력 2 출력 디코딩 툴이고,
    상기 역상관기(39, 39')는 상기 프로세서 입력 신호(38, 38')의 채널들(38.1, 38.1') 중 적어도 하나를 역상관함으로써 역상관된 신호(48)를 생성하도록 구성되며,
    상기 믹서(40, 40')는 상기 프로세서 출력 신호(37, 37')가 2개의 비간섭성 출력 채널들(37.1, 37.2, 37.1', 37.2')로 구성되도록 채널 레벨 차 신호(49) 및/또는 채널 간 간섭성 신호(50)를 기초로 상기 프로세서 입력 신호(38, 38')와 상기 역상관된 신호(46)를 믹싱하는,
    압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스.
  4. 제 3 항에 있어서,
    상기 제어 디바이스는 상기 역상관된 신호(48)를 0으로 설정함으로써 또는 상기 믹서(40, 40')가 상기 역상관된 신호(46)를 각각의 프로세서(36, 36')의 프로세서 출력 신호(37, 37')로 믹싱하는 것을 막음으로써 상기 프로세서들(36, 36') 중 하나의 프로세서의 역상관기(36, 36')를 오프 전환하도록 구성되는,
    압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스.
  5. 제 1 항에 있어서,
    상기 코어 디코더(6)는 USAC 디코더(6)와 같은 음악 및 음성 모두에 대한 디코더이고,
    상기 프로세서들(36, 36') 중 적어도 하나의 프로세서의 프로세서 입력 신호(38)는 USAC 채널 쌍 엘리먼트들과 같은 채널 쌍 엘리먼트들을 포함하는,
    압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스.
  6. 제 1 항에 있어서,
    상기 코어 디코더(24)는 SAOC 디코더(24)와 같은 파라메트릭 객체 코더인,
    압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스.
  7. 제 1 항에 있어서,
    상기 기준 라우드스피커 셋업(42)의 라우드스피커들의 수는 상기 타깃 라우드스피커 셋업(45)의 라우드스피커들의 수보다 많은,
    압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스.
  8. 제 1 항에 있어서,
    상기 제어 디바이스(46)는, 상기 프로세서 출력 신호(37')의 상기 출력 채널들 중 하나인 제 1 출력 채널(37,1')을 상기 출력 오디오 신호(31)의 공통 채널(31.2)로 믹싱하기 위한 제 1 스케일링 팩터가 제 1 임계치를 초과하고 그리고/또는 상기 프로세서 출력 신호(37')의 상기 출력 채널들 중 하나인 제 2 출력 채널(37.2')을 상기 공통 채널(31.2)로 믹싱하기 위한 제 2 스케일링 팩터가 제 2 임계치를 초과한다면, 상기 출력 채널들 중 제 1 출력 채널(37.1')과 상기 출력 채널들 중 제 2 출력 채널(37.2')이 상기 타깃 라우드스피커 셋업에 따라 상기 공통 채널(31.2)로 믹싱되는 경우, 적어도 상기 출력 채널들 중 제 1 출력 채널(37.1') 및 상기 출력 채널들 중 제 2 출력 채널(37.2')에 대해 상기 역상관기(39')를 오프 전환하도록 구성되는,
    압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스.
  9. 제 1 항에 있어서,
    상기 제어 디바이스(46)는 상기 포맷 변환기 디바이스(9, 10)로부터 한 세트의 규칙들(47)을 수신하도록 구성되는데, 상기 한 세트의 규칙들(47)에 따라 상기 포맷 변환기 디바이스(9, 10)가 상기 코어 디코더 출력 신호(13)의 채널들(13.1, 13.2, 13.3, 13.4)을 상기 타깃 라우드스피커 셋업(45)에 따라 상기 출력 오디오 신호(31)의 채널들(31.1, 31.2, 31.3)로 믹싱하고,
    상기 제어 디바이스(46)는 수신된 한 세트의 규칙들(47)에 따라 상기 프로세서들(36, 36') 중 적어도 하나를 제어하도록 구성되는,
    압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스.
  10. 제 1 항에 있어서,
    상기 제어 디바이스(46)는 상기 코어 디코더 출력 신호(13)의 비간섭성 채널들의 수가 상기 출력 오디오 신호(31)의 채널들(31.1, 31.2, 31.3)의 수와 동일하게 되는 식으로 상기 프로세서들(36, 36')의 역상관기들(39, 39')을 제어하도록 구성되는,
    압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스.
  11. 제 1 항에 있어서,
    상기 포맷 변환기 디바이스(9, 10)는 상기 코어 디코더 출력 신호(13)를 다운믹싱하기 위한 다운믹서(10)를 포함하는,
    압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스.
  12. 제 1 항에 있어서,
    상기 포맷 변환기 디바이스(9, 10)는 바이노럴 렌더러(binaural renderer)(9)를 포함하는,
    압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스.
  13. 제 12 항에 있어서,
    상기 코어 디코더 출력 신호(13)는 상기 바이노럴 렌더러(9)에 바이노럴 렌더러 입력 신호로서 공급되는,
    압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스.
  14. 제 1 항에 있어서,
    상기 포맷 변환기 디바이스(9, 10)는 상기 코어 디코더 출력 신호(13)를 다운믹싱하기 위한 다운믹서(10)를 포함하고,
    상기 포맷 변환기 디바이스(9, 10)는 바이노럴 렌더러(binaural renderer) (9)를 포함하고,
    상기 다운믹서(10)의 다운믹서 출력 신호는 상기 바이노럴 렌더러(9)에 바이노럴 렌더러 입력 신호로서 공급되는,
    압축된 입력 오디오 신호를 디코딩하기 위한 오디오 디코더 디바이스.
  15. 압축된 입력 오디오 신호를 디코딩하기 위한 방법으로서,
    프로세서 입력 신호(38)를 기초로 프로세서 출력 신호(37)를 생성하기 위한 하나 또는 그보다 많은 프로세서들(36, 36')을 갖는 적어도 하나의 코어 디코더(6, 24)를 제공하는 단계 ― 상기 프로세서 출력 신호(37, 37')의 출력 채널들(37.1, 37.2, 37.1', 37.2')의 수는 상기 프로세서 입력 신호(38, 38')의 입력 채널들(38.1, 38.1')의 수보다 더 많고, 상기 하나 또는 그보다 많은 프로세서들(36, 36') 각각은 역상관기(39, 39') 및 믹서(40, 40')를 포함하며, 복수의 채널들(13.1, 13.2, 13.3, 13.4)을 갖는 코어 디코더 출력 신호(13)는 상기 프로세서 출력 신호(37, 37')를 포함하고, 상기 코어 디코더 출력 신호(13)는 기준 라우드스피커 셋업(42)에 적합함 ―;
    상기 코어 디코더 출력 신호(13)를 타깃 라우드스피커 셋업(45)에 적합한 출력 오디오 신호(31)로 변환하도록 구성된 적어도 하나의 포맷 변환기 디바이스(9, 10)를 제공하는 단계; 및
    프로세서(36, 36')의 역상관기(39, 39')가 상기 프로세서(36, 36')의 믹서(40, 40')와 독립적으로 제어될 수 있게 적어도 하나 또는 그보다 많은 프로세서들(36, 36')을 제어하도록 구성된 제어 디바이스(46)를 제공하는 단계를 포함하며,
    상기 제어 디바이스(46)는 상기 타깃 라우드스피커 셋업(45)에 따라, 상기 프로세서(36, 36')의 역상관기(39, 39')가 스위치 오프될 때 상기 프로세서(36, 36')의 믹서(40, 40')가 가동적(operational)인 방식으로, 상기 하나 또는 그보다 많은 프로세서들(36, 36')의 역상관기들(39, 39') 중 적어도 하나를 제어하도록 구성되는,
    압축된 입력 오디오 신호를 디코딩하기 위한 방법.
  16. 컴퓨터 또는 신호 프로세서 상에서 실행될 때 제 15 항의 방법을 구현하기 위한 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장 매체.
KR1020167003937A 2013-07-22 2014-07-14 렌더러 제어 공간 업믹스 KR101795324B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13177368.1 2013-07-22
EP13177368 2013-07-22
EP13189285.3 2013-10-18
EP20130189285 EP2830336A3 (en) 2013-07-22 2013-10-18 Renderer controlled spatial upmix
PCT/EP2014/065037 WO2015010937A2 (en) 2013-07-22 2014-07-14 Renderer controlled spatial upmix

Publications (2)

Publication Number Publication Date
KR20160033734A KR20160033734A (ko) 2016-03-28
KR101795324B1 true KR101795324B1 (ko) 2017-12-01

Family

ID=48874136

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167003937A KR101795324B1 (ko) 2013-07-22 2014-07-14 렌더러 제어 공간 업믹스

Country Status (17)

Country Link
US (4) US10085104B2 (ko)
EP (2) EP2830336A3 (ko)
JP (1) JP6134867B2 (ko)
KR (1) KR101795324B1 (ko)
CN (2) CN105580391B (ko)
AR (1) AR096987A1 (ko)
AU (1) AU2014295285B2 (ko)
BR (1) BR112016001246B1 (ko)
CA (1) CA2918641C (ko)
ES (1) ES2734378T3 (ko)
MX (1) MX359379B (ko)
PL (1) PL3025521T3 (ko)
PT (1) PT3025521T (ko)
RU (1) RU2659497C2 (ko)
SG (1) SG11201600459VA (ko)
TW (1) TWI541796B (ko)
WO (1) WO2015010937A2 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI651005B (zh) 2011-07-01 2019-02-11 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
WO2014112793A1 (ko) 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
EP2830336A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix
WO2015036350A1 (en) 2013-09-12 2015-03-19 Dolby International Ab Audio decoding system and audio encoding system
WO2016141023A1 (en) * 2015-03-03 2016-09-09 Dolby Laboratories Licensing Corporation Enhancement of spatial audio signals by modulated decorrelation
KR20240050483A (ko) 2015-06-17 2024-04-18 삼성전자주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
KR102627374B1 (ko) * 2015-06-17 2024-01-19 삼성전자주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
WO2017165968A1 (en) * 2016-03-29 2017-10-05 Rising Sun Productions Limited A system and method for creating three-dimensional binaural audio from stereo, mono and multichannel sound sources
US9913061B1 (en) 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
AU2018308668A1 (en) * 2017-07-28 2020-02-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for encoding or decoding an encoded multichannel signal using a filling signal generated by a broad band filter
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation
CN114822564A (zh) * 2021-01-21 2022-07-29 华为技术有限公司 音频对象的比特分配方法和装置
WO2022258876A1 (en) * 2021-06-10 2022-12-15 Nokia Technologies Oy Parametric spatial audio rendering

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090010440A1 (en) 2006-02-07 2009-01-08 Lg Electronics Inc. Apparatus and Method for Encoding/Decoding Signal
JP2009531735A (ja) 2006-03-28 2009-09-03 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
US20100094631A1 (en) 2007-04-26 2010-04-15 Jonas Engdegard Apparatus and method for synthesizing an output signal

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
JP4322207B2 (ja) 2002-07-12 2009-08-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化方法
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
JP2006050241A (ja) * 2004-08-04 2006-02-16 Matsushita Electric Ind Co Ltd 復号化装置
KR100803212B1 (ko) 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
PL1999999T3 (pl) * 2006-03-24 2012-07-31 Dolby Int Ab Generowanie downmixów przestrzennych na podstawie parametrycznych reprezentacji sygnałów wielokanałowych
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
WO2009084916A1 (en) * 2008-01-01 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
KR20120006060A (ko) * 2009-04-21 2012-01-17 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 합성
JP5864892B2 (ja) 2010-06-02 2016-02-17 キヤノン株式会社 X線導波路
WO2011151771A1 (en) * 2010-06-02 2011-12-08 Koninklijke Philips Electronics N.V. System and method for sound processing
JP5998467B2 (ja) * 2011-12-14 2016-09-28 富士通株式会社 復号装置、復号方法、及び復号プログラム
EP2830336A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderer controlled spatial upmix

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090010440A1 (en) 2006-02-07 2009-01-08 Lg Electronics Inc. Apparatus and Method for Encoding/Decoding Signal
JP2009531735A (ja) 2006-03-28 2009-09-03 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
US20100094631A1 (en) 2007-04-26 2010-04-15 Jonas Engdegard Apparatus and method for synthesizing an output signal

Also Published As

Publication number Publication date
EP2830336A3 (en) 2015-03-04
US11184728B2 (en) 2021-11-23
SG11201600459VA (en) 2016-02-26
US11743668B2 (en) 2023-08-29
US10341801B2 (en) 2019-07-02
US20180124541A1 (en) 2018-05-03
MX359379B (es) 2018-09-25
CA2918641C (en) 2020-10-27
RU2659497C2 (ru) 2018-07-02
TWI541796B (zh) 2016-07-11
JP6134867B2 (ja) 2017-05-31
US20190281401A1 (en) 2019-09-12
WO2015010937A3 (en) 2015-03-19
CN105580391A (zh) 2016-05-11
CN105580391B (zh) 2019-04-12
ES2734378T3 (es) 2019-12-05
JP2016527804A (ja) 2016-09-08
US20220070603A1 (en) 2022-03-03
AU2014295285A1 (en) 2016-03-10
WO2015010937A2 (en) 2015-01-29
US20160157040A1 (en) 2016-06-02
TW201517021A (zh) 2015-05-01
PL3025521T3 (pl) 2019-10-31
CA2918641A1 (en) 2015-01-29
KR20160033734A (ko) 2016-03-28
BR112016001246B1 (pt) 2022-03-15
EP3025521B1 (en) 2019-05-01
CN110234060A (zh) 2019-09-13
EP2830336A2 (en) 2015-01-28
PT3025521T (pt) 2019-08-05
RU2016105520A (ru) 2017-08-29
EP3025521A2 (en) 2016-06-01
BR112016001246A2 (ko) 2017-07-25
MX2016000916A (es) 2016-05-05
CN110234060B (zh) 2021-09-28
US10085104B2 (en) 2018-09-25
AR096987A1 (es) 2016-02-10
AU2014295285B2 (en) 2017-09-07

Similar Documents

Publication Publication Date Title
US11743668B2 (en) Renderer controlled spatial upmix
US11657826B2 (en) Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US9966080B2 (en) Audio object encoding and decoding
EP3025329B1 (en) Concept for audio encoding and decoding for audio channels and audio objects
JP2011030228A (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
JP6732739B2 (ja) オーディオ・エンコーダおよびデコーダ
KR20200116968A (ko) 하이브리드 인코더/디코더 공간 분석을 사용한 오디오 장면 인코더, 오디오 장면 디코더 및 관련 방법들
AU2013298462A1 (en) Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant