KR101829822B1 - 다채널 오디오 디코더, 다채널 오디오 인코더, 방법, 컴퓨터 프로그램 및 렌더링된 오디오 신호들의 역상관을 사용하는 인코딩된 오디오 표현 - Google Patents

다채널 오디오 디코더, 다채널 오디오 인코더, 방법, 컴퓨터 프로그램 및 렌더링된 오디오 신호들의 역상관을 사용하는 인코딩된 오디오 표현 Download PDF

Info

Publication number
KR101829822B1
KR101829822B1 KR1020167004482A KR20167004482A KR101829822B1 KR 101829822 B1 KR101829822 B1 KR 101829822B1 KR 1020167004482 A KR1020167004482 A KR 1020167004482A KR 20167004482 A KR20167004482 A KR 20167004482A KR 101829822 B1 KR101829822 B1 KR 101829822B1
Authority
KR
South Korea
Prior art keywords
audio signals
signals
audio
rendered
matrix
Prior art date
Application number
KR1020167004482A
Other languages
English (en)
Other versions
KR20160039634A (ko
Inventor
사샤 디쉬
하랄드 푹스
올리버 헬무트
위르겐 헤레
아드리안 무르타자
조우니 파울루스
팔코 리더부슈
레온 테렌티브
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP20130189345 external-priority patent/EP2830334A1/en
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20160039634A publication Critical patent/KR20160039634A/ko
Application granted granted Critical
Publication of KR101829822B1 publication Critical patent/KR101829822B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)

Abstract

인코딩된 표현을 기초로 하여 적어도 두 개의 출력 오디오 신호를 제공하기 위한 다채널 오디오 디코더는 복수의 렌더링된 오디오 신호를 획득하기 위하여, 하나 이상의 렌더링 파라미터에 의존하여, 인코딩된 표현을 기초로 하여 획득되는, 복수의 디코딩된 오디오 신호를 렌더링하도록 구성된다. 다채널 오디오 디코더는 렌더링된 오디오 신호들로부터 하나 이상의 역상관된 오디오 신호를 유도하고, 출력 오디오 신호들을 획득하기 위하여 렌더링된 오디오 신호들 또는 그것들의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 결합하도록 구성된다. 다채널 오디오 인코더는 오디오 디코더를 제어하도록 역상관 방법 파라미터를 제공한다.

Description

다채널 오디오 디코더, 다채널 오디오 인코더, 방법, 컴퓨터 프로그램 및 렌더링된 오디오 신호들의 역상관을 사용하는 인코딩된 오디오 표현{MULTI-CHANNEL AUDIO DECODER, MULTI-CHANNEL AUDIO ENCODER, METHODS, COMPUTER PROGRAM AND ENCODED AUDIO REPRESENTATION USING A DECORRELATION OF RENDERED AUDIO SIGNALS}
본 발명에 따른 실시 예들은 인코딩된 표현(encoded representation)을 기초로 하여 적어도 두 개의 출력 오디오 신호를 제공하기 위한 다채널 오디오 디코더에 관한 것이다.
본 발명에 따른 또 다른 실시 예들은 적어도 두 개의 입력 오디오 신호를 기초로 하여 인코딩된 표현을 제공하기 위한 다채널 오디오 인코더에 관한 것이다.
본 발명에 따른 또 다른 실시 예들은 인코딩된 표현을 기초로 하여 적어도 두 개의 출력 오디오 신호를 제공하기 위한 방법에 관한 것이다.
본 발명에 따른 또 다른 실시 예들은 적어도 두 개의 입력 오디오 신호를 기초로 하여 인코딩된 표현을 제공하기 위한 방법에 관한 것이다.
본 발명에 따른 또 다른 실시 예들은 상기 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램에 관한 것이다.
본 발명에 따른 또 다른 실시 예들은 인코딩된 오디오 표현에 관한 것이다.
일반적으로 설명하면, 본 발명에 따른 또 다른 실시 예들은 다채널 다운믹스(downmix)/업믹스 파라미터 오디오 오브젝트 코딩 시스템들을 위한 역상관(decorrelation) 개념에 관한 것이다.
최근에, 오디오 콘텐츠의 저장과 전송을 위한 요구가 꾸준히 증가하고 있다. 게다가, 오디오 콘텐츠의 저장과 전송을 위한 품질 요구사항들이 또한 꾸준히 증가하고 있다. 따라서, 오디오 콘텐츠의 인코딩과 디코딩을 위한 개념이 개선되어 왔다.
예를 들면, 국제 표준 ISO/IEC 13818-7:2003에서 설명되는, 이른바 "고급 오디오 코딩(AAC)"이 개발되었다. 게다가, 예를 들면 국제 표준 ISO/IEC 23003-1:2007에서 설명되는, 이른바 "MPEG 서라운드" 개념 같은, 일부 공간 확장들이 생성되었다. 게다가, 오디오 신호들의 공간 정보의 인코딩과 디코딩을 위한 부가적인 향상들이 이른바 "공간 오디오 오브젝트 코딩"과 관련된, 국제 표준 ISO/IEC 23003-2:2010에서 설명된다.
게다가, 뛰어난 코딩 효율로 일반적인 오디오 신호들 및 음성 신호들 모두를 인코딩하고 다채널 오디오 신호들을 처리하기 위한 가능성을 제공하는 스위칭 가능한 오디오 인코딩/디코딩 개념이 이른바 "통합 음성 및 오디오 코딩(USAC, 이하 USAC로 표기)" 개념을 설명하는, 국제 표준 ISO/IEC 23003-3:2012에서 정의된다.
게다가, 또 다른 종래의 개념들이 본 발명의 설명의 끝에서 언급되는, 참고문헌들에서 설명된다.
그러나, 3차원 오디오 장면들의 효율적인 인코딩과 디코딩을 위한 훨씬 더 진보된 개념을 제공하기 위한 바람이 존재한다.
본 발명에 따른 일 실시 예는 인코딩된 표현을 기초로 하여 적어도 두 개의 출력 오디오 신호를 제공하기 위한 다채널 오디오 디코더를 생성한다. 다채널 오디오 디코더는 복수의 렌더링된 오디오 신호를 획득하기 위하여, 하나 이상의 렌더링 파라미터에 의존하여, 인코딩된 표현을 기초로 하여 획득된, 복수의 디코딩된 오디오 신호를 렌더링하도록(render) 구성된다. 다채널 오디오 디코더는 렌더링된 오디오 신호들로부터 하나 이상의 역상관된 오디오 신호를 유도하도록 구성된다. 게다가, 다채널 오디오 디코더는 출력 오디오 신호들을 획득하기 위하여 렌더링된 오디오 신호들 또는 그것들의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 결합하도록 구성된다.
본 발명에 따른 실시 예는 출력 오디오 신호를 획득하기 위하여, 복수의 디코딩된 오디오 신호를 기초로 하여 획득된, 렌더링된 오디오 신호들로부터 하나 이상의 역상관된 오디오 신호를 유도함으로써, 그리고 렌더링된 오디오 신호들 또는 그것들의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 결합함으로써, 다채널 오디오 디코더에서 오디오 품질이 향상될 수 있다는 사실을 기초로 한다.
렌더링 이전에 또는 렌더링 동안에 역상관된 신호들을 추가하는 것과 비교할 때 렌더링 이후에 역상관된 신호들을 추가함으로써 출력 오디오 신호들의 상관 특징들 또는 공분산 특징들을 조정하는 것이 더 효율적이라는 사실이 알려졌다. 이러한 개념은 렌더링된 오디오 신호들보다, 렌더링에 입력되는, 더 많은 디코딩 유닛들이 존재하는, 일반적인 경우들에서 더 효율적이라는 것이 알려졌는데, 그 이유는 만일 렌더링 이전에 또는 렌더링 동안에 역상관이 실행되었으면 더 많은 역상관기가 필요할 수 있기 때문이다. 게다가, 역상관된 신호들이 렌더링 이전에 디코딩된 오디오 신호들에 추가될 때 아티팩트들이 종종 제공된다는 사실이 발견되었는데, 그 이유는 렌더링이 일반적으로 디코딩된 오디오 신호들의 결합과 함께 가져오기 때문이다. 따라서, 본 발명의 실시 예에 따른 개념은 렌더링 이전에 역상관된 신호들이 추가되는, 종래의 접근법들을 능가한다. 예를 들면, 효율성과 오디오 품질 사이의 더 나은 균형(tradeoff)을 야기하고, 때때로 심지어 증가된 효율과 더 나은 품질을 동시에 야기하는, 렌더링된 신호들의 요구되는 상관 특징들, 또는 공분산 특징들을 직접적으로 추정하는 것이 가능하다.
바람직한 실시 예에서, 다채널 오디오 디코더는 파라미터 재구성을 사용하여 복수의 렌더링된 오디오 신호를 획득하도록 렌더링되는, 디코딩된 오디오 신호들을 획득하도록 구성된다.
본 발명에 따른 개념은 오디오 신호들의 파라미터 재구성과 결합된 장점들과 함께 가져온다는 실이 발견되었는데, 파라미터 재구성은 예를 들면, 오브젝트 신호들 및/또는 오브젝트 신호들 사이의 관계를 설명하는 디코딩된 부가 정보를 기초로 한다(오브젝트 신호들은 디코딩된 오디오 신호들로 구성될 수 있다).예들 들면, 그러한 개념에서 상대적으로 많은 수의 오브젝트 신호들(디코딩된 오디오 신호들)이 존재할 수 있고, 렌더링된 오디오 신호들을 기초로 하는 역상관의 적용이 특히 효율적이고 그러한 장면(scene) 내의 아티팩트들을 방지한다는 사실이 발견되었다.
바람직한 실시 예에서, 디코딩된 오디오 신호들은 재구성된 오브젝트 신호들(예를 들면, 파라미터로 재구성된 오브젝트 신호들)이고 다채널 오디오 디코더는 부가 정보를 사용하여 하나 이상의 다운믹스 신호로부터 재구성된 오브젝트 신호들을 유도하도록 구성된다. 따라서, 렌더링된 오디오 신호들의 렌더링된 오디오 신호들을 기초로 하는, 하나 이상의 역상관된 오디오 신호들과의 결합은 상대적으로 많은 수의 재구성된 오브젝트 신호들이 존재하더라도(렌더링된 오디오 신호들 또는 출력 오디오 신호들보다 클 수 있는), 입력 오디오 신호들 내의 상관 특징들 또는 공분산 특징들의 효율적인 재구성을 허용한다.
바람직한 실시 예에서, 다채널 오디오 디코더는 부가 정보로부터 언-믹싱 계수들을 유도하도록 구성되고 언-믹싱 계수들을 사용하여 하나 이상의 다운믹스 신호로부터 (파라미터로) 재구성된 오브젝트 신호들을 유도하기 위하여 언-믹싱 계수들을 적용하도록 구성될 수 있다. 따라서, 렌더링을 위한 입력 신호들은 예를 들면 오브젝트 관련 부가 정보(예를 들면 오브젝트간 상관 정보 또는 오브젝트 레벨 차이 정보 같은, 이것들은 에너지들을 사용함으로써 야기될 수 있다) 일 수 있는, 부가 정보로부터 유도될 수 있다.
바람직한 실시 예에서, 다채널 오디오 디코더는 적어도 부분적으로 출력 오디오 신호들의 요구되는 상관 특징들 또는 공분산 특징들을 달성하기 위하여 렌더링된 오디오 신호들을 하나 이상의 역상관된 오디오 신호들과 결합하도록 구성될 수 있다. 렌더링된 오디오 신호들의, 렌더링된 오디오 신호들로부터 유도되는, 하나 이상의 역상관된 오디오 신호들과의 결합은 요구되는 상관 특징들 또는 공분산 특징들의 조정(또는 재구성)을 허용한다는 사실이 알려졌다. 게다가, 청각 효과를 위하여 출력 오디오 신호 내의 적절한 상관 특징들 또는 공분산 특징들을 갖는 것이 중요하고, 이는 역상관된 오디오 신호들의 사용에 의해 렌더링된 오디오 신호들을 변형함으로써 최상으로 달성될 수 있다는 사실이 발견되었다. 예를 들면, 렌더링된 오디오 신호들을 기초로 하여 렌더링된 오디오 신호들과 역상관된 오디오 신호들을 결합할 때 이전 처리 단계들에서 야기되는, 어떠한 저하들이 또한 고려될 수 있다.
바람직한 실시 예에서, 다채널 오디오 디코더는 복수의 렌더링된 오디오 신호를 획득하도록 렌더링되는, 디코딩된 오디오 신호들의 파라미터 재구성 동안에 에너지 손실을 적어도 부분적으로 보상하기 위하여, 렌더링된 오디오 신호들을 하나 이상의 역상관된 오디오 신호들과 결합하도록 구성될 수 있다. 역상관된 오디오 신호들의 포스트-렌더링 적용은 예를 들면 디코딩된 오디오 신호들의 파라미터 재구성에 의해, 렌더링 이전의 처리에 의해 야기되는 신호 결함을 보정하도록 허용한다는 사실이 발견되었다. 그 결과, 높은 정확도로 렌더링 내로 입력되는, 디코딩된 오디오 신호들의 상관 특징들 또는 공분산 특징들을 재구성하는 것이 반드시 필요하지는 않다. 이는 디코딩된 오디오 신호들의 재구성을 단순화하고 따라서 높은 효율성을 가져온다.
바람직한 실시 예에서, 다채널 오디오 디코더는 출력 오디오 신호들의 요구되는 상관 특징들 또는 공분산 특징들을 결정하도록 구성된다. 게다가, 다채널 오디오 디코더는 출력 오디오 신호들을 획득하기 위하여, 획득된 출력 오디오 신호들의 상관 특징들 또는 공분산 특징들이 요구되는 상관 특징들 또는 요구되는 공분산 특징들에 근접하거나 또는 동일하도록 렌더링된 오디오 신호들의 하나 이상의 역상관된 오디오 신호들과의 결합을 조정하도록 구성된다. 출력 오디오 신호들(렌더링된 오디오 신호들의 역상관된 오디오 신호들과의 결합 이후에 도달해야만 하는)의 요구되는 상관 특징 또는 공분산 특징을 계산(결정)함으로써, 처리의 후기 단계에서 상관 특징들 또는 공분산 특징들을 조장하고, 차례로 상대적으로 정확한 재구성을 허용하는 것이 가능하다. 따라서, 출력 오디오 신호들의 공간 청취 효과가 요구되는 청취 효과에 잘 적용된다.
바람직한 실시 예에서, 다채널 오디오 디코더는 복수의 렌더링된 오디오 신호를 획득하기 위하여, 인코딩된 표현을 기초로 하여 획득된, 복수의 디코딩된 오디오 신호의 렌더링을 설명하는 렌더링 정보에 의존하여 요구되는 상관 특징들 또는 공분산 특징들을 결정하도록 구성된다. 요구되는 상관 특징들 또는 공분산 특징들의 결정에서 렌더링 과정을 고려함으로써, 요구되는 청취 효과와 일치하는 출력 오디오 신호들을 갖는 가능성과 함께 가져오는, 렌더링된 오디오 신호들의 하나 이상의 역상관된 오디오 신호들과의 결합을 조정하기 위한 정확한 정보를 달성하는 것이 가능하다.
바람직한 실시 예에서, 다채널 오디오 디코더는 복수의 오디오 오브젝트들의 특징 및/또는 복수의 오디오 오브젝트 사이의 관계를 설명하는 오브젝트 상관 정보 또는 오브젝트 공분산 정보에 의존하여 요구되는 상관 특징들 또는 공분산 특징들을 결정하도록 구성된다. 따라서, 후기 처리 단계에서, 즉 렌더링 이후에 오디오 오브젝트들에 적용돼는, 상관 특징들 또는 공분산 특징들을 복요구되는 것이 가능하다. 따라서, 오디오 오브젝트들의 디코딩을 위한 복잡도는 감소된다. 게다가, 렌더링 이후에 오디오 오브젝트들의 상관 특징들 또는 공분산 특징들을 고려함으로써, 렌더링의 해로운 영향이 방지될 수 있고 상관 특징들 또는 공분산 특징들이 뛰어난 정확도로 재구성될 수 있다.
바람직한 실시 예에서, 다채널 오디오 디코더는 인코딩된 표현 내에 포함된 부가 정보를 기초로 하여 오브젝트 상관 정보 또는 오브젝트 공분산 정보를 결정하도록 구성된다. 따라서, 개념은 부가 정보를 사용하는, 공간 오디오 오브젝트 코딩 접근법에 잘 적용될 수 있다.
바람직한 실시 예에서, 다채널 오디오 디코더는 렌더링된 오디오 신호들의 실제 상관 특징들 또는 공분산 특징들에 의존하여 출력 오디오 신호들을 획득하기 위하여, 렌더링된 오디오 신호들의 실제 상관 특징들 또는 공분산 특징들을 결정하고 렌더링된 오디오 신호들의 하나 이상의 역상관된 오디오 신호들과의 결합을 조정하도록 구성된다. 따라서, 오디오 오브젝트들을 재구성할 때 예를 들면 에너지 손실 같은 초기 처리 단계들에서의 결함들, 또는 렌더링에 의해 야기되는 결함들이 고려될 수 있다는 사실에 도달될 수 있다. 따라서, 렌더링된 오디오 신호들의 하나 이상의 역상관된 오디오 신호들과의 결합은 실제 렌더링된 오디오 신호들의 역상관된 오디오 신호들과이 결합이 요구되는 특징들을 야기하도록, 요구에 매우 정확한 방식으로 조정될 수 있다.
바람직한 실시 예에서, 다채널 오디오 디코더는 렌더링된 오디오 신호들을 하나 이상의 역상관된 오디오 신호들과 결합하도록 구성될 수 있고, 렌더링된 오디오 신호들은 체 1 믹싱 매트릭스(P)를 사용하여 가중되고 하나 이상의 역상관된 오디오 신호는 제 2 믹싱 매트릭스(M)를 사용하여 가중된다. 이는 출력 오디오 신호들의 간단한 유도를 허용하는데, 렌더링된 오디오 신호들에 적용되는 믹싱 매트릭스(P) 및 하나 이상의 역상관된 오디오 신호에 적용되는 믹싱 매트릭스(M)에 의해 기술되는(described), 선형 결합 운영이 실행된다.
바람직한 실시 예에서, 다채널 오디오 디코더는 획득된 출력 오디오 신호들의 상관 특징들 또는 공분산 특징들이 요구되는 상관 특징들 또는 요구되는 공분산 특징들에 가깝거나 또는 동일하도록 매트릭스(P) 및 믹싱 매트릭스(M) 중에서 적어도 하나를 조정하도록 구성된다. 따라서, 하나 이상의 믹싱 매트릭스를 조정하기 위한 방법이 존재하고, 이는 일반적으로 적당한 효과와 뛰어난 결과로 가능하다.
바람직한 실시 예에서, 다채널 오디오 디코더는 믹싱 매트릭스(P) 및 믹싱 매트릭스(M)를 공동으로 계산하도록 구성된다. 따라서, 획득된 출력 오디오 신호들의 상관 특징들 또는 공분산 특징들이 요구되는 상관 특징들 또는 요구되는 공분산 특징들에 가깝거나 또는 동일하게 설정하도록 믹싱 매트릭스들을 획득하는 것이 가능하다. 게다가, 믹싱 매트릭스(P) 및 믹싱 매트릭스(M)를 공동으로 계산할 때, 믹싱 매트릭스(P) 및 믹싱 매트릭스(M)가 요구사항들에 가장 잘 들어맞도록 몇몇 자유도가 이용 가능하다.
바람직한 실시 예에서, 다채널 오디오 디코더는 획득된 출력 오디오 신호의 공분산 매트릭스가 요구되는 공분산 매트릭스와 동일하도록, 믹싱 매트릭스(P) 및 믹싱 매트릭스(M)를 포함하는, 결합된 믹싱 매트릭스(F)를 획득하도록 구성된다.
바람직한 실시 예에서, 다채널 오디오 디코더는 결합된 믹싱 매트릭스는 아래에 설명되는 방정식들에 따라 계산된다.
바람직한 실시 예에서, 다채널 오디오 디코더는 렌더링된 오디오 신호와 역상관된 오디오 신호를 기술하는, 제 1 공분산 매트릭스, 및 출력 오디오 신호들의 요구되는 공분산 특징들을 기술하는, 제 2 공분산 매트릭스의 단일 값 분해(single value decomposition)를 사용하여 결정되는, 매트릭스들을 사용하여 결합된 믹싱 매트릭스(F)를 결정하도록 구성될 수 있다. 그러한 단일 값 분해의 사용은 결합된 믹싱 매트릭스를 위한 숫자상으로 효율적인 해결책으로 구성된다.
바람직한 실시 예에서, 다채널 오디오 디코더는 믹싱 매트릭스(P)가 단위 매트릭스(identity matrix) 또는 그것의 배수(multiple)가 되도록 설정하고, 믹싱 매트릭스(M)를 계산하도록 구성된다. 이는 상이한 렌더링된 오디오 신호들의 믹싱을 방지하고, 요구되는 공간 효과를 보존하는데 도움을 준다.
바람직한 실시 예에서, 다채널 오디오 디코더는 믹싱 매트릭스(M)와의 믹싱 후에, 요구되는 공분산 매트릭스 및 렌더링된 오디오 신호들의 공분산 매트릭스 사이의 차이가 하나 이상의 역상관된 신호의 공분산에 가깝거나 또는 동일하도록 믹싱 매트릭스(M)를 결정하도록 구성될 수 있다. 따라서, 믹싱 매트릭스(M)를 획득하기 위하여 계산적으로 간단한 개념이 주어진다.
바람직한 실시 예에서, 다채널 오디오 디코더는 요구되는 공분산 매트릭스 및 렌더링된 오디오 신호들의 공분산 매트릭스와 하나 이상의 역상관된 신호의 공분산 매트릭스 사이의 차이의 단일 값 분해를 사용하여 결정되는 매트릭스들을 사용하여 믹싱 매트릭스(M)를 결정하도록 구성될 수 있다. 이는 믹싱 매트릭스(M)의 결정을 위하여 계산적으로 매우 효율적인 접근법이다.
바람직한 실시 예에서, 다채널 오디오 디코더는 주어진 렌더링된 오디오 신호가 단지 주어진 렌더링된 오디오 신호 자체의 역상관된 버전과 혼합되는 제한 하에서 믹싱 매트릭스들(P, M)을 결정하도록 구성된다. 이러한 개념은 작은 변형에 한정되거나(예를 들면, 결함 있는 역상관기들의 존재 하에서) 또는 교차 상관 특징들 또는 교차 공분산 특징들의 변형을 방지하며(예를 들면, 이상적인 역상관의 경우에) 따라서 인식된 오브젝트 위치의 변화를 방지하기 위한 일부 경우들에서 바람직할 수 있다. 그러나 비-이상적인 역상관기들의 존재 하에서, 자기 상관(autocorrelation) 값들(또는 자기 공분산 값들)은 명시적으로 변형되고, 교차-항목(cross-term)들의 변화는 무시된다.
바람직한 실시 예에서, 다채널 오디오 디코더는 렌더링된 오디오 신호들의 자기 상관 값들 또는 자기 공분산 값들만이 변형되고 교차 상관 특징들 또는 교차 공분산 특징들은 변형되지 않은 채로 남거나 또는 작은 값으로 변형되도록(예를 들면, 결함 있는 역상관기들의 존재 하에서) 렌더링된 오디오 신호들을 하나 이상의 역상관된 오디오 신호와 결합하도록 구성된다. 다시, 오디오 오브젝트들의 인식된 위치의 저하가 방지될 수 있다. 게다가, 계산 복잡도가 감소될 수 있다. 그러나 예를 들면, 교차 공분산 값은 에너지들(자기 상관 값들)의 변형의 결과로서 변형되나, 교차 상관 값들은 변형되지 않고 남아있는다(그것들은 교차 공분산 값들의 정규화된 버전을 표현한다).
바람직한 실시 예에서, 다채널 오디오 디코더는 믹싱 매트릭스(P)가 단위 매트릭스(identity matrix) 또는 그것의 복수가 되도록 설정하고, M이 대각 매트릭스(diagonal matrix)인 제한 하에서 믹싱 매트릭스(M)를 계산하도록 구성된다. 따라서, 교차 상관 특징들 또는 교차 공분산 특징들이 방지될 수 있거나 또는 작은 값으로 한정된다(예를 들면, 결함 있는 역상관기들의 존재 하에서).
바람직한 실시 예에서, 다채널 오디오 디코더는 출력 오디오 신호를 획득하기 위하여, 렌더링된 오디오 신호들을 하나 이상의 역상관된 오디오 신호와 결합하도록 구성되고, 대각 매트릭스(M)는 하나 이상의 역상관된 오디오 신호(W)에 적용된다. 이러한 경우에, 다채널 오디오 디코더는 출력 오디오 신호들의 공분산 매트릭스의 대각 요소가 요구되는 에너지들과 동일하도록 믹싱 매트릭스(M)의 대각 요소를 계산하도록 구성된다. 따라서, 하나 이상의 다운믹스 신호와 공간적 부가 정보를 기초로 하여 렌더링 운영 및/또는 오디오 오브젝트들의 재구성에 의해 획득될 수 있는, 에너지 손실이 보상될 수 있다. 따라서, 적절한 강도의 출력 오디오 신호들이 달성될 수 있다.
바람직한 실시 예에서, 다채널 오디오 디코더는 요구되는 공분산 매트릭스의 대각 요소들, 렌더링된 오디오 신호들의 공분산 매트릭스의 공분산 요소들, 및 하나 이상의 역상관된 신호의 공분산 매트릭스의 공분산 요소들에 의존하여 믹싱 매트릭스(M)의 요소들을 계산하도록 구성될 수 있다. 믹싱 매트릭스(M)의 비-대각 요소들은 0으로 설정될 수 있고, 요구되는 공분산 매트릭스는 렌더링 운영을 위하여 사용되는 렌더링 매트릭스 및 오브젝트 공분산 매트릭스를 기초로 하여 계산될 수 있다. 게다가, 신호들에 추가되는 역상관의 양을 제한하기 위하여 임계 값이 사용될 수 있다. 이러한 개념은 믹싱 매트릭스(M)의 요소들의 계산적으로 매우 효율적인 결정을 제공한다.
바람직한 실시 예에서, 다채널 오디오 디코더는 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 어떻게 결합할지를 결정할 때 역상관 오디오 신호들의 상관 특징들 또는 공분산 특징들을 고려하도록 구성될 수 있다. 따라서, 역상관의 결함들이 고려될 수 있다.
바람직한 실시 예에서, 다채널 오디오 디코더는 두 개 이상의 렌더링된 오디오 신호 및 적어도 하나의 역상관된 오디오 신호를 기초로 하여 주어진 출력 오디오 신호가 제공되도록, 오디오 신호들과 역상관된 신호들을 믹싱하도록 구성될 수 있다. 이러한 개념을 사용함으로써, 교차 상관 특징들이 많은 양의 역상관된 신호들의 도입의(청각 공간 효과를 저하할 수 있는) 필요 없이 효율적으로 조정될 수 있다.
바람직한 실시 예에서, 다채널 오디오 디코더는 출력 오디오 신호들을 획득하기 위하여, 렌더링된 오디오 신호 또는 그것의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 어떻게 결합하는지를 결정하기 위하여 상이한 제한들이 적용되는, 상이한 모드들 사이에서 스위칭하도록 구성될 수 있다. 따라서, 복잡도 및 처리 특징들이 처리되는 신호들로 조정될 수 있다.
바람직한 실시 예에서, 다채널 오디오 디코더는 렌더링된 오디오 신호 또는 그것의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이에 믹싱이 허용되는, 제 1 모드, 출력 오디오 신호들의 교차 상관 특징들 또는 교차 공분산 특징들을 조정하기 위하여, 렌더링된 오디오 신호 또는 그것의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이에 어떠한 믹싱도 허용되지 않고 주어진 역상관된 신호가 동일하거나 또는 상이한 스케일링으로, 복수의 렌더링된 오디오 신호 또는 그것들의 스케일링된 버전과 결합하는 것을 허용하는, 제 2 모드, 및 렌더링된 오디오 신호 또는 그것의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이에 어떠한 믹싱도 허용되지 않고 주어진 역상관된 신호가 주어진 역상관된 신호가 유도된 렌더링된 오디오 신호 이외의 렌더링된 오디오 신호들과 결합되는 것을 허용하지 않는, 제 3 모드 사이에서 스위칭하도록 구성될 수 있다. 따라서, 복잡도 및 처리 특징들 모두는 현재 렌더링되는 오디오 신호의 형태로 조정될 수 있다. 자기 상관 특징들 또는 자기 공분산 특징들만을 변형하고 교차 상관 특징들 또는 교차 공분산 특징들을 명시적으로 변형하지 않는 것은 예를 들면 만일 오디오 신호들의 공간 효과가 그러한 변형에 의해 저하될 수 있으면, 도움이 될 수 있으나, 그럼에도 불구하고 출력 오디오 신호들이 강도를 조정하는 것이 바람직하다. 다른 한편으로는, 출력 오디오 신호들의 교차 상관 특징들 또는 교차 공분산 특징들을 조정하는 것이 바람직한 경우들이 존재한다. 여기서 언급되는 다채널 오디오 디코더는 그러한 조정을 허용하고, 제 1 모드에서, 교차 상관 특징들 또는 교차 공분산 특징들의 조정에 필요한 역상관된 신호 성분들의 양이 상대적으로 작도록, 렌더링된 오디오 신호들을 결합하는 것이 가능하다. 따라서, 교차 상관 특징들 또는 교차 공분산 특징들을 조정하기 위하여 "지역화 가능한(localizable)" 신호 성분들이 제 1 모드에서 사용된다. 이와 대조적으로, 제 2 모드에서, 교차 상관 특징들 또는 교차 공분산 특징들을 조정하기 위하여 역상관된 신호들이 사용되고, 이는 상이한 청각 효과를 가져 온다. 따라서, 세 가지 상이한 모드를 제공함으로써, 오디오 디코더는 처리되는 오디오 콘텐츠에 잘 적용될 수 있다.
바람직한 실시 예에서, 다채널 오디오 디코더는 렌더링된 오디오 신호들 또는 그것들의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 결합하기 위한 세 가지 모드 중 어느 것인지를 나타내는 인코딩된 표현의 비트스트림 요소를 평가하고, 상기 비트스트림 요소에 의존하여 모드를 선택하도록 구성된다. 따라서, 오디오 인코더는 오디오 콘텐츠의 그것의 지식에 의존하여 적절한 모드를 시그널링할 수 있다. 따라서, 어떠한 상황에서도 출력 오디오 신호들의 최고 품질이 달성될 수 있다.
본 발명에 따른 일 실시 예는 적어도 두 개의 입력 오디오 신호를 기초로 하여 인코딩된 표현을 제공하기 위한 다채널 오디오 인코더를 생성한다. 다채널 오디오 인코더는 적어도 두 개의 입력 오디오 신호를 기초로 하여 하나 이상의 다운믹스 신호를 제공하도록 구성된다. 게다가, 다채널 오디오 인코더는 오디오 인코더의 측에서 복수의 역 상관 모드 중에서 어떤 역상관 모드가 사용되어야만 하는지를 기술하는 하나 이상의 파라미터를 제공하도록 구성된다. 따라서, 다체널 오디오 인코더는 적절한 역상관 모드를 사용하기 위하여 오디오 디코더를 제어할 수 있고, 이는 현재 인코딩되는 오디오 신호의 형태에 잘 적용된다. 따라서, 여기에 설명되는 다채널 오디오 인코더는 이전에 설명된 다채널 오디오 디코더와 잘 협력하도록 적용된다.
바람직한 실시 예에서, 다채널 오디오 인코더는 오디오 디코더의 운영을 위한 다음의 세 가지 모드: 렌더링된 오디오 신호들 또는 그것들의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이에 믹싱이 허용되는, 제 1 모드, 출력 오디오 신호들의 교차 상관 특징들 또는 교차 공분산 특징들을 조정하기 위하여, 렌더링된 오디오 신호 또는 그것의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이에 어떠한 믹싱도 허용되지 않고 주어진 역상관된 신호가 동일하거나 또는 상이한 스케일링으로, 복수의 렌더링된 오디오 신호 또는 그것의 스케일링된 버전과 결합하는 것을 허용하는, 제 2 모드, 및 렌더링된 오디오 신호 또는 그것의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이에 어떠한 믹싱도 허용되지 않고 주어진 역상관된 신호가 주어진 역상관된 신호가 유도된 렌더링된 오디오 신호 이외의 렌더링된 오디오 신호들과 결합되는 것을 허용하지 않는, 제 3 모드, 중 하나를 시그널링하기 위하여, 역상관 방법 파라미터를 선택적으로 제공하도록 구성된다. 따라서, 다채널 오디오 인코더는 오디오 콘텐츠에 의존하여 위에 설명된 세 가지 모드를 통하여 다채널 오디오 디코더를 스위칭할 수 있고, 다채널 오디오 디코더가 운영되는 모드는 다채널 오디오 인코더에 의해 현재 인코딩되는 오디오 콘텐츠의 형태에 잘 적용될 수 있다. 그러나, 동일한 실시 예들에서, 오디오 디코더의 운영을 위하여 위에 언급된 세 가지 모드 중 한 가지 또는 두 가지 모드만이 사용될 수 있다(또는 이용 가능할 수 있다).
바람직한 실시 예에서, 다채널 오디오 인코더는 입력 오디오 신호들이 상대적으로 높은 상관 또는 상대적으로 낮은 상관을 포함하는지에 의존하여 역상관 방법 파라미터를 선택하도록 구성된다. 따라서, 디코더에서 사용되는, 역상관의 적용은 현재 인코딩되는 오디오 신호들의 중요한 특징을 기초로 하여 만들어질 수 있다.
바람직한 실시 예에서, 다채널 오디오 인코더는 만일 입력 오디오 신호들 사이의 상관 또는 공분산이 상대적으로 높으면, 제 1 모드 또는 제 2 모드를 지정하기 위하여 역상관 방법 파라미터를 선택하고, 만일 입력 오디오 신호들 사이의 상관 또는 공분산이 상대적으로 낮으면, 제 3 모드를 지정하기 위하여 역상관 방법 파라미터를 선택하도록 구성된다. 따라서, 입력 오디오 신호들 사이의 상대적으로 작은 상관 또는 공분산의 경우에, 교차 공분산 특징 또는 교차 상관 특징들의 어떠한 상관도 없는 디코딩 모드가 선택된다. 이는 상대적으로 낮은 상관(또는 공분산)을 갖는 신호들을 위한 효율적인 선택이라는 사실이 발견되었는데, 그 이유는 그러한 신호들이 실질적으로 독립적이기 때문이고, 이는 교차 상관들 또는 교차 공분산들의 적용을 위한 필요성을 제거한다. 오히려, 실질적으로 독립적인 입력 오디오 신호들(상대적으로 작은 상관 또는 공분산을 갖는)을 위한 교차 상관들 또는 교차 공분산들의 조정은 일반적으로 오디오 품질을 저하시키고 동시에 디코딩 복잡도를 증가시킬 수 있다. 따라서, 이러한 개념은 다채널 오디오 디코더의 다채널 오디오 인코더 내로 입력된 신호로의 합리적인 적용을 허용한다.
본 발명에 따른 일 실시 예는 인코딩된 표현을 기초로 하여 적어도 두 개의 출력 오디오 신호를 제공하기 위한 방법을 생성한다. 방법은 복수의 렌더링된 오디오 신호를 획득하기 위하여, 하나 이상의 렌더링 파라미터에 의존하여 인코딩된 표현을 기초로 하여 획득되는, 복수의 디코딩된 오디오 신호를 렌더링하는 단계를 포함한다. 방법은 또한 출력 오디오 신호들을 획득하기 위하여 렌더링된 오디오 신호들로부터 하나 이상의 역상관된 오디오 신호를 유도하는 단계 및 렌더링된 오디오 신호들 또는 그것들의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 결합하는 단계를 포함한다. 이러한 방법은 위에 설명된 다채널 오디오 디코더와 동일한 고려사항들을 기초로 한다. 게다가, 방법은 다채널 오디오 디코더와 관련하여 위에 설명된 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다.
본 발명에 따른 또 다른 실시 예는 적어도 두 개의 입력 오디오 신호를 기초로 하여 인코딩된 오디오 표현을 제공하기 위한 방법을 생성한다. 방법은 적어도 두 개의 입력 오디오 신호를 기초로 하여 하나 이상의 다운믹스 신호를 제공하는 단계, 적어도 두 개의 입력 오디오 신호 사이의 관계를 기술하는 하나 이상의 파라미터를 제공하는 단계, 및 오디오 디코더의 측에서 복수의 역상관 모드 중 어떤 역상관 모드가 사용되어야만 하는지를 기술하는 역상관 방법 파라미터를 제공하는 단계를 포함한다. 방법은 위에 설명된 다채널 오디오 인코더와 동일한 고려사항들을 기초로 한다. 게다가, 방법은 다채널 오디오 인코더와 관련하여 여기에 설명된 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다.
발명에 따른 또 다른 실시 예는 위에 설명된 방법들 중 하나 이상을 실행하기 위한 컴퓨터 프로그램을 생성한다.
발명에 따른 또 다른 실시 예는 다운믹스 신호의 인코딩된 표현, 적어도 두 갱 입력 오디오 신호 사이의 관계를 기술하는 하나 이상의 파라미터의 인코딩된 표현, 및 오디오 디코더의 측에서 복수의 역상관 모드 중에서 어떠한 역상관 모드가 사용되어야만 하는지를 기술하는 인코딩된 역상관 방법 파라미터를 포함하는, 인코딩된 오디오 표현을 생성한다. 이러한 인코딩된 오디오 표현은 적절한 역상관 모드를 시그널링하도록 허용하고 따라서 다채널 오디오 인코더 및 다채널 오디오 디코더와 관련하여 설명된 장점들을 구현하는데 도움을 준다.
본 발명에 따른 실시 예들이 첨부된 도면들을 참조하여 아래에 설명될 것이다.
도 1은 본 발명의 일 실시 예에 따른 다채널 오디오 디코더의 개략적인 블록 다이어그램을 도시한다.
도 2는 본 발명의 일 실시 예에 따른 다채널 오디오 인코더의 개략적인 블록 다이어그램을 도시한다.
도 3은 본 발명의 일 실시 예에 따라, 인코딩된 표현을 기초로 하여 적어도 두 개의 출력 오디오 신호를 제공하기 위한 방법의 플로우차트를 도시한다.
도 4는 본 발명의 일 실시 예에 따라, 적어도 두 개의 입력 오디오 신호를 기초로 하여 인코딩된 표현을 제공하기 위한 방법의 플로우차트를 도시한다.
도 5는 본 발명의 일 실시 예에 따라, 인코딩된 오디오 표현의 개략적인 표현을 도시한다.
도 6은 본 발명의 일 실시 예에 따라, 다채널 역상관기의 개략적인 블록 다이어그램을 도시한다.
도 7은 본 발명의 일 실시 예에 따라, 다채널 오디오 디코더의 개략적인 블록 다이어그램을 도시한다.
도 8은 본 발명의 일 실시 예에 따라, 다채널 오디오 인코더의 개략적인 블록 다이어그램을 도시한다.
도 9는 본 발명의 일 실시 예에 따라, 복수의 역상관기 입력 신호를 기초로 하여 복수의 역상관된 신호를 제공하기 위한 방법의 플로우차트를 도시한다.
도 10은 본 발명의 일 실시 예에 따라, 인코딩된 표현을 기초로 하여 적어도 두 개의 출력 오디오 신호를 제공하기 위한 방법의 플로우차트를 도시한다.
도 11은 본 발명의 일 실시 예에 따라, 적어도 두 개의 입력 오디오 신호를 기초로 하여 인코딩된 표현을 제공하기 위한 방법의 플로우차트를 도시한다.
도 12는 본 발명의 일 실시 예에 따라, 인코딩된 표현의 개략적인 표현을 도시한다.
도 13은 본 발명의 일 실시 예에 따라, 최소 평균 제곱 오차(minimum mean square error, MMSE) 기반 파라미터 다운믹스/업믹스의 개요를 제공하는 개략적인 표현을 도시한다.
도 14는 3차원 공간 내의 직교성(orthogonality) 원리를 위한 기하학적 표현을 도시한다.
도 15는 본 발명의 일 실시 예에 따라, 렌더링된 출력 상에 적용되는 역상관을 갖는 파라미터 재구성 시스템의 개략적인 블록 다이어그램을 도시한다.
도 16은 역상관 유닛의 개략적인 블록 다이어그램을 도시한다.
도 17은 본 발명의 일 실시 예에 따라, 감소된 복잡도 역상관 유닛의 개략적인 블록 다이어그램을 도시한다.
도 18은 본 발명의 일 실시 예에 따라, 확성기 위치들의 테이블 표현을 도시한다.
도 19a 내지 19g는 N=22이고 5와 11 사이인 K에 대한 프리믹싱(premixing) 계수들의 테이블 표현들을 도시한다.
도 20a 내지 20d는 N=10이고 2와 5 사이인 K에 대한 프리믹싱 계수들의 테이블 표현들을 도시한다.
도 21a 내지 19c는 N=8이고 2와 4 사이인 K에 대한 프리믹싱 계수들의 테이블 표현들을 도시한다.
도 21d 내지 21f는 N=7이고 2와 4 사이인 K에 대한 프리믹싱 계수들의 테이블 표현들을 도시한다.
도 22a 및 22b는 N=5이고 K=2 또는 K=3에 대한 프리믹싱 계수들의 테이블 표현들을 도시한다.
도 23은 N=2이고 K=1에 대한 프리믹싱 계수들의 테이블 표현을 도시한다.
도 24는 채널 신호들의 그룹들의 테이블 표현을 도시한다.
도 25는 SAOCSpecifigConfig(), 또는 균등하게 SAOC3DSpecifigConfig()의 구문 내로 포함될 수 있는, 부가적인 파라미터들의 구문 표현을 도시한다.
도 26은 비트스트림 변수 bsDecorrelationMethod를 위한 상이한 값들의 테이블 표현을 도시한다.
도 27은 비트스트림 변수 bsDecorrelationLevel에 의해 표시되는, 상이한 역상관 레벨들과 출력 구성들 위한 다수의 역상관기의 테이블 표현을 도시한다.
도 28은 개략적인 블록 다이어그램 형태로, 3차원 오디오 인코더에 대한 개요를 도시한다.
도 29는 개략적인 블록 다이어그램 형태로, 3차원 오디오 디코더에 대한 개요를 도시한다.
도 30은 포맷 컨버터(format converter)의 구조의 개략적인 블록 다이어그램을 도시한다.
도 31은 본 발명의 일 실시 예에 따라, 다운믹스 프로세서를 위한 개략적인 블록 다이어그램을 도시한다.
도 32는 상이한 수의 공간 오디오 오브젝트 코딩(SAOC) 다운믹스 오브젝트들에 대한 디코딩 모드들을 표현하는 테이블을 도시한다.
도 33은 비트스트림 요소 "SAOC3DSpecificConfig"의 구문 표현을 도시한다.
1. 도 1에 따른 다채널 오디오 디코더
도 1은 본 발명의 일 실시 예에 따른, 다채널 오디오 디코더(100)의 개략적인 블록 다이어그램을 도시한다.
다채널 오디오 디코더(100)는 인코딩된 표현(110)을 수신하고 이를 기초로 하여, 적어도 두 개의 출력 오디오 신호(112, 114)를 제공하도록 구성된다.
다채널 오디오 디코더(100)는 바람직하게는 인코딩된 표현(110)을 기초로 하여 디코딩된 오디오 신호들(122)을 제공하도록 구성되는 디코더(120)를 포함한다. 게다가, 다채널 오디오 디코더(100)는 복수의 렌더링된 오디오 신호(134, 136)를 획득하기 위하여, 하나 이상의 렌더링 파라미터(132)에 의존하여 인코딩된 표현(110, 예를 들면, 디코더(120)에 의해)을 기초로 하여 획득되는, 복수의 디코딩된 오디오 신호(122)를 렌더링하도록 구성되는, 렌더러(renderer, 130)를 포함한다. 게다가, 다채널 오디오 디코더(100)는 렌더링된 오디오 신호들(134, 136)로부터 하나 이상의 역상관된 오디오 신호(142, 144)를 유도하도록 구성되는, 역상관기(140)를 포함한다. 게다가, 다채널 오디오 디코더(100)는 출력 오디오 신호들(112, 114)을 획득하기 위하여, 렌더링된 오디오 신호들(134, 136) 또는 그것들의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호(142, 144)와 결합하도록 구성되는, 결합기(150)를 포함한다.
그러나, 위에 설명된 기능들이 주어지는 한, 다채널 오디오 디코더(100)의 상이한 하드웨어 구조가 가능할 수 있다는 것에 유의하여야 한다.
다채널 오디오 디코더(100)의 기능성과 관련하여, 역상관된 오디오 신호들(142, 144)은 렌더링된 오디오 신호들(134, 136)로부터 유도되고 역상관된 오디오 신호들(142, 144)은 출력 오디오 신호들(112, 114)을 획득하기 위하여 렌더링된 오디오 신호들(134, 136)과 결합된다는 것에 유의하여야 한다. 렌더링된 오디오 신호들(134, 136)로부터 역상관된 오디오 신호들(142, 144)을 유도함으로써, 특히 효율적인 처리가 달성될 수 있는데, 그 이유는 렌더링된 오디오 신호들(134, 136)의 수가 일반적으로 렌더러(130) 내로 입력되는 디코딩된 오디오 신호들(122)의 수로부터 독립적이기 때문이다. 따라서, 역상관 효과는 일반적으로 디코딩된 오디오 신호들(122)의 수와 독립적이고, 이는 구현 효율을 향상시킨다. 게다가, 렌더링 이후의 역상관의 적용은 렌더링 이전에 역상관이 적용되는 경우에 다수의 역상관된 신호를 결합할 때 렌더러에 의해 야기될 수 있는, 아티팩트들의 도입을 방지한다. 게다가, 렌더링된 오디오 신호들의 특징들이 역상관기(140)에 의해 실행되는 역상관에서 고려될 수 있고, 이는 일반적으로 뛰어난 품질의 출력 오디오 신호들을 야기한다.
게다가. 다채널 오디오 디코더(100)는 여기서 설명되는 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다는 것에 유의하여야 한다. 특히, 여기서 설명되는 것과 같은 개별 향상들은 이에 의해 출력 오디오 신호들의 처리 효율 및/또는 품질을 훨씬 향상시키기 위하여 다채널 오디오 디코더(100) 내로 도입될 수 있다는 것에 유의하여야 한다.
2. 도 2에 따른 다채널 오디오 인코더
도 2는 본 발명의 일 실시 예에 따른 다채널 오디오 인코더(200)의 개략적인 블록 다이어그램을 도시한다. 다채널 오디오 인코더(200)는 두 개 이상의 입력 오디오 신호(210, 212)를 수신하고, 이를 기초로 하여, 인코딩된 표현(214)을 제공하도록 구성된다. 다채널 오디오 인코더(200)는 적어도 두 개의 입력 오디오 신호(210, 212)를 기초로 하여 하나 이상의 다운믹스 신호(222)를 제공하도록 구성되는, 다운믹스 신호 제공기(220)를 포함한다. 게다가, 다채널 오디오 인코더(200)는 적어도 두 개의 입력 오디오 신호(210, 212) 사이의 관계(예를 들면, 역상관, 교차 상관, 교차 공분산, 레벨 차이 등)하나 이상의 파라미터(232)를 제공하도록 구성되는, 파라미터 제공기(230)를 포함한다.
게다가, 다채널 오디오 인코더(200)는 또한 오디오 디코더의 측에서 복수의 역상관 모드 중에서 어떠한 역상관 모드가 사용되어야만 하는지를 기술하는 역상관 방법 파라미터(242)를 제공하도록 구성되는, 역상관 방법 파라미터 제공기(240)를 포함한다. 하나 이상의 다운믹스 신호(222), 하나 이상의 파라미터(232) 및 역상관 방법 파라미터(242)는 예를 들면 인코딩된 형태로, 인코딩된 표현(214) 내에 포함된다.
그러나, 위에 설명된 기능들이 충족되는 한, 다채널 오디오 인코더(200)의 하드웨어 구조는 상이할 수 있다는 것에 유의하여야 한다. 바꾸어 말하면, 다채널 오디오 인코더(200)의 기능들의 개별 블록들로의(예를 들면, 다운믹스 신호 제공기(220)로, 파라미터 제공기(230)로 그리고 역상관 방법 파라미터 제공기(240)로의) 분배는 단지 일례로서 고려되어야만 한다.
다채널 오디오 인코더(200)의 기능성과 관련하여, 하나 이상의 다운믹스 신호(222) 및 하나 이상의 파라미터(232)는 예를 들면, 공간 오디오 오브젝트 코딩 다채널 오디오 인코더 또는 USAC에서와 같은, 종래의 방법으로 제공된다는 것에 유의하여야 한다. 그러나, 또한 다채널 오디오 인코더(200)에 의해 제공되고 인코딩된 표현(214) 내에 포함되는, 역상관 방법 파라미터는 역상관 모드를 입력 오디오 신호들(210, 212) 또는 요구되는 재생 품질에 적용하도록 사용될 수 있다. 따라서, 역상관 모드는 상이한 형태들의 오디오 콘텐츠에 적용될 수 있다. 예를 들면, 입력 오디오 신호들(212, 214)이 강하게 상관되는 오디오 콘텐츠의 형태들 및 입력 오디오 신호들(212, 214)이 독립적인 오디오 콘텐츠의 형태들을 위하여 상이한 역상관 모드들이 선택될 수 있다. 게다가, 상이한 역상관 모드들은 예를 들면, 공간 인식이 특히 중요한 오디오 콘텐츠의 형태들 및 공간 효과가 덜 중요하거나 또는 부수적으로 중요한(예를 들면, 개별 채널들의 재생과 비교할 때) 오디오 콘텐츠의 형태들을 위하여 역상관 모드 파라미터(242)에 의해 시그널링될 수 있다. 따라서, 인코딩된 표현(214)을 수신하는, 다채널 오디오 디코더는 다채널 오디오 인코더(200)에 의해 제어될 수 있고, 디코딩 복잡도와 재생 품질 사이의 최상의 가능한 절충을 가져오는 디코딩 모드로 보내질 수 있다.
게다가, 다채널 오디오 인코더(200)는 여기서 설명되는 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다는 것에 유의하여야 한다. 특히, 여기서 설명되는 것과 같은 가능한 부가적인 특징들과 향상들은 이에 의해 다채널 오디오 인코더(200)를 향상(또는 개선)시키기 위하여, 개별적으로 또는 조합하여 다채널 오디오 인코더(200)에 추가될 수 있다는 것에 유의하여야 한다.
도 3에 따른 적어도 두 개의 오디오 신호를 제공하기 위한 방법
도 3은 인코딩된 표현을 기초로 하여 적어도 두 개의 출력 오디오 신호를 제공하기 위한 방법(300)의 플로우차트를 도시한다. 방법은 복수의 렌더링된 오디오 신호를 획득하기 위하여, 하나 이상의 렌더링 파라미터에 의존하여, 인코딩된 표현(312)을 기초로 하여 획득되는, 복수의 디코딩된 오디오 신호를 렌더링하는 단계(310)를 포함한다. 방법(300)은 또한 렌더링된 오디오 신호들로부터 하나 이상의 역상관된 오디오 신호를 유도하는 단계(320)를 포함한다. 방법(300)은 또한 출력 오디오 신호들(332)을 획득하기 위하여, 렌더링된 오디오 신호들 또는 그것들의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 결합하는 단계(330)를 포함한다.
방법은 도 1에 따른 다채널 오디오 디코더(100)와 동일한 고려사항들을 기초로 한다는 것에 유의하여야 한다. 게다가, 방법(300)은 여기서 설명되는 특징들과 기능들 중 어느 하나에 의해(개별적으로 또는 조합하여) 추가될 수 있다는 것에 유의하여야 한다. 예를 들면, 방법(300)은 여기에 설명되는 다채널 오디오 디코더와 관련하여 설명되는 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다.
4. 도 4에 따른 인코딩된 표현을 제공하기 위한 방법
도 4는 적어도 두 개의 입력 오디오 신호를 기초로 하여 인코딩된 표현을 제공하기 위한 방법(400)의 플로우차트를 도시한다. 방법(400)은 적어도 두 개의 입력 오디오 신호(412)를 기초로 하여 하나 이상의 다운믹스 신호를 제공하는 단계(410)를 포함한다. 방법(400)은 적어도 두 개의 입력 오디오 신호(412) 사이의 관계를 기술하는 하나 이상의 파라미터를 제공하는 단계(420) 및 복수의 역상관 모드 중에서 어떤 역상관 모드가 오디오 디코더의 측에서 사용되어야만 하는지를 기술하는 역상관 방법 파라미터를 제공하는 단계(430)를 더 포함한다. 따라서, 바람직하게는 하나 이상의 다운믹스 신호, 적어도 두 개의 입력 오디오 신호 사이의 관계를 기술하는 하나 이상의 파라미터 및 역상관 방법 파라미터의 인코딩된 표현을 포함하는, 인코딩된 표현(432)이 제공된다. 방법(400)은 또한 위의 설명들이 적용되도록 도 2에 따른 다채널 오디오 인코더(200)와 동일한 고려사항들을 기초로 한다는 것에 유의하여야 한다.
게다가, 단계들(410, 420, 430)의 순서는 유연하게 변경될 수 있고, 단계들(410, 420, 430)은 방법(400)을 위한 실행 환경에서 가능한 한, 또한 병렬로 실행될 수 있다는 것에 유의하여야 한다. 게다가, 방법(400)은 개별적으로 또는 조합하여, 여기서 설명되는 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다는 것에 유의하여야 한다. 예를 들면, 방법(400)은 여기에 설명되는 다채널 오디오 인코더와 관련하여 설명되는 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다. 그러나, 인코딩된 표현(432)을 수신하는, 여기서 설명되는 다채널 오디오 디코더들의 특징들과 기능들과 상응하는 특징들과 기능들을 도입하는 것이 또한 가능하다.
5. 도 5에 따른 인코딩된 오디오 표현
도 5는 본 발명의 일 실시 예에 따른 인코딩된 오디오 표현(500)의 개략적인 표현을 도시한다.
인코딩된 오디오 표현(500)은 다운믹스 신호의 인코딩된 표현(510), 적어도 두 개의 오디오 신호 사이의 관계를 기술하는 하나 이상의 파라미터의 인코딩된 표현(520)을 포함한다. 게다가, 인코딩된 오디오 표현(500)은 또한 복수의 역상관 모드 중에서 어떤 역상관 모드가 오디오 디코더의 측에서 사용되어야만 하는지를 기술하는 인코딩된 역상관 방법 파라미터(530)를 포함한다. 따라서, 인코딩된 오디오 표현은 오디오 인코더로부터 오디오 디코더로 역상관 모드를 시그널링하도록 허용한다. 따라서, 오디오 콘텐츠(예를 들면, 하나 이상의 다운믹스 신호의 인코딩된 표현(510)에 의해, 그리고 적어도 두 개의 오디오 신호(예를 들면, 하나 이상의 다운믹스 신호의 인코딩된 표현(510) 내로 다운믹싱된 적어도 두 개의 오디오 신호) 사이의 관계를 기술하는 하나 이상의 파라미터의 인코딩된 표현에 의해 기술되는)의 특징들에 작 적용되는 역상관 모드를 획득하는 것이 가능하다. 따라서, 인코딩된 오디오 표현(500)은 특히 뛰어난 청각 공간 효과 및/또는 청각 공간 효과와 디코딩 복잡도 사이의 특히 뛰어난 균형을 갖는 인코딩된 오디오 표현(500)에 의해 표현되는 오디오 콘텐츠의 렌더링을 허용한다.
게다가, 인코딩된 표현(500)은 개별적으로 또는 조합하여, 다채널 오디오 인코더들과 다채널 오디오 디코더들과 관련하여 설명된 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다는 것에 유의하여야 한다.
6. 도 6에 따른 다채널 역상관기
도 6은 본 발명의 일 실시 예에 따른 다채널 역상관기(600)의 개략적인 블록 다이어그램을 도시한다.
다채널 역상관기(600)는 N 역상관기 입력 신호들(610a 내지 610n)의 제 1 세트를 수신하고, 이를 기초로 하여 N' 역상관기 출력 신호들(612a 내지 612n')의 제 2 세트를 제공하도록 구성된다. 바꾸어 말하면, 다채널 역상관기(600)는 역상관기 입력 신호들(610a 내지 610n)을 기초로 하여 복수의(적어도 대략적으로) 역상관된 신호(612a 내지 612n')를 제공하도록 구성된다.
다채널 역상관기(600)는 N 역상관기 입력 신호들(610a 내지 610n)의 제 1 세트를 K 역상관기 입력 신호들(622a 내지 622k)의 제 2 세트 내로 프리믹싱하도록 구성되는, 프리믹서(premixer, 620)를 포함하는데, K는 N보다 작다(K와 N은 정수들이다). 다채널 역상관기(600)는 또한 K 역상관기 입력 신호들(622a 내지 622k)을 기초로 하여 K' 역상관기 출력 신호들(632a 내지 632k')의 제 1 세트를 제공하도록 구성되는, 역상관(또는 역상관 코어, 630)를 포함한다. 게다가, 다채널 역상관기는 K' 역상관기 출력 신호들(632a 내지 632k')의 제 1 세트를 N' 역상관기 출력 신호들(612a 내지 612n')의 제 2 세트 내로 업믹싱하도록 구성되는, 포스트믹서(postmixer, 640)를 포함하는데, N'은 K'보다 크다(N'과 K'는 정수들이다).
그러나, 주어진 다채널 역상관기(600)의 구조는 단지 일례로서 고려되어야만 하고, 여기서 설명되는 기능성이 제공되는 한 다채널 역상관기(600)를 기능 블록들로(예를 들면, 프리믹서(620), 역상관 또는 역상관 코어(630) 및 포스트 믹서(640)로) 세분하는 것이 반드시 필요하지는 않다.
다채널 역상관기(600)의 기능성과 관련하여, N 역상관기 입력 신호들의 제 1 세트로부터 K 역상관기 입력 신호들의 제 2 세트를 유도하기 위하여 프리믹싱을 실행하는 개념, 및 (프리믹싱되거나 또는 "다운믹싱된") K 역상관기 입력 신호들의 제 2 세트를 기초로 하여 역상관을 실행하는 개념은 실제 역상관이 예를 들면 직접적으로 N 역상관기 입력 신호들에 적용되는 개념과 비교할 때 복잡도의 감소를 가져온다. 게다가, 업믹서(640)에 의해 실행될 수 있는, 역상관기 출력 신호들의 제 1 (원래) 세트를 기초로 하여 N' 역상관기 출력 신호들의 제 2 (업믹싱된) 세트가 획득된다. 따라서, 다채널 역상관기(600)는 N 역상관기 입력 신호들을 효율적으로(외부에서 볼 때) 수신하고 이를 기초로 하여, N' 역상관기 출력 신호들을 제공하며, 실제 역상관기 코어(630)만이 적은 수의 신호들(즉 K 역상관기 입력 신호들의 제 2 세트의 K 다운믹싱된 역상관기 입력 신호들(622a 내지 622k)) 상에서 운영된다. 따라서, 역상관(또는 역상관기 코어, 630)의 입력 측에서 다운믹싱 또는 "프리믹싱(바람직하게는 어떠한 역상관 기능 없이 선형 프리믹싱일 수 있는)"의 실행에 의해, 그리고 역상관(또는 역상관기 코어, 630)의 (원래) 출력 신호들(632a 내지 632k')을 기초로 하여 업믹싱 또는 "포스트믹싱(예를 들면, 어떠한 부가적인 역상관 기능 없이 선형 업믹싱)의 실행에 의해, 다채널 역상관기(600)의 복잡도는 종래의 역상관기들과 비교할 때, 실질적으로 감소될 수 있다.
게다가, 다채널 역상관기(600)는 다채널 역상관 및 또한 다채널 오디오 디코더들과 관련하여 여기에 설명되는 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다는 것에 유의하여야 한다. 여기서 설명되는 특징들은 이에 의해 다채널 역상관기(600)를 향상시키거나 또는 개선하기 위하여, 개별적으로 또는 조합하여 다채널 역상관기(600)에 추가될 수 있다는 것에 유의하여야 한다.
복잡도 감소가 없는 다채널 역상관기는 K=N(그리고 가능한 K'=N' 또는 심지어 K=N=K'=N')에 대하여 위에 설명된 다채널 역상관기로부터 유도될 수 있다는 것에 유의하여야 한다.
7. 도 7에 따른 다채널 오디오 디코더
도 7은 본 발명의 일 실시 예에 따른 다채널 오디오 디코더(700)의 개략적인 블록 다이어그램을 도시한다.
다채널 오디오 디코더(700)는 인코딩된 표현(710)을 수신하고 이를 기초로 하여, 적어도 두 개의 출력 신호(712, 714)를 제공하도록 구성된다. 다채널 오디오 디코더(700)는 실질적으로 도 6에 따른 다채널 역상관기(600)와 동일할 수 있는, 다채널 역상관기(720)를 포함한다. 게다가, 다채널 오디오 디코더(700)는 통상의 지식을 가진 자들에 의해 알려졌거나 또는 다른 다채널 오디오 디코더들과 관련하여 여기서 설명되는 다채널 오디오 디코더의 특징들과 기능들 중 어느 하나를 포함할 수 있다.
게다가, 다채널 오디오 디코더(700)는 종래의 다채널 오디오 디코더들과 비교할 때 특히 높은 효율성을 포함한다는 것에 유의하여야 하는데, 그 이유는 다채널 오디오 디코더(700)가 높은 효율성의 다채널 역상관기(720)를 사용하기 때문이다.
8. 도 8에 따른 다채널 오디오 인코더
도 8은 본 발명의 일 실시 예에 따른 다채널 오디오 인코더(800)의 개략적인 블록 다이어그램을 도시한다. 다채널 오디오 인코더(800)는 적어도 두 개의 입력 오디오 신호(810, 812)를 수신하고 이를 기초로 하여, 입력 오디오 신호들(810, 812)에 의해 표현되는 오디오 콘텐츠의 인코딩된 표현(814)을 제공하도록 구성된다.
다채널 오디오 인코더(800)는 적어도 두 개의 입력 오디오 신호(810, 812)를 기초로 하여 하나 이상의 다운믹스 신호(822)를 제공하도록 구성되는, 다운믹스 신호 제공기(820)를 포함한다. 다채널 오디오 인코더(800)는 또한 입력 오디오 신호들(810, 812)을 기초로 하여 하나 이상의 파라미터(832, 예를 들면, 교차 상관 파라미터들 또는 교차 공분산 파라미터들, 또는 오브젝트간 상관 파라미터들 및/또는 오브젝트 레벨 차이 파라미터들)를 제공하도록 구성되는 파라미터 제공기(830)를 포함한다. 게다가, 다채널 오디오 인코더(800)는 오디오 인코더(인코딩된 표현(814)을 수신하는)의 측에서 사용되도록 역상관의 복잡도를 기술하는 역상관 복잡도 파라미터(842)를 제공하도록 구성되는 역상관 복잡도 파라미터 제공기(840)를 포함한다. 하나 이상의 다운믹스 신호(822), 하나 이상의 파라미터(832) 및 역상관 복잡도 파라미터(842)는 바람직하게는 인코딩된 형태로, 인코딩된 표현(814) 내에 포함된다.
그러나, 다채널 오디오 인코더(800)의 내부 구조(예를 들면 다운믹스 신호 제공기(820), 파라미터 제공기(830) 및 역상관 복잡도 파라미터 제공기(840)의 존재)는 단지 일례로서 고려된다는 것을 이해하여야 한다. 여기서 설명되는 기능성이 달성되는 한 상이한 구조들이 가능하다.
다채널 오디오 인코더(800)의 기능성과 관련하여, 다채널 오디오 인코더는 인코딩된 표현(814)을 제공하고, 하나 이상의 다운믹스 신호(822) 및 하나 이상의 파라미터(832)는 종래의 오디오 인코더들(예를 들면, 종래의 공간 오디오 오브젝트 코딩 오디오 인코더들 또는 통합 음성 및 오디오 코딩 오디오 디코더들 같은)에 의해 제공되는 다운믹스 신호들 및 파라미터들과 유사하거나 또는 동일할 수 있다는 것을 이해하여야 한다. 그러나, 다채널 오디오 인코더(800)는 또한 오디오 디코더의 측에서 적용되는 역상관 복잡도를 결정하도록 허용하는, 역상관 복잡도 파라미터(842)를 제공하도록 구성된다. 따라서, 역상관 복잡도는 현재 인코딩되는 오디오 콘텐츠에 적용될 수 있다. 예를 들면, 입력 오디오 신호들의 인코더 측의 지식에 의존하여 달성 가능한 오디오 품질과 상응하는, 요구되는 역상관 복잡도를 시그널링하는 것이 가능하다. 예를 들면, 만일 오디오 신호를 위하여 공간 특징들이 중요하다고 발견되면, 공간 특징들이 그다지 중요하지 않은 경우와 비교할 때, 역상관 복잡도 파라미터(842)를 사용하여 높은 역상관 복잡도가 시그널링될 수 있다. 대안으로서, 만일 오디오 콘텐츠 또는 전체 오디오 콘텐츠의 통로가 다른 이유 때문에 오디오 디코더의 측에서 높은 복잡도 역상관이 필요한 것과 같은 것으로 발견되면, 역상관 복잡도 파라미터(842)를 사용하여 높은 역상관 복잡도의 사용이 시그널링될 수 있다.
요약하면, 다채널 오디오 인코더(800)는 다채널 오디오 인코더(800)에 의해 설정될 수 있는 신호 특징들 또는 요구되는 재생 특징들에 적용되는 역상관 복잡도를 사용하기 위하여, 다채널 오디오 디코더를 제어하기 위한 가능성을 제공한다.
게다가, 다채널 오디오 인코더(800)는 개별적으로 또는 조합하여, 다채널 오디오 인코더와 관련하여 여기서 설명되는 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다는 것에 유의하여야 한다. 예를 들면, 다채널 오디오 인코더들과 관련하여 여기서 설명되는 일부 또는 모든 특징은 다채널 오디오 인코더(800)에 추가될 수 있다. 게다가, 다채널 오디오 인코더(800)는 여기서 설명되는 다채널 오디오 디코더들과 협력하도록 적용될 수 있다.
9. 도 9에 따라, 복수의 역상관 입력 신호를 기초로 하여 복수의 역상관된 신호를 제공하기 위한 방법
도 9는 복수의 역상관 입력 신호를 기초로 하여 복수의 역상관된 신호를 제공하기 위한 방법(900)의 플로우차트를 도시한다.
방법(900)은 N 역상관기 입력 신호들의 제 1 세트를 K 역상관기 입력 신호들의 제 2 세트 내로 프리믹싱하는 단계(910)를 포함하는데, K는 N보다 작다. 방법(900)은 또한 K 역상관기 입력 신호들의 제 2 세트를 기초로 하여 K' 역상관기 출력 신호들의 제 1 세트를 제공하는 단계(920)를 포함한다. 예를 들면, K' 역 상관기 출력 신호들의 제 1 세트는 예를 들면 역상관기 코어 또는 역상관 알고리즘을 사용하여 실행될 수 있는, 역상관을 사용하여 K 역상관기 입력 신호들의 제 2 세트를 기초로 하여 제공될 수 있다. 방법(900)은 K' 역상관기 출력 신호들의 제 1 세트를 N' 역상관기 출력 신호들의 제 2 세트 내로 포스트믹싱하는 단계(930)를 더 포함하는데, N'은 K'보다 크다(N'과 K'은 정수 숫자들이다), 따라서, 방법(900)의 출력인, N' 역상관기 출력 신호들의 제 2 세트는 방법(900)에 입력되는, N' 역상관기 입력 신호들의 제 1 세트를 기초로 하여 제공될 수 있다.
방법은 위에 설명된 다채널 역상관기와 동일한 고려사항들을 기초로 한다는 것에 유의하여야 한다. 게다가, 방법(900)은 개별적으로 또는 조합하여, 다채널 역상관기와 관련하여(그리고 만일 적용 가능하면, 또한 다채널 오디오 인코더와 관련하여) 여기서 설명되는 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다는 것에 유의하여야 한다.
10. 도 10에 따라, 인코딩된 표현을 기초로 하여 적어도 두 개의 출력 오디오 신호를 제공하기 위한 방법
도 10은 인코딩된 표현을 기초로 하여 적어도 두 개의 출력 오디오 신호를 제공하기 위한 방법(1000)의 플로우차트를 도시한다.
방법(1000)은 인코딩된 표현(1012)을 기초로 하여 적어도 두 개의 출력 오디오 신호(1014, 1016)를 제공하는 단계(1010)를 포함한다. 방법(1000)은 도 9에 따른 방법(900)에 의존하여 복수의 역상관기 입력 신호를 기초로 하여 복수의 역상관된 신호를 제공하는 단계(1020)를 포함한다.
방법(1000)은 도 7에 따른 다채널 오디오 디코더(700)와 동일한 고려사항들을 기초로 한다는 것에 유의하여야 한다.
또한, 방법(1000)은 개별적으로 또는 조합하여, 다채널 디코더들과 관련하여 여기서 설명되는 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다는 것을 이해하여야 한다.
11. 도 11에 따라, 적어도 두 개의 입력 오디오 신호를 기초로 하여 인코딩된 표현을 제공하기 위한 방법
도 11은 적어도 두 개의 입력 오디오 신호를 기초로 하여 인코딩된 표현을 제공하기 위한 방법(1100)의 플로우차트를 도시한다.
방법(1100)은 적어도 두 개의 입력 오디오 신호(1112, 1113)를 기초로 하여 하나 이상의 다운믹스 신호를 제공하는 단계(1110)를 포함한다. 방법(1100)은 또한 적어도 두 개의 입력 오디오 신호(1112, 1114) 사이의 관계를 기술하는 하나 이상의 파라미터를 제공하는 단계(1220)를 포함한다. 게다가, 방법(1100)은 오디오 디코더의 측에서 사용되도록 역상관의 복잡도를 기술하는 역상관 복잡도 파라미터를 제공하는 단계(1130)를 포함한다. 따라서, 인코딩된 표현(1132)은 적어도 두 개의 입력 오디오 신호(1112, 1114)를 기초로 하여 제공되고, 인코딩된 표현은 일반적으로 하나 이상의 다운믹스 신호, 적어도 두 개의 입력 오디오 신호 사이의 관계를 기술하는 하나 이상의 파라미터 및 인코딩된 형태의 역상관 복잡도 파라미터를 포함한다.
단계들(1110, 1120, 1130)은 본 발명에 따른 일부 실시 예들에서 병렬로 또는 상이한 순서로 실행될 수 있다는 것에 유의하여야 한다. 게다가, 방법(1110)은 도 8에 따른 다채널 오디오 인코더(800)와 동일한 고려사항들을 기초로 하고, 방법(1100)은 개별적으로 또는 조합하여, 다채널 인코더와 관련하여 여기서 설명되는 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다는 것을 이해하여야 한다. 게다가, 방법(1100)은 다채널 오디오 디코더와 여기서 설명되는 적어도 두 개의 출력 오디오 신호를 제공하기 위한 방법이 일치하도록 적용될 수 있다는 것에 유의하여야 한다.
12. 도 12에 따른 인코딩된 오디오 표현
도 12는 본 발명의 일 실시 예에 따라, 인코딩된 오디오 표현의 개략적인 표현을 도시한다. 인코딩된 오디오 표현(1200)은 다운믹스 신호의 인코딩된 표현(1210), 적어도 두 개의 입력 오디오 신호 사이의 관계를 기술하는 하나 이상의 파라미터의 인코딩된 표현(1220) 및 오디오의 디코더의 측에서 사용되도록 역상관의 복잡도를 기술하는 인코딩된 역상관 복잡도 파라미터(1230)를 포함한다. 따라서, 인코딩된 오디오 표현(1200)은 다채널 오디오 디코더에 의해 사용되는 역상관 복잡도를 조정하도록 허용하고, 이는 향상된 디코딩 효율, 및 가능하게는 향상된 오디오 품질 또는 코딩 효율과 오디오 품질 사이의 향상된 균형을 가져온다 게다가, 인코딩된 오디오 표현(1200)은 여기서 설명되는 것과 같은 다채널 오디오 인코더에 의해 제공될 수 있고, 여기서 설명되는 것과 같은 다채널 오디오 디코더에 의해 사용될 수 있다는 것에 유의하여야 한다. 따라서 인코딩된 오디오 표현(1200)은 다채널 오디오 인코더들 및 다채널 오디오 디코더들과 관련하여 설명된 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다.
13. 기호 및 기본 고려사항
최근에, 다수의 오디오 오브젝트를 포함하는 오디오 장면들의 비트레이트 효율적 전송/저장을 위한 파라미터 기술들이 오디오 코딩(예를 들면, 참고문헌 [BCC], [JSC], [SAOC], [SAOC1], [SAOC2] 참조) 및 출처 소스 분리(informed source separation, 예를 들면, 참고문헌 [ISS1], [ISS2], [ISS3], [ISS4], [ISS5], [ISS6] 참조) 분야에서 제안되었다. 이러한 기술들은 전송된/저장된 오디오 장면 및/또는 오디오 장면 내의 소스 오브젝트들을 기술하는 부가적인 부가 정보를 기초로 하여 요구되는 출력 오디오 장면 또는 오디오 소스 오브젝트의 재구성을 목적으로 한다. 이러한 재구성은 파라미터 통보 소스 분리 전략을 사용하여 디코더에서 발생한다. 게다가, 또한 예를 들면 국제 표준 ISO/IEC 23003-1:2007에서 설명되는, 이른바 "MPEG 서라운드" 개념이 참조된다. 게다가, 또한 국제 표준 ISO/IEC 23003-2:2010에서 설명되는, 이른바 "공간 오디오 오브젝트 코딩"이 참조된다. 게다가, 국제 표준 ISO/IEC 23003-3:2012에서 설명되는, 이른바 "통합 음성 및 오디오 코딩" 개념이 참조된다. 이러한 표준들로부터의 개념들은 본 발명에 따른 실시 예들, 예를 들면 여기서 언급되는 다채널 오디오 인코더들 및 여기서 언급되는 다채널 오디오 디코더들에서 사용될 수 있고, 일부 적용들이 필요할 수 있다.
아래에, 일부 배경 정보가 설명된다. 특히, MPEG 공간 오디오 오브젝트 코딩(SAOC) 기술(예를 들면, 참고문헌 [SAOC] 참조)을 사용하는, 파라미터 분리 전략에 대한 개요가 제공될 것이다. 이러한 방법의 수학적 특성들이 고려된다.
13.1. 기호 및 정의들
다음의 수학적 정의들이 본 발명에 적용된다:
N Objects 오디오 오브젝트 신호들의 수
N DmxCh 다운믹스(처리된) 채널들의 수
N UpmicCh 업믹스(출력) 채널들의 수
N Samples 처리된 데이터 샘플들의 수
D 다운믹스 매트릭스, 크기 N DmxCh ×N Objects
X 입력 오디오 오브젝트 신호, 크기 N Objects ×N Samples
E x 오브젝트 공분산 매트릭스, 크기 N Objects ×N N Objects
E X = XX H 로서 정의됨.
Y 다운믹스 오디오 신호, 크기 N DmxCh ×N Samples
Y = DX와 같이 정의됨
E γ 다운믹스 신호들의 공분산 매트릭스, 크기 N DmxCh ×N DmxCh
E γ=YY H 와 같이 정의됨
G 파라미터 소스 추정 매트릭스, 크기 N Objects ×N DmxCh
E X D H (DE X D H )-1과 근사치
Figure 112016017059104-pct00001
파라미터로 재구성된 오브젝트 신호, 크기 N DmxCh ×N Samples
X에 근사치이고
Figure 112016017059104-pct00002
로서 정의됨
R 렌더링 매트릭스(디코더 측에 지정되는), 크기 N UpmixCh × N Objects
Z 이상적으로 렌더링된 출력 장면 신호, 크기 N UpmixCh ×N Samples
Z=RX로서 정의됨
Figure 112016017059104-pct00003
렌더링된 파라미터 출력, 크기 N UpmixCh ×N Samples
Figure 112016017059104-pct00004
로서 정의됨
C 이상적인 출력의 공분산 매트릭스, 크기 N UpmixCh ×N UpmixCh
C=RE X R H 로서 정의됨
W 역상관 출력들, 크기 N UpmixCh ×N Samples
S 결합된 신호
Figure 112016017059104-pct00005
, 크기 2N UpmixCh ×N Samples
E S 결합된 신호 공분산 매트릭스, 크기 2N UpmixCh ×2N UpmixCh
E S = SS H 로서 정의됨
Figure 112016017059104-pct00006
최종 출력, 크기 N UpmixCh ×N Samples
(·) H 자체 수반(self-adjoint) (에르미트) 연산자.
(·)의 복소 켤레 전치(complex conjugate transpose)를 표현. 기호 (·) * 가 또한 사용될 수 있다.
F decorr (·) 역상관 함수
ε 0으로의 나눗셈을 방지하기 위한 추가 상수 또는 제한 상 수(예를 들면, "maximum" 연산자 또는 "max" 연산자에서 사용되는)
H=matdiag(M) 주 대각선 상의 매트릭스(M)의 주 대각선으로부터의 요소들 및 비-대각선 위치들 상의 0 값들을 포함하는 매트릭스
일반성의 손실 없이, 방정식들의 가독성을 향상시키기 위하여, 도입된 모든 변수에 대하여 시간 및 주파수 의존을 나타내는 지수들은 본 명세서에서 생략된다.
13.2 파라미터 분리 시스템
일반적인 파라미터 분리 시스템은 보조 파라미터 정보(예를 들면, 채널간 상관 값들, 채널간 레벨 차이 값들, 오브젝트간 상관 값들 및/또는 오브젝트 레벨 차이 정보 같은)를 사용하여 신호 혼합물(다운믹스)로부터 다수의 오디오 소스들을 추정하는 것을 목적으로 한다. 이러한 작업의 일반적인 해결책은 최소 평균 제곱 오차(MMSE) 추정 알고리즘들의 적용을 기초로 한다. 공간 오디오 오브젝트 코딩 기술은 그러한 파라미터 오디오 인코딩/디코딩 시스템들의 일례이다.
도 13은 공간 오디오 오브젝트 코딩 인코더/디코더 구조의 일반적인 원리를 도시한다. 바꾸어 말하면, 도 13은 개략적인 블록 다이어그램 형태의, 최소 평균 제곱 오차 기반 파라미터 다운믹스/업믹스 개념의 개요를 도시한다.
인코더(1310)는 복수의 오브젝트 신호(1312a, 1312b 내지 1312n)를 수신한다. 게다가, 인코더(1310)는 또한 예를 들면 다운믹스 파라미터들일 수 있는, 믹싱 파라미터들(D, 1314)을 수신한다. 인코더(1310)는 이를 기초로 하여, 하나 이상의 다운믹스 신호(1316a, 1316b 등)를 제공한다. 게다가, 인코더는 부가 정보(1318)를 제공한다. 하나 이상의 다운믹스 신호 및 부가 정보는 예를 들면, 인코딩된 형태로 제공될 수 있다.
인코더(1310)는 일반적으로 오브젝트 신호들(1312a 내지 1312n)을 수신하고 믹싱 파라미터들(1314)에 의존하여 오브젝트 신호들(1312a 내지 1312n)을 하나 이상의 다운믹스 신호(1316a 내지 1316n) 내로 결합하도록 구성되는, 믹서(1320)를 포함한다. 게다가, 인코더는 오브젝트 신호들(1312a 내지 1312n)로부터 부가 정보(1318)를 유도하도록 구성되는, 부가 정보 추정기(1330)를 포함한다. 예를 들면, 부가 정보 추정기(1330)는 부가 정보가 오브젝트 신호들 사이의 관계, 예를 들면 오브젝트 신호들 사이의 교차 상관("오브젝트간 상관(IOC)"으로서 지정될 수 있는) 및/또는 오브젝트 신호들 사이의 레벨 차이들("오브젝트 레벨 차이 정보(OLD)"로서 지정될 수 있는)을 기술하는 정보("오브젝트 레벨 차이 정보(OLD)"로서 지정될 수 있는)를 기술하기 위하여, 부가 정보(1318)를 유도하도록 구성될 수 있다.
하나 이상의 다운믹스 신호(1316a, 1316b) 및 부가 정보(1318)는 도면부호 1340으로 표시되는, 디코더(1350)에 저장될 수 있거나 또는 전송될 수 있다.
디코더(1350)는 하나 이상의 다운믹스 신호(1316a, 1316b) 및 부가 정보(1318)를 수신하고(예를 들면, 인코딩된 형태로) 이를 기초로 하여, 복수의 출력 오디오 신호(1352a 내지 1352n)를 제공한다. 디코더(1350)는 또한 하나 이상의 렌더링 파라미터(R, 렌더링 매트릭스를 정의할 수 있는)를 포함할 수 있는, 사용자 상호작용 정보(user interaction information, 1354)를 수신할 수 있다. 디코더(1350)는 파라미터 오브젝트 분리기(parameter object separator, 1360), 부가 정보 프로세서(1370) 및 렌더러(1380)를 포함한다. 부가 정보 프로세서(1370)는 부가 정보(1318)를 수신하고 이를 기초로 하여, 파라미터 오브젝트 분리기(1360)에 대한 제어 정보(1372)를 제공한다. 파라미터 오브젝트 분리기(1360)는 부가 정보 프로세서(1370)에 의해 부가 정보(1318)로부터 유도되는, 다운믹스 신호들(1360a, 1360b)과 제어 정보(1372)를 기초로 하여 복수의 오브젝트 신호(1362a 내지 1362n)를 제공한다. 예를 들면, 오브젝트 분리기는 인코딩된 다운믹스 신호들의 디코딩 및 오브젝트 분리를 실행할 수 있다. 렌더러(1380)는 재구성된 오브젝트 신호들(1362a 내지 1362n)을 렌더링하고, 이에 의해 출력 오디오 신호들(1352a 내지 1352n)을 획득한다.
아래에, 최소 평균 제공 오차 기반 파라미터 다운믹스/업믹스 개념의 기능성이 설명될 것이다.
일반적인 파라미터 다운믹스/업믹스 처리는 시간/주파수 선택적 방법으로 수행되고 아래의 단계들의 결과로서 설명될 수 있다:
● "인코더(1310)"에 입력 "오디오 오브젝트들(X)" 및 "믹싱 파라미터들(D)"이 제공된다. "믹서(1320)"는 "믹싱 파라미터들(D)"(예를 들면, 다운믹스 이득들)을 사용하여 "오디오 오브젝트들(X)"을 다수의 "다운믹스 신호들(Y)"로 다운믹싱한다. "부가 정보 추정기"는 입력 "오디오 오브젝트들(X)"의 특징들(예를 들면, 공분산 특성들)을 기술하는 부가 정보(1318)를 추출한다.
● "다운믹스 신호들(Y)" 및 부가 정보는 전송되거나 또는 저장된다. 이러한 다운믹스 오디오 신호들은 오디오 코더들(MPEG-1/2 계층 Ⅱ 또는 Ⅲ, MPEG-2/4 고급 오디오 코딩, MPEG 통합 음성 및 오디오 코딩 등과 같은)을 사용하여 더 압축될 수 있다. 부가 정보가 또한 효율적으로(예를 들면, 오브젝트 파워들과 오브젝트 상관 계수들의 무손실 코딩된 관계들로서) 표현되고 인코딩된다.
● 디코더(1350)는 전송된 부가 정보(1318)를 사용하여 디코딩된 "다운믹스 신호들"로부터 원래 "오디오 오브젝트들"을 복원한다. "부가 정보 프로세서(1370)"는 X의 파라미터 오브젝트 재구성을 획득하기 위하여 "파라미터 오브젝트 분리기(1360)" 내의 "다운믹스 신호들" 상에 적용되도록 언-믹싱 계수들(1372)을 추정한다. 재구성된 "오디오 오브젝트들(1362a 내지 1362n)"은 "렌더링 파라미터들(R)"(1354)의 적용에 의해 출력 채널들(
Figure 112017068036117-pct00007
)에 의해 표현되는, (다채널) 표적 장면으로 렌더링된다.
게다가, 인코더(1310) 및 디코더(1350)와 관련하여 설명된 기능들은 또한 여기서 설명되는 다른 오디오 인코더들과 디코더들에서 사용될 수 있다는 것에 유의하여야 한다.
13.3 최소 평균 제곱 오차의 직교성 ( orthogonality ) 원리
직교성 원리는 최소 평균 제곱 오차 추정기들의 한 가지 주요 특성이다. V는 벡터들(y1)의 세트에 의해 스패닝되고(spanned) 벡터는 x∈W인, 두 개의 에르미트 공간(WV)을 고려한다. 만일 벡터들(y1W)의 선형 결합으로서 x에 근사치인 추정치(
Figure 112016017059104-pct00008
)를 발견하고 평균 제곱 오차를 최소화기를 원하면, 오차 벡터는 벡터들(y1)에 의해 스패닝되는 공간 상에 직각이 될 것이다:
Figure 112016017059104-pct00009
그 결과, 추정 오차 및 추정치 자체는 직각이다:
Figure 112016017059104-pct00010
기하학적으로 이는 도 14에 도시된 실시 예들에 의해 이를 시각화할 수 있다.
도 14는 3차원 공간 내의 직교성 원리를 위한 기하학적 표현을 도시한다. 도시된 것과 같이, 벡터 공간은 벡터들(y1, y2)에 의해 스패닝된다. 벡터(x)는 벡터(
Figure 112016017059104-pct00011
) 및 차이 벡터(또는 오차 벡터, e)의 합계와 동일하다. 도시된 것과 같이, 오차 벡터(e)는 벡터들(y1, y2)에 의해 스패닝되는 벡터 공간(또는 평면)(V)에 직각이다. 따라서, 벡터(
Figure 112016017059104-pct00012
)는 벡터 공간(V) 내의 x의 최상의 근사치로서 고려될 수 있다.
13.4. 파라미터 재구성 오차
N 신호들을 포함하는 매트릭스의 정의: x 및 X Error 인 추정 오차로, 아래의 특성들이 공식화될 수 있다. 원래 신호는 다음과 같이 파라미터 재구성(
Figure 112016017059104-pct00013
) 및 재구성 오차(X Error )의 합계로서 표현될 수 있다:
Figure 112016017059104-pct00014
직교성 원리 때문에, 원래 신호들의 공분산 매트릭스(E X =XX H )는 다음과 같이 재구성된 신호들의 공분산 매트릭스(
Figure 112016017059104-pct00015
) 및 추정 오차들의 공분산 매트릭스(
Figure 112016017059104-pct00016
)의 합계로서 공식화될 수 있다:
Figure 112016017059104-pct00017
입력 오브젝트들(X)이 다운믹스 채널들에 의해 스패닝되는 공간 내에 존재하지 않고(예를 들면, 다운믹스 채널들의 수는 입력 채널들의 수보다 작다) 입력 오브젝트들이 다운믹스 채널들의 선형 조합들로서 표현될 수 없을 때, 최소 평균 제곱 오차 기반 알고리즘들은 재구성 부정확성(
Figure 112016017059104-pct00018
)을 도입한다.
13.5. 오브젝트간 상관
청각 시스템에서, 교차 공분산(간섭/상관)은 음향에 의해 둘러싸이는 포락(envelopment)의 지각 및 음원의 지각된 폭과 밀접하게 관련된다. 예를 들면, 공간 오디오 오브젝트 코딩 기반 시스템들에서 오브젝트간 상관(IOC) 파라미터들은 이러한 특성의 특징화를 위하여 사용된다:
Figure 112016017059104-pct00019
두 개의 오디오 신호를 사용하는 음원의 재생의 일 실시 예가 고려된다. 만일 오브젝트간 상관 값이 1에 가까우면, 음향은 잘 지역화된 지점 소스로서 지각된다. 만일 오브젝트간 상관 값이 0에 가까우면, 지각된 음원의 폭은 증가하고 극단적인 경우들에 대하여 이는 두 개의 독특한 소스들로서 지각될 수 있다[Blauert, 3장].
13.6 재구성 부정확도에 대한 보상
결함 있는 파라미터 재구성의 경우에, 출력 신호는 원래 오브젝트들과 비교하여 낮은 에너지를 나타낼 수 있다. 공분산 매트릭스의 대각선 요소들 내의 오차는 왜곡된 공간 음향 이미지(이상적인 기준 출력과 비교하여) 내의 비-대각선 요소들 내의 가청 레벨 차이들 및 오차를 야기할 수 있다. 제안된 방법은 이러한 문제점을 해결하기 위한 목적을 갖는다.
MPEG 서라운드(MPS)에서, 예를 들면, 이러한 문제는 단지 일부 특정 채널 기반 처리 시나리오를 위하여, 즉 모노/스테레오 다운믹스 및 제한된 고정 출력 구성들(예를 들면, 모노, 스테레오, 5.1, 7.1 등)을 위하여 처리된다. 또한 모노/스테레오 다운믹스를 사용하는 공간 오디오 오브젝트 코딩 같은, 오브젝트 기원 기술들에서, 이러한 문제점은 5.1 출력 구성을 위한 MPEG 서라운드 후처리 렌더링의 적용에 의해서만 처리된다.
현존하는 해결책들은 표준 출력 구성들 및 고정된 수의 입력/출력 채널들에 한정된다. 즉, 이것들은 단지 "모노-대-스테레오"(또는 "stereo-to-three") 채널 역상관 방법들을 구현하는, 몇몇 블록들의 뒤따르는 적용으로서 실현된다.
따라서, 파라미터 재구성 부정확성 보상을 위한 일반적인 해결책(예를 들면, 에너지 레벨 및 상관 특성들 보정 방법)이 바람직한데, 이는 유연한 수의 다운믹스/업믹스 채널들 및 임의 출력 구성 설정들을 위하여 적용될 수 있다.
13.7. 결론
결론적으로, 부호에 대한 개요가 제공되었다. 게다가, 본 발명에 따른 실시 예들의 기초가 되는 파라미터 분리 시스템이 설명되었다. 게다가, 직교성 원리가 치소 평균 제곱 오차 추정에 적용되는 것이 설명되었다. 게다가, 재구성 오차(X Error )의 존재하에서 적용되는 공분산 매트릭스(E X)의 계산을 위한 방정식이 제공되었다. 또한, 이른바 오브젝트간 상관 값들 및 공분산 매트릭스(E X)의 요소들 사이의 관계가 설명되었는데, 이는 예를 들면, 오브젝트간 상관 값들(파라미터 부가 정보 내에 포함될 수 있는)로부터, 그리고 가능하게는 오브젝트 레벨 차이들로부터 요구되는 공산분 특징들(또는 상관 특징들)을 유도하기 위하여 본 발명에 따른 실시 예들에 적용될 수 있다. 게다가, 재구성된 오브젝트 신호들의 특징들은 결함 있는 재구성 때문에 요구되는 특징들과 다를 수 있다는 것이 설명되었다. 게다가, 문제점을 처리하기 위한 현존하는 해결책들은 일부 특정 출력 구성들에 한정되고 종래의 해결책들을 융통성 없게 만드는, 표준 블록들의 특정 조합에 의존한다는 것이 설명되었다.
14. 도 15에 따른 실시 예
14.1. 개념 개요
본 발명에 따른 실시 예들은 임의의 수의 다운믹스/업믹스 채널을 위한 역상관 해결책으로 파라미터 오디오 분리 전략들에서 사용되는 최소 평균 제곱 오차 파라미터 재구성 방법들로 확장한다. 예를 들면 본 발명의 장치 및 본 발명의 방법 같은, 본 발명에 따른 실시 예들은 파라미터 재구성 동안에 에너지 손실을 보상하고 추정된 오브젝트들의 상관 특성들을 복원할 수 있다.
도 15는 통합된 역상관 경로를 갖는 파라미터 다운믹스/업믹스 개념의 개요를 제공한다. 바꾸어 말하면, 도 15는 개략적인 블록 다이어그램 형태로, 렌더링된 출력 상에 적용되는 역상관을 갖는 파라미터 재구성 시스템을 도시한다.
도 15에 따른 시스템은 실질적으로 도 13에 따른 인코더(1310)와 동일한, 인코더(1510)를 포함한다. 인코더(1510)는 복수의 오브젝트 신호(1512a 내지 1512n)를 수신하고, 이를 기초로 하여, 하나 이상의 다운믹스 신호(1516a, 1516b)뿐만 아니라 부가 정보(1518)를 제공한다. 다운믹스 신호들(1516a, 1516b)은 실질적으로 다운믹스 신호들(1316a, 1316b)과 동일할 수 있으며 Y로 지정될 수 있다. 부가 정보(1518)는 실질적으로 부가 정보(1318)와 동일할 수 있다. 그러나, 부가 정보는 예를 들면, 역상관 모드 파라미터 또는 역상관 방법 파라미터, 혹은 역상관 복잡도 파라미터를 포함할 수 있다. 게다가, 인코더(1510)는 믹싱 파라미터들(1514)을 수신할 수 있다.
파라미터 재구성 시스템은 또한 하나 이상의 다운믹스 신호(1516a, 1516b) 및 부가 정보(1518)의 전송 및/또는 저장을 포함하고, 전송 및/또는 저장은 1540으로 지정되며, 하나 이상의 다운믹스 신호(1516a, 1516b) 및 부가 정보(1518, 파라미터 부가 정보를 포함할 수 있는)가 인코딩될 수 있다.
게다가, 도 15에 따른 파라미터 재구성 시스템은 전송되거나 또는 저장된 하나 이상의(가능하게는 인코딩된) 다운믹스 신호(1516a, 1516b) 및 전송되거나 또는 저장된(가능하게는 인코딩된) 부가 정보(1518)를 수신하고 이를 기초로 하여, 출력 오디오 신호들(1552a 내지 1552n)을 제공하도록 구성되는, 디코더(1550)를 포함한다. 디코더(1550, 다채널 오디오 디코더로서 고려될 수 있는)는 파라미터 오브젝트 분리기(1560) 및 부가 정보 프로세서(1570)를 포함한다. 게다가, 디코더(1550)는 렌더러(1580), 역상관기(1590) 및 믹서(1598)를 포함한다.
파라미터 오브젝트 분리기(1560)는 하나 이상의 다운믹스 신호(1516a, 1516b) 및 부가 정보(1518)를 기초로 하여 부가 정보 프로세서(1570)에 의해 제공되는, 제어 정보(1572)를 수신하고 이를 기초로 하여 또한
Figure 112017068036117-pct00020
로서 지정되고 디코딩된 오디오 신호들로서 고려될 수 있는, 오브젝트 신호들(1562a 내지 1562b)을 제공하도록 구성된다. 제어 정보(1572)는 예를 들면, 재구성된 오브젝트 신호들(예를 들면, 디코딩된 오디오 신호들들(1562a 내지 1562b))을 획득하기 위하여 파라미터 오브젝트 분리기 내의 다운믹스 신호들 상에 적용되려는(예를 들면, 인코딩된 다운믹스 신호들(1516a, 1516b)로부터 유도되는 디코딩된 다운믹스 신호들에 대한) 언-믹싱(un-mixing) 계수들을 포함할 수 있다. 렌더러(1580)는 디코딩된 오디오 신호들(1562a 내지 1562n, 재구성된 오디오 신호들일 수 있고, 예를 들면 입력 오브젝트 신호들(1512a 내지 1512n)과 상응할 수 있는)을 렌더링하고, 이에 의해 복수의 렌더링된 오디오 신호(1582a 내지 1582n)를 획득한다. 예를 들면, 렌더러(1580)는 예를 들면 사용자 상호작용에 의해 제공될 수 있고, 예를 들면 렌더링 매트릭스를 정의할 수 있는, 렌더링 파라미터들(R)을 고려할 수 있다. 그러나, 대안으로서, 렌더링 파라미터들은 인코딩된 표현(인코딩된 다운믹스 신호들(1516a, 1516b)과 인코딩된 부가 정보(1518)를 포함할 수 있는)로부터 얻을 수 있다.
역상관기(1590)는 렌더링된 오디오 신호들(1582a 내지 1582n)을 수신하고 이를 기초로 하여, 또한 W로서 지정되는, 역상관된 오디오 신호들(1592a 내지 1592n)을 제공하도록 구성된다. 믹서(1598)는 렌더링된 오디오 신호들(1582a 내지 1582n) 및 역상관된 오디오 신호들(1592a 내지 1592n)을 수신하고, 이에 의해 출력 오디오 신호들(1552a 내지 1552n)을 획득하기 위하여 렌더링된 오디오 신호들(1582a 내지 1582n) 및 역상관된 오디오 신호들(1592a 내지 1592n)을 결합하도록 구성된다. 믹서(1598)는 또한 아래에 설명될 것과 같이, 인코딩된 부가 정보(1518)로부터 부가 정보 프로세서(1570)에 의해 유도되는 제어 정보(1574)를 사용한다.
14.2. 역상관기 함수
아래에, 역상관기(1590)와 관련하여 일부 상세내용이 설명될 것이다. 그러나, 상이한 역상관기 개념들이 사용될 수 있다는 것에 유의하여야 하며, 이것들 중 일부는 아래에 설명될 것이다.
일 실시 예에서, 역상관기 함수(
Figure 112016017059104-pct00021
)는 입력 신호(
Figure 112016017059104-pct00022
)에 직각인 출력 신호(w)를 제공한다. 출력 신호(w)는 동일한(입력신호(
Figure 112016017059104-pct00023
)와) 스펙트럼 및 시간적 엔벨로프 특성들(또는 적어도 유사한 특성들)을 갖는다. 게다가, 신호(w)는 유사하게 지각되고 입력 신호(
Figure 112016017059104-pct00024
)와 동일한(또는 유사한) 주관적 품질을 갖는다(예를 들면, [SAOC] 참조).
다중 입력 신호의 경우에, 만일 역상관 함수가 서로 직각인(예를 들면, 모든 ij에 대하여
Figure 112016017059104-pct00025
이고 ij에 대하여
Figure 112016017059104-pct00026
인 것과 같이,
Figure 112016017059104-pct00027
) 다중 출력을 생산하면 이는 바람직하다.
역상관 함수 구현을 위한 정확한 사양은 본 설명의 범위를 벗어난다. 예를 들면, MPEG 서라운드 표준에서 지정된 일부 무한 임펄스 응답(IIR) 기반 역상관기들의 뱅크(bank)가 역상관 목적들을 위하여 사용될 수 있다[MPS].
본 설명에서 설명되는 일반적인 역상관기들은 이상적인 것으로 추정된다. 이는 (지각적 요구조건들에 더하여) 각각의 역상관기의 출력이 그것의 입력 및 모든 다른 역상관기의 출력에 직각인 것을 나타낸다. 따라서, 공분산(
Figure 112016017059104-pct00028
)을 갖는 입력(
Figure 112016017059104-pct00029
) 및 출력(
Figure 112016017059104-pct00030
)을 위하여 아래의 공분산 매트릭스의 특성들이 유지된다:
Figure 112016017059104-pct00031
이러한 관계들로부터, 다음이 뒤따른다:
Figure 112016017059104-pct00032
역상관기 출력(W)은 입력들로서 예측된 신호들을 사용함으로써 최소 평균 제곱 오차 추정기 내의 예측 부정확성을 보상하도록 사용될 수 있다(예측 오차가 예측된 신호들에 직각인 것을 참조).
또한 예측 오차들은 일반적인 경우에 그것들 사이에 직각이 아닌 것에 유의하여야만 한다. 따라서, 본 발명의 개념(예를 들면, 방법)의 한 가지 목적은 결과로서 생기는 혼합물(예를 들면, 출력 오디오 신호들(1552a 내지 1552n))의 공분산 매트릭스가 요구되는 출력의 공분산 매트릭스와 유사하게 되도록, "순수(dry)"(즉, 역상관기 입력) 신호(예를 들면, 렌더링된 오디오 신호들(1582a 내지 1582n)) 및 "적용된(wet)"(즉, 역상관기 출력) 신호(예를 들면, 역상관된 오디오 신호들(1592a 내지 1592n))의 혼합물을 생성하는 것이다.
게다가, 아래에 상세히 설명될, 역상관 신호의 일부 결함들을 가져오나 수용 가능할 수 있는, 역상관 유닛을 위한 복잡도 감소가 사용될 수 있다는 것에 유의하여야 한다.
14.3. 역상관 신호들을 사용하는 출력 공분산 보정
아래에 합리적으로 뛰어난 청각 효과를 획득하기 위하여 출력 오디오 신호들(1552a 내지 1552n)의 공분산 특징들을 조정하기 위한 개념이 설명될 것이다.
출력 공분산 오차 보정을 위한 제안된 방법은 파라미터로 재구성된 신호(
Figure 112016017059104-pct00033
, 예를 들면 렌더링된 오디오 신호들(1582a 내지 1582n)) 및 그것의 역상관된 부분(W)의 가중 합계로서 출력 신호(
Figure 112016017059104-pct00034
, 예를 들면 출력 오디오 신호들(1552a 내지 1552n))을 포함한다. 이러한 합계는 다음과 같이 표현될 수 있다:
Figure 112016017059104-pct00035
그러나, 이러한 방정식은 가장 일반적인 공식으로 고려된다는 것에 유의하여야 한다. 여기서 설명되는 모든 "단순화된 방법"을 위하여 유효한(또는 만들어질 수 있는) 위의 공식에 변경이 선택적으로 적용될 수 있다.
직접적인 신호(
Figure 112016017059104-pct00036
)에 적용되는 믹싱 매트릭스들(P) 및 역상관된 신호(W)에 적용되는 M은 다음의 구조를 갖는다(여기서 N=N UpmixCh 이고, N UpmixCh 은 출력 오디오 신호들의 수와 동일할 수 있는, 렌더링된 오디오 신호들의 수를 지정한다):
Figure 112016017059104-pct00037
결합된 매트릭스(F = [P M]) 및 신호(
Figure 112016017059104-pct00038
)에 대한 기호를 적용하여, 아래와 같이 생성된다:
Figure 112016017059104-pct00039
그러나 대안으로서, 아래에 더 상세히 설명될 것과 같이, 다음의 방정식이 적용될 수 있다:
Figure 112016017059104-pct00040
이러한 표현을 사용하여, 출력 신호(
Figure 112016017059104-pct00041
)의 공분산 매트릭스(
Figure 112016017059104-pct00042
)는 다음과 같이 정의된다:
Figure 112016017059104-pct00043
이상적으로 생성된 렌더링된 출력 장면의 표적 공분산(C)은 다음과 같이 정의된다:
Figure 112016017059104-pct00044
믹싱 매트릭스(F)는 다음과 같이 최종 출력의 공분산 매트릭스(
Figure 112016017059104-pct00045
)가 표적 공산에 근사치이거나 또는 동일하도록 계산된다:
Figure 112016017059104-pct00046
믹싱 매트릭스(F)는 예를 들면, 다음과 같은 알려진 양들의 함수(F=F(E s ,E X ,R)로서 계산되는데:
Figure 112016017059104-pct00047
여기서 매트릭스들(U, TV, Q)는 예를 들면 아래와 같이 생성하는 공분산 매트릭스들(E S C)의 단일 값 분해(SVD)을 사용하여 결정될 수 있다:
C=UTU H , E S =VQV H
프로토타입 매트릭스(H)는 직접적인 그리고 역상관된 신호 경로들에 대한 요구되는 가중들에 따라 선택될 수 있다.
예를 들면, 가능한 프로토타입 매트릭스(H)는 다음과 같이 결정될 수 있다:
Figure 112016017059104-pct00048
, 여기서
Figure 112016017059104-pct00049
이다.
아래에, 일반적인 매트릭스(F)에 대한 수학적 유도가 제공될 것이다.
바꾸어 말하면, 일반적인 해결책을 위한 믹싱 매트릭스(F)의 유도가 아래에 설명될 것이다.
공분산 매트릭스들(E S C)은 예를 들면, 다음과 같이 단일 값 분해(SVD)를 사용하여 표현될 수 있는데:
E S = VQV H , C = UTU H .
여기서 TQ는 각각 E S C의 단일 값들을 갖는 대각선 매트릭스들이고, UV는 상응하는 단일 벡터들을 포함하는 단위 매트릭스(unitary matrix)들이다.
슈어 삼각측량(Schur triangulation) 또는 고유값 분해(eigenvalue decomposition)(단일 값 분해 대신에)의 적용이 유사한 결과들(또는 만일 대각선 매트릭스들(QT)이 양의 값들에 한정되면 심지어 동일한 결과들)에 이르게 한다는 유의하여야 한다.
이러한 분해를 요구조건(E Z
Figure 112016017059104-pct00050
C)에 적용하여, 다음을 생성한다(적어도 근사치로):
Figure 112016017059104-pct00051
공분산 매트릭스들의 차원수(dimensionality)에 주의하기 위하여, 일부 경우에 규칙화가 필요하다. 예를 들면,
Figure 112016017059104-pct00052
인 특성을 갖는 크기 N UpmixCh ×2N UpmixCh 의 프로토타입 매트릭스(H)가 적용될 수 있다:
Figure 112016017059104-pct00053
그 뒤에 믹싱 매트릭스(F)가 다음과 같이 결정될 수 있다:
Figure 112016017059104-pct00054
프로토타입 매트릭스(H)는 직접적인 그리고 역상관된 신호 경로들을 위한 요구되는 가중들에 따라 선택된다. 예를 들면, 가능한 프로토타입 매트릭스(H)는 다음과 같이 결정될 수 있는데:
Figure 112016017059104-pct00055
, 여기서
Figure 112016017059104-pct00056
이다.
결합된 신호들의 공분산 매트릭스(E S )의 조건에 의존하여, 일부 규칙화를 포함하도록 마지막 방정식이 필요할 수 있으나, 그렇지 않으면 이는 수치상으로 안정적이어야만 한다.
결론적으로, 렌더링된 오디오 신호들(매트릭스(
Figure 112016017059104-pct00057
)에 의해, 또는 동등하게 벡터()에 의해 표현되는) 및 역상관된 오디오 신호들(매트릭스(W)에 의해, 또는 동등하게 벡터(w)에 의해 표현되는)을 기초로 하여 출력 오디오 신호들(매트릭스(
Figure 112016017059104-pct00058
)에 의해, 또는 동등하게 벡터(w)에 의해 표현되는)을 유도하기 위한 개념이 설명되었다. 알 수 있는 것과 같이, 일반 매트릭스 구조의 두 개의 믹싱 매트릭스(PM)가 공통으로 결정된다. 예를 들면, 위에 정의된 것과 같이, 결합된 매트릭스(F)는 출력 오디오 신호들(1552a 내지 1552n)의 공분산 매트릭스(
Figure 112016017059104-pct00059
)가 요구되는 공분산(또한 표적 공분산으로서 지정되는, C)과 근사치이거나 또는 동등하도록 결정될 수 있다. 요구되는 공분산 매트릭스(C)는 예를 들면, 렌더링 매트릭스(R, 예를 들면, 사용자 상호작용에 의해 제공될 수 있는)의 지식을 기초로 하고 오브젝트 공분산 매트릭스(E X )의 지식을 기초로 하여 유도될 수 있고, 이는 예를 들면 인코딩된 부가 정보(1518)를 기초로 하여 유도될 수 있다. 예를 들면, 오브젝트 공분산 매트릭스(E X )는 위에서 설명되고 인코딩된 부가 정보(1518) 내에 포함될 수 있는, 오브젝트간 상관 값들(IOC)을 사용하여 유도될 수 있다. 따라서, 표적 공분산 매트릭스(C)는 예를 들면, 정보(1574)로서 또는 정보(1574)의 일부분으로서 부가 정보 프로세서(1570)에 의해 제공될 수 있다.
그러나 대안으로서, 부가 정보 프로세서(1570)는 또한 정보(1574)로서 믹싱 매트릭스(F)를 믹서(1598)에 직접적으로 제공할 수 있다.
게다가, 단일 값 분해를 사용하는, 믹싱 매트릭스(F)를 위한 계산 규칙이 설명되었다. 그러나, 몇몇 자유도가 존재하는데, 그 이유는 프로토타입 매트릭스(H)의 엔트리들(a i,i , b i,i )이 선택될 수 있기 때문이다. 바람직하게는, 프로토타입 매트릭스(H)의 엔트리들은 0과 1 사이의 어딘가가 되도록 선택될 수 있다. 만일 값들(a i,i )이 1에 가깝도록 선택되면, 렌더링된 오디오 신호들의 유의한 믹싱이 존재할 것이고, 역상관된 오디오 신호들의 영향은 상대적으로 적은데, 이는 일부 상황들에서 바람직할 수 있다. 그러나, 일부 다른 상황들에서 역상관된 오디오 신호들의 상대적으로 큰 영향을 갖고 렌더링된 오디오 신호들 사이에 약한 믹싱만이 존재하는 것이 더 바람직할 수 있다. 이러한 경우에, 값들(b i,i )은 일반적으로 a i,i 보다 크도록 선택된다. 따라서, 디코더(1550)는 프로토타입 매트릭스(H)의 엔트리들을 적절하게 선택함으로써 요구조건들에 적용될 수 있다.
14.4. 출력 공분산 보정을 위한 단순화된 방법들
본 섹션에서, 위에 언급된 믹싱 매트릭스(F)에 대한 두 가지 대안의 구조가 그것의 값들을 결정하기 위한 바람직한 알고리즘들과 함께 설명된다. 두 가지 대운은 상이한 입력 콘텐츠(예를 들면, 오디오 콘텐츠)를 위하여 디자인된다:
- 매우 상관된 콘텐츠를 위한 공분산 조정 방법(예를 들면, 상이한 채널 부분들 사이에 높은 상관을 갖는 채널 기반 입력)
- 독립 입력 신호들을 위한 에너지 보상 방법(예를 들면, 일반적으로 독립적으로 추정되는, 오브젝트 기반 입력).
14.4.1. 공분산 조정 방법(A)
신호(
Figure 112016017059104-pct00060
, 예를 들면 렌더링된 오디오 신호들(1582a 내지 1582n))가 최소 평균 제곱 오차 의미에서 이미 최적인 것으로 고려하면, 출력(
Figure 112016017059104-pct00061
)의 공분산 특성들을 향상시키기 위하여 파라미터 재구성들(
Figure 112016017059104-pct00062
, 예를 들면 출력 오디오 신호들(1552a 내지 1552n))을 변형하는 것은 일반적으로 바람직하지 않은데 그 이유는 이것이 분리 품질에 영향을 미칠 수 있기 때문이다.
만일 역상관된 신호들(W)의 혼합물만이 조정되면, 믹싱 매트릭스(P)는 단위 매트릭스(또는 그것의 다수)로 감소될 수 있다. 따라서, 단순화된 방법은 다음을 설정함으로써 설명될 수 있다:
Figure 112016017059104-pct00063
시스템의 최종 출력은 다음과 같이 표현될 수 있다:
Figure 112016017059104-pct00064
그 결과 시스템의 최종 출력 공분산은 다음과 같이 표현될 수 있다:
Figure 112016017059104-pct00065
렌더링된 파라미터 재구성(예를 들면, 렌더링된 오디오 신호들)의 이상적(또는 요구되는) 출력 공분산 매트릭스(C) 및 공분산 매트릭스(
Figure 112016017059104-pct00066
) 사이의 차이(△ E )는 다음에 의해 주어진다:
Figure 112016017059104-pct00067
따라서, 믹싱 매트릭스(M)는 아래와 같이 되도록 결정된다:
Figure 112016017059104-pct00068
믹싱 매트릭스(M)는 믹싱되고 역상관된 신호들(MW)의 공분산 매트릭스가 요구되는 공분산 및 순수(dry) 신호들(예를 들면, 렌더링된 오디오 신호들)의 공분산 사이의 공분산 차이와 동등하거나 또는 근사치가 되도록 계산된다. 그 결과 최종 출력의 공분산은 표적 공분산(
Figure 112016017059104-pct00069
)에 근사치일 것이다:
Figure 112016017059104-pct00070
여기서 매트릭스들(U, TV, Q)는 예를 들면 아래와 같이 생성하는 공분산 매트릭스들(△ E E W )의 단일 값 분해(SVD)을 사용하여 결정될 수 있다:
E = UTU H , E W = VQV H
이러한 접근법은 순수 출력(예를 들면, 렌더링된 오디오 신호들(1582a 내지 1582n)의 사용을 최대화하는 뛰어난 교차 상관 재구성을 보장하고 역상관된 신호들만의 믹싱의 자유도를 사용한다. 바꾸어 말하면, 렌더링된 오디오 신호들(또는 그것들의 스케일링된 버전)을 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이에 허용되는 어떠한 믹싱도 존재하지 않는다. 그러나, 출력 오디오 신호들의 교차 상관 특징들 또는 교차 공분산 특징들을 조정하기 위하여, 동일하거나 또는 상이한 스케일링으로, 주어진 역상관된 신호가 복수의 렌더링된 오디오 신호 또는 그것들의 스케일링된 버전과 결합되는 것이 허용된다. 결합은 예를 들면, 여기서 정의되는 것이 같은 매트릭스(M)에 의해 정의된다.
아래에, 제한된 매트릭스(F)를 위한 수학적 유도가 제공될 것이다.
바꾸어 말하면, 단순화된 방법 "A"를 위한 믹싱 매트릭스(M)의 유도가 설명될 것이다.
공분산 매트릭스들(△ E E W )은 예를 들면, 아래와 같이 단일 값 분해(SVD)를 사용하여 표현될 수 있는데:
E = UTU H , E W = VQV H
여기서 TQ는 각각 △ E E W 의 단일 값들을 갖는 대각선 매트릭스들이고, UV는 상응하는 단일 벡터들을 포함하는 단위 매트릭스들이다.
슈어 삼각측량 또는 고유값 분해(단일 값 분해 대신에)의 적용이 유사한 결과들(또는 만일 대각선 매트릭스들(QT)이 양의 값들에 한정되면 심지어 동일한 결과들)에 이르게 한다는 유의하여야 한다.
이러한 분해를 요구조건(E Z
Figure 112016017059104-pct00071
C)에 적용하여, 다음을 생성한다(적어도 근사치로):
Figure 112016017059104-pct00072
방정식의 양쪽이 매트릭스의 제곱을 표현하고, 본 발명의 발명자들은 제곱을 떨어드리고(drop) 완전한 매트릭스(M)에 대하여 푼 것에 유의하여야 한다.
그 다음에 믹싱 매트릭스(M)는 다음과 같이 결정될 수 있다:
Figure 112016017059104-pct00073
이러한 방법은 아래와 같이 프로토타입 매트릭스(H)를 설정함으로써 일반적인 방법으로부터 유도될 수 있다:
Figure 112016017059104-pct00074
적용된 신호들의 공분산 매트릭스(E W )의 조건에 의존하여, 일부 규칙화를 포함하도록 마지막 방정식이 필요할 수 있으나, 그렇지 않으면 이는 수치상으로 안정적이어야만 한다.
14.4.2. 에너지 보상 방법 (B)
때때로 (적용 시나리오에 의존하여) 파라미터 재구성들(예를 들면, 렌더링된 오디오 신호들) 또는 역상관된 신호들의 믹싱을 허용하나, 각각 파라미터로 재구성된 신호(예를 들면, 렌더링된 오디오 신호)를 단지 그것의 고유의 역상관된 신호와 개별적으로 믹싱하는 것은 바람직하지 않다.
이러한 요구조건을 달성하기 위하여, 단순화된 방법 "A"에 부가적인 제약이 도입되어야만 한다. 이제, 적용된 신호들(역상관된 신호들)의 믹싱 매트릭스(M)는 대각선 형태를 갖도록 요구된다:
Figure 112016017059104-pct00075
이러한 접근법의 주요 목적은 파라미터 재구성(예를 들면, 렌더링된 오디오 신호)에서의 에너지의 손실을 보상하기 위하여 역상관된 신호들을 사용하는 것이며, 출력 신호의 공분산 매트릭스의 대각선 변형이 무시되는데, 즉 교차 상관들의 어떠한 직접적인 처리도 존재하지 않는다. 따라서, 역상관된 신호들의 적용에서 출력 오브젝트들/채널들 사이(예를 들면, 렌더링된 오디오 신호들 사이)에 어떠한 교차 누출도 도입되지 않는다.
그 결과, 표적 공분산 매트릭스(또는 요구되는 공분산 매트릭스)의 주 대각선만이 도달될 수 있고, 비-대각선들은 파라미터 재구성 및 추가된 역상관된 신호들을 기초로 한다. 이러한 방법은 신호들이 상관되지 않는 것으로서 고려될 수 있는, 오브젝트만 기반으로 하는 적용들에 가장 적절하다.
방법의 최종 출력(예를 들면, 출력 오디오 신호들)은 재구성된 신호들(
Figure 112016017059104-pct00076
)의 에너지들과 상응하는 공분산 매트릭스 엔트리들이 요구되는 에너지들과 동일하도록 계산된 대각선 매트릭스(M)를 갖는
Figure 112016017059104-pct00077
에 의해 주어진다:
Figure 112016017059104-pct00078
C는 일반적인 경우에 대하여 위에 설명된 것과 같이 결정될 수 있다.
예를 들면, 믹싱 매트릭스(M)는 보상 신호들(요구되는 에너지들(교차 공분산 매트릭스(C)의 대각선 요소들에 의해 기술될 수 있는) 및 파라미터 재구성들의 에너지들(오디오 디코더에 의해 결정될 수 있는) 사이의 차이들)의 요구되는 에너지들을 역상관된 신호들의 에너지들(오디오 디코더에 의해 결정될 수 있는)로 세분함으로써 직접적으로 유도될 수 있는데:
Figure 112016017059104-pct00079
여기서 λ Dec 는 출력 신호들에 추가된 역상관된 성분의 양을 제한하도록 사용되는 비-음의 임계값이다(예를 들면, λ Dec = 4).
에너지들은 파라미터로 재구성될 수 있거나(예를 들면, 오브젝트 레벨 차이 정보들, 오브젝트간 상관들 및 렌더링 계수들을 사용하여) 또는 실제로 디코더(일반적으로 계산적으로 비용이 더 드는)에 의해 계산될 수 있다는 것을 이해하여야 한다.
이러한 방법은 다음과 같이 프로토타입 매트릭스(H)를 설정함으로써 일반적인 방법으로부터 유도될 수 있다:
Figure 112016017059104-pct00080
이러한 방법은 순수 렌더링된 출력들의 사용을 명시적으로 최대화한다. 방법은 공분산 매트릭스들이 어떠한 비-대각선 엔트리들도 갖지 않을 때 단순화 "A"와 동등하다.
이러한 방법은 감소된 계산 복잡도를 갖는다.
그러나, 에너지 보상 방법은 교차 상관 항들이 변형되지 않는다는 것을 반드시 나타내지는 않는다는 것을 이해하여야 한다. 이는 만일 본 발명의 발명자들이 이상적인 역상관기들을 사용하고 역상관 유닛에 대한 어떠한 복잡도 감소도 없으면 유효하다. 본 방법의 개념은 에너지를 복원하고 교차 항들에서의 변형을 무시하는 것이다(교차 항들의 변화는 실질적으로 상관 특성들을 변형하지 않을 것이고 전체 공간 효과에 영향을 미치지 않을 것이다).
14.5. 믹싱 매트릭스( F )의 요구조건들
아래에, 섹션 14.3 및 14.4에서 그것의 유도가 설명된, 믹싱 매트릭스(F)가 저하들을 방지하기 위하여 요구조건들을 충족시키는 것이 설명될 것이다.
출력의 저하들을 방지하기 위하여, 파라미터 재구성을 보상하기 위한 어떤 방법은 다음의 특성을 갖는 결과를 생산하여야만 한다: 만일 렌더링 매트릭스가 다운믹스 매트릭스와 동일하면 출력 채널들은 다운믹스 채널들과 동일하여야만(또는 적어도 근사치이어야만) 한다. 제안된 모드는 이러한 특성을 충족시킨다. 만일 렌더링 매트릭스가 다운믹스 매트릭스와 동일하면(R = D), 파라미터 재구성은 다음에 의해 주어지고:
Figure 112016017059104-pct00081
요구되는 공분산 매트릭스는 아래와 같을 것이다:
C = RE X R H = DE X D H = E Y .
따라서 믹싱 매트릭스(F)의 획득을 위하여 해결되기 위한 방정식은 아래와 같은데:
Figure 112016017059104-pct00082
여기서
Figure 112016017059104-pct00083
는 0들의 크기 N UpmixCh ×N UpmixCh 의 정방 매트릭스(square matrix)이다. F에 대한 이전의 방정식을 해결하여, 아래와 같이 획득될 수 있다:
Figure 112016017059104-pct00084
이는 역상관된 신호들이 가산에서 제로-가중을 가질 것이고, 최종 출력은 다운믹스 신호들과 동일한, 순수 신호들에 의해 주어질 것이라는 것을 의미한다:
Figure 112016017059104-pct00085
그 결과, 이러한 렌더링 시나리오에서 다운믹스 신호와 동일하기 위하여 시스템 출력에 대한 주어진 요구조건이 충적된다.
14.6. 공분산 매트릭스( E S )의 추정
믹싱 매트릭스(F)를 획득하기 위하여 결합된 신호들(S)의 공분산 매트릭스(E S )의 지식이 필요하거나 또는 적어도 바람직하다.
원칙적으로, 이용 가능한 신호들로부터(즉, 파라미터 재구성(
Figure 112016017059104-pct00086
) 및 역상관기 출력(W)으로부터) 공분산 매트릭스(E S )를 직접적으로 추정하는 것이 가능하다. 비록 접근법이 더 정확한 결과들에 이르게 할 수 있더라도, 이는 관련 계산 복잡도 때문에 실용적이지 않을 수 있다. 제안된 방법들은 공분산 매트릭스(E S )의 파라미터 근사치를 사용한다.
공분산 매트릭스(E S )의 일반적인 구조는 다음과 같이 표현될 수 있는데:
Figure 112016017059104-pct00087
여기서 매트릭스(
Figure 112016017059104-pct00088
)는 직접적인 신호들(
Figure 112016017059104-pct00089
) 및 역상관된 신호들(W) 사이의 교차 공분산이다.
역상관기들이 이상적인(즉, 에너지 보존성이고, 출력들이 입력들에 직각이며, 모든 출력이 상호 직각인) 것으로 가정하면, 공분산 매트릭스(E S )는 다음과 같이 단순화된 형태를 사용하여 표현될 수 있다:
Figure 112016017059104-pct00090
파라미터로 재구성된 신호(
Figure 112016017059104-pct00091
)의 공분산 매트릭스(
Figure 112016017059104-pct00092
)는 다음과 같이 파라미터로 결정된다:
Figure 112016017059104-pct00093
역상관된 신호(W)의 공분산 매트릭스(E W )는 상호 직교성 특성을 충족시키고 다음과 같이
Figure 112016017059104-pct00094
의 대각선 요소들만을 포함하는 것으로 추정된다:
Figure 112016017059104-pct00095
만일 상호 직교성 및/또는 에너지 보존의 가정이 위반되면(예를 들면, 이용 가능한 역상관기들의 수가 역상관되려는 신호들의 수보다 적을 때의 경우에), 공분산 매트릭스(E W )는 다음과 같이 추정될 수 있다:
Figure 112016017059104-pct00096
14.7 선택적 개선: 역상관된 신호들과 에너지 조정 유닛을 사용하는 출력 공분산 보정
아래에, 여기서 설명되는 다른 개념들과 결합될 수 있는, 특히 바람직한 개념이 설명될 것이다.
출력 공분산 오차 보정을 위하여 제안된 방법은 파라미터로 재구성된 신호(
Figure 112016017059104-pct00097
) 및 그것의 역상관된 부분(
Figure 112016017059104-pct00098
)의 가중 합계로서 출력 신호를 포함한다. 이러한 합계는 다음과 같이 표현될 수 있다:
Figure 112016017059104-pct00099
(I1)
결합된 매트릭스(F=[P M}) 및 신호(
Figure 112016017059104-pct00100
)를 위한 기호를 적용하면 이는 다음을 생성한다:
Figure 112016017059104-pct00101
(I1)
그러나, 이러한 방정식은 가장 일반적인 공식으로 고려된다는 것에 유의하여야 한다. 여기서 설명되는 모든 "단순화된 방법"을 위하여 유효한 위의 공식에 변경이 선택적으로 적용될 수 있다.
아래에, 예를 들면 에너지 조정 유닛에 의해 실행될 수 있는, 기능성이 설명될 것이다.
최종 출력 내의 아티팩트들의 도입을 방지하기 위하여, 극단적인 경우에, 상이한 제약들이 믹싱 매트릭스(F, 또는 믹싱 매트릭스(
Figure 112016017059104-pct00102
)) 상에 부과될 수 있다. 언급된 제약들은 표적 및/또는 파라미터로 재구성된 신호들(예를 들면, 렌더링된 오디오 신호들)의 에너지 및/또는 상관 특성들과 관련하여 절대 임계 값들 또는 상대 임계 값들에 의해 표현될 수 있다.
본 섹션에서 설명되는 방법은 최종 출력 믹싱 블록 내에 에너지 조정 단계를 추가함으로써 이를 달성하도록 제안한다. 그러한 처리 단계의 목적은 매트릭스(F, 또는 그것으로부터 유도되는 "변형된 믹싱 매트릭스(
Figure 112016017059104-pct00103
))로의 믹싱 단계 이후에, 역상관된 (적용된) 신호들의 에너지 레벨들(예를 들면, A wet MW) 및/또는 파라미터로 재구성된 (순수) 신호들의 에너지 레벨(
Figure 112016017059104-pct00104
)들 및/또는 최종 출력 신호들의 에너지 레벨들(예를 들면,
Figure 112016017059104-pct00105
+A wet MW) 이 특정 임계 값들을 초과하지 않는 것을 보장한다.
이러한 추가적 기능성은 다음과 같이 되도록 결합된 믹싱 매트릭스(F)의 정의를 변형함으로써 달성되는데:
Figure 112016017059104-pct00106
, (I3)
여기서 두 개의 정방(또는 대각선) 에너지 조정 매트릭스(A dry A wet , 또한 "에너지 보정 매트릭스들"로서 언급될 수 있는)는 각각 파라미터로 재구성된 (순수) 및 역상관된 (적용된) 신호들의 믹싱 가중들(예를 들면, PM) 상에 적용된다. 그 결과, 최종 출력은 아래와 같을 수 있다:
Figure 112016017059104-pct00107
. (I4)
순수 및 적용된 에너지 보정 매트릭스(A dry A wet )는 순수 및/또는 적용된 신호들(예를 들면,
Figure 112016017059104-pct00108
)의 최종 출력 신호들(예를 들면,
Figure 112016017059104-pct00109
) 레벨들로의 기여는 매트릭스(
Figure 112016017059104-pct00110
)로의 믹싱 단계에 기인하여, 파라미터로 재구성된 신호들(예를 들면,
Figure 112016017059104-pct00111
) 및/또는 역상관된 신호들(예를 들면, W) 및/또는 표적 신호들과 관련하여 특정 상대 임계 값을 초과하지 않도록 계산된다. 바꾸어 말하면, 일반적으로, 보정 매트릭스들을 계산하기 위한 다수의 가능성이 존재한다.
순수 및 적용된 보정 매트릭스(A dry A wet )는 예를 들면, 순수 신호들(예를 들면,
Figure 112016017059104-pct00112
) 및/또는 적용된 신호들(예를 들면, W) 및/또는 요구되는 최종 출력 신호들의 에너지 및/또는 보정 및/또는 공분산 특성들 및/또는 믹싱 단계 이후에 순수 및/또는 적용된 및/또는 최종 출력 신호들의 공분산 매트릭스의 추정의 함수로서 계산될 수 있다. 위에 언급된 가능성들은 보정 매트릭스들이 어떻게 획득될 수 있는지의 일부 실시 예를 설명한다는 것에 유의하여야 한다.
한 가지 가능한 해결책이 아래의 표현들에 의해 주어지는데:
Figure 112016017059104-pct00113
그리고
Figure 112016017059104-pct00114
,
여기서 λdry 및 λwet은 신호 특성들(예를 들면, 에너지 상관, 및/또는 공분산)의 함수로서 일정하거나 및/또는 시간/주파수 변형일 수 있는 두 개의 임계 값이고, ε는 (선택적인) 작은 음이 아닌 조절 상수(non-negative regularization constant), 즉 ε=10-9이며,
Figure 112016017059104-pct00115
은 파라미터로 재구성된 (순수) 신호들의 공분산 및/또는 에너지 정보를 표현하며, C estim 은 매트릭스(F)로의 믹싱 단계 이후에 순수 또는 적용된 신호들의 공분산 매트릭스의 추정, 또는 매트릭스(F)로의 믹싱 단계 이후에 출력 신호들의 공분산 매트릭스의 추정을 표현하는데, 이는 만일 본 발명에 의해 제안되는 것과 같은 에너지 조정 단계가 적용될 수 없으면 획득될 수 있다(또는 달리 표현하여, 만일 에너지 조정 유닛이 사용되었으면 획득될 수 있다).
위의 방정식들에서, 인수들의 최대 값을 제공하는, 분모(denominator) 내의 "max(.)" 연산, C estim (i,i) 및 ε는 예를 들면, 0으로의 나눗셈을 방지하기 위하여 ε 또는 또 다른 메커니즘의 추가에 의해 대체될 수 있다.
예를 들면, C estim 은 다음에 의해 주어진다:
Figure 112016017059104-pct00116
- 매트릭스(M)로의 믹싱 단계 이후에 적용된 신호들의 공분산 매트릭스의 추정.
Figure 112016017059104-pct00117
- 매트릭스(P)로의 믹싱 단계 이후에 적용된 신호들의 공분산 매트릭스의 추정.
Figure 112016017059104-pct00118
- 매트릭스(F)로의 믹싱 단계 이후에 적용된 신호들의 공분산 매트릭스의 추정.
아래에, 일부 또 다른 단순화가 설명될 것이다. 바꾸어 말하면, 출력 공분산 보정을 위한 단순화된 방법들이 설명될 것이다.
신호들(
Figure 112016017059104-pct00119
)이 이미 최소 평균 제공 오차 의미에서 선택적이라는 것을 고려할 때, 출력(
Figure 112016017059104-pct00120
)의 공분산 특성들을 향상시키기 위하여 파라미터 재구성들(순수 신호들,
Figure 112016017059104-pct00121
)을 변형하는 것은 일반적으로 바람직하지 않은데 그 이유는 이것이 분리 품질에 영향을 미칠 수 있기 때문이다.
만일 역상관된 (순수) 신호들(W)의 혼합물만이 조종되면, 믹싱 매트릭스(P)는 단위 매트릭스로 감소될 수 있다. 이러한 경우에, 파라미터로 재구성된 (순수) 신호들과 상응하는 에너지 조정 매트릭스가 또한 단위 매트릭스로 감소될 수 있다. 따라서, 이러한 단순화된 방법은 다음의 설정에 의해 설명될 수 있다:
Figure 112016017059104-pct00122
.
시스템의 최종 출력은 다음과 같이 표현될 수 있다:
Figure 112016017059104-pct00123
15. 역상관 유닛을 위한 복잡도 감소
아래에, 본 발명에 따른 실시 예들에서 사용되는 역상관기들의 복잡도가 어떻게 감소될 수 있는지가 설명될 것이다.
역상관기 기능 구현은 때때로 계산적으로 복잡하다는 것을 이해하여야 한다. 일부 적용들에서(예를 들면, 소형 디코더 솔루션들) 제한된 계산 자원들에 기인하여 도입되려는 역상관기들의 수에 대한 제한이 필요할 수 있다. 본 섹션은 적용되는 역상관기들(또는 역상관들)의 수를 제어함으로써 역상관기 유닛 복잡도의 감소를 위한 수단들의 설명을 제공한다. 역상관기 유닛 인터페이스가 도 16과 17에 도시된다.
도 16은 간단한 (종래의) 역상관 유닛의 개략적인 블록 다이어그램을 도시한다. 도 16에 따른 역상관 유닛(1600)은 예를 들면 렌더링된 오디오 신호들(
Figure 112016017059104-pct00124
) 같은, N 역상관기 입력 신호들(1610a 내지 1610n)을 수신하도록 구성된다. 게다가, 역상관 유닛(1600)은 N 역상관 출력 신호들(1612a 내지 1612n)을 제공한다. 역상관 유닛(1600)은 예를 들면, N 개별 역상관기들(또는 역상관 함수들, 1620n 내지 1620n)을 포함할 수 있다. 예를 들면, 각각의 개별 역상관기들(1620a 내지 1620n)은 역상관기 입력 신호들(1610a 내지 1610n) 중 관련된 하나를 기초로 하여 역상관기 출력 신호들(1612a 내지 1612n) 중 하나를 제공할 수 있다. 따라서, N 개별 역상관기들, 또는 역상관 함수들(1620a 내지 1620n)은 역상관기 입력 신호들(1610a 내지 1610n)을 기초로 하여 N 역상관된 신호들(1612a 내지 1612n)을 제공하기 위하여 필요할 수 있다.
그러나, 도 17은 감소된 복잡도 역상관 유닛(1700)의 개략적인 블록 다이어그램을 도시한다. 감소된 복잡도 역상관 유닛(1700)은 N 역상관기 입력 신호들(1710a 내지 1710n)을 수신하고 이를 기초로 하여, N 역상관기 출력 신호들(1712a 내지 1712n)을 제공하도록 구성된다. 예를 들면, N 역상관기 입력 신호들(1710a 내지 1710n)은 렌더링된 오디오 신호들(
Figure 112016017059104-pct00125
)일 수 있고, N 역상관기 출력 신호들(1712a 내지 1712n)은 역상관된 오디오 신호들(W)일 수 있다.
역상관기(1700)는 N 역상관기 입력 신호들(1710a 내지 1710n)의 제 1 세트을 수신하고 이를 기초로 하여, K 역상관기 입력 신호들(1722a 내지 1722k)의 제 2 세트를 제공하도록 구성되는 프리믹서(또는 동등하게는, 프리믹싱 기능성, 1720)를 포함한다. 예를 들면, 프리믹서(1720)는 N 역상관기 입력 신호들(1710a 내지 1710n)의 제 1 세트를 기초로 하여 K 역상관기 입력 신호들(1722a 내지 1722k)의 제 2 세트를 유도하기 위하여 이른바 "프리믹싱" 또는 "다운믹싱"을 실행할 수 있다. 예를 들면, K 역상관기 입력 신호들(1722a 내지 1722k)의 제 2 세트의 K 신호들은 매트릭스(
Figure 112016017059104-pct00126
)를 사용하여 표현될 수 있다. 역상관 유닛(또는 동등하게는, 다채널 역상관기, 1700)는 또한 역상관기 입력 신호들(1722a 내지 1722k)의 제 1 세트의 K 신호들을 수신하고, 이를 기초로 하여, 역상관기 출력 신호들(1732a 내지 1732k)의 제 1 세트로 구성되는 K 역상관기 출력 신호들을 제공하도록 구성되는, 역상관기 코더(1730)를 포함한다. 예를 들면, 역상관기 코더(1730)는 K 개별 역상관기들(또는 역상관 함수들)을 포함할 수 있고, 각각의 개별 역상관기들(또는 역상관 함수들)은 K 역상관기 입력 신호들(1722a 내지 1722k)의 제 2 세트의 상응하는 역상관기 입력 신호를 기초로 하여 K 역상관기 출력 신호들(1732a 내지 1732k)의 제 1 세트의 역상관기 출력 신호들 중 하나를 제공한다. 대안으로서, 주어진 역상관기, 또는 역상관 함수는 K 역상관기 출력 신호들(1732a 내지 1732k)의 제 1 세트의 각각의 역상관기 출력 신호들이 K 역상관기 입력 신호들(1722a 내지 1722k)의 제 2 세트의 역상관기 입력 신호들 중 단일의 하나를 기초로 하도록 K번 적용될 수 있다.
역상관 유닛(1700)은 또한 역상관기 출력 신호들의 제 1 세트의 K 역상관기 출력 신호들(1732a 내지 1732k)을 수신하고 이를 기초로 하여, 역상관기 출력 신호들("외부" 역상관기 출력 신호들로 구성되는)의 제 2 세트의 N 신호들(1712a 내지 1712n)을 제공하도록 구성되는, 포스트믹서(1740)를 포함한다.
프리믹서(1720)는 바람직하게는 프리믹싱 매트릭스(M pre)에 의해 기술될 수 있는, 선형 믹싱 운영을 실행할 수 있다는 것에 유의하여야 한다. 게다가, 포스트믹서(1740)는 바람직하게는 K 역상관기 출력 신호들(1732a 내지 1732k)의 제 1 세트로부터(즉, 역상관기 코어(1730)의 출력 신호들로부터) 역상관기 출력 신호들이 제 2 세트의 N 역상관기 출력 신호들(1712a 내지 1712n)을 유도하기 위하여 포스트믹싱 매트릭스(M post)에 의해 기술될 수 있는, 선형 믹싱(또는 업믹싱) 운영을 실행한다.
제안된 방법 및 장치의 주요 개념은 다음에 의해 N부터 K까지의 역상관기들(또는 역상관기 코어)에 대한 입력 신호들의 수를 감소시키는 것이다:
● 아래와 같은 낮은 수의 채널들로의 신호들(예를 들면, 렌더링된 오디오 신호들)의 프리믹싱:
Figure 112016017059104-pct00127
● 아래와 같이 이용 가능한 K 역상관기들을 사용하는 역상관의 적용(예를 들면 역상관기 코어의):
Figure 112016017059104-pct00128
● 아래와 같은 다시 N 채널들로의 역상관된 신호들의 업-믹싱:
Figure 112016017059104-pct00129
.
프리믹싱 매트릭스(M pre)는 매트릭스 산물(
Figure 112016017059104-pct00130
)이 잘 조절되도록(도치(inversion) 운영과 관련하여) 다운믹스/렌더링/상관/등등의 정보를 기초로 하여 구성될 수 있다. 포스트믹싱 매트릭스는 다음과 같이 계산될 수 있다:
Figure 112016017059104-pct00131
비록 중간 역상관된 신호들(
Figure 112016017059104-pct00132
또는
Figure 112016017059104-pct00133
)의 공분산 매트릭스가 대각선이더라도(이상적인 역상관기들을 가정하여), 최종 역상관된 신호들의 공분산 매트릭스(W)는 이러한 종류의 처리를 사용할 때 더 이상 상당히 대각선 같지는 않을 것이다. 따라서, 공분산 매트릭스는 다음과 같이 믹싱 매트릭스들을 사용하여 추정될 수 있다:
Figure 112016017059104-pct00134
.
사용된 역상관기들(또는 개별 역상관기들)의 수, K는 지정되지 않고 요구되는 계산 복잡도 및 이용 가능한 역상관기들에 의존한다. 그것의 값은 N(가장 높은 계산 복잡도)부터 1(가장 낮은 계산 복잡도)까지 다양할 수 있다.
역상관기 유닛에 대한 입력 신호들의 수, N은 임의적이고 제안된 방법은 시스템의 렌더링 구성과 독립적으로, 어떠한 수의 입력 신호들을 지원한다.
예를 들면 출력 채널에 의존하는 높은 수의 출력 채널을 갖는, 3차원 오디오 콘텐츠를 사용하는 적용들에서, 프리믹싱 매트릭스(M pre)를 위한 한 가지 가능한 표현이 아래에 설명된다.
아래에서, 만일 다채널 오디오 디코더에서 역상관 유닛(1700)이 사용되면 프리믹서(1720)에 의해 실행되는 프리믹싱(및 그 결과, 포스트믹서(1740)에 의해 실행되는 포스트믹싱)이 어떻게 조정되는지가 설명될 것이고, 역상관기 입력 신호들의 제 1 세트의 역상관기 입력 신호들(1710a 내지 1710n)이 오디오 장면이 상이한 공간 위치들과 관련된다.
이러한 목적을 위하여, 도 18은 상이한 출력 포맷들을 위하여 사용되는, 확성기 위치들의 테이블 표현을 도시한다.
도 18의 테이블(1800)에서, 제 1 행(1810)은 확성기 지수 숫자를 기술한다. 제 2 행(1820)은 확성기 레벨을 기술한다. 제 3 행(1830)은 각각의 확성기의 방위각 위치를 기술하고, 제 4 행(1832)은 확성기의 위치의 방위각 오차를 기술한다. 제 5 행(1840)은 각각의 확성기의 위치의 고도를 기술하고, 제 6 행(1842)은 상응하는 고도 오차를 기술한다. 제 7 행(1850)은 출력 포맷(O-2,0)을 위하여 어떤 확성기들이 사용되는지를 나타낸다. 제 8 행(1860)은 출력 포맷(O-5.1)을 위하여 어떤 확성기들이 사용되는지를 나타낸다. 제 9 행(1864)은 출력 포맷(O-7.1)을 위하여 어떤 확성기들이 사용되는지를 나타낸다. 제 10 행(1870)은 출력 포맷(O-8.1)을 위하여 어떤 확성기들이 사용되는지를 나타내고, 제 11 행(1880)은 출력 포맷(O-10.1)을 위하여 어떤 확성기들이 사용되는지를 나타내며, 제 12 행(1890)은 출력 포맷(O-22.2)을 위하여 어떤 확성기들이 사용되는지를 나타낸다. 도시된 것과 같이, 출력 포맷(O-2.0)을 위하여 두 개의 확성기가 사용되고, 출력 포맷(O-5.1)을 위하여 6개의 확성기가 사용되며, 출력 포맷(O-7.1)을 위하여 8개의 확성기가 사용되며, 출력 포맷(O-8.1)을 위하여 9개의 확성기가 사용되고, 출력 포맷(O-10.1)을 위하여 11개의 확성기가 사용되며, 출력 포맷(O-22.2)을 위하여 24개의 확성기가 사용된다.
그러나, 출력 포맷들(O-5.1, O-7.1, O-8,1 및 O-10.1)을 위하여 하나의 저주파수 효과 확성기가 사용되고 출력 포맷(O-22.2)을 위하여 두 개의 저주파수 효과 확성기(LFE1, LFE2)가 사용된다는 것에 유의하여야 한다. 게다가, 바람직한 실시 예에서, 하나의 렌더링된 오디오 신호(예를 들면, 렌더링된 오디오 신호들(1582a 내지 1582n) 중 하나)는 하나 이상의 저주파수 효과 확성기를 제외하고는, 각각의 확성기들과 관련된다는 것에 유의하여야 한다. 따라서, 두 개의 렌더링된 오디오 신호는 O-2.0 포맷에 따라 사용되는 두 개의 확성기와 관련되고, 5개의 렌더링된 오디오 신호는 만일 5.1 포맷이 사용되면 5개의 비-저주파수 효과 확성기와 관련되며, 7개의 렌더링된 오디오 신호는 만일 O-7.1 포맷이 사용되면 7개의 비-저주파수 효과 확성기와 관련되며, 8개의 렌더링된 오디오 신호는 만일 8.1 포맷이 사용되면 8개의 비-저주파수 효과 확성기와 관련되며, 10개의 렌더링된 오디오 신호는 만일 O-10.1 포맷이 사용되면 10개의 비-저주파수 효과 확성기와 관련되며, 22개의 렌더링된 오디오 신호는 만일 O-22.2 포맷이 사용되면 22개의 비-저주파수 효과 확성기와 관련된다.
그러나, 때때로 위에 언급된 것과 같이, 더 적은 수의 (개별) 역상관기(역상관기 코어)를 사용하는 것이 바람직하다. 아래에, 다채널 오디오 디코더에 의해 O-22.2 출력 포맷이 사용될 때 22개의 렌더링된 오디오 신호(1582a 내지 1582n, 매트릭스(
Figure 112016017059104-pct00135
) 또는 매트릭스(
Figure 112016017059104-pct00136
)에 의해 표현될 수 있는)가 존재하도록, 역상관기들의 수가 어떻게 유연하게 감소하는지가 설명될 것이다.
도 19a 내지 19g는 N=22의 렌더링된 오디오 신호가 존재한다는 가정 하에서 렌더링된 오디오 신호들(1582a 내지 1582n)의 프리믹싱을 위한 상이한 선택들을 표현한다. 예를 들면, 도 19a는 프리믹싱 매트릭스(M pre )의 엔트리들의 테이블 표현을 도시한다. 도 19a의 1 내지 11로 라벨링된, 열들은 프리믹싱 매트릭스(M pre )의 열들을 표현하고 1 내지 22로 라벨링된, 행들은 프리믹싱 매트릭스(M pre )의 행들과 관련된다. 게다가, 프리믹싱 매트릭스(M pre )의 각각의 열은 역상관기 입력 신호들의 제 2 세트의 K 역상관기 입력 신호들(1722a 내지 1722k) 중 하나와(즉, 역상관기 코어의 입력 신호들과) 관련된다는 것에 유의하여야 한다. 게다가, 프리믹싱 매트릭스(M pre )의 각각의 행은 역상관기 입력 신호들의 제 1 세트의 N 역상관기 입력 신호들(1710a 내지 1710n) 중 하나와 관련되고, 그 결과 렌더링된 오디오 신호들(1582a 내지 1582n) 중 하나와 관련된다(그 이유는 일 실시 예에서 역상관기 입력 신호들의 제 1 세트의 역상관기 입력 신호들(1710a 내지 1710n)은 일반적으로 렌더링된 오디오 신호들(1582a 내지 1582n)과 동일하기 때문이다). 따라서, 프리믹싱 매트릭스(M pre )의 각각의 행은 특정 확성기와 관련되고, 그 결과 확성기들이 공간 위치들과 관련되기 때문에, 특정 공간 위치와 관련된다. 열(1910)은 어떤 확성기(및, 그 결과 어떤 공간 위치)에 프리믹싱 매트릭스(M pre )의 행들이 관련되는지를 나타낸다(확성기는 라벨들은 테이블(1800)의 행(1820) 내에 정의된다).
아래에, 도 19a의 프리믹싱(M pre )에 의해 정의되는 기능성이 더 상세히 설명될 것이다. 도시된 것과 같이, 프리믹싱 매트릭스(M pre )의 제 1 열의 제 1 및 제 2 행 내의 "1"-값들에 의해 표시되는, 역상관기 입력 신호들의 제 2 세트의 제 1 역상관기 입력 신호(즉, 제 1 다운믹싱된 역상관기 입력 신호)를 획득하기 위하여, 스피커들(또는, 동등하게 스피커 위치들)과 관련된 렌더링된 오디오 신호들 "CH_M_000" 및 "CH_L_000"이 결합된다. 유사하게, 스피커들(또는, 동등하게 스피커 위치들)과 관련된 렌더링된 오디오 신호들 "CH_U_000" 및 "CH_T_000"은 제 2 다운믹싱된 역상관기 입력 신호(즉, 역상관기 입력 신호들의 제 2 세트의 제 2 역상관기 입력 신호)를 획득하도록 결합된다. 게다가, 도 19a의 프리믹싱 매트릭스(M pre )는 11개의 다운믹싱된 역상관기 입력 신호가 22개의 렌더링된 오디오 신호로부터 유도되도록, 각각 두 개의 렌더링된 오디오 신호의 11개의 결합을 정의한다는 것을 알 수 있다. 또한 두 개의 다운믹싱된 역상관기 입력 신호를 획득하기 위하여, 4개의 중앙 신호들이 결합되는 것을 알 수 있다(프리믹싱 매트릭스의 행들(1 내지 4) 및 열들(1 및 2)을 참조). 게다가, 나머지 다운믹싱된 역상관기 입력 신호들은 각각 오디오 장면의 동일한 측과 관련된 두 개의 오디오 신호의 결합에 의해 획득된다는 것을 알 수 있다. 예를 들면, 프리믹싱 매트릭스의 제 3 열에 의해 표현되는, 제 3 다운믹싱된 역상관기 입력 신호는 +135o의 방위각 위치와 관련된 렌더링된 오디오 신호들("CH_M_L135", "CH_U_L135")의 결합에 의해 획득된다. 게다가, 제 4 역상관기 입력 신호(프리믹스 매트릭스의 제 4열에 의해 표현되는)는 -135o의 방위각 위치와 관련된 렌더링된 오디오 신호들("CH_M_R135", "CH_U_R135")의 결합에 의해 획득된다. 따라서, 각각의 다운믹싱된 역상관기 입력 신호들은 동일한(또는 유사한) 방위각 위치(또는, 동등하게 수평 위치)와 관련된 두 개의 렌더링된 오디오 신호의 결합에 의해 획득되고, 일반적으로 상이한 고도(또는, 동등하게 수직 위치)와 관련된 신호들의 결합이 존재한다.
이제 N=22이고 K=10에 대하여 프리믹싱 계수들(프리믹싱 매트릭스(M pre )의 엔트리들)을 나타내는, 도 19b를 참조한다, 도 19b의 테이블의 구조는 도 19a의 테이블의 구조와 동일하다. 그러나 도시된 것과 같이, 도 19b에 따른 프리믹싱 매트릭스(M pre )는 제 1열이 채널 ID들(또는 위치들)을 갖는 4개의 렌더링된 오디오 신호(CH_M_000", CH_L_000", CH_U_000" 및 CH_T_000")를 기술한다는 점에서 도 19a의 프리믹싱 매트릭스(M pre )와 다르다. 바꾸어 말하면, 수직으로 인접한 위치들과 관련된 4개의 렌더링된 오디오 신호가 요구된 역상관기들의 수를 감소시키도록(도 19a에 따른 매트릭스에 대한 11개의 역상관기 대신에 10개의 역상관기) 프리믹싱 내에 포함된다.
이제 N=22이고 K=9에 대하여 프리믹싱 계수들(프리믹싱 매트릭스(M pre )의 엔트리들)을 나타내는, 도 19c를 참조하면, 도 19c에 따른 프리믹싱 매트릭스(M pre )는 9개의 열만을 포함한다는 것을 알 수 있다. 게다가, 도 19c의 프리믹싱 매트릭스(M pre )의 제 2열로부터 채널 ID들(또는 위치들)과 관련된 렌더링된 오디오 신호들(CH_M_L135", CH_U_L135", CH_M_R135" 및 CH_U_R135")은 제 2 다운믹싱된 역상관기 입력 신호(역상관기 입력 신호들의 제 2 세트의 역상관기 입력 신호)를 획득하도록 결합된다(도 19c의 프리믹싱 매트릭스에 따라 구성되는 프리믹서 내에서). 도시된 것과 같이, 도 19a 및 19b에 따른 프리믹싱 매트릭스들에 의해 개별 다운믹싱된 역상관기 입력 신호들로 결합된 렌더링된 오디오 신호들은 도 19c에 따른 공통 다운믹싱된 역상관기 입력 신호로 다운믹싱된다. 게다가, 채널 ID들을 갖는 렌더링된 오디오 신호들(CH_M_L135", CH_U_L135")는 오디오 장면의 동일한 측 상의 동일한 수평 위치들(또는 방위각 위치들) 및 공간적으로 인접한 수직 위치들(또는 고도들)과 관련되고, 채널 ID들을 갖는 렌더링된 오디오 신호들(CH_M_R135" 및 CH_U_R135")은 오디오 장면의 제 2 측 상의 동일한 수평 위치들(또는 방위각 위치들) 및 공간적으로 인접한 수직 위치들(또는 고도들)과 관련된다는 것에 유의하여야 한다. 게다가, 채널 ID들을 갖는 렌더링된 오디오 신호들(CH_M_L135", CH_U_L135", CH_M_R135" 및 CH_U_R135")은 좌측 위치 및 우측 위치를 포함하는 공간 위치들의 수평 쌍(또는 심지어 수평 4쌍)과 관련된다고 할 수 있다. 바꾸어 말하면, 도 19c의 프리믹싱 매트릭스(M pre )의 제 2열에서 단일의 주어진 역상관기를 사용하여 역상관되도록 결합되는, 4개의 렌더링된 오디오 신호 중 두 개는 오디오 장면의 좌측 상의 공간 위치들과 관련되고, 단일의 주어진 역상관기를 사용하여 역상관되도록 결합되는, 4개의 렌더링된 오디오 신호 중 두 개는 오디오 장면의 우측 상의 공간 위치들과 관련된다는 것을 알 수 있다. 게다가, "대칭의" 4쌍이 단일(개별) 역상관기를 사용하여 역상관되도록 프리믹싱에 의해 결합되도록, 좌측의 렌더링된 오디오 신호들(상기 4개의 렌더링된 오디오 신호 중)는 오디오 장면의 중앙 평면에 대하여 대칭인 공간 위치들과 관련되고, 공간 위치들은 우측의 렌더링된 오디오 신호들(상기 4개의 렌더링된 오디오 신호 중)과 관련된다.
도 19d, 19e, 19f 및 19g를 참조하면, 더 많은 렌더링된 오디오 신호들이 감소된(즉, K로 감소하는) 수의 (개별) 역상관기들과 결합되는 것을 알 수 있다. 도 19a 내지 19g에 도시된 것과 같이, 일반적으로 두 개의 개별 다운믹싱된 역상관기 입력 신호로 다운믹싱된 렌더링된 오디오 신호들은 역상관기들의 수가 1로 검소할 때 결합된다. 게다가, 공간 위치들의 "대칭 4쌍"과 관련된, 그러한 렌더링된 오디오 신호들이 결합되고, 상대적으로 높은 수의 역상관기들에 대하여, 동일하거나 또는 적어도 유사한 수평 위치들(또는 방위각 위치들)과 관련된 렌더링된 오디오 신호들만이 결합되고, 상대적으로 낮은 수의 역상관기들에 대하여, 오디오 장면의 반대 측들 상의 공간 위치들과 관련된 렌더링된 오디오 신호들이 또한 결합되는 것을 알 수 있다.
이제 도 20a 내지 20d, 21a 내지 21c, 22a 내지 22b 및 23을 참조하면, 상이한 수의 렌더링된 오디오 신호들에 대하여 유사한 개념들이 적용될 수 있다는 것에 유의하여야 한다.
예를 들면, 도 20a 내지 20d는 N=10이고 K는 2와 5 사이에 대하여 프리믹싱 매트릭스(M pre )의 엔트리들을 기술한다.
유사하게, 도 21a 내지 21c는 N=8이고 K는 2와 4 사이에 대하여 프리믹싱 매트릭스(M pre )의 엔트리들을 기술한다.
유사하게, 도 21d 내지 21f는 N=7이고 K는 2와 4 사이에 대하여 프리믹싱 매트릭스(M pre )의 엔트리들을 기술한다.
도 22a 및 22b는 N=5이고 K=2 및 K=3에 대하여 프리믹싱 매트릭스의 엔트리들을 기술한다.
도 23은 N=2이고 K=1에 대하여 프리믹싱 매트릭스의 엔트리들을 기술한다.
요약하면, 도 19 내지 23에 따른 프리믹싱 매트릭스들은 예를 들면, 스위칭 가능한 방식으로, 다채널 오디오 디코더의 일부분인 다채널 역상관기에서 사용될 수 있다. 프리믹싱 매트릭스들 사이의 스위칭은 예를 들면, 요구되는 출력 구성(일반적으로 렌더링된 오디오 신호들의 수(N)를 결정하는)에 의존하고, 또한 역상관의 요구되는 복잡도(파라미터(K)를 결정하고, 예를 들면 오디오 콘텐츠의 인코딩된 표현 내에 포함된 복잡도 정보에 의존하여 조정될 수 있는)에 의존하여 실행될 수 있다.
도 24를 참조하면, 22.2 출력 포맷에 대한 복잡도 감소가 더 상세히 설명될 것이다. 위에서 이미 설명된 것과 같이, 프리믹싱 매트릭스 및 포스트믹싱 매트릭스를 구성하기 위한 한 가지 해결책은 함께 믹싱되려는 채널을 선택하고 믹싱 계수들을 계산하도록 재생 레이아웃의 공간 정보를 사용하는 것이다. 그것들의 위치를 기초로 하여, 기하학적으로 관련된 확성기들(및, 예를 들면 그것들과 관련된 렌더링된 오디오 신호들)은 도 24의 테이블에서 설명되는 것과 같이, 수직 및 수평 쌍들을 취하여, 함께 그룹화된다. 바꾸어 말하면, 도 24는 테이블의 형태로, 렌더링된 오디오 신호들과 관련될 수 있는, 확성기 위치들의 그룹화를 도시한다. 예를 들면, 제 1 열(2410)은 오디오 장면의 중앙에 위치하는, 확성기 위치들의 제 1 그룹을 기술한다. 제 2 열(2412)은 공간적으로 관련된, 확성기 위치들의 제 2 그룹을 표현한다. 확성기 위치들("CH_M_L135" 및 "CH_U_L135")은 동일한 방위각 위치들(또는 동등하게, 수평 위치들) 및 인접한 고도 위치들(또는 동등하게, 수직으로 인접한 위치들)과 관련된다. 유사하게, 위치들("CH_M_R135" 및 "CH_U_R135")은 동일한 방위((또는 동등하게, 동일한 수평 위치) 및 유사한 고도(또는 동등하게, 수직으로 인접한 위치)를 포함한다. 게다가, 위치들("CH_M_L135", "CH_U_L135", "CH_M_R135" 및 "CH_U_R135")은 4쌍의 위치들을 형성하고, 위치들("CH_M_L135" 및 "CH_U_L135")은 오디오 장면의 중앙 평면에 대하여 위치들("CH_M_R135" 및 "CH_U_R135")과 대칭이다. 게다가, 위치들("CH_M_180" 및 "CH_U_180")은 또한 동일한 방위각 위치(또는 동등하게, 동일한 수평 위치) 및 유사한 고도(또는 동등하게, 인접한 수직 위치)를 포함한다.
제 3 열(2414)은 위치들의 제 3 그룹을 표현한다. 위치들(CH_N_L030" 및 CH_L_L045")은 공간적으로 인접한 위치들이고 유사한 방위각(또는 동등하게, 유사한 수평 위치) 및 유사한 고도(또는 동등하게, 유사한 수직 위치)를 포함한다는 것에 유의하여야 한다. 위치들("CH_M_R030" 및 CH_L_R045")에도 동일하게 적용된다. 게다가, 위치들의 제 3 그룹의 위치들은 4쌍의 위치들을 형성하고, 위치들CH_N_L030" 및 CH_L_L045")은 위치들("CH_M_R030" 및 CH_L_R045")에, 공간적으로 인접하고, 오디오 장면의 중앙 평면에 대하여 대칭이다.
제 4 열(2416)은 제 2 열의 제 1의 4개의 위치와 비교할 때 유사한 특징들을 갖고 대칭의 4쌍의 위치들을 갖는, 4개의 부가적인 위치를 표현한다.
제 5 열(2418)은 또 다른 4쌍의 대칭인 위치들("CH_M_L060", "CH_U_L060", "CH_M_R060" 및 "CH_U_R060")을 표현한다.
게다가, 위치들의 상이한 그룹들의 위치들과 관련된 렌더링된 오디오 신호들은 역상관기들의 수의 감소로 더 많이 결합될 수 있다는 것에 유의하여야 한다. 예를 들면, 다채널 역상관기 내의 11개의 개별 역상관기들의 존재 하에서, 제 1 및 제 2 행 내의 위치들과 관련된 렌더링된 오디오 신호들은 각각의 그룹에 대하여 결합될 수 있다. 이에 더하여, 제 3 및 제 4 행에 표현된 위치들과 관련된 렌더링된 오디오 신호들은 각각의 그룹에 대하여 결합될 수 있다. 게다가, 제 5 및 제 6 행에 도시된 위치들과 관련된 렌더링된 오디오 신호들은 제 2 그룹에 대하여 결합될 수 있다. 따라서, 11개의 다운믹스 역상관기 입력 신호(개별 역상관기들 내로 입력될 수 있는)가 획득될 수 있다. 그러나 만일 더 적은 개별 역상관기들을 갖는 것이 바람직하면, 행들(1 내지 4)에 도시된 위치들과 관련된 렌더링된 오디오 신호들은 하나 이상의 그룹에 대하여 결합될 수 있다. 또한, 만일 개별 역상관기들의 수를 더 감소시키는 것이 바람직하면, 제 2 그룹의 모든 위치와 관련된 렌더링된 오디오 신호들이 결합될 수 있다.
요약하면, 출력 레이아웃(예를 들면, 확성기들)으로 제공된 신호들은 역상관 과정 동안에 보존되어야만 하는, 수평 및 수직 의존성들을 갖는다. 따라서, 믹싱 계수들은 상이한 확성기 그룹들과 상응하는 채널들이 함께 믹싱되지 않도록 계산된다.
이용 가능한 역상관기들의 수 또는 요구되는 역상관기의 레벨에 의존하여, 각각의 그룹에서 먼저 수직 쌍들(중간 계층과 상부 계층 사이 또는 중간 계층과 하부 계층 사이)이 함께 믹싱된다. 두 번째로, 수평 쌍들(왼쪽 및 오른쪽 사이) 또는 나머지 수직 쌍들이 함께 믹싱된다. 예를 들면, 그룹 3에서, 먼저 왼쪽 수직 쌍("CH_M_L030" 및 "CH_L_L045") 및 오른쪽 수직 쌍("CH_M_R030" 및 "CH_L_R045") 내의 채널들이 함께 믹싱되고, 이러한 방법으로 이러한 그룹을 위하여 요구된 역상관기들의 수를 4개에서 두 개로 감소시킨다. 만일 훨씬 더 많은 수의 역상관기를 감소시키는 것이 바람직하면, 획득된 수평 쌍은 하나의 채널로만 다운믹싱되고, 이러한 그룹을 위하여 요구된 역상관기들의 수는 4개에서 한 개로 감소된다.
제시된 믹싱 규칙들을 기초로 하여, 위에 언급된 테이블들(예를 들면, 도 19 내지 23에 도시된)은 요구되는 역상관의 상이한 레벨들(또는 요구되는 역상관 복잡도의 상이한 레벨들)을 위하여 유도된다.
16. 2차 외부 렌더러 /포맷 컨버터와의 호환성
공간 오디오 오브젝트 코딩 디코더(또는 더 일반적으로, 다채널 오디오 디코더)가 외부 이차 렌더러/포맷 컨버터와 함께 사용될 때, 제안된 개념(방법 또는 장치)에 대한 다음의 변화들이 사용될 수 있다:
- 내부 렌더링 매트릭스(R, 예를 들면 렌더러의)는 아이덴티티(identity,
Figure 112016017059104-pct00137
)로 설정되거나(외부 렌더러가 사용될 때) 또는 중간 렌더링 구성으로부터 유도되는 믹싱 계수들로 초기화된다(외부 포맷 컨버터가 사용될 때).
- 역상관기들의 수는 섹션 15에 설명된 방법을 사용하여 감소되고 프리믹싱 매트릭스(M pre )의 수는 렌더러/포맷 컨버터로부터 수신되는 피드백 정보를 기초로 하여 계산된다(예를 들면, M pre = D convert 여기서 D convert 는 포맷 컨버터이 내부에서 사용되는 다운믹스 매트릭스이다). 공간 오디오 오브젝트 코딩 디코더 외부에서 함께 믹싱될 채널들이 프리믹싱되고 공간 오디오 오브젝트 코딩 디코더 내부의 동일한 역상관기로 제공된다.
외부 포맷 컨버터를 사용하여, 공간 오디오 오브젝트 코딩 내부 렌더러는 중간 구성(예를 들면 가장 높은 수의 확성기를 갖는 구성)에 프리렌더링할 것이다.
결론적으로, 일부 실시 예들에서 출력 오디오 신호들이 외부 렌더러 또는 포맷 컨버터에서 함께 믹싱되는 정보는 프리믹싱 매트릭스가 실제로 외부 렌더러 내에 결합되는 (역상관기 입력 신호들의 제 1 세트의) 그러한 역상관기 입력 신호들의 결합을 정의하도록 프리믹싱 매트릭스(M pre )를 결정하기 위하여 사용된다. 따라서, (다채널 디코더의 출력 오디오 신호들을 수신하는) 외부 렌더러/포맷 컨버터로부터 수신되는 정보는 프리믹싱 매트릭스를 선택하거나 또는 조정하도록 사용되고(다채널 오디오 디코더의 내부 렌더링 매트릭스가 아이덴티티로 설정되거나 또는 중간 렌더링 구성으로부터 유도되는 믹싱 계수들로 초기화될 때), 외부 렌더러/포맷 컨버터는 다채널 오디오 디코더와 관련하여 위에서 언급된 것과 같이 출력 오디오 신호들을 수신하도록 연결된다.
17. 비트스트림
아래에, 비트스트림(또는 동등하게, 오디오 콘텐츠의 인코딩된 표현)내에 어떠한 부가적인 시그널링 정보가 사용될 수 있는지가 설명될 것이다. 본 발명에 따른 실시 예들에서, 역상관 방법은 요구되는 품질 레벨을 보장하기 위하여 비트스트림내로 시그널링될 수 있다. 이러한 방법으로, 사용자(또는 오디오 인코더)는 콘텐츠를 기초로 하여 방법을 선택하는데 더 많은 유연성을 갖는다. 이러한 목적을 위하여, MPEG 공간 오디오 오브젝트 코딩 비트스트림 구문은 예를 들면, 사용되는 역상관 방법을 지정하기 위한 2 비트 및/또는 구성(복잡도)을 지정하기 위하여 2 비트로 확장될 수 있다.
도 25는 예를 들면 비트스트림 부분("SAOCSpecificConfig()" 또는 "SAOC3DSpecificConfig()")에 추가될 수 있는, 비트스트림 요소들("bsDecorrelationMethod" 및 "bsDecorrelationLevel")의 구문 표현을 도시한다. 도 25에서 알 수 있는 것과 같이, 비트스트림 요소("bsDecorrelationMethod")를 위하여 두 개의 비트가 사용될 수 있고, 비트스트림 요소("bsDecorrelationLevel")를 위하여 두 개의 비트가 사용될 수 있다.
도 26은 테이블의 형태로, 비트스트림 변수 "bsDecorrelationNethod"의 값들 및 상이한 역상관 방법들 사이의 관계를 도시한다. 예를 들면, 세 가지 상이한 역상관 방법이 상기 비트스트림 변수의 상이한 값들에 의해 시그널링될 수 있다. 예를 들면, 예를 들면 섹션 14.3에서 설명된 것과 같은, 역상관들을 사용하는 출력 공분산 보정이 선택사항들 중 하나로서 시그널링될 수 있다. 또 다른 선택사항으로서, 예를 들면 섹션 14.4.1에서 설명된 것과 같은, 공분산 조정 방법이 시그널링될 수 있다. 또한 또 다른 선택사항으로서, 예를 들면 섹션 14.4.2에서 설명된 것과 같은, 에너지 보상 방법이 시그널링될 수 있다. 따라서, 렌더링된 오디오신호들과 역상관된 오디오 신호들을 기초로 하는 출력 오디오 신호들의 신호 특징들의 재구성을 위한 세 가지 상이한 방법들은 비트스트림 변수에 의존하여 선택될 수 있다.
에너지 보상 모드는 섹션 14.4.2에서 설명된 방법을 사용한다. 제한된 공분산 조정 모드는 섹션 14.4.1에서 설명된 방법을 사용하고, 일반적인 공분산 조정 모드는 섹션 14.3에서 설명된 방법을 사용한다.
이제 테이블 표현의 형태로, 상이한 역상관 레벨들이 비트스트림 변수 "bsDecorrelationLevel"에 의해 어떻게 시그널링될 수 있는지를 도시한, 도 27을 참조하면, 역상관 복잡도를 선택하기 위한 방법이 설명될 것이다. 바꾸어 말하면, 상기 변수는 어떤 역상관 복잡도가 사용되는지를 결정하기 위하여 위에 설명된 다채널 역상관기를 포함하는 다채널 오디오 디코더에 의해 평가될 수 있다. 예를 들면, 상기 비트스트림 파라미터는 값들(0, 1, 2, 및 3)로 지정될 수 있는 상이한 역상관 "레벨들"을 시그널링할 수 있다.
역상관 구성들(예를 들면, 역상관 레벨들로서 지정될 수 있는)의 일례가 도 27의 테이블에 주어진다. 도 27은 상이한 "레벨들"(예를 들면, 역상관 레벨들) 및 출력 구성들을 위한 다수의 역상관기들의 테이블 표현을 도시한다. 바꾸어 말하면, 도 27은 다채널 역상관기에 의해 사용되는, 역상관기 입력 신호들(역상관기 입력 신호들의 제 2 세트의)의 수(K)를 도시한다. 도 27에서 알 수 있는 것과 같이, 다채널 역상관기 내의 다수의 (개별) 역상관기들의 수는 어떤 "비트스트림 레벨"이 비트스트림 파라미터 "bsDecorrelationLevel"에 의해 시그널링되는지에 의존하여, 22.2 출력 구성에 대하여 11, 9, 7 및 5 사이에서 스위칭한다. 상기 비트스트림 파라미터에 의해 시그널링되는 "역상관기 레벨"에 의존하여, 10.1 출력 구성에 대하여 10, 5, 3 및 2개의 개별 역상관기들 사이에서 선택되고, 8.1 구성에 대하여 8, 4, 3 또는 2개의 개별 역상관기들 사이에서 선택되며, 7.1 구성에 대하여 7, 4, 3 또는 2개의 개별 역상관기들 사이에서 선택된다. 5.1 출력 구성에서, 개별 역상관기들의 수에 대하여 세 가지 유효한 선택사항, 5, 3 또는 2만이 존재한다. 2.1 출력 구성에 대하여, 두 개의 개별 역상관기(역상관 레벨 0) 및 하나의 개별 역상관기(역상관 레벨 1) 사이의 선택만이 존재한다.
요약하면, 역상관 방법은 역상관기들의 계산 파워 및 이용 가능한 수를 기초로 하여 디코더 측에서 결정될 수 있다. 게다가, 역상관기들의 수의 선택은 비트스트림 파라미터를 사용하여 인코더 측에서 만들어지고 시그널링될 수 있다.
따라서, 출력 오디오 신호들을 획득하기 위하여, 어떻게 역상관된 오디오 신호들이 적용되는지의 방법, 및 역상관된 신호들에 대한 복잡도 모두는 도 25에 도시되고 도 26과 27에 더 상세히 정의된 비트스트림 파라미터들을 사용하여 오디오 인코더의 측으로부터 제어될 수 있다.
18. 본 발명의 처리를 위한 적용 분야
오디오 장면의 인간 지각에 매우 중요한, 오디오 신호들을 복요구되는 것이 도입된 방법들이 목적 중의 하나라는 것에 유의하여야 한다. 본 발명에 따른 실시 예들은 에너지 레벨 및 상관 특성들의 재구성 정확도를 향상시키고 따라서 최종 출력 신호의 지각적 출력 품질을 증가시킨다. 본 발명에 따른 실시 예들은 임의의 수의 다운믹스/업믹스 채널들을 위하여 적용될 수 있다. 게다가, 여기서 설명되는 방법들과 장치들은 현존하는 파라미터 소스 분리 알고리즘들과 결합될 수 있다. 본 발명에 따른 실시 예들은 적용된 역상관기 함수들의 수에 대한 제한들을 설정함으로써 시스템의 계산 복잡도를 제어하도록 허용한다. 본 발명에 따른 실시 예들은 MPS 트랜스코딩 단계를 제거함으로써 공간 오디오 오브젝트 코딩 같은 오브젝트 기반 파라미터 구성 알고리즘들의 단순화에 이르게 할 수 있다.
19. 인코딩/디코딩 환경
아래에, 본 발명에 따른 개념들이 적용될 수 있는 오디오 인코딩/디코딩 환경이 설명될 것이다.
본 발명에 따른 개념들이 사용될 수 있는, 3차원 오디오 코덱 시스템은 많은 양의 오브젝트들의 코딩을 위한 효율을 증가시키도록 채널 및 오브젝트 신호들의 코딩을 위하여 MPEG-D USAC 코덱을 기초로 한다. MPEG-공간 오디오 오브젝트 코딩 기술이 적용되어왔다. 세 가지 형태의 렌더러가 오브젝트들의 채널들로의 렌더링, 채널들의 헤드폰들로의 렌더링 또는 채널들의 상기한 확성기 설정들로의 렌더링의 작업을 실행한다. 오브젝트 신호들이 공간 오디오 오브젝트 코딩을 사용하여 명시적으로 전송되거나 또는 파라미터로 인코딩될 때, 상응하는 오브젝트 메타데이터 정보가 압축되고 3차원 오디오 스트림 내로 멀티플렉싱된다.
도 28, 29 및 30은 3차원 오디오 시스템의 상이한 알고리즘 블록들을 도시한다.
도 28은 그러한 오디오 인코더의 개략적인 블록 다이어그램을 도시하고, 도 29는 그러한 오디오 디코더의 개략적인 블록 다이어그램을 도시한다. 바꾸어 말하면, 도 28과 29는 3차원 오디오 시스템의 상이한 알고리즘 블록들을 도시한다.
3차원 오디오 인코더(2900)의 개략적인 블록 다이어그램을 도시한, 도 28을 참조하여, 일부 상세내용이 설명될 것이다. 인코더(2900)는 하나 이상의 채널 신호(2912) 및 하나 이상의 오브젝트 신호(2914)를 수신하고, 이를 기초로 하여 하나 이상의 채널 신호(2916)뿐만 아니라 하나 이상의 오브젝트 신호(2918, 2920)를 제공하는, 선택적 프리-렌더러/믹서(2910)를 포함한다. 오디오 인코더는 또한 USAC 인코더(2930) 및 선택적으로 공간 오디오 오브젝트 코딩 인코더(2940)를 포함한다. 공간 오디오 오브젝트 코딩 인코더(2940)는 공간 오디오 오브젝트 코딩 인코더에 제공되는 하나 이상의 오브젝트(2920)를 기초로 하여 하나 이상의 공간 오디오 오브젝트 코딩 전송 채널(2942) 및 공간 오디오 오브젝트 코딩 부가 정보(2944)를 제공하도록 구성된다. 게다가, USAC 인코더(2930)는 프리-렌더러/믹서(2910)로부터 채널들과 프리렌더링된 오브젝트들을 포함하는 채널 신호들(2916)을 수신하고, 프리-렌더러/믹서(2910)로부터 하나 이상의 오브젝트 신호(2918)를 수신하며, 하나 이상의 공간 오디오 오브젝트 코딩 전송 채널(2942) 및 공간 오디오 오브젝트 코딩 부가 정보(2944)를 수신하며, 이를 기초로 하여 인코딩된 표현(2932)을 제공하도록 구성된다. 게다가, 오디오 인코더(2900)는 또한 인코딩된 오브젝트 메타데이터(2954)를 획득하기 위하여 오브젝트 메타데이터(2952, 프리-렌더러/믹서(2910)에 의해 평가될 수 있는)를 수신하고 오브젝트 메타데이터를 인코딩하도록 구성되는 오브젝트 메타데이터 인코더(2950)를 포함한다. 인코딩된 오디오 신호는 또한 USAC 인코더(2930)에 의해 수신되고 인코딩된 표현(2932)을 제공하도록 사용된다.
오디오 인코더(2900)의 개별 부품들에 관한 일부 상세내용이 아래에 설명될 것이다.
도 29를 참조하여, 오디오 디코더(3000)가 설명될 것이다. 오디오 디코더(3000)는 인코딩된 표현(3010)을 수신하고 이를 기초로 하여, 대안의 포맷(예를 들면, 5.1 포맷)으로 다채널 확성기 신호들(3012), 헤드폰 신호들(3014) 및/또는 확성기 신호들(3016)을 제공하도록 구성된다. 오디오 디코더(3000)는 인코딩된 표현(3010)을 기초로 하여 하나 이상의 채널 신호(3022), 하나 이상의 프리렌더링된 오브젝트 신호(3024), 하나 이상의 오브젝트 신호(3025), 하나 이상의 공간 오디오 오브젝트 코딩 전송 채널(3028), 공간 오디오 오브젝트 코딩 부가 정보(3030) 및 압축된 오브젝트 메타데이터 정보(3032)를 제공하는, USAC 디코더(3020)를 포함한다. 오디오 디코더(3000)는 또한 하나 이상의 오브젝트 신호(3026) 및 오브젝트 메타데이터 정보(3044)를 기초로 하여 하나 이상의 렌더링된 오브젝트 신호(3042)를 제공하도록 구성되는, 오브젝트 렌더러(3040)를 포함하고, 오브젝트 메타데이터 정보(3044)는 압축된 오브젝트 메타데이터 정보(3062)를 기초로 하여 오브젝트 메타데이터 디코더(3050)에 의해 제공된다. 오디오 디코더(3000)는 또한 채널 신호들(3022), 프리렌더링된 오브젝트 신호들(3024), 렌더링된 오브젝트 신호들(3042) 및 렌더링된 오브젝트 신호들(3062)을 수신하고 이를 기초로 하여, 예를 들면 다채널 확성기 신호들(3012)로 구성되는, 복수의 믹싱된 채널 신호(3072)을 제공하도록 구성되는, 믹서(3070)를 포함한다. 오디오 디코더(3000)는 예를 들면, 또한 믹싱된 채널 신호들(3072)을 수신하고 이를 기초로 하여, 헤드폰 신호들(3014)을 제공하도록 구성되는, 바이노럴 렌더러(binaural rendere, 3080)을 포함할 수 있다. 게다가, 오디오 디코더(3000)는 믹싱된 채널 신호들(3072) 및 재생 레이아웃 정보(3092)를 수신하고 이를 기초로 하여, 대안의 확성기 설정을 위한 확성기 신호(3016)를 제공하도록 구성되는, 포맷 전환(3090)을 포함할 수 있다.
아래에, 오디오 인코더(2900) 및 오디오 디코더(3000)의 부품들에 대한 일부 상세내용이 설명될 것이다.
19.1. 프리 - 렌더러 /믹서
프리-렌더러/믹서(2910)는 인코딩 이전에 채널 및 오브젝트 입력 장면을 채널 장면으로 전환하기 위하여 선택적으로 사용될 수 있다. 기능적으로, 이는 예를 들면, 아래에 설명되는 오브젝트 렌더러/믹서와 동일할 수 있다.
오브젝트들의 프리렌더링은 예를 들면, 기본적으로 동시에 활성인 오브젝트 신호들의 수에 독립적인 인코더 입력에서 결정론적(deterministic) 신호 엔트로피를 보장할 수 있다.
오브젝트들의 프리렌더링으로, 어떠한 오브젝트 메타데이터도 요구되지 않는다.
이산 오브젝트 신호들은 인코더가 사용하도록 구성되는 채널 레이아웃에 렌더링되고, 각각의 채널에 대한 오브젝트들의 가중들이 관련 오브젝트 메타데이터(OAM, 1952)로부터 획득된다.
19.2. USAC 코어 코더
확성기 채널 신호들, 이산 오브젝트 신호들, 오브젝트 다운믹스 신호들 및 프리렌더링된 신호들을 위한 코어 코덱(2930, 3020)은 MPEG-D USAC 기술을 기초로 한다. 이는 입력 채널과 오브젝트 할당의 기하학 및 시맨틱 정보를 기초로 하여 채널- 및 오브젝트-매핑 정보를 생성함으로써 다수의 신호의 디코딩을 처리한다. 이러한 매핑 정보는 어떻게 입력 채널들과 오브젝트들이 USAC 채널 요소들(CPE들, SCE들, LFE들)에 매핑되고 상응하는 정보가 디코더에 전송되는지를 기술한다.
공간 오디오 오브젝트 코딩 데이터 또는 오브젝트 메타데이터 같은 부가적인 페이로드들이 확장 요소들을 통과하였고 인코더 비율 제어에서 고려되었다. 오브젝트들의 디코딩은 렌더러에 대한 비율/왜곡 요구사항들 및 상호작용 요구사항들에 의존하여, 상이한 방법들에서 가능하다. 다음의 오브젝트 코딩 변형들이 가능하다:
● 프리렌더링된 오브젝트들: 오브젝트 신호들은 인코딩 이전에 22.2 채널 신호들에 프리렌더링되고 믹싱된다. 뒤따르는 코딩 체인은 22.2 채널 신호들을 보게 된다.
● 이산 오브젝트 파형들: 모노포닉 파형들로서 디코더에 적용되는 것과 같은 오브젝트들. 채널 신호들에 더하여 오브젝트들을 전송하기 위하여 인코더는 단일 채널 요소들(SCEs)을 사용한다. 디코딩된 오브젝트들은 수신기 측에서 렌더링되고 믹싱된다. 압축된 오브젝트 메타데이터 정보가 수신기/렌더러에 함께 전송된다.
● 파라미터 오브젝트 파형들:
오브젝트 특성들 및 서로에 대한 그것들에 관계는 공간 오디오 오브젝트 코딩 파라미터들에 의해 기술된다. 오브젝트 신호들의 다운믹스는 USAC로 코딩된다. 파라미터 정보가 함께 전공된다. 다운믹스 채널들의 수는 오브젝트의 수 및 전체 데이터 레이트에 의존하여 선택된다. 압축된 오브젝트 메타데이터 정보는 공간 오디오 오브젝트 코딩 렌더러에 전송된다.
19.3. 공간 오디오 오브젝트 코딩
오브젝트 신호들을 위한 공간 오디오 오브젝트 코딩 인코더(2940) 및 공간 오디오 오브젝트 코딩 디코더(3060)는 MPEG 공간 오디오 오브젝트 코딩 기술을 기초로 한다. 시스템은 더 적은 수의 전송된 채널들 및 부가적인 파라미터 데이터(오브젝트 레벨 차이들(OLDs), 오브젝트간 상관들(IOCs), 다운믹스 이득들(DMGs))을 기초로 하여 다수의 오디오 오브젝트들을 재생성, 변형 및 렌더링할 수 있다. 부가적인 파라미터 데이터는 전송된 모든 오브젝트에 필요한 것보다 상당히 낮은 데이터 레이트를 나타내고, 이는 디코딩을 매우 효율적으로 만든다. 공간 오디오 오브젝트 코딩 인코더는 입력으로서 모노포닉 파형들 같은 오브젝트/채널 신호들을 취하고 파라미터 정보(3차원 오디오 비트스트림(2932, 3010) 내로 패킹된) 및 공간 오디오 오브젝트 코딩 전송 채널들(단일 채널 요소들을 사용하여 인코딩되고 전송되는)을 출력한다. 공간 오디오 오브젝트 코딩 디코더(3060)는 디코딩된 공간 오디오 오브젝트 코딩 전송 채널들(3028) 및 파라미터 정보(3030)로부터 오브젝트/채널 신호들을 재구성하고 재생 레이아웃, 분해된 오브젝트 메타데이터 정보를 기초로 하고 선택적으로 사용자 상호작용 정보를 기초로 하여 출력 오디오 장면을 발생시킨다.
19.4. 오브젝트 메타데이터 코덱
각각의 오브젝트를 위하여, 3차원 공간 내의 오브젝트의 기하학적 위치 및 볼륨을 지정하는 관련 메타데이터는 시간 및 공간 내의 오브젝트 특성들의 양자화에 의해 효율적으로 코딩된다. 압축된 메타데이터 cOAM(2954, 3032)는 부가 정보로서 수신기에 전송된다.
19.5. 오브젝트 렌더러 /믹서
오브젝트 렌더러는 주어진 재생 포맷에 따라 오브젝트 파형들을 발생시키기 위하여 압축된 오브젝트 메타데이터(OAM, 3044)를 사용한다. 각각의 오브젝트는 그것의 메타데이터에 따라 특정 출력 채널들에 렌더링된다. 이러한 블록의 출력은 부분 결과들이 합계로부터 야기한다.
만일 채널 기반 콘텐츠뿐만 아니라 이산/파라미터 오브젝트들 모두가 디코딩되면, 채널 기반 파형들 및 렌더링된 오브젝트 파형들은 결과로서 생기는 파형들의 출력 이전에(또는 그것들을 바이노럴 렌더러 같은 포스트-프로세서 모듈 또는 확성기 렌더러 모듈에 제공하기 전에) 믹싱된다.
19.6. 바이노럴 렌더러
바이노럴 렌더러 모듈(3080)은 각각의 입력 채널이 가상 음원에 의해 표현되도록, 다채널 오디오 자료의 바이노럴 다운믹스를 생산한다. 처리는 직각 대칭 필터(QMF) 도메인 내에서 프레임 방식으로 수행된다. 바이노럴화는 측정된 바이노럴 룸 임펄스 응답들을 기초로 한다.
19.7 확성기 렌더러 /포맷 전환
확성기 렌더러(3090)는 전송된 채널 구성 및 요구되는 재생 포맷 사이에서 전환한다. 따라서 이는 아래에서 "포맷 컨버터"로 불린다. 포맷 컨버터는 낮은 수의 출력 채널들로의 전환들을 실행하는데, 즉 다운믹스들을 생성한다. 시스템은 입력 및 출력 포맷들의 주어진 결합을 위하여 최적화된 다운믹스 매트릭스들을 발생시키고 다운믹스 과정에서 이러한 매트릭스들을 적용한다. 포맷 컨버터는 표준 확성기 구성들뿐만 아니라 비-표준 확성기 위치들을 갖는 임의 구성들을 허용한다.
도 30은 포맷 컨버터의 개략적인 블록 다이어그램을 도시한다. 바꾸어 말하면, 도 30은 포맷 컨버터의 구조를 도시한다.
도시된 것과 같이, 포맷 컨버터(3100)는 믹서 출력 신호들(3110), 예를 들면 믹싱된 채널 신호들(3072)을 수신하고, 확성기 신호들(3112), 예를 들면 스피커 신호들(3016)을 제공한다. 포맷 컨버터는 직각 대칭 필터 도메인 내의 다운믹스 과정(3120) 및 다운믹스 구성기(3130)를 포함하고, 다운믹스 구성기는 믹서 출력 레이아웃 정보(3032) 및 재생 레이아웃 정보(3034)를 기초로 하여 다운믹스 과정(3020)을 위한 구성 정보를 제공한다.
19.8. 일반적인 개론
게다가, 여기서 설명되는 개념들, 예를 들면 오디오 디코더(100), 오디오 인코더(200), 다채널 역상관기(600), 다채널 오디오 디코더(700), 오디오 인코더(800) 또는 오디오 디코더(1550)는 오디오 인코더(2900) 및/또는 오디오 디코더(3000) 내에서 사용될 수 있다는 것에 유의하여야 한다. 예를 들면, 위에 언급된 오디오 인코더들/디코더들은 공간 오디오 오브젝트 코딩 인코더(2940)의 부분 및/또는 공간 오디오 오브젝트 코딩 디코더(3060)의 부분으로서 사용될 수 있다. 그러나, 위에 언급된 개념들은 또한 3차원 오디오 디코더(3000) 및/또는 오디오 인코더(2900)의 다른 위치들에서 사용될 수 있다.
자연적으로, 위에 언급된 방법들은 또한 도 28 및 29에 따른 오디오 정보의 인코딩과 디코딩을 위한 개념들에서 사용될 수 있다.
20. 부가적인 실시 예들
20.1 서론
아래에, 본 발명에 따른 또 다른 실시 예가 설명될 것이다.
도 31은 본 발명의 일 실시 예에 따른, 다운믹스 프로세서의 개략적인 블록 다이어그램을 도시한다.
다운믹스 프로세서(3100)는 업믹서(3110), 렌더러(3120), 결합기(3130) 및 다채널 역상관기(3140)를 포함한다. 렌더러는 렌더링된 오디오 신호들(Ydry)을 결합기(3130) 및 다채널 역상관기(3140)에 제공한다. 다채널 역상관기는 렌더링된 오디오 신호들(역상관기 입력 신호들의 제 1 세트로서 고려될 수 있는)을 수신하고 이를 기초로 하여 역상관기 입력 신호들의 프리믹싱된 제 2 세트를 역상관기 코어(3160)에 제공하는, 프리믹서(3150)를 포함한다. 역상관기 코어는 포스트믹서(3170)의 사용을 위하여 역상관기 입력 신호들의 제 2 세트를 기초로 하여 역상관기 출력 신호들의 제 1 세트를 제공하고, 포스트믹서는 결합기(3130)에 제공되는 역상관기 출력 신호의 제 2 세트를 획득하기 위하여, 역상관기 코어(3160)에 의해 제공되는 역상관기 출력 신호들을 포스트믹싱(업믹싱)한다.
렌더러(3130)는 예를 들면, 렌더링을 위한 매트릭스(R)를 적용할 수 있고, 프리믹서는 예를 들면, 프리믹싱을 위한 매트릭스(M pre)를 적용할 수 있으며, 포스트믹서는 예를 들면, 포스트믹싱을 위한 매트릭스(M post)를 제공할 수 있으며, 결합기는 예를 들면, 결합을 위한 매트릭스(P)를 제공할 수 있다.
다운믹스 프로세서(3100), 또는 개별 부품들 또는 그것의 기능들은 여기서 섦녕되는 오디오 디코더들 내에서 사용될 수 있다는 것에 유의하여야 한다. 게다가, 다운믹스 프로세서는 여기서 설명되는 특징들과 기능들 중 어느 하나에 의해 추가될 수 있다는 것에 유의하여야 한다.
20.2 공간 오디오 오브젝트 코딩 3차원 프로세싱
ISO/IEC 23003-1:2007에서 설명되는 하이브리드 필터뱅크가 적용된다. 다운믹스 이득(DMG), 오브젝트 레벨 차이 정보(OLD), 오브젝트간 상관(IOC) 파러마터들의 역양자화는 ISO/IEC 23003-2:2010의 7.1.2에 정의된 것과 동일한 규칙들을 따른다.
20.2.1 신호들 및 파라미터들
오디오 신호들은 모든 타임 슬롯(n) 및 모든 하이브리드 서브대역(k)을 위하여 정의된다. 상응하는 공간 오디오 오브젝트 코딩 3차원 파라미터들이 모든 파라미터 타임 슬롯(t) 및 처리 대역(m)을 위하여 정의된다. 하이브리드 및 파라미터 도메인 사이의 뒤따르는 매핑은 ISO/IEC 23003-1:2007의 테이블 A.31에 의해 지정된다. 따라서, 특정 시간/대역 지수들과 관련하여 모든 계산이 실행되고 각각의 도입된 변수를 위하여 상응하는 차원수들이 표시된다.
공간 오디오 오브젝트 코딩 3차원 디코더에서 이용 가능한 데이터는 다채널 다운믹스 신호(X), 공분산 매트릭스(E), 렌더링 매트릭스(R) 및 다운믹스 매트릭스(D)로 구성된다.
20.2.1.1 오브젝트 파라미터들
요소들(e i,j)을 갖는 크기(N×N)의 공분산 매트릭스(E)는 원래 신호 공분산 매트릭스의 근사치(
Figure 112016017059104-pct00138
)를 표현하고 다음과 같이 오브젝트 레벨 차이 정보 및 오브젝트간 상관 파라미터들로부터 획득된다:
Figure 112016017059104-pct00139
.
따라서, 역양자화된 오브젝트 파라미터들은 다음과 같이 획득된다:
OLD i = D OLD(i,l,m), IOC i,j = D IOC(i,j,l,m).
20.2.1.3 다운믹스 매트릭스
입력 오디오 신호들(S)에 적용되는 다운믹스 매트릭스(D)는 X = DS로서 다운믹스 신호를 결정한다. 크기(N dmx×N)의 다운믹스 매트릭스(D)는 다음과 같이 획득된다:
D = D dmx D premix .
매트릭스(D dmx ) 및 매트릭스(D premix )는 처리 모드에 의존하여 상이한 크기들을 갖는다. 매트릭스(D dmx )는 다음과 같이 다운믹스 이득 파라미터들로부터 획득된다:
Figure 112016017059104-pct00140
따라서, 역양자화된 다운믹스 파라미터들은 다음과 같이 획득된다:
DMG i,j = D DMG(i,j,l)
20.2.1.3.1 직접 모드
직접 모드의 경우에, 어떠한 프리믹싱도 사용되지 않는다. 매트릭스(D premix)는 크기(N×N)를 갖고 D premix = I에 의해 주어진다. 매트릭스(D dmx)는 크기(N dmx×N)를 갖고 20.2.1.3에 따라 다운믹스 파라미터들로부터 획득된다.
20.2.1.3.2 프리믹싱 모드
프리믹싱 모드의 경우에, 매트릭스(D premix)는 크기(N ch + N premix)를 갖고 다음에 의해 주어지는데,
Figure 112016017059104-pct00141
여기서 프리믹싱 매트릭스(A)의 크기(N premix×N obj)는 입력으로서 오브젝트 렌더러로부터 공간 오디오 오브젝트 코딩 3차원 디코더로 수신된다.
매트릭스(D dmx)는 크기(N dmx×(N ch + N premix))를 갖고 20.2.1.3에 따라 다운믹스 이득 파라미터들로부터 획득된다.
20.2.1.4 렌더링 매트릭스
입력 출력 신호들(S) 상에 적용되는 렌더링 매트릭스(R)는 Y = RS와 같이 표적 렌더링된 출력을 결정한다. 다음에 의해 크기(N out×N)의 렌더링 매트릭스(R)가 주어지는데:
R = (R ch R obj)
여기서 크기(N out×N)의 R ch는 입력 채널들과 관련된 렌더링 매트릭스를 표현하고 크기(N obj×N obj)의 R obj는 입력 오브젝트들과 관련된 렌더링 매트릭스를 표현한다.
20.2.1.4 표적 출력 공분산 매트릭스
요소들(c i,j )을 갖는 크기(N out×N out)의 공분산 매트릭스(C)는 표적 출력 신호 공분산 매트릭스의 근사치(
Figure 112016017059104-pct00142
)를 표현하고 공분산 매트릭스(E) 및 렌더링 매트릭스(R)로부터 획득된다:
C = RER *.
20.2.2 디코딩
공간 오디오 오브젝트 코딩 3차원 파라미터들과 렌더링 정보를 사용하여 출력 신호를 획득하기 위한 방법이 설명된다. 공간 오디오 오브젝트 코딩 3차원 디코더는 예를 들면, 공간 오디오 오브젝트 코딩 3차원 파라미터 프로미터 및 공간 오디오 오브젝트 코딩 3차원 다운믹스 프로세서로 구성된다.
20.2.2.1 다운믹스 프로세서
다운믹스 프로세서(직각 대칭 필터 도메인 내에 표현되는)의 출력 신호는 공간 오디오 오브젝트 코딩 3차원 디코더의 최종 출력을 생산하는 ISO/IEC 23003-1:2007에서 설명된 것과 같이 상응하는 합성 필터뱅크 내로 제공된다. 다운믹스 프로세서의 상세 구조가 도 31에 도시된다.
출력 신호(
Figure 112016017059104-pct00143
)는 다음과 같이 다운믹스 신호(X) 및 역상관된 다채널 신호(X d)로부터 계산되는데:
Figure 112016017059104-pct00144
,
여기서 U는 파라미터 언-믹싱 매트릭스를 표현하고 20.2.2.1.1 및 20.2.2.1.2에서 정의된다.
역상관된 다채널 신호(X d)는 20.2.3에 따라 계산된다.
Figure 112016017059104-pct00145
.
믹싱 매트릭스(P = P dry P wet))는 20.2.3에서 설명된다. 상이한 출력 구성에 대한 매트릭스들(M pre)이 도 19 내지 23에 주어지고 다음의 방정식을 사용하여 매트릭스들(M post)이 획득된다:
Figure 112016017059104-pct00146
디코딩 모드는 도 32에 도시된 것과 같이 비트스트림 요소(bsNumSaocDmxObjects)에 의해 제어된다.
20.2.2.1.1 결합된 디코딩 모드
결합된 디코딩 모드의 경우에 파라미터 언-믹싱 매트릭스(U)는 다음에 의해 주어진다:
U = ED * J.
크기(N dmx×N dmx)의 매트릭스(J)는
Figure 112016017059104-pct00147
에 의해 주어지고 여기서
Figure 112016017059104-pct00148
이다.
20.2.2.1.2 독립 디코딩 모드
독립 디코딩 모드의 경우에 언-믹싱 매트릭스(U)는 다음에 의해 주어지는데:
Figure 112016017059104-pct00149
여기서
Figure 112016017059104-pct00150
이고
Figure 112016017059104-pct00151
이다.
크기(N ch×N ch)의 채널 기반 공분산 매트릭스(E ch) 및 크기(N obj×N obj)의 오브젝트 기반 공분산 매트릭스(E obj)는 상응하는 대각선 블록들만을 선택함으로써 공분산 매트릭스(E)로부터 획득되는데:
Figure 112016017059104-pct00152
여기서 매트릭스(E obj,ch = (E obj,ch)*)는 입력 채널들 및 입력 오브젝트들 사이의 교차 공분산 매트릭스를 표현하고 계산되도록 요구되지 않는다.
크기(
Figure 112016017059104-pct00153
)의 채널 기반 다운믹스 매트릭스(D ch) 및 크기(
Figure 112016017059104-pct00154
)의 오브젝트 기반 다운믹스 매트릭스(D obj)는 상응하는 대각선 블록들만을 선택함으로써 다운믹스 매트릭스(D)로부터 획득된다:
Figure 112016017059104-pct00155
.
크기(
Figure 112016017059104-pct00156
)의 매트릭스(
Figure 112016017059104-pct00157
)는
Figure 112016017059104-pct00158
를 위하여 20.2.2.1.4에 따라 유도된다.
크기(
Figure 112016017059104-pct00159
)의 매트릭스(
Figure 112016017059104-pct00160
)는
Figure 112016017059104-pct00161
을 위하여 20.2.2.1.4에 따라 유도된다.
20.2.2.1.4 매트릭스(J)의 계산
매트릭스(
Figure 112016017059104-pct00162
)는 다음의 방정식을 사용하여 계산된다:
Figure 112016017059104-pct00163
여기서 매트릭스(△)의 단일 벡터(V)는 다음의 특징 방정식을 사용하여 획득된다:
Figure 112016017059104-pct00164
.
대각선 단일 값 매트릭스(△)의 규칙화된 역(inverse,
Figure 112016017059104-pct00165
)은 다음과 같이 계산된다:
Figure 112016017059104-pct00166
.
상대적 규칙화 스칼라()는 다음과 같이 절대 임계(T reg ) 및 △의 최대 값을 사용하여 결정된다:
Figure 112016017059104-pct00167
.82-3
20.2.3 역상관
역상관된 신호들(X d)은 ISO/IEC 23003-1:2007의 6.6.2에서 설명되는 역상관기로부터 생성되는데, 여기서 bsDecorrConfig==0이고, 역상관기 지수(X)는 도 19 내지 24의 테이블들에 따라 생성된다. 따라서, decorrfunc()는 역상관 과정을 나타낸다:
X d = decorrfunc(M pre Y dry).
20.2.4 믹싱 매트릭스(P) - 제 1 선택사항
믹싱 매트릭스의 계산(P = (P dry P wet)은 비트스트림 요소(bsDecorrelationMethod)에 의해 제어된다. 매트릭스(P)는 크기(N out×2N out)를 갖고 P dryP wet은 모두 크기(N out×N out)를 갖는다.
20.2.4.1 에너지 보상 모드
에너지 보상 모드는 파라미터 재구성에서의 에너지의 손실을 보상하기 위하여 역상관된 신호들을 사용한다. 믹싱 매트릭스들(P dryP wet)은 다음에 의해 주어지는데:
P dry = I,
Figure 112016017059104-pct00168
여기서 λ Dec =4는 출력 신호들에 추가된 역상관된 성분의 양을 제한하도록 사용되는 상수이다.
20.2.4.2 제한된 공분산 조정 모드
제한된 공분산 조정 모드는 믹싱되고 역상관된 신호들의 공분산 매트릭스(PwetYdry)가 차이 공분산 매트릭스와 근사치가 되도록 보장한다:
Figure 112016017059104-pct00169
믹싱 매트릭스들()은 다음이 방정식을 사용하여 정의되는데:
P dry = I,
Figure 112016017059104-pct00170
여기서 대각선 단일 값 매트릭스(Q2)의 규칙화된 역(
Figure 112016017059104-pct00171
)이 다음과 같이 계산된다:
Figure 112016017059104-pct00172
.
상대적 규칙화 스칼라(
Figure 112016017059104-pct00173
)는 다음과 같이 절대 임계(T reg ) 및
Figure 112016017059104-pct00174
의 최대 값을 사용하여 결정된다:
Figure 112016017059104-pct00175
매트릭스(△ E )는 다음과 같이 단일 값 분해를 사용하여 분해된다:
Figure 112016017059104-pct00176
역상관된 신호들의 공분산 매트릭스(
Figure 112016017059104-pct00177
)가 또한 단일 값 분해를 사용하여 표현된다:
Figure 112016017059104-pct00178
20.2.4.3 일반적인 공분산 조정 모드
일반적인 공분산 조정 모드는 최종 출력 신호들의 공분산 매트릭스
Figure 112016017059104-pct00179
)가 표적 공분산 매트릭스와 근사치가 되도록 보장한다:
Figure 112016017059104-pct00180
. 믹싱 매트릭스(P)는 다음의 방정식을 사용하여 정의되는데:
Figure 112016017059104-pct00181
여기서 대각선 단일 값 매트릭스(Q2)의 규칙화된 역(
Figure 112016017059104-pct00182
)이 다음과 같이 계산된다:
Figure 112016017059104-pct00183
.
상대적 규칙화 스칼라(
Figure 112016017059104-pct00184
)는 다음과 같이 절대 임계(T reg ) 및
Figure 112016017059104-pct00185
의 최대 값을 사용하여 결정된다:
Figure 112016017059104-pct00186
표적 공분산 매트릭스(C)는 다음과 같이 단일 값 분해를 사용하여 분해된다:
Figure 112016017059104-pct00187
결합된 신호들의 공분산 매트릭스(
Figure 112016017059104-pct00188
)가 또한 단일 값 분해를 사용하여 표현된다:
Figure 112016017059104-pct00189
매트릭스(H)는 크기(N out×2N out)의 프로토타입 가중 매트릭스를 표현하고 다음의 방정식에 의해 주어진다:
Figure 112016017059104-pct00190
20.2.4.4 도입된 공분산 매트릭스들
매트릭스(△ E )는 표적 출력 공분산 매트릭스(C) 및 파라미터로 재구성된 신호들의 공분산 매트릭스(
Figure 112016017059104-pct00191
) 사이의 차이를 표현하고 다음에 의해 주어진다:
Figure 112016017059104-pct00192
매트릭스(
Figure 112016017059104-pct00193
)는 파라미터로 추정된 신호들의 공분산 매트릭스(
Figure 112016017059104-pct00194
)를 표현하고 다음의 방정식을 사용하여 정의된다:
Figure 112016017059104-pct00195
매트릭스(
Figure 112016017059104-pct00196
)는 역상관된 신호들의 공분산 매트릭스(
Figure 112016017059104-pct00197
)를 표현하고 다음의 방정식을 사용하여 정의된다:
Figure 112016017059104-pct00198
파라미터 추정되고 역상관된 신호들의 조합으로 구성되는 신호(Y com)를 다음과 같이 고려할 때:
Figure 112016017059104-pct00199
Y com의 공분산 매트릭스는 다음의 방정식에 의해 정의된다:
Figure 112016017059104-pct00200
매트릭스(
Figure 112016017059104-pct00201
)는 예를 들면, 믹싱 매트릭스(P wet)가 적용된 이후에 역상관된 신호들의 추정된 공분산 매트릭스를 표현하고 다음의 방정식을 사용하여 적용된다:
Figure 112016017059104-pct00202
20.2.5 믹싱 매트릭스(P) - 제 2 선택사항
믹싱 매트릭스의 계산(
Figure 112016017059104-pct00203
)은 비트스트림 요소(bsDecorrelationMethod)에 의해 제어된다. 매트릭스(P)는 크기(N out×2N out)를 갖고 매트릭스들(P dryP wet)은 모두 크기(N out×N out)를 갖는다. 크기(N out×N out)의 제한 매트릭스(A wet)는 다음에 의해 주어지는데,
Figure 112016017059104-pct00204
여기서 공분산 매트릭스들(
Figure 112016017059104-pct00205
)은 예를 들면, 섹션 20.2.4.4에서 주어지고 λ Dec =4는 출력 신호들에 추가된 역상관된 성분의 양을 제한하도록 사용되는 상수이다.
20.2.5.1 에너지 보상 모드
에너지 보상 모드는 파라미터 재구성에서의 에너지의 손실을 보상하기 위하여 역상관된 신호들을 사용한다. 믹싱 매트릭스들(P dryP wet)은 다음에 의해 주어진다:
P dry = I,
Figure 112016017059104-pct00206
20.2.5.2 또 다른 개념들 및 상세내용
또 다른 개념들 및 상세내용과 관련하여, 또한 섹션들 20.2.4.2 내지 20.2.4.4가 참조된다.
20.3 기호에 관한 비고
본 발명에서 상이한 기호들이 사용되는 것에 유의하여야 한다. 그러나, 특정 방정식에 어떤 기호가 적용되는지는 맥락으로부터 명확하다.
예를 들면, 믹싱 매트릭스는 설명의 일부 부분에서 F 또는
Figure 112016017059104-pct00207
로 지정되나, 믹싱 매트릭스는 설명의 다른 부분들에서 P로 지정된다.
게다가, 순수 신호(또는 순수 신호들)에 적용되려는 믹싱 매트릭스의 성분은 설명의 일부 부분에서는 P로 그리고 설명의 다른 부분들에서는 P dry로 지정된다. 유사하게, 적용된 신호(또는 적용된 신호들)에 적용되려는 믹싱 매트릭스의 성분은 설명의 일부 부분에서는 M으로 그리고 설명의 다른 부분들에서는 P wet로 지정된다. 게다가, 적용된 신호들(매트릭스(M)로의 믹싱 단계 이전에)의 공분산 매트릭스(E W)는 역상관된 신호들의 공분산 매트릭스(
Figure 112016017059104-pct00208
)와 동일하다.
21 구현 대안들
장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 블록 또는 아이템 또는 장치의 특징을 나타낸다. 일부 또는 모든 방법 단계는 예를 들면 마이크로프로세서 같은, 하드웨어 장치에 의해(사용하여) 실행될 수 있다. 일부 실시 예들에서, 그러한 장치에 가장 중요한 방법 단계의 일부 하나 이상이 실행될 수 있다.
본 발명의 인코딩된 오디오 신호들은 디지털 저장 매체 상에 저장될 수 있거나 혹은 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체 상에 전송될 수 있다.
특정 구현 요구사항들에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들면, 그 안에 저장되는 전자적으로 판독가능한 제어 신호들을 갖는, 플로피 디스크, DVD, 블루-레이, CD, RON, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있으며, 이는 각각의 방법이 실행되도록 프로그램가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 따라서, 디지털 저장 매체는 컴퓨터로 판독 가능할 수 있다.
본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되도록, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법들의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 녹음된 매체는 일반적으로 유형 및/또는 비-일시적이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.
또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.
또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 또 다른 실시 예는 여기서 설명된 방법들 중 하나를 실행하기 위하여 컴퓨터 프로그램을 수신기에 전달하도록(예를 들면, 전기적으로 또는 광학적으로) 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들면, 컴퓨터, 모바일 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들면, 컴퓨터 프로그램을 수신기에 전달하기 위한 파일 서버를 포함할 수 있다.
일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기서 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.
이에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.
참고문헌
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[Blauert] J. Blauert, "Spatial Hearing - The Psychophysics of Human Sound Localization", Revised Edition, The MIT Press, London, 1997.
[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006.
[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010.
[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[ISS5] S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011.
[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.
[MPS] ISO/IEC, "Information technology - MPEG audio technologies - Part 1: MPEG Surround," ISO/IEC JTC1/SC29/WG11 (MPEG) international Standard 23003-1:2006.
[OCD] J. Vilkamo, T. Bㅁckstrom, and A. Kuntz. "Optimized covariance domain framework for time-frequency processing of spatial audio", Journal of the Audio Engineering Society, 2013. in press.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J. Engdeg?rd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. H?lzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.
[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
International Patent No. WO/2006/026452, "MULTICHANNEL DECORRELATION IN SPATIAL AUDIO CODING" issued on 9 March 2006.
100 : 다채널 오디오 디코더
110 : 인코딩된 표현
112, 114 : 출력 오디오 신호
120 : 디코더
122 : 디코딩된 오디오 신호
130 : 렌더러
132 : 렌더링 파라미터
134, 136 : 렌더링된 오디오 신호
140 : 역상관기
142, 144 : 역상관된 오디오 신호
150 : 결합기
200 : 다채널 오디오 인코더
210, 212 : 입력 오디오 신호
214 : 인코딩된 표현
220 : 다운믹스 신호 제공기
222 : 다운믹스 신호
230 : 파라미터 제공기
232 : 파라미터
240 : 역상관 방법 파라미터 제공기
242 : 역상관 방법 파라미터
500 : 인코딩된 오디오 표현
510 : 다운믹스 신호의 인코딩된 표현
520 : 파라미터의 인코딩된 표현
530 : 인코딩된 역상관 방법 파라미터
600 : 다채널 역상관기
610a-610n : N 역상관기 입력 신호
612a-612n' : N' 역상관기 출력 신호
620 : 프리믹서
622a-622k : K 역상관기 입력 신호
630 : 역상관기 코어
640 : 포스트믹서
700 : 다채널 오디오 디코더
710 : 인코딩된 표현
712, 714 : 출력 신호
720 : 다채널 역상관기
800 : 다채널 오디오 인코더
810, 812 : 입력 오디오 신호
814 : 오디오 콘텐츠의 인코딩된 표현
820 : 다운믹스 신호 제공기
822 : 다운믹스 신호
830 : 파라미터 제공기
832 : 파라미터
840 : 역상관 복잡도 파라미터 제공기
842 : 역상관 복잡도 파라미터
1012 : 인코딩된 표현
1014, 1016 : 출력 오디오 신호
1112, 1114 : 입력 오디오 신호
1200 : 인코딩된 오디오 표현
1210 : 다운믹스 신호의 인코딩된 표현
1220 : 파라미터의 인코딩된 표현
1230 : 인코딩된 역상관 복잡도 파라미터
1310 : 인코더
1312a-1312n : 오브젝트 신호
1314 : 믹싱 파라미터들
1316a, 1316b : 다운믹스 신호
1318 : 부가 정보
1320 : 믹서
1330 : 부가 정보 추정기
1340 : 디코더
1352a-1352n : 출력 오디오 신호
1354 : 사용자 상호작용 정보
1360 : 파라미터 오브젝트 분리기
1360a, 1360b : 다운믹스 신호
1362a-1362n : 오브젝트 신호
1370 : 부가 정보 프로세서
1372 : 제어 정보
1380 : 렌더러
1510 : 인코더
1512a-1512n : 오브젝트 신호
1514 : 믹싱 파라미터
1516a, 1516b : 다운믹스 신호
1518 : 부가 정보
1550 : 디코더
1552a-1552n : 출력 오디오 신호
1560 : 파라미터 오브젝트 분리기
1570 : 부가 정보 프로세서
1580 : 렌더러
1582a-1582n : 렌더링된 오디오 신호
1590 : 역상관기
1592a-1592n : 역상관된 오디오 신호
1598 : 믹서
1600 : 역상관 유닛
1610a-1610n : N 역상관기 입력 신호
1612a-1612n : N 역상관 출력 신호
1620n-1620n : N 개별 역상관기
1700 : 역상관 유닛
1710a-1710n : N 역상관기 입력 신호
1712a-1712n : N 역상관기 출력 신호
1720 : 프리믹서
1722a-1722k : K 역상관기 입력 신호
1730 : 역상관기 코더
1732a 내지 1732k : 역상관기 출력 신호
1740 : 포스트믹서
2900 : 3차원 오디오 인코더
2910 : 프리-렌더러/믹서
2912 : 채널 신호
2914 : 오브젝트 신호
2916 : 채널 신호
2918, 2920 : 오브젝트 신호
2930 : USAC 인코더
2932 : 인코딩된 표현
2940 : 공간 오디오 오브젝트 코딩 인코더
2942 : 공간 오디오 오브젝트 코딩 전송 채널
2944 : 공간 오디오 오브젝트 코딩 부가 정보
2950 : 오브젝트 메타데이터 인코더
2952 : 오브젝트 메타데이터
2954 : 인코딩된 오브젝트 메타데이터
3000 : 오디오 디코더
3010 : 인코딩된 표현
3012 : 다채널 확성기 신호
3014 : 헤드폰 신호
3016 : 확성기 신호
3020 : USAC 디코더
3022 : 채널 신호
3024 : 프리렌더링된 오브젝트 신호
3025 : 오브젝트 신호
3026 : 오브젝트 신호
3028 : 공간 오디오 오브젝트 코딩 전송 채널
3030 : 공간 오디오 오브젝트 코딩 부가 정보
3032 : 압축된 오브젝트 메타데이터 정보
3040 : 렌더러
3042 : 렌더링된 오브젝트 신호
3044 : 오브젝트 메타데이터 정보
3050 : 오브젝트 메타데이터 디코더
3062 : 압축된 오브젝트 메타데이터 정보
3070 : 믹서
3072 : 믹싱된 채널 신호
3080 : 바이노럴 렌더러
3092 : 재생 레이아웃 정보
3090 : 포맷 전환
3100 : 다운믹스 프로세서
3110 : 업믹서
3120 : 렌더러
3130 : 결합기
3140 : 다채널 역상관기
3150 : 프리믹서
3160 : 역상관기 코어
3170 : 포스트믹서

Claims (49)

  1. 인코딩된 표현(110; 710; 1516a, 1516b, 1518)을 기초로 하여 적어도 두 개의 출력 오디오 신호(112; 114; 712, 714; 1552a-1552n; 3012)를 제공하기 위한 다채널 오디오 디코더(100; 700; 1550; 3000)에 있어서,
    상기 다채널 오디오 디코더는 복수의 렌더링된 오디오 신호(134, 136; 1582a-1582n,
    Figure 112017068036117-pct00312
    )를 획득하기 위하여, 렌더링 매트릭스를 정의하는 하나 이상의 렌더링 파라미터(132)에 의존하여, 상기 인코딩된 표현을 기초로 하여 획득되는, 복수의 디코딩된 오디오 신호(122; 1562a-1562n,
    Figure 112017068036117-pct00313
    )를 다채널 표적 장면에 렌더링하고(130; 1580),
    상기 다채널 오디오 디코더는 상기 렌더링된 오디오 신호들로부터 하나 이상의 역상관된 오디오 신호(142, 144; 1592a-1592n)를 유도하며(140; 1590),
    상기 다채널 오디오 디코더는 상기 출력 오디오 신호들을 획득하기 위하여, 상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합하고(150; 1598),
    상기 다채널 오디오 디코더는 파라미터 재구성(120; 1560)을 사용하여, 상기 복수의 렌더링된 오디오 신호를 획득하기 위하여 렌더링되는, 상기 디코딩된 오디오 신호들을 획득하며,
    상기 디코딩된 오디오 신호들은 재구성된 오브젝트 신호들이며,
    상기 다채널 오디오 디코더는 부가 정보(1518)를 사용하여 하나 이상의 다운믹스 신호(1516a, 1516b)로부터 상기 재구성된 오브젝트 신호들을 유도하는 것을 특징으로 하는 다채널 오디오 디코더.
  2. 제 1항에 있어서, 상기 다채널 오디오 디코더는 상기 부가 정보로부터 언-믹싱 계수들을 유도하고, 상기 언-믹싱 계수들을 사용하여 상기 하나 이상의 다운믹스 신호로부터 상기 재구성된 오브젝트 신호들을 유도하기 위하여 상기 언-믹싱 계수들을 적용하는 것을 특징으로 하는 다채널 오디오 디코더.
  3. 제 1항에 있어서, 상기 다채널 오디오 디코더는 적어도 부분적으로 상기 출력 오디오 신호들의 요구되는 상관 특징들 또는 공분산 특징들을 달성하기 위하여, 상기 렌더링된 오디오 신호들을 상기 하나 이상의 역상관된 오디오 신호와 결합하는 것을 특징으로 하는 다채널 오디오 디코더.
  4. 제 1항에 있어서, 상기 다채널 오디오 디코더는 상기 복수의 렌더링된 오디오 신호를 획득하도록 렌더링되는, 상기 디코딩된 오디오 신호들(122; 1562a 내지 1562n)의 파라미터 재구성(120; 1560) 동안에 적어도 부분적으로 에너지 손실을 보상하기 위하여, 상기 렌더링된 오디오 신호들을 상기 하나 이상의 역상관된 오디오 신호와 결합하는 것을 특징으로 하는 다채널 오디오 디코더.
  5. 제 1항에 있어서, 상기 다채널 오디오 디코더는 출력 오디오 신호들의 요구되는 상관 특징들 또는 요구되는 공분산 특징들을 결정하고,
    상기 다채널 오디오 디코더는 획득된 출력 오디오 신호들의 상관 특징들 또는 공분산 특징들이 상기 요구되는 상관 특징들 또는 요구되는 공분산 특징들(C)과 근사치이거나 또는 동일하도록, 상기 출력 오디오 신호들을 획득하기 위하여, 상기 렌더링된 오디오 신호들의 상기 하나 이상의 역상관된 오디오 신호와의 결합(150; 1598)을 조정하는 것을 특징으로 하는 다채널 오디오 디코더.
  6. 제 5항에 있어서, 상기 다채널 오디오 디코더는 상기 복수의 렌더링된 오디오 신호
    Figure 112017068036117-pct00314
    를 획득하기 위하여, 상기 인코딩된 표현을 기초로 하여 획득되는 복수의 디코딩된 오디오 신호(
    Figure 112017068036117-pct00315
    )의 렌더링(130; 1560)을 기술하는 렌더링 정보(R)에 의존하여 상기 요구되는 상관 특징들 또는 요구되는 공분산 특징들(C)을 결정하는 것을 특징으로 하는 다채널 오디오 디코더.
  7. 제 5항에 있어서, 상기 다채널 오디오 디코더는, 복수의 오디오 오브젝트의 특징들 및/또는 상기 복수의 오디오 오브젝트 사이의 관계를 기술하는 오브젝트 공분산 정보(E X) 또는 오브젝트 상관 정보에 의존하여, 요구되는 공분산 특징들(C) 또는 요구되는 상관 특징들을 결정하는 것을 특징으로 하는 다채널 오디오 디코더.
  8. 제 7항에 있어서, 상기 다채널 오디오 디코더는 상기 인코딩된 표현 내에 포함된 부가 정보(1518)를 기초로 하여 상기 오브젝트 상관 정보 또는 오브젝트 공분산 정보(E X)를 결정하는 것을 특징으로 하는 다채널 오디오 디코더.
  9. 제 5항에 있어서, 상기 다채널 오디오 디코더는 상기 렌더링된 오디오 신호들 및 상기 하나 이상의 역상관된 오디오 신호의 실제 상관 특징들 또는 공분산 특징들(E S)을 결정하고,
    상기 렌더링된 오디오 신호들 및 상기 하나 이상의 역상관된 오디오 신호의 상기 실제 상관 특징들 또는 공분산 특징들(E S)에 의존하여, 상기 출력 오디오 신호들을 획득하기 위하여, 상기 렌더링된 오디오 신호들의 상기 하나 이상의 역상관된 오디오 신호들과의 상기 결합(150; 1598)을 조정하는 것을 특징으로 하는 다채널 오디오 디코더.
  10. 제 1항에 있어서, 상기 다채널 오디오 디코더는 아래에 따라 상기 출력 오디오 신호들(
    Figure 112017068036117-pct00316
    )을 획득하기 위하여, 상기 렌더링된 오디오 신호들(
    Figure 112017068036117-pct00317
    )을 상기 하나 이상의 역상관된 오디오 신호들(W)과 결합하고:
    Figure 112017068036117-pct00318

    여기서 P는 상기 렌더링된 오디오 신호들(
    Figure 112017068036117-pct00319
    )에 적용되는 믹싱 매트릭스이고, M은 상기 하나 이상의 역상관된 오디오 신호들(W)에 적용되는 믹싱 매트릭스인 것을 특징으로 하는 다채널 오디오 디코더.
  11. 제 10항에 있어서, 상기 다채널 오디오 디코더는 상기 획득된 출력 오디오 신호들(
    Figure 112017068036117-pct00320
    )의 상관 특징들 또는 공분산 특징들(
    Figure 112017068036117-pct00321
    )이 요구되는 상관 특징들 또는 공분산 특징들(C)에 근사치이거나 또는 동일하도록 상기 믹싱 매트릭스(P) 및 상기 믹싱 매트릭스(M) 중 적어도 하나를 조정하는 것을 특징으로 하는 다채널 오디오 디코더.
  12. 제 10항에 있어서, 상기 다채널 오디오 디코더는 상기 믹싱 매트릭스(P) 및 상기 믹싱 매트릭스(M)를 공동으로(jointly) 계산하는 것을 특징으로 하는 다채널 오디오 디코더.
  13. 제 10항에 있어서, 상기 다채널 오디오 디코더는 아래와 같이:
    F = [P M]
    상기 획득된 출력 오디오 신호들(
    Figure 112017068036117-pct00322
    )의 공분산 매트릭스(
    Figure 112017068036117-pct00323
    )가 요구되는 공분산 매트릭스(C)에 근사치이거나 또는 동일하도록 결합된 믹싱 매트릭스(F)를 획득하는 것을 특징으로 하는 다채널 오디오 디코더.
  14. 제 13항에 있어서, 상기 다채널 오디오 디코더는 상기 다채널 오디오 디코더는 상기 공분산 매트릭스(
    Figure 112017068036117-pct00324
    )가 상기 요구되는 공분산 매트릭스(C=RE X R H )와 동일하도록 상기 결합된 믹싱 매트릭스(F)를 결정하고,
    여기서 E S는 아래와 같이 정의되는, 상기 렌더링된 오디오 신호들(
    Figure 112017068036117-pct00325
    ) 및 상기 하나 이상의 역상관된 오디오 신호들(W)을 결합하는 신호(S)의 공분산 매트릭스이고:
    Figure 112017068036117-pct00326
    ,
    E X는 오브젝트 공분산 매트릭스인 것을 특징으로 하는 다채널 오디오 디코더.
  15. 제 1항에 있어서, 상기 다채널 오디오 디코더는
    다음에 따라:
    Figure 112017068036117-pct00327
    ,
    또는 다음에 따라:
    Figure 112017068036117-pct00328
    ,
    또는 다음에 따라:
    Figure 112017068036117-pct00329
    ,
    상기 출력 오디오 신호들(
    Figure 112017068036117-pct00330
    )을 획득하기 위하여, 상기 렌더링된 오디오 신호들(
    Figure 112017068036117-pct00331
    )을 상기 하나 이상의 역상관된 오디오 신호들(W)과 결합하고,
    여기서 P는 상기 렌더링된 오디오 신호들(
    Figure 112017068036117-pct00332
    )에 적용되는 믹싱 매트릭스이고,
    M은 상기 하나 이상의 역상관된 오디오 신호들(W)에 적용되는 믹싱 매트릭스이며,
    A dry는 제 1 조정 매트릭스의 제 1 공분산 매트릭스이며,
    A wet는 제 2 조정 매트릭스의 제 2 공분산 매트릭스인 것을 특징으로 하는 다채널 오디오 디코더.
  16. 제 15항에 있어서, 상기 다채널 오디오 디코더는 상기 획득된 출력 오디오 신호들(
    Figure 112017068036117-pct00333
    ) 또는 PM을 사용하여
    Figure 112017068036117-pct00334
    와 W의 결합에 의해 획득된 오디오 신호들의 상관 특징들 또는 공분산 특징들(
    Figure 112017068036117-pct00335
    )이 요구되는 상관 특징들 또는 요구되는 공분산 특징들(C)에 근사치이거나 또는 동일하도록 상기 믹싱 매트릭스(P) 및 상기 믹싱 매트릭스(M) 중 적어도 하나를 조정하는 것을 특징으로 하는 다채널 오디오 디코더.
  17. 제 15항에 있어서, 상기 다채널 오디오 디코더는 상기 믹싱 매트릭스(P) 및 상기 믹싱 매트릭스(M)를 공동으로 계산하는 것을 특징으로 하는 다채널 오디오 디코더.
  18. 제 15항에 있어서, 상기 다채널 오디오 디코더는 아래와 같이:
    F = [P M]
    상기 획득된 출력 오디오 신호들(
    Figure 112017068036117-pct00336
    )의 공분산 매트릭스(
    Figure 112017068036117-pct00337
    ) 또는 PM을 사용하여
    Figure 112017068036117-pct00338
    와 W의 결합에 의해 획득된 오디오 신호들의 공분산 매트릭스가 요구되는 공분산 매트릭스(C)에 근사치이거나 또는 동일하도록 결합된 믹싱 매트릭스(F)를 획득하는 것을 특징으로 하는 다채널 오디오 디코더.
  19. 제 18항에 있어서, 상기 다채널 오디오 디코더는 상기 공분산 매트릭스(
    Figure 112017068036117-pct00367
    )가 상기 요구되는 공분산 매트릭스(C = RE X R H )와 동일하도록 상기 결합된 믹싱 매트릭스(F)를 결정하고,
    여기서 E S는 아래와 같이 정의되는, 상기 렌더링된 오디오 신호들(
    Figure 112017068036117-pct00368
    ) 및 상기 하나 이상의 역상관된 오디오 신호들(W)을 결합하는 신호(S)의 공분산 매트릭스이고:
    Figure 112017068036117-pct00369
    ,
    E X는 오브젝트 공분산 매트릭스인 것을 특징으로 하는 다채널 오디오 디코더.
  20. 제 15항에 있어서,
    상기 다채널 오디오 디코더는 상기 렌더링된 오디오 신호들의 상기 출력 오디오 신호들 상으로의 기여가 제한되도록 제 1 보정 매트릭스를 결정하거나, 및/또는
    상기 다채널 오디오 디코더는 상기 렌더링된 오디오 신호들의 상기 출력 오디오 신호들 상으로의 기여가 제한되도록 제 2 보정 매트릭스를 결정하는 것을 특징으로 하는 다채널 오디오 디코더.
  21. 제 15항에 있어서, 상기 다채널 오디오 디코더는 상기 렌더링된 오디오 신호들의 상기 출력 오디오 신호들 상으로의 기여가 제한되도록, 상기 렌더링된 오디오 신호들의 특성들에 의존하거나 및/또는 상기 역상관된 오디오 신호들의 특성들에 의존하거나 및/또는 요구되는 출력 오디오 신호들의 특성들에 의존하거나 및/또는 믹싱된 렌더링된 오디오 신호들의 추정된 특성들에 의존하거나 및/또는 믹싱되고 역상관된 오디오 신호들의 추정된 특성들에 의존하여, 제 1 보정 매트릭스를 결정하고,
    상기 다채널 오디오 디코더는 상기 역상관된 오디오 신호들의 상기 출력 오디오 신호들 상으로의 기여가 제한되도록, 상기 렌더링된 오디오 신호들의 특성들에 의존하거나 및/또는 상기 역상관된 오디오 신호들의 특성들에 의존하거나 및/또는 요구되는 출력 오디오 신호들의 특성들에 의존하거나 및/또는 믹싱되고 렌더링된 오디오 신호들의 추정된 특성들에 의존하거나 및/또는 믹싱되고 역상관된 오디오 신호들의 추정된 특성들에 의존하여, 제 2 보정 매트릭스를 결정하는 것을 특징으로 하는 다채널 오디오 디코더.
  22. 제 21항에 있어서, 상기 렌더링된 오디오 신호들 및/또는 상기 역상관된 오디오 신호들 및/또는 상기 요구되는 출력 오디오 신호들 및/또는 믹싱되고 렌더링된 오디오 신호들 및/또는 상기 믹싱되고 역상관된 오디오 신호들의 특성들은 에너지 특성들, 또는 상관 특성들, 또는 공분산 특성들인 것을 특징으로 하는 다채널 오디오 디코더.
  23. 제 1항에 있어서, 상기 다채널 오디오 디코더는 출력 오디오 신호들(
    Figure 112017068036117-pct00342
    )을 획득하기 위하여, 다음에 따라 상기 렌더링된 오디오 신호들(
    Figure 112017068036117-pct00343
    )을 상기 하나 이상의 역상관된 오디오 신호들(W)과 결합하고:
    Figure 112017068036117-pct00344

    상기 다채널 오디오 디코더는 A wet이 대각선 매트릭스가 되도록, 그리고 만일 i번째 출력 신호 내의, 믹싱 매트릭스(M)와 함께, 믹싱되고 역상관된 오디오 신호의 강도(
    Figure 112017068036117-pct00345
    ) 및 렌더링된 오디오 신호의 강도(
    Figure 112017068036117-pct00346
    ) 사이의 비율이 임계 값보다 작을 수 있으면 상기 보정 매트릭스(A wet)의 정상의, 비-감소된 대각선 엔트리들과 비교할 때 상기 보정 매트릭스(A wet)의 엔트리들(A wet(i,i))이 감소되도록 상기 보정 매트릭스(A wet)를 제공하는 것을 특징으로 하는 다채널 오디오 디코더.
  24. 제 23항에 있어서, 상기 임계 값은 미리 결정되는 상수 임계 값이거나, 또는 상기 임계 값은 신호 특성들에 의존하는 시변(time-variant) 및/또는 주파수 변이인 것을 특징으로 하는 다채널 오디오 디코더.
  25. 제 1항에 있어서, 상기 다채널 오디오 디코더는 상기 다채널 오디오 디코더는 출력 오디오 신호들(
    Figure 112017068036117-pct00347
    )을 획득하기 위하여, 다음에 따라 상기 렌더링된 오디오 신호들(
    Figure 112017068036117-pct00348
    )을 상기 하나 이상의 역상관된 오디오 신호들(W)과 결합하고:
    Figure 112017068036117-pct00349

    여기서 P=P dry이고,
    M=P wet이며,
    Figure 112017068036117-pct00350
    이며,
    Figure 112017068036117-pct00351
    는 상기 렌더링된 오디오 신호들(
    Figure 112017068036117-pct00352
    )의 공분산 매트릭스이며,
    Figure 112017068036117-pct00353
    는 상기 매트릭스(P wet)가 적용된 후에 상기 역상관된 오디오 신호들의 추정된 공분산 매트릭스인 것을 특징으로 하는 다채널 오디오 디코더.
  26. 제 15항에 있어서, 상기 다채널 오디오 디코더는 다음에 따라 상기 결합된 믹싱 매트릭스(F)를 결합하고:
    Figure 112017068036117-pct00354

    상기 매트릭스들(U, T, VQ)은 아래와 같이 산출하는 공분산 매트릭스들(E SC)의 단일 값 분해를 사용하여 결정되며:
    C = UTU H ,

    E S = VQV H ,
    상기 매트릭스(H)는 다음과 같이 정의되며:
    Figure 112017068036117-pct00355
    ,
    ai,j 및 bi,j
    Figure 112017068036117-pct00356
    이 되도록 선택되는 것을 특징으로 하는 다채널 오디오 디코더.
  27. 제 10항에 있어서,
    상기 다채널 오디오 디코더는 상기 믹싱 매트릭스(P)를 단위 매트릭스(identity matrix) 또는 그것의 배수(multiple)가 되도록 설정하고, 상기 믹싱 매트릭스(M)를 계산하는 것을 특징으로 하는 다채널 오디오 디코더.
  28. 제 27항에 있어서, 상기 다채널 오디오 디코더는 아래와 같이 정의되는, 요구되는 공분산 매트릭스(C) 및 공분산 매트릭스(
    Figure 112017068036117-pct00357
    ) 사이의 차이(△ E )가 공분산(ME W M H )과 동일하거나 또는 근사치가 되도록 상기 믹싱 매트릭스(M)를 결정하고:
    Figure 112017068036117-pct00358
    ,
    요구되는 공분산 매트릭스(C)는 다음과 같이 정의되며:
    C = RE X R H ,
    여기서 R은 렌더링 매트릭스이고,
    E X는 오브젝트 공분산 매트릭스이며,
    E W는 상기 하나 이상의 역상관된 신호의 공분산 매트릭스이며,
    Figure 112017068036117-pct00359
    는 상기 렌더링된 오디오 신호들의 공분산 매트릭스인 것을 특징으로 하는 다채널 오디오 디코더.
  29. 제 28항에 있어서, 상기 다채널 오디오 디코더는 다음에 따라 상기 믹싱 매트릭스(M)를 결정하고:
    Figure 112017068036117-pct00360

    매트릭스들(U, T, VQ)은 아래와 같이 산출하는:
    E = UTU H

    E W = VQV H ,
    상기 공분산 매트릭스들(△ E E W)의 단일 값 분해를 사용하여 결정되는 것을 특징으로 하는 다채널 오디오 디코더.
  30. 제 10항에 있어서,
    상기 다채널 오디오 디코더는 주어진 렌더링된 오디오 신호가 오직 상기 주어진 렌더링된 오디오 신호 자체의 역상관된 버전과 믹싱되는 제한 하에서 상기 믹싱 매트릭스들(P, M)을 결정하는 것을 특징으로 하는 다채널 오디오 디코더.
  31. 제 10항에 있어서, 상기 다채널 오디오 디코더는 렌더링된 오디오 신호들의 자기상관 값들 또는 자기 공분산 값들은 변형되고 교차 상관 값들 또는 교차 공분산 값들은 변하지 않도록 상기 렌더링된 오디오 신호들을 상기 하나 이상의 역상관된 오디오 신호와 결합하는 것을 특징으로 하는 다채널 오디오 디코더.
  32. 제 10항에 있어서,
    상기 다채널 오디오 디코더는 상기 믹싱 매트릭스(P)를 단위 매트릭스 또는 그것의 배수가 되도록 설정하고, M이 대각선 매트릭스라는 제한 하에서 상기 믹싱 매트릭스(M)를 계산하는 것을 특징으로 하는 다채널 오디오 디코더.
  33. 제 30항에 있어서, 상기 다채널 오디오 디코더는 아래에 따라 상기 출력 오디오 신호들(
    Figure 112017068036117-pct00361
    )을 획득하기 위하여, 상기 렌더링된 오디오 신호들(
    Figure 112017068036117-pct00362
    )을 상기 하나 이상의 역상관된 오디오 신호들(W)과 결합하고:
    Figure 112017068036117-pct00363

    여기서 M은 상기 하나 이상의 역상관된 오디오 신호들(W)에 적용되는 대각선 믹싱 매트릭스이고,
    상기 다채널 오디오 디코더는 상기 출력 오디오 신호들의 공분산 매트릭스의 대각선 요소들이 요구되는 에너지들과 동일하도록 상기 믹싱 매트릭스(M)의 대각선 요소들을 계산하는 것을 특징으로 하는 다채널 오디오 디코더.
  34. 제 33항에 있어서, 상기 다채널 오디오 디코더는 아래에 따라 상기 믹싱 매트릭스(M)의 요소들을 계산하고:
    Figure 112017068036117-pct00364
    ,
    상기 요구되는 공분산 매트릭스(C)는 다음과 같이 정의되며:
    C = RE X R H ,
    여기서 R은 렌더링 매트릭스이고,
    E X는 오브젝트 공분산 매트릭스이며,
    E W는 상기 신호들에 추가되는 역상관의 양을 제한하는 임계 값인 것을 특징으로 하는 다채널 오디오 디코더.
  35. 제 1항에 있어서, 상기 다채널 오디오 디코더는 상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 어떻게 결합하는지를 결정할 때 상기 역상관된 오디오 신호들의 상관 특징들 또는 공분산 특징들을 고려하는 것을 특징으로 하는 다채널 오디오 디코더.
  36. 제 1항에 있어서, 상기 다채널 오디오 디코더는 두 개 이상의 렌더링된 오디오 신호 및 적어도 하나의 역상관된 오디오 신호를 기초로 하여 주어진 출력 오디오 신호가 제공되도록 렌더링된 오디오 신호들 및 역상관된 오디오 신호들을 믹싱하는 것을 특징으로 하는 다채널 오디오 디코더.
  37. 제 1항에 있어서, 상기 다채널 오디오 디코더는 상기 출력 오디오 신호들을 획득하기 위하여, 상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 어떻게 결합하는지를 결정하는데 상이한 제한들이 적용되는, 상이한 모드들 사이에서 스위칭하는 것을 특징으로 하는 다채널 오디오 디코더.
  38. 제 1항에 있어서, 상기 다채널 오디오 디코더는:
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 믹싱이 허용되는, 제 1 모드,
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 어떠한 믹싱도 허용되지 않고, 상기 출력 오디오 신호들의 교차 상관 특징들 또는 교차 공분산 특징들을 조정하기 위하여, 주어진 역상관된 신호가 동일하거나 또는 상이한 스케일링으로, 상기 복수의 렌더링된 오디오 신호 또는 그것의 스케일링된 버전과 결합되는 것을 허용하는, 제 2 모드, 및
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 어떠한 믹싱도 허용되지 않고, 주어진 역상관된 신호가 상기 주어진 역상관된 신호가 유도되는 렌더링되는 오디오 신호 이외의 렌더링된 오디오 신호들과 결합되는 것을 허용하지 않는, 제 3 모드,
    사이에서 스위칭하는 것을 특징으로 하는 다채널 오디오 디코더.
  39. 제 37항에 있어서, 상기 다채널 오디오 디코더는 상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합하기 위하여 세 가지 모드 중 어느 모드가 사용되는지를 나타내는 상기 인코딩된 표현의 비트스트림 요소를 평가하고, 상기 비트스트림 요소에 의존하여 상기 모드를 선택하는 것을 특징으로 하는 다채널 오디오 디코더.
  40. 적어도 두 개의 입력 오디오 신호(210, 212; 1512a-1512n; 2912, 2914)를 기초로 하여 인코딩된 표현(214; 1516a, 1516b, 1518; 2932)을 제공하기 위한 다채널 오디오 인코더(200; 1510; 2900)에 있어서,
    상기 다채널 오디오 인코더는 상기 적어도 두 개의 입력 오디오 신호를 기초로 하여 하나 이상의 다운믹스 신호(222; 1516a, 1516b)를 제공하고(220),
    상기 다채널 오디오 인코더는 상기 적어도 두 개의 입력 오디오 신호 사이의 관계를 기술하는 하나 이상의 파라미터(232; 1518)를 제공하며(230),
    상기 다채널 오디오 인코더는 복수의 역상관 모드 중에서 어떠한 모드가 오디오 디코더 측에서 사용되어야만 하는지를 기술하는 역상관 방법 파라미터(242; 1518)를 제공하고(240),
    상기 다채널 오디오 인코더는 오디오 디코더의 운영을 위하여 아래의 세 가지 모드:
    렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 믹싱이 허용되는, 제 1 모드,
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 어떠한 믹싱도 허용되지 않고, 출력 오디오 신호들의 교차 상관 특징들 또는 교차 공분산 특징들을 조정하기 위하여, 주어진 역상관된 신호가 동일하거나 또는 상이한 스케일링으로, 복수의 렌더링된 오디오 신호 또는 그것의 스케일링된 버전과 결합되는 것을 허용하는, 제 2 모드, 및
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 어떠한 믹싱도 허용되지 않고, 주어진 역상관된 신호가 상기 주어진 역상관된 신호가 유도되는 렌더링되는 오디오 신호 이외의 렌더링된 오디오 신호들과 결합되는 것을 허용하지 않는, 제 3 모드,
    중 하나를 시그널링하기 위하여, 상기 역상관 방법 파라미터를 선택적으로 제공하는 것을 특징으로 하는 다채널 오디오 인코더.
  41. 제 40항에 있어서, 상기 다채널 오디오 인코더는 상기 입력 오디오 신호들이 상대적으로 높은 상관 또는 상대적으로 낮은 상관을 포함하는지에 의존하여 상기 역상관 방법 파라미터를 선택하는 것을 특징으로 하는 다채널 오디오 인코더.
  42. 제 40항에 있어서, 상기 다채널 오디오 인코더는 만일 오디오 입력 신호들 사이의 상관이 상대적으로 높으면 상기 제 1 모드 또는 상기 제 2 모드를 지정하기 위하여 상기 역상관 방법 파라미터를 선택하고,
    상기 다채널 오디오 인코더는 만일 상기 오디오 입력 신호들 사이의 상관이 상대적으로 낮으면 상기 제 3 모드를 지정하기 위하여 상기 역상관 방법 파라미터를 선택하는 것을 특징으로 하는 다채널 오디오 인코더.
  43. 인코딩된 표현을 기초로 하여 적어도 두 개의 출력 오디오 신호를 제공하기 위한 방법(300)에 있어서,
    복수의 렌더링된 오디오 신호를 획득하기 위하여, 렌더링 매트릭스를 정의하는 하나 이상의 렌더링 파라미터에 의존하여, 상기 인코딩된 표현을 기초로 하여 획득되는, 복수의 디코딩된 오디오 신호를 다채널 표적 장면에 렌더링하는 단계(310);
    상기 렌더링된 오디오 신호들로부터 하나 이상의 역상관된 오디오 신호를 유도하는 단계(320); 및
    상기 출력 오디오 신호들을 획득하기 위하여, 상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합하는 단계(330);를 포함하고,
    상기 복수의 렌더링된 오디오 신호를 획득하기 위하여 렌더링되는, 상기 디코딩된 오디오 신호들은 파라미터 재구성(120; 1560)을 사용하여 획득되고,
    상기 디코딩된 오디오 신호들은 재구성된 오브젝트 신호들이며,
    상기 재구성된 오브젝트 신호들은 부가 정보(1518)를 사용하여 하나 이상의 다운믹스 신호(1516a, 1516b)로부터 유도되는 것을 특징으로 하는 적어도 두 개의 출력 오디오 신호를 제공하기 위한 방법.
  44. 적어도 두 개의 입력 오디오 신호를 기초로 하여 인코딩된 표현을 제공하기 위한 방법(400)에 있어서,
    상기 적어도 두 개의 입력 오디오 신호를 기초로 하여 하나 이상의 다운믹스 신호를 제공하는 단계(410);
    상기 적어도 두 개의 입력 오디오 신호 사이의 관계를 기술하는 하나 이상의 파라미터를 제공하는 단계(420);
    복수의 역상관 모드 중에서 어떠한 모드가 오디오 디코더의 측에서 사용되어야만 하는지를 기술하는 역상관 방법 파라미터를 제공하는 단계(430);를 포함하고,
    상기 방법은 상기 오디오 디코더의 운영을 위하여 아래의 세 가지 모드:
    렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 믹싱이 허용되는, 제 1 모드,
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 어떠한 믹싱도 허용되지 않고, 출력 오디오 신호들의 교차 상관 특징들 또는 교차 공분산 특징들을 조정하기 위하여, 주어진 역상관된 신호가 동일하거나 또는 상이한 스케일링으로, 상기 복수의 렌더링된 오디오 신호 또는 그것의 스케일링된 버전과 결합되는 것을 허용하는, 제 2 모드, 및
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 어떠한 믹싱도 허용되지 않고, 주어진 역상관된 신호가 상기 주어진 역상관된 신호가 유도되는 렌더링되는 오디오 신호 이외의 렌더링된 오디오 신호들과 결합되는 것을 허용하지 않는, 제 3 모드,
    중 어느 하나를 시그널링하기 위하여, 상기 역상관 방법 파라미터를 선택적으로 제공하는 단계를 포함하는 것을 특징으로 하는 인코딩된 표현을 제공하기 위한 방법.
  45. 컴퓨터 프로그램이 프로그램 상에 구동할 때 제 43항 또는 44항에 따른 방법을 실행하기 위하여 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램.
  46. 인코딩된 오디오 표현(500)에 있어서,
    다운믹스 신호의 인코딩된 표현(510);
    적어도 두 개의 입력 오디오 신호 사이의 관계를 기술하는 하나 이상의 파라미터의 인코딩된 표현(520); 및
    복수의 역상관 모드 중에서 어떠한 모드가 오디오 디코더의 측에서 사용되어야 하는지를 기술하는 인코딩된 역상관 방법 파라미터(530);를 포함하고,
    상기 역상관 방법 파라미터는 오디오 디코더의 운영을 위하여 아래의 세 가지 모드:
    렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 믹싱이 허용되는, 제 1 모드,
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 어떠한 믹싱도 허용되지 않고, 출력 오디오 신호들의 교차 상관 특징들 또는 교차 공분산 특징들을 조정하기 위하여, 주어진 역상관된 신호가 동일하거나 또는 상이한 스케일링으로, 상기 복수의 렌더링된 오디오 신호 또는 그것의 스케일링된 버전과 결합되는 것을 허용하는, 제 2 모드, 및
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 어떠한 믹싱도 허용되지 않고, 주어진 역상관된 신호가 상기 주어진 역상관된 신호가 유도되는 렌더링되는 오디오 신호 이외의 렌더링된 오디오 신호들과 결합되는 것을 허용하지 않는, 제 3 모드,
    중 어느 하나를 시그널링하는 것을 특징으로 하는 인코딩된 오디오 표현.
  47. 인코딩된 표현(110; 710; 1516a, 1516b, 1518)을 기초로 하여 적어도 두 개의 출력 오디오 신호(112; 114; 712, 714; 1552a-1552n; 3012)를 제공하기 위한 다채널 오디오 디코더(100; 700; 1550; 3000)에 있어서,
    상기 다채널 오디오 디코더는 복수의 렌더링된 오디오 신호(134, 136; 1582a-1582n,
    Figure 112017068036117-pct00365
    )를 획득하기 위하여, 하나 이상의 렌더링 파라미터(132)에 의존하여, 상기 인코딩된 표현을 기초로 하여 획득되는, 복수의 디코딩된 오디오 신호(122; 1562a-1562n,
    Figure 112017068036117-pct00366
    )를 렌더링하고(130; 1580),
    상기 다채널 오디오 디코더는 상기 렌더링된 오디오 신호들로부터 하나 이상의 역상관된 오디오 신호(142, 144; 1592a-1592n)를 유도하며(140; 1590),
    상기 다채널 오디오 디코더는 상기 출력 오디오 신호들을 획득하기 위하여, 상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합하고(150; 1598),
    상기 다채널 오디오 디코더는:
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 믹싱이 허용되는, 제 1 모드,
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 어떠한 믹싱도 허용되지 않고, 상기 출력 오디오 신호들의 교차 상관 특징들 또는 교차 공분산 특징들을 조정하기 위하여, 주어진 역상관된 신호가 동일하거나 또는 상이한 스케일링으로, 상기 복수의 렌더링된 오디오 신호 또는 그것의 스케일링된 버전과 결합되는 것을 허용하는, 제 2 모드, 및
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 어떠한 믹싱도 허용되지 않고, 주어진 역상관된 신호가 상기 주어진 역상관된 신호가 유도되는 렌더링되는 오디오 신호 이외의 렌더링된 오디오 신호들과 결합되는 것을 허용하지 않는, 제 3 모드,
    사이에서 스위칭하는 것을 특징으로 하는 다채널 오디오 디코더.
  48. 인코딩된 표현을 기초로 하여 적어도 두 개의 출력 오디오 신호를 제공하기 위한 방법(300)에 있어서,
    복수의 렌더링된 오디오 신호를 획득하기 위하여, 렌더링 매트릭스를 정의하는 하나 이상의 렌더링 파라미터에 의존하여, 상기 인코딩된 표현을 기초로 하여 획득되는, 복수의 디코딩된 오디오 신호를 다채널 표적 장면에 렌더링하는 단계(310);
    상기 렌더링된 오디오 신호들로부터 하나 이상의 역상관된 오디오 신호를 유도하는 단계(320); 및
    상기 출력 오디오 신호들을 획득하기 위하여, 상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합하는 단계(330);를 포함하고,
    상기 방법은:
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 믹싱이 허용되는, 제 1 모드,
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 어떠한 믹싱도 허용되지 않고, 상기 출력 오디오 신호들의 교차 상관 특징들 또는 교차 공분산 특징들을 조정하기 위하여, 주어진 역상관된 신호가 동일하거나 또는 상이한 스케일링으로, 상기 복수의 렌더링된 오디오 신호 또는 그것의 스케일링된 버전과 결합되는 것을 허용하는, 제 2 모드, 및
    상기 렌더링된 오디오 신호들 또는 그것의 스케일링된 버전을 상기 하나 이상의 역상관된 오디오 신호와 결합할 때 상이한 렌더링된 오디오 신호들 사이의 어떠한 믹싱도 허용되지 않고, 주어진 역상관된 신호가 상기 주어진 역상관된 신호가 유도되는 렌더링되는 오디오 신호 이외의 렌더링된 오디오 신호들과 결합되는 것을 허용하지 않는, 제 3 모드,
    사이에서 스위칭하는 단계를 포함하는 것을 특징으로 하는 두 개의 출력 오디오 신호를 제공하기 위한 방법.
  49. 컴퓨터 프로그램이 프로그램 상에 구동할 때 제 48항에 따른 방법을 실행하기 위하여 컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램.
KR1020167004482A 2013-07-22 2014-07-17 다채널 오디오 디코더, 다채널 오디오 인코더, 방법, 컴퓨터 프로그램 및 렌더링된 오디오 신호들의 역상관을 사용하는 인코딩된 오디오 표현 KR101829822B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
EP13177374 2013-07-22
EP13177374.9 2013-07-22
EP13189345.5 2013-10-18
EP20130189345 EP2830334A1 (en) 2013-07-22 2013-10-18 Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP14161611.0 2014-03-25
EP14161611 2014-03-25
PCT/EP2014/065397 WO2015011015A1 (en) 2013-07-22 2014-07-17 Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals

Publications (2)

Publication Number Publication Date
KR20160039634A KR20160039634A (ko) 2016-04-11
KR101829822B1 true KR101829822B1 (ko) 2018-03-29

Family

ID=52392762

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167004482A KR101829822B1 (ko) 2013-07-22 2014-07-17 다채널 오디오 디코더, 다채널 오디오 인코더, 방법, 컴퓨터 프로그램 및 렌더링된 오디오 신호들의 역상관을 사용하는 인코딩된 오디오 표현

Country Status (17)

Country Link
US (2) US10431227B2 (ko)
EP (1) EP3022949B1 (ko)
JP (2) JP6449877B2 (ko)
KR (1) KR101829822B1 (ko)
CN (1) CN105612766B (ko)
AU (1) AU2014295207B2 (ko)
BR (1) BR112016001250B1 (ko)
CA (1) CA2919080C (ko)
ES (1) ES2653975T3 (ko)
MX (1) MX361115B (ko)
MY (1) MY195412A (ko)
PL (1) PL3022949T3 (ko)
PT (1) PT3022949T (ko)
RU (1) RU2665917C2 (ko)
SG (1) SG11201600466PA (ko)
TW (1) TWI601408B (ko)
WO (1) WO2015011015A1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
US10891962B2 (en) 2017-03-06 2021-01-12 Dolby International Ab Integrated reconstruction and rendering of audio signals
WO2018162472A1 (en) * 2017-03-06 2018-09-13 Dolby International Ab Integrated reconstruction and rendering of audio signals
TWI703557B (zh) * 2017-10-18 2020-09-01 宏達國際電子股份有限公司 聲音播放裝置、方法及非暫態儲存媒體
CN111955020B (zh) 2018-04-11 2022-08-23 杜比国际公司 用于音频渲染的预渲染信号的方法、设备和系统
JP7093841B2 (ja) * 2018-04-11 2022-06-30 ドルビー・インターナショナル・アーベー 6dofオーディオ・レンダリングのための方法、装置およびシステムならびに6dofオーディオ・レンダリングのためのデータ表現およびビットストリーム構造
EP3588495A1 (en) * 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
WO2020010072A1 (en) * 2018-07-02 2020-01-09 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding immersive audio signals
SG11202012936VA (en) * 2018-07-04 2021-01-28 Fraunhofer Ges Forschung Multisignal audio coding using signal whitening as preprocessing
BR112021025265A2 (pt) * 2019-06-14 2022-03-15 Fraunhofer Ges Forschung Sintetizador de áudio, codificador de áudio, sistema, método e unidade de armazenamento não transitória
WO2020257331A1 (en) * 2019-06-20 2020-12-24 Dolby Laboratories Licensing Corporation Rendering of an m-channel input on s speakers (s<m)
GB201909133D0 (en) * 2019-06-25 2019-08-07 Nokia Technologies Oy Spatial audio representation and rendering
TWI703559B (zh) 2019-07-08 2020-09-01 瑞昱半導體股份有限公司 音效編碼解碼電路及音頻資料的處理方法
KR102300177B1 (ko) * 2019-09-17 2021-09-08 난징 트월링 테크놀로지 컴퍼니 리미티드 몰입형 오디오 렌더링 방법 및 시스템
FR3101741A1 (fr) * 2019-10-02 2021-04-09 Orange Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés
GB2594265A (en) * 2020-04-20 2021-10-27 Nokia Technologies Oy Apparatus, methods and computer programs for enabling rendering of spatial audio signals
CN114067810A (zh) * 2020-07-31 2022-02-18 华为技术有限公司 音频信号渲染方法和装置
WO2023210978A1 (ko) * 2022-04-28 2023-11-02 삼성전자 주식회사 다채널 오디오 신호 처리 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006026452A1 (en) 2004-08-25 2006-03-09 Dolby Laboratories Licensing Corporation Multichannel decorrelation in spatial audio coding

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003273981A1 (en) * 2002-10-14 2004-05-04 Thomson Licensing S.A. Method for coding and decoding the wideness of a sound source in an audio scene
KR101079066B1 (ko) 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
WO2007109338A1 (en) 2006-03-21 2007-09-27 Dolby Laboratories Licensing Corporation Low bit rate audio encoding and decoding
WO2005098821A2 (en) 2004-04-05 2005-10-20 Koninklijke Philips Electronics N.V. Multi-channel encoder
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
KR101251426B1 (ko) 2005-06-03 2013-04-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법
US8626503B2 (en) * 2005-07-14 2014-01-07 Erik Gosuinus Petrus Schuijers Audio encoding and decoding
KR20070025905A (ko) * 2005-08-30 2007-03-08 엘지전자 주식회사 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법
JP4976304B2 (ja) 2005-10-07 2012-07-18 パナソニック株式会社 音響信号処理装置、音響信号処理方法およびプログラム
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
KR101218776B1 (ko) * 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
KR100803212B1 (ko) * 2006-01-11 2008-02-14 삼성전자주식회사 스케일러블 채널 복호화 방법 및 장치
TWI469133B (zh) 2006-01-19 2015-01-11 Lg Electronics Inc 媒體訊號處理方法及裝置
KR100773560B1 (ko) 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
CN101406073B (zh) * 2006-03-28 2013-01-09 弗劳恩霍夫应用研究促进协会 用于多声道音频重构中的信号成形的增强的方法
JP4875142B2 (ja) * 2006-03-28 2012-02-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
ATE543343T1 (de) 2006-04-03 2012-02-15 Srs Labs Inc Tonsignalverarbeitung
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
UA94117C2 (ru) 2006-10-16 2011-04-11 Долби Свиден Ав Усовершенстованное кодирование и отображение параметров многоканального кодирования микшированных объектов
AU2007312597B2 (en) 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
WO2008069596A1 (en) 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
BRPI0809760B1 (pt) 2007-04-26 2020-12-01 Dolby International Ab aparelho e método para sintetizar um sinal de saída
RU2472306C2 (ru) 2007-09-26 2013-01-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ для извлечения сигнала окружающей среды в устройстве и способ получения весовых коэффициентов для извлечения сигнала окружающей среды
WO2009046909A1 (en) * 2007-10-09 2009-04-16 Koninklijke Philips Electronics N.V. Method and apparatus for generating a binaural audio signal
WO2009049896A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. Audio coding using upmix
EP2093911A3 (en) * 2007-11-28 2010-01-13 Lg Electronics Inc. Receiving system and audio data processing method thereof
CN101911733A (zh) * 2008-01-01 2010-12-08 Lg电子株式会社 用于处理音频信号的方法和装置
US8335331B2 (en) * 2008-01-18 2012-12-18 Microsoft Corporation Multichannel sound rendering via virtualization in a stereo loudspeaker system
US20090194756A1 (en) 2008-01-31 2009-08-06 Kau Derchang Self-aligned eletrode phase change memory
EP2248352B1 (en) * 2008-02-14 2013-01-23 Dolby Laboratories Licensing Corporation Stereophonic widening
US8583424B2 (en) * 2008-06-26 2013-11-12 France Telecom Spatial synthesis of multichannel audio signals
EP2144229A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
WO2010115850A1 (en) * 2009-04-08 2010-10-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing
SG177277A1 (en) * 2009-06-24 2012-02-28 Fraunhofer Ges Forschung Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
CN102171754B (zh) 2009-07-31 2013-06-26 松下电器产业株式会社 编码装置以及解码装置
TWI433137B (zh) * 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
WO2012009851A1 (en) * 2010-07-20 2012-01-26 Huawei Technologies Co., Ltd. Audio signal synthesizer
EP3144932B1 (en) 2010-08-25 2018-11-07 Fraunhofer Gesellschaft zur Förderung der Angewand An apparatus for encoding an audio signal having a plurality of channels
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
WO2014126689A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006026452A1 (en) 2004-08-25 2006-03-09 Dolby Laboratories Licensing Corporation Multichannel decorrelation in spatial audio coding

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ISO/IEC FDIS 23003-1:2006(E). Information technology - MPEG audio technologies Part 1: MPEG Surround. ISO/IEC JTC 1/SC 29/WG 11. 2006.07.21.*
ISO/IEC FDIS 23003-2:2010(E). Information technology - MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC). ISO/IEC JTC 1/SC 29/WG 11. 2010.03.10.
Jonas Engdegard, et al. Spatial audio object coding (SAOC) - The upcoming MPEG standard on parametric object based audio coding. Audio Engineering Society Convention 124. 2008.05.20.*

Also Published As

Publication number Publication date
AU2014295207A1 (en) 2016-03-10
TWI601408B (zh) 2017-10-01
MX2016000902A (es) 2016-05-31
JP2016528811A (ja) 2016-09-15
EP3022949A1 (en) 2016-05-25
PL3022949T3 (pl) 2018-04-30
RU2665917C2 (ru) 2018-09-04
TW201521469A (zh) 2015-06-01
US20160247507A1 (en) 2016-08-25
PT3022949T (pt) 2018-01-23
KR20160039634A (ko) 2016-04-11
CA2919080A1 (en) 2015-01-29
US10431227B2 (en) 2019-10-01
MX361115B (es) 2018-11-28
JP6777700B2 (ja) 2020-10-28
EP3022949B1 (en) 2017-10-18
CA2919080C (en) 2018-06-05
JP2019032541A (ja) 2019-02-28
CN105612766B (zh) 2018-07-27
AU2014295207B2 (en) 2017-02-02
SG11201600466PA (en) 2016-02-26
US20180350375A1 (en) 2018-12-06
WO2015011015A1 (en) 2015-01-29
BR112016001250A2 (ko) 2017-07-25
MY195412A (en) 2023-01-19
RU2016105755A (ru) 2017-08-25
BR112016001250B1 (pt) 2022-07-26
JP6449877B2 (ja) 2019-01-09
CN105612766A (zh) 2016-05-25
ES2653975T3 (es) 2018-02-09

Similar Documents

Publication Publication Date Title
KR101829822B1 (ko) 다채널 오디오 디코더, 다채널 오디오 인코더, 방법, 컴퓨터 프로그램 및 렌더링된 오디오 신호들의 역상관을 사용하는 인코딩된 오디오 표현
US20220167102A1 (en) Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant