KR102088337B1 - 인코딩된 오디오 신호를 프로세싱하기 위한 장치 및 방법 - Google Patents

인코딩된 오디오 신호를 프로세싱하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR102088337B1
KR102088337B1 KR1020177024703A KR20177024703A KR102088337B1 KR 102088337 B1 KR102088337 B1 KR 102088337B1 KR 1020177024703 A KR1020177024703 A KR 1020177024703A KR 20177024703 A KR20177024703 A KR 20177024703A KR 102088337 B1 KR102088337 B1 KR 102088337B1
Authority
KR
South Korea
Prior art keywords
group
downmix
downmix signals
matrix
input audio
Prior art date
Application number
KR1020177024703A
Other languages
English (en)
Other versions
KR20170110680A (ko
Inventor
아드리안 무타자
조우니 폴러스
하랄드 훅스
로버타 카밀러리
레옹 테렌티브
사샤 디쉬
유르겐 헤레
올리버 헬머스
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20170110680A publication Critical patent/KR20170110680A/ko
Application granted granted Critical
Publication of KR102088337B1 publication Critical patent/KR102088337B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Amplifiers (AREA)

Abstract

본 발명은 복수의 입력 오디오 오브젝트들(111) 및 오브젝트 파라미터들(E)과 연관된 복수의 다운믹스(downmix) 신호들(101)을 포함 인코딩된 오디오 신호(100)를 프로세싱하기 위한 장치(1)에 관한 것이다. 장치(1)는 다운믹스 신호들(101)을 입력 오디오 오브젝트들(111)의 세트와 연관된 다운믹스 신호들(102)의 그룹들로 그룹화하도록 구성된 그룹화기(2)를 포함한다. 장치(1)는 그룹 결과들(103, 104)을 제공하기 위해 입력 오디오 오브젝트들(111)의 각각의 세트의 오브젝트 파라미터들(Ek)에 대해 개별적으로 적어도 하나의 프로세싱 단계를 수행하도록 구성되는 프로세서(3)를 포함한다. 추가적으로, 디코딩된 오디오 신호(110)를 제공하기 위해 상기 그룹 결과들(103, 104) 또는 프로세싱된 그룹 결과들을 결합하도록 구성되는 결합기(4)가 존재한다. 그룹화기(2)는, 각각의 입력 오디오 오브젝트(111)가 입력 오디오 오브젝트들(111)의 단지 하나의 세트에 속하도록 다운믹스 신호들(101)을 그룹화하도록 구성된다. 본 발명은 또한 대응하는 방법에 관한 것이다.

Description

인코딩된 오디오 신호를 프로세싱하기 위한 장치 및 방법
본 발명은 인코딩된 오디오 신호를 프로세싱하기 위한 장치 및 방법에 관한 것이다.
최근, 오디오 코딩(하기 참조문헌들 [BCC, JSC, SAOC, SAOC1, SAOC2] 참조) 및 통지된 소스 분리(예를 들어, 하기 참조문헌들 [ISS1, ISS2, ISS3, ISS4, ISS5, ISS6] 참조) 분야에서, 다수의 오디오 오브젝트들을 포함하는 오디오 장면들의 비트레이트-효율적 송신/저장을 위한 파라메트릭 기술들이 제안되었다.
이러한 기술들은 오디오 장면에서 송신된/저장된 오디오 신호들 및/또는 소스 오브젝트들을 설명하는 추가적인 사이드 정보에 기초하여 원하는 출력 오디오 장면 또는 오디오 소스 오브젝트들을 재구성하는 것을 목표로 한다. 이러한 재구성은 파라메트릭 통지된 소스 분리 방식을 사용하여 디코더에서 발생한다.
불행하게도, 일부 경우에, 파라메트릭 분리 방식들이 불만족스러운 청취 경험을 초래하는 심각한 가청 아티팩트들을 초래할 수 있음이 밝혀졌다.
따라서, 본 발명의 목적은 파라메트릭 코딩 기술들을 사용하여 디코딩된 오디오 신호들의 오디오 품질을 개선하는 것이다.
이 목적은 청구항 제 1 항에 따른 장치에 의해 그리고 청구항 제 22 항에 따른 대응하는 방법에 의해 달성된다.
이 목적은 인코딩된 오디오 신호를 프로세싱하기 위한 장치에 의해 달성된다. 인코딩된 오디오 신호는 복수의 입력 오디오 오브젝트들 및 오브젝트 파라미터들(E)과 연관된 복수의 다운믹스(downmix) 신호들을 포함한다. 장치는 그룹화기, 프로세서 및 결합기를 포함한다.
그룹화기는 복수의 다운믹스 신호들을 다운믹스 신호들의 복수의 그룹들로 그룹화하도록 구성된다. 다운믹스 신호들의 각각의 그룹은 복수의 입력 오디오 오브젝트들의 입력 오디오 오브젝트들(또는 입력 오디오 신호들)의 세트와 연관된다. 즉, 그룹들은 인코딩된 오디오 신호로 표현되는 입력 오디오 신호들의 세트의 서브세트들을 커버한다. 다운믹스 신호들의 각각의 그룹은 또한 입력 오디오 오브젝트들을 설명하는 오브젝트 파라미터들 E의 일부와 연관된다. 아래에서, 개별적인 그룹들 Gk는 1≤k≤K인 인덱스 k로 식별되며, K는 다운믹스 신호들의 그룹들의 수이다.
추가적으로, 프로세서는 그룹화에 후속하여, 입력 오디오 오브젝트들의 각각의 세트의 오브젝트 파라미터들에 대해 개별적으로 적어도 하나의 프로세싱 단계를 수행하도록 구성된다. 따라서, 적어도 하나의 프로세싱 단계는 모든 오브젝트 파라미터들에 대해 동시에 수행되는 것이 아니라 다운믹스 신호들의 각각의 그룹에 속하는 오브젝트 파라미터들에 대해 개별적으로 수행된다. 일 실시예에서, 단지 하나의 단계가 개별적으로 수행된다. 상이한 실시예에서, 하나보다 많은 단계가 수행되는 한편, 대안적인 실시예에서, 전체 프로세싱은 다운믹스 신호들에 대한 그룹들에 대해 개별적으로 수행된다. 프로세서는 개별적인 그룹들에 대한 그룹 결과들을 제공한다.
상이한 실시예에서, 프로세서는 그룹화에 후속하여, 다운믹스 신호들의 복수의 그룹들의 각각의 그룹에 대해 개별적으로 적어도 하나의 프로세싱 단계를 수행하도록 구성된다. 따라서, 적어도 하나의 프로세싱 단계는 모든 다운믹스 신호들에 대해 동시에 수행되는 것이 아니라 다운믹스 신호들의 각각의 그룹들에 대해 개별적으로 수행된다.
결국, 결합기는 디코딩된 오디오 신호를 제공하기 위해 그룹 결과들 또는 프로세싱된 그룹 결과들을 결합하도록 구성된다. 따라서, 그룹 결과들 또는 그룹 결과들에 대해 수행된 추가적인 프로세싱 단계들의 결과들은 결합되어 디코딩된 오디오 신호를 제공한다. 디코딩된 오디오 신호는 인코딩된 오디오 신호에 의해 인코딩된 복수의 입력 오디오 오브젝트들에 대응한다.
그룹화기에 의해 행해지는 그룹화는 적어도, 복수의 입력 오디오 오브젝트들의 각각의 입력 오디오 오브젝트가 입력 오디오 오브젝트들의 단지 또는 정확히 하나의 세트에 속해야 하는 제약 하에서 행해진다. 이는, 각각의 입력 오디오 오브젝트가 다운믹스 신호들의 단지 하나의 그룹에 속하는 것을 의미한다. 이는 또한, 각각의 다운믹스 신호가 다운믹스 신호들의 단지 하나의 그룹에 속하는 것을 의미한다.
일 실시예에 따르면, 그룹화기는 복수의 다운믹스 신호들을 다운믹스 신호들의 복수의 그룹들로 그룹화하여, 입력 오디오 오브젝트들의 각각의 세트의 각각의 입력 오디오 오브젝트가 다른 입력 오디오 오브젝트들을 갖는 인코딩된 오디오 신호에서 시그널링된 관계와 무관하거나, 또는 오직 입력 오디오 오브젝트들의 동일한 세트에 속하는 적어도 하나의 입력 오디오 오브젝트를 갖는 인코딩된 오디오 신호에서 시그널링된 관계를 갖도록 구성된다. 이는, 어떠한 입력 오디오 오브젝트도 다운믹스 신호들의 상이한 그룹에 속하는 입력 오디오 오브젝트에 대해 시그널링된 관계를 갖지 않음을 의미한다. 이러한 시그널링된 관계는, 일 실시예에서, 2 개의 입력 오디오 오브젝트들이 하나의 단일 소스로부터 나오는 스테레오 신호들인 것이다.
본 발명의 장치는 다운믹스 신호들을 포함하는 인코딩된 오디오 신호를 프로세싱한다. 다운믹싱은 주어진 수의 개별적인 오디오 신호들을 인코딩하는 프로세스의 일부이고, 특정 수의 입력 오디오 오브젝트들이 다운믹싱 신호로 결합됨을 의미한다. 따라서, 입력 오디오 오브젝트의 수는 더 적은 수의 다운믹스 신호들로 감소된다. 이로 인해, 다운믹스 신호들은 복수의 입력 오디오 오브젝트들과 연관된다.
다운믹스 신호들은 다운믹스 신호들의 그룹들로 그룹화되고, 적어도 하나의 프로세싱 단계에 개별적으로, 즉 단일 그룹들로서 적용된다. 따라서, 장치는 적어도 하나의 프로세싱 단계를 모든 다운믹스 신호들에 대해 공동으로 수행하는 것이 아니라 다운믹스 신호들의 개별적인 그룹들에 대해 개별적으로 수행한다. 상이한 실시예에서, 인코딩된 오디오 신호에 적용될 행렬들을 획득하기 위해 그룹들의 오브젝트 파라미터들은 개별적으로 처리된다.
일 실시예에서, 장치는 인코딩된 오디오 신호들의 디코더이다. 장치는 대안적인 실시예에서 디코더의 일부이다.
일 실시예에서, 각각의 다운믹스 신호는 다운믹스 신호들의 하나의 그룹에 기인하고, 결과적으로 적어도 하나의 프로세싱 단계에 대해 개별적으로 프로세싱된다. 이러한 실시예에서, 다운믹스 신호들의 그룹들의 수는 다운믹스 신호들의 수와 동일하다. 이는 그룹화 및 개별적인 프로세싱이 일치함을 의미한다.
일 실시예에서, 결합은 인코딩된 오디오 신호의 프로세싱의 최종 단계들 중 하나이다. 상이한 실시예에서, 그룹 결과들은, 그룹 결과들에 대해 개별적으로 또는 공동으로 수행되는 상이한 프로세싱 단계들에 추가로 적용된다.
그룹화(또는 그룹들의 검출) 및 그룹들의 개별적인 처리는 오디오 품질 개선을 도출하는 것으로 나타났다. 이는 특히, 예를 들어, 파라메트릭 코딩 기술들에 대해 유효하다.
실시예에 따르면, 장치의 그룹화기는 다운믹스 신호들의 각각의 그룹 내의 다운믹스 신호들의 수를 최소화하면서 복수의 다운믹스 신호들을 다운믹스 신호들의 복수의 그룹들로 그룹화하도록 구성된다. 이러한 실시예에서, 장치는 각각의 그룹에 속하는 다운믹스 신호들의 수를 감소시키려 시도한다. 하나의 경우에, 다운믹스 신호들의 적어도 하나의 그룹에는 단지 하나의 다운믹스 신호가 속한다.
실시예에 따르면, 그룹화기는, 단지 하나의 단일 다운믹스 신호가 다운믹스 신호들의 하나의 그룹에 속하도록 상기 복수의 다운믹스 신호들을 다운믹스 신호들의 상기 복수의 그룹들로 그룹화하도록 구성된다. 즉: 그룹화는 다운믹스 신호들의 다양한 그룹들을 도출하며, 여기서 단지 하나의 다운믹스 신호가 속하는 다운믹스 신호의 적어도 하나의 그룹이 주어진다. 따라서, 다운믹스 신호들의 적어도 하나의 그룹은 단지 하나의 단일 다운믹스 신호를 지칭한다. 추가적인 실시예에서, 단지 하나의 다운믹스 신호가 속하는 다운믹스 신호들의 그룹들의 수가 최대화된다.
일 실시예에서, 장치의 그룹화기는 인코딩된 오디오 신호 내의 정보에 기초하여 복수의 다운믹스 신호들을 다운믹스 신호들의 복수의 그룹들로 그룹화하도록 구성된다. 추가적인 실시예에서, 장치는 다운믹스 신호들을 그룹화하기 위해 오직 인코딩된 오디오 신호 내의 정보만을 사용한다. 인코딩된 오디오 신호의 비트스트림 내의 정보를 사용하는 것은, 일 실시예에서, 상관 또는 공분산 정보를 고려하는 것을 포함한다. 그룹화기는 특히 인코딩된 오디오 신호로부터, 상이한 입력 오디오 오브젝트들 사이의 관계에 대한 정보를 추출한다.
일 실시예에서, 그룹화기는 상기 인코딩된 오디오 신호 내의 bsRelatedTo-값에 기초하여 상기 복수의 다운믹스 신호들을 다운믹스 신호들의 상기 복수의 그룹들로 그룹화하도록 구성된다. 이러한 값들에 관해, 예를 들어, WO 2011/039195 A1을 참조한다.
실시예에 따르면, 그룹화기는 적어도 하기 단계들을 (다운믹스 신호들의 각각의 그룹에) 적용함으로써, 복수의 다운믹스 신호들을 다운믹스 신호들의 복수의 그룹들로 그룹화하도록 구성된다:
· 다운믹스 신호가 다운믹스 신호들의 기존의 그룹에 할당되는지 여부를 검출하는 단계;
· 다운믹스 신호와 연관된 복수의 입력 오디오 오브젝트들 중 적어도 하나의 입력 오디오 오브젝트가 다운믹스 신호들의 기존의 그룹과 연관된 입력 오디오 오브젝트들의 세트의 일부인지 여부를 검출하는 단계;
· 다운믹스 신호를 다운믹스 신호들의 새로운 그룹에 할당하는 단계
다운믹스 신호가 다운믹스 신호들의 기존의 그룹에 대해 할당되지 않은 경우 (따라서, 다운믹스 신호가 아직 그룹에 할당되지 않은 경우) 및
다운믹스 신호와 연관된 복수의 입력 오디오 오브젝트들의 모든 입력 오디오 오브젝트들이 다운믹스 신호들의 기존의 그룹과 연관이 없는 경우(따라서, 다운믹스 신호의 입력 오디오 오브젝트들이 상이한 다운믹스 신호를 통해 아직 그룹에 할당되지 않은 경우); 및
· 다운믹스 신호를 다운믹스 신호들의 기존의 그룹과 결합하는 단계
다운믹스 신호가 다운믹스 신호들의 기존의 그룹에 할당되는 경우
또는 다운믹스 신호와 연관된 복수의 입력 오디오 오브젝트들 중 적어도 하나의 입력 오디오 오브젝트가 다운믹스 신호들의 기존의 그룹과 연관되는 경우.
인코딩된 오디오 신호에서 시그널링된 관계가 또한 고려되는 경우, 다른 검출 단계가 추가되어 다운믹스 신호들을 할당 및 결합하기 위한 추가 요건을 도출할 것이다.
실시예에 따르면, 프로세서는 개별적인 행렬들을 그룹 결과들로서 제공하기 위해 입력 오디오 오브젝트들의 각각의 세트(또는 다운믹스 신호들의 각각의 그룹)의 오브젝트 파라미터들(E k)에 대해 개별적으로 다양한 프로세싱 단계들을 수행하도록 구성된다. 결합기는 상기 디코딩된 오디오 신호를 제공하기 위해 개별적인 행렬들을 결합하도록 구성된다. 오브젝트 파라미터들(E k)은 인덱스 k를 갖는 다운믹스 신호들의 각각의 그룹의 입력 오디오 오브젝트들에 속하며, 인덱스 k를 갖는 이러한 그룹에 대한 개별적인 행렬들을 획득하기 위해 프로세싱된다.
상이한 실시예에 따르면, 프로세서는 출력 오디오 신호들을 그룹 결과들로서 제공하기 위해 다운믹스 신호들의 상기 복수의 그룹들의 각각의 그룹에 대해 개별적으로 다양한 프로세싱 단계들을 수행하도록 구성된다. 결합기는 상기 디코딩된 오디오 신호를 제공하기 위해 출력 오디오 신호들을 결합하도록 구성된다.
이러한 실시예에서, 다운믹스 신호들의 그룹들은 다운믹스 신호들의 각각의 그룹에 속하는 입력 오디오 오브젝트들에 대응하는 출력 오디오 신호들이 획득되도록 프로세싱된다. 따라서, 출력 오디오 신호들을 디코딩된 오디오 신호들에 결합하는 것은 인코딩된 오디오 신호에 대해 수행되는 디코딩 프로세스들의 최종 단계들에 가깝다. 따라서, 이러한 실시예에서, 다운믹스 신호들의 각각의 그룹은 다운믹스 신호들의 그룹들의 검출에 후속하는 모든 프로세싱 단계들에 개별적으로 적용된다.
상이한 실시예에서, 프로세서는 프로세싱된 신호들을 그룹 결과들로서 제공하기 위해 다운믹스 신호들의 상기 복수의 그룹들의 각각의 그룹에 대해 개별적으로 적어도 하나의 프로세싱 단계를 수행하도록 구성된다. 장치는 출력 오디오 신호들을 제공하기 위해 상기 프로세싱된 신호들을 공동으로 프로세싱하도록 구성된 포스트-프로세서를 더 포함한다. 결합기는 상기 디코딩된 오디오 신호를 제공하기 위해 출력 오디오 신호들을 프로세싱된 그룹 결과들로서 결합하도록 구성된다.
이러한 실시예에서, 다운믹스 신호의 그룹들은 개별적으로 적어도 하나의 프로세싱 단계에 그리고 다른 그룹들과 공동으로 적어도 하나의 프로세싱 단계에 적용된다. 개별적인 프로세싱은, 실시예에서, 공동으로 프로세싱되는 프로세싱된 신호들을 도출한다.
행렬들을 참조하면, 일 실시예에서, 프로세서는 개별적인 행렬들을 제공하기 위해 입력 오디오 오브젝트들의 각각의 세트의 오브젝트 파라미터들(E k)에 대해 개별적으로 적어도 하나의 프로세싱 단계를 수행하도록 구성된다. 장치에 포함된 포스트-프로세서는 적어도 하나의 전체 행렬을 제공하기 위해 공동으로 오브젝트 파라미터들을 프로세싱하도록 구성된다. 결합기는 상기 개별적인 행렬들 및 상기 적어도 하나의 전체 행렬을 결합하도록 구성된다. 일 실시예에서, 포스트-프로세서들은 적어도 하나의 전체 행렬을 획득하기 위해 개별적인 행렬들에 대해 공동으로 적어도 하나의 프로세싱 단계를 수행한다.
이하의 실시예들은 프로세서에 의해 수행되는 프로세싱 단계들을 참조한다. 이러한 단계들 중 일부는 또한 전술한 실시예에서 언급된 포스트-프로세서에 적합하다.
일 실시예에서, 프로세서는 다운믹스 신호들의 상기 복수의 그룹들의 각각의 그룹들의 다운믹스 신호들을 언-믹싱하도록 구성된 언-믹서(un-mixer)를 포함한다. 다운믹스 신호들을 언-믹싱함으로써, 프로세서는 원래의 입력 오디오 오브젝트들의, 다운믹스 신호로 다운믹싱된 표현들을 획득한다.
실시예에 따르면, 언-믹서는 MMSE(Minimum Mean Squared Error) 알고리즘에 기초하여 다운믹스 신호들의 상기 복수의 그룹들의 각각의 그룹들의 다운믹스 신호들을 언-믹싱하도록 구성된다. 이러한 알고리즘은 이하의 설명에서 설명될 것이다.
상이한 실시예에서, 프로세서는 개별적인 언-믹스 행렬들을 제공하기 위해 입력 오디오 오브젝트들의 각각의 세트의 오브젝트 파라미터들을 개별적으로 프로세싱하도록 구성된 언-믹서를 포함한다.
일 실시예에서, 프로세서는, 다운믹스 신호들의 각각의 그룹과 연관된 입력 오디오 오브젝트들의 세트의 입력 오디오 오브젝트들의 수 및 다운믹스 신호들의 각각의 그룹에 속하는 다운믹스 신호들의 수 중 적어도 하나에 의존하는 크기들을 갖는 다운믹스 신호 행렬들의 각각의 그룹에 대해 개별적으로 컴퓨팅하도록 구성된 계산기를 포함한다. 다운믹스 신호들의 그룹들이 다운믹스 신호들의 전체 앙상블보다 작고, 다운믹스 신호들의 그룹들이 더 적은 수의 입력 오디오 신호들을 참조함에 따라, 다운믹스 신호들의 그룹들의 프로세싱을 위해 사용되는 행렬들은 최신 기술에서 사용되는 것들보다 적다. 이는 계산을 용이하게 한다.
실시예에 따르면, 계산기는 다운믹스 신호들의 각각의 그룹 내의 최대 에너지 값에 기초하여 개별적인 언-믹싱 행렬들에 대해 개별적인 임계치를 컴퓨팅하도록 구성된다.
실시예에 따르면, 프로세서는 다운믹스 신호들의 각각의 그룹에 대한 다운믹스 신호들의 개별적인 그룹 내의 최대 에너지 값에 기초하여 개별적인 임계치를 개별적으로 컴퓨팅하도록 구성된다.
일 실시예에서, 계산기는 다운믹스 신호들의 각각의 그룹 내의 최대 에너지 값에 기초하여, 다운믹스 신호들의 각각의 그룹의 다운믹스 신호들을 언-믹싱하기 위한 정규화 단계에 대해 개별적인 임계치를 컴퓨팅하도록 구성된다. 다운믹스 신호들의 그룹들에 대한 임계치들은 상이한 실시예에서 언-믹서 자체에 의해 컴퓨팅된다.
하기 논의는 모든 다운믹스 신호들에 대한 것이 아니라 그룹들에 대한 임계치(각각의 그룹에 대해 하나의 임계치)를 컴퓨팅하는 흥미로운 효과를 나타낼 것이다.
실시예에 따르면, 프로세서는 렌더링된 신호들을 제공하기 위해 상기 디코딩된 오디오 신호의 출력 상황에 대해 각각의 그룹들의 언-믹싱된 다운믹스 신호들을 렌더링하도록 구성된 렌더러를 포함한다. 렌더링은 청취자에 의해 제공된 입력에 기초하거나 또는 실제 출력 상황에 대한 데이터에 기초한다.
실시예에서, 프로세서는 적어도 하나의 렌더 행렬을 제공하기 위해 오브젝트 파라미터들을 프로세싱하도록 구성된 렌더러를 포함한다.
프로세서는, 실시예에서, 적어도 하나의 역상관 행렬을 제공하기 위해 오브젝트 파라미터들을 프로세싱하도록 구성된 포스트-믹서를 포함한다.
실시예에 따르면, 프로세서는, 상기 렌더링된 신호들에 대해 적어도 하나의 역상관 단계를 수행하도록 구성되고, 수행된 역상관 단계의 결과들(Ywet)을 상기 각각의 렌더링된 신호들(Ydry)과 결합하도록 구성된 포스트-믹서를 포함한다.
실시예에 따르면, 프로세서는 다운믹스 신호들의 각각의 그룹에 대한 개별적인 다운믹싱 행렬(D k)을 결정하도록 구성되고(k는 각각의 그룹의 인덱스임), 프로세서는 다운믹스 신호들의 각각의 그룹에 대한 개별적인 그룹 공분산 행렬(E k)을 결정하도록 구성되고, 프로세서는 개별적인 다운믹싱 행렬(D k) 및 개별적인 그룹 공분산 행렬(E k)에 기초하여 다운믹스 신호들의 각각의 그룹에 대한 개별적인 그룹 다운믹스 공분산 행렬(Δk)을 결정하도록 구성되고, 프로세서는 다운믹스 신호들의 각각의 그룹에 대한 개별적인 정규화된 그룹 역행렬(J k)을 결정하도록 구성된다.
실시예에 따르면, 결합기는 전체 정규화된 그룹 역행렬(J)을 획득하기 위해 개별적인 정규화된 그룹 역행렬(J k)을 결합하도록 구성된다.
실시예에 따르면, 프로세서는 개별적인 다운믹싱 행렬(D k), 개별적인 그룹 공분산 행렬(E k) 및 개별적인 정규화된 그룹 역행렬(J k)에 기초하여 다운믹스 신호들의 각각의 그룹에 대한 개별적인 그룹 파라메트릭 언-믹싱 행렬(U k)을 결정하도록 구성되고, 결합기는 전체 그룹 파라메트릭 언-믹싱 행렬(U)을 획득하기 위해 개별적인 그룹 파라메트릭 언-믹싱 행렬(U k)을 결합하도록 구성된다.
실시예에 따르면, 프로세서는 개별적인 다운믹싱 행렬(D k), 개별적인 그룹 공분산 행렬(E k) 및 개별적인 정규화된 그룹 역행렬(J k)에 기초하여 다운믹스 신호들의 각각의 그룹에 대한 개별적인 그룹 파라메트릭 언-믹싱 행렬(U k)을 결정하도록 구성되고, 결합기는 전체 그룹 파라메트릭 언-믹싱 행렬(U)을 획득하기 위해 개별적인 그룹 파라메트릭 언-믹싱 행렬(U k)을 결합하도록 구성된다.
실시예에 따르면, 프로세서는 다운믹스 신호들의 각각의 그룹에 대한 개별적인 그룹 렌더링 행렬(R k)을 결정하도록 구성된다.
실시예에 따르면, 프로세서는 개별적인 그룹 렌더링 행렬(R k) 및 개별적인 그룹 파라메트릭 언-믹싱 행렬(U k)에 기초하여 다운믹스 신호들의 각각의 그룹에 대한 개별적인 업믹싱(upmixing) 행렬(R k U k)을 결정하도록 구성되고, 결합기는 전체 업믹싱 행렬(RU)을 획득하기 위해 개별적인 업믹싱 행렬들(R k U k)을 결합하도록 구성된다.
실시예에 따르면, 프로세서는 개별적인 그룹 렌더링 행렬(R k) 및 개별적인 그룹 공분산 행렬(E k)에 기초하여 다운믹스 신호들의 각각의 그룹에 대한 개별적인 그룹 공분산 행렬(C k)을 결정하도록 구성되고, 결합기는 전체 그룹 공분산 행렬(C)을 획득하기 위해 개별적인 그룹 공분산 행렬들(C k)을 결합하도록 구성된다.
실시예에 따르면, 프로세서는 개별적인 그룹 렌더링 행렬(R k), 개별적인 그룹 파라메트릭 언-믹싱 행렬(U k), 개별적인 다운믹싱 행렬(D k) 및 개별적인 그룹 공분산 행렬(E k)에 기초하여 파라메트릭 추정된 신호 (E y dry)k의 개별적인 그룹 공분산 행렬을 결정하도록 구성되고, 결합기는 전체 파라메트릭 추정된 신호 E y dry를 획득하기 위해 파라메트릭 추정된 신호 (E y dry)k의 개별적인 그룹 공분산 행렬들을 결합하도록 구성된다.
실시예에 따르면, 프로세서는 다운믹스 공분산 행렬(E DMX)의 특이값 분해에 기초하여 정규화된 역행렬(J)을 결정하도록 구성된다.
실시예에 따르면, 프로세서는 다운믹스 신호들의 각각의 그룹(인덱스 k를 가짐)에 할당된 다운믹스 신호들(m, n)에 대응하는 엘리먼트들(Δ (m, n))을 선택함으로써 파라메트릭 언-믹싱 행렬(U)의 결정을 위한 부분-행렬(Δ k)을 결정하도록 구성된다. 다운믹스 신호들의 각각의 그룹은 지정된 수의 다운믹스 신호들 및 입력 오디오 오브젝트들의 연관된 세트를 커버하며, 여기서는 인덱스 k로 표시된다.
이러한 실시예에 따르면, 개별적인 부분-행렬들(Δ k)은 각각의 그룹 k에 속하는 다운믹스 공분산 행렬 Δ로부터 엘리먼트들을 선택하거나 선정함으로써 획득된다.
일 실시예에서, 개별적인 부분-행렬들(Δ k)은 개별적으로 반전되고, 그 결과들은 정규화된 역행렬(J)에서 결합된다.
상이한 실시예에서, 부분-행렬(Δ k)은 개별적인 다운믹싱 행렬(D k)을 갖는 Δ k = D k E k D k*로서의 이들의 정의를 사용하여 획득된다.
실시예에 따르면, 결합기는 다운믹스 신호들의 각각의 그룹에 대해 개별적으로 결정된 행렬들에 기초하여 포스트-믹싱 행렬(P)을 결정하도록 구성되고, 결합기는 디코딩된 오디오 신호를 획득하기 위해 복수의 다운믹스 신호들에 포스트-믹싱 행렬(P)을 적용하도록 구성된다. 이러한 실시예에서, 오브젝트 파라미터들로부터, 디코딩된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호에 적용되는 포스트-믹싱 행렬이 컴퓨팅된다.
일 실시예에 따르면, 장치 및 그 각각의 컴포넌트들은 다운믹스 신호들의 각각의 그룹에 대해 다음 계산들 중 적어도 하나를 개별적으로 수행하도록 구성된다:
· 엘리먼트들
Figure 112017085189924-pct00001
를 갖는 크기 Nk × Nk의 그룹 공분산 행렬 E k의 계산,
· 크기 Mk × Mk의 그룹 다운믹스 공분산 행렬 Δ k의 계산: Δ k = D k E k D k*,
· 그룹 다운믹스 공분산 행렬 Δ k = D k E k D k*의 특이값 분해의 계산: Δ k = V k Λ k V k*,
·
Figure 112017085189924-pct00002
를 근사화하는 정규화된 그룹 역행렬 J k의 계산:
Figure 112017085189924-pct00003
, 개별적인 행렬 Λ inv k의 계산을 포함함(세부사항들은 아래에서 주어짐),
· 크기 Nk × Mk의 그룹 파라메트릭 언-믹싱 행렬 U k의 계산: U k = E k D k*J k,
· 크기 Nk × Mk의 언-믹싱 행렬 U k와 크기 NUpmix × Nk의 그룹 렌더링 행렬 R k의 곱: R k U k,
· 크기 Nout × Nout의 그룹 공분산 행렬 C k의 계산: C k = R k E k R k*,
· 크기 Nout × Nout의 파라메트릭 추정된 신호 (E y dry)k의 그룹 공분산의 계산:
Figure 112017085189924-pct00004
.
이와 관련하여, k는 다운믹스 신호들의 각각의 그룹의 그룹 인덱스를 표시하고, Nk는 입력 오디오 오브젝트들의 연관된 세트의 입력 오디오 오브젝트들의 수를 표시하고, Mk는 다운믹스 신호들의 각각의 그룹에 속하는 다운믹스 신호들의 수를 표시하고, Nout은 업믹싱되거나 렌더링된 출력 채널의 수를 표시한다.
컴퓨팅된 행렬들은 최신 기술에서 사용되는 것들보다 크기가 작다. 따라서, 일 실시예에서, 가능한 많은 프로세싱 단계들이 다운믹스 신호들의 그룹에 대해 개별적으로 수행된다.
본 발명의 목적은 또한 인코딩된 오디오 신호를 프로세싱하기 위한 대응하는 방법에 의해 달성된다. 인코딩된 오디오 신호는 복수의 입력 오디오 오브젝트들 및 오브젝트 파라미터들과 연관된 복수의 다운믹스 신호들을 포함한다. 방법은 하기 단계들을 포함한다:
· 다운믹스 신호들을, 복수의 입력 오디오 오브젝트들의 입력 오디오 오브젝트들의 세트와 연관된 다운믹스 신호들의 복수의 그룹들로 그룹화하는 단계,
· 그룹 결과들을 제공하기 위해 입력 오디오 오브젝트들의 각각의 세트의 오브젝트 파라미터들에 대해 개별적으로 적어도 하나의 프로세싱 단계를 수행하는 단계, 및
· 디코딩된 오디오 신호를 제공하기 위해 상기 그룹 결과들을 결합하는 단계.
그룹화는 적어도, 복수의 입력 오디오 오브젝트들의 각각의 입력 오디오 오브젝트가 입력 오디오 오브젝트들의 단지 하나의 세트에 속해야 하는 제약으로 수행된다.
장치의 전술된 실시예들은 또한 방법의 단계들 및 방법의 대응하는 실시예들에 의해 수행될 수 있다. 따라서, 장치의 실시예들에 대해 주어진 설명들이 또한 이 방법에 대해 유효하다.
본 발명은 첨부된 도면들 및 첨부된 도면들에 도시된 실시예들에 대해 아래에서 설명될 것이다.
도 1은 MMSE 기반 파라메트릭 다운믹스/업믹스 개념의 개요를 도시한다.
도 2는 렌더링된 출력에 대해 적용되는 역상관을 갖는 파라메트릭 재구성 시스템을 도시한다.
도 3은 다운믹서 프로세서의 구조를 도시한다.
도 4는 5 개의 입력 오디오 오브젝트들(좌측의 열)의 스펙트로그램들 및 대응하는 다운믹스 채널들(우측의 열)의 스펙트로그램들을 도시한다.
도 5는 기준 출력 신호들(좌측의 열)의 스펙트로그램들 및 대응하는 SAOC 3D 디코딩 및 렌더링된 출력 신호들(우측의 열)의 스펙트로그램들을 도시한다.
도 6은 본 발명을 사용하는 SAOC 3D 출력 신호들의 스펙트로그램들을 도시한다.
도 7은 최신 기술에 따른 프레임 파라미터 프로세싱을 도시한다.
도 8은 본 발명에 따른 프레임 파라미터 프로세싱을 도시한다.
도 9는 그룹 검출 기능의 구현의 예를 도시한다.
도 10은 입력 오디오 오브젝트들을 인코딩하기 위한 장치를 개략적으로 도시한다.
도 11은 인코딩된 오디오 신호를 프로세싱하기 위한 본 발명의 장치의 예를 개략적으로 도시한다.
도 12는 인코딩된 오디오 신호를 프로세싱하기 위한 본 발명의 장치의 상이한 예를 개략적으로 도시한다.
도 13은 본 발명의 방법의 실시예의 단계들의 시퀀스를 도시한다.
도 14는 본 발명의 장치의 예를 개략적으로 도시한다.
도 15는 장치의 추가적인 예를 개략적으로 도시한다.
도 16은 본 발명의 장치의 프로세서를 개략적으로 도시한다.
도 17은 본 발명의 장치의 적용을 개략적으로 도시한다.
하기에서, MPEG SAOC(Spatial Audio Object Coding) 기술([SAOC]) 및 MPEG-H 3D 오디오의 SAOC 3D 프로세싱 부분([SAOC3D, SAOC3D2])의 예를 사용하여, 파라메트릭 분리 방식들에 대한 개요가 제공될 것이다. 이러한 방법들의 수학적 특성들이 고려된다.
하기 수학적 표기법이 사용된다.
N 입력 오디오 오브젝트들의 수(대안적으로: 입력 오브젝트들)
Ndmx 다운믹스(전송) 채널들의 수
Nout 업믹스(렌더링된) 채널들의 수
Nsamples 오디오 신호 당 샘플들의 수
D 다운믹스 행렬, 크기 Ndmx × N
S 입력 오디오 오브젝트 신호, 크기 N × Nsamples
E E
Figure 112017085189924-pct00005
SS*를 근사화하는 오브젝트 공분산 행렬, 크기 N × N
X X = DS로서 정의되는 다운믹스 오디오 신호들, 크기 Ndmx × Nsamples
E DMX E DMX = DED*로서 정의되는 다운믹스 신호들의 공분산 행렬, 크기 Ndmx × Ndmx,
U U
Figure 112017085189924-pct00006
ED* (DED*)-1를 근사화하는 파라메트릭 소스 추정 행렬, 크기 N × Ndmx,
R 렌더링 행렬(디코더 측에서 특정됨), 크기 Nout × N
Figure 112017085189924-pct00007
S를 근사화하고,
Figure 112017085189924-pct00008
= UX로 정의되는 파라메트릭하게 재구성된 오브젝트 신호들, 크기 N × Nsamples,
Y dry Y dry = RUX로 정의되는 파라메트릭하게 재구성되고 렌더링된 오브젝트 신호들, 크기 Nout × Nsamples,
Y wet 역상관기 출력들, 크기 Nout × Nsamples
Y 최종 출력, 크기 Nout × Nsamples
(·)* (·)의 콘주게이트 트랜스포즈를 표현하는 자기-수반(Hermitian) 연산자,
F decorr(·) 역상관기 함수
일반화의 오류없이, 방정식들의 가독성을 개선하기 위해, 도입된 모든 변수들에 대해 시간과 주파수 의존성을 표시하는 인덱스들은 생략되었다.
파라메트릭 오브젝트 분리 시스템:
일반적인 파라메트릭 분리 방식들은 보조 파라메트릭 정보를 사용하여 신호 혼합물(다운믹스)로부터 다수의 오디오 소스들을 추정하는 것을 목표로 한다. 이러한 작업의 통상적인 솔루션은 MMSE(Minimum Mean Squared Error) 추정 알고리즘의 적용에 기초한다. SAOC 기술은 이러한 파라메트릭 오디오 코딩 시스템들의 일례이다.
도 1은 SAOC 인코더/디코더 아키텍처의 일반적인 원리를 도시한다.
일반적인 파라메트릭 다운믹스/업믹스 프로세싱은 시간/주파수 선택적 방식으로 수행되며, 하기 단계들의 시퀀스로서 설명될 수 있다:
· "인코더"에 입력 "오디오 오브젝트" S 및 "믹싱 파라미터들" D가 제공된다. "믹서"는 "믹싱 파라미터" D(예를 들어, 다운믹싱 이득들)를 사용하여 "오디오 오브젝트들" S를 다수의 "다운믹스 신호들" X로 다운믹싱한다.
· "사이드 정보 추정기"는 입력 "오디오 오브젝트들" S의 특성들을 설명하는 사이드 정보(예를 들어, 공분산 속성들)를 추출한다.
· "다운믹스 신호들" X 및 사이드 정보가 송신되거나 저장된다. 이러한 다운믹스 오디오 신호들은 오디오 코더들(예를 들어, MPEG-1/2 계층 II 또는 III, MPEG-2/4 AAC(Advanced Audio Coding), MPEG USAC(Unified Speech and Audio Coding) 등)을 사용하여 추가로 압축될 수 있다. 사이드 정보는 또한 효율적으로 (예를 들어, 오브젝트 전력 및 오브젝트 상관 계수들의 코딩된 관계들로서) 표현 및 인코딩될 수 있다.
"디코더"는 송신된 사이드 정보(이 정보는 오브젝트 파라미터들을 제공함)를 사용하여 디코딩된 "다운믹스 신호들"로부터 원래의 "오디오 오브젝트들"을 복원한다. "사이드 정보 프로세서"는 S의 파라메트릭 오브젝트 재구성을 획득하기 위해 "파라메트릭 오브젝트 분리기" 내의 "다운믹스 신호들"에 적용될 언-믹싱 계수들을 추정한다. 재구성된 "오디오 오브젝트들"은 "렌더링 파라미터들" R을 적용함으로써 출력 채널들 Y로 표시되는 (다중 채널) 타겟 장면에 렌더링된다.
동일한 일반적 원칙 및 순차적인 단계들은 추가적인 역상관 경로를 통합하는 SAOC 3D 프로세싱에 적용된다.
도 2는 통합된 역상관 경로를 갖는 파라메트릭 다운믹스/업믹스 개념의 개요를 제공한다.
MPEG-H 3D 오디오의 일부인 SAOC 3D 기술의 예를 사용하면, 이러한 파라메트릭 분리 시스템의 주요 프로세싱 단계들은 다음과 같이 요약될 수 있다:
SAOC 3D 디코더는 파라메트릭하게 재구성되고 렌더링된 신호(드라이 신호) Y dry 및 이의 역상관된 버전(웨트(wet) 신호) Y wet의 혼합물로서 수정된 렌더링된 출력 Y를 생성한다.
관련된 발명에 대한 논의를 위해 프로세싱 단계들은 도 3에 예시된 바와 같이 차별화될 수 있다:
· 행렬 U를 사용하여 입력 오디오 오브젝트들을 파라메트릭하게 재구성하는 언-믹싱,
· 렌더링 정보(행렬 R)를 사용한 렌더링,
· 역상관,
· 비트스트림에 포함된 정보에 기초한 행렬 P를 사용하는 포스트-믹싱.
파라메트릭 오브젝트 분리는 추가적인 사이드 정보에 기초하여 언-믹싱 행렬 U를 사용하여 다운믹스 신호 X로부터 획득된다:
Figure 112017085189924-pct00009
= UX.
렌더링 정보 R은 드라이 신호를 획득하기 위해 사용된다: Y dry = R
Figure 112017085189924-pct00010
= RUX.
최종 출력 신호 Y는 신호들 Y dryY wet로부터
Figure 112017085189924-pct00011
로서 컴퓨팅된다.
믹싱 행렬 P는 예를 들어 렌더링 정보, 상관 정보, 에너지 정보, 공분산 정보 등에 기초하여 컴퓨팅된다.
본 발명에서, 이는 디코딩된 오디오 신호를 획득하기 위해 인코딩된 오디오 신호에 적용되는 포스트-믹싱 행렬일 것이다.
다음으로, MMSE를 사용한 공통 파라메트릭 오브젝트 분리 동작이 설명될 것이다.
언-믹싱 행렬(U)은 MMSE(Minimum Mean Squared Error) 추정 알고리즘을 사용하여 비트스트림에 포함된 변수들로부터 유도된 정보(예를 들어, 다운믹싱 행렬 D 및 공분산 정보 E)에 기초하여 획득된다: U = ED*J.
크기 Ndmx × Ndmx의 행렬 J는 다운믹스 공분산 행렬 E DMX =DED*의 의사 역행렬의 근사치를 J
Figure 112017085189924-pct00012
E DMX -1로서 표현한다.
행렬 J의 컴퓨팅은 J = V Λ inv V*에 따라 유도되며,
여기서 행렬들 VΛ는 행렬 EDMX의 특이값 분해(SVD)를 사용하여 E DMX = V Λ V*로서 결정된다.
고유값(eigenvalue) 분해, Schur 분해 등과 같은 상이한 분해 방법들을 사용하여 유사한 결과들이 획득될 수 있음을 주목한다.
대각 특이값 행렬 Λ에 대해 사용되는 정규화된 반전 연산 (·)inv은 예를 들어 가장 높은 특이값에 대한 특이값의 절단을 사용하여 SAOC 3D에서 행해진 것처럼 결정될 수 있다:
Figure 112017085189924-pct00013
상이한 실시예에서, 하기 공식이 사용된다:
Figure 112017085189924-pct00014
상대적인 정규화 스칼라
Figure 112017085189924-pct00015
는 절대 임계치 TregΛ의 최대 값을 사용하여,
Figure 112017085189924-pct00016
로서 결정되며, 예를 들어,
Figure 112017085189924-pct00017
이다.
특이값들의 정의에 따라,
Figure 112017085189924-pct00018
는 오직 양의 값들로 제한될 수 있거나(
Figure 112017085189924-pct00019
< 0이면,
Figure 112017085189924-pct00020
= abs(
Figure 112017085189924-pct00021
)이고, 대응하는 좌측 또는 우측 고유 벡터에 sign(
Figure 112017085189924-pct00022
)가 곱해짐) 또는 음의 값들이 허용될 수 있다.
Figure 112017085189924-pct00023
의 음의 값들을 갖는 제 2 경우에, 상대적 정규화 스칼라
Figure 112017085189924-pct00024
Figure 112017085189924-pct00025
로서 컴퓨팅된다.
단순화를 위해, 아래에서
Figure 112017085189924-pct00026
의 제 2 정의가 사용될 수 있다.
절대 값에 대한 특이값들의 절단 또는 행렬 반전에 사용되는 다른 정규화 방법들을 사용하여 유사한 결과들이 획득될 수 있다.
매우 작은 특이값들의 반전은 매우 높은 언-믹싱 계수들 및 결과적으로 대응하는 다운믹스 채널들의 높은 증폭들을 도출할 수 있다. 이러한 경우, 매우 작은 에너지 레벨들을 갖는 채널들은 높은 이득들을 사용하여 증폭될 수 있고, 이는 가청 아티팩트들을 도출할 수 있다. 이러한 원치않는 효과를 감소시키기 위해, 상대적 임계치
Figure 112017085189924-pct00027
보다 작은 특이값들은 제로로 절단된다.
이제, 최신 기술의 파라메트릭 오브젝트 분리 기술에서 발견된 단점들이 설명된다.
설명된 최신 기술의 파라메트릭 오브젝트 분리 방법들은 분리 아티팩트들을 회피하기 위해 다운믹스 공분산 행렬의 정규화된 반전을 사용하는 것을 특정한다. 그러나, 일부 실제 사용의 경우의 믹싱 시나리오들의 경우, 너무 공격적인 정규화에 의해 초래되는 해로운 아티팩트들이 시스템의 출력에서 식별되었다.
아래에서, 이러한 시나리오의 예가 구성되고 분석된다.
N = 5개인 입력 오디오 오브젝트들(S)이 설명된 기술(더 정확하게는, MPEG-H 3D 오디오의 SAOC 3D 프로세싱 부분)을 사용하여 Ndmx = 3개의 다운믹스 채널들(X)로 인코딩된다.
이 예의 입력 오디오 오브젝트들은:
· 음악 반주(스테레오 쌍의 좌측 및 우측)로부터의 신호들을 포함하는 2 개의 상관된 오디오 오브젝트들의 일 그룹,
· 스피치 신호를 포함하는 하나의 독립적 오디오 오브젝트의 일 그룹, 및
· 피아노 레코딩(스테레오 상의 좌측 및 우측)을 포함하는 2 개의 상관된 오디오 오브젝트들의 일 그룹.
입력 신호들은 전송 채널들의 3 개의 그룹들로 다운믹싱된다:
· 오브젝트들의 제 1 그룹을 포함하는 M1 = 1 다운믹스 채널들을 갖는 그룹 G1
· 오브젝트들의 제 2 그룹을 포함하는 M2 = 1 다운믹스 채널들을 갖는 그룹 G2
· 오브젝트들의 제 3 그룹을 포함하는 M3 = 1 다운믹스 채널들을 갖는 그룹 G3
여기서, Ndmx = M1 + M2 + M3
k = 1, 2, 3에 대한 각각의 그룹 Gk에 대응하는 다운믹싱 행렬들 D k는 단위 믹싱 이득들을 사용하여 구성되고, 완전한 다운믹싱 행렬 D
Figure 112017085189924-pct00028
, 여기서
Figure 112017085189924-pct00029
로 주어진다.
처음 2 개의 오브젝트 신호들의 그룹, 제 3 오브젝트 신호 및 마지막 2 개의 오브젝트 신호들의 그룹 사이의 크로스-믹싱의 부재를 주목할 수 있다. 또한, 스피치를 포함하는 제 3 오브젝트 신호는 단독으로 하나의 다운믹스 채널로 믹싱됨을 주목한다. 따라서, 이러한 오브젝트의 양호한 재구성이 예상되고, 결과적으로 양호한 렌더링이 예상된다. 입력 신호들 및 획득된 다운믹스 신호의 스펙트로그램들은 도 4에 예시된다.
실제 시스템에서 사용되는 가능한 다운믹스 신호 코어 코딩은, 원치않는 효과의 더 양호한 개요를 위해 여기서는 생략된다. 디코더 측에서, 오디오 오브젝트 신호들을 3-채널 셋업(Nout = 3): 좌측(L), 중앙(C) 및 우측(R) 채널들로 재구성 및 렌더링하기 위해 SAOC 3D 파라메트릭 디코딩이 사용된다.
이 예의 입력 오디오 오브젝트들의 간단한 리믹스는 다음에서 사용된다:
· 처음 2 개의 오디오 오브젝트들(음악 반주)은 뮤팅되고(즉, 이득 0으로 렌더링된다),
· 제 3 입력 오브젝트(스피치)는 중앙 채널로 렌더링되고,
· 오브젝트 4는 좌측 채널로 렌더링되고, 오브젝트 5는 우측 채널로 렌더링된다.
따라서, 사용된 렌더링 행렬은:
Figure 112017085189924-pct00030
로 주어지고, 여기서,
Figure 112017085189924-pct00031
,
Figure 112017085189924-pct00032
Figure 112017085189924-pct00033
.
기준 출력은 특정된 렌더링 행렬을 입력 신호들에 직접 적용함으로써 컴퓨팅될 수 있다: Y ref = RS.
SAOC 3D 디코딩 및 렌더링으로부터의 기준 출력 및 출력 신호들의 스펙트로그램들은 도 5의 2 개의 열들로 예시된다.
SAOC 3D 디코더 출력의 도시된 스펙트로그램들로부터, 하기 관측들이 주목될 수 있다:
· 오직 스피치 신호만을 포함하는 중앙 채널은 기준 신호에 비해 심하게 손상된다. 큰 스펙트럼 구멍들이 발견될 수 있다. 이러한 스펙트럼 구멍들(상실된 에너지를 갖는 시간-주파수 영역임)은 심각한 가청 아티팩트들을 초래한다.
· 작은 스펙트럼 간극들이 또한 좌측 및 우측 채널들, 특히 신호 에너지의 대부분이 집중되는 저주파수 영역들에 존재한다. 또한, 이러한 스펙트럼 간극들은 가청 아티팩트들을 초래한다.
· 다운믹스 채널들에서 오브젝트 그룹들의 어떠한 크로스-믹싱도 존재하지 않는데, 즉, 하나의 다운믹스 채널에서 믹싱된 오브젝트들은 어떠한 다른 다운믹스 채널에도 존재하지 않는다. 제 2 다운믹스 채널은 오직 하나의 오브젝트(스피치)만을 포함하고; 따라서 시스템 출력에서의 스펙트럼 간극들은 오직 다른 다운믹스 채널들과 함께 프로세싱되기 때문에 생성될 수 있다.
언급된 관측들에 기초하여, 다음과 같이 결론지을 수 있다.
· SAOC 3D 시스템은 "통과(pass-through)" 시스템, 즉, 하나의 입력 신호가 단독으로 하나의 다운믹스 채널로 믹싱되면, 이러한 입력 신호의 오디오 품질은 디코딩 및 렌더링에서 보존되어야 하는 시스템이 아니다.
· SAOC 3D 시스템은 다중-채널 다운믹스 신호들의 프로세싱으로 인해 가청 아티팩트들을 도입시킬 수 있다. 다운믹스 채널들의 일 그룹에 포함된 오브젝트들의 출력 품질은 다운믹스 채널들의 나머지의 프로세싱에 의존한다.
스펙트럼 간극들, 특히 중앙 채널의 간극들은, 다운믹스 채널들에 포함된 일부 유용한 정보가 프로세싱에 의해 폐기됨을 표시한다. 이러한 정보의 상실은 파라메트릭 오브젝트 분리 단계에, 더 정확하게는 다운믹스 공분산 행렬 반전 정규화 단계에 영향을 미칠 수 있다.
정의에 의해, 이 예의 다운믹싱 행렬은 블록-대각 구조:
Figure 112017085189924-pct00034
를 갖는다.
추가적으로, 입력 오브젝트들(예를 들어, 파라메트릭 상관들의 시그널링) 사이의 특정한 관계로 인해, 디코더에서 이용가능한 입력 오브젝트 신호 공분산 행렬은 또한 블록-대각 구조:
Figure 112017085189924-pct00035
를 갖는다.
결과적으로, 다운믹스 공분산 행렬은 블록-대각 형태:
Figure 112017085189924-pct00036
로 표현될 수 있다.
이러한 경우, 행렬 E DMX은 이미 블록-대각이지만, 일반적인 경우, 이의 블록-대각 형태는 치환 연산자
Figure 112017085189924-pct00037
를 사용한 행/열의 치환 이후 획득될 수 있다.
치환 연산자
Figure 112017085189924-pct00038
는 단위 행렬의 행들의 치환에 의해 획득된 행렬로 정의된다. 대칭적 행렬 A가 행들 및 열들을 치환함으로써 블록-대각 형태로 표현될 수 있으면, 치환 연산자는 결과적 행렬
Figure 112017085189924-pct00039
Figure 112017085189924-pct00040
로서 표현하기 위해 사용될 수 있다.
Figure 112017085189924-pct00041
가 치환 연산자이면, 하기 특성들이 유지된다:
· 첫째로, V가 단위 행렬이면,
Figure 112017085189924-pct00042
가 또한 단위 행렬이고,
· 둘째로, 단위 행렬 I에 의해
Figure 112017085189924-pct00043
이다.
결과적으로, 치환 연산자들은 특이값 분해 알고리즘들에 투명하다. 이는, 원래의 행렬 A 및 치환된 행렬
Figure 112017085189924-pct00044
가 동일한 특이값들 및 치환된 고유 벡터들을 공유함을 의미한다:
Figure 112017085189924-pct00045
, 여기서
Figure 112017085189924-pct00046
블록-대각 표현으로 인해, 행렬 E DMX의 특이값들은 행렬 EDMX에 SVD를 적용함으로써 또는 블록-대각 부분-행렬 E DMX k에 SVD를 적용하고 결과들을 결합함으로써 컴퓨팅될 수 있다:
Figure 112017085189924-pct00047
여기서,
Figure 112017085189924-pct00048
Figure 112017085189924-pct00049
다운믹스 공분산 행렬의 특이값들이 다운믹스 채널들(행렬 E DMX의 주 대각선에 의해 설명됨)의 에너지 레벨들에 직접 관련되고:
Figure 112017085189924-pct00050
하나의 채널에 포함된 오브젝트들이 어떠한 다른 다운믹스 채널에도 포함되지 않기 때문에, 각각의 특이값은 하나의 다운믹스 채널에 대응한다고 결론지을 수 있다.
따라서, 다운믹스 채널들 중 하나가 다운믹스 채널들의 나머지보다 훨씬 작은 에너지 레벨을 가지면, 이러한 채널에 대응하는 특이값은 특이값들의 나머지보다 훨씬 작을 것이다.
행렬 E DMX의 특이값들을 포함하는 행렬의 반전에서 사용되는 절단 단계:
Figure 112017085189924-pct00051
또는
Figure 112017085189924-pct00052
는 (최고 에너지를 갖는 다운믹스 채널에 대한) 작은 에너지 레벨을 갖는 다운믹스 채널에 대응하는 특이값들의 절단을 도출할 수 있다. 이로 인해, 작은 상대적 에너지를 갖는 이러한 다운믹스 채널에 존재하는 정보는 폐기되고, 스펙트로그램 도면들 및 오디오 출력에서 관측되는 스펙트럼 간극들이 생성된다.
더 양호한 이해를 위해, 각각의 샘플에 대해 그리고 각각의 주파수 대역에 대해 입력 오디오 오브젝트들의 다운믹싱이 개별적으로 발생하는 것을 고려해야 한다. 특히, 상이한 대역들로의 분리는 상이한 주파수들에서 출력 신호들의 스펙트로그램들에서 간극들이 발견될 수 있는 이유를 이해하는 것을 돕는다.
식별된 문제는, 반전될 행렬이 블록-대각인 것을 고려함이 없이 특이값들에 대해 상대적 정규화 임계치가 컴퓨팅된다는 사실:
Figure 112017085189924-pct00053
로 인해 분리될 수 있다.
각각의 블록-대각 행렬은 다운믹스 채널들의 하나의 독립적인 그룹에 대응한다. 최대 특이값에 대해 절단이 실현되지만, 이 값은 채널들의 오직 하나의 그룹만을 설명한다. 따라서, 다운믹스 채널들의 모든 독립적인 그룹들에 포함된 오브젝트들의 재구성은 이러한 최대 특이값을 포함하는 그룹에 의존적이 된다.
다음으로, 최신 기술에 관해 앞서 논의된 실시예에 기초하여 본 발명이 설명될 것이다:
파라메트릭 재구성 시스템의 식별된 문제점을 해결하기 위해, 본 발명의 방법은 각각의 그룹에 대해 독립적으로 정규화 단계를 적용하는 것을 제안한다. 이는, 3 개의 독립적인 다운믹스 공분산 행렬들의 반전에 대해 3 개의 상이한 임계치들이 컴퓨팅되는 것을 의미한다:
Figure 112017085189924-pct00054
, 여기서
Figure 112017085189924-pct00055
. 따라서, 본 발명에서는, 최신 기술에서 각각의 주파수 대역들 및 샘플들에 대한 하나의 전반적인 임계치와는 달리, 일 실시예에서 이러한 임계치가 각각의 그룹에 대해 개별적으로 컴퓨팅된다.
그에 따라, 특이값들의 반전은 부분-행렬들
Figure 112017085189924-pct00056
에 대해 독립적으로 정규화를 적용함으로써 획득되며, 여기서
Figure 112017085189924-pct00057
이다.
Figure 112017085189924-pct00058
상이한 실시예에서는, 하기 공식이 사용된다:
Figure 112017085189924-pct00059
이전의 섹션에서 논의된 예에 대한 달리 동일한 SAOC 3D 시스템에서 제안된 본 발명의 방법을 사용하면, 디코딩되고 렌더링된 출력의 오디오 출력 품질이 개선된다. 결과적인 신호들은 도 6에 예시된다.
도 5 및 도 6의 우측 열의 스펙트로그램들을 비교하면, 본 발명의 방법이 기존의 종래 기술의 파라메트릭 분리 시스템에서 식별된 문제점들을 해결함을 관측할 수 있다. 본 발명의 방법은, 시스템의 "통과" 특징을 보장하고, 가장 중요하게는, 스펙트럼 간극들이 제거된다.
다운믹스 채널들의 3 개의 독립적인 그룹들을 프로세싱하기 위한 설명된 솔루션은 임의의 수의 그룹들로 쉽게 일반화될 수 있다.
본 발명의 방법은 다운믹스 신호 공분산 행렬의 반전에서 그룹화 정보를 이용함으로써 파라메트릭 오브젝트 분리 기술을 수정하는 것을 제안한다. 이는 오디오 출력 품질의 상당한 개선을 도출한다.
그룹화는, 예를 들어, 추가적인 시그널링 없이 디코더에서 이미 이용가능한 믹싱 및/또는 상관 정보로부터 획득될 수 있다.
더 정확하게는, 이 예에서 하기 2 개의 특성들을 갖는 다운믹스 신호들의 최소 세트에 의해 일 실시예에서 일 그룹이 정의된다:
· 첫째로, 3 개의 다운믹스 채널들에 포함된 입력 오디오 오브젝트들은 어떠한 다른 다운믹스 채널에 포함되지 않는다.
· 둘째로, 일 그룹의 다운믹스 채널들에 포함된 모든 입력 신호들은 임의의 다른 그룹의 다운믹스 채널들에 포함된 어떠한 다른 입력 신호들과도 관련되지 않는다(예를 들어, 인코딩된 오디오 신호 내에서 어떠한 상호-상관도 시그널링되지 않는다). 이러한 상호-상관은 디코딩 동안 각각의 오디오 오브젝트들의 결합된 핸들링을 의미한다.
도입된 그룹 정의에 기초하여, K 개(
Figure 112017085189924-pct00060
)의 그룹들이 정의될 수 있다:
Figure 112017085189924-pct00061
및 다운믹스 공분산 행렬 EDMX는 치환 연산자
Figure 112017085189924-pct00062
를 적용함으로써 블록-대각 형태를 사용하여 표현될 수 있다:
Figure 112017085189924-pct00063
부분-행렬들
Figure 112017085189924-pct00064
는 독립적인 그룹들
Figure 112017085189924-pct00065
에 대응하는 다운믹스 공분산 행렬의 엘리먼트들을 선택함으로써 구성된다. 각각의 그룹
Figure 112017085189924-pct00066
에 대해, 크기 Mk × Mk의 행렬
Figure 112017085189924-pct00067
는 SVD를 사용하여 표현된다:
Figure 112017085189924-pct00068
여기서,
Figure 112017085189924-pct00069
Figure 112017085189924-pct00070
행렬
Figure 112017085189924-pct00071
의 의사-반전은
Figure 112017085189924-pct00072
로서 컴퓨팅되고, 여기서 정규화된 역행렬
Figure 112017085189924-pct00073
는 일 실시예에서:
Figure 112017085189924-pct00074
로 주어지고, 상이한 실시예에서는
Figure 112017085189924-pct00075
로 주어진다.
상대적인 정규화 스칼라
Figure 112017085189924-pct00076
는 절대 임계치
Figure 112017085189924-pct00077
Λ의 최대 값을 사용하여,
Figure 112017085189924-pct00078
로서 결정되며, 예를 들어,
Figure 112017085189924-pct00079
이다.
치환된 다운믹스 공분산 행렬의 반전
Figure 112017085189924-pct00080
는,
Figure 112017085189924-pct00081
로서 획득되고, 다운믹스 공분산 행렬의 반전은 반전 치환 연산을 적용함으로써 컴퓨팅된다:
Figure 112017085189924-pct00082
추가적으로, 본 발명의 방법은 일 실시예에서, 비트스트림에 포함된 정보에 전적으로 기초하여 그룹들을 결정하는 것을 제안한다. 예를 들어, 이러한 정보는 다운믹싱 정보 및 상관 정보에 의해 주어질 수 있다.
더 정확하게는, 일 그룹
Figure 112017085189924-pct00083
는 하기 특성들을 갖는 다운믹스 채널들의 최소 세트에 의해 정의된다:
· 그룹
Figure 112017085189924-pct00084
의 다운믹스 채널들에 포함된 입력 오디오 오브젝트들은 어떠한 다른 다운믹스 채널에도 포함되지 않는다. 예를 들어, 대응하는 다운믹스 이득이 최소 양자화 인덱스로 주어지면 또는 이득이 제로와 동일하면, 입력 오디오 오브젝트는 다운믹스 채널에 포함되지 않는다.
· 그룹
Figure 112017085189924-pct00085
의 다운믹스 채널들에 포함된 모든 입력 신호들 j는 임의의 다른 그룹의 임의의 다운믹스 채널에 포함된 어떠한 입력 신호 j와도 관련되지 않는다. 예를 들어, (예를 들어, WO 2011/039195 A1 비교) 비트스트림 변수
Figure 112017085189924-pct00086
가 사용되어, 2 개의 오브젝트들이 관련되는지(
Figure 112017085189924-pct00087
) 또는 이들이 관련되지 않는지(
Figure 112017085189924-pct00088
)가 시그널링될 수 있다. 또한, 예를 들어, 상관 또는 공분산 정보에 기초하여, 2 개의 오브젝트들이 관련되는 것을 시그널링하는 상이한 방법들이 사용될 수 있다.
그룹들은 모든 프로세싱 대역들에 대해 프레임 당 한번 또는 파라미터 세트 당 한번, 또는 각각의 프로세싱 대역에 대해 프레임 당 한번 또는 파라미터 세트 당 한번 결정될 수 있다.
본 발명의 방법은 또한 일 실시예에서, 가장 계산이 많은 파라메트릭 프로세싱 컴포넌트들에서 그룹화 정보를 이용함으로써, 파라메트릭 분리 시스템(예를 들어, SAOC 3D 디코더)의 계산 복잡도를 상당히 감소시키도록 허용한다.
따라서, 본 발명의 방법은 최종 출력 오디오 품질에 대해 어떠한 기여도 하지 않는 계산들을 제거하는 것을 제안한다. 이러한 계산들은 그룹화 정보에 기초하여 선택될 수 있다.
더 정확하게는, 본 발명의 방법은 각각의 미리 결정된 그룹에 대해 독립적으로 모든 파라메트릭 프로세싱 단계들을 컴퓨팅하고, 마지막으로 결과들을 결합하는 것을 제안한다.
MPEG-3D 오디오의 SAOC 3D 프로세싱 부분의 예를 사용하면, 계산적으로 복잡한 연산들은 아래와 같이 주어진다:
· 엘리먼트들
Figure 112017085189924-pct00089
를 갖는 크기 N × N의 공분산 행렬 E의 계산,
· 크기
Figure 112017085189924-pct00090
×
Figure 112017085189924-pct00091
의 다운믹스 신호 공분산 행렬 Δ의 계산:
Figure 112017085189924-pct00092
;
· 행렬
Figure 112017085189924-pct00093
의 특이값 분해의 계산:
Figure 112017085189924-pct00094
,
·
Figure 112017085189924-pct00095
를 근사화하는 정규화된 역행렬 J의 계산:
Figure 112017085189924-pct00096
,
· 크기 N ×
Figure 112017085189924-pct00097
의 파라메트릭 언-믹싱 행렬 U의 계산:
Figure 112017085189924-pct00098
,
· 크기 N ×
Figure 112017085189924-pct00099
의 언-믹싱 행렬 U와 크기
Figure 112017085189924-pct00100
× N의 렌더링 행렬 R의 곱: RU,
· 크기 Nout × Nout의 공분산 행렬 C의 계산: C k = RER*,
· 크기 Nout × Nout의 파라메트릭 추정된 신호 E y dry의 공분산의 계산:
Figure 112017085189924-pct00101
.
오브젝트 레벨 차이들(OLD)은 특정 시간 및 주파수 대역에 대해 최대 에너지를 갖는 오브젝트에 대한 하나의 오브젝트의 상대적 에너지를 지칭하고, 인터-오브젝트 크로스 코히어런스(IOC)는 특정 시간 및 주파수 대역에서 2 개의 오브젝트들에 대한 유사성 또는 상호-상관의 양을 설명한다.
본 발명의 방법은
Figure 112017085189924-pct00102
인 모든 미리 결정된 K 개의 그룹들
Figure 112017085189924-pct00103
에 대한 모든 파라메트릭 프로세싱 단계들을 개별적으로 컴퓨팅하고, 파라미터 프로세싱의 마지막에 결과들을 결합함으로써 계산 복잡도를 감소시키는 것을 제안한다.
일 그룹
Figure 112017085189924-pct00104
는 Mk 개의 다운믹스 채널들 및 Nk 개의 입력 오디오 오브젝트들을 포함하여,
Figure 112017085189924-pct00105
이다.
각각의 그룹
Figure 112017085189924-pct00106
에 대해, 그룹 다운믹싱 행렬은 그룹
Figure 112017085189924-pct00107
에 포함된 입력 오디오 오브젝트들 및 다운믹스 채널들에 대응하는 다운믹싱 행렬 D의 엘리먼트들을 선택함으로써
Figure 112017085189924-pct00108
로서 정의된다.
유사하게, 그룹 렌더링 행렬
Figure 112017085189924-pct00109
는 그룹
Figure 112017085189924-pct00110
에 포함된 입력 오디오 오브젝트들에 대응하는 행들을 선택함으로써 렌더링 행렬 R로부터 획득된다.
유사하게, 그룹 벡터 OLDk 및 그룹 행렬 ICOk는 그룹
Figure 112017085189924-pct00111
에 포함된 입력 오디오 오브젝트들에 대응하는 엘리먼트들을 선택함으로써 벡터 OLD 및 행렬 ICO로부터 획득된다.
각각의 그룹
Figure 112017085189924-pct00112
에 대해, 설명된 프로세싱 단계들은 다음과 같이 더 적은 계산 프로세싱 단계들로 대체된다:
· 엘리먼트들
Figure 112017085189924-pct00113
를 갖는 크기 Nk × Nk의 그룹 공분산 행렬 E k의 계산,
· 크기 Mk × Mk의 그룹 다운믹스 공분산 행렬 Δ k의 계산: Δ k = D k E k D k*,
· 그룹 다운믹스 공분산 행렬 Δ k = D k E k D k*의 특이값 분해의 계산: Δ k = V k Λ k V k*,
·
Figure 112017085189924-pct00114
를 근사화하는 정규화된 그룹 역행렬 J k의 계산:
Figure 112017085189924-pct00115
,
· 크기 Nk × Mk의 그룹 파라메트릭 언-믹싱 행렬 U k의 계산: U k = E k D k*J k,
· 크기 Nk × Mk의 언-믹싱 행렬 U k와 크기 NUpmix × Nk의 그룹 렌더링 행렬 R k의 곱: R k U k,
· 크기 Nout × Nout의 그룹 공분산 행렬 C k의 계산: C k = R k E k R k*,
· 크기 Nout × Nout의 파라메트릭 추정된 신호 (E y dry)k의 그룹 공분산의 계산:
Figure 112017085189924-pct00116
.
그리고 개별적인 그룹 프로세싱 단계들의 결과들은 마지막에 결합된다:
· 크기
Figure 112017085189924-pct00117
×
Figure 112017085189924-pct00118
의 업믹싱 행렬 RU는 그룹 행렬들 R k U k를 병합함으로써 획득되고:
Figure 112017085189924-pct00119
,
· 크기
Figure 112017085189924-pct00120
×
Figure 112017085189924-pct00121
의 공분산 행렬 C는 그룹 행렬들
Figure 112017085189924-pct00122
를 합산함으로써 획득되고:
Figure 112017085189924-pct00123
,
· 크기
Figure 112017085189924-pct00124
×
Figure 112017085189924-pct00125
의 파라메트릭 추정된 신호
Figure 112017085189924-pct00126
의 공분산은 그룹 행렬들
Figure 112017085189924-pct00127
를 합산함으로써 획득된다:
Figure 112017085189924-pct00128
역상관 단계를 생략하는 한편 도 3에 예시된 다운믹스 프로세서의 구조에 따른 프로세싱 단계들을 요약하면, 기존의 종래 기술의 프레임 파라미터 프로세싱은 도 7에서와 같이 예시될 수 있다.
제안된 본 발명의 방법을 사용하면, 도 8에 예시된 바와 같은 그룹 검출을 사용하여 계산 복잡도가 감소된다.
Figure 112017085189924-pct00129
로 지칭되는 그룹 검출 함수의 구현의 예는 ANSI C 코드 및 정적 함수 "
Figure 112017085189924-pct00130
"를 사용하여 도 9에 주어진다.
제안된 본 발명의 방법은 그룹화 없이 동작들을 수행하는 것보다 계산적으로 상당히 훨씬 더 효율적인 것으로 판명된다. 이는 또한 더 양호한 메모리 할당 및 사용을 허용하고, 계산 병렬화를 지원하고, 수치 에러 누적을 감소시키는 것 등을 할 수 있다.
제안된 본 발명의 방법 및 제안된 본 발명의 장치는 최신 기술의 파라메트릭 오브젝트 분리 시스템들의 기존의 문제점을 해결하고, 상당히 더 높은 출력 오디오 품질을 제공한다.
제안된 본 발명의 방법은, 기존의 비트스트림 정보에 기초하여 전적으로 실현되는 그룹 검출 방법을 설명한다.
제안된 본 발명의 그룹화 솔루션은 계산 복잡도에서 상당한 감소를 도출한다. 일반적으로, 특이 값 분해는 계산이 많고, 이의 복잡도는 반전되는 행렬의 크기에 따라 지수적으로 증가한다:
Figure 112017085189924-pct00131
.
많은 수의 다운믹스 채널들의 경우, 더 작은 크기의 행렬에 대한 SVD 동작을 K회 컴퓨팅하는 것은 계산적으로 훨씬 더 효율적이다:
Figure 112017085189924-pct00132
.
동일한 고려사항들을 사용하면, 디코더에서의 모든 파라메트릭 프로세싱 단계들은 오직 독립적인 그룹들에 대해서만 시스템에서 설명된 모든 행렬 곱셈들을 컴퓨팅하고 결과들을 결합함으로써 효율적으로 구현될 수 있다.
상이한 수의 입력 오디오 오브젝트들, 즉, 입력 오디오 오브젝트들, 다운믹스 채널들 및 고정된 수의 24 개의 출력 채널들에 대한 복잡도 감소의 추정은 하기 표에 주어진다:
Figure 112017085189924-pct00133
본 발명은 하기 추가적인 이점들을 제공한다:
· 오직 하나의 그룹만이 생성될 수 있는 상황들의 경우, 출력은 현재의 최신 기술의 시스템과 동일 비트이다.
· 그룹화는 시스템의 "통과" 특징을 보존한다. 이는, 하나의 입력 오디오 오브젝트가 단독으로 하나의 다운믹스 채널로 믹싱되면, 디코더는 이를 완전히 재구성할 수 있음을 의미한다.
본 발명은 표준 텍스트에 대해 하기의 제안된 예시적인 수정들을 도출한다.
"9.5.4.2.4 정규화된 반전 연산"에서 가산:
Figure 112017085189924-pct00134
을 근사화하는 정규화된 역행렬 J
Figure 112017085189924-pct00135
로서 계산된다.
행렬들 VΛ
Figure 112017085189924-pct00136
와 같이 행렬
Figure 112017085189924-pct00137
의 특이값 분해로서 결정된다.
대각 특이값 행렬 Λ의 정규화된 반전
Figure 112017085189924-pct00138
는 9.5.4.2.5에 따라 컴퓨팅된다.
이 경우, 행렬
Figure 112017085189924-pct00139
는 파라메트릭 언-믹싱 행렬 U의 계산에서 사용되고, 설명된 연산들은 모든 부분-행렬들
Figure 112017085189924-pct00140
에 대해 적용된다. 부분-행렬
Figure 112017085189924-pct00141
는 그룹 k에 할당된 다운믹스 채널들 m 및 n에 대응하는 엘리먼트들
Figure 112017085189924-pct00142
(m, n)을 선택함으로써 획득된다.
그룹 k는 하기 특성들을 갖는 다운믹스 채널들의 최소 세트에 의해 정의된다:
· 그룹 k의 다운믹스 채널들에 포함된 입력 신호들은 어떠한 다른 다운믹스 채널에도 포함되지 않는다. 대응하는 다운믹스 이득이 최소 양자화 인덱스에 의해 주어지면 입력 신호는 다운믹스 채널에 포함되지 않는다(ISO/IEC 23003-2:2010의 표 49).
· 그룹 k의 다운믹스 채널들에 포함된 모든 입력 신호들 i는 임의의 다른 그룹의 임의의 다운믹스 채널에 포함된 어떠한 입력 신호와도 관련되지 않는다(즉,
Figure 112017085189924-pct00143
).
독립적인 정규화된 반전 연산들의 결과들
Figure 112017085189924-pct00144
은 행렬 J를 획득하기 위해 결합된다.
본 발명은 또한 표준 텍스트에 대해 하기 제안된 예시적인 수정들을 도출한다.
9.5.4.2.5 정규화된 반전 연산
Figure 112017085189924-pct00145
을 근사화하는 정규화된 반전 행렬 J
Figure 112017085189924-pct00146
로서 계산된다.
행렬들 VΛ
Figure 112017085189924-pct00147
와 같이 행렬
Figure 112017085189924-pct00148
의 특이값 분해로서 결정된다.
대각 특이값 행렬 Λ의 정규화된 반전
Figure 112017085189924-pct00149
는 9.5.4.2.6에 따라 컴퓨팅된다.
이 경우, 행렬
Figure 112017085189924-pct00150
는 파라메트릭 언-믹싱 행렬 U의 계산에서 사용되고, 설명된 연산들은 모든 부분-행렬들
Figure 112017085189924-pct00151
에 대해 적용된다. 엘리먼트들
Figure 112017085189924-pct00152
를 갖는 크기
Figure 112017085189924-pct00153
의 부분-행렬
Figure 112017085189924-pct00154
는 그룹
Figure 112017085189924-pct00155
에 할당된 다운믹스 채널들 ch1 및 ch2(즉,
Figure 112017085189924-pct00156
Figure 112017085189924-pct00157
)에 대응하는 엘리먼트들
Figure 112017085189924-pct00158
를 선택함으로써 획득된다.
크기
Figure 112017085189924-pct00159
의 그룹
Figure 112017085189924-pct00160
는 하기 특성들을 갖는 다운믹스 채널들의 최소 세트에 의해 정의된다:
· 그룹
Figure 112017085189924-pct00161
의 다운믹스 채널들에 포함된 입력 신호들은 어떠한 다른 다운믹스 채널에도 포함되지 않는다. 대응하는 다운믹스 이득이 최소 양자화 인덱스에 의해 주어지면 입력 신호는 다운믹스 채널에 포함되지 않는다(ISO/IEC 23003-2:2010의 표 49).
· 그룹
Figure 112017085189924-pct00162
의 다운믹스 채널들에 포함된 모든 입력 신호들 j는 임의의 다른 그룹의 임의의 다운믹스 채널에 포함된 어떠한 입력 신호 j와도 관련되지 않는다(즉,
Figure 112017085189924-pct00163
).
독립적인 정규화된 반전 연산들의 결과들
Figure 112017085189924-pct00164
Figure 112017085189924-pct00165
와 같이 행렬 J를 획득하기 위해 결합된다.
9.5.4.2.6 특이값들의 정규화
대각 특이값 행렬 Λ에 대해 사용되는 정규화된 반전 연산 (·)inv은:
Figure 112017085189924-pct00166
와 같이 결정된다.
상대적 정규화 스칼라
Figure 112017085189924-pct00167
는 절대 임계치
Figure 112017085189924-pct00168
Λ의 최대값을 사용하여 다음과 같이 결정된다:
Figure 112017085189924-pct00169
, 여기서
Figure 112017085189924-pct00170
.
하기 도면들 중 일부에서, 개별적인 신호들은 상이한 프로세싱 단계들로부터 획득되는 것으로 도시된다. 이는, 본 발명의 더 양호한 이해를 위해 행해지고, 본 발명을 실현할 하나의 가능성, 즉, 개별적인 신호들을 추출하고 이러한 신호들 또는 프로세싱된 신호들에 대해 프로세싱 단계들을 수행하는 것이다.
다른 실시예는 디코딩된 오디오 신호를 획득하기 위해 필요한 모든 행렬들을 계산하고 이들을 최종 단계로서 인코딩된 오디오 신호에 적용한다. 이는 상이한 행렬들 및 이들 각각의 결합들의 계산을 포함한다.
실시예는 2 개의 방식들 모두를 결합한다.
도 10은 인코딩된 오디오 신호(100)에 의한 입력 오디오 오브젝트들(111)의 표현을 제공하기 위해 복수(이 예에서는 5 개)의 입력 오디오 오브젝트들(111)을 프로세싱하기 위한 장치(10)를 개략적으로 도시한다.
입력 오디오 오브젝트들(111)은 다운믹스 신호들(101)로 할당되거나 다운믹싱된다. 도시된 실시예에서, 5 개의 입력 오디오 오브젝트들(111) 중 4 개는 2 개의 다운믹스 신호들(101)에 할당된다. 하나의 입력 오디오 오브젝트(111)가 단독으로 제 3 다운믹스 신호(101)에 할당된다. 따라서, 5 개의 입력 오디오 오브젝트들(111)은 3 개의 다운믹스 신호들(101)로 표현된다.
이러한 다운믹스 신호들(101)은, 이후에, 가능하게는 일부 도시되지 않은 프로세싱 단계들 이후에, 인코딩된 오디오 신호(100)에 결합된다.
이러한 인코딩된 오디오 신호(100)는, 본 발명의 장치(1)에 공급되고, 이의 일 실시예가 도 11에 도시되어 있다.
인코딩된 오디오 신호(100)로부터 3 개의 다운믹스 신호들(101)(도 10과 비교)이 추출된다.
다운믹스 신호들(101)은 도시된 예에서 다운믹스 신호들(102)의 2 개의 그룹들로 그룹화된다.
각각의 다운믹스 신호(101)는 주어진 수의 입력 오디오 오브젝트들과 연관되기 때문에, 다운믹스 신호들(102)의 각각의 그룹은 주어진 수의 입력 오디오 오브젝트들을 참조한다(대응하는 표현은 입력 오브젝트이다). 따라서, 다운믹스 신호들(102)의 각각의 그룹은 인코딩된 오디오 신호(100)(도 10과 비교)에 의해 인코딩된 복수의 입력 오디오 오브젝트들의 입력 오디오 오브젝트들의 세트와 연관된다.
그룹화는 도시된 실시예에서 하기 제약들 하에서 발생한다:
· 각각의 입력 오디오 오브젝트(111)는 입력 오디오 오브젝트들의 단지 하나의 세트에 속하며, 따라서 다운믹스 신호들(102)의 하나의 그룹에 속한다.
· 각각의 입력 오디오 오브젝트(111)는 다운믹스 신호들의 상이한 그룹과 연관된 상이한 세트에 속하는 입력 오디오 오브젝트(111)에 대해 인코딩된 오디오 신호에서 시그널링되는 어떠한 관계도 갖지 않는다. 이것은, 인코딩된 오디오 신호가 표준에 기인하여 각각의 입력 오디오 오브젝트들의 결합된 컴퓨팅을 도출할 어떠한 그러한 정보도 갖지 않음을 의미한다.
· 각각의 그룹들(102) 내의 다운믹스 신호들(101)의 수는 최소화된다.
다운믹스 신호들(102)의 그룹들(여기에서는 2 개)은 5 개의 입력 오디오 오브젝트들(111)에 대응하는 5 개의 출력 오디오 신호들(103)을 획득하기 위해 추후에 개별적으로 프로세싱된다.
2 쌍의 입력 오디오 오브젝트들(111)(도 10과 비교)을 커버하는 2 개의 다운믹스 신호들(101)과 연관된 다운믹스 신호들(102)의 하나의 그룹은 4 개의 출력 오디오 신호들(103)을 획득하도록 허용한다.
다운믹스 신호들(102)의 다른 그룹은 단일 다운믹스 신호(101)로서 하나의 출력 신호(103)를 도출하거나, 또는 다운믹스 신호들(102)의 이러한 그룹(또는 정확하게는, 하나의 신호 다운믹스 신호의 그룹)은 하나의 입력 오디오 오브젝트(111)(도 10과 비교)를 참조한다.
5 개의 출력 오디오 신호들(103)은 장치(1)의 출력으로서 하나의 디코딩된 오디오 신호(110)로 결합된다.
도 11의 실시예에서, 모든 프로세싱 단계들이 다운믹스 신호들(102)의 그룹에 대해 개별적으로 수행된다.
도 12에 도시된 장치(1)의 실시예는 여기서, 도 10에 도시된 바와 같은 장치(10)에 의해 획득되고, 도 11에 도시된 장치(1)와 동일한 인코딩된 오디오 신호(100)를 수신할 수 있다.
인코딩된 오디오 신호(100)로부터 (3 개의 전송 채널들에 대한) 3 개의 다운믹스 신호들(101)이 획득되어 다운믹스 신호들(102)의 2 개의 그룹들로 그룹화된다. 이러한 그룹들(102)은 도 10에 도시된 5 개의 입력 오디오 오브젝트들에 대응하는 5 개의 프로세싱된 신호들(104)을 획득하기 위해 개별적으로 프로세싱된다.
후속하는 단계들에서, 5 개의 프로세싱된 신호들(104)로부터, 공동으로 8 개의 출력 오디오 신호들(103)이 획득되는데, 예를 들어, 8 개의 출력 채널들에 사용되도록 렌더링된다. 출력 오디오 신호들(103)은 장치(1)로부터 출력되는 디코딩된 오디오 신호(110)로 결합된다. 이러한 실시예에서, 다운믹스 신호들(102)의 그룹들에 대해 개인적인 프로세싱 뿐만 아니라 공동 프로세싱이 수행된다.
도 13은 인코딩된 오디오 신호가 디코딩되는 본 발명의 방법의 실시예의 일부 단계들을 도시한다.
단계(200)에서, 다운믹스 신호들은 인코딩된 오디오 신호로부터 추출된다. 후속 단계(201)에서, 다운믹스 신호들은 다운믹스 신호들의 그룹들에 할당된다.
단계(202)에서, 다운믹스 신호들의 각각의 그룹은 개별적인 그룹 결과들을 제공하도록 개별적으로 프로세싱된다. 그룹들의 개별적인 핸들링은 적어도, 인코딩 프로세스에서 입력 오디오 오브젝트들의 다운믹싱을 통해 결합된 오디오 신호들의 표현들을 획득하기 위한 언-믹싱을 포함한다. 일 실시예(여기에 도시되지 않음)에서, 공동 프로세싱이 개별적인 프로세싱에 후속한다.
단계(203)에서, 이러한 그룹 결과들은 출력될 디코딩된 오디오 신호로 결합된다.
도 14는, 인코딩된 오디오 신호(100)의 다운믹스 신호들(101)을 다운믹스 신호들(102)의 그룹들로 그룹화하는 것에 후속하는 모든 프로세싱 단계들이 개별적으로 수행되는 장치(1)의 실시예를 다시 한번 도시한다. 다운믹스 신호들(101)과 인코딩된 오디오 신호(100)를 수신하는 장치(1)는 다운믹스 신호들(102)의 그룹들을 제공하기 위해 다운믹스 신호들(101)을 그룹화하는 그룹화기(2)를 포함한다. 다운믹스 신호들(102)의 그룹들은 다운믹스 신호들(102)의 각각의 그룹에 대해 개별적으로 필요한 모든 단계들을 수행하는 프로세서(3)에 의해 프로세싱된다. 다운믹스 신호들(102)의 그룹들의 프로세싱의 개별적인 그룹 결과들은, 장치(1)에 의해 출력될 디코딩된 오디오 신호(110)를 획득하기 위해 결합기(4)에 의해 결합된 출력 오디오 신호들(103)이다.
도 15에 도시된 장치(1)는 다운믹스 신호들(101)의 그룹화에 후속하는 도 14에 도시된 실시예와 상이하다. 이 예에서, 다운믹스 신호들(102)의 그룹들에 대해 모든 프로세싱 단계들이 개별적으로 수행되는 것이 아니라, 일부 단계들은 공동으로 수행되고, 따라서 다운믹스 신호들(102)의 하나보다 많은 그룹이 고려된다.
이 때문에, 이러한 실시예의 프로세서(3)는 단지 일부 또는 적어도 하나의 프로세싱 단계를 개별적으로 수행하도록 구성된다. 프로세싱의 결과는 포스트-프로세서(5)에 의해 공동으로 프로세싱되는 프로세싱된 신호들(104)이다. 획득된 출력 오디오 신호들(103)은 최종적으로 결합기(4)에 의해 결합되어 디코딩된 오디오 신호(110)를 도출한다.
도 16에서, 프로세서(3)는 다운믹스 신호들(102)의 그룹들을 수신하고 출력 오디오 신호들(103)을 제공하는 것으로 개략적으로 도시된다.
프로세서(3)는 다운믹스 신호들(102)의 각각의 그룹들의 다운믹스 신호들(101)을 언-믹싱하도록 구성된 언 믹서(300)를 포함한다. 따라서, 언-믹서(300)는 인코더에 의해 각각의 다운믹스 신호들(101)로 결합된 개별적인 입력 오디오 오브젝트들을 재구성한다.
재구성되거나 분리된 입력 오디오 오브젝트들은 렌더러(302)에 제출된다. 렌더러(302)는 렌더링된 신호들(112)을 제공하기 위해 상기 디코딩된 오디오 신호(110)의 출력 상황에 대해 각각의 그룹들의 언-믹싱된 다운믹스 신호들을 렌더링하도록 구성된다. 따라서, 렌더링된 신호들(112)은 디코딩된 오디오 신호의 리플레이 시나리오의 종류에 적응된다. 렌딩은 예를 들어, 사용되는 스피커들의 수, 그들의 배열 또는 디코딩된 오디오 신호의 재생에 의해 획득될 효과들의 종류에 의존한다.
렌더링된 신호들(112) Ydry는 추가로, 상기 렌더링된 신호들(112)에 대한 적어도 하나의 역상관 단계를 수행하도록 구성되고, 수행된 역상관 단계의 결과들 Ywet을 상기 각각의 렌더링된 신호들(112) Ydry와 결합하도록 구성되는 포스트-믹서(303)에 제출된다. 따라서, 포스트-믹서(303)는 하나의 다운믹스 신호에서 결합된 신호들을 역상관하는 단계들을 수행한다.
결과적인 출력 오디오 신호들(103)은 최종적으로 앞서 도시된 바와 같이 결합기에 제출된다.
이 단계들에 있어서, 프로세서(3)는, 여기서는 프로세서(3)의 상이한 유닛들과 별개지만, 도시되지 않은 대안적인 실시예에서는 각각 그룹화기(300), 렌더러(302) 및 포스트-믹서(303)의 특징인 계산기(301)에 의존한다.
필요한 행렬들, 값들 등이 다운믹스 신호들(102)의 각각의 그룹들에 대해 개별적으로 계산된다는 사실이 관련된다. 이는, 예를 들어, 컴퓨팅될 행렬들이 최신 기술에서 사용되는 행렬들보다 작다는 것을 의미한다. 행렬들은 다운믹스 신호들의 그룹들과 연관된 입력 오디오 오브젝트들의 각각의 세트의 입력 오디오 오브젝트들의 수 및/또는 다운믹스 신호들의 각각의 그룹에 속하는 다운믹스 신호들의 수에 의존하는 크기들을 갖는다.
최신 기술에서, 언-믹싱에 사용될 행렬은 입력 오디오 오브젝트들의 수 또는 이러한 수와 입력 오디오 신호들을 곱한 크기를 갖는다. 본 발명은 다운믹스 신호들의 각각의 그룹에 속하는 입력 오디오 신호들의 수에 의존하는 크기를 갖는 더 작은 행렬을 컴퓨팅하도록 허용한다.
도 17에서, 렌더링의 목적이 설명된다.
장치(1)는 인코딩된 오디오 신호(100)를 수신하고 이를 디코딩하여 디코딩된 오디오 신호(110)를 제공한다.
이러한 디코딩된 오디오 신호(110)는 특정 출력 상황 또는 출력 시나리오(400)에서 재생된다. 디코딩된 오디오 신호(110)는 이 예에서 5 개의 스피커들(401), 즉, 좌측, 우측, 중앙, 좌측 서라운드 및 우측 서라운드에 의해 출력된다. 청취자(402)는 중앙 스피커를 향하는 시나리오(400)의 중간에 있다.
장치(1) 내의 렌더러는 전달될 재구성된 오디오 신호들을 개별적인 스피커들(401)에 분배하고, 따라서 주어진 출력 상황(400)에서 원래의 오디오 오브젝트들의 재구성된 표현을 오디오 신호들의 소스들로서 분배한다.
따라서, 렌더링은 출력 상황(400)의 종류 및 청취자(402)의 개별적인 선호도 취향에 의존한다.
일부 양상들은 장치의 상황에서 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 표현하는 것이 명백하며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 상황에서 설명되는 양상들은 또한 대응하는 장치의 블록 또는 아이템 또는 특징의 설명을 표현한다. 방법 단계들의 일부 또는 전부는, 예를 들어, 마이크로프로세서, 프로그래밍가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이를 사용하여) 실행될 수 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 하나 이상은 이러한 장치에 의해 실행될 수 있다.
특정한 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로, 또는 적어도 부분적으로 하드웨어로 또는 적어도 부분적으로 소프트웨어로 구현될 수 있다. 구현은, 각각의 방법이 수행되도록 프로그래밍가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 전자적으로 판독가능한 제어 신호들을 저장하는 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독가능일 수 있다.
본 발명에 따른 일부 실시예들은, 본원에서 설명되는 방법들 중 하나가 수행되도록 프로그래밍가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 물건으로서 구현될 수 있고, 프로그램 코드는, 컴퓨터 프로그램 물건이 컴퓨터 상에서 실행되는 경우 본 방법들 중 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어, 머신-판독가능 캐리어 상에 저장될 수 있다.
다른 실시예들은, 본원에서 설명되는 방법들 중 하나를 수행하기 위한, 머신 판독가능 캐리어 상에 저장되는 컴퓨터 프로그램을 포함한다.
따라서, 달리 말하면, 창작적 방법의 일 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행되는 경우, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 창작적 방법들의 추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 포함되고 기록되는 데이터 캐리어(예를 들어, 디지털 저장 매체 또는 컴퓨터 판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 통상적으로 유형(tangible)이고 그리고/또는 비일시적이다.
따라서, 창작적 방법의 추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 신호들의 시퀀스 또는 데이터 스트림이다. 예를 들어, 신호들의 시퀀스 또는 데이터 스트림은, 예를 들어, 인터넷을 통해, 데이터 통신 접속을 통해 전송되도록 구성될 수 있다.
추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하도록 구성 또는 적응되는 프로세싱 수단, 예를 들어, 컴퓨터 또는 프로그래밍가능 로직 디바이스를 포함한다.
추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가적인 실시예는, 본원에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성되는 장치 또는 시스템을 포함한다. 수신기는, 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은, 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예들에서, 프로그래밍가능 로직 디바이스(예를 들어, 필드 프로그래밍가능 게이트 어레이)는 본원에서 설명되는 방법들의 기능들 중 일부 또는 전부를 수행하기 위해 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍가능 게이트 어레이는, 본원에서 정의되는 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 임의의 하드웨어 장치에 의해 바람직하게 수행된다.
본원에 설명된 장치는 하드웨어 장치를 사용하여 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.
본원에 설명된 방법들은 하드웨어 장치를 사용하여 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.
참조문헌
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and ap-plications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined in-stantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for in-formed source separation of audio signals with a single sensor", IEEE Trans-actions on Audio, Speech and Language Processing, 2010.
[ISS3] A. Liutkus, J. Pinel, R. Badeau, L. Girin, G. Richard: "Informed source separa-tion through spectrogram coding and data embedding", Signal Processing Journal, 2011.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[ISS5] S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011.
[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.
[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006.
[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Teren-tiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Ob-ject Based Audio Coding", 124th AES Convention, Amsterdam 2008.
[SAOC3D] ISO/IEC, JTC1/SC29/WG11 N14747, Text of ISO/MPEG 23008-3/DIS 3D Audio, Sapporo, July 2014.
[SAOC3D2] J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, "MPEG-H Audio - The new standard for universal spatial / 3D audio coding," 137th AES Convention, Los Angeles, 2011.

Claims (22)

  1. 복수의 입력 오디오 오브젝트들(111) 및 오브젝트 파라미터들(E)과 연관된 복수의 다운믹스(downmix) 신호들(101)을 포함하는 인코딩된 오디오 신호(100)를 프로세싱하기 위한 장치(1)로서,
    상기 인코딩된 오디오 신호(100) 내의 정보에 기초하여, 상기 복수의 다운믹스 신호들(101)을 다운믹스 신호들(102)의 복수의 그룹들로 그룹화하도록 구성되는 그룹화기(2) ―상기 다운믹스 신호들(102)의 각각의 그룹은 복수의 입력 오디오 오브젝트들(111)의 상기 입력 오디오 오브젝트들(111)의 세트와 연관됨―,
    그룹 결과들(103, 104)을 제공하기 위해 입력 오디오 오브젝트들(111)의 각각의 세트의 오브젝트 파라미터들(E k)에 대해 개별적으로 적어도 하나의 프로세싱 단계를 수행하도록 구성되는 프로세서(3), 및
    디코딩된 오디오 신호(110)를 제공하기 위해 상기 그룹 결과들(103, 104)을 결합하도록 구성되는 결합기(4)를 포함하고,
    상기 그룹화기(2)는, 상기 복수의 입력 오디오 오브젝트들(111)의 각각의 입력 오디오 오브젝트(111)가 입력 오디오 오브젝트들(111)의 단지 하나의 세트에 속하도록, 상기 복수의 다운믹스 신호들(101)을, 다운믹스 신호들(102)의 상기 복수의 그룹들로 그룹화하도록 구성되고,
    상기 그룹화기(2)는 상기 복수의 다운믹스 신호들(101)을 다운믹스 신호들(102) 의 상기 복수의 그룹들로 그룹화하여, 입력 오디오 오브젝트들의 각각의 세트의 각각의 입력 오디오 오브젝트(111)가 다른 입력 오디오 오브젝트들(111)을 갖는 인코딩된 오디오 신호(100)에서 시그널링된 관계와 무관하거나, 또는 오직 입력 오디오 오브젝트들(111)의 동일한 세트에 속하는 적어도 하나의 입력 오디오 오브젝트(111)를 갖는 인코딩된 오디오 신호(100)에서 시그널링된 관계를 갖도록 구성되는,
    장치(1).
  2. 제 1 항에 있어서,
    상기 그룹화기(2)는 다운믹스 신호들(102)의 각각의 그룹 내의 다운믹스 신호들(101)의 수를 최소화하면서 상기 복수의 다운믹스 신호들(101)을 다운믹스 신호들(102)의 상기 복수의 그룹들로 그룹화하도록 구성되는,
    장치(1).
  3. 제 1 항에 있어서,
    상기 그룹화기(2)는 단지 하나의 단일 다운믹스 신호(101)가 다운믹스 신호들(102)의 하나의 그룹에 속하도록, 상기 복수의 다운믹스 신호들(101)을 다운믹스 신호들(102)의 상기 복수의 그룹들로 그룹화하도록 구성되는,
    장치(1).
  4. 제 1 항에 있어서,
    상기 그룹화기(2)는 적어도,
    다운믹스 신호(101)가 다운믹스 신호들(102)의 기존의 그룹에 할당되는지 여부를 검출하는 단계;
    상기 다운믹스 신호(101)와 연관된 상기 복수의 입력 오디오 오브젝트들(111) 중 적어도 하나의 입력 오디오 오브젝트(111)가 다운믹스 신호들(102)의 기존의 그룹과 연관된 입력 오디오 오브젝트들(111)의 세트의 일부인지 여부를 검출하는 단계;
    상기 다운믹스 신호(101)가 다운믹스 신호들(102)의 기존의 그룹에 대한 할당과 무관한 경우 및 상기 다운믹스 신호(101)와 연관된 상기 복수의 입력 오디오 오브젝트들 중 모든 입력 오디오 오브젝트들(111)이 다운믹스 신호들(102)의 상기 기존의 그룹과 무관한 경우 상기 다운믹스 신호(101)를 다운믹스 신호들(102)의 새로운 그룹에 할당하는 단계; 및
    상기 다운믹스 신호(101)가 다운믹스 신호들(102)의 기존의 그룹에 할당되는 경우 또는 상기 다운믹스 신호(101)와 연관된 상기 복수의 입력 오디오 오브젝트들 중 적어도 하나의 입력 오디오 오브젝트(111)가 다운믹스 신호들(102)의 상기 기존의 그룹과 연관되는 경우, 상기 다운믹스 신호(101)를 다운믹스 신호들(102)의 상기 기존의 그룹과 결합하는 단계
    를 적용함으로써, 상기 복수의 다운믹스 신호들(101)을 다운믹스 신호들(102)의 상기 복수의 그룹들로 그룹화하도록 구성되는,
    장치(1).
  5. 제 1 항에 있어서,
    상기 프로세서(3)는 그룹 결과들로서 개별적인 행렬들을 제공하기 위해 입력 오디오 오브젝트들(111)의 각각의 세트의 오브젝트 파라미터들(E k)에 대해 개별적으로 다양한 프로세싱 단계들을 수행하도록 구성되고,
    상기 결합기(4)는 상기 개별적인 행렬들을 결합하도록 구성되는,
    장치(1).
  6. 제 1 항에 있어서,
    상기 프로세서(3)는 개별적인 행렬들을 제공하기 위해 입력 오디오 오브젝트들(111)의 각각의 세트의 오브젝트 파라미터들(E k)에 대해 개별적으로 적어도 하나의 프로세싱 단계를 수행하도록 구성되고,
    상기 장치(1)는 적어도 하나의 전체 행렬을 제공하기 위해 공동으로 오브젝트 파라미터들을 프로세싱하도록 구성되는 포스트-프로세서(5)를 포함하고,
    상기 결합기(4)는 상기 개별적인 행렬들 및 상기 적어도 하나의 전체 행렬을 결합하도록 구성되는,
    장치(1).
  7. 제 1 항에 있어서,
    상기 프로세서(3)는, 다운믹스 신호들(102)의 각각의 그룹과 연관된 입력 오디오 오브젝트들의 세트의 입력 오디오 오브젝트들의 수 및 다운믹스 신호들(102)의 각각의 그룹에 속하는 다운믹스 신호들(101)의 수 중 적어도 하나에 의존하는 크기들을 갖는 다운믹스 신호들(102)의 행렬들의 각각의 그룹에 대해 개별적으로 컴퓨팅하도록 구성된 계산기(301)를 포함하는,
    장치(1).
  8. 제 1 항에 있어서,
    프로세서(3)는 다운믹스 신호들(102)의 각각의 그룹 내의 최대 에너지 값에 기초하여 다운믹스 신호들의 각각의 그룹에 대해 개별적인 임계치를 컴퓨팅하도록 구성되는,
    장치(1).
  9. 제 1 항에 있어서,
    상기 프로세서(3)는 다운믹스 신호들(102)의 각각의 그룹에 대한 개별적인 다운믹싱 행렬(D k)을 결정하도록 구성되고,
    상기 프로세서(3)는 다운믹스 신호들(102)의 각각의 그룹에 대한 개별적인 그룹 공분산 행렬(D k)을 결정하도록 구성되고,
    상기 프로세서(3)는 상기 개별적인 다운믹싱 행렬(D k) 및 상기 개별적인 그룹 공분산 행렬(E k)에 기초하여 다운믹스 신호들(102)의 각각의 그룹에 대한 개별적인 그룹 다운믹스 공분산 행렬(Δ k)을 결정하도록 구성되고,
    상기 프로세서(3)는 다운믹스 신호들(102)의 각각의 그룹에 대한 개별적인 정규화된 그룹 역행렬(J k)을 결정하도록 구성되는,
    장치(1).
  10. 제 9 항에 있어서,
    상기 결합기(4)는 전체 정규화된 그룹 역행렬(J)을 획득하기 위해 상기 개별적인 정규화된 그룹 역행렬(J k)을 결합하도록 구성되는,
    장치(1).
  11. 제 9 항에 있어서,
    상기 프로세서(3)는 상기 개별적인 다운믹싱 행렬(D k), 상기 개별적인 그룹 공분산 행렬(E k) 및 상기 개별적인 정규화된 그룹 역행렬(J k)에 기초하여 다운믹스 신호들(102)의 각각의 그룹에 대한 개별적인 그룹 파라메트릭 언-믹싱 행렬(U k)을 결정하도록 구성되고,
    상기 결합기(4)는 전체 그룹 파라메트릭 넌-믹싱 행렬(U)을 획득하기 위해 상기 개별적인 그룹 파라메트릭 넌-믹싱 행렬(U k)을 결합하도록 구성되는,
    장치(1).
  12. 제 1 항에 있어서,
    상기 프로세서(3)는 다운믹스 신호들(102)의 각각의 그룹에 대한 개별적인 그룹 렌더링 행렬(R k)을 결정하도록 구성되는,
    장치(1).
  13. 제 12 항에 있어서,
    상기 프로세서(3)는 상기 개별적인 그룹 렌더링 행렬(R k) 및 상기 개별적인 그룹 파라메트릭 언-믹싱 행렬(U k)에 기초하여 다운믹스 신호들(102)의 각각의 그룹에 대한 개별적인 업믹싱 행렬(R k U k)을 결정하도록 구성되고,
    상기 결합기(4)는 전체 업믹싱 행렬(RU)을 획득하기 위해 개별적인 업믹싱 행렬들(R k U k)을 결합하도록 구성되는,
    장치(1).
  14. 제 12 항에 있어서,
    상기 프로세서(3)는 상기 개별적인 그룹 렌더링 행렬(R k) 및 상기 개별적인 그룹 공분산 행렬(E k)에 기초하여 다운믹스 신호들(102)의 각각의 그룹에 대한 개별적인 그룹 공분산 행렬(C k)을 결정하도록 구성되고,
    상기 결합기(4)는 전체 그룹 공분산 행렬(C)을 획득하기 위해 개별적인 그룹 공분산 행렬들(C k)을 결합하도록 구성되는,
    장치(1).
  15. 제 12 항에 있어서,
    상기 프로세서(3)는 상기 개별적인 그룹 렌더링 행렬(R k), 상기 개별적인 그룹 파라메트릭 언-믹싱 행렬(U k), 상기 개별적인 다운믹싱 행렬(D k) 및 상기 개별적인 그룹 공분산 행렬(E k)에 기초하여 파라메트릭 추정된 신호(E y dry)k의 개별적인 그룹 공분산 행렬을 결정하도록 구성되고,
    상기 결합기(4)는 전체 파라메트릭 추정된 신호 E y dry를 획득하기 위해 상기 파라메트릭 추정된 신호(E y dry)k의 상기 개별적인 그룹 공분산 행렬들을 결합하도록 구성되는,
    장치(1).
  16. 제 1 항에 있어서,
    상기 프로세서(3)는 다운믹스 공분산 행렬(E DMX)의 특이값 분해에 기초하여 정규화된 역행렬(J)을 결정하도록 구성되는,
    장치(1).
  17. 제 1 항에 있어서,
    상기 프로세서(3)는 다운믹스 신호들(102)의 각각의 그룹(k)에 할당된 다운믹스 신호들(m, n)에 대응하는 엘리먼트들(Δ (m, n))을 선택함으로써 파라메트릭 언-믹싱 행렬(U)의 결정을 위한 부분-행렬(Δ k)을 결정하도록 구성되는,
    장치(1).
  18. 제 1 항에 있어서,
    상기 결합기(4)는 다운믹스 신호들(102)의 각각의 그룹에 대해 개별적으로 결정된 행렬들에 기초하여 포스트-믹싱 행렬(P)을 결정하도록 구성되고,
    상기 결합기(4)는 상기 디코딩된 오디오 신호(110)를 획득하기 위해 상기 복수의 다운믹스 신호들(101)에 포스트-믹싱 행렬(P)을 적용하도록 구성되는,
    장치(1).
  19. 복수의 입력 오디오 오브젝트들(111) 및 오브젝트 파라미터들(E)과 연관된 복수의 다운믹스 신호들(101)을 포함 인코딩된 오디오 신호(100)를 프로세싱하기 위한 방법으로서,
    상기 방법은,
    상기 인코딩된 오디오 신호(100) 내의 정보에 기초하여, 상기 다운믹스 신호들(101)을 다운믹스 신호들(102)의 복수의 그룹들로 그룹화하는 단계 ―상기 다운믹스 신호들(102)의 각각의 그룹은 상기 복수의 입력 오디오 오브젝트들(111)의 입력 오디오 오브젝트들(111)의 세트와 연관됨―,
    그룹 결과들(103, 104)을 제공하기 위해 입력 오디오 오브젝트들(111)의 각각의 세트의 오브젝트 파라미터들(E k)에 대해 개별적으로 적어도 하나의 프로세싱 단계를 수행하는 단계, 및
    디코딩된 오디오 신호(101)를 제공하기 위해 상기 그룹 결과들(103, 104)을 결합하는 단계를 포함하고,
    상기 복수의 다운믹스 신호들(101)을, 다운믹스 신호들(102)의 상기 복수의 그룹들로 그룹화하여, 상기 복수의 입력 오디오 오브젝트들(111)의 각각의 입력 오디오 오브젝트(111)는 입력 오디오 오브젝트들(111)의 단지 하나의 세트에 속하고,
    상기 복수의 다운믹스 신호들(101)을 다운믹스 신호들(102)의 상기 복수의 그룹들로 그룹화하여, 입력 오디오 오브젝트들의 각각의 세트의 각각의 입력 오디오 오브젝트(111)는 다른 입력 오디오 오브젝트들(111)을 갖는 인코딩된 오디오 신호(100)에서 시그널링된 관계와 무관하거나, 또는 오직 입력 오디오 오브젝트들(111)의 동일한 세트에 속하는 적어도 하나의 입력 오디오 오브젝트(111)를 갖는 인코딩된 오디오 신호(100)에서 시그널링된 관계를 갖는,
    방법.
  20. 컴퓨터 판독 가능 매체로서,
    컴퓨터 또는 프로세서가 실행되고 있을 때, 내부에 제 19 항의 상기 방법을 실행시키기 위한 컴퓨터 프로그램이 저장된,
    컴퓨터 판독 가능 매체.

  21. 삭제
  22. 삭제
KR1020177024703A 2015-02-02 2016-02-01 인코딩된 오디오 신호를 프로세싱하기 위한 장치 및 방법 KR102088337B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15153486 2015-02-02
EP15153486.4 2015-02-02
PCT/EP2016/052037 WO2016124524A1 (en) 2015-02-02 2016-02-01 Apparatus and method for processing an encoded audio signal

Publications (2)

Publication Number Publication Date
KR20170110680A KR20170110680A (ko) 2017-10-11
KR102088337B1 true KR102088337B1 (ko) 2020-03-13

Family

ID=52449979

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177024703A KR102088337B1 (ko) 2015-02-02 2016-02-01 인코딩된 오디오 신호를 프로세싱하기 위한 장치 및 방법

Country Status (16)

Country Link
US (3) US10152979B2 (ko)
EP (1) EP3254280B1 (ko)
JP (2) JP6564068B2 (ko)
KR (1) KR102088337B1 (ko)
CN (1) CN107533845B (ko)
AR (1) AR103584A1 (ko)
AU (1) AU2016214553B2 (ko)
CA (1) CA2975431C (ko)
HK (1) HK1247433A1 (ko)
MX (1) MX370034B (ko)
MY (1) MY182955A (ko)
RU (1) RU2678136C1 (ko)
SG (1) SG11201706101RA (ko)
TW (1) TWI603321B (ko)
WO (1) WO2016124524A1 (ko)
ZA (1) ZA201704862B (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX370034B (es) 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.
CN110739000B (zh) * 2019-10-14 2022-02-01 武汉大学 一种适应于个性化交互系统的音频对象编码方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2862799B1 (fr) * 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
US7792722B2 (en) 2004-10-13 2010-09-07 Ares Capital Management Pty Ltd Data processing system and method incorporating feedback
EP1946294A2 (en) * 2005-06-30 2008-07-23 LG Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
CN101479786B (zh) * 2006-09-29 2012-10-17 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
RU2417459C2 (ru) * 2006-11-15 2011-04-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для декодирования аудиосигнала
AU2008243406B2 (en) * 2007-04-26 2011-08-25 Dolby International Ab Apparatus and method for synthesizing an output signal
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US8817992B2 (en) 2008-08-11 2014-08-26 Nokia Corporation Multichannel audio coder and decoder
US20100042446A1 (en) 2008-08-12 2010-02-18 Bank Of America Systems and methods for providing core property review
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
BRPI1009648B1 (pt) * 2009-06-24 2020-12-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V decodificador de sinal de áudio, método para decodificador um sinal de áudio e programa de computador com o uso de etapas de processamento de objeto de áudio em cascata
KR102374897B1 (ko) * 2011-03-16 2022-03-17 디티에스, 인코포레이티드 3차원 오디오 사운드트랙의 인코딩 및 재현
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
TWI505262B (zh) * 2012-05-15 2015-10-21 Dolby Int Ab 具多重子流之多通道音頻信號的有效編碼與解碼
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
EP2717262A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
KR20140128564A (ko) * 2013-04-27 2014-11-06 인텔렉추얼디스커버리 주식회사 음상 정위를 위한 오디오 시스템 및 방법
EP2830050A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
CN104683933A (zh) * 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
WO2015150384A1 (en) * 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
CN112802496A (zh) * 2014-12-11 2021-05-14 杜比实验室特许公司 元数据保留的音频对象聚类
MX370034B (es) 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Draft International Standard ISO/IEC DIS 23008-3. Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio. ISO/IEC JTC 1/SC 29/WG 11. 2014.0
ISO/IEC CD 23008-3. Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio. ISO/IEC JTC 1/SC 29/WG 11. 2014.04.04.*

Also Published As

Publication number Publication date
BR112017015930A2 (pt) 2018-03-27
TW201633290A (zh) 2016-09-16
MX370034B (es) 2019-11-28
HK1247433A1 (zh) 2018-09-21
RU2678136C1 (ru) 2019-01-23
US10529344B2 (en) 2020-01-07
US20170323647A1 (en) 2017-11-09
JP2019219669A (ja) 2019-12-26
TWI603321B (zh) 2017-10-21
WO2016124524A1 (en) 2016-08-11
US20200194012A1 (en) 2020-06-18
KR20170110680A (ko) 2017-10-11
US20190108847A1 (en) 2019-04-11
AR103584A1 (es) 2017-05-17
US10152979B2 (en) 2018-12-11
AU2016214553A1 (en) 2017-09-07
CA2975431A1 (en) 2016-08-11
CN107533845A (zh) 2018-01-02
MX2017009769A (es) 2018-03-28
CA2975431C (en) 2019-09-17
AU2016214553B2 (en) 2019-01-31
EP3254280B1 (en) 2024-03-27
US11004455B2 (en) 2021-05-11
SG11201706101RA (en) 2017-08-30
EP3254280A1 (en) 2017-12-13
CN107533845B (zh) 2020-12-22
JP2018507444A (ja) 2018-03-15
JP6906570B2 (ja) 2021-07-21
MY182955A (en) 2021-02-05
ZA201704862B (en) 2019-06-26
JP6564068B2 (ja) 2019-08-21

Similar Documents

Publication Publication Date Title
EP2483887B1 (en) Mpeg-saoc audio signal decoder, method for providing an upmix signal representation using mpeg-saoc decoding and computer program using a time/frequency-dependent common inter-object-correlation parameter value
AU2016234987B2 (en) Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases
CA2750272A1 (en) Apparatus, method and computer program for upmixing a downmix audio signal
KR20170063657A (ko) 오디오 인코더 및 디코더
US11004455B2 (en) Apparatus and method for processing an encoded audio signal
Kim et al. Binaural decoding for efficient multi-channel audio service in network environment
BR112017015930B1 (pt) Aparelho e método para processar um sinal de áudio codificado
CA3192886A1 (en) Processing parametrically coded audio

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right