KR101303441B1 - 다운믹스를 이용한 오디오 코딩 - Google Patents

다운믹스를 이용한 오디오 코딩 Download PDF

Info

Publication number
KR101303441B1
KR101303441B1 KR1020117028843A KR20117028843A KR101303441B1 KR 101303441 B1 KR101303441 B1 KR 101303441B1 KR 1020117028843 A KR1020117028843 A KR 1020117028843A KR 20117028843 A KR20117028843 A KR 20117028843A KR 101303441 B1 KR101303441 B1 KR 101303441B1
Authority
KR
South Korea
Prior art keywords
signal
audio signal
downmix
type audio
type
Prior art date
Application number
KR1020117028843A
Other languages
English (en)
Other versions
KR20120004546A (ko
Inventor
올리버 헬무쓰
위르겐 헤레
레오니드 테렌티에브
안드레아스 호엘처
코르넬리아 팔히
요한니스 힐퍼트
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=40149576&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR101303441(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20120004546A publication Critical patent/KR20120004546A/ko
Application granted granted Critical
Publication of KR101303441B1 publication Critical patent/KR101303441B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Abstract

그 내에 인코딩된 제1 타입 오디오 신호 및 제2 타입 오디오 신호를 가지는 멀티-오디오-객체 신호를 디코딩하는 오디오 디코더로서, 상기 멀티-오디오-객체 신호는 다운믹스 신호(56) 및 부가 정보(58)로 구성되고, 상기 부가 정보는 제1 기 설정된 시간/주파수 해상도(42)의 제1 타입 오디오 신호 및 제2 타입 오디오 신호의 레벨 정보(60), 그리고 제2 기 설정된 시간/주파수 해상도에서 잔여 레벨 값들을 특정하는 잔여 신호(62)를 포함하고, 상기 오디오 디코더는, 상기 레벨 정보(60)에 기초하여 예측 계수들(64)을 계산하는 수단(52); 및 제1 타입 오디오 신호를 근사화하는(approximating) 제1 업-믹스 오디오 신호 및 제2 타입 오디오 신호를 근사화하는 제2 업-믹스 오디오 신호를 획득하기 위해 예측 계수들(64) 및 잔여 신호(62)에 기초하여 다운믹스 신호(56)를 업-믹싱하는 수단을 포함하는, 오디오 디코더.

Description

다운믹스를 이용한 오디오 코딩{AUDIO CODING USING DOWNMIX}
본 출원은 신호의 다운-믹싱을 이용한 오디오 코딩과 관련된다.
하나의 채널, 즉, 모노 오디오 신호들의 오디오 데이터를 효과적으로 인코딩 혹은 압축하기 위해 많은 오디오 인코딩 알고리즘이 제안되어 왔다. 음향심리학을 사용하여, 예를 들어, PCM 코딩된 오디오 신호로부터 무관성(irrelevancy)을 제거하기 위해 오디오 샘플들이 적절히 스케일링되고, 양자화되고, 혹은 0으로 설정되기도 한다. 리던던시 제거 또한 수행된다.
추가적인 단계로서, 스테레오 오디오 신호들의 좌측 및 우측 채널 간의 유사도가 스테레오 오디오 신호들을 효과적으로 인코딩/압축하기 위해 사용되어 왔다.
하지만, 이후의 어플리케이션들은 오디오 코딩 알고리즘에 대한 추가적인 요구들을 제기한다. 예를 들어, 원격회의, 컴퓨터 게임, 음악 공연 등에 있어서, 부분적으로 또는 심지어 완전히 비상관된 여러 오디오 신호들이 병렬로 전송되어야 한다. 이러한 오디오 신호들에 대해 필요한 비트 레이트를 낮은-비트 레이트 전송 어플리케이션에 부합할 만큼 낮게 유지시키기 위해, 최근 멀티플 입력 오디오 신호들을, 스테레오 혹은 심지어 모노 다운믹스 신호와 같은 다운믹스 신호로 다운믹스하는 오디오 코덱이 소개되었다. 예를 들어, MPEG 서라운드 스탠다드는 표준에 의해 서술된 방식으로 입력 채널들을 다운믹스 신호로 다운믹스한다. 다운믹싱은 두 신호들을 하나로 및 세 신호들을 둘로 각각 다운믹싱하는 소위 OTT-1 및 TTT-1 박스들을 사용하여 수행된다. 세 신호보다 많은 신호들을 다운믹스하기 위해서는, 이러한 박스들의 계층적 구조가 이용된다. 각 OTT-1 박스가, 모노 다운믹스 신호와 더불어 두 입력 채널들 간의 채널 레벨 차이들, 그리고 두 입력 채널들 간의 일관성 또는 상호-상관성을 나타내는 인터-채널 일관성/상호-상관성도 출력한다. 파라미터들은 MPEG 서라운드 데이터 스트림 내에서 MPEG 서라운드 코더의 다운믹스 신호와 함께 출력된다. 유사하게, 각 TTT-1 박스가 결과적인 스테레오 다운믹스 신호로부터 3 개의 입력 채널들을 발견하도록 하는 채널 예측 계수들을 전송한다. 채널 예측 계수들이 또한 MPEG 서라운드 데이터 스트림 내에서 부가 정보로서 전송된다. MPEG 서라운드 디코더는 전송된 부가 정보를 이용해 다운믹스 신호를 업믹스하고 MPEG 서라운드 인코더로의 원래 채널 입력을 회복한다.
하지만, MPEG 서라운드는 불행히도, 많은 어플리케이션에서 요구하는 모든 요구사항들을 만족시키지는 못한다. 예를 들어, MPEG 서라운드 디코더는 MPEG 서라운드 인코더의 다운믹스 신호를 업믹스하는 데에 전용이어서 MPEG 서라운드 인코더의 입력 채널들이 그대로 회복된다. 즉, MPEG 서라운드 데이터 스트림은 인코딩에 사용된 확성기 구조의 사용에 의해 재생되는 데 전용적이다.
하지만, 몇몇 구현들에 따르면 확성기 구조가 디코더 측에서 변경되는 것을 선호할 수도 있다.
후자의 필요성들을 다루기 위해, 현재 공간적 오디오 객체 코딩(SAOC) 표준이 설계되어 있다. 각 채널은 개별 객체로서 취급되고, 모든 객체들이 다운믹스 신호로 다운믹스된다. 하지만, 추가적으로 개별적인 객체들 또한 예를 들어, 악기 혹은 성도(vocal track) 같은 개별적인 사운드 소스를 포함할 수 있다. 하지만, MPEG 서라운드 디코더와는 다르게, SAOC 디코더는 개별적으로 다운믹스 신호를 업믹스하여 개별적인 객체들을 어떤 확성기 구조에서도 재생하는 것이 자유롭다. SAOC 디코더로 하여금 SAOC 데이터 스트림 내에 인코딩된 개별적인 객체들을 회복하도록 하기 위해서, 객체 레벨 차이들 및, 스테레오 신호를 함께 형성하는 객데들에 대해서는, 인터-객체 크로스 상관 파라미터들이 SAOC 비트스트림 내에 부가 정보로서 전송된다. 이와 더불어, SAOC 디코더/트랜스코더는 개별 객체들이 어떻게 다운믹스 신호로 다운믹스되었는지를 밝히는 정보를 제공받는다. 따라서, 디코더 측에서, 개별적인 SAOC 채널들을 회복하고 사용자-제어된 렌더링 정보를 사용함으로써 이러한 신호들을 어떤 확성기 구조상에 렌더링하는 것이 가능하다.
하지만, 비록 SAOC 코덱이 오디오 객체들을 개별적으로 다루기 위해 설계되었으나, 어떤 어플리케이션들은 보다 더 요구사항이 까다롭다. 예를 들어, 가라오케 어플리케이션들은 포어그라운드(foreground) 오디오 신호 또는 포어그라운드 오디오 신호들로부터 백그라운드 오디오 신호를 완전히 분리할 것을 요구한다. 역으로, 솔로 모드에서는, 포어그라운드 객체들이 백그라운드 객체들로부터 분리되어야 한다. 하지만, 개별적인 오디오 객체들의 동등한 취급으로 인해 다운믹스 신호로부터 백그라운드 객체들 혹은 포어그라운드 객체들 각각을 완전히 분리하는 것은 불가능하였다.
따라서, 본 발명은 오디오 신호들의 다운믹싱을 사용하여 예를 들어, 가라오케/솔로 모드 어플리케이션과 같은 개별적인 객체들의 보다 나은 분리를 얻을 수 있는 오디오 코덱을 제공하는 것을 그 목적으로 한다.
이러한 목적은 청구항 1에 따른 오디오 디코더, 청구항 18에 따른 오디오 인코더, 청구항 20에 따른 디코딩 방법, 청구항 21에 따른 인코딩 방법, 및 청구항 23에 따른 멀티-오디오-객체 신호에 의해 달성된다.
본 발명의 오디오 코덱에 따르면 가라오케/솔로 모드 어플리케이션과 같은 개별적인 객체들의 보다 나은 분리를 얻을 수 있다.
도 1은 본 발명의 실시예들이 실현될 수 있는 SAOC 인코더/디코더 배열의 블록 다이어그램을 나타낸다.
도 2는 모노 오디오 신호의 스펙트럴 표현의 개략적이고 도시적인 다이어그램을 나타낸다.
도 3은 본 발명의 일 실시예에 따른 오디오 디코더의 블록 다이어그램을 나타낸다.
도 4는 본 발명의 일 실시예에 따른 오디오 인코더의 블록 다이어그램을 나타낸다.
도 5는 비교 실시예로서, 가라오케/솔로 모드 어플리케이션에 대한 오디오 인코더/디코더의 블록 다이어그램을 나타낸다.
도 6은 일 실시예에 따라, 가라오케/솔로 모드 어플리케이션에 대한 오디오 인코더/디코더의 블록 다이어그램을 나타낸다.
도 7a는 비교 실시예에 따라, 가라오케/솔로 모드 어플리케이션에 대한 오디오 인코더의 블록 다이어그램을 나타낸다.
도 7b는 일 실시예에 따라, 가라오케/솔로 모드 어플리케이션에 대한 오디오 인코더의 블록 다이어그램을 나타낸다.
도 8a 및 8b는 품질 측정 결과들을 그래프들을 나타낸다.
도 9는 비교 목적을 위해 가라오케/솔로 모드 어플리케이션에 대한 오디오 인코더/디코더 배열의 블록 다이어그램을 나타낸다.
도 10은 일 실시예에 따라 가라오케/솔로 모드 어플리케이션에 대한 오디오 인코더/디코더 배열의 블록 다이어그램을 나타낸다.
도 11은 추가적인 실시예에 따라 가라오케/솔로 모드 어플리케이션에 대한 오디오 인코더/디코더 배열의 블록 다이어그램을 나타낸다.
도 12는 추가적인 실시예에 따라 가라오케/솔로 모드 어플리케이션에 대한 오디오 인코더/디코더 배열의 블록 다이어그램을 나타낸다.
도 13a 내지 13h는 본 발명의 일 실시예에 따라 SAOC 비트스트림을 위한 가능한 문법을 반영하는 테이블을 보여준다.
도 14는 일 실시예에 따라, 가라오케/솔로 모드 어플리케이션에 대한 오디오 디코더의 블록 다이어그램을 나타낸다.
도 15는 잔여 신호를 전달하기 위해 소비되는 데이터 양을 시그널링하는 데 가능한 문법을 반영하는 테이블을 보여준다.
도면들을 참조하여 본 발명의 바람직한 실시예들이 보다 자세히 상술될 것이다.
아래에서 본 발명의 실시예들을 보다 자세히 서술하기 전에, SAOC 비트스트림 내에 전송되는 SAOC 코덱 및 SAOC 파라미터들이 아래에서 더 자세히 서술될 특정 실시예들의 이해를 돕기 위해 제시된다.
도 1은 SAOC 인코더(10) 및 SAOC 디코더(12)의 일반적인 배치를 보여준다. SAOC 인코더(10)는 N개의 입력 객체들, 즉, 오디오 신호들 141 내지 14N 을 수신한다. 특히, 인코더(10)는 오디오 신호들 141 내지 14N 을 수신하고 이를 다운믹스 신호(18)로 다운믹스하는 다운믹서(16)를 포함한다. 도 1에서, 다운믹스 신호는 스테레오 다운믹스 신호로서 대표적으로 보여진다. 하지만, 모노 다운믹스 신호 또한 가능하다. 스테레오 다운믹스 신호(18)의 채널들은 L0 및 R0로 나타나 있고, 모노 다운믹스 신호의 경우는 단순히 L0로 표시된다. SAOC 디코더(12)가 개별적인 객체들 141 내지 14N 을 회복하도록 하기 위해, 다운믹서(16)가 객체 레벨 차이들(OLD), 인터-객체 상호 상관 파라미터들(IOC), 다운믹스 이득 값들(DMG) 및 다운믹스 채널 레벨 차이들(DCLD)을 포함하는 SAOC-파라미터들을 포함하는 부가 정보를 SAOC 디코더(12)로 공급한다. SAOC-파라미터들을 포함하는 부가 정보(20)는, 다운믹스 신호(18)와 함께, SAOC 디코더(12)에 의해 수신되는 SAOC 출력 데이터 스트림을 형성한다.
SAOC 디코더(12)는, 어느 사용자-선택된 채널들의 세트 상에 오디오 신호들 141 내지 14N 을 회복시키고 렌더링하기 위해 부가 정보(20)뿐 아니라 다운믹스 신호(18)를 수신하는 업믹서(22)를 포함하는데, 여기서 렌더링은 SAOC 디코더(12)로 입력된 렌더링 정보(26)에 의해 규정된다.
오디오 신호들 141 내지 14N 은 예를 들어, 시간 혹은 스펙트럴 도메인과 같은 어떤 코딩 도메인에서 다운믹서(16)로 입력될 수 있다. 오디오 신호들 141 내지 14N 들이 시간 도메인에서 다운믹서(16)로 입력되는 경우, PCM과 같이 코딩된 다운믹서(16)는 신호들을, 특정 필터 뱅크 해상도에서 오디오 신호들이 여러 스펙트럴 부분들과 연관된 여러 서브밴드들로 표현되는 스펙트럴 도메인으로 전환시키기 위해, 최저 주파수 대역에 대해 주파수 해상도를 증가시키기 위한 하이브리드 QMF 뱅크, 즉, 나이키스트 필터 확장을 이용하는 복소 지수적으로 변조된 필터들의 뱅크와 같은 필터 뱅크를 사용한다. 만일, 오디오 신호들 141 내지 14N 이 이미 다운믹서(16)에 의해 기대되는 표현으로 나타나 있는 경우에는, 스펙트럴 분해를 수행할 필요가 없다.
도 2는 방금 언급된 스펙트럴 도메인에서의 오디오 신호를 보여준다. 보는 바와 같이, 오디오 신호는 복수의 서브밴드 신호들로 표현된다. 각 서브밴드 신호 301 내지 30p 는 작은 박스들(32)에 의해 표시된 서브밴드 값들의 시퀀스로 구성된다. 보여지는 바와 같이, 서브밴드 신호들 301 내지 30p 는 시간적으로 서로 동기되어 있어 연속적인 필터 뱅크 시간 슬롯들(34)에 대해 각 서브밴드 301 내지 30p 가 정확히 하나의 서브밴드 값(32)을 포함한다. 주파수 축(36)에 의해 도시된 바와 같이, 서브밴드 신호들 301 내지 30p 는 여러 주파수 영역들과 관련되어 있고, 시간 축(38)에 의해 도시된 바와 같이 필터 뱅크 시간 슬롯들(34)은 시간상 연속적으로 정렬되어 있다.
앞서 약술한 바와 같이, 다운믹서(16)는 입력 오디오 신호들 141 내지 14N 로부터 SAOC-파라미터들을 계산한다. 다운믹서(16)는 이러한 계산을, 필터 뱅크 시간 슬롯들(34) 및 서브밴드 분해에 의해 결정된 바와 같은 원래의 시간/주파수 해상도와 비교해 특정 양만큼 감소될 수도 있는 시간/주파수 해상도에서 수행하는데, 이 특정 양은 개별 문법 요소들 bsFrameLength 및 bsFreqRes에 의해 부가 정보(20) 내에서 디코더 측으로 시그널링된다. 예를 들어, 연속적인 필터 뱅크 시간 슬롯들(34)의 그룹들이 하나의 프레임(40)을 형성한다. 다시 말해, 오디오 신호는 예를 들어, 시간적으로 중첩하거나 시간적으로 바로 인접하는 프레임들로 나눠질 수 있다. 이 경우, bsFrameLength는 파라미터 시간 슬롯들(41), 즉, OLD 및 IOC 와 같은 SAOC 파라미터들이 SAOC 프레임(40)에서 계산되는 시간 유닛의 개수를 정의할 수 있고, bsFreqRes 는 SAOC 파라미터들이 계산되는 프로세싱 주파수 대역들의 개수를 정의할 수 있다. 이러한 측정으로, 각 프레임은 대쉬 선들(42)에 의해 도 2에 예시된 시간/주파수 타일들로 나눠질 수 있다.
다운믹서(16)는 아래의 공식들에 따라 SAOC 파라미터들을 계산한다. 특히, 다운믹서(16)는 각 객체 i에 대한 객체 레벨 차이들을 아래와 같이 계산하는데,
Figure 112011095730426-pat00001
여기서, 합계 및 인덱스들 n 및 k 는 각각, 특정 시간/주파수 타일(42)에 속하는 모든 필터 뱅크 시간 슬롯들(34) 및 모든 필터 뱅크 서브밴드들(30)을 거친다. 따라서, 오디오 신호 혹은 객체 i의 모든 서브밴드 값들 xi 가 모두 합쳐지고 모든 객체들 혹은 오디오 신호들 중 해당 타일의 최고 에너지 값으로 정규화된다.
또한, SAOC 다운믹서(16)는 여러 입력 객체들 141 내지 14N 의 상응하는 시간/주파수 타일들의 쌍의 유사도 척도(similarity measure)를 계산 가능하다. SAOC 다운믹서(16)는 입력 객체들 141 내지 14N 의 모든 쌍들 간의 유사도 척도를 계산할 수 있지만, 다운믹서(16)는 또한 공통 스테레오 채널의 좌측 또는 우측 채널을 형성하는 오디오 객체들 141 내지 14N 에 대한 유사도 척도의 계산을 제한하거나 유사도 척도의 시그널링을 억제할 수도 있다. 어느 경우에도 유사도 척도는 인터-객체 상호-상관 파라미터
Figure 112011095730426-pat00002
로 불린다. 계산은 아래와 같이 이루어지는데,
Figure 112011095730426-pat00003
여기서, 인덱스 n 및 k는 특정 시간/주파수 타일(42)에 속하는 모든 서브밴드 값들을 통과하며, i 및 j는 오디오 객체들 141 내지 14N 의 특정 쌍을 나타낸다.
다운믹서(16)는 각 객체 141 내지 14N 에 적용된 이득 팩터들을 사용함으로써 객체들 141 내지 14N 을 다운믹스한다. 즉, 이득 팩터 Di 가 객체 i에 적용되고, 그리고 나서 모든 가중된(weighted) 객체들 141 내지 14N 이 합산되어 모노 다운믹스 신호를 얻는다. 도 1에 예시된 스테레오 다운믹스 신호의 경우, 이득 팩터 D1,i 가 객체 i에 적용되고, 그리고 나서 이런 모든 이득 증폭된 객체들이 좌측 다운믹스 채널 L0를 획득하기 위해 합산되고, 이득 팩터들 D2,i 들이 객체 i에 적용되고, 그리고 나서 이득-증폭된 객체들이 우측 다운믹스 채널 R0를 획득하기 위해 합산된다.
이러한 다운믹스 규정은 다운믹스 이득들 DMGi 에 의해 디코더 측으로, 스테레오 다운믹스 신호의 경우는, 다운믹스 채널 레벨 차이들 DCLDi 에 의해서, 시그널링된다.
다운믹스 이득들은,
Figure 112011095730426-pat00004
(모노 다운믹스),
Figure 112011095730426-pat00005
(스테레오 다운믹스),
에 따라 계산되고, 여기서
Figure 112011095730426-pat00006
은 10-9 과 같이 작은 수이다.
DCLDs 에 대해서는 아래의 식이 적용된다.
Figure 112011095730426-pat00007
정상 모드에서, 다운믹서(16)는,
모노 다운믹스 신호에 대해,
Figure 112011095730426-pat00008
에 따라
스테레오 다운믹스 신호에 대해서는,
Figure 112011095730426-pat00009
에 따라
각각, 다운믹스 신호를 생성한다.
따라서, 상술한 공식에서, 파라미터들 OLD 및 IOC는 오디오 신호의 함수이고, 파라미터들 DMG 및 DCLD는 D의 함수이다. 한편, D는 시간에 따라 변화할 수 있음이 주지되어야 한다.
따라서, 정상 모드에서, 다운믹서(16)는 모든 객체들 141 내지 14N 을 우선순위 없이, 즉 모든 객체들 141 내지 14N 를 동등하게 취급하여, 혼합한다.
업믹서(22)는 다운믹스 절차의 역 및 한 계산 단계에서 매트릭스 A에 의해 표현된 "렌더링 정보"의 구현, 즉,
Figure 112011095730426-pat00010
을 실행하는데, 여기서 매트릭스 E는 파라미터들 OLD 및 IOC의 함수이다.
다시 말해, 정상 모드에서는 객체들 141 내지 14N 의 BGO, 즉 백그라운드 객체 혹은 FGO, 즉, 포어그라운드 객체로의 분류가 수행되지 않는다. 어떤 객체가 업믹서(22)의 출력에 나타날 것인지에 대한 정보가 렌더링 매트릭스 A에 의해 제공될 것이다. 예를 들어, 인덱스 1을 가진 객체가 스테레오 백그라운드 객체의 좌측 채널이고, 인덱스 2를 가진 객체가 그 우측 채널이고, 인덱스 3을 가진 객체가 포어그라운드 객체인 경우, 가라오케 타입의 출력 신호를 생성하는 렌더링 매트릭스 A는
Figure 112011095730426-pat00011
이 될 것이다.
하지만, 앞서 이미 표시된 바와 같이, SAOC 코덱의 이러한 정상 모드를 사용하여 BGO 및 FGO를 전송하는 것은 허용가능한 결과를 얻지 못한다.
도 3 및 4는 방금 설명한 결점을 극복하는 본 발명의 일 실시예를 설명한다. 이러한 도면들 및 관련 기능들에 서술된 디코더 및 인코더는 도 1의 SAOC 코덱이 교체될 수 있는 "향상 모드(Enhanced Mode)"와 같은 부가적인 모드를 제안할 수도 있다. 후자의 가능성에 대한 실시예들이 이후 소개될 것이다.
도 3은 디코더(50)를 보여준다. 디코더(50)는 예측 계수들을 계산하는 수단(52) 및 다운믹스 신호를 업믹스하는 수단(54)을 포함한다.
도 3의 오디오 디코더(50)는 그 내에 인코딩된 제1 타입 오디오 신호 및 제2 타입 오디오 신호를 가지는 멀티-오디오-객체 신호를 디코딩하는 데 적합하다. 제1 타입 오디오 신호 및 제2 타입 오디오 신호는, 각각 모노 혹은 스테레오 오디오 신호일 수 있다. 제1 타입 오디오 신호는, 예를 들어 제2 타입 오디오 신호가 포어그라운드 객체인 백그라운드 객체이다. 즉, 도 3 및 도 4의 실시예는 가라오케/솔로 모드 어플리케이션에 필수적으로 한정될 필요는 없다. 도 3의 디코더 및 도 4의 인코더는 그보다는 다른 곳에 유리하게 적용될 수도 있다.
멀티-오디오-객체 신호는 다운믹스 신호(56) 및 부가 정보(58)로 구성된다. 부가 정보(58)는, 예를 들어, 시간/주파수 해상도(42)와 같은 제1 기 설정된 시간/주파수 해상도에서, 예를 들어 제1 타입 오디오 신호 및 제2 타입 오디오 신호의 스펙트럴 에너지를 나타내는 레벨 정보(60)를 포함한다. 특히, 레벨 정보(60)는 객체 및 시간/주파수 타일마다 정규화된 스펙트럴 에너지 스칼라 값을 포함한다. 정규화는 개별 시간/주파수 타일에서 제1 및 제2 타입 오디오 신호들 중 최고 스펙트럴 에너지 값에 관련될 수 있다. 후자의 가능성은 레벨 정보를 나타내는, 또한 레벨 차이 정보로 지칭되는, OLD 들을 도출한다. 비록 아래의 실시예들이 OLD를 사용하지만, 명시적으로 언급되지 않는다 하더라도 다른 정규화된 스펙트럴 에너지 표현을 사용한다.
부가 정보(58)는 또한, 제1 기 설정된 시간/주파수 해상도와 같을 수도 있고 다를 수도 있는 제2 기 설정된 시간/주파수 해상도에서 잔여 레벨 값들을 특정하는 잔여 신호(62)를 포함한다.
예측 계수들을 계산하는 수단(52)은 레벨 정보(60)에 기초하여 예측 계수들을 계산하도록 설정된다. 부가적으로, 수단(52)은 또한 부가 정보(58)에 포함되는 인터-상관 정보를 추가적으로 기초하여 예측 계수들을 계산할 수 있다. 심지어 추가적으로, 수단(52)은 부가 정보(58)에 포함된 시변(time varying) 다운믹스 방안 정보를 사용할 수도 있다. 수단(52)에 의해 계산된 예측 계수들은 원래의 오디오 객체들 또는 다운믹스 신호(56)로부터의 오디오 신호들을 회복하거나 업믹싱하는 데 필요하다.
따라서, 업믹싱 수단(54)은 수단(52)으로부터 수신되는 예측 계수들(64) 및 잔여 신호(62)에 기초하여 다운믹스 신호(56)를 업믹스하도록 구성된다. 잔여(62)를 사용함으로써, 디코더(50)는 하나의 타입의 오디오 신호로부터 다른 타입의 오디오 신호로의 크로스 톡(cross talk)을 더 잘 억제할 수 있다. 잔여 신호(62)와 더불어, 수단(54)은 다운믹스 신호를 업믹스하는 데 시변 다운믹스 방안을 사용할 수 있다. 또한, 업믹싱 수단(54)은 다운믹스 신호(56)로부터 회복된 오디오 신호들 중 어느 것이 혹은 어느 범위까지 출력(68)에서 실제로 출력되는지 결정하기 위해 사용자 입력(66)을 사용할 수 있다. 제1 극한 예로서, 사용자 입력(66)은 수단(54)으로 하여금 제1 타입 오디오 신호를 근사화하는 제1 업-믹스 신호만을 출력하도록 지시할 수 있다. 제2 극한 예에 따라 수단(54)이 제2 타입 오디오 신호를 근사화하는 제2 업-믹스 신호만을 출력하도록 하는 반대의 경우도 가능하다. 양 업-믹스 신호들의 혼합이 출력(68)에서 출력으로 렌더링되는 중도의 선택 또한 가능하다.
도 4는 도 3의 디코더에 의해 디코딩되는 멀티-오디오-객체 신호를 생성하는 데 적합한 오디오 인코더를 위한 일 실시예를 보여준다. 참조 기호 80에 의해 표시된 도 4의 인코더는 인코딩될 오디오 신호들(84)이 스펙트럴 도메인 내에 위치하지 않는 경우 스펙트럼적으로 분해하는 수단(82)을 포함할 수 있다. 오디오 신호들(84) 중에는, 차례로, 적어도 하나의 제1 타입 오디오 신호 및 적어도 하나의 제2 타입 오디오 신호가 있다. 스펙트럼적으로 분해하는 수단(82)은 이러한 신호들(84) 각각을 도 2에 도시된 바와 같은 표현으로 분해하도록 설계된다. 즉, 스펙트럼적으로 분해하는 수단(82)은 오디오 신호들(84)을 기 설정된 시간/주파수 해상도로 스펨트럼적으로 분해한다. 다시 말해, 수단(82)은 하이브리드 QMF 뱅크와 같은 필터 뱅크를 포함할 수 있다.
오디오 인코더(80)는 또한 레벨 정보 계산 수단(86), 다운믹싱 수단(88), 및 예측 계수들을 계산하는 수단(90) 및 잔여 신호를 설정하는 수단(92)을 포함한다. 추가적으로, 오디오 인코더(92)는 인터-상관 정보를 계산하는 수단, 즉 수단(94)을 포함할 수 있다. 수단(86)은 수단(82)에 의해 선택적으로 출력되는 오디오 신호로부터 제1 기 설정된 시간/주파수 해상도에서 제1 타입 오디오 신호 및 제2 타입 오디오 신호의 레벨을 서술하는 레벨 정보를 계산한다. 유사하게, 수단(88)은 오디오 신호들을 다운믹스한다. 따라서, 수단(88)은 다운믹스 신호(56)를 출력한다. 수단(86)은 또한 레벨 정보(60)를 출력한다. 예측 계수들을 계산하는 수단(90)은 수단(52)과 유사하게 동작한다. 즉, 수단(90)은 레벨 정보(60)로부터 예측 계수들을 계산하고 예측 계수들(64)을 수단(92)으로 출력한다. 수단(92)은, 차례로, 다운믹스 신호(56), 예측 계수들(64) 및 원래의 오디오 신호들에 기초해 제2 기 설정된 시간/주파수 해상도에서 잔여 신호(62)를 설정하여, 예측 계수들(64) 및 잔여 신호(62) 양자에 기초하여 다운믹스 신호(56)를 업믹싱하는 것이 제1 타입 오디오 신호를 근사화하는 제1 업-믹스 오디오 신호 및 제2 타입 오디오 신호를 근사화하는 제2 업-믹스 오디오 신호를 도출하도록 하며, 근사화는 잔여 신호(62)가 없는 경우에 비해 양호하다.
잔여 신호(62)와 레벨 정보(60)는, 다운믹스 신호(56)와 함께 도 3의 디코더에 의해 디코딩될 멀티-오디오-객체 신호를 형성하는 부가 정보(58)에 포함된다.
도 4에 도시된 바와 같이, 그리고 도 3의 설명과 유사하게, 수단(90)은, 수단(94)에 의해 출력된 시변 다운믹스 방안 및/또는 수단(88)에 의해 출력된 시변 다운믹스 방안을 예측 계수(64)를 계산하는 데 추가적으로 사용할 수 있다. 또한, 잔여 신호(62)를 설정하는 수단(92)은, 잔여 신호(62)를 적절히 설정하기 위해 수단(88)에 의해 출력된 시변 다운믹스 방안을 추가적으로 사용할 수 있다.
다시, 제1 타입 오디오 신호는 모노 혹은 스테레오 오디오 신호일 수 있음을 유의해야 한다. 제2 타입 오디오 신호에 대해서도 동일 적용된다. 잔여 신호(62)는 예를 들어, 레벨 정보를 계산하는 데 사용되는 시간/주파수 해상도와 동일한 시간/주파수 해상도에서 부가 정보 내에서 시그널링될 수 있거나, 혹은 다른 시간/주파수 해상도가 사용될 수도 있다. 또한, 잔여 신호의 시그널링이 레벨 정보가 시그널링되는 시간/주파수 타일들(42)에 의해 사용된 스펙트럴 범위의 서브-부분에 한정되는 것도 가능하다. 예를 들어, 잔여 신호가 시그널링되는 시간/주파수 해상도가 문법 요소들 bsResidualBands 및 bsResidualFramesPerSAOCFrame 을 사용하여 부가 정보(58) 내에서 표시될 수 있다. 이 두 문법 요소들은, 타일들(42)을 이끄는 서브-구역(sub-division)보다는 프레임의 다른 서브-구역을 시간/주파수 타일들 내로 정의할 수 있다.
그런데, 잔여 신호(62)는 오디오 인코더(80)에 의해 다운믹스 신호(56)를 인코딩하는 데 선택적으로 사용된, 잠재적으로 사용된 코어 인코더(96)로부터 도출된 정보 손실을 반영하거나 반영하지 않을 수 있다. 도 4에 도시된 바와 같이, 수단(92)은 코어 코더(96)의 출력으로부터 혹은 코어 인코더(96')로 입력되는 버전 으로부터 재-구성될 수 있는 다운믹스 신호의 버전에 기초하여 잔여 신호(62)의 설정을 수행할 수 있다. 유사하게, 오디오 디코더(50)는 다운믹스 신호(56)를 디코더 혹은 압축해체하기 위한 코더 디코더(98)를 포함할 수 있다.
멀티플-오디오-객체 신호 내에서, 레벨 정보(60)를 계산하는 데 사용되는 시간/주파수 해상도와는 다른, 잔여 신호(62)에 사용되는 시간/주파수 해상도를 설정하는 능력은, 한편으로는 오디오 품질과 다른 한편으로는 멀티플-오디오-객체 신호의 압축 비율 사이의 좋은 절충을 얻을 수 있도록 한다. 어떤 경우에도 잔여 신호(62)는, 사용자 입력(66)에 따라 출력(68)에서 출력될 제1 및 제2 업-믹스 신호들 내에서 하나의 오디오 신호로부터 다른 쪽으로의 크로스-톡을 더 잘 억제하도록 한다.
아래의 실시예로부터 보다 명확해지는 바와 같이, 하나를 초과하는 포어그라운드 객체 또는 제2 타입 오디오 신호가 인코딩되는 경우 하나를 초과하는 잔여 신호(62)가 부가 정보 내에서 전송될 수 있다. 부가 정보는 잔여 신호(62)가 특정 제2 타입 오디오 신호에 대해 전송되는지 아닌지에 대한 개별적 결정을 허용할 수 있다. 따라서, 잔여 신호들(62)의 개수는 1부터 제2 타입오디오 신호들의 개수까지 가변적이다.
도 3의 오디오 디코더에서, 계산 수단(54)이 레벨 정보(OLD)에 기초하여 예측 계수들을 구성하는 예측 계수 매트릭스 C를 계산하도록 설정될 수 있고, 수단(56)은,
Figure 112011095730426-pat00012
으로 표현할 수 있는 계산에 따라 다운믹스 신호 d로부터 제1 업믹스 신호 S1 및/또는 제2 업-믹스 신호 S2를 도출하도록 설정될 수 있으며, "1"은 - d의 채널 개수에 따라 - 스칼라, 혹은 단위 매트릭스를 나타내며,
Figure 112011095730426-pat00013
는 제1 타입 오디오 신호 및 제2 타입 오디오 신호가 다운믹스 신호로 다운믹스되는 그리고 또한 부가 정보에 포함되는 다운믹스 방안에 의해 고유하게 결정되며, H는 d와는 무관하지만 잔여 신호에 의존적인 항이다.
앞서 논의되었고 아래에서 추가적으로 설명되는 바와 같이, 다운믹스 방안은 시간적으로 변화할 수 있으며, 부가 정보 내에서 스펙트럼적으로 변할 수 있다. 제1 타입 오디오 신호가 제1(L) 및 제2 입력 채널(R)을 가지는 스테레오 오디오 신호라면, 예를 들어, 레벨 정보는 시간/주파수 해상도(42)에서 제1 입력 채널(L), 제2 입력 채널(R), 및 제2 타입 오디오 신호들의 정규화된 스펙트럴 에너지를 각각 묘사한다.
업-믹싱 수단(56)이 업-믹싱을 수행하는 앞서 언급된 계산은 심지어,
Figure 112011095730426-pat00014
에 의해서 표현 가능하며,
Figure 112011095730426-pat00015
은 L을 근사화하는, 제1 업-믹스 신호의 제1 채널이고,
Figure 112011095730426-pat00016
은 R을 근사화하는, 제1 업-믹스 신호의 제2 채널이며, "1"은 d가 모노인 경우 스칼라이고, d가 스테레오인 경우 2×2 단위 매트릭스이다. 다운믹스 신호(56)가 제1(L0) 및 제2 출력 채널(R0)을 가지는 스테레오 오디오 신호이면, 업-믹싱 수단(56)이 업-믹싱을 수행하는 계산은,
Figure 112011095730426-pat00017
에 의해서 표현될 수 있다.
잔여 신호(res)에 의존적인 항 H가 고려되는 한, 업-믹싱 수단(56)이 업-믹싱을 수행하는 계산은,
Figure 112011095730426-pat00018
에 의해 표현될 수 있다.
멀티-오디오-객체 신호는 심지어 복수의 제2 타입 오디오 신호들을 포함할 수 있고 부가 정보는 제2 타입 오디오 신호마다 하나의 잔여 신호를 포함할 수 있다. 잔여 해상도 파라미터는 잔여 신호가 부가 정보 내에서 전송되는 스펙트럴 범위를 정의하는 부가 정보에 존재할 수 있다. 이것은 스펙트럴 범위의 하한 및 상한을 정의할 수 있다.
추가적으로, 멀티-오디오-객체 신호는 또한 제1 타입 오디오 신호를 기 설정된 확성기 구조로 공간적으로 렌더링하는 공간적 렌더링 정보를 포함한다. 다시 말해, 제1 타입 오디오 신호는 스테레오로 낮게 다운믹스된 멀티 채널(2 채널을 초과) MPEG 서라운드 신호가 될 수 있다.
아래에서는, 상기 잔여 신호 시그널링을 사용하는 실시예들이 설명될 것이다. 하지만, 용어 "객체"는 종종 두 가지 의미로 사용됨을 명심해야 한다. 어떤 경우, 객체는 개별적인 모노 오디오 신호를 의미한다. 따라서, 스테레오 객체는 스테레오 신호의 한 채널을 형성하는 모노 오디오 신호를 가질 수 있다. 하지만, 다른 경우에서는, 스테레오 객체는 사실, 두 객체들 스테레오 객체의 일명 우측 채널과 관련된 객체 및 추가적인 좌측 채널과 관련된 객체를 의미한다. 실질적인 의미는 문맥으로부터 명확해질 것이다.
다음 실시예를 설명하기 전에, 2007년 레퍼런스 모델 0(RM0)으로 선택된 SAOC 표준의 베이스라인 기술과 함께 현실화된 결점들에 의해 동일한 것이 동기부여된다. RM0는 그 패닝 위치 및 증폭/감쇠 측면에서 사운드 객체들의 개수의 개별적 조작을 허용한다. 특별한 시나리오가 "가라오케" 타입 어플리케이션 관점에서 소개된 바 있다. 이 경우,
모노, 스테레오 혹은 서라운드 백그라운드 신(이하에서는 백그라운드 객체, BGO로 칭함)은 특정 SAOC 객체들의 세트로부터 전달되는데, 변경 없이 재생된다. 즉, 모든 입력 채널 신호가 변경되지 않는 레벨에서 동일한 출력 채널을 통해 재생된다, 그리고
관심 있는 특정 객체(이하에서는 포어그라운드 객체, FGO로 칭함)(일반적으로 리드 보컬)는 변경에 의해 재생된다(FGO는 일반적으로 사운드 스테이지의 가운데 위치하며 묵음 처리될 수 있다. 즉, 합창을 허용하기 위해 심하게 감쇠될 수 있다.).
주관적인 평가 절차들로부터 알 수 있는 바와 같이, 그리고 내재하는 기술적 원칙으로부터 예측할 수 있는 바와 같이, 객체 레벨의 조작은 일반적으로 보다 어렵지만, 객체 위치의 조작은 고품질 결과를 이끈다. 통상적으로, 추가적인 신호 증폭/감쇠가 높을수록, 잠재적인 인공산물(artifacts)도 증가한다. 이러한 면에서, 가라오케 시나리오는 FGO의 극단적인 감쇠가 요구되므로 심하게 요구가 많다.
듀얼 사용 케이스는 백그라운드/MBO 없이 FGO만을 재생하는 능력이고, 아래에서는 솔로 모드로 지칭된다.
하지만, 서라운드 백그라운드 씬(scene)이 관련되는 경우, 멀티-채널 백그라운드 객체(MBO)로 지칭된다. MBO의 처리는 아래와 같으며, 도 5에서 보여진다.
MBO는 일반적인 5-2-5 MPEG 서라운드 트리(102)를 이용해 인코딩된다. 이것은 스테레오 MBO 다운믹스 신호(104) 및 MBO MPS 부가 정보 스트림(106)를 도출한다.
MBO 다운믹스는 그리고 나서, 후속하는 SAOC 인코더(108)에 의해 (혹은 여러) FGO(110)와 함께, 스테레오 객체로 인코딩된다. (즉, 두 객체 레벨 차이들 더하기 인터-채널 상관성) 이것은 공통 다운믹스 신호(112), 그리고 SAOC 부가 정보 스트림(114)을 도출한다.
트랜스코더(116)에서, 다운믹스 신호(112)는 전처리되고 SAOC 및 MPS 부가 정보 스트램들(116, 114)은 단일 MPS 출력 부가 정보 스트림(118)으로 트랜스코드된다. 이것은 현재 불연속적인 방법으로 일어나는데, 즉, FGO(들)의 전적인 억제만이 혹은 MBO의 전적인 억제가 지원된다.
최종적으로, 결과적인 다운믹스(120) 및 MPS 부가 정보(118)가 MPEG 서라운드 디코더(122)에 의해 렌더링된다.
도 5에서, MBO 다운믹스(104) 및 제어가능한 객체 신호(들)(110) 모두가 단일 스테레오 다운믹스(112) 내로 결합된다. 제어가능한 객체(110)에 의한 이러한 다운믹스의 "공해"가, 제어가능한 객체(110)가 제거된 형태, 즉 충분히 높은 오디오 품질의 가라오케 버전을 재생하는 것을 어렵게 만드는 이유이다. 아래의 제안은 이러한 문제를 피하는 것을 목적으로 한다.
하나의 FGO(예를 들어, 하나의 리드 보컬)를 고려하면, 도 6의 아래의 실시예에 의해 사용되는 주요 관점은 SAOC 다운믹스 신호가 BGO 및 FGO 신호의 결합이라는 점, 즉 3 개의 오디오 신호들이 다운믹스되어 2 개의 다운믹스 채널들을 통해 전송된다는 점이다. 이상적으로, 이러한 신호들은 깨끗한 가라오케 신호들을 생성하기 위해(즉, FGO 신호를 제거하기 위해) 혹은 깨끗한 솔로 신호를 생성하기 위해(즉, BGO 신호를 제거하기 위해) 트랜스코더 내에서 다시 분리되어야 한다. 이는, BGO 및 FGO를 SAOC 인코더의 단일 SAOC 다운믹스 신호로 결합하기 위해 SAOC 인코더(108) 내에서 "2-대-3" (TTT) 디코더 요소(124) (MPEG 서라운드 규격으로부터 알려진 바와 같은 TTT-1 ) 를 이용함으로써, 도 6의 실시예에 부합하여, 얻어진다. 여기서, FGO는 TTT-1 박스(124)의 "중앙" 신호 입력을 제공하는 반면, BGO(104)는 "좌측/우측" TTT-1 입력들 L.R.을 제공한다. 트랜스코더(116)는 그리고 나서, TTT 디코더 요소(126) (MPEG 서라운드 규격으로부터 알려진 바와 같이 TTT )를 이용하여 BGO(104)의 근사치를 생성한다. 즉 "좌측/우측" TTT 출력들 L, R은 BGO의 근사치를 실어나르고, "중앙" TTT 출력 C는 FGO(110)의 근사치를 실어나른다.
도 6의 실시예를 도 3 및 4의 인코더 및 디코더의 실시예와 비교할 때, 참조기호 104는 오디오 신호들(84) 중 제1 타입 오디오 신호에 대응되고, 수단(82)은 MPS 인코더(102)에 포함되며, 참조 기호 110은 오디오 신호(84) 중 제1 타입 오디오 신호들에 대응되고, TTT-1 박스(124)는, 수단들(86 내지 94)의 기능들은 SAOC 인코더(108) 내에 구현되는 형태로, 수단들(88 내지 92)의 기능들에 대한 책임을 맡고, 참조 기호 112는 참조 기호 56에 대응되며, 참조 기호 114는 잔여 신호(62)보다 작은 부가 정보(58)에 대응되며, TTT 박스(126)는 믹싱 박스(128)의 기능이 또한 수단(54)에 포함되는 형태로 수단들(52 및 54)의 기능에 대한 책임을 맡는다. 마지막으로, 신호(120)는 출력(68)에서 출력되는 신호에 대응한다. 추가적으로, 도 6은 또한 SAOC 인코더(108)로부터 SAOC 트랜스코더(116)로의 다운믹스 전송에 대한 코어 코더/디코더 경로(131)를 보여줌을 유의해야 한다. 이러한 코어 코더/디코더 경로(131)는 선택적인 코어 코더(96) 및 코어 디코더(98)에 대응된다. 도 6에 표시된 바와 같이, 이러한 코어 코더/디코더 경로(131)는 또한 인코더(108)로부터 트랜스코더(116)로 전송되는 신호인 부가 정보를 인코드/압축할 수도 있다.
도 6의 TTT 박스의 도입으로부터 도출되는 이점은 아래의 설명으로부터 명확해질 것이다. 예를 들어,
단순히 "좌측/우측" TTT 출력들 L.R.을 MPS 다운믹스(120)로 제공함으로써(그리고 전송된 스트림(118) 내 MBO MPS 비트스트림(106)을 전달함으로써), MBO만이 최종 MPS 디코더에 의해 재생된다. 이는 가라오케 모드에 대응된다.
단순히 "중앙" TTT 출력 C를 좌측 및 우측 MPS 다운믹스(120)로 공급함으로써(그리고 FGO(110)를 원하는 위치 및 레벨로 렌더링하는 주변 MPS 비트스트림(118)을 생성함으로써), FGO(110)만이 최종 MPS 디코더(122)에 의해 재생된다. 이것은 솔로 모드에 대응된다.
3 개의 TTT 출력 신호들 L.R.C.의 처리는 SAOC 트랜스코더(116)의 "믹싱" 박스(128)에서 수행된다.
도 6의 처리 구조는 도 5에 비해 여러 주목할만한 장점들을 제공한다.
프레임워크가 백그라운드(MBO)(100) 및 FGO 신호들(110)의 완벽한 구조적 분리를 제공한다.
TTT 요소(126)의 구조는 파형을 기본으로 하여 세 개의 신호들 L.R.C.의 최선의 가능한 재생을 시도한다. 따라서, 최종적인 MPS 출력 신호들(130)은 다운믹스 신호들의 에너지 가중화(weighting) (및 역상관)에 의해 형성될 뿐 아니라, 또한 TTT 프로세싱으로 인해 파형 측면에서 보다 가깝다.
MPEG 서라운드 TTT 박스(126)에는, 잔여 코딩을 이용함으로써 재구성 정확도를 향상시키는 가능성이 따라온다. 이러한 방법으로, TTT-1 (124)에 의해 출력되고 업믹싱을 위해 TTT 박스에 의해 이용되는 잔여 신호(132)에 대한 잔여 대역폭 및 잔여 비트 레이트가 증가하면서, 재생 품질에서의 중대한 향상이 얻어질 수 있다. 이상적으로(즉, 잔여 코딩 및 다운믹스 신호의 코딩에서의 무한하게 미세한 양자화에 대해), 백그라운드(MBO) 및 FGO 신호 간의 간섭이 제거된다.
도 6의 프로세싱 구조는 몇 가지 특성들을 가진다.
이중 가라오케/솔로 모드: 도 6의 접근은 동일한 기술적 수단을 사용함으로써, 가라오케 및 솔로 기능을 모두 제공한다. 즉, SAOC 파라미터들은, 예를 들어 재사용된다.
향상 가능성: 가라오케/솔로 신호의 품질은 TTT 박스에 사용되는 잔여 코딩 정보의 양을 제어함으로써 필요한 대로 향상될 수 있다. 예를 들어, 파라미터들 bsResidualSamplingFrequencyIndex, bsResidualBands 및 bsResidualFramesPerSAOCFrame 이 사용될 수 있다.
다운믹스에서의 FGO 포지셔닝: TTT 박스를 MPEG 서라운드 규격에 정의된 바와 같이 이용할 때, FGO는 좌측 및 우측 다운믹스 채널들 사이의 중앙 위치로 항상 믹스될 것이다. 포지셔닝에서 보다 더 유연성을 제공하기 위해, 동일한 원칙을 따르면서도 "중앙" 입력들/출력들과 연관되는 신호의 비-대칭 포지셔닝을 허용하는 일반화된 TTT 인코더 박스가 채용된다.
멀티플 FGO : 서술된 구성에서, 단 하나의 FGO의 사용이 서술되었다(이것은 가장 중요한 어플리케이션 케이스에 상응한다). 하지만, 제안된 개념은 또한 아래의 조치들 중 하나 혹은 그 결합을 이용함으로써 여러 FGO들을 수용할 수 있다.
그룹화된 FGO : 도 6에 보여진 바와 같이, TTT 박스의 중앙 입력/출력에 연결된 신호는 단지 단일한 신호라기보다는 실질적으로 여러 FGO 신호들의 합산일 수 있다. 이러한 FGO들은 멀티-채널 출력 신호(130)에서 독립적으로 포지셔닝되고/제어될 수 있다(최대 품질 이점이 얻어지지만, 이들이 동일한 방법으로 스케일링되고 포지셔닝되는 경우). 이들은 스테레오 다운믹스 신호(112)에서 공통 위치를 공유하고, 단 하나의 잔여 신호(132)만 존재한다. 어떤 경우에도, 백그라운드(MBO)와 제어가능한 객체들간의 간섭은 제거된다(비록 제어가능한 객체들간은 아니지만).
케스케이드된 FGO : 다운믹스(112)에서 공통 FGO 위치와 관련한 제한들은 도 6의 접근을 확장함으로써 극복될 수 있다. 멀티플 FGO들은 서술된 TTT 구조의 여러 단계들을 캐스케이드시킴으로써 수용될 수 있으며, 여기서 각 단계는 하나의 FGO에 상응하고 잔여 코딩 스트림을 생성한다. 이런 방식으로, 각 FGO 간에서도 또한 간섭이 이상적으로 제거될 것이다. 물론, 이러한 옵션은 그룹화된 FGO 접근을 사용하는 것보다 더 높은 비트레이트를 필요로 한다. 이하에서 예가 설명될 것이다.
SAOC 부가 정보: MPEG 서라운드에서, TTT 박스에 관련된 부가 정보는 채널 예측 계수들(CPC들)의 쌍이다. 반대로, SAOC 파라미터화 및 MBO/가라오케 시나리오는 각 객체 신호에 대해 객체 에너지들, 그리고 MBO 다운믹스(즉, "스테레오 객체"에 대한 파라미터화)의 두 채널들 간의 인터-신호 상관성을 전송한다. 향상된 가라오케/솔로 모드가 없는 경우와 비교하여 파라미터화에서의 변화 개수, 그리고 그에 따른 비트스트림 포멧을 최소화하기 위해, CPC들은 다운믹스된 신호들(MBO 다운믹스 및 FGO들)의 에너지들 및 MBO 다운믹스 스테레오 객체의 인터-신호 상관성으로부터 계산될 수 있다. 그러므로, 전송된 파라미터화를 변경하거나 증가시킬 필요가 없고, CPC들은 SAOC 트랜스코더(116)에서 전송된 SAOC 파라미터화로부터 계산될 수 있다. 이러한 방식으로, 잔여 데이터를 무시할 때 향상된 가라오케/솔로 모드를 사용한 비트스트림이 일반 모드 디코더에 의해 (잔여 코딩 없이) 또한 디코딩될 수 있다.
정리하자면, 도 6의 실시예는 특정 선택된 객체들의 개선된 재생을 목적으로 하고 스테레오 다운믹스를 사용한 현재의 SAOC 인코딩 접근법을 아래의 방식으로 확장한다.
일반 모드에서, 각 객체 신호는 (좌측 및 우측 다운믹스 채널, 각각에 대한 그 기여분에 대해) 다운믹스 매트릭스에서 그 엔트리들에 의해 가중된다. 그리고 나서, 좌측 및 우측 다운믹스 채널에 대한 모든 가중된 기여분들은 좌측 및 우측 다운믹스 채널들을 형성하기 위해 합산된다.
향상된 가라오케/솔로 성능에 대해, 즉, 향상 모드에서, 모든 객체 기여분들은 포어그라운드 객체(FGO) 및 잔여 객체 기여분들(BGO)의 세트로 분할된다. FGO 기여분은 모노 다운믹스 신호로 합산되고, 잔여 백그라운드 기여분들은 스테레오 다운믹스로 합산되며, 양자는 공통 SAOC 스테레오 다운믹스를 형성하기 위해 일반화된 TTT 인코더 요소를 이용해 합산된다.
따라서, 일반적인 합산은 "TTT 합산"으로 대체된다(필요한 경우 케스케이드될 수도 있다).
SAOC 인코더의 일반 모드 및 향상 모드 사이의 앞서 설명한 차이를 강조하기 위해, 도 7a 및 7b가 참조되며, 여기서 도 7a는 일반 모드를 고려하는 반면, 도 7b는 향상 모드를 고려한다. 도시된 바와 같이, 일반 모드에서, SAOC 인코더(108)는 객체들 j를 가중하고 그에 따라 가중된 객체 j를 SAOC 채널 i, 즉 L0 혹은 R0로 합산하는 앞서-언급된 DMX 파라미터들 Dij 를 사용한다. 도 6의 향상 모드의 경우, 단순히 DMX-파라미터들 Di 의 벡터가 필요한데, 소위 DMX-파라미터들 Di 는 FGO들(110)의 가중된 합산을 어떻게 형성하는지 나타내고, 그에 따라 TTI-1 박스(124)에 대한 중앙 채널 C를 획득하며, DMX-파라미터들 Di 는 TTI-1 박스(124)에게 중앙 신호 C를 좌측 MBO 채널 및 우측 MBO 채널 각각으로 어떻게 분배할 것인지 지시하고,
Figure 112011095730426-pat00019
혹은
Figure 112011095730426-pat00020
를 각각 획득한다.
문제점으로는, 도 6에 따른 프로세싱이 비-파형 보호 코덱(HE AAC/SBR)과는 잘 동작하지 않는다는 것이다. 이 문제에 대한 해결책은 HE-AAC 및고 주파수들에 대한 에너지-기반 일반화된 TTT 모드가 될 수 있다. 이러한 문제점을 다루는 실시예가 이후 설명될 것이다.
케스케이드된 TTT들을 이용한 것을 위한 가능한 비트스트림 형태는 아래와 같다:
"일반 디코드 모드"에서 이해되어야 한다면 생략 가능해야 할 필요가 있는 SAOC 비트스트림에 대한 추가사항:
Figure 112011095730426-pat00021

복잡도 및 메모리 요구사항과 관련하여서는, 아래에서 설명될 수 있다. 이전의 설명으로부터 볼 수 있었던 바와 같이 도 6의 개선된 가라오케/솔로 모드는 인코더 및 디코더/트랜스코더 각각에서 하나의 개념적 요소, 즉 일반화된 TTT-1 / TTT 인코더 요소의 단계들을 부가함으로써 구현된다. 양 요소들이 일반적인 "중심화된" TTT 대응요소들에 대해 그 복잡도 면에서 동일하다(계수 값들에서의 변화는 복잡도에 영향을 주지 않는다). 예상되는 주요 어플리케이션(리드 보컬과 같은 하나의 FGO)에 대해서는, 단일 TTT로 충분하다.
이러한 부가적인 구조의 MPEG 서라운드 시스템에 대한 관계는 관련 스테레오 다운믹스 케이스(5-2-5 구조)에 대해 하나의 TTT 요소 및 2 개의 OTT 요소로 구성된 전체 MPEG 서라운드 디코더의 구조를 살펴봄으로써 이해될 수 있다. 이는, 추가된 기능이 계산적 복잡도 및 메모리 소비 면에서 적당한 가격으로 구현할 수 있음을 이미 보여주고 있다(잔여 코딩을 이용한 개념적은 요소들은, 대신 역상관기를 포함하는 그들의 대응요소들보다 더 이상 복잡하지 않은 보통 수준임을 유의하자).
MPEG SAOC 기준 모델의 도 6의 이러한 확장은 특별한 솔로 혹은 뮤트(mute)/가라오케 타입 어플리케이션을 위한 오디오 품질 향상을 제공한다. 다시 한번, 도 5, 6, 및 7과 관련한 설명은 백그라운드 씬 혹은 BGO로서 MBO를 지칭하며, 이는 일반적으로 이러한 객체 타입에 한정되지 않으며, 모노 혹은 스테레오 객체도 또한 될 수 있음을 유의해야 할 것이다.
주관적인 평가 절차는 가라오케 혹은 솔로 어플리케이션을 위한 출력 신호의 오디오 품질 측면에서의 향상을 드러낸다. 평가되는 조건들은 다음과 같다:
RM0
향상 모드 (res 0) (= 잔여 코딩 없이)
향상 모드 (res 6) (= 최저 6 개의 하이브리드 QMF 대역들에서의 잔여 코딩을 이용하여)
향상 모드 (res 12) (= 최저 12개의 하이브리드 QMF 대역들에서의 잔여 코딩을 이용하여)
향상 모드 (res 24) (= 최저 24개의 하이브리드 QMF 대역들에서의 잔여 코딩을 이용하여)
숨겨진 레퍼런스(Hidden Reference)
더 낮은 앵커(Lower anchor) (레퍼런스의 3.5 kHz 대역 한정된 버전)
제안된 향상 모드에 대한 비트레이트는 잔여 코딩 없이 사용되는 경우 RM0와 유사하다. 다른 모든 향상 모드는 잔여 코딩의 매 6 대역들에 대해 약 10 kbit/s를 필요로 한다.
도 8a는 10 개의 청취 객체들을 가지는 뮤트/가라오케 테스트에 대한 결과를 보여준다. 제안된 해결책은 항상 RM0보다 높고 부가적인 잔여 코딩의 각 단계마다 증가하는 평균 MUSHRA 스코어를 가진다. 잔여 코딩의 6개 대역 이상의 모드에 대해서는 RM0의 성능에 비해 확실히 통계적으로 중대한 향상이 관찰된다.
도 8b의 9 개의 객체들과의 솔로 테스트와의 결과는 제안된 해결책에 대한 유사한 이점들을 보여준다. 보다 많은 잔여 코딩이 증가할수록 평균 MUSHRA 스코어가 명백히 증가한다. 잔여 코딩의 24 대역들을 이용한 향상 모드와 이들을 이용하지 않은 향상 모드 간의 이득은 약 50 MUSHRA 포인트이다.
전체적으로, 가라오케 어플리케이션에 대해서 ca의 비용으로 RM0보다 10 kbit/s의 높은 비트레이트의 양호한 품질을 얻는다. 최대 고정 비트레이트가 주어진 현실적인 어플리케이션 시나리오에서, 제안된 향상 모드는 허용가능한 최대 레이트가 도달될 때까지 잔여 코딩을 위한 "미사용 비트레이트"를 소비하는 것을 훌륭하게 허용한다. 그러므로, 가능한 최선의 전반적인 오디오 품질이 얻어진다. 잔여 비트레이트의 보다 지능적인 사용으로 인해 소개된 실험적 결과보다 더 나은 향상이 가능한 것이다: 소개된 설정은 항상 DC로부터 특정 상위 경계 주파수까지의 잔여 코딩을 사용하는 반면, 향상 모드는 FGO 및 백그라운드 객체들을 분리하는 데 관련된 주파수 범위에 대한 비트만을 사용할 것이다.
이후의 설명에서는, 가라오케-타입 어플리케이션을 위한 SAOC 기술의 향상이 서술된다. MPEG SAOC를 위한 멀티-채널 FGO 오디오 씬 프로세싱에 대한 향상된 가라오케/솔로 모드의 어플리케이션의 부가적인 자세한 실시예들이 소개된다.
변경에 의해 재생되는 FGO들과는 대조적으로, MBO 신호들은 변경 없이 재생되어야 한다. 즉 모든 입력 채널 신호가 변경되지 않는 레벨에서 동일한 출력 채널을 통해 재생된다. 따라서, MPEG 서라운드 인코더에 의한 MBO 신호들의 전처리는, SAOC 인코더, MBO 트랜스코더 및 MPS 디코더를 포함하는 후속하는 가라오케/솔로 모드 프로세싱 스테이지들로 입력될 (스테레오) 백그라운드 객체들의 역할을 하는 스테레오 다운믹스 신호를 산출하는 것으로 제안되어 왔다. 도 9는 다시 전체적인 구조의 다이어그램을 보여준다.
보여지는 바와 같이, 가라오케/솔로 모드 코더 구조에 따르면, 입력 객체들은 스테레오 백그라운드 객체(BGO) 및 포어그라운드 객체들(FGO)로 분류된다.
RM0에서는 이러한 어플리케이션 시나리오의 처리가 SAOC 인코더/트랜스코더 시스템에 의해 실행되지만, 도 6의 향상은 MPEG 서라운드 구조의 기초적인 빌딩 블록을 추가적으로 이용한다. 인코더에서 3-대-2(TTT-1) 및 트랜스코더에서의 대응하는 2-대-3(TTT) 상응 요소를 통합하는 것은 특정 오디오 객체의 강한 부스트/감쇠가 필요한 경우 성능을 향상시킨다. 확장된 구조의 두 가지 주요 특성들은 아래와 같다:
- 잔여 신호의 이용으로 인한 더 좋은 신호 분리(RM0에 비해)
- 그 믹싱 규격을 일반화함으로 인한 TTT-1 박스의 중앙 입력(즉, FGO)으로 표시되는 신호의 유연한 포지셔닝
TTT 빌딩 블록의 직접적인 구현은 인코더 측에서의 3 개의 입력 신호들과 관련이 있기 때문에, 도 6은 도 10에 도시된 바와 같이 (다운믹스된) 모노 신호로서 FGO들의 처리에 집중되어 있다. 멀티-채널 FGO 신호들의 처리가 또한 서술되었지만, 다음 장에서 보다 자세히 설명될 것이다.
도 10으로부터 알 수 있는 바와 같이, 도 6의 향상 모드에서, 모든 FGO들의 결합이 TTT-1 박스의 중앙 채널로 입력된다.
도 6 및 도 10의 케이스인 것과 같이, FGO 모노 다운믹스의 경우, 인코더에서 TTT-1 박스의 구성은 중앙 입력으로 공급되는 FGO, 그리고 좌측 및 우측 입력을 제공하는 BGO를 포함한다. 내재하는 대칭 매트릭스는,
Figure 112011095730426-pat00022
에 의해 주어지고, 이는 다운믹스
Figure 112011095730426-pat00023
및 신호 F0:
Figure 112011095730426-pat00024
를 제공한다.
이 선형 시스템을 통해 얻어지는 제3 신호는 파기되지만, 트랜스코더 측에서 두 예측 계수들 c1 및 c2를 통합하여
Figure 112011095730426-pat00025
에 따라 재생될 수 있다.
트랜스코더에서의 역처리는:
Figure 112011095730426-pat00026
에 의해 주어진다.
파라미터들 m1 및 m2는:
Figure 112011095730426-pat00027
Figure 112011095730426-pat00028
에 상응하며,
Figure 112011095730426-pat00029
는 공통 TTT 다운믹스
Figure 112011095730426-pat00030
에서 FGO의 패닝을 담당한다. 트랜스코더 측에서 TTT 업믹스 유닛에 의해 요구된 예측 계수들 c1 및 c2 는 전송된 SAOC 파라미터들, 즉 모든 입력 오디오 객체들에 대한 객체 레벨 차이들 및 BGO 다운믹스 (MBO) 신호들에 대한 인터-객체 상관성(IOC)을 이용해 계산될 수 있다. FGO 및 BGO 신호들의 통계적 독립성을 가정할 때 CPC 계산에 다음의 관계식이 적용된다:
Figure 112011095730426-pat00031

변수들
Figure 112011095730426-pat00032
Figure 112011095730426-pat00033
은 다음과 같이 계산될 수 있으며,
Figure 112011095730426-pat00034
파라미터들
Figure 112011095730426-pat00035
Figure 112011095730426-pat00036
은 BGO에 대응되고,
Figure 112011095730426-pat00037
는 FGO 파라미터이다.
추가적으로, CPC들의 구현에 의해 나타난 에러는 비트스트림 내에서 전송될 수 있는 잔여 신호(132)에 의해, 다음과 같이 표현된다:
Figure 112011095730426-pat00038
어떤 어플리케이션 시나리오에 있어 모든 FGO들의 단일 모노 다운믹스의 제한이 부적절하고, 따라서 극복되어야 할 필요가 있다. 예를 들어, FGO들은 전송된 스테레오 다운믹스 및/또는 개별적인 감쇠의 여러 위치들을 가지는 2 개 이상의 독립적인 그룹으로 나눠질 수 있다. 그러므로, 도 11에 도시된 케스케이드된 구조는 2 이상의 연속적인 TTT-1 요소들(124a, 124b)을 암시하며, 원하는 스테레오 다운믹스(112)가 얻어질 때까지 인코더 측에서 모든 FGO 그룹들 F1, F2의 스텝 단위(step-by-step) 다운믹싱을 산출한다. TTT-1 박스들(124a, 124b)(도 11에서 각각) 각각 - 혹은 적어도 몇몇- 은 개별적인 단계 혹은 TTT-1 박스(124a, 124b) 각각에 상응하는 잔여 신호(132a, 132b)를 설정한다. 반대로, 트랜스코더는 연속적으로 적용된, 상응하는 CPC들 및 잔여 신호들을 통합하는, 개별 TTT 박스들(126a, b)이 사용가능하다면, 이를 사용하여 연속적인 업믹싱을 수행한다. FGO 프로세싱의 순서는 인코더-특화되어 있고, 트랜스코더 측에서 고려되어야 한다.
도 11에 도시된 2-단계 케스케이드와 관련된 자세한 계산이 아래에서 설명된다.
일반적으로 손실이 없지만 단순화된 도시를 위해 아래 설명은, 도 11에 도시된 바와 같은 두 TTT 요소들로 구성된 케스케이드를 기초로 한다. 두 대칭적 매트릭스들은 FGO 모노 다운믹스와 유사하지만, 개별적인 신호들:
Figure 112011095730426-pat00039
Figure 112011095730426-pat00040
에 적절하게 적용되어야 한다.
여기서, 두 셋트의 CPC들이 아래의 신호 재구성을 도출한다.
Figure 112011095730426-pat00041
Figure 112011095730426-pat00042
역 처리는
Figure 112011095730426-pat00043
Figure 112011095730426-pat00044
에 의해 표현된다.
2-단계 케스케이드의 특별한 경우는 그 좌측 및 우측 채널이 BGO의 상응하는 채널로 적절히 합산되어,
Figure 112011095730426-pat00045
Figure 112011095730426-pat00046
:
Figure 112011095730426-pat00047
Figure 112011095730426-pat00048
를 산출하는, 하나의 스테레오 FGO를 포함한다.
이러한 특정 패닝 스타일을 위해 그리고 인터-객체 상관성을 무시함,
Figure 112011095730426-pat00049
으로써 두 셋트의 CPC들의 계산은 아래와 같이 줄어들고,
Figure 112011095730426-pat00050
,
Figure 112011095730426-pat00051
Figure 112011095730426-pat00052
은 좌측 및 우측 신호의 OLD 들을 각각 표시한다.
일반적인 N-단계 케스케이드 경우는 아래 식에 따른 멀티-채널 FGO 다운믹스를 지칭하고,
Figure 112011095730426-pat00053
각 단계는 그 고유의 CPC들 및 잔여 신호를 특징짓는다.
트랜스코더 측에서, 역 케스케이딩 단계들은,
Figure 112011095730426-pat00054
에 의해 주어진다.
TTT 요소들의 순서를 보존할 필요를 없애기 위해, N 개의 매트릭스들을 하나의 단일 대칭 TTN 매트릭스로 재배치함으로써, 캐스케이드된 구조는 쉽게 동등한 병렬로 변환될 수 있으며, 따라서, 일반적인 TTN 스타일:
Figure 112011095730426-pat00055
을 도출하고, 여기서 매트릭스의 첫번째 두 라인들은 전송될 스테레오 다운믹스를 의미한다. 반대로, 용어 TTN - 2-대-N - 은 트랜스코더 측에서의 업믹싱 처리를 의미한다.
이러한 설명을 이용해 특별히 패닝된 스테레오 FGO의 특별 경우는 매트릭스를
Figure 112011095730426-pat00056
로 감소시킨다.
따라서 이 유닛은 2-대-4 요소 혹은 TTF로 명명될 수 있다.
SAOC 스테레오 전처리 모듈을 재사용하는 TTF 구조를 산출하는 것 또한 가능하다.
N=4의 한계에 대해 기존의 SAOC 시스템의 부분들을 재사용하는 2-대-4(TTF) 구조의 구현이 실현 가능해진다. 그 절차가 아래 문단에서 설명된다.
SAOC 표준 텍스트는 "스테레오-대-스테레오 트랜스코딩 모드"를 위한 스테레오 다운믹스 전처리를 설명한다. 정확하게 출력 스테레오 신호
Figure 112011095730426-pat00057
가 역상관된 신호
Figure 112011095730426-pat00058
와 함께 입력 스테레오 신호
Figure 112011095730426-pat00059
로부터 아래와 같이 계산된다:
Figure 112011095730426-pat00060
역상관된 성분
Figure 112011095730426-pat00061
는 인코딩 프로세스에서 이미 폐기된 원래의 렌더링된 신호의 부분들의 합성 표현이다. 도 12에 따르면, 역상관된 신호는 특정 주파수 범위에 대해 적당한 인코더 생성된 잔여 신호(132)에 의해 대체된다.
명명법은 아래와 같이 정의된다:
Figure 112011095730426-pat00062
는 2×N 다운믹스 매트릭스이다.
Figure 112011095730426-pat00063
는 2×N 렌더링 매트릭스이다.
Figure 112011095730426-pat00064
는 입력 객체들
Figure 112011095730426-pat00065
의 N×N 공분산 모델이다.
Figure 112011095730426-pat00066
(도 12에서
Figure 112011095730426-pat00067
에 상응하는)는 예측 2×2 업믹스 매트릭스이다.
Figure 112011095730426-pat00068
Figure 112011095730426-pat00069
,
Figure 112011095730426-pat00070
Figure 112011095730426-pat00071
의 함수임을 유의하자.
잔여 신호
Figure 112011095730426-pat00072
를 계산하기 위해 인코더에서 디코더 프로세싱을 모방하는 것, 즉
Figure 112011095730426-pat00073
를 결정하는 것이 필요하다. 일반적인 시나리오에서
Figure 112011095730426-pat00074
는 알려지지 않지만, 가라오케 시나리오(예를 들어, 하나의 스테레오 백그라운드 및 하나의 스테레오 포어그라운드 객체, N=4)의 특별 케이스에서,
Figure 112011095730426-pat00075
로 가정되며, 이는 BGO만이 렌더링됨을 의미한다.
포어그라운드 객체의 계산을 위해 재생된 백그라운드 객체가 다운믹스 신호
Figure 112011095730426-pat00076
로부터 감산된다. 이것 그리고 최종적 렌더링이 "믹스" 프로세싱 블록에서 수행된다. 자세한 사항이 아래에서 소개된다.
렌더링 매트릭스
Figure 112011095730426-pat00077
Figure 112011095730426-pat00078
로 설정되며, 첫 2 개의 칼럼들이 FGO의 2 채널들을 나타내며, 두 번째의 두 칼럼들이 BGO의 2 채널들을 나타내는 것으로 가정된다.
BGO 및 FGO 스테레오 출력이 아래의 공식에 따라 계산된다.
Figure 112011095730426-pat00079

Figure 112011095730426-pat00080
이고
Figure 112011095730426-pat00081
일 때
다운믹스 가중치 매트릭스
Figure 112011095730426-pat00082
Figure 112011095730426-pat00083
,
와 같이 정의됨에 따라,
FGO 객체는
Figure 112011095730426-pat00084
으로 설정될 수 있다.
예로서, 이것은 다운믹스 매트릭스
Figure 112011095730426-pat00085
에 대해,
Figure 112011095730426-pat00086
로 감소된다.
Figure 112011095730426-pat00087
는 앞서 설명한 대로 얻어진 잔여 신호들이다. 역상관된 신호들이 부가되지 않음을 유의해야 할 것이다.
최종 출력
Figure 112011095730426-pat00088
Figure 112011095730426-pat00089
에 의해 주어진다.
스테레오 FGO 대신 모노 FGO가 사용된다면 상기의 실시예들이 또한 적용될 수 있다. 그리고 나서 프로세싱은 아래와 같이 변경된다.
렌더링 매트릭스
Figure 112011095730426-pat00090
Figure 112011095730426-pat00091
으로 설정되며, 첫번째 칼럼은 모노 FGO를 나타내고 후속하는 칼럼들은 BGO의 2 개의 채널들을 나타내는 것으로 가정된다.
BGO 및 FGO 스테레오 출력은 아래의 공식에 따라 계산된다.
Figure 112011095730426-pat00092

Figure 112011095730426-pat00093
이고,
Figure 112011095730426-pat00094
일 때
다운믹스 가중 매트릭스
Figure 112011095730426-pat00095
가,
Figure 112011095730426-pat00096
와 같이 정의됨에 따라,
BGO 객체는
Figure 112011095730426-pat00097
로 설정될 수 있다.
예로서, 이것은, 다운믹스 매트릭스
Figure 112011095730426-pat00098
에 대해,
Figure 112011095730426-pat00099
로 감소한다.
Figure 112011095730426-pat00100
는 앞서 설명한 대로 얻어진 잔여 신호들이다. 역상관된 신호들이 부가되지 않음을 유의해야 할 것이다.
최종적인 출력
Figure 112011095730426-pat00101
Figure 112011095730426-pat00102
에 의해 주어진다.
4를 초과하는 FGO 객체들의 처리에 있어, 방금 설명한 프로세싱 단계들의 병렬적 단계들을 통합함으로써 상술한 실시예들이 확장될 수 있다.
앞서 막 설명한 실시예들은 멀티-채널 FGO 오디오 장면의 경우에 대한 향상된 가라오케/솔로 모드의 자세한 설명을 제공하였다. 이러한 일반화는 가라오케 어플리케이션 시나리오의 클래스를 확장하기 위함을 목적으로 하며, 이를 위한 MPEG SAOC 레퍼런스 모델의 사운드 품질이 향상된 가라오케/솔로 모드의 어플리케이션에 의해 추가적으로 향상될 수 있다. 일반적인 NTT 구조를 SAOC 인코더의 다운믹스 부분으로 그리고 상응하는 대응부들을 SAOCtoMPS 트랜스코더로 도입함으로써 이러한 향상이 이루어질 수 있다. 잔여 신호들의 사용이 품질 결과를 향상시켰다.
도 13a 내지 13h는 본 발명의 일 실시예에 따른 SAOC 부가 정보 비트 스트림의 가능한 문법을 보여준다.
SAOC 코덱을 위한 향상 모드와 관련한 몇몇 실시예들을 서술한 후, 몇몇 실시예들은 SAOC 인코더에 대한 오디오 입력이 일반적인 모노 혹은 스테레오 사운드 소스들뿐 아니라 멀티-채널 객체들 또한 포함하는 어플리케이션 시나리오들과 관련있음을 유의하여야 한다. 이것은 도 5 내지 7b와 관련하여 명백히 설명되었다. 이러한 멀티-채널 백그라운드 객체 MBO는 대규모의 또한 종종 미지의 개수의 사운드 소스들과 관련한 복합 사운드 씬으로서 고려될 수도 있으며, 이를 위해서는 제어가능한 렌더링 기능이 필요하지 않다. 개별적으로, 이러한 오디오 소스들이 SAOC 인코더/디코더 구조에 의해 효과적으로 처리되지 않을 수도 있다. SAOC 구조의 개념은, 그러므로, 이러한 복합 입력 신호들, 즉, 일반적인 SAOC 오디오 객체들과 함께, MBO 채널들을 다루기 위해 확장되는 것으로 생각될 수 있다. 그러므로, 방금 설명한 도 5 내지 7b의 실시예에서, MPEG 서라운드 인코더는 SAOC 인코더(108) 및 MPS 인코더(100)를 둘러싸는 점선으로 나타난 SAOC 인코더로 통합되는 것으로 생각된다. 결과적인 다운믹스(104)는 트랜스코더 측으로 전송되는 결합된 스테레오 다운믹스(112)를 생성하는 제어가능한 SAOC 객체(110)와 함께 SAOC 인코더(108)에 대한 스테레오 입력 객체로서 제공한다. 파라미터 도메인에서, MPS 비트 스트림(106) 및 SAOC 비트 스트림(114) 모두가, 특정 MBO 어플리케이션 시나리오에 따라 MPEG 서라운드 디코더(122)를 위한 적절한 MPS 비트 스트림(118)을 제공하는 SAOC 트랜스코더(116)로 공급된다. 이러한 업무는 렌더링 정보 혹은 렌더링 매트릭스를 사용하고 MPS 디코더(122)를 위해 다운믹스 신호(112)를 다운믹스 신호(120)로 변환하기 위해 어떤 다운믹스 전-처리를 채용하여 수행된다.
향상된 가라오케/솔로 모드를 위한 추가적인 실시예가 아래에서 설명된다. 이것은, 최종적인 사운드 품질의 중대한 감소 없는 레벨 증폭/감쇠의 측면에서 몇몇 오디오 객체들의 개별적인 조작을 허용한다. 특별한 "가라오케-타입" 어플리케이션 시나리오는, 백그라운드 사운드 씬의 감각적 품질을 저하 없이 유지하면서 특정 객체들, 일반적으로 리드 보컬, (아래에서는 포어그라운드 객체 FGO로 지칭됨) 의 전체적인 억제를 필요로 한다. 이는 또한 정적인 백그라운드 오디오 씬 (아래에서는 백그라운드 객체 BGO로 지칭됨) 없이 특정 FGO 신호들을 개별적으로 재생하는 능력을 수반한다. 이러한 시나리오는 "솔로" 모드로 지칭된다. 전형적인 어플리케이션 케이스는 스테레오 BGO 및 최대 4 개의 FGO 신호들을 포함하며, 이것은 예를 들어, 2 독립적인 스테레오 객체들을 표현한다.
이 실시예 및 도 14에 따르면, 향상된 가라오케/솔로 트랜스코더(150)는, 둘다 MPEG 서라운드 규격으로부터 알려진 TTT 박스의 일반화된 그리고 향상된 변형을 나타내는 "2-대-N" (TTN) 혹은 "1-대-N" (OTN) 요소(152) 중 하나를 통합한다. 적절한 요소의 선택은 전송되는 채널의 개수에 달려 있다. 즉, 모노 다운믹스 신호에 대해서는 OTN 박스가 적용되는 반면 TTN 박스는 스테레오 다운믹스 신호에 전용된다. SAOC 인코더의 상응하는 TTN-1 혹은 OTN-1 박스는 BGO 및 FGO 신호들을 공통 SAOC 스테레오 혹은 모노 다운믹스(112)로 결합시키고 비트스트림(114)을 생성한다. 다운믹스 신호(112)의 모든 개별적인 FGO들의 임의의 기-설정된 포지셔닝이 둘 중 하나의 요소, 즉 TTN 혹은 OTN(152)에 의해 지원된다. 트랜스코더 측에서는, BGO(154) 혹은 FGO 신호들(156)의 어떤 조합이 (외부적으로 적용되는 동작 모드(158))에 따라 SAOC 부가 정보(114)만을 그리고 선택적으로 통합된 잔여 신호들을 이용해 TTN 혹은 OTN 박스(152)에 의해 다운믹스(112)로부터 재생된다. 재생된 오디오 객체들(154/156) 및 렌더링 정보(160)는 MPEG 서라운드 비트스트림(162) 및 상응하는 전처리된 다운믹스 신호(164)를 생성하는 데 사용된다. 믹싱 유닛(166)은 MPS 입력 다운믹스(164)를 획득하기 위해 다운믹스 신호(112)의 프로세싱을 수행하고, MPS 트랜스코더(168)는 SAOC 파라미터(114)의 MPS 파라미터(162)로의 트랜스코딩을 담당한다. TTN/OTN 박스(152) 및 믹싱 유닛(166)은 함께, 도 3의 수단들(52 및 54)에 상응하는 향상된 가라오케/솔로 모드 프로세싱(170)을 수행하는데, 믹싱 유닛의 기능은 수단(54)에 포함된다.
MBO는 앞서 설명한 바와 같은 방식으로 취급된다. 즉, 후속하는 향상된 SAOC 인코더에 대한 입력에 대한 BGO로서 동작하는 모노 혹은 스테레오 다운믹스 신호를 산출하는 MPEG 서라운드 인코더에 의해 전처리된다. 이 경우 트랜스코더는 SAOC 비트스트림 옆에 부가적인 MPEG 서라운드 비트스트림이 제공되어야 한다.
다음으로, TTN(OTN) 요소에 의해 수행되는 계산이 설명된다. 제1 기 설정된 시간/주파수 해상도(42)로 표현되는 TTN/OTN 매트릭스, M은, 두 매트릭스의 곱,
Figure 112011095730426-pat00103
이며, 여기서
Figure 112011095730426-pat00104
은 다운믹스 정보를 포함하고,
Figure 112011095730426-pat00105
는 각 FGO 채널에 대한 채널 예측 계수들(CPC들)을 내포한다.
Figure 112011095730426-pat00106
는 수단(52) 및 박스(152) 각각에 의해 계산되고,
Figure 112011095730426-pat00107
이 계산되어
Figure 112011095730426-pat00108
와 함께, 수단(54) 및 박스(152)에 의해 SAOC 다운믹스에 각각 적용된다. 계산은, TTN 요소, 즉 스테레오 다운믹스에 대해,
Figure 112011095730426-pat00109
에 따라,
그리고 OTN 요소, 즉 모노 다운믹스에 대해서는,
Figure 112011095730426-pat00110
에 따라 수행된다.
CPC들은 전송된 SAOC 파라미터들, 즉 OLD들, IOC들, DMG들 및 DCLD들로부터 도출된다. 하나의 특정 FGO 채널 j에 대해 CPC들은
Figure 112011095730426-pat00111
Figure 112011095730426-pat00112

에 의해 계산될 수 있으며, 여기서,
Figure 112011095730426-pat00113
이다.
파라미터들
Figure 112011095730426-pat00114
Figure 112011095730426-pat00115
은 BGO에 상응하며, 나머지는 FGO 값들이다.
계수들
Figure 112011095730426-pat00116
Figure 112011095730426-pat00117
는 우측 및 좌측 다운믹스 채널에 대한 모든 FGO j에대한 다운믹스 값들을 나타내며, 다운믹스 이득
Figure 112011095730426-pat00118
및 다운믹스 채널 레벨 차이
Figure 112011095730426-pat00119
로부터 도출된다.
Figure 112011095730426-pat00120
OTN 요소와 관련하여, 제2 CPC 값들
Figure 112011095730426-pat00121
의 계산은 불필요하다.
두 객체 그룹들 BGO 및 FGO를 재구성하기 위해, 다운믹스 정보가, 신호들 F01 내지 F0N , 즉,
Figure 112011095730426-pat00122
에 대한 선형 조합을 추가적으로 규정하기 위해 확장되는 다운믹스 매트릭스 D의 역에 의해 이용된다.
아래에서는, 인코더 측에서의 다운믹스가 설명된다:
TTN-1 요소 내에서, 확장된 다운믹스 매트릭스는,
스테레오 BGO에 대해
Figure 112011095730426-pat00123
,
모노 BGO에 대해
Figure 112011095730426-pat00124
이고,
OTN-1 요소에 대해서는,
스테레오 BGO에 대해
Figure 112011095730426-pat00125
,
모노 BGO에 대해
Figure 112011095730426-pat00126
이다.
TTN/OTN 요소의 출력은 스테레오 BGO 및 스테레오 다운믹스에 대해
Figure 112011095730426-pat00127
을 산출한다. BGO 및/또는 다운믹스가 모노 신호인 경우, 선형 시스템이 그에 따라 변경된다.
잔여 신호
Figure 112011095730426-pat00128
는 FGO 객체 i에 대응하고, SAOC 스트림에 의해 전달되지 않는다면 - 예를 들어, 잔여 주파수 범위 밖에 있다거나, FGO 객체 i에 대해 잔여 신호가 전혀 전달되지 않음이 시그널링된다거나 하는 이유로 -
Figure 112011095730426-pat00129
는 0으로 암시된다.
Figure 112011095730426-pat00130
는 FGO 객체 i를 근사화하는 재생된/업-믹스된 신호이다. 계산 후에는, FGO 객체 i의 PCM 코딩된 버전과 같은 시간 도메인을 획득하기 위해 합성 필터 뱅크를 통과할 수 있다. L0 및 R0가 SAOC 다운믹스 신호의 채널들을 나타내고 파라미터 해상도 내재 인덱스들 (n, k)과 비교해 증가된 시간/주파수 해상도에서 유효하고/시그널링됨을 상기하자.
Figure 112011095730426-pat00131
Figure 112011095730426-pat00132
은 BGO 객체의 좌측 및 우측 채널들을 근사화하는 재구성된/업-믹스된 신호들이다. 이것은 MPS 부가 비트스트림과 함께, 채널들의 원래 개수 상으로 렌더링될 수 있다.
일 실시예에 따르면, 아래의 TTN 매트리스가 에너지 모드에서 사용된다.
에너지 기반 인코딩/디코딩 절차는 다운믹스 신호의 비-파형 보존 코딩을 위해 설계된다. 따라서 상응하는 에너지 모드를 위한 TTN 업믹스 매트릭스는 특정 파형에 의존하지 않고 입력 오디오 객체들의 연관된 에너지 분포만을 서술한다. 이 매트릭스
Figure 112011095730426-pat00133
의 요소들을 상응하는 OLD들로부터,
스테레오 BGO에 대해서,
Figure 112011095730426-pat00134
및, 모노 BGO에 대해서는,
Figure 112011095730426-pat00135
에 따라 획득되어, TTN 요소의 출력은,
Figure 112011095730426-pat00136
, 혹은 각각
Figure 112011095730426-pat00137
을 산출한다.
따라서, 모노 다운믹스에 대해 에너지-기반 업믹스 매트릭스
Figure 112011095730426-pat00138
스테레오 BGO에 대해,
Figure 112011095730426-pat00139
이 되고,
모노 BGO에 대해,
이 되어, OTN 요소의 출력은,
Figure 112011095730426-pat00141
, 혹은 각각
Figure 112011095730426-pat00142
을 도출한다.
따라서, 방금 설명한 실시예에 따르면, 모든 객체들
Figure 112011095730426-pat00143
의 BGO 및 FGO 각각으로의 분류가 인코더 측에서 이루어진다. BGO는 모노
Figure 112011095730426-pat00144
혹은 스테레오
Figure 112011095730426-pat00145
객체이다. BGO의 다운믹스 신호로의 다운믹스는 고정된다. FGO들이 고려되는 한, 그 갯수는 이론적으로 제안되지 않는다. 하지만, 대부분의 어플리케이션들에 있어 4 개의 FGO 객체들 전부가 적당하다. 모노 및 스테레오 객체들의 어느 조합이라도 구현가능하다. 파라미터들
Figure 112011095730426-pat00146
(좌측/모노 다운믹스 신호에서 가중하는) 및
Figure 112011095730426-pat00147
(우측 다운믹스 신호에서 가중하는)를 통해, FGO 다운믹스가 시간 및 주파수 양쪽 측면에서 가변적이다. 결론적으로, 다운믹스 신호는 모노
Figure 112011095730426-pat00148
혹은 스테레오
Figure 112011095730426-pat00149
이다.
다시 말해, 신호들
Figure 112011095730426-pat00150
은 디코더/트랜스코더로 전송되지 않는다. 그보다는 앞서 언급된 CPC들을 수단으로 하여 디코더 측에서 동일한 것이 예측된다.
이러한 측면에서, 잔여 신호들
Figure 112011095730426-pat00151
는 디코더에 의해 심지어 파기될 수도 있음을 다시 한번 유의해야 할 것이다. 이 경우, 디코더 - 예를 들어, 수단(52) - 는 단지 CPC들에 기초하는 가상 신호들을,
스테레오 다운믹스:
Figure 112011095730426-pat00152
모노 다운믹스:
Figure 112011095730426-pat00153
에 따라 예측한다.
그리고 나서, BGO 및/또는 FGO는 - 예를 들어, 수단(54)에 의해 - 인코더의 4 가지 가능한 선형 조합들 중 하나의 역변환,
예를 들어,
Figure 112011095730426-pat00154
에 의해 얻어지며, 여기서 다시,
Figure 112011095730426-pat00155
은 파라미터들 DMG 및 DCLD의 함수이다.
따라서, 전체적으로, 잔여 무시 TTN(OTN) 박스(152)는 막 설명된 계산 단계들 양쪽을 계산한다.
예를 들어:
Figure 112011095730426-pat00156
이다.
D가 2차인 경우 D의 역은 직접적으로 얻어질 수 있음을 유의해야 할 것이다. 비-2차 매트릭스 D의 경우에는, D의 역은 의사-역(psudo-inverse), 즉,
Figure 112011095730426-pat00157
혹은
Figure 112011095730426-pat00158
이 되어야 할 것이다. 어느 경우에도 D의 역은 존재한다.
마침내, 도 15가 부가 정보 내에서 잔여 데이터를 전달하는 데 소비되는 데이터의 양을 어떻게 설정할 것인지에 관한 추가적인 가능성을 보여준다. 이 문법에 따르면, 부가 정보는
Figure 112011095730426-pat00159
, 즉 예를 들어 인덱스에 대한 주파수 해상도와 관련된 테이블에 대한 인덱스를 포함한다. 대안적으로, 해상도는 필터 뱅크 혹은 파라미터 해상도와 같은 기 설정된 해상도로 지칭질 수도 있다. 또한, 부가 정보는 잔여 신호가 전달된는 시간 해상도를 정의하는
Figure 112011095730426-pat00160
를 포함한다. 부가 정보에 또한 포함된
Figure 112011095730426-pat00161
는 FGO들의 개수를 지시한다. 각 FGO에 대해, 개별 FGO에 대해 잔여 신호가 전송되는지 여부를 나타내는 문법 요소
Figure 112011095730426-pat00162
가 전송된다. 만약 존재하는 경우,
Figure 112011095730426-pat00163
는 잔여 값들이 전송되는 스펙트럴 대역들의 개수를 나타낸다.
실제 구현에 따라, 본 발명의 인코딩/디코딩 방법들은 하드웨어로 혹은 소프트웨어로 구현될 수 있다. 그러므로, 본 발명은 또한 CD, 디스크 혹은 다른 데이터 저장체와 같은 컴퓨터-판독가능한 매체에 저장될 수 있는 컴퓨터 프로그램에 관련된다. 그러므로, 본 발명은 또한, 컴퓨터 상에서 수행될 때, 상기 도면들과 관련하여 설명된 본 발명의 인코딩 또는 본 발명의 디코딩을 수행하는 프로그램 코드를 가지는 컴퓨터 프로그램일 수 있다.

Claims (23)

  1. 그 내에 인코딩된 제1 타입 오디오 신호 및 제2 타입 오디오 신호를 가지는 멀티-오디오-객체 신호를 디코딩하는 오디오 디코더로서,
    상기 멀티-오디오-객체 신호는 다운믹스 신호(56) 및 부가 정보(58)로 구성되고, 상기 부가 정보는 제1 기 설정된 시간/주파수 해상도(42)의 상기 제1 타입 오디오 신호 및 상기 제2 타입 오디오 신호의 레벨 정보(60), 그리고 제2 기 설정된 시간/주파수 해상도에서 잔여 레벨 값들을 특정하는 잔여 신호(62)를 포함하고,
    상기 오디오 디코더는,
    상기 레벨 정보(60)에 기초하여 예측 계수들(64)을 계산하는 수단(52); 및
    제 1 출력에서 상기 제1 타입 오디오 신호를 근사화하는(approximating) 제1 업-믹스 오디오 신호 및 제 2 출력에서 상기 제2 타입 오디오 신호를 근사화하는 제2 업-믹스 오디오 신호를 획득하기 위해 상기 예측 계수들(64) 및 상기 잔여 신호(62)에 기초하여 상기 다운믹스 신호(56)를 업-믹싱하는 수단(54)을 포함하며,
    상기 제1 타입 오디오 신호는 제1 및 제2 입력 채널을 가지는 스테레오 오디오 신호이거나, 또는 제1 입력 채널만을 가지는 모노 오디오 신호이고, 상기 다운믹스 신호는 제1 및 제2 출력 채널을 가지는 스테레오 오디오 신호이거나, 혹은 제1 출력 채널만을 가지는 모노 오디오 신호이고, 상기 레벨 정보는 상기 제1 기 설정된 시간/주파수 해상도에서 상기 제1 입력 채널, 상기 제2 입력 채널 및 상기 제2 타입 오디오 신호 각각 사이의 레벨 차이들을 나타내고, 상기 부가 정보는 제3 기 설정된 시간/주파수 해상도에서의 상기 제1 및 제2 입력 채널 간의 레벨 유사도를 정의하는 인터-상관(inter-correlation) 정보를 더 포함하고, 상기 계산하는 단계는 상기 인터-상관 정보에 추가적으로 기초하여 계산을 수행하고,
    상기 제1 및 제3 시간/주파수 해상도는 상기 부가 정보 내의 공통 문법(syntax) 요소에 의해 결정되고,
    상기 부가 정보는 상기 제1 타입 오디오 신호 및 상기 제2 타입 오디오 신호가 그에 따라 상기 다운믹스 신호(56)로 다운믹스되는 다운믹스 매트릭스를 더 포함하고,
    상기 계산하는 수단 및 상기 업-믹싱하는 수단은,
    상기 업-믹싱이, 제1 및 제2 매트릭스의 시퀀스에 대한, 상기 다운믹스 신호 및 상기 잔여 신호로 구성되는 벡터의 적용에 의해 표현 가능하도록 구성되며, 상기 제1 매트릭스(C)는 상기 예측 계수들로 구성되고, 상기 제2 매트릭스(D)는 상기 다운믹스 매트릭스에 의해 규정되는, 오디오 디코더.
  2. 청구항 1에 있어서,
    상기 다운믹스 매트릭스는 상기 부가 정보 내에서 시간에 따라 변화하는, 오디오 디코더.
  3. 청구항 2에 있어서,
    상기 다운믹스 매트릭스는, 프레임-크기보다 더 성근(coarser) 시간 해상도로 상기 부가 정보 내에서 시간에 따라 변화하는, 오디오 디코더.
  4. 청구항 1에 있어서,
    상기 다운믹스 매트릭스는, 상기 다운믹스 신호가 상기 제1 타입 오디오 신호 및 상기 제2 타입 오디오 신호에 기초하여 믹스-업된(mixed-up) 가중화(weighting)를 나타내는, 오디오 디코더.
  5. 청구항 1에 있어서,
    상기 계산하는 수단 및 상기 업-믹싱하는 수단은,
    상기 제1 매트릭스가 상기 벡터를, 상기 제1 타입 오디오 신호를 위한 제1 성분 및 상기 제2 타입 오디오 신호를 위한 제2 성분을 가지고, 상기 다운믹스 신호가 상기 제1 성분으로 1-대-1 매핑되도록 규정되는 중간 벡터로 매핑시키고, 상기 잔여 신호 및 상기 다운믹스 신호의 선형 조합이 상기 제2 성분 상으로 매핑되도록 구성되는, 오디오 디코더.
  6. 청구항 1에 있어서,
    상기 멀티-오디오-객체 신호는 복수의 상기 제2 타입 오디오 신호를 포함하고, 상기 부가 정보는 상기 제2 타입 오디오 신호 당 하나의 잔여 신호를 포함하는, 오디오 디코더.
  7. 청구항 1에 있어서,
    상기 제2 기 설정된 시간/주파수 해상도는 상기 부가 정보에 포함된 잔여 해상도 파라미터를 통해 상기 제1 기 설정된 시간/주파수 해상도와 연관되고, 상기 오디오 디코더는 상기 부가 정보로부터 상기 잔여 해상도 파라미터를 도출하는 수단을 포함하는, 오디오 디코더.
  8. 청구항 7에 있어서,
    상기 잔여 해상도 파라미터는 상기 잔여 신호가 상기 부가 정보 내에서 전송되는 스펙트럼 범위를 규정하는, 오디오 디코더.
  9. 청구항 8에 있어서,
    상기 잔여 해상도 파라미터는 상기 스펙트럼 범위의 하한 및 상한을 규정하는, 오디오 디코더.
  10. 청구항 1에 있어서,
    상기 멀티-오디오-객체 신호는, 기 설정된 확성기 구성상으로 상기 제1 타입 오디오 신호를 공간적으로 렌더링하는 공간적 렌더링 정보를 포함하는 오디오 디코더.
  11. 청구항 1에 있어서,
    상기 업믹싱하는 수단은, 기 설정된 확성기 구성상으로 상기 제2 업-믹스 오디오 신호로부터 분리된 상기 제1 업-믹스 오디오 신호를 공간적으로 렌더링하거나, 상기 제1 업-믹스 오디오 신호로부터 분리된 상기 제2 업-믹스 오디오 신호를 공간적으로 렌더링하거나, 또는 상기 제1 업-믹스 오디오 신호 및 상기 제2 업-믹스 오디오 신호를 혼합하여 그 혼합된 버전을 공간적으로 렌더링하도록 구성되는, 오디오 디코더.
  12. 그 내에 인코딩된 제1 타입 오디오 신호 및 제2 타입 오디오 신호를 가지는 멀티-오디오-객체 신호를 디코딩하는 방법으로서,
    상기 멀티-오디오-객체 신호는 다운믹스 신호(56) 및 부가 정보(58)로 구성되고, 상기 부가 정보는 제1 기 설정된 시간/주파수 해상도(42)의 상기 제1 타입 오디오 신호 및 상기 제2 타입 오디오 신호의 레벨 정보(60), 그리고 제2 기 설정된 시간/주파수 해상도에서 잔여 레벨 값들을 특정하는 잔여 신호(62)를 포함하고,
    상기 방법은,
    상기 레벨 정보(60)에 기초하여 예측 계수들(64)을 계산하는 단계; 및
    제 1 출력에서 상기 제1 타입 오디오 신호를 근사화하는(approximating) 제1 업-믹스 오디오 신호 및 제 2 출력에서 상기 제2 타입 오디오 신호를 근사화하는 제2 업-믹스 오디오 신호를 획득하기 위해 상기 예측 계수들(64) 및 상기 잔여 신호(62)에 기초하여 상기 다운믹스 신호(56)를 업-믹싱하는 단계를 포함하며,
    상기 제1 타입 오디오 신호는 제1 및 제2 입력 채널을 가지는 스테레오 오디오 신호이거나, 또는 제1 입력 채널만을 가지는 모노 오디오 신호이고, 상기 다운믹스 신호는 제1 및 제2 출력 채널을 가지는 스테레오 오디오 신호이거나, 혹은 제1 출력 채널만을 가지는 모노 오디오 신호이고, 상기 레벨 정보는 상기 제1 기 설정된 시간/주파수 해상도에서 상기 제1 입력 채널, 상기 제2 입력 채널 및 상기 제2 타입 오디오 신호 각각 사이의 레벨 차이들을 나타내고, 상기 부가 정보는 제3 기 설정된 시간/주파수 해상도에서의 상기 제1 및 제2 입력 채널 간의 레벨 유사도를 정의하는 인터-상관(inter-correlation) 정보를 더 포함하고, 상기 계산하는 단계는 상기 인터-상관 정보에 추가적으로 기초하여 계산을 수행하고,
    상기 제1 및 제3 시간/주파수 해상도는 상기 부가 정보 내의 공통 문법(syntax) 요소에 의해 결정되고,
    상기 부가 정보는 상기 제1 타입 오디오 신호 및 상기 제2 타입 오디오 신호가 그에 따라 상기 다운믹스 신호(56)로 다운믹스되는 다운믹스 매트릭스를 더 포함하고,
    상기 계산하는 단계 및 상기 업-믹싱하는 단계는,
    상기 업-믹싱이, 제1 및 제2 매트릭스의 시퀀스에 대한, 상기 다운믹스 신호 및 상기 잔여 신호로 구성되는 벡터의 적용에 의해 표현 가능하도록 구성되며, 상기 제1 매트릭스(C)는 상기 예측 계수들로 구성되고, 상기 제2 매트릭스(D)는 상기 다운믹스 매트릭스에 의해 규정되는, 디코딩 방법.
  13. 프로세서 상에서 동작할 때 청구항 12에 기재된 방법을 실행하는 프로그램 코드를 갖는 컴퓨터 프로그램이 저장된 컴퓨터로 판독 가능한 매체.
  14. 그 내에 인코딩된 제1 타입 오디오 신호 및 제2 타입 오디오 신호를 가지는 멀티-오디오-객체 신호를 디코딩하는 오디오 디코더로서,
    백그라운드 객체이고 제1 및 제2 입력 채널을 가진 스테레오 오디오 신호를 포함하는 상기 제1 타입 오디오 신호와, 포어그라운드 객체이고 모노 신호를 포함하는 상기 제2 타입 오디오 신호, 상기 멀티-오디오-객체 신호는 다운믹스 신호(56) 및 부가 정보(58)로 구성되고, 상기 부가 정보는 제1 기 설정된 시간/주파수 해상도(42)에서 상기 제1 타입 오디오 신호 및 상기 제2 타입 오디오 신호의 스펙트럴 에너지들을 나타내는 상기 제1 타입 오디오 신호 및 상기 제2 타입 오디오 신호의 레벨 정보(60), 제2 기 설정된 시간/주파수 해상도에서 상기 제1 타입 오디오 신호 및 상기 제2 타입 오디오 신호를 위한 잔여 레벨 값들을 특정하는 잔여 신호 res (62), 그리고 제3 기 설정된 시간/주파수 해상도에서 상기 제1 및 제2 입력 채널의 시간/주파수 타일들에 상응한 유사도 척도를 정의하는 인터-상관 정보를 포함하고,
    상기 오디오 디코더는,
    상기 레벨 정보(60) 및 상기 인터-상관 정보에 기초하여 예측 계수 매트릭스 C의 예측 계수들(64)을 계산하는 수단(52); 및
    상기 제1 타입 오디오 신호를 근사화하는(approximating) 제1 업-믹스 오디오 신호 S1 및 상기 제2 타입 오디오 신호를 근사화하는 제2 업-믹스 오디오 신호 S2 를 획득하기 위해 상기 예측 계수들(64) 및 상기 잔여 신호 res (62)에 기초하여 상기 다운믹스 신호 d (56)를 업-믹싱하는 수단(54)을 포함하며, 상기 수단(54)은
    Figure 712013002056041-pat00233
    의 계산을 수행하고,
    "1"은 - d의 채널 개수에 따라 - 스칼라, 혹은 단위 매트릭스를 나타내며,
    Figure 712013002056041-pat00234
    는 상기 다운믹스 신호가 상기 제1 타입 오디오 신호 및 상기 제2 타입 오디오 신호에 기초하여 믹스-업된(mixed-up) 가중화(weighting)를 나타내고, 그리고 또한 상기 부가 정보에 포함되는 다운믹스 매트릭스에 의해 고유하게 결정되는, 오디오 디코더.
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
KR1020117028843A 2007-10-17 2008-10-17 다운믹스를 이용한 오디오 코딩 KR101303441B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US98057107P 2007-10-17 2007-10-17
US60/980,571 2007-10-17
US99133507P 2007-11-30 2007-11-30
US60/991,335 2007-11-30
PCT/EP2008/008799 WO2009049895A1 (en) 2007-10-17 2008-10-17 Audio coding using downmix

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020107008183A Division KR101244545B1 (ko) 2007-10-17 2008-10-17 다운믹스를 이용한 오디오 코딩

Publications (2)

Publication Number Publication Date
KR20120004546A KR20120004546A (ko) 2012-01-12
KR101303441B1 true KR101303441B1 (ko) 2013-09-10

Family

ID=40149576

Family Applications (4)

Application Number Title Priority Date Filing Date
KR1020117028843A KR101303441B1 (ko) 2007-10-17 2008-10-17 다운믹스를 이용한 오디오 코딩
KR1020117028846A KR101290394B1 (ko) 2007-10-17 2008-10-17 다운믹스를 이용한 오디오 코딩
KR1020107008183A KR101244545B1 (ko) 2007-10-17 2008-10-17 다운믹스를 이용한 오디오 코딩
KR1020107008133A KR101244515B1 (ko) 2007-10-17 2008-10-17 업믹스를 이용한 오디오 코딩

Family Applications After (3)

Application Number Title Priority Date Filing Date
KR1020117028846A KR101290394B1 (ko) 2007-10-17 2008-10-17 다운믹스를 이용한 오디오 코딩
KR1020107008183A KR101244545B1 (ko) 2007-10-17 2008-10-17 다운믹스를 이용한 오디오 코딩
KR1020107008133A KR101244515B1 (ko) 2007-10-17 2008-10-17 업믹스를 이용한 오디오 코딩

Country Status (12)

Country Link
US (4) US8155971B2 (ko)
EP (2) EP2082396A1 (ko)
JP (2) JP5260665B2 (ko)
KR (4) KR101303441B1 (ko)
CN (2) CN101821799B (ko)
AU (2) AU2008314029B2 (ko)
BR (2) BRPI0816556A2 (ko)
CA (2) CA2701457C (ko)
MX (2) MX2010004220A (ko)
RU (2) RU2452043C2 (ko)
TW (2) TWI406267B (ko)
WO (2) WO2009049895A1 (ko)

Families Citing this family (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
US8160258B2 (en) * 2006-02-07 2012-04-17 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
US8571875B2 (en) 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
AU2007322488B2 (en) * 2006-11-24 2010-04-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
JP2010506232A (ja) * 2007-02-14 2010-02-25 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
WO2008114982A1 (en) * 2007-03-16 2008-09-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP3712888A3 (en) * 2007-03-30 2020-10-28 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
MX2010004220A (es) * 2007-10-17 2010-06-11 Fraunhofer Ges Forschung Codificacion de audio usando mezcla descendente.
US20100228554A1 (en) * 2007-10-22 2010-09-09 Electronics And Telecommunications Research Institute Multi-object audio encoding and decoding method and apparatus thereof
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
KR101614160B1 (ko) * 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
EP2345027B1 (en) * 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energy-conserving multi-channel audio coding and decoding
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
US8670575B2 (en) 2008-12-05 2014-03-11 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2010085083A2 (en) 2009-01-20 2010-07-29 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8255821B2 (en) * 2009-01-28 2012-08-28 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
JP5163545B2 (ja) * 2009-03-05 2013-03-13 富士通株式会社 オーディオ復号装置及びオーディオ復号方法
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
CN101930738B (zh) * 2009-06-18 2012-05-23 晨星软件研发(深圳)有限公司 多声道音频信号译码方法与装置
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
RU2558612C2 (ru) 2009-06-24 2015-08-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Декодер аудиосигнала, способ декодирования аудиосигнала и компьютерная программа с использованием ступеней каскадной обработки аудиообъектов
KR20110018107A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
MY165328A (en) 2009-09-29 2018-03-21 Fraunhofer Ges Forschung Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
BR112012012097B1 (pt) * 2009-11-20 2021-01-05 Fraunhofer - Gesellschaft Zur Foerderung Der Angewandten Ten Forschung E.V. aparelho para prover uma representação de sinal upmix com base na representação de sinal downmix, aparelho para prover um fluxo de bits que representa um sinal de áudio de multicanais, métodos e fluxo de bits representando um sinal de áudio de multicanais utilizando um parâmetro de combinação linear
WO2011073201A2 (en) * 2009-12-16 2011-06-23 Dolby International Ab Sbr bitstream parameter downmix
CN102696070B (zh) 2010-01-06 2015-05-20 Lg电子株式会社 处理音频信号的设备及其方法
EP2372703A1 (en) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor, window provider, encoded media signal, method for processing a signal and method for providing a window
IL295039B2 (en) 2010-04-09 2023-11-01 Dolby Int Ab An uplink mixer is active in predictive or non-predictive mode
US8948403B2 (en) * 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Method of processing signal, encoding apparatus thereof, decoding apparatus thereof, and signal processing system
KR101756838B1 (ko) 2010-10-13 2017-07-11 삼성전자주식회사 다채널 오디오 신호를 다운 믹스하는 방법 및 장치
US20120095729A1 (en) * 2010-10-14 2012-04-19 Electronics And Telecommunications Research Institute Known information compression apparatus and method for separating sound source
DK2975611T3 (en) * 2011-03-10 2018-04-03 Ericsson Telefon Ab L M FILLING OF UNCODED SUBVECTORS IN TRANSFORM CODED AUDIO SIGNALS
KR20140027954A (ko) 2011-03-16 2014-03-07 디티에스, 인코포레이티드 3차원 오디오 사운드트랙의 인코딩 및 재현
KR102053900B1 (ko) 2011-05-13 2019-12-09 삼성전자주식회사 노이즈 필링방법, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기
EP2523472A1 (en) 2011-05-13 2012-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method and computer program for generating a stereo output signal for providing additional output channels
WO2012158705A1 (en) * 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
JP5715514B2 (ja) * 2011-07-04 2015-05-07 日本放送協会 オーディオ信号ミキシング装置およびそのプログラム、ならびに、オーディオ信号復元装置およびそのプログラム
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
RU2618383C2 (ru) 2011-11-01 2017-05-03 Конинклейке Филипс Н.В. Кодирование и декодирование аудиообъектов
BR112013026452B1 (pt) * 2012-01-20 2021-02-17 Fraunhofer-Gellschaft Zur Förderung Der Angewandten Forschung E.V. aparelho e método para codificação e decodificação de áudio empregando substituição sinusoidal
JP6331095B2 (ja) * 2012-07-02 2018-05-30 ソニー株式会社 復号装置および方法、符号化装置および方法、並びにプログラム
CN104428835B (zh) * 2012-07-09 2017-10-31 皇家飞利浦有限公司 音频信号的编码和解码
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
JP5949270B2 (ja) * 2012-07-24 2016-07-06 富士通株式会社 オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
JP6045696B2 (ja) * 2012-07-31 2016-12-14 インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. オーディオ信号処理方法および装置
EP2883366B8 (en) * 2012-08-07 2016-12-14 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
AR090703A1 (es) * 2012-08-10 2014-12-03 Fraunhofer Ges Forschung Codificador, decodificador, sistema y metodo que emplean un concepto residual para codificar objetos de audio parametricos
KR20140027831A (ko) * 2012-08-27 2014-03-07 삼성전자주식회사 오디오 신호 전송 장치 및 그의 오디오 신호 전송 방법, 그리고 오디오 신호 수신 장치 및 그의 오디오 소스 추출 방법
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
KR20140046980A (ko) 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
EP2936485B1 (en) * 2012-12-21 2017-01-04 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
AU2014204954B2 (en) 2013-01-08 2017-05-18 Dolby International Ab Model based prediction in a critically sampled filterbank
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
WO2014159898A1 (en) 2013-03-29 2014-10-02 Dolby Laboratories Licensing Corporation Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
WO2014187989A2 (en) * 2013-05-24 2014-11-27 Dolby International Ab Reconstruction of audio scenes from a downmix
KR101751228B1 (ko) 2013-05-24 2017-06-27 돌비 인터네셔널 에이비 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
BR112015029129B1 (pt) 2013-05-24 2022-05-31 Dolby International Ab Método para codificar objetos de áudio em um fluxo de dados, meio legível por computador, método em um decodificador para decodificar um fluxo de dados e decodificador para decodificar um fluxo de dados incluindo objetos de áudio codificados
CN105393304B (zh) * 2013-05-24 2019-05-28 杜比国际公司 音频编码和解码方法、介质以及音频编码器和解码器
CN109887516B (zh) 2013-05-24 2023-10-20 杜比国际公司 对音频场景进行解码的方法、音频解码器以及介质
ES2653975T3 (es) 2013-07-22 2018-02-09 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de audio multicanal, codificador de audio multicanal, procedimientos, programa informático y representación de audio codificada mediante el uso de una decorrelación de señales de audio renderizadas
EP2830333A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830052A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
EP3044784B1 (en) * 2013-09-12 2017-08-30 Dolby International AB Coding of multichannel audio content
TWI634547B (zh) 2013-09-12 2018-09-01 瑞典商杜比國際公司 在包含至少四音訊聲道的多聲道音訊系統中之解碼方法、解碼裝置、編碼方法以及編碼裝置以及包含電腦可讀取的媒體之電腦程式產品
EP3044783B1 (en) * 2013-09-12 2017-07-19 Dolby International AB Audio coding
EP2854133A1 (en) * 2013-09-27 2015-04-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a downmix signal
CN106165453A (zh) * 2013-10-02 2016-11-23 斯托明瑞士有限责任公司 用于下混多通道信号和用于上混下混信号的方法和装置
EP3057096B1 (en) * 2013-10-09 2019-04-24 Sony Corporation Encoding device and method, decoding device and method, and program
KR102381216B1 (ko) * 2013-10-21 2022-04-08 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
EP3092642B1 (en) 2014-01-09 2018-05-16 Dolby Laboratories Licensing Corporation Spatial error metrics of audio content
US10468036B2 (en) 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
US20150264505A1 (en) 2014-03-13 2015-09-17 Accusonus S.A. Wireless exchange of data between devices in live events
US9756448B2 (en) 2014-04-01 2017-09-05 Dolby International Ab Efficient coding of audio scenes comprising audio objects
KR102144332B1 (ko) * 2014-07-01 2020-08-13 한국전자통신연구원 다채널 오디오 신호 처리 방법 및 장치
EP3165007B1 (en) * 2014-07-03 2018-04-25 Dolby Laboratories Licensing Corporation Auxiliary augmentation of soundfields
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
KR102426965B1 (ko) * 2014-10-02 2022-08-01 돌비 인터네셔널 에이비 대화 향상을 위한 디코딩 방법 및 디코더
TWI587286B (zh) * 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
RU2704266C2 (ru) * 2014-10-31 2019-10-25 Долби Интернешнл Аб Параметрическое кодирование и декодирование многоканальных аудиосигналов
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
US10176813B2 (en) 2015-04-17 2019-01-08 Dolby Laboratories Licensing Corporation Audio encoding and rendering with discontinuity compensation
PT3353779T (pt) * 2015-09-25 2020-07-31 Voiceage Corp Método e sistema para codificar um sinal de som estéreo que utiliza parâmetros de codificação de um canal primário para codificar um canal secundário
WO2018086946A1 (en) 2016-11-08 2018-05-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
RU2762302C1 (ru) 2018-04-05 2021-12-17 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ или компьютерная программа для оценки разности во времени между каналами
CN109451194B (zh) * 2018-09-28 2020-11-24 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) 一种会议混音方法及装置
KR20210076145A (ko) 2018-11-02 2021-06-23 돌비 인터네셔널 에이비 오디오 인코더 및 오디오 디코더
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
US10779105B1 (en) 2019-05-31 2020-09-15 Apple Inc. Sending notification and multi-channel audio over channel limited link for independent gain control
MX2021015314A (es) * 2019-06-14 2022-02-03 Fraunhofer Ges Forschung Codificacion y decodificacion de parametros.
GB2587614A (en) 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding
CN110739000B (zh) * 2019-10-14 2022-02-01 武汉大学 一种适应于个性化交互系统的音频对象编码方法
EP4138396A4 (en) * 2020-05-21 2023-07-05 Huawei Technologies Co., Ltd. AUDIO DATA TRANSMISSION METHOD AND DEVICE ASSOCIATED

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006089570A1 (en) 2005-02-22 2006-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Near-transparent or transparent multi-channel encoder/decoder scheme
WO2006108573A1 (en) 2005-04-15 2006-10-19 Coding Technologies Ab Adaptive residual audio coding

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19549621B4 (de) * 1995-10-06 2004-07-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Codieren von Audiosignalen
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
US6356639B1 (en) * 1997-04-11 2002-03-12 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus, signal processing device, sound image localization device, sound image control method, audio signal processing device, and audio signal high-rate reproduction method used for audio visual equipment
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
MY149792A (en) * 1999-04-07 2013-10-14 Dolby Lab Licensing Corp Matrix improvements to lossless encoding and decoding
WO2002079335A1 (fr) 2001-03-28 2002-10-10 Mitsubishi Chemical Corporation Procede de revetement avec une composition de resine durcissable par rayonnement et lamines
DE10163827A1 (de) * 2001-12-22 2003-07-03 Degussa Strahlen härtbare Pulverlackzusammensetzungen und deren Verwendung
KR100978018B1 (ko) * 2002-04-22 2010-08-25 코닌클리케 필립스 일렉트로닉스 엔.브이. 공간 오디오의 파라메터적 표현
US7395210B2 (en) * 2002-11-21 2008-07-01 Microsoft Corporation Progressive to lossless embedded audio coder (PLEAC) with multiple factorization reversible transform
AU2003285787A1 (en) 2002-12-28 2004-07-22 Samsung Electronics Co., Ltd. Method and apparatus for mixing audio stream and information storage medium
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
US20050058307A1 (en) * 2003-07-12 2005-03-17 Samsung Electronics Co., Ltd. Method and apparatus for constructing audio stream for mixing, and information storage medium
JP4867914B2 (ja) 2004-03-01 2012-02-01 ドルビー ラボラトリーズ ライセンシング コーポレイション マルチチャンネルオーディオコーディング
JP2005352396A (ja) * 2004-06-14 2005-12-22 Matsushita Electric Ind Co Ltd 音響信号符号化装置および音響信号復号装置
US7317601B2 (en) 2004-07-29 2008-01-08 United Microelectronics Corp. Electrostatic discharge protection device and circuit thereof
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
KR100682904B1 (ko) * 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
JP2006197391A (ja) * 2005-01-14 2006-07-27 Toshiba Corp 音声ミクシング処理装置及び音声ミクシング処理方法
WO2006103581A1 (en) * 2005-03-30 2006-10-05 Koninklijke Philips Electronics N.V. Scalable multi-channel audio coding
JP4988716B2 (ja) * 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
KR20080010980A (ko) * 2006-07-28 2008-01-31 엘지전자 주식회사 부호화/복호화 방법 및 장치.
JP4966981B2 (ja) 2006-02-03 2012-07-04 韓國電子通信研究院 空間キューを用いたマルチオブジェクト又はマルチチャネルオーディオ信号のレンダリング制御方法及びその装置
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
JP5238706B2 (ja) * 2006-09-29 2013-07-17 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号のエンコーディング/デコーディング方法及びその装置
US9565509B2 (en) * 2006-10-16 2017-02-07 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
MX2009003564A (es) * 2006-10-16 2009-05-28 Fraunhofer Ges Forschung Aparato y metodo para transformacion de parametro multicanal.
MX2010004220A (es) * 2007-10-17 2010-06-11 Fraunhofer Ges Forschung Codificacion de audio usando mezcla descendente.

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006089570A1 (en) 2005-02-22 2006-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Near-transparent or transparent multi-channel encoder/decoder scheme
WO2006108573A1 (en) 2005-04-15 2006-10-19 Coding Technologies Ab Adaptive residual audio coding

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Herre, J. et al. MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding. Proceeding of Audio Engineering Society 122nd Convention. 2007.05.05. (제1면 내지 제23면) *
Herre, J. et al. MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding. Proceeding of Audio Engineering Society 122nd Convention. 2007.05.05. (제1면 내지 제23면)*
Herre, J. et al. NEW CONCEPTS IN PARAMETRIC CODING OF SPATIAL AUDIO: FROM SAC TO SAOC. Proceeding of 2007 IEEE International Conference on Multimedia and Expo. IEEE. 2007.07.02. (제1894면 내지 제1897면) *
Herre, J. et al. NEW CONCEPTS IN PARAMETRIC CODING OF SPATIAL AUDIO: FROM SAC TO SAOC. Proceeding of 2007 IEEE International Conference on Multimedia and Expo. IEEE. 2007.07.02. (제1894면 내지 제1897면)*

Also Published As

Publication number Publication date
EP2076900A1 (en) 2009-07-08
AU2008314030B2 (en) 2011-05-19
WO2009049895A1 (en) 2009-04-23
TW200926143A (en) 2009-06-16
JP5260665B2 (ja) 2013-08-14
RU2010112889A (ru) 2011-11-27
RU2010114875A (ru) 2011-11-27
KR101244545B1 (ko) 2013-03-18
CA2702986C (en) 2016-08-16
WO2009049896A8 (en) 2010-05-27
US8538766B2 (en) 2013-09-17
KR20100063119A (ko) 2010-06-10
BRPI0816557A2 (pt) 2016-03-01
US20090125314A1 (en) 2009-05-14
CA2701457C (en) 2016-05-17
US8155971B2 (en) 2012-04-10
BRPI0816557B1 (pt) 2020-02-18
AU2008314029A1 (en) 2009-04-23
RU2452043C2 (ru) 2012-05-27
JP5883561B2 (ja) 2016-03-15
MX2010004138A (es) 2010-04-30
CN101821799B (zh) 2012-11-07
EP2082396A1 (en) 2009-07-29
BRPI0816556A2 (pt) 2019-03-06
TWI406267B (zh) 2013-08-21
KR101290394B1 (ko) 2013-07-26
JP2011501544A (ja) 2011-01-06
WO2009049895A9 (en) 2009-10-29
US8280744B2 (en) 2012-10-02
JP2011501823A (ja) 2011-01-13
WO2009049896A1 (en) 2009-04-23
CA2701457A1 (en) 2009-04-23
RU2474887C2 (ru) 2013-02-10
TW200926147A (en) 2009-06-16
KR20100063120A (ko) 2010-06-10
CN101849257A (zh) 2010-09-29
MX2010004220A (es) 2010-06-11
CN101821799A (zh) 2010-09-01
KR101244515B1 (ko) 2013-03-18
US20090125313A1 (en) 2009-05-14
KR20120004547A (ko) 2012-01-12
US20120213376A1 (en) 2012-08-23
CN101849257B (zh) 2016-03-30
TWI395204B (zh) 2013-05-01
AU2008314029B2 (en) 2012-02-09
US20130138446A1 (en) 2013-05-30
US8407060B2 (en) 2013-03-26
KR20120004546A (ko) 2012-01-12
CA2702986A1 (en) 2009-04-23
WO2009049896A9 (en) 2011-06-09
AU2008314030A1 (en) 2009-04-23

Similar Documents

Publication Publication Date Title
KR101303441B1 (ko) 다운믹스를 이용한 오디오 코딩
KR101012259B1 (ko) 멀티채널 다운믹스된 객체 코딩의 개선된 코딩 및 파라미터 표현
RU2406166C2 (ru) Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
JP2008536184A (ja) 適応残差オーディオ符号化
KR101660004B1 (ko) 멀티채널 다운믹스/업믹스 케이스들에 대해 매개변수 개념을 이용한 멀티-인스턴스 공간-오디오-오브젝트-코딩을 위한 디코더 및 방법
RU2407072C1 (ru) Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
CN110895943A (zh) 处理多信道音频信号的方法和装置

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160801

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170817

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180821

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190816

Year of fee payment: 7