KR20160029842A

KR20160029842A - 변형된 출력 신호를 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치 및 방법

Info

Publication number: KR20160029842A
Application number: KR1020167003225A
Authority: KR
Inventors: 죠니 파울루스; 하랄드 훅스; 올리버 헬무트; 아드리안 무타자; 팔코 리더부슈; 레옹 테렌티브
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2013-07-22
Filing date: 2014-07-18
Publication date: 2016-03-15
Also published as: CA2918703A1; RU2016105686A; JP6207739B2; MX2016000504A; CA2918703C; US10607615B2; MX362035B; BR112016000867B1; RU2653240C2; EP2830046A1; US20160140968A1; BR112016000867A2; ES2869871T3; EP3025334B1; JP2016530789A; WO2015011054A1; CN105431899A; CN105431899B; EP3025334A1; KR101808464B1

Abstract

변형된 출력 신호들(160)을 얻기 위해 인코딩된 오디오 신호(100)를 디코딩하기 위한 장치는, 송신된 다운믹스 신호(112)와, 상기 송신된 다운믹스 신호(112)에 포함된 오디오 객체들에 관련된 파라미터적 데이터(114)를 수신하기 위한 입력 인터페이스(110)로서, 상기 다운믹스 신호는 인코더 다운믹스 신호와 상이하고, 상기 파라미터적 데이터는 상기 인코더 다운믹스 신호와 관련되는, 입력 인터페이스(110); 다운믹스 변형 함수를 이용하여 상기 송신된 다운믹스 신호를 변형하기 위한 다운믹스 변형기(116)로서, 상기 다운믹스 변형은, 변형된 다운믹스 신호가 상기 인코더 다운믹스 신호와 동일하거나, 상기 송신된 다운믹스 신호(112)에 비해 상기 인코더 다운믹스 신호와 더 많이 유사한 방식으로 수행되는, 다운믹스 변형기(116); 출력 신호들을 얻기 위해 상기 변형된 다운믹스 신호 및 상기 파라미터적 데이터를 이용하여 상기 오디오 객체들을 렌더링하기 위한 객체 렌더러(118); 및 출력 신호 변형 함수를 이용하여 상기 출력 신호들을 변형하기 위한 출력 신호 변형기(120)로서, 상기 출력 신호 변형 함수는, 상기 송신된 다운믹스 신호(112)를 얻기 위해 상기 인코딩된 다운믹스 신호에 적용된 조절 동작이 상기 변형된 출력 신호들(160)을 얻기 위해 상기 출력 신호들에 적어도 부분적으로 적용되도록 이루어지는, 출력 신호 변형기(120)를 포함한다.

Description

변형된 출력 신호를 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치 및 방법{APPARATUS AND METHOD FOR DECODING AN ENCODED AUDIO SIGNAL TO OBTAIN MODIFIED OUTPUT SIGNALS}

본 발명은 오디오 객체 코딩에 관한 것으로, 특히 전송 패널로서 마스터링된(mastered) 다운믹스를 이용하는 오디오 객체 코딩에 관한 것이다.

최근에, 오디오 장면들을 포함하는 다중 오디오 객체들의 비트율-유효 송신/저장을 위한 파라미터적 기술들은 오디오 코딩[BCC, JSC, SAOC, SAOC1, SAOC2] 및 통보된(informed) 소스 분리[ISS1, ISS2, ISS3, ISS4, ISS5, ISS6] 분야에 제안되었다. 이들 기술들은 송신된/저장된 오디오 장면을 기재하는 추가 부가 정보 및/또는 오디오 장면에서의 소스 객체들에 기초하여 원하는 출력 오디오 장면 또는 오디오 소스 객체를 재구성하는 것을 목적으로 한다. 이러한 재구성은 파라미터적 통보된 소스 분리 계획(scheme)을 이용하여 디코더에서 발생한다.

여기서, 주로 MPEG 공간 오디오 객체 코딩(SAOC)[SAOC]의 동작에 초점을 맞출 것이지만, 동일한 원리들은 또한 다른 시스템들에 대해 유효하다. SAOC 시스템의 주요 동작들은 도 5에 도시되어 있다. 일반론의 손실 없이, 수학식들의 가독성을 개선하기 위해, 모든 도입된 변수들에 대해, 시간 및 주파수 의존도를 표시하는 지수들은 달리 언급되지 않으면, 이 문헌에서 생략된다. 시스템은 N개의 입력 오디오 객체들(S₁,...,S_N), 및 이들 객체들이 예를 들어, 다운믹싱 행렬 D의 형태로 어떻게 혼합되어야 하는지에 대한 지시들을 수신한다. 입력 객체들은 크기 NxN_Samples의 행렬(S)로서 표현될 수 있다. 인코더는 파라미터적, 및 아마도 또한 파형-기반의 부가 정보를 추출하고, 이러한 부가 정보는 객체들을 기재한다. SAOC에서, 부가 정보는 주로 객체 레벨 차이들(OLDs)로 파라미터화된(parameterized) 상대 객체 에너지 정보로부터, 그리고 객체간 상관들(IOCs)로 파라미터화된 객체들 사이의 상관들의 정보로부터 구성된다. SAOC에서의 선택적인 파형-기반의 부가 정보는 파라미터적 모델의 재구성 에러를 기재한다. 이러한 부가 정보를 추출하는 것에 더하여, 인코더는 M개의 채널들을 갖는 다운믹스 신호(X₁,...,X_M)를 제공하고, 이것은 크기 MxN의 다운믹싱 행렬 D 내에서의 정보를 이용하여 생성된다. 다운믹스 신호들은 입력 객체들: X=DS에 대한 다음의 관계를 갖는 크기 MxN_Samples의 행렬 X로서 표현될 수 있다. 통상적으로, 관계 M < N은 유효하지만, 이것은 엄격한 요건이 아니다. 다운믹스 신호들 및 부가 정보는 예를 들어, MPEG-2/4 AAC와 같은 오디오 코덱의 도움으로 송신되거나 저장된다. SAOC 디코더는 다운믹스 신호들 및 부가 정보와, 종종 K개의 채널들을 갖는 출력(Y₁,...,Y_K)이 원래 입력 객체들에 어떻게 관련되는 지를 기재하는 크기 KxN의 렌더링 행렬 M의 형태인 추가 렌더링 정보를 수신한다.

SAOC 디코더의 주요 동작 블록들은 도 6에 도시되며, 다음에 간략하게 논의될 것이다. 먼저, 부가 정보는 적절히 디코딩되고 해석된다. (가상) 객체 분리 블록은 부가 정보를 이용하고, 입력 오디오 객체들을 (사실상) 재구성하려고 시도한다. 이 동작은 일반적으로 객체들을 명시적으로(explicitly) 재구성할 필요가 없기 때문에 "가상"의 관념(notion)으로 언급되지만, 다음의 렌더링 스테이지는 이 단계와 조합될 수 있다. (가상) 객체 재구성들(

)은 여전히 재구성 에러들을 포함할 수 있다. (가상) 객체 재구성들은 크기 NxN_Samples의 행렬

로서 표현될 수 있다. 시스템은 외부로부터, 예를 들어 사용자 대화(interaction)로부터 렌더링 정보를 수신한다. SAOC의 정황에서, 렌더링 정보는, 객체 재구성들들(

)이 출력 신호들(Y₁,...,Y_K)을 발생시키도록 조합되어야 하는 방식을 정의하는 렌더링 행렬 M로서 기재된다. 출력 신호들은

를 통해 재구성된 객체들

상에 렌더링 행렬 M을 적용하는 결과인 크기 KxN_Samples의 행렬 Y로서 표현될 수 있다.

SAOC에서의 (가상) 객체 분리는 주로 비-믹싱(un-mixing) 계수들을 결정하기 위한 파라미터적 부가 정보를 이용함으로써 동작하고, 이것은 이 후 (가상) 객체 재구성들을 얻기 위해 다운믹스 신호들 상에 적용될 것이다. 이러한 방식으로 얻어진 지각(perceptual) 품질이 몇몇 응용들에 대해 부족할 수 있다는 것이 주지된다. 이러한 이유로 인해, SAOC는 또한 최대 4개의 원래 입력 오디오 객체들에 대한 개선된 품질 모드를 제공한다. 개선된 오디오 객체들(EAOs)로서 언급된 이들 객체들은 (가상) 객체 재구성들과 원래 입력 오디오 객체들 사이의 차이를 최소화하는 시간-도메인 정정 신호들과 연관된다. EAO는 원래 입력 오디오 객체로부터 매우 작은 파형을 가지고 재구성될 수 있다.

SAOC 시스템의 하나의 주요 특성은, 다운믹스 신호들(X₁,...,X_M)이 청취될 수 있고 의미론적으로 의미 있는 오디오 장면을 형성할 수 있는 방식으로 설계될 수 있다는 것이다. 이것은, 사용자들이 SAOC 정보를 디코딩할 수 있는 수신기를 갖지 않고도 가능한 SAOC 개선들 없이 주요 오디오 컨텐트를 여전히 즐기도록 한다. 예를 들어, 역방향 호환 방식으로 라디오 또는 TV 방송 내에서 전술한 SAOC 시스템을 적용하는 것이 가능하다. 단지 몇몇 중요하지 않은 기능성을 추가하기 위해 전개된 모든 수신기들을 교환하는 것은 실질적으로 가능하지 않다. SAOC 부가 정보는 통상적으로 약간 컴팩트(compact)하고, 다운믹스 신호 전송 스트림 내에 내장될 수 있다. 레거시(legacy) 수신기들은 SAOC 부가 정보를 간단히 무시하고, SAOC 디코더를 포함하는 수신기들은 부가 정보를 디코딩할 수 있고, 몇몇 추가 기능성을 제공할 수 있다.

하지만, 특히 방송 이용의 경우에, SAOC 인코더에 의해 발생된 다운믹스 신호는 송신되기 전에 미적 또는 기술적 이유들로 인해 방송국에 의해 추가로 후-처리될 것이다. 사운드 엔지니어가 자신의 예술적 비전에 더 양호하게 맞추기 위해 오디오 장면을 조정하기를 원하거나, 신호가 방송자의 상표 사운드 이미지에 매칭하도록 조절되어야 하거나, 신호가 오디오 라우드니스(loudness)에 관한 권고들 및 규제들과 같은 몇몇 기술적 규제들에 따르도록 조절되어야 하는 것이 가능하다. 다운믹스 신호가 조절될 때, 도 5의 신호 흐름도는 도 7에 보여진 신호 흐름도로 변화된다. 여기서, 다운믹스 마스터링의 원래 다운믹스 조절이 각 다운믹스 신호들(X_i, 1≤i≤M) 상에 몇몇 함수{f(·)}를 적용하여, 조절된 다운믹스 신호들{f(X_i), 1≤i≤M}을 초래한다. 또한, 실제로 송신된 다운믹스 신호들이 SAOC 인코더에 의해 발생된 다운 믹스 신호들로부터 방해되지 않고, 전체적으로 외부로부터 제공되는 것이 가능하지만, 이러한 상황은 또한 인코더-생성된 다운믹스의 조절인 것으로 논의에 포함된다.

다운믹스 신호들의 조절은, 디코더에서의 다운믹스 신호들이 부가 정보를 통해 송신된 모델에 더 이상 매칭될 필요가 없을 수 있기 때문에 (가상) 객체 분리에서 SAOC 디코더에서 문제들을 야기할 수 있다. 특히, 예측 에러의 파형 부가 정보가 EAO들에 대해 송신될 때, 다운믹스 신호들에서 파형 교대들(alterations)쪽으로 매우 민감하다.

MPEG SAOC [SAOC]가 2개의 다운믹스 신호들 및 하나 또는 2개의 출력 신호들의 최대값, 즉 1≤M≤2 및 1≤K≤2에 대해 정의되는 것이 주지되어야 한다. 하지만, 여기서 치수들(dimensions)이 일반적인 경우로 연장되는데, 이는 이러한 연장이 약간 사소하여 설명을 돕기 때문이다.

조절된 다운믹스 신호들을 또한 SAOC 인코더에 라우팅(route)하고, 몇몇 추가 부가 정보를 추출하고, 디코더에서 이러한 부가 정보를 이용하여, SAOC 믹싱 모델에 따르는 다운믹스 신호들과 디코더에서 이용가능한 조절된 다운믹스 신호들 사이의 차이들을 감소시키는 것이 [PDG, SAOC]에 제안되었다. 라우팅의 기본적인 아이디어는 다운믹스 조절로부터 SAOC 인코더로의 추가 피드백 연결을 통해 도 8a에 예시된다. SAOC [SAOC]에 대한 현재 MPEG 표준은 파라미터적 보상에 주로 초점을 맞추는 제안 [PDG]의 부분들을 포함한다. 보상 파라미터들의 추정은 여기에 기재되지 않지만, 독자는 MPEG SAOC 표준 [SAOC]의 유용한 첨부 D.8에 언급된다.

정정 부가 정보는 부가 정보 스트림에 패킹(packed)되고, 이와 함께 송신 및/또는 저장된다. SAOC 디코더는 부가 정보를 디코딩하고, 다운믹스 변형 부가 정보를 이용하여, 주요 SAOC 처리 이전에 조절들을 보상한다. 이것은 도 8b에 도시되어 있다. MPEG SAOC 표준은 각 다운믹스 신호에 대한 이득 인자들로 구성하기 위해 보상 부가 정보를 정의한다. 이들은 PDG_i로 표시되고, 1≤i≤M은 다운믹스 신호 지수이다. 개별적인 신호 파라미터들은 행렬

로 수집될 수 있다. 조절된 다운믹스 신호들이 행렬 X_후처리됨로 표시될 때, 주요 SAOC 처리에 사용될 보상된 다운믹스 신호들은 X=WX_후처리됨으로 얻어질 수 있다.

[PDG]에서, 또한 SAOC 인코더에 의해 생성된 다운믹스 신호들과 파라미터적으로 보상된 조절된 다운믹스 신호들 사이의 차이를 기재하는 파형 잔류 신호들을 포함하는 것이 제안된다. 하지만, 이들은 MPEG SAOC 표준[SAOC]의 부분이 아니다.

보상의 이익은, SAOC(가상) 객체 분리 블록이 SAOC(가상) 객체 분리 블록에 의해 발생된 다운믹스 신호들에 더 가깝고, 송신된 부가 정보를 더 양호하게 매칭한다는 것이다. 종종, 이것은 (가상) 객체 재구성들에서 감소된 결함들을 초래한다.

(가상) 객체 분리에 의해 사용된 다운믹스 신호들은 SAOC 인코더에서 생성된 조절되지 않은 다운믹스 신호들에 근사한다(approximate). 그 결과, 렌더링 이후의 출력은 종종 사용자-정의된 렌더링 지시들을 원래 입력 오디오 객체들 상에 적용함으로써 얻어진 결과에 근사할 것이다. 렌더링 정보가 다운믹싱 정보와 동일하거나 매우 가깝도록 정의되면, 즉, M

D이면, 출력 신호들은 인코더-생성된 다운믹스 신호들과 비슷(resemble)할 것이다: Y

X. 다운믹스 신호 조절이 매우-근거있는 이유들로 인해 발생할 수 있다는 점을 상기하면, 출력이 조절된 다운믹스와 비슷한데, 그 대신, Y

f(X) 인 것이 바람직할 수 있다.

방송에서 대화 개선의 잠재적인 적용으로부터 더 구체적인 예로 이를 예시해보자.

원래 입력 오디오 객체들(S)은 (아마도 다중-채널) 배경 신호, 예를 들어, 스포츠 방송에서 관객 및 주변 잡음과, (아마도 다중-채널) 전경(foreground) 신호, 예를 들어, 해설자로 구성되어 있다.

다운믹스 신호(X)는 배경 및 전경의 혼합물을 포함한다.

다운믹스 신호는 실세계 경우에서 예를 들어, 다중-대역 등화기, 동적 범위 압축기, 및 제한기(limiter)로 구성된 f(X)에 의해 조절된다(여기서 이루어진 임의의 조절은 나중에 "마스터링"으로 언급된다).

디코더에서, 렌더링 정보는 다운믹싱 정보와 유사하다. 유일한 차이는, 배경과 전경 신호들 사이의 상대 레벨 균형이 최종 사용자에 의해 조정될 수 있다는 것이다. 즉, 사용자는 예를 들어, 개선된 인공 지능을 위해, 해설자가 더 청취가능하게 하기 위해 관객 잡음을 감쇄시킬 수 있다. 대항하는 예로서, 최종 사용자는, 이벤트의 음향 장면 상에 더 많이 집중할 수 있기 위해 해설자를 감쇄시킬 수 있다.

다운믹스 조절의 보상이 사용되지 않으면, (가상) 객체 재구성들은 수신된 다운믹스 신호들의 실제 특성들과 부가 정보로서 송신된 특성들 사이의 차이들에 의해 야기된 결함들을 포함할 수 있다.

다운믹스 조절의 보상이 사용되면, 출력은 마스터링이 제거되게 할 것이다. 심지어 최종 사용자가 믹싱 균형을 변형하지 않는 경우에도, 디폴드(default) 다운믹스 신호(즉, SAOC 부가 정보를 디코딩할 수 없는 수신기들로부터의 출력) 및 렌더링된 출력은 아마도 매우 상당히 차이 있을 것이다.

마지막으로, 방송자는 다음의 서브-최적의 옵션들을 갖는다:

다운믹스 신호들과 부가 정보 사이의 미스매치(mismatch)로부터 SAOC 결함들을 수용하고;

어떠한 개선된 대화 개선 기능도 포함하지 않고; 및/또는

출력 신호의 마스터링 교대들을 손실한다.

본 발명의 목적은 인코딩된 오디오 신호를 디코딩하기 위한 개선된 개념을 제공하는 것이다.

이 목적은 제 1항의 인코딩된 오디오 신호를 디코딩하기 위한 장치, 제 14항의 인코딩된 오디오 신호를 디코딩하는 방법, 또는 제 15항의 컴퓨터 프로그램에 의해 달성된다.

본 발명은, 마스터링 단계 내에서 적용되었던 다운믹스 조절들이 객체 분리를 개선하기 위해 간단히 폐기되지 않고, 렌더링 단계에 의해 생성된 출력 신호들로 재-적용될 때, 인코딩된 오디오 객체 신호들을 이용하는 개선된 렌더링 개념이 얻어진다는 발견에 기초한다. 따라서, 임의의 예술적 또는 다른 다운믹스 조절들이 오디오 객체 코딩된 신호들의 경우에 간단히 손실되지 않고, 디코딩 동작의 최종 결과에서 발견될 수 있다는 것이 확인된다. 이 때문에, 인코딩된 오디오 신호를 디코딩하기 위한 장치는 입력 인터페이스, 다운믹스 변형 함수를 이용하여 송신된 다운믹스 신호를 변형하기 위한 후속적으로 연결된 다운믹스 변형기, 변형된 다운믹스 신호 및 파라미터적 데이터를 이용하여 오디오 객체들을 렌더링하기 위한 객체 렌더러, 및 다운믹스 변형 함수가 적어도 부분적으로 역전되거나, 또는 달리 말하면, 다운믹스 조절이 복구되지만, 다시 다운믹스에 적용되는 것이 아니라, 객체 렌더러의 출력 신호에 적용되는 방식으로 변형이 발생하는 출력 신호 변형 함수를 이용하여 출력 신호들을 변형하기 위한 최종 출력 신호 변형기를 포함한다. 즉, 출력 신호 변형 함수는 바람직하게 다운믹스 신호 변경에 대해 역전되거나, 다운믹스 신호 변형 함수에 적어도 부분적으로 역전된다. 달리 언급하면, 출력 신호 변형 함수는, 송신된 다운믹스 신호를 얻기 위해 원래 다운믹스 신호에 적용된 조절 동작이 출력 신호에 적어도 부분적으로 적용되고, 바람직하게 동일한 동작이 적용되도록 이루어진다.

본 발명의 바람직한 실시예들에서, 변형 함수들 양쪽 모두는 서로 상이하고, 적어도 부분적으로 서로 역전된다. 추가 실시예에서, 다운믹스 변형 함수 및 출력 신호 변형 함수는 상이한 시간 프레임들 또는 주파수 대역들에 대한 각 이득 인자들을 더 포함하고, 다운믹스 변형 이득 인자들 또는 출력 신호 변형 이득 인자들은 서로로부터 도출된다. 따라서, 다운믹스 신호 변형 이득 인자들 또는 출력 신호 변형 이득 인자들이 송신될 수 있고, 디코더는 이 후 일반적으로, 송신된 이득 인자들을 역전시킴으로써 송신된 이득 인자들로부터 다른 인자들을 도출하기 위해 적소에 존재한다.

추가 실시예들은 부가 정보로서 송신된 신호에서의 다운믹스 변형 정보를 포함하고, 디코더는 부가 정보를 추출하고, 한 편으로 다운믹스 변형을 수행하고, 역 함수 또는 적어도 부분적으로 또는 대략적으로 역 함수를 계산하고, 이러한 함수를 객체 렌더러로부터의 출력 신호들에 적용한다.

추가 실시예들은, 출력 신호 변형이 단지 미적인 이유로 인할 때 수행되는 한편, 출력 신호 변형이 예를 들어, 특정 송신 포맷/변조 방법들에 대한 더 양호한 송신 특징들을 얻기 위해 신호 조절과 같은 순전히 기술적 이유들로 인한 때 수행되지 않는 것을 보장하기 위해 출력 신호 변형기를 선택적으로 활성화/비활성화하도록 제어 신호를 송신하는 것을 포함한다.

다운믹스가 라우드니스 최적화, 등화, 다중 대역 등화, 동적 범위 압축 또는 제한 동작을 수행함으로써 다운믹스가 조절되었고, 출력 신호 변형기가 이 후 등화 동작, 라우드니스 최적화 동작, 다중 대역 등화 동작, 동적 범위 압축 동작 또는 제한 동작을 출력 신호들에 다시 적용하도록 구성되는 인코딩된 신호에 관한 것이다.

추가 실시예들은, 송신된 파라미터적 정보에 기초하고, 그리고 리플레이 설정에서 오디오 객체들의 위치 지정(positioning)에 관한 위치 정보에 기초하여 출력 신호들을 생성하는 객체 렌더러(object renderer)를 포함한다. 출력 신호들의 생성은 개별적인 객체 신호들을 재생성함으로써, 그런 후에 재생성된 객체 신호들을 선택적으로 변형함으로써, 그리고 그런 후에 벡터 기반의 진폭 패닝(panning) 등과 같은 임의의 종류의 잘 알려진 렌더링 개념에 의해 선택적으로 변형된 재구성된 객체들을 스피커들을 위해 채널 신호들로 분배함으로써 이루어질 수 있다. 다른 실시예들은 MPEG-Surround 또는 MPEG-SAOC와 같은 공간 오디오 코딩의 종래 기술에 알려져 있기 때문에, 가상 객체들의 명시적 재구성에 의존하지 않고, 재구성된 객체들의 명시적 계산 없이 변형된 다운믹스 신호로부터 스피커 신호들로의 직접 처리를 수행한다.

추가 실시예들에서, 입력 신호는 정상적인 오디오 객체들 및 개선된 오디오 객체들을 포함하고, 객체 렌더러는 오디오 객체들을 재구성하거나, 정상적인 오디오 객체들 및 개선된 오디오 객체들을 이용하여 출력 채널들을 직접 생성하기 위해 구성된다.

후속하여, 본 발명의 바람직한 실시예들은 첨부 도면들에 대해 기재된다.

도 1은 오디오 디코더의 실시예의 블록도.
도 2는 오디오 디코더의 추가 실시예를 도시한 도면.
도 3은 다운믹스 신호 변형 함수로부터 출력 신호 변형 함수를 도출하는 방법을 도시한 도면.
도 4는 보간된 다운믹스 변형 이득 인자들로부터 출력 신호 변형 이득 인자들을 계산하기 위한 프로세스를 도시한 도면.
도 5는 SAOC 시스템의 동작의 기본 블록도.
도 6은 SAOC 디코더의 동작의 블록도.
도 7은 다운믹스 신호의 조절을 포함하는 SAOC 시스템의 동작의 블록도.
도 8a는 다운믹스 신호의 조절을 포함하는 SAOC 시스템의 동작의 블록도.
도 8b는 주요 SAOC 처리 이전에 다운믹스 신호 조절의 보상을 포함하는 SAOC 디코더의 동작의 블록도.

도 1은 변형된 출력 신호들(160)을 얻기 위해 인코딩된 오디오 신호(100)를 디코딩하기 위한 장치를 도시한다. 장치는 송신된 다운믹스 신호와, 송신된 다운믹스 신호에 포함된 2개의 오디오 객체들에 관련된 파라미터적 데이터를 수신하기 위한 입력 인터페이스(110)를 포함한다. 입력 인터페이스는 인코딩된 오디오 신호(100)로부터 송신된 다운믹스 신호(112), 및 파라미터적 데이터(114)를 추출한다. 특히, 다운믹스 신호(112), 즉 송신된 다운믹스 신호는 인코더 다운믹스 신호와 상이하고, 파라미터적 데이터(114)는 인코더 다운믹스 신호와 관련된다. 더욱이, 장치는 다운믹스 변형 함수를 이용하여 송신된 다운믹스 신호(112)를 변형하기 위한 다운믹스 변형기(116)를 포함한다. 다운믹스 변형은, 변형된 다운믹스 신호가 인코더 다운믹스 신호와 동일하거나, 송신된 다운믹스 신호에 비해 인코더 다운믹스 신호와 적어도 더 많이 유사하도록 수행된다. 바람직하게, 블록(116)의 출력에서의 변형된 다운믹스 신호는 인코더 다운믹스 신호와 동일하고, 파라미터적 데이터는 인코더 다운믹스 신호와 관련된다. 하지만, 다운믹스 변형기(116)는 인코더 다운믹스 신호의 조절을 완전히 역전시키지 않고, 이러한 조절을 부분적으로 제거하도록 구성될 수 있다. 따라서, 변형된 다운믹스 신호는 인코더 다운믹스 신호, 이후에 송신된 다운믹스 신호와 적어도 더 많이 유사하다. 유사도는 예를 들어, 차이들이 샘플마다 형성되는 시간 도메인 또는 주파수 도메인에서의 개별적인 샘플들 사이, 예를 들어 변형된 다운믹스 신호 및 인코더 다운믹스 신호의 대응하는 프레임들 및/또는 대역들 사이에서 제곱 거리를 계산함으로써 측정될 수 있다. 그런 후에, 이러한 제곱 거리 척도(measure), 즉 전 제곱 차이들에 대한 합(sum over all squared differences)은 송신된 다운믹스 신호(112)(도 7 또는 도 8a에서 블록 다운믹스 조절에 의해 생성됨)와 인코더 다운믹스 신호(도 5, 도 6, 도 7, 도 8a에서의 블록 SAOC 인코더에서 생성됨) 사이의 제곱 차이들의 대응하는 합보다 더 작다. 따라서, 다운믹스 변형기(116)는 도 8b의 정황 상에서 논의된 바와 같이 다운믹스 변형 블록에 유사하게 구성될 수 있다.

더욱이, 도 1에서의 장치는 출력 신호들을 얻기 위해 변형된 다운믹스 신호 및 파라미터 데이터(114)를 이용하여 오디오 객체들을 렌더링하기 위한 객체 렌더러(118)를 포함한다. 더욱이, 장치는 중요하게 출력 신호 변형 함수를 이용하여 출력 신호들을 변형하기 위한 출력 신호 변형기(120)를 포함한다. 바람직하게, 출력 변형은, 다운믹스 변형기(116)에 의해 적용된 변형이 적어도 부분적으로 역전되는 방식으로 수행된다. 다른 실시예들에서, 출력 신호 변형 함수는 다운믹스 신호 변형 함수로 역전되거나, 적어도 부분적으로 역전된다. 따라서, 출력 신호 변형기는 출력 신호 변형 함수를 이용하여 출력 신호들을 변형하기 위해 구성되어, 송신된 다운믹스 신호를 얻기 위해 인코더 다운믹스 신호에 적용된 조절 동작은 출력 신호에 적어도 부분적으로 적용되고, 바람직하게, 출력 신호들에 완전히 적용된다.

실시예에서, 다운믹스 변형기(116) 및 출력 신호 변형기(120)는, 출력 신호 변형 함수가 다운믹스 변형 함수와 상이하고, 다운믹스 변형 함수에 적어도 부분적으로 역전되는 방식으로 구성된다.

더욱이, 다운믹스 변형기의 실시예는 다운믹스 변형 이득 인자들을 송신된 다운믹스 신호(112)의 상이한 시간 프레임들 또는 주파수 대역들에 적용하는 것을 포함하는 다운믹스 변형 함수를 포함한다. 더욱이, 출력 신호 변형 함수는 출력 신호 변형 이득 인자들을 출력 신호들의 상이한 시간 프레임들 또는 주파수 대역들에 적용하는 것을 포함한다. 더욱이, 출력 신호 변형 이득 인자들은 다운믹스 신호 변형 함수의 역 값들로부터 도출된다. 이러한 시나리오는, 다운믹스 신호 변형 이득 인자들이 예를 들어, 디코더 측 상에서의 별개의 입력에 의해 이용가능하거나 이들이 인코딩된 오디오 신호(100)에서 송신되었기 때문에 이용가능할 때 적용된다. 하지만, 대안적인 실시예들은 또한, 출력 신호 변형기(120)에 의해 사용된 출력 신호 변형 이득 인자들이 송신되거나 사용자에 의해 입력되고, 그런 후에 다운믹스 변형기(116)가 이용가능한 출력 신호 변형 이득 인자들로부터 다운믹스 신호 변형 이득 인자들을 도출하기 위해 구성되는 상황을 포함한다.

추가 실시예에서, 입력 인터페이스(110)는 다운믹스 변형 함수에 대한 정보를 추가로 수신하도록 구성되고, 이러한 변형 정보(115)는 인코딩된 오디오 신호로부터 입력 인터페이스(110)에 의해 추출되고, 다운믹스 변형기(116) 및 출력 신호 변형기(120)에 제공된다. 다시, 다운믹스 변형 함수는 다운믹스 신호 변형 이득 인자들 또는 출력 신호 변형 신호 인자들을 포함할 수 있고, 이득 인자들의 어떤 세트가 이용가능한 지에 따라, 대응하는 요소(116 또는 120)는 이 후 이용가능한 데이터로부터 이득 인자들을 도출한다.

추가 실시예에서, 다운믹스 신호 변형 이득 인자들 또는 출력 신호 변형 이득 인자들의 보간이 수행된다. 대안적으로 또는 추가로, 또한 평활화(smoothing)는, 이들이 데이터 변화를 너무 빨리 송신하는 상황들이 어떠한 결함들도 도입하지 않도록 수행된다.

실시예에서, 출력 신호 변형기(120)는 다운믹스 변형 이득 인자들을 역전시킴으로써 출력 신호 변형 이득 인자들을 도출하기 위해 구성된다. 그런 후에, 수치적 문제들을 피하기 위해, 역전된 다운믹스 변형 이득 인자와 상수 값의 최대값, 또는 역전된 다운믹스 변형 이득 인자와 동일하거나 상이한 상수 값의 합이 사용된다. 그러므로, 출력 신호 변형 함수는 다운믹스 신호 변형 함수로 완전히 역전될 필요가 없고, 적어도 부분적으로 역전된다.

더욱이, 출력 신호 변형기(120)는 제어 플래그로서 117에 표시된 제어 신호에 의해 제어가능하다. 따라서, 출력 신호 변형기(120)가 특정 주파수 대역들 및/또는 시간 프레임들에 대해 선택적으로 활성화되거나 비활성화될 가능성이 존재한다. 실시예에서, 플래그는 단지 1-비트 플래그이고, 제어 신호가 출력 신호 변형기가 비활성화되도록 이루어질 때, 이것은 예를 들어, 플래그의 제로(zero) 상태에 의해 신호 발신(signaled)되고, 그런 후에 제어 신호는, 출력 신호 변형기가 활성화되도록 이루어지고, 그런 후에 이것은 예를 들어, 플래그의 하나의-상태 또는 세트 상태에 의해 신호 발신된다. 사실상, 제어 규칙은 반대로도 이루어질 수 있다.

추가 실시예에서, 다운믹스 변형기(116)는 송신된 다운믹스 채널에 적용된 라우드니스 최적화 또는 등화 또는 다중 대역 등화 또는 동적 대역 압축 또는 제한 동작을 감소하거나 취소하도록 구성된다. 달리 말하면, 이들 동작들은 예를 들어 도 5에서의 블록 SAOC 인코더, 도 7에서의 SAOC 인코더, 또는 도 8a에서의 SAOC 인코더에 의해 생성된 바와 같이 인코더 다운믹스 신호로부터 송신된 다운믹스 신호를 도출하기 위해 도 7에서의 다운믹스 조절 블록 또는 도 8a에서의 다운믹스 조절 블록에 의해 일반적으로 인코더-측 상에 적용되었다.

그런 후에, 출력 신호 변형기(120)는 마지막으로 변형된 출력 신호들(160)을 얻기 위해 라우드니스 최적화 또는 등화 또는 다중 대역 등화 또는 동적 범위 압축 또는 제한 동작을 다시 객체 렌더러(118)에 의해 생성된 출력 신호들에 적용하도록 구성된다.

더욱이, 객체 렌더러(118)는 변형된 다운믹스 신호로부터 재현 레이아웃(reproduction layout)의 스피커들에 대한 채널 신호들로서 출력 신호들을 계산하도록 구성될 수 있고, 변형된 다운믹스 신호의 파라미터적 데이터(114) 및 위치 정보(121)는 예를 들어, 사용자 입력 인터페이스(122)를 통해 객체 렌더러(118)에 입력될 수 있거나, 추가로 인코더로부터 디코더로 개별적으로 또는 예를 들어, "렌더링 행렬"로서 인코딩된 신호 내에서 송신될 수 있다.

그런 후에, 출력 신호 변형기(120)는 출력 신호 변형 함수를 스피커들에 대한 이들 채널 신호들에 적용하도록 구성되고, 변형된 출력 신호들(116)은 직접 스피커들로 송출될 수 있다.

상이한 실시예에서, 객체 렌더러는 2-단계 처리를 수행하도록 구성되는데, 즉 먼저 개별적인 객체들을 재구성하고, 그런 후에 벡터 기반의 진폭 패닝 등과 같은 잘 알려진 수단 중 임의의 수단에 의해 객체 신호들을 대응하는 스피커 신호들에 분배하도록 구성된다. 그런 후에, 출력 신호(120)는 또한, 개별적인 스피커들로의 분배가 발생하기 전에 출력 신호 변형을 재구성된 객체 신호들에 적용하도록 구성될 수 있다. 따라서, 도 1에서 객체 렌더러(118)에 의해 생성된 출력 신호들은 재구성된 객체 신호들일 수 있거나, 이미 (비-변형된) 스피커 채널 신호들일 수 있다.

더욱이, 입력 신호 인터페이스(110)는 예를 들어 SAOC로부터 알려진 개선된 오디오 객체 및 정상적인 오디오 객체들을 수신하도록 구성된다. 특히, 개선된 오디오 객체는 종래 기술에 알려진 바와 같이, 파라미터적 데이터(114)와 같은 파라미터적 데이터를 이용하여 원래 객체와 이러한 객체의 재구성된 버전 사이의 파형 차이이다. 이것은, 예를 들어 20개 등의 객체들의 세트에서 예를 들어, 4개의 객체들과 같은 개별적인 객체들이 사실상 개선된 오디오에 대한 요구된 정보로 인해 추가 비트율의 비용으로 매우 잘 송신될 수 있는 것을 허용한다. 그런 후에, 객체 렌더러(118)는 출력 신호들을 계산하기 위해 정상 객체들 및 개선된 오디오 객체를 이용하도록 구성된다.

추가 실시예에서, 객체 렌더러는 전경 객체(FGO) 또는 배경 객체(BGO) 또는 양쪽 모두를 조절하는 것과 같이 하나 이상의 객체들을 조절하기 위한 사용자 입력(123)을 수신하도록 구성되고, 객체 렌더러(118)는 출력 신호들을 렌더링할 때 사용자 입력에 의해 결정된 하나 이상의 객체들을 조절하도록 구성된다. 이러한 실시예에서, 객체 신호들을 실제로 재구성하고, 그런 후에 전경 객체 신호를 조절하거나, 배경 객체 신호를 감쇄하는 것이 바람직하고, 이때 채널들에 대한 분배가 발생하고, 그런 후에 채널 신호들이 변형된다. 하지만, 대안적으로, 출력 신호들은 이미 개별적인 객체 신호들일 수 있고, 블록(120)에 의해 변형된 후에 객체 신호들의 분배는 벡터 기반의 진폭 패닝과 같이 객체 신호들로부터 스피커 채널 신호들을 생성하기 위한 임의의 잘 알려진 프로세스 및 위치 정보(121)를 이용하여 객체 신호들을 개별적인 채널 신호들에 분배하기 전에 발생한다.

후속하여, 인코딩된 오디오 신호를 디코딩하기 위한 장치의 바람직한 실시예인 도 2가 기재된다. 인코딩된 부가 정보가 수신되고, 예를 들어, 도 1의 파라미터적 데이터(114) 및 변형 정보(115)를 포함한다. 더욱이, 변형된 다운믹스 신호들이 수신되고, 송신된 다운믹스 신호(112)에 대응한다. 송신된 다운믹스 신호가 단일 채널, 또는 M개의 채널들과 같은 여러 개의 채널들일 수 있고, 여기서 M은 정수인 것을 도 2로부터 알 수 있다. 도 2의 실시예는, 부가 정보가 인코딩되는 경우에 부가 정보를 디코딩하기 위한 부가 정보 디코더(111)를 포함한다. 그런 후에, 디코딩된 부가 정보는 도 1에서 다운믹스 변형기(116)에 대응하는 다운믹스 변형 블록으로 송출된다. 그런 후에, 보상된 다운믹스 신호들은, 도 2 실시예에서, 도 1에서 객체들(121)에 대한 위치 정보에 대응하는 렌더링 정보(M)를 수신하는 렌더러 블록(118b) 및 (가상) 객체 분리 블록(118a)으로 구성되는 객체 렌더러(118)로 송출된다. 더욱이, 렌더러(118b)는 출력 신호들을 생성하거나, 또는 도 2에서 명명될 때 중간 출력 신호들을 생성하고, 다운믹스 변형 복구 블록(120)은 도 1에서 출력 신호 변형기(120)에 대응한다. 다운믹스 변형 복구 블록(160)에 의해 생성된 최종 출력 신호들은 도 1의 용어들에서 변형된 출력 신호들에 대응한다.

바람직한 실시예들은 다운믹스 변형의 미리 포함된 부가 정보를 이용하고, 출력 신호들의 렌더링 이후에 변형 프로세스를 역전시킨다. 이것의 블록도는 도 2에 도시된다. 이것을 도 8b와 비교하면, 도 2에서의 블록 "다운믹스 변형 복구" 또는 도 1에서의 출력 신호 변형기의 추가가 이러한 실시예를 구현한다는 것이 주지될 수 있다.

인코더-생성된 다운믹스 신호(X)는 함수{f(X)}로 조절된다(또는 조절은 함수와 근사될 수 있다). 인코더는 송신 및/또는 저장될 부가 정보에 대한 이러한 함수에 관한 정보를 포함한다. 디코더는 부가 정보를 수신하고, 이를 역전하여, 변형 또는 보상 함수를 얻는다. (MPEG SAOC에서, 인코더는 역전을 행하고, 역전된 값들을 송신한다.) 디코더는 수신된 다운믹스 신호들 상에 보상 함수를 적용하고{

), (가상) 객체 분리에 사용될 보상된 다운믹스 신호들을 얻는다. 렌더링 정보(사용자로부터)(M)에 기초하여, 출력 장면은

에 의해 (가상) 객체 재구성들(

)로부터 재구성된다. 무상관기들(decorrelators)의 도움으로 출력 신호들의 공분산의 변형과 같이 추가 처리 단계들을 포함하는 것이 가능하다. 하지만, 그러한 처리는, 렌더링 단계의 도움이 원래 입력 오디오 객체들 상에 렌더링 프로세스를 적용하는 것으로부터의 결과와 근사한 출력, 즉

을 얻기 위한 것이라는 점을 변화시키지 않는다. 제안된 추가는 다운믹스 조절 함수(f(·))에 근사한 결과를 통해 최종 출력 신호들(f(Y))을 얻기 위해 렌더링된 출력 상에 보상 함수의 역전(

)을 적용하는 것이다.

후속하여, 도 3은 다운믹스 신호 변형 함수로부터 출력 신호 변형 함수를 계산하기 위한 바람직한 실시예를, 특히 양쪽 함수들이 주파수 대역들 및/또는 시간 프레임들에 대한 대응하는 이득 인자들에 의해 표현되는 이러한 상황에서 표시하기 위해 고려된다.

SAOC 프레임워크[SAOC]에서 다운믹스 신호 변형에 관한 부가 정보는 처음에 기재된 바와 같이, 각 다운믹스 신호에 대한 이득 인자들에 제한된다. 즉, SAOC에서, 역전된 보상 함수가 송신되고, 보상된 다운믹스 신호들은 도 3의 제 1 수학식에 예시된 바와 같이 얻어질 수 있다.

보상 함수(g(·))에 대한 이러한 정의를 이용하여,

로서 보상 함수의 역전을 정의하는 것이 가능하다. 위로부터 g(·)의 정의의 경우에, 이것은 도 3에서의 제 2 수학식으로서 표현될 수 있다. 보상 파라미터들(PDG_i) 중 하나 이상이 0일 가능성이 존재하면, 산술적 문제들을 피하기 위해 몇몇 사전-경고들이 취해져야 한다. 이것은, 예를 들어, 도 3의 제 3 수학식에 개요된 바와 같이 작은 상수{ε(예를 들어, ε=10^-3)}를 각 (비-음의) 엔트리(entry)에 추가함으로써, 또는 도 3의 제 4 수학식에 개요된 바와 같이 보상 파라미터의 최대값과 작은 상수를 취함으로써 이루어질 수 있다. 또한 W_PDG ^-1의 값을 결정하기 위한 다른 방식들이 존재한다.

렌더링된 출력 상에서 다운믹스 조절을 다시 적용하는데 요구된 정보의 전송을 고려하면, 보상 파라미터들(MPEG SAOC, PDG들)이 이미 송신된 경우, 추가 정보가 요구되지 않는다. 추가된 함수에 대해, 다운믹스 조절 복구가 적용되어야 하는 경우 신호 발신을 비트스트림에 추가하는 것이 또한 가능하고, 이것은 다음의 비트스트림 구문에 의해 달성될 수 있다:

비트스트림 변수(bsPdglnvFlag)(117)가 값(0)으로 설정되거나 생략되고, 비트스트림 변수(bsPdgFlag)가 값(1)로 설정될 때, 디코더는 MPEG 표준[SAOC]에서 규정된 바와 같이 동작하는데, 즉 보상은 (가상) 객체 분리 이전에 디코더에 의해 수신된 다운믹스 신호들 상에 적용된다. 비트스트림 변수(bsPdglnvFlag)가 값(1)으로 설정될 때, 다운믹스 신호들은 처음과 같이 처리되고, 렌더링된 출력은 다운믹스 조절에 근사한 제안된 방법에 의해 처리될 것이다.

후속하여, 도 4는, 또한 도 4 및 본 명세서에서 "PDG"로서 표시되는 보간된 다운믹스 변형 이득 인자들을 이용하기 위한 바람직한 실시예를 예시하는 도 4가 고려된다. 제 1 단계는 현재 시간 인스턴트(time instant)의 PDG 값과, 40으로 표시된 다음(미래) 시간 인스턴트의 PDG 값과 같이 현재 및 미래 또는 이전 및 현재 PDG 값들의 제공을 포함한다. 단계(42)에서, 보간된 PDG 값들은 다운믹스 변형기(116)에서 계산되고 사용된다. 그런 후에, 단계(44)에서, 출력 신호 변형 이득 인자들은 블록(42)에 의해 생성된 보간된 이득 인자들로부터 도출되고, 그런 후에, 계산된 출력 신호 변형 이득 인자들은 출력 신호 변형기(120) 내에서 사용된다. 따라서, 어떤 다운믹스 신호 변형 인자들이 고려되는 지에 따라, 출력 신호 변형 이득 인자들이 송신된 인자들로 완전히 역전되지 않고, 보간된 이득 인자들로 부분적으로 또는 완전히 역전된다는 것이 명백하게 된다.

PDG-처리는 파라미터적 프레임들에서 발생하기 위해 MPEG SAOC 표준[SAOC]에서 규정된다. 이것은, 보상 곱셈이 일정한 파라미터 값들을 이용하여 각 프레임에서 발생한다는 것을 제안한다. 파라미터 값들이 연속 프레임들 사이에서 상당히 변화하는 경우에, 이것은 바람직하지 않은 결함들을 초래할 수 있다. 그러므로, 이들을 신호들 상에 적용하기 전에 파라미터 평활화를 포함하는 것이 바람직하다. 평활화는 시간이 지남에 따라 파라미터 값들의 저역 통과 필터링, 또는 연속 프레임들 사이의 파라미터 값들의 보간과 같은 다양한 방법들에서 발생할 수 있다. 바람직한 실시예는 파라미터 프레임들 사이의 선형 보간을 포함한다. 시간 인스턴트(n)에서 i번째 다운믹스 신호에 대한 파라미터 값을 PDG"라 두고, 시간 인스턴트(n+J)에서 동일한 다운믹스 채널에 대한 파라미터 값을 PDG_i ⁿ ^+J라 두자. 시간 인스턴트들(n+j, 0<j<J)에서의 보간된 파라미터 값들은 수학식

으로부터 얻어질 수 있다. 그러한 보간이 사용될 때, 다운믹스 변형의 복구를 위한 역전된 값들은 보간된 값들로부터 얻어질 수 있는데, 즉 각 중간 시간 인스턴트에 대한 행렬(

)을 계산하고, 중간 출력(Y) 상에 적용될 수 있는 (

)^-1을 얻기 위해 그 후에 이들 각각을 역전시킨다.

실시예들은, 조절들이 SAOC 다운믹스 신호들에 적용될 때 발생하는 문제를 해결한다. 종래 기술의 접근법들은, 마스터링을 위한 보상이 이루어지지 않은 경우 객체 분리에 관해 서브-최적의 지각 품질을 제공하거나, 마스터링에 대해 보상되는 경우 마스터링의 이익들을 손실할 것이다. 이것은, 마스터링 효과가 최종 출력에서 유지하는 것이 유리한 어떤 것, 예를 들어, 라우드니스 최적화들, 등화 등을 나타내는 경우 특히 문제가 발생한다. 제안된 방법의 주요 이익들은 다음을 포함하지만, 여기에 제약되지 않는다:

코어 SAOC 처리, 즉 (가상) 객체 분리는 디코더에 의해 수신된 다운믹스 신호들보다 더 가까운 원래 인코더-생성된 다운믹스 신호들에 근사한 다운믹스 신호들 상에서 동작할 수 있다. 이것은 SAOC 처리로부터 결함들을 최소화한다.

다운믹스 조절("마스터링 효과")은 적어도 근사 형태로 최종 출력에 유지될 것이다. 렌더링 정보가 다운믹싱 정보와 동일할 때, 최종 출력은 동일하지 않은 경우 디폴트 다운믹스 신호들을 매우 밀접하게 근사할 것이다.

다운믹스 신호들이 인코더-생성된 다운믹스 신호들과 더 밀접하게 비슷하기 때문에, 즉 EAO들에 대한 파형 정정 신호들을 포함하는 객체들에 대한 개선된 품질 모드를 사용하는 것이 가능하다.

EAO들이 사용되고 원래 입력 오디오 객체들의 밀접한 근사들이 재구성될 때, 제안된 방법은 "마스터링 효과"를 또한 이들에 적용한다.

제안된 방법은, MPEG SAOC의 PDG 부가 정보가 이미 송신된 경우 어떠한 추가 부가 정보도 송신되는 것을 요구하지 않는다.

원하는 경우, 제안된 방법은 최종 사용자에 의해, 또는 인코더로부터 송시된 부가 정보에 의해 인에이블링(enabled)되거나 디스에이블링(disabled)될 수 있는 툴(tool)로서 구현될 수 있다.

제안된 방법은 SAOC에서 (가상) 객체 분리에 비해 계산적으로 매우 가볍다.

본 발명이, 블록들이 실제 또는 논리적 하드웨어 성분들을 나타내는 블록도들의 정황에서 기재되었지만, 본 발명은 또한 컴퓨터-구현된 방법에 의해 구현될 수 있다. 컴퓨터-구현된 방법의 경우에, 블록들은, 이들 단계들이 대응하는 논리적 또는 물리적 하드웨어 블록들에 의해 수행된 기능들을 대표하는 대응하는 방법 단계들을 나타낸다.

몇몇 양상들이 장치의 정황에 기재되었지만, 이들 양상들이 또한 블록 또는 디바이스가 방법 단계 또는 방법 단계의 특징에 대응하는 경우 대응하는 방법의 설명을 나타낸다는 것이 명확하다. 유사하게, 방법 단계의 정황에 기재된 양상들은 또한 대응하는 블록 또는 항목 또는 대응하는 장치의 특징에 대한 설명을 나타낸다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그래밍가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(를 이용하여) 실행될 수 있다. 몇몇 실시예들에서, 하나 이상의 가장 중요한 방법 단계들의 몇몇은 그러한 장치에 의해 실행될 수 있다.

특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 각 방법이 수행되도록 프로그래밍가능 컴퓨터 시스템과 협력(또는 협력할 수 있는)하는 전자적으로 판독가능 제어 신호들이 저장된 디스크 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루-레이, CD, ROM, PROM, 및 EPROM, EEPROM 또는 플래쉬 메모리를 이용하여 수행될 수 있다. 그러므로, 디지털 저장 매체는 컴퓨터 판독가능할 수 있다.

본 발명에 따른 몇몇 실시예들은, 본 명세서에 기재된 방법들 중 하나가 수행되도록 프로그래밍가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능 제어 신호들을 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있고, 프로그램 코드는, 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 방법들 중 하나를 수행하기 위해 동작가능하다. 프로그램 코드는 예를 들어, 기계 판독가능 캐리어 상에 저장될 수 있다.

다른 실시예들은 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하고, 이러한 컴퓨터 프로그램은 기계 판독가능 캐리어 상에 저장된다.

즉, 그러므로, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

그러므로, 본 발명의 방법의 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 위에 리코딩된 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체와 같은 비-임시 저장 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 리코딩된 매체는 일반적으로 실체적이고(tangible) 및/또는 비-임시적이다.

그러므로, 본 발명의 방법의 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 시퀀스 또는 데이터 스트림이다. 예를 들어, 신호들의 시퀀스 또는 데이터 스트림은 예를 들어, 인터넷을 통해, 데이터 통신 연결부를 통해 전송되도록 구성될 수 있다.

추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하도록 구성되거나, 적응된 처리 수단, 예를 들어 컴퓨터 또는 프로그래밍가능 논리 디바이스를 포함한다.

추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 그 위에 설치한 컴퓨터를 포함한다.

본 발명에 따른 추가 실시예는 본 명세서에 기재된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 전달(예를 들어, 전자적으로 또는 광학적으로)하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전달하기 위한 파일 서버를 포함할 수 있다.

몇몇 실시예들에서, 프로그래밍가능 논리 디바이스(예를 들어, 전계 프로그래밍가능 게이트 어레이)는 본 명세서에 기재된 방법들의 기능들의 몇몇 또는 전부를 수행하는데 사용될 수 있다. 몇몇 실시예들에서, 전계 프로그래밍가능 게이트 어레이는 본 명세서에 기재된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.

전술한 실시예들은 본 발명의 원리들에 대해 단지 예시적이다. 본 명세서에 기재된 배치들 및 세부사항들의 변형들 및 변경들이 당업자에게 명백하다는 것이 이해된다. 그러므로, 본 명세서에서 실시예들의 기재 및 설명에 의해 제공된 특정한 세부사항들에 의해서가 아니라 첨부된 특허 청구항들의 범주에 의해서만 제한되도록 의도된다.

인용들

[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris,2006.

[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.

[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010.

[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011.

[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.

[ISS5] S. Zhang and L. Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011.

[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011.

[PDG] J. Seo, S. Beack, K. Kang, J. W. Hong, J. Kim, C. Ahn, K. Kim, and M. Hahn, "Multi-object audio encoding and decoding apparatus supporting post downmix signal", United States Patent Application Publication US2011/0166867, Jul 2011.

[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UKAESConference,Cambridge,UK,April2007.

[SAOC2] J. Engdegㅵrd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hㆆlzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008.

[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.

Claims

변형된 출력 신호들(160)을 얻기 위해 인코딩된 오디오 신호(100)를 디코딩하기 위한 장치로서,
송신된 다운믹스 신호(112)와, 상기 송신된 다운믹스 신호(112)에 포함된 오디오 객체들에 관련된 파라미터적 데이터(114)를 수신하기 위한 입력 인터페이스(110)로서, 상기 다운믹스 신호는 인코더 다운믹스 신호와 상이하고, 상기 파라미터적 데이터는 상기 인코더 다운믹스 신호와 관련되는, 입력 인터페이스(110);
다운믹스 변형 함수를 이용하여 상기 송신된 다운믹스 신호를 변형하기 위한 다운믹스 변형기(116)로서, 상기 다운믹스 변형은, 변형된 다운믹스 신호가 상기 인코더 다운믹스 신호와 동일하거나, 상기 송신된 다운믹스 신호(112)에 비해 상기 인코더 다운믹스 신호와 더 많이 유사한 방식으로 수행되는, 다운믹스 변형기(116);
출력 신호들을 얻기 위해 상기 변형된 다운믹스 신호 및 상기 파라미터적 데이터를 이용하여 상기 오디오 객체들을 렌더링하기 위한 객체 렌더러(118); 및
출력 신호 변형 함수를 이용하여 상기 출력 신호들을 변형하기 위한 출력 신호 변형기(120)로서, 상기 출력 신호 변형 함수는, 상기 송신된 다운믹스 신호(112)를 얻기 위해 상기 인코딩된 다운믹스 신호에 적용된 조절 동작이 상기 변형된 출력 신호들(160)을 얻기 위해 상기 출력 신호들에 적어도 부분적으로 적용되도록 이루어지는, 출력 신호 변형기(120)를
포함하는, 변형된 출력 신호들을 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치.
제 1항에 있어서, 상기 다운믹스 변형기(116) 및 상기 출력 신호 변형기(120)는, 상기 출력 신호 변형 함수가 상기 다운믹스 신호 변형 함수와 상이하고, 상기 다운믹스 신호 변형 함수에 적어도 부분적으로 역전(inverse)되는 방식으로 구성되는, 변형된 출력 신호들을 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치.
제 1항 또는 제 2항에 있어서, 상기 다운믹스 변형 함수는 다운믹스 변형 이득 인자들을 상기 송신된 다운믹스 신호의 상이한 시간 프레임들 또는 주파수 대역들에 적용하는 것을 포함하고,
상기 출력 신호 변형 함수는 출력 신호 변형 이득 인자들을 상기 출력 신호들의 상이한 시간 프레임들 또는 주파수 대역들에 적용하는 것을 더 포함하고, 상기 출력 신호 변형 이득 인자들은 상기 다운믹스 변형 이득 인자들의 역전 값들로부터 도출되거나, 상기 다운믹스 변형 이득 인자들은 상기 출력 신호 변형 이득 인자들의 역전 값들로부터 도출되는, 변형된 출력 신호들을 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치.
제 1항 내지 제 3항 중 어느 한 항에 있어서, 상기 입력 인터페이스(110)는 상기 다운믹스 변형 함수 또는 출력 신호 변형 함수에 관한 정보를 추가로 수신하도록 구성되고,
상기 다운믹스 변형기(116)는, 상기 다운믹스 변형 함수에 관한 상기 정보가 상기 입력 인터페이스(110)에 의해 수신될 때 상기 다운믹스 변형 함수에 관한 정보를 사용하도록 구성되고, 상기 출력 신호 변형기(120)는 상기 다운믹스 신호 변형에 관한 상기 정보(115)로부터 상기 출력 신호 변형 함수를 도출하도록 구성되고, 또는
상기 입력 인터페이스(110)는 상기 출력 신호 변형 함수에 관한 정보를 추가로 수신하도록 구성되고, 상기 다운믹스 변형기(116)는 수신된 상기 출력 신호 변형 함수에 관한 상기 정보로부터 상기 다운믹스 변형 함수를 도출하도록 구성되는, 변형된 출력 신호들을 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치.
제 4항에 있어서, 상기 다운믹스 변형 함수에 관한 상기 정보는 다운믹스 변형 이득 인자들을 포함하고,
상기 다운믹스 변형기(116)는 상기 다운믹스 변형 이득 인자들을 적용하거나, 보간되거나 평활화된 다운믹스 변형 이득 인자들을 적용하도록 구성되고,
상기 출력 신호 변형기(120)는 역전된 다운믹스 변형 이득 인자 또는 보간되거나 평활화된 다운믹스 변형 이득 인자와 상수 값의 최대치를 이용함으로써, 또는 상기 역전된 다운믹스 변형 이득 인자 또는 보간되거나 평활화된 다운믹스 변형 이득 인자와 상수 값의 합을 이용함으로써 상기 출력 신호 변형 인자들을 계산하도록 구성되는, 변형된 출력 신호들을 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치.
제 1항 내지 제 5항 중 어느 한 항에 있어서, 상기 출력 신호 변형기(120)는 제어 신호(117)에 의해 제어가능하고, 상기 입력 인터페이스(110)는 상기 송신된 다운믹스 신호의 주파수 대역들의 시간 프레임들에 대한 제어 정보를 수신하도록 구성되고,
상기 출력 신호 변형기(120)는 상기 제어 정보로부터 상기 제어 신호를 도출하도록 구성되는, 변형된 출력 신호들을 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치.
제 6항에 있어서, 상기 제어 정보는 플래그(flag)이고, 상기 제어 신호는, 상기 플래그가 설정 상태에 있는 경우 상기 출력 신호 변형기(120)가 비활성화되도록 이루어지고, 상기 플래그가 비-설정 상태에 있을 때 상기 출력 신호 변형기(120)는 활성화되고, 또는 그 반대로도 이루어지는, 변형된 출력 신호들을 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치.
제 1항 내지 제 7항 중 어느 한 항에 있어서, 상기 다운믹스 변형기(116)는, 상기 송신된 다운믹스 신호(112)에 적용된, 라우드니스(loudness) 최적화, 등화 동작, 다중 대역 등화 동작, 동적 범위 압축 동작 또는 제한 동작을 감소시키거나 취소하도록 구성되고,
상기 출력 신호 변형기(120)는 상기 라우드니스 최적화 또는 상기 등화 동작 또는 상기 다중 대역 등화 동작 또는 상기 동적 범위 압축 또는 상기 제한 동작을 상기 출력 신호들에 적용하도록 구성되는, 변형된 출력 신호들을 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치.
제 1항 내지 제 8항 중 어느 한 항에 있어서, 상기 객체 렌더러(118)는 상기 변형된 다운믹스 신호로부터 채널 신호들을 계산하도록 구성되고, 상기 파라미터적 데이터(114) 및 위치 정보(121)는 재현 레이아웃(reproduction layout)에서 상기 객체들의 위치 지정(positioning)을 나타내는, 변형된 출력 신호들을 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치.
제 1항 내지 제 9항 중 어느 한 항에 있어서,
상기 객체 렌더러(118)는 상기 파라미터적 데이터(114)를 이용하여 상기 객체들을 재구성하고, 재현 레이아웃에서 상기 객체들의 위치 지정을 나타내는 위치 정보(121)를 이용하여 재현 레이아웃을 위한 채널 신호들에 상기 객체들을 분배하도록 구성되는, 변형된 출력 신호들을 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치.
제 1항 내지 제 10항 중 어느 한 항에 있어서,
상기 입력 인터페이스(110)는, 원래 객체 및 상기 재구성이 상기 파라미터적 데이터(114)에 기초한 재구성된 객체와, 정상(regular) 오디오 객체들 사이의 파형 차이인 개선된 오디오 객체를 수신하도록 구성되고,
상기 객체 렌더러(118)는 상기 출력 신호들을 계산하기 위해 상기 정상 오디오 객체들 및 상기 개선된 오디오 객체를 이용하도록 구성되는, 변형된 출력 신호들을 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치.
제 1항 내지 제 11항 중 어느 한 항에 있어서,
상기 객체 렌더러(118)는 하나 이상의 객체들을 조절하기 위한 사용자 입력(123)을 수신하도록 구성되고, 상기 객체 렌더러(118)는 상기 출력 신호들을 렌더링할 때 상기 사용자 입력에 의해 결정된 상기 하나 이상의 객체들을 조절하도록 구성되는, 변형된 출력 신호들을 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치.
제 12항에 있어서, 상기 객체 렌더러(118)는 상기 인코딩된 오디오 객체 신호들에 포함된 전경 객체(foreground object) 또는 배경 객체(background object)를 조절하도록 구성되는, 변형된 출력 신호들을 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치.
변형된 출력 신호들(160)을 얻기 위해 인코딩된 오디오 신호(100)를 디코딩하는 방법으로서,
송신된 다운믹스 신호(112)와, 상기 송신된 다운믹스 신호(112)에 포함된 오디오 객체들에 관련된 파라미터적 데이터(114)를 수신하는 단계(110)로서, 상기 다운믹스 신호는 인코더 다운믹스 신호와 상이하고, 상기 파라미터적 데이터는 상기 인코더 다운믹스 신호와 관련되는, 수신하는 단계(110);
다운믹스 변형 함수를 이용하여 상기 송신된 다운믹스 신호를 변형하는 단계(116)로서, 상기 다운믹스 변형은, 변형된 다운믹스 신호가 상기 인코더 다운믹스 신호와 동일하거나, 상기 송신된 다운믹스 신호(112)에 비해 상기 인코더 다운믹스 신호와 더 많이 유사한 방식으로 수행되는, 변형하는 단계(116);
출력 신호들을 얻기 위해 상기 변형된 다운믹스 신호 및 상기 파라미터적 데이터를 이용하여 상기 오디오 객체들을 렌더링하는 단계(118); 및
출력 신호 변형 함수를 이용하여 상기 출력 신호들을 변형하는 단계(120)로서, 상기 출력 신호 변형 함수는, 상기 송신된 다운믹스 신호(112)를 얻기 위해 상기 인코딩된 다운믹스 신호에 적용된 조절 동작이 상기 변형된 출력 신호들(160)을 얻기 위해 상기 출력 신호들에 적어도 부분적으로 적용되도록 이루어지는, 변형하는 단계(120)를
포함하는, 변형된 출력 신호들을 얻기 위해 인코딩된 오디오 신호를 디코딩하는 방법.
컴퓨터 프로그램이 컴퓨터 또는 프로세서 상에서 실행될 때 제 14항의 방법을 수행하기 위한 컴퓨터 프로그램.