KR102427066B1

KR102427066B1 - 객체 기반 오디오 시스템에서의 잔차 인코딩

Info

Publication number: KR102427066B1
Application number: KR1020167028446A
Authority: KR
Inventors: 안토니우스 칼커; 가디엘 세루씨
Original assignee: 디티에스, 인코포레이티드
Priority date: 2014-03-20
Filing date: 2015-03-04
Publication date: 2022-07-28
Also published as: EP3120346B1; KR20160138456A; US9779739B2; JP6612841B2; ES2731428T3; JP2017515164A; EP3120346A4; CN106463126B; CN106463126A; WO2015142524A1; US20150269951A1; PL3120346T3; EP3120346A1

Abstract

다운믹싱된 신호를 포함한 복수의 트랙 및 객체를 가진 다운믹싱된 복합 신호의 손실성 압축 및 전송은 업믹싱 아티팩트를 감소시키면서 용장성 전송 또는 무손실 압축에 비하여 비트율 요건을 감소시키는 방식으로 달성된다. 압축된 잔차 신호는 압축된 총 믹싱 및 적어도 하나의 압축된 오디오 객체와 함께 발생 및 전송된다. 수신 및 업믹싱 양태에 있어서, 본 발명은 다운믹싱된 신호 및 다른 압축된 객체를 압축해제하고, 근사 업믹싱 신호를 계산하고, 압축해제된 잔차 신호를 차감함으로써 업믹싱으로부터 도출된 특정 베이스 신호를 보정한다. 따라서, 본 발명은 통신 채널을 통해 전송하기 위해(또는 저장하기 위해) 손실성 압축이 다운믹싱된 오디오 신호와 함께 사용될 수 있게 한다. 나중의 수신 및 업믹싱시에, 추가적인 베이스 신호가 다중 객체 능력을 제공하는 가능한 시스템에서 복구 가능하다(한편, 레가시 시스템은 업믹싱 없이 총 믹싱을 쉽게 디코딩할 수 있다).

Description

객체 기반 오디오 시스템에서의 잔차 인코딩{RESIDUAL ENCODING IN AN OBJECT-BASED AUDIO SYSTEM}

본 출원은 "객체 기반 오디오 시스템에서의 잔차 인코딩"의 명칭으로 2014년 3월 20일자 출원된 미국 가특허 출원 제61/968,111호 및 "객체 기반 오디오 시스템에서의 잔차 인코딩"의 명칭으로 2015년 2월 12일자 출원된 미국 특허 출원 제14/620,544호를 우선권 주장한다.

본 발명은 일반적으로 손실성 다채널 오디오 압축(compression) 및 압축해제(decompression)에 관한 것이며, 보다 구체적으로, 수신되어 압축해제된 다채널 오디오 신호의 업믹싱을 촉진하는 방식으로의 다운믹싱된 다채널 오디오 신호의 압축 및 압축해제에 관한 것이다.

오디오 및 시청각 엔터테인먼트 시스템은 단일 스피커를 통하여 모노럴 오디오를 재현할 수 있는 보잘것없는 시작으로부터 진보하였다. 현대의 서라운드 사운드 시스템은 청취자 환경(이것은 공공 영화관 또는 더 개인적인 "홈 씨어터"일 수 있다)에서 복수의 스피커를 통하여 복수의 채널을 기록, 전송 및 재현할 수 있다. 다양한 서라운드 사운드 스피커 배열을 이용할 수 있고, 이러한 배열은 "5.1 서라운드", "7.1 서라운드", 및 심지어 20.2 서라운드라고 하는 칭호(designation)를 사용한다(칭호에서 소숫점 오른쪽의 숫자는 저주파 효과 채널을 표현한다). 이러한 각각의 구성에 있어서, 스피커의 다양한 물리적 배열이 가능하지만, 일반적으로 최상의 결과는 렌더링 지오메트리가 기록된 채널들을 믹싱하고 마스터하는 오디오 엔지니어에 의해 추정된 지오메트리와 유사한 경우에 실현될 것이다.

각종의 렌더링 환경 및 지오메트리가 믹싱 엔지니어의 예측을 넘어서까지 가능하고, 동일 콘텐츠가 다양한 청취 구성 또는 환경에서 재생될 수 있기 때문에, 서라운드 사운드 구성의 다양성은 충실한 청취 경험을 전달하고자 하는 엔지니어 또는 아티스트에게 많은 난제(challenge)를 제시한다. "채널 기반" 또는 (더 최근의) "객체 기반" 접근법 중 어느 하나가 서라운드 사운드 청취 경험을 전달하기 위해 사용될 수 있다.

채널 기반 접근법에 있어서, 각 채널은 그 채널이 대응하는 스피커에서 재생 중에 렌더링되어야 한다는 의도를 갖고서 기록된다. 의도된 스피커의 물리적 배열은 미리 결정되거나 또는 적어도 믹싱 중에 이와 근사적으로 취해진다. 이와 대조적으로 객체 기반 접근법에서는, 복수의 독립적 오디오 객체가 개별적으로 기록되고, 저장되고, 전송되어 채널들의 동기적 관계(synchronous relationship)를 보전하지만, 의도된 재생 스피커 또는 환경의 구성 또는 지오메트리에 대한 임의의 추정에는 독립적이다. 오디오 객체의 예로는 단일 악기, 단일의 뮤지컬 음성으로서 생각되는 비올라 섹션과 같은 합주 섹션, 사람의 목소리, 또는 사운드 효과가 있다. 공간적 관계(spatial relationship)를 보전하기 위해, 오디오 객체를 표현하는 디지털 데이터는 각각의 객체마다 특정 음원과 연관된 정보를 기호화하는 소정 데이터("메타데이터")를 포함한다. 즉, 예를 들면 음원의 벡터 방향, 근접성, 소리 강도, 모션 및 범위가 기호적으로 인코딩될 수 있고(바람직하게는 시간 변화가 가능한 방식으로), 이 정보는 특정 사운드 신호와 함께 전송 또는 기록된다. 독립 음원 파형과 관련 메타데이터의 조합은 (오디오 객체 파일로서 저장된) 오디오 객체를 포함한다. 이 접근법은 많은 상이한 구성에서 융통성 있게 렌더링될 수 있다는 장점이 있지만, 재생 스피커 및 환경의 지오메트리 및 구성에 기초하여 적당한 믹싱을 계산하기 위해 렌더링 프로세서("엔진")에 부담을 준다.

오디오에 대한 채널 기반 및 객체 기반 접근법들 둘 다에 있어서, 2개의 독립 채널(또는 객체 A 및 B)이 재생 중에 분리("업믹싱")되는 방식으로, 다운믹싱된 신호(A+B)를 전송하는 것이 자주 바람직하다. 다운믹싱을 전송하고자 하는 하나의 동기는 하위 호환성(backward compatibility)을 유지할 것이고, 따라서 다운믹싱된 프로그램이 모노럴로, 종래의 2채널 스테레오로, 또는 (더 일반적으로) 기록 프로그램의 채널 또는 객체의 수보다 더 적은 수의 스피커를 가진 시스템에서 재생될 수 있다. 더 많은 수의 복수의 채널 또는 객체를 복구하기 위해, 업믹싱 처리를 사용한다. 예를 들어서 만일 신호 A와 B의 합(A+B) C를 전송하고 또한 B를 전송하면, 수신기는 A((A+B-B)=A)를 쉽게 구성할 수 있다. 대안적으로, 복합 신호 (A+B) 및 (A-B)를 전송하고, 그 다음에 상기 전송된 복합 신호의 선형 조합을 취함으로써 A와 B를 복구할 수 있다. 많은 종래의 시스템은 이 "매트릭스 믹싱" 접근법의 변형을 이용한다. 이 접근법은 이산(discrete) 채널들 또는 객체들을 복구함에 있어서 어느 정도 성공적이다. 그러나 많은 수의 채널 또는 특히 객체들이 합쳐지면, 아티팩트 또는 비실용적으로 높은 대역폭 요건 없이 개별적인 이산 객체 또는 채널을 적절하게 재현하는 것이 곤란해진다. 객체 기반 오디오는 종종 매우 많은 수의 독립 오디오 객체를 수반하기 때문에, 다운믹싱된 신호로부터 이산 객체들을 복구하기 위한 효과적인 업믹싱에 있어서, 특히 데이터율(또는 더 일반적으로 대역폭)이 제약된 경우에, 큰 어려움이 수반된다.

디지털 오디오의 전송 또는 기록을 위한 대부분의 실용적인 시스템에 있어서, 일부 데이터 압축 방법이 매우 바람직할 것이다. 데이터율은 항상 소정의 제약을 받고, 오디오를 더 효율적으로 전송하는 것이 항상 요구된다. 이러한 고려사항은 다수의 채널이 이산 채널로서 또는 업믹싱된 것으로서 사용될 때 점차 중요해지고 있다. 본 명세서에서, 용어 "압축"은 그 결과가 데이터율 축소이든 파일 크기 축소이든간에 오디오 신호를 전송 또는 기록하기 위한 데이터 요건을 축소시키는 방법을 말한다. (이 정의는 여기에서와 관계가 없는 다른 오디오 환경에서 가끔 "압축"이라고 또한 부르는 동적 범위 압축과 혼동하지 않아야 한다).

다운믹싱된 신호를 압축하는 종래의 접근법은 일반적으로 2개의 방법, 즉 무손실 코딩과 용장성 디스크립션(redundant description) 중의 하나를 채용한다. 둘 다 압축해제 후에 업믹싱을 촉진할 수 있지만 단점을 갖는다.

무손실 및 손실 코딩:

A, B₁, B₂,...,B_m이 코드 스트림으로 인코딩되고 렌더러(renderer)에 전송되는 독립 신호(객체)라고 가정한다. 구별된 객체 A는 베이스 객체(base object)라고 부르고, B= B₁, B₂,...,B_m은 정규 객체(regular object)라고 부를 것이다. 객체 기반 오디오 시스템에 있어서는, 예를 들면 각 객체가 상이한 공간 위치에서 렌더링될 수 있도록 객체를 동시에 그러나 독립적으로 렌더링하는 것에 관심이 있다. 하위 호환성이 바람직하다. 다시 말하면, 코딩된 스트림이 객체 기반형도 객체 인식형(object-aware)도 아닌 레가시 시스템, 또는 더 적은 수의 채널이 가능한 레가시 시스템에 의해 해석 가능한 것을 요구한다. 이러한 시스템은 C의 인코딩(압축) 버전 E(C)로부터 복합 객체 또는 채널 C= A + B ₁ + B ₂ +...+ B _m 만을 렌더링할 수 있다. 그러므로, 코드 스트림이 전송 대상의 E(C)를 포함하고, 그 다음에 레가시 시스템에 의해 무시되는 개별 객체의 디스크립션을 포함할 것을 요구한다. 따라서, 코드 스트림은 E(C) 및 그 다음에 정규 객체의 디스크립션 E(B₁), E(B₂),..., E(B_m)으로 구성될 수 있다. 그 다음에 베이스 객체 A가 이러한 디스크립션을 디코딩하고 A= C - B₁ - B₂ -... - B_m을 설정함으로써 복구된다. 그러나 실제로 사용되는 대부분의 오디오 코덱은 손실성인데, 이것은 코딩된 객체 E(X)의 디코딩된 버전 Q(X) = D(E(X))가 X의 근사값일 뿐이고, 따라서 반드시 X와 동일할 필요가 없다는 것을 의미한다. 근사값의 정확도는 일반적으로 코덱의 선택 및 코드 스트림에 이용 가능한 대역폭(또는 저장 공간)에 의존한다. 비록 무손실 인코딩이 가능하지만(즉, Q(X)=X), 이것은 통상적으로 손실 인코딩보다 훨씬 더 큰 대역폭 또는 저장 공간을 요구한다. 반면에, 후자, 즉 손실 인코딩은 원래의 것으로부터 지각적으로 구별할 수 없는 고품질 재현을 여전히 제공할 수 있다.

용장성 디스크립션

대안적인 접근법은 코드 스트림에서 소정의 특권화된 객체(privileged object) A의 명시적 인코딩을 포함하는 것이고, 따라서 E(C), E(A), E(B₁), E(B₂),..., E(B_m)으로 구성된다. E가 손실성이라고 가정하면, 이 접근법은 무손실 인코딩을 이용하는 것보다 더 경제적이겠지만, 여전히 대역폭의 효율적인 사용이 아니다. 이 접근법은 E(C)가 개별적으로 인코딩된 객체 E(A), E(B₁), E(B₂),..., E(B_m)과 명백히 상관되기 때문에 용장성이다.

다운믹싱된 신호를 포함한 복수의 트랙 및 객체를 가진 다운믹싱된 복합 신호의 손실성 압축 및 전송은 업믹싱 아티팩트를 감소시키면서 용장성 전송 또는 무손실 압축에 비하여 비트율 요건을 감소시키는 방식으로 달성된다. 압축된 잔차 신호는 압축된 총 믹싱 및 적어도 하나의 압축된 오디오 객체와 함께 발생되고 전송된다. 수신 및 업믹싱 양태에 있어서, 본 발명은 다운믹싱된 신호 및 다른 압축된 객체를 압축해제(decompress)하고, 근사 업믹싱 신호를 계산하고, 압축해제된 잔차 신호를 차감함으로써 업믹싱으로부터 도출된 특정 베이스 신호를 보정한다. 따라서, 본 발명은 통신 채널을 통해 전송하기 위해(또는 저장하기 위해) 손실성 압축이 다운믹싱된 오디오 신호와 함께 사용될 수 있게 한다. 나중의 수신 및 업믹싱시에, 추가적인 베이스 신호가 다중 객체 능력을 제공하는 가능한 시스템에서 복구 가능하다(한편, 레가시 시스템은 업믹싱 없이 총 믹싱을 쉽게 디코딩할 수 있다). 본 발명의 방법 및 장치는 a) 오디오 압축 및 다운믹싱 양태 및 b) 오디오 압축해제/업믹싱 양태를 둘 다 갖고, 여기에서 압축은 비트율 축소(또는 파일 크기 축소) 방법을 표현하는 것으로 이해하여야 하고, 다운믹싱은 채널 또는 객체 수의 감소를 표현하며, 한편 업믹싱은 이전에 다운믹싱된 채널 또는 객체를 복구 및 분리함으로써 채널 수의 증가를 표현한다.

압축해제 및 업믹싱 양태에 있어서, 본 발명은 압축 및 다운믹싱된 복합 오디오 신호를 압축해제 및 업믹싱하는 방법을 포함한다. 이 방법은 총 믹싱 신호(C)의 압축 표현물, 객체 신호의 각 집합({Bi})의 압축 표현물의 집합(이 집합은 적어도 하나의 구성원을 가짐), 및 잔차 신호(Δ)의 압축 표현물을 수신하는 단계와; 각각의 근사 총 믹싱 신호(C'), 근사 객체 신호의 집합({Bi'}) 및 재구성된 잔차 신호(Δ')를 획득하기 위해 총 믹싱 신호(C)의 압축 표현물을 압축해제하고 객체 신호의 집합({Bi}) 및 잔차 신호(Δ)의 압축 표현물을 압축해제하는 단계와; 베이스 신호(R)의 근사값(R')을 획득하기 위해 근사 총 믹싱 신호(C')와 근사 객체 신호의 전(全) 집합({Bi'})을 차감 방식으로 믹싱하는 단계와; 보정된 베이스 신호(A")를 산출하기 위해 상기 재구성된 잔차 신호(Δ')를 기준 신호(R)의 근사값(R')과 차감 방식으로 믹싱하는 단계를 포함한다. 양호한 실시형태에 있어서, C의 압축 표현물 중의 적어도 하나와 적어도 하나의 Bi는 손실성 압축 방법에 의해 준비된다.

압축 및 다운믹싱 양태에 있어서, 본 발명은 적어도 하나의 객체 신호의 집합({Bi})과 믹싱된 베이스 신호(A)를 포함한 총 믹싱 신호(C), 적어도 하나의 객체 신호의 집합({Bi})(이 집합은 적어도 하나의 구성원 Bi를 가짐), 및 베이스 신호(A)를 포함한 복합 오디오 신호를 압축하는 방법에 있어서, 압축된 총 믹싱 신호(E(C)) 및 압축된 객체 신호의 집합(E({Bi}))을 생성하기 위해 손실성 압축 방법으로 상기 총 믹싱 신호(C) 및 적어도 하나의 객체 신호의 집합({Bi})을 각각 압축하는 단계와; 재구성된 신호 Q(C) 및 재구성된 객체 신호의 집합(Q({Bi}))을 획득하기 위해 상기 압축된 총 믹싱 신호(E(C)) 및 상기 압축된 객체 신호의 집합(E({Bi}))을 압축해제하는 단계와; 근사 베이스 신호(Q'(A))를 생성하기 위해 상기 재구성된 신호(Q(C))와 상기 객체 신호의 전 집합(Q({Bi}))을 차감 방식으로 믹싱하는 단계와; 잔차 신호(Δ)를 산출하기 위해 근사 베이스 신호로부터 기준 신호를 차감하고, 그런 후, 압축된 잔차 신호(Ec(Δ))를 획득하기 위해 상기 잔차 신호(Δ)를 압축하는 단계를 포함한 복합 오디오 신호 압축 방법을 포함한다. 상기 압축된 총 믹싱 신호(E(C)), (적어도 하나의) 압축된 객체 신호의 집합(E({Bi})) 및 상기 압축된 잔차 신호(Ec(Δ))는 바람직하게 전송(또는 등가적으로 저장 또는 기록)된다.

압축 및 다운믹싱 양태의 일 실시형태에 있어서, 기준 신호는 베이스 믹싱 신호(A)를 포함한다. 대안적인 실시형태에 있어서, 기준 신호는 압축 신호(E(A))를 형성하기 위해 손실성 방법으로 베이스 신호(A)를 압축하고 그 다음에 기준 신호(이것은 베이스 신호(A)의 근사값임)를 획득하기 위해 상기 압축 신호(E(A))를 압축해제함으로써 도출된 베이스 신호(A)의 근사값이다.

이 요약은 뒤의 상세한 설명 부분에서 더 구체적으로 설명하는 개념들의 선택을 간단한 형태로 소개하기 위해 제공된다. 이 요약은 청구된 주제의 핵심적인 특징 또는 본질적인 특징을 식별하기 위한 것으로 의도되지 않고, 또한 특허 청구 범위를 제한하기 위해 사용되는 것으로 의도되지 않는다. 본원에서 사용되는 바와 같이, 문맥상 명백히 다른 방식으로 요구하지 않는 한, 용어 "집합"은 적어도 하나의 구성원을 가진 집합을 표현하기 위해 사용되고, 반드시 복수의 구성원을 갖는 것을 요구하지 않는다. 이러한 의미는 통상적으로 수학적 상황에서 사용되고 불명확성을 야기하지 않아야 한다. 본 발명의 이러한 및 다른 특징과 장점들은 첨부 도면과 함께하는 이하의 양호한 실시형태에 관한 상세한 설명으로부터 당업자에게 명백할 것이다.

도 1은 종래에 알려진, 하위 호환 방식으로 믹싱 오디오 신호를 포함한 복합 신호를 압축 및 전송하는 일반화 시스템을 보인 하이레벨 블록도이다.
도 2는 발명의 제1 실시형태에 따라 복합 오디오 신호를 압축하는 방법의 단계들을 보인 흐름도이다.
도 3은 발명의 압축해제 양태에 따른, 오디오 신호를 압축해제 및 업믹싱하는 방법의 단계들을 보인 흐름도이다.
도 4는 발명의 대안적 실시형태에 따른, 복합 오디오 신호를 압축하는 방법의 단계들을 보인 흐름도이다.
도 5는 도 2의 방법과 양립하는, 발명의 대안적 실시형태에 따라 복합 오디오 신호를 압축하는 장치의 개략적 블록도이다.
도 6은 도 4의 방법과 양립하는, 발명의 제1 실시형태에 따라 복합 오디오 신호를 압축하는 장치의 개략적 블록도이다.

여기에서 설명하는 방법은 신호를 처리하는 것, 특히 물리적 사운드를 표현하는 오디오 신호를 처리하는 것과 관련된다. 이 신호들은 디지털 전자 신호에 의해 표현될 수 있다. 이 설명에서, 개념을 예시하기 위해 연속적인 수학 공식이 도시되거나 설명될 수 있다. 그러나 일부 실시형태는 디지털 바이트 또는 워드의 시간 계열의 관계로 동작하고, 상기 바이트 또는 워드는 아날로그 신호 또는 (궁극적으로) 물리적 사운드의 이산 근사값을 형성한다는 것을 이해하여야 한다. 이산 디지털 신호는 주기적으로 샘플링되는 오디오 파형의 디지털 표현물에 대응한다. 실시형태에 있어서, 약 48,000개 샘플/초의 샘플링 속도를 사용할 수 있다. 96kHz와 같은 더 높은 샘플링 속도를 대안적으로 사용할 수 있다. 특수 응용의 요건을 만족시키기 위해 양자화 방식 및 비트 분해능이 선택될 수 있다. 여기에서 설명하는 기술 및 장치는 다수의 채널에 독립적으로 적용될 수 있다. 예를 들면, 여기에서 설명하는 기술 및 장치는 3개 이상의 채널을 가진 서라운드 오디오 시스템의 상황에서 사용될 수 있다.

여기에서 사용하는 용어 "디지털 오디오 신호" 또는 "오디오 신호"는 단지 수학적 추상화를 묘사하지 않고, 그 통상의 의미를 갖는 것 외에 기계 또는 장치에 의해 검출 가능한 비일시적인 물리적 매체로 구체화되거나 그러한 물리적 매체에 의해 운반되는 정보를 표현한다. 이 용어는 기록된 신호 또는 전송된 신호를 포함하고, 펄스 코드 변조(PCM)(이것으로 제한되는 것은 아님)를 비롯한 임의의 인코딩 형태로의 운반을 포함하는 것으로 이해하여야 한다. 출력 또는 입력은 미국 특허 제5,974,380; 5,978,762; 및 6,487,535호에 설명되어 있는 바와 같이, MPEG, ATRAC, AC3, 또는 디티에스, 인코포레이티드(DTS, Inc.)의 독점적 방법을 포함한 각종의 공지 방법 중의 임의의 방법으로 인코딩 또는 압축될 수 있다. 특수한 압축 또는 인코딩 방법을 수용하기 위해 계산의 일부 수정이 수행될 수 있다.

개관

도 1은 본 발명이 동작하는 일반적인 환경을 하이레벨의 일반화로 보인 것이다. 종래 기술에서와 같이, 인코더(110)는 임의적으로 A, B라고 부르는 복수의 독립 오디오 신호를 수신하고, 상기 신호들을 믹서(120)에 의해 총 믹싱 신호 C(=A+B)로 다운믹싱하고, 다운믹싱된 신호를 압축기(130)로 압축하고, 그 다음에 상기 다운믹싱된 신호를 디코더(160)에서 상기 신호들의 적당한 근사값의 재구성을 가능하게 하는 방식으로 전송(또는 기록)한다. 비록 단지 하나의 신호(B)만이 (간편성을 위해) 도면에 도시되어 있지만, 본 발명은 복수의 독립 신호 또는 객체 B₁, B₂,...,B_m과 함께 사용될 수 있다. 유사하게, 이하의 설명에서 객체 B₁, B₂,...,B_m의 집합을 인용하지만, 객체들의 집합은 적어도 하나의 객체로 구성되고(즉, m>=1) 특정 수의 객체로 제한되지 않는다는 것을 이해하여야 한다.

인코더(110) 및 디코더(160) 외에, 도 1은 일반화된 전송 채널(150)을 도시하고 있고, 이 전송 채널(150)은 특히 비일시적 기계 판독가능 저장 매체에 기록하는 임의의 전송 또는 기록 또는 저장 매체 수단을 포함하는 것으로 이해하여야 한다. 발명과 관련해서, 및 더 일반적으로 통신 이론으로, 차후 재생과 결합된 기록 또는 저장은 정보 전송 또는 통신의 특수한 경우로 생각할 수 있고, 재현은 차후 시간에 및 선택적으로 다른 공간적 위치에서 일반적으로 코딩된 정보를 수신 및 디코딩하는 것에 대응하는 것으로 이해된다. 따라서, 용어 "전송"은 저장 매체에 기록하는 것을 나타내고; "수신"은 저장 매체로부터 판독하는 것을 나타내며; "채널"은 매체 상의 정보 저장을 포함할 수 있다.

신호가 신호들(A, B, C) 사이에 동기 관계를 유지 및 보전하기 위해 다중화 형태로 전송 채널을 통해 전송되는 것은 중요하다. 멀티플렉서 및 디멀티플렉서는 업계에 알려진 비트 패킹 및 데이터 포맷팅 방법의 조합을 포함할 수 있다. 전송 채널도 또한 (예를 들면) OSI 층 모델에서 설명되어 있는 바와 같이 채널 또는 물리적 층에 적당할 때 오차 보정, 패리티 체크 또는 다른 기술과 같은 정보 코딩 또는 처리의 다른 층들을 포함할 수 있다.

도시된 것처럼, 디코더는 압축 및 다운믹싱된 오디오 신호들을 수신하고, 상기 신호들을 역다중화하고, 업믹싱의 수용 가능한 재구성이 복수의 독립 신호(또는 오디오 객체)를 재현하게 하는 발명적 방법으로 상기 신호들을 압축해제한다. 신호들은 그 다음에 원래 신호들을 (가능한 한 근사값에 가깝게) 복구하도록 바람직하게 업믹싱된다.

동작 이론

A, B₁, B₂,...,B_m이 코드 스트림으로 인코딩되고 렌더러에 전송된 독립 신호(객체)라고 가정한다. 구별된 객체 A는 베이스 객체라고 부르고, B= B₁, B₂,...,B_m은 정규 객체라고 부를 것이다. 본 발명은 객체 B₁, B₂,...,B_m의 집합을 인용하지만, 객체들의 집합은 적어도 하나의 객체(즉, m>=1)를 포함하고, 특정 수의 객체로 제한되지 않는다는 것을 이해하여야 한다. 객체 기반 오디오 시스템에 있어서, 본 발명은 예를 들면 각 객체가 다른 공간 위치에서 렌더링될 수 있도록 객체를 동시에 그러나 독립적으로 렌더링하는 것에 관심이 있다.

하위 호환성을 위하여, 본 발명은 코딩된 스트림이 객체 기반형도 객체 인식형도 아닌 레가시 시스템에 의해 해석 가능할 것을 요구한다. 이러한 시스템은 C의 인코딩된 버전(E(C))으로부터 복합 객체 C= A + B₁ + B₂ +...+ B_m 만을 렌더링할 수 있다. 그러므로, 전송된 코드 스트림이 E(C)를 포함하고, 그 다음에 레가시 시스템에 의해 무시되는 개별 객체의 디스크립션을 포함할 것을 요구한다. 종래의 방법에 있어서, 코드 스트림은 E(C) 및 그 다음에 정규 객체의 디스크립션 E(B₁), E(B₂),..., E(B_m)으로 구성될 것이다. 그 다음에 베이스 객체(A)가 이러한 디스크립션을 디코딩하고 A= C - B₁ - B₂ -... - B_m을 설정함으로써 복구된다. 그러나 실제로 사용되는 대부분의 오디오 코덱은 손실성이고, 이것은 코딩된 객체(E(X))의 디코딩된 버전 Q(X) = D(E(X))가 X의 근사값일 뿐이고, 반드시 X와 동일할 필요가 없다는 것을 의미한다. 근사값의 정확도는 일반적으로 코덱 {E, D}의 선택 및 코드 스트림에 이용 가능한 대역폭(또는 저장 공간)에 의존한다.

그러므로, 손실성 인코더를 사용할 때, 디코더는 객체 C, B₁, B₂..., B_m에 액세스하지 않고 근사값 버전 Q(C), Q(B₁), Q(B₂),..., Q(B_m)에 액세스할 것이며, 다음과 같이 A를 추정할 수 있을 뿐이다.

Q'(A) = Q(C) - Q(B₁) - Q(B₂) -...- Q(B_m)

이러한 근사값은 개별 손실성 인코딩시에 오차의 누적을 받을 것이다. 이것은 실제로 불쾌하게 인지되는 아티팩트를 가끔 야기할 것이다. 특히 Q'(A)는 Q(A)보다 A의 크게 악화된 근사값일 수 있고, 그 아티팩트는 Q(A)의 경우가 아닌 다른 객체에 통계적으로 상관될 수 있다. 실제로, 잔차 C-B1-B2 등은 (손실성 압축을 위해) B1+B2+...에 가청가능하게 상관될 것이다. 인간의 귀는 검출하기 어려운 상관성을 알고리즘적으로 픽업할 수 있다.

발명에 따르면, 종래의 접근법과 관련하여 언급한 일부 용장성이 회피되고, A의 수용 가능한 재구성이 여전히 허용된다. 코드 스트림에 (용장성 신호인) Q(A)를 포함하는 대신에, 본 발명은 인코딩 E_c(Δ)를 포함시키고, 여기에서 Δ는 하기와 같은 잔차 신호이며,

Δ = Q'(A) - A

E_c는 (E와 반드시 동일할 필요가 없는) Δ에 대한 손실성 인코더이다. D_c를 E_c에 대한 디코더로 하고, R(Δ) = D_c(E_c(Δ))로 한다. 디코더 측에서 A의 근사값은 하기와 같이 획득된다.

Q_c(A) = Q'(A) - R(Δ)

제1 실시형태의 방법

1. 인코더

위에서 수학적으로 설명한 인코딩 방법은 도 2에 도시된 것처럼 일련의 동작으로서 절차적으로 설명할 수 있다. 전술한 바와 같이, 적어도 하나의 구별된 객체 A는 베이스 객체라고 부르고, B ₁ , B ₂ ,...,B _m 은 정규 객체라고 부를 것이다. 간결하게 하기 위해, 본 발명은 이하에서 정규 객체를 집합적으로 B로서 인용할 것이고, 모든(적어도 하나의) 정규 객체 B ₁ , B ₂ ,...,B _m 의 집합은 {Bi}로서 칭할 수 있다는 것을 이해하여야 한다. 이와 대조적으로, B = B₁, B₂,...,B_m은 정규 객체 B ₁ , B ₂ ,...,B _m 의 믹싱(mix)을 표현한다. 방법은 믹싱 신호 C=A+B로 시작한다. A+B의 믹싱은 예비 단계로서 행하여질 수 있고, 또는 신호들이 미리 믹싱된 상태로 제공될 수 있다. 신호 A가 또한 필요하다. 즉 A는 별도로 수신될 수 있고, 또는 C로부터 B를 차감함으로써 재구성될 수 있다. (적어도 하나의) 정규 객체의 집합({Bi})도 또한 필요하고, 뒤에서 설명하는 것처럼 인코더에 의해 사용된다.

먼저, 인코더는 손실성 인코딩 방법을 이용하여 신호 A, {Bi} 및 C를 개별적으로 압축하여 E(A), {E(Bi)} 및 E(C)로 각각 표시되는 대응하는 압축 신호를 획득한다(단계 210). ({E(Bi)의 표기}는 신호들의 집합 {Bi}에 속하는 각각의 원래 객체에 각각 대응하는 인코딩된 객체들의 집합을 표시하고, 각 객체 신호는 E에 의해 개별적으로 인코딩된다). 인코더는 그 다음에 C와 {Bi}를 압축할 때 사용한 것과 상보되는 방법에 의해 E(C)와 {E(Bi)}를 압축해제하여 재구성된 신호 Q(C)와 {Q(Bi)}를 산출한다. 이 신호들은 원래의 C 및 {Bi}에 근사화한다(이들이 손실성 압축/압축해제 방법을 이용하여 압축되고 그 다음에 압축해제되었기 때문에 차이가 있다). {Q(Bi)}는 그 다음에 차감 믹싱 단계 230에 의해 Q(C)로부터 차감되어, 손실성 코딩 및 그 다음의 믹싱에서 도입된 오차만큼 A와 차이가 있는, 원래 A의 근사값인, 수정된 업믹싱 신호 Q'{A}를 산출한다. 다음에, 신호 A(기준 신호)는 제2 믹싱 단계 240에서 상기 수정된 업믹싱 신호 Q'{A}로부터 차감되어 잔차 신호 Δ=Q'(A)-A를 획득한다(단계 130). 잔차 신호(Δ)는 그 다음에 본 발명에서 Ec라고 칭하는 압축 방법에 의해 압축된다(단계 250). 여기에서 Ec는 (A, {Bi} 또는 C를 압축하기 위해 단계 210에서 사용한) E와 반드시 동일한 압축 방법 또는 디바이스일 필요는 없다. 바람직하게, 대역폭 요건을 줄이기 위해, Ec는 Δ의 특성들을 정합시키기 위해 선택한 Δ의 손실성 인코더이어야 한다. 그러나 대역폭이 덜 최적화된 대안적인 실시형태에 있어서, Ec는 무손실 압축 방법일 수 있다.

전술한 방법은 연속적인 압축 및 압축해제 단계 210 및 220을 필요로 한다는 점에 주목한다(신호 {Bi} 및 C에 적용된 것처럼). 이들 단계에서 및 후술하는 대안적인 방법에서, 연산 복잡성 및 시간은 압축(및 압축해제)의 손실성 부분만을 수행함으로써 일부 경우에 감소될 수 있다. 예를 들면, 미국 특허 제5,974,380호에 설명되어 있는 DTS 코덱과 같은 많은 손실성 압축해제 방법은 손실성 단계(부대역으로의 필터링, 비트 할당, 부대역에서의 재양자화) 및 그 다음에 무손실 단계(코드북 적용, 엔트로피 축소) 둘 다의 연속적 적용을 필요로 한다. 그러한 예에서는 인코딩 및 디코딩 둘 다에서 무손실 단계를 생략하고 단지 손실성 단계만을 수행하는 것으로 충분하다. 재구성된 신호는 손실성 전송의 모든 효과들을 여전히 나타내지만, 많은 연산 단계들이 절감된다.

인코더는 그 다음에 R=Ec(Δ), E(C) 및 {E(Bi)}를 전송한다(단계 260). 바람직하게, 인코딩 방법은 전송 또는 기록을 위해 3개의 신호를 다중화 패키지로 다중화 또는 리포맷팅하는 선택적 단계를 또한 포함한다. 일부 수단이 개별적이지만 관련이 있는 3개의 신호들의 시간적 동기화를 보전 또는 재구성하기 위해 사용되는 경우에는 임의의 공지된 다중화 방법을 이용할 수 있다. 3개의 신호 모두에 대하여 다른 양자화 방식을 사용할 수 있고, 대역폭이 상기 신호들 간에 분배될 수 있다는 점을 염두에 두어야 한다. (몇 가지만 예를 들자면) MP3, AAC, WMA 또는 DTS를 비롯한, 손실성 오디오 압축에 대한 많은 공지된 방법 중의 임의의 방법을 E에 대하여 사용할 수 있다.

이 접근법은 적어도 하기의 장점들을 제공한다. 첫째로, "오차" 신호(Δ)는 원래의 객체보다 더 작은 파워 및 엔트로피를 가질 것으로 예상된다. A에 비하여 감소된 파워를 갖는 경우, 오차 신호(Δ)는 객체 A보다 더 적은 수의 비트로 인코딩될 수 있고, 이것은 재구성에 도움을 준다. 그러므로 제안된 접근법은 (배경기술 설명 부분에서) 전술한 용장성 디스크립션 방법보다 더 경제적인 것으로 기대된다. 둘째로, 인코더(E)는 임의의 오디오 인코더(예를 들면, MP3, AAC, WMA 등)일 수 있고, 특히 인코더는 양호한 실시형태에 있어서 심리음향(psychoacoustic) 원리를 이용하는 손실성 인코더일 수 있다는 점에 주목한다. (대응하는 디코더도 물론 대응하는 손실성 디코더일 것이다). 셋째로, 인코더(E_c)는 표준 오디오 인코더일 필요가 없고, 표준 오디오 신호가 아닌 신호(Δ)에 대하여 최적화될 수 있다. 사실, E_c의 설계 및 최적화에 있어서의 지각적 고려사항은 표준 오디오 코덱의 설계에서와 다를 것이다. 예를 들면, 지각 오디오 코덱(perceptual audio codec)은 신호의 모든 부분에서 SNR을 최대화하는 것을 항상 추구하지는 않고, 그 대신에 더 "일정한" 순시 SNR 제도(regime)가 가끔 추구되고, 이 경우 신호가 더 강할 때 더 큰 오차가 허용된다. 사실, 이것은 Q'(A)에서 발견되는 B_i로부터 야기되는 아티팩트의 주요 소스이다. E_c에 의해, 본 발명은 이러한 아티팩트를 가능한 한 많이 제거하는 것을 추구하고, 그래서 정확한(straight) 순시 SNR 최대화가 이 경우에 더 적당할 것이다.

본 발명에 따른 디코딩 방법은 도 3에 도시되어 있다. 예비적인 선택 단계(300)로서, 디코더는 Ec(Δ), {E(Bi)} 및 E(C)를 복구하기 위해 데이터 스트림을 수신 및 역다중화해야 한다. 첫째로, 디코더는 압축 데이터 스트림(또는 파일) Ec(Δ), {E(Bi)} 및 E(C)를 수신한다(단계 310). 다음에, 디코더는 각각의 데이터 스트림(또는 파일) Ec(Δ), {E(Bi)} 및 E(C)를 압축해제하여 재구성된 표현물 {Q(Bi)}, Q(C) 및 Rc(Δ)=Dc(Ec(Δ))를 획득하고, 여기에서 Dc는 압축 방법(Ec)의 역인 압축해제 방법이고, {E(Bi)} 및 E(C)에 대한 압축해제 방법은 {Bi} 및 C에 대하여 사용된 압축 방법에 상보적인 것이다. 신호 Q(C)와 {Q(Bi)}는 차감 방식으로 믹싱되어(단계 330) Q'(A) = Q(C)-ΣQ(Bi)를 복구한다. 이 신호 Q'(A)는 손실성 코덱 방법에 의해 전송된 Q(C)와 {Q(Bi)}의 차감 믹싱으로부터 재구성되었기 때문에 원래 A와 차이가 있는 A의 근사값이다. 본 발명의 디코딩 및 업믹싱 방법에 있어서, 근사값 신호 Q'(A)는 그 다음에 Qc(A)=Q'(A)-R(Δ)를 획득하도록 재구성된 잔차 R(Δ)를 차감함으로써(단계 340) 개선된다. 그 후, 복구된 복제 신호 Qc(A), Q(C), {Q(Bi)}가 재현될 수 있고, 또는 업믹싱(A, {Bi})으로서 재현하기 위해 출력될 수 있다(단계 350). 다운믹싱 신호 Q(C)가 또한 더 적은 수의 채널을 가진 시스템에 대한 출력으로(또는 고객 제어 또는 선호도에 기초한 선택으로서) 이용할 수 있다.

본 발명의 방법은 일부 용장성 데이터의 전송을 요구하는 것으로 예상된다. 그러나 본 발명 방법의 파일 크기(또는 비트율 요건)는 a) 모든 채널에 대하여 무손실 코딩을 사용하거나, b) 손실성 코딩된 객체 + 손실성 코딩된 업믹싱의 용장성 디스크립션을 전송하기 위해 필요한 것보다 더 작다. 하나의 실험에서, 본 발명의 방법은 베이스 채널(A)과 함께 (단일 객체(B)에 대한) 업믹싱 A+B를 전송하기 위해 사용되었다. 그 결과를 표 1에 나타내었다. 용장성 디스크립션(종래 기술) 방법은 믹싱을 전송하기 위해 309KB를 요구하는 반면, 본 발명의 방법은 동일한 정보(플러스 다중화를 위한 어떤 최소 오버헤드 및 헤더 필드)에 대하여 단지 251KB만을 요구할 것이다. 이 실험은 압축 방법의 추가의 최적화에 의해 획득되는 개선의 제한을 나타내지 않는다.

방법의 대안적인 실시형태에 있어서, 도 4에 도시된 바와 같이, 인코딩 방법은 잔차 신호(Δ)가 Q'(A)=D(E(C))-ΣD(E(Bi))와 (A 대신에) Q(A) 간의 차로부터 도출된다는 점에서 차이가 있다. 이 실시형태는 A의 재구성이 B와 C의 재구성과 근사적으로 동일한 품질에 도달하기 위해 요구되고 기대되는 응용에서 특히 적당하다(A의 더 높은 충실도의 재구성을 얻으려고 애쓸 필요가 없다). 이것은 종종 오디오 엔터테인먼트 시스템에서의 경우이다.

대안적인 실시형태에서, Q'(A)는 a) C 다운믹싱의 인코딩되고난 후의 디코딩된 버전과, b) 손실성 인코딩된 베이스 믹싱 B를 디코딩함으로써 재현되는 재구성된 베이스 객체 {Q(Bi)} 간의 차를 취함으로써 재현된 신호인 점에 주목한다.

이제, 도 4를 참조하면, 대안적인 방법으로서, 인코더는 신호 A, {Bi} 및 C를 손실성 인코딩 방법을 이용하여 개별적으로 압축하여 E(A), {E(Bi)} 및 E(C)로 표시되는 3개의 대응하는 압축 신호를 각각 획득한다(단계 410). 그 다음에, 인코더는 A의 근사값인(A가 손실성 압축/압축해제 방법을 이용하여 압축되고 그 다음에 압축해제되었기 때문에 차이가 있다) Q(A)를 산출하는 A를 압축하기 위해 사용된 것과 상보적인 방법에 의해 E(A)를 압축해제한다(단계 420). 그 다음에, 대안적인 방법은 C와 {Bi}를 인코딩할 때 사용한 것과 상보적인 각 방법에 의해 E(C) 및 {E(Bi)} 둘 다를 압축해제한다(단계 430). 결과적인 재구성된 신호 Q(C)와 {Q(Bi)}는 손실성 인코딩 및 디코딩 방법에 의해 도입된 불완전성 때문에 차이가 있는 원래 {Bi} 및 C에 대한 근사값들이다. 대안적인 방법은 그 다음에 단계 440에서 Q(C)로부터 ΣQ(Bi)를 차감하여 차이 신호 Q'(A)를 획득한다. Q'(A)는 전송된 다운믹싱에서 사용된 손실성 압축 때문에 차이가 있는 A의 다른 근사값이다. 잔차 신호(Δ)는 Q'(A)로부터 Q(A)를 차감함으로써 얻어진다(단계 450).

잔차 신호(Δ)는 그 다음에 단계 460에서 인코딩 방법 Ec(이것은 E와 다를 수 있음)에 의해 압축된다. 전술한 제1 실시형태에서와 같이, Ec는 바람직하게 잔차 신호의 특성에 적합한 손실성 코덱이다. 인코더는 그 다음에 동기 관계가 유지되는 전송 채널을 통하여 R=Ec(Δ), E(C) 및 {E(Bi)}를 전송한다(단계 470). 바람직하게, 인코딩 방법은 전송 또는 기록을 위해 3개의 신호를 다중화 패키지로 다중화 또는 리포맷팅하는 단계를 또한 포함한다. 일부 수단이, 개별적이지만 관련이 있는 3개의 신호들의 시간적 동기화를 보전 또는 재구성하기 위해 사용되는 경우에는 임의의 공지된 다중화 방법을 이용할 수 있다. 3개의 신호 모두에 대하여 다른 양자화 방식을 사용할 수 있고, 대역폭이 상기 신호들 간에 분배될 수 있다는 점을 염두에 두어야 한다. (몇 가지만 예를 들자면) MP3, AAC, WMA 또는 DTS를 비롯한, 많은 공지된 오디오 압축 방법 중의 임의의 방법을 E에 대하여 사용할 수 있다.

대안적인 인코딩 방법에 의해 인코딩된 신호들은 도 3과 관련하여 위에서 설명한 것과 동일한 디코딩 방법에 의해 디코딩될 수 있다. 디코더는 재구성된 잔차 신호를 차감하여 업믹싱 신호 Q(A)의 근사값을 개선하고, 이것에 의해 재구성된 복제 신호(Q(A))와 원래 신호(A) 간의 차이를 감소시킨다. 본 발명의 양 실시형태들은 특권화된 객체 A를 추출하기 위해 신호를 디코딩 및 업믹싱한 후에 예상되는 차를 표현하는 잔차 또는 오차 신호(Δ)를 인코더에서 발생하는 일반론에 의해 단일화된다. 오차 신호(Δ)는 양 실시형태들에서 압축 및 전송(또는 등가적으로 기록 또는 저장)된다. 양 실시형태들에 있어서, 디코더는 압축 오차 신호(Δ)를 압축해제하고, 이것을 특권화된 객체 A에 근사하는 재구성된 업믹싱 신호로부터 차감한다.

대안적인 실시형태의 방법은 소정 응용에서 일부 지각적 장점들을 가질 수 있다. 실제로 대안예들 중에서 어느 것이 바람직한지는 시스템의 특정 파라미터 및 특유의 최적화 목적에 의존할 수 있다.

다른 양태에 있어서, 본 발명은 도 5에 도시된 바와 같이 믹싱된 오디오 신호를 압축 또는 인코딩하는 장치를 포함한다. 장치의 제1 실시형태에 있어서, 신호 C(=A+B 객체 믹싱)와 B가 각각 입력(510, 512)에 제공된다. 신호 C는 인코더(520)에 의해 인코딩되어 인코딩된 신호 E(C)를 생성하고; 신호 {Bi}는 인코더(530)에 의해 인코딩되어 제2 인코딩된 신호 {E(Bi)}를 생성한다. E(C)와 {E(Bi)}는 그 다음에 디코더(540, 550)에 의해 각각 디코딩되어 재구성된 신호 Q(C)와 {Q(Bi)}를 산출한다. 재구성된 신호 Q(C)와 {Q(Bi)}는 믹서(560)에서 차감 방식으로 믹싱되어 차이 신호 Q'(A)를 산출한다. 이 차이 신호는 재구성된 총 믹싱 Q(C) 및 재구성된 객체 {Q(Bi)}로부터 믹싱에 의해 얻어진다는 점에서 원래 신호(A)와 다르고; 아티팩트 또는 오차는 인코더(520)가 손실성 인코더이고 신호가 차감(믹서(560)에서)에 의해 도출되기 때문에 도입된다. 그 다음에, 상기 재구성된 신호 Q'(A)가 (참조번호 570에 입력되는) 신호 A로부터 차감되고 그 차(Δ)가 양호한 실시형태에서 압축기(520)와 다른 방법으로 동작하는 제2 인코더(580)에 의해 압축되어 압축된 잔차 신호 Ec(Δ)를 생성한다.

도 6에 도시된 인코더 장치의 대안적인 실시형태에 있어서, 신호 C(=A+B 객체 믹싱)와 B가 각각 입력(510, 512)에 제공된다. 신호 C는 인코더(520)에 의해 인코딩되어 인코딩된 신호 E(C)를 생성하고; 신호 {Bi}는 인코더(530)에 의해 인코딩되어 제2 인코딩된 신호 E(B)를 생성한다. E(C)와 {E(Bi)}는 그 다음에 디코더(540, 550)에 의해 각각 디코딩되어 재구성된 신호 Q(C)와 {Q(Bi)}를 산출한다. 재구성된 신호 Q(C)와 Q(B)는 믹서(560)에서 차감 방식으로 믹싱되어 차이 신호 Q'(A)를 산출한다. 이 차이 신호는 재구성된 총 믹싱 Q(C) 및 재구성된 객체 {Q(Bi)}로부터 믹싱에 의해 얻어진다는 점에서 원래 신호(A)와 다르고; 아티팩트 또는 오차는 인코더(520)가 손실성 인코더이고 신호가 차감(믹서(560)에서)에 의해 도출되기 때문에 도입된다. 따라서 대안적인 실시형태는 제1 실시형태와 유사하다.

장치의 대안적인 실시형태에 있어서, 입력(570)에서 수신된 신호 A는 인코더(572)(이것은 손실성 인코더(520, 530)와 동일할 수 있거나 또는 동일한 원리로 동작할 수 있음)에 의해 인코딩되고, 그 다음에 참조번호 572의 인코딩된 출력은 다시 상보적 디코더(574)에 의해 디코딩되어, 인코더(572)의 손실 특성 때문에 A와 차이가 있는 재구성된 근사값 Q(A)를 생성한다. 재구성된 신호 Q(A)는 그 다음에 믹서(560)에서 Q'(A)로부터 차감되고, 결과적인 잔차 신호가 제2 인코더(580)에 의해 (손실성 인코더(520, 530)에서 사용된 것과는 다른 방법으로) 인코딩된다. 출력 E(C), {E(Bi)} 및 E(Δ)는 그 다음에 바람직하게 일부 다중화된 형태로 또는 동기화를 허용하는 임의의 다른 방법으로 전송 또는 기록을 위해 이용할 수 있다.

제1 또는 대안적인 방법 또는 인코딩 장치(도 6)에 의해 인코딩된 콘텐츠는 도 3의 디코더에 의해 디코딩될 수 있다는 것은 명백하다. 디코더는 압축된 오차 신호를 요구하지만, 오차를 계산하는 방식에 민감할 필요가 없다. 이것은 디코더 설계를 변경하지 않고 코덱에서의 추가 개선의 여지를 남긴다.

여기에서 설명한 방법은 범용 컴퓨터, 디지털 오디오 워크스테이션, DVD 또는 BD 플레이어, TV 튜너, CD 플레이어, 핸드헬드 플레이어, 인터넷 오디오/비디오 장치, 게이밍 콘솔, 이동 전화기, 헤드폰 등과 같은 소비자 전자장치에서 구현될 수 있다. 소비자 전자장치는 IBM 파워PC, 인텔 펜티엄(x86) 프로세서 등과 같은 하나 이상 유형의 프로세서를 대표할 수 있는 중앙 처리 장치(CPU)를 포함할 수 있다. 랜덤 액세스 메모리(RAM)는 CPU에 의해 수행된 데이터 처리 동작의 결과를 일시적으로 저장하고, CPU는 전형적으로 전용 메모리 채널을 통해 RAM에 상호접속될 수 있다. 소비자 전자장치는 I/O 버스를 통해 CPU와 또한 통신할 수 있는 하드 드라이브와 같은 영구 저장장치를 또한 포함할 수 있다. 테이프 드라이브 또는 광디스크 드라이브와 같은 다른 유형의 저장장치가 또한 접속될 수 있다. 그래픽 카드가 또한 비디오 버스를 통해 CPU에 접속되고, 디스플레이 데이터를 대표하는 신호를 디스플레이 모니터에 전송할 수 있다. 키보드 또는 마우스와 같은 외부 주변 데이터 입력 장치가 USB 포트를 통해 오디오 재생 시스템에 접속될 수 있다. USB 제어기는 USB 포트에 접속된 외부 주변장치의 CPU로/로부터 데이터 및 명령어를 변환할 수 있다. 프린터, 마이크로폰, 스피커, 헤드폰 등과 같은 추가의 장치들이 소비자 전자장치에 접속될 수 있다.

소비자 전자장치는 워싱턴 레드몬드에 소재하는 마이크로소프트 코퍼레이션으로부터의 윈도즈(WINDOWS), 캘리포니아 쿠퍼티노에 소재하는 애플 인크(Apple, Inc.)로부터의 MAC OS, 안드로이드와 같은 모바일 운영체제용으로 설계된 모바일 그래픽 사용자 인터페이스(GUI)의 각종 버전 등과 같은 GUI를 구비한 운영체제를 이용할 수 있다. 소비자 전자장치는 하나 이상의 컴퓨터 프로그램을 실행할 수 있다. 일반적으로, 운영체제 및 컴퓨터 프로그램은 비일시적 컴퓨터 판독가능 매체, 예를 들면, 하드 드라이브를 포함한 하나 이상의 고정형 및/또는 분리형 데이터 저장장치에서 유형체로 구체화된다. 운영체제와 컴퓨터 프로그램은 둘 다 CPU에서 실행하기 위해 전술한 데이터 저장장치로부터 RAM으로 로드될 수 있다. 컴퓨터 프로그램은 CPU에 의해 판독되어 실행될 때 CPU가 여기에서 설명한 실시형태의 단계 또는 특징들을 실행하는 단계들을 수행하게 하는 명령어들을 포함할 수 있다.

여기에서 설명한 실시형태는 많은 다른 구성 및 구조를 가질 수 있다. 그러한 임의의 구성 또는 구조는 쉽게 대체될 수 있다. 당업자라면 전술한 순서들이 컴퓨터 판독가능 매체에서 가장 보편적으로 사용되는 것이지만 대체 가능한 다른 기존의 순서들이 있다는 것을 이해할 것이다.

일 실시형태의 요소들은 하드웨어, 펌웨어, 소프트웨어 또는 이들의 임의 조합으로 구현될 수 있다. 하드웨어로 구현될 때, 여기에서 설명한 실시형태들은 하나의 오디오 신호 프로세서에서 사용되거나, 또는 각종 처리 컴포넌트들 사이에 분산될 수 있다. 소프트웨어로 구현될 때, 실시형태의 요소들은 필요한 태스크를 수행하기 위한 코드 세그멘트를 포함할 수 있다. 소프트웨어는 일 실시형태에서 설명한 동작을 수행하기 위한 실제 코드, 또는 동작을 에뮬레이트 또는 시뮬레이트하는 코드를 포함할 수 있다. 프로그램 또는 코드 세그멘트는 프로세서 또는 기계 접근가능 매체에 저장되거나, 또는 반송파로 구체화된 컴퓨터 데이터 신호, 또는 반송파에 의해 변조된 신호에 의해 전송 매체를 통해 전송될 수 있다. 프로세서 판독가능 또는 접근가능 매체 또는 기계 판독가능 또는 접근가능 매체는 정보를 저장, 전송 또는 전달할 수 있는 임의의 매체를 포함할 수 있다. 이와 대조적으로, 컴퓨터 판독가능 저장 매체 또는 비일시적 컴퓨터 스토리지는 물리적 컴퓨팅 머신 저장장치를 포함하지만 신호는 포함하지 않는다.

프로세서 판독가능 매체의 예로는 전자 회로, 반도체 메모리 장치, 읽기 전용 메모리(ROM), 플래시 메모리, 소거형 ROM(EROM), 플로피 디스켓, 콤팩트 디스크(CD) ROM, 광디스크, 하드디스크, 광섬유 매체, 무선 주파수(RF) 링크 등이 있다. 컴퓨터 데이터 신호는 전자 네트워크 채널, 광섬유, 공기, 전자기, RF 링크 등과 같은 전송 매체를 통해 전파할 수 있는 임의의 신호를 포함할 수 있다. 코드 세그멘트는 인터넷, 인트라넷 등과 같은 컴퓨터 네트워크를 통해 다운로드될 수 있다. 기계 접근가능 매체는 기계에 의해 접근된 때 기계가 이하에서 설명하는 동작을 수행하게 하는 데이터를 포함할 수 있다. 용어 "데이터"는 그 통상의 의미를 갖는 것 외에도 기계 판독가능 목적으로 인코딩된 임의 유형이 정보를 말한다. 그러므로, 데이터는 프로그램, 코드, 파일 등을 포함할 수 있다.

각종 실시형태의 전부 또는 일부는 디지털 논리 회로를 포함한 하드웨어 프로세서와 같은 기계에서 실행하는 소프트웨어에 의해 구현될 수 있다. 소프트웨어는 서로 결합된 수 개의 모듈을 가질 수 있다. 하드웨어 프로세서는 프로그램 가능한 디지털 마이크로프로세서, 또는 프로그램 가능한 특수 디지털 신호 프로세서(DSP), 필드 프로그래머블 게이트 어레이, ASIC 또는 다른 디지털 프로세서일 수 있다. 일 실시형태에 있어서, 예를 들면 (인코더 양태 또는 디코더 양태의) 본 발명에 따른 방법의 모든 단계들은 소프트웨어 제어하에 모든 단계들을 순차적으로 실행하는 하나 이상의 프로그래머블 디지털 컴퓨터에 의해 적절히 수행될 수 있다. 소프트웨어 모듈은 변수, 파라미터, 독립변수, 포인터 등을 수신하기 위해 및/또는 결과, 갱신된 변수, 포인터 등을 발생 또는 통과시키기 위해 다른 모듈에 결합될 수 있다. 소프트웨어 모듈은 또한 플랫폼에서 동작하는 운영체제와 상호작용하는 소프트웨어 드라이버 또는 인터페이스일 수 있다. 소프트웨어 모듈은 또한 하드웨어 장치로/로부터 데이터를 구성, 설정, 초기화, 전송 또는 수신하는 하드웨어 드라이버를 포함할 수 있다.

각종 실시형태는 플로챠트, 흐름도, 구조도 또는 블록도로서 묘사될 수 있는 하나 이상의 프로세스로서 설명될 수 있다. 비록 블록도가 순차적 프로세스로서 동작을 설명하지만, 많은 동작들은 병렬로 또는 동시에 수행될 수 있다. 또한, 동작들의 순서는 재배열될 수 있다. 프로세스는 그 동작이 완료된 때 종료된다. 프로세스는 방법, 프로그램, 절차 등에 대응할 수 있다.

이 명세서 전반에 걸쳐서, 신호를 가산, 차감 또는 "차감 방식으로 믹싱하는" 것에 대하여 자주 인용하였다. 신호들은 동일한 결과를 갖는 각종 방법으로 믹싱될 수 있다는 것을 쉽게 이해할 것이다. 예를 들면, 임의의 신호 F를 G로부터 차감(G-F)하기 위해서는 차분 입력을 이용하여 직접 차감할 수도 있고, 또는 신호들 중 하나를 등가적으로 반전시킨 다음에 가산할 수도 있다(예: G+(-F)). 다른 등가적인 동작을 생각할 수 있고, 그중 일부는 위상 편이의 도입을 포함한다. "차감" 또는 "차감 방식으로 믹싱하는"과 같은 용어는 그러한 등가적인 변형예를 포함하는 것으로 의도된다. 유사하게, 신호 가산의 변형적 방법이 가능하고 "믹싱"으로서 생각된다.

비록 본 발명의 몇 가지 예시적인 실시형태를 도시하고 설명하였지만, 당업자에게는 많은 변형예 및 대안적인 실시형태가 가능할 것이다. 그러한 변형예 및 대안적인 실시형태는 첨부된 특허 청구범위에서 규정하는 발명의 정신 및 범위로부터 벗어남이 없이 생각하고 만들어질 수 있다.

Claims

압축되고 다운믹싱된(downmixed) 복합 오디오 신호를 압축해제하고 업믹싱(upmixing)하는 방법에 있어서,
총 믹싱(total mix) 신호(C)의 압축된 표현(E(C)), 잔차(residual) 신호(Δ)의 압축된 표현(E_C(Δ)), 및 각 오디오 객체 신호들({Bi})의 압축된 표현들의 집합({E(Bi)}) -
상기 총 믹싱 신호(C)의 압축된 표현(E(C))은 오디오 객체 신호들의 집합({Bi})과 믹싱되어 있는 베이스 신호(A)를 포함하는 총 믹싱 신호(C)의 압축된 표현(E(C))이고,
오디오 객체 신호들({Bi})의 압축된 표현들의 집합({E(Bi)})은 대응하는 객체 신호(Bi)의 적어도 하나의 압축된 표현을 포함하고,
상기 압축된 표현들(E(C), {E(Bi)}, 및 E_C(Δ))은 손실성 압축 방법에 의해 준비됨 - 을 수신하는 단계와;
근사(approximate) 총 믹싱 신호(Q(C))를 획득하기 위해 상기 총 믹싱 신호(C)의 압축된 표현(E(C))을 압축해제하는 단계와;
재구성된 잔차 신호(R_C(Δ))를 획득하기 위해 상기 잔차 신호(Δ)의 압축된 표현(E_C(Δ))을 압축해제하는 단계와;
재구성된 객체 신호들의 집합({Q(Bi)}) - 상기 집합은 하나 이상의 재구성된 객체 신호들(Q(Bi))을 구성원으로서 가짐 - 을 획득하기 위해 상기 오디오 객체 신호들({Bi})의 압축된 표현들의 집합({E(Bi)})을 압축해제하는 단계와;
상기 베이스 신호(A)의 제1 근사값(Q'(A))을 획득하기 위해 상기 근사 총 믹싱 신호(Q(C))와 재구성된 객체 신호들의 완전(complete) 집합({Q(Bi)})을 차감 믹싱(subtractively mixing)하는 단계와;
상기 베이스 신호(A)의 개선된 근사값(Q_C(A))을 획득하기 위해 상기 재구성된 잔차 신호(R_C(Δ))를 상기 베이스 신호(A)의 제1 근사값(Q'(A))과 차감 믹싱하는 단계
를 포함하는 복합 오디오 신호 압축해제 및 업믹싱 방법.
제1항에 있어서, 상기 오디오 객체 신호들의 압축된 표현들의 집합({E(Bi)})은 대응하는 오디오 객체 신호의 하나의 압축된 표현을 포함한 것인 복합 오디오 신호 압축해제 및 업믹싱 방법.
삭제
제1항에 있어서, 상기 잔차 신호(Δ)의 압축된 표현(E_C(Δ))은, 차이(difference)를 표현하는 잔차 신호(Δ)를 획득하기 위해 베이스 신호(A)의 재구성된 근사값(Q'(A))과 기준 신호(R)를 차감 믹싱하고, 상기 잔차 신호(Δ)를 압축함으로써 준비된 것인 복합 오디오 신호 압축해제 및 업믹싱 방법.
제1항에 있어서, 정정된 베이스 신호(Q'(A)), 재구성된 객체 신호들({Q(Bi)}), 및 상기 근사 총 믹싱 신호(Q(C)) 중의 적어도 하나가 사운드로서 재현되게 하는 단계를 더 포함하는 복합 오디오 신호 압축해제 및 업믹싱 방법.
제1항에 있어서, 각 오디오 객체 신호({Bi})의 상기 압축된 표현들의 집합({E(Bi)})을 압축해제하는 단계는 복수의 재구성된 객체 신호들({Q(Bi)}) 각각을 획득하기 위해 복수의 압축된 표현을 압축해제하는 단계를 포함하고,
상기 근사 총 믹싱 신호(Q(C))와 상기 재구성된 객체 신호들의 완전 집합({Q(Bi)})을 차감 믹싱하는 단계는 상기 베이스 신호(A)의 제1 근사값(Q'(A))을 획득하기 위해 완전한 복수의 재구성된 객체 신호들({Q(Bi)})을 상기 근사 총 믹싱 신호(Q(C))로부터 차감하는 단계를 포함한 것인 복합 오디오 신호 압축해제 및 업믹싱 방법.
제6항에 있어서, 상기 잔차 신호(Δ)의 압축된 표현(E_C(Δ))은, 차이를 표현하는 잔차 신호(Δ)를 획득하기 위해 상기 베이스 신호(A)의 상기 제1 근사값(Q'(A))과 기준 신호(R)를 차감 믹싱하고, 상기 잔차 신호(Δ)를 압축함으로써 준비된 것인 복합 오디오 신호 압축해제 및 업믹싱 방법.
오디오 객체 신호들의 집합({Bi})과 믹싱된 베이스 신호(A)를 포함한 총 믹싱 신호(C), 적어도 하나의 구성원 객체 신호(Bi)를 가진 적어도 하나의 오디오 객체 신호들의 집합({Bi}), 및 베이스 신호(A)를 포함한 복합 오디오 신호를 압축하는 방법에 있어서,
압축된 총 믹싱 신호(E(C)) 및 압축된 객체 신호들의 집합(E({Bi}))을 생성하기 위해 손실성 압축 방법에 의해 상기 총 믹싱 신호(C) 및 상기 오디오 객체 신호들의 완전 집합({Bi})을 각각 압축하는 단계와;
재구성된 신호(Q(C)) 및 적어도 하나의 재구성된 객체 신호들의 집합(Q({Bi}))을 획득하기 위해 상기 압축된 총 믹싱 신호(E(C)) 및 상기 압축된 객체 신호들의 집합(E({Bi}))을 압축해제하는 단계와;
근사 베이스 신호(Q'(A))를 생성하기 위해 상기 재구성된 신호(Q(C))와 상기 재구성된 객체 신호들의 집합(Q({Bi}))의 완전 믹싱을 차감 믹싱하는 단계와;
잔차 신호(Δ)를 산출하기 위해 상기 근사 베이스 신호(Q'(A))로부터 기준 신호를 차감하는 단계와;
압축된 잔차 신호(Ec(Δ))를 획득하기 위해 손실성 압축 방법에 의해 상기 잔차 신호(Δ)를 압축하는 단계
를 포함하는 복합 오디오 신호 압축 방법.
제8항에 있어서, 상기 적어도 하나의 객체 신호들의 집합({Bi})은 하나의 객체 신호만을 포함한 것인 복합 오디오 신호 압축 방법.
제9항에 있어서, 상기 압축된 총 믹싱 신호(E(C)), 상기 압축된 객체 신호(E({Bi})) 및 상기 압축된 잔차 신호(E(Δ))를 포함한 복합 신호를 전송하는 단계를 더 포함하는 복합 오디오 신호 압축 방법.
제9항에 있어서, 상기 기준 신호는 상기 베이스 신호(A)를 포함한 것인 복합 오디오 신호 압축 방법.
제9항에 있어서, 상기 잔차 신호를 압축하는 단계는 상기 총 믹싱 신호(C)를 압축할 때 사용된 방법과는 상이한 방법에 의해 상기 잔차 신호를 압축하는 단계를 포함한 것인 복합 오디오 신호 압축 방법.
제8항에 있어서, 상기 적어도 하나의 객체 신호들의 집합({Bi})은 복수의 객체 신호들을 포함한 것인 복합 오디오 신호 압축 방법.
제13항에 있어서, 상기 기준 신호는 상기 베이스 신호(A)를 포함한 것인 복합 오디오 신호 압축 방법.
제13항에 있어서, 상기 잔차 신호를 압축하는 단계는 상기 총 믹싱 신호(C)를 압축하기 위해 사용된 방법과는 상이한 방법에 의해 상기 잔차 신호를 압축하는 단계를 포함한 것인 복합 오디오 신호 압축 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제