KR102291792B1

KR102291792B1 - 적어도 2개의 채널들을 다운믹싱하기 위한 다운믹서 및 방법 및 멀티채널 인코더 및 멀티채널 디코더

Info

Publication number: KR102291792B1
Application number: KR1020197016213A
Authority: KR
Inventors: 크리스티안 보르스; 베른트 에들러; 기욤 퓨크스; 잔 뷔테; 사샤 디쉬; 플로린 히도; 스테판 바이어; 마르쿠스 물트루스
Original assignee: 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date: 2016-11-08
Filing date: 2017-10-30
Publication date: 2021-08-20
Also published as: JP2021060610A; CA3045847A1; PL3539127T3; JP6817433B2; AU2017357452B2; CN110419079B; ZA201903536B; MX2019005214A; JP2019537057A; US11183196B2; US20220068284A1; WO2018086946A1; US20190272833A1; JP7210530B2; US20200243096A1; TWI665660B; CA3045847C; US10665246B2; AU2017357452A1; CN110419079A

Abstract

2개 이상의 채널들을 갖는 멀티채널 신호(12)의 상기 적어도 2개의 채널들을 다운믹싱하기 위한 다운믹서에 있어서, 상기 적어도 2개의 채널들로부터 부분 다운믹스 신호(14)를 계산하기 위한 프로세서(10); 상기 멀티채널 신호(12)로부터 상보 신호를 계산하기 위한 상보 신호 계산기(20) - 상기 상보 신호(22)는 상기 부분 다운믹스 신호(14)와 상이함 -; 및 상기 멀티채널 신호의 다운믹스 신호(40)를 획득하도록 상기 부분 다운믹스 신호(14)와 상기 상보 신호(22)를 가산하기 위한 가산기(30)를 포함한다.

Description

적어도 2개의 채널들을 다운믹싱하기 위한 다운믹서 및 방법 및 멀티채널 인코더 및 멀티채널 디코더

본 발명은 오디오 프로세싱(audio processing)에 관한 것으로, 특히 2개 이상의 오디오 채널들(channels)을 포함하는 멀티채널 오디오 신호들의 프로세싱에 관한 것이다.

채널들의 수를 감소시키는 것은 낮은 비트율(bit-rates)로 멀티채널 코딩(multichannel coding)을 달성하는데 필수적이다. 예를 들어, 파라메트릭 스테레오 코딩 방식(parametric stereo coding schemes)은 좌측 및 우측 입력 채널들로부터 적절한 모노 다운믹스(appropriate mono downmix)를 기초한다. 그렇게 획득된 모노 신호는 파라메트릭 형태의 청각적 장면(auditory scene)을 기술하는 부가 정보(side-information)와 함께 모노 코덱(mono codec)에 의해 인코딩(encoded)되고 전송되어야 한다. 부가 정보는 대개 주파수 부대역(frequency sub-band) 당 여러 개의 공간 파라미터들로 구성된다. 예를 들면 다음을 포함할 수 있다:

● 채널들 사이의 레벨차(또는 균형)를 측정하는 채널 간 레벨차(ILD: Inter-channel Level Difference).

● 채널들 사이의 시간차 또는 위상차를 각각 기술하는 채널 간 시간차(ITD: Inter-channel Time Difference) 또는 채널 간 위상차(IPD: Inter-channel Phase Difference).

그러나, 다운믹스 프로세싱은 바람직하지 못한 품질 저하를 초래하는 채널 간 위상 오정렬로 인한 신호 제거 및 컬러레이션(coloration)을 야기하기 쉽다. 예를 들어, 채널들이 코히어런트(coherent)하고 위상이 일치하지 않음(out-of-phase)에 가깝다면, 다운믹스 신호(downmix signal)는 빗살 필터(comb-filter)의 특성과 같은 인지 가능한 스펙트럼 바이어스(perceivable spectral bias)를 나타낼 수 있다.

다운믹스 동작은 좌측 및 우측 채널들의 합에 의해 단순히 시간 영역에서 수행될 수 있으며, 다음과 같이 표현된다

,

여기서,

및

은 좌측 및 우측 채널들이고,

은 시간 지수(time index)이고,

및

은 믹싱을 결정하는 가중치이다. 가중치가 시간이 지남에 따라 일정하면, 우리는 수동적인 다운믹스에 대해 말한다. 그것은 입력 신호에 관계없이 단점을 가지며, 획득된 다운믹스 신호의 품질은 입력 신호 특성에 크게 의존한다. 시간이 지남에 따라 가중치를 적용하는 것은 이 문제를 어느 정도 감소시킬 수 있다.

그러나, 주요 이슈들을 해결하기 위해, 능동 다운믹스(active downmix)는 예를 들어 단기 푸리에 변환(STFT: Short-Term Fourier Transform)을 사용하여 주파수 영역에서 일반적으로 수행된다. 따라서, 가중치은 주파수 지수(frequency index) k 및 시간 지수 n에 의존하게 될 수 있고, 신호 특성에 더 잘 맞을 수 있다. 다운믹스 신호는 다음과 같이 표현된다.

여기서, M[k,n], L[k,n] 및 R[k,n] 은 각각 주파수 지수 k 및 시간 지수 n에서의 좌측 채널 및 우측 채널, 다운믹스 신호의 STFT 성분이다. 가중치

및

은 시간 및 주파수에서 적응적으로 조정될 수 있다. 이것은 빗살 필터 효과로 인한 스펙트럼 바이어스를 최소화하여 2개의 입력 채널들의 평균 에너지 또는 진폭을 보존하는 것을 목표로 한다.

능동 다운믹싱(active downmixing)에 대한 가장 직접적인 방법(straightforward method)은 다운믹스 신호의 에너지를 균등화(equalize)하여 각 주파수 빈(frequency bin) 또는 부대역에 대해 2개의 입력 채널들의 평균 에너지를 산출하는 것이다[1]. 도 7b에 도시된 다운믹스 신호는 다음과 같이 공식화될 수 있다:

여기서,

이러한 직접적인 해결책은 몇 가지 단점이 있다. 첫째, 다운믹스 신호는 2개의 채널들이 동일한 진폭의 위상 반전된 시간-주파수 성분(ILD = 0db 및 IPD = pi)을 가질 때 정의되지 않는다. 이 특이성(singularity)은 이 경우 분모가 0이 된다. 이 경우, 간단한 능동 다운믹싱의 결과는 예측할 수 없다. 이 동작은 IPD의 함수로서 위상이 그려지는 다양한 채널 간 레벨차에 대해 도 7a에 도시되어 있다.

ILD=0dB의 경우, 2개의 채널들의 합은 pi 라디안(pi radian)의 단계를 초래하는 IPD=pi에서 불연속적이다. 다른 조건들에서, 위상은 모듈로(modulo) 2pi로 규칙적으로 그리고 지속적으로 진전(evolves)한다.

문제의 두 번째 성격은 그러한 에너지 균등화(energy-equalization)를 달성하기 위한 정규화 이득들(normalization gains)의 중요한 변동(variance)으로부터 온다. 실제로 정규화 이득들은 프레임 간 및 인접한 주파수 부대역들 사이에서 급격하게 변동할 수 있다. 이는 다운믹스 신호의 부자연스러운 컬러레이션을 초래하고 효과를 차단한다. STFT와 중첩-가산 방법을 위한 합성 윈도우의 사용은 프로세싱된 오디오 프레임들 사이의 전이(transition)가 부드럽게 된다. 그러나, 순차 프레임들 사이의 정규화 이득들의 큰 변화는 여전히 가청 전이 인공물(audible transition artefacts)이 이끌어 낼 수 있다. 더욱이, 이 획기적인 균등화는 블록 변환의 분석 윈도우의 주파수 응답 사이드 로브(frequency response side lobes)로부터의 앨리어싱(aliasing)으로 인한 가청 인공물을 이끌어 낼 수 있다.

대안으로서, 능동 다운믹스는 합 신호를 계산하기 전에 2개의 채널들의 위상 정렬을 수행하여 달성될 수 있다[2-4]. 2개의 채널들이 합산되기 전에 이미 동 위상이기 때문에, 새로운 합 신호에 대해 행해지는(done) 에너지 균등화는 제한된다. [2]에서, 좌측 채널의 위상은 2개의 채널을 위상을 맞추기 위한 기준으로 사용된다. 좌측 채널들의 위상들이 잘 정립되지 않으면(예를 들어, 제로 또는 낮은 레벨 잡음 채널), 다운믹스 신호는 직접 영향을 받는다. [3]에서, 이 중요한 이슈는 회전 전에 합 신호의 위상을 기준으로 취함으로써 해결된다. ILD=0dB 및 IPD=pi에서의 특이성 문제는 여전히 다루어지지 않는다. 이러한 이유를 위해, [4]는 이러한 경우에서 안정성을 향상시키기 위해 광대역 위상차 파라미터(broadband phase difference parameter)를 사용하여 접근법을 수정한다. 그럼에도 불구하고, 이러한 접근법 중 어느 것도 불안정과 관련된 문제의 두 번째 성격을 고려하지 않는다. 채널들의 위상 회전은 또한 입력 채널들의 부자연스러운 믹싱을 이끌어낼 수 있으며, 시간과 주파수에 따른 프로세싱에서 큰 변화가 발생할 때 심각한 불안정성 및 블록 효과를 유발할 수 있다.

마지막으로, [5]와 [6]과 같은 더 진화된 기술들이 있는데, 이는 다운믹싱 중 신호 제거가 2개의 채널들 사이에서 코히어런트한 시간-주파수 성분에서만 발생한다는 관측에 기반한다. [5]에서, 코히어런트 성분(coherent components)은 입력 채널들의 인코히어런트 부분(incoherent parts)을 합산하기 전에 필터링(filtered)된다. [6]에서, 위상 정렬은 채널들을 합산하기 전에 코히어런트 성분에 대해서만 계산된다. 또한, 위상 정렬은 안정성과 불연속성의 문제를 피하기 위해 시간과 주파수에 걸쳐 정규화된다. [5]에서 필터 계수가 모든 프레임에서 식별될 필요가 있고 [6]에서 채널들 사이의 공분산 행렬(covariance matrix)이 계산되어야 하므로 기술들 모두는 계산적으로 요구된다.

본 발명의 목적은 다운믹싱(downmixing) 또는 멀티채널 프로세싱에 대한 개선된 개념을 제공하는 것이다.

이 목적은 청구항 1의 다운믹서(downmixer), 청구항 13의 다운믹싱의 방법, 청구항 14의 멀티채널 인코더(Multichannel encoder), 청구항 15의 멀티채널 인코딩의 방법, 청구항 16의 오디오 프로세싱 시스템(Audio processing system), 청구항 17의 오디오 신호 프로세싱의 방법 또는 청구항 18의 컴퓨터 프로그램에 의해 달성된다.

본 발명은 2개 이상의 채널들을 갖는 멀티채널 신호(multichannel signal)의 적어도 2개의 채널들을 다운믹싱하기 위한 다운믹서가 적어도 2개의 채널들로부터 다운믹싱 신호를 계산하기 위한 적어도 2개의 채널들의 추가를 수행할 뿐만 아니라, 다운믹서는 멀티채널 신호로부터 상보 신호(complementary signal)를 계산하기 위한 상보 신호 계산기(complementary signal calculator)를 더 포함하며, 상보 신호는 부분 다운믹스 신호와 상이하다. 또한, 다운믹서는 멀티채널 신호의 다운믹스 신호를 획득하도록 부분 다운믹스 신호 및 상보 신호를 가산하기 위한 가산기(adder)를 포함한다. 부분 다운믹스 신호(partial downmix signal)와 상이한 상보 신호가 적어도 2개의 채널들의 특정 위상 배열(certain phase constellations)로 인해 발생할 수 있는 다운믹스 신호 내의 임의의 시간 영역 또는 스펙트럼 영역 홀들(time domain or spectral domain holes)을 채우기 때문에, 이 절차는 유리하다. 특히, 2개의 채널들이 위상이 일치할 때, 통상적으로 2개의 채널들을 함께 직접적으로 추가하는 것이 수행될 때 문제가 발생하지 않아야 한다. 그러나, 2개의 채널들이 위상이 일치하지 않을 때, 이들 2개의 채널들을 함께 가산하는 것은 매우 낮은 에너지의 신호가 제로 에너지에 도달하는 결과를 낳는다. 그러나, 상보 신호가 이제 부분 다운믹스 신호에 가산되므로, 최종적으로 획득된 다운믹스 신호는 여전히 상당한 에너지를 가지거나 적어도 심각한 에너지 변동(energy fluctuations)을 나타내지 않는다.

본 발명은 종래 다운믹싱에서 관찰되는 전형적인 신호 상쇄 및 불안정성을 최소화하기 위해 2개 이상의 채널들을 다운믹싱하기 위한 절차를 도입하기 때문에 유리하다.

더욱이, 실시예들은 멀티채널 다운믹싱으로부터의 일반적인 문제점들을 최소화할 잠재력을 갖는 낮은 복잡성 절차를 나타내기 때문에 유리하다.

바람직한 실시예들은 또한 입력 신호들로부터 유도(derived)되지만 부분 다운믹스 신호와 상이한 상보 신호와 믹싱된 합 신호의 제어된 에너지 또는 진폭-균등화에 의존한다. 합 신호의 에너지 균등화는 특이점(singularity point)에서의 문제들을 피하기 위해 제어되지만 또한 이득의 큰 변동으로 인한 심각한 신호 손상을 최소화하기 위해 제어된다. 바람직하게는, 상보 신호는 나머지 에너지 손실을 보상하거나 또는 이 나머지 에너지 손실의 적어도 일부분을 보상하기 위해 존재한다.

일 실시예에서, 프로세서(processor)는 적어도 2개의 채널들이 위상이 일치할 때, 적어도 2개의 채널들과 부분 다운믹스 채널 사이의 미리 정의된 에너지 관련 또는 진폭 관련 관계가 충족(fulfilled)되도록, 그리고 적어도 2개의 채널들이 위상이 일치하지 않을 때, 부분 다운믹스 신호에서 에너지 손실이 생성되도록 부분 다운믹스 신호를 계산하도록 구성된다. 이 실시예에서, 상보 신호 계산기는 부분 다운믹스 신호의 에너지 손실이 부분 다운믹스 신호 및 상보 신호를 함께 가산함으로써 부분적으로 또는 완전히 보상되도록 상보 신호를 계산하도록 구성된다.

일 실시예에서, 상보 신호 계산기는 상보 신호가 부분 다운믹스 신호에 대해 0.7의 코히어런스 지수(coherence index)를 갖도록 상보 신호를 계산하도록 구성되며, 0.0의 코히어런스 지수는 완전한 인코히어런스(full incoherence)를 나타내고 및 1의 코히어런스 지수는 완전한 코히어런스(full coherence)를 나타낸다. 따라서, 한편에서는 부분 다운믹스 신호 및 다른 한편에서는 상보 신호가 서로 충분히 상이하도록 확실히 한다.

바람직하게는, 다운믹싱은 종래의 수동 또는 능동 다운믹싱 접근법들에서 행해지는 것처럼 L+R과 같은 2개의 채널들의 합 신호를 생성한다. 이어서 W ₁로 불리는 이 합 신호에 적용된 이득들은 입력 채널들의 평균 에너지 또는 평균 진폭을 매칭시키기 위해 합 채널의 에너지를 균등화하는 것을 목표로 한다. 그러나, 종래의 능동 다운믹싱 접근법들과 달리, W ₁ 값들은 불안정성 문제들을 피하고 손상된 합 신호에 기초하여 에너지 관계가 복원되는 것을 피하기 위해 제한된다.

두 번째 믹싱은 상보적인 신호로 행해진다. 상보 신호는 L및 R이 위상이 맞지 않을 때 그 에너지가 사라지지 않도록 선택된다. 가중 인자들(weighting factors) W ₂는 W ₁값들로 도입된 제한으로 인하여 에너지 균등화를 보상한다.

바람직한 실시예들은 다음에 첨부된 도면들을 참조하여 이어서 설명된다.
도 1은 일 실시예에 따른 다운믹서의 블록도이다.
도 2a는 에너지 손실 보상 특징을 설명하기 위한 흐름도이다.
도 2b는 상보 신호 계산기의 일 실시예를 도시하는 블록도이다.
도 3은 스펙트럼 영역에서 동작하고 상이한 대안들 또는 누적 프로세싱 요소들에 연결된 가산기 출력을 갖는 다운믹서를 도시하는 개략적인 블록도이다.
도 4는 부분 다운믹스 신호를 프로세싱하기 위한 프로세서에 의해 구현된 바람직한 절차를 도시한다.
도 5는 일 실시예에 따른 멀티채널 인코더의 블록도를 도시한다.
도 6은 멀티채널 디코더의 블록도를 도시한다.
도 7a는 종래 기술에 따른 합 성분의 특이점을 도시한다.
도 7b는 도 7a의 종래 기술의 예시에서 다운믹스를 계산하기 위한 방정식들을 도시한다.
도 8a는 일 실시예에 따른 다운믹싱의 에너지 관계를 도시한다.
도 8b는 도 8a의 실시예에 대한 방정식들을 도시한다.
도 8c는 가중 인자들의 보다 조악한 주파수 분해능을 갖는 대안적인 방정식들을 도시한다.
도 8d는 도 8a의 실시예에 대한 다운믹스 단계를 도시한다.
도 9a는 다른 실시예에서 합 신호에 대한 이득 제한도를 도시한다.
도 9b는 도 9a의 실시예에 대한 다운믹스 신호 M을 계산하기 위한 방정식을 도시한다.
도 9c는 도 9a의 실시예의 합 신호의 계산을 위한 조작된 가중 인자를 계산하기 위한 조작 함수를 도시한다.
도 9d는 도 9a 내지 도 9c의 실시예에 대한 상보 신호 W ₂의 계산을 위한 가중 인자들의 계산을 도시한다.
도 9e는 도 9a 내지 도 9d의 다운믹싱의 에너지 관계를 도시한다.
도 9f는 도 9a 내지 도 9e의 실시예에 대한 이득 W ₂을 도시한다.
도 10a는 또 다른 실시예에 대한 다운믹스 에너지를 도시한다.
도 10b는 도 10a의 실시예에 대한 다운믹스 신호 및 제1 가중 인자 W ₁의 계산을 위한 방정식들을 도시한다.
도 10c는 도 10a 및 10b의 실시예에 대한 제2 또는 상보 신호 가중 인자들을 계산하기 위한 절차를 도시한다.
도 10d는 도 10c의 실시예의 파라미터들 p 및 q에 대한 방정식들을 도시한다.
도 10e는 도 10a 내지 도 10d에 도시된 실시예에 관한 다운믹싱의 ILD 및 IPD의 함수로서의 이득 W ₂를 도시한다.

도 1은 2개 이상의 채널들을 갖는 멀티채널 신호(12)의 적어도 2개의 채널들을 다운믹싱하기 위한 다운믹서를 도시한다. 특히, 멀티채널 신호는 좌측 채널 L 및 우측 채널 R을 갖는 스테레오 신호(stereo signal)일 수 있거나, 멀티채널 신호는 3개 또는 그 이상의 채널들을 가질 수 있다. 또한, 채널들은 오디오 객체를 포함하거나 오디오 객체로 구성될 수 있다. 다운믹서는 멀티채널 신호(12)로부터 적어도 2개의 채널들로부터 부분 다운믹스 신호(14)를 계산하기 위한 프로세서(10)를 포함한다. 또한, 다운믹서는 멀티채널 신호(12)로부터 상보 신호(complementary signal)를 계산하기 위한 상보 신호 계산기(20)를 포함하며, 블록(20)에 의해 출력된 상보 신호(22)는 블록(10)에 의해 출력된 부분 다운믹스 신호(14)와 상이하다. 또한, 다운믹서는 멀티채널 신호(12)의 다운믹스 신호(40)를 획득하도록 부분 다운믹스 신호와 상보 신호를 가산하기 위한 가산기(30)를 포함한다. 일반적으로, 다운믹스 신호(40)는 단지 단일 채널을 갖거나, 대안적으로, 하나 보다 많은 채널을 갖는다. 그러나, 일반적으로, 다운믹스 신호는 멀티채널 신호(12)에 포함되는 것보다 더 적은 채널을 갖는다. 따라서, 멀티채널 신호가 예를 들어 5개의 채널들을 갖는 경우, 다운믹스 신호는 4개의 채널들, 3개의 채널들, 2개의 채널들 또는 단일 채널을 가질 수 있다. 1개 또는 2개의 채널들을 갖는 다운믹스 신호는 2개 보다 많은 채널들을 갖는 다운믹스 신호보다 바람직하다. 멀티채널 신호(12)로서 2개의 채널 신호의 경우, 다운믹스 신호(40)는 단일 채널만을 갖는다.

일 실시예에서, 프로세서(10)는 부분 다운믹스 신호(14)를 계산하여, 적어도 2개의 채널들이 위상이 일치할 때, 부분 다운믹스 신호 및 적어도 2개의 채널들 사이에 미리 정의된 에너지 관련 또는 진폭 관련 관계(predefined energy-related or amplitude-related relation)가 충족(fulfilled)되고, 적어도 2개의 채널들이 위상이 일치하지 않을 때, 적어도 2개의 채널들에 관해 부분 다운믹스 신호에 에너지 손실이 생성되도록 구성된다. 미리 정의된 관계에 대한 예시들 및 실시예들은, 예를 들어 다운믹스 신호의 부대역에 관한 에너지들(subband-wise energies) 또는 입력 신호들의 진폭에 대한 특정 관계에 있는 다운믹스 신호의 진폭들은 입력 신호들의 에너지들에 대한 미리 정의된 관계에 있다는 것이다. 특히 흥미로운 관계 중 하나는, 전체 대역폭 또는 부대역(subband) 중 하나의 다운믹스 신호의 에너지가 2개의 다운믹스 신호들 또는 2개 보다 많은 다운믹스 신호들의 평균 에너지와 동일하다는 것이다. 따라서, 관계는 에너지 또는 진폭과 관련될 수 있다. 또한, 도 1의 상보 신호 계산기(20)는 상보 신호(22)를 계산하여 도 1에서 14로 나타낸 부분 다운믹스 신호의 에너지 손실이 도 1의 가산기(30)에서 상보 신호(22)와 부분 다운믹스 신호(14)를 가산함으로써 부분적으로 또는 완전히 보상되도록 구성하여 다운믹스 신호를 획득한다.

일반적으로, 실시예들은 입력 채널들로부터 또한 유도된 상보 신호와 믹싱된 합 신호의 제어된 에너지 또는 진폭 균등화(controlled energy or amplitude-equalization)에 기초한다.

실시예들은 입력 채널들로부터 유도된 상보 신호와 믹싱된 합 신호의 제어된 에너지 또는 진폭 균등화에 기초한다. 합 신호의 에너지 균등화는 특이점에서의 문제를 피하기 위해 제어되지만 이득의 큰 변동으로 인한 신호 손상들을 현저하게 최소화하기 위해 제어된다. 상보 신호는 잔여 에너지 손실 또는 그것의 적어도 일부를 보상하기 위한 것이다. 새로운 다운믹스의 일반적인 형태는 다음과 같이 표시될 수 있다

상보 신호 S[k,n]은 가능한 한 합 신호에 대해 이상적으로 직교해야 하지만 실제로는 다음과 같이 선택될 수 있다

또는

.

모든 경우들에서, 다운믹싱은 종래의 수동 및 능동 다운믹싱 접근법에서 행해지는 바와 같이 합 채널 L+R을 먼저 생성한다. 이득

은 입력 채널들의 평균 에너지 또는 평균 진폭을 매칭하기 위해 합 채널의 에너지를 균등화하는 것을 목표로 한다. 그러나, 종래의 능동 다운믹싱 접근법과 달리,

은 불안정성 문제를 피하고 손상된 합 신호에 기초하여 에너지 관계들이 복원되는 것을 피하기 위해 제한된다.

두 번째 믹싱은 상보 신호로 행해진다. 상보 신호는

및

이 위상이 맞지 않을 때 그 에너지가 사라지지 않도록 선택된다.

는

에 도입된 제한으로 인하여 에너지 균등화를 보상한다.

도시된 바와 같이, 상보 신호 계산기(20)는 상보 신호를 계산하여 상보 신호가 부분 다운믹스 신호와 상이하도록 구성된다. 수량에서, 부분 다운믹스 신호에 관하여 상보 신호의 코히어런스 지수(coherence index)가 0.7 보다 작은 것이 바람직하다. 이 척도에서, 0.0의 코히어런스 지수는 완전한 인코히어런스를 나타내고, 1.0의 코히어런스 지수는 완전한 코히어런스를 나타낸다. 따라서, 부분 다운믹스 신호와 상보 신호가 서로 충분히 상이하도록 0.7 보다 작은 코히어런스 지수가 유용하다는 것이 입증되었다. 그러나, 0.5 보다 작고 심지어 0.3 보다 작은 코히어런스 지수는 더 바람직하다.

도 2a는 프로세서에 의해 수행되는 절차를 도시한다. 특히, 도 2a의 아이템(item)(50)에 도시된 바와 같이, 프로세서는 프로세서로의 입력을 나타내는 적어도 2개의 채널들에 관한 에너지 손실을 갖는 부분 다운믹스 신호를 계산한다. 또한, 상보 신호 계산기(52)는 도 1의 상보 신호(22)를 계산하여 에너지 손실을 부분적으로 또는 완전히 보상한다.

도 2b에 도시된 일 실시예에서, 상보 신호 계산기는 상보 신호 선택기(complementary signal selector) 또는 상보 신호 결정기(complementary signal determiner)(23), 가중 인자 계산기(weighting factor calculator)(24) 및 가중기(weighter)(25)를 포함하여 최종적으로 상보 신호(22)를 획득한다. 특히, 상보 신호 선택기 또는 상보 신호 결정기(23)는, 상보 신호를 계산하기 위해, L과 같은 제1 채널, R과 같은 제2 채널, 도 2b의 표시된 L-R와 같이 제1 채널과 제2 채널 사이의 차(difference)로 구성된 신호들의 그룹 중 하나의 신호를 사용하도록 구성된다. 대안적으로, 차는 또한 R-L일 수 있다. 상보 신호 선택기(23)에 의해 사용되는 추가 신호는 멀티채널 신호의 추가 채널(further channel), 즉 부분 다운믹스 신호를 계산하기 위해 프로세서에 의해 선택되지 않은 채널일 수 있다. 이 채널은 예를 들어, 센터 채널(center channel), 또는 서라운드 채널(surround channel) 또는 객체를 포함하는 임의의 다른 추가 채널일 수 있다. 다른 실시예들에서, 상보 신호 선택기에 의해 사용된 신호는 프로세서(14)에 의해 계산된 바와 같이 역상관된(decorrelated) 제1 채널, 역상관된 제2 채널, 역상관된 추가 채널 또는 프로세서(14)에 의해 계산된 역상관된 부분 다운믹스 신호이다. 그러나, 바람직한 실시예에서 L과 같은 제1 채널 또는 R과 같은 제2 채널, 또는 더욱 바람직하게는 좌측 채널과 우측 채널 사이의 차 또는 우측 채널과 좌측 채널 사이의 차가 상보 신호를 계산하기에 바람직하다.

상보 신호 선택기(23)의 출력은 가중 인자 계산기(24)에 입력된다. 가중 인자 계산기는 프로세서(10)에 의해 결합될 2개 이상의 신호들을 추가로 통상적으로 수신하고, 가중 인자 계산기는 (26)에 도시된 가중치 W ₂를 계산한다. 상보 신호 선택기(23)에 의해 사용되고 결정된 신호와 함께 이들 가중치는 가중기(25)에 입력되고, 가중기는 블록(26)으로부터의 가중 인자들을 사용하여 블록(23)으로부터 출력된 대응하는 신호를 가중하여 최종적으로 상보 신호(22)를 획득한다.

가중 인자들은 단지 시간 종속적일 수 있으므로, 특정 블록 또는 프레임에 대해 단일 가중 인자 W ₂가 계산되도록 한다. 그러나, 다른 실시예들에서, 상보 신호의 특정 블록 또는 프레임에 대해, 이 시간 블록에 대한 단일 가중 인자가 이용 가능할 뿐만 아니라, 블록(23)에 의해 생성되거나 선택된 신호의 상이한 주파수 값들 또는 스펙트럼 빈들(spectral bins)의 세트에 대한 가중 인자들 W ₂의 세트를 이용 가능하도록 시간 및 주파수 종속 가중 인자들(frequency dependent weighting factors) W ₂을 사용하는 것이 바람직하다.

상보 신호 계산기(20)의 사용뿐만 아니라 프로세서(10)의 사용에 대한 시간 및 주파수 종속 가중 인자들에 대한 대응하는 실시예가 도 3에 도시된다.

특히, 도 3은 시간 영역 입력 채널들(time domain input channels)을 주파수 영역 입력 채널들(frequency domain input channels)로 변환하기 위한 시간-스펙트럼 변환된 60을 포함하는 바람직한 실시예의 다운믹서를 도시하며, 여기서 각 주파수 영역 입력 채널은 스펙트럼의 시퀀스를 갖는다. 각각의 스펙트럼은 개별 시간 지수 n을 가지며, 각 스펙트럼 내에서 특정 주파수 지수 k는 주파수 지수와 고유하게 연관된 주파수 성분을 지칭한다. 따라서, 일 실시예에서, 블록이 512개의 스펙트럼 값들을 갖는 경우, 주파수 k는 512개의 상이한 주파수 지수들의 각각을 고유하게 식별하기 위해 0으로부터 511로 진행한다.

시간-스펙트럼 변환기(time-spectrum converter)(60)는 블록(60)에 의해 획득된 스펙트럼들의 시퀀스가 입력 채널들의 오버랩핑 블록들(overlapping blocks)과 관련되도록 FFT 및 바람직하게는 오버랩핑 FFT(overlapping FFT)를 적용하도록 구성된다. 그러나, 논-오버랩핑 스펙트럼 변환 알고리즘 및 DCT 등과 같은 FFT 외에도 다른 변환이 또한 사용될 수 있다.

특히, 도 1의 프로세서(10)는 개별 스펙트럼 지수들 k에 대한 가중치들 W ₁ 또는 부대역들 b에 대한 가중 인자들 W ₁을 계산하기 위한 제1 가중 인자 계산기(15)를 포함하며, 여기서 부대역은 주파수에 관한 스펙트럼 값보다 더 넓고, 통상적으로 2개 이상의 스펙트럼 값들을 포함한다.

도 1의 상보 신호 계산기(20)는 가중 인자들 W ₂을 계산하는 제2 가중 인자 계산기를 포함한다. 따라서, 아이템(24)은 도 2b의 아이템(24)과 유사하게 구성될 수 있다.

또한, 부분 다운믹스 신호를 계산하는 도 1의 프로세서(10)는 가중 인자들 W ₁을 입력으로서 수신하고 가산기(30)로 전달된 부분 다운믹스 신호(14)를 출력하는 다운믹스 가중기(downmix weighter)(16)를 포함한다. 또한, 도 3에 도시된 실시예는 제2 가중 인자들 W ₂을 입력으로서 수신하는 도 2b와 관해 이미 설명된 가중기(25)를 부가적으로 포함한다.

가산기(30)는 다운믹스 신호(40)를 출력한다. 다운믹스(40)는 여러 다른 상황들에서 사용될 수 있다. 다운믹스 신호(40)를 사용하는 한가지 방식은 인코딩된 다운믹스 신호를 출력하는 도 3에 도시된 주파수 영역 다운믹스 인코더(64)에 입력하는 것이다. 대안적인 절차는 블록(62)의 출력에서 시간 영역 다운믹스 신호를 획득하기 위해 다운믹스 신호(40)의 주파수 영역 표시(frequency domain representation)를 스펙트럼-시간 변환기(62)에 삽입하는 것이다. 또 다른 실시예는 다운믹스 신호(40)를, 전송된 다운믹스 채널, 저장된 다운믹스 채널, 또는 어떤 종류의 균등화를 수행한 다운믹스 채널과 같은 일종의 프로세스 다운믹스 채널을 생성하는 추가 다운믹스 프로세서(further downmix processor)(66)로 다운믹스 신호(40)를 공급하는 것이다.

실시예들에서, 프로세서(10)는 적어도 2개의 채널들과 적어도 2개의 채널들의 합 신호 사이의 미리 결정된 에너지 또는 진폭 관계에 따라 적어도 2개의 채널들의 합을 가중하기 위해 도 3의 블록(15)에 의해 도시된 바와 같이 시간 또는 주파수 종속 가중 인자들(time or frequency-dependent weighting factors) W ₁을 계산하기 위해 구성된다. 또한, 도 4의 아이템(70)에 도시된 이 절차에 이어서, 프로세서는 도 4의 블록(72)에 표시된 바와 같이 미리 정의된 임계치와 특정 스펙트럼 부대역 b 및 특정 시간 지수 n, 또는 특정 주파수 지수 k 및 특정 시간 지수 n에 대한 계산된 가중 인자 W ₁를 비교하도록 구성된다. 이 비교는 각 스펙트럼 지수 k에 대해 또는 각 부대역 지수 b에 대해 또는 각 시간 지수 n에 대해 그리고 바람직하게는 하나의 스펙트럼 지수 k또는 b에 대해 및 각 시간 지수 n에 대해 바람직하게 수행된다. 계산된 가중 인자가 (73)에서 도시된 바와 같이 임계치 보다 아래와 같은 미리 정의된 임계치에 대한 제1 관계에 있을 때, 계산된 가중 인자 W ₁은 도 4의 (74)로 표시된 바와 같이 사용된다. 그러나, 계산된 가중 인자가 (75)로 나타낸 바와 같은 상기 임계치와 같이 미리 정해진 임계치에 대한 제1 관계와 상이한 미리 정해진 임계치에 대한 제2 관계에 있는 경우, 미리 정해진 임계치는 예를 들어 도 3의 블록(16)에서 부분 다운믹스 신호를 계산하기 위해 계산된 가중 인자 대신에 사용된다. 이것은 W ₁의 "하드(hard)" 제한이다. 다른 실시예들에서, 일종의 "소프트 제한(soft limitation)"이 형성된다. 이 실시예에서, 수정된 가중 인자(modified weighting factor)는 수정 함수(modification function)를 사용하여 유도되며, 수정 함수는 수정된 가중 인자가 계산된 가중 인자보다 미리 정해진 임계치에 더 가깝도록 한다.

도 8a 내지 도 8d의 실시예는 하드 제한을 사용하는 반면, 도 9a 내지 도 9f의 실시예 및 도 10a 내지 도 10e의 실시예는 소프트 제한, 즉 수정 함수를 사용한다.

또 다른 실시예에서, 도 4의 절차는 블록(70) 및 블록(76)에 관해 수행되지만, 블록(72)과 관련하여 설명된 바와 같은 임계치에 대한 비교는 수행되지 않는다. 블록(70)에서의 계산에 후속하여, 블록(76)의 상기 설명의 수정 함수를 사용하여 수정된 가중 인자가 유도되며, 수정 함수는 수정된 가중 인자가 미리 정의된 에너지 관계의 에너지 보다 더 작은 부분 다운믹스 신호의 에너지를 초래한다. 바람직하게는, 특정 비교없이 적용되는 수정 함수는 W ₁의 높은 값들에 대해 조작된 또는 수정된 가중 인자를 특정 제한으로 제한하거나 로그 또는 인 함수(log or ln function) 등과 같은 매우 작은 증가만을 가짐으로써 특정 값으로 제한되지는 않지만 더 이상 느린 증가만이 있기 때문에 앞서 논의된 안정성 문제들이 실질적으로 방지되거나 적어도 감소된다.

도 8a 내지 도 8d에 도시된 바람직한 실시예에서, 다운믹스는 다음에 의해 주어진다:

여기서

위의 방정식에서, A는 바람직하게는 2의 제곱근과 동등한 실수 값 상수(real valued constant)이지만, A는 0.5 또는 5 사이의 상이한 값들을 가질 수도 있다. 적용에 따라, 위에서 언급된 값들과 상이한 값들도 사용할 수 있다.

다음을 고려한다

,

및

은 항상 양이고,

은

또는 예를 들어 0.5에 제한된다.

믹싱 이득들은 이전 공식들에서 설명한 바와 같이 STFT의 각 지수 k에 대해 빈에 관해(bin-wise) 계산될 수 있거나, STFT의 지수들 b의 세트를 수집하는 각각의 논-오버랩핑 부대역에 대해 대역에 관해 계산될 수 있다. 이득들은 다음 방정식을 기반으로 계산된다:

균등화 동안 에너지 보존은 하드 제약이 아니기 때문에, 결과적인 다운믹스 신호의 에너지는 입력 채널의 평균 에너지와 비교하여 달라진다. 에너지 관계는 도 8a에 도시된 바와 같이 ILD 및 IPD에 의존한다.

입력 채널들의 평균 에너지와 출력 에너지 사이의 일정한 관계를 유지하는, 단순한 능동 다운믹싱 방법과 달리, 새로운 다운믹스 신호는 도 8d에 도시된 바와 같이 임의의 특이성을 나타내지 않는다. 실제로, 도 7a에서 IP=Pi 및 ILD=0dB에서 진폭 Pi(180°)의 점프(jump)가 관찰될 수 있는 반면, 도 8d에서 점프는 2Pi(360°)인데, 이는 언래핑된 위상 영역(unwrapped phase domain)에서 연속적인 변화에 대응한다.

청취 테스트 결과는 새로운 다운믹스 방법이 종래의 능동 다운믹싱보다 넓은 범위의 스테레오 신호에 대해 상당히 적은 불안정 및 손상을 초래한다는 것을 확인한다.

이 맥락에서, 도 8a는 x-축을 따라 원래의 좌측 채널 및 원래의 우측 채널 사이의 채널 간 레벨차를 dB 단위로 도시한다. 또한, 다운믹스 에너지는 y-축을 따라 0과 1.4 사이의 상대 스케일(relative scale)로 표시되고 파라미터는 채널 간 위상차 IPD이다. 특히, 결과 다운믹스 신호의 에너지는 특히 채널들 사이의 위상에 따라 변하고, Pi(180°)의 위상에 대해, 즉 위상이 어긋난 상황에 대해, 에너지 변화는 적어도 양의 채널 간 레벨차에 대해, 양호한 모양에 있다. 도 8b는 다운믹스 신호 M를 계산하기 위한 방정식을 도시하며, 또한 상보 신호로서 좌측 채널이 선택된다는 것이 명백해진다. 도 8c는 개별 스펙트럼 지수들뿐만 아니라 STFT로부터의 지수들의 세트, 즉 적어도 2개의 스펙트럼 값 k 가 함께 가산되어 특정 부대역을 획득하는 부대역에 대한 가중 인자들 W ₁ 및 W ₂를 도시한다.

도 7a 및 도 7b에 도시된 종래 기술에 비해, 도 8d가 도 7a와 비교될 때 특이성은 더 이상 포함되지 않는다.

도 9a 내지 도 9f는 좌측 및 우측 신호 L 및 R 사이의 차를 상보 신호에 대한 기초로 사용하여 다운믹스가 계산되는 또 다른 실시예를 도시한다. 특히, 본 실시예에서,

여기서, 이득들

및

의 세트는 모든 조건에서 다운믹싱된 신호와 입력 채널들 사이의 에너지 관계가 유지되도록 계산된다.

먼저 주어진 한계까지 에너지를 균등화하기 위해 이득

이 계산되며, 여기서 A는 다시

와 같은 실수 값이거나 이 값과 상이하다:

결과적으로, 합 신호의 이득

은 도 9a에 도시된 바와 같이 범위 [0, 1]로 제한된다. x에 대한 방정식에서, 다른 구현은 제곱근 없이 분모를 사용하는 것이다.

2개의 채널들이 pi/2보다 더 큰 IPD를 갖는다면,

은 더 이상 에너지 손실을 보상할 수 없으며, 그러면 이득

로부터 나올 것이다.

는 다음 2차 방정식의 근(roots) 중 하나로서 계산된다:

방정식의 근은 다음과 같이 주어진다:

,

여기서,

그 다음, 2개의 근 중 하나가 선택될 수 있다. 에너지 관계는 도 9e와 같이 모든 조건들에서 보존된다.

2개의 채널들이 pi/2보다 더 큰 IPD를 갖는다면,

은 더 이상 에너지 손실을 보상할 수 없으며, 그러면 이득

로부터 나올 것이다.

는 다음 2차 방정식의 근 중 하나로서 계산된다:

방정식의 근은 다음과 같이 주어진다:

,

여기서,

그 다음, 2개의 근 중 하나가 선택될 수 있다. 두 근에 대해, 에너지 관계는 도 9f와 같이 모든 조건들에서 보존된다.

바람직하게는, 최소 절대 값을 갖는 근은

에 대해 적응적으로 선택된다. 이러한 적응 선택은 ILD=0dB에 대한 하나의 근으로부터 다른 근으로의 스위칭(switch)을 초래할 것이며, 이는 다시 한번 불연속성을 생성할 수 있다.

최첨단 기술과는 달리, 이 접근법은 임의의 특이성을 도입하지 않고 다운믹스 및 스펙트럼 바이어스의 빗살 필터링 효과를 해결한다. 그것은 모든 조건들에서 에너지 관계를 유지하지만 바람직한 실시예와 비교하여 불안정성을 더 많이 도입한다.

따라서, 도 9a는 본 실시예의 부분 다운믹스 신호의 계산에서 합 신호의 인자 W ₁에 의해 획득된 이득 제한의 비교를 도시한다. 특히, 직선은 도 4의 블록(76)과 관련하여 전술한 바와 같이 값의 정규화 이전 또는 변경 전의 상황이다. 그리고, 가중 계수 W ₁의 함수로서 수정 함수에 대해 1의 값에 접근하는 다른 라인. 수정 함수의 영향은 0.5보다 큰 값에서 발생하지만, 편차는 약 0.8 이상의 값들 W ₁ 에 대해서 단지 실제로 발생한다는 것이 명백해진다.

도 9b는 이 실시예에 대한 도 1의 블록도에 의해 구현된 방정식을 도시한다.

또한, 도 9c는 값 W ₁이 어떻게 계산되는지를 도시하고, 따라서, 도 9a는 도 9c의 함수의 상황을 도시한다. 마지막으로, 도 9d는 W ₂의 계산, 즉 도 1의 상보 신호 생성기(20)에 의해 사용된 가중 인자들을 도시한다.

도 9e는 제1 및 제2 채널들 사이의 모든 위상차들 및 제1 및 제2 채널들 사이의 모든 레벨차(ALD)에 대해 다운믹스 에너지가 항상 동일하고 1과 동일함을 도시한다.

그러나, 도 9f는 0이 될 수 있는 도 9d에 도시된 q에 대한 방정식 및 p에 대한 방정식에 분모가 있다는 사실로 인해 도 9d의 E _M 에 대한 방정식의 규칙의 계산에 의해 발생되는 불연속성을 도시한다.

도 10a 내지 도 10e는 앞에서 설명한 두 대안들 사이의 타협으로 볼 수 있는 또 다른 실시예를 도시한다.

다운믹싱은 다음과 같이 주어진다;

여기서,

x에 대한 방정식에서, 다른 구현은 제곱근 없이 분모를 사용하는 것이다.

이 경우에서 해결할 이차 방정식은 다음과 같다:

이번에 이득

은 이차 방정식의 근 중 하나로서 취해지지는 않고 오히려:

여기서

결과적으로, 에너지 관계는 도 10a에 도시된 바와 같이 항상 유지되지 않는다. 다른 한편, 이득

는 도 10e에서 불연속성을 나타내지 않으며, 제2 실시예와 비교하여 불안정성 문제들은 감소된다.

따라서, 도 10a는 도 10a 내지 도 10e에 의해 도시된 이 실시예의 에너지 관계를 도시하며, 다시 한번, 다운믹스 에너지는 y 축에 도시되고, 채널 간 레벨차는 x 축에 도시된다. 도 10b는 블록(76)에 관해 도시된 바와 같이 제1 가중 인자 (W1)를 계산하기 위해 수행된 절차 및 도 1에 의해 적용된 방정식들을 도시한다. 또한, 도 10c는 도 9a 내지 도 9f의 실시예에 관한 W ₂의 대안적인 계산을 도시한다. 특히, p는 도 10c를 도 9d의 유사한 방정식과 비교할 때 나타나는 절대 값 함수에 종속된다.

그 다음, 도 10d는 p 및 q의 계산을 다시 나타내고, 도 10d는 아래쪽 도 10d의 방정식들에 대략적으로 대응한다.

도 10e는 도 10a 내지 도 10d에 도시된 실시예에 따른 이 새로운 다운믹싱의 에너지 관계를 도시하고, 이득 W ₂는 0.5의 최대 값에 단지 근접하는 것으로 나타난다.

전술한 설명 및 특정 도면들이 상세한 방정식들을 제공하지만, 방정식이 정확하게 계산되지 않을 때, 하지만 방정식이 계산되지만 결과가 수정될 때에도 장점이 이미 확보된다는 점에 유의해야 한다. 특히, 도 3의 제1 가중 인자 계산기(15) 및 제2 가중 인자 계산기(24)의 함수들은, 제1 가중 인자들 또는 제2 가중 인자들이 상기 주어진 방정식들에 기초하여 결정된 값들의 ±20%의 범위에 있는 값들을 가지도록 수행된다. 바람직한 실시예에서, 가중 인자들은 상기 방정식들에 의해 결정된 값들의 ±10%의 범위에 있는 값들을 갖도록 결정된다. 더 바람직한 실시예들에서, 편차는 단지 ±1%이며, 가장 바람직한 실시예들에서는 방정식들의 결과가 정확하게 취해진다. 그러나, 전술한 바와 같이, 상술한 방정식들로부터 ±20%의 편차가 적용될 때, 본 발명의 장점들이 획득된다.

도 5는 도 1 내지 도 4, 도 8a 내지 도 10e와 관련하여 전술한 본 발명의 다운믹서가 사용될 수 있는, 멀티채널 인코더의 일 실시예를 도시한다. 특히, 멀티채널 인코더는 2개 이상의 채널들을 갖는 멀티채널 신호(12)의 적어도 2개의 채널들로부터 멀티채널 파라미터들(84)을 계산하기 위한 파라미터 계산기(parameter calculator)(82)를 포함한다. 또한, 멀티채널 인코더는 전술한 바와 같이 구현될 수 있고 하나 이상의 다운믹스 채널들(40)을 제공하는 다운믹서(80)를 포함한다. 두 멀티채널 파라미터들(84) 및 하나 이상의 다운믹스 채널들(40)은 하나 이상의 다운믹스 채널들 및/또는 멀티채널 파라미터들을 포함하는 인코딩된 멀티채널 신호를 출력하기 위한 출력 인터페이스(output interface)(86)로의 출력이다. 대안적으로, 출력 인터페이스는 인코딩된 멀티채널 신호를 예를 들어 도 6에 도시된 멀티채널 디코더(multichannel decoder)에 저장 또는 송신하기 위해 구성될 수 있다. 도 6에 도시된 멀티채널 디코더는 입력으로서, 인코딩된 멀티채널 신호(88)를 수신한다. 이 신호는 입력 인터페이스(90)로 입력되고, 입력 인터페이스(90)는 한편에서 멀티채널 파라미터들(92) 및 다른 한편에서는 하나 이상의 다운믹스 채널들(94)을 출력한다. 두 데이터 아이템들 즉, 멀티채널 파라미터들(92) 및 다운믹스 채널들(94)은 원래의 입력 채널들의 근사를 그 출력에서 재구성하고, 일반적으로, 참조 번호(98)로 표시된 바와 같은 출력 오디오 객체들 또는 무언가(anything)를 포함하거나 구성할 수 있는 출력 채널들을 출력하는 멀티채널 재구성기(multichannel reconstructor)(96)로의 입력이다. 특히, 도 5의 멀티채널 인코더 및 도 6의 멀티채널 디코더는 함께 멀티채널 인코더가 도 5와 관련하여 설명된 바와 같이 동작하고, 예를 들어, 멀티채널 디코더가 도 6에 도시된 바와 같이 구현되고, 일반적으로 도 6에서 (98)에 도시된 재구성된 오디오 신호를 획득하기 위해 인코딩된 멀티채널 신호를 디코딩하기 위해 구성되는 오디오 프로세싱 시스템을 나타낸다. 따라서, 도 5 및 도 6과 관련하여 설명된 절차들은 멀티채널 인코딩의 방법 및 대응하는 멀티채널 디코딩의 방법을 포함하는 오디오 신호를 프로세싱하는 방법을 추가적으로 나타낸다.

본 발명에 따라 인코딩된 오디오 신호는 디지털 저장 매체(digital storage medium) 또는 비 일시적인 저장 매체(non-transitory storage medium)에 저장될 수 있거나, 또는 무선 송신 매체와 같은 송신 매체 또는 인터넷과 같은 유선 송신 매체에 송신될 수 있다.

일부 측면들이 장치의 맥락에서 설명되었지만, 이 측면들은, 블록 또는 디바이스가 방법 단계 또는 방법 단계의 특징에 대응하는, 대응하는 방법의 설명을 나타내는 것이 명백하다. 유사하게, 방법 단계의 맥락에서 설명된 측면들은 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명을 나타낸다.

특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 전자적으로 판독 가능한 제어 신호들이 저장되는, 예를 들어 플로피 디스크(floppy disk), DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리(FLASH memory)와 같은, 디지털 저장 매체를 사용하여 수행될 수 있으며, 각각의 방법이 수행되도록 프로그래머블 컴퓨터 시스템과 협력한다(또는 협력할 수 있다).

본 발명에 따른 일부 실시예는 본 명세서에 설명된 방법 중 하나가 수행되도록 프로그래머블 컴퓨터 시스템과 협력할 수 있는, 전자 판독 가능 제어 신호를 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예들은 프로그램 코드(program code)를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 상기 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터상에서 실행될 때 상기 방법들 중 하나를 수행하도록 동작한다. 프로그램 코드는 예를 들어 머신 판독 가능 캐리어(machine readable carrier) 상에 저장될 수 있다.

다른 실시예들은 머신 판독 가능 캐리어 또는 비 일시적 저장 매체 상에 저장되는, 본 명세서에서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

다시 말하면, 본 발명의 방법의 일 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서, 본 발명의 방법의 또 다른 실시예는 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하고, 그에 저장되는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터-판독 가능 매체)이다.

그러므로, 본 발명의 방법의 또 다른 실시예는 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 예를 들어 인터넷을 통해 데이터 통신 연결을 통해 송신되도록 구성될 수 있다.

또 다른 실시예는 본 명세서에 설명된 방법들 중 하나를 수행하도록 구성되거나 적응된 프로세싱 수단, 예를 들어 컴퓨터 또는 프로그래머블 로직 장치를 포함한다.

또 다른 실시예는 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

일부 실시예들에서, 프로그래머블 로직 디바이스(예를 들어, 필드 프로그래머블 게이트 어레이(field programmable gate array))는 본 명세서에 설명된 방법들의 일부 또는 모든 기능들을 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래머블 게이트 어레이는 본 명세서에서 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서(microprocessor)와 협력할 수 있다. 일반적으로, 상기 방법들은 임의의 하드웨어 장치에 의해 수행되는 것이 바람직하다.

전술한 실시예는 본 발명의 원리를 설명하기 위한 것일 뿐이다. 본 명세서에 설명된 구성 및 세부 사항의 수정 및 변형은 당업자에게 명백할 것임을 이해할 것이다. 따라서, 임박한 특허 청구 범위의 범위에 의해서만 제한되고, 본 명세서의 실시예에 대한 설명(description) 및 설명(explanation)에 의해 제공된 특정 세부 사항에 의해서가 아니라는 의도이다.

참고 문헌

[1] US 7,343,281 B2, "멀티채널 신호들의 프로세싱(PROCESSING OF MULTI-CHANNEL SIGNALS)", 코닌클리케 필립스 일렉트로닉스 엔.브이.(Koninklijke Philips Electronics N.V.), 에인트호번(Eindhoven) (NL)

[2] 삼수딘, 디.쿠르니아와티(Samsudin, E. Kurniawati), 엔쥐 분 포흐, 에프. 사타르(Ng Boon Poh, F. Sattar) 및 에스.조지(S. George), "MPEG-4 파라메트릭 스테레오 인코더를 위한 스테레오 투 모노 다운믹싱 방식(A Stereo to Mono Downmixing Scheme for MPEG-4 Parametric Stereo Encoder)", IEEE 인터내셔널 컨퍼런스 온 어쿠스틱스(IEEE International Conference on Acoustics), 음성 및 신호 처리, 5권, 2006, 529-532 페이지.

[3] 티. 엠. 엔. 호앙(T. M. N. Hoang), 에스. 라고트(S. Ragot), 비. 코베시(B. K

vesi) 및 피. 스칼라트(P. Scalart), "새로운 다운믹싱 방식에 기반한 ITU-T G.722의 파라메트릭 스테레오 확장(Parametric Stereo Extension of ITU-T G. 722 Based on a New Downmixing Scheme)", IEEE 인터내셔널 워크샵 온 멀티미디어 신호 처리(MMSP: Multimedia Signal Processing) (2010).

[4] 더블유. 우(W. Wu), 엘. 미아오(L. Miao), 와이. 랑(Y. Lang) 및 디. 비레테(D. Virette), "새로운 다운믹스 방법 및 전체 대역 간 채널 시간/위상차를 갖는 파라메트릭 스테레오 코딩 방식(Parametric Stereo Coding Scheme with a New Downmix Method and Whole Band Inter Channel Time/Phase Differences)", IEEE 인터내셔널 컨퍼런스 온 어쿠스틱스(IEEE International Conference on Acoustics), 음성 및 신호 처리, 2013, 556-560 페이지.

[5] 알렉산더 아다미(Alexander Adami), 엠마누엘 에이.페. 하베츠(Emanu

l A.P. Habets), 주르겐 허레(J

rgen Herre), "코히어런스 억제를 사용한 다운믹싱(DOWN-MIXING USING COHERENCE SUPPRESSION)", 2014 IEEE 인터내셔널 컨퍼런스 온 어쿠스틱, 음성 및 신호 처리(ICASSP: International Conference on Acoustic, Speech and Signal Processing)

[6] 비카모, 주하(Vilkamo, Juha); 쿤츠, 아킴(Kuntz, Achim); 퍼그, 시모네(F

g, Simone), "적응형 위상 정렬을 이용한 멀티채널 다운믹싱에서의 스펙트럼 인공물의 감소(Reduction of Spectral Artifacts in Multichannel Downmixing with Adaptive Phase Alignment)", AES 2014년8월22일

Claims

적어도 2개의 채널들을 갖는 멀티채널 신호(12)의 상기 적어도 2개의 채널들을 다운믹싱하기 위한 다운믹서에 있어서,
상기 적어도 2개의 채널들로부터 부분 다운믹스 신호(14)를 계산하기 위한 프로세서(10);
상기 멀티채널 신호(12)로부터 상보 신호(22)를 계산하기 위한 상보 신호 계산기(20) - 상기 상보 신호(22)는 상기 부분 다운믹스 신호(14)와 상이함 -; 및
상기 멀티채널 신호(12)의 다운믹스 신호(40)를 획득하도록 상기 부분 다운믹스 신호(14)와 상기 상보 신호(22)를 가산하기 위한 가산기(30)
를 포함하고,
상기 프로세서(10)는,
상기 적어도 2개의 채널들이 위상이 일치할 때, 상기 부분 다운믹스 신호(14) 및 상기 멀티채널 신호(12)의 상기 적어도 2개의 채널들 사이에 미리 정의된 에너지 또는 진폭 관계가 충족되고,
상기 적어도 2개의 채널들이 위상이 일치하지 않을 때, 상기 적어도 2개의 채널들에 관해 상기 부분 다운믹스 신호(14)에 진폭 손실 또는 에너지 손실이 생성되도록,
상기 적어도 2개의 채널들을 가산함으로써 상기 부분 다운믹스 신호(14)를 계산하도록 구성되고,
상기 상보 신호 계산기(20)는,
상기 가산기(30)에서 상기 부분 다운믹스 신호(14)와 상기 상보 신호(22)를 가산함으로써, 상기 부분 다운믹스 신호(14)의 상기 에너지 손실 또는 상기 진폭 손실이 부분적으로 또는 완전히 보상되도록, 상기 상보 신호(22)를 계산(52)하도록 구성되는
다운믹서.
제1항에 있어서,
상기 상보 신호 계산기(20)는,
상기 상보 신호(22)가 상기 부분 다운믹스 신호(14)에 관해 0.7 보다 작은 코히어런스 지수를 갖도록, 상기 상보 신호(22)를 계산하도록 구성되고,
0.0의 코히어런스 지수는 완전한 인코히어런스를 나타내고,
1.0의 코히어런스 지수는 완전한 코히어런스를 나타내는
다운믹서.
제1항에 있어서,
상기 상보 신호 계산기(20)는,
상기 상보 신호(22)를 계산하기 위해,
상기 적어도 2개의 채널 중 제1 채널,
상기 적어도 2개의 채널 중 제2 채널,
상기 제2 채널과 상기 제1 채널 사이의 차,
상기 제1 채널과 상기 제2 채널 사이의 차,
상기 멀티채널 신호가 상기 적어도 2개의 채널들보다 많은 채널을 가지는 경우, 상기 멀티채널 신호의 추가 채널,
역상관된 제1 채널, 역상관된 제2 채널,
역상관된 추가 채널,
상기 제1 채널 및 상기 제2 채널을 포함하는 역상관된 차, 및
역상관된 부분 다운믹스 신호
를 포함하는 신호들의 그룹 중 하나의 신호를 사용하도록 구성되는
다운믹서.
제1항에 있어서,
상기 프로세서(10)는,
상기 적어도 2개의 채널들과 상기 적어도 2개의 채널들의 합 신호 사이의 미리 정의된 에너지 또는 진폭 관계에 따라 상기 적어도 2개의 채널들의 합을 가중하기 위한 시간 또는 주파수 의존 가중 인자들을 계산(70)하고; 및
계산된 가중 인자를 상기 미리 정의된 임계치와 비교(72)하고; 및
상기 계산된 가중 인자가 미리 정의된 임계치에 대한 제1 관계에 있을 때, 상기 부분 다운믹스 신호(14)를 계산하기 위해 상기 계산된 가중 인자를 사용(74)하거나, 또는
상기 계산된 가중 인자가 상기 제1 관계와 상이한 상기 미리 정의된 임계치에 대한 제2 관계에 있을 때, 상기 부분 다운믹스 신호(14)를 계산하기 위해 상기 계산된 가중 인자 대신에 상기 미리 정의된 임계치를 사용(76)하거나, 또는
상기 계산된 가중 인자가 상기 제1 관계와 상이한 상기 미리 정의된 임계치에 대한 제2 관계에 있을 때, 수정 함수를 사용하여 수정된 가중 인자를 유도(76)하도록 구성되는 - 상기 수정 함수는 상기 수정된 가중 인자가 상기 계산된 가중 인자보다 상기 미리 정의된 임계치에 더 가깝도록 함 -
다운믹서.
제1항에 있어서,
상기 프로세서(10)는,
상기 적어도 2개의 채널들의 합 신호 및 상기 적어도 2개의 채널들 사이의 미리 정의된 에너지 또는 진폭 관계에 따라 상기 적어도 2개의 채널들의 합을 가중시키기 위하여 시간 종속 또는 주파수 종속 가중 인자들을 계산(70)하고; 및
수정 함수를 사용하여 수정된 가중 인자를 유도하도록 구성되고,
상기 수정 함수는,
상기 수정된 가중 인자가, 상기 부분 다운믹스 신호(14)의 에너지가 상기 미리 정의된 에너지 관계에 의해 정의되는 에너지보다 더 작아지도록 하는
다운믹서.
제1항에 있어서,
상기 프로세서(10)는,
시간 또는 주파수 종속 가중 인자들을 사용하여 상기 적어도 2개의 채널들의 합 신호로서 가중하도록(16) 구성되고,
상기 가중 인자들 W ₁은,
상기 가중 인자들이 주파수 빈 k 와 시간 지수 n에 대한 다음의 수학식

, 또는
부대역 b 및 시간 지수 n에 대한 다음의 수학식

에 기초하여 결정된 값의 ±20%의 범위에 있는 값들을 갖도록 계산되며,
여기서, A는 실수 값의 상수이고,
여기서, R은 상기 멀티채널 신호(12)의 상기 적어도 2개의 채널들 중 제2 채널을 나타내고, L은 상기 적어도 2개의 채널들 중 제1 채널을 나타내는
다운믹서.
제1항에 있어서,
상기 상보 신호 계산기(20)는,
상기 적어도 2개의 채널들 중 하나의 채널을 사용하고, 시간 또는 주파수 종속 상보 가중 인자들 W ₂을 사용하여 상기 사용된 채널을 가중하도록 구성되고,
상기 상보 가중 인자들 W ₂은,
상기 상보 가중 인자들이 주파수 빈 k 및 시간 지수 n에 대한 다음의 수학식

, 또는
부대역 b 및 시간 지수 n에 대한 다음의 수학식

에 기초하여 결정된 값들의 ±20%의 범위에 있는 값들을 갖도록 계산되며,
여기서, R은 상기 멀티채널 신호(12)의 제2 채널을 나타내고, L은 제1 채널을 나타내는
다운믹서.
제1항에 있어서,
상기 상보 신호 계산기(20)는,
상기 멀티채널 신호(12)의 제2 채널과 제1 채널 사이의 차를 사용하고, 시간 및 주파수 종속 상보 가중 인자들을 사용하여 상기 차를 가중하도록 구성되고,
상기 상보 가중 인자들은,
상기 상보 가중 인자들이 다음의 수학식들에 기초하여 결정된 값들의 ±20%의 범위에 있는 값들을 갖도록 계산되며,

여기서

여기서, R은 상기 멀티채널 신호(12)의 제2 채널을 나타내고, L은 상기 제1 채널을 나타내는
다운믹서.
제1항에 있어서,
상기 상보 신호 계산기(20)는,
상기 멀티채널 신호(12)의 제2 채널과 제1 채널 사이의 차를 사용하고, 시간 및 주파수 종속 상보 가중 인자들을 사용하여 상기 차를 가중하도록 구성되고,
상기 상보 가중 인자들은,
상기 상보 가중 인자들이 다음의 수학식들에 기초하여 결정된 값들의 ±20%의 범위에 있는 값들을 갖도록 계산되며,

여기서

여기서, R은 상기 멀티채널 신호(12)의 상기 제2 채널을 나타내고, L은 상기 제1 채널을 나타내는
다운믹서.
제1항에 있어서,
상기 프로세서(10)는,
상기 적어도 2개의 채널들로부터 합 신호를 계산하고,
상기 합 신호와 상기 적어도 2개의 채널들 사이의 미리 정의된 관계에 따라 상기 합 신호를 가중하기 위한 가중 인자들을 계산하고(15);
미리 정의된 임계치보다 더 높은 계산된 가중 인자들을 수정하고(76),
상기 부분 다운믹스 신호(14)를 획득하기 위해 상기 합 신호를 가중하기 위해 상기 수정된 가중 인자들을 적용하도록 구성되는
다운믹서.
제1항에 있어서,
상기 프로세서(10)는,
상기 계산된 가중 인자들을 상기 미리 정의된 임계치의 ±20%의 범위에 있도록 수정하거나, 또는 상기 계산된 가중 인자들이 다음의 수학식들에 기초하여 결정된 값들의 ±20%의 범위에 있는 값들을 갖도록 상기 계산된 가중 인자들을 수정하도록 구성되고,

여기서

여기서, A는 실수 값의 상수이고, R은 상기 멀티채널 신호(12)의 제2 채널을 나타내고, L은 제1 채널을 나타내는
다운믹서.
적어도 2개의 채널들을 갖는 멀티채널 신호(12)의 상기 적어도 2개의 채널들을 다운믹싱하기 위한 방법에 있어서,
상기 적어도 2개의 채널들이 위상이 일치할 때, 부분 다운믹스 신호(14) 및 상기 멀티채널 신호(12)의 상기 적어도 2개의 채널들 사이에 미리 정의된 에너지 또는 진폭 관계가 충족되고, 상기 적어도 2개의 채널들이 위상이 일치하지 않을 때, 상기 적어도 2개의 채널들에 관해 상기 부분 다운믹스 신호(14)에 진폭 손실 또는 에너지 손실이 생성되도록, 상기 적어도 2개의 채널들을 가산함으로써 상기 부분 다운믹스 신호(14)를 계산하는 단계;
상기 멀티채널 신호(12)로부터 상보 신호(22)를 계산하는 단계 - 상기 상보 신호(22)는 상기 부분 다운믹스 신호(14)와 상이함 -; 및
상기 멀티채널 신호(12)의 다운믹스 신호(40)를 획득하기 위해 상기 상보 신호(22)와 상기 부분 다운믹스 신호(14)를 가산하는 단계
를 포함하고,
상기 상보 신호(22)를 계산하는 단계는,
상기 부분 다운믹스 신호(14)와 상기 상보 신호(22)를 가산함으로써, 상기 부분 다운믹스 신호(14)의 상기 에너지 손실 또는 상기 진폭 손실이 부분적으로 또는 완전히 보상되도록, 상기 상보 신호(22)를 계산(52)하도록 구성되는
방법.
멀티채널 인코더에 있어서,
적어도 2개의 채널을 갖는 멀티채널 신호(12)의 상기 적어도 2개의 채널들로부터 멀티채널 파라미터들(84)을 계산하기 위한 파라미터 계산기(82), 및
제1항에 따른 다운믹서(80); 및
하나 이상의 다운믹스 채널들(40) 및/또는 상기 멀티채널 파라미터들(84)을 가지는 상기 다운믹스 신호(40)을 포함하는 인코딩된 멀티채널 신호(88)를 출력 또는 저장하기 위한 출력 인터페이스(86)
를 포함하는 멀티채널 인코더.
멀티채널 신호(12)를 인코딩하기 위한 방법에 있어서,
적어도 2개의 채널들을 갖는 상기 멀티채널 신호(12)의 상기 적어도 2개의 채널들로부터 멀티채널 파라미터들(84)을 계산하는 단계; 및
제12항의 방법에 따라 다운믹싱하는 단계; 및
하나 이상의 다운믹스 채널들(40) 및 상기 멀티채널 파라미터들(84)을 가지는 다운믹스 신호(40)를 포함하는 인코딩된 멀티채널 신호(88)를 출력 또는 저장하는 단계
를 포함하는 멀티채널 신호를 인코딩하기 위한 방법.
오디오 프로세싱 시스템에 있어서,
인코딩된 멀티채널 신호(88)를 생성하기 위한 제13항에 따른 멀티채널 인코더; 및
재구성된 오디오 신호(98)를 획득하기 위해 상기 인코딩된 멀티채널 신호(88)를 디코딩하는 멀티채널 디코더
를 포함하는 오디오 프로세싱 시스템.
오디오 신호를 프로세싱하기 위한 방법에 있어서,
제14항의 멀티채널 인코딩; 및
재구성된 오디오 신호(98)를 획득하기 위해 인코딩된 멀티채널 신호(88)를 멀티채널 디코딩하는 단계
를 포함하는 오디오 신호를 프로세싱하기 위한 방법.
컴퓨터 또는 프로세서에서 실행될 때, 제12항, 제14항 또는 제16항의 방법을 수행하는, 기록매체에 저장된 컴퓨터 프로그램.
삭제