KR20120102127A - 개선된 다중 채널 업믹싱을 위한 다중 채널 역상관의 사용 - Google Patents

개선된 다중 채널 업믹싱을 위한 다중 채널 역상관의 사용 Download PDF

Info

Publication number
KR20120102127A
KR20120102127A KR1020127018733A KR20127018733A KR20120102127A KR 20120102127 A KR20120102127 A KR 20120102127A KR 1020127018733 A KR1020127018733 A KR 1020127018733A KR 20127018733 A KR20127018733 A KR 20127018733A KR 20120102127 A KR20120102127 A KR 20120102127A
Authority
KR
South Korea
Prior art keywords
matrix
coefficients
signal
vectors
audio signals
Prior art date
Application number
KR1020127018733A
Other languages
English (en)
Other versions
KR101380167B1 (ko
Inventor
데이비드 에스. 맥그라스
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20120102127A publication Critical patent/KR20120102127A/ko
Application granted granted Critical
Publication of KR101380167B1 publication Critical patent/KR101380167B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Abstract

서로에 대해 음향 심리학적으로 역상관되면서 확산 음장의 표현을 개선하기 위해 사용될 수 있는 복수의 개수(M)의 오디오 신호를 생성하도록 일정 개수(N)의 오디오 신호를 업믹싱하기 위해 선형 방정식의 시스템이 사용된다. 선형 방정식은 서로에 대해 실질적으로 직교하는 M 차원 공간 내에 한 세트의 벡터를 명시하는 행렬에 의해 정의된다. 선형 방정식의 시스템을 유도하기 위한 방법이 개시된다.

Description

개선된 다중 채널 업믹싱을 위한 다중 채널 역상관의 사용{Using Multichannel Decorrelation for Improved Multichannel Upmixing}
관련 출원에 대한 상호 참조
본 출원은 이에 전체적으로 참조로서 통합되는 2010년 1월 22일자로 출원된 미국 가특허출원 제61/297,699호에 대한 우선권을 주장한다.
본 발명은 일반적으로 오디오 신호를 위한 신호 처리에 관한 것으로서, 특히 확산 음장을 표현하는 오디오 신호를 생성하기 위해 사용될 수 있는 신호 처리 기법에 관한 것이다. 이러한 신호 처리 기법들은 업믹싱(upmixing)과 같은 오디오 애플리케이션에서 사용될 수 있으며, 업믹싱은 어떤 개수의 출력 채널 신호를 보다 적은 개수의 입력 채널 신호로부터 유도한다.
본 발명은 업믹싱으로부터 획득된 오디오 신호의 품질을 개선하기 위해 사용될 수 있지만, 본 발명은 확산 음장을 표현하는 하나 이상의 오디오 신호를 요구하는 기본적으로 임의의 애플리케이션과 유익하게 사용될 수 있다. 이하의 설명에서 업믹싱 애플리케이션에 대해 보다 특별히 언급된다.
업믹싱으로서 알려진 프로세스는 임의의 개수(M)의 오디오 신호 채널을 보다 적은 개수(N)의 오디오 신호 채널로부터 유도한다. 예를 들어, 좌측(L), 우측(R), 중앙(C), 좌측 서라운드(LS) 및 우측 서라운드(RS)로 지정된 5 개의 채널에 대한 오디오 신호가 여기에서 좌측 입력(Li) 및 우측 입력(Ri)으로 지정된 2 개의 입력 채널에 대한 오디오 신호를 업믹싱하여 획득될 수 있다. 업믹싱 장치의 일례는 군드라이(Gundry)의 "서라운드 음향을 위한 신규한 활성 행렬 디코더(A New Active Matrix Decoder for Surround Sound)"(제 19회 에이이에스 컨퍼런스(19th AES Conference), 2001년 5월)에서 설명된 돌비(Dolby®) 프로 로직(Pro Logic®) II 디코더이다. 이러한 특별한 기술을 사용하는 업믹서(upmixer)는 2 개의 입력 신호 채널이 표현하는 음장(sound field)이 어떻게 청취자에게 방향성 인상(directional impression)을 전달하도록 의도되는지를 판단하기 위해 2 개의 입력 신호 채널의 위상 및 진폭을 분석한다. 입력 오디오 신호의 요구된 예술적 효과에 따라, 업믹서는 겉보기 방향(apparent direction)을 갖지 않는 엔벨로핑 확산 음장(enveloping diffuse sound field) 내에 겉보기 방향을 갖는 하나 이상의 청각 성분의 감각을 청취자에게 제공하기 위해 5 개의 채널에 대한 출력 신호를 생성할 수 있어야 한다. 본 발명은 고품질을 갖는 확산 음장을 하나 이상의 음향 변환기(acoustic transducer)를 통해 생성할 수 있는 하나 이상의 채널에 대한 출력 오디오 신호를 생성하는 것에 관한 것이다.
확산 음장을 표현하도록 의도된 오디오 신호는 음성이 청취자 주위에서 모든 방향으로부터는 아니더라도 많은 방향으로부터 발산하도록 청취자 내에 인상을 생성해야 한다. 이러한 효과는 2 개의 라우드 스피커 각각을 통해 동일한 오디오 신호를 재생성함으로써 2 개의 라우드 스피커들 사이에 음성의 팬텀 영상(phantom image) 또는 겉보기 방향을 생성하는 주지의 현상에 상반된다. 고품질 확산 음장은 대체로 청취자 주위에 위치된 복수의 라우드 스피커를 통해 동일한 오디오 신호를 재생성함으로써 생성될 수는 없다. 결과로서 생성되는 음장은 종종 위치에서의 매우 작은 변화에 대해 많은 양만큼 변화하면서 상이한 청취 위치에서 폭넓게 변하는 진폭을 갖는다. 청취 영역 내의 특정 위치가 하나의 귀에 대해서는 음성이 없는 것으로 보이지만 나머지 귀에 대해서는 그렇지 않은 것으로 보이는 것은 드문 것이 아니다.
본 발명의 목적은 라우드 스피커와 같은 음향 변환기를 통해 보다 고 품질의 확산 음장을 생성하기 위해 사용될 수 있는 2 개 이상의 오디오 신호 채널을 유도하기 위한 오디오 신호 처리 기법을 제공하는 것이다.
본 발명의 일 양태에 따라, 확산 음장의 제시를 위해 N 개의 입력 오디오 신호로부터 M 개의 출력 신호가 유도되는데, M은 N보다 크고 2보다 크다. 이는, 각각의 중간 오디오 신호가 N 개의 입력 오디오 신호와 음향 심리학적으로 역상관되며, K가 1보다 크면 각각의 중간 오디오 신호가 모든 다른 중간 오디오 신호와 음향 심리학적으로 역상관되도록, N 개의 입력 오디오 신호로부터 K 개의 중간 오디오 신호를 유도함으로써 수행된다. M 차원 공간 내에 한 세트의 N+K 개의 벡터를 명시하는 행렬의 계수를 갖는 선형 방정식의 시스템에 따라 N 개의 입력 오디오 신호와 K 개의 중간 오디오 신호가 혼합되어 M 개의 출력 오디오 신호를 유도한다. N+K 개의 벡터 중 적어도 K 개의 벡터는 상기 세트 내의 모든 다른 벡터에 대해 실질적으로 직교한다. 수량 K는 1보다 크거나 같고 M-N보다 작거나 같다.
본 발명의 또 다른 양태에 따라, 확산 음장의 제시를 위해 M 개의 출력 오디오 신호를 유도하기 위해 N 개의 입력 오디오 신호를 혼합하는데 사용하기 위한 선형 방정식의 시스템에 대한 계수의 행렬이 획득된다. 이는, M 차원 공간 내에서 한 세트의 N 개의 제 1 벡터를 명시하는 계수를 갖는 제 1 행렬을 획득하는 단계; M 차원 공간 내에서 한 세트의 K 개의 제 2 벡터를 유도하되, 각각의 제 2 벡터는 각각의 제 1 벡터에 대해 실질적으로 직교하며, K가 1보다 크면 각각의 제 2 벡터는 모든 다른 제 2 벡터에 대해 실질적으로 직교하는 단계; 상기 세트의 K 개의 제 2 벡터를 명시하는 계수를 갖는 제 2 행렬을 획득하는 단계; 상기 세트의 N 개의 제 1 벡터 및 상기 세트의 K 개의 제 2 벡터의 통합을 명시하는 계수를 갖는 중간 행렬을 획득하기 위해 제 1 행렬과 제 2 행렬을 연접(concatenation)시키는 단계; 및 바람직하게는 제 1 행렬의 프로베니우스 놈의 10% 내에 프로베니우스 놈을 갖는 신호 처리 행렬을 획득하기 위해 중간 행렬의 계수를 스케일링하는 단계에 의해 수행되며, 신호 처리 행렬의 계수는 선형 방정식의 시스템의 계수이다.
본 발명 및 본 발명의 바람직한 실시예의 다양한 특징은 몇 개의 도면 내에서 동일한 참조 부호가 동일한 요소를 지칭하는 첨부 도면과 이하의 설명을 참조함으로써 보다 잘 이해될 수 있다. 이하의 논의의 콘텐츠 및 도면은 단지 예로서 설명되며, 본 발명의 범위에 대한 제한을 표현하도록 이해되지 않아야 한다.
본 발명은 라우드 스피커와 같은 음향 변환기를 통해 보다 고 품질의 확산 음장을 생성하기 위해 사용될 수 있는 2 개 이상의 오디오 신호 채널을 유도하기 위한 오디오 신호 처리 기법을 제공할 수 있다.
도 1은 본 발명의 양태를 구현할 수 있는 오디오 신호 처리 장치의 개략적인 블록 다이어그램이다.
도 2는 기저 업믹싱 행렬(base upmixing matrix)의 개략적인 도면이다.
도 3은 확장 업믹싱 행렬(augmentation upmixing matrix)을 이용하여 연접된 기저 업믹싱 행렬의 개략적인 도면이다.
도 4는 지연 성분을 사용하는 신호 역상관기(signal decorrelator)의 개략적인 도면이다.
도 5는 동 위상 바이모달 주파수 의존 변화(bimodal frequency-dependent change in phase)를 갖는 서브밴드 필터 및 주파수 의존 지연(frequency-dependent delay)을 갖는 서브밴드 필터를 사용하는 신호 역상관기의 개략적인 도면이다.
도 6은 본 발명의 다양한 양태를 구현하기 위해 사용될 수 있는 장치의 개략적인 블록 다이어그램이다.
A. 서론
도 1은 본 발명의 양태를 통합할 수 있는 장치(10)의 개략적인 블록 다이어그램이다. 장치(10)는 신호 경로(19)로부터 하나 이상의 입력 채널에 대한 오디오 신호를 수신하며, 복수의 출력 채널에 대한 오디오 신호를 신호 경로(59)를 따라 생성한다. 신호 경로(19)를 교차하는 작은 선은 물론 나머지 신호 경로를 교차하는 작은 선은 이들 신호 경로가 하나 이상의 채널에 대한 신호를 전달한다는 것을 나타낸다. 작은 교차 선 바로 아래의 심볼 N 및 M은 다양한 신호 경로가 N 개의 채널 및 M 개의 채널에 대한 신호를 각각 전달한다는 것을 나타낸다. 일부 작은 교차 선 바로 아래의 심볼 x 및 y는 각각의 신호 경로가 본 발명을 이해하기 위해 중요하지 않은 명시되지 않은 개수의 신호를 전달한다는 것을 나타낸다.
장치(10)에서, 입력 신호 분석기(20)는 신호 경로(19)로부터 하나 이상의 입력 채널에 대한 오디오 신호를 수신하며, 입력 신호 중 어떤 부분이 확산 음장(diffuse sound field)을 표현하고 어떤 부분이 확산하지 않는 음장을 표현하는 지를 판단하기 위해 오디오 신호를 분석한다. 확산 음장은 음성이 청취자 주위에서 모든 방향으로부터는 아니더라도 많은 방향으로부터 발산하도록 청취자 내에 인상(impression)을 생성한다. 비확산 음장(non-diffuse sound field)은 음성이 특정 방향으로부터 또는 비교적 좁은 범위의 방향으로부터 발산하도록 인상을 생성한다. 확산 음장과 비확산 음장 사이의 구별은 주관적이며 항상 분명하지 않을 수 있다. 비록 이것이 본 발명의 양태를 이용하는 실제적인 구현의 성능에 영향을 미칠 수는 있지만, 그것은 본 발명의 기저를 이루는 원리에 영향을 미치지 않는다.
비확산 음장을 표현한다고 여겨지는 입력 오디오 신호의 부분은 신호 경로(28)를 따라 비확산 신호 프로세서(30)로 통과되며, 비확산 신호 프로세서(30)는 라우드 스피커와 같은 복수의 음향 변환기를 통해 비확산 음장을 재생성하도록 의도된 한 세트의 M 개의 신호를 신호 경로(39)를 따라 생성한다. 이런 유형의 처리를 수행하는 업믹싱 장치(upmixing device)의 일 예는 전술된 돌비 프로 로직 II 디코더(Dolby Pro Logic II decoder)이다.
확산 음장을 표현한다고 여겨지는 입력 오디오 신호의 부분은 신호 경로(29)를 따라 확산 신호 프로세서(40)로 통과되며, 확산 신호 프로세서(40)는 라우드 스피커와 같은 복수의 음향 변환기를 통해 확산 음장을 재생성하도록 의도된 한 세트의 M 개의 신호를 신호 경로(49)를 따라 생성한다. 본 발명은 확산 신호 프로세서(40) 내에서 수행되는 처리에 관한 것이다.
가산 컴포넌트(50)는 비확산 신호 프로세서(30)로부터의 M 개의 신호 각각과 확산 신호 프로세서(40)로부터의 M 개의 신호 중 각각의 신호를 조합하여 M 개의 출력 채널 중 각각의 출력 채널에 대한 오디오 신호를 생성한다. 각각의 출력 채널에 대한 오디오 신호는 라우드 스피커와 같은 음향 변환기를 구동하도록 의도된다.
본 발명은 확산 음장을 표현할 수 있는 한 세트의 오디오 신호를 생성하기 위해 선형 혼합 방정식의 시스템을 개발하고 사용하는 것에 관한 것이다. 이들 혼합 방정식은 예를 들어 확산 신호 프로세서(40) 내에 사용될 수 있다. 본 상세한 설명의 나머지에서는, 숫자 N이 1보다 크거나 같고, 숫자 M이 3보다 크거나 같으며, 숫자 M이 숫자 N보다 크다고 가정된다.
장치(10)는 단지 본 발명이 어떻게 사용될 수 있는지에 대한 일 예이다. 본 발명은 도 1에 도시된 것과는 기능적으로 또는 구조적으로 상이한 다른 장치 내로 통합될 수 있다. 예를 들어, 음장의 확산 부분 및 비확산 부분을 표현하는 신호는 단일 컴포넌트에 의해 처리될 수 있다. 행렬에 의해 정의된 선형 방정식의 시스템에 따라 신호를 혼합하는 별개의 확산 신호 프로세서(40)에 대한 몇 개의 구현이 후술된다. 확산 신호 프로세서(40) 및 비확산 신호 프로세서(30)에 대한 프로세스의 다양한 부분이 단일 행렬에 의해 정의된 선형 방정식의 시스템에 의해 구현될 수 있다. 또한, 본 발명의 양태는 입력 신호 분석기(20), 비확산 신호 프로세서(30) 또는 가산 컴포넌트(50)를 또한 통합하지 않으면서 하나의 장치 내로 통합될 수 있다.
B. 제 1 유도 방법
확산 신호 프로세서(40)는 선형 방정식의 시스템에 따라 경로(29)로부터 수신된 N 개의 오디오 신호 채널을 혼합함으로써 한 세트의 M 개의 신호를 경로(49)를 통해 생성한다. 이하의 논의에서 설명을 용이하게 하기 위해, 경로(29)로부터 수신된 N 개의 오디오 신호 채널의 부분은 중간 입력 신호로 지칭되며, 경로(49)를 따라 생성된 M 개의 중간 신호 채널은 중간 출력 신호로 지칭된다. 이러한 혼합 연산(mixing operation)은
Figure pct00001
로 도시된 바와 같이 행렬 곱셈에 의해 표현될 수 있는 선형 방정식의 시스템의 사용을 포함하며,
Figure pct00002
는 N 개의 중간 입력 신호로부터 획득된 N+K 개의 신호를 표현하는 열 벡터(column vector)이며,
Figure pct00003
는 혼합 계수의 Mx(N+K) 행렬 또는 어레이이고,
Figure pct00004
는 M 개의 중간 출력 신호를 표현하는 열 벡터이다. 혼합 연산은 시간 도메인 또는 주파수 도메인 내에 표현된 신호에 대해 수행될 수 있다. 이하의 논의는 시간 도메인 구현에 대해 보다 특별히 언급한다.
요구된다면, 동일한 선형 혼합 방정식의 시스템은
Figure pct00005
와 같이 벡터 및 행렬을 전치(transposition)시킴으로써 표현될 수 있으며,
Figure pct00006
는 N 개의 중간 입력 신호로부터 획득된 N+K 개의 신호를 표현하는 행 벡터(row vector)이고,
Figure pct00007
는 행렬
Figure pct00008
의 (N+K)xM 전치이며,
Figure pct00009
는 M 개의 중간 출력 신호를 표현하는 행 벡터이다.
이하의 설명은 수학식 1과 일치하는 행 및 열과 같은 표기 및 용어를 사용하지만, 본 발명의 원리는 수학식 2과 같은 다른 형태 또는 표현 또는 명시적인 선형 방정식의 시스템을 사용하여 유도되고 적용될 수 있다.
수학식 1에 도시된 바와 같이, K는 1보다 크거나 같고 차분 M-N보다 작거나 같다. 결과적으로, 신호 Xi의 개수 및 행렬
Figure pct00010
내의 열의 개수는 N+1과 M 사이이다.
행렬
Figure pct00011
의 계수는 서로에 대해 "실질적으로 직교(substantially orthogonal)"하는 M-차원 공간 내의 한 세트의 N+K 개의 단위 크기 벡터(unit-magnitude vector)로부터 획득될 수 있다. 두 개의 벡터의 내적(dot product)이 그들의 크기의 곱의 35% 보다 작으면 두 개의 벡터는 서로에 대해 실질적으로 직교한다고 간주된다. 이는 대략 70도부터 대략 110도까지의 벡터들 사이의 각도에 상응한다. 행렬
Figure pct00012
내의 각각의 열은 상기 세트 내의 벡터들 중 하나의 벡터의 요소에 상응하는 M 개의 계수를 가질 수 있다. 예를 들어, 행렬
Figure pct00013
의 제 1 열 내에 있는 계수는
Figure pct00014
가 되도록 그 요소가
Figure pct00015
로써 표시된 상기 세트 내의 벡터들 중 하나의 벡터
Figure pct00016
에 상응하며, p는 요구될 수 있는 바와 같이 행렬 계수를 스케일링하기 위해 사용된 스케일 인자이다. 대안적으로, 행렬
Figure pct00017
의 각각의 열 j 내의 계수는 상이한 스케일 인자 pj 만큼 스케일링될 수 있다. 많은 애플리케이션에서, 계수는 행렬의 프로베니우스 놈(Frobenius norm)이
Figure pct00018
의 10%와 같거나 10% 내에 존재하도록 스케일링된다. 스케일링의 추가 양태가 이하에 논의된다.
한 세트의 N+K 개의 벡터는 요구될 수 있는 임의의 방식으로 유도될 수 있다. 하나의 방법은 가우시안 분포를 갖는 의사 난수 값(pseudo-random value)을 갖는 계수의 MxM 행렬
Figure pct00019
를 생성하며, 이러한 행렬의 특이값 분해(singular value decomposition)를 계산하여 여기에서
Figure pct00020
,
Figure pct00021
Figure pct00022
로 표시된 세 개의 MxM 행렬을 획득한다.
Figure pct00023
Figure pct00024
행렬은 단위 행렬(unitary matrix)이다.
Figure pct00025
행렬은
Figure pct00026
행렬 또는
Figure pct00027
행렬로부터 N+K 개의 열을 선택하고
Figure pct00028
의 10%와 같거나 10% 내에 존재하는 프로베니우스 놈을 달성하도록 이들 열 내의 계수를 스케일링함으로써 획득될 수 있다. 직교에 대한 요건 중 일부 요건을 완화시키는 바람직한 방법이 후술된다.
N+K 개의 입력 신호는 N 개의 중간 입력 신호를 서로에 대해 역상관시킴으로써 획득된다. 요구되는 역상관(decorrelation)의 유형은 여기에서 "음향 심리학적 역상관(psychoacoustic decorrelation)"으로 지칭된다. 음향 심리학적 역상관은 비록 두 개의 신호가 서로에 대해 어느 정도의 수치적 상관을 갖더라도 두 개의 신호가 음향 심리학적으로 역상관되는 것으로 간주될 수 있다는 점에서 수치적 역상관보다 덜 엄격하다.
두 개의 신호의 수치적 상관은 다양한 공지된 수치적 알고리즘을 사용하여 계산될 수 있다. 이들 알고리즘은 음의 값과 양의 값 사이에서 변하는 상관 계수(correlation coefficient)로 지칭된 수치적 상관의 척도를 산출한다. 1과 같거나 1에 근사한 크기를 갖는 상관 계수는 두 개의 신호가 밀접하게 관련된다는 것을 나타낸다. 0과 같거나 0에 근사한 크기를 갖는 상관 계수는 두 개의 신호가 일반적으로 서로 독립적이라는 것을 나타낸다.
음향 심리학적 상관(psychoacoustical correlation)은 소위 임계 대역폭을 갖는 주파수 서브밴드를 가로질러 존재하는 오디오 신호의 상관 특성을 지칭한다. 인간 청각 시스템의 주파수 분해 능력(frequency-resolving power)은 오디오 스펙트럼을 통해 주파수에 따라 변한다. 인간의 귀는 대략 500 Hz 미만의 보다 낮은 주파수에서 주파수상으로 보다 밀접하지만 주파수가 가청능력(audibility)의 한계까지 위로 진행하는 정도로 서로 밀접하지는 않는 스펙트럼 성분들을 구별할 수 있다. 이러한 주파수 분해의 폭은 임계 대역폭으로 지칭되며, 방금 설명된 바와 같이 주파수 분해의 폭은 주파수에 따라 변한다.
음향 심리학적 임계 대역폭을 가로질러 평균 수치적 상관 계수가 0과 같거나 0에 근사하면, 두 개의 신호는 서로에 대해 음향 심리학적으로 역상관된다고 표현된다. 두 개의 신호 사이의 수치적 상관 계수가 모든 주파수에서 0과 같거나 0에 근사하면, 음향 심리학적 역상관이 달성된다. 비록 두 개의 신호가 모든 주파수에서 0과 같지 않거나 0에 근사하지 않더라도, 각각의 음향 심리학적 임계 대역을 가로질러 수치적 상관의 평균이 그러한 임계 대역 내의 임의의 주파수에 대한 최대 상관 계수의 절반보다 작아지도록 수치적 상관이 변하면, 음향 심리학적 역상관이 또한 달성될 수 있다.
음향 심리학적 역상관은 후술되는 지연 또는 특별한 유형의 필터를 사용하여 달성될 수 있다. 많은 구현에서, 이들 N 개의 신호가 확산 음장을 표현하며 이미 음향 심리학적으로 역상관될 가능성이 있으므로, 음향 심리학적 역상관을 달성하기 위해 N+K 개의 신호 Xi 중 N 개의 신호는 임의의 지연 또는 필터를 사용하지 않으면서 N 개의 중간 입력 신호로부터 직접 취해질 수 있다.
C. 개선된 유도 방법
확산 신호 프로세서(40)에 의해 생성된 신호가 도 1에 도시된 바와 같은 비확산 음장을 표현하는 다른 신호와 조합되면, 행렬
Figure pct00029
가 전술된 방법을 사용하여 설계되는 경우에, 예를 들어, 결과적으로 생성된 신호의 조합은 바람직하지 않은 아티팩트(artifact)를 생성할 수 있다. 행렬
Figure pct00030
의 설계가 음장의 확산 부분 및 비확산 부분 사이의 가능한 상호작용을 설명하지 않았으므로, 이들 아티팩트가 발생할 수 있다. 전술된 바와 같이, 확산과 비확산 사이의 구별은 항상 분명하지 않으며, 입력 신호 분석기(20)는 어느 정도 확산 음장을 표현하는 경로(28)를 따라 신호를 생성할 수 있고 어느 정도 비확산 음장을 표현하는 경로(29)를 따라 신호를 생성할 수 있다. 확산 신호 발생기(40)가 경로(29) 상의 신호에 의해 표현된 음장의 비확산 특성을 파괴하거나 수정하면, 경로(59)를 따라 생성된 출력 신호로부터 생성된 음장 내에 바람직하지 않은 아티팩트 또는 청취 가능한 왜곡이 발생할 수 있다. 예를 들어, 경로(39) 상의 M 개의 비확산 처리된 신호와 경로(49) 상의 M 개의 확산 처리된 신호의 합이 일부 비확산 신호 성분의 무효화를 야기하면, 이는 그렇지 않았으면 본 발명의 사용에 의해 달성되었을 주관적인 인상을 열화시킬 수 있다.
개선은 비확산 신호 프로세서(30)에 의해 처리되는 음장의 비확산 성질을 설명하도록 행렬
Figure pct00031
를 설계함으로써 달성될 수 있다. 이는, 경로(19)로부터 수신된 N 개의 입력 오디오 신호 채널을 생성하도록 M 개의 오디오 신호 채널을 처리하는 인코딩 처리를 표현하거나 표현하도록 가정되는 행렬
Figure pct00032
를 먼저 식별한 다음, 후술된 바와 같이 이러한 행렬의 역을 유도함으로써 수행될 수 있다.
행렬
Figure pct00033
의 일 예는 5 개의 채널, L, C, R, LS, RS를 좌측 합계(left-total, LT) 및 우측 합계(right-total, RT)로 나타낸 2 개의 채널로 다운믹싱(downmixing)하기 위해 사용되는 5x2 행렬이다. LT 및 RT 채널에 대한 신호는 경로(19)로부터 수신되는 2(N=2) 개의 채널에 대한 입력 오디오 신호의 일 예이다. 이러한 예에서, 장치(10)는 본래의 5 개의 오디오 신호로부터 생성될 수 있는 음장과 개념적으로 유사하지만 동일하지는 않은 음장을 생성할 수 있는 5(M=5) 개의 출력 오디오 신호 채널을 합성하기 위해 사용될 수 있다.
L, C, R, LS 및 RS 채널 신호로부터 LT 및 RT 채널 신호를 인코딩하기 위해 사용될 수 있는 하나의 예시적인 5x2 행렬
Figure pct00034
Figure pct00035
로 표시된다.
MxN 의사역 행렬(pseudoinverse matrix)
Figure pct00036
는 매사추세츠, 나틱, 더 매스웍스(The MathworksTM)로부터 이용 가능한 매트랩(Matlab®) 내의 "핀브(pinv)" 함수 또는 일리노이, 샴페인, 울프램 리서치(Wolfram Research)로부터 이용 가능한 매스매티카(Mathematica®) 내의 "의사역(PseudoInverse)" 함수와 같은 수치적 소프트웨어 내에 구현된 것을 포함하는 공지된 수치적 기법을 사용하여 NxM 행렬
Figure pct00037
로부터 대개 유도될 수 있다. 행렬
Figure pct00038
는 그 계수들이 임의의 채널들 사이에서 원하지 않는 누화를 생성하거나 또는 임의의 계수가 허수 또는 복소수이면 최적이 아닐 수 있다. 행렬
Figure pct00039
는 이러한 바람직하지 않은 특성을 제거하도록 수정될 수 있다. 그것은 또한 선택된 라우드스피커에 대한 신호를 강조하기 위해 계수를 변화시킴으로써 임의의 요구된 예술적 효과를 달성하도록 변형될 수도 있다. 예를 들어, 좌측 및 우측 채널에 대한 라우드스피커를 통한 재생을 위해 예정된 신호 내의 에너지를 증가시키도록 그리고 중앙 채널에 대한 라우드스피커를 통한 재생을 위해 예정된 신호 내의 에너지를 감소시키도록, 계수가 변화될 수 있다. 행렬
Figure pct00040
내의 계수는 행렬의 각각의 열이 M 차원 공간 내의 단위 크기 벡터(unit-magnitude vector)를 표현하도록 스케일링된다. 행렬
Figure pct00041
의 열에 의해 표현된 벡터는 서로에 대해 실질적으로 직교할 필요가 없다.
하나의 예시적인 5x2 행렬
Figure pct00042
Figure pct00043
로 표시된다. 이러한 행렬은
Figure pct00044
에 의해 N 개의 중간 입력 신호로부터 한 세트의 M 개의 중간 출력 신호를 생성하기 위해 사용될 수 있다. 이러한 연산은 도 2에 개략적으로 도시된다. 믹서(41)는 신호 경로(29-1 및 29-2)로부터 N 개의 중간 입력 오디오 신호를 수신하며, 신호 경로(49-1 내지 49-5)를 따라 한 세트의 M 개의 중간 출력 신호를 생성하기 위해 선형 방정식의 시스템을 따라 이들 신호를 혼합한다. 믹서(41) 내의 박스는 선형 방정식의 시스템에 따라 행렬
Figure pct00045
의 계수에 의한 신호 곱셈 또는 증폭을 표현한다.
비록 행렬
Figure pct00046
가 단독으로 사용될 수 있긴 하지만, 성능은 추가적인 MxK 확장 행렬
Figure pct00047
를 사용함으로써 개선되며,
Figure pct00048
이다. 행렬
Figure pct00049
내의 각각의 열은
Figure pct00050
행렬의 N 개의 열에 의해 표현된 벡터와 실질적으로 직교하는 M 차원 공간 내의 단위 크기 벡터를 표현한다. K가 1보다 크면, 각각의 열은 행렬
Figure pct00051
내의 모든 다른 열에 의해 표현된 벡터와 또한 실질적으로 직교하는 벡터를 표현한다.
행렬
Figure pct00052
의 열에 대한 벡터는 요구될 수 있는 기본적으로 임의의 방식으로 유도될 수 있다. 전술된 기법이 사용될 수 있다. 바람직한 방법이 후술된다.
확장 행렬
Figure pct00053
및 행렬
Figure pct00054
내의 계수는 후술된 바와 같이 스케일링될 수 있으며 행렬
Figure pct00055
를 생성하기 위해 연접될 수 있다. 스케일링 및 연접은 대수적으로
Figure pct00056
로 표현될 수 있으며, |는 행렬
Figure pct00057
와 행렬
Figure pct00058
의 열의 수평 연접(horizontal concatenation)이고, α는 행렬
Figure pct00059
계수에 대한 스케일 인자이며, β는 행렬
Figure pct00060
계수에 대한 스케일 인자이다.
많은 애플리케이션의 경우에, 스케일 인자 α 및 β는 합성 행렬
Figure pct00061
의 프로베니우스 놈이 행렬
Figure pct00062
의 프로베니우스 놈의 10%와 같거나 10% 내에 존재하도록 선택된다. 행렬
Figure pct00063
의 프로베니우스 놈은
Figure pct00064
로 표현될 수 있으며,
Figure pct00065
는 i 행 및 j 열의 행렬 계수이다.
행렬
Figure pct00066
내의 N 개의 열 중 각각의 열과 행렬
Figure pct00067
내의 K 개의 열 중 각각의 열이 단위 크기 벡터를 표현하면, 행렬
Figure pct00068
의 프로베니우스 놈은
Figure pct00069
과 같고 행렬
Figure pct00070
의 프로베니우스 놈은
Figure pct00071
과 같다. 이 경우에, 행렬
Figure pct00072
의 프로베니우스 놈이
Figure pct00073
와 같게 설정되면, 스케일 인자 α 및 β에 대한 값이
Figure pct00074
로 도시된 바와 같이 서로 관련된다는 것을 알 수 있다. 스케일 인자 β의 값을 설정한 후에, 스케일 인자 α에 대한 값이 수학식 7로부터 계산될 수 있다. 바람직하게, 스케일 인자 β는 행렬
Figure pct00075
의 열 내의 계수에 의해 혼합된 신호가 확장 행렬
Figure pct00076
의 열 내의 계수에 의해 혼합된 신호보다 적어도 5dB 더 큰 가중치로 주어지도록 선택될 수 있다. 적어도 6dB의 가중치에서의 차이는
Figure pct00077
이도록 스케일 인자를 제약함으로써 달성될 수 있다. 오디오 채널 사이의 요구된 음향 균형(acoustical balance)를 달성하기 위해, 행렬
Figure pct00078
및 행렬
Figure pct00079
의 열에 대한 스케일링 가중치에서의 더 크거나 더 작은 차이가 사용될 수 있다.
대안적으로, 확장 행렬
Figure pct00080
의 각각의 열 내의 계수는
Figure pct00081
로 도시된 바와 같이 개별적으로 스케일링될 수 있으며, Aj는 확장 행렬
Figure pct00082
의 j 열이고, αj는 j 열에 대한 각각의 스케일 인자이다. 이러한 대안의 경우에, 각각의 스케일 인자가 제약조건
Figure pct00083
을 만족시키면, 우리는 각각의 스케일 인자 αj에 대해 임의의 값을 선택할 수 있다. 바람직하게, αj 및 β 계수의 값은
Figure pct00084
의 프로베니우스 놈이 행렬
Figure pct00085
의 프로베니우스 놈과 대체로 같은 것을 보장하도록 선택된다.
확장 행렬
Figure pct00086
에 따라 혼합된 각각의 신호는 그 신호들이 N 개의 중간 입력 신호로부터 음향 심리학적으로 역상관되도록 그리고 확장 행렬
Figure pct00087
에 따라 혼합되는 모든 다른 신호로부터 음향 심리학적으로 역상관되도록 처리된다. 이는 도 3에 개략적으로 도시되며, 도 3은 예시로서 2(N=2) 개의 중간 입력 신호, 5(M=5) 개의 중간 출력 신호, 및 확장 행렬
Figure pct00088
에 따라 혼합된 3(K=3) 개의 역상관된 신호를 도시한다. 이러한 예에서, 2 개의 중간 입력 신호는 박스(41)에 의해 표현된 기저 역 행렬(basic inverse matrix)
Figure pct00089
에 따라 혼합되며, 그들은 박스(42)에 의해 표현된 확장 행렬
Figure pct00090
에 따라 혼합된 3 개의 역상관된 신호를 제공하기 위해 역상관기(43)에 의해 역상관된다.
역상관기(43)는 다양한 방식으로 구현될 수 있다. 도 4에 도시된 하나의 구현은 그 입력 신호를 상이한 양만큼 지연시킴으로써 음향 심리학적 역상관을 달성한다. 많은 애플리케이션의 경우에 1 밀리초 내지 20 밀리초 범위 내의 지연이 적절하다.
역상관기(43)의 또 다른 구현의 일부분이 도 5에 도시된다. 이러한 부분은 중간 입력 신호 중 하나의 중간 입력 신호를 처리한다. 하나의 중간 입력 신호는 2 개의 중첩하는 주파수 서브밴드 내의 각각의 신호에 필터를 적용하는 2 개의 상이한 신호 처리 경로를 따라 통과된다. 보다 낮은 주파수 경로는 제 1 임펄스 응답(impulse response)에 따라 제 1 주파수 서브밴드 내에서 그 입력 신호를 필터링하는 위상 플립 필터(61) 및 제 1 주파수 서브밴드를 정의하는 저역 통과 필터(62)를 포함한다. 보다 높은 주파수 경로는 제 1 임펄스 응답과 같지 않은 제 2 임펄스 응답에 따라 제 2 주파수 서브밴드 내에서 그 입력 신호를 필터링하는 필터에 의해 구현된 주파수 의존 지연(63), 제 2 주파수 서브밴드를 정의하는 고역 통과 필터(64), 및 지연 컴포넌트(65)를 포함한다. 지연(65)과 저역 통과 필터(62)의 출력들은 가산 노드(66)에서 조합된다. 가산 노드(66)의 출력은 중간 입력 신호에 대하여 음향 심리학적으로 역상관된 신호이다.
위상 플립 필터(61)의 위상 응답은 주파수 의존이며, +90도 및 -90도와 실질적으로 같은 피크를 갖는 주파수에서의 바이모달 분포(bimodal distribution in frequency)를 갖는다. 위상 플립 필터(61)의 이상적인 구현은 1의 크기 응답 및 필터의 통과대역 내의 2 개 이상의 주파수 대역의 에지(edge)에서 +90도 및 -90도 사이에서 교대하거나 플립하는 위상 응답을 갖는다. 위상 플립은
Figure pct00091
로 도시된 임펄스 응답을 갖는 희소 힐버트 변환(sparse Hilbert transform)에 의해 구현될 수 있다.
희소 힐버트 변환의 임펄스 응답은 주파수 응답의 과도 성능(transient performance) 및 평활도(smoothness) 사이에서 트레이드오프(tradeoff)의 균형을 유지함으로써 역상관기 성능을 최적화시키도록 선택된 길이로 절두(truncate)되어야 한다.
위상 플립의 개수는 S 매개변수의 값에 의해 제어된다. 이러한 매개변수는 역상관도(degree of decorrelation)와 임펄스 응답 길이(impulse response length) 사이에서 트레이드오프의 균형을 유지하도록 선택되어야 한다. S 매개변수 값이 증가함에 따라 보다 긴 임펄스 응답이 요구된다. S 매개변수 값이 너무 작으면, 필터는 불충분한 역상관을 제공한다. S 매개변수가 너무 크면, 필터는 역상관된 신호 내에 부적당한 아티팩트를 생성하기에 충분히 긴 시간 간격에 걸쳐 과도 음성(transient sound)을 덧바를 것이다.
이들 특성의 균형을 유지하는 능력은 보다 낮은 주파수에서 보다 좁은 간격을 갖고 보다 높은 주파수에서 보다 넓은 간격을 갖도록 인접한 위상 플립 사이에서 주파수에서의 비균일한 간격을 갖는, 위상 플립 필터(21)를 구현함으로써 개선될 수 있다. 바람직하게, 인접한 위상 플립 사이의 간격은 주파수의 로그 함수이다.
주파수 의존 지연(63)은 순간 주파수가 시퀀스의 지속기간에 걸쳐 π로부터 0으로 단조 감소하는 유한 길이 사인파형 시퀀스 h[n]과 같은 임펄스 응답을 갖는 필터에 의해 구현될 수 있다. 이러한 시퀀스는
Figure pct00092
로 표현될 수 있으며, ω(n)은 순간 주파수이고, ω'(n)은 순간 주파수의 제 1 미분이며, G는 정규화 인자이고,
Figure pct00093
는 순간 위상이며, L은 지연 필터의 길이이다. 정규화 인자 G는
Figure pct00094
을 만족시키는 값으로 설정된다.
이러한 임펄스를 갖는 필터는 그 필터가 과도현상을 갖는 오디오 신호에 적용될 때 때때로 "처핑(chirping)" 아티팩트를 생성할 수 있다. 이러한 효과는
Figure pct00095
로 도시된 바와 같이 순간 위상 항에 유사 잡음 항(noise-like term)을 가산함으로써 감소될 수 있다. 유사 잡음 항이 π의 작은 일부분인 분산을 갖는 백색 가우시안 잡음 시퀀스이면, 과도현상을 필터링함으로써 생성되는 아티팩트는 처프(chirp)보다 잡음에 유사한 음성을 낼 것이며, 지연과 주파수 사이의 요구된 관계는 여전히 달성된다.
저역 통과 필터(62)와 고역 통과 필터(64)의 차단 주파수는 두 개의 필터의 통과대역 사이에 갭(gap)이 존재하지 않도록 그리고 통과대역이 중첩하는 크로스오버 주파수(crossover frequency) 근처의 영역 내에서의 조합된 출력의 스펙트럼 에너지가 이러한 영역 내의 중간 입력 신호의 스펙트럼 에너지와 실질적으로 같도록 대략 2.5 kHz가 되도록 선택되어야 한다. 지연(65)에 의해 부과된 지연의 양은 보다 높은 주파수 및 보다 낮은 주파수 신호 처리 경로의 전파 지연(propagation delay)이 크로스오버 주파수에서 대략 같도록 설정되어야 한다.
역상관기는 상이한 방식으로 구현될 수 있다. 예를 들어, 저역 통과 필터(62) 및 고역 통과 필터(64) 중 어느 하나 또는 둘 모두가 위상 플립 필터(61) 및 주파수 의존 지연(63)에 각각 선행할 수 있다. 지연(65)은 요구된 바와 같이 신호 처리 경로 내에 위치된 하나 이상의 지연 컴포넌트에 의해 구현될 수 있다.
구현의 추가적인 상세한 설명은 맥그레이스(McGrath) 등에 의해 "업믹싱 시스템에 대한 역상관기(Decorrelator for Upmixing Systems)"이라는 발명의 명칭으로 2009년 9월 28일자로 출원된 국제 특허출원 제PCT/US2009/058590호로부터 획득될 수 있다.
D. 바람직한 유도 방법
확장 행렬
Figure pct00096
를 유도하기 위한 바람직한 방법은 "시드 행렬(seed matrix)"
Figure pct00097
를 생성함으로써 시작한다. 시드 행렬
Figure pct00098
는 확장 행렬
Figure pct00099
의 계수에 대한 초기 평가를 포함한다. 열은 중간 행렬
Figure pct00100
를 형성하기 위해 시드 행렬
Figure pct00101
로부터 선택된다. 중간 행렬
Figure pct00102
는 제 2 중간 행렬
Figure pct00103
을 형성하기 위해 사용된다. 계수의 열은 확장 행렬
Figure pct00104
를 획득하기 위해 중간 행렬
Figure pct00105
로부터 추출된다. 시드 행렬
Figure pct00106
를 생성하기 위해 사용될 수 있는 방법은 중간 행렬
Figure pct00107
, 중간 행렬
Figure pct00108
및 확장 행렬
Figure pct00109
를 형성하기 위한 과정을 설명한 후에 후술된다.
1. 확장 행렬
Figure pct00110
의 유도
전술된 기저 역 행렬
Figure pct00111
은 M 개의 행과 N 개의 열을 갖는다. M 개의 행과 K 개의 열을 갖는 시드 행렬
Figure pct00112
이 생성되며,
Figure pct00113
이다. 행렬
Figure pct00114
와 시드 행렬
Figure pct00115
는 M 개의 행과 N+K 개의 열을 갖는 중간 행렬
Figure pct00116
을 형성하기 위해 수평으로 연접된다. 이러한 연접은
Figure pct00117
로 표현될 수 있다.
중간 행렬
Figure pct00118
의 각각의 j 열 내의 계수들은 그 계수들이 M 차원 공간 내에서의 단위 크기 벡터 Q(j)를 표현하도록 스케일링된다. 이는 각각의 열 내의 계수를 그들이 표현하는 벡터의 크기로 나눔으로써 수행될 수 있다. 각각의 벡터의 크기는 열 내의 계수들의 제곱의 합의 제곱근으로부터 계산될 수 있다.
그런 다음, M 개의 행과 N+K 개의 열 내에 배열된 계수들을 갖는 중간 행렬
Figure pct00119
이 중간 행렬
Figure pct00120
로부터 획득된다. 중간 행렬
Figure pct00121
의 각각의 j 열 내의 계수들은 M 차원 공간 내의 벡터 R(j)를 표현한다. 이들 열 벡터는 이하의 의사 코드 프래그먼트(pseudo code fragment)
(1) R(1) = Q(1)
(2) for j = 2 to K {
(3) T(j) = (1-RR(j-1) * TRANSP[RR(j-1)] * Q(j);
(4) if MAG[T(j)] > 0.001 {
(5) R(j) = T(j) / MAG[T(j)];
(6) } else {
(7) R(j) = ZERO;
(8) }
(9) }
(10) for j=1 to K {
(11) A(j) = R(j+N);
(12) }
에 의해 표현된 프로세스에 의해 계산된다. 이러한 의사 코드 프래그먼트 내의 명령문(statement)은 C 프로그래밍 언어와 유사한 구문적 특징(syntactical feature)을 갖는다. 이러한 코드 프래그먼트는 실제적인 구현이 되도록 의도되지 않지만 단지 확장 행렬
Figure pct00122
을 계산할 수 있는 프로세스를 설명하는 것을 돕도록 의도된다.
표기 R(j), Q(j), T(j) 및 A(j)는 각각 중간 행렬
Figure pct00123
, 중간 행렬
Figure pct00124
, 임시 행렬
Figure pct00125
및 확장 행렬
Figure pct00126
의 j 열을 표현한다.
표기 RR(j-1)은 M 개의 행과 j-1 개의 열을 갖는 행렬
Figure pct00127
의 서브행렬을 표현한다. 이러한 서브행렬은 중간 행렬
Figure pct00128
의 1 열 내지 j-1 열을 포함한다.
표기 TRANSP[RR(j-1)]은 행렬 RR(j-1)의 전치를 돌려주는 함수를 표현한다. 표기 MAG[T(j)]는 열 벡터 T(j)의 크기를 돌려주는 함수를 표현하며, 이는 임시 행렬
Figure pct00129
의 j 열 내의 계수들의 유클리드 놈(Euclidean norm)이다.
의사 코드 프래그먼트를 참조하면, 명령문(1)은 행렬
Figure pct00130
의 제 1 열로부터 행렬
Figure pct00131
의 제 1 열을 초기화시킨다. 명령문(2) 내지 명령문(9)는 행렬
Figure pct00132
의 2 열 내지 K 열을 계산하는 루프(loop)를 구현한다.
명령문(3)은 서브행렬 RR 및 중간 행렬
Figure pct00133
로부터 임시 행렬
Figure pct00134
의 j 열을 계산한다. 전술된 바와 같이, 서브행렬 RR(j-1)은 중간 행렬
Figure pct00135
의 첫번째 j-1 개의 열을 포함한다. 명령문(4)는 열 벡터 T(j)의 크기가 0.001보다 큰지 여부를 판단한다. T(j)의 크기가 크면, 명령문(5)는 단위 크기를 갖도록 스케일링된 후의 벡터 T(j)와 같도록 벡터 R(j)를 설정한다. 열 벡터 T(j)의 크기가 0.001보다 크지 않으면, 벡터 R(j)는 모든 요소가 0과 같은 벡터 ZERO(0)와 같도록 설정된다.
명령문(10) 내지 명령문(12)는 N+1 열 내지 N+K 열인 중간 행렬
Figure pct00136
의 마지막 K 개의 열로부터 M+K 확장 행렬
Figure pct00137
을 획득하는 루프를 구현한다. 확장 행렬
Figure pct00138
내의 열 벡터는 기저 행렬
Figure pct00139
의 열 벡터에 대하여 실질적으로 직교하는 것은 물론 서로에 대하여 실질적으로 직교한다.
임의의 열 벡터 T(j)의 크기가 0.001보다 크지 않다고 명령문(4)가 판단하면, 이는, 벡터 T(j)가 열 벡터 Q(1) 내지 Q(j-1)에 충분히 선형적으로 독립적이지 않으며 상응하는 열 벡터 R(j)가 ZERO(0) 벡터와 같도록 설정된다는 것을 나타낸다.
Figure pct00140
에 대해 열 벡터 R(j) 중 임의의 열 벡터가 ZERO(0) 벡터와 같으면, 시드 행렬의 상응하는 열 P(j)은 그의 선행하는 열에 선형적으로 독립적이지 않다. 이러한 후자의 상황은 시드 행렬
Figure pct00141
에 대한 새로운 열 P(j)를 획득하고 또 다른 확장 행렬
Figure pct00142
를 유도하기 위해 프로세스를 다시 수행함으로써 수정된다.
a) 시드 행렬
Figure pct00143
의 선택
MxK 시드 행렬
Figure pct00144
은 다양한 방식으로 생성될 수 있다. 2 개의 방식이 이하의 문단에서 설명된다.
첫번째 방식은 의사 난수 값을 갖는 계수들의 MxK 어레이를 생성함으로써 시드 행렬을 생성한다.
두번째 방식은 중간 출력 신호에 의해 표현된 음장을 재생성하기 위해 사용될 음향 변화기의 예측된 위치 내의 대칭성을 설명하는 계수를 갖는 시드 행렬을 생성한다. 이는 생성하는 동안 시드 행렬의 열을 임시적으로 재정렬함으로써 수행될 수 있다.
예를 들어, 전술된 5 채널 행렬은 L, C, R, LS 및 RS와 같은 순서로 리스트된 채널에 대한 신호를 생성한다. 이러한 특정 세트의 채널에 대한 라우드스피커 배치의 예상된 대칭성은 그들의 각각의 음향 변환기의 방위각 위치(azimuthal location)에 따라 채널을 순서대로 재배열함으로써 보다 용이하게 이용될 수 있다. 하나의 적절한 순서는 LS, L, C, R 및 RS이며, 이는 세트의 중간에 중앙 채널 C을 배치한다.
이러한 순서를 사용하여, 적절한 대칭성을 갖는 한 세트의 후보 벡터가 구성될 수 있다. 일 예가 표 1에 도시되어 있으며, 표 1에서 각각의 벡터는 표 1의 각각의 행 내에 도시된다. 시드 행렬
Figure pct00145
의 열을 정의하기 위해 이들 벡터들의 전치가 사용될 것이다.
LS L C R RS
우함수 FE1 0 0 1 0 0
우함수 FE2 0 1 0 1 0
우함수 FE3 1 0 0 0 1
기함수 FO1 0 -1 0 1 0
기함수 FO2 1 0 0 0 -1
표 내의 각각의 행은 중심 채널에 대한 열에 대하여 우 대칭성(even symmetry) 또는 기 대칭성(odd symmetry)을 갖는다. K 개의 벡터의 총합이 표로부터 선택되고, 전치되며, 초기 행렬
Figure pct00146
를 형성하기 위해 사용된다. 예를 들어, K=3이고, 함수 FE1, FE2 및 FO1에 대한 벡터가 선택되면, 초기 행렬
Figure pct00147
Figure pct00148
이다.
그런 다음, 요구된 시드 행렬
Figure pct00149
의 채널 순서와 일치하도록 벡터의 요소의 순서가 변화된다. 이는 이하의 행렬
Figure pct00150
을 생성한다.
이러한 시드 행렬
Figure pct00151
가 수학식 4에 도시된 기저 행렬
Figure pct00152
과 함께 사용되면, 전술된 프로세스에 의해 획득된 중간 행렬
Figure pct00153
Figure pct00154
이다.
이러한 행렬
Figure pct00155
로부터 형성된 제 2 중간 행렬
Figure pct00156
Figure pct00157
이다.
이러한 중간 행렬
Figure pct00158
로부터 획득된 확장 행렬
Figure pct00159
Figure pct00160
이다.
E. 구현
본 발명의 다양한 양태를 포함하는 장치는 일반적인 목적의 컴퓨터 내에 발견되는 것과 유사한 컴포넌트에 결합되는 디지털 신호 프로세서(digital signal processor, DSP) 회로와 같은 보다 전문화된 컴포넌트를 포함하는 컴퓨터 또는 일부 다른 장치에 의해 실행되는 소프트웨어를 포함하는 다양한 방식으로 구현될 수 있다. 도 6은 본 발명의 양태를 구현하기 위해 사용될 수 있는 장치(70)의 개략적인 블록 다이어그램이다. 프로세서(72)는 컴퓨팅 자원을 제공한다. RAM(73)은 처리를 위한 프로세서(72)에 의해 사용되는 시스템 RAM(random access memory)이다. ROM(74)은 장치(70)를 동작시키기 위해 필요한 프로그램을 저장하기 위한 그리고 아마도 본 발명의 다양한 양태를 수행하기 위한 ROM(read only memory)과 같은 임의의 형태의 영속 저장장치를 표현한다. I/O 제어(75)는 통신 신호 경로(19, 59)를 통해 신호를 수신하고 송신하는 인터페이스 회로를 표현한다. 도시된 실시예에서, 모든 주요 시스템 컴포넌트는 버스(71)에 연결되며, 버스(71)는 하나 초과의 물리적이거나 논리적인 버스를 표현할 수 있지만, 본 발명을 구현하기 위해 하나의 버스 아키텍처가 요구되지는 않는다.
일반적인 목적의 컴퓨터 시스템에 의해 구현된 실시예에서, 키보드 또는 마우스 및 디스플레이와 같은 장치로 인터페이싱하기 위한 추가 컴포넌트 및 자기 테이프 또는 디스크 또는 광 매체와 같은 저장 매체를 갖는 저장 장치를 제어하기 위한 추가 컴포넌트가 포함될 수 있다. 저장 매체는 시스템, 유틸리티 및 애플리케이션을 운영하기 위한 명령어 프로그램을 기록하기 위해 사용될 수 있으며, 본 발명의 다양한 양태를 구현하는 프로그램을 포함할 수 있다.
본 발명의 다양한 양태를 실시하기 위해 요구되는 기능은 이산 로직 컴포넌트(discrete logic component), 집적 회로, 하나 이상의 ASIC 및/또는 프로그램 제어식 프로세서를 포함하는 매우 다양한 방식으로 구현되는 컴포넌트에 의해 수행될 수 있다. 이들 컴포넌트가 구현되는 방식은 본 발명에서 중요하지 않다.
본 발명의 소프트웨어 구현은 초음파 주파수로부터 자외선 주파수를 포함하는 스펙트럼을 통해 기저대역 또는 변조된 통신 경로와 같은 다양한 기계 판독 가능한 매체에 의해 또는 자기 테이프, 카드 또는 디스크, 광 카드 또는 디스크, 및 종이를 포함하는 매체 상의 검출 가능한 마킹을 포함하는 기본적으로 임의의 기록 기술을 사용하여 정보를 전달하는 저장 매체에 의해 전달될 수 있다.
20: 입력 신호 분석기 30: 비확산 신호 프로세서
40: 확산 신호 프로세서 43: 역상관기
63: 주파수 의존 지연 64: 고역 통과 필터
65: 지연 61: 위상 플립 필터
62: 저역 통과 필터 72: 프로세서
73: RAM 74: ROM
75: I/O 제어

Claims (10)

  1. 확산 음장의 제시를 위해 N 개의 입력 오디오 신호로부터 M 개의 출력 오디오 신호를 유도하기 위한 방법으로서, M은 N보다 크고 2보다 크며, 상기 방법은
    상기 N 개의 입력 오디오 신호를 수신하는 단계,
    각각의 중간 신호가 상기 N 개의 입력 오디오 신호와 음향 심리학적으로 역상관되며, 그리고 K가 1보다 크면 상기 각각의 중간 신호가 모든 다른 중간 신호와 음향 심리학적으로 역상관되도록, 상기 N 개의 입력 오디오 신호로부터 K 개의 중간 오디오 신호를 유도하되, K는 1보다 크거나 같고 M-N보다 작거나 같은 단계, 및
    상기 M 개의 출력 오디오 신호를 유도하기 위해, 상기 N 개의 입력 오디오 신호와 상기 K 개의 중간 신호를 혼합하되, 상기 혼합은 M 차원 공간 내에 한 세트의 N+K 개의 벡터를 명시하는 행렬의 계수를 갖는 선형 방정식의 시스템에 따라 수행되며, 상기 N+K 개의 벡터 중 적어도 K 개의 벡터는 상기 세트 내의 모든 다른 벡터에 대해 실질적으로 직교하는 단계를 포함하는 방법.
  2. 제 1 항에 있어서, 상기 N 개의 입력 오디오 신호 중 하나의 입력 오디오 신호를 지연시킴으로써 상기 K 개의 중간 신호 각각을 유도하는 방법.
  3. 제 1 항에 있어서, 각각의 중간 신호를 하나의 방법에 의해 유도하며, 상기 하나의 방법은
    +90도 및 -90도와 실질적으로 동일한 피크를 갖는 주파수에서의 바이모달 분포를 갖는 동 위상 주파수 의존 변화를 갖는 제 1 서브밴드 신호를 획득하기 위해 제 1 주파수 서브밴드 내의 제 1 임펄스 응답에 따라서 그리고 주파수 의존 지연을 갖는 제 2 서브밴드 신호를 획득하기 위해 제 2 주파수 서브밴드 내의 제 2 임펄스 응답에 따라서 상기 N 개의 입력 오디오 신호 중 하나의 입력 오디오 신호를 필터링하되,
    상기 제 2 임펄스 응답은 상기 제 1 임펄스 응답과 동일하지 않고,
    상기 제 2 주파수 서브밴드는 상기 제 1 주파수 서브밴드 내에 포함된 주파수보다 높은 주파수를 포함하며,
    상기 제 1 주파수 서브밴드는 상기 제 2 주파수 서브밴드 내에 포함된 주파수보다 낮은 주파수를 포함하는 단계, 및
    상기 제 1 서브밴드 신호 및 상기 제 2 서브밴드 신호의 조합으로부터 상기 각각의 중간 신호를 유도하는 단계를 포함하는 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서, N은 1보다 큰 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 행렬은 제 1 스케일 인자 β만큼 스케일링된 계수를 갖는 N 개의 벡터에 대한 계수의 제 1 서브행렬, 및 하나 이상의 제 2 스케일 인자 α만큼 스케일링된 K 개의 벡터에 대한 계수의 제 2 서브행렬을 포함하고,
    상기 N 개의 입력 오디오 신호는 상기 제 1 스케일 인자만큼 스케일링된 바와 같은 상기 제 1 서브행렬의 상기 계수를 갖는 선형 방정식의 시스템에 따라 혼합되며,
    상기 K 개의 중간 오디오 신호는 상기 하나 이상의 제 2 스케일 인자만큼 스케일링된 바와 같은 상기 제 2 서브행렬의 상기 계수를 갖는 선형 방정식의 시스템에 따라 혼합되는 방법.
  6. 제 5 항에 있어서,
    K 개의 벡터에 대한 계수의 상기 제 2 서브행렬은 하나의 제 2 스케일 인자 α만큼 스케일링되고,
    상기 제 1 스케일 인자 및 상기 제 2 스케일 인자는 상기 행렬의 프로베니우스 놈(Frobenius norm)이 상기 제 1 스케일 인자 β만큼 스케일링되지 않은 상기 제 1 서브행렬의 프로베니우스 놈의 10% 내에 존재하도록 선택되며,
    Figure pct00161
    인 방법.
  7. 확산 음장의 제시를 위해 M 개의 출력 오디오 신호를 유도하기 위해 N 개의 입력 오디오 신호를 혼합하는데에 사용하기 위한 선형 방정식의 시스템에 대한 계수의 행렬을 획득하기 위한 방법으로서, 상기 방법은
    M 차원 공간 내에서 한 세트의 N 개의 제 1 벡터를 명시하는 계수를 갖는 제 1 행렬을 획득하는 단계,
    상기 M 차원 공간 내에서 한 세트의 K 개의 제 2 벡터를 유도하되, 각각의 제 2 벡터는 각각의 제 1 벡터에 대해 실질적으로 직교하며, K가 1보다 크면 상기 각각의 제 2 벡터는 모든 다른 제 2 벡터에 대해 실질적으로 직교하는 단계,
    상기 세트의 K 개의 제 2 벡터를 명시하는 계수를 갖는 제 2 행렬을 획득하는 단계, 및
    상기 세트의 N 개의 제 1 벡터 및 상기 세트의 K 개의 제 2 벡터의 통합을 명시하는 계수를 갖는 중간 행렬을 획득하기 위해 상기 제 1 행렬과 상기 제 2 행렬을 연접시키는 단계를 포함하는 방법.
  8. 제 7 항에 있어서, 상기 스케일링된 중간 행렬의 프로베니우스 놈이 상기 제 1 행렬의 프로베니우스 놈의 10% 내에 존재하도록 상기 중간 행렬의 상기 계수를 스케일링하는 단계를 포함하는 방법.
  9. 입력 신호를 수신하기 위한 하나 이상의 입력 단자,
    메모리,
    제 1 항 내지 제 8 항 중 어느 하나의 항에 따른 방법을 수행하기 위한 하나 이상의 명령어 프로그램을 기록하는 저장 매체,
    상기 하나 이상의 명령어 프로그램을 실행하기 위해 상기 하나 이상의 입력 단자, 상기 메모리, 상기 저장 매체 및 상기 하나 이상의 출력 단자에 연결된 처리 회로, 및
    출력 신호를 전송하기 위한 하나 이상의 출력 단자를 포함하는 장치.
  10. 제 1 항 내지 제 8 항 중 어느 한 항에 따른 방법을 수행하기 위해 장치에 의해 실행 가능한 명령어 프로그램을 기록하는 저장 매체.
KR1020127018733A 2010-01-22 2011-01-07 개선된 다중 채널 업믹싱을 위한 다중 채널 역상관의 사용 KR101380167B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US29769910P 2010-01-22 2010-01-22
US61/297,699 2010-01-22
PCT/US2011/020561 WO2011090834A1 (en) 2010-01-22 2011-01-07 Using multichannel decorrelation for improved multichannel upmixing

Publications (2)

Publication Number Publication Date
KR20120102127A true KR20120102127A (ko) 2012-09-17
KR101380167B1 KR101380167B1 (ko) 2014-04-02

Family

ID=43766522

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127018733A KR101380167B1 (ko) 2010-01-22 2011-01-07 개선된 다중 채널 업믹싱을 위한 다중 채널 역상관의 사용

Country Status (12)

Country Link
US (1) US9269360B2 (ko)
EP (1) EP2526547B1 (ko)
JP (1) JP5612125B2 (ko)
KR (1) KR101380167B1 (ko)
CN (1) CN102714039B (ko)
AR (1) AR081098A1 (ko)
BR (1) BR112012018291B1 (ko)
ES (1) ES2588222T3 (ko)
MX (1) MX2012008403A (ko)
RU (1) RU2519045C2 (ko)
TW (1) TWI444989B (ko)
WO (1) WO2011090834A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150036056A (ko) * 2012-07-16 2015-04-07 톰슨 라이센싱 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011199847A (ja) * 2010-02-25 2011-10-06 Ricoh Co Ltd 会議システムの端末装置、会議システム
EP2751803B1 (en) * 2011-11-01 2015-09-16 Koninklijke Philips N.V. Audio object encoding and decoding
CN104025470B (zh) * 2012-12-31 2018-09-07 华为技术有限公司 报告信道状态信息csi的方法、用户设备和基站
GB2509533B (en) * 2013-01-07 2017-08-16 Meridian Audio Ltd Group delay correction in acoustic transducer systems
WO2014126688A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
RU2630370C9 (ru) 2013-02-14 2017-09-26 Долби Лабораторис Лайсэнзин Корпорейшн Способы управления межканальной когерентностью звуковых сигналов, подвергнутых повышающему микшированию
KR101751228B1 (ko) 2013-05-24 2017-06-27 돌비 인터네셔널 에이비 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
US9892737B2 (en) 2013-05-24 2018-02-13 Dolby International Ab Efficient coding of audio scenes comprising audio objects
TWI557724B (zh) * 2013-09-27 2016-11-11 杜比實驗室特許公司 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器
BR112016006832B1 (pt) 2013-10-03 2022-05-10 Dolby Laboratories Licensing Corporation Método para derivar m sinais de áudio difusos a partir de n sinais de áudio para a apresentação de um campo sonoro difuso, aparelho e meio não transitório
US9756448B2 (en) 2014-04-01 2017-09-05 Dolby International Ab Efficient coding of audio scenes comprising audio objects
CN105336332A (zh) 2014-07-17 2016-02-17 杜比实验室特许公司 分解音频信号
CN104484559B (zh) * 2014-12-09 2017-07-04 大连楼兰科技股份有限公司 数字信号的解析方法及其解析装置
CN105992120B (zh) 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
WO2016141023A1 (en) * 2015-03-03 2016-09-09 Dolby Laboratories Licensing Corporation Enhancement of spatial audio signals by modulated decorrelation
JP6202076B2 (ja) * 2015-12-07 2017-09-27 オンキヨー株式会社 音声処理装置
EP3382703A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for processing an audio signal
WO2021046136A1 (en) * 2019-09-03 2021-03-11 Dolby Laboratories Licensing Corporation Audio filterbank with decorrelating components
US11533560B2 (en) 2019-11-15 2022-12-20 Boomcloud 360 Inc. Dynamic rendering device metadata-informed audio enhancement system
GB202207289D0 (en) 2019-12-17 2022-06-29 Cirrus Logic Int Semiconductor Ltd Two-way microphone system using loudspeaker as one of the microphones

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
CN1672464B (zh) 2002-08-07 2010-07-28 杜比实验室特许公司 音频声道空间转换
DE10351793B4 (de) 2003-11-06 2006-01-12 Herbert Buchner Adaptive Filtervorrichtung und Verfahren zum Verarbeiten eines akustischen Eingangssignals
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
JP4335752B2 (ja) 2004-06-15 2009-09-30 三菱電機株式会社 擬似ステレオ信号生成装置および擬似ステレオ信号生成プログラム
EP1899960A2 (en) 2005-05-26 2008-03-19 LG Electronics Inc. Method of encoding and decoding an audio signal
US8284961B2 (en) * 2005-07-15 2012-10-09 Panasonic Corporation Signal processing device
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
CA2617050C (en) * 2005-07-29 2012-10-09 Lg Electronics Inc. Method for signaling of splitting information
KR101218776B1 (ko) 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
US8712061B2 (en) * 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
DE102006050068B4 (de) 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
US8705757B1 (en) * 2007-02-23 2014-04-22 Sony Computer Entertainment America, Inc. Computationally efficient multi-resonator reverberation
RU2439719C2 (ru) 2007-04-26 2012-01-10 Долби Свиден АБ Устройство и способ для синтезирования выходного сигнала
WO2008153944A1 (en) 2007-06-08 2008-12-18 Dolby Laboratories Licensing Corporation Hybrid derivation of surround sound audio channels by controllably combining ambience and matrix-decoded signal components
JP5122681B2 (ja) 2008-05-23 2013-01-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメトリックステレオアップミクス装置、パラメトリックステレオデコーダ、パラメトリックステレオダウンミクス装置、及びパラメトリックステレオエンコーダ

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150036056A (ko) * 2012-07-16 2015-04-07 톰슨 라이센싱 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
KR20200019778A (ko) * 2012-07-16 2020-02-24 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
US10595145B2 (en) 2012-07-16 2020-03-17 Dolby Laboratories Licensing Corporation Method and device for decoding a higher-order ambisonics (HOA) representation of an audio soundfield
KR20210005321A (ko) * 2012-07-16 2021-01-13 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
US10939220B2 (en) 2012-07-16 2021-03-02 Dolby Laboratories Licensing Corporation Method and device for decoding a higher-order ambisonics (HOA) representation of an audio soundfield
US11451920B2 (en) 2012-07-16 2022-09-20 Dolby Laboratories Licensing Corporation Method and device for decoding a higher-order ambisonics (HOA) representation of an audio soundfield
KR20230003380A (ko) * 2012-07-16 2023-01-05 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치
US11743669B2 (en) 2012-07-16 2023-08-29 Dolby Laboratories Licensing Corporation Method and device for decoding a higher-order ambisonics (HOA) representation of an audio soundfield

Also Published As

Publication number Publication date
BR112012018291A2 (pt) 2018-06-05
KR101380167B1 (ko) 2014-04-02
EP2526547A1 (en) 2012-11-28
MX2012008403A (es) 2012-08-15
TWI444989B (zh) 2014-07-11
AR081098A1 (es) 2012-06-13
US9269360B2 (en) 2016-02-23
RU2012134496A (ru) 2014-02-27
ES2588222T3 (es) 2016-10-31
JP5612125B2 (ja) 2014-10-22
CN102714039B (zh) 2014-09-10
US20120321105A1 (en) 2012-12-20
RU2519045C2 (ru) 2014-06-10
WO2011090834A1 (en) 2011-07-28
EP2526547B1 (en) 2016-07-06
BR112012018291B1 (pt) 2020-10-27
JP2013517687A (ja) 2013-05-16
CN102714039A (zh) 2012-10-03
TW201140561A (en) 2011-11-16

Similar Documents

Publication Publication Date Title
KR101380167B1 (ko) 개선된 다중 채널 업믹싱을 위한 다중 채널 역상관의 사용
US8515104B2 (en) Binaural filters for monophonic compatibility and loudspeaker compatibility
TWI413109B (zh) 用於上混系統之解相關器
US20210314719A1 (en) Method and device for applying dynamic range compression to a higher order ambisonics signal
Schlecht et al. Optimized velvet-noise decorrelator
US9794716B2 (en) Adaptive diffuse signal generation in an upmixer
EP2934025A1 (en) Method and device for applying dynamic range compression to a higher order ambisonics signal

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170317

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180309

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190314

Year of fee payment: 6