KR20120102127A - 개선된 다중 채널 업믹싱을 위한 다중 채널 역상관의 사용 - Google Patents
개선된 다중 채널 업믹싱을 위한 다중 채널 역상관의 사용 Download PDFInfo
- Publication number
- KR20120102127A KR20120102127A KR1020127018733A KR20127018733A KR20120102127A KR 20120102127 A KR20120102127 A KR 20120102127A KR 1020127018733 A KR1020127018733 A KR 1020127018733A KR 20127018733 A KR20127018733 A KR 20127018733A KR 20120102127 A KR20120102127 A KR 20120102127A
- Authority
- KR
- South Korea
- Prior art keywords
- matrix
- coefficients
- signal
- vectors
- audio signals
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Abstract
서로에 대해 음향 심리학적으로 역상관되면서 확산 음장의 표현을 개선하기 위해 사용될 수 있는 복수의 개수(M)의 오디오 신호를 생성하도록 일정 개수(N)의 오디오 신호를 업믹싱하기 위해 선형 방정식의 시스템이 사용된다. 선형 방정식은 서로에 대해 실질적으로 직교하는 M 차원 공간 내에 한 세트의 벡터를 명시하는 행렬에 의해 정의된다. 선형 방정식의 시스템을 유도하기 위한 방법이 개시된다.
Description
관련 출원에 대한 상호 참조
본 출원은 이에 전체적으로 참조로서 통합되는 2010년 1월 22일자로 출원된 미국 가특허출원 제61/297,699호에 대한 우선권을 주장한다.
본 발명은 일반적으로 오디오 신호를 위한 신호 처리에 관한 것으로서, 특히 확산 음장을 표현하는 오디오 신호를 생성하기 위해 사용될 수 있는 신호 처리 기법에 관한 것이다. 이러한 신호 처리 기법들은 업믹싱(upmixing)과 같은 오디오 애플리케이션에서 사용될 수 있으며, 업믹싱은 어떤 개수의 출력 채널 신호를 보다 적은 개수의 입력 채널 신호로부터 유도한다.
본 발명은 업믹싱으로부터 획득된 오디오 신호의 품질을 개선하기 위해 사용될 수 있지만, 본 발명은 확산 음장을 표현하는 하나 이상의 오디오 신호를 요구하는 기본적으로 임의의 애플리케이션과 유익하게 사용될 수 있다. 이하의 설명에서 업믹싱 애플리케이션에 대해 보다 특별히 언급된다.
업믹싱으로서 알려진 프로세스는 임의의 개수(M)의 오디오 신호 채널을 보다 적은 개수(N)의 오디오 신호 채널로부터 유도한다. 예를 들어, 좌측(L), 우측(R), 중앙(C), 좌측 서라운드(LS) 및 우측 서라운드(RS)로 지정된 5 개의 채널에 대한 오디오 신호가 여기에서 좌측 입력(Li) 및 우측 입력(Ri)으로 지정된 2 개의 입력 채널에 대한 오디오 신호를 업믹싱하여 획득될 수 있다. 업믹싱 장치의 일례는 군드라이(Gundry)의 "서라운드 음향을 위한 신규한 활성 행렬 디코더(A New Active Matrix Decoder for Surround Sound)"(제 19회 에이이에스 컨퍼런스(19th AES Conference), 2001년 5월)에서 설명된 돌비(Dolby®) 프로 로직(Pro Logic®) II 디코더이다. 이러한 특별한 기술을 사용하는 업믹서(upmixer)는 2 개의 입력 신호 채널이 표현하는 음장(sound field)이 어떻게 청취자에게 방향성 인상(directional impression)을 전달하도록 의도되는지를 판단하기 위해 2 개의 입력 신호 채널의 위상 및 진폭을 분석한다. 입력 오디오 신호의 요구된 예술적 효과에 따라, 업믹서는 겉보기 방향(apparent direction)을 갖지 않는 엔벨로핑 확산 음장(enveloping diffuse sound field) 내에 겉보기 방향을 갖는 하나 이상의 청각 성분의 감각을 청취자에게 제공하기 위해 5 개의 채널에 대한 출력 신호를 생성할 수 있어야 한다. 본 발명은 고품질을 갖는 확산 음장을 하나 이상의 음향 변환기(acoustic transducer)를 통해 생성할 수 있는 하나 이상의 채널에 대한 출력 오디오 신호를 생성하는 것에 관한 것이다.
확산 음장을 표현하도록 의도된 오디오 신호는 음성이 청취자 주위에서 모든 방향으로부터는 아니더라도 많은 방향으로부터 발산하도록 청취자 내에 인상을 생성해야 한다. 이러한 효과는 2 개의 라우드 스피커 각각을 통해 동일한 오디오 신호를 재생성함으로써 2 개의 라우드 스피커들 사이에 음성의 팬텀 영상(phantom image) 또는 겉보기 방향을 생성하는 주지의 현상에 상반된다. 고품질 확산 음장은 대체로 청취자 주위에 위치된 복수의 라우드 스피커를 통해 동일한 오디오 신호를 재생성함으로써 생성될 수는 없다. 결과로서 생성되는 음장은 종종 위치에서의 매우 작은 변화에 대해 많은 양만큼 변화하면서 상이한 청취 위치에서 폭넓게 변하는 진폭을 갖는다. 청취 영역 내의 특정 위치가 하나의 귀에 대해서는 음성이 없는 것으로 보이지만 나머지 귀에 대해서는 그렇지 않은 것으로 보이는 것은 드문 것이 아니다.
본 발명의 목적은 라우드 스피커와 같은 음향 변환기를 통해 보다 고 품질의 확산 음장을 생성하기 위해 사용될 수 있는 2 개 이상의 오디오 신호 채널을 유도하기 위한 오디오 신호 처리 기법을 제공하는 것이다.
본 발명의 일 양태에 따라, 확산 음장의 제시를 위해 N 개의 입력 오디오 신호로부터 M 개의 출력 신호가 유도되는데, M은 N보다 크고 2보다 크다. 이는, 각각의 중간 오디오 신호가 N 개의 입력 오디오 신호와 음향 심리학적으로 역상관되며, K가 1보다 크면 각각의 중간 오디오 신호가 모든 다른 중간 오디오 신호와 음향 심리학적으로 역상관되도록, N 개의 입력 오디오 신호로부터 K 개의 중간 오디오 신호를 유도함으로써 수행된다. M 차원 공간 내에 한 세트의 N+K 개의 벡터를 명시하는 행렬의 계수를 갖는 선형 방정식의 시스템에 따라 N 개의 입력 오디오 신호와 K 개의 중간 오디오 신호가 혼합되어 M 개의 출력 오디오 신호를 유도한다. N+K 개의 벡터 중 적어도 K 개의 벡터는 상기 세트 내의 모든 다른 벡터에 대해 실질적으로 직교한다. 수량 K는 1보다 크거나 같고 M-N보다 작거나 같다.
본 발명의 또 다른 양태에 따라, 확산 음장의 제시를 위해 M 개의 출력 오디오 신호를 유도하기 위해 N 개의 입력 오디오 신호를 혼합하는데 사용하기 위한 선형 방정식의 시스템에 대한 계수의 행렬이 획득된다. 이는, M 차원 공간 내에서 한 세트의 N 개의 제 1 벡터를 명시하는 계수를 갖는 제 1 행렬을 획득하는 단계; M 차원 공간 내에서 한 세트의 K 개의 제 2 벡터를 유도하되, 각각의 제 2 벡터는 각각의 제 1 벡터에 대해 실질적으로 직교하며, K가 1보다 크면 각각의 제 2 벡터는 모든 다른 제 2 벡터에 대해 실질적으로 직교하는 단계; 상기 세트의 K 개의 제 2 벡터를 명시하는 계수를 갖는 제 2 행렬을 획득하는 단계; 상기 세트의 N 개의 제 1 벡터 및 상기 세트의 K 개의 제 2 벡터의 통합을 명시하는 계수를 갖는 중간 행렬을 획득하기 위해 제 1 행렬과 제 2 행렬을 연접(concatenation)시키는 단계; 및 바람직하게는 제 1 행렬의 프로베니우스 놈의 10% 내에 프로베니우스 놈을 갖는 신호 처리 행렬을 획득하기 위해 중간 행렬의 계수를 스케일링하는 단계에 의해 수행되며, 신호 처리 행렬의 계수는 선형 방정식의 시스템의 계수이다.
본 발명 및 본 발명의 바람직한 실시예의 다양한 특징은 몇 개의 도면 내에서 동일한 참조 부호가 동일한 요소를 지칭하는 첨부 도면과 이하의 설명을 참조함으로써 보다 잘 이해될 수 있다. 이하의 논의의 콘텐츠 및 도면은 단지 예로서 설명되며, 본 발명의 범위에 대한 제한을 표현하도록 이해되지 않아야 한다.
본 발명은 라우드 스피커와 같은 음향 변환기를 통해 보다 고 품질의 확산 음장을 생성하기 위해 사용될 수 있는 2 개 이상의 오디오 신호 채널을 유도하기 위한 오디오 신호 처리 기법을 제공할 수 있다.
도 1은 본 발명의 양태를 구현할 수 있는 오디오 신호 처리 장치의 개략적인 블록 다이어그램이다.
도 2는 기저 업믹싱 행렬(base upmixing matrix)의 개략적인 도면이다.
도 3은 확장 업믹싱 행렬(augmentation upmixing matrix)을 이용하여 연접된 기저 업믹싱 행렬의 개략적인 도면이다.
도 4는 지연 성분을 사용하는 신호 역상관기(signal decorrelator)의 개략적인 도면이다.
도 5는 동 위상 바이모달 주파수 의존 변화(bimodal frequency-dependent change in phase)를 갖는 서브밴드 필터 및 주파수 의존 지연(frequency-dependent delay)을 갖는 서브밴드 필터를 사용하는 신호 역상관기의 개략적인 도면이다.
도 6은 본 발명의 다양한 양태를 구현하기 위해 사용될 수 있는 장치의 개략적인 블록 다이어그램이다.
도 2는 기저 업믹싱 행렬(base upmixing matrix)의 개략적인 도면이다.
도 3은 확장 업믹싱 행렬(augmentation upmixing matrix)을 이용하여 연접된 기저 업믹싱 행렬의 개략적인 도면이다.
도 4는 지연 성분을 사용하는 신호 역상관기(signal decorrelator)의 개략적인 도면이다.
도 5는 동 위상 바이모달 주파수 의존 변화(bimodal frequency-dependent change in phase)를 갖는 서브밴드 필터 및 주파수 의존 지연(frequency-dependent delay)을 갖는 서브밴드 필터를 사용하는 신호 역상관기의 개략적인 도면이다.
도 6은 본 발명의 다양한 양태를 구현하기 위해 사용될 수 있는 장치의 개략적인 블록 다이어그램이다.
A. 서론
도 1은 본 발명의 양태를 통합할 수 있는 장치(10)의 개략적인 블록 다이어그램이다. 장치(10)는 신호 경로(19)로부터 하나 이상의 입력 채널에 대한 오디오 신호를 수신하며, 복수의 출력 채널에 대한 오디오 신호를 신호 경로(59)를 따라 생성한다. 신호 경로(19)를 교차하는 작은 선은 물론 나머지 신호 경로를 교차하는 작은 선은 이들 신호 경로가 하나 이상의 채널에 대한 신호를 전달한다는 것을 나타낸다. 작은 교차 선 바로 아래의 심볼 N 및 M은 다양한 신호 경로가 N 개의 채널 및 M 개의 채널에 대한 신호를 각각 전달한다는 것을 나타낸다. 일부 작은 교차 선 바로 아래의 심볼 x 및 y는 각각의 신호 경로가 본 발명을 이해하기 위해 중요하지 않은 명시되지 않은 개수의 신호를 전달한다는 것을 나타낸다.
장치(10)에서, 입력 신호 분석기(20)는 신호 경로(19)로부터 하나 이상의 입력 채널에 대한 오디오 신호를 수신하며, 입력 신호 중 어떤 부분이 확산 음장(diffuse sound field)을 표현하고 어떤 부분이 확산하지 않는 음장을 표현하는 지를 판단하기 위해 오디오 신호를 분석한다. 확산 음장은 음성이 청취자 주위에서 모든 방향으로부터는 아니더라도 많은 방향으로부터 발산하도록 청취자 내에 인상(impression)을 생성한다. 비확산 음장(non-diffuse sound field)은 음성이 특정 방향으로부터 또는 비교적 좁은 범위의 방향으로부터 발산하도록 인상을 생성한다. 확산 음장과 비확산 음장 사이의 구별은 주관적이며 항상 분명하지 않을 수 있다. 비록 이것이 본 발명의 양태를 이용하는 실제적인 구현의 성능에 영향을 미칠 수는 있지만, 그것은 본 발명의 기저를 이루는 원리에 영향을 미치지 않는다.
비확산 음장을 표현한다고 여겨지는 입력 오디오 신호의 부분은 신호 경로(28)를 따라 비확산 신호 프로세서(30)로 통과되며, 비확산 신호 프로세서(30)는 라우드 스피커와 같은 복수의 음향 변환기를 통해 비확산 음장을 재생성하도록 의도된 한 세트의 M 개의 신호를 신호 경로(39)를 따라 생성한다. 이런 유형의 처리를 수행하는 업믹싱 장치(upmixing device)의 일 예는 전술된 돌비 프로 로직 II 디코더(Dolby Pro Logic II decoder)이다.
확산 음장을 표현한다고 여겨지는 입력 오디오 신호의 부분은 신호 경로(29)를 따라 확산 신호 프로세서(40)로 통과되며, 확산 신호 프로세서(40)는 라우드 스피커와 같은 복수의 음향 변환기를 통해 확산 음장을 재생성하도록 의도된 한 세트의 M 개의 신호를 신호 경로(49)를 따라 생성한다. 본 발명은 확산 신호 프로세서(40) 내에서 수행되는 처리에 관한 것이다.
가산 컴포넌트(50)는 비확산 신호 프로세서(30)로부터의 M 개의 신호 각각과 확산 신호 프로세서(40)로부터의 M 개의 신호 중 각각의 신호를 조합하여 M 개의 출력 채널 중 각각의 출력 채널에 대한 오디오 신호를 생성한다. 각각의 출력 채널에 대한 오디오 신호는 라우드 스피커와 같은 음향 변환기를 구동하도록 의도된다.
본 발명은 확산 음장을 표현할 수 있는 한 세트의 오디오 신호를 생성하기 위해 선형 혼합 방정식의 시스템을 개발하고 사용하는 것에 관한 것이다. 이들 혼합 방정식은 예를 들어 확산 신호 프로세서(40) 내에 사용될 수 있다. 본 상세한 설명의 나머지에서는, 숫자 N이 1보다 크거나 같고, 숫자 M이 3보다 크거나 같으며, 숫자 M이 숫자 N보다 크다고 가정된다.
장치(10)는 단지 본 발명이 어떻게 사용될 수 있는지에 대한 일 예이다. 본 발명은 도 1에 도시된 것과는 기능적으로 또는 구조적으로 상이한 다른 장치 내로 통합될 수 있다. 예를 들어, 음장의 확산 부분 및 비확산 부분을 표현하는 신호는 단일 컴포넌트에 의해 처리될 수 있다. 행렬에 의해 정의된 선형 방정식의 시스템에 따라 신호를 혼합하는 별개의 확산 신호 프로세서(40)에 대한 몇 개의 구현이 후술된다. 확산 신호 프로세서(40) 및 비확산 신호 프로세서(30)에 대한 프로세스의 다양한 부분이 단일 행렬에 의해 정의된 선형 방정식의 시스템에 의해 구현될 수 있다. 또한, 본 발명의 양태는 입력 신호 분석기(20), 비확산 신호 프로세서(30) 또는 가산 컴포넌트(50)를 또한 통합하지 않으면서 하나의 장치 내로 통합될 수 있다.
B. 제 1 유도 방법
확산 신호 프로세서(40)는 선형 방정식의 시스템에 따라 경로(29)로부터 수신된 N 개의 오디오 신호 채널을 혼합함으로써 한 세트의 M 개의 신호를 경로(49)를 통해 생성한다. 이하의 논의에서 설명을 용이하게 하기 위해, 경로(29)로부터 수신된 N 개의 오디오 신호 채널의 부분은 중간 입력 신호로 지칭되며, 경로(49)를 따라 생성된 M 개의 중간 신호 채널은 중간 출력 신호로 지칭된다. 이러한 혼합 연산(mixing operation)은
로 도시된 바와 같이 행렬 곱셈에 의해 표현될 수 있는 선형 방정식의 시스템의 사용을 포함하며, 는 N 개의 중간 입력 신호로부터 획득된 N+K 개의 신호를 표현하는 열 벡터(column vector)이며, 는 혼합 계수의 Mx(N+K) 행렬 또는 어레이이고, 는 M 개의 중간 출력 신호를 표현하는 열 벡터이다. 혼합 연산은 시간 도메인 또는 주파수 도메인 내에 표현된 신호에 대해 수행될 수 있다. 이하의 논의는 시간 도메인 구현에 대해 보다 특별히 언급한다.
요구된다면, 동일한 선형 혼합 방정식의 시스템은
와 같이 벡터 및 행렬을 전치(transposition)시킴으로써 표현될 수 있으며, 는 N 개의 중간 입력 신호로부터 획득된 N+K 개의 신호를 표현하는 행 벡터(row vector)이고, 는 행렬 의 (N+K)xM 전치이며,는 M 개의 중간 출력 신호를 표현하는 행 벡터이다.
이하의 설명은 수학식 1과 일치하는 행 및 열과 같은 표기 및 용어를 사용하지만, 본 발명의 원리는 수학식 2과 같은 다른 형태 또는 표현 또는 명시적인 선형 방정식의 시스템을 사용하여 유도되고 적용될 수 있다.
행렬 의 계수는 서로에 대해 "실질적으로 직교(substantially orthogonal)"하는 M-차원 공간 내의 한 세트의 N+K 개의 단위 크기 벡터(unit-magnitude vector)로부터 획득될 수 있다. 두 개의 벡터의 내적(dot product)이 그들의 크기의 곱의 35% 보다 작으면 두 개의 벡터는 서로에 대해 실질적으로 직교한다고 간주된다. 이는 대략 70도부터 대략 110도까지의 벡터들 사이의 각도에 상응한다. 행렬 내의 각각의 열은 상기 세트 내의 벡터들 중 하나의 벡터의 요소에 상응하는 M 개의 계수를 가질 수 있다. 예를 들어, 행렬 의 제 1 열 내에 있는 계수는 가 되도록 그 요소가 로써 표시된 상기 세트 내의 벡터들 중 하나의 벡터 에 상응하며, p는 요구될 수 있는 바와 같이 행렬 계수를 스케일링하기 위해 사용된 스케일 인자이다. 대안적으로, 행렬 의 각각의 열 j 내의 계수는 상이한 스케일 인자 pj 만큼 스케일링될 수 있다. 많은 애플리케이션에서, 계수는 행렬의 프로베니우스 놈(Frobenius norm)이 의 10%와 같거나 10% 내에 존재하도록 스케일링된다. 스케일링의 추가 양태가 이하에 논의된다.
한 세트의 N+K 개의 벡터는 요구될 수 있는 임의의 방식으로 유도될 수 있다. 하나의 방법은 가우시안 분포를 갖는 의사 난수 값(pseudo-random value)을 갖는 계수의 MxM 행렬 를 생성하며, 이러한 행렬의 특이값 분해(singular value decomposition)를 계산하여 여기에서 , 및 로 표시된 세 개의 MxM 행렬을 획득한다. 및 행렬은 단위 행렬(unitary matrix)이다. 행렬은 행렬 또는 행렬로부터 N+K 개의 열을 선택하고 의 10%와 같거나 10% 내에 존재하는 프로베니우스 놈을 달성하도록 이들 열 내의 계수를 스케일링함으로써 획득될 수 있다. 직교에 대한 요건 중 일부 요건을 완화시키는 바람직한 방법이 후술된다.
N+K 개의 입력 신호는 N 개의 중간 입력 신호를 서로에 대해 역상관시킴으로써 획득된다. 요구되는 역상관(decorrelation)의 유형은 여기에서 "음향 심리학적 역상관(psychoacoustic decorrelation)"으로 지칭된다. 음향 심리학적 역상관은 비록 두 개의 신호가 서로에 대해 어느 정도의 수치적 상관을 갖더라도 두 개의 신호가 음향 심리학적으로 역상관되는 것으로 간주될 수 있다는 점에서 수치적 역상관보다 덜 엄격하다.
두 개의 신호의 수치적 상관은 다양한 공지된 수치적 알고리즘을 사용하여 계산될 수 있다. 이들 알고리즘은 음의 값과 양의 값 사이에서 변하는 상관 계수(correlation coefficient)로 지칭된 수치적 상관의 척도를 산출한다. 1과 같거나 1에 근사한 크기를 갖는 상관 계수는 두 개의 신호가 밀접하게 관련된다는 것을 나타낸다. 0과 같거나 0에 근사한 크기를 갖는 상관 계수는 두 개의 신호가 일반적으로 서로 독립적이라는 것을 나타낸다.
음향 심리학적 상관(psychoacoustical correlation)은 소위 임계 대역폭을 갖는 주파수 서브밴드를 가로질러 존재하는 오디오 신호의 상관 특성을 지칭한다. 인간 청각 시스템의 주파수 분해 능력(frequency-resolving power)은 오디오 스펙트럼을 통해 주파수에 따라 변한다. 인간의 귀는 대략 500 Hz 미만의 보다 낮은 주파수에서 주파수상으로 보다 밀접하지만 주파수가 가청능력(audibility)의 한계까지 위로 진행하는 정도로 서로 밀접하지는 않는 스펙트럼 성분들을 구별할 수 있다. 이러한 주파수 분해의 폭은 임계 대역폭으로 지칭되며, 방금 설명된 바와 같이 주파수 분해의 폭은 주파수에 따라 변한다.
음향 심리학적 임계 대역폭을 가로질러 평균 수치적 상관 계수가 0과 같거나 0에 근사하면, 두 개의 신호는 서로에 대해 음향 심리학적으로 역상관된다고 표현된다. 두 개의 신호 사이의 수치적 상관 계수가 모든 주파수에서 0과 같거나 0에 근사하면, 음향 심리학적 역상관이 달성된다. 비록 두 개의 신호가 모든 주파수에서 0과 같지 않거나 0에 근사하지 않더라도, 각각의 음향 심리학적 임계 대역을 가로질러 수치적 상관의 평균이 그러한 임계 대역 내의 임의의 주파수에 대한 최대 상관 계수의 절반보다 작아지도록 수치적 상관이 변하면, 음향 심리학적 역상관이 또한 달성될 수 있다.
음향 심리학적 역상관은 후술되는 지연 또는 특별한 유형의 필터를 사용하여 달성될 수 있다. 많은 구현에서, 이들 N 개의 신호가 확산 음장을 표현하며 이미 음향 심리학적으로 역상관될 가능성이 있으므로, 음향 심리학적 역상관을 달성하기 위해 N+K 개의 신호 Xi 중 N 개의 신호는 임의의 지연 또는 필터를 사용하지 않으면서 N 개의 중간 입력 신호로부터 직접 취해질 수 있다.
C. 개선된 유도 방법
확산 신호 프로세서(40)에 의해 생성된 신호가 도 1에 도시된 바와 같은 비확산 음장을 표현하는 다른 신호와 조합되면, 행렬 가 전술된 방법을 사용하여 설계되는 경우에, 예를 들어, 결과적으로 생성된 신호의 조합은 바람직하지 않은 아티팩트(artifact)를 생성할 수 있다. 행렬 의 설계가 음장의 확산 부분 및 비확산 부분 사이의 가능한 상호작용을 설명하지 않았으므로, 이들 아티팩트가 발생할 수 있다. 전술된 바와 같이, 확산과 비확산 사이의 구별은 항상 분명하지 않으며, 입력 신호 분석기(20)는 어느 정도 확산 음장을 표현하는 경로(28)를 따라 신호를 생성할 수 있고 어느 정도 비확산 음장을 표현하는 경로(29)를 따라 신호를 생성할 수 있다. 확산 신호 발생기(40)가 경로(29) 상의 신호에 의해 표현된 음장의 비확산 특성을 파괴하거나 수정하면, 경로(59)를 따라 생성된 출력 신호로부터 생성된 음장 내에 바람직하지 않은 아티팩트 또는 청취 가능한 왜곡이 발생할 수 있다. 예를 들어, 경로(39) 상의 M 개의 비확산 처리된 신호와 경로(49) 상의 M 개의 확산 처리된 신호의 합이 일부 비확산 신호 성분의 무효화를 야기하면, 이는 그렇지 않았으면 본 발명의 사용에 의해 달성되었을 주관적인 인상을 열화시킬 수 있다.
개선은 비확산 신호 프로세서(30)에 의해 처리되는 음장의 비확산 성질을 설명하도록 행렬 를 설계함으로써 달성될 수 있다. 이는, 경로(19)로부터 수신된 N 개의 입력 오디오 신호 채널을 생성하도록 M 개의 오디오 신호 채널을 처리하는 인코딩 처리를 표현하거나 표현하도록 가정되는 행렬 를 먼저 식별한 다음, 후술된 바와 같이 이러한 행렬의 역을 유도함으로써 수행될 수 있다.
행렬 의 일 예는 5 개의 채널, L, C, R, LS, RS를 좌측 합계(left-total, LT) 및 우측 합계(right-total, RT)로 나타낸 2 개의 채널로 다운믹싱(downmixing)하기 위해 사용되는 5x2 행렬이다. LT 및 RT 채널에 대한 신호는 경로(19)로부터 수신되는 2(N=2) 개의 채널에 대한 입력 오디오 신호의 일 예이다. 이러한 예에서, 장치(10)는 본래의 5 개의 오디오 신호로부터 생성될 수 있는 음장과 개념적으로 유사하지만 동일하지는 않은 음장을 생성할 수 있는 5(M=5) 개의 출력 오디오 신호 채널을 합성하기 위해 사용될 수 있다.
로 표시된다.
MxN 의사역 행렬(pseudoinverse matrix) 는 매사추세츠, 나틱, 더 매스웍스(The MathworksTM)로부터 이용 가능한 매트랩(Matlab®) 내의 "핀브(pinv)" 함수 또는 일리노이, 샴페인, 울프램 리서치(Wolfram Research)로부터 이용 가능한 매스매티카(Mathematica®) 내의 "의사역(PseudoInverse)" 함수와 같은 수치적 소프트웨어 내에 구현된 것을 포함하는 공지된 수치적 기법을 사용하여 NxM 행렬 로부터 대개 유도될 수 있다. 행렬 는 그 계수들이 임의의 채널들 사이에서 원하지 않는 누화를 생성하거나 또는 임의의 계수가 허수 또는 복소수이면 최적이 아닐 수 있다. 행렬 는 이러한 바람직하지 않은 특성을 제거하도록 수정될 수 있다. 그것은 또한 선택된 라우드스피커에 대한 신호를 강조하기 위해 계수를 변화시킴으로써 임의의 요구된 예술적 효과를 달성하도록 변형될 수도 있다. 예를 들어, 좌측 및 우측 채널에 대한 라우드스피커를 통한 재생을 위해 예정된 신호 내의 에너지를 증가시키도록 그리고 중앙 채널에 대한 라우드스피커를 통한 재생을 위해 예정된 신호 내의 에너지를 감소시키도록, 계수가 변화될 수 있다. 행렬 내의 계수는 행렬의 각각의 열이 M 차원 공간 내의 단위 크기 벡터(unit-magnitude vector)를 표현하도록 스케일링된다. 행렬 의 열에 의해 표현된 벡터는 서로에 대해 실질적으로 직교할 필요가 없다.
로 표시된다. 이러한 행렬은
에 의해 N 개의 중간 입력 신호로부터 한 세트의 M 개의 중간 출력 신호를 생성하기 위해 사용될 수 있다. 이러한 연산은 도 2에 개략적으로 도시된다. 믹서(41)는 신호 경로(29-1 및 29-2)로부터 N 개의 중간 입력 오디오 신호를 수신하며, 신호 경로(49-1 내지 49-5)를 따라 한 세트의 M 개의 중간 출력 신호를 생성하기 위해 선형 방정식의 시스템을 따라 이들 신호를 혼합한다. 믹서(41) 내의 박스는 선형 방정식의 시스템에 따라 행렬 의 계수에 의한 신호 곱셈 또는 증폭을 표현한다.
비록 행렬 가 단독으로 사용될 수 있긴 하지만, 성능은 추가적인 MxK 확장 행렬 를 사용함으로써 개선되며, 이다. 행렬 내의 각각의 열은 행렬의 N 개의 열에 의해 표현된 벡터와 실질적으로 직교하는 M 차원 공간 내의 단위 크기 벡터를 표현한다. K가 1보다 크면, 각각의 열은 행렬 내의 모든 다른 열에 의해 표현된 벡터와 또한 실질적으로 직교하는 벡터를 표현한다.
로 표현될 수 있으며, |는 행렬 와 행렬 의 열의 수평 연접(horizontal concatenation)이고, α는 행렬 계수에 대한 스케일 인자이며, β는 행렬 계수에 대한 스케일 인자이다.
많은 애플리케이션의 경우에, 스케일 인자 α 및 β는 합성 행렬 의 프로베니우스 놈이 행렬 의 프로베니우스 놈의 10%와 같거나 10% 내에 존재하도록 선택된다. 행렬 의 프로베니우스 놈은
행렬 내의 N 개의 열 중 각각의 열과 행렬 내의 K 개의 열 중 각각의 열이 단위 크기 벡터를 표현하면, 행렬 의 프로베니우스 놈은 과 같고 행렬 의 프로베니우스 놈은 과 같다. 이 경우에, 행렬 의 프로베니우스 놈이 와 같게 설정되면, 스케일 인자 α 및 β에 대한 값이
로 도시된 바와 같이 서로 관련된다는 것을 알 수 있다. 스케일 인자 β의 값을 설정한 후에, 스케일 인자 α에 대한 값이 수학식 7로부터 계산될 수 있다. 바람직하게, 스케일 인자 β는 행렬 의 열 내의 계수에 의해 혼합된 신호가 확장 행렬 의 열 내의 계수에 의해 혼합된 신호보다 적어도 5dB 더 큰 가중치로 주어지도록 선택될 수 있다. 적어도 6dB의 가중치에서의 차이는 이도록 스케일 인자를 제약함으로써 달성될 수 있다. 오디오 채널 사이의 요구된 음향 균형(acoustical balance)를 달성하기 위해, 행렬 및 행렬 의 열에 대한 스케일링 가중치에서의 더 크거나 더 작은 차이가 사용될 수 있다.
로 도시된 바와 같이 개별적으로 스케일링될 수 있으며, Aj는 확장 행렬 의 j 열이고, αj는 j 열에 대한 각각의 스케일 인자이다. 이러한 대안의 경우에, 각각의 스케일 인자가 제약조건 을 만족시키면, 우리는 각각의 스케일 인자 αj에 대해 임의의 값을 선택할 수 있다. 바람직하게, αj 및 β 계수의 값은 의 프로베니우스 놈이 행렬 의 프로베니우스 놈과 대체로 같은 것을 보장하도록 선택된다.
확장 행렬 에 따라 혼합된 각각의 신호는 그 신호들이 N 개의 중간 입력 신호로부터 음향 심리학적으로 역상관되도록 그리고 확장 행렬 에 따라 혼합되는 모든 다른 신호로부터 음향 심리학적으로 역상관되도록 처리된다. 이는 도 3에 개략적으로 도시되며, 도 3은 예시로서 2(N=2) 개의 중간 입력 신호, 5(M=5) 개의 중간 출력 신호, 및 확장 행렬 에 따라 혼합된 3(K=3) 개의 역상관된 신호를 도시한다. 이러한 예에서, 2 개의 중간 입력 신호는 박스(41)에 의해 표현된 기저 역 행렬(basic inverse matrix) 에 따라 혼합되며, 그들은 박스(42)에 의해 표현된 확장 행렬 에 따라 혼합된 3 개의 역상관된 신호를 제공하기 위해 역상관기(43)에 의해 역상관된다.
역상관기(43)는 다양한 방식으로 구현될 수 있다. 도 4에 도시된 하나의 구현은 그 입력 신호를 상이한 양만큼 지연시킴으로써 음향 심리학적 역상관을 달성한다. 많은 애플리케이션의 경우에 1 밀리초 내지 20 밀리초 범위 내의 지연이 적절하다.
역상관기(43)의 또 다른 구현의 일부분이 도 5에 도시된다. 이러한 부분은 중간 입력 신호 중 하나의 중간 입력 신호를 처리한다. 하나의 중간 입력 신호는 2 개의 중첩하는 주파수 서브밴드 내의 각각의 신호에 필터를 적용하는 2 개의 상이한 신호 처리 경로를 따라 통과된다. 보다 낮은 주파수 경로는 제 1 임펄스 응답(impulse response)에 따라 제 1 주파수 서브밴드 내에서 그 입력 신호를 필터링하는 위상 플립 필터(61) 및 제 1 주파수 서브밴드를 정의하는 저역 통과 필터(62)를 포함한다. 보다 높은 주파수 경로는 제 1 임펄스 응답과 같지 않은 제 2 임펄스 응답에 따라 제 2 주파수 서브밴드 내에서 그 입력 신호를 필터링하는 필터에 의해 구현된 주파수 의존 지연(63), 제 2 주파수 서브밴드를 정의하는 고역 통과 필터(64), 및 지연 컴포넌트(65)를 포함한다. 지연(65)과 저역 통과 필터(62)의 출력들은 가산 노드(66)에서 조합된다. 가산 노드(66)의 출력은 중간 입력 신호에 대하여 음향 심리학적으로 역상관된 신호이다.
위상 플립 필터(61)의 위상 응답은 주파수 의존이며, +90도 및 -90도와 실질적으로 같은 피크를 갖는 주파수에서의 바이모달 분포(bimodal distribution in frequency)를 갖는다. 위상 플립 필터(61)의 이상적인 구현은 1의 크기 응답 및 필터의 통과대역 내의 2 개 이상의 주파수 대역의 에지(edge)에서 +90도 및 -90도 사이에서 교대하거나 플립하는 위상 응답을 갖는다. 위상 플립은
로 도시된 임펄스 응답을 갖는 희소 힐버트 변환(sparse Hilbert transform)에 의해 구현될 수 있다.
희소 힐버트 변환의 임펄스 응답은 주파수 응답의 과도 성능(transient performance) 및 평활도(smoothness) 사이에서 트레이드오프(tradeoff)의 균형을 유지함으로써 역상관기 성능을 최적화시키도록 선택된 길이로 절두(truncate)되어야 한다.
위상 플립의 개수는 S 매개변수의 값에 의해 제어된다. 이러한 매개변수는 역상관도(degree of decorrelation)와 임펄스 응답 길이(impulse response length) 사이에서 트레이드오프의 균형을 유지하도록 선택되어야 한다. S 매개변수 값이 증가함에 따라 보다 긴 임펄스 응답이 요구된다. S 매개변수 값이 너무 작으면, 필터는 불충분한 역상관을 제공한다. S 매개변수가 너무 크면, 필터는 역상관된 신호 내에 부적당한 아티팩트를 생성하기에 충분히 긴 시간 간격에 걸쳐 과도 음성(transient sound)을 덧바를 것이다.
이들 특성의 균형을 유지하는 능력은 보다 낮은 주파수에서 보다 좁은 간격을 갖고 보다 높은 주파수에서 보다 넓은 간격을 갖도록 인접한 위상 플립 사이에서 주파수에서의 비균일한 간격을 갖는, 위상 플립 필터(21)를 구현함으로써 개선될 수 있다. 바람직하게, 인접한 위상 플립 사이의 간격은 주파수의 로그 함수이다.
주파수 의존 지연(63)은 순간 주파수가 시퀀스의 지속기간에 걸쳐 π로부터 0으로 단조 감소하는 유한 길이 사인파형 시퀀스 h[n]과 같은 임펄스 응답을 갖는 필터에 의해 구현될 수 있다. 이러한 시퀀스는
로 표현될 수 있으며, ω(n)은 순간 주파수이고, ω'(n)은 순간 주파수의 제 1 미분이며, G는 정규화 인자이고, 는 순간 위상이며, L은 지연 필터의 길이이다. 정규화 인자 G는
을 만족시키는 값으로 설정된다.
이러한 임펄스를 갖는 필터는 그 필터가 과도현상을 갖는 오디오 신호에 적용될 때 때때로 "처핑(chirping)" 아티팩트를 생성할 수 있다. 이러한 효과는
로 도시된 바와 같이 순간 위상 항에 유사 잡음 항(noise-like term)을 가산함으로써 감소될 수 있다. 유사 잡음 항이 π의 작은 일부분인 분산을 갖는 백색 가우시안 잡음 시퀀스이면, 과도현상을 필터링함으로써 생성되는 아티팩트는 처프(chirp)보다 잡음에 유사한 음성을 낼 것이며, 지연과 주파수 사이의 요구된 관계는 여전히 달성된다.
저역 통과 필터(62)와 고역 통과 필터(64)의 차단 주파수는 두 개의 필터의 통과대역 사이에 갭(gap)이 존재하지 않도록 그리고 통과대역이 중첩하는 크로스오버 주파수(crossover frequency) 근처의 영역 내에서의 조합된 출력의 스펙트럼 에너지가 이러한 영역 내의 중간 입력 신호의 스펙트럼 에너지와 실질적으로 같도록 대략 2.5 kHz가 되도록 선택되어야 한다. 지연(65)에 의해 부과된 지연의 양은 보다 높은 주파수 및 보다 낮은 주파수 신호 처리 경로의 전파 지연(propagation delay)이 크로스오버 주파수에서 대략 같도록 설정되어야 한다.
역상관기는 상이한 방식으로 구현될 수 있다. 예를 들어, 저역 통과 필터(62) 및 고역 통과 필터(64) 중 어느 하나 또는 둘 모두가 위상 플립 필터(61) 및 주파수 의존 지연(63)에 각각 선행할 수 있다. 지연(65)은 요구된 바와 같이 신호 처리 경로 내에 위치된 하나 이상의 지연 컴포넌트에 의해 구현될 수 있다.
구현의 추가적인 상세한 설명은 맥그레이스(McGrath) 등에 의해 "업믹싱 시스템에 대한 역상관기(Decorrelator for Upmixing Systems)"이라는 발명의 명칭으로 2009년 9월 28일자로 출원된 국제 특허출원 제PCT/US2009/058590호로부터 획득될 수 있다.
D. 바람직한 유도 방법
확장 행렬 를 유도하기 위한 바람직한 방법은 "시드 행렬(seed matrix)" 를 생성함으로써 시작한다. 시드 행렬 는 확장 행렬 의 계수에 대한 초기 평가를 포함한다. 열은 중간 행렬 를 형성하기 위해 시드 행렬 로부터 선택된다. 중간 행렬 는 제 2 중간 행렬 을 형성하기 위해 사용된다. 계수의 열은 확장 행렬 를 획득하기 위해 중간 행렬 로부터 추출된다. 시드 행렬 를 생성하기 위해 사용될 수 있는 방법은 중간 행렬 , 중간 행렬 및 확장 행렬 를 형성하기 위한 과정을 설명한 후에 후술된다.
전술된 기저 역 행렬 은 M 개의 행과 N 개의 열을 갖는다. M 개의 행과 K 개의 열을 갖는 시드 행렬 이 생성되며, 이다. 행렬 와 시드 행렬 는 M 개의 행과 N+K 개의 열을 갖는 중간 행렬 을 형성하기 위해 수평으로 연접된다. 이러한 연접은
로 표현될 수 있다.
중간 행렬 의 각각의 j 열 내의 계수들은 그 계수들이 M 차원 공간 내에서의 단위 크기 벡터 Q(j)를 표현하도록 스케일링된다. 이는 각각의 열 내의 계수를 그들이 표현하는 벡터의 크기로 나눔으로써 수행될 수 있다. 각각의 벡터의 크기는 열 내의 계수들의 제곱의 합의 제곱근으로부터 계산될 수 있다.
그런 다음, M 개의 행과 N+K 개의 열 내에 배열된 계수들을 갖는 중간 행렬 이 중간 행렬 로부터 획득된다. 중간 행렬 의 각각의 j 열 내의 계수들은 M 차원 공간 내의 벡터 R(j)를 표현한다. 이들 열 벡터는 이하의 의사 코드 프래그먼트(pseudo code fragment)
(1) R(1) = Q(1)
(2) for j = 2 to K {
(3) T(j) = (1-RR(j-1) * TRANSP[RR(j-1)] * Q(j);
(4) if MAG[T(j)] > 0.001 {
(5) R(j) = T(j) / MAG[T(j)];
(6) } else {
(7) R(j) = ZERO;
(8) }
(9) }
(10) for j=1 to K {
(11) A(j) = R(j+N);
(12) }
에 의해 표현된 프로세스에 의해 계산된다. 이러한 의사 코드 프래그먼트 내의 명령문(statement)은 C 프로그래밍 언어와 유사한 구문적 특징(syntactical feature)을 갖는다. 이러한 코드 프래그먼트는 실제적인 구현이 되도록 의도되지 않지만 단지 확장 행렬 을 계산할 수 있는 프로세스를 설명하는 것을 돕도록 의도된다.
표기 TRANSP[RR(j-1)]은 행렬 RR(j-1)의 전치를 돌려주는 함수를 표현한다. 표기 MAG[T(j)]는 열 벡터 T(j)의 크기를 돌려주는 함수를 표현하며, 이는 임시 행렬 의 j 열 내의 계수들의 유클리드 놈(Euclidean norm)이다.
의사 코드 프래그먼트를 참조하면, 명령문(1)은 행렬 의 제 1 열로부터 행렬 의 제 1 열을 초기화시킨다. 명령문(2) 내지 명령문(9)는 행렬 의 2 열 내지 K 열을 계산하는 루프(loop)를 구현한다.
명령문(3)은 서브행렬 RR 및 중간 행렬 로부터 임시 행렬 의 j 열을 계산한다. 전술된 바와 같이, 서브행렬 RR(j-1)은 중간 행렬 의 첫번째 j-1 개의 열을 포함한다. 명령문(4)는 열 벡터 T(j)의 크기가 0.001보다 큰지 여부를 판단한다. T(j)의 크기가 크면, 명령문(5)는 단위 크기를 갖도록 스케일링된 후의 벡터 T(j)와 같도록 벡터 R(j)를 설정한다. 열 벡터 T(j)의 크기가 0.001보다 크지 않으면, 벡터 R(j)는 모든 요소가 0과 같은 벡터 ZERO(0)와 같도록 설정된다.
명령문(10) 내지 명령문(12)는 N+1 열 내지 N+K 열인 중간 행렬 의 마지막 K 개의 열로부터 M+K 확장 행렬 을 획득하는 루프를 구현한다. 확장 행렬 내의 열 벡터는 기저 행렬 의 열 벡터에 대하여 실질적으로 직교하는 것은 물론 서로에 대하여 실질적으로 직교한다.
임의의 열 벡터 T(j)의 크기가 0.001보다 크지 않다고 명령문(4)가 판단하면, 이는, 벡터 T(j)가 열 벡터 Q(1) 내지 Q(j-1)에 충분히 선형적으로 독립적이지 않으며 상응하는 열 벡터 R(j)가 ZERO(0) 벡터와 같도록 설정된다는 것을 나타낸다. 에 대해 열 벡터 R(j) 중 임의의 열 벡터가 ZERO(0) 벡터와 같으면, 시드 행렬의 상응하는 열 P(j)은 그의 선행하는 열에 선형적으로 독립적이지 않다. 이러한 후자의 상황은 시드 행렬 에 대한 새로운 열 P(j)를 획득하고 또 다른 확장 행렬 를 유도하기 위해 프로세스를 다시 수행함으로써 수정된다.
첫번째 방식은 의사 난수 값을 갖는 계수들의 MxK 어레이를 생성함으로써 시드 행렬을 생성한다.
두번째 방식은 중간 출력 신호에 의해 표현된 음장을 재생성하기 위해 사용될 음향 변화기의 예측된 위치 내의 대칭성을 설명하는 계수를 갖는 시드 행렬을 생성한다. 이는 생성하는 동안 시드 행렬의 열을 임시적으로 재정렬함으로써 수행될 수 있다.
예를 들어, 전술된 5 채널 행렬은 L, C, R, LS 및 RS와 같은 순서로 리스트된 채널에 대한 신호를 생성한다. 이러한 특정 세트의 채널에 대한 라우드스피커 배치의 예상된 대칭성은 그들의 각각의 음향 변환기의 방위각 위치(azimuthal location)에 따라 채널을 순서대로 재배열함으로써 보다 용이하게 이용될 수 있다. 하나의 적절한 순서는 LS, L, C, R 및 RS이며, 이는 세트의 중간에 중앙 채널 C을 배치한다.
이러한 순서를 사용하여, 적절한 대칭성을 갖는 한 세트의 후보 벡터가 구성될 수 있다. 일 예가 표 1에 도시되어 있으며, 표 1에서 각각의 벡터는 표 1의 각각의 행 내에 도시된다. 시드 행렬 의 열을 정의하기 위해 이들 벡터들의 전치가 사용될 것이다.
LS | L | C | R | RS | |
우함수 FE1 | 0 | 0 | 1 | 0 | 0 |
우함수 FE2 | 0 | 1 | 0 | 1 | 0 |
우함수 FE3 | 1 | 0 | 0 | 0 | 1 |
기함수 FO1 | 0 | -1 | 0 | 1 | 0 |
기함수 FO2 | 1 | 0 | 0 | 0 | -1 |
표 내의 각각의 행은 중심 채널에 대한 열에 대하여 우 대칭성(even symmetry) 또는 기 대칭성(odd symmetry)을 갖는다. K 개의 벡터의 총합이 표로부터 선택되고, 전치되며, 초기 행렬 를 형성하기 위해 사용된다. 예를 들어, K=3이고, 함수 FE1, FE2 및 FO1에 대한 벡터가 선택되면, 초기 행렬 는
이다.
을 생성한다.
이다.
이다.
이다.
E. 구현
본 발명의 다양한 양태를 포함하는 장치는 일반적인 목적의 컴퓨터 내에 발견되는 것과 유사한 컴포넌트에 결합되는 디지털 신호 프로세서(digital signal processor, DSP) 회로와 같은 보다 전문화된 컴포넌트를 포함하는 컴퓨터 또는 일부 다른 장치에 의해 실행되는 소프트웨어를 포함하는 다양한 방식으로 구현될 수 있다. 도 6은 본 발명의 양태를 구현하기 위해 사용될 수 있는 장치(70)의 개략적인 블록 다이어그램이다. 프로세서(72)는 컴퓨팅 자원을 제공한다. RAM(73)은 처리를 위한 프로세서(72)에 의해 사용되는 시스템 RAM(random access memory)이다. ROM(74)은 장치(70)를 동작시키기 위해 필요한 프로그램을 저장하기 위한 그리고 아마도 본 발명의 다양한 양태를 수행하기 위한 ROM(read only memory)과 같은 임의의 형태의 영속 저장장치를 표현한다. I/O 제어(75)는 통신 신호 경로(19, 59)를 통해 신호를 수신하고 송신하는 인터페이스 회로를 표현한다. 도시된 실시예에서, 모든 주요 시스템 컴포넌트는 버스(71)에 연결되며, 버스(71)는 하나 초과의 물리적이거나 논리적인 버스를 표현할 수 있지만, 본 발명을 구현하기 위해 하나의 버스 아키텍처가 요구되지는 않는다.
일반적인 목적의 컴퓨터 시스템에 의해 구현된 실시예에서, 키보드 또는 마우스 및 디스플레이와 같은 장치로 인터페이싱하기 위한 추가 컴포넌트 및 자기 테이프 또는 디스크 또는 광 매체와 같은 저장 매체를 갖는 저장 장치를 제어하기 위한 추가 컴포넌트가 포함될 수 있다. 저장 매체는 시스템, 유틸리티 및 애플리케이션을 운영하기 위한 명령어 프로그램을 기록하기 위해 사용될 수 있으며, 본 발명의 다양한 양태를 구현하는 프로그램을 포함할 수 있다.
본 발명의 다양한 양태를 실시하기 위해 요구되는 기능은 이산 로직 컴포넌트(discrete logic component), 집적 회로, 하나 이상의 ASIC 및/또는 프로그램 제어식 프로세서를 포함하는 매우 다양한 방식으로 구현되는 컴포넌트에 의해 수행될 수 있다. 이들 컴포넌트가 구현되는 방식은 본 발명에서 중요하지 않다.
본 발명의 소프트웨어 구현은 초음파 주파수로부터 자외선 주파수를 포함하는 스펙트럼을 통해 기저대역 또는 변조된 통신 경로와 같은 다양한 기계 판독 가능한 매체에 의해 또는 자기 테이프, 카드 또는 디스크, 광 카드 또는 디스크, 및 종이를 포함하는 매체 상의 검출 가능한 마킹을 포함하는 기본적으로 임의의 기록 기술을 사용하여 정보를 전달하는 저장 매체에 의해 전달될 수 있다.
20: 입력 신호 분석기 30: 비확산 신호 프로세서
40: 확산 신호 프로세서 43: 역상관기
63: 주파수 의존 지연 64: 고역 통과 필터
65: 지연 61: 위상 플립 필터
62: 저역 통과 필터 72: 프로세서
73: RAM 74: ROM
75: I/O 제어
40: 확산 신호 프로세서 43: 역상관기
63: 주파수 의존 지연 64: 고역 통과 필터
65: 지연 61: 위상 플립 필터
62: 저역 통과 필터 72: 프로세서
73: RAM 74: ROM
75: I/O 제어
Claims (10)
- 확산 음장의 제시를 위해 N 개의 입력 오디오 신호로부터 M 개의 출력 오디오 신호를 유도하기 위한 방법으로서, M은 N보다 크고 2보다 크며, 상기 방법은
상기 N 개의 입력 오디오 신호를 수신하는 단계,
각각의 중간 신호가 상기 N 개의 입력 오디오 신호와 음향 심리학적으로 역상관되며, 그리고 K가 1보다 크면 상기 각각의 중간 신호가 모든 다른 중간 신호와 음향 심리학적으로 역상관되도록, 상기 N 개의 입력 오디오 신호로부터 K 개의 중간 오디오 신호를 유도하되, K는 1보다 크거나 같고 M-N보다 작거나 같은 단계, 및
상기 M 개의 출력 오디오 신호를 유도하기 위해, 상기 N 개의 입력 오디오 신호와 상기 K 개의 중간 신호를 혼합하되, 상기 혼합은 M 차원 공간 내에 한 세트의 N+K 개의 벡터를 명시하는 행렬의 계수를 갖는 선형 방정식의 시스템에 따라 수행되며, 상기 N+K 개의 벡터 중 적어도 K 개의 벡터는 상기 세트 내의 모든 다른 벡터에 대해 실질적으로 직교하는 단계를 포함하는 방법. - 제 1 항에 있어서, 상기 N 개의 입력 오디오 신호 중 하나의 입력 오디오 신호를 지연시킴으로써 상기 K 개의 중간 신호 각각을 유도하는 방법.
- 제 1 항에 있어서, 각각의 중간 신호를 하나의 방법에 의해 유도하며, 상기 하나의 방법은
+90도 및 -90도와 실질적으로 동일한 피크를 갖는 주파수에서의 바이모달 분포를 갖는 동 위상 주파수 의존 변화를 갖는 제 1 서브밴드 신호를 획득하기 위해 제 1 주파수 서브밴드 내의 제 1 임펄스 응답에 따라서 그리고 주파수 의존 지연을 갖는 제 2 서브밴드 신호를 획득하기 위해 제 2 주파수 서브밴드 내의 제 2 임펄스 응답에 따라서 상기 N 개의 입력 오디오 신호 중 하나의 입력 오디오 신호를 필터링하되,
상기 제 2 임펄스 응답은 상기 제 1 임펄스 응답과 동일하지 않고,
상기 제 2 주파수 서브밴드는 상기 제 1 주파수 서브밴드 내에 포함된 주파수보다 높은 주파수를 포함하며,
상기 제 1 주파수 서브밴드는 상기 제 2 주파수 서브밴드 내에 포함된 주파수보다 낮은 주파수를 포함하는 단계, 및
상기 제 1 서브밴드 신호 및 상기 제 2 서브밴드 신호의 조합으로부터 상기 각각의 중간 신호를 유도하는 단계를 포함하는 방법. - 제 1 항 내지 제 3 항 중 어느 한 항에 있어서, N은 1보다 큰 방법.
- 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
상기 행렬은 제 1 스케일 인자 β만큼 스케일링된 계수를 갖는 N 개의 벡터에 대한 계수의 제 1 서브행렬, 및 하나 이상의 제 2 스케일 인자 α만큼 스케일링된 K 개의 벡터에 대한 계수의 제 2 서브행렬을 포함하고,
상기 N 개의 입력 오디오 신호는 상기 제 1 스케일 인자만큼 스케일링된 바와 같은 상기 제 1 서브행렬의 상기 계수를 갖는 선형 방정식의 시스템에 따라 혼합되며,
상기 K 개의 중간 오디오 신호는 상기 하나 이상의 제 2 스케일 인자만큼 스케일링된 바와 같은 상기 제 2 서브행렬의 상기 계수를 갖는 선형 방정식의 시스템에 따라 혼합되는 방법. - 확산 음장의 제시를 위해 M 개의 출력 오디오 신호를 유도하기 위해 N 개의 입력 오디오 신호를 혼합하는데에 사용하기 위한 선형 방정식의 시스템에 대한 계수의 행렬을 획득하기 위한 방법으로서, 상기 방법은
M 차원 공간 내에서 한 세트의 N 개의 제 1 벡터를 명시하는 계수를 갖는 제 1 행렬을 획득하는 단계,
상기 M 차원 공간 내에서 한 세트의 K 개의 제 2 벡터를 유도하되, 각각의 제 2 벡터는 각각의 제 1 벡터에 대해 실질적으로 직교하며, K가 1보다 크면 상기 각각의 제 2 벡터는 모든 다른 제 2 벡터에 대해 실질적으로 직교하는 단계,
상기 세트의 K 개의 제 2 벡터를 명시하는 계수를 갖는 제 2 행렬을 획득하는 단계, 및
상기 세트의 N 개의 제 1 벡터 및 상기 세트의 K 개의 제 2 벡터의 통합을 명시하는 계수를 갖는 중간 행렬을 획득하기 위해 상기 제 1 행렬과 상기 제 2 행렬을 연접시키는 단계를 포함하는 방법. - 제 7 항에 있어서, 상기 스케일링된 중간 행렬의 프로베니우스 놈이 상기 제 1 행렬의 프로베니우스 놈의 10% 내에 존재하도록 상기 중간 행렬의 상기 계수를 스케일링하는 단계를 포함하는 방법.
- 입력 신호를 수신하기 위한 하나 이상의 입력 단자,
메모리,
제 1 항 내지 제 8 항 중 어느 하나의 항에 따른 방법을 수행하기 위한 하나 이상의 명령어 프로그램을 기록하는 저장 매체,
상기 하나 이상의 명령어 프로그램을 실행하기 위해 상기 하나 이상의 입력 단자, 상기 메모리, 상기 저장 매체 및 상기 하나 이상의 출력 단자에 연결된 처리 회로, 및
출력 신호를 전송하기 위한 하나 이상의 출력 단자를 포함하는 장치. - 제 1 항 내지 제 8 항 중 어느 한 항에 따른 방법을 수행하기 위해 장치에 의해 실행 가능한 명령어 프로그램을 기록하는 저장 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US29769910P | 2010-01-22 | 2010-01-22 | |
US61/297,699 | 2010-01-22 | ||
PCT/US2011/020561 WO2011090834A1 (en) | 2010-01-22 | 2011-01-07 | Using multichannel decorrelation for improved multichannel upmixing |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120102127A true KR20120102127A (ko) | 2012-09-17 |
KR101380167B1 KR101380167B1 (ko) | 2014-04-02 |
Family
ID=43766522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020127018733A KR101380167B1 (ko) | 2010-01-22 | 2011-01-07 | 개선된 다중 채널 업믹싱을 위한 다중 채널 역상관의 사용 |
Country Status (12)
Country | Link |
---|---|
US (1) | US9269360B2 (ko) |
EP (1) | EP2526547B1 (ko) |
JP (1) | JP5612125B2 (ko) |
KR (1) | KR101380167B1 (ko) |
CN (1) | CN102714039B (ko) |
AR (1) | AR081098A1 (ko) |
BR (1) | BR112012018291B1 (ko) |
ES (1) | ES2588222T3 (ko) |
MX (1) | MX2012008403A (ko) |
RU (1) | RU2519045C2 (ko) |
TW (1) | TWI444989B (ko) |
WO (1) | WO2011090834A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150036056A (ko) * | 2012-07-16 | 2015-04-07 | 톰슨 라이센싱 | 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011199847A (ja) * | 2010-02-25 | 2011-10-06 | Ricoh Co Ltd | 会議システムの端末装置、会議システム |
EP2751803B1 (en) * | 2011-11-01 | 2015-09-16 | Koninklijke Philips N.V. | Audio object encoding and decoding |
CN104025470B (zh) * | 2012-12-31 | 2018-09-07 | 华为技术有限公司 | 报告信道状态信息csi的方法、用户设备和基站 |
GB2509533B (en) * | 2013-01-07 | 2017-08-16 | Meridian Audio Ltd | Group delay correction in acoustic transducer systems |
WO2014126688A1 (en) | 2013-02-14 | 2014-08-21 | Dolby Laboratories Licensing Corporation | Methods for audio signal transient detection and decorrelation control |
TWI618050B (zh) | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於音訊處理系統中之訊號去相關的方法及設備 |
TWI618051B (zh) | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置 |
RU2630370C9 (ru) | 2013-02-14 | 2017-09-26 | Долби Лабораторис Лайсэнзин Корпорейшн | Способы управления межканальной когерентностью звуковых сигналов, подвергнутых повышающему микшированию |
KR101751228B1 (ko) | 2013-05-24 | 2017-06-27 | 돌비 인터네셔널 에이비 | 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩 |
US9892737B2 (en) | 2013-05-24 | 2018-02-13 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
TWI557724B (zh) * | 2013-09-27 | 2016-11-11 | 杜比實驗室特許公司 | 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器 |
BR112016006832B1 (pt) | 2013-10-03 | 2022-05-10 | Dolby Laboratories Licensing Corporation | Método para derivar m sinais de áudio difusos a partir de n sinais de áudio para a apresentação de um campo sonoro difuso, aparelho e meio não transitório |
US9756448B2 (en) | 2014-04-01 | 2017-09-05 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
CN105336332A (zh) | 2014-07-17 | 2016-02-17 | 杜比实验室特许公司 | 分解音频信号 |
CN104484559B (zh) * | 2014-12-09 | 2017-07-04 | 大连楼兰科技股份有限公司 | 数字信号的解析方法及其解析装置 |
CN105992120B (zh) | 2015-02-09 | 2019-12-31 | 杜比实验室特许公司 | 音频信号的上混音 |
WO2016141023A1 (en) * | 2015-03-03 | 2016-09-09 | Dolby Laboratories Licensing Corporation | Enhancement of spatial audio signals by modulated decorrelation |
JP6202076B2 (ja) * | 2015-12-07 | 2017-09-27 | オンキヨー株式会社 | 音声処理装置 |
EP3382703A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and methods for processing an audio signal |
WO2021046136A1 (en) * | 2019-09-03 | 2021-03-11 | Dolby Laboratories Licensing Corporation | Audio filterbank with decorrelating components |
US11533560B2 (en) | 2019-11-15 | 2022-12-20 | Boomcloud 360 Inc. | Dynamic rendering device metadata-informed audio enhancement system |
GB202207289D0 (en) | 2019-12-17 | 2022-06-29 | Cirrus Logic Int Semiconductor Ltd | Two-way microphone system using loudspeaker as one of the microphones |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE0202159D0 (sv) | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
CN1672464B (zh) | 2002-08-07 | 2010-07-28 | 杜比实验室特许公司 | 音频声道空间转换 |
DE10351793B4 (de) | 2003-11-06 | 2006-01-12 | Herbert Buchner | Adaptive Filtervorrichtung und Verfahren zum Verarbeiten eines akustischen Eingangssignals |
SE0400998D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
JP4335752B2 (ja) | 2004-06-15 | 2009-09-30 | 三菱電機株式会社 | 擬似ステレオ信号生成装置および擬似ステレオ信号生成プログラム |
EP1899960A2 (en) | 2005-05-26 | 2008-03-19 | LG Electronics Inc. | Method of encoding and decoding an audio signal |
US8284961B2 (en) * | 2005-07-15 | 2012-10-09 | Panasonic Corporation | Signal processing device |
US20070055510A1 (en) * | 2005-07-19 | 2007-03-08 | Johannes Hilpert | Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding |
CA2617050C (en) * | 2005-07-29 | 2012-10-09 | Lg Electronics Inc. | Method for signaling of splitting information |
KR101218776B1 (ko) | 2006-01-11 | 2013-01-18 | 삼성전자주식회사 | 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체 |
US8712061B2 (en) * | 2006-05-17 | 2014-04-29 | Creative Technology Ltd | Phase-amplitude 3-D stereo encoder and decoder |
DE102006050068B4 (de) | 2006-10-24 | 2010-11-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm |
US8705757B1 (en) * | 2007-02-23 | 2014-04-22 | Sony Computer Entertainment America, Inc. | Computationally efficient multi-resonator reverberation |
RU2439719C2 (ru) | 2007-04-26 | 2012-01-10 | Долби Свиден АБ | Устройство и способ для синтезирования выходного сигнала |
WO2008153944A1 (en) | 2007-06-08 | 2008-12-18 | Dolby Laboratories Licensing Corporation | Hybrid derivation of surround sound audio channels by controllably combining ambience and matrix-decoded signal components |
JP5122681B2 (ja) | 2008-05-23 | 2013-01-16 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | パラメトリックステレオアップミクス装置、パラメトリックステレオデコーダ、パラメトリックステレオダウンミクス装置、及びパラメトリックステレオエンコーダ |
-
2010
- 2010-12-17 TW TW099144459A patent/TWI444989B/zh active
-
2011
- 2011-01-07 EP EP11700706.2A patent/EP2526547B1/en active Active
- 2011-01-07 WO PCT/US2011/020561 patent/WO2011090834A1/en active Application Filing
- 2011-01-07 RU RU2012134496/08A patent/RU2519045C2/ru active
- 2011-01-07 BR BR112012018291-9A patent/BR112012018291B1/pt active IP Right Grant
- 2011-01-07 ES ES11700706.2T patent/ES2588222T3/es active Active
- 2011-01-07 MX MX2012008403A patent/MX2012008403A/es active IP Right Grant
- 2011-01-07 US US13/519,313 patent/US9269360B2/en active Active
- 2011-01-07 CN CN201180006576.3A patent/CN102714039B/zh active Active
- 2011-01-07 KR KR1020127018733A patent/KR101380167B1/ko active IP Right Grant
- 2011-01-07 JP JP2012548982A patent/JP5612125B2/ja active Active
- 2011-01-13 AR ARP110100104A patent/AR081098A1/es unknown
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150036056A (ko) * | 2012-07-16 | 2015-04-07 | 톰슨 라이센싱 | 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치 |
KR20200019778A (ko) * | 2012-07-16 | 2020-02-24 | 돌비 인터네셔널 에이비 | 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치 |
US10595145B2 (en) | 2012-07-16 | 2020-03-17 | Dolby Laboratories Licensing Corporation | Method and device for decoding a higher-order ambisonics (HOA) representation of an audio soundfield |
KR20210005321A (ko) * | 2012-07-16 | 2021-01-13 | 돌비 인터네셔널 에이비 | 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치 |
US10939220B2 (en) | 2012-07-16 | 2021-03-02 | Dolby Laboratories Licensing Corporation | Method and device for decoding a higher-order ambisonics (HOA) representation of an audio soundfield |
US11451920B2 (en) | 2012-07-16 | 2022-09-20 | Dolby Laboratories Licensing Corporation | Method and device for decoding a higher-order ambisonics (HOA) representation of an audio soundfield |
KR20230003380A (ko) * | 2012-07-16 | 2023-01-05 | 돌비 인터네셔널 에이비 | 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치 |
US11743669B2 (en) | 2012-07-16 | 2023-08-29 | Dolby Laboratories Licensing Corporation | Method and device for decoding a higher-order ambisonics (HOA) representation of an audio soundfield |
Also Published As
Publication number | Publication date |
---|---|
BR112012018291A2 (pt) | 2018-06-05 |
KR101380167B1 (ko) | 2014-04-02 |
EP2526547A1 (en) | 2012-11-28 |
MX2012008403A (es) | 2012-08-15 |
TWI444989B (zh) | 2014-07-11 |
AR081098A1 (es) | 2012-06-13 |
US9269360B2 (en) | 2016-02-23 |
RU2012134496A (ru) | 2014-02-27 |
ES2588222T3 (es) | 2016-10-31 |
JP5612125B2 (ja) | 2014-10-22 |
CN102714039B (zh) | 2014-09-10 |
US20120321105A1 (en) | 2012-12-20 |
RU2519045C2 (ru) | 2014-06-10 |
WO2011090834A1 (en) | 2011-07-28 |
EP2526547B1 (en) | 2016-07-06 |
BR112012018291B1 (pt) | 2020-10-27 |
JP2013517687A (ja) | 2013-05-16 |
CN102714039A (zh) | 2012-10-03 |
TW201140561A (en) | 2011-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101380167B1 (ko) | 개선된 다중 채널 업믹싱을 위한 다중 채널 역상관의 사용 | |
US8515104B2 (en) | Binaural filters for monophonic compatibility and loudspeaker compatibility | |
TWI413109B (zh) | 用於上混系統之解相關器 | |
US20210314719A1 (en) | Method and device for applying dynamic range compression to a higher order ambisonics signal | |
Schlecht et al. | Optimized velvet-noise decorrelator | |
US9794716B2 (en) | Adaptive diffuse signal generation in an upmixer | |
EP2934025A1 (en) | Method and device for applying dynamic range compression to a higher order ambisonics signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170317 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20180309 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20190314 Year of fee payment: 6 |