KR102051436B1 - 오디오 신호 처리 장치들 및 방법들 - Google Patents

오디오 신호 처리 장치들 및 방법들 Download PDF

Info

Publication number
KR102051436B1
KR102051436B1 KR1020177027223A KR20177027223A KR102051436B1 KR 102051436 B1 KR102051436 B1 KR 102051436B1 KR 1020177027223 A KR1020177027223 A KR 1020177027223A KR 20177027223 A KR20177027223 A KR 20177027223A KR 102051436 B1 KR102051436 B1 KR 102051436B1
Authority
KR
South Korea
Prior art keywords
audio signal
matrix
input
frequency bin
channels
Prior art date
Application number
KR1020177027223A
Other languages
English (en)
Other versions
KR20170125063A (ko
Inventor
판지 세티아완
카림 헬와니
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20170125063A publication Critical patent/KR20170125063A/ko
Application granted granted Critical
Publication of KR102051436B1 publication Critical patent/KR102051436B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Abstract

본 발명은 입력 오디오 신호를 출력 오디오 신호로 처리하는 오디오 신호 다운믹싱 장치(105)와 같은 오디오 신호 처리 장치들 및 방법들에 관한 것이며, 입력 오디오 신호는 복수의 공간 위치에 기록되는 복수의 입력 채널(113)을 포함하고 출력 오디오 신호는 복수의 일차 출력 채널(123)을 포함한다. 오디오 신호 다운믹싱 장치(105)는 복수의 주파수 빈들의 각각의 주파수 빈(j)에 대해 다운믹스 행렬(DU)을 결정하도록 구성되는 다운믹스 행렬 결정기(107) - j는 범위가 1 내지 N인 정수이며, 주어진 주파수 빈(j)에 대해 다운믹스 행렬(DU)은 입력 오디오 신호의 복수의 입력 채널들(113)과 연관되는 복수의 푸리에 계수를 출력 오디오 신호의 일차 출력 채널들(123)의 복수의 푸리에 계수로 매핑하고, j가 차단 주파수 빈(k) 이하인 주파수 빈들에 대해 다운믹스 행렬(DU)은 복수의 입력 채널(113)이 기록되는 복수의 공간 위치들에 의해 정의되는 이산 라플라스-벨트라미 연산자(L)의 고유벡터들을 결정함으로써 결정되고, j가 차단 주파수 빈(k)보다 더 큰 주파수 빈들에 대해 다운믹스 행렬(DU)은 입력 오디오 신호의 복수의 입력 채널(113)에 의해 정의되는 공분산 행렬(COV)의 고유벡터들의 제1 서브세트를 결정함으로써 결정됨 -, 및 입력 오디오 신호를 다운믹스 행렬(DU)을 사용하여 출력 오디오 신호로 처리하도록 구성되는 프로세서(109)를 포함한다.

Description

오디오 신호 처리 장치들 및 방법들
본 발명은 오디오 신호 처리 장치들 및 방법들에 관한 것이다. 특히, 본 발명은 오디오 신호를 다운믹싱(downmixing)하고 업믹싱(upmixing)하는 오디오 신호 처리 장치들 및 방법들에 관한 것이다.
사운드 코딩, 송신, 기록(recording), 믹싱 및 재생(reproduction)의 기술분야는 수십 년 동안 계속 이어지는 연구 개발의 주제였다. 모노포닉 기술(monophonic technology)에서 출발하여, 멀티채널 오디오(multichannel audio)에 관한 기술들은 스테레오포닉(stereophonic), 쿼드로포닉(quadrophonic), 5.1 채널들 등을 포함하기 위해 점진적으로 확장되었다. 종래의 모노 또는 스테레오 오디오와 비교하여, 멀티채널 오디오는 최종 사용자들에게 더 강력한 리스닝 경험을 제공하고, 따라서, 오디오 제작자들에게 점점 더 호소하고 있다.
멀티채널 오디오가 성공적이기 위해 임의의 수의 기록 채널들(Q)의 서브세트(M)만을 지원하는 레거시 플레이백 디바이스 상에서 멀티채널 오디오를 재생하는 것이 가능해야 한다. 플레이백 디바이스 내의 M 재생 채널들의 서브세트, 예를 들어 라우드스피커들 또는 헤드폰들은 사용자의 요구에 따라 변화될 수 있다. 이것은 사용자가 자신의 디바이스를 예를 들어 스테레오로부터 5.1로 또는 스테레오로부터 임의의 3 라우드스피커 디바이스들로 전환할 때 발생할 수 있다.
레거시 플레이백 디바이스 상에서 멀티채널 오디오를 재생하는 종래의 방식은 Q 채널 오디오 입력 신호를 M 채널만을 갖는 오디오 출력 신호로 다운믹싱하는 고정 다운믹스 행렬을 사용하는 것에 의한 것이다. 이것은 스테레오, 5.1 및 7.1과 같은 이용가능한 대중적인 콘텐츠 포맷에 의해 제약되는 송신기 또는 수신기 측에서 수행될 수 있다. 지금까지, 임의의 플레이백 디바이스가 재생 레이아웃에 관한 사전 정보 없이, 기록 디바이스로의 피드백, 예를 들어, 플러그 앤 플레이 스테레오 투 3.0, 스테레오 투 8.2 등(plug and play stereo to 3.0, stereo to 8.2, etc)이 없이, 임의의 개수의 출력 채널들을 최적의 유연한 방식으로 지원하는 것이 가능하지 않다.
따라서, 개선된 오디오 신호 처리 장치 및 방법에 대한 요구가 있다.
본 발명의 목적은 개선된 오디오 신호 처리 장치 및 방법을 제공하는 것이다.
이러한 목적은 독립항들의 발명 대상에 의해 달성된다. 추가 구현 형태들은 종속항들, 명세서 및 도면들에 제공된다.
제1 양태에 따르면, 본 발명은 입력 오디오 신호를 출력 오디오 신호로 처리하는 오디오 신호 다운믹싱 장치에 관한 것이며, 입력 오디오 신호는 복수의 공간 위치들에 기록되는 복수의 입력 채널들을 포함하고 출력 오디오 신호는 복수의 일차 출력 채널들(primary output channels)을 포함한다. 오디오 신호 다운믹싱 장치는 복수의 주파수 빈들(frequency bins)의 각각의 주파수 빈(j)에 대해 다운믹스 행렬(DU)을 결정하도록 구성되는 다운믹스 행렬 결정기 - j는 범위가 1 내지 N인 정수이며, 주어진 주파수 빈(j)에 대해 다운믹스 행렬(DU)은 입력 오디오 신호의 복수의 입력 채널들과 연관되는 복수의 푸리에 계수들을 출력 오디오 신호의 일차 출력 채널들의 복수의 푸리에 계수들로 매핑하고, j가 차단 주파수 빈(k) 이하인 주파수 빈들에 대해 다운믹스 행렬(DU)은 복수의 입력 채널들이 기록되는 복수의 공간 위치들에 의해 정의되는 이산 라플라스-벨트라미 연산자(discrete Laplace-Beltrami operator)(L)의 고유벡터들을 결정함으로써 결정되고, j가 차단 주파수 빈(k)보다 더 큰 주파수 빈들에 대해 다운믹스 행렬(DU)은 입력 오디오 신호의 복수의 입력 채널들에 의해 정의되는 공분산 행렬(COV)의 고유벡터들의 제1 서브세트를 결정함으로써 결정됨 -, 및 입력 오디오 신호를 다운믹스 행렬(DU)을 사용하여 출력 오디오 신호로 처리하도록 구성되는 프로세서를 포함한다. 공간 위치들은 복수의 마이크로폰들의 공간 위치들에 의해 정의될 수 있다.
따라서, 개선된 플렉시블 오디오 신호 처리 장치는 최적 다운믹스 행렬이 취득 시스템 지오메트리(geometry)의 실제 설계를 고려하는 주파수 선택 방식으로 유도된다는 사실로 인해 제공된다.
본 발명의 제1 양태에 따른 오디오 신호 다운믹싱 장치의 제1 가능한 구현 형태에서, 다운믹스 행렬 결정기는 이하의 방정식들을 사용하여 이산 라플라스-벨트라미 연산자(L)를 결정하도록 구성된다:
Figure 112017093910880-pct00001
여기서, L은 라플라스-벨트라미 연산자의 행렬 표현이고 C 및 W는 각각의 차원들 QxQ를 갖는 행렬들이고, Q는 입력 채널들의 수이고, diag(…)는 출력 행렬의 대각선으로서 입력 벡터 요소들을 배치하고 행렬 요소들의 나머지는 제로인 행렬 대각선화 연산을 나타내고, c는 차원(Q)의 벡터이고 wpq는 국부 평균화 계수들이다.
제1 가능한 구현 형태는 이산 라플라스-벨트라미 연산자(L)를 계산하는 계산 효율적 방식을 제공한다.
본 발명의 제1 양태의 제1 구현 형태에 따른 오디오 신호 다운믹싱 장치의 제2 가능한 구현 형태에서, 다운믹스 행렬 결정기는 이하의 방정식들을 사용하여 국부 평균화 계수들(wpq)을 결정하도록 구성된다:
Figure 112017093910880-pct00002
여기서, rp 또는 rq는 입력 오디오 신호의 복수의 입력 채널들이 기록되는 복수의 공간 위치들 중의 공간 위치를 정의하는 벡터이다.
제2 가능한 구현 형태는 복수의 입력 채널들을 기록하기 위해 각각의 디바이스들의 3차원 위치들(rp 및 rq)에 기초하여 평균화 계수들(wpq)에 대한 거리 가중값들을 사용하여 계산 효율적 근사를 제공한다.
본 발명의 제1 또는 제2 구현 형태 중 그러한 또는 어느 것과 같은 본 발명의 제1 양태의 제3 가능한 구현 형태에서, 다운믹스 행렬(DU)은 사전 정의된 임계값보다 더 큰 고유값을 갖는 이산 라플라스-벨트라미 연산자(L)의 고유벡터들을 선택함으로써 j가 차단 주파수 빈(k) 이하인 주파수 빈들에 대해 결정된다.
제3 가능한 구현 형태는 다운믹스 행렬(DU)에 대한 라플라스-벨트라미 연산자(L)의 최적 고유벡터들을 선택하는 계산 효율적 방식을 제공한다.
본 발명의 제1 내지 제3 구현 형태 중 그러한 또는 어느 것과 같은 본 발명의 제1 양태의 제4 가능한 구현 형태에서, 다운믹스 행렬(DU)은 사전 정의된 임계값보다 더 큰 고유값을 갖는 공분산 행렬(COV)의 고유벡터들을 선택함으로써 j가 차단 주파수 빈(k)보다 더 큰 주파수 빈들에 대해 결정된다.
제4 가능한 구현 형태는 다운믹스 행렬(DU)에 대해 공분산 행렬(COV)의 최적 고유벡터들을 선택하는 계산 효율적 방식을 제공한다.
본 발명의 제1 내지 제4 구현 형태 중 그러한 또는 어느 것과 같은 본 발명의 제1 양태의 제5 가능한 구현 형태에서, 다운믹스 행렬 결정기는 사전 정의된 임계값(T)보다 더 큰 콤팩트성 측정값(compactness measure)(θC)을 갖는 모든 주파수 빈들의 가장 작은 콤팩트성 측정값(θC)을 갖는 복수의 주파수 빈들 중 주파수 빈을 결정함으로써 차단 주파수 빈(k)을 결정하도록 구성되며, 주파수 빈의 콤팩트성 측정값(θC)은 이하의 방정식을 사용하여 결정된다:
Figure 112017093910880-pct00003
여기서,
Figure 112017093910880-pct00004
는 이산 라플라스-벨트라미 연산자(L)의 선택된 고유벡터들을 포함하는 단위 행렬을 나타내고,
Figure 112017093910880-pct00005
Figure 112017093910880-pct00006
의 에르미트 전치를 나타내고, diag(…)는 행렬 입력이 주어지면 행렬의 대각선을 따르는 계수들을 제외하고 모든 계수들을 제로화하는 행렬 대각선화 연산을 나타내고, off(…)는 행렬의 대각선 상에서 모든 계수들을 제로화하는 행렬 연산을 나타내고
Figure 112017093910880-pct00007
는 프로베니우스 노옴(Frobenius norm)을 나타낸다.
제5 가능한 구현 형태는 콤팩트성 측정값(θC)을 사용함으로써 차단 주파수 빈(k)을 결정하는 계산 효율적 구현을 제공한다. 본 기술분야의 통상의 기술자가 이해하는 바와 같이, 차단 주파수 빈(k)은 이러한 경우에, 다운믹스 행렬(DU)이 이산 라플라스-벨트라미 연산자(L)의 고유벡터들에 의해서만 결정되도록 가장 큰 주파수 빈(N)인 것으로 결정될 수 있다.
본 발명의 제1 내지 제5 구현 형태 중 그러한 또는 어느 것과 같은 본 발명의 제1 양태의 제6 가능한 구현 형태에서, 오디오 신호 다운믹싱 장치는 출력 오디오 신호의 적어도 하나의 보조 출력 채널을 제공하기 위해 공분산 행렬(COV)의 적어도 하나의 고유벡터를 포함하는 공분산 행렬(COV)의 고유벡터들의 제2 서브세트를 결정함으로써 다운믹스 행렬 확장(DW)을 결정하도록 구성되는 다운믹스 행렬 확장 결정기를 더 포함하며, 공분산 행렬(COV)의 고유벡터들의 제1 서브세트 및 공분산 행렬(COV)의 고유벡터들의 제2 서브세트는 분리 세트들이고 다운믹스 행렬(DU) 및 다운믹스 행렬 확장(DW)은 확장된 다운믹스 행렬(D)을 정의한다.
본 발명의 제1 양태의 제6 구현 형태의 제7 가능한 구현 형태에서, 다운믹스 행렬 확장 결정기는 공분산 행렬(COV)의 각각의 고유벡터에 대해 고유벡터와 다운믹스 행렬(DU)의 열들에 의해 정의되는 복수의 벡터들 사이의 복수의 각도들을 결정하고, 각각의 고유벡터에 대해 고유벡터와 다운믹스 행렬(DU)의 열들에 의해 정의되는 복수의 벡터들 사이의 복수의 각도들 중의 가장 작은 각도를 결정하고 고유벡터와 다운믹스 행렬(DU)의 열들에 의해 정의되는 복수의 벡터들 사이의 가장 작은 각도가 임계 각도(θMIN)보다 더 큰 공분산 행렬(COV)의 고유벡터들을 선택함으로써 공분산 행렬(COV)의 고유벡터들의 제2 서브세트를 결정하도록 구성된다.
제7 가능한 구현 형태는 공분산 행렬(COV)의 추가 고유벡터들을 사용하여 다운믹스 행렬 확장(DW)을 유도하는 계산 효율적 방식을 제공한다.
본 발명의 제1 내지 제7 구현 형태 중 그러한 또는 어느 것과 같은 본 발명의 제1 양태의 제8 가능한 구현 형태에서, 프로세서는 복수의 입력 채널들 각각에 대한 입력 오디오 신호를 복수의 입력 오디오 신호 시간 프레임들의 형태로 처리하도록 구성되고 입력 오디오 신호의 복수의 입력 채널들과 연관되는 복수의 푸리에 계수들은 복수의 입력 오디오 신호 시간 프레임들의 이산 푸리에 변환들에 의해 획득된다.
제8 가능한 구현 형태는 이산 푸리에 변환, 특히 FFT를 사용하여 프레임 방식으로 입력 오디오 신호의 입력 채널들의 계산 효율적 처리를 제공한다. 오디오 신호 시간 프레임들은 오버래핑될 수 있다.
본 발명의 제1 양태의 제8 구현 형태의 제9 가능한 구현 형태에서, 다운믹스 행렬 결정기는 이하의 방정식을 사용하여 복수의 입력 오디오 신호 시간 프레임들 중 주어진 입력 오디오 신호 시간 프레임(n)에 대해 그리고 복수의 주파수 빈들 중 주어진 주파수 빈(j)에 대해 공분산 행렬(COV)의 계수들(cxy)을 결정함으로써 입력 오디오 신호의 복수의 입력 채널들에 의해 정의되는 공분산 행렬(COV)을 결정하도록 구성된다:
Figure 112017093910880-pct00008
여기서, E{ }는 예상 연산자(expectation operator)를 나타내고, jx는 입력 오디오 신호의 입력 채널(x)에 대한 주파수 빈(j)에서 푸리에 계수를 나타내고, *는 복소 공액(complex conjugate)을 나타내고 x 및 y는 범위가 1 내지 입력 채널들(Q)의 수이다.
제9 가능한 구현 형태는 공분산 행렬(COV)을 결정하는 계산 효율적 방식을 제공한다.
본 발명의 제1 양태의 제8 구현 형태의 제10 가능한 구현 형태에서, 다운믹스 행렬 결정기는 이하의 방정식을 사용하여 복수의 입력 오디오 신호 시간 프레임들 중 주어진 입력 오디오 신호 시간 프레임(n)에 대해 그리고 복수의 주파수 빈들 중 주어진 주파수 빈(j)에 대해 공분산 행렬(COV)의 계수들(cxy)을 결정함으로써 입력 오디오 신호의 복수의 입력 채널들에 의해 정의되는 공분산 행렬(COV)을 결정하도록 구성된다:
Figure 112017093910880-pct00009
여기서, β는 0≤β<1을 갖는 망각 인자를 나타내고,
Figure 112017093910880-pct00010
Figure 112017093910880-pct00011
의 실수부를 나타내고, jx는 입력 오디오 신호의 입력 채널(x)에 대한 주파수 빈(j)에서 푸리에 계수를 나타내고, *는 복소 공액을 나타내고 x 및 y는 범위가 1 내지 입력 채널들(Q)의 수이다.
제2 양태에 따르면, 본 발명은 입력 오디오 신호를 출력 오디오 신호로 처리하는 오디오 신호 다운믹싱 방법에 관한 것이며, 입력 오디오 신호는 복수의 공간 위치들에 기록되는 복수의 입력 채널들을 포함하고 출력 오디오 신호는 복수의 일차 출력 채널들을 포함한다. 방법은 복수의 주파수 빈들의 각각의 주파수 빈(j)에 대해 다운믹스 행렬(DU)을 결정하는 단계 - j는 범위가 1 내지 N인 정수이며, 주어진 주파수 빈(j)에 대해 다운믹스 행렬(DU)은 입력 오디오 신호의 복수의 입력 채널들과 연관되는 복수의 푸리에 계수들을 출력 오디오 신호의 일차 출력 채널들의 복수의 푸리에 계수들로 매핑하고, j가 차단 주파수 빈(k) 이하인 주파수 빈들에 대해 다운믹스 행렬(DU)은 복수의 입력 채널들이 기록되는 복수의 공간 위치들에 의해 정의되는 이산 라플라스-벨트라미 연산자(L)의 고유벡터들을 결정함으로써 결정되고, j가 차단 주파수 빈(k)보다 더 큰 주파수 빈들에 대해 다운믹스 행렬(DU)은 입력 오디오 신호의 복수의 입력 채널들에 의해 정의되는 공분산 행렬(COV)의 고유벡터들의 제1 서브세트를 결정함으로써 결정됨 -; 및 입력 오디오 신호를 다운믹스 행렬(DU)을 사용하여 출력 오디오 신호로 처리하는 단계를 포함한다.
본 발명의 제2 양태에 따른 오디오 신호 다운믹싱 방법은 본 발명의 제1 양태에 따른 오디오 신호 다운믹싱 장치에 의해 수행될 수 있다. 본 발명의 제2 양태에 따른 오디오 신호 다운믹싱 방법의 추가 특징들은 본 발명의 제1 양태 및 그것의 상이한 구현 형태들에 따른 오디오 신호 다운믹싱 장치의 기능성에서 직접 기인한다.
제3 양태에 따르면, 본 발명은 본 발명의 제1 양태에 따른 오디오 신호 다운믹싱 장치, 및 복수의 인코딩된 일차 출력 채널들을 제1 비트 스트림의 형태로 획득하기 위해 출력 오디오 신호의 복수의 일차 출력 채널들을 인코딩하도록 구성되는 인코더 A를 포함하는 인코딩 장치에 관한 것이다.
제4 양태에 따르면, 본 발명은 입력 오디오 신호를 출력 오디오 신호로 처리하는 오디오 신호 업믹싱 장치에 관한 것이며, 입력 오디오 신호는 복수의 공간 위치들에 기록되는 복수의 입력 채널들에 기초하여 복수의 일차 입력 채널들을 포함하고 출력 오디오 신호는 복수의 출력 채널들을 포함한다. 오디오 신호 업믹싱 장치는 복수의 주파수 빈들의 각각의 주파수 빈(j)에 대해 업믹스 행렬을 결정하도록 구성되는 업믹스 행렬 결정기 - j는 범위가 1 내지 N인 정수이며, 주어진 주파수 빈(j)에 대해 업믹스 행렬은 입력 오디오 신호의 복수의 일차 입력 채널들과 연관되는 복수의 푸리에 계수들을 출력 오디오 신호의 출력 채널들의 복수의 푸리에 계수들로 매핑하고, j가 차단 주파수 빈(k) 이하인 주파수 빈들에 대해 업믹스 행렬은 복수의 입력 채널들이 기록되는 복수의 공간 위치들에 의해 정의되는 이산 라플라스-벨트라미 연산자(L)의 고유벡터들을 결정함으로써 결정되고, j가 차단 주파수 빈(k)보다 더 큰 주파수 빈들에 대해 업믹스 행렬은 입력 오디오 신호의 복수의 입력 채널들에 의해 정의되는 공분산 행렬(COV)의 고유벡터들의 제1 서브세트를 결정함으로써 결정됨 -; 및 입력 오디오 신호를 업믹스 행렬을 사용하여 출력 오디오 신호로 처리하도록 구성되는 프로세서를 포함한다.
제5 양태에 따르면, 본 발명은 입력 오디오 신호를 출력 오디오 신호로 처리하는 오디오 신호 업믹싱 방법에 관한 것이며, 입력 오디오 신호는 복수의 공간 위치들에 기록되는 복수의 입력 채널들에 기초하여 복수의 일차 입력 채널들을 포함하고 출력 오디오 신호는 복수의 출력 채널들을 포함한다. 방법은 복수의 주파수 빈들의 각각의 주파수 빈(j)에 대해 업믹스 행렬을 결정하는 단계 - j는 범위가 1 내지 N인 정수이며, 주어진 주파수 빈(j)에 대해 업믹스 행렬은 입력 오디오 신호의 복수의 입력 채널들과 연관되는 복수의 푸리에 계수들을 출력 오디오 신호의 일차 출력 채널들의 복수의 푸리에 계수들로 매핑하고, j가 차단 주파수 빈(k) 이하인 주파수 빈들에 대해 업믹스 행렬은 복수의 입력 채널들이 기록되는 복수의 공간 위치들에 의해 정의되는 이산 라플라스-벨트라미 연산자(L)의 고유벡터들을 결정함으로써 결정되고, j가 차단 주파수 빈(k)보다 더 큰 주파수 빈들에 대해 업믹스 행렬은 입력 오디오 신호의 복수의 입력 채널들에 의해 정의되는 공분산 행렬(COV)의 고유벡터들의 제1 서브세트를 결정함으로써 결정됨 -; 및 입력 오디오 신호를 업믹스 행렬을 사용하여 출력 오디오 신호로 처리하는 단계를 포함한다.
본 발명의 제5 양태에 따른 오디오 신호 업믹싱 방법은 본 발명의 제4 양태에 따른 오디오 신호 업믹싱 장치에 의해 수행될 수 있다. 본 발명의 제5 양태에 따른 오디오 신호 업믹싱 방법의 추가 특징들은 본 발명의 제4 양태에 따른 오디오 신호 업믹싱 장치의 기능성에서 직접 기인한다.
제6 양태에 따르면, 본 발명은 본 발명의 제4 양태에 따른 오디오 신호 업믹싱 장치 및 본 발명의 제3 양태에 따른 인코딩 장치로부터 제1 비트 스트림을 수신하고, 오디오 신호 업믹싱 장치에 의해 처리되는 복수의 일차 입력 채널들을 획득하기 위해 제1 비트 스트림을 디코딩하도록 구성되는 디코더 A를 포함하는 디코딩 장치에 관한 것이다.
제7 양태에 따르면, 본 발명은 본 발명의 제3 양태에 따른 인코딩 장치 및 본 발명의 제6 양태에 따른 디코딩 장치를 포함하는 오디오 신호 처리 시스템에 관한 것이며, 인코딩 장치는 디코딩 장치와 적어도 일시적으로 통신하도록 구성된다.
제8 양태에 따르면, 본 발명은 컴퓨터 상에 실행될 때 본 발명의 제2 양태에 따른 오디오 신호 다운믹싱 방법 및 본 발명의 제5 양태에 따른 오디오 신호 업믹싱 방법을 수행하는 프로그램 코드를 포함하는 컴퓨터 프로그램에 관한 것이다.
본 발명은 하드웨어 및/또는 소프트웨어로 구현될 수 있다.
본 발명의 추가 실시예들은 이하의 도면들을 참조하여 설명될 것이다.
도 1은 오디오 신호 처리 시스템의 일부로서 일 실시예에 따른 오디오 신호 다운믹싱 장치 및 일 실시예에 따른 오디오 신호 업믹싱 장치의 개략도를 도시한다.
도 2는 일 실시예에 따른 오디오 신호 다운믹싱 방법의 개략도를 도시한다.
이하의 상세한 설명에서, 본 개시내용의 일부를 형성하고, 본 개시내용이 실시될 수 있는 특정 양태들이 예시로서 도시되는 첨부 도면들이 참조된다. 다른 양태들이 이용될 수 있다는 점 및 구조적이거나 논리적 변화들이 본 개시내용의 범위로부터 벗어나는 것 없이 이루어질 수 있다는 점이 이해된다. 따라서, 이하의 상세한 설명은 제한적 의미로 해석되지 않고, 본 개시내용의 범위는 첨부된 청구항들에 의해 정의된다.
설명된 방법과 관련되는 개시내용은 또한 방법을 수행하도록 구성되는 대응하는 디바이스 또는 시스템에 대해 유효할 수 있고 역도 같다는 점이 이해된다. 예를 들어, 특정 방법 단계가 설명되면, 대응하는 디바이스 또는 장치는 설명된 방법 단계를 수행하는 유닛을 포함할 수 있지만, 그러한 유닛은 도면들에 명시적으로 설명되거나 예시되지 않는다. 게다가, 본원에 설명되는 다양한 예시적 양태들의 특징들은 달리 구체적으로 언급되지 않는 한, 서로 결합될 수 있다는 점이 이해된다.
도 1은 오디오 신호 처리 시스템(100)의 일부로서 일 실시예에 따른 오디오 신호 다운믹싱 장치(105)의 개략도를 도시한다.
오디오 신호 다운믹싱 장치(105)는 입력 오디오 신호를 출력 오디오 신호로 처리하도록 구성되며, 입력 오디오 신호는 복수의 공간 위치들에 기록되는 복수의 입력 채널들(113)을 포함하고 출력 오디오 신호는 복수의 일차 출력 채널들(123)을 포함한다. 일 실시예에서, 멀티채널 입력 오디오 신호(113)는 Q 입력 채널들을 포함한다. 일 실시예에서, 오디오 신호 다운믹싱 장치(105)는 멀티채널 입력 오디오 신호(113)를 프레임 방식으로, 즉 복수의 입력 오디오 신호 시간 프레임들의 형태로 처리하도록 구성되며, 오디오 신호 시간 프레임은 예를 들어 채널마다 약 10 내지 40 ms의 길이를 갖는다. 일 실시예에서, 후속 입력 오디오 신호 시간 프레임들은 부분적으로 오버래핑될 수 있다. 일 실시예에서, 멀티채널 입력 오디오 신호(113)는 주파수 도메인에서 처리된다. 일 실시예에서, 멀티채널 입력 오디오 신호(113)의 채널의 입력 오디오 신호 시간 프레임은 이산 푸리에 변환, 특히 FFT에 의해 주파수 도메인으로 변환되어, 멀티채널 오디오 입력 신호(113)의 입력 채널(x)의 주파수 빈(j)에서 복수의 푸리에 계수들(jx)을 산출하며, j는 1에서 N, 즉 주파수 빈들의 전체 수까지 이르고, x는 1에서 입력 채널들(Q)의 전체 수까지 이른다.
오디오 신호 다운믹싱 장치(105)는 각각의 주파수 빈(j)에 대해(그리고 모든 입력 오디오 신호 시간 프레임에 대한 멀티채널 입력 오디오 신호(113)의 프레임 방식 처리의 경우에) 다운믹스 행렬(DU)을 결정하도록 구성되는 다운믹스 행렬 결정기(107)를 포함하며, 주어진 주파수 빈(j)에 대해 다운믹스 행렬(DU)은 입력 오디오 신호의 복수의 입력 채널들(113)과 연관되는 복수의 푸리에 계수들을 출력 오디오 신호의 일차 출력 채널들(123)의 복수의 푸리에 계수들로 매핑한다.
더욱이, 오디오 신호 다운믹싱 장치(105)는 멀티채널 입력 오디오 신호(113)를 다운믹스 행렬(DU)을 사용하여 출력 오디오 신호로 처리하도록 구성되는 프로세서(109)를 포함한다.
j가 차단 주파수 빈(k) 이하인 주파수 빈들에 대해 다운믹스 행렬(DU)은 복수의 입력 채널들(113)이 기록되거나 기록되었던 복수의 공간 위치들에 의해 정의되는 이산 라플라스-벨트라미 연산자(L)의 고유벡터들을 결정함으로써 다운믹스 행렬 결정기(107)에 의해 결정된다. 일 실시예에서, 복수의 입력 채널들(113)이 기록되거나 기록되었던 복수의 공간 위치들은 멀티채널 오디오 입력 신호(113)를 기록하기 위해 사용되는 대응하는 복수의 마이크로폰들 또는 다른 사운드 기록 디바이스들의 공간 위치들에 의해 정의된다. 일 실시예에서, 복수의 입력 채널들(113)이 기록되었던 복수의 공간 위치들에 관한 정보는 다운믹스 행렬 결정기(107)에 제공되거나 이 결정기에 저장될 수 있다.
일 실시예에서, 다운믹스 행렬 결정기(107)는 이하의 방정식들을 사용하여 이산 라플라스-벨트라미 연산자(L)를 결정하도록 구성된다:
Figure 112017093910880-pct00012
여기서, L은 라플라스-벨트라미 연산자의 행렬 표현이고 C 및 W는 각각의 차원들 QxQ를 갖는 행렬들이고, Q는 입력 채널들(113)의 수이고, diag(…)는 출력 행렬의 대각선으로서 입력 벡터 요소들을 배치하고 행렬 요소들의 나머지는 제로인 행렬 대각선화 연산을 나타내고, c는 차원(Q)의 벡터이고 wpq는 국부 평균화 계수들이다.
일 실시예에서, 다운믹스 행렬 결정기(107)는 이하의 방정식들을 사용하여 국부 평균화 계수들(wpq)을 결정하도록 구성된다:
Figure 112017093910880-pct00013
여기서, rp 또는 rq는 복수의 공간 위치들 중 하나의 공간 위치를 정의하는 3차원 벡터이며 입력 오디오 신호의 복수의 입력 채널들은 예를 들어 멀티채널 오디오 입력 신호(113)를 기록하기 위해 사용되는 Q 마이크로폰들 또는 다른 사운드 기록 디바이스들의 공간 위치들에 기록된다.
일 실시예에서, 다운믹스 행렬 결정기(107)는 사전 정의된 임계 값(λL)보다 더 큰 고유값을 갖는 이산 라플라스-벨트라미 연산자(L)의 고유벡터들을 선택함으로써 j가 차단 주파수 빈(k) 이하인 주파수 빈들에 대해 다운믹스 행렬(DU)을 결정하도록 구성된다.
j가 차단 주파수 빈(k)보다 더 큰 주파수 빈들에 대해 다운믹스 행렬 결정기(107)는 입력 오디오 신호의 복수의 입력 채널들(113)에 의해 정의되는 공분산 행렬(COV)의 고유벡터들의 제1 서브세트를 결정함으로써 다운믹스 행렬(DU)을 결정하도록 구성된다.
멀티채널 오디오 입력 신호(113)가 프레임 방식으로 처리되는 일 실시예에서, 다운믹스 행렬 결정기(107)는 이하의 방정식을 사용하여 복수의 입력 오디오 신호 시간 프레임들 중 주어진 입력 오디오 신호 시간 프레임(n)에 대해 그리고 복수의 주파수 빈들 중 주어진 주파수 빈(j)에 대해 공분산 행렬(COV)의 계수들(cxy)을 결정함으로써 입력 오디오 신호의 복수의 입력 채널들(113)에 의해 정의되는 공분산 행렬(COV)을 결정하도록 구성된다:
Figure 112017093910880-pct00014
여기서, E{ }는 예상 연산자를 나타내고, *는 복소 공액을 나타내고 x 및 y는 범위가 1 내지 입력 채널들(Q)의 수이다.
멀티채널 오디오 입력 신호(113)가 프레임 방식으로 처리되는 일 실시예에서, 다운믹스 행렬 결정기(107)는 이하의 방정식을 사용하여 복수의 입력 오디오 신호 시간 프레임들 중 주어진 입력 오디오 신호 시간 프레임(n)에 대해 그리고 복수의 주파수 빈들 중 주어진 주파수 빈(j)에 대해 공분산 행렬(COV)의 계수들(cxy)을 결정함으로써 입력 오디오 신호의 복수의 입력 채널들(113)에 의해 정의되는 공분산 행렬(COV)을 결정하도록 구성된다:
Figure 112017093910880-pct00015
여기서, β는 0≤β<1을 갖는 망각 인자를 나타내고
Figure 112017093910880-pct00016
Figure 112017093910880-pct00017
의 실수부를 나타낸다.
일 실시예에서, 계산 복잡도를 감소시키기 위해 푸리에 계수들은 특정 심리 음향적 스케일들, 예컨대 바크 스케일 또는 멜 스케일에 기초하여 B 상이한 밴드들로 그룹화될 수 있고, 공분산 행렬(COV)의 결정은 밴드 b마다 수행될 수 있으며, 여기서 b는 범위가 1 내지 B이다. 이러한 경우에, 예를 들어 가산을 수행함으로써 이하의 계수들을 갖는 단순화된 공분산 행렬이 사용될 수 있다:
Figure 112017093910880-pct00018
이러한 B 밴드들로의 그룹화는 전체 푸리에 계수들의 서브세트만을 취함으로써 계산 복잡도를 감소시킨다.
일 실시예에서, 다운믹스 행렬 결정기(107)는 사전 정의된 임계 값(λCOV)보다 더 큰 고유값을 갖는 공분산 행렬(COV)의 고유벡터들을 고유벡터들의 제1 서브세트로서 선택함으로써 j가 차단 주파수 빈(k)보다 더 큰 주파수 빈들에 대해 다운믹스 행렬(DU)을 결정하도록 구성된다.
일 실시예에서, 다운믹스 행렬 결정기(107)는 고유값 분해(eigenvalue decomposition)(EVD), 즉 이하에 의해 복수의 입력 오디오 신호 시간 프레임들 중 주어진 입력 오디오 신호 시간 프레임(n)에 대해 그리고 복수의 주파수 빈들 중 주어진 주파수 빈(j)에 대해 공분산 행렬(COV)의 고유벡터들을 결정하도록 구성되고,
Figure 112017093910880-pct00019
여기서, U는 고유벡터들을 포함하는 단위 행렬이고, Λ는 고유값들을 포함하는 대각선 행렬이고 UH는 행렬(U)의 에르미트 전치이다.
일 실시예에서, 공분산 행렬(COV)의 고유벡터들은 각각의 프레임(n)에 대한 EVD를 수행하는 것이 필요하지 않기 때문에, 계산 복잡도를 감소시키기 위해 공분산 행렬 추정값의 1순위 수정 문자를 이용함으로써 반복적으로 산출된다.
변환 도메인에서 자기상관 추정의 성질을 이용하는 것은 효율적 카루넨 루베 변환(Karhunen-Loeve Transform)(KLT)을 초래하고,
Figure 112017093910880-pct00020
여기서, α는 0과 1 사이의 값을 갖는 망각 인자이고 Y 및 X는 행렬(U)에 의해 수행되는 다운믹스 연산의 행 벡터들로 배열되는 출력 및 입력 푸리에 계수들을 나타낸다.
추정은 대각선 행렬의 1순위 수정에 기초한다.
Figure 112017093910880-pct00021
의 고유값들은 함수의 제로들인 점이 문헌에 제시되었고,
Figure 112017093910880-pct00022
Figure 112017093910880-pct00023
Figure 112017093910880-pct00024
이 수정된 행렬
Figure 112017093910880-pct00025
의 고유값임
Figure 112017093910880-pct00026
에 대한
Figure 112017093910880-pct00027
함수(
Figure 112017093910880-pct00028
)의 제로들은 반복적으로 발견될 수 있다. 그러나, 검색 프로세스의 컨버전스는 이차이다. 고유값들이 계산되면,
Figure 112017093910880-pct00029
의 수정된 공간-시간 변환 자기상관 행렬(GUq)의 고유벡터들은 이하의 방정식들에 의해 명시적으로 계산될 수 있다:
Figure 112017093910880-pct00030
일 실시예에서, 다운믹스 행렬 결정기(107)는 사전 정의된 임계값(T)보다 더 큰 콤팩트성 측정값(θC)을 갖는 모든 주파수 빈들의 가장 작은 콤팩트성 측정값(θC)을 갖는 복수의 주파수 빈들의 주파수 빈을 결정함으로써 차단 주파수 빈(k)을 결정하도록 구성되며, 주파수 빈의 콤팩트성 측정값(θC)은 이하의 방정식에 의해 정의된다:
Figure 112017093910880-pct00031
여기서,
Figure 112017093910880-pct00032
는 이산 라플라스-벨트라미 연산자(L)의 선택된 고유벡터들을 포함하는 단위 행렬을 나타내고,
Figure 112017093910880-pct00033
Figure 112017093910880-pct00034
의 에르미트 전치를 나타내고, diag(…)는 행렬 입력이 주어지면 행렬의 대각선을 따르는 계수들을 제외하고 모든 계수들을 제로화하는 행렬 대각선화 연산을 나타내고, off(…)는 행렬의 대각선 상에서 모든 계수들을 제로화하는 행렬 연산을 나타내고
Figure 112017093910880-pct00035
는 프로베니우스 노옴을 나타낸다. 단순화를 위해, 인덱스들(n 및 j)은 주파수 빈의 콤팩트성 측정값(θC)을 정의하는 상기 방정식에서 생략되었다. j가 더 낮은 주파수들에서 더 높은 주파수들로 감에 따라(j = 1 내지 N), 콤팩트성 측정값(θC)은 더 작아진다. 그 다음, 차단 주파수 빈(k)의 선택은 사전 정의된 임계값(T)을 사용하여 발견적으로 결정되며, 리스닝 테스트들은 지각적 무손실 인코딩이 가능한 것을 확인하기 위해 고려될 수 있다.
본 발명은 또한 차단 주파수 빈(k)이 가장 높은 주파수에 대응하는 주파수 빈과 동등한 실시예들을 망라한다. 본 기술분야의 기술자가 이해하는 바와 같이, 그러한 경우에 다운믹스 행렬(DU)은 모든 주파수 빈들에 대한 이산 라플라스-벨트라미 연산자(L)의 고유벡터들에 의해서만 정의된다.
일 실시예에서, 오디오 신호 다운믹싱 장치(105)는 출력 오디오 신호의 적어도 하나의 보조 출력 채널(125)을 제공하기 위해 공분산 행렬(COV)의 적어도 하나의 고유벡터를 포함하는 공분산 행렬(COV)의 고유벡터들의 제2 서브세트를 결정함으로써 다운믹스 행렬 확장(DW)을 결정하도록 구성되는 다운믹스 행렬 확장 결정기(111)를 더 포함한다. 다운믹스 행렬 결정기(107)에 의해 결정되는 공분산 행렬(COV)의 고유벡터들의 제1 서브세트 및 다운믹스 행렬 확장 결정기(111)에 의해 결정되는 공분산 행렬(COV)의 고유벡터들의 제2 서브세트는 고유벡터들의 제1 및 제2 서브세트가 분리 세트들인 그러한 방식으로 결정된다. 다운믹스 행렬(DU) 및 다운믹스 행렬 확장(DW)은 확장된 다운믹스 행렬(D)을 함께 정의한다.
일 실시예에서, 다운믹스 행렬 확장 결정기(111)는 이하의 단계들에 의해 공분산 행렬(COV)의 고유벡터들의 제2 서브세트를 결정하도록 구성된다. 제1 단계에서, 다운믹스 행렬 결정기(111)는 공분산 행렬(COV)의 각각의 고유벡터에 대해 고유벡터와 다운믹스 행렬(DU)의 열들에 의해 정의되는 복수의 벡터들 사이의 복수의 각도들을 결정한다. 제2 단계에서, 다운믹스 행렬 결정기(111)는 각각의 고유벡터에 대해 고유벡터와 다운믹스 행렬(DU)의 열들에 의해 정의되는 복수의 벡터들 사이의 복수의 각도들 중의 가장 작은 각도를 결정한다. 제3 단계에서, 다운믹스 행렬 결정기(111)는 고유벡터와 다운믹스 행렬(DU)의 열들에 의해 정의되는 복수의 벡터들 사이의 가장 작은 각도가 사전 정의된 임계 각도(θMIN)보다 더 큰 공분산 행렬(COV)의 고유벡터들을 선택한다.
다운믹스 행렬(DU)은 확장된 다운믹스 행렬(D)에 의해 정의되는 공간의 부공간(U)을 정의한다. 다운믹스 행렬 확장(DW)은 확장된 다운믹스 행렬(D)에 의해 정의되는 공간의 부공간(W)을 정의한다. 부공간(U)과 부공간(W) 사이의 부공간 각도는 부공간(U)에 걸치는 모든 벡터들(u)과 부공간(W)에 걸치는 모든 벡터들(w) 사이의 최소 각도, 즉 이하에 의해 정의되고,
Figure 112017093910880-pct00036
여기서, <u,w>는 벡터들(u 및 w)의 내적을 나타내고
Figure 112017093910880-pct00037
는 벡터(u)의 노옴을 나타낸다.
일 예는 부공간(U)이 벡터들(u1 및 u2), 즉 U = {u1, u2}에 의해 스패닝되고 부공간(W)이 벡터들(w1, w2, w3 및 w4), 즉 W = {w1, w2, w3, w4}에 의해 스패닝되도록 예시적 경우 M = 2 및 Q = 4를 위해 아래에 주어진다. 일 실시예에서, 이하의 각도들이 산출된다:
Figure 112017093910880-pct00038
공분산 행렬(COV)의 고유벡터들과 다운믹스 행렬(DU)에 의해 스패닝되는 공간 사이의 부공간 각도를 산출하기 위해, θ는 모든 고유벡터와 다운믹스 행렬(DU)의 열들 사이에서 계산된다. 상기 예에서, 이것은 이하의 각도들을 초래한다:
Figure 112017093910880-pct00039
공분산 행렬(COV)의 고유벡터들은 부공간 각도를 감소시킴으로써 분류되며, 더 큰 각도들을 갖는 것들은 다운믹스 행렬 확장(DW)을 정의하기 위해 선택되는 것이 바람직하다. 예를 들어, θc > θa > θb > θd인 경우에, 적어도 각도들(θ3 및 θ7)과 연관되는 고유벡터(w3)는 다운믹스 행렬 확장(DW)의 일부로 선택될 것이다.
상기에 이미 언급된 바와 같이, 오디오 신호 다운믹싱 장치(105)의 상기 설명된 실시예들은 도 1에 도시된 오디오 신호 처리 시스템(100)의 인코딩 장치(101)의 구성요소로 구현될 수 있다. 상기에 이미 설명된 바와 같이, 인코딩 장치(101)의 오디오 신호 다운믹싱 장치(105)는 입력으로서 Q 입력 오디오 신호 채널들(113)을 포함하는 입력 오디오 신호를 수신한다.
상기에 상세히 설명된 바와 같이, 오디오 신호 다운믹싱 장치(105)는 다운믹스 행렬(DU), 또는 일 실시예에서, 확장된 다운믹스 행렬(D)에 기초하여 멀티채널 입력 오디오 신호(113)의 Q 채널들을 처리하고 오디오 출력 신호의 M 일차 출력 채널들(123), 및 일 실시예에서, 더욱이 오디오 출력 신호의 Q-M까지의 보조 출력 채널들(125)을 제공한다.
인코딩 장치(101)는 인코더 A(119) 및 다른 인코더 B(121)를 더 포함한다. 인코더 A(119)는 입력으로서 오디오 신호 다운믹싱 장치(105)에 의해 제공되는 M 일차 출력 채널들(123)을 수신한다. 다른 인코더 B(121)는 입력으로서 오디오 신호 다운믹싱 장치(105)에 의해 제공되는 제로에서 Q-M까지의 보조 출력 채널들(125)을 수신한다.
인코더 A(119)는 오디오 신호 다운믹싱 장치(105)에 의해 제공되는 M 일차 출력 채널들(123)을 제1 비트 스트림(127)으로 인코딩하도록 구성된다. 다른 인코더 B(121)는 일 실시예에서, 오디오 신호 다운믹싱 장치(105)에 의해 제공되는 Q-M까지의 보조 출력 채널들(125)을 제2 비트 스트림(129)으로 인코딩하도록 구성된다. 일 실시예에서, 인코더 A(119) 및 다른 인코더 B(121)는 출력으로서 단일 비트 스트림을 제공하는 단일 인코더로 구현될 수 있다.
제1 비트 스트림(127) 및 제2 비트 스트림(129)은 도 1에 도시된 오디오 신호 처리 시스템(100)의 디코딩 장치(103)에 입력들로서 제공된다. 디코딩 장치(103)는 제1 비트 스트림(127) 및 제2 비트 스트림(129) 각각을 디코딩하는 대응하는 디코더들, 즉 디코더 A(133) 및 다른 디코더 B(143)를 포함한다.
디코더 A(133)는 출력으로서 디코더 A(133)에 의해 제공되는 M 일차 입력 채널들(135)이 오디오 신호 다운믹싱 장치(105)에 의해 제공되는 M 일차 출력 채널들(123)에 대응하도록, 즉 출력으로서 디코더 A(133)에 의해 제공되는 M 일차 입력 채널들(135)이 오디오 신호 다운믹싱 장치(105) 또는 그것의 저하된 버전(인코더 A(119) 및 디코더 A(133)로 구현되는 손실 코덱의 경우에)에 의해 제공되는 M 일차 출력 채널들(123)과 본질적으로 동일하도록 제1 비트 스트림(127)을 디코딩하도록 구성된다.
다른 디코더 B(143)는 출력으로서 다른 디코더 B(143)에 의해 제공되는 Q-M까지의 보조 입력 채널들(145)이 오디오 신호 다운믹싱 장치(105)에 의해 제공되는 Q-M까지의 보조 출력 채널들(125)에 대응하도록, 즉 출력으로서 다른 디코더 B(143)에 의해 제공되는 Q-M까지의 보조 입력 채널들(145)이 오디오 신호 다운믹싱 장치(105) 또는 그것의 저하된 버전(다른 인코더 B(121) 및 다른 디코더 B(143)로 구현되는 손실 코덱의 경우에)에 의해 제공되는 Q-M까지의 보조 출력 채널들(125)과 본질적으로 동일하도록 제2 비트 스트림(129)을 디코딩하도록 구성된다.
도 1에 도시된 실시예에서, 디코딩 장치(103)는 오디오 신호 업믹싱 장치(139)를 포함한다. 일 실시예에서, 오디오 신호 업믹싱 장치(139) 및/또는 그것의 구성요소들은 출력 오디오 신호(149)를 발생시키기 위해 오디오 신호 처리 장치(105) 및 또는 그것의 구성요소들의 역 동작을 본질적으로 수행하도록 구성된다. 이것을 위해, 오디오 신호 업믹싱 장치(139)는 업믹스 행렬 결정기(137), 프로세서(141) 및 업믹스 행렬 확장 결정기(147)를 포함할 수 있다. 일 실시예에서, 프로세서(141)는 인코딩 장치(101)의 오디오 신호 처리 장치(105)의 프로세서(109)의 역동작들을 (일반화된 역 방법, 예를 들어 의사 역에 의해) 본질적으로 수행한다. 일 실시예에서, 업믹스 행렬 결정기(137)는 라플라스-벨트라미 연산자(L)의 고유벡터들에 기초하여 그리고 적용가능하면 공분산 행렬(COV)의 고유벡터들에 기초하여 업믹스 행렬을 결정하도록 구성될 수 있다. 일 실시예에서, 오디오 신호 업믹싱 장치(139)가 출력 오디오 신호를 발생시키기 위해 사용할 수 있는 임의의 부가 데이터, 예컨대 메타데이터는 비트 스트림(131)을 통해 송신될 수 있다. 예를 들어, 일 실시예에서, 오디오 신호 다운믹싱 장치(105)는 출력 오디오 신호(149)를 발생시키기 위해 라플라스-벨트라미 연산자의 고유벡터들 및/또는 적용가능하면 공분산 행렬(COV)의 고유벡터들을 비트 스트림(131)을 통해 디코딩 장치의 오디오 신호 업믹싱 장치(139)에 제공할 수 있다. 비트 스트림(131)은 인코딩될 수 있다. 부가 신호 처리 도구, 즉 리믹스(예를 들어, 패닝(panning) 및 웨이브 필드 합성)는 타겟된 원하는 출력 오디오 신호를 획득하기 위해 출력 오디오 신호(149)에 더 적용될 수 있다. 본 기술분야의 통상의 기술자가 이해하는 바와 같이, 디코더 A(133)에 의해 제공되는 M 일차 입력 채널들(135)은 M 일차 입력 채널들(135)을 표현하고 다른 디코더 B(143)에 의해 제공되는 Q-M까지의 보조 입력 채널들(145)은 오디오 신호 업믹싱 장치(139)에 의해 처리되는 입력 오디오 신호의 Q-M까지의 보조 입력 채널들(145)을 표현한다.
도 2는 입력 오디오 신호를 출력 오디오 신호로 처리하는 오디오 신호 처리 방법(200)의 일 실시예의 개략도를 도시하며, 입력 오디오 신호는 복수의 공간 위치들에 기록되는 복수의 입력 채널들(113)을 포함하고 출력 오디오 신호는 복수의 일차 출력 채널들(123)을 포함한다.
오디오 신호 처리 방법(200)은 복수의 주파수 빈들의 각각의 주파수 빈(j)에 대해 다운믹스 행렬(DU)을 결정하는 단계(201)를 포함하며 j는 범위가 1 내지 N인 정수이고, 주어진 주파수 빈(j)에 대해 다운믹스 행렬(DU)은 입력 오디오 신호의 복수의 입력 채널들(113)과 연관되는 복수의 푸리에 계수들을 출력 오디오 신호의 일차 출력 채널들(123)의 복수의 푸리에 계수들로 매핑하고, j가 차단 주파수 빈(k) 이하인 주파수 빈들에 대해 다운믹스 행렬(DU)은 복수의 입력 채널들(113)이 기록되는 복수의 공간 위치들에 의해 정의되는 이산 라플라스-벨트라미 연산자(L)의 고유벡터들을 결정함으로써 결정되고, j가 차단 주파수 빈(k)보다 더 큰 주파수 빈들에 대해 다운믹스 행렬(DU)은 입력 오디오 신호의 복수의 입력 채널들(113)에 의해 정의되는 공분산 행렬(COV)의 고유벡터들의 제1 서브세트를 결정함으로써 결정된다.
더욱이, 오디오 신호 처리 방법(200)은 입력 오디오 신호를 다운믹스 행렬(DU)을 사용하여 출력 오디오 신호로 처리하는 단계(203)를 포함한다.
본 발명의 실시예들은 프로그램가능 장치, 예컨대 컴퓨터 시스템 상에 실행될 때 본 발명에 따른 방법의 단계들을 수행하거나 프로그램가능 장치가 본 발명에 따른 디바이스 또는 시스템의 기능들을 수행할 수 있게 하는 코드 부분들을 적어도 포함하는, 컴퓨터 시스템 상에 실행하기 위한 컴퓨터 프로그램으로 구현될 수 있다.
컴퓨터 프로그램은 명령어들의 리스트 예컨대 특정 애플리케이션 프로그램 및/또는 운영 시스템이다. 컴퓨터 프로그램은 예를 들어 컴퓨터 시스템 상의 실행을 위해 설계되는 서브루틴, 함수, 객체, 객체 방법, 객체 구현, 실행가능 애플리케이션, 애플릿, 서블릿, 소스 코드, 목적 코드, 공유 라이브러리/동적 로드 라이브러리 및/또는 명령어들의 다른 시퀀스 중 하나 이상을 포함할 수 있다.
컴퓨터 프로그램은 컴퓨터 판독가능 저장 매체 상의 내부로 저장되거나 컴퓨터 판독가능 송신 매체를 통해 컴퓨터 시스템에 송신될 수 있다. 컴퓨터 프로그램의 전부 또는 일부는 정보 처리 시스템에 영구적으로, 제거가능하게 또는 원격으로 결합되는 일시적 또는 비일시적 컴퓨터 판독가능 매체들 상에 제공될 수 있다. 컴퓨터 판독가능 매체들은 몇 개만 예를 들면, 이하, 즉 디스크 및 테이프 저장 매체들을 포함하는 자기 저장 매체들; 광 저장 매체들 예컨대 콤팩트 디스크 매체들(예를 들어, CD-ROM, CD-R 등) 및 디지털 비디오 디스크 저장 매체들; 반도체 기반 메모리 유닛들을 포함하는 비휘발성 메모리 저장 매체들 예컨대 플래시 메모리, EEPROM, EPROM, ROM; 강자성 디지털 메모리들; MRAM; 레지스터들, 버퍼들 또는 캐시들, 메인 메모리, RAM 등을 포함하는 휘발성 저장 매체들; 및 컴퓨터 네트워크들, 점 대 점 전기통신 장비, 및 반송파 송신 매체들을 포함하는 데이터 송신 매체들의 임의의 수를 예를 들어 그리고 제한 없이 포함할 수 있다.
컴퓨터 프로세스는 전형적으로 프로세스의 실행을 관리하기 위해 운영 시스템에 의해 사용되는 실행중인(동작중인) 프로그램 또는 프로그램의 일부, 현재 프로그램 값들 및 상태 정보, 및 자원들을 포함한다. 운영 시스템(operating system)(OS)은 컴퓨터의 자원들의 공유를 관리하고 그러한 자원들에 액세스하기 위해 사용되는 인터페이스를 프로그래머들에게 제공하는 소프트웨어이다. 운영 시스템은 시스템 데이터 및 사용자 입력을 처리하고, 작업들 및 내부 시스템 자원들을 서비스로 시스템의 사용자들 및 프로그램들에 할당하고 관리함으로써 응답한다.
컴퓨터 시스템은 예를 들어 적어도 하나의 처리 유닛, 연관된 메모리 및 다수의 입력/출력(input/output)(I/O) 디바이스들을 포함할 수 있다. 컴퓨터 프로그램을 실행할 때, 컴퓨터 시스템은 컴퓨터 프로그램에 따라 정보를 처리하고 I/O 디바이스들을 통해 최종 출력 정보를 생성한다.
본원에 논의되는 바와 같은 연결들은 예를 들어 신호들을 중간 디바이스들로부터 각각의 노드들, 유닛들 또는 디바이스들로부터 또는 각각의 노드들, 유닛들 또는 디바이스들로 전송하는데 적절한 임의의 타입의 연결일 수 있다. 따라서, 달리 암시되거나 명시되지 않는 한, 연결들은 예를 들어 직접 연결들 또는 간접 연결들일 수 있다. 연결들은 단일 연결, 복수의 연결들, 단방향 연결들, 또는 양방향 연결들인 것을 참조하여 예시되거나 설명될 수 있다. 그러나, 상이한 실시예들은 연결들의 구현을 변화시킬 수 있다. 예를 들어, 개별 단방향 연결들은 양방향 연결들 대신에 사용될 수 있고 역도 같다. 또한, 복수의 연결들은 다수의 신호들을 순차적으로 또는 시간 다중화 방식로 전송하는 단일 연결로 대체될 수 있다. 마찬가지로, 다수의 신호들을 반송하는 단일 연결들은 이러한 신호들의 서브세트들을 반송하는 다양한 상이한 연결들로 분리될 수 있다. 따라서, 신호들을 전송하는 많은 옵션들이 존재한다.
본 기술분야의 통상의 기술자들은 로직 블록들 사이의 경계들이 예시적일 뿐인 것 및 대안 실시예들이 로직 블록들 또는 회로 소자들을 병합하거나 다양한 로직 블록들 또는 회로 소자들 상에 기능성의 대체 분해를 부과할 수 있는 것을 인식할 것이다. 따라서, 본원에 도시되는 아키텍처들은 예시적일 뿐이고, 동일한 기능성을 달성하는 실제로 많은 다른 아키텍처들이 구현될 수 있다는 점이 이해되어야 한다.
따라서, 동일한 기능성을 달성하는 구성요소들의 임의의 배열은 원하는 기능성이 달성되도록 효과적으로 "연관"된다. 이 때문에, 특정 기능성을 달성하기 위해 본원에 조합되는 임의의 2개의 구성요소들은 아키텍처들 또는 중간 구성요소들과 관계없이, 원하는 기능성이 달성되도록 서로 "연관된" 것으로 인식될 수 있다. 마찬가지로, 그렇게 연관되는 임의의 2개의 구성요소들은 또한 원하는 기능성을 달성하기 위해 서로 "동작가능하게 연결된" 또는 "동작가능하게 결합된" 것으로 보여질 수 있다.
더욱이, 본 기술분야의 통상의 기술자들은 상기 설명된 동작들 사이의 경계들이 예시적일 뿐인 것을 인식할 것이다. 다수의 동작들은 단일 동작으로 조합될 수 있고, 단일 동작은 부가 동작들에 분산될 수 있고 동작들은 시간에 있어서 적어도 부분적으로 오버래핑되어 실행될 수 있다. 더욱이, 대안 실시예들은 특정 동작의 다수의 사례들을 포함할 수 있고, 동작들의 순서는 다양한 다른 실시예들에서 변경될 수 있다.
또한 예를 들어, 예들, 또는 그것의 부분들은 물리 회로의 소프트 또는 코드 표현들 또는 물리 회로로 변환가능한 논리 표현들로서, 예컨대 임의의 적절한 타입의 하드웨어 기술 언어로 구현될 수 있다.
또한, 본 발명은 비프로그램가능 하드웨어로 구현되는 물리 디바이스들 또는 유닛들에 제한되는 것이 아니라 또한 적절한 프로그램 코드에 따라 동작함으로써 원하는 디바이스 기능들을 수행할 수 있는 프로그램가능 디바이스들 또는 유닛들, 예컨대 이 출원에서 '컴퓨터 시스템들'로 통상 표시되는 메인프레임들, 미니컴퓨터들, 서버들, 워크스테이션들, 개인용 컴퓨터들, 노트패드들, 개인 휴대 정보 단말기들, 전자 게임들, 자동차 및 다른 내장 시스템들, 휴대 전화들 및 다양한 다른 무선 디바이스들에 적용될 수 있다.
그러나, 다른 수정들, 변형들 및 대안들이 또한 가능하다. 따라서, 명세서들 및 도면들은 제한적 의미보다는 오히려 예시적 의미로 간주되어야 한다.

Claims (15)

  1. 입력 오디오 신호를 출력 오디오 신호로 처리하는 오디오 신호 다운믹싱 장치(105)로서, 상기 입력 오디오 신호는 복수의 공간 위치들(spatial positions)에 기록되는 복수의 입력 채널들(113)을 포함하고 상기 출력 오디오 신호는 복수의 일차 출력 채널들(primary output channels)(123)을 포함하며, 상기 오디오 신호 다운믹싱 장치(105)는,
    복수의 주파수 빈들(frequency bins)의 각각의 주파수 빈(j)에 대해 다운믹스 행렬(downmix matrix)(DU)을 결정하도록 구성되는 다운믹스 행렬 결정기(107) - j는 범위가 1 내지 N인 정수이며, 주어진 주파수 빈(j)에 대해 상기 다운믹스 행렬(DU)은 상기 입력 오디오 신호의 상기 복수의 입력 채널들(113)과 연관되는 복수의 푸리에 계수들(Fourier coefficients)을 상기 출력 오디오 신호의 상기 일차 출력 채널들(123)의 복수의 푸리에 계수들로 매핑하고, j가 차단 주파수 빈(k) 이하인 주파수 빈들에 대해 상기 다운믹스 행렬(DU)은 상기 복수의 입력 채널들(113)이 기록되는 상기 복수의 공간 위치들에 의해 정의되는 이산 라플라스-벨트라미 연산자(discrete Laplace-Beltrami operator)(L)의 고유벡터들을 결정함으로써 결정되고, j가 상기 차단 주파수 빈(k)보다 더 큰 주파수 빈들에 대해 상기 다운믹스 행렬(DU)은 상기 입력 오디오 신호의 상기 복수의 입력 채널들(113)에 의해 정의되는 공분산 행렬(covariance matrix)(COV)의 고유벡터들의 제1 서브세트를 결정함으로써 결정됨 -; 및
    상기 입력 오디오 신호를 상기 다운믹스 행렬(DU)을 사용하여 상기 출력 오디오 신호로 처리하도록 구성되는 프로세서(109)
    를 포함하고,
    상기 다운믹스 행렬 결정기(107)는 사전 정의된 임계값(T)보다 더 큰 콤팩트성 측정값(compactness measure)(θC)을 갖는 모든 주파수 빈들의 가장 작은 콤팩트성 측정값(θC)을 갖는 상기 복수의 주파수 빈들 중의 주파수 빈을 결정함으로써 차단 주파수 빈(k)을 결정하도록 구성되며, 상기 주파수 빈의 콤팩트성 측정값(θC)은 이하의 방정식을 사용하여 결정되고,
    Figure 112019089364442-pct00054

    여기서,
    Figure 112019089364442-pct00055
    는 상기 이산 라플라스-벨트라미 연산자(L)의 선택된 고유벡터들을 포함하는 단위 행렬(unitary matrix)을 나타내고,
    Figure 112019089364442-pct00056
    Figure 112019089364442-pct00057
    의 에르미트 전치(hermitian transpose)를 나타내고, diag(…)는 행렬 입력이 주어지면 상기 행렬의 대각선을 따르는 계수들을 제외하고 모든 계수들을 제로화하는 행렬 대각선화 연산을 나타내고, off(…)는 행렬의 대각선 상에서 모든 계수들을 제로화하는 행렬 연산을 나타내고
    Figure 112019089364442-pct00058
    는 프로베니우스 노옴(Frobenius norm)을 나타내는 오디오 신호 다운믹싱 장치(105).
  2. 제1항에 있어서, 상기 다운믹스 행렬 결정기(107)는 이하의 방정식들을 사용하여 상기 이산 라플라스-벨트라미 연산자(L)를 결정하도록 구성되고,
    Figure 112017094065949-pct00053

    여기서, L, C 및 W는 각각의 차원들 QxQ를 갖는 행렬들이며, Q는 입력 채널들(113)의 수이고, diag(…)는 출력 행렬의 대각선으로서 입력 벡터 요소들을 배치하고 행렬 요소들의 나머지는 제로인 행렬 대각선화 연산(matrix diagonalization operation)을 나타내고, c는 차원(Q)의 벡터이고 wpq는 국부 평균화 계수들(local averaging coefficients)인 오디오 신호 다운믹싱 장치(105).
  3. 제2항에 있어서, 상기 다운믹스 행렬 결정기(107)는 이하의 방정식들을 사용하여 상기 국부 평균화 계수들(wpq)을 결정하도록 구성되고,
    Figure 112017093910880-pct00041

    여기서, rp 또는 rq는 상기 입력 오디오 신호의 상기 복수의 입력 채널들(113)이 기록되는 상기 복수의 공간 위치들 중의 공간 위치를 정의하는 벡터인 오디오 신호 다운믹싱 장치(105).
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, j가 상기 차단 주파수 빈(k) 이하인 주파수 빈들에 대해 상기 다운믹스 행렬(DU)은 사전 정의된 임계값보다 더 큰 고유값을 갖는 이산 라플라스-벨트라미 연산자(L)의 고유벡터들을 선택함으로써 결정되는 오디오 신호 다운믹싱 장치(105).
  5. 제1항 내지 제3항 중 어느 한 항에 있어서, j가 상기 차단 주파수 빈(k)보다 더 큰 주파수 빈들에 대해 상기 다운믹스 행렬(DU)은 사전 정의된 임계값보다 더 큰 고유값을 갖는 공분산 행렬(COV)의 고유벡터들을 선택함으로써 결정되는 오디오 신호 다운믹싱 장치(105).
  6. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 오디오 신호 다운믹싱 장치(105)는 상기 출력 오디오 신호의 적어도 하나의 보조 출력 채널(125)을 제공하기 위해 상기 공분산 행렬(COV)의 적어도 하나의 고유벡터를 포함하는 공분산 행렬(COV)의 고유벡터들의 제2 서브세트를 결정함으로써 다운믹스 행렬 확장(downmix matrix extension)(DW)을 결정하도록 구성되는 다운믹스 행렬 확장 결정기(111)를 더 포함하며, 상기 공분산 행렬(COV)의 고유벡터들의 제1 서브세트 및 상기 공분산 행렬(COV)의 고유벡터들의 제2 서브세트는 분리 세트들(disjoint sets)이고 상기 다운믹스 행렬(DU) 및 상기 다운믹스 행렬 확장(DW)은 확장된 다운믹스 행렬(D)을 정의하는 오디오 신호 다운믹싱 장치(105).
  7. 제6항에 있어서, 상기 다운믹스 행렬 확장 결정기(111)는 상기 공분산 행렬(COV)의 각각의 고유벡터에 대해 상기 고유벡터와 상기 다운믹스 행렬(DU)의 열(column)들에 의해 정의되는 복수의 벡터들 사이의 복수의 각도들을 결정하고, 각각의 고유벡터에 대해 상기 고유벡터와 상기 다운믹스 행렬(DU)의 열들에 의해 정의되는 복수의 벡터들 사이의 복수의 각도들 중의 가장 작은 각도를 결정하고, 상기 고유벡터와 상기 다운믹스 행렬(DU)의 열들에 의해 정의되는 복수의 벡터들 사이의 가장 작은 각도가 임계 각도(θMIN)보다 더 큰 공분산 행렬(COV)의 고유벡터들을 선택함으로써 상기 공분산 행렬(COV)의 고유벡터들의 제2 서브세트를 결정하도록 구성되는 오디오 신호 다운믹싱 장치(105).
  8. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 프로세서(109)는 상기 복수의 입력 채널들(113) 각각에 대한 입력 오디오 신호를 복수의 입력 오디오 신호 시간 프레임들의 형태로 처리하도록 구성되고, 상기 입력 오디오 신호의 상기 복수의 입력 채널들(113)과 연관되는 복수의 푸리에 계수들은 상기 복수의 입력 오디오 신호 시간 프레임들의 이산 푸리에 변환들에 의해 획득되는 오디오 신호 다운믹싱 장치(105).
  9. 제8항에 있어서, 상기 다운믹스 행렬 결정기(107)는 이하의 방정식을 사용하여 상기 복수의 입력 오디오 신호 시간 프레임들 중 주어진 입력 오디오 신호 시간 프레임(n)에 대해 그리고 상기 복수의 주파수 빈들 중 주어진 주파수 빈(j)에 대해 상기 공분산 행렬(COV)의 계수들(cxy)을 결정함으로써 상기 입력 오디오 신호의 상기 복수의 입력 채널들(113)에 의해 정의되는 공분산 행렬(COV)을 결정하도록 구성되고,
    Figure 112019089364442-pct00047

    여기서 E{ }는 예상 연산자(expectation operator)를 나타내고, jx는 상기 입력 오디오 신호의 입력 채널(x)에 대한 주파수 빈(j)에서 푸리에 계수를 나타내고, *는 복소 공액(complex conjugate)을 나타내고 x 및 y는 범위가 1 내지 입력 채널들(Q)의 수인 오디오 신호 다운믹싱 장치(105).
  10. 제8항에 있어서, 상기 다운믹스 행렬 결정기(107)는 이하의 방정식을 사용하여 상기 복수의 입력 오디오 신호 시간 프레임들 중 주어진 입력 오디오 신호 시간 프레임(n)에 대해 그리고 상기 복수의 주파수 빈들 중 주어진 주파수 빈(j)에 대해 상기 공분산 행렬(COV)의 계수들(cxy)을 결정함으로써 상기 입력 오디오 신호의 상기 복수의 입력 채널들(113)에 의해 정의되는 공분산 행렬(COV)을 결정하도록 구성되고,
    Figure 112019089364442-pct00048

    여기서, β는 0≤β<1을 갖는 망각 인자(forgetting factor)를 나타내고,
    Figure 112019089364442-pct00049
    Figure 112019089364442-pct00050
    의 실수부를 나타내고, jx는 입력 오디오 신호의 입력 채널(x)에 대한 주파수 빈(j)에서 푸리에 계수를 나타내고, *는 복소 공액을 나타내고 x 및 y는 범위가 1 내지 입력 채널들(Q)의 수인 오디오 신호 다운믹싱 장치(105).
  11. 입력 오디오 신호를 출력 오디오 신호로 처리하는 오디오 신호 다운믹싱 방법(200)으로서, 상기 입력 오디오 신호는 복수의 공간 위치들에 기록되는 복수의 입력 채널들(113)을 포함하고 상기 출력 오디오 신호는 복수의 일차 출력 채널들(123)을 포함하며, 상기 방법(200)은,
    복수의 주파수 빈들의 각각의 주파수 빈(j)에 대해 다운믹스 행렬(DU)을 결정하는 단계(201) - j는 범위가 1 내지 N인 정수이며, 주어진 주파수 빈(j)에 대해 상기 다운믹스 행렬(DU)은 상기 입력 오디오 신호의 상기 복수의 입력 채널들(113)과 연관되는 복수의 푸리에 계수들을 상기 출력 오디오 신호의 상기 일차 출력 채널들(123)의 복수의 푸리에 계수들로 매핑하고, j가 차단 주파수 빈(k) 이하인 주파수 빈들에 대해 상기 다운믹스 행렬(DU)은 상기 복수의 입력 채널들이 기록되는 복수의 공간 위치들에 의해 정의되는 이산 라플라스-벨트라미 연산자(L)의 고유벡터들을 결정함으로써 결정되고, j가 상기 차단 주파수 빈(k)보다 더 큰 주파수 빈들에 대해 상기 다운믹스 행렬(DU)은 상기 입력 오디오 신호의 상기 복수의 입력 채널들(113)에 의해 정의되는 공분산 행렬(COV)의 고유벡터들의 제1 서브세트를 결정함으로써 결정됨 -; 및
    상기 입력 오디오 신호를 상기 다운믹스 행렬(DU)을 사용하여 상기 출력 오디오 신호로 처리하는 단계(203)
    를 포함하고,
    상기 오디오 신호 다운믹싱 방법은 사전 정의된 임계값(T)보다 더 큰 콤팩트성 측정값(compactness measure)(θC)을 갖는 모든 주파수 빈들의 가장 작은 콤팩트성 측정값(θC)을 갖는 상기 복수의 주파수 빈들 중의 주파수 빈을 결정함으로써 차단 주파수 빈(k)을 결정하는 단계를 더 포함하며, 상기 주파수 빈의 콤팩트성 측정값(θC)은 이하의 방정식을 사용하여 결정되고,
    Figure 112019089364442-pct00059

    여기서,
    Figure 112019089364442-pct00060
    는 상기 이산 라플라스-벨트라미 연산자(L)의 선택된 고유벡터들을 포함하는 단위 행렬(unitary matrix)을 나타내고,
    Figure 112019089364442-pct00061
    Figure 112019089364442-pct00062
    의 에르미트 전치(hermitian transpose)를 나타내고, diag(…)는 행렬 입력이 주어지면 상기 행렬의 대각선을 따르는 계수들을 제외하고 모든 계수들을 제로화하는 행렬 대각선화 연산을 나타내고, off(…)는 행렬의 대각선 상에서 모든 계수들을 제로화하는 행렬 연산을 나타내고
    Figure 112019089364442-pct00063
    는 프로베니우스 노옴(Frobenius norm)을 나타내는 오디오 신호 다운믹싱 방법(200).
  12. 입력 오디오 신호를 출력 오디오 신호(149)로 처리하는 오디오 신호 업믹싱 장치(139)로서, 상기 입력 오디오 신호는 복수의 공간 위치들에 기록되는 복수의 입력 채널들(113)에 기초하여 복수의 일차 입력 채널들(135)을 포함하고 상기 출력 오디오 신호(149)는 복수의 출력 채널들을 포함하며, 상기 오디오 신호 업믹싱 장치(139)는,
    복수의 주파수 빈들의 각각의 주파수 빈(j)에 대해 업믹스 행렬(upmix matrix)을 결정하도록 구성되는 업믹스 행렬 결정기(137) - j는 범위가 1 내지 N인 정수이며, 주어진 주파수 빈(j)에 대해 상기 업믹스 행렬은 상기 입력 오디오 신호의 상기 복수의 일차 입력 채널들(135)과 연관되는 복수의 푸리에 계수들을 상기 출력 오디오 신호(149)의 상기 출력 채널들의 복수의 푸리에 계수들로 매핑하고, j가 차단 주파수 빈(k) 이하인 주파수 빈들에 대해 상기 업믹스 행렬은 상기 복수의 입력 채널들(113)이 기록되는 상기 복수의 공간 위치들에 의해 정의되는 이산 라플라스-벨트라미 연산자(L)의 고유벡터들을 결정함으로써 결정되고, j가 상기 차단 주파수 빈(k)보다 더 큰 주파수 빈들에 대해 상기 업믹스 행렬은 상기 입력 오디오 신호의 상기 복수의 입력 채널들(113)에 의해 정의되는 공분산 행렬(COV)의 고유벡터들의 제1 서브세트를 결정함으로써 결정됨 -; 및
    상기 입력 오디오 신호를 상기 업믹스 행렬을 사용하여 상기 출력 오디오 신호(149)로 처리하도록 구성되는 프로세서(141)
    를 포함하고,
    상기 업믹스 행렬 결정기(137)는 사전 정의된 임계값(T)보다 더 큰 콤팩트성 측정값(compactness measure)(θC)을 갖는 모든 주파수 빈들의 가장 작은 콤팩트성 측정값(θC)을 갖는 상기 복수의 주파수 빈들 중의 주파수 빈을 결정함으로써 차단 주파수 빈(k)을 결정하도록 구성되며, 상기 주파수 빈의 콤팩트성 측정값(θC)은 이하의 방정식을 사용하여 결정되고,
    Figure 112019089364442-pct00064

    여기서,
    Figure 112019089364442-pct00065
    는 상기 이산 라플라스-벨트라미 연산자(L)의 선택된 고유벡터들을 포함하는 단위 행렬(unitary matrix)을 나타내고,
    Figure 112019089364442-pct00066
    Figure 112019089364442-pct00067
    의 에르미트 전치(hermitian transpose)를 나타내고, diag(…)는 행렬 입력이 주어지면 상기 행렬의 대각선을 따르는 계수들을 제외하고 모든 계수들을 제로화하는 행렬 대각선화 연산을 나타내고, off(…)는 행렬의 대각선 상에서 모든 계수들을 제로화하는 행렬 연산을 나타내고
    Figure 112019089364442-pct00068
    는 프로베니우스 노옴(Frobenius norm)을 나타내는 오디오 신호 업믹싱 장치(139).
  13. 입력 오디오 신호를 출력 오디오 신호(149)로 처리하는 오디오 신호 업믹싱 방법으로서, 상기 입력 오디오 신호는 복수의 공간 위치들에 기록되는 복수의 입력 채널들(113)에 기초하여 복수의 일차 입력 채널들(135)을 포함하고 상기 출력 오디오 신호(149)는 복수의 출력 채널들을 포함하며, 상기 방법은,
    복수의 주파수 빈들의 각각의 주파수 빈(j)에 대해 업믹스 행렬을 결정하는 단계 - j는 범위가 1 내지 N인 정수이며, 주어진 주파수 빈(j)에 대해 상기 업믹스 행렬은 상기 입력 오디오 신호의 상기 복수의 일차 입력 채널들(135)과 연관되는 복수의 푸리에 계수들을 상기 출력 오디오 신호(149)의 상기 출력 채널들의 복수의 푸리에 계수들로 매핑하고, j가 차단 주파수 빈(k) 이하인 주파수 빈들에 대해 상기 업믹스 행렬은 상기 복수의 입력 채널들이 기록되는 복수의 공간 위치들에 의해 정의되는 이산 라플라스-벨트라미 연산자(L)의 고유벡터들을 결정함으로써 결정되고, j가 상기 차단 주파수 빈(k)보다 더 큰 주파수 빈들에 대해 상기 업믹스 행렬은 상기 입력 오디오 신호의 상기 복수의 입력 채널들(113)에 의해 정의되는 공분산 행렬(COV)의 고유벡터들의 제1 서브세트를 결정함으로써 결정됨 -; 및
    상기 입력 오디오 신호를 상기 업믹스 행렬을 사용하여 상기 출력 오디오 신호로 처리하는 단계
    를 포함하고,
    상기 오디오 신호 업믹싱 방법은 사전 정의된 임계값(T)보다 더 큰 콤팩트성 측정값(compactness measure)(θC)을 갖는 모든 주파수 빈들의 가장 작은 콤팩트성 측정값(θC)을 갖는 상기 복수의 주파수 빈들 중의 주파수 빈을 결정함으로써 차단 주파수 빈(k)을 결정하는 단계를 더 포함하며, 상기 주파수 빈의 콤팩트성 측정값(θC)은 이하의 방정식을 사용하여 결정되고,
    Figure 112019089364442-pct00069

    여기서,
    Figure 112019089364442-pct00070
    는 상기 이산 라플라스-벨트라미 연산자(L)의 선택된 고유벡터들을 포함하는 단위 행렬(unitary matrix)을 나타내고,
    Figure 112019089364442-pct00071
    Figure 112019089364442-pct00072
    의 에르미트 전치(hermitian transpose)를 나타내고, diag(…)는 행렬 입력이 주어지면 상기 행렬의 대각선을 따르는 계수들을 제외하고 모든 계수들을 제로화하는 행렬 대각선화 연산을 나타내고, off(…)는 행렬의 대각선 상에서 모든 계수들을 제로화하는 행렬 연산을 나타내고
    Figure 112019089364442-pct00073
    는 프로베니우스 노옴(Frobenius norm)을 나타내는 오디오 신호 업믹싱 방법.
  14. 컴퓨터 상에 실행될 때 제11항의 오디오 신호 다운믹싱 방법(200) 및/또는 제13항의 오디오 신호 업믹싱 방법을 수행하는 프로그램 코드를 포함하는, 컴퓨터 판독가능 기록 매체에 저장된 컴퓨터 프로그램.
  15. 삭제
KR1020177027223A 2015-04-30 2015-04-30 오디오 신호 처리 장치들 및 방법들 KR102051436B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2015/059477 WO2016173659A1 (en) 2015-04-30 2015-04-30 Audio signal processing apparatuses and methods

Publications (2)

Publication Number Publication Date
KR20170125063A KR20170125063A (ko) 2017-11-13
KR102051436B1 true KR102051436B1 (ko) 2019-12-03

Family

ID=53177454

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177027223A KR102051436B1 (ko) 2015-04-30 2015-04-30 오디오 신호 처리 장치들 및 방법들

Country Status (5)

Country Link
US (1) US10224043B2 (ko)
EP (1) EP3271918B1 (ko)
KR (1) KR102051436B1 (ko)
CN (1) CN107211229B (ko)
WO (1) WO2016173659A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701463B (zh) * 2016-02-03 2020-03-10 杜比国际公司 音频译码中的高效格式转换
CN107610710B (zh) * 2017-09-29 2021-01-01 武汉大学 一种面向多音频对象的音频编码及解码方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101391110B1 (ko) * 2009-09-29 2014-04-30 돌비 인터네셔널 에이비 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림
US9357307B2 (en) * 2011-02-10 2016-05-31 Dolby Laboratories Licensing Corporation Multi-channel wind noise suppression system and method
US9031268B2 (en) * 2011-05-09 2015-05-12 Dts, Inc. Room characterization and correction for multi-channel audio
CN103548077B (zh) * 2011-05-19 2016-02-10 杜比实验室特许公司 参数化音频编译码方案的取证检测
CN103493128B (zh) 2012-02-14 2015-05-27 华为技术有限公司 用于执行多信道音频信号的适应性下混和上混的方法及设备
EP2817802B1 (en) 2012-02-24 2016-12-07 Dolby International AB Audio processing
JP6133422B2 (ja) * 2012-08-03 2017-05-24 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Karim Helwani, et al. The synthesis of sound figures. Multidimensional System and Signal Processing. 2013.11.14.*
Manuel, et al. Parametric coding of stereo AUDIO based on principal component analysis. Proceedings of the 9th International Conference on Digital Audio Effects, DAFX'06. 2006.*

Also Published As

Publication number Publication date
WO2016173659A1 (en) 2016-11-03
KR20170125063A (ko) 2017-11-13
EP3271918B1 (en) 2019-03-13
US20180012607A1 (en) 2018-01-11
EP3271918A1 (en) 2018-01-24
US10224043B2 (en) 2019-03-05
CN107211229A (zh) 2017-09-26
CN107211229B (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
US8817991B2 (en) Advanced encoding of multi-channel digital audio signals
JP6208373B2 (ja) 環境高次アンビソニック係数の独立フレームをコード化すること
CN101410889B (zh) 对作为听觉事件的函数的空间音频编码参数进行控制
CN111316354B (zh) 目标空间音频参数和相关联的空间音频播放的确定
US20140086416A1 (en) Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
KR102599744B1 (ko) 방향 컴포넌트 보상을 사용하는 DirAC 기반 공간 오디오 코딩과 관련된 인코딩, 디코딩, 장면 처리 및 기타 절차를 위한 장치, 방법 및 컴퓨터 프로그램
CN111316353A (zh) 确定空间音频参数编码和相关联的解码
US20200120438A1 (en) Recursively defined audio metadata
JP7405962B2 (ja) 空間オーディオパラメータ符号化および関連する復号化の決定
CN115580822A (zh) 空间音频捕获、传输和再现
JP2024029071A (ja) パラメータの符号化および復号
KR102051436B1 (ko) 오디오 신호 처리 장치들 및 방법들
CN112823534B (zh) 信号处理设备和方法以及程序
KR102593235B1 (ko) 공간 오디오 파라미터의 양자화
KR101805327B1 (ko) 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조
KR102076022B1 (ko) 오디오 신호 처리 장치 및 방법
EP3861766B1 (en) Flexible rendering of audio data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant