KR20050107812A - 다중-채널 신호들의 처리 - Google Patents
다중-채널 신호들의 처리 Download PDFInfo
- Publication number
- KR20050107812A KR20050107812A KR1020057017468A KR20057017468A KR20050107812A KR 20050107812 A KR20050107812 A KR 20050107812A KR 1020057017468 A KR1020057017468 A KR 1020057017468A KR 20057017468 A KR20057017468 A KR 20057017468A KR 20050107812 A KR20050107812 A KR 20050107812A
- Authority
- KR
- South Korea
- Prior art keywords
- frequency
- summed
- signal
- frequency components
- audio channels
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000001419 dependent effect Effects 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 6
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims 2
- 238000001228 spectrum Methods 0.000 abstract description 4
- 230000005236 sound signal Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000004134 energy conservation Methods 0.000 description 3
- 208000029523 Interstitial Lung disease Diseases 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Mobile Radio Communication Systems (AREA)
- Oscillators With Electromechanical Resonators (AREA)
- Optical Communication System (AREA)
- Amplifiers (AREA)
Abstract
적어도 2개의 입력 오디오 채널들(L, R)을 포함하는 모노럴 신호(S)를 발생시키는 방법이 개시된다. 각 오디오 채널(L(k), R(k))에 대한 각 주파수 스펙트럼 표현들로부터 대응하는 주파수 성분들은 각 순차적인 세그먼트에 대한 합산된 주파수 성분들(S(k)) 세트를 제공하도록 합산된다. 각 순차적인 세그먼트의 각 주파수 대역(i)에 대해, 정정 인수(m(j))는 대역 식(I)에서 합산된 신호의 주파수 성분들의 에너지 합 및 대역 식(II)에서 입력 오디오 채널들의 상기 주파수 성분들의 에너지의 합의 함수로서 계산된다(45). 각 합산된 주파수 성분은 상기 성분의 주파수 대역에 대한 (m(i))의 정정 인수의 함수로서 정정된다(47).
Description
본 발명은 오디오 신호들의 처리에 관한 것이며, 특히 다중-채널 오디오 신호들의 코딩에 관한 것이다.
파라메트릭 다중-채널 오디오 코더들은 일반적으로, 입력 신호의 공간 특성들을 설명하는 파리미터들의 세트와 결합되는 단지 하나의 전체 대역폭 채널만을 전송한다. 예를 들어, 도1은 2002년 11월 20일에 출원된 유럽 특허 출원 제0207981.9(대리인 번호 PHNL021156)에 설명된 인코더(10)에서 수행되는 단계들을 도시한다.
초기 단계(S1)에서, 입력 신호들(L 및 R)은, 예를 들어, 변환 동작보다 앞서 시간-윈도우잉에 의해 서브대역들로(101)로 분리된다. 다음에, 단계(S2)에서, 대응하는 서브대역 신호들의 레벨차(ILD)가 결정되며, 단계(S3)에서, 대응하는 서브대역 신호들의 시간 차(ITD 또는 IPD)가 결정되며, 단계(S4)에서, ILDs 또는 ITDs에 의해 고려될 수 없는 파형들의 유사성 또는 비유사성의 량이 설명된다. 다음 단계(S5, S6 및 S7)에서, 결정된 파라미터들은 양자화된다.
단계(S8)에서, 모노럴 신호(S)는 인입 오디오 신호들로부터 발생되고, 최종적으로, 단계(S9)에서, 코딩된 신호(102)는 모노럴 신호 및 결정된 공간 파라미터들로부터 발생된다.
도2는 인코더(10) 및 이에 대응하는 디코더(202)를 구비하는 코딩 시스템의 개요적인 블록도를 도시한 것이다. 합 신호(S) 및 공간 파라미터들(P)을 포함하는 코딩된 신호(102)는 디코더(202)로 전달된다. 이 신호(102)는 임의의 적절한 통신 채널(204)을 통해서 전달될 수 있다. 대안적으로 또는 부가적으로, 이 신호는 제거가능한 저장 매체(214) 상에 저장될 수 있는데, 이 신호는 인코더로부터 디코더로 전송될 수 있다.
(디코더(202)에서) 합성은 공간 파라미터들을 합 신호에 인가하여 좌 및 우 출력 채널들을 발생시키도록 수행된다. 그러므로, 디코더(202)는 단계(S9)의 역 동작을 수행하고 코딩된 신호(102)로부터 합 신호(S) 및 파라미터들(P)을 추출하는 디코딩 모듈(210)을 구비한다. 이 디코더는 합(또는 도미넌트) 신호 및 공간 파라미터들로부터 스테레오 성분들(L 및 R)을 복구하는 합성 모듈(211)을 더 구비한다.
한 가지 문제는 출력 채널들로 디코딩 시, 인지된 음질은 입력 채널들에 대한 것과 정확하게 동일하게 되도록 단계(S8)에서 모노럴 신호(S)를 발생시키는 것이다.
이 합 신호를 발생시키는 여러 가지 방법들이 이미 제안되었다. 일반적으로, 이들 방법들은 입력 신호들의 선형 조합으로서 모노 신호를 구성하는 것이다. 특정 기술들은 다음을 포함한다:
1. 입력 신호들의 간단한 합산. 예를 들어 2001년 뉴욕, 뉴팔츠에서 개최된 WASPAA'01, 오디오 및 음향을 처리하는 신호의 애플리케이션에 대한 워크샵(Workshop on applications of signal processing on audio and acoustics)에서 C. 팔러(C.Faller) 및 F.바움가르트(F. Baumgarte)가 발표한 '지각적 파라메트릭화를 사용하는 공간적 오디오의 효율적인 표현(Efficient representation of spatial audio using perceptual parametrization)'을 참조하라.
2. 주 성분 분석(PCA)를 사용한 입력 신호들의 가중합. 예를 들어, 2002년 4월 10일에 출원된 유럽 특허 출원 제02076408.0(대리인 번호 PHNL020284) 및 2002년 4월 10일에 출원된 유럽 특허 출원 제02076410.6(대리인 번호 PHNL020283)을 참조하라. 이 방식에서, 실제 값들 및 최대 1까지의 합의 자승된 가중들은 입력 신호들에서 상대 에너지들에 좌우된다.
3. 입력 신호들 간의 시간-도메인 상관에 좌우되는 가중들을 지닌 가중된 합. 예를 들어, D. 신하(D. Sinha)의 유럽 특허 출원 EP 1 107 232 A2의 '오디오 신호들의 조인트 스테레오 코딩(Joint stereo coding of audio signals)'을 참조하라. 이 방법에서, 가중들은 +1에 합산되지만, 실제 값들은 입력 채널들의 교차-상관에 좌우된다.
4. 헤레(Herre) 등의 US 5,701,346에는 광대역 신호들의 좌, 우 및 중심 채널을 다운믹스하는 에너지-보존 스케일링과의 가중된 합을 서술한다. 그러나, 이는 주파수의 함수로서 수행되지 않는다.
이들 방법들은 전체-대역폭 신호에 적용될 수 있으며, 또는 각 주파수 대역에 대한 자신들의 가중들을 갖는 모든 대역-필터링된 신호에 적용될 수 있다. 그러나, 서술된 모든 방법들은 한 가지 결점을 갖는다. 스테레오 녹음하는 경우에 매우 자주 교차-상관이 주파수-종속되면, 디코더의 음의 음조(coloration)(즉, 인지된 음질의 변화)가 발생된다.
이는 다음과 같이 설명될 수 있다: +1의 교차 상관을 갖는 주파수 대역에 대해서, 2개의 입력 신호들의 선형 합산은 신호 진폭들의 선형 가산 및 가산 신호를 자승화하여 최종 에너지를 결정한다.(동일 진폭의 2개의 동위상 신호들에 대해서, 이는 에너지를 4배화하면서 진폭을 2배화시킨다. 교차 상관이 0이면, 선형 합산은 진폭의 2배 및 에너지의 4배보다 적게 된다. 게다가, 특정 주파수 대역에 대한 교차-상관이 -1에 이르면, 이 주파수 대역의 신호 성분들은 소거제거되고 신호는 남아있지 않다. 그러므로, 간단한 합산을 위하여, 합 신호의 주파수 대역들은 입력 신호들의 상대 레벨들 및 교차-상관에 따라서 2개의 입력 신호들의 파워의 0 및 4배 간의 에너지(파워)를 가질 수 있다.
본 발명은 이 문제를 완화시키고 청구항 1에 따른 방법을 제공하는 것이다.
평균화되는 경향이 있는 상이한 주파수 대역들이 동일한 상관을 가지면, 이와 같은 합산에 의해 초래되는 시간 왜곡에 걸쳐서 주파수 스펙트럼에 대해서 평균화되어 출력될 것으로 예측할 수 있다. 그러나, 다중-채널 신호들에서, 저 주파수 성분들은 고 주파수 성분들 보다 더욱 상관되는 경향이 있다는 것이 인지되어 있다. 그러므로, 본 발명이 없다면, 채널들의 주파수 종속 상관을 고려하지 않는 합산은 매우 높게 상관되는 에너지 레벨들 및 특히, 사이코-어쿠스틱하게(psycho-acoustically) 민감한 저 주파수 대역들을 과도하게 부스트(boost)하는 경향이 있다는 것이 인지되어 있다.
도1은 종래 기술의 인코더를 도시한 도면.
도2는 도1의 인코더를 포함한 오디오 시스템의 블록도.
도3은 본 발명의 제1 실시예를 따른 오디오 코더의 신호 합산 요소에 의해 수행되는 단계들을 도시한 도면.
도4는 도3의 합산 요소에 의해 적용되는 정정 인수 m(i)의 선형 보간을 도시한 도면.
본 발명은 정정 인수가 입력 신호들의 주파수-종속 교차-상관 및 상대 레벨들에 좌우되는 모노 신호의 주파수-종속 정정을 제공한다. 이 방법은 공지된 합산 방법들에 의해 초래되는 스펙트럴 음조(spectral coloration)를 감소시키고 각 주파수 대역에서 에너지 보존을 확실하게 한다.
정정 필터를 적용하는 것보다 앞서 (선형 합산되거나 가중된)입력 신호들을 우선 합산하거나, 합산(또는 이들의 자승 값들)에 대한 가중들이 반드시 최대 +1까지 합해지지만 교차-상관에 좌우되는 값과 합해야하는 제약들을 제거함으로써, 주파수-종속 상관을 적용할 수 있다.
본 발명이 2개 이상의 2 입력 채널들이 결합되는 어떤 시스템에 적용될 수 있다는 것을 유의하여야 한다.
본 발명의 실시예들이 지금부터 첨부 도면을 참조하여 설명될 것이다.
본 발명을 따르면, 특히 도1의 S8에 대응하는 단계를 수행하기 위하여 개선된 신호 합산 요소(S8')를 제공한다. 그럼에도 불구하고, 본 발명은 2개 이상의 신호들이 합산될 필요가 있는 어떤 경우에도 적용될 수 있다. 본 발명의 제1 실시예에서, 합산 요소는 인코딩되는 합산 신호(S)에 앞서 좌 및 우 스테레오 채널 신호들을 가산한다(S9).
지금부터 도3을 참조하면, 제1 실시예에서, 합산 요소에 제공되는 좌(L) 및 우(R) 채널 신호들은 연속적인 시간 프레임들(t(n-1), t(n), t(n+1))에서 중첩하는 다중-채널 세그먼트들(m1, m2,...)을 포함한다. 전형적으로, 사인파들은 10ms의 레이트로 갱신되고 각 세그먼트(m1, m2...)는 갱신 레이트의 길이의 2배, 즉 20ms이다.
L, R 채널 신호들이 합해져야 하는 각 중첩하는 시간 윈도우(t(n-1), t(n), t(n+1))에 대해서, 합산 요소는 (제곱근) 해닝 윈도우 함수를 사용하여 하나의 시간 윈도우에 대해 각 채널을 표시하는 각 시간-도메인 신호에, 중첩하는 세그먼트들(m1, m2,...)로부터의 각 채널 신호를 결합시킨다(단계 42).
FFT(고속 퓨리에 변환)는 매 시간-도메인 윈도우잉된 신호에 적용되어, 각 채널에 대해 윈도우잉된 신호의 각 복소 주파수 스펙트럼을 표현한다(단계 44). 44.1kHz의 샘플링 레이트 및 20ms의 프레임 길이에 대해서, FFT의 길이는 전형적으로 882이다. 이 프로세스는 2개의 입력 채널들(L(k), R(k))에 대한 K 주파수 성분들의 세트를 발생시킨다.
제1 실시예에서, 2개의 입력 채널들 표현들 L(k) 및 R(k)는 우선 간단한 선형 합산에 의해 결합된다(단계 46). 그러나, 이는 가중된 합산으로 손쉽게 확장될 수 있다는 것을 알 수 있을 것이다. 따라서, 본 실시예에 대해서, 합 신호(S(k))는 다음을 포함한다:
S(k)= L(k)+R(k)
개별적으로, 입력 신호들 L(k) 및 R(k)의 주파수 성분들은 인식적으로-관련된 대역폭들(ERP 또는 BARK 스케일)을 사용하여 여러 주파수 대역들로 그룹화되고, 각 서브대역(i)에 대해서, 에너지-보존 정정 인수 m(i)가 계산된다(단계 45):
식 1
이는 또한 다음과 같이 기록될 수 있다:
식 2
ρLR(i)는 서브대역(i)의 파형들의 (정규화된) 교차-상관이며, 파라미터는 그 밖의 경우에 파라메트릭 다중-채널 코더들에 사용되고 또한 수학식 2의 계산들을 위하여 손쉽게 이용될 수 있다. 어쨋든, 단계(45)는 각 서브대역(i)에 대해서 정정 인수 m(i)를 제공한다.
그 후, 다음 단계(47)는 합 신호의 각 주파수 성분(S(k))을 정정 필터(C(k))와 승산하는 것을 포함한다:
S'(k)=S(k)C(k)=C(k)L(k)+C(k)R(k) 식 3
정정 필터가 합산된 신호(S(k)에만 또는 각 입력 채널(L(k), R(k))중 어느 하나에 적용될 수 있다는 것을 수학식 3의 최종 성분으로부터 알 수 있다. 이와 같이, 정정 인수(m(i))가 공지되거나 도3에서 점선으로 도시된 바와 같이 m(i)의 결정에 사용되는 합산된 신호(S(k))와 별도로 수행될 때, 단계들(46 및 47)은 결합될 수 있다.
바람직한 실시예들에서, 정정 인수들(m(i))은 각 서브대역의 중심 주파수들에 대해서 사용되는 반면에, 다른 주파수들에 대해선, 정정 인수들(m(i))이 보간되어 서브대역(i)의 각 주파수 성분(k)에 대해서 정정 필터(C(k))를 제공한다. 원리적으로, 임의의 보간 기능이 사용되지만, 경험적인 결과들은 도4의 간단한 선형 보간 방식으로 충분하다는 것을 보여준다.
대안적으로, 각 FFT 빈(bin)(즉, 서브대역(i)는 주파수 성분(k)에 대응)에 대한 개별적인 정정 인수가 유도될 수 있는데, 이 경우에, 보간이 필요로 되지 않는다. 그러나, 이 방법은 결과적인 시간-도메인 왜곡들로 인해 종종 바람직하지 않게 되는 정정 인수들의 스무드 주파수 작용이라기 보다 오히려 재깅(jagged)될 수 있다.
바람직한 실시예들에서, 합산 요소는 정정되어 합산된 신호(S'(k))의 역 FFT를 취하여 시간 도메인 신호를 얻는다(단P 48). 연속적인 정정되어 합산된 시간 도메인 신호들에 대해 중첩-가산을 적용함으로써(단계 50), 최종 합산된 신호(s1, s2,...)가 생성되고, 이는 인코딩되도록 공급된다 (도1의 단계 S9). 합산된 세그먼트들(s1, s2...)는 시간 도메인에서 세그먼트들 (m1, m2...)에 대응하고 이와 같은 경우 동기화 손실이 합산의 결과로서 발생된다.
입력 채널 신호들은 중첩 신호들이 아니라 오히려 연속적인 시간 신호들인 경우, 윈도우잉 단계(42)는 필요치 않다는 것을 알 수 있을 것이다. 유사하게, 인코딩 단계(S9)는 중첩 신호라기보다도 오히려 연속적인 시간 신호를 예측하면, 중첩-가산 단계(50)는 필요치 않게 될 것이다. 게다가, 세그먼테이션 및 주파수-도메인 변환의 서술된 방법은 또한 다른(가능한 연속적인 시간) 필터뱅크-형 구조들로 대체될 수 있다. 여기서, 입력 오디오 신호들은 각 필터들의 세트에 공급되는데, 이는 각 입력 오디오 신호에 대한 순시 주파수 스펙트럼 표현을 집합적으로 제공한다. 이는 순차적인 세그먼트들이 실제로 서술된 실시예들에서 처럼 샘플들의 블록들이라기 보다 오히려 단일 시간 샘플들에 대응할 수 있다는 것을 의미한다.
좌 및 우 채널들에 대해 특정 주파수 성분들이 서로 소거될 수 있는 환경들이거나, 이들이 부의 상관을 가지면, 이들은 특정 밴드에 대한 매우 큰 정정 인수 값들(m2(i))을 발생시킨다. 이와 같은 경우들에서, 부호 비트는 성분(S(k))에 대한 합 신호는 다음과 같이 된다는 것을 표시하기 위하여 전송될 수 있다:
S(k)=L(k)-R(k)
대응하는 감산이 수학식들 1 또는 2에서 사용된다.
대안적으로, 주파수 대역(i)에 대한 성분들은 각도(α(i))에 이해 서로에 대해 위상면에서 더욱 회전될 수 있다. ITD 분석 공정(S3)은 입력 신호들 L(k) 및 P(k)의(서브대역들) 간의 (평균) 위상 차를 제공한다. 특정 주파수 대역(i)에 대해서, 입력 신호 간의 위상 차는 α(i)로 제공되면, 입력 신호들(L(k) 및 R(k))은 다음에 따라서 합산하기 전 2개의 새로운 입력 신호들(L'(k) 및 R'(k))로 변환될 수 있다:
c는 2개의 입력 채널들(0≤c≤1) 간의 위상 정렬 분포를 결정하는 파라미터이다.
어쨌든, 예를 들어 2개의 채널들이 서브 대역(i)에 대해서 +1의 상관을 갖는 경우 m2(i)는 1/4 및 m(i)는 1/2이 된다는 것을 알 수 있을 것이다. 따라서, 대역(i)에서 임의의 성분에 대한 정정 인수 C(k)는 합산된 신호에 대한 각 원래 입력 신호의 1/2을 취하도록 함으로서 원래 에너지 레벨을 보존하는 경향이 있을 것이다. 그러나, 수학식 1로부터 알 수 있는 바와 같이, 스테레오 신호의 주파수 대역(i)이 공간 특성들을 포함하는 경우, 신호 S(k)의 에너지는 이들이 동위상인 경우 보다 작게 되는 경향이 있는 반면에, L, R 신호들의 에너지들의 합은 크게 되는 경향이 있고 정정 인수는 이들 신호들에 대해서 더욱 크게 되는 경향이 있다. 이와 같이, 합 신호에서 전체 에너지 레벨들은 입력 신호들에서 주파수-종속 상관에도 불구하고 스펙트럼에 걸쳐서 여전히 보전될 것이다.
제2 실시예에서, 상술된 입력 채널들의 가능한 가중들과 결합되어 다수의(2개 이상) 입력 채널을 향하는 확장이 도시되어 있다. 주파수-도메인 입력 채널들은 n-번째 입력 채널의 k-번째 주파수 성분에 대해서 Xn(k)로 표시된다. 이들 입력 채널들의 주파수 성분들(k)은 주파수 대역들(i)에서 그룹화된다. 다음에, 정정 인수(m(i))는 다음과 같이 서브대역(i)에 대해서 계산된다:
이 수학식에서, wn(k)는 입력 채널들(n)(이는 선형 합산에 대해서 +1로 간단히 설정될 수 있다)의 주파수-종속 가중 인수들을 표시한다. 이들 정정 인수들(m(i))로부터, 정정 필터(C(k))는 제1 실시예에서 서술된 바와 같이 정정 인수들(m(i))의 보간에 의해 발생된다. 모노 출력 채널(S(k))는 다음에 따라서 구해진다:
상기 식들을 사용하면, 상이한 채널들의 가중들은 +1에 합산될 필요는 없지만, 정정 필터는 +1에 합산되지 않는 가중들에 대해 자동으로 정정하고 각 주파수 대역에서 (보간된) 에너지 보존을 확실하게 한다.
Claims (16)
- 적어도 두 개의 입력 오디오 채널들(L, R)의 조합을 포함하는 모노럴 신호(monaural signal;S)를 발생시키는 방법에 있어서,상기 오디오 채널들(L, R)의 다수의 순차적인 세그먼트들(t(n)) 각각에 대해서, 각 순차적인 세그먼트에 대해 합산된 주파수 성분들(S(k))의 세트를 제공하기 위하여 각 오디오 채널(L(k), R(k))에 대한 각 주파수 스펙트럼 표현들로부터 대응하는 주파수 성분들을 합산하는 단계(46);상기 다수의 순차적인 세그먼트들 각각에 대해서, 상기 대역()에서 합산된 신호의 주파수 성분들의 에너지 및 상기 대역()에서 상기 입력 오디오 채널들의 상기 주파수 성분의 에너지의 함수로서, 다수의 주파수 대역들(i) 각각에 대한 정정 인수(m(i))를 계산하는 단계(45); 및상기 성분의 주파수 대역에 대한 상기 정정 인수(m(i))의 함수로서 각 합산된 주파수 성분을 정정하는 단계(47)를 포함하는, 모노럴 신호 발생 방법.
- 제1항에 있어서,각 입력 오디오 채널에 대해서 다수의 순차적인 신호들 각각에 샘플링된 신호 값들의 각 세트를 제공하는 단계(42); 및상기 다수의 순차적인 세그먼트들 각각에 대해서, 각 입력 오디오 채널(L(k), R(k))의 복소 주파수 스펙트럼 표현들을 제공하기 위하여 상기 샘플링된 신호 값들의 세트 각각을 주파수 도메인으로 변환시키는 단계(44)를 더 포함하는, 모노럴 신호 발생 방법.
- 제2항에 있어서,상기 샘플링된 신호 값들의 세트들을 제공하는 단계는:각 입력 오디오 채널에 대해서, 시간 윈도우(t(n))에 대해 각 채널을 표시하는 각 시간-도메인 신호들에, 중첩하는 세그먼트들(m1, m2)을 결합시키는 단계를 포함하는, 모노럴 신호 발생 방법.
- 제1항에 있어서,각 순차적인 세그먼트에 대해서, 상기 합산된 신호(S'(k))의 상기 정정된 주파수 스펙트럼 표현을 공간 도메인으로 변환(50)시키는 단계를 더 포함하는, 모노럴 신호 발생 방법.
- 제4항에 있어서,최종 합산된 신호(s1, s2)를 제공하기 위하여 연속적인 변환되어 합산된 신호 표현들에 중첩-가산(50)을 적용하는 단계를 더 포함하는, 모노럴 신호 발생 방법.
- 제1항에 있어서,2개의 입력 오디오 채널들은 합산되고, 상기 정정 인수들(m(i))은 함수 에 따라 결정되는, 모노럴 신호 발생 방법.
- 제1항에 있어서,2개 이상의 입력 오디오 채널들(Xn)은 함수 에 따라 합산되며,여기서 C(k)는 각 주파수 성분에 대한 정정 인수이고, 각 주파수 대역에 대한 상기 정정 인수들(m(i))은 함수에 따라 결정되고,여기서 wn(k)는 각 입력 채널에 대한 주파수-종속 가중 인수를 포함하는, 모노럴 신호 발생 방법.
- 제7항에 있어서,모든 입력 오디오 채널들에 대해서 wn(k)=1인, 모노럴 신호 발생 방법.
- 제7항에 있어서,적어도 일부의 입력 오디오 채널들에 대해서 wn(k)≠1인, 모노럴 신호 발생 방법.
- 제7항에 있어서,각 주파수 성분(C(k)에 대한 정정 인수는 적어도 하나의 대역에 대한 정정 인수들(m(i))의 선형 보간으로부터 유도되는, 모노럴 신호 발생 방법.
- 제1항에 있어서,상기 다수의 주파수 대역들 각각에 대해서, 순차적인 세그먼트에서 상기 오디오 채널들의 주파수 성분들 간의 위상 차의 표시자(α(i))를 결정하는 단계; 및대응하는 주파수 성분들을 합산하기 전에, 상기 주파수 성분들의 주파수 대역에 대한 상기 표시자의 함수로서 상기 오디오 채널들 중 적어도 하나의 주파수 성분들을 변환시키는 단계를 더 포함하는, 모노럴 신호 발생 방법.
- 제11항에 있어서,상기 변환 단계는 좌 및 우 입력 오디오 채널들(L, R)의 주파수 성분들(L(k), R(k))에 대해, 함수들 을 연산하는 단계를 포함하고, 여기서, 0≤c≤1은 상기 입력 채널들 간의 위상 정렬의 분포를 결정하는, 모노럴 신호 발생 방법.
- 제1항에 있어서,상기 정정 인수는 상기 대역에서 합산된 신호의 주파수 성분들의 에너지 합 및 상기 대역에서 입력 오디오 채널들의 상기 주파수 성분들의 에너지의 합의 함수인, 모노럴 신호 발생 방법.
- 적어도 두 개의 입력 오디오 채널들(L, R)의 조합으로부터 모노럴 신호를 발생시키는 요소(S8')에 있어서,상기 오디오 채널들(L, R)의 다수의 순차적인 세그먼트들(t(n)) 각각에 대해서, 각 순차적인 세그먼트에 대해 합산된 주파수 성분들(S(k))의 세트를 제공하기 위하여 각 오디오 채널(L(k), R(k))에 대한 각 주파수 스펙트럼 표현들로부터 대응하는 주파수 성분들을 합산하도록 배열되는 합산기(46);상기 대역에서 합산된 신호의 주파수 성분들의 에너지 및 상기 대역에서 상기 입력 오디오 채널들의 상기 주파수 성분들의 에너지의 함수로서, 상기 다수의 순차적인 세그먼트들 각각의 다수의 주파수 대역들(i) 각각에 대한 정정 인수(m(i))를 계산하는 수단(45); 및상기 성분의 주파수 대역에 대한 상기 정정 인수(m(i))의 함수로서 각 합산된 주파수 성분을 정정하는 정정 필터(47)를 구비하는, 모노럴 신호 발생 요소.
- 제14항의 요소를 포함하는 오디오 코더.
- 제15항에 청구된 오디오 코더 및 호환가능한 오디오 플레이어를 구비하는 오디오 시스템.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03100664 | 2003-03-17 | ||
EP03100664.6 | 2003-03-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050107812A true KR20050107812A (ko) | 2005-11-15 |
KR101035104B1 KR101035104B1 (ko) | 2011-05-19 |
Family
ID=33016948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20057017468A KR101035104B1 (ko) | 2003-03-17 | 2004-03-15 | 다중-채널 신호들의 처리 |
Country Status (9)
Country | Link |
---|---|
US (1) | US7343281B2 (ko) |
EP (1) | EP1606797B1 (ko) |
JP (1) | JP5208413B2 (ko) |
KR (1) | KR101035104B1 (ko) |
CN (1) | CN1761998B (ko) |
AT (1) | ATE487213T1 (ko) |
DE (1) | DE602004029872D1 (ko) |
ES (1) | ES2355240T3 (ko) |
WO (1) | WO2004084185A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140139103A (ko) * | 2012-03-27 | 2014-12-04 | 인스티튜트 퓌어 룬트퐁크테크닉 게엠베하 | 적어도 2 개의 오디오 신호들을 믹싱하기 위한 장치 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10150519B4 (de) * | 2001-10-12 | 2014-01-09 | Hewlett-Packard Development Co., L.P. | Verfahren und Anordnung zur Sprachverarbeitung |
JP4076887B2 (ja) * | 2003-03-24 | 2008-04-16 | ローランド株式会社 | ボコーダ装置 |
EP1769491B1 (en) * | 2004-07-14 | 2009-09-30 | Koninklijke Philips Electronics N.V. | Audio channel conversion |
SE0402650D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
US7797162B2 (en) | 2004-12-28 | 2010-09-14 | Panasonic Corporation | Audio encoding device and audio encoding method |
US20070299657A1 (en) * | 2006-06-21 | 2007-12-27 | Kang George S | Method and apparatus for monitoring multichannel voice transmissions |
US8355921B2 (en) * | 2008-06-13 | 2013-01-15 | Nokia Corporation | Method, apparatus and computer program product for providing improved audio processing |
DE102008056704B4 (de) * | 2008-11-11 | 2010-11-04 | Institut für Rundfunktechnik GmbH | Verfahren zum Erzeugen eines abwärtskompatiblen Tonformates |
US8401294B1 (en) * | 2008-12-30 | 2013-03-19 | Lucasfilm Entertainment Company Ltd. | Pattern matching using convolution of mask image and search image |
US8213506B2 (en) * | 2009-09-08 | 2012-07-03 | Skype | Video coding |
DE102009052992B3 (de) * | 2009-11-12 | 2011-03-17 | Institut für Rundfunktechnik GmbH | Verfahren zum Abmischen von Mikrofonsignalen einer Tonaufnahme mit mehreren Mikrofonen |
EP2323130A1 (en) * | 2009-11-12 | 2011-05-18 | Koninklijke Philips Electronics N.V. | Parametric encoding and decoding |
CN102157149B (zh) | 2010-02-12 | 2012-08-08 | 华为技术有限公司 | 立体声信号下混方法、编解码装置和编解码系统 |
CN102487451A (zh) * | 2010-12-02 | 2012-06-06 | 深圳市同洲电子股份有限公司 | 数字电视接收终端的音频测试方法及系统 |
KR102160254B1 (ko) * | 2014-01-10 | 2020-09-25 | 삼성전자주식회사 | 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치 |
PT3539127T (pt) | 2016-11-08 | 2020-12-04 | Fraunhofer Ges Forschung | Dispositivo de downmix e método para executar o downmix de pelo menos dois canais e codificador multicanal e descodificador multicanal |
US11363377B2 (en) | 2017-10-16 | 2022-06-14 | Sony Europe B.V. | Audio processing |
US10993061B2 (en) * | 2019-01-11 | 2021-04-27 | Boomcloud 360, Inc. | Soundstage-conserving audio channel summation |
CN113544774B (zh) * | 2019-03-06 | 2024-08-20 | 弗劳恩霍夫应用研究促进协会 | 降混器及降混方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5129006A (en) | 1989-01-06 | 1992-07-07 | Hill Amel L | Electronic audio signal amplifier and loudspeaker system |
US5388181A (en) | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
IT1246839B (it) * | 1990-07-13 | 1994-11-28 | Flaminio Frassinetti | Apparecchiatura per la miscelazione, a separazione di banda, di segnali elettrici. |
JP3099892B2 (ja) * | 1990-10-19 | 2000-10-16 | リーダー電子株式会社 | ステレオ信号の位相関係判定に使用する方法及び装置 |
CA2125220C (en) * | 1993-06-08 | 2000-08-15 | Joji Kane | Noise suppressing apparatus capable of preventing deterioration in high frequency signal characteristic after noise suppression and in balanced signal transmitting system |
EP0669725B1 (en) * | 1993-06-30 | 2001-09-05 | Shintom Co., Ltd | Radio receiver |
DE4409368A1 (de) | 1994-03-18 | 1995-09-21 | Fraunhofer Ges Forschung | Verfahren zum Codieren mehrerer Audiosignale |
US5850453A (en) | 1995-07-28 | 1998-12-15 | Srs Labs, Inc. | Acoustic correction apparatus |
EP0887958B1 (en) | 1997-06-23 | 2003-01-22 | Liechti Ag | Method for the compression of recordings of ambient noise, method for the detection of program elements therein, devices and computer program therefor |
US6539357B1 (en) | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
JP3951690B2 (ja) * | 2000-12-14 | 2007-08-01 | ソニー株式会社 | 符号化装置および方法、並びに記録媒体 |
US6614365B2 (en) * | 2000-12-14 | 2003-09-02 | Sony Corporation | Coding device and method, decoding device and method, and recording medium |
CA2354808A1 (en) * | 2001-08-07 | 2003-02-07 | King Tam | Sub-band adaptive signal processing in an oversampled filterbank |
US7437299B2 (en) | 2002-04-10 | 2008-10-14 | Koninklijke Philips Electronics N.V. | Coding of stereo signals |
WO2003085645A1 (en) | 2002-04-10 | 2003-10-16 | Koninklijke Philips Electronics N.V. | Coding of stereo signals |
EP1500084B1 (en) | 2002-04-22 | 2008-01-23 | Koninklijke Philips Electronics N.V. | Parametric representation of spatial audio |
-
2004
- 2004-03-15 ES ES04720692T patent/ES2355240T3/es not_active Expired - Lifetime
- 2004-03-15 US US10/549,370 patent/US7343281B2/en not_active Expired - Lifetime
- 2004-03-15 WO PCT/IB2004/050255 patent/WO2004084185A1/en active Application Filing
- 2004-03-15 CN CN2004800071181A patent/CN1761998B/zh not_active Expired - Lifetime
- 2004-03-15 KR KR20057017468A patent/KR101035104B1/ko active IP Right Grant
- 2004-03-15 DE DE602004029872T patent/DE602004029872D1/de not_active Expired - Lifetime
- 2004-03-15 AT AT04720692T patent/ATE487213T1/de not_active IP Right Cessation
- 2004-03-15 EP EP04720692A patent/EP1606797B1/en not_active Expired - Lifetime
- 2004-03-15 JP JP2006506713A patent/JP5208413B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140139103A (ko) * | 2012-03-27 | 2014-12-04 | 인스티튜트 퓌어 룬트퐁크테크닉 게엠베하 | 적어도 2 개의 오디오 신호들을 믹싱하기 위한 장치 |
Also Published As
Publication number | Publication date |
---|---|
DE602004029872D1 (de) | 2010-12-16 |
JP2006520927A (ja) | 2006-09-14 |
EP1606797B1 (en) | 2010-11-03 |
KR101035104B1 (ko) | 2011-05-19 |
CN1761998A (zh) | 2006-04-19 |
CN1761998B (zh) | 2010-09-08 |
EP1606797A1 (en) | 2005-12-21 |
ATE487213T1 (de) | 2010-11-15 |
WO2004084185A1 (en) | 2004-09-30 |
US20060178870A1 (en) | 2006-08-10 |
ES2355240T3 (es) | 2011-03-24 |
JP5208413B2 (ja) | 2013-06-12 |
US7343281B2 (en) | 2008-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101035104B1 (ko) | 다중-채널 신호들의 처리 | |
US11410664B2 (en) | Apparatus and method for estimating an inter-channel time difference | |
KR100978018B1 (ko) | 공간 오디오의 파라메터적 표현 | |
JP4934427B2 (ja) | 音声信号復号化装置及び音声信号符号化装置 | |
KR101049751B1 (ko) | 오디오 코딩 | |
RU2345506C2 (ru) | Многоканальный синтезатор и способ для формирования многоканального выходного сигнала | |
EP1543307B1 (en) | Audio decoding apparatus and method | |
EP2320414B1 (en) | Parametric joint-coding of audio sources | |
RU2388068C2 (ru) | Временное и пространственное генерирование многоканальных аудиосигналов | |
US8073702B2 (en) | Apparatus for encoding and decoding audio signal and method thereof | |
JP5724044B2 (ja) | 多重チャネル・オーディオ信号の符号化のためのパラメトリック型符号化装置 | |
US20080212803A1 (en) | Apparatus For Encoding and Decoding Audio Signal and Method Thereof | |
KR20050021484A (ko) | 오디오 코딩 | |
TR201810148T4 (tr) | Bi̇r ses si̇nyali̇ne yöneli̇k hesaplayici ve faz düzeltme veri̇si̇ni̇n beli̇rlenmesi̇ne yöneli̇k yöntem. | |
US20120033817A1 (en) | Method and apparatus for estimating a parameter for low bit rate stereo transmission | |
KR20010020540A (ko) | 다중 오디오 채널을 저 비트율로 부호화 및 복호화하기위한 장치와 그 방법 | |
MX2014010098A (es) | Control de coherencia de fase para señales armonicas en codecs de audio perceptual. | |
JP4313993B2 (ja) | オーディオ復号化装置およびオーディオ復号化方法 | |
RU2799737C2 (ru) | Устройство повышающего микширования звука, выполненное с возможностью работы в режиме с предсказанием или в режиме без предсказания | |
Chen et al. | Fast time-frequency transform algorithms and their applications to real-time software implementation of AC-3 audio codec | |
Gupta et al. | Efficient frequency-domain representation of LPC excitation | |
CN113544774A (zh) | 降混器及降混方法 | |
Suresh | Spatialization Parameter Estimation in MDCT Domain for Stereo Audio | |
CN104205211A (zh) | 多声道音频编码器以及用于对多声道音频信号进行编码的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20140507 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20150506 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20160426 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20180503 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20190510 Year of fee payment: 9 |