KR102550424B1 - 채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램 - Google Patents
채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램 Download PDFInfo
- Publication number
- KR102550424B1 KR102550424B1 KR1020207031943A KR20207031943A KR102550424B1 KR 102550424 B1 KR102550424 B1 KR 102550424B1 KR 1020207031943 A KR1020207031943 A KR 1020207031943A KR 20207031943 A KR20207031943 A KR 20207031943A KR 102550424 B1 KR102550424 B1 KR 102550424B1
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- channel
- time
- cross
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 181
- 238000004590 computer program Methods 0.000 title claims description 13
- 238000001228 spectrum Methods 0.000 claims abstract description 148
- 238000012545 processing Methods 0.000 claims abstract description 52
- 230000003595 spectral effect Effects 0.000 claims description 91
- 238000009499 grossing Methods 0.000 claims description 60
- 238000004458 analytical method Methods 0.000 claims description 47
- 238000010606 normalization Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 13
- 238000005259 measurement Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 230000004807 localization Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 24
- 238000004364 calculation method Methods 0.000 description 23
- 230000000875 corresponding effect Effects 0.000 description 19
- 230000015572 biosynthetic process Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 230000002123 temporal effect Effects 0.000 description 11
- 238000007792 addition Methods 0.000 description 10
- 230000009466 transformation Effects 0.000 description 10
- 238000005314 correlation function Methods 0.000 description 9
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000011049 filling Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 201000006747 infectious mononucleosis Diseases 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000010363 phase shift Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/04—Arrangements for maintaining operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W56/00—Synchronisation arrangements
- H04W56/001—Synchronization between nodes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
Description
도 1은 다중 채널 신호를 인코딩하기 위한 장치의 바람직한 구현의 블록도이다.
도 2는 인코딩된 다중 채널 신호를 디코딩하기 위한 장치의 바람직한 실시 예이다.
도 3은 특정 실시 예에 대한 여러 주파수 해상도 및 다른 주파수 관련 양상의 예시이다.
도 4a는 채널 정렬을 위해 인코딩 장치에서 수행되는 절차의 흐름도를 도시한다.
도 4b는 주파수 영역에서 수행되는 절차의 실시 예를 도시한다.
도 4c는 제로 패딩(zero padding) 부분 및 중첩(overlap) 범위를 갖는 분석 창을 사용하는 인코딩 장치에서 수행되는 절차의 실시 예를 도시한다.
도 4d는 인코딩 장치 내에서 수행되는 추가 절차에 대한 흐름도를 도시한다.
도 4e는 채널 간 시간 차 추정의 구현을 나타내는 흐름도를 도시한다.
도 5는 인코딩 장치에서 수행되는 절차의 다른 실시 예를 예시하는 흐름도를 도시한다.
도 6a는 인코더의 실시 예의 블록 차트를 예시한다.
도 6b는 디코더의 대응하는 실시 예의 흐름도를 도시한다.
도 7은 스테레오 시간-주파수 분석 및 합성을 위한 제로 패딩의 저 중첩 사인 창을 갖는 바람직한 창 시나리오를 예시한다.
도 8은 상이한 매개변수 값의 비트 소비를 보여주는 표를 예시한다.
도 9a는 바람직한 실시 예에서 인코딩된 다중 채널 신호를 디코딩하기 위한 장치에 의해 수행되는 절차를 도시한다.
도 9b는 인코딩된 다중 채널 신호를 디코딩하기 위한 장치의 구현을 예시한다.
도 9c는 인코딩된 다중 채널 신호의 디코딩과 관련하여 광대역 정렬 해제의 맥락에서 수행되는 절차를 도시한다.
도 10a는 채널 간 시간 차를 추정하기 위한 장치의 실시 예를 도시한다.
도 10b는 채널 간 시간 차가 적용되는 신호 추가 처리의 개략도를 도시한다.
도 10c는 본 발명의 일 실시 예에 따른 잡음 추정기로 구현된 신호 분석기와 실시예들에 따른 및 가중기를 개략적으로 도시한다.
도 10d는 본 발명의 실시 예에 따른 가중기의 개략도를 도시한다.
도 10e는 본 발명의 실시 예에 따른 프로세서의 개략적인 표현을 도시한다.
도 10f는 본 발명의 실시 예에 따른 잡음 추정기의 개략적인 표현을 도시한다.
도 11a는 도 10a의 프로세서에 의해 수행되는 절차를 도시한다.
도 11b는 도 10a의 프로세서에 의해 수행되는 추가 절차를 예시한다.
도 11c는 시간 영역 표현의 분석에서 가변 임계 값의 계산 및 가변 임계 값의 사용의 추가 구현을 예시한다.
도 11d는 가변 임계 값을 결정하기 위한 제1 실시 예를 도시한다.
도 11e는 임계 값 결정의 추가 구현을 예시한다.
도 11f는 본 발명의 실시 예에 따른 프로세서의 개략적인 표현을 도시한다.
도 12는 깨끗한 음성 신호에 대해 평활화된 상호 상관 스펙트럼의 시간 영역 표현을 도시한다.
도 13은 잡음 및 앰비언스를 갖는 음성 신호에 대해 평활화된 상호 상관 스펙트럼의 시간 영역 표현을 도시한다.
Claims (31)
- 제1 채널 신호와 제2 채널 신호의 채널 간 시간 차를 추정하는 장치에 있어서,
상기 제1 채널 신호, 상기 제2 채널 신호, 상기 제1 채널 신호와 상기 제2 채널 신호, 및 상기 제1 채널 신호 또는 상기 제2 채널 신호로부터 도출된 신호 중 적어도 하나의 신호 특성(1038)을 추정하기 위한 신호 분석기(1037);
시간 블록에 대한 상호 상관 스펙트럼을 상기 시간 블럭의 상기 제1 채널 신호 및 상기 시간 블록의 상기 제2 채널 신호로부터 계산하기 위한 계산기(1020);
신호 분석기(1037)에 의해 추정된 신호 특성에 따라 제1 가중 절차(1036a)를 사용하거나 제2 가중 절차(1036b)를 사용하여, 가중 상호 상관 스펙트럼을 얻기 위해 평활화된 상호 상관 스펙트럼 또는 평활화되지 않은 상호 상관 스펙트럼에 가중치를 부여하기 위한 가중기(1036) - 상기 제1 가중 절차(1036a)는 상기 제2 가중 절차(1036b)와 상이하며, 상기 제1 가중 절차(1036a)는 진폭이 정규화되고 위상이 유지되도록 하는 가중을 포함하거나, 또는 상기 제2 가중 절차(1036b)는 거듭 제곱이 1보다 작거나 0보다 큰 거듭 제곱 연산이나 로그 함수를 사용하여 평활화 또는 평활화되지 않은 상호 상관 스펙트럼으로부터 도출된 가중 계수를 포함함 -; 및
상기 채널 간 시간 차를 얻기 위해 상기 가중된 상호 상관 스펙트럼을 처리하는 프로세서(1040)
를 포함하는, 장치. - 제1항에 있어서,
상기 신호 분석기(1037)는 상기 제1 채널 신호 또는 상기 제2 채널 신호 또는 상기 제1 채널과 상기 제2 채널 또는 상기 제1 채널 신호 또는 상기 제2 채널 신호에서 도출된 신호의 잡음 레벨(1038)을 추정하기 위한 잡음 추정기(1037)로서 구성되고,
제1 신호 특성은 상기 잡음 레벨(1038)의 제1 잡음 레벨이고 제2 신호 특성은 상기 잡음 레벨(1038)의 제2 잡음 레벨이며, 또는 상기 신호 분석기(1037)는 신호가 제1 특성을 갖는지 또는 제2 특성을 갖는지를 결정하기 위해서, 음성/음악 분석, 간섭하는 화자 분석, 배경 음악 분석, 깨끗한 음성 분석 또는 기타 신호 분석을 수행하도록 구성되는, 장치. - 제1항에 있어서, 상기 제1 가중 절차(1036a)는 제1 신호 특성에 대해 선택되고 상기 제2 가중 절차(1036b)는 제2 신호 특성에 대해 선택되며, 상기 제1 신호 특성은 상기 제2 신호 특성과 상이한, 장치.
- 제1항에 있어서,
상기 제2 가중 절차(1036b)는 진폭이 정규화되고 위상이 유지되도록 하는 가중을 포함하고, 거듭 제곱이 1 보다 작거나 0보다 큰, 또는 0.79와 0.82 사이인 거듭 제곱 연산을 사용하여 상기 평활화 또는 평활화되지 않은 상호 상관 스펙트럼으로부터 도출된 가중 계수로 가중하는 단계를 더 포함하는, 장치. - 제1항에 있어서,
상기 제2 가중 절차(1036b)는 상기 제2 가중 절차(1036b)의 출력 범위가 상기 제1 가중 절차(1036a)의 출력 범위가 위치하는 범위 내에 있거나, 상기 제2 가중 절차(1036b)의 출력 범위가 상기 제1 가중 절차(1036a)의 출력 범위와 동일하도록 하는 정규화를 포함하는, 장치. - 제1항에 있어서, 상기 프로세서(1040)는 제1 가중 절차(1036a) 또는 제2 가중 절차(1036b)가 사용되었는지에 따라 제1 피크 선택 동작(1041) 또는 제2 피크 선택 동작(1042)을 수행하도록 구성되며, 상기 제1 피크 선택 동작은 상기 제2 피크 선택 동작과 다른, 장치.
- 제9항에 있어서, 상기 제2 피크 선택 동작(1042)은 상기 제2 가중 절차(1036b)가 사용될 때 사용되고, 상기 제2 피크 선택 동작(1042)은 상기 제1 피크 선택 동작(1041)에 의해 사용되는 제1 임계 값보다 낮은 제2 임계 값을 적용하도록 구성되는, 장치.
- 제2항에 있어서, 상기 잡음 추정기(1037)는 배경 잡음의 레벨을 추정(1060)하도록 구성되거나 시간에 따라 추정된 잡음 레벨을 평활화(1061)하도록 구성되거나 IIR 평활화 필터를 사용하도록 구성되는, 장치.
- 제2항에 있어서, 상기 잡음 추정기(1037)는 상기 시간 블록을 활성 또는 비활성으로 분류하기 위한 신호 활성 검출기(1070)를 더 포함하고, 상기 잡음 추정기(1037)는 하나 이상의 활성 시간 블록을 사용하여 신호 레벨을 계산(1072)하도록 구성되거나, 상기 잡음 추정기(1037)는 신호 대 잡음 비율이 임계 값 미만일 때, 높은 배경 잡음 레벨을 신호 보내도록(1050) 구성되고, 상기 임계 값은 45 내지 25dB 사이의 범위에 있는, 장치.
- 제1항에 있어서,
상기 시간 블록에 대한 상기 제1 채널 신호 또는 상기 제2 채널 신호의 스펙트럼 특성을 추정하기 위한 스펙트럼 특성 추정기(1010); 및
상기 평활화된 상호 상관 스펙트럼을 얻기 위해 상기 스펙트럼 특성을 사용하여 시간 경과에 따라 상기 상호 상관 스펙트럼을 평활화하기 위한 평활화 필터(1030)
를 더 포함하고,
상기 가중기(1036)는 상기 평활화된 상호 상관 스펙트럼을 가중하도록 구성되는, 장치. - 제1항에 있어서, 상기 프로세서(1040)는 상기 평활화된 상호 상관 스펙트럼의 크기를 사용하여 상기 평활화된 상호 상관 스펙트럼을 정규화(1036a)하도록 구성되는, 장치.
- 제1항에 있어서, 상기 프로세서(1040)는:
상기 평활화된 상호 상관 스펙트럼 또는 정규화 평활화된 상호 상관 스펙트럼의 시간 영역 표현을 계산하고(1031);
상기 채널 간 시간 차를 결정하기 위해 상기 시간 영역 표현을 분석하도록(1032)
구성되는, 장치. - 제15항에 있어서, 상기 프로세서(1040)는 상기 시간 영역 표현을 저역 통과 필터링하고(458) 상기 저역 통과 필터링의 결과를 추가로 처리하도록(1033) 구성되는, 장치.
- 제1항에 있어서, 상기 프로세서(1040)는 상기 평활화된 상호 상관 스펙트럼으로부터 결정된 시간 영역 표현 내에서 피크 검색 또는 피크 선택 동작(1041, 1042)을 수행함으로써 채널 간 시간 차 결정을 수행하도록 구성되는, 장치.
- 제13항에 있어서, 상기 스펙트럼 특성 추정기(1010)는 상기 스펙트럼 특성으로서 상기 스펙트럼의 잡음 또는 음조를 결정하도록 구성되고,
상기 평활화 필터(1030)는 제1 잡음 특성 또는 제1 음조 특성의 경우 제1 평활도로 시간이 지남에 따라 더 강한 평활화를 적용하거나, 제2 잡음 특성 또는 제2 음조 특성의 경우 제2 평활도로 시간이 지남에 따라 더 약한 평활화를 적용하도록 구성되고,
상기 제1 평활도는 상기 제2 평활도 보다 크고, 상기 제1 잡음 특성은 상기 제2 잡음 특성보다 잡음이 적거나, 상기 제1 음조 특성은 상기 제2 음조 특성보다 음조가 높은, 장치. - 제13항에 있어서,
상기 스펙트럼 특성 추정기(1010)는 상기 제1 채널 신호의 스펙트럼의 제1 스펙트럼 평탄도 측정 값 및 상기 제2 채널 신호의 제2 스펙트럼의 제2 스펙트럼 평탄도 측정 값을, 상기 스펙트럼 특성으로서 계산하고,
상기 제1 스펙트럼 평탄도 측정 값및 상기 제2 스펙트럼 평탄도 측정 값으로부터 최대 값을 선택하거나, 상기 제1 스펙트럼 평탄도 측정 값 및 상기 제2 스펙트럼 평탄도 측정 값 간의 가중 평균 또는 비가중 평균을 결정하거나, 또는 상기 제1 스펙트럼 평탄도 측정 값및 상기 제2 스펙트럼 평탄도 측정 값으로부터 최소값을 선택하여 상기 제1 스펙트럼 평탄도 측정 값및 상기 제2 스펙트럼 평탄도 측정 값으로부터 상기 스펙트럼 특성을 결정하도록 구성되는, 장치. - 제13항에 있어서,
상기 평활화 필터(1030)는 주파수에 대해 평활화된 상호 상관 스펙트럼 값을, 상기 시간 블록으로부터의 상기 주파수에 대한 상기 상호 상관 스펙트럼 값과 적어도 하나의 과거 시간 블록으로부터의 상기 주파수에 대한 상호 상관 스펙트럼 값의 가중 조합에 의해 계산하도록 구성되고, 상기 가중 조합에 대한 가중 계수는 상기 스펙트럼의 상기 특성에 의해 결정되는, 장치. - 제1항에 있어서,
상기 프로세서(1040)는 상기 가중 상호 상관 스펙트럼으로부터 도출된 시간 도메인 표현 내의 유효 범위를 결정하고(1120) 또한 상기 가중 상호 상관 스펙트럼으로부터 도출된 시간 영역 표현 내에서 무효 범위를 결정하고(1120),
상기 무효 범위 내의 적어도 하나의 최대 피크를 감지하고(1121),
상기 무효 범위 내의 감지된 적어도 하나의 최대 피크를 상기 유효 범위 내의 최대 피크와 비교하고(1123), 또한
상기 유효 범위 내의 상기 최대 피크가 상기 무효 범위 내의 감지된 상기 적어도 하나의 최대 피크 보다 클 때 상기 채널 간 시간 차를 결정(1124)하도록 구성된,
장치. - 제1항에 있어서,
상기 프로세서(1040)는
상기 평활화된 상호 상관 스펙트럼으로부터 도출된 시간 영역 표현 내에서 피크 검색 연산을 수행하고(1102),
상기 시간 영역 표현으로부터 가변 임계 값을 결정하고(1105);
피크를 상기 가변 임계 값과 비교(1106, 1035)
하도록 구성되고,
상기 채널 간 시간 차이는 상기 가변 임계 값과 미리 결정된 관계에 있는 피크와 관련된 시간 지연으로 결정되는, 장치. - 제22항에 있어서, 상기 프로세서(1040)는 상기 가변 임계 값을 상기 시간 영역 표현의 값의 10 %와 같이 가장 큰 부분의 값의 정수 배인 값으로 결정(1105)하도록 구성되는, 장치.
- 제1항에 있어서,
상기 프로세서(1040)는 상기 평활화 된 상호 상관 스펙트럼으로부터 도출된 시간 영역 표현의 복수의 서브 블록의 각 서브 블록에서 최대 피크 크기를 결정(1102)하도록 구성되며,
상기 프로세서(1040)는 상기 복수의 서브 블록의 상기 최대 피크 크기로부터 도출(1103)된 평균 피크 크기를 기반으로 하는 가변 임계 값을 계산(1105, 1034)하도록 구성되며,
상기 프로세서(1040)는 상기 복수의 서브 블록의 상기 최대 피크 크기들 중에서 특정 최대 피크 크기에 대응하는 시간 지연 값으로 상기 채널 간 시간 차를 결정하도록 구성되며,
상기 특정 최대 피크 크기는 상기 가변 임계 값 보다 큰,
장치. - 제24항에 있어서,
상기 프로세서(1040)는 복수의 서브 블록의 상기 최대 피크 크기들의 상기 평균 피크 크기로 결정된 평균 임계 값과 곱셈 값을 곱하여 상기 가변 임계 값을 계산(1105)하도록 구성되고,
상기 곱셈 값은 상기 제1 채널 신호 및 제2 채널 신호의 SNR (신호 대 잡음비) 특성에 의해 결정되며, 제1 곱셈 값은 제1 SNR 값과 연관되고 제2 곱셈 값(alow)은 제2 SNR 값과 연관되며, 상기 제1 곱셈 값은 상기 제2 곱셈 값(alow)보다 크고, 상기 제1 SNR 값은 상기 제2 SNR 값보다 큰,
장치. - 제25항에 있어서,
상기 프로세서(1040)는 제3 SNR 값이 상기 제2 SNR 값 보다 작은 경우, 상기 평균 임계 값과 상기 복수의 서브 블록 내의 최대 피크 크기 간 차이가 미리 정해진 값보다 작을 때, 상기 제2 곱셈 값(alow) 보다 낮은 제3 곱셈 값(alowest)을 사용(1104)하도록 구성되는, 장치. - 제2항에 있어서,
상기 잡음 추정기(1037)는 배경 잡음 추정기(1060) 및 배경 잡음 추정치를 제공하기 위한 시간 평활기(1061)를 포함하거나,
상기 잡음 추정기(1037)는 신호 활성 검출기(1070), 상기 신호 활성 검출기(1070)의 제어 하에서만 활성 프레임을 선택하기 위한 프레임 선택기(1071), 및 상기 활성 프레임에서 신호 레벨을 계산하기 위한 신호 레벨 계산기(1072), 및 신호 레벨 추정치를 제공하기 위해 시간이 경과함에 따라 상기 신호 레벨 계산기(1072)의 결과를 평활화하기 위한 시간 평활기(1073)를 포함하거나,
상기 잡음 추정기(1037)는 프레임에 대해 평활화 또는 평활화되지 않은 신호 레벨 및 평활화되거나 평활화되지 않은 배경 잡음 레벨로부터 신호 대 잡음비를 계산(1074)하도록 구성되며, 상기 프레임에 대한 상기 잡음 레벨(1038)을 제공하기 위해 상기 프레임에 대한 임계 값과 상기 신호 대 잡음 비율 값을 비교하는 비교기(1075)를 포함하는, 장치. - 제1항에 있어서, 상기 장치는
상기 추정된 채널 간 시간 차의 저장 또는 전송을 수행하거나,
상기 추정된 채널 간 시간 차를 사용하여 상기 제1 채널 신호 및 제2 채널 신호의 스테레오 처리를 수행하거나,
상기 채널 간 시간 차를 사용하여 상기 제1 채널 신호 및 제2 채널 신호의 시간 정렬을 수행하거나,
상기 추정된 채널 간 시간 차를 사용하여 도착 시간 차 추정을 수행하거나,
두 개의 마이크로폰과 알려진 마이크로폰 셋업을 구비한 방 내의 스피커 위치를 결정하기 위해 상기 채널 간 시간 차이를 사용하여 도착 시간 차 추정을 수행하거나,
상기 추정된 채널 간 시간 차를 사용하여 빔 형성을 수행하거나,
상기 추정된 채널 간 시간 차를 사용하여 공간 필터링을 수행하거나,
상기 추정된 채널 간 시간 차를 사용하여 전경 또는 배경 분해를 수행하거나,
상기 추정된 채널 간 시간 차를 사용하여 음원의 위치 연산을 수행하거나,
상기 제1 채널 신호와 상기 제2 채널 신호 간 또는 상기 제1 채널 신호, 상기 제2 채널 신호 및 적어도 하나의 추가 채널 간의 시간 차에 기초하여 음향 삼각 측량을 수행함으로써 상기 추정된 채널 간 시간 차를 사용하여 음원의 위치 찾기를 수행하도록 구성되는, 장치. - 제1 채널 신호와 제2 채널 신호 사이의 채널 간 시간 차를 추정하는 방법에 있어서,
상기 제1 채널 신호, 상기 제2 채널 신호, 상기 제1 채널 신호와 상기 제2 채널 신호, 및 상기 제1 채널 신호 또는 상기 제2 채널 신호로부터 도출된 신호 중 적어도 하나의 신호 특성(1038)을 추정하는 단계;
시간 블록에 대한 상호 상관 스펙트럼을 상기 시간 블록의 상기 제1 채널 신호 및 상기 시간 블록의 상기 제2 채널 신호로부터 계산하는 단계;
제1 가중 절차(1036a)를 사용하거나 제2 가중 절차(1036b)를 사용하여 가중된 상호 상관 스펙트럼을 얻기 위해 평활화 또는 평활화되지 않은 상호 상관 스펙트럼을 가중하는 단계 - 상기 제1 가중 절차(1036a) 또는 상기 제2 가중 절차(1036b)의 사용은 신호 특성을 추정하는 단계에서 추정된 신호 특성에 따르며, 상기 제1 가중 절차(1036a)는 제2 가중 절차(1036b)와 상이하며, 상기 제1 가중 절차(1036a)는 진폭이 정규화되고 위상이 유지되도록 하는 가중을 포함하거나, 또는 상기 제2 가중 절차(1036b)는 거듭 제곱이 1보다 작거나 0보다 큰 거듭 제곱 연산이나 로그 함수를 사용하여 평활화 또는 평활화되지 않은 상호 상관 스펙트럼으로부터 도출된 가중 계수를 포함함 - ; 및
가중 상호 상관 스펙트럼을 처리하여 상기 채널 간 시간 차를 얻는 단계를 포함하는,
방법. - 제29항에 있어서,
상기 시간 블록에 대한 상기 제1 채널 신호 또는 상기 제2 채널 신호의 스펙트럼 특성을 추정하는 단계;
평활된 상호 상관 스펙트럼을 얻기 위해 상기 스펙트럼 특성을 사용하여 시간 경과에 따라 상기 상호 상관 스펙트럼을 평활화하는 단계를 더 포함하고,
상기 평활화 또는 평활화되지 않은 상호 상관 스펙트럼을 가중하는 단계는 상기 평활화된 상호 상관 스펙트럼에 가중치를 부여하는,
방법. - 컴퓨터 판독가능 저장 매체로서,
컴퓨터 또는 프로세서에서 실행될 때 제29항 또는 제30항의 방법을 수행하기위한 컴퓨터 프로그램이 저장되는,
컴퓨터 판독가능 저장 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18165882.4 | 2018-04-05 | ||
EP18165882 | 2018-04-05 | ||
PCT/EP2019/058434 WO2019193070A1 (en) | 2018-04-05 | 2019-04-03 | Apparatus, method or computer program for estimating an inter-channel time difference |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200140864A KR20200140864A (ko) | 2020-12-16 |
KR102550424B1 true KR102550424B1 (ko) | 2023-07-04 |
Family
ID=61965696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207031943A Active KR102550424B1 (ko) | 2018-04-05 | 2019-04-03 | 채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램 |
Country Status (18)
Country | Link |
---|---|
US (2) | US11594231B2 (ko) |
EP (3) | EP3776541B1 (ko) |
JP (2) | JP7204774B2 (ko) |
KR (1) | KR102550424B1 (ko) |
CN (2) | CN112262433B (ko) |
AR (1) | AR117567A1 (ko) |
AU (1) | AU2019249872B2 (ko) |
BR (1) | BR112020020457A2 (ko) |
CA (1) | CA3095971C (ko) |
ES (2) | ES2988345T3 (ko) |
MX (1) | MX2020010462A (ko) |
PL (2) | PL3776541T3 (ko) |
PT (1) | PT3776541T (ko) |
RU (1) | RU2762302C1 (ko) |
SG (1) | SG11202009801VA (ko) |
TW (1) | TWI714046B (ko) |
WO (1) | WO2019193070A1 (ko) |
ZA (1) | ZA202006125B (ko) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11418879B2 (en) * | 2020-05-13 | 2022-08-16 | Nxp B.V. | Audio signal blending with beat alignment |
WO2021252912A1 (en) * | 2020-06-11 | 2021-12-16 | Dolby Laboratories Licensing Corporation | Separation of panned sources from generalized stereo backgrounds using minimal training |
CN113948098B (zh) * | 2020-07-17 | 2025-06-10 | 华为技术有限公司 | 一种立体声音频信号时延估计方法及装置 |
WO2022042908A1 (en) * | 2020-08-31 | 2022-03-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal |
CN112242150B (zh) * | 2020-09-30 | 2024-04-12 | 上海佰贝科技发展股份有限公司 | 一种检测立体声的方法及其系统 |
JP7680574B2 (ja) * | 2021-06-15 | 2025-05-20 | テレフオンアクチーボラゲット エルエム エリクソン(パブル) | コインシデントステレオ捕捉のためのチャネル間時間差(itd)推定器の改善された安定性 |
WO2023038637A1 (en) * | 2021-09-13 | 2023-03-16 | Luminous Computing, Inc. | Optical filter system and method of operation |
CN114171061B (zh) * | 2021-12-29 | 2024-12-20 | 苏州科达特种视讯有限公司 | 时延估计方法、设备及存储介质 |
CN114324972B (zh) * | 2022-01-10 | 2022-09-13 | 浙江大学 | 一种适用于流体互相关测速的自适应广义互相关时延估计方法 |
WO2024053353A1 (ja) * | 2022-09-08 | 2024-03-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 信号処理装置、及び、信号処理方法 |
WO2024202972A1 (ja) * | 2023-03-29 | 2024-10-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | チャネル間時間差推定装置、及び、チャネル間時間差推定方法 |
WO2024202997A1 (ja) * | 2023-03-29 | 2024-10-03 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | チャネル間時間差推定装置、及び、チャネル間時間差推定方法 |
CN119228618A (zh) * | 2023-06-29 | 2024-12-31 | 北京火山引擎科技有限公司 | 图像处理方法、装置、可读介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120016632A1 (en) | 2009-03-25 | 2012-01-19 | Wu Wenhai | Method for estimating inter-channel delay and apparatus and encoder thereof |
US20120300945A1 (en) | 2010-02-12 | 2012-11-29 | Huawei Technologies Co., Ltd. | Stereo Coding Method and Apparatus |
US20130182852A1 (en) | 2011-09-13 | 2013-07-18 | Jeff Thompson | Direct-diffuse decomposition |
WO2017125563A1 (en) * | 2016-01-22 | 2017-07-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for estimating an inter-channel time difference |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5434948A (en) | 1989-06-15 | 1995-07-18 | British Telecommunications Public Limited Company | Polyphonic coding |
US7116787B2 (en) * | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7720230B2 (en) * | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US7573912B2 (en) | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
KR20080066537A (ko) * | 2007-01-12 | 2008-07-16 | 엘지전자 주식회사 | 부가정보를 가지는 오디오신호의 부호화/복호화 방법 및장치 |
GB2453117B (en) | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
WO2009049896A1 (en) * | 2007-10-17 | 2009-04-23 | Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. | Audio coding using upmix |
KR101405956B1 (ko) * | 2007-12-28 | 2014-06-12 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
BR122020009727B1 (pt) | 2008-05-23 | 2021-04-06 | Koninklijke Philips N.V. | Método |
WO2010037426A1 (en) * | 2008-10-03 | 2010-04-08 | Nokia Corporation | An apparatus |
CN102292767B (zh) * | 2009-01-22 | 2013-05-08 | 松下电器产业株式会社 | 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法 |
WO2010105926A2 (en) * | 2009-03-17 | 2010-09-23 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
CN103403800B (zh) * | 2011-02-02 | 2015-06-24 | 瑞典爱立信有限公司 | 确定多声道音频信号的声道间时间差 |
JP5692006B2 (ja) * | 2011-11-02 | 2015-04-01 | トヨタ自動車株式会社 | 音源推定装置、方法、プログラム、及び移動体 |
WO2013149673A1 (en) * | 2012-04-05 | 2013-10-10 | Huawei Technologies Co., Ltd. | Method for inter-channel difference estimation and spatial audio coding device |
US9460729B2 (en) * | 2012-09-21 | 2016-10-04 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
EP2980789A1 (en) * | 2014-07-30 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
WO2016025812A1 (en) * | 2014-08-14 | 2016-02-18 | Rensselaer Polytechnic Institute | Binaurally integrated cross-correlation auto-correlation mechanism |
CN106033671B (zh) * | 2015-03-09 | 2020-11-06 | 华为技术有限公司 | 确定声道间时间差参数的方法和装置 |
CN107742521B (zh) * | 2016-08-10 | 2021-08-13 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
-
2019
- 2019-04-03 JP JP2020554532A patent/JP7204774B2/ja active Active
- 2019-04-03 EP EP19713826.6A patent/EP3776541B1/en active Active
- 2019-04-03 MX MX2020010462A patent/MX2020010462A/es unknown
- 2019-04-03 WO PCT/EP2019/058434 patent/WO2019193070A1/en active IP Right Grant
- 2019-04-03 CN CN201980037464.0A patent/CN112262433B/zh active Active
- 2019-04-03 CN CN202410175071.9A patent/CN118283489A/zh active Pending
- 2019-04-03 EP EP24194360.4A patent/EP4435783A3/en active Pending
- 2019-04-03 PL PL19713826T patent/PL3776541T3/pl unknown
- 2019-04-03 KR KR1020207031943A patent/KR102550424B1/ko active Active
- 2019-04-03 EP EP21212592.6A patent/EP3985665B1/en active Active
- 2019-04-03 PL PL21212592.6T patent/PL3985665T3/pl unknown
- 2019-04-03 AU AU2019249872A patent/AU2019249872B2/en active Active
- 2019-04-03 RU RU2020135902A patent/RU2762302C1/ru active
- 2019-04-03 SG SG11202009801VA patent/SG11202009801VA/en unknown
- 2019-04-03 ES ES21212592T patent/ES2988345T3/es active Active
- 2019-04-03 PT PT197138266T patent/PT3776541T/pt unknown
- 2019-04-03 ES ES19713826T patent/ES2909343T3/es active Active
- 2019-04-03 CA CA3095971A patent/CA3095971C/en active Active
- 2019-04-03 TW TW108111909A patent/TWI714046B/zh active
- 2019-04-03 BR BR112020020457-9A patent/BR112020020457A2/pt active Search and Examination
- 2019-04-05 AR ARP190100911A patent/AR117567A1/es active IP Right Grant
-
2020
- 2020-09-29 US US17/036,261 patent/US11594231B2/en active Active
- 2020-10-02 ZA ZA2020/06125A patent/ZA202006125B/en unknown
-
2022
- 2022-12-28 JP JP2022210992A patent/JP7598356B2/ja active Active
-
2023
- 2023-01-26 US US18/159,932 patent/US12198705B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120016632A1 (en) | 2009-03-25 | 2012-01-19 | Wu Wenhai | Method for estimating inter-channel delay and apparatus and encoder thereof |
US20120300945A1 (en) | 2010-02-12 | 2012-11-29 | Huawei Technologies Co., Ltd. | Stereo Coding Method and Apparatus |
US20130182852A1 (en) | 2011-09-13 | 2013-07-18 | Jeff Thompson | Direct-diffuse decomposition |
WO2017125563A1 (en) * | 2016-01-22 | 2017-07-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for estimating an inter-channel time difference |
WO2017125559A1 (en) | 2016-01-22 | 2017-07-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling |
Non-Patent Citations (2)
Title |
---|
Bertrand Fatus. Parametric Coding for Spatial Audio. Master’s Thesis, KTH, Stockholm, Sweden. 2015.12. |
ETSI TS 103 190-2 V1.1.1, Digital Audio Compression (AC-4) Standard Part 2: Immersive and personalized audio, 2015.09. |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102550424B1 (ko) | 채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램 | |
JP7161564B2 (ja) | チャネル間時間差を推定する装置及び方法 | |
HK40038483A (en) | Apparatus, method or computer program for estimating an inter-channel time difference | |
HK40038483B (en) | Apparatus, method or computer program for estimating an inter-channel time difference | |
HK1261641B (en) | Apparatus and method for estimating an inter-channel time difference | |
HK1261641A1 (en) | Apparatus and method for estimating an inter-channel time difference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0105 | International application |
Patent event date: 20201105 Patent event code: PA01051R01D Comment text: International Patent Application |
|
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20201105 Comment text: Request for Examination of Application |
|
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20221004 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20230410 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20230628 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20230629 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |