KR20230035387A - 스테레오 오디오 신호 지연 추정 방법 및 장치 - Google Patents
스테레오 오디오 신호 지연 추정 방법 및 장치 Download PDFInfo
- Publication number
- KR20230035387A KR20230035387A KR1020237004478A KR20237004478A KR20230035387A KR 20230035387 A KR20230035387 A KR 20230035387A KR 1020237004478 A KR1020237004478 A KR 1020237004478A KR 20237004478 A KR20237004478 A KR 20237004478A KR 20230035387 A KR20230035387 A KR 20230035387A
- Authority
- KR
- South Korea
- Prior art keywords
- channel
- frequency domain
- signal
- domain signal
- gain factor
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 424
- 238000000034 method Methods 0.000 title claims abstract description 156
- 238000001228 spectrum Methods 0.000 claims abstract description 186
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 71
- 230000001427 coherent effect Effects 0.000 claims abstract description 55
- 239000000470 constituent Substances 0.000 claims abstract description 47
- 230000006870 function Effects 0.000 claims description 257
- 238000001514 detection method Methods 0.000 claims description 38
- 230000000873 masking effect Effects 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 32
- 230000009466 transformation Effects 0.000 claims description 26
- QSIYTPCKNAPAJY-UHFFFAOYSA-N aluminum;ethoxy-oxido-oxophosphanium;2-(trichloromethylsulfanyl)isoindole-1,3-dione Chemical compound [Al+3].CCO[P+]([O-])=O.CCO[P+]([O-])=O.CCO[P+]([O-])=O.C1=CC=C2C(=O)N(SC(Cl)(Cl)Cl)C(=O)C2=C1 QSIYTPCKNAPAJY-UHFFFAOYSA-N 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000005314 correlation function Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 9
- 238000009432 framing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010019133 Hangover Diseases 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/307—Frequency adjustment, e.g. tone control
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
스테레오 오디오 신호 지연 추정 방법 및 장치가 개시된다. 상기 방법은 스테레오 오디오 신호의 현재 프레임을 획득하는 단계(S401) - 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 -; 및 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형이면, 제1 알고리즘을 사용하여 현재 프레임의 인터 채널 시간 차이를 추정하는 단계(S403); 또는 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형이면, 제2 알고리즘을 사용하여 현재 프레임의 인터 채널 시간 차이를 추정하는 단계(S403)를 포함한다. 제1 알고리즘은 제1 가중 함수에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하고, 제2 알고리즘은 제2 가중 함수에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하며, 제1 가중 함수의 구성 팩터는 제2 가중 함수의 구성 팩터와 상이하다. 서로 다른 유형의 노이즈를 포함하는 스테레오 오디오 신호에 서로 다른 ITD 추정 알고리즘이 사용되어, 스테레오 오디오 신호의 ITD 추정 정확도가 향상된다.
Description
본 출원은 2020년 7월 17일에 중국 특허청에 출원되고 명칭이 "스테레오 오디오 신호 지연 추정 방법 및 장치"인 중국 특허 출원 번호 제202010700806.7호에 대한 우선권을 주장하는 바이며, 이러한 문헌의 내용은 원용에 의해 전체적으로 본 명세서에 포함된다.
본 출원은 오디오 인코딩 및 디코딩 분야에 관한 것으로, 특히 스테레오 오디오 신호 지연 추정 방법 및 장치에 관한 것이다.
일상적인 오디오 및 비디오 통신 시스템에서, 사람들은 고품질 이미지뿐만 아니라 고품질 오디오를 추구한다. 보이스(voice) 및 오디오 통신 시스템에서, 단일 채널 오디오는 점점 더 사람들의 요구를 충족할 수 없다. 한편, 스테레오 오디오는 각 음원의 위치 정보를 운반한다. 이를 통해 오디오의 선명도, 명료도 및 현실감이 향상된다. 따라서, 스테레오 오디오는 사람들 사이에서 점점 인기를 얻고 있다.
스테레오 오디오 인코딩 및 디코딩 기술에서, 파라메트릭 스테레오 인코딩 및 디코딩 기술은 일반적인 오디오 인코딩 및 디코딩 기술이다. 일반적인 공간 파라미터는 인터 채널 코히런스(inter-channel coherence, IC), 인터 채널 레벨 차이(inter-channel level difference, ILD), 인터 채널 시간 차이(inter-channel time difference, ITD), 인터 채널 위상 차이(inter-channel phase difference, IPD) 등을 포함한다. ILD와 ITD는 음원의 위치 정보를 담고 있으며, ILD와 ITD 정보의 정확한 추정은 인코딩된 스테레오의 음상과 음장을 재구성하는데 필수적이다.
현재 가장 일반적으로 사용되는 ITD 추정 방법은 일반화된 상호 상관 방법이며, 이는 이러한 알고리즘이 복잡도가 낮고 실시간 성능이 우수하며 구현이 쉽고 스테레오 오디오 신호의 다른 사전 정보에 의존하지 않기 때문이다. 그러나, 시끄러운 환경에서는 기존의 여러 일반화된 상호 상관 알고리즘의 성능이 크게 저하되어 스테레오 오디오 신호의 ITD 추정 정확도가 낮아진다. 그 결과, 파라메트릭 인코딩 및 디코딩 기술에서의 디코딩된 스테레오 오디오 신호에서 사운드 이미지 부정확성, 불안정성, 빈약한 공간감 및 명백한 인헤드(in-head) 효과와 같은 문제가 발생하여, 인코딩된 스테레오 오디오 신호의 음질에 큰 영향을 미친다.
본 출원은 스테레오 오디오 신호 사이의 인터 채널 시간 차이 추정 정밀도를 향상시키고, 디코딩된 스테레오 오디오 신호의 사운드 이미지의 정확도 및 안정성을 향상시키며, 음질을 향상시키기 위한 스테레오 오디오 신호 지연 추정 방법 및 장치를 제공한다.
제1 측면에 따르면, 본 출원은 스테레오 오디오 신호 지연 추정 방법을 제공한다. 상기 방법은 오디오 코딩 장치에 적용될 수 있다. 오디오 코딩 장치는 스테레오 및 다중 채널 오디오 비디오 통신 시스템에서 오디오 코딩 부분에 적용될 수 있고, 가상 현실(virtual reality, VR) 애플리케이션 프로그램에서 오디오 코딩 부분에 적용될 수 있다. 상기 방법은: 오디오 코딩 장치가 스테레오 오디오 신호의 현재 프레임을 획득하는 단계 - 상기 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 -; 및 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형(coherent noise signal type)이면, 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이(inter-channel time difference, ITD)를 추정하거나, 또는 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형(diffuse noise signal type)이면, 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호의 ITD를 추정하는 단계를 포함한다. 상기 제1 알고리즘은 제1 가중 함수(weighting function)에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼(frequency domain cross power spectrum)에 가중치를 부여하는(weighting) 것을 포함하고, 상기 제2 알고리즘은 제2 가중 함수에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하며, 상기 제1 가중 함수의 구성 팩터(construction factor)는 상기 제2 가중 함수의 구성 팩터와 상이하다.
스테레오 오디오 신호는 원시 스테레오 오디오 신호(좌측 채널 오디오 신호 및 우측 채널 오디오 신호를 포함)이거나, 다중 채널(multi-channel) 오디오 신호에서 2개의 오디오 신호로 구성된 스테레오 오디오 신호이거나, 다중 채널 오디오 신호에서 복수의 오디오 신호를 조합하여 생성된 2개의 오디오 신호로 형성된 스테레오 신호일 수 있다. 물론, 스테레오 오디오 신호는 다르게는 다른 형태일 수 있다. 이는 본 출원의 이 실시예에서 특별히 제한되지 않는다.
선택적으로, 오디오 코딩 장치는 구체적으로 스테레오 코딩 장치일 수 있다. 상기 장치는 독립적인 스테레오 코더를 구성할 수 있거나, 다중 채널 오디오 신호에서 복수의 신호를 조합하여 생성된 2개의 오디오 신호로 형성된 스테레오 오디오 신호를 인코딩하기 위한 다중 채널 코더의 코어 코딩 부분일 수 있다.
일부 가능한 구현에서, 오디오 코딩 장치에 의해 획득된 스테레오 신호의 현재 프레임은 주파수 도메인 오디오 신호 또는 시간 도메인 오디오 신호일 수 있다. 현재 프레임이 주파수 도메인 오디오 신호이면, 오디오 코딩 장치는 주파수 도메인에서 현재 프레임을 직접 처리할 수 있다. 현재 프레임이 시간 도메인 오디오 신호이면, 오디오 코딩 장치는 먼저 시간 도메인에서 현재 프레임에 대해 시간-주파수 변환(time-frequency transform)을 수행하여 주파수 도메인에서 현재 프레임을 획득한 후, 주파수 도메인에서 현재 프레임을 처리할 수 있다.
본 출원에서 오디오 코딩 장치는 서로 다른 유형의 노이즈를 포함하는 스테레오 오디오 신호에 대해 서로 다른 ITD 추정 알고리즘을 사용하여, 확산 노이즈 및 코히런트 노이즈의 경우에 스테레오 오디오 신호의 ITD 추정 정밀도 및 안정성을 크게 향상시키고, 스테레오 다운믹스된 신호(stereo downmixed signal) 사이에서 인터 프레임 불연속성을 감소시키며, 스테레오 신호의 위상을 더 잘 유지한다. 인코딩된 스테레오의 사운드 이미지는 보다 정확하고 안정적이며, 현실감이 강하고, 인코딩된 스테레오 신호의 청각적 품질이 향상된다.
일부 가능한 구현에서, 상기 스테레오 오디오 신호의 현재 프레임을 획득하는 단계 이후에, 상기 스테레오 오디오 신호 지연 추정 방법은, 상기 현재 프레임의 노이즈 코히런스(coherence) 값을 획득하는 단계; 및 상기 노이즈 코히런스 값이 미리 설정된 임계값보다 크거나 같으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 관련 노이즈 신호 유형인 것으로 결정하거나, 또는 상기 노이즈 코히런스 값이 미리 설정된 임계값보다 작으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형인 것으로 결정하는 단계를 더 포함한다.
선택적으로, 미리 설정된 임계값은 실험값으로서 0.20, 0.25, 0.30 등으로 설정될 수 있다.
일부 가능한 구현에서, 상기 현재 프레임의 노이즈 코히런스 값을 획득하는 단계는, 상기 현재 프레임에 대해 음성 종료점 검출(speech endpoint detection)을 수행하는 단계; 및 검출 결과가 상기 현재 프레임의 신호 유형이 노이즈 신호 유형인 것으로 지시하면, 상기 현재 프레임의 노이즈 코히런스 값을 계산하거나, 또는 검출 결과가 상기 현재 프레임의 신호 유형이 음성 신호(speech signal) 유형인 것으로 지시하면, 상기 스테레오 오디오 신호의 현재 프레임의 이전 프레임의 노이즈 코히런스 값을 상기 현재 프레임의 노이즈 코히런스 값으로 결정하는 단계를 포함한다.
선택적으로, 오디오 코딩 장치는 시간 도메인, 주파수 도메인 또는 시간 도메인과 주파수 도메인의 조합에서 음성 종료점 검출 값을 계산할 수 있다. 이것은 여기서 특별히 제한되지 않는다.
본 출원에서, 오디오 코딩 장치는 현재 프레임의 노이즈 코히런스 값을 계산한 후, 노이즈 코히런스 값 추정의 에러를 감소시키고 노이즈 유형 식별의 정확도를 향상시키기 위해 노이즈 코히런스 값에 대해 평활화(smoothing) 처리를 추가로 수행할 수 있다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 상기 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는, 상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하는 단계; 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계; 상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계; 및 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하는 단계를 포함한다. 상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터(Wiener gain factor), 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다. 상기 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는, 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계; 상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계; 및 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하는 단계를 포함한다. 상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
는 상기 진폭 가중 파라미터이고, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 현재 프레임의 k번째 주파수 빈(bin)의 제곱 코히런트 값이며, 이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
는 상기 진폭 가중 파라미터이고, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
일부 가능한 구현에서, 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제1 채널 주파수 도메인 신호의 제1 초기(initial) 위너 이득 팩터 및/또는 제1 개선된(improved) 위너 이득 팩터일 수 있다. 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터 및/또는 제2 개선된 위너 이득 팩터일 수 있다.
예를 들어, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이다. 이 경우, 상기 스테레오 오디오 신호의 현재 프레임이 획득된 다음에, 상기 방법은: 상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하는 단계; 상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하는 단계; 및, 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하는 단계를 더 포함한다.
본 출원에서, 위너 이득 팩터 가중치를 적용한 후에, 스테레오 오디오 신호의 주파수 도메인 교차 전력 스펙트럼에서 코히런트 노이즈 컴포넌트의 가중치(weight)를 크게 감소시키고 잔차 노이즈 컴포넌트의 상관관계도 크게 감소시킨다. 대부분의 경우, 스테레오 오디오 신호에서 잔차 노이즈의 제곱 코히런스 값은 타깃 신호(예를 들어, 음성 신호)의 제곱 코히런스 값보다 훨씬 작다. 이러한 방식으로, 타깃 신호에 대응하는 상호 상관 피크 값이 더욱 두드러지고, 스테레오 오디오 신호의 ITD 추정 정밀도와 안정성이 크게 향상된다.
는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며, 는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
다른 예로, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이다.
상기 스테레오 오디오 신호의 현재 프레임이 획득된 다음에, 상기 방법은: 제1 초기 위너 이득 팩터 및 제2 초기 위너 이득 팩터를 획득하는 단계; 상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수(binary masking function)를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하는 단계; 및 상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하는 단계를 더 포함한다.
본 출원에서는 제1 채널 주파수 도메인 신호에 대응하는 제1 초기 위너 이득 팩터와 제2 채널 주파수 도메인 신호에 대응하는 제2 초기 위너 이득 팩터에 대해 이진 마스킹 함수를 구성하므로, 노이즈의 영향을 덜 받는 주파수 빈이 선택되어 ITD 추정 정확도가 향상된다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 상기 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는, 상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하는 단계; 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계; 및 상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하여, 상기 제1 채널 주파수 도메인 신호와 상기 제2 채널 주파수 도메인 신호 사이의 상기 인터 채널 시간 차이의 추정값을 획득하는 단계를 포함한다. 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다. 상기 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는, 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계; 상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계; 및 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하는 단계를 포함한다. 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
는 상기 진폭 가중 파라미터이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
제2 측면에 따르면, 본 출원은 스테레오 오디오 신호 지연 추정 방법을 제공한다. 상기 방법은 오디오 코딩 장치에 적용될 수 있다. 오디오 코딩 장치는 스테레오 및 다중 채널 오디오 비디오 통신 시스템에서 오디오 코딩 부분에 적용될 수 있고, VR 애플리케이션 프로그램에서 오디오 코딩 부분에 적용될 수 있다. 상기 방법은, 현재 프레임이 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함하고; 상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계; 미리 설정된 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계; 및 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 제1 채널 주파수 도메인 신호와 제2 채널 주파수 도메인 신호 사이의 인터 채널 시간 차이의 추정값을 획득하는 단계를 포함할 수 있다.
상기 미리 설정된 가중 함수는 제1 가중 함수 또는 제2 가중 함수를 포함하며, 상기 제1 가중 함수의 구성 팩터는 상기 제2 가중 함수의 구성 팩터와 상이하다.
선택적으로, 상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다. 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계는: 상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하는 단계; 및 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계를 포함한다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다.
는 상기 진폭 가중 파라미터이고, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
는 상기 진폭 가중 파라미터이고, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
일부 가능한 구현에서, 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터 및/또는 제1 개선된 위너 이득 팩터일 수 있다. 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터 및/또는 제2 개선된 위너 이득 팩터일 수 있다.
예를 들어, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이다. 상기 스테레오 오디오 신호의 현재 프레임이 획득된 다음에, 상기 방법은: 상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하는 단계; 상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하는 단계; 및, 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하는 단계를 더 포함한다.
는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며, 는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
다른 예로, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이다. 상기 스테레오 오디오 신호의 현재 프레임이 획득된 다음에, 상기 방법은: 제1 초기 위너 이득 팩터 및 제2 초기 위너 이득 팩터를 획득하는 단계; 상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하는 단계; 및 상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하는 단계를 더 포함한다.
는 상기 진폭 가중 파라미터이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
제3 측면에 따르면, 본 출원은 스테레오 오디오 신호 지연 추정 장치를 제공한다. 상기 장치는 오디오 코딩 장치의 칩 또는 시스템 온 칩(system on chip)일 수 있거나, 오디오 코딩 장치에 있으면서 또한 제1 측면 또는 제1 측면의 가능한 구현 중 어느 하나에 따른 방법을 구현하도록 구성되는 기능 모듈일 수 있다. 예를 들어, 상기 스테레오 오디오 신호 지연 추정 장치는, 스테레오 오디오 신호의 현재 프레임을 획득하도록 - 상기 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 - 구성된 제1 획득 모듈; 및 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형이면, 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하거나, 또는 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형이면, 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하도록 구성된 제1 인터 채널 시간 차이 추정 모듈을 포함한다. 상기 제1 알고리즘은 제1 가중 함수에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하고, 상기 제2 알고리즘은 제2 가중 함수에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하며, 상기 제1 가중 함수의 구성 팩터는 상기 제2 가중 함수의 구성 팩터와 상이하다.
일부 가능한 구현에서, 상기 장치는, 상기 제1 획득 모듈이 상기 현재 프레임을 획득한 후 상기 현재 프레임의 노이즈 코히런스 값을 획득하고; 그리고 상기 노이즈 코히런스 값이 미리 설정된 임계값보다 크거나 같으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 관련 노이즈 신호 유형인 것으로 결정하거나, 또는 상기 노이즈 코히런스 값이 미리 설정된 임계값보다 작으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형인 것으로 결정하도록 구성된 노이즈 코히런스 값 계산 모듈을 더 포함한다.
일부 가능한 구현에서, 상기 장치는, 상기 현재 프레임에 대해 음성 종료점 검출을 수행하도록 구성된 음성 종료점 검출 모듈을 더 포함하다. 상기 노이즈 코히런스 값 계산 모듈은 구체적으로, 검출 결과가 상기 현재 프레임의 신호 유형이 노이즈 신호 유형인 것으로 지시하면, 상기 현재 프레임의 노이즈 코히런스 값을 계산하거나, 또는 검출 결과가 상기 현재 프레임의 신호 유형이 음성 신호 유형인 것으로 지시하면, 상기 스테레오 오디오 신호의 현재 프레임의 이전 프레임의 노이즈 코히런스 값을 상기 현재 프레임의 노이즈 코히런스 값으로 결정하도록 구성된다.
본 출원에서, 음성 종료점 검출 모듈은 시간 도메인, 주파수 도메인, 또는 시간 도메인과 주파수 도메인의 조합에서 음성 종료점 검출 값을 계산할 수 있다. 이것은 여기서 특별히 제한되지 않는다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 상기 제1 인터 채널 시간 차이 추정 모듈은, 상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하며; 상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하고; 그리고 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성된다. 상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다. 상기 제1 인터 채널 시간 차이 추정 모듈은, 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고; 상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며; 그리고 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성된다. 상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
는 상기 진폭 가중 파라미터이며, 이고, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 제1 채널 주파수 도메인 신호이며, 는 상기 제2 채널 주파수 도메인 신호이고, 는 의 켤레 함수이며, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이고, 이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
는 상기 진폭 가중 파라미터이고, 이고, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 제1 채널 주파수 도메인 신호이며, 는 상기 제2 채널 주파수 도메인 신호이고, 는 의 켤레 함수이며, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이고, 이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
일부 가능한 구현에서, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이다. 상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로, 상기 제1 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하며, 상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 그리고 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하도록 구성된다.
는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며, 는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
일부 가능한 구현에서, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이다. 상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로, 상기 제1 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하며; 그리고 상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하도록 구성된다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로, 상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하며; 그리고 상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성된다. 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다. 상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로, 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고; 상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며; 그리고 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성된다. 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
는 상기 진폭 가중 파라미터이고, 이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
제4 측면에 따르면, 본 출원은 스테레오 오디오 신호 지연 추정 장치를 제공한다. 상기 장치는 오디오 코딩 장치의 칩 또는 시스템 온 칩일 수 있거나, 오디오 코딩 장치에 있으면서 또한 제2 측면 또는 제2 측면의 가능한 구현 중 어느 하나에 따른 방법을 구현하도록 구성되는 기능 모듈일 수 있다. 예를 들어, 상기 스테레오 오디오 신호 지연 추정 장치는, 스테레오 오디오 신호의 현재 프레임을 획득하도록 - 상기 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 - 구성된 제2 획득 모듈; 및 상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고, 미리 설정된 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며, 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 제1 채널 주파수 도메인 신호와 제2 채널 주파수 도메인 신호 사이의 인터 채널 시간 차이의 추정값을 획득하도록 구성된 제2 인터 채널 시간 차이 추정 모듈을 포함한다. 상기 미리 설정된 가중 함수는 제1 가중 함수 또는 제2 가중 함수이다. 상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다. 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 상기 제2 인터 채널 시간 차이 추정 모듈은, 상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 그리고 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하도록 구성된다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다.
는 상기 진폭 가중 파라미터이며, 이고, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 제1 채널 주파수 도메인 신호이며, 는 상기 제2 채널 주파수 도메인 신호이고, 는 의 켤레 함수이며, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이고, 이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
는 상기 진폭 가중 파라미터이고, 이고, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 제1 채널 주파수 도메인 신호이며, 는 상기 제2 채널 주파수 도메인 신호이고, 는 의 켤레 함수이며, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이고, 이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
일부 가능한 구현에서, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이다. 상기 제2 인터 채널 시간 차이 추정 모듈은 구체적으로, 상기 제2 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하며, 상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 그리고 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하도록 구성된다.
는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며, 는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
일부 가능한 구현에서, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이다. 상기 제2 인터 채널 시간 차이 추정 모듈은 구체적으로, 상기 제2 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 초기 위너 이득 팩터 및 상기 제2 초기 위너 이득 팩터를 획득하고; 상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하며; 그리고 상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하도록 구성된다.
이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
제5 측면에 따르면, 본 출원은 서로 결합된 비휘발성 메모리 및 프로세서를 포함하는 오디오 코딩 장치를 제공한다. 상기 프로세서는 상기 메모리에 저장된 프로그램 코드를 호출하여, 제1 측면, 제2 측면, 및 제1 측면과 제2 측면의 가능한 구현 중 어느 하나에 따른 스테레오 오디오 신호 지연 추정 방법을 수행한다.
제6 측면에 따르면, 본 출원은 컴퓨터가 판독 가능한 저장 매체를 제공한다. 상기 컴퓨터 판독 가능한 저장 매체는 명령어를 저장하고, 상기 명령어가 컴퓨터에서 실행될 때, 제1 측면, 제2 측면, 및 제1 측면과 제2 측면의 가능한 구현 중 어느 하나에 따른 스테레오 오디오 신호 지연 추정 방법이 수행된다.
제7 측면에 따르면, 본 출원은 인코딩된 비트스트림을 포함하는 컴퓨터가 판독 가능한 저장 매체를 제공한다. 상기 인코딩된 비트스트림은 제1 측면, 제2 측면, 및 제1 측면과 제2 측면의 가능한 구현 중 어느 하나에서의 스테레오 오디오 신호 지연 추정 방법에 따라 획득된, 스테레오 오디오 신호 사이의 인터 채널 시간 차이를 포함한다.
제8 측면에 따르면, 본 출원은 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품을 제공한다. 상기 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때, 상기 컴퓨터는 제1 측면, 제2 측면, 및 제1 측면과 제2 측면의 가능한 구현 중 어느 하나에 따른 스테레오 오디오 신호 지연 추정 방법을 구현하도록 인에이블된다.
본 출원의 제4 측면 내지 제10 측면의 기술 솔루션은 본 출원의 제1 측면 내지 제2 측면의 기술 솔루션과 일치함을 이해해야 한다. 이러한 측면과 그에 상응하는 실행 가능한 구현에 의해 달성되는 유익한 효과는 유사하다. 자세한 내용은 다시 설명하지 않는다.
다음은 본 출원의 배경이나 실시예를 설명하기 위해 필요한 첨부도면을 설명한다.
도 1은 본 출원의 실시예에 따른 주파수 도메인에서의 파라메트릭 스테레오 인코딩 및 디코딩 방법의 개략적인 흐름도이다.
도 2는 본 출원의 실시예에 따른 일반화된 상호 상관 알고리즘의 개략적인 흐름도이다.
도 3은 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 1이다.
도 4는 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 2이다.
도 5는 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 3이다.
도 6은 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 장치의 구조를 도시한 개략도이다.
도 7은 본 출원의 실시예에 따른 오디오 코딩 장치의 구조를 도시하는 개략도이다.
도 1은 본 출원의 실시예에 따른 주파수 도메인에서의 파라메트릭 스테레오 인코딩 및 디코딩 방법의 개략적인 흐름도이다.
도 2는 본 출원의 실시예에 따른 일반화된 상호 상관 알고리즘의 개략적인 흐름도이다.
도 3은 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 1이다.
도 4는 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 2이다.
도 5는 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 3이다.
도 6은 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 장치의 구조를 도시한 개략도이다.
도 7은 본 출원의 실시예에 따른 오디오 코딩 장치의 구조를 도시하는 개략도이다.
다음은 본 출원의 실시예에서 첨부된 도면을 참조하여 본 출원의 실시예를 설명한다. 다음의 설명에서, 본 출원의 일부를 형성하고 예시적인 방식으로 본 출원의 실시예의 특정 측면을 도시하거나 본 출원 실시예의 특정 측면이 사용될 수 있는 첨부 도면을 참조한다. 본 출원의 실시예는 다른 측면에서 사용될 수 있고 첨부된 도면에 도시되지 않은 구조적 또는 논리적 변경을 포함할 수 있음을 이해해야 한다. 예를 들어, 기술된 방법에 대한 개시는 방법을 수행하기 위한 대응하는 디바이스 또는 시스템에도 적용될 수 있으며, 그 역도 마찬가지라는 것을 이해해야 한다. 예를 들어, 하나 이상의 특정 방법 단계가 기술되면, 대응하는 디바이스는 하나 이상의 유닛이 첨부된 도면에 명시적으로 기재되거나 예시되지 않더라도, 기술된 하나 이상의 방법 단계를 수행하기 위한 기능 유닛과 같은 하나 이상의 유닛을 (예를 들어, 하나의 유닛이 하나 이상의 단계를 수행하거나, 또는 복수의 유닛 각각이 복수의 단계 중 하나 이상을 수행함) 포함할 수 있다. 또한, 예를 들어 특정 장치가 기능 유닛과 같이 하나 이상의 유닛에 기반하여 기술되면, 대응하는 방법은 하나 이상의 단계가 첨부된 도면에 명시적으로 설명되거나 예시되지 않더라도, 하나 이상의 유닛의 기능을 구현하기 위한 하나의 단계(예를 들어, 하나 이상의 유닛의 기능을 구현하기 위한 하나의 단계 또는 각각이 복수의 유닛 중 하나 이상의 유닛의 기능을 구현하기 위한 복수의 단계)를 포함할 수 있다. 또한, 본 명세서에 기재된 다양한 실시예의 특징 및/또는 측면은 달리 명시되지 않는 한 서로 조합될 수 있음이 이해되어야 한다.
보이스 및 오디오 통신 시스템에서, 단일 채널 오디오는 점점 더 사람들의 요구를 충족할 수 없다. 한편, 스테레오 오디오는 각 음원의 위치 정보를 운반한다. 이를 통해 오디오의 선명도와 명료도가 향상되고 오디오의 현실감이 향상된다. 따라서, 스테레오 오디오는 사람들 사이에서 점점 인기를 얻고 있다.
보이스 및 오디오 통신 시스템에서, 오디오 인코딩 및 디코딩 기술은 매우 중요한 기술이다. 이 기술은 청각 모델에 기반하여, 최소한의 에너지를 사용하여 왜곡을 감지하고, 가능한 한 최저 코딩율로 오디오 신호를 표현하여 오디오 신호 전송 및 저장을 용이하게 한다. 고품질 오디오에 대한 요구를 충족하기 위해, 일련의 스테레오 인코딩 및 디코딩 기술이 개발되었다.
가장 일반적으로 사용되는 스테레오 인코딩 및 디코딩 기술은 파라메트릭 스테레오 인코딩 및 디코딩 기술이다. 이 기술의 이론적 기반은 공간 청각 원리(spatial hearing principle)이다. 구체적으로, 오디오 인코딩 프로세스에서 원시 스테레오 오디오 신호는 단일 채널 신호 및 표현을 위한 일부 공간 파라미터로 변환되거나, 원시 스테레오 오디오 신호는 단일 채널 신호, 잔차 신호 및 표현을 위한 일부 공간 파라미터로 변환된다. 오디오 디코딩 프로세스에서, 디코딩된 단일 채널 신호와 공간 파라미터를 사용하여 스테레오 오디오 신호를 재구성하거나, 디코딩된 단일 채널 신호, 잔차 신호, 및 공간 파라미터를 사용하여 스테레오 오디오 신호를 재구성한다.
도 1은 본 출원의 실시예에 따른 주파수 도메인에서의 파라메트릭 스테레오 인코딩 및 디코딩 방법의 개략적인 흐름도이다. 도 1에 도시된 바와 같이, 프로세스는 다음 단계를 포함할 수 있다.
S101: 인코더 측은 스테레오 오디오 신호의 현재 프레임의 제1 채널 오디오 신호 및 제2 채널 오디오 신호에 대해 시간-주파수 변환(예를 들어, 이산 푸리에 변환(discrete Fourier transform, DFT))을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득한다.
먼저, 인코더 측으로 입력되는 스테레오 오디오 신호는 2개의 오디오 신호, 즉 제1 채널 오디오 신호와 제2 채널 오디오 신호(예를 들어, 좌측 채널 오디오 신호와 우측 채널 오디오 신호)를 포함할 수 있다는 점에 유의해야 한다. 스테레오 오디오 신호에 포함된 2개의 오디오 신호는 다중 채널 오디오 신호에서의 2개의 오디오 신호일 수도 있고, 다중 채널 오디오 신호에서 복수의 오디오 신호를 조합하여 생성된 2개의 오디오 신호일 수도 있다. 이것은 여기서 특별히 제한되지 않는다.
여기서, 인코더 측은 스테레오 오디오 신호를 인코딩할 때, 프레이밍(framing) 처리를 수행하여 복수의 오디오 프레임을 획득하고, 오디오 프레임을 프레임별로 처리한다.
S102: 인코더 측은 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호에 대한 공간 파라미터, 다운믹스된 신호 및 잔차 신호를 추출한다.
공간 파라미터는 인터 채널 코히런스(inter-channel coherence, IC), 인터 채널 레벨 차이(inter-channel level difference, ILD), 인터 채널 시간 차이(inter-channel time difference, ITD), 인터 채널 위상 차이(inter-channel phase difference, IPD) 등을 포함할 수 있다.
S103: 인코더 측은 공간 파라미터, 다운믹스된 신호 및 잔차 신호를 개별적으로 인코딩한다.
S104: 인코더 측은 인코딩된 공간 파라미터, 다운믹스된 신호 및 잔차 신호에 기반하여 주파수 도메인 파라메트릭 스테레오 비트스트림을 생성한다.
S105: 인코더 측은 주파수 도메인 파라메트릭 스테레오 비트스트림을 디코더 측으로 전송한다.
S106: 디코더 측은 수신된 주파수 도메인 파라메트릭 스테레오 비트스트림을 디코딩하여 대응하는 공간 파라미터, 다운믹스된 신호 및 잔차 신호를 획득한다.
S107: 디코더 측은 다운믹스된 신호 및 잔차 신호에 대해 주파수 도메인 업믹싱(upmixing) 처리를 수행하여 업믹스된 신호를 획득한다.
S108: 디코더 측은 업믹스된 신호와 공간 파라미터를 합성하여 주파수 도메인 오디오 신호를 획득한다.
S109: 디코더 측은 공간 파라미터에 기반하여 주파수 도메인 오디오 신호에 대해 역 시간-주파수 변환(예를 들어, 역 이산 푸리에 변환(inverse discrete Fourier transform, IDFT))을 수행하여, 현재 프레임의 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 획득한다.
또한, 인코더 측은 스테레오 오디오 신호에서 각 오디오 프레임에 대해 제1 단계 내지 제5 단계를 수행하고, 디코더 측은 각 프레임에 대해 제6 단계 내지 제9 단계를 수행한다. 이러한 방식으로, 디코더 측은 복수의 오디오 프레임의 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 획득할 수 있고, 또한 스테레오 오디오 신호의 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 획득할 수 있다.
상술한 파라메트릭 스테레오 인코딩 및 디코딩 프로세스에서, 공간 파라미터의 ILD와 ITD는 음원의 위치 정보를 담고 있다. 따라서, ILD와 ITD의 정확한 추정은 스테레오 사운드 이미지와 음장의 재구성에 매우 중요하다.
파라메트릭 스테레오 인코딩 기술에서 가장 일반적으로 사용되는 ITD 추정 방법은 일반화된 상호 상관 방법일 수 있으며, 이는 낮은 복잡도, 좋은 실시간 성능, 쉬운 구현과 같은 장점을 가지고 있으며, 스테레오 오디오 신호의 다른 사전 정보에 의존하지 않는다. 도 2는 본 출원의 실시예에 따른 일반화된 상호 상관 알고리즘의 개략적인 흐름도이다. 도 2에 도시된 바와 같이, 이 방법은 다음 단계를 포함할 수 있다.
S201: 인코더 측은 스테레오 오디오 신호에 대해 DFT를 수행하여 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득한다.
S202: 인코더 측은 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호에 기반하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호의 주파수 도메인 교차 전력 스펙트럼 및 주파수 도메인 가중 함수를 계산한다.
S203: 인코더 측은 주파수 도메인 가중 함수에 기반하여 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여한다.
S204: 인코더 측은 가중된 주파수 도메인 상호 전력 스펙트럼에 대해 IDFT를 수행하여 주파수 도메인 교차 상관 함수를 획득한다.
S205: 인코더 측은 주파수 도메인 교차 상관 함수에 대해 피크 검출을 수행한다.
S206: 인코더 측은 교차 상관 함수의 피크 값에 기반하여 추정 ITD 값(estimated ITD value)을 결정한다.
일반화 교차 상관 알고리즘에서 제2 단계의 주파수 도메인 가중 함수는 다음과 같은 함수를 사용할 수 있다.
유형 1: 앞선 제2 단계의 주파수 도메인 가중 함수는 수식 (1):
로 나타낼 수 있다.
는 PHAT 가중 함수이고, 는 제1 채널 오디오 신호 의 주파수 도메인 오디오 신호이며, 즉, 제1 채널 주파수 도메인 신호이고, 는 제2 채널 오디오 신호 의 주파수 도메인 오디오 신호이며, 즉, 제2 채널 주파수 도메인 신호이고, 는 제1 채널과 제2 채널의 교차 전력 스펙트럼이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...,이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 현재 프레임의 주파수 빈의 총 수량이다.
이에 상응하여, 가중된 일반화 교차 상관 함수는 수식 (2):
로 나타낼 수 있다.
실제 애플리케이션에서, 수식 (1)에 나타낸 주파수 도메인 가중 함수와 수식 (2)에 나타낸 가중된 일반화 교차 상관 함수에 기반하여 ITD 추정을 수행하는 것을 일반화 교차 상관 위상 변환(generalized cross-correlation phase transform, GCC-PHAT)이라고 할 수 있다. 스테레오 오디오 신호의 에너지는 서로 다른 주파수 빈 간에 크게 다르며, 에너지가 낮은 주파수 빈은 노이즈의 영향을 많이 받고, 에너지가 높은 주파수 빈은 노이즈의 영향을 약간 받는다. GCC-PHAT 알고리즘에서, PHAT 가중 함수에 기반하여 상호 전력 스펙트럼에 가중치를 부여한 후, 일반화 교차 상관 함수에서 주파수 빈의 가중된 값의 가중치는 동일하다. 결과적으로, GCC-PHAT 알고리즘은 노이즈 신호에 매우 민감하여, 신호 대 노이즈비가 중간 이상인 경우에도 GCC-PHAT 알고리즘의 성능도 크게 저하된다. 또한, 공간에 하나 이상의 노이즈 소스가 있을 때, 즉 경쟁 음원이 있을 때, 스테레오 오디오 신호에 코히런트 노이즈 신호가 존재하고, 현재 프레임의 타깃 신호(예를 들어, 음성 신호)에 대응하는 피크 값이 약해진다. 따라서, 일부 경우, 예를 들어, 코히런트 노이즈 신호의 에너지가 타깃 신호의 에너지보다 크거나 노이즈 소스가 마이크에 가까운 경우에, 코히런트 노이즈 신호의 피크 값이 타깃 신호에 대응하는 에너지 피크 값보다 크다. 이 경우, 스테레오 오디오 신호의 추정 ITD 값은 노이즈 신호의 추정 ITD 값이다. 즉, 코히런트 노이즈가 있으면, 스테레오 오디오 신호의 ITD 추정 정밀도가 크게 감쇠되며, 스테레오 오디오 신호의 추정 ITD 값은 타깃 신호의 ITD 값과 노이즈 신호의 ITD 값 사이에서 계속해서 전환되며, 이는 인코딩된 스테레오 오디오 신호의 사운드 이미지 안정성에 영향을 미친다.
유형 2: 앞선 제2 단계의 주파수 도메인 가중 함수는 수식 (3):
으로 나타낼 수 있다.
이에 상응하여, 가중된 일반화 교차 상관 함수는 추가로 수식 (4):
로 나타낼 수 있다.
실제 애플리케이션에서, 수식 (3)에 나타낸 주파수 도메인 가중 함수와 수식 (4)에 나타낸 가중된 일반화 교차 상관 함수에 기반하여 ITD 추정을 수행하는 것을 GCC-PHAT-β 알고리즘이라고 할 수 있다. 상이한 노이즈 신호 유형에 대해서는 β의 최적 값이 상이하고 최적 값도 크게 상이하기 때문이다. 따라서, 상이한 노이즈 신호 유형에 대한 GCC-PHAT-β 알고리즘의 성능이 상이하다. 또한, 신호대 노이즈비가 중간 이상인 경우에, GCC-PHAT-β 알고리즘의 성능이 어느 정도 향상되더라도, 파라메트릭 스테레오 인코딩 및 디코딩 기술에서 요구하는 ITD 추정 정밀도를 충족시키지 못한다. 또한, 코히런트 노이즈가 있으면, GCC-PHAT-β 알고리즘의 성능도 심하게 저하된다.
유형 3: 앞선 제2 단계의 주파수 도메인 가중 함수는 수식 (5):
로 나타낼 수 있다.
이에 상응하여, 가중된 일반화 교차 상관 함수는 추가로 수식 (6):
으로 나타낼 수 있다.
실제 애플리케이션에서, 수식 (5)에 나타낸 주파수 도메인 가중 함수와 수식 (6)에 나타낸 가중된 일반화 교차 상관 함수에 기반하여 ITD 추정을 수행하는 것을 GCC-PHAT-Coh 알고리즘이라고 할 수 있다. 일부 조건에서, 스테레오 오디오 신호의 코히런트 노이즈에서 대부분의 주파수 빈의 제곱 코히런스 값은 현재 프레임에서 타깃 신호의 제곱 코히런스 값보다 크다. 결과적으로, GCC-PHAT-Coh 알고리즘의 성능이 심하게 저하된다. 또한, 스테레오 오디오 신호의 에너지는 서로 다른 주파수 빈 사이에서 크게 달라지며, GCC-PHAT-Coh 알고리즘은 서로 다른 주파수 빈 사이의 에너지 차이가 알고리즘 성능에 미치는 영향을 고려하지 않는다. 결과적으로, 일부 조건에서 ITD 추정 성능이 좋지 않다.
노이즈는 일반화된 상호 상관 알고리즘의 성능에 심각한 영향을 미친다는 것을 위에서 알 수 있다. 결과적으로, ITD 추정 정밀도가 심각하게 저하되고, 파라메트릭 인코딩 및 디코딩 기술에서 디코딩된 스테레오 오디오 신호에서의 사운드 이미지 부정확성, 불안정성, 빈약한 공간감 및 명백한 인헤드 효과와 같은 문제가 발생하여, 인코딩된 스테레오 오디오 신호의 음질에 심각한 영향을 미친다.
전술한 문제를 해결하기 위해, 본 출원의 실시예는 스테레오 오디오 신호 지연 추정 방법을 제공한다. 이 방법은 오디오 코딩 장치에 적용될 수 있다. 오디오 코딩 장치는 스테레오 및 다중 채널 오디오 및 비디오 통신 시스템에서 오디오 코딩 부분에 적용될 수 있고, 가상 현실(virtual reality, VR) 애플리케이션 프로그램에서 오디오 코딩 부분에 적용될 수 있다.
실제 애플리케이션에서, 오디오 코딩 장치는 오디오 및 비디오 통신 시스템의 단말에 배치될 수 있다. 예를 들어, 단말은 보이스 또는 데이터 연결(connectivity)을 사용자에게 제공하는 디바이스일 수 있다. 예를 들어, 단말은 다르게는, 사용자 장비(user equipment, UE), 이동국(mobile station), 가입자 유닛(subscriber unit), 스테이션(Station) 또는 단말 장비(terminal equipment, TE)로 지칭될 수 있다. 단말 디바이스는 셀룰러 폰(cellular phone), 개인 정보 단말기(personal digital assistant, PDA), 무선 모뎀(modem), 핸드헬드(handheld) 디바이스, 랩톱 컴퓨터(laptop computer), 무선 전화(cordless phone), 무선 로컬 루프(wireless local loop, WLL) 스테이션, 패드(pad) 등일 수 있다. 무선 통신 기술의 발달로, 무선 통신 시스템에 액세스하거나, 무선 통신 시스템의 네트워크 측과 통신하거나, 무선 통신 시스템을 사용하여 다른 디바이스와 통신할 수 있는 임의의 디바이스는, 지능형 교통의 단말 및 차량, 스마트 가정의 가정용 디바이스, 스마트 그리드의 전기 검침 기기(instrument), 전압 모니터링 기기, 환경 모니터링 기기, 지능형 보안 네트워크의 비디오 감시 기기 또는 금전 등록기와 같은 본 출원의 실시예에서의 단말 디바이스일 수 있다. 단말 디바이스는 고정식 및 고정 또는 이동형일 수 있다.
다르게는, 오디오 인코더는 추가로 VR 기능을 갖는 디바이스에 배치될 수 있다. 예를 들어, 디바이스는 스마트폰, 태블릿 컴퓨터, 스마트 텔레비전, 노트북 컴퓨터, 개인용 컴퓨터, 웨어러블 디바이스(VR 안경, VR 헬멧, VR 모자 등), VR 애플리케이션을 지원하는 것 등일 수 있으며, 또는 VR 기능을 갖는 디바이스와 통신하는 클라우드 서버에 배치될 수 있다. 물론, 오디오 코딩 장치는 스테레오 오디오 신호 저장 및/또는 전송 기능을 갖는 다른 디바이스에 배치될 수도 있다. 이는 본 출원의 이 실시예에서 특별히 제한되지 않는다.
본 출원의 이 실시예에서, 스테레오 오디오 신호는 원시 스테레오 오디오 신호(좌측 채널 오디오 신호 및 우측 채널 오디오 신호를 포함)일 수 있거나, 다중 채널에서 2개의 오디오 신호에 의해 형성된 스테레오 오디오 신호일 수 있거나, 다중 채널 오디오 신호에서 복수의 오디오 신호를 조합하여 생성된 2개의 오디오 신호에 의해 형성된 스테레오 신호일 수 있다. 물론, 스테레오 오디오 신호는 다르게는 다른 형태일 수 있다. 이는 본 출원의 이 실시예에서 특별히 제한되지 않는다. 이하의 실시예에서는 스테레오 오디오 신호가 원시 스테레오 오디오 신호인 예를 들어 설명한다. 스테레오 오디오 신호는 시간 도메인에서 좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호를 포함할 수 있고, 스테레오 오디오 신호는 주파수 도메인에서 좌측 채널 주파수 도메인 신호와 우측 채널 주파수 도메인 신호를 포함할 수 있다. 이하의 실시예에서, 제1 채널 오디오 신호는 (시간 도메인 또는 주파수 도메인에서) 좌측 채널 오디오 신호일 수 있고, 제1 채널 시간 도메인 신호는 좌측 채널 시간 도메인 신호일 수 있으며, 제1 채널 주파수 도메인 신호는 좌측 채널 주파수 도메인 신호일 수 있다. 이와 유사하게, 제2 채널 오디오 신호는 (시간 도메인 또는 주파수 도메인에서) 우측 채널 오디오 신호일 수 있고, 제2 채널 시간 도메인 신호는 우측 채널 시간 도메인 신호일 수 있으며, 제2 채널 주파수 도메인 신호는 우측 채널 주파수 도메인 신호일 수 있다.
선택적으로, 오디오 코딩 장치는 구체적으로 스테레오 코딩 장치일 수 있다. 상기 장치는 독립적인 스테레오 코더를 구성할 수 있으며; 또는 다중 채널 오디오 신호에서 복수의 신호를 조합하여 생성된 2개의 오디오 신호에 의해 형성된 스테레오 오디오 신호를 인코딩하기 위한 다중 채널 코더의 코어 코딩 부분일 수 있다.
다음은 본 출원의 실시예에서 제공되는 스테레오 오디오 신호 지연 추정 방법을 설명한다.
먼저, 본 출원의 이 실시예에서 제공되는 주파수 도메인 가중 함수가 설명된다.
본 출원의 이 실시예에서, 일반화된 상호 상관 알고리즘의 성능을 개선하기 위해, 전술한 몇몇에서 주파수 도메인 가중 함수(예를 들어, 전술한 수식 (1), 수식 (3) 및 수식 (5)에 나타낸 바와 같음) 알고리즘이 개선될 수 있고, 개선된 주파수 도메인 가중 기능은 다음과 같은 여러 기능일 수 있지만 이에 제한되지는 않는다.
제1 개선된 주파수 도메인 가중 함수(즉, 제1 가중 함수)의 구성 팩터는 좌측 채널 위너(Wiener) 이득 팩터(즉, 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터), 우측 채널 위너 이득 팩터(즉, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터)와 현재 프레임의 제곱 코히런스 값을 포함할 수 있다.
여기서, 구성 팩터는 타깃 함수를 구성하는 데 사용되는 팩터 또는 팩터들을 의미한다. 타깃 함수가 개선된 주파수 도메인 가중 함수일 때, 구성 팩터는 개선된 주파수 도메인 가중 함수를 구성하는 데 사용되는 하나 이상의 함수일 수 있다.
실제 애플리케이션에서, 제1 개선된 주파수 도메인 가중 함수는 수식 (7):
로 나타낼 수 있다.
는 제1 개선된 주파수 도메인 가중 함수이고, 는 진폭 가중 파라미터이며, 이고, 예를 들어, = 0.6, 0.7, 또는 0.8이며, 는 좌측 채널 위너 이득 팩터이고, 는 우측 채널 위너 이득 팩터이며, 는 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이고, 이다.
일부 가능한 실시예에서, 제1 개선된 주파수 도메인 가중 함수는 추가로 수식 (8):
로 나타낼 수 있다.
이에 상응하여, 제1 개선된 주파수 도메인 가중 함수를 사용하는 것에 기반하여 가중된 일반화 교차 상관 함수는 또한 수식 (9):
로 나타낼 수 있다.
일부 가능한 구현에서, 좌측 채널 위너 이득 팩터는 제1 초기 위너 이득 팩터 및/또는 제1 개선된 위너 이득 팩터를 포함할 수 있고, 우측 채널 위너 이득 팩터는 제2 초기 위너 이득 팩터 및/또는 제2 개선된 위너 이득 팩터를 포함할 수 있다.
구체적으로, 실제 애플리케이션에서, 에 대해 노이즈 전력 스펙트럼 추정을 수행하여 제1 초기 위너 이득 팩터를 결정할 수 있다. 구체적으로, 좌측 채널 위너 이득 팩터가 제1 초기 위너 이득 팩터를 포함할 때, 상기 방법은, 오디오 코딩 장치가 현재 프레임의 좌측 채널 주파수 도메인 신호 에 기반하여 현재 프레임의 좌측 채널 노이즈 전력 스펙트럼의 추정값을 먼저 획득하고, 좌측 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 제1 초기 위너 이득 팩터를 결정하는 것을 포함할 수 있다. 이와 유사하게, 제2 초기 위너 이득 팩터도 에 대해 노이즈 전력 스펙트럼 추정을 수행하는 것에 의해 결정될 수 있다. 구체적으로, 우측 채널 위너 이득 팩터가 제2 초기 위너 이득 팩터를 포함할 때, 오디오 코딩 장치는 현재 프레임의 우측 채널 주파수 도메인 신호 에 기반하여 현재 프레임의 우측 채널 노이즈 전력 스펙트럼의 추정값을 먼저 획득할 수 있고, 우측 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 제2 초기 위너 이득 팩터를 결정할 수 있다.
상술한 현재 프레임의 및 에 대해 노이즈 전력 스펙트럼 추정을 수행하는 프로세스에서, 최소 통계 알고리즘 또는 최소 추적 알고리즘과 같은 알고리즘을 계산에 사용할 수 있다. 물론, 및 의 노이즈 전력 스펙트럼의 추정값을 계산하기 위해 다른 알고리즘이 사용될 수 있다. 이것은 본 출원의 이 실시예에서는 특별히 제한되지 않는다.
으로 나타낼 수 있다.
로 나타낼 수 있다.
일부 가능한 구현에서, 제1 개선된 주파수 도메인 가중 함수를 구성하기 위해 제1 초기 위너 이득 팩터 및 제2 초기 위너 이득 팩터를 좌측 채널 위너 이득 팩터 및 우측 채널 위너 이득 팩터로 직접 사용하는 것 외에도, 대응하는 이진 마스킹 함수는 다르게는 제1 초기 위너 이득 팩터 및 제2 초기 위너 이득 팩터에 기반하여 구성되어, 제1 개선된 위너 이득 팩터 및 제2 개선된 위너 이득 팩터를 획득할 수 있다. 제1 개선된 위너 이득 팩터와 제2 개선된 위너 이득 팩터를 사용하여 구성한 제1 개선된 주파수 도메인 가중 함수를 사용하여 노이즈의 영향을 적게 받는 주파수 빈을 가려내어, 스테레오 오디오 신호의 ITD 추정 정밀도를 향상시킬 수 있다.
이 경우, 좌측 채널 위너 이득 팩터가 제1 개선된 위너 이득 팩터를 포함할 때, 상기 방법은: 오디오 코딩 장치는 제1 초기 위너 이득 팩터를 획득한 후, 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여, 제1 개선된 위너 이득 팩터를 획득하는 것을 더 포함할 수 있다. 이와 유사하게, 오디오 코딩 장치는 제2 초기 위너 이득 팩터를 획득한 후, 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 제2 개선된 위너 이득 팩터를 획득한다.
로 나타낼 수 있다.
으로 나타낼 수 있다.
따라서, 좌측 채널 위너 이득 팩터 는 및 을 포함할 수 있고, 우측 채널 위너 이득 팩터 는 및 를 포함할 수 있음을 알 수 있다. 이 경우, 수식 (7) 또는 수식 (8)과 같이 제1 개선된 주파수 도메인 가중 함수를 구성하는 프로세스에서, 및 를 수식 (7) 또는 수식 (8)로 대체하거나, 및 를 수식 (7) 또는 수식 (8)로 대체할 수 있다.
로 나타낼 수 있다.
로 나타낼 수 있다.
본 출원의 이 실시예에서, 제1 개선된 주파수 도메인 가중 함수를 사용하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하면, 위너 이득 팩터 가중치를 적용한 후, 스테레오 신호의 주파수 도메인 교차 전력 스펙트럼에서 코히런트 노이즈 컴포넌트의 가중치가 크게 감소되고 잔차 노이즈 컴포넌트의 상관 관계도 크게 감소된다. 대부분의 경우, 잔차 노이즈의 제곱 코히런스 값은 스테레오 오디오 신호에서 타깃 신호의 제곱 코히런스 값보다 훨씬 작다. 이러한 방식으로, 타깃 신호에 대응하는 상호 상관 피크 값이 더욱 두드러지고, 스테레오 오디오 신호의 ITD 추정 정밀도와 안정성이 크게 향상된다.
제2 개선된 주파수 도메인 가중 함수(즉, 제2 가중 함수)의 구성 팩터는 진폭 가중 파라미터 β 및 현재 프레임의 제곱 코히런스 값을 포함할 수 있다.
실제 애플리케이션에서, 제2 개선된 주파수 도메인 가중 함수는 수식 (16):
으로 나타낼 수 있다.
이에 상응하여, 제2 개선된 주파수 도메인 가중 함수를 사용하는 것에 기반하여 가중된 일반화 교차 상관 함수는 또한 수식 (17):
로 나타낼 수 있다.
본 출원의 이 실시예에서, 제2 개선된 주파수 도메인 가중 함수를 사용하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것은, 높은 에너지를 갖는 주파수 빈과 높은 상관을 갖는 주파수 빈이 큰 가중치를 갖고, 에너지가 낮은 주파수 빈 또는 상관이 낮은 주파수 빈은 작은 가중치를 가져서, 스테레오 오디오 신호의 ITD 추정 정확도가 향상되는 것을 보장할 수 있다.
다음으로, 본 출원의 실시예에서 제공되는 스테레오 오디오 신호 지연 추정 방법이 설명된다. 상기 방법에 따르면, 상술한 개선된 주파수 도메인 가중 함수에 기반하여 현재 프레임의 ITD 값을 추정한다.
도 3은 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 1이다. 도 3의 실선을 참조한다. 상기 방법은 다음 단계를 포함할 수 있다.
S301: 스테레오 오디오 신호의 현재 프레임을 획득한다.
현재 프레임은 좌측 채널 오디오 신호 및 우측 채널 오디오 신호를 포함한다.
오디오 코딩 장치는 입력 스테레오 오디오 신호를 획득한다. 스테레오 오디오 신호는 2개의 오디오 신호를 포함할 수 있으며, 2개의 오디오 신호는 시간 도메인 오디오 신호 또는 주파수 도메인 오디오 신호일 수 있다.
하나의 경우에, 스테레오 오디오 신호에서 2개의 오디오 신호는 시간 도메인 오디오 신호, 즉 좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호(즉, 제1 채널 시간 도메인 신호와 제2 채널 시간 도메인 신호)이다. 이 경우, 스테레오 오디오 신호는 마이크나 수신기와 같은 사운드 센서를 사용하여 입력될 수 있다. 도 3의 파선을 참조한다. S301 후에, 상기 방법은 다음을 더 포함할 수 있다: S302: 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행한다. 여기서, 오디오 코딩 장치는 S301을 통해 시간 도메인 오디오 신호에 대해 프레이밍 처리를 수행하여, 시간 도메인에서 현재 프레임을 획득한다. 이 경우, 현재 프레임은 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호를 포함할 수 있다. 그런 다음, 오디오 코딩 장치는 시간 도메인에서 현재 프레임에 대해 시간-주파수 변환을 수행하여 주파수 도메인에서 현재 프레임을 획득한다. 이 경우, 현재 프레임은 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호(즉, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호)를 포함할 수 있다.
다른 경우에, 스테레오 오디오 신호에서 2개의 오디오 신호는 주파수 도메인 오디오 신호, 즉 좌측 채널 주파수 도메인 신호와 우측 채널 주파수 도메인 신호(즉, 제1 채널 주파수 도메인 신호와 제2 채널 주파수 도메인 신호)이다. 이 경우, 스테레오 오디오 신호는 2개의 주파수 도메인 오디오 신호이다. 따라서, 오디오 코딩 장치는 S301을 통해 주파수 도메인에서 스테레오 오디오 신호(즉, 주파수 도메인 오디오 신호)에 대해 직접 프레이밍 처리를 수행하여 주파수 도메인에서 현재 프레임을 획득할 수 있다. 현재 프레임은 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호(즉, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호)를 포함할 수 있다.
이후의 실시예들의 설명에서, 스테레오 오디오 신호가 시간 도메인 오디오 신호이면, 오디오 코딩 장치는 스테레오 오디오 신호에 대해 시간-주파수 변환을 수행하여 대응하는 주파수 도메인 오디오 신호를 획득하고, 그런 다음 주파수 도메인에서 스테레오 오디오 신호를 처리할 수 있다는 점에 유의해야 한다. 스테레오 오디오 신호가 주파수 도메인 오디오 신호이면, 오디오 코딩 장치는 주파수 도메인에서 스테레오 오디오 신호를 직접 처리할 수 있다.
실제 애플리케이션에서, 프레이밍 처리를 수행한 후 획득한 현재 프레임의 좌측 채널 시간 도메인 신호를 로 표기하고(denote), 프레이밍 처리를 수행한 후 획득한 현재 프레임의 우측 채널 시간 도메인 신호를 로 표기할 수 있으며, n은 샘플링 포인트이다.
일부 가능한 구현에서, S301 이후에, 오디오 코딩 장치는 추가로, 현재 프레임을 전처리할 수 있으며, 예를 들어, 및 에 대해 고역 통과 필터링 처리를 수행하여, 전처리된 좌측 채널 시간 도메인 신호 및 전처리된 우측 채널 시간 도메인 신호를 획득하며, 전처리된 좌측 채널 시간 도메인 신호는 로 표기되고 전처리된 우측 채널 시간 도메인 신호는 로 표기된다. 선택적으로, 고역 통과 필터링 처리는 차단 주파수가 20Hz인 무한 임펄스 응답(infinite impulse response, IIR) 필터이거나 다른 유형의 필터일 수 있다. 이는 본 출원의 이 실시예에서 특별히 제한되지 않는다.
선택적으로, 오디오 코딩 장치는 추가로, 및 에 대해 시간-주파수 변환을 수행하여 및 를 획득할 수 있으며, 좌측 채널 주파수 도메인 신호는 로 표기될 수 있고 우측 채널 주파수 도메인 신호는 로 표기될 수 있다.
여기서, 오디오 코딩 장치는 DFT, 고속 푸리에 변환(fast Fourier transform, FFT) 또는 변형된 이산 코사인 변환(modified discrete cosine transform, MDCT)과 같은 시간-주파수 변환 알고리즘을 사용하여 시간 도메인 신호를 주파수 도메인 신호로 변환할 수 있다. 물론, 오디오 코딩 장치는 추가로, 다른 시간-주파수 변환 알고리즘을 사용할 수 있다. 이는 본 출원의 이 실시예에서 특별히 제한되지 않는다.
좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호에 대해 DFT를 사용하여 시간-주파수 변환을 수행한다고 가정한다. 구체적으로, 오디오 코딩 장치는 또는 에 대해 DFT를 수행하여 를 획득할 수 있다. 이와 유사하게, 오디오 코딩 장치는 또는 에 대해 DFT를 수행하여 를 획득할 수 있다.
또한, 스펙트럼 에일리어싱(aliasing)을 극복하기 위해 인접한 두 프레임의 DFT는 보통 겹침-가산 방식(overlap-add manner)으로 수행되며, DFT를 위한 입력 신호에 때때로 0이 패딩될 수 있다.
여기서, 현재 프레임의 주파수 도메인 교차 전력 스펙트럼은 수식 (18):
로 나타낼 수 있다.
S304: 미리 설정된 가중 함수에 기반하여 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여한다.
여기서, 미리 설정된 가중 함수는 전술한 개선된 주파수 도메인 가중 함수, 즉 앞선 실시예에서 제1 개선된 주파수 도메인 가중 함수 또는 제2 개선된 주파수 도메인 가중 함수 를 의미할 수 있다.
S304는 오디오 코딩 장치가 개선된 가중 함수에 주파수 도메인 전력 스펙트럼을 곱하는 것으로 이해될 수 있으며, 가중된 주파수 도메인 교차 전력 스펙트럼은 또는 로 표현될 수 있다.
S305: 가중된 주파수 도메인 교차 전력 스펙트럼에 대해 역 시간-주파수 변환을 수행하여 교차 상관 함수를 획득한다.
오디오 코딩 장치는 S302에서 사용된 시간-주파수 변환 알고리즘에 대응하는 시간-주파수 역 변환 알고리즘을 사용하여, 주파수 도메인 교차 전력 스펙트럼을 주파수 도메인에서 시간 도메인으로 변환하여 교차 상관 함수를 획득할 수 있다.
로 나타낼 수 있다.
으로 나타낼 수 있다.
S306: 교차 상관 함수에 대해 피크 검출을 수행한다.
S306을 통해 교차 상관 함수를 획득한 후, 오디오 코딩 장치는 미리 설정된 샘플링 레이트 및 사운드 센서(즉, 마이크, 수신기 등) 간의 최대 거리에 기반하여 ITD의 최대값 Δmax(ITD 추정을 위한 시간 범위로도 이해될 수 있음)를 결정할 수 있다. 예를 들어, Δmax는 5ms에 대응하는 샘플링 포인트의 수량으로 설정된다. 스테레오 오디오 신호의 샘플링 레이트가 32kHz이면, Δmax = 160이고, 즉 좌측 채널과 우측 채널의 최대 지연 포인트 수량은 160개의 샘플링 포인트이다. 그다음, 오디오 코딩 장치는 n ∈[-Δmax, Δmax]의 범위에서 의 최대 피크 값을 검색하고, 피크에 대응하는 인덱스 값을 현재 프레임의 후보 ITD 값으로 한다.
S307: 교차 상관 함수의 피크에 기반하여 현재 프레임의 추정 ITD 값을 계산한다.
오디오 코딩 장치는 교차 상관 함수의 피크 값에 기반하여 현재 프레임의 후보 ITD 값을 결정하고, 그다음, 현재 프레임의 후보 ITD 값, 이전 프레임의 ITD 값(즉, 이력 정보), 오디오 행오버 처리 파라미터, 이전 프레임과 다음 프레임 간의 상관과 같은 부가 정보에 기반하여 현재 프레임의 추정 ITD 값을 결정하여, 지연 추정의 이상 값(abnormal value)을 제거한다.
또한, 오디오 코딩 장치는 S307을 통해 추정 ITD 값을 결정한 후, 추정된 ITD 값을 코딩하여 스테레오 오디오 신호의 인코딩된 비트스트림에 기입할 수 있다.
본 출원의 이 실시예에서, 제1 개선된 주파수 도메인 가중 함수를 사용하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하면, 위너 이득 팩터 가중치를 적용한 후, 스테레오 신호의 주파수 도메인 교차 전력 스펙트럼에서 코히런트 노이즈 컴포넌트의 가중치가 크게 감소되고 잔차 노이즈 컴포넌트의 상관도 크게 감소된다. 대부분의 경우, 잔차 노이즈의 제곱 코히런스 값은 스테레오 오디오 신호에서 타깃 신호의 제곱 코히런스 값보다 훨씬 작다. 이러한 방식으로, 타깃 신호에 대응하는 상호 상관 피크 값이 더욱 두드러지고, 스테레오 오디오 신호의 ITD 추정 정밀도와 안정성이 크게 향상된다. 제2 개선된 주파수 도메인 가중 함수를 사용하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것은, 에너지가 높은 주파수 빈과 상관이 높은 주파수 빈이 큰 가중치를 갖고, 에너지가 낮은 주파수 빈 또는 상관이 낮은 주파수 빈은 낮은 가중치를 가져서, 스테레오 오디오 신호의 ITD 추정 정밀도를 향상시키는 것을 보장할 수 있다.
또한, 본 출원의 실시예에서 제공되는 또 다른 스테레오 오디오 신호 지연 추정 방법이 설명된다. 전술한 실시예에 기반하여, 상기 방법은 스테레오 오디오 신호에서 상이한 유형의 노이즈 신호에 대해 ITD 추정을 수행하기 위해 상이한 알고리즘을 사용한다.
도 4는 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 2이다. 도 4를 참조한다. 상기 방법은 다음 단계를 포함할 수 있다.
S401: 스테레오 오디오 신호의 현재 프레임을 획득한다.
여기서, S401의 구현 프로세스는 S301의 설명을 참조한다. 이것은 여기서 특별히 제한되지 않는다.
S402: 현재 프레임에 포함된 노이즈 신호의 신호 유형을 결정한다. 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형이면, S403을 수행한다. 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형이면, S404를 수행한다.
노이즈가 많은 환경에서, 서로 다른 노이즈 신호 유형은 일반화된 교차 상관 알고리즘에 서로 다른 영향을 미친다. 따라서, 일반화된 상호 상관 알고리즘의 성능을 최대한 활용하고 ITD 추정 정밀도를 향상시키기 위해, 오디오 코딩 장치는 현재 프레임에 포함된 노이즈 신호의 신호 유형을 결정하고, 복수의 주파수 도메인 가중 함수로부터, 현재 프레임에 대한 적절한 주파수 도메인 가중 함수를 결정할 수 있다.
실제 애플리케이션에서, 전술한 코히런트 노이즈 신호 유형은 스테레오 오디오 신호의 두 오디오 신호에서 노이즈 신호 사이의 상관이 일정 정도보다 높은 노이즈 신호의 유형을 지칭하며, 즉 현재 프레임에 포함된 노이즈 신호는 코히런트 노이즈 신호로 분류된다. 전술한 확산 노이즈 신호 유형은 스테레오 오디오 신호의 두 오디오 신호에서 노이즈 신호 사이의 상관이 일정 정도보다 낮은 노이즈 신호의 유형을 지칭하며, 현재 프레임에 포함된 노이즈 신호는 확산 노이즈 신호로 분류될 수 있다.
일부 가능한 구현에서, 현재 프레임은 코히런트 노이즈 신호 및 확산 노이즈 신호를 모두 포함할 수 있다. 이 경우, 오디오 코딩 장치는 두 유형의 노이즈 신호 중 메인 노이즈 신호의 신호 유형을 현재 프레임에 포함된 노이즈 신호의 신호 유형으로 결정한다.
일부 가능한 구현에서, 오디오 코딩 장치는 현재 프레임의 노이즈 코히런스 값을 계산하여, 현재 프레임에 포함된 노이즈 신호의 신호 유형을 결정할 수 있다. 이 경우, S402는 현재 프레임의 노이즈 코히런스 값을 획득하는 단계를 포함할 수 있다. 노이즈 코히런스 값이 미리 설정된 임계값보다 크거나 같으면 현재 프레임에 포함된 노이즈 신호가 강한 상관을 가지고 있음을 지시하며, 오디오 코딩 장치는 현재 프레임에 포함된 노이즈 신호의 신호 유형을 코히런트 노이즈 신호 유형으로 결정할 수 있다. 노이즈 코히런스 값이 미리 설정된 임계값보다 작으면 현재 프레임에 포함된 노이즈 신호가 약한 상관을 가지고 있음을 지시하며, 오디오 코딩 장치는 현재 프레임에 포함된 노이즈 신호의 신호 유형을 확산 노이즈 신호 유형으로 결정할 수 있다.
여기서, 노이즈 코히런스 값의 미리 설정된 임계값은 경험적 값으로, ITD 추정 성능 등의 팩터에 기반하여 설정될 수 있다. 예를 들어, 미리 설정된 임계값은 0.20, 0.25 또는 0.30으로 설정된다. 물론, 미리 설정된 임계값은 다르게는, 다른 적절한 값으로 설정될 수 있다. 이는 본 출원의 이 실시예에서 특별히 제한되지 않는다.
실제 애플리케이션에서, 현재 프레임의 노이즈 코히런스 값을 계산한 후, 오디오 코딩 장치는 추가로, 노이즈 코히런스 값에 대해 평활화 처리를 수행하여, 노이즈 코히런스 값 추정의 에러를 감소시키고 노이즈 유형 식별의 정확도를 향상시킬 수 있다.
S403: 제1 알고리즘을 사용하여 좌측 채널 오디오 신호와 우측 채널 오디오 신호 간의 ITD 값을 추정한다.
여기서, 제1 알고리즘은 제1 가중 함수에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함할 수 있으며, 가중된 교차 상관 함수에 대해 피크 검출을 수행하고, 가중된 교차 상관 함수의 피크 값에 기반하여 현재 프레임의 ITD 값을 추정하는 것을 더 포함할 수 있다.
S402를 통해, 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형인 것으로 결정한 후, 오디오 코딩 장치는 제1 알고리즘을 사용하여 현재 프레임의 ITD 값을 추정할 수 있다. 예를 들어, 오디오 코딩 장치는 제1 가중 함수를 선택하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하고, 가중된 교차 상관 함수에 대해 피크 검출을 수행하며, 가중된 교차 상관 함수의 피크 값에 기반하여 현재 프레임의 ITD 값을 추정한다.
일부 가능한 실시예에서, 제1 가중 함수는 전술한 하나 이상의 실시예에서 주파수 도메인 가중 함수 및/또는 개선된 주파수 도메인 가중 함수에서, 예를 들어, 수식 (3)에 나타낸 주파수 도메인 가중 함수 그리고 수식 (7) 및 수식 (8)에 나타낸 개선된 주파수 도메인 가중 함수에서 코히런트 노이즈 조건 하에서 더 나은 성능을 갖는 하나 이상의 가중 함수일 수 있다.
바람직하게는, 제1 가중 함수는 전술한 실시예에서 설명한 제1 개선된 주파수 도메인 가중 함수, 예를 들어 수식 (7) 및 수식 (8)에 나타낸, 개선된 주파수 도메인 가중 함수일 수 있다.
S404: 제2 알고리즘을 사용하여 좌측 채널 오디오 신호와 우측 채널 오디오 신호 간의 ITD 값을 추정한다.
여기서, 제2 알고리즘은 제2 가중 함수에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함할 수 있으며, 가중된 교차 상관 함수에 대해 피크 검출을 수행하고, 가중된 교차 상관 함수의 피크 값에 기반하여 현재 프레임의 ITD 값을 추정하는 것을 더 포함할 수 있다.
이에 상응하여, 오디오 코딩 장치는 S402를 통해 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형인 것으로 결정한 후, 제2 알고리즘을 사용하여 현재 프레임의 ITD 값을 추정할 수 있다. 예를 들어, 오디오 코딩 장치는 제2 가중 함수를 선택하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하고, 가중된 교차 상관 함수에 대해 피크 검출을 수행하며, 가중된 교차 상관 함수의 피크 값에 기반하여 현재 프레임의 ITD 값을 추정한다.
일부 가능한 실시예에서, 제2 가중 함수는 전술한 하나 이상의 실시예에서 주파수 도메인 가중 함수 및/또는 개선된 주파수 도메인 가중 함수에서, 예를 들어, 수식 (5)에 나타낸 주파수 도메인 가중 함수 및 수식 (16)에 나타낸 개선된 주파수 도메인 가중 함수에서 확산 노이즈 조건 하에서 더 나은 성능을 갖는 하나 이상의 가중 함수일 수 있다.
바람직하게는, 제2 가중 함수는 전술한 실시예에서 설명한 제2 개선된 주파수 도메인 가중 함수, 즉 수식 (16)에 나타낸, 개선된 주파수 도메인 가중 함수일 수 있다.
일부 가능한 구현에서, 스테레오 오디오 신호는 음성 신호 및 노이즈 신호를 모두 포함하기 때문에, S401에서 프레이밍 처리를 통해 획득된 현재 프레임에 포함된 신호 유형은 음성 신호 또는 노이즈 신호일 수 있다. 따라서, 처리를 단순화하고 ITD 추정 정밀도를 더욱 향상시키기 위해, S402 이전에, 상기 방법은, 현재 프레임에 대해 음성 종료점 검출을 수행하여 검출 결과를 획득하는 단계를 더 포함할 수 있다. 검출 결과가 현재 프레임의 신호 유형이 노이즈 신호 유형인 것으로 지시하면, 현재 프레임의 노이즈 코히런스 값을 계산한다. 검출 결과가 현재 프레임의 신호 유형이 음성 신호 유형인 것으로 지시하면, 스테레오 오디오 신호의 현재 프레임의 이전 프레임의 노이즈 코히런스 값을 현재 프레임의 노이즈 코히런스 값으로 결정한다.
오디오 코딩 장치는 현재 프레임을 획득한 후, 현재 프레임에 대해 음성 종료점 검출(voice activity detection, VAD)을 수행하여, 현재 프레임의 메인 신호가 음성 신호인지 노이즈 신호인지 구분할 수 있다. 현재 프레임이 노이즈 신호를 포함하는 것으로 검출되면, S402에서 노이즈 코히런스 값을 계산하는 것은 현재 프레임의 노이즈 코히런스 값을 직접 계산하는 것을 의미할 수 있다. 현재 프레임이 음성 신호를 포함하는 것으로 검출되면, S402에서 노이즈 코히런스 값을 계산하는 것은 히스토리 프레임의 노이즈 코히런스 값, 예를 들어 현재 프레임의 이전 프레임의 노이즈 코히런스 값을 현재 프레임의 노이즈 코히런스 값으로 결정하는 것을 의미할 수 있다. 여기서, 현재 프레임의 이전 프레임은 노이즈 신호 또는 음성 신호를 포함할 수 있다. 이전 프레임이 아직 음성 신호를 포함하고 있다면, 히스토리 프레임에서 이전 노이즈 프레임의 노이즈 코히런스 값을 현재 프레임의 노이즈 코히런스 값으로 결정한다.
구체적인 구현 프로세스에서, 오디오 코딩 장치는 VAD를 수행하기 위한 복수의 방법을 사용할 수 있다. VAD 값이 1일 때, 현재 프레임의 신호 유형이 음성 신호 유형임을 지시한다. VAD 값이 0일 때, 현재 프레임의 신호 유형이 노이즈 신호 유형임을 지시한다.
본 출원의 이 실시예에서, 오디오 코딩 장치는 시간 도메인, 주파수 도메인, 또는 시간 도메인과 주파수 도메인의 조합에서 VAD의 값을 계산할 수 있다는 점에 유의해야 한다. 이것은 여기서 특별히 제한되지 않는다.
다음은 구체적인 예를 사용하여 도 4에 도시된 스테레오 오디오 신호 지연 추정 방법을 설명한다.
도 5는 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 3이다. 상기 방법은 다음 단계를 포함할 수 있다.
여기서, 도 5의 파선을 참조한다. S503은 S501 이후에 수행될 수도 있고, S502 이후에 수행될 수도 있다. 이것은 여기서 특별히 제한되지 않는다.
실제 애플리케이션에서, S506 이후에, S507 수행을 결정하기 전에, 현재 프레임의 및 을 현재 프레임의 및 를 사용하여 계산할 수 있다. S508 수행을 결정하기 전에, 현재 프레임의 및 을 현재 프레임의 및 를 사용하여 계산할 수 있다.
이러한 방식으로, 스테레오 오디오 신호에 대한 ITD 추정 프로세스가 완료된다.
일부 가능한 구현에서, 파라메트릭 스테레오 인코딩 및 디코딩 기술에 더하여, 전술한 ITD 추정 방법은 음원 위치 파악, 보이스 향상, 및 보이스 분리와 같은 기술에도 적용될 수 있다.
본 출원의 이 실시예에서, 오디오 코딩 장치는 상이한 유형의 노이즈를 포함하는 현재 프레임에 대해 상이한 ITD 추정 알고리즘을 사용하여, 확산 노이즈 및 코히런트 노이즈의 경우에 스테레오 오디오 신호의 ITD 추정 정밀도 및 안정성을 크게 향상시키고, 스테레오 다운믹스된 신호 사이의 프레임 간 불연속성을 감소시키며, 스테레오 신호의 위상을 더 잘 유지함을 상술한 바로부터 알 수 있다. 인코딩된 스테레오의 사운드 이미지는 보다 정확하고 안정적이며 현실감이 강하고, 인코딩된 스테레오 신호의 청각적 품질이 향상된다.
동일한 발명 개념에 기반하여, 본 출원의 실시예는 스테레오 오디오 신호 지연 추정 장치를 제공한다. 상기 장치는 오디오 코딩 장치 내의 칩 또는 시스템 온 칩일 수 있거나, 오디오 코딩 장치 내에 있으면서 또한 전술한 실시예의 도 4에 도시된 스테레오 오디오 신호 지연 추정 방법 및 상기 방법의 임의의 가능한 구현을 구현하도록 구성된 기능 모듈일 수 있다. 예를 들어, 도 6은 본 출원의 실시예에 따른 오디오 디코딩 장치의 구조를 도시하는 개략도이다. 도 6에서 실선으로 도시된 바와 같이, 스테레오 오디오 신호 지연 추정 장치(600)는: 스테레오 오디오 신호의 현재 프레임을 획득하도록 구성된 - 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 - 획득 모듈(601); 및 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형이면, 제1 알고리즘을 사용하여 제1 채널 오디오 신호와 제2 채널 오디오 신호 간의 인터 채널 시차를 추정하거나; 또는 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형이면, 제2 알고리즘을 사용하여 제1 채널 오디오 신호와 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하도록 구성된 인터 채널 시간 차이 추정 모듈(602)을 포함한다. 제1 알고리즘은 제1 가중 함수에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하고, 제2 알고리즘은 제2 가중 함수에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하며, 제1 가중 함수의 구성 팩터는 제2 가중 함수의 구성 팩터와 상이하다.
본 출원의 이 실시예에서 획득 모듈(601)이 획득한 스테레오 신호의 현재 프레임은 주파수 도메인 오디오 신호 또는 시간 도메인 오디오 신호일 수 있다. 현재 프레임이 주파수 도메인 오디오 신호이면, 획득 모듈(601)은 현재 프레임을 인터 채널 시간 차이 추정 모듈(602)로 전달하고, 인터 채널 시간 차이 추정 모듈(602)은 주파수 도메인에서 현재 프레임을 직접 처리할 수 있다. 현재 프레임이 시간 도메인 오디오 신호이면, 획득 모듈(601)은 먼저 시간 도메인에서 현재 프레임에 대해 시간-주파수 변환을 수행하여 주파수 도메인에서 현재 프레임을 획득한 다음, 획득 모듈(601)은 주파수 도메인에서의 현재 프레임을 인터 채널 시간 차이 추정 모듈(602)로 전달한다. 인터 채널 시간 차이 추정 모듈(602)은 주파수 도메인에서 현재 프레임을 처리할 수 있다.
일부 가능한 구현에서, 도 6의 파선을 참조한다. 상기 장치는, 획득 모듈(601)이 현재 프레임을 획득한 후, 현재 프레임의 노이즈 코히런스 값을 획득하고; 노이즈 코히런스 값이 미리 설정된 임계값보다 크거나 같으면, 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형인 것으로 결정하거나; 또는 노이즈 코히런스 값이 미리 설정된 임계값보다 작으면, 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형인 것으로 결정하도록 구성된 노이즈 코히런스 값 계산 모듈(603)을 더 포함한다.
일부 가능한 구현에서, 도 6의 파선을 참조한다. 상기 장치는 현재 프레임에 대해 음성 종료점 검출을 수행하여 검출 결과를 획득하도록 구성된 음성 종료점 검출 모듈(604)을 더 포함한다. 노이즈 코히런스 값 계산 모듈(603)은 구체적으로, 검출 결과가 현재 프레임의 신호 유형이 노이즈 신호 유형임을 지시하면, 현재 프레임의 노이즈 코히런스 값을 계산하거나; 또는 검출 결과가 현재 프레임의 신호 유형이 음성 신호 유형임을 지시하면, 스테레오 오디오 신호의 현재 프레임의 이전 프레임의 노이즈 코히런스 값을 현재 프레임의 노이즈 코히런스 값으로 결정하도록 구성된다.
본 출원의 이 실시예에서, 음성 종료점 검출 모듈(604)은 시간 도메인, 주파수 도메인, 또는 시간 도메인과 주파수 도메인의 조합에서 VAD 값을 계산할 수 있다. 이것은 여기서 특별히 제한되지 않는다. 획득 모듈(601)은 현재 프레임에 대한 VAD를 위해 현재 프레임을 음성 종료점 검출 모듈(604)로 전달할 수 있다.
일부 가능한 구현에서, 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 인터 채널 시간 차이 추정 모듈(602)은: 제1 채널 시간 도메인 신호 및 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하며; 제1 가중 함수에 기반하여 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하고; 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 인터 채널 시간 차이의 추정값을 획득하도록 구성된다. 제1 가중 함수의 구성 팩터는 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다. 인터 채널 시간 차이 추정 모듈(602)은: 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고; 제1 가중 함수에 기반하여 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며; 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 인터 채널 시간 차이의 추정값을 획득하도록 구성된다. 제1 가중 함수의 구성 팩터는 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이다. 인터 채널 시간 차이 추정 모듈(602)은 구체적으로, 획득 모듈이 현재 프레임을 획득한 후 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고; 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 제1 초기 위너 이득 팩터를 결정하며; 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고; 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 제2 초기 위너 이득 팩터를 결정하도록 구성된다.
일부 가능한 구현에서, 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이다. 인터 채널 시간 차이 추정 모듈(602)은 구체적으로, 획득 모듈이 현재 프레임을 획득한 후 제1 초기 위너 이득 팩터 및 제2 초기 위너 이득 팩터를 획득하고; 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 제1 개선된 위너 이득 팩터를 획득하며; 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 제2 개선된 위너 이득 팩터를 획득하도록 구성된다.
일부 가능한 구현에서, 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 인터 채널 시간 차이 추정 모듈(602)은 구체적으로, 제1 채널 시간 도메인 신호 및 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하며; 제2 가중 함수에 기반하여 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하여 인터 채널 시간 차이의 추정값을 획득한다. 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터와 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다. 인터 채널 시간 차이 추정 모듈(602)은 구체적으로, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고; 제2 가중 함수에 기반하여 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며; 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 인터 채널 시간 차이의 추정값을 획득하도록 구성된다. 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터와 현재 프레임의 제곱 코히런스 값을 포함한다.
획득 모듈(601), 인터 채널 시간 차이 추정 모듈(602), 노이즈 코히런스 값 계산 모듈(603) 및 음성 종료점 검출 모듈(604)의 구체적인 구현 프로세스에 대해서는 도 4 내지 도 5의 실시예의 상세한 설명을 참조할 수 있음에 유의해야 한다. 명세서의 간결함을 위해 세부 사항은 여기서 다시 설명하지 않는다.
본 출원의 이 실시예에서 언급된 획득 모듈(601)은 수신 인터페이스, 수신 회로, 수신기 등일 수 있다. 인터 채널 시간 차이 추정 모듈(602), 노이즈 코히런스 값 계산 모듈(603) 및 음성 종료점 검출 모듈(604)은 하나 이상의 프로세서일 수 있다.
동일한 발명 개념에 기반하여, 본 출원의 실시예는 스테레오 오디오 신호 지연 추정 장치를 제공한다. 상기 장치는 오디오 코딩 장치 내의 칩 또는 시스템 온 칩일 수 있거나, 오디오 코딩 장치 내에 있으면서 또한 도 3에 도시된 스테레오 오디오 신호 지연 추정 방법 및 상기 방법의 가능한 모든 구현을 구현하도록 구성된 기능 모듈일 수 있다. 예를 들어, 여전히 도 6을 참조한다. 스테레오 오디오 신호 지연 추정 장치(600)는: 스테레오 오디오 신호의 현재 프레임을 획득하도록 구성된 - 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 - 획득 모듈(601); 및 제1 채널 오디오 신호 및 제2 채널 오디오 신호에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고; 미리 설정된 가중 함수에 기반하여 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며; 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 제1 채널 주파수 도메인 신호와 제2 채널 주파수 도메인 신호 사이의 인터 채널 시간 차이의 추정값을 획득하도록 구성된 인터 채널 시간 차이 추정 모듈(602)을 포함한다
미리 설정된 가중 함수는 제1 가중 함수 또는 제2 가중 함수이며, 제1 가중 함수의 구성 팩터는 제2 가중 함수의 구성 팩터와 상이하다. 제1 가중 함수의 구성 팩터는 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득, 진폭 가중 파라미터, 및 현재 프레임의 제곱 코히런스 값을 포함한다. 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 인터 채널 시간 차이 추정 모듈(602)은: 제1 채널 시간 도메인 신호 및 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 그리고 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하도록 구성된다.
일부 가능한 구현에서, 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다. 이 경우, 현재 프레임의 주파수 도메인 교차 전력 스펙트럼은 제1 채널 오디오 신호 및 제2 채널 오디오 신호에 기반하여 직접 계산될 수 있다.
일부 가능한 구현에서, 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이다. 인터 채널 시간 차이 추정 모듈(602)은 구체적으로, 획득 모듈(601)이 현재 프레임을 획득한 후 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고; 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 제1 초기 위너 이득 팩터를 결정하며; 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고; 그리고 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 제2 초기 위너 이득 팩터를 결정하도록 구성된다.
일부 가능한 구현에서, 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이다. 인터 채널 시간 차이 추정 모듈(602)은 구체적으로: 획득 모듈(601)이 현재 프레임을 획득한 후, 제1 초기 위너 이득 팩터 및 제2 초기 위너 이득 팩터를 획득하고; 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 제1 개선된 위너 이득 팩터를 획득하며; 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 제2 개선된 위너 이득 팩터를 획득하도록 구성된다
획득 모듈(601) 및 인터 채널 시간 차이 추정 모듈(602)의 구체적인 구현 프로세스에 대해서는 도 3의 실시예의 상세한 설명을 참조할 수 있음에 유의해야 한다. 명세서의 간결함을 위해 세부 사항은 여기서 다시 설명하지 않는다.
본 출원의 이 실시예에서 언급된 획득 모듈(601)은 수신 인터페이스, 수신 회로, 수신기 등일 수 있다. 인터 채널 시간 차이 추정 모듈(602)은 하나 이상의 프로세서일 수 있다.
동일한 발명 개념에 기반하여, 본 출원의 실시예는 오디오 코딩 장치를 제공한다. 오디오 코딩 장치는 전술한 실시예의 오디오 코딩 장치와 일치한다. 도 7은 본 출원의 실시예에 따른 오디오 코딩 장치의 구조를 도시하는 개략도이다. 도 7을 참조한다. 오디오 코딩 장치(700)는 서로 결합된, 비휘발성 메모리(701) 및 프로세서(702)를 포함한다. 프로세서(702)는 메모리(701)에 저장된 프로그램 코드를 호출하여 도 3 내지 도 5의 스테레오 오디오 신호 지연 추정 방법 및 상기 방법의 가능한 모든 구현의 작동 단계를 수행한다.
일부 가능한 구현에서, 오디오 코딩 장치는 구체적으로 스테레오 코딩 장치일 수 있다. 상기 장치는 독립적인 스테레오 코더를 구성할 수 있거나, 다중 채널 주파수 도메인 신호에서 복수의 신호를 조합하여 생성된 2개의 오디오 신호에 의해 형성된 스테레오 오디오 신호를 인코딩하기 위한 다중 채널 코더의 코어 코딩 부분일 수 있다.
실제 애플리케이션에서, 오디오 코딩 장치는 애플리케이션 특정 집적 회로(application specific integrated circuit, ASIC), 레지스터 전송 계층 회로(register transfer level, RTL), 필드 프로그래밍 가능 게이트 어레이(field programmable gate array, FPGA) 등의 프로그래밍 가능 디바이스로 구현될 수 있다. 물론, 오디오 코딩 장치는 다른 프로그래밍 가능 디바이스를 사용하여 구현될 수도 있다. 이는 본 출원의 이 실시예에서 특별히 제한되지 않는다.
동일한 발명 개념에 기반하여, 본 출원의 실시예는 컴퓨터가 판독 가능한 저장 매체를 제공한다. 컴퓨터가 판독 가능한 저장 매체는 명령어를 저장하고 있으며, 명령어가 컴퓨터에서 실행될 때 도 3 내지 도 5의 스테레오 오디오 신호 지연 추정 방법 및 상기 방법의 가능한 모든 구현이 수행된다.
동일한 발명 개념에 기반하여, 본 출원의 실시예는 인코딩된 비트스트림을 포함하는, 컴퓨터가 판독 가능한 저장 매체를 제공한다. 인코딩된 비트스트림은 도 3 내지 도 5의 스테레오 오디오 신호 지연 추정 방법 및 상기 방법의 가능한 모든 구현에 따라 획득된 스테레오 오디오 신호 사이의 인터 채널 시간 차이를 포함한다.
동일한 발명 개념에 기반하여, 본 출원의 실시예는 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때, 컴퓨터는 도 3 내지 도 5의 스테레오 오디오 신호 지연 추정 방법 및 상기 방법의 가능한 모든 구현의 동작 단계를 구현할 수 있다.
당업자는 본 명세서에 개시되고 설명된 다양한 예시적인 논리 블록, 모듈 및 알고리즘 단계를 참조하여 설명된 기능이 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합에 의해 구현될 수 있음을 이해할 수 있다. 소프트웨어에 의해 구현되면, 예시적인 논리 블록, 모듈 및 단계를 참조하여 설명된 기능은 하나 이상의 명령어 또는 코드로서 컴퓨터가 판독 가능한 매체에 저장되거나 전송되고, 하드웨어 기반 처리 유닛에 의해 실행될 수 있다. 컴퓨터가 판독 가능한 매체는 데이터 저장 매체와 같은 유형의 매체에 대응하는 컴퓨터가 판독 가능한 저장 매체를 포함할 수 있거나, 컴퓨터 프로그램을 (예를 들어, 통신 프로토콜에 따라) 한 곳에서 다른 곳으로 쉽게 전송할 수 있는 임의의 통신 매체를 포함할 수 있다. 이러한 방식으로, 컴퓨터가 판독 가능한 매체는 일반적으로, (1) 컴퓨터가 판독 가능한 비일시적 유형의 저장 매체, 또는 (2) 신호 또는 캐리어와 같은 통신 매체에 대응할 수 있다. 데이터 저장 매체는 본 출원에 설명된 기술을 구현하기 위한 명령어, 코드 및/또는 데이터 구조를 검색하기 위해 하나 이상의 컴퓨터 또는 하나 이상의 프로세서에 의해 액세스될 수 있는 임의의 사용 가능한 매체일 수 있다. 컴퓨터 프로그램 제품은 컴퓨터가 판독 가능한 매체를 포함할 수 있다.
제한이 아닌 예로서, 이러한 컴퓨터가 판독 가능한 저장 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장 장치, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 플래시 메모리, 또는 명령어 또는 데이터 구조의 형태로 필요한 프로그램 코드를 저장할 수 있으면서 또한 컴퓨터에서 액세스할 수 있는 기타 모든 매체를 포함할 수 있다. 또한, 모든 연결을 적절히, 컴퓨터가 판독 가능한 매체라고 지칭한다. 예를 들어 명령어가, 동축 케이블, 광섬유, 트위스트 페어, 디지털 가입자 회선(digital subscriber line, DSL), 또는 적외선, 라디오 또는 마이크로웨이브와 같은 무선 기술을 통해 웹 사이트, 서버 또는 다른 원격 소스로부터 전송되면, 동축 케이블, 광섬유, 트위스트 페어, DSL, 또는 적외선, 라디오 또는 마이크로웨이브와 같은 무선 기술이 상기 매체의 정의에 포함된다. 그러나, 컴퓨터가 판독 가능한 저장 매체 및 데이터 저장 매체는, 연결, 캐리어, 신호 또는 기타 일시적인 매체를 포함하지 않고, 실제로 비일시적 유형의 저장 매체를 의미하는 것으로 이해되어야 한다. 본 명세서에서 사용되는 디스크(disk) 및 디스크(disc)는 CD(compact disc), 레이저 디스크(disc), 광 디스크(disc), DVD(digital versatile disc), 블루레이 디스크(disc)를 포함한다. 일반적으로 디스크(disk)는 자기적으로 데이터를 재생하는 반면 디스크(disc)는 레이저를 사용하여 광학적으로 데이터를 재생한다. 이들의 조합도 컴퓨터가 판독 가능한 매체의 범위에 포함되어야 한다.
명령어는 하나 이상의 디지털 신호 프로세서(digital signal processor, DSP), 일반 마이크로프로세서, 애플리케이션 특정 집적 회로(application-specific integrated circuit, ASIC), 필드 프로그래밍 가능 게이트 어레이(field programmable gate array, FPGA) 또는 등가 집적 회로 또는 이산 논리 회로와 같은 하나 이상의 프로세서에 의해 실행될 수 있다. 따라서, 본 명세서에서 사용되는 "프로세서"라는 용어는 전술한 구조 또는 본 명세서에서 설명하는 기술의 구현에 적용될 수 있는 다른 구조를 지칭할 수 있다. 또한, 일부 측면에서, 본 명세서에 설명된 예시적인 논리 블록, 모듈 및 단계를 참조하여 설명된 기능은, 인코딩 및 디코딩을 위해 구성된 전용 하드웨어 및/또는 소프트웨어 모듈 내에 제공될 수 있거나 조합된 코덱으로 통합될 수 있다. 또한, 기술은 하나 이상의 회로 또는 논리 엘리먼트에서 완전히 구현될 수 있다.
본 출원의 기술은 무선 핸드셋, 집적 회로(integrated circuit, IC) 또는 IC들의 집합(예를 들어, 칩셋)을 포함하는 다양한 장치 또는 디바이스에서 구현될 수 있다. 개시된 기술을 수행하도록 구성된 장치의 기능적 측면을 강조하기 위해 본 출원에서 다양한 컴포넌트, 모듈 또는 유닛이 설명되지만, 기능은 상이한 하드웨어 유닛에 의해 구현될 필요는 없다. 실제로, 전술한 바와 같이, 다양한 유닛들이 적절한 소프트웨어 및/또는 펌웨어와 조합하여 코덱 하드웨어 유닛으로 조합될 수 있거나, 상호 운용 가능한 하드웨어 유닛(전술한 하나 이상의 프로세서를 포함)에 의해 제공될 수 있다.
전술한 실시예에서, 각 실시예의 설명은 각각의 포커스를 갖는다. 실시예에서 구체적으로 설명되지 않은 부분에 대해서는 다른 실시예의 관련 설명을 참조한다.
전술한 설명은 단지 본 출원의 특정 예시 구현일 뿐이며, 본 출원의 보호 범위를 제한하려는 의도는 아니다. 본 출원에 개시된 기술적 범위 내에서 당업자에 의해 쉽게 파악된 변형 또는 교체는 본 출원의 보호 범위에 속한다. 따라서, 본 출원의 보호범위는 청구범위의 보호범위에 따른다.
Claims (51)
- 스테레오 오디오 신호 지연 추정 방법으로서,
스테레오 오디오 신호의 현재 프레임을 획득하는 단계 - 상기 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 -; 및
상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형이면, 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하거나, 또는
상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형이면, 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계
를 포함하고,
상기 제1 알고리즘은 제1 가중 함수에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는(weighting) 것을 포함하고, 상기 제2 알고리즘은 제2 가중 함수에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하며, 상기 제1 가중 함수의 구성 팩터는 상기 제2 가중 함수의 구성 팩터와 상이한, 스테레오 오디오 신호 지연 추정 방법. - 제1항에 있어서,
상기 스테레오 오디오 신호의 현재 프레임을 획득하는 단계 이후에, 상기 스테레오 오디오 신호 지연 추정 방법은,
상기 현재 프레임의 노이즈 코히런스 값을 획득하는 단계; 및
상기 노이즈 코히런스 값이 미리 설정된 임계값보다 크거나 같으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 관련 노이즈 신호 유형인 것으로 결정하거나, 또는
상기 노이즈 코히런스 값이 미리 설정된 임계값보다 작으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형인 것으로 결정하는 단계
를 더 포함하는 스테레오 오디오 신호 지연 추정 방법. - 제2항에 있어서,
상기 현재 프레임의 노이즈 코히런스 값을 획득하는 단계는,
상기 현재 프레임에 대해 음성 종료점 검출을 수행하는 단계; 및
검출 결과가 상기 현재 프레임의 신호 유형이 노이즈 신호 유형인 것으로 지시하면, 상기 현재 프레임의 노이즈 코히런스 값을 계산하거나, 또는
검출 결과가 상기 현재 프레임의 신호 유형이 음성 신호 유형인 것으로 지시하면, 상기 스테레오 오디오 신호의 현재 프레임의 이전 프레임의 노이즈 코히런스 값을 상기 현재 프레임의 노이즈 코히런스 값으로 결정하는 단계
를 포함하는, 스테레오 오디오 신호 지연 추정 방법. - 제1항 내지 제3항 중 어느 한 항에 있어서,
상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이며; 그리고
상기 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는,
상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하는 단계;
상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계;
상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계; 및
가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하는 단계
를 포함하고,
상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터(Wiener gain factor), 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 방법. - 제1항 내지 제3항 중 어느 한 항에 있어서,
상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이며; 그리고
상기 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는,
상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계;
상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계; 및
가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하는 단계
를 포함하고,
상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 방법. - 제4항 또는 제5항에 있어서,
상기 제1 가중 함수 는 다음 수식:
을 충족하며,
는 상기 진폭 가중 파라미터이고 이며, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법. - 제4항 또는 제5항에 있어서,
상기 제1 가중 함수 는 다음 수식:
을 충족하며,
는 상기 진폭 가중 파라미터이고 이며, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법. - 제4항 내지 제7항 중 어느 한 항에 있어서,
상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이며; 그리고
상기 스테레오 오디오 신호의 현재 프레임을 획득하는 단계 이후에, 상기 스테레오 오디오 신호 지연 추정 방법은:
상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하는 단계; 및
상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하는 단계
를 더 포함하는 스테레오 오디오 신호 지연 추정 방법. - 제4항 내지 제7항 중 어느 한 항에 있어서,
상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이며; 그리고
상기 스테레오 오디오 신호의 현재 프레임을 획득하는 단계 이후에, 상기 스테레오 오디오 신호 지연 추정 방법은:
상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터 및 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터를 획득하는 단계;
상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하는 단계; 및
상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하는 단계
를 더 포함하는 스테레오 오디오 신호 지연 추정 방법. - 제1항 내지 제11항 중 어느 한 항에 있어서,
상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이며; 그리고
상기 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는,
상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하는 단계;
상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계; 및
상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하여 상기 인터 채널 시간 차이의 추정값을 획득하는 단계
를 포함하고,
상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 방법. - 제1항 내지 제11항 중 어느 한 항에 있어서,
상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이며; 그리고
상기 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는,
상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계;
상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계; 및
가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하는 단계
를 포함하고,
상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 방법. - 제12항 또는 제13항에 있어서,
상기 제2 가중 함수 는 다음 수식:
을 충족하며,
는 상기 진폭 가중 파라미터이고 이며, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법. - 스테레오 오디오 신호 지연 추정 방법으로서,
스테레오 오디오 신호의 현재 프레임을 획득하는 단계 - 상기 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 -;
상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계;
미리 설정된 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계 - 상기 미리 설정된 가중 함수는 제1 가중 함수 또는 제2 가중 함수임 -; 및
가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 제1 채널 주파수 도메인 신호와 제2 채널 주파수 도메인 신호 사이의 인터 채널 시간 차이의 추정값을 획득하는 단계
를 포함하고,
상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함하고, 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함하며, 상기 제1 가중 함수의 구성 팩터는 상기 제2 가중 함수의 구성 팩터와 상이한, 스테레오 오디오 신호 지연 추정 방법. - 제15항에 있어서,
상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이며; 그리고
상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계는:
상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하는 단계; 및
상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계
를 포함하는, 스테레오 오디오 신호 지연 추정 방법. - 제15항에 있어서,
상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호인, 스테레오 오디오 신호 지연 추정 방법. - 제15항 및 제16항 중 어느 한 항에 있어서,
상기 제1 가중 함수 는 다음 수식:
을 충족하며,
는 상기 진폭 가중 파라미터이고 이며, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법. - 제15항 및 제16항 중 어느 한 항에 있어서,
상기 제1 가중 함수 는 다음 수식:
을 충족하며,
는 상기 진폭 가중 파라미터이고 이며, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법. - 제15항 내지 제19항 중 어느 한 항에 있어서,
상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이며; 그리고
상기 스테레오 오디오 신호의 현재 프레임을 획득하는 단계 이후에, 상기 스테레오 오디오 신호 지연 추정 방법은:
상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하는 단계; 및
상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하는 단계
를 더 포함하는 스테레오 오디오 신호 지연 추정 방법. - 제20항에 있어서,
상기 제1 초기 위너 이득 팩터 는 다음 수식:
을 충족하며,
상기 제2 초기 위너 이득 팩터 는 다음 수식:
을 충족하고,
는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며, 는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법. - 제15항 내지 제19항 중 어느 한 항에 있어서,
상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이며; 그리고
상기 스테레오 오디오 신호의 현재 프레임을 획득하는 단계 이후에, 상기 스테레오 오디오 신호 지연 추정 방법은:
상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터 및 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터를 획득하는 단계;
상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하는 단계; 및
상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하는 단계
를 더 포함하는 스테레오 오디오 신호 지연 추정 방법. - 스테레오 오디오 신호 지연 추정 장치로서,
스테레오 오디오 신호의 현재 프레임을 획득하도록 - 상기 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 - 구성된 제1 획득 모듈; 및
상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형이면, 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하거나, 또는 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형이면, 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하도록 구성된 제1 인터 채널 시간 차이 추정 모듈
을 포함하고,
상기 제1 알고리즘은 제1 가중 함수에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하고, 상기 제2 알고리즘은 제2 가중 함수에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하며, 상기 제1 가중 함수의 구성 팩터는 상기 제2 가중 함수의 구성 팩터와 상이한, 스테레오 오디오 신호 지연 추정 장치. - 제25항에 있어서,
상기 스테레오 오디오 신호 지연 추정 장치는,
상기 제1 획득 모듈이 상기 현재 프레임을 획득한 후 상기 현재 프레임의 노이즈 코히런스 값을 획득하고; 그리고 상기 노이즈 코히런스 값이 미리 설정된 임계값보다 크거나 같으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 관련 노이즈 신호 유형인 것으로 결정하거나, 또는 상기 노이즈 코히런스 값이 미리 설정된 임계값보다 작으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형인 것으로 결정하도록 구성된 노이즈 코히런스 값 계산 모듈
을 더 포함하는 스테레오 오디오 신호 지연 추정 장치. - 제26항에 있어서,
상기 스테레오 오디오 신호 지연 추정 장치는,
상기 현재 프레임에 대해 음성 종료점 검출을 수행하도록 구성된 음성 종료점 검출 모듈
을 더 포함하고,
상기 노이즈 코히런스 값 계산 모듈은 구체적으로,
검출 결과가 상기 현재 프레임의 신호 유형이 노이즈 신호 유형인 것으로 지시하면, 상기 현재 프레임의 노이즈 코히런스 값을 계산하거나, 또는 검출 결과가 상기 현재 프레임의 신호 유형이 음성 신호 유형인 것으로 지시하면, 상기 스테레오 오디오 신호의 현재 프레임의 이전 프레임의 노이즈 코히런스 값을 상기 현재 프레임의 노이즈 코히런스 값으로 결정하도록 구성되는, 스테레오 오디오 신호 지연 추정 장치. - 제25항 내지 제27항 중 어느 한 항에 있어서,
상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이며; 그리고
상기 제1 인터 채널 시간 차이 추정 모듈은,
상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하며; 상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하고; 그리고 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성되고,
상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 장치. - 제25항 내지 제27항 중 어느 한 항에 있어서,
상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이며; 그리고
상기 제1 인터 채널 시간 차이 추정 모듈은,
상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고; 상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며; 그리고 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성되고,
상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 장치. - 제28항 또는 제29항에 있어서,
상기 제1 가중 함수 는 다음 수식:
을 충족하며,
는 상기 진폭 가중 파라미터이고 이며, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 장치. - 제28항 또는 제29항에 있어서,
상기 제1 가중 함수 는 다음 수식:
을 충족하며,
는 상기 진폭 가중 파라미터이고 이며, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 장치. - 제28항 내지 제31항 중 어느 한 항에 있어서,
상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이며; 그리고
상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로,
상기 제1 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하며, 상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 그리고 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하도록 구성되는, 스테레오 오디오 신호 지연 추정 장치. - 제32항에 있어서,
상기 제1 초기 위너 이득 팩터 는 다음 수식:
을 충족하며,
상기 제2 초기 위너 이득 팩터 는 다음 수식:
을 충족하고,
는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며, 는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법. - 제28항 내지 제31항 중 어느 한 항에 있어서,
상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이며; 그리고
상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로,
상기 제1 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터 및 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터를 획득하고; 상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하며; 그리고 상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하도록 구성되는, 스테레오 오디오 신호 지연 추정 장치. - 제25항 내지 제35항 중 어느 한 항에 있어서,
상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이며; 그리고
상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로,
상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하며; 그리고 상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성되고,
상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 장치. - 제25항 내지 제35항 중 어느 한 항에 있어서,
상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이며; 그리고
상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로,
상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고; 상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며; 그리고 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성되고,
상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 장치. - 스테레오 오디오 신호 지연 추정 장치로서,
스테레오 오디오 신호의 현재 프레임을 획득하도록 - 상기 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 - 구성된 제2 획득 모듈; 및
상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고, 미리 설정된 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며 - 상기 미리 설정된 가중 함수는 제1 가중 함수 또는 제2 가중 함수임 - 그리고, 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 제1 채널 주파수 도메인 신호와 제2 채널 주파수 도메인 신호 사이의 인터 채널 시간 차이의 추정값을 획득하도록 구성된 제2 인터 채널 시간 차이 추정 모듈
을 포함하고,
상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함하고, 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함하며, 상기 제1 가중 함수의 구성 팩터는 상기 제2 가중 함수의 구성 팩터와 상이한, 스테레오 오디오 신호 지연 추정 장치. - 제39항에 있어서,
상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이며; 그리고
상기 제2 인터 채널 시간 차이 추정 모듈은,
상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 그리고 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하도록 구성되는, 스테레오 오디오 신호 지연 추정 장치. - 제39항에 있어서,
상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호인, 스테레오 오디오 신호 지연 추정 장치. - 제39항 및 제41항 중 어느 한 항에 있어서,
상기 제1 가중 함수 는 다음 수식:
을 충족하며,
는 상기 진폭 가중 파라미터이고 이며, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 장치. - 제39항 및 제41항 중 어느 한 항에 있어서,
상기 제1 가중 함수 는 다음 수식:
을 충족하며,
는 상기 진폭 가중 파라미터이고 이며, 는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고, 는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, 는 의 켤레 함수이고, 는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며, 이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 장치.\ - 제39항 내지 제43항 중 어느 한 항에 있어서,
상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이며; 그리고
상기 제2 인터 채널 시간 차이 추정 모듈은 구체적으로,
상기 제2 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하며, 상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 그리고 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하도록 구성되는, 스테레오 오디오 신호 지연 추정 장치. - 제44항에 있어서,
상기 제1 초기 위너 이득 팩터 는 다음 수식:
을 충족하며,
상기 제2 초기 위너 이득 팩터 는 다음 수식:
을 충족하고,
는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며, 는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고, 는 상기 제1 채널 주파수 도메인 신호이고, 는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법. - 제39항 내지 제43항 중 어느 한 항에 있어서,
상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이며; 그리고
상기 제2 인터 채널 시간 차이 추정 모듈은 구체적으로,
상기 제2 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터 및 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터를 획득하고; 상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하며; 그리고 상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하도록 구성되는, 스테레오 오디오 신호 지연 추정 장치. - 오디오 코딩 장치로서,
서로 결합된, 비휘발성 메모리 및 프로세서
를 포함하고,
상기 프로세서는 상기 메모리에 저장된 프로그램 코드를 호출하여, 제1항 내지 제24항 중 어느 한 항에 따른 스테레오 오디오 신호 지연 추정 방법을 수행하는, 오디오 코딩 장치. - 컴퓨터 프로그램을 포함하는 컴퓨터 저장 매체로서,
상기 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 상기 컴퓨터는 제1항 내지 제24항 중 어느 한 항에 따른 스테레오 오디오 신호 지연 추정 방법을 수행하도록 인에이블되는, 컴퓨터 저장 매체. - 인코딩된 비트스트림을 포함하는, 컴퓨터가 판독 가능한 저장 매체로서,
상기 인코딩된 비트스트림은 제1항 내지 제24항 중 어느 한 항에 따른 스테레오 오디오 신호 지연 추정 방법에 따라 획득된 스테레오 오디오 신호 사이의 인터 채널 시간 차이를 포함하는, 컴퓨터가 판독 가능한 저장 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010700806.7A CN113948098A (zh) | 2020-07-17 | 2020-07-17 | 一种立体声音频信号时延估计方法及装置 |
CN202010700806.7 | 2020-07-17 | ||
PCT/CN2021/106515 WO2022012629A1 (zh) | 2020-07-17 | 2021-07-15 | 一种立体声音频信号时延估计方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230035387A true KR20230035387A (ko) | 2023-03-13 |
Family
ID=79326926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020237004478A KR20230035387A (ko) | 2020-07-17 | 2021-07-15 | 스테레오 오디오 신호 지연 추정 방법 및 장치 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20230154483A1 (ko) |
EP (1) | EP4170653A4 (ko) |
JP (1) | JP2023533364A (ko) |
KR (1) | KR20230035387A (ko) |
CN (1) | CN113948098A (ko) |
BR (1) | BR112023000850A2 (ko) |
CA (1) | CA3189232A1 (ko) |
WO (1) | WO2022012629A1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115691515A (zh) * | 2022-07-12 | 2023-02-03 | 南京拓灵智能科技有限公司 | 一种音频编解码方法及装置 |
WO2024053353A1 (ja) * | 2022-09-08 | 2024-03-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 信号処理装置、及び、信号処理方法 |
CN116032901A (zh) * | 2022-12-30 | 2023-04-28 | 北京天兵科技有限公司 | 多路音频数据信号采编方法、装置、系统、介质和设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004002192A1 (en) * | 2002-06-21 | 2003-12-31 | University Of Southern California | System and method for automatic room acoustic correction |
CN101848412B (zh) * | 2009-03-25 | 2012-03-21 | 华为技术有限公司 | 通道间延迟估计的方法及其装置和编码器 |
CN107479030B (zh) * | 2017-07-14 | 2020-11-17 | 重庆邮电大学 | 基于分频和改进的广义互相关双耳时延估计方法 |
CN107393549A (zh) * | 2017-07-21 | 2017-11-24 | 北京华捷艾米科技有限公司 | 时延估计方法及装置 |
CN112262433B (zh) * | 2018-04-05 | 2024-03-01 | 弗劳恩霍夫应用研究促进协会 | 用于估计通道间时间差的装置、方法或计算机程序 |
CN110082725B (zh) * | 2019-03-12 | 2023-02-28 | 西安电子科技大学 | 基于麦克风阵列的声源定位时延估计方法、声源定位系统 |
CN109901114B (zh) * | 2019-03-28 | 2020-10-27 | 广州大学 | 一种适用于声源定位的时延估计方法 |
CN111239686B (zh) * | 2020-02-18 | 2021-12-21 | 中国科学院声学研究所 | 一种基于深度学习的双通道声源定位方法 |
-
2020
- 2020-07-17 CN CN202010700806.7A patent/CN113948098A/zh active Pending
-
2021
- 2021-07-15 BR BR112023000850A patent/BR112023000850A2/pt unknown
- 2021-07-15 CA CA3189232A patent/CA3189232A1/en active Pending
- 2021-07-15 KR KR1020237004478A patent/KR20230035387A/ko active Search and Examination
- 2021-07-15 WO PCT/CN2021/106515 patent/WO2022012629A1/zh unknown
- 2021-07-15 JP JP2023502886A patent/JP2023533364A/ja active Pending
- 2021-07-15 EP EP21842542.9A patent/EP4170653A4/en active Pending
-
2023
- 2023-01-13 US US18/154,549 patent/US20230154483A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2023533364A (ja) | 2023-08-02 |
BR112023000850A2 (pt) | 2023-04-04 |
US20230154483A1 (en) | 2023-05-18 |
WO2022012629A1 (zh) | 2022-01-20 |
CN113948098A (zh) | 2022-01-18 |
EP4170653A4 (en) | 2023-11-29 |
CA3189232A1 (en) | 2022-01-20 |
EP4170653A1 (en) | 2023-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10251009B2 (en) | Audio scene apparatus | |
KR20230035387A (ko) | 스테레오 오디오 신호 지연 추정 방법 및 장치 | |
JP7443423B2 (ja) | マルチチャネル信号の符号化方法およびエンコーダ | |
US11664034B2 (en) | Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal | |
US9479886B2 (en) | Scalable downmix design with feedback for object-based surround codec | |
TWI618049B (zh) | 高階保真立體音響訊號表象之壓縮方法和裝置以及解壓縮方法和裝置 | |
AU2011357816B2 (en) | Determining the inter-channel time difference of a multi-channel audio signal | |
JP2020525852A (ja) | 遅延推定方法および遅延推定装置 | |
EP2702587A1 (en) | Method for inter-channel difference estimation and spatial audio coding device | |
EP3762923A1 (en) | Audio coding | |
JP2024059711A (ja) | チャネル間位相差パラメータ符号化方法および装置 | |
JP2022163058A (ja) | ステレオ信号符号化方法およびステレオ信号符号化装置 | |
WO2017206794A1 (zh) | 一种声道间相位差参数的提取方法及装置 | |
US9311925B2 (en) | Method, apparatus and computer program for processing multi-channel signals | |
US20200314580A1 (en) | Method and apparatus for voice or sound activity detection for spatial audio | |
JP7159351B2 (ja) | ダウンミックスされた信号の計算方法及び装置 | |
RU2648632C2 (ru) | Классификатор многоканального звукового сигнала | |
JP2024521486A (ja) | コインシデントステレオ捕捉のためのチャネル間時間差(itd)推定器の改善された安定性 | |
CA3215225A1 (en) | Method and device for multi-channel comfort noise injection in a decoded sound signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |