KR20230035387A - 스테레오 오디오 신호 지연 추정 방법 및 장치 - Google Patents

스테레오 오디오 신호 지연 추정 방법 및 장치 Download PDF

Info

Publication number
KR20230035387A
KR20230035387A KR1020237004478A KR20237004478A KR20230035387A KR 20230035387 A KR20230035387 A KR 20230035387A KR 1020237004478 A KR1020237004478 A KR 1020237004478A KR 20237004478 A KR20237004478 A KR 20237004478A KR 20230035387 A KR20230035387 A KR 20230035387A
Authority
KR
South Korea
Prior art keywords
channel
frequency domain
signal
domain signal
gain factor
Prior art date
Application number
KR1020237004478A
Other languages
English (en)
Inventor
지앤스 딩
저 왕
빈 왕
빙윤 샤
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20230035387A publication Critical patent/KR20230035387A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

스테레오 오디오 신호 지연 추정 방법 및 장치가 개시된다. 상기 방법은 스테레오 오디오 신호의 현재 프레임을 획득하는 단계(S401) - 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 -; 및 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형이면, 제1 알고리즘을 사용하여 현재 프레임의 인터 채널 시간 차이를 추정하는 단계(S403); 또는 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형이면, 제2 알고리즘을 사용하여 현재 프레임의 인터 채널 시간 차이를 추정하는 단계(S403)를 포함한다. 제1 알고리즘은 제1 가중 함수에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하고, 제2 알고리즘은 제2 가중 함수에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하며, 제1 가중 함수의 구성 팩터는 제2 가중 함수의 구성 팩터와 상이하다. 서로 다른 유형의 노이즈를 포함하는 스테레오 오디오 신호에 서로 다른 ITD 추정 알고리즘이 사용되어, 스테레오 오디오 신호의 ITD 추정 정확도가 향상된다.

Description

스테레오 오디오 신호 지연 추정 방법 및 장치
본 출원은 2020년 7월 17일에 중국 특허청에 출원되고 명칭이 "스테레오 오디오 신호 지연 추정 방법 및 장치"인 중국 특허 출원 번호 제202010700806.7호에 대한 우선권을 주장하는 바이며, 이러한 문헌의 내용은 원용에 의해 전체적으로 본 명세서에 포함된다.
본 출원은 오디오 인코딩 및 디코딩 분야에 관한 것으로, 특히 스테레오 오디오 신호 지연 추정 방법 및 장치에 관한 것이다.
일상적인 오디오 및 비디오 통신 시스템에서, 사람들은 고품질 이미지뿐만 아니라 고품질 오디오를 추구한다. 보이스(voice) 및 오디오 통신 시스템에서, 단일 채널 오디오는 점점 더 사람들의 요구를 충족할 수 없다. 한편, 스테레오 오디오는 각 음원의 위치 정보를 운반한다. 이를 통해 오디오의 선명도, 명료도 및 현실감이 향상된다. 따라서, 스테레오 오디오는 사람들 사이에서 점점 인기를 얻고 있다.
스테레오 오디오 인코딩 및 디코딩 기술에서, 파라메트릭 스테레오 인코딩 및 디코딩 기술은 일반적인 오디오 인코딩 및 디코딩 기술이다. 일반적인 공간 파라미터는 인터 채널 코히런스(inter-channel coherence, IC), 인터 채널 레벨 차이(inter-channel level difference, ILD), 인터 채널 시간 차이(inter-channel time difference, ITD), 인터 채널 위상 차이(inter-channel phase difference, IPD) 등을 포함한다. ILD와 ITD는 음원의 위치 정보를 담고 있으며, ILD와 ITD 정보의 정확한 추정은 인코딩된 스테레오의 음상과 음장을 재구성하는데 필수적이다.
현재 가장 일반적으로 사용되는 ITD 추정 방법은 일반화된 상호 상관 방법이며, 이는 이러한 알고리즘이 복잡도가 낮고 실시간 성능이 우수하며 구현이 쉽고 스테레오 오디오 신호의 다른 사전 정보에 의존하지 않기 때문이다. 그러나, 시끄러운 환경에서는 기존의 여러 일반화된 상호 상관 알고리즘의 성능이 크게 저하되어 스테레오 오디오 신호의 ITD 추정 정확도가 낮아진다. 그 결과, 파라메트릭 인코딩 및 디코딩 기술에서의 디코딩된 스테레오 오디오 신호에서 사운드 이미지 부정확성, 불안정성, 빈약한 공간감 및 명백한 인헤드(in-head) 효과와 같은 문제가 발생하여, 인코딩된 스테레오 오디오 신호의 음질에 큰 영향을 미친다.
본 출원은 스테레오 오디오 신호 사이의 인터 채널 시간 차이 추정 정밀도를 향상시키고, 디코딩된 스테레오 오디오 신호의 사운드 이미지의 정확도 및 안정성을 향상시키며, 음질을 향상시키기 위한 스테레오 오디오 신호 지연 추정 방법 및 장치를 제공한다.
제1 측면에 따르면, 본 출원은 스테레오 오디오 신호 지연 추정 방법을 제공한다. 상기 방법은 오디오 코딩 장치에 적용될 수 있다. 오디오 코딩 장치는 스테레오 및 다중 채널 오디오 비디오 통신 시스템에서 오디오 코딩 부분에 적용될 수 있고, 가상 현실(virtual reality, VR) 애플리케이션 프로그램에서 오디오 코딩 부분에 적용될 수 있다. 상기 방법은: 오디오 코딩 장치가 스테레오 오디오 신호의 현재 프레임을 획득하는 단계 - 상기 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 -; 및 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형(coherent noise signal type)이면, 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이(inter-channel time difference, ITD)를 추정하거나, 또는 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형(diffuse noise signal type)이면, 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호의 ITD를 추정하는 단계를 포함한다. 상기 제1 알고리즘은 제1 가중 함수(weighting function)에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼(frequency domain cross power spectrum)에 가중치를 부여하는(weighting) 것을 포함하고, 상기 제2 알고리즘은 제2 가중 함수에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하며, 상기 제1 가중 함수의 구성 팩터(construction factor)는 상기 제2 가중 함수의 구성 팩터와 상이하다.
스테레오 오디오 신호는 원시 스테레오 오디오 신호(좌측 채널 오디오 신호 및 우측 채널 오디오 신호를 포함)이거나, 다중 채널(multi-channel) 오디오 신호에서 2개의 오디오 신호로 구성된 스테레오 오디오 신호이거나, 다중 채널 오디오 신호에서 복수의 오디오 신호를 조합하여 생성된 2개의 오디오 신호로 형성된 스테레오 신호일 수 있다. 물론, 스테레오 오디오 신호는 다르게는 다른 형태일 수 있다. 이는 본 출원의 이 실시예에서 특별히 제한되지 않는다.
선택적으로, 오디오 코딩 장치는 구체적으로 스테레오 코딩 장치일 수 있다. 상기 장치는 독립적인 스테레오 코더를 구성할 수 있거나, 다중 채널 오디오 신호에서 복수의 신호를 조합하여 생성된 2개의 오디오 신호로 형성된 스테레오 오디오 신호를 인코딩하기 위한 다중 채널 코더의 코어 코딩 부분일 수 있다.
일부 가능한 구현에서, 오디오 코딩 장치에 의해 획득된 스테레오 신호의 현재 프레임은 주파수 도메인 오디오 신호 또는 시간 도메인 오디오 신호일 수 있다. 현재 프레임이 주파수 도메인 오디오 신호이면, 오디오 코딩 장치는 주파수 도메인에서 현재 프레임을 직접 처리할 수 있다. 현재 프레임이 시간 도메인 오디오 신호이면, 오디오 코딩 장치는 먼저 시간 도메인에서 현재 프레임에 대해 시간-주파수 변환(time-frequency transform)을 수행하여 주파수 도메인에서 현재 프레임을 획득한 후, 주파수 도메인에서 현재 프레임을 처리할 수 있다.
본 출원에서 오디오 코딩 장치는 서로 다른 유형의 노이즈를 포함하는 스테레오 오디오 신호에 대해 서로 다른 ITD 추정 알고리즘을 사용하여, 확산 노이즈 및 코히런트 노이즈의 경우에 스테레오 오디오 신호의 ITD 추정 정밀도 및 안정성을 크게 향상시키고, 스테레오 다운믹스된 신호(stereo downmixed signal) 사이에서 인터 프레임 불연속성을 감소시키며, 스테레오 신호의 위상을 더 잘 유지한다. 인코딩된 스테레오의 사운드 이미지는 보다 정확하고 안정적이며, 현실감이 강하고, 인코딩된 스테레오 신호의 청각적 품질이 향상된다.
일부 가능한 구현에서, 상기 스테레오 오디오 신호의 현재 프레임을 획득하는 단계 이후에, 상기 스테레오 오디오 신호 지연 추정 방법은, 상기 현재 프레임의 노이즈 코히런스(coherence) 값을 획득하는 단계; 및 상기 노이즈 코히런스 값이 미리 설정된 임계값보다 크거나 같으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 관련 노이즈 신호 유형인 것으로 결정하거나, 또는 상기 노이즈 코히런스 값이 미리 설정된 임계값보다 작으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형인 것으로 결정하는 단계를 더 포함한다.
선택적으로, 미리 설정된 임계값은 실험값으로서 0.20, 0.25, 0.30 등으로 설정될 수 있다.
일부 가능한 구현에서, 상기 현재 프레임의 노이즈 코히런스 값을 획득하는 단계는, 상기 현재 프레임에 대해 음성 종료점 검출(speech endpoint detection)을 수행하는 단계; 및 검출 결과가 상기 현재 프레임의 신호 유형이 노이즈 신호 유형인 것으로 지시하면, 상기 현재 프레임의 노이즈 코히런스 값을 계산하거나, 또는 검출 결과가 상기 현재 프레임의 신호 유형이 음성 신호(speech signal) 유형인 것으로 지시하면, 상기 스테레오 오디오 신호의 현재 프레임의 이전 프레임의 노이즈 코히런스 값을 상기 현재 프레임의 노이즈 코히런스 값으로 결정하는 단계를 포함한다.
선택적으로, 오디오 코딩 장치는 시간 도메인, 주파수 도메인 또는 시간 도메인과 주파수 도메인의 조합에서 음성 종료점 검출 값을 계산할 수 있다. 이것은 여기서 특별히 제한되지 않는다.
본 출원에서, 오디오 코딩 장치는 현재 프레임의 노이즈 코히런스 값을 계산한 후, 노이즈 코히런스 값 추정의 에러를 감소시키고 노이즈 유형 식별의 정확도를 향상시키기 위해 노이즈 코히런스 값에 대해 평활화(smoothing) 처리를 추가로 수행할 수 있다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 상기 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는, 상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하는 단계; 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계; 상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계; 및 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하는 단계를 포함한다. 상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터(Wiener gain factor), 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다. 상기 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는, 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계; 상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계; 및 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하는 단계를 포함한다. 상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제1 가중 함수
Figure pct00001
는 다음 수식을 충족한다:
Figure pct00002
Figure pct00003
는 상기 진폭 가중 파라미터이고,
Figure pct00004
는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
Figure pct00005
는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
Figure pct00006
는 상기 현재 프레임의 k번째 주파수 빈(bin)의 제곱 코히런트 값이며,
Figure pct00007
이며,
Figure pct00008
는 상기 제1 채널 주파수 도메인 신호이고,
Figure pct00009
는 상기 제2 채널 주파수 도메인 신호이며,
Figure pct00010
Figure pct00011
의 켤레 함수이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
일부 가능한 구현에서, 상기 제1 가중 함수
Figure pct00012
는 다음 수식을 충족한다:
Figure pct00013
Figure pct00014
는 상기 진폭 가중 파라미터이고,
Figure pct00015
는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
Figure pct00016
는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
Figure pct00017
는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
Figure pct00018
이며,
Figure pct00019
는 상기 제1 채널 주파수 도메인 신호이고,
Figure pct00020
는 상기 제2 채널 주파수 도메인 신호이며,
Figure pct00021
Figure pct00022
의 켤레 함수이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
선택적으로,
Figure pct00023
이며, 예를 들어,
Figure pct00024
= 0.6, 0.7, 또는 0.8이다.
일부 가능한 구현에서, 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제1 채널 주파수 도메인 신호의 제1 초기(initial) 위너 이득 팩터 및/또는 제1 개선된(improved) 위너 이득 팩터일 수 있다. 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터 및/또는 제2 개선된 위너 이득 팩터일 수 있다.
예를 들어, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이다. 이 경우, 상기 스테레오 오디오 신호의 현재 프레임이 획득된 다음에, 상기 방법은: 상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하는 단계; 상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하는 단계; 및, 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하는 단계를 더 포함한다.
본 출원에서, 위너 이득 팩터 가중치를 적용한 후에, 스테레오 오디오 신호의 주파수 도메인 교차 전력 스펙트럼에서 코히런트 노이즈 컴포넌트의 가중치(weight)를 크게 감소시키고 잔차 노이즈 컴포넌트의 상관관계도 크게 감소시킨다. 대부분의 경우, 스테레오 오디오 신호에서 잔차 노이즈의 제곱 코히런스 값은 타깃 신호(예를 들어, 음성 신호)의 제곱 코히런스 값보다 훨씬 작다. 이러한 방식으로, 타깃 신호에 대응하는 상호 상관 피크 값이 더욱 두드러지고, 스테레오 오디오 신호의 ITD 추정 정밀도와 안정성이 크게 향상된다.
일부 가능한 구현에서, 상기 제1 초기 위너 이득 팩터
Figure pct00025
는 다음 수식을 충족한다:
Figure pct00026
상기 제2 초기 위너 이득 팩터
Figure pct00027
는 다음 수식을 충족한다:
Figure pct00028
Figure pct00029
는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며,
Figure pct00030
는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고,
Figure pct00031
는 상기 제1 채널 주파수 도메인 신호이고,
Figure pct00032
는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
다른 예로, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이다.
상기 스테레오 오디오 신호의 현재 프레임이 획득된 다음에, 상기 방법은: 제1 초기 위너 이득 팩터 및 제2 초기 위너 이득 팩터를 획득하는 단계; 상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수(binary masking function)를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하는 단계; 및 상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하는 단계를 더 포함한다.
본 출원에서는 제1 채널 주파수 도메인 신호에 대응하는 제1 초기 위너 이득 팩터와 제2 채널 주파수 도메인 신호에 대응하는 제2 초기 위너 이득 팩터에 대해 이진 마스킹 함수를 구성하므로, 노이즈의 영향을 덜 받는 주파수 빈이 선택되어 ITD 추정 정확도가 향상된다.
일부 가능한 구현에서, 상기 제1 개선된 위너 이득 팩터
Figure pct00033
는 다음 수식을 충족한다:
Figure pct00034
상기 제2 개선된 위너 이득 팩터
Figure pct00035
는 다음 수식을 충족한다:
Figure pct00036
Figure pct00037
는 상기 위너 이득 팩터의 이진 마스킹 임계값이고,
Figure pct00038
는 상기 제1 초기 위너 이득 팩터이며,
Figure pct00039
는 상기 제2 초기 위너 이득 팩터이다.
선택적으로,
Figure pct00040
[0.5, 0.8]이며, 예를 들어,
Figure pct00041
= 0.5, 0.66, 0.75, 또는 0.8이다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 상기 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는, 상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하는 단계; 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계; 및 상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하여, 상기 제1 채널 주파수 도메인 신호와 상기 제2 채널 주파수 도메인 신호 사이의 상기 인터 채널 시간 차이의 추정값을 획득하는 단계를 포함한다. 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다. 상기 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는, 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계; 상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계; 및 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하는 단계를 포함한다. 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제2 가중 함수
Figure pct00042
는 다음 수식을 충족한다:
Figure pct00043
Figure pct00044
는 상기 진폭 가중 파라미터이고,
Figure pct00045
는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
Figure pct00046
이며,
Figure pct00047
는 상기 제1 채널 주파수 도메인 신호이고,
Figure pct00048
는 상기 제2 채널 주파수 도메인 신호이며,
Figure pct00049
Figure pct00050
의 켤레 함수이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
선택적으로,
Figure pct00051
이며, 예를 들어,
Figure pct00052
= 0.6, 0.7, 또는 0.8이다.
제2 측면에 따르면, 본 출원은 스테레오 오디오 신호 지연 추정 방법을 제공한다. 상기 방법은 오디오 코딩 장치에 적용될 수 있다. 오디오 코딩 장치는 스테레오 및 다중 채널 오디오 비디오 통신 시스템에서 오디오 코딩 부분에 적용될 수 있고, VR 애플리케이션 프로그램에서 오디오 코딩 부분에 적용될 수 있다. 상기 방법은, 현재 프레임이 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함하고; 상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계; 미리 설정된 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계; 및 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 제1 채널 주파수 도메인 신호와 제2 채널 주파수 도메인 신호 사이의 인터 채널 시간 차이의 추정값을 획득하는 단계를 포함할 수 있다.
상기 미리 설정된 가중 함수는 제1 가중 함수 또는 제2 가중 함수를 포함하며, 상기 제1 가중 함수의 구성 팩터는 상기 제2 가중 함수의 구성 팩터와 상이하다.
선택적으로, 상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다. 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계는: 상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하는 단계; 및 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계를 포함한다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다.
일부 가능한 구현에서, 상기 제1 가중 함수
Figure pct00053
는 다음 수식을 충족한다:
Figure pct00054
Figure pct00055
는 상기 진폭 가중 파라미터이고,
Figure pct00056
는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
Figure pct00057
는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
Figure pct00058
는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
Figure pct00059
이며,
Figure pct00060
는 상기 제1 채널 주파수 도메인 신호이고,
Figure pct00061
는 상기 제2 채널 주파수 도메인 신호이며,
Figure pct00062
Figure pct00063
의 켤레 함수이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
일부 가능한 구현에서, 상기 제1 가중 함수
Figure pct00064
는 다음 수식을 충족한다:
Figure pct00065
Figure pct00066
는 상기 진폭 가중 파라미터이고,
Figure pct00067
는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
Figure pct00068
는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
Figure pct00069
는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
Figure pct00070
이며,
Figure pct00071
는 상기 제1 채널 주파수 도메인 신호이고,
Figure pct00072
는 상기 제2 채널 주파수 도메인 신호이며,
Figure pct00073
Figure pct00074
의 켤레 함수이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
선택적으로,
Figure pct00075
이며, 예를 들어,
Figure pct00076
= 0.6, 0.7, 또는 0.8이다.
일부 가능한 구현에서, 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터 및/또는 제1 개선된 위너 이득 팩터일 수 있다. 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터 및/또는 제2 개선된 위너 이득 팩터일 수 있다.
예를 들어, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이다. 상기 스테레오 오디오 신호의 현재 프레임이 획득된 다음에, 상기 방법은: 상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하는 단계; 상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하는 단계; 및, 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하는 단계를 더 포함한다.
일부 가능한 구현에서, 상기 제1 초기 위너 이득 팩터
Figure pct00077
는 다음 수식을 충족한다:
Figure pct00078
상기 제2 초기 위너 이득 팩터
Figure pct00079
는 다음 수식을 충족한다:
Figure pct00080
Figure pct00081
는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며,
Figure pct00082
는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고,
Figure pct00083
는 상기 제1 채널 주파수 도메인 신호이고,
Figure pct00084
는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
다른 예로, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이다. 상기 스테레오 오디오 신호의 현재 프레임이 획득된 다음에, 상기 방법은: 제1 초기 위너 이득 팩터 및 제2 초기 위너 이득 팩터를 획득하는 단계; 상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하는 단계; 및 상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하는 단계를 더 포함한다.
일부 가능한 구현에서, 상기 제1 개선된 위너 이득 팩터
Figure pct00085
는 다음 수식을 충족한다:
Figure pct00086
상기 제2 개선된 위너 이득 팩터
Figure pct00087
는 다음 수식을 충족한다:
Figure pct00088
Figure pct00089
는 상기 위너 이득 팩터의 이진 마스킹 임계값이고,
Figure pct00090
는 상기 제1 초기 위너 이득 팩터이며,
Figure pct00091
는 상기 제2 초기 위너 이득 팩터이다.
선택적으로,
Figure pct00092
[0.5, 0.8]이며, 예를 들어,
Figure pct00093
= 0.5, 0.66, 0.75, 또는 0.8이다.
일부 가능한 구현에서, 상기 제2 가중 함수
Figure pct00094
는 다음 수식을 충족한다:
Figure pct00095
Figure pct00096
는 상기 진폭 가중 파라미터이고,
Figure pct00097
는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
Figure pct00098
이며,
Figure pct00099
는 상기 제1 채널 주파수 도메인 신호이고,
Figure pct00100
는 상기 제2 채널 주파수 도메인 신호이며,
Figure pct00101
Figure pct00102
의 켤레 함수이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
선택적으로,
Figure pct00103
이며, 예를 들어,
Figure pct00104
= 0.6, 0.7, 또는 0.8이다.
제3 측면에 따르면, 본 출원은 스테레오 오디오 신호 지연 추정 장치를 제공한다. 상기 장치는 오디오 코딩 장치의 칩 또는 시스템 온 칩(system on chip)일 수 있거나, 오디오 코딩 장치에 있으면서 또한 제1 측면 또는 제1 측면의 가능한 구현 중 어느 하나에 따른 방법을 구현하도록 구성되는 기능 모듈일 수 있다. 예를 들어, 상기 스테레오 오디오 신호 지연 추정 장치는, 스테레오 오디오 신호의 현재 프레임을 획득하도록 - 상기 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 - 구성된 제1 획득 모듈; 및 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형이면, 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하거나, 또는 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형이면, 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하도록 구성된 제1 인터 채널 시간 차이 추정 모듈을 포함한다. 상기 제1 알고리즘은 제1 가중 함수에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하고, 상기 제2 알고리즘은 제2 가중 함수에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하며, 상기 제1 가중 함수의 구성 팩터는 상기 제2 가중 함수의 구성 팩터와 상이하다.
일부 가능한 구현에서, 상기 장치는, 상기 제1 획득 모듈이 상기 현재 프레임을 획득한 후 상기 현재 프레임의 노이즈 코히런스 값을 획득하고; 그리고 상기 노이즈 코히런스 값이 미리 설정된 임계값보다 크거나 같으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 관련 노이즈 신호 유형인 것으로 결정하거나, 또는 상기 노이즈 코히런스 값이 미리 설정된 임계값보다 작으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형인 것으로 결정하도록 구성된 노이즈 코히런스 값 계산 모듈을 더 포함한다.
일부 가능한 구현에서, 상기 장치는, 상기 현재 프레임에 대해 음성 종료점 검출을 수행하도록 구성된 음성 종료점 검출 모듈을 더 포함하다. 상기 노이즈 코히런스 값 계산 모듈은 구체적으로, 검출 결과가 상기 현재 프레임의 신호 유형이 노이즈 신호 유형인 것으로 지시하면, 상기 현재 프레임의 노이즈 코히런스 값을 계산하거나, 또는 검출 결과가 상기 현재 프레임의 신호 유형이 음성 신호 유형인 것으로 지시하면, 상기 스테레오 오디오 신호의 현재 프레임의 이전 프레임의 노이즈 코히런스 값을 상기 현재 프레임의 노이즈 코히런스 값으로 결정하도록 구성된다.
본 출원에서, 음성 종료점 검출 모듈은 시간 도메인, 주파수 도메인, 또는 시간 도메인과 주파수 도메인의 조합에서 음성 종료점 검출 값을 계산할 수 있다. 이것은 여기서 특별히 제한되지 않는다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 상기 제1 인터 채널 시간 차이 추정 모듈은, 상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하며; 상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하고; 그리고 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성된다. 상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다. 상기 제1 인터 채널 시간 차이 추정 모듈은, 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고; 상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며; 그리고 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성된다. 상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제1 가중 함수
Figure pct00105
는 다음 수식을 충족한다:
Figure pct00106
Figure pct00107
는 상기 진폭 가중 파라미터이며,
Figure pct00108
이고,
Figure pct00109
는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
Figure pct00110
는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
Figure pct00111
는 상기 제1 채널 주파수 도메인 신호이며,
Figure pct00112
는 상기 제2 채널 주파수 도메인 신호이고,
Figure pct00113
Figure pct00114
의 켤레 함수이며,
Figure pct00115
는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이고,
Figure pct00116
이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
일부 가능한 구현에서, 상기 제1 가중 함수
Figure pct00117
는 다음 수식을 충족한다:
Figure pct00118
Figure pct00119
는 상기 진폭 가중 파라미터이고,
Figure pct00120
이고,
Figure pct00121
는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
Figure pct00122
는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
Figure pct00123
는 상기 제1 채널 주파수 도메인 신호이며,
Figure pct00124
는 상기 제2 채널 주파수 도메인 신호이고,
Figure pct00125
Figure pct00126
의 켤레 함수이며,
Figure pct00127
는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이고,
Figure pct00128
이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
일부 가능한 구현에서, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이다. 상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로, 상기 제1 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하며, 상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 그리고 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하도록 구성된다.
일부 가능한 구현에서, 상기 제1 초기 위너 이득 팩터
Figure pct00129
는 다음 수식을 충족한다:
Figure pct00130
상기 제2 초기 위너 이득 팩터
Figure pct00131
는 다음 수식을 충족한다:
Figure pct00132
Figure pct00133
는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며,
Figure pct00134
는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고,
Figure pct00135
는 상기 제1 채널 주파수 도메인 신호이고,
Figure pct00136
는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
일부 가능한 구현에서, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이다. 상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로, 상기 제1 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하며; 그리고 상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하도록 구성된다.
일부 가능한 구현에서, 상기 제1 개선된 위너 이득 팩터
Figure pct00137
는 다음 수식을 충족한다:
Figure pct00138
상기 제2 개선된 위너 이득 팩터
Figure pct00139
는 다음 수식을 충족한다:
Figure pct00140
Figure pct00141
는 상기 위너 이득 팩터의 이진 마스킹 임계값이고,
Figure pct00142
는 상기 제1 초기 위너 이득 팩터이며,
Figure pct00143
는 상기 제2 초기 위너 이득 팩터이다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로, 상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하며; 그리고 상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성된다. 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다. 상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로, 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고; 상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며; 그리고 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성된다. 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제2 가중 함수
Figure pct00144
는 다음 수식을 충족한다:
Figure pct00145
Figure pct00146
는 상기 진폭 가중 파라미터이고,
Figure pct00147
이며,
Figure pct00148
는 상기 제1 채널 주파수 도메인 신호이고,
Figure pct00149
는 상기 제2 채널 주파수 도메인 신호이며,
Figure pct00150
Figure pct00151
의 켤레 함수이고,
Figure pct00152
는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
Figure pct00153
이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
제4 측면에 따르면, 본 출원은 스테레오 오디오 신호 지연 추정 장치를 제공한다. 상기 장치는 오디오 코딩 장치의 칩 또는 시스템 온 칩일 수 있거나, 오디오 코딩 장치에 있으면서 또한 제2 측면 또는 제2 측면의 가능한 구현 중 어느 하나에 따른 방법을 구현하도록 구성되는 기능 모듈일 수 있다. 예를 들어, 상기 스테레오 오디오 신호 지연 추정 장치는, 스테레오 오디오 신호의 현재 프레임을 획득하도록 - 상기 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 - 구성된 제2 획득 모듈; 및 상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고, 미리 설정된 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며, 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 제1 채널 주파수 도메인 신호와 제2 채널 주파수 도메인 신호 사이의 인터 채널 시간 차이의 추정값을 획득하도록 구성된 제2 인터 채널 시간 차이 추정 모듈을 포함한다. 상기 미리 설정된 가중 함수는 제1 가중 함수 또는 제2 가중 함수이다. 상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다. 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 상기 제2 인터 채널 시간 차이 추정 모듈은, 상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 그리고 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하도록 구성된다.
일부 가능한 구현에서, 상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다.
일부 가능한 구현에서, 상기 제1 가중 함수
Figure pct00154
는 다음 수식을 충족한다:
Figure pct00155
Figure pct00156
는 상기 진폭 가중 파라미터이며,
Figure pct00157
이고,
Figure pct00158
는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
Figure pct00159
는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
Figure pct00160
는 상기 제1 채널 주파수 도메인 신호이며,
Figure pct00161
는 상기 제2 채널 주파수 도메인 신호이고,
Figure pct00162
Figure pct00163
의 켤레 함수이며,
Figure pct00164
는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이고,
Figure pct00165
이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
일부 가능한 구현에서, 상기 제1 가중 함수
Figure pct00166
는 다음 수식을 충족한다:
Figure pct00167
Figure pct00168
는 상기 진폭 가중 파라미터이고,
Figure pct00169
이고,
Figure pct00170
는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
Figure pct00171
는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
Figure pct00172
는 상기 제1 채널 주파수 도메인 신호이며,
Figure pct00173
는 상기 제2 채널 주파수 도메인 신호이고,
Figure pct00174
Figure pct00175
의 켤레 함수이며,
Figure pct00176
는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이고,
Figure pct00177
이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
일부 가능한 구현에서, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이다. 상기 제2 인터 채널 시간 차이 추정 모듈은 구체적으로, 상기 제2 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하며, 상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 그리고 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하도록 구성된다.
일부 가능한 구현에서, 상기 제1 초기 위너 이득 팩터
Figure pct00178
는 다음 수식을 충족한다:
Figure pct00179
상기 제2 초기 위너 이득 팩터
Figure pct00180
는 다음 수식을 충족한다:
Figure pct00181
Figure pct00182
는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며,
Figure pct00183
는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고,
Figure pct00184
는 상기 제1 채널 주파수 도메인 신호이고,
Figure pct00185
는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
일부 가능한 구현에서, 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이다. 상기 제2 인터 채널 시간 차이 추정 모듈은 구체적으로, 상기 제2 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 초기 위너 이득 팩터 및 상기 제2 초기 위너 이득 팩터를 획득하고; 상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하며; 그리고 상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하도록 구성된다.
일부 가능한 구현에서, 상기 제1 개선된 위너 이득 팩터
Figure pct00186
는 다음 수식을 충족한다:
Figure pct00187
상기 제2 개선된 위너 이득 팩터
Figure pct00188
는 다음 수식을 충족한다:
Figure pct00189
Figure pct00190
는 상기 위너 이득 팩터의 이진 마스킹 임계값이고,
Figure pct00191
는 상기 제1 초기 위너 이득 팩터이며,
Figure pct00192
는 상기 제2 초기 위너 이득 팩터이다.
일부 가능한 구현에서, 상기 제2 가중 함수
Figure pct00193
는 다음 수식을 충족한다:
Figure pct00194
Figure pct00195
이며,
Figure pct00196
는 상기 제1 채널 주파수 도메인 신호이고,
Figure pct00197
는 상기 제2 채널 주파수 도메인 신호이며,
Figure pct00198
Figure pct00199
의 켤레 함수이고,
Figure pct00200
는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
Figure pct00201
이고, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량이다.
제5 측면에 따르면, 본 출원은 서로 결합된 비휘발성 메모리 및 프로세서를 포함하는 오디오 코딩 장치를 제공한다. 상기 프로세서는 상기 메모리에 저장된 프로그램 코드를 호출하여, 제1 측면, 제2 측면, 및 제1 측면과 제2 측면의 가능한 구현 중 어느 하나에 따른 스테레오 오디오 신호 지연 추정 방법을 수행한다.
제6 측면에 따르면, 본 출원은 컴퓨터가 판독 가능한 저장 매체를 제공한다. 상기 컴퓨터 판독 가능한 저장 매체는 명령어를 저장하고, 상기 명령어가 컴퓨터에서 실행될 때, 제1 측면, 제2 측면, 및 제1 측면과 제2 측면의 가능한 구현 중 어느 하나에 따른 스테레오 오디오 신호 지연 추정 방법이 수행된다.
제7 측면에 따르면, 본 출원은 인코딩된 비트스트림을 포함하는 컴퓨터가 판독 가능한 저장 매체를 제공한다. 상기 인코딩된 비트스트림은 제1 측면, 제2 측면, 및 제1 측면과 제2 측면의 가능한 구현 중 어느 하나에서의 스테레오 오디오 신호 지연 추정 방법에 따라 획득된, 스테레오 오디오 신호 사이의 인터 채널 시간 차이를 포함한다.
제8 측면에 따르면, 본 출원은 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품을 제공한다. 상기 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때, 상기 컴퓨터는 제1 측면, 제2 측면, 및 제1 측면과 제2 측면의 가능한 구현 중 어느 하나에 따른 스테레오 오디오 신호 지연 추정 방법을 구현하도록 인에이블된다.
본 출원의 제4 측면 내지 제10 측면의 기술 솔루션은 본 출원의 제1 측면 내지 제2 측면의 기술 솔루션과 일치함을 이해해야 한다. 이러한 측면과 그에 상응하는 실행 가능한 구현에 의해 달성되는 유익한 효과는 유사하다. 자세한 내용은 다시 설명하지 않는다.
다음은 본 출원의 배경이나 실시예를 설명하기 위해 필요한 첨부도면을 설명한다.
도 1은 본 출원의 실시예에 따른 주파수 도메인에서의 파라메트릭 스테레오 인코딩 및 디코딩 방법의 개략적인 흐름도이다.
도 2는 본 출원의 실시예에 따른 일반화된 상호 상관 알고리즘의 개략적인 흐름도이다.
도 3은 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 1이다.
도 4는 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 2이다.
도 5는 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 3이다.
도 6은 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 장치의 구조를 도시한 개략도이다.
도 7은 본 출원의 실시예에 따른 오디오 코딩 장치의 구조를 도시하는 개략도이다.
다음은 본 출원의 실시예에서 첨부된 도면을 참조하여 본 출원의 실시예를 설명한다. 다음의 설명에서, 본 출원의 일부를 형성하고 예시적인 방식으로 본 출원의 실시예의 특정 측면을 도시하거나 본 출원 실시예의 특정 측면이 사용될 수 있는 첨부 도면을 참조한다. 본 출원의 실시예는 다른 측면에서 사용될 수 있고 첨부된 도면에 도시되지 않은 구조적 또는 논리적 변경을 포함할 수 있음을 이해해야 한다. 예를 들어, 기술된 방법에 대한 개시는 방법을 수행하기 위한 대응하는 디바이스 또는 시스템에도 적용될 수 있으며, 그 역도 마찬가지라는 것을 이해해야 한다. 예를 들어, 하나 이상의 특정 방법 단계가 기술되면, 대응하는 디바이스는 하나 이상의 유닛이 첨부된 도면에 명시적으로 기재되거나 예시되지 않더라도, 기술된 하나 이상의 방법 단계를 수행하기 위한 기능 유닛과 같은 하나 이상의 유닛을 (예를 들어, 하나의 유닛이 하나 이상의 단계를 수행하거나, 또는 복수의 유닛 각각이 복수의 단계 중 하나 이상을 수행함) 포함할 수 있다. 또한, 예를 들어 특정 장치가 기능 유닛과 같이 하나 이상의 유닛에 기반하여 기술되면, 대응하는 방법은 하나 이상의 단계가 첨부된 도면에 명시적으로 설명되거나 예시되지 않더라도, 하나 이상의 유닛의 기능을 구현하기 위한 하나의 단계(예를 들어, 하나 이상의 유닛의 기능을 구현하기 위한 하나의 단계 또는 각각이 복수의 유닛 중 하나 이상의 유닛의 기능을 구현하기 위한 복수의 단계)를 포함할 수 있다. 또한, 본 명세서에 기재된 다양한 실시예의 특징 및/또는 측면은 달리 명시되지 않는 한 서로 조합될 수 있음이 이해되어야 한다.
보이스 및 오디오 통신 시스템에서, 단일 채널 오디오는 점점 더 사람들의 요구를 충족할 수 없다. 한편, 스테레오 오디오는 각 음원의 위치 정보를 운반한다. 이를 통해 오디오의 선명도와 명료도가 향상되고 오디오의 현실감이 향상된다. 따라서, 스테레오 오디오는 사람들 사이에서 점점 인기를 얻고 있다.
보이스 및 오디오 통신 시스템에서, 오디오 인코딩 및 디코딩 기술은 매우 중요한 기술이다. 이 기술은 청각 모델에 기반하여, 최소한의 에너지를 사용하여 왜곡을 감지하고, 가능한 한 최저 코딩율로 오디오 신호를 표현하여 오디오 신호 전송 및 저장을 용이하게 한다. 고품질 오디오에 대한 요구를 충족하기 위해, 일련의 스테레오 인코딩 및 디코딩 기술이 개발되었다.
가장 일반적으로 사용되는 스테레오 인코딩 및 디코딩 기술은 파라메트릭 스테레오 인코딩 및 디코딩 기술이다. 이 기술의 이론적 기반은 공간 청각 원리(spatial hearing principle)이다. 구체적으로, 오디오 인코딩 프로세스에서 원시 스테레오 오디오 신호는 단일 채널 신호 및 표현을 위한 일부 공간 파라미터로 변환되거나, 원시 스테레오 오디오 신호는 단일 채널 신호, 잔차 신호 및 표현을 위한 일부 공간 파라미터로 변환된다. 오디오 디코딩 프로세스에서, 디코딩된 단일 채널 신호와 공간 파라미터를 사용하여 스테레오 오디오 신호를 재구성하거나, 디코딩된 단일 채널 신호, 잔차 신호, 및 공간 파라미터를 사용하여 스테레오 오디오 신호를 재구성한다.
도 1은 본 출원의 실시예에 따른 주파수 도메인에서의 파라메트릭 스테레오 인코딩 및 디코딩 방법의 개략적인 흐름도이다. 도 1에 도시된 바와 같이, 프로세스는 다음 단계를 포함할 수 있다.
S101: 인코더 측은 스테레오 오디오 신호의 현재 프레임의 제1 채널 오디오 신호 및 제2 채널 오디오 신호에 대해 시간-주파수 변환(예를 들어, 이산 푸리에 변환(discrete Fourier transform, DFT))을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득한다.
먼저, 인코더 측으로 입력되는 스테레오 오디오 신호는 2개의 오디오 신호, 즉 제1 채널 오디오 신호와 제2 채널 오디오 신호(예를 들어, 좌측 채널 오디오 신호와 우측 채널 오디오 신호)를 포함할 수 있다는 점에 유의해야 한다. 스테레오 오디오 신호에 포함된 2개의 오디오 신호는 다중 채널 오디오 신호에서의 2개의 오디오 신호일 수도 있고, 다중 채널 오디오 신호에서 복수의 오디오 신호를 조합하여 생성된 2개의 오디오 신호일 수도 있다. 이것은 여기서 특별히 제한되지 않는다.
여기서, 인코더 측은 스테레오 오디오 신호를 인코딩할 때, 프레이밍(framing) 처리를 수행하여 복수의 오디오 프레임을 획득하고, 오디오 프레임을 프레임별로 처리한다.
S102: 인코더 측은 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호에 대한 공간 파라미터, 다운믹스된 신호 및 잔차 신호를 추출한다.
공간 파라미터는 인터 채널 코히런스(inter-channel coherence, IC), 인터 채널 레벨 차이(inter-channel level difference, ILD), 인터 채널 시간 차이(inter-channel time difference, ITD), 인터 채널 위상 차이(inter-channel phase difference, IPD) 등을 포함할 수 있다.
S103: 인코더 측은 공간 파라미터, 다운믹스된 신호 및 잔차 신호를 개별적으로 인코딩한다.
S104: 인코더 측은 인코딩된 공간 파라미터, 다운믹스된 신호 및 잔차 신호에 기반하여 주파수 도메인 파라메트릭 스테레오 비트스트림을 생성한다.
S105: 인코더 측은 주파수 도메인 파라메트릭 스테레오 비트스트림을 디코더 측으로 전송한다.
S106: 디코더 측은 수신된 주파수 도메인 파라메트릭 스테레오 비트스트림을 디코딩하여 대응하는 공간 파라미터, 다운믹스된 신호 및 잔차 신호를 획득한다.
S107: 디코더 측은 다운믹스된 신호 및 잔차 신호에 대해 주파수 도메인 업믹싱(upmixing) 처리를 수행하여 업믹스된 신호를 획득한다.
S108: 디코더 측은 업믹스된 신호와 공간 파라미터를 합성하여 주파수 도메인 오디오 신호를 획득한다.
S109: 디코더 측은 공간 파라미터에 기반하여 주파수 도메인 오디오 신호에 대해 역 시간-주파수 변환(예를 들어, 역 이산 푸리에 변환(inverse discrete Fourier transform, IDFT))을 수행하여, 현재 프레임의 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 획득한다.
또한, 인코더 측은 스테레오 오디오 신호에서 각 오디오 프레임에 대해 제1 단계 내지 제5 단계를 수행하고, 디코더 측은 각 프레임에 대해 제6 단계 내지 제9 단계를 수행한다. 이러한 방식으로, 디코더 측은 복수의 오디오 프레임의 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 획득할 수 있고, 또한 스테레오 오디오 신호의 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 획득할 수 있다.
상술한 파라메트릭 스테레오 인코딩 및 디코딩 프로세스에서, 공간 파라미터의 ILD와 ITD는 음원의 위치 정보를 담고 있다. 따라서, ILD와 ITD의 정확한 추정은 스테레오 사운드 이미지와 음장의 재구성에 매우 중요하다.
파라메트릭 스테레오 인코딩 기술에서 가장 일반적으로 사용되는 ITD 추정 방법은 일반화된 상호 상관 방법일 수 있으며, 이는 낮은 복잡도, 좋은 실시간 성능, 쉬운 구현과 같은 장점을 가지고 있으며, 스테레오 오디오 신호의 다른 사전 정보에 의존하지 않는다. 도 2는 본 출원의 실시예에 따른 일반화된 상호 상관 알고리즘의 개략적인 흐름도이다. 도 2에 도시된 바와 같이, 이 방법은 다음 단계를 포함할 수 있다.
S201: 인코더 측은 스테레오 오디오 신호에 대해 DFT를 수행하여 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득한다.
S202: 인코더 측은 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호에 기반하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호의 주파수 도메인 교차 전력 스펙트럼 및 주파수 도메인 가중 함수를 계산한다.
S203: 인코더 측은 주파수 도메인 가중 함수에 기반하여 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여한다.
S204: 인코더 측은 가중된 주파수 도메인 상호 전력 스펙트럼에 대해 IDFT를 수행하여 주파수 도메인 교차 상관 함수를 획득한다.
S205: 인코더 측은 주파수 도메인 교차 상관 함수에 대해 피크 검출을 수행한다.
S206: 인코더 측은 교차 상관 함수의 피크 값에 기반하여 추정 ITD 값(estimated ITD value)을 결정한다.
일반화 교차 상관 알고리즘에서 제2 단계의 주파수 도메인 가중 함수는 다음과 같은 함수를 사용할 수 있다.
유형 1: 앞선 제2 단계의 주파수 도메인 가중 함수는 수식 (1):
Figure pct00202
(1)
로 나타낼 수 있다.
Figure pct00203
는 PHAT 가중 함수이고,
Figure pct00204
는 제1 채널 오디오 신호
Figure pct00205
의 주파수 도메인 오디오 신호이며, 즉, 제1 채널 주파수 도메인 신호이고,
Figure pct00206
는 제2 채널 오디오 신호
Figure pct00207
의 주파수 도메인 오디오 신호이며, 즉, 제2 채널 주파수 도메인 신호이고,
Figure pct00208
는 제1 채널과 제2 채널의 교차 전력 스펙트럼이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...,이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 현재 프레임의 주파수 빈의 총 수량이다.
이에 상응하여, 가중된 일반화 교차 상관 함수는 수식 (2):
Figure pct00209
(2)
로 나타낼 수 있다.
실제 애플리케이션에서, 수식 (1)에 나타낸 주파수 도메인 가중 함수와 수식 (2)에 나타낸 가중된 일반화 교차 상관 함수에 기반하여 ITD 추정을 수행하는 것을 일반화 교차 상관 위상 변환(generalized cross-correlation phase transform, GCC-PHAT)이라고 할 수 있다. 스테레오 오디오 신호의 에너지는 서로 다른 주파수 빈 간에 크게 다르며, 에너지가 낮은 주파수 빈은 노이즈의 영향을 많이 받고, 에너지가 높은 주파수 빈은 노이즈의 영향을 약간 받는다. GCC-PHAT 알고리즘에서, PHAT 가중 함수에 기반하여 상호 전력 스펙트럼에 가중치를 부여한 후, 일반화 교차 상관 함수에서 주파수 빈의 가중된 값의 가중치는 동일하다. 결과적으로, GCC-PHAT 알고리즘은 노이즈 신호에 매우 민감하여, 신호 대 노이즈비가 중간 이상인 경우에도 GCC-PHAT 알고리즘의 성능도 크게 저하된다. 또한, 공간에 하나 이상의 노이즈 소스가 있을 때, 즉 경쟁 음원이 있을 때, 스테레오 오디오 신호에 코히런트 노이즈 신호가 존재하고, 현재 프레임의 타깃 신호(예를 들어, 음성 신호)에 대응하는 피크 값이 약해진다. 따라서, 일부 경우, 예를 들어, 코히런트 노이즈 신호의 에너지가 타깃 신호의 에너지보다 크거나 노이즈 소스가 마이크에 가까운 경우에, 코히런트 노이즈 신호의 피크 값이 타깃 신호에 대응하는 에너지 피크 값보다 크다. 이 경우, 스테레오 오디오 신호의 추정 ITD 값은 노이즈 신호의 추정 ITD 값이다. 즉, 코히런트 노이즈가 있으면, 스테레오 오디오 신호의 ITD 추정 정밀도가 크게 감쇠되며, 스테레오 오디오 신호의 추정 ITD 값은 타깃 신호의 ITD 값과 노이즈 신호의 ITD 값 사이에서 계속해서 전환되며, 이는 인코딩된 스테레오 오디오 신호의 사운드 이미지 안정성에 영향을 미친다.
유형 2: 앞선 제2 단계의 주파수 도메인 가중 함수는 수식 (3):
Figure pct00210
(3)
으로 나타낼 수 있다.
Figure pct00211
는 진폭 가중 파라미터이고
Figure pct00212
이다.
이에 상응하여, 가중된 일반화 교차 상관 함수는 추가로 수식 (4):
Figure pct00213
(4)
로 나타낼 수 있다.
실제 애플리케이션에서, 수식 (3)에 나타낸 주파수 도메인 가중 함수와 수식 (4)에 나타낸 가중된 일반화 교차 상관 함수에 기반하여 ITD 추정을 수행하는 것을 GCC-PHAT-β 알고리즘이라고 할 수 있다. 상이한 노이즈 신호 유형에 대해서는 β의 최적 값이 상이하고 최적 값도 크게 상이하기 때문이다. 따라서, 상이한 노이즈 신호 유형에 대한 GCC-PHAT-β 알고리즘의 성능이 상이하다. 또한, 신호대 노이즈비가 중간 이상인 경우에, GCC-PHAT-β 알고리즘의 성능이 어느 정도 향상되더라도, 파라메트릭 스테레오 인코딩 및 디코딩 기술에서 요구하는 ITD 추정 정밀도를 충족시키지 못한다. 또한, 코히런트 노이즈가 있으면, GCC-PHAT-β 알고리즘의 성능도 심하게 저하된다.
유형 3: 앞선 제2 단계의 주파수 도메인 가중 함수는 수식 (5):
Figure pct00214
(5)
로 나타낼 수 있다.
Figure pct00215
는 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이고,
Figure pct00216
이다.
이에 상응하여, 가중된 일반화 교차 상관 함수는 추가로 수식 (6):
Figure pct00217
(6)
으로 나타낼 수 있다.
실제 애플리케이션에서, 수식 (5)에 나타낸 주파수 도메인 가중 함수와 수식 (6)에 나타낸 가중된 일반화 교차 상관 함수에 기반하여 ITD 추정을 수행하는 것을 GCC-PHAT-Coh 알고리즘이라고 할 수 있다. 일부 조건에서, 스테레오 오디오 신호의 코히런트 노이즈에서 대부분의 주파수 빈의 제곱 코히런스 값은 현재 프레임에서 타깃 신호의 제곱 코히런스 값보다 크다. 결과적으로, GCC-PHAT-Coh 알고리즘의 성능이 심하게 저하된다. 또한, 스테레오 오디오 신호의 에너지는 서로 다른 주파수 빈 사이에서 크게 달라지며, GCC-PHAT-Coh 알고리즘은 서로 다른 주파수 빈 사이의 에너지 차이가 알고리즘 성능에 미치는 영향을 고려하지 않는다. 결과적으로, 일부 조건에서 ITD 추정 성능이 좋지 않다.
노이즈는 일반화된 상호 상관 알고리즘의 성능에 심각한 영향을 미친다는 것을 위에서 알 수 있다. 결과적으로, ITD 추정 정밀도가 심각하게 저하되고, 파라메트릭 인코딩 및 디코딩 기술에서 디코딩된 스테레오 오디오 신호에서의 사운드 이미지 부정확성, 불안정성, 빈약한 공간감 및 명백한 인헤드 효과와 같은 문제가 발생하여, 인코딩된 스테레오 오디오 신호의 음질에 심각한 영향을 미친다.
전술한 문제를 해결하기 위해, 본 출원의 실시예는 스테레오 오디오 신호 지연 추정 방법을 제공한다. 이 방법은 오디오 코딩 장치에 적용될 수 있다. 오디오 코딩 장치는 스테레오 및 다중 채널 오디오 및 비디오 통신 시스템에서 오디오 코딩 부분에 적용될 수 있고, 가상 현실(virtual reality, VR) 애플리케이션 프로그램에서 오디오 코딩 부분에 적용될 수 있다.
실제 애플리케이션에서, 오디오 코딩 장치는 오디오 및 비디오 통신 시스템의 단말에 배치될 수 있다. 예를 들어, 단말은 보이스 또는 데이터 연결(connectivity)을 사용자에게 제공하는 디바이스일 수 있다. 예를 들어, 단말은 다르게는, 사용자 장비(user equipment, UE), 이동국(mobile station), 가입자 유닛(subscriber unit), 스테이션(Station) 또는 단말 장비(terminal equipment, TE)로 지칭될 수 있다. 단말 디바이스는 셀룰러 폰(cellular phone), 개인 정보 단말기(personal digital assistant, PDA), 무선 모뎀(modem), 핸드헬드(handheld) 디바이스, 랩톱 컴퓨터(laptop computer), 무선 전화(cordless phone), 무선 로컬 루프(wireless local loop, WLL) 스테이션, 패드(pad) 등일 수 있다. 무선 통신 기술의 발달로, 무선 통신 시스템에 액세스하거나, 무선 통신 시스템의 네트워크 측과 통신하거나, 무선 통신 시스템을 사용하여 다른 디바이스와 통신할 수 있는 임의의 디바이스는, 지능형 교통의 단말 및 차량, 스마트 가정의 가정용 디바이스, 스마트 그리드의 전기 검침 기기(instrument), 전압 모니터링 기기, 환경 모니터링 기기, 지능형 보안 네트워크의 비디오 감시 기기 또는 금전 등록기와 같은 본 출원의 실시예에서의 단말 디바이스일 수 있다. 단말 디바이스는 고정식 및 고정 또는 이동형일 수 있다.
다르게는, 오디오 인코더는 추가로 VR 기능을 갖는 디바이스에 배치될 수 있다. 예를 들어, 디바이스는 스마트폰, 태블릿 컴퓨터, 스마트 텔레비전, 노트북 컴퓨터, 개인용 컴퓨터, 웨어러블 디바이스(VR 안경, VR 헬멧, VR 모자 등), VR 애플리케이션을 지원하는 것 등일 수 있으며, 또는 VR 기능을 갖는 디바이스와 통신하는 클라우드 서버에 배치될 수 있다. 물론, 오디오 코딩 장치는 스테레오 오디오 신호 저장 및/또는 전송 기능을 갖는 다른 디바이스에 배치될 수도 있다. 이는 본 출원의 이 실시예에서 특별히 제한되지 않는다.
본 출원의 이 실시예에서, 스테레오 오디오 신호는 원시 스테레오 오디오 신호(좌측 채널 오디오 신호 및 우측 채널 오디오 신호를 포함)일 수 있거나, 다중 채널에서 2개의 오디오 신호에 의해 형성된 스테레오 오디오 신호일 수 있거나, 다중 채널 오디오 신호에서 복수의 오디오 신호를 조합하여 생성된 2개의 오디오 신호에 의해 형성된 스테레오 신호일 수 있다. 물론, 스테레오 오디오 신호는 다르게는 다른 형태일 수 있다. 이는 본 출원의 이 실시예에서 특별히 제한되지 않는다. 이하의 실시예에서는 스테레오 오디오 신호가 원시 스테레오 오디오 신호인 예를 들어 설명한다. 스테레오 오디오 신호는 시간 도메인에서 좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호를 포함할 수 있고, 스테레오 오디오 신호는 주파수 도메인에서 좌측 채널 주파수 도메인 신호와 우측 채널 주파수 도메인 신호를 포함할 수 있다. 이하의 실시예에서, 제1 채널 오디오 신호는 (시간 도메인 또는 주파수 도메인에서) 좌측 채널 오디오 신호일 수 있고, 제1 채널 시간 도메인 신호는 좌측 채널 시간 도메인 신호일 수 있으며, 제1 채널 주파수 도메인 신호는 좌측 채널 주파수 도메인 신호일 수 있다. 이와 유사하게, 제2 채널 오디오 신호는 (시간 도메인 또는 주파수 도메인에서) 우측 채널 오디오 신호일 수 있고, 제2 채널 시간 도메인 신호는 우측 채널 시간 도메인 신호일 수 있으며, 제2 채널 주파수 도메인 신호는 우측 채널 주파수 도메인 신호일 수 있다.
선택적으로, 오디오 코딩 장치는 구체적으로 스테레오 코딩 장치일 수 있다. 상기 장치는 독립적인 스테레오 코더를 구성할 수 있으며; 또는 다중 채널 오디오 신호에서 복수의 신호를 조합하여 생성된 2개의 오디오 신호에 의해 형성된 스테레오 오디오 신호를 인코딩하기 위한 다중 채널 코더의 코어 코딩 부분일 수 있다.
다음은 본 출원의 실시예에서 제공되는 스테레오 오디오 신호 지연 추정 방법을 설명한다.
먼저, 본 출원의 이 실시예에서 제공되는 주파수 도메인 가중 함수가 설명된다.
본 출원의 이 실시예에서, 일반화된 상호 상관 알고리즘의 성능을 개선하기 위해, 전술한 몇몇에서 주파수 도메인 가중 함수(예를 들어, 전술한 수식 (1), 수식 (3) 및 수식 (5)에 나타낸 바와 같음) 알고리즘이 개선될 수 있고, 개선된 주파수 도메인 가중 기능은 다음과 같은 여러 기능일 수 있지만 이에 제한되지는 않는다.
제1 개선된 주파수 도메인 가중 함수(즉, 제1 가중 함수)의 구성 팩터는 좌측 채널 위너(Wiener) 이득 팩터(즉, 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터), 우측 채널 위너 이득 팩터(즉, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터)와 현재 프레임의 제곱 코히런스 값을 포함할 수 있다.
여기서, 구성 팩터는 타깃 함수를 구성하는 데 사용되는 팩터 또는 팩터들을 의미한다. 타깃 함수가 개선된 주파수 도메인 가중 함수일 때, 구성 팩터는 개선된 주파수 도메인 가중 함수를 구성하는 데 사용되는 하나 이상의 함수일 수 있다.
실제 애플리케이션에서, 제1 개선된 주파수 도메인 가중 함수는 수식 (7):
Figure pct00218
(7)
로 나타낼 수 있다.
Figure pct00219
는 제1 개선된 주파수 도메인 가중 함수이고,
Figure pct00220
는 진폭 가중 파라미터이며,
Figure pct00221
이고, 예를 들어,
Figure pct00222
= 0.6, 0.7, 또는 0.8이며,
Figure pct00223
는 좌측 채널 위너 이득 팩터이고,
Figure pct00224
는 우측 채널 위너 이득 팩터이며,
Figure pct00225
는 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이고,
Figure pct00226
이다.
일부 가능한 실시예에서, 제1 개선된 주파수 도메인 가중 함수는 추가로 수식 (8):
Figure pct00227
(8)
로 나타낼 수 있다.
이에 상응하여, 제1 개선된 주파수 도메인 가중 함수를 사용하는 것에 기반하여 가중된 일반화 교차 상관 함수는 또한 수식 (9):
Figure pct00228
(9)
로 나타낼 수 있다.
일부 가능한 구현에서, 좌측 채널 위너 이득 팩터는 제1 초기 위너 이득 팩터 및/또는 제1 개선된 위너 이득 팩터를 포함할 수 있고, 우측 채널 위너 이득 팩터는 제2 초기 위너 이득 팩터 및/또는 제2 개선된 위너 이득 팩터를 포함할 수 있다.
구체적으로, 실제 애플리케이션에서,
Figure pct00229
에 대해 노이즈 전력 스펙트럼 추정을 수행하여 제1 초기 위너 이득 팩터를 결정할 수 있다. 구체적으로, 좌측 채널 위너 이득 팩터가 제1 초기 위너 이득 팩터를 포함할 때, 상기 방법은, 오디오 코딩 장치가 현재 프레임의 좌측 채널 주파수 도메인 신호
Figure pct00230
에 기반하여 현재 프레임의 좌측 채널 노이즈 전력 스펙트럼의 추정값을 먼저 획득하고, 좌측 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 제1 초기 위너 이득 팩터를 결정하는 것을 포함할 수 있다. 이와 유사하게, 제2 초기 위너 이득 팩터도
Figure pct00231
에 대해 노이즈 전력 스펙트럼 추정을 수행하는 것에 의해 결정될 수 있다. 구체적으로, 우측 채널 위너 이득 팩터가 제2 초기 위너 이득 팩터를 포함할 때, 오디오 코딩 장치는 현재 프레임의 우측 채널 주파수 도메인 신호
Figure pct00232
에 기반하여 현재 프레임의 우측 채널 노이즈 전력 스펙트럼의 추정값을 먼저 획득할 수 있고, 우측 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 제2 초기 위너 이득 팩터를 결정할 수 있다.
상술한 현재 프레임의
Figure pct00233
Figure pct00234
에 대해 노이즈 전력 스펙트럼 추정을 수행하는 프로세스에서, 최소 통계 알고리즘 또는 최소 추적 알고리즘과 같은 알고리즘을 계산에 사용할 수 있다. 물론,
Figure pct00235
Figure pct00236
의 노이즈 전력 스펙트럼의 추정값을 계산하기 위해 다른 알고리즘이 사용될 수 있다. 이것은 본 출원의 이 실시예에서는 특별히 제한되지 않는다.
예를 들어, 제1 초기 위너 이득 팩터
Figure pct00237
는 수식 (10):
Figure pct00238
(10)
으로 나타낼 수 있다.
제2 초기 위너 이득 팩터는
Figure pct00239
는 수식 (11):
Figure pct00240
(11)
로 나타낼 수 있다.
Figure pct00241
는 좌측 채널 노이즈 전력 스펙트럼의 추정값이고,
Figure pct00242
는 우측 채널 노이즈 전력 스펙트럼의 추정값이다.
일부 가능한 구현에서, 제1 개선된 주파수 도메인 가중 함수를 구성하기 위해 제1 초기 위너 이득 팩터 및 제2 초기 위너 이득 팩터를 좌측 채널 위너 이득 팩터 및 우측 채널 위너 이득 팩터로 직접 사용하는 것 외에도, 대응하는 이진 마스킹 함수는 다르게는 제1 초기 위너 이득 팩터 및 제2 초기 위너 이득 팩터에 기반하여 구성되어, 제1 개선된 위너 이득 팩터 및 제2 개선된 위너 이득 팩터를 획득할 수 있다. 제1 개선된 위너 이득 팩터와 제2 개선된 위너 이득 팩터를 사용하여 구성한 제1 개선된 주파수 도메인 가중 함수를 사용하여 노이즈의 영향을 적게 받는 주파수 빈을 가려내어, 스테레오 오디오 신호의 ITD 추정 정밀도를 향상시킬 수 있다.
이 경우, 좌측 채널 위너 이득 팩터가 제1 개선된 위너 이득 팩터를 포함할 때, 상기 방법은: 오디오 코딩 장치는 제1 초기 위너 이득 팩터를 획득한 후, 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여, 제1 개선된 위너 이득 팩터를 획득하는 것을 더 포함할 수 있다. 이와 유사하게, 오디오 코딩 장치는 제2 초기 위너 이득 팩터를 획득한 후, 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 제2 개선된 위너 이득 팩터를 획득한다.
예를 들어, 제1 개선된 위너 이득 팩터
Figure pct00243
는 수식(12):
Figure pct00244
(12)
로 나타낼 수 있다.
제2 개선된 위너 이득 팩터는
Figure pct00245
는 수식(13):
Figure pct00246
(13)
으로 나타낼 수 있다.
Figure pct00247
는 위너 이득 팩터의 이진 마스킹 임계값이고,
Figure pct00248
[0.5, 0.8]이며, 예를 들어,
Figure pct00249
= 0.5, 0.66, 0.75, 또는 0.8이다.
따라서, 좌측 채널 위너 이득 팩터
Figure pct00250
Figure pct00251
Figure pct00252
을 포함할 수 있고, 우측 채널 위너 이득 팩터
Figure pct00253
Figure pct00254
Figure pct00255
를 포함할 수 있음을 알 수 있다. 이 경우, 수식 (7) 또는 수식 (8)과 같이 제1 개선된 주파수 도메인 가중 함수를 구성하는 프로세스에서,
Figure pct00256
Figure pct00257
를 수식 (7) 또는 수식 (8)로 대체하거나,
Figure pct00258
Figure pct00259
를 수식 (7) 또는 수식 (8)로 대체할 수 있다.
예를 들어,
Figure pct00260
Figure pct00261
를 수식 (7)에 대입하여 획득한 제1 개선된 주파수 도메인 가중 함수는 수식 (14):
Figure pct00262
(14)
로 나타낼 수 있다.
Figure pct00263
Figure pct00264
를 수식 (7)에 대입한 후 획득한 제1 개선된 주파수 도메인 가중 함수는 수식 (15):
Figure pct00265
(15)
로 나타낼 수 있다.
본 출원의 이 실시예에서, 제1 개선된 주파수 도메인 가중 함수를 사용하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하면, 위너 이득 팩터 가중치를 적용한 후, 스테레오 신호의 주파수 도메인 교차 전력 스펙트럼에서 코히런트 노이즈 컴포넌트의 가중치가 크게 감소되고 잔차 노이즈 컴포넌트의 상관 관계도 크게 감소된다. 대부분의 경우, 잔차 노이즈의 제곱 코히런스 값은 스테레오 오디오 신호에서 타깃 신호의 제곱 코히런스 값보다 훨씬 작다. 이러한 방식으로, 타깃 신호에 대응하는 상호 상관 피크 값이 더욱 두드러지고, 스테레오 오디오 신호의 ITD 추정 정밀도와 안정성이 크게 향상된다.
제2 개선된 주파수 도메인 가중 함수(즉, 제2 가중 함수)의 구성 팩터는 진폭 가중 파라미터 β 및 현재 프레임의 제곱 코히런스 값을 포함할 수 있다.
실제 애플리케이션에서, 제2 개선된 주파수 도메인 가중 함수는 수식 (16):
Figure pct00266
(16)
으로 나타낼 수 있다.
Figure pct00267
는 제2 개선된 주파수 도메인 가중 함수이고,
Figure pct00268
이며, 예를 들어,
Figure pct00269
= 0.6, 0.7, 또는 0.8이다.
이에 상응하여, 제2 개선된 주파수 도메인 가중 함수를 사용하는 것에 기반하여 가중된 일반화 교차 상관 함수는 또한 수식 (17):
Figure pct00270
(17)
로 나타낼 수 있다.
본 출원의 이 실시예에서, 제2 개선된 주파수 도메인 가중 함수를 사용하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것은, 높은 에너지를 갖는 주파수 빈과 높은 상관을 갖는 주파수 빈이 큰 가중치를 갖고, 에너지가 낮은 주파수 빈 또는 상관이 낮은 주파수 빈은 작은 가중치를 가져서, 스테레오 오디오 신호의 ITD 추정 정확도가 향상되는 것을 보장할 수 있다.
다음으로, 본 출원의 실시예에서 제공되는 스테레오 오디오 신호 지연 추정 방법이 설명된다. 상기 방법에 따르면, 상술한 개선된 주파수 도메인 가중 함수에 기반하여 현재 프레임의 ITD 값을 추정한다.
도 3은 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 1이다. 도 3의 실선을 참조한다. 상기 방법은 다음 단계를 포함할 수 있다.
S301: 스테레오 오디오 신호의 현재 프레임을 획득한다.
현재 프레임은 좌측 채널 오디오 신호 및 우측 채널 오디오 신호를 포함한다.
오디오 코딩 장치는 입력 스테레오 오디오 신호를 획득한다. 스테레오 오디오 신호는 2개의 오디오 신호를 포함할 수 있으며, 2개의 오디오 신호는 시간 도메인 오디오 신호 또는 주파수 도메인 오디오 신호일 수 있다.
하나의 경우에, 스테레오 오디오 신호에서 2개의 오디오 신호는 시간 도메인 오디오 신호, 즉 좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호(즉, 제1 채널 시간 도메인 신호와 제2 채널 시간 도메인 신호)이다. 이 경우, 스테레오 오디오 신호는 마이크나 수신기와 같은 사운드 센서를 사용하여 입력될 수 있다. 도 3의 파선을 참조한다. S301 후에, 상기 방법은 다음을 더 포함할 수 있다: S302: 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행한다. 여기서, 오디오 코딩 장치는 S301을 통해 시간 도메인 오디오 신호에 대해 프레이밍 처리를 수행하여, 시간 도메인에서 현재 프레임을 획득한다. 이 경우, 현재 프레임은 좌측 채널 시간 도메인 신호 및 우측 채널 시간 도메인 신호를 포함할 수 있다. 그런 다음, 오디오 코딩 장치는 시간 도메인에서 현재 프레임에 대해 시간-주파수 변환을 수행하여 주파수 도메인에서 현재 프레임을 획득한다. 이 경우, 현재 프레임은 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호(즉, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호)를 포함할 수 있다.
다른 경우에, 스테레오 오디오 신호에서 2개의 오디오 신호는 주파수 도메인 오디오 신호, 즉 좌측 채널 주파수 도메인 신호와 우측 채널 주파수 도메인 신호(즉, 제1 채널 주파수 도메인 신호와 제2 채널 주파수 도메인 신호)이다. 이 경우, 스테레오 오디오 신호는 2개의 주파수 도메인 오디오 신호이다. 따라서, 오디오 코딩 장치는 S301을 통해 주파수 도메인에서 스테레오 오디오 신호(즉, 주파수 도메인 오디오 신호)에 대해 직접 프레이밍 처리를 수행하여 주파수 도메인에서 현재 프레임을 획득할 수 있다. 현재 프레임은 좌측 채널 주파수 도메인 신호 및 우측 채널 주파수 도메인 신호(즉, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호)를 포함할 수 있다.
이후의 실시예들의 설명에서, 스테레오 오디오 신호가 시간 도메인 오디오 신호이면, 오디오 코딩 장치는 스테레오 오디오 신호에 대해 시간-주파수 변환을 수행하여 대응하는 주파수 도메인 오디오 신호를 획득하고, 그런 다음 주파수 도메인에서 스테레오 오디오 신호를 처리할 수 있다는 점에 유의해야 한다. 스테레오 오디오 신호가 주파수 도메인 오디오 신호이면, 오디오 코딩 장치는 주파수 도메인에서 스테레오 오디오 신호를 직접 처리할 수 있다.
실제 애플리케이션에서, 프레이밍 처리를 수행한 후 획득한 현재 프레임의 좌측 채널 시간 도메인 신호를
Figure pct00271
로 표기하고(denote), 프레이밍 처리를 수행한 후 획득한 현재 프레임의 우측 채널 시간 도메인 신호를
Figure pct00272
로 표기할 수 있으며, n은 샘플링 포인트이다.
일부 가능한 구현에서, S301 이후에, 오디오 코딩 장치는 추가로, 현재 프레임을 전처리할 수 있으며, 예를 들어,
Figure pct00273
Figure pct00274
에 대해 고역 통과 필터링 처리를 수행하여, 전처리된 좌측 채널 시간 도메인 신호 및 전처리된 우측 채널 시간 도메인 신호를 획득하며, 전처리된 좌측 채널 시간 도메인 신호는
Figure pct00275
로 표기되고 전처리된 우측 채널 시간 도메인 신호는
Figure pct00276
로 표기된다. 선택적으로, 고역 통과 필터링 처리는 차단 주파수가 20Hz인 무한 임펄스 응답(infinite impulse response, IIR) 필터이거나 다른 유형의 필터일 수 있다. 이는 본 출원의 이 실시예에서 특별히 제한되지 않는다.
선택적으로, 오디오 코딩 장치는 추가로,
Figure pct00277
Figure pct00278
에 대해 시간-주파수 변환을 수행하여
Figure pct00279
Figure pct00280
를 획득할 수 있으며, 좌측 채널 주파수 도메인 신호는
Figure pct00281
로 표기될 수 있고 우측 채널 주파수 도메인 신호는
Figure pct00282
로 표기될 수 있다.
여기서, 오디오 코딩 장치는 DFT, 고속 푸리에 변환(fast Fourier transform, FFT) 또는 변형된 이산 코사인 변환(modified discrete cosine transform, MDCT)과 같은 시간-주파수 변환 알고리즘을 사용하여 시간 도메인 신호를 주파수 도메인 신호로 변환할 수 있다. 물론, 오디오 코딩 장치는 추가로, 다른 시간-주파수 변환 알고리즘을 사용할 수 있다. 이는 본 출원의 이 실시예에서 특별히 제한되지 않는다.
좌측 채널 시간 도메인 신호와 우측 채널 시간 도메인 신호에 대해 DFT를 사용하여 시간-주파수 변환을 수행한다고 가정한다. 구체적으로, 오디오 코딩 장치는
Figure pct00283
또는
Figure pct00284
에 대해 DFT를 수행하여
Figure pct00285
를 획득할 수 있다. 이와 유사하게, 오디오 코딩 장치는
Figure pct00286
또는
Figure pct00287
에 대해 DFT를 수행하여
Figure pct00288
를 획득할 수 있다.
또한, 스펙트럼 에일리어싱(aliasing)을 극복하기 위해 인접한 두 프레임의 DFT는 보통 겹침-가산 방식(overlap-add manner)으로 수행되며, DFT를 위한 입력 신호에 때때로 0이 패딩될 수 있다.
S303:
Figure pct00289
Figure pct00290
에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산한다.
여기서, 현재 프레임의 주파수 도메인 교차 전력 스펙트럼은 수식 (18):
Figure pct00291
(18)
로 나타낼 수 있다.
Figure pct00292
Figure pct00293
의 켤레 함수이다.
S304: 미리 설정된 가중 함수에 기반하여 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여한다.
여기서, 미리 설정된 가중 함수는 전술한 개선된 주파수 도메인 가중 함수, 즉 앞선 실시예에서 제1 개선된 주파수 도메인 가중 함수
Figure pct00294
또는 제2 개선된 주파수 도메인 가중 함수
Figure pct00295
를 의미할 수 있다.
S304는 오디오 코딩 장치가 개선된 가중 함수에 주파수 도메인 전력 스펙트럼을 곱하는 것으로 이해될 수 있으며, 가중된 주파수 도메인 교차 전력 스펙트럼은
Figure pct00296
또는
Figure pct00297
로 표현될 수 있다.
본 출원의 이 실시예에서, 오디오 코딩 장치는 S305를 수행하기 전에, 추가로
Figure pct00298
Figure pct00299
를 사용하여 개선된 주파수 도메인 가중 함수(즉, 미리 설정된 가중 함수)를 계산할 수 있다.
S305: 가중된 주파수 도메인 교차 전력 스펙트럼에 대해 역 시간-주파수 변환을 수행하여 교차 상관 함수를 획득한다.
오디오 코딩 장치는 S302에서 사용된 시간-주파수 변환 알고리즘에 대응하는 시간-주파수 역 변환 알고리즘을 사용하여, 주파수 도메인 교차 전력 스펙트럼을 주파수 도메인에서 시간 도메인으로 변환하여 교차 상관 함수를 획득할 수 있다.
여기서,
Figure pct00300
에 대응하는 교차 상관 함수는 수식 (19):
Figure pct00301
(19)
로 나타낼 수 있다.
다르게는,
Figure pct00302
에 대응하는 교차 상관 함수는 수식 (20):
Figure pct00303
(20)
으로 나타낼 수 있다.
S306: 교차 상관 함수에 대해 피크 검출을 수행한다.
S306을 통해 교차 상관 함수를 획득한 후, 오디오 코딩 장치는 미리 설정된 샘플링 레이트 및 사운드 센서(즉, 마이크, 수신기 등) 간의 최대 거리에 기반하여 ITD의 최대값 Δmax(ITD 추정을 위한 시간 범위로도 이해될 수 있음)를 결정할 수 있다. 예를 들어, Δmax는 5ms에 대응하는 샘플링 포인트의 수량으로 설정된다. 스테레오 오디오 신호의 샘플링 레이트가 32kHz이면, Δmax = 160이고, 즉 좌측 채널과 우측 채널의 최대 지연 포인트 수량은 160개의 샘플링 포인트이다. 그다음, 오디오 코딩 장치는 n ∈[-Δmax, Δmax]의 범위에서
Figure pct00304
의 최대 피크 값을 검색하고, 피크에 대응하는 인덱스 값을 현재 프레임의 후보 ITD 값으로 한다.
S307: 교차 상관 함수의 피크에 기반하여 현재 프레임의 추정 ITD 값을 계산한다.
오디오 코딩 장치는 교차 상관 함수의 피크 값에 기반하여 현재 프레임의 후보 ITD 값을 결정하고, 그다음, 현재 프레임의 후보 ITD 값, 이전 프레임의 ITD 값(즉, 이력 정보), 오디오 행오버 처리 파라미터, 이전 프레임과 다음 프레임 간의 상관과 같은 부가 정보에 기반하여 현재 프레임의 추정 ITD 값을 결정하여, 지연 추정의 이상 값(abnormal value)을 제거한다.
또한, 오디오 코딩 장치는 S307을 통해 추정 ITD 값을 결정한 후, 추정된 ITD 값을 코딩하여 스테레오 오디오 신호의 인코딩된 비트스트림에 기입할 수 있다.
본 출원의 이 실시예에서, 제1 개선된 주파수 도메인 가중 함수를 사용하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하면, 위너 이득 팩터 가중치를 적용한 후, 스테레오 신호의 주파수 도메인 교차 전력 스펙트럼에서 코히런트 노이즈 컴포넌트의 가중치가 크게 감소되고 잔차 노이즈 컴포넌트의 상관도 크게 감소된다. 대부분의 경우, 잔차 노이즈의 제곱 코히런스 값은 스테레오 오디오 신호에서 타깃 신호의 제곱 코히런스 값보다 훨씬 작다. 이러한 방식으로, 타깃 신호에 대응하는 상호 상관 피크 값이 더욱 두드러지고, 스테레오 오디오 신호의 ITD 추정 정밀도와 안정성이 크게 향상된다. 제2 개선된 주파수 도메인 가중 함수를 사용하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것은, 에너지가 높은 주파수 빈과 상관이 높은 주파수 빈이 큰 가중치를 갖고, 에너지가 낮은 주파수 빈 또는 상관이 낮은 주파수 빈은 낮은 가중치를 가져서, 스테레오 오디오 신호의 ITD 추정 정밀도를 향상시키는 것을 보장할 수 있다.
또한, 본 출원의 실시예에서 제공되는 또 다른 스테레오 오디오 신호 지연 추정 방법이 설명된다. 전술한 실시예에 기반하여, 상기 방법은 스테레오 오디오 신호에서 상이한 유형의 노이즈 신호에 대해 ITD 추정을 수행하기 위해 상이한 알고리즘을 사용한다.
도 4는 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 2이다. 도 4를 참조한다. 상기 방법은 다음 단계를 포함할 수 있다.
S401: 스테레오 오디오 신호의 현재 프레임을 획득한다.
여기서, S401의 구현 프로세스는 S301의 설명을 참조한다. 이것은 여기서 특별히 제한되지 않는다.
S402: 현재 프레임에 포함된 노이즈 신호의 신호 유형을 결정한다. 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형이면, S403을 수행한다. 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형이면, S404를 수행한다.
노이즈가 많은 환경에서, 서로 다른 노이즈 신호 유형은 일반화된 교차 상관 알고리즘에 서로 다른 영향을 미친다. 따라서, 일반화된 상호 상관 알고리즘의 성능을 최대한 활용하고 ITD 추정 정밀도를 향상시키기 위해, 오디오 코딩 장치는 현재 프레임에 포함된 노이즈 신호의 신호 유형을 결정하고, 복수의 주파수 도메인 가중 함수로부터, 현재 프레임에 대한 적절한 주파수 도메인 가중 함수를 결정할 수 있다.
실제 애플리케이션에서, 전술한 코히런트 노이즈 신호 유형은 스테레오 오디오 신호의 두 오디오 신호에서 노이즈 신호 사이의 상관이 일정 정도보다 높은 노이즈 신호의 유형을 지칭하며, 즉 현재 프레임에 포함된 노이즈 신호는 코히런트 노이즈 신호로 분류된다. 전술한 확산 노이즈 신호 유형은 스테레오 오디오 신호의 두 오디오 신호에서 노이즈 신호 사이의 상관이 일정 정도보다 낮은 노이즈 신호의 유형을 지칭하며, 현재 프레임에 포함된 노이즈 신호는 확산 노이즈 신호로 분류될 수 있다.
일부 가능한 구현에서, 현재 프레임은 코히런트 노이즈 신호 및 확산 노이즈 신호를 모두 포함할 수 있다. 이 경우, 오디오 코딩 장치는 두 유형의 노이즈 신호 중 메인 노이즈 신호의 신호 유형을 현재 프레임에 포함된 노이즈 신호의 신호 유형으로 결정한다.
일부 가능한 구현에서, 오디오 코딩 장치는 현재 프레임의 노이즈 코히런스 값을 계산하여, 현재 프레임에 포함된 노이즈 신호의 신호 유형을 결정할 수 있다. 이 경우, S402는 현재 프레임의 노이즈 코히런스 값을 획득하는 단계를 포함할 수 있다. 노이즈 코히런스 값이 미리 설정된 임계값보다 크거나 같으면 현재 프레임에 포함된 노이즈 신호가 강한 상관을 가지고 있음을 지시하며, 오디오 코딩 장치는 현재 프레임에 포함된 노이즈 신호의 신호 유형을 코히런트 노이즈 신호 유형으로 결정할 수 있다. 노이즈 코히런스 값이 미리 설정된 임계값보다 작으면 현재 프레임에 포함된 노이즈 신호가 약한 상관을 가지고 있음을 지시하며, 오디오 코딩 장치는 현재 프레임에 포함된 노이즈 신호의 신호 유형을 확산 노이즈 신호 유형으로 결정할 수 있다.
여기서, 노이즈 코히런스 값의 미리 설정된 임계값은 경험적 값으로, ITD 추정 성능 등의 팩터에 기반하여 설정될 수 있다. 예를 들어, 미리 설정된 임계값은 0.20, 0.25 또는 0.30으로 설정된다. 물론, 미리 설정된 임계값은 다르게는, 다른 적절한 값으로 설정될 수 있다. 이는 본 출원의 이 실시예에서 특별히 제한되지 않는다.
실제 애플리케이션에서, 현재 프레임의 노이즈 코히런스 값을 계산한 후, 오디오 코딩 장치는 추가로, 노이즈 코히런스 값에 대해 평활화 처리를 수행하여, 노이즈 코히런스 값 추정의 에러를 감소시키고 노이즈 유형 식별의 정확도를 향상시킬 수 있다.
S403: 제1 알고리즘을 사용하여 좌측 채널 오디오 신호와 우측 채널 오디오 신호 간의 ITD 값을 추정한다.
여기서, 제1 알고리즘은 제1 가중 함수에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함할 수 있으며, 가중된 교차 상관 함수에 대해 피크 검출을 수행하고, 가중된 교차 상관 함수의 피크 값에 기반하여 현재 프레임의 ITD 값을 추정하는 것을 더 포함할 수 있다.
S402를 통해, 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형인 것으로 결정한 후, 오디오 코딩 장치는 제1 알고리즘을 사용하여 현재 프레임의 ITD 값을 추정할 수 있다. 예를 들어, 오디오 코딩 장치는 제1 가중 함수를 선택하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하고, 가중된 교차 상관 함수에 대해 피크 검출을 수행하며, 가중된 교차 상관 함수의 피크 값에 기반하여 현재 프레임의 ITD 값을 추정한다.
일부 가능한 실시예에서, 제1 가중 함수는 전술한 하나 이상의 실시예에서 주파수 도메인 가중 함수 및/또는 개선된 주파수 도메인 가중 함수에서, 예를 들어, 수식 (3)에 나타낸 주파수 도메인 가중 함수 그리고 수식 (7) 및 수식 (8)에 나타낸 개선된 주파수 도메인 가중 함수에서 코히런트 노이즈 조건 하에서 더 나은 성능을 갖는 하나 이상의 가중 함수일 수 있다.
바람직하게는, 제1 가중 함수는 전술한 실시예에서 설명한 제1 개선된 주파수 도메인 가중 함수, 예를 들어 수식 (7) 및 수식 (8)에 나타낸, 개선된 주파수 도메인 가중 함수일 수 있다.
S404: 제2 알고리즘을 사용하여 좌측 채널 오디오 신호와 우측 채널 오디오 신호 간의 ITD 값을 추정한다.
여기서, 제2 알고리즘은 제2 가중 함수에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함할 수 있으며, 가중된 교차 상관 함수에 대해 피크 검출을 수행하고, 가중된 교차 상관 함수의 피크 값에 기반하여 현재 프레임의 ITD 값을 추정하는 것을 더 포함할 수 있다.
이에 상응하여, 오디오 코딩 장치는 S402를 통해 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형인 것으로 결정한 후, 제2 알고리즘을 사용하여 현재 프레임의 ITD 값을 추정할 수 있다. 예를 들어, 오디오 코딩 장치는 제2 가중 함수를 선택하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하고, 가중된 교차 상관 함수에 대해 피크 검출을 수행하며, 가중된 교차 상관 함수의 피크 값에 기반하여 현재 프레임의 ITD 값을 추정한다.
일부 가능한 실시예에서, 제2 가중 함수는 전술한 하나 이상의 실시예에서 주파수 도메인 가중 함수 및/또는 개선된 주파수 도메인 가중 함수에서, 예를 들어, 수식 (5)에 나타낸 주파수 도메인 가중 함수 및 수식 (16)에 나타낸 개선된 주파수 도메인 가중 함수에서 확산 노이즈 조건 하에서 더 나은 성능을 갖는 하나 이상의 가중 함수일 수 있다.
바람직하게는, 제2 가중 함수는 전술한 실시예에서 설명한 제2 개선된 주파수 도메인 가중 함수, 즉 수식 (16)에 나타낸, 개선된 주파수 도메인 가중 함수일 수 있다.
일부 가능한 구현에서, 스테레오 오디오 신호는 음성 신호 및 노이즈 신호를 모두 포함하기 때문에, S401에서 프레이밍 처리를 통해 획득된 현재 프레임에 포함된 신호 유형은 음성 신호 또는 노이즈 신호일 수 있다. 따라서, 처리를 단순화하고 ITD 추정 정밀도를 더욱 향상시키기 위해, S402 이전에, 상기 방법은, 현재 프레임에 대해 음성 종료점 검출을 수행하여 검출 결과를 획득하는 단계를 더 포함할 수 있다. 검출 결과가 현재 프레임의 신호 유형이 노이즈 신호 유형인 것으로 지시하면, 현재 프레임의 노이즈 코히런스 값을 계산한다. 검출 결과가 현재 프레임의 신호 유형이 음성 신호 유형인 것으로 지시하면, 스테레오 오디오 신호의 현재 프레임의 이전 프레임의 노이즈 코히런스 값을 현재 프레임의 노이즈 코히런스 값으로 결정한다.
오디오 코딩 장치는 현재 프레임을 획득한 후, 현재 프레임에 대해 음성 종료점 검출(voice activity detection, VAD)을 수행하여, 현재 프레임의 메인 신호가 음성 신호인지 노이즈 신호인지 구분할 수 있다. 현재 프레임이 노이즈 신호를 포함하는 것으로 검출되면, S402에서 노이즈 코히런스 값을 계산하는 것은 현재 프레임의 노이즈 코히런스 값을 직접 계산하는 것을 의미할 수 있다. 현재 프레임이 음성 신호를 포함하는 것으로 검출되면, S402에서 노이즈 코히런스 값을 계산하는 것은 히스토리 프레임의 노이즈 코히런스 값, 예를 들어 현재 프레임의 이전 프레임의 노이즈 코히런스 값을 현재 프레임의 노이즈 코히런스 값으로 결정하는 것을 의미할 수 있다. 여기서, 현재 프레임의 이전 프레임은 노이즈 신호 또는 음성 신호를 포함할 수 있다. 이전 프레임이 아직 음성 신호를 포함하고 있다면, 히스토리 프레임에서 이전 노이즈 프레임의 노이즈 코히런스 값을 현재 프레임의 노이즈 코히런스 값으로 결정한다.
구체적인 구현 프로세스에서, 오디오 코딩 장치는 VAD를 수행하기 위한 복수의 방법을 사용할 수 있다. VAD 값이 1일 때, 현재 프레임의 신호 유형이 음성 신호 유형임을 지시한다. VAD 값이 0일 때, 현재 프레임의 신호 유형이 노이즈 신호 유형임을 지시한다.
본 출원의 이 실시예에서, 오디오 코딩 장치는 시간 도메인, 주파수 도메인, 또는 시간 도메인과 주파수 도메인의 조합에서 VAD의 값을 계산할 수 있다는 점에 유의해야 한다. 이것은 여기서 특별히 제한되지 않는다.
다음은 구체적인 예를 사용하여 도 4에 도시된 스테레오 오디오 신호 지연 추정 방법을 설명한다.
도 5는 본 출원의 실시예에 따른 스테레오 오디오 신호 지연 추정 방법의 개략적인 흐름도 3이다. 상기 방법은 다음 단계를 포함할 수 있다.
S501: 스테레오 오디오 신호에 대해 프레이밍 처리를 수행하여, 현재 프레임의
Figure pct00305
Figure pct00306
를 획득한다.
S502:
Figure pct00307
Figure pct00308
에 대해 DFT를 수행하여 현재 프레임의
Figure pct00309
Figure pct00310
를 획득한다.
S503: 현재 프레임의
Figure pct00311
Figure pct00312
또는
Figure pct00313
Figure pct00314
에 기반하여 현재 프레임의 VAD 값을 계산한다. VAD=1이면, S504를 수행한다. VAD=0이면, S505를 수행한다.
여기서, 도 5의 파선을 참조한다. S503은 S501 이후에 수행될 수도 있고, S502 이후에 수행될 수도 있다. 이것은 여기서 특별히 제한되지 않는다.
S504:
Figure pct00315
Figure pct00316
에 기반하여 현재 프레임의 노이즈 코히런스 값
Figure pct00317
을 계산한다.
S505: 이전 프레임의
Figure pct00318
을 현재 프레임의
Figure pct00319
로 결정한다.
여기서, 현재 프레임의
Figure pct00320
는 또한
Figure pct00321
로 표현될 수 있으며, 즉, m번째 프레임의 노이즈 코히런스 값으로 표현될 수도 있으며, 여기서 m은 양의 정수이다.
S506: 현재 프레임의
Figure pct00322
를 미리 설정된 임계치
Figure pct00323
와 비교한다.
Figure pct00324
Figure pct00325
보다 크거나 같으면, S507을 수행한다.
Figure pct00326
Figure pct00327
보다 작으면, S508을 수행한다.
S507:
Figure pct00328
를 사용하여 현재 프레임의
Figure pct00329
에 가중치를 부여한다.
이 경우, 가중된 주파수 도메인 교차 전력 스펙트럼은
Figure pct00330
로 표현될 수 있다.
S508:
Figure pct00331
를 사용하여 현재 프레임의
Figure pct00332
에 가중치를 부여한다. 이 경우, 가중된 주파수 도메인 교차 전력 스펙트럼은
Figure pct00333
로 표현될 수 있다.
실제 애플리케이션에서, S506 이후에, S507 수행을 결정하기 전에, 현재 프레임의
Figure pct00334
Figure pct00335
을 현재 프레임의
Figure pct00336
Figure pct00337
를 사용하여 계산할 수 있다. S508 수행을 결정하기 전에, 현재 프레임의
Figure pct00338
Figure pct00339
을 현재 프레임의
Figure pct00340
Figure pct00341
를 사용하여 계산할 수 있다.
S509:
Figure pct00342
또는
Figure pct00343
에 대해 IDFT를 수행하여 교차 상관 함수
Figure pct00344
를 획득한다.
Figure pct00345
은 수식 (6) 또는 수식 (9)에서 나타낼 수 있다.
S510:
Figure pct00346
에 대해 피크 검출을 수행한다.
S511:
Figure pct00347
의 피크 값에 기반하여 현재 프레임의 추정 ITD 값을 계산한다.
이러한 방식으로, 스테레오 오디오 신호에 대한 ITD 추정 프로세스가 완료된다.
일부 가능한 구현에서, 파라메트릭 스테레오 인코딩 및 디코딩 기술에 더하여, 전술한 ITD 추정 방법은 음원 위치 파악, 보이스 향상, 및 보이스 분리와 같은 기술에도 적용될 수 있다.
본 출원의 이 실시예에서, 오디오 코딩 장치는 상이한 유형의 노이즈를 포함하는 현재 프레임에 대해 상이한 ITD 추정 알고리즘을 사용하여, 확산 노이즈 및 코히런트 노이즈의 경우에 스테레오 오디오 신호의 ITD 추정 정밀도 및 안정성을 크게 향상시키고, 스테레오 다운믹스된 신호 사이의 프레임 간 불연속성을 감소시키며, 스테레오 신호의 위상을 더 잘 유지함을 상술한 바로부터 알 수 있다. 인코딩된 스테레오의 사운드 이미지는 보다 정확하고 안정적이며 현실감이 강하고, 인코딩된 스테레오 신호의 청각적 품질이 향상된다.
동일한 발명 개념에 기반하여, 본 출원의 실시예는 스테레오 오디오 신호 지연 추정 장치를 제공한다. 상기 장치는 오디오 코딩 장치 내의 칩 또는 시스템 온 칩일 수 있거나, 오디오 코딩 장치 내에 있으면서 또한 전술한 실시예의 도 4에 도시된 스테레오 오디오 신호 지연 추정 방법 및 상기 방법의 임의의 가능한 구현을 구현하도록 구성된 기능 모듈일 수 있다. 예를 들어, 도 6은 본 출원의 실시예에 따른 오디오 디코딩 장치의 구조를 도시하는 개략도이다. 도 6에서 실선으로 도시된 바와 같이, 스테레오 오디오 신호 지연 추정 장치(600)는: 스테레오 오디오 신호의 현재 프레임을 획득하도록 구성된 - 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 - 획득 모듈(601); 및 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형이면, 제1 알고리즘을 사용하여 제1 채널 오디오 신호와 제2 채널 오디오 신호 간의 인터 채널 시차를 추정하거나; 또는 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형이면, 제2 알고리즘을 사용하여 제1 채널 오디오 신호와 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하도록 구성된 인터 채널 시간 차이 추정 모듈(602)을 포함한다. 제1 알고리즘은 제1 가중 함수에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하고, 제2 알고리즘은 제2 가중 함수에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하며, 제1 가중 함수의 구성 팩터는 제2 가중 함수의 구성 팩터와 상이하다.
본 출원의 이 실시예에서 획득 모듈(601)이 획득한 스테레오 신호의 현재 프레임은 주파수 도메인 오디오 신호 또는 시간 도메인 오디오 신호일 수 있다. 현재 프레임이 주파수 도메인 오디오 신호이면, 획득 모듈(601)은 현재 프레임을 인터 채널 시간 차이 추정 모듈(602)로 전달하고, 인터 채널 시간 차이 추정 모듈(602)은 주파수 도메인에서 현재 프레임을 직접 처리할 수 있다. 현재 프레임이 시간 도메인 오디오 신호이면, 획득 모듈(601)은 먼저 시간 도메인에서 현재 프레임에 대해 시간-주파수 변환을 수행하여 주파수 도메인에서 현재 프레임을 획득한 다음, 획득 모듈(601)은 주파수 도메인에서의 현재 프레임을 인터 채널 시간 차이 추정 모듈(602)로 전달한다. 인터 채널 시간 차이 추정 모듈(602)은 주파수 도메인에서 현재 프레임을 처리할 수 있다.
일부 가능한 구현에서, 도 6의 파선을 참조한다. 상기 장치는, 획득 모듈(601)이 현재 프레임을 획득한 후, 현재 프레임의 노이즈 코히런스 값을 획득하고; 노이즈 코히런스 값이 미리 설정된 임계값보다 크거나 같으면, 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형인 것으로 결정하거나; 또는 노이즈 코히런스 값이 미리 설정된 임계값보다 작으면, 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형인 것으로 결정하도록 구성된 노이즈 코히런스 값 계산 모듈(603)을 더 포함한다.
일부 가능한 구현에서, 도 6의 파선을 참조한다. 상기 장치는 현재 프레임에 대해 음성 종료점 검출을 수행하여 검출 결과를 획득하도록 구성된 음성 종료점 검출 모듈(604)을 더 포함한다. 노이즈 코히런스 값 계산 모듈(603)은 구체적으로, 검출 결과가 현재 프레임의 신호 유형이 노이즈 신호 유형임을 지시하면, 현재 프레임의 노이즈 코히런스 값을 계산하거나; 또는 검출 결과가 현재 프레임의 신호 유형이 음성 신호 유형임을 지시하면, 스테레오 오디오 신호의 현재 프레임의 이전 프레임의 노이즈 코히런스 값을 현재 프레임의 노이즈 코히런스 값으로 결정하도록 구성된다.
본 출원의 이 실시예에서, 음성 종료점 검출 모듈(604)은 시간 도메인, 주파수 도메인, 또는 시간 도메인과 주파수 도메인의 조합에서 VAD 값을 계산할 수 있다. 이것은 여기서 특별히 제한되지 않는다. 획득 모듈(601)은 현재 프레임에 대한 VAD를 위해 현재 프레임을 음성 종료점 검출 모듈(604)로 전달할 수 있다.
일부 가능한 구현에서, 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 인터 채널 시간 차이 추정 모듈(602)은: 제1 채널 시간 도메인 신호 및 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하며; 제1 가중 함수에 기반하여 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하고; 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 인터 채널 시간 차이의 추정값을 획득하도록 구성된다. 제1 가중 함수의 구성 팩터는 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다. 인터 채널 시간 차이 추정 모듈(602)은: 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고; 제1 가중 함수에 기반하여 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며; 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 인터 채널 시간 차이의 추정값을 획득하도록 구성된다. 제1 가중 함수의 구성 팩터는 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 제1 가중 함수
Figure pct00348
는 전술한 수식 (7)을 충족한다.
일부 다른 가능한 구현에서, 제1 가중 함수
Figure pct00349
는 전술한 수식 (8)을 충족한다.
일부 가능한 구현에서, 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이다. 인터 채널 시간 차이 추정 모듈(602)은 구체적으로, 획득 모듈이 현재 프레임을 획득한 후 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고; 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 제1 초기 위너 이득 팩터를 결정하며; 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고; 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 제2 초기 위너 이득 팩터를 결정하도록 구성된다.
일부 가능한 구현에서, 제1 초기 위너 이득 팩터
Figure pct00350
는 전술한 수식 (10)을 충족하고, 제2 초기 위너 이득 팩터
Figure pct00351
는 전술한 수식 (11)을 충족한다.
일부 가능한 구현에서, 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이다. 인터 채널 시간 차이 추정 모듈(602)은 구체적으로, 획득 모듈이 현재 프레임을 획득한 후 제1 초기 위너 이득 팩터 및 제2 초기 위너 이득 팩터를 획득하고; 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 제1 개선된 위너 이득 팩터를 획득하며; 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 제2 개선된 위너 이득 팩터를 획득하도록 구성된다.
일부 가능한 구현에서, 제1 개선된 위너 이득 팩터
Figure pct00352
는 전술한 수식 (12)을 충족하고, 제2 개선된 위너 이득 팩터
Figure pct00353
는 전술한 수식 (13)을 충족한다.
일부 가능한 구현에서, 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 인터 채널 시간 차이 추정 모듈(602)은 구체적으로, 제1 채널 시간 도메인 신호 및 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하며; 제2 가중 함수에 기반하여 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하여 인터 채널 시간 차이의 추정값을 획득한다. 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터와 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다. 인터 채널 시간 차이 추정 모듈(602)은 구체적으로, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고; 제2 가중 함수에 기반하여 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며; 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 인터 채널 시간 차이의 추정값을 획득하도록 구성된다. 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터와 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 제2 가중 함수
Figure pct00354
는 전술한 수식 (16)을 충족한다.
획득 모듈(601), 인터 채널 시간 차이 추정 모듈(602), 노이즈 코히런스 값 계산 모듈(603) 및 음성 종료점 검출 모듈(604)의 구체적인 구현 프로세스에 대해서는 도 4 내지 도 5의 실시예의 상세한 설명을 참조할 수 있음에 유의해야 한다. 명세서의 간결함을 위해 세부 사항은 여기서 다시 설명하지 않는다.
본 출원의 이 실시예에서 언급된 획득 모듈(601)은 수신 인터페이스, 수신 회로, 수신기 등일 수 있다. 인터 채널 시간 차이 추정 모듈(602), 노이즈 코히런스 값 계산 모듈(603) 및 음성 종료점 검출 모듈(604)은 하나 이상의 프로세서일 수 있다.
동일한 발명 개념에 기반하여, 본 출원의 실시예는 스테레오 오디오 신호 지연 추정 장치를 제공한다. 상기 장치는 오디오 코딩 장치 내의 칩 또는 시스템 온 칩일 수 있거나, 오디오 코딩 장치 내에 있으면서 또한 도 3에 도시된 스테레오 오디오 신호 지연 추정 방법 및 상기 방법의 가능한 모든 구현을 구현하도록 구성된 기능 모듈일 수 있다. 예를 들어, 여전히 도 6을 참조한다. 스테레오 오디오 신호 지연 추정 장치(600)는: 스테레오 오디오 신호의 현재 프레임을 획득하도록 구성된 - 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 - 획득 모듈(601); 및 제1 채널 오디오 신호 및 제2 채널 오디오 신호에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고; 미리 설정된 가중 함수에 기반하여 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며; 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 제1 채널 주파수 도메인 신호와 제2 채널 주파수 도메인 신호 사이의 인터 채널 시간 차이의 추정값을 획득하도록 구성된 인터 채널 시간 차이 추정 모듈(602)을 포함한다
미리 설정된 가중 함수는 제1 가중 함수 또는 제2 가중 함수이며, 제1 가중 함수의 구성 팩터는 제2 가중 함수의 구성 팩터와 상이하다. 제1 가중 함수의 구성 팩터는 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득, 진폭 가중 파라미터, 및 현재 프레임의 제곱 코히런스 값을 포함한다. 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 현재 프레임의 제곱 코히런스 값을 포함한다.
일부 가능한 구현에서, 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이다. 인터 채널 시간 차이 추정 모듈(602)은: 제1 채널 시간 도메인 신호 및 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 그리고 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호에 기반하여 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하도록 구성된다.
일부 가능한 구현에서, 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이다. 이 경우, 현재 프레임의 주파수 도메인 교차 전력 스펙트럼은 제1 채널 오디오 신호 및 제2 채널 오디오 신호에 기반하여 직접 계산될 수 있다.
일부 가능한 구현에서, 제1 가중 함수
Figure pct00355
는 전술한 수식 (7)을 충족한다. 일부 다른 가능한 구현에서, 제1 가중 함수
Figure pct00356
는 전술한 수식 (8)을 충족한다.
일부 가능한 구현에서, 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이다. 인터 채널 시간 차이 추정 모듈(602)은 구체적으로, 획득 모듈(601)이 현재 프레임을 획득한 후 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고; 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 제1 초기 위너 이득 팩터를 결정하며; 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고; 그리고 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 제2 초기 위너 이득 팩터를 결정하도록 구성된다.
일부 가능한 구현에서, 제1 초기 위너 이득 팩터
Figure pct00357
는 전술한 수식 (10)을 충족하고, 제2 초기 위너 이득 팩터
Figure pct00358
는 전술한 수식 (11)을 충족한다.
일부 가능한 구현에서, 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이다. 인터 채널 시간 차이 추정 모듈(602)은 구체적으로: 획득 모듈(601)이 현재 프레임을 획득한 후, 제1 초기 위너 이득 팩터 및 제2 초기 위너 이득 팩터를 획득하고; 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 제1 개선된 위너 이득 팩터를 획득하며; 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 제2 개선된 위너 이득 팩터를 획득하도록 구성된다
일부 가능한 구현에서, 제1 개선된 위너 이득 팩터
Figure pct00359
는 전술한 수식 (12)을 충족하고, 제2 개선된 위너 이득 팩터
Figure pct00360
는 전술한 수식 (13)을 충족한다.
일부 가능한 구현에서, 제2 가중 함수
Figure pct00361
는 전술한 수식 (16)을 충족한다.
획득 모듈(601) 및 인터 채널 시간 차이 추정 모듈(602)의 구체적인 구현 프로세스에 대해서는 도 3의 실시예의 상세한 설명을 참조할 수 있음에 유의해야 한다. 명세서의 간결함을 위해 세부 사항은 여기서 다시 설명하지 않는다.
본 출원의 이 실시예에서 언급된 획득 모듈(601)은 수신 인터페이스, 수신 회로, 수신기 등일 수 있다. 인터 채널 시간 차이 추정 모듈(602)은 하나 이상의 프로세서일 수 있다.
동일한 발명 개념에 기반하여, 본 출원의 실시예는 오디오 코딩 장치를 제공한다. 오디오 코딩 장치는 전술한 실시예의 오디오 코딩 장치와 일치한다. 도 7은 본 출원의 실시예에 따른 오디오 코딩 장치의 구조를 도시하는 개략도이다. 도 7을 참조한다. 오디오 코딩 장치(700)는 서로 결합된, 비휘발성 메모리(701) 및 프로세서(702)를 포함한다. 프로세서(702)는 메모리(701)에 저장된 프로그램 코드를 호출하여 도 3 내지 도 5의 스테레오 오디오 신호 지연 추정 방법 및 상기 방법의 가능한 모든 구현의 작동 단계를 수행한다.
일부 가능한 구현에서, 오디오 코딩 장치는 구체적으로 스테레오 코딩 장치일 수 있다. 상기 장치는 독립적인 스테레오 코더를 구성할 수 있거나, 다중 채널 주파수 도메인 신호에서 복수의 신호를 조합하여 생성된 2개의 오디오 신호에 의해 형성된 스테레오 오디오 신호를 인코딩하기 위한 다중 채널 코더의 코어 코딩 부분일 수 있다.
실제 애플리케이션에서, 오디오 코딩 장치는 애플리케이션 특정 집적 회로(application specific integrated circuit, ASIC), 레지스터 전송 계층 회로(register transfer level, RTL), 필드 프로그래밍 가능 게이트 어레이(field programmable gate array, FPGA) 등의 프로그래밍 가능 디바이스로 구현될 수 있다. 물론, 오디오 코딩 장치는 다른 프로그래밍 가능 디바이스를 사용하여 구현될 수도 있다. 이는 본 출원의 이 실시예에서 특별히 제한되지 않는다.
동일한 발명 개념에 기반하여, 본 출원의 실시예는 컴퓨터가 판독 가능한 저장 매체를 제공한다. 컴퓨터가 판독 가능한 저장 매체는 명령어를 저장하고 있으며, 명령어가 컴퓨터에서 실행될 때 도 3 내지 도 5의 스테레오 오디오 신호 지연 추정 방법 및 상기 방법의 가능한 모든 구현이 수행된다.
동일한 발명 개념에 기반하여, 본 출원의 실시예는 인코딩된 비트스트림을 포함하는, 컴퓨터가 판독 가능한 저장 매체를 제공한다. 인코딩된 비트스트림은 도 3 내지 도 5의 스테레오 오디오 신호 지연 추정 방법 및 상기 방법의 가능한 모든 구현에 따라 획득된 스테레오 오디오 신호 사이의 인터 채널 시간 차이를 포함한다.
동일한 발명 개념에 기반하여, 본 출원의 실시예는 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품을 제공한다. 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때, 컴퓨터는 도 3 내지 도 5의 스테레오 오디오 신호 지연 추정 방법 및 상기 방법의 가능한 모든 구현의 동작 단계를 구현할 수 있다.
당업자는 본 명세서에 개시되고 설명된 다양한 예시적인 논리 블록, 모듈 및 알고리즘 단계를 참조하여 설명된 기능이 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합에 의해 구현될 수 있음을 이해할 수 있다. 소프트웨어에 의해 구현되면, 예시적인 논리 블록, 모듈 및 단계를 참조하여 설명된 기능은 하나 이상의 명령어 또는 코드로서 컴퓨터가 판독 가능한 매체에 저장되거나 전송되고, 하드웨어 기반 처리 유닛에 의해 실행될 수 있다. 컴퓨터가 판독 가능한 매체는 데이터 저장 매체와 같은 유형의 매체에 대응하는 컴퓨터가 판독 가능한 저장 매체를 포함할 수 있거나, 컴퓨터 프로그램을 (예를 들어, 통신 프로토콜에 따라) 한 곳에서 다른 곳으로 쉽게 전송할 수 있는 임의의 통신 매체를 포함할 수 있다. 이러한 방식으로, 컴퓨터가 판독 가능한 매체는 일반적으로, (1) 컴퓨터가 판독 가능한 비일시적 유형의 저장 매체, 또는 (2) 신호 또는 캐리어와 같은 통신 매체에 대응할 수 있다. 데이터 저장 매체는 본 출원에 설명된 기술을 구현하기 위한 명령어, 코드 및/또는 데이터 구조를 검색하기 위해 하나 이상의 컴퓨터 또는 하나 이상의 프로세서에 의해 액세스될 수 있는 임의의 사용 가능한 매체일 수 있다. 컴퓨터 프로그램 제품은 컴퓨터가 판독 가능한 매체를 포함할 수 있다.
제한이 아닌 예로서, 이러한 컴퓨터가 판독 가능한 저장 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장 장치, 자기 디스크 저장 장치 또는 다른 자기 저장 장치, 플래시 메모리, 또는 명령어 또는 데이터 구조의 형태로 필요한 프로그램 코드를 저장할 수 있으면서 또한 컴퓨터에서 액세스할 수 있는 기타 모든 매체를 포함할 수 있다. 또한, 모든 연결을 적절히, 컴퓨터가 판독 가능한 매체라고 지칭한다. 예를 들어 명령어가, 동축 케이블, 광섬유, 트위스트 페어, 디지털 가입자 회선(digital subscriber line, DSL), 또는 적외선, 라디오 또는 마이크로웨이브와 같은 무선 기술을 통해 웹 사이트, 서버 또는 다른 원격 소스로부터 전송되면, 동축 케이블, 광섬유, 트위스트 페어, DSL, 또는 적외선, 라디오 또는 마이크로웨이브와 같은 무선 기술이 상기 매체의 정의에 포함된다. 그러나, 컴퓨터가 판독 가능한 저장 매체 및 데이터 저장 매체는, 연결, 캐리어, 신호 또는 기타 일시적인 매체를 포함하지 않고, 실제로 비일시적 유형의 저장 매체를 의미하는 것으로 이해되어야 한다. 본 명세서에서 사용되는 디스크(disk) 및 디스크(disc)는 CD(compact disc), 레이저 디스크(disc), 광 디스크(disc), DVD(digital versatile disc), 블루레이 디스크(disc)를 포함한다. 일반적으로 디스크(disk)는 자기적으로 데이터를 재생하는 반면 디스크(disc)는 레이저를 사용하여 광학적으로 데이터를 재생한다. 이들의 조합도 컴퓨터가 판독 가능한 매체의 범위에 포함되어야 한다.
명령어는 하나 이상의 디지털 신호 프로세서(digital signal processor, DSP), 일반 마이크로프로세서, 애플리케이션 특정 집적 회로(application-specific integrated circuit, ASIC), 필드 프로그래밍 가능 게이트 어레이(field programmable gate array, FPGA) 또는 등가 집적 회로 또는 이산 논리 회로와 같은 하나 이상의 프로세서에 의해 실행될 수 있다. 따라서, 본 명세서에서 사용되는 "프로세서"라는 용어는 전술한 구조 또는 본 명세서에서 설명하는 기술의 구현에 적용될 수 있는 다른 구조를 지칭할 수 있다. 또한, 일부 측면에서, 본 명세서에 설명된 예시적인 논리 블록, 모듈 및 단계를 참조하여 설명된 기능은, 인코딩 및 디코딩을 위해 구성된 전용 하드웨어 및/또는 소프트웨어 모듈 내에 제공될 수 있거나 조합된 코덱으로 통합될 수 있다. 또한, 기술은 하나 이상의 회로 또는 논리 엘리먼트에서 완전히 구현될 수 있다.
본 출원의 기술은 무선 핸드셋, 집적 회로(integrated circuit, IC) 또는 IC들의 집합(예를 들어, 칩셋)을 포함하는 다양한 장치 또는 디바이스에서 구현될 수 있다. 개시된 기술을 수행하도록 구성된 장치의 기능적 측면을 강조하기 위해 본 출원에서 다양한 컴포넌트, 모듈 또는 유닛이 설명되지만, 기능은 상이한 하드웨어 유닛에 의해 구현될 필요는 없다. 실제로, 전술한 바와 같이, 다양한 유닛들이 적절한 소프트웨어 및/또는 펌웨어와 조합하여 코덱 하드웨어 유닛으로 조합될 수 있거나, 상호 운용 가능한 하드웨어 유닛(전술한 하나 이상의 프로세서를 포함)에 의해 제공될 수 있다.
전술한 실시예에서, 각 실시예의 설명은 각각의 포커스를 갖는다. 실시예에서 구체적으로 설명되지 않은 부분에 대해서는 다른 실시예의 관련 설명을 참조한다.
전술한 설명은 단지 본 출원의 특정 예시 구현일 뿐이며, 본 출원의 보호 범위를 제한하려는 의도는 아니다. 본 출원에 개시된 기술적 범위 내에서 당업자에 의해 쉽게 파악된 변형 또는 교체는 본 출원의 보호 범위에 속한다. 따라서, 본 출원의 보호범위는 청구범위의 보호범위에 따른다.

Claims (51)

  1. 스테레오 오디오 신호 지연 추정 방법으로서,
    스테레오 오디오 신호의 현재 프레임을 획득하는 단계 - 상기 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 -; 및
    상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형이면, 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하거나, 또는
    상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형이면, 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계
    를 포함하고,
    상기 제1 알고리즘은 제1 가중 함수에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는(weighting) 것을 포함하고, 상기 제2 알고리즘은 제2 가중 함수에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하며, 상기 제1 가중 함수의 구성 팩터는 상기 제2 가중 함수의 구성 팩터와 상이한, 스테레오 오디오 신호 지연 추정 방법.
  2. 제1항에 있어서,
    상기 스테레오 오디오 신호의 현재 프레임을 획득하는 단계 이후에, 상기 스테레오 오디오 신호 지연 추정 방법은,
    상기 현재 프레임의 노이즈 코히런스 값을 획득하는 단계; 및
    상기 노이즈 코히런스 값이 미리 설정된 임계값보다 크거나 같으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 관련 노이즈 신호 유형인 것으로 결정하거나, 또는
    상기 노이즈 코히런스 값이 미리 설정된 임계값보다 작으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형인 것으로 결정하는 단계
    를 더 포함하는 스테레오 오디오 신호 지연 추정 방법.
  3. 제2항에 있어서,
    상기 현재 프레임의 노이즈 코히런스 값을 획득하는 단계는,
    상기 현재 프레임에 대해 음성 종료점 검출을 수행하는 단계; 및
    검출 결과가 상기 현재 프레임의 신호 유형이 노이즈 신호 유형인 것으로 지시하면, 상기 현재 프레임의 노이즈 코히런스 값을 계산하거나, 또는
    검출 결과가 상기 현재 프레임의 신호 유형이 음성 신호 유형인 것으로 지시하면, 상기 스테레오 오디오 신호의 현재 프레임의 이전 프레임의 노이즈 코히런스 값을 상기 현재 프레임의 노이즈 코히런스 값으로 결정하는 단계
    를 포함하는, 스테레오 오디오 신호 지연 추정 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이며; 그리고
    상기 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는,
    상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하는 단계;
    상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계;
    상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계; 및
    가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하는 단계
    를 포함하고,
    상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터(Wiener gain factor), 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 방법.
  5. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이며; 그리고
    상기 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는,
    상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계;
    상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계; 및
    가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하는 단계
    를 포함하고,
    상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 방법.
  6. 제4항 또는 제5항에 있어서,
    상기 제1 가중 함수
    Figure pct00362
    는 다음 수식:
    Figure pct00363

    을 충족하며,
    Figure pct00364
    는 상기 진폭 가중 파라미터이고
    Figure pct00365
    이며,
    Figure pct00366
    는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
    Figure pct00367
    는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
    Figure pct00368
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00369
    는 상기 제2 채널 주파수 도메인 신호이며,
    Figure pct00370
    Figure pct00371
    의 켤레 함수이고,
    Figure pct00372
    는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
    Figure pct00373
    이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법.
  7. 제4항 또는 제5항에 있어서,
    상기 제1 가중 함수
    Figure pct00374
    는 다음 수식:
    Figure pct00375

    을 충족하며,
    Figure pct00376
    는 상기 진폭 가중 파라미터이고
    Figure pct00377
    이며,
    Figure pct00378
    는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
    Figure pct00379
    는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
    Figure pct00380
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00381
    는 상기 제2 채널 주파수 도메인 신호이며,
    Figure pct00382
    Figure pct00383
    의 켤레 함수이고,
    Figure pct00384
    는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
    Figure pct00385
    이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법.
  8. 제4항 내지 제7항 중 어느 한 항에 있어서,
    상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이며; 그리고
    상기 스테레오 오디오 신호의 현재 프레임을 획득하는 단계 이후에, 상기 스테레오 오디오 신호 지연 추정 방법은:
    상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하는 단계; 및
    상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하는 단계
    를 더 포함하는 스테레오 오디오 신호 지연 추정 방법.
  9. 제8항에 있어서,
    상기 제1 초기 위너 이득 팩터
    Figure pct00386
    는 다음 수식:
    Figure pct00387

    을 충족하며,
    상기 제2 초기 위너 이득 팩터
    Figure pct00388
    는 다음 수식:
    Figure pct00389

    을 충족하고,
    Figure pct00390
    는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며,
    Figure pct00391
    는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고,
    Figure pct00392
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00393
    는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법.
  10. 제4항 내지 제7항 중 어느 한 항에 있어서,
    상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이며; 그리고
    상기 스테레오 오디오 신호의 현재 프레임을 획득하는 단계 이후에, 상기 스테레오 오디오 신호 지연 추정 방법은:
    상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터 및 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터를 획득하는 단계;
    상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하는 단계; 및
    상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하는 단계
    를 더 포함하는 스테레오 오디오 신호 지연 추정 방법.
  11. 제10항에 있어서,
    상기 제1 개선된 위너 이득 팩터
    Figure pct00394
    는 다음 수식:
    Figure pct00395

    을 충족하고,
    상기 제2 개선된 위너 이득 팩터
    Figure pct00396
    는 다음 수식:
    Figure pct00397

    을 충족하며,
    Figure pct00398
    는 상기 위너 이득 팩터의 이진 마스킹 임계값이고,
    Figure pct00399
    는 상기 제1 초기 위너 이득 팩터이며,
    Figure pct00400
    는 상기 제2 초기 위너 이득 팩터인, 스테레오 오디오 신호 지연 추정 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이며; 그리고
    상기 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는,
    상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하는 단계;
    상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계; 및
    상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하여 상기 인터 채널 시간 차이의 추정값을 획득하는 단계
    를 포함하고,
    상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 방법.
  13. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이며; 그리고
    상기 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하는 단계는,
    상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계;
    상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계; 및
    가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하는 단계
    를 포함하고,
    상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 방법.
  14. 제12항 또는 제13항에 있어서,
    상기 제2 가중 함수
    Figure pct00401
    는 다음 수식:
    Figure pct00402

    을 충족하며,
    Figure pct00403
    는 상기 진폭 가중 파라미터이고
    Figure pct00404
    이며,
    Figure pct00405
    는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
    Figure pct00406
    는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
    Figure pct00407
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00408
    는 상기 제2 채널 주파수 도메인 신호이며,
    Figure pct00409
    Figure pct00410
    의 켤레 함수이고,
    Figure pct00411
    는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
    Figure pct00412
    이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법.
  15. 스테레오 오디오 신호 지연 추정 방법으로서,
    스테레오 오디오 신호의 현재 프레임을 획득하는 단계 - 상기 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 -;
    상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계;
    미리 설정된 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 단계 - 상기 미리 설정된 가중 함수는 제1 가중 함수 또는 제2 가중 함수임 -; 및
    가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 제1 채널 주파수 도메인 신호와 제2 채널 주파수 도메인 신호 사이의 인터 채널 시간 차이의 추정값을 획득하는 단계
    를 포함하고,
    상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함하고, 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함하며, 상기 제1 가중 함수의 구성 팩터는 상기 제2 가중 함수의 구성 팩터와 상이한, 스테레오 오디오 신호 지연 추정 방법.
  16. 제15항에 있어서,
    상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이며; 그리고
    상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계는:
    상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하는 단계; 및
    상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하는 단계
    를 포함하는, 스테레오 오디오 신호 지연 추정 방법.
  17. 제15항에 있어서,
    상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호인, 스테레오 오디오 신호 지연 추정 방법.
  18. 제15항 및 제16항 중 어느 한 항에 있어서,
    상기 제1 가중 함수
    Figure pct00413
    는 다음 수식:

    Figure pct00414

    을 충족하며,
    Figure pct00415
    는 상기 진폭 가중 파라미터이고
    Figure pct00416
    이며,
    Figure pct00417
    는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
    Figure pct00418
    는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
    Figure pct00419
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00420
    는 상기 제2 채널 주파수 도메인 신호이며,
    Figure pct00421
    Figure pct00422
    의 켤레 함수이고,
    Figure pct00423
    는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
    Figure pct00424
    이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법.
  19. 제15항 및 제16항 중 어느 한 항에 있어서,
    상기 제1 가중 함수
    Figure pct00425
    는 다음 수식:
    Figure pct00426

    을 충족하며,
    Figure pct00427
    는 상기 진폭 가중 파라미터이고
    Figure pct00428
    이며,
    Figure pct00429
    는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
    Figure pct00430
    는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
    Figure pct00431
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00432
    는 상기 제2 채널 주파수 도메인 신호이며,
    Figure pct00433
    Figure pct00434
    의 켤레 함수이고,
    Figure pct00435
    는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
    Figure pct00436
    이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법.
  20. 제15항 내지 제19항 중 어느 한 항에 있어서,
    상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이며; 그리고
    상기 스테레오 오디오 신호의 현재 프레임을 획득하는 단계 이후에, 상기 스테레오 오디오 신호 지연 추정 방법은:
    상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하는 단계; 및
    상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하는 단계
    를 더 포함하는 스테레오 오디오 신호 지연 추정 방법.
  21. 제20항에 있어서,
    상기 제1 초기 위너 이득 팩터
    Figure pct00437
    는 다음 수식:
    Figure pct00438

    을 충족하며,
    상기 제2 초기 위너 이득 팩터
    Figure pct00439
    는 다음 수식:
    Figure pct00440

    을 충족하고,
    Figure pct00441
    는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며,
    Figure pct00442
    는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고,
    Figure pct00443
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00444
    는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법.
  22. 제15항 내지 제19항 중 어느 한 항에 있어서,
    상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이며; 그리고
    상기 스테레오 오디오 신호의 현재 프레임을 획득하는 단계 이후에, 상기 스테레오 오디오 신호 지연 추정 방법은:
    상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터 및 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터를 획득하는 단계;
    상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하는 단계; 및
    상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하는 단계
    를 더 포함하는 스테레오 오디오 신호 지연 추정 방법.
  23. 제22항에 있어서,
    상기 제1 개선된 위너 이득 팩터
    Figure pct00445
    는 다음 수식:
    Figure pct00446

    을 충족하고,
    상기 제2 개선된 위너 이득 팩터
    Figure pct00447
    는 다음 수식:
    Figure pct00448

    을 충족하며,
    Figure pct00449
    는 상기 위너 이득 팩터의 이진 마스킹 임계값이고,
    Figure pct00450
    는 상기 제1 초기 위너 이득 팩터이며,
    Figure pct00451
    는 상기 제2 초기 위너 이득 팩터인, 스테레오 오디오 신호 지연 추정 방법.
  24. 제15항 내지 제23항 중 어느 한 항에 있어서,
    상기 제2 가중 함수
    Figure pct00452
    는 다음 수식:
    Figure pct00453

    을 충족하며,
    Figure pct00454
    는 상기 진폭 가중 파라미터이고
    Figure pct00455
    이며,
    Figure pct00456
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00457
    는 상기 제2 채널 주파수 도메인 신호이며,
    Figure pct00458
    Figure pct00459
    의 켤레 함수이고,
    Figure pct00460
    는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
    Figure pct00461
    이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법.
  25. 스테레오 오디오 신호 지연 추정 장치로서,
    스테레오 오디오 신호의 현재 프레임을 획득하도록 - 상기 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 - 구성된 제1 획득 모듈; 및
    상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 노이즈 신호 유형이면, 제1 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하거나, 또는 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형이면, 제2 알고리즘을 사용하여 상기 제1 채널 오디오 신호와 상기 제2 채널 오디오 신호 사이의 인터 채널 시간 차이를 추정하도록 구성된 제1 인터 채널 시간 차이 추정 모듈
    을 포함하고,
    상기 제1 알고리즘은 제1 가중 함수에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하고, 상기 제2 알고리즘은 제2 가중 함수에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하는 것을 포함하며, 상기 제1 가중 함수의 구성 팩터는 상기 제2 가중 함수의 구성 팩터와 상이한, 스테레오 오디오 신호 지연 추정 장치.
  26. 제25항에 있어서,
    상기 스테레오 오디오 신호 지연 추정 장치는,
    상기 제1 획득 모듈이 상기 현재 프레임을 획득한 후 상기 현재 프레임의 노이즈 코히런스 값을 획득하고; 그리고 상기 노이즈 코히런스 값이 미리 설정된 임계값보다 크거나 같으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 코히런트 관련 노이즈 신호 유형인 것으로 결정하거나, 또는 상기 노이즈 코히런스 값이 미리 설정된 임계값보다 작으면, 상기 현재 프레임에 포함된 노이즈 신호의 신호 유형이 확산 노이즈 신호 유형인 것으로 결정하도록 구성된 노이즈 코히런스 값 계산 모듈
    을 더 포함하는 스테레오 오디오 신호 지연 추정 장치.
  27. 제26항에 있어서,
    상기 스테레오 오디오 신호 지연 추정 장치는,
    상기 현재 프레임에 대해 음성 종료점 검출을 수행하도록 구성된 음성 종료점 검출 모듈
    을 더 포함하고,
    상기 노이즈 코히런스 값 계산 모듈은 구체적으로,
    검출 결과가 상기 현재 프레임의 신호 유형이 노이즈 신호 유형인 것으로 지시하면, 상기 현재 프레임의 노이즈 코히런스 값을 계산하거나, 또는 검출 결과가 상기 현재 프레임의 신호 유형이 음성 신호 유형인 것으로 지시하면, 상기 스테레오 오디오 신호의 현재 프레임의 이전 프레임의 노이즈 코히런스 값을 상기 현재 프레임의 노이즈 코히런스 값으로 결정하도록 구성되는, 스테레오 오디오 신호 지연 추정 장치.
  28. 제25항 내지 제27항 중 어느 한 항에 있어서,
    상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이며; 그리고
    상기 제1 인터 채널 시간 차이 추정 모듈은,
    상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하며; 상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하고; 그리고 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성되고,
    상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 장치.
  29. 제25항 내지 제27항 중 어느 한 항에 있어서,
    상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이며; 그리고
    상기 제1 인터 채널 시간 차이 추정 모듈은,
    상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고; 상기 제1 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며; 그리고 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성되고,
    상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 장치.
  30. 제28항 또는 제29항에 있어서,
    상기 제1 가중 함수
    Figure pct00462
    는 다음 수식:
    Figure pct00463

    을 충족하며,
    Figure pct00464
    는 상기 진폭 가중 파라미터이고
    Figure pct00465
    이며,
    Figure pct00466
    는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
    Figure pct00467
    는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
    Figure pct00468
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00469
    는 상기 제2 채널 주파수 도메인 신호이며,
    Figure pct00470
    Figure pct00471
    의 켤레 함수이고,
    Figure pct00472
    는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
    Figure pct00473
    이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 장치.
  31. 제28항 또는 제29항에 있어서,
    상기 제1 가중 함수
    Figure pct00474
    는 다음 수식:
    Figure pct00475

    을 충족하며,
    Figure pct00476
    는 상기 진폭 가중 파라미터이고
    Figure pct00477
    이며,
    Figure pct00478
    는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
    Figure pct00479
    는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
    Figure pct00480
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00481
    는 상기 제2 채널 주파수 도메인 신호이며,
    Figure pct00482
    Figure pct00483
    의 켤레 함수이고,
    Figure pct00484
    는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
    Figure pct00485
    이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 장치.
  32. 제28항 내지 제31항 중 어느 한 항에 있어서,
    상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이며; 그리고
    상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로,
    상기 제1 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하며, 상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 그리고 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하도록 구성되는, 스테레오 오디오 신호 지연 추정 장치.
  33. 제32항에 있어서,
    상기 제1 초기 위너 이득 팩터
    Figure pct00486
    는 다음 수식:
    Figure pct00487

    을 충족하며,
    상기 제2 초기 위너 이득 팩터
    Figure pct00488
    는 다음 수식:
    Figure pct00489

    을 충족하고,
    Figure pct00490
    는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며,
    Figure pct00491
    는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고,
    Figure pct00492
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00493
    는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법.
  34. 제28항 내지 제31항 중 어느 한 항에 있어서,
    상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이며; 그리고
    상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로,
    상기 제1 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터 및 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터를 획득하고; 상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하며; 그리고 상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하도록 구성되는, 스테레오 오디오 신호 지연 추정 장치.
  35. 제34항에 있어서,
    상기 제1 개선된 위너 이득 팩터
    Figure pct00494
    는 다음 수식:
    Figure pct00495

    을 충족하고,
    상기 제2 개선된 위너 이득 팩터
    Figure pct00496
    는 다음 수식:
    Figure pct00497

    을 충족하며,
    Figure pct00498
    는 상기 위너 이득 팩터의 이진 마스킹 임계값이고,
    Figure pct00499
    는 상기 제1 초기 위너 이득 팩터이며,
    Figure pct00500
    는 상기 제2 초기 위너 이득 팩터인, 스테레오 오디오 신호 지연 추정 방법.
  36. 제25항 내지 제35항 중 어느 한 항에 있어서,
    상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이며; 그리고
    상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로,
    상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하며; 그리고 상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성되고,
    상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 장치.
  37. 제25항 내지 제35항 중 어느 한 항에 있어서,
    상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호이며; 그리고
    상기 제1 인터 채널 시간 차이 추정 모듈은 구체적으로,
    상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고; 상기 제2 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며; 그리고 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 상기 인터 채널 시간 차이의 추정값을 획득하도록 구성되고,
    상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함하는, 스테레오 오디오 신호 지연 추정 장치.
  38. 제37항에 있어서,
    상기 제2 가중 함수
    Figure pct00501
    는 다음 수식:
    Figure pct00502

    을 충족하며,
    Figure pct00503
    는 상기 진폭 가중 파라미터이고
    Figure pct00504
    이며,
    Figure pct00505
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00506
    는 상기 제2 채널 주파수 도메인 신호이며,
    Figure pct00507
    Figure pct00508
    의 켤레 함수이고,
    Figure pct00509
    는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
    Figure pct00510
    이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 장치.
  39. 스테레오 오디오 신호 지연 추정 장치로서,
    스테레오 오디오 신호의 현재 프레임을 획득하도록 - 상기 현재 프레임은 제1 채널 오디오 신호 및 제2 채널 오디오 신호를 포함함 - 구성된 제2 획득 모듈; 및
    상기 제1 채널 오디오 신호 및 상기 제2 채널 오디오 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하고, 미리 설정된 가중 함수에 기반하여 상기 주파수 도메인 교차 전력 스펙트럼에 가중치를 부여하며 - 상기 미리 설정된 가중 함수는 제1 가중 함수 또는 제2 가중 함수임 - 그리고, 가중된 주파수 도메인 교차 전력 스펙트럼에 기반하여 제1 채널 주파수 도메인 신호와 제2 채널 주파수 도메인 신호 사이의 인터 채널 시간 차이의 추정값을 획득하도록 구성된 제2 인터 채널 시간 차이 추정 모듈
    을 포함하고,
    상기 제1 가중 함수의 구성 팩터는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득, 진폭 가중 파라미터, 및 상기 현재 프레임의 제곱 코히런스 값을 포함하고, 상기 제2 가중 함수의 구성 팩터는 진폭 가중 파라미터 및 상기 현재 프레임의 제곱 코히런스 값을 포함하며, 상기 제1 가중 함수의 구성 팩터는 상기 제2 가중 함수의 구성 팩터와 상이한, 스테레오 오디오 신호 지연 추정 장치.
  40. 제39항에 있어서,
    상기 제1 채널 오디오 신호는 제1 채널 시간 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 시간 도메인 신호이며; 그리고
    상기 제2 인터 채널 시간 차이 추정 모듈은,
    상기 제1 채널 시간 도메인 신호 및 상기 제2 채널 시간 도메인 신호에 대해 시간-주파수 변환을 수행하여, 제1 채널 주파수 도메인 신호 및 제2 채널 주파수 도메인 신호를 획득하고; 그리고 상기 제1 채널 주파수 도메인 신호 및 상기 제2 채널 주파수 도메인 신호에 기반하여 상기 현재 프레임의 주파수 도메인 교차 전력 스펙트럼을 계산하도록 구성되는, 스테레오 오디오 신호 지연 추정 장치.
  41. 제39항에 있어서,
    상기 제1 채널 오디오 신호는 제1 채널 주파수 도메인 신호이고, 상기 제2 채널 오디오 신호는 제2 채널 주파수 도메인 신호인, 스테레오 오디오 신호 지연 추정 장치.
  42. 제39항 및 제41항 중 어느 한 항에 있어서,
    상기 제1 가중 함수
    Figure pct00511
    는 다음 수식:
    Figure pct00512

    을 충족하며,
    Figure pct00513
    는 상기 진폭 가중 파라미터이고
    Figure pct00514
    이며,
    Figure pct00515
    는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
    Figure pct00516
    는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
    Figure pct00517
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00518
    는 상기 제2 채널 주파수 도메인 신호이며,
    Figure pct00519
    Figure pct00520
    의 켤레 함수이고,
    Figure pct00521
    는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
    Figure pct00522
    이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 장치.
  43. 제39항 및 제41항 중 어느 한 항에 있어서,
    상기 제1 가중 함수
    Figure pct00523
    는 다음 수식:
    Figure pct00524

    을 충족하며,
    Figure pct00525
    는 상기 진폭 가중 파라미터이고
    Figure pct00526
    이며,
    Figure pct00527
    는 상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이고,
    Figure pct00528
    는 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터이며,
    Figure pct00529
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00530
    는 상기 제2 채널 주파수 도메인 신호이며,
    Figure pct00531
    Figure pct00532
    의 켤레 함수이고,
    Figure pct00533
    는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
    Figure pct00534
    이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 장치.\
  44. 제39항 내지 제43항 중 어느 한 항에 있어서,
    상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터이며; 그리고
    상기 제2 인터 채널 시간 차이 추정 모듈은 구체적으로,
    상기 제2 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 채널 주파수 도메인 신호에 기반하여 제1 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 상기 제1 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제1 초기 위너 이득 팩터를 결정하며, 상기 제2 채널 주파수 도메인 신호에 기반하여 제2 채널 노이즈 전력 스펙트럼의 추정값을 획득하고, 그리고 상기 제2 채널 노이즈 전력 스펙트럼의 추정값에 기반하여 상기 제2 초기 위너 이득 팩터를 결정하도록 구성되는, 스테레오 오디오 신호 지연 추정 장치.
  45. 제44항에 있어서,
    상기 제1 초기 위너 이득 팩터
    Figure pct00535
    는 다음 수식:
    Figure pct00536

    을 충족하며,
    상기 제2 초기 위너 이득 팩터
    Figure pct00537
    는 다음 수식:
    Figure pct00538

    을 충족하고,
    Figure pct00539
    는 상기 제1 채널 노이즈 전력 스펙트럼의 추정값이며,
    Figure pct00540
    는 상기 제2 채널 노이즈 전력 스펙트럼의 추정값이고,
    Figure pct00541
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00542
    는 상기 제2 채널 주파수 도메인 신호이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 방법.
  46. 제39항 내지 제43항 중 어느 한 항에 있어서,
    상기 제1 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 상기 제1 채널 주파수 도메인 신호의 제1 개선된 위너 이득 팩터이고, 상기 제2 채널 주파수 도메인 신호에 대응하는 위너 이득 팩터는 제2 채널 주파수 도메인 신호의 제2 개선된 위너 이득 팩터이며; 그리고
    상기 제2 인터 채널 시간 차이 추정 모듈은 구체적으로,
    상기 제2 획득 모듈이 상기 현재 프레임을 획득한 후, 상기 제1 채널 주파수 도메인 신호의 제1 초기 위너 이득 팩터 및 상기 제2 채널 주파수 도메인 신호의 제2 초기 위너 이득 팩터를 획득하고; 상기 제1 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제1 개선된 위너 이득 팩터를 획득하며; 그리고 상기 제2 초기 위너 이득 팩터에 대한 이진 마스킹 함수를 구성하여 상기 제2 개선된 위너 이득 팩터를 획득하도록 구성되는, 스테레오 오디오 신호 지연 추정 장치.
  47. 제46항에 있어서,
    상기 제1 개선된 위너 이득 팩터
    Figure pct00543
    는 다음 수식:
    Figure pct00544

    을 충족하고,
    상기 제2 개선된 위너 이득 팩터
    Figure pct00545
    는 다음 수식:
    Figure pct00546

    을 충족하며,
    Figure pct00547
    는 상기 위너 이득 팩터의 이진 마스킹 임계값이고,
    Figure pct00548
    는 상기 제1 초기 위너 이득 팩터이며,
    Figure pct00549
    는 상기 제2 초기 위너 이득 팩터인, 스테레오 오디오 신호 지연 추정 장치.
  48. 제39항 및 제47항 중 어느 한 항에 있어서,
    상기 제2 가중 함수
    Figure pct00550
    는 다음 수식:
    Figure pct00551

    을 충족하며,
    Figure pct00552
    이며,
    Figure pct00553
    는 상기 제1 채널 주파수 도메인 신호이고,
    Figure pct00554
    는 상기 제2 채널 주파수 도메인 신호이며,
    Figure pct00555
    Figure pct00556
    의 켤레 함수이고,
    Figure pct00557
    는 상기 현재 프레임의 k번째 주파수 빈의 제곱 코히런트 값이며,
    Figure pct00558
    이며, k는 주파수 빈 인덱스 값이고, k = 0, 1, ...이며, NDFT-1 및 NDFT는 시간-주파수 변환 후 상기 현재 프레임의 주파수 빈의 총 수량인, 스테레오 오디오 신호 지연 추정 장치.
  49. 오디오 코딩 장치로서,
    서로 결합된, 비휘발성 메모리 및 프로세서
    를 포함하고,
    상기 프로세서는 상기 메모리에 저장된 프로그램 코드를 호출하여, 제1항 내지 제24항 중 어느 한 항에 따른 스테레오 오디오 신호 지연 추정 방법을 수행하는, 오디오 코딩 장치.
  50. 컴퓨터 프로그램을 포함하는 컴퓨터 저장 매체로서,
    상기 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 상기 컴퓨터는 제1항 내지 제24항 중 어느 한 항에 따른 스테레오 오디오 신호 지연 추정 방법을 수행하도록 인에이블되는, 컴퓨터 저장 매체.
  51. 인코딩된 비트스트림을 포함하는, 컴퓨터가 판독 가능한 저장 매체로서,
    상기 인코딩된 비트스트림은 제1항 내지 제24항 중 어느 한 항에 따른 스테레오 오디오 신호 지연 추정 방법에 따라 획득된 스테레오 오디오 신호 사이의 인터 채널 시간 차이를 포함하는, 컴퓨터가 판독 가능한 저장 매체.
KR1020237004478A 2020-07-17 2021-07-15 스테레오 오디오 신호 지연 추정 방법 및 장치 KR20230035387A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010700806.7A CN113948098A (zh) 2020-07-17 2020-07-17 一种立体声音频信号时延估计方法及装置
CN202010700806.7 2020-07-17
PCT/CN2021/106515 WO2022012629A1 (zh) 2020-07-17 2021-07-15 一种立体声音频信号时延估计方法及装置

Publications (1)

Publication Number Publication Date
KR20230035387A true KR20230035387A (ko) 2023-03-13

Family

ID=79326926

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237004478A KR20230035387A (ko) 2020-07-17 2021-07-15 스테레오 오디오 신호 지연 추정 방법 및 장치

Country Status (8)

Country Link
US (1) US20230154483A1 (ko)
EP (1) EP4170653A4 (ko)
JP (1) JP2023533364A (ko)
KR (1) KR20230035387A (ko)
CN (1) CN113948098A (ko)
BR (1) BR112023000850A2 (ko)
CA (1) CA3189232A1 (ko)
WO (1) WO2022012629A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115691515A (zh) * 2022-07-12 2023-02-03 南京拓灵智能科技有限公司 一种音频编解码方法及装置
WO2024053353A1 (ja) * 2022-09-08 2024-03-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 信号処理装置、及び、信号処理方法
CN116032901A (zh) * 2022-12-30 2023-04-28 北京天兵科技有限公司 多路音频数据信号采编方法、装置、系统、介质和设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004002192A1 (en) * 2002-06-21 2003-12-31 University Of Southern California System and method for automatic room acoustic correction
CN101848412B (zh) * 2009-03-25 2012-03-21 华为技术有限公司 通道间延迟估计的方法及其装置和编码器
CN107479030B (zh) * 2017-07-14 2020-11-17 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法
CN107393549A (zh) * 2017-07-21 2017-11-24 北京华捷艾米科技有限公司 时延估计方法及装置
CN112262433B (zh) * 2018-04-05 2024-03-01 弗劳恩霍夫应用研究促进协会 用于估计通道间时间差的装置、方法或计算机程序
CN110082725B (zh) * 2019-03-12 2023-02-28 西安电子科技大学 基于麦克风阵列的声源定位时延估计方法、声源定位系统
CN109901114B (zh) * 2019-03-28 2020-10-27 广州大学 一种适用于声源定位的时延估计方法
CN111239686B (zh) * 2020-02-18 2021-12-21 中国科学院声学研究所 一种基于深度学习的双通道声源定位方法

Also Published As

Publication number Publication date
JP2023533364A (ja) 2023-08-02
BR112023000850A2 (pt) 2023-04-04
US20230154483A1 (en) 2023-05-18
WO2022012629A1 (zh) 2022-01-20
CN113948098A (zh) 2022-01-18
EP4170653A4 (en) 2023-11-29
CA3189232A1 (en) 2022-01-20
EP4170653A1 (en) 2023-04-26

Similar Documents

Publication Publication Date Title
US10251009B2 (en) Audio scene apparatus
KR20230035387A (ko) 스테레오 오디오 신호 지연 추정 방법 및 장치
JP7443423B2 (ja) マルチチャネル信号の符号化方法およびエンコーダ
US11664034B2 (en) Optimized coding and decoding of spatialization information for the parametric coding and decoding of a multichannel audio signal
US9479886B2 (en) Scalable downmix design with feedback for object-based surround codec
TWI618049B (zh) 高階保真立體音響訊號表象之壓縮方法和裝置以及解壓縮方法和裝置
AU2011357816B2 (en) Determining the inter-channel time difference of a multi-channel audio signal
JP2020525852A (ja) 遅延推定方法および遅延推定装置
EP2702587A1 (en) Method for inter-channel difference estimation and spatial audio coding device
EP3762923A1 (en) Audio coding
JP2024059711A (ja) チャネル間位相差パラメータ符号化方法および装置
JP2022163058A (ja) ステレオ信号符号化方法およびステレオ信号符号化装置
WO2017206794A1 (zh) 一种声道间相位差参数的提取方法及装置
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
US20200314580A1 (en) Method and apparatus for voice or sound activity detection for spatial audio
JP7159351B2 (ja) ダウンミックスされた信号の計算方法及び装置
RU2648632C2 (ru) Классификатор многоканального звукового сигнала
JP2024521486A (ja) コインシデントステレオ捕捉のためのチャネル間時間差(itd)推定器の改善された安定性
CA3215225A1 (en) Method and device for multi-channel comfort noise injection in a decoded sound signal

Legal Events

Date Code Title Description
A201 Request for examination