KR102431896B1 - 주 및 기준 채널들 사이의 잡음 및 사운드 파워 레벨 차들의 결정 - Google Patents

주 및 기준 채널들 사이의 잡음 및 사운드 파워 레벨 차들의 결정 Download PDF

Info

Publication number
KR102431896B1
KR102431896B1 KR1020177015615A KR20177015615A KR102431896B1 KR 102431896 B1 KR102431896 B1 KR 102431896B1 KR 1020177015615 A KR1020177015615 A KR 1020177015615A KR 20177015615 A KR20177015615 A KR 20177015615A KR 102431896 B1 KR102431896 B1 KR 102431896B1
Authority
KR
South Korea
Prior art keywords
noise
channel
audio signal
pdf
primary
Prior art date
Application number
KR1020177015615A
Other languages
English (en)
Other versions
KR20170082595A (ko
Inventor
얀 에스. 어켈렌스
Original Assignee
시러스 로직 인터내셔널 세미컨덕터 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 시러스 로직 인터내셔널 세미컨덕터 리미티드 filed Critical 시러스 로직 인터내셔널 세미컨덕터 리미티드
Publication of KR20170082595A publication Critical patent/KR20170082595A/ko
Application granted granted Critical
Publication of KR102431896B1 publication Critical patent/KR102431896B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

오디오 디바이스의 주 및 기준 마이크로폰과 기준 마이크로폰 사이의 잡음 파워 레벨 차(NPLD)를 추정하기 위한 방법은 기준 채널의 잡음 분산 추정치와 주 채널의 잡음 분산 추정치 사이의 NPLD를 제공하기 위해 오디오 신호의 주 채널의 고속 푸리에 변환(FFT) 계수의 모델링된 확률 밀도 함수(PDF)를 최대화하는 단계를 포함한다. 오디오 신호의 기준 채널의 FFT 계수의 모델링된 PDF는 주 및 기준 채널의 음성 FFT 계수들 사이의 복소 음성 파워 레벨 차(SPLD) 계수를 제공하기 위해 최대화된다. 기준 채널의 정정된 잡음 크기는 그 다음, 잡음 분산 추정치, NPLD 및 SPLD 계수에 기초하여 산출된다.

Description

주 및 기준 채널들 사이의 잡음 및 사운드 파워 레벨 차들의 결정{DETERMINING NOISE AND SOUND POWER LEVEL DIFFERENCES BETWEEN PRIMARY AND REFERENCE CHANNELS}
본 특허 출원은 본 명세서에 전체적으로 참조로써 통합되는, 2014년 11월 12일에 출원되고, 명칭이 "오디오 신호의 주 및 기준 채널들 사이의 잡음 파워 레벨 차 및/또는 사운드 파워 레벨 차의 결정(Determining Noise Power Level Difference and/or Sound Power Level Difference between Primary and Reference Channels of an Audio Signal)"인 가 출원 일련 번호 제 62/078,828 호에 대한 이득 및 우선권을 주장한다.
본 발명은 오디오 신호의 주 채널과 오디오 신호의 기준 채널 사이의 잡음 및/또는 사운드의 파워 레벨들의 차를 결정하기 위한 기술들에 관한 것이다.
오디오 신호들을 필터링하거나 그렇지 않으면, 정화하기 위한 많은 기술들은 신호 대 잡음 비들(SNRs)에 의존한다. SNR은 전형적으로, 오디오 신호에서 잡음의 양, 또는 잡음의 파워 레벨의 추정치를 이용한다.
최신 기술의 모바일 전화들을 포함하는 다양한 오디오 디바이스들은 의도된 소스로부터 오디오를 수신하도록 배치되고 지향되는 주 마이크로폰, 및 의도된 소스로부터 오디오를 거의 수신하지 않으면서 배경 잡음을 수신하도록 배치되고 지향되는 기준 마이크로폰을 포함한다. 기준 마이크로폰의 주요 기능은 주 마이크로폰에 의해 얻어진 오디오 신호의 주 채널에 존재할 것 같은 잡음의 양의 표시자를 제공하는 것이다. 종래적으로, 기준 마이크로폰으로 얻어지는, 오디오 신호의 기준 채널에서의 잡음의 레벨이 실질적으로, 오디오 신호의 주 채널에서의 잡음의 레벨과 동일함이 가정되었다.
실제로, 주 채널에 존재하는 잡음 레벨과 대응하는 기준 채널에 존재하는 잡음 레벨 사이에 상당한 차들이 존재할 수 있다. 이들 차들은 제한 없이, 주 마이크로폰 및 기준 마이크로폰이 사운드를 검출하는 방식(예로서, 감도)의 불균형, 오디오의 의도된 소스에 대한 주 마이크로폰 및 기준 마이크로폰의 방향들, (예로서, 개인이 모바일 전화, 등을 이용할 때 상기 개인의 머리 및/또는 다른 부분들에 의한) 잡음 및/또는 사운드의 차폐 및 주 및/또는 기준 채널들의 사전 프로세싱을 포함하는 복수의 상이한 인자들 중 임의의 인자에 의해 야기될 수 있다. 기준 채널에서의 잡음 레벨이 주 채널에서의 잡음 레벨보다 클 때, 주 채널에서 잡음을 제거하거나 그렇지 않으면, 억제하기 위한 노력들은 과도 억제, 또는 주 채널로부터의 타겟된 사운드(예로서, 음성, 음악, 등)의 부분들의 원하지 않는 제거 뿐만 아니라, 타겟된 사운드의 왜곡을 야기할 수 있다. 역으로, 기준 채널에서의 잡음 레벨이 주 채널에서의 잡음 레벨 미만일 때, 주 채널로부터의 잡음은 덜(under) 억제될 수 있고, 이는 잡음 억제 프로세싱에 의해 출력된 오디오 신호에서 바람직하지 않은 고 레벨들의 잔여 잡음을 야기할 수 있다.
기준 채널에서의 타겟된 사운드(예로서, 음성, 등)의 존재는 또한, 추정된 잡음 레벨로 에러를 도입하고 따라서, 잡음이 제거되거나 그렇지 않으면, 억제된 오디오 신호의 품질에 악영향을 줄 수 있다.
그에 따라, 개선들이 잡음 및 음성 파워 레벨들의 차이들을 추정할 때 찾아진다.
주 및 기준 마이크로폰들에서의 평균 잡음 및 음성 파워 레벨들은 일반적으로 상이하다. 발명자는 주파수 의존 잡음 파워 레벨 차(NPLD) 및 음성 파워 레벨 차(SPLD)를 추정하기 위한 방법들을 생각했고 설명했다. 본 발명이 종래 기술의 단점들을 해결하는 방식이 하기에 더 상세하게 논의될 것이지만, 일반적으로, 본 발명은 기준 마이크로폰으로부터 잡음 분산 추정치를 정정하고, PLD들을 고려하기 위해 레벨 차 필터를 수정하기 위해 추정된 NPLD 및 SPLD를 이용하기 위한 방법을 제공한다. 본 발명의 양태들이 셀룰러 통신들에 관해 설명될 수 있을지라도, 본 발명의 양태들은 임의의 수의 오디오, 비디오 또는 다른 데이터 송신들 및 관련된 프로세스들에 적용될 수 있다.
다양한 양태들에서, 본 발명은 오디오 채널의 제 1 채널(예로서, 기준 채널, 부(secondary) 채널, 등)에서 잡음 파워 및/또는 사운드 파워를 정확하게 추정하고 그 잡음 파워 및/또는 사운드 파워와 오디오 신호의 제 2 채널(예로서, 주 채널, 기준 채널, 등)에서의 각각의 잡음 파워 및/또는 사운드 파워 사이의 임의의 차를 최소화하거나 제거하기 위한 기술들에 관한 것이다.
하나의 양태에서, 오디오 신호의 기준 채널과 오디오 신호의 주 채널 사이의 잡음 파워 레벨 차를 추적하기 위한 기술이 개시된다. 이러한 방법에서, 오디오 신호는 모바일 전화와 같은, 오디오 디바이스의 주 마이크로폰 및 적어도 하나의 기준 마이크로폰으로부터 동시에 얻어진다. 더 구체적으로, 기준 마이크로폰이 오디오 신호의 기준 채널을 수신하는 동안, 주 마이크로폰은 오디오 신호의 주 채널을 수신한다.
소위 "최대 우도(maximum likelihood)" 추정 기술은 주 채널과 기준 채널 사이의 NPLD를 결정하기 위해 이용될 수 있다. 최대 우도 추정 기술은 오디오 신호의 기준 채널의 잡음 크기, 또는 잡음 파워를 추정하는 것을 포함하고, 이는 잡음 크기 추정치를 제공한다. 특정 실시예에서, 잡음 크기의 추정은 어켈렌스, 제이.에스.(Erkelens, J.S.), 등에 의해 발명의 명칭이 "데이터 구동 반복 잡음 파워 추정에 기초한 비정상 잡음의 추적(Tracking of Nonstationary Noise Based on Data Drive Recursive Noise Power Estimation)"인, 오디오, 음성, 및 언어 프로세싱에 관한 IEEE 학회지, 16(6): 1112 1123 (2008) ("어켈렌스")로 개시된 것과 같은, 데이터 구동 반복 잡음 파워 추정 기술의 이용을 포함할 수 있고, 그의 전체 개시는 이에 의해 모든 목적들을 위해 참조로써 통합된다.
잡음 크기 추정치를 통해, 오디오 신호의 주 채널의 고속 푸리에 변환(FFT) 계수의 확률 밀도 함수(PDF)가 모델링(modeling)될 수 있다. 일부 실시예들에서, 주 채널의 FFT 계수의 PDF의 모델링은 그것을 복소 가우시안 분포로서 모델링하는 것을 포함할 수 있고, 복소 가우시안 분포의 평균은 NPLD에 의존한다. NPLD에 대한 오디오 신호의 주 채널의 특정한 부분에 대한 FFT 계수들의 조인트(joint) PDF를 최대화하는 것은 오디오 신호의 기준 채널 및 주 채널로부터 산출될 수 있는 NPLD 값을 제공한다. 정확한 NPLD를 통해, 주 오디오 신호의 잡음 크기, 또는 잡음 파워는 정확하게, 기준 오디오 신호의 잡음 크기, 또는 잡음 파워와 관련될 수 있다.
다양한 실시예들에서, 이들 프로세스들은 지속적이고, 따라서 잡음 분산 추정치의 뿐만 아니라, NPLD의 추적을 포함할 수 있다. 추적 프로세스가 발생하는 레이트는 타겟된 사운드(예로서, 음성, 음악, 등)가 오디오 신호의 주 채널에 존재할 가능성에 적어도 부분적으로 기초할 수 있다. 타겟된 사운드가 주 채널에 존재할 것 같은 실시예들에서, 추적 프로세스의 레이트는 어켈렌스에 의해 교시된 평활화 인자(smoothing factor)들을 이용함으로써 느려질 수 있고, 이는 NPLD 및 잡음 크기, 또는 잡음 파워의 더 민감하고/하거나 정확한 추적, 따라서 잡음이 그로부터 제거되거나 그렇지 않으면, 억제될 때 타겟된 사운드의 더 적은 왜곡을 가능하게 할 수 있다. 타겟된 사운드가 아마도 주 채널에 존재하지 않는 실시예들에서, 추적 프로세스는 더 빠른 레이트로 행해질 수 있다.
또 다른 양태에서, 주 채널과 기준 채널 사이의 음성 파워 레벨 차(SPLD)가 결정될 수 있다. SPLD는 주 채널의 FFT 계수들을 기준 채널의 FFT 계수들의 함수로서 표현함으로써 결정될 수 있다. 일부 실시예들에서, 주 채널의 FFT 계수들의 PDF의 모델링은 그것을 복소 가우시안 분포로서 모델링하는 것을 포함할 수 있고, 복소 가우시안 분포의 평균 및 분산은 SPLD에 의존한다. SPLD에 대한 오디오 신호의 주 채널의 특정한 부분에 대한 FFT 계수들의 조인트 PDF를 최대화하는 것은 오디오 신호의 기준 채널 및 주 채널로부터 산출될 수 있는 SPLD 값을 제공한다.
SPLD는 지속적으로 산출되거나, 추적될 수 있다. 일부 실시예들에서, 오디오 신호의 주 채널과 기준 채널 사이의 SPLD의 추적 레이트는, 음성이 오디오 신호의 주 채널에 존재할 가능성에 의존할 수 있다. 음성이 주 채널에 존재할 것 같은 실시예들에서, 추적 레이트가 증가될 수 있다. 음성이 주 채널에 존재할 것 같지 않은 실시예들에서, 추적 레이트가 감소될 수 있고, 이는 SPLD의 더 민감하고/하거나 정확한 추적을 가능하게 할 수 있다.
본 발명의 또 다른 양태에 따라, NPLD 및/또는 SPLD 추적은 오디오 필터링 및/또는 정화 프로세스들에서 이용될 수 있다. 제한 없이, NPLD 및/또는 SPLD 추적은 오디오 신호의 주 및 기준 채널들의 최소 평균 제곱 오차(MMSE) 필터링 전에, 또는 레벨 차 사후 프로세싱에서(즉, MMSE, 등과 같은, 주요 정화 프로세스 후에), 초기 필터링(예로서, 적응형 최소 평균 제곱(LMS), 등) 프로세스 다음에, (예로서, 기준 마이크로폰, 등에 의한) 기준 채널의 생성 시에 기준 채널의 잡음 크기 추정치들을 정정하기 위해 이용될 수 있다.
본 발명의 하나의 양태는 일부 실시예들에서, 오디오 디바이스의 주 마이크로폰과 기준 마이크로폰 사이의 잡음 파워 레벨 차(NPLD)를 추정하기 위한 방법을 특징으로 한다. 방법은 오디오 디바이스의 주 마이크로폰으로 오디오 신호의 주 채널을 얻는 단계; 오디오 디바이스의 기준 마이크로폰으로 오디오 신호의 기준 채널을 얻는 단계; 및 하나 이상의 주파수들에 대한 잡음 분산 추정치를 제공하기 위해 오디오 신호의 기준 채널의 잡음 크기를 추정하는 단계를 포함한다. 방법은 오디오 신호의 주 채널의 고속 푸리에 변환(FFT) 계수의 확률 밀도 함수(PDF)를 모델링하는 단계; 기준 채널의 잡음 분산 추정치와 주 채널의 잡음 분산 추정치 사이의 NPLD를 제공하기 위해 PDF를 최대화하는 단계; 오디오 신호의 기준 채널의 FFT 계수의 PDF를 모델링하는 단계; 주 및 기준 채널의 음성 FFT 계수들 사이의 복소 음성 파워 레벨 차(SPLD) 계수를 제공하기 위해 PDF를 최대화하는 단계; 및 잡음 분산 추정치, NPLD 및 SPLD 계수에 기초하여 기준 채널의 정정된 잡음 크기를 산출하는 단계를 더 포함한다.
일부 실시예들에서, 기준 채널의 잡음 파워 레벨은 주 채널의 잡음 파워 레벨과 상이하다. 일부 실시예들에서, 기준 채널의 잡음 크기를 추정하는 단계, 주 채널의 FFT 계수의 PDF를 모델링하는 단계 및 PDF를 최대화하는 단계는 지속적으로 야기되고 NPLD를 추적하는 단계를 포함한다. 일부 실시예들에서, NPLD를 추적하는 단계는 연속적인 시간 프레임들에 걸친 통계의 지수 평활법(exponential smoothing)을 포함한다. 일부 실시예들에서, 연속적인 시간 프레임들에 걸친 통계의 지수 평활법은 데이터 구동 반복 잡음 파워 추정을 포함한다.
일부 실시예들에서, 방법은 음성이 오디오 신호의 적어도 주 채널에 존재할 가능성을 결정하는 단계를 포함한다. 일부 실시예들에서, 음성이 오디오 신호의 적어도 주 채널에 존재할 것 같으면, 방법은 추적이 발생하는 레이트를 느리게 하는 단계를 포함한다.
일부 실시예들에서, 기준 채널의 잡음 크기를 추정하는 단계는 데이터 구동 반복 잡음 파워 추정을 포함한다.
일부 실시예들에서, 오디오 신호의 주 채널의 FFT 계수의 PDF를 모델링하는 단계는 복소 가우시안 PDF를 모델링하는 단계를 포함하고, 복소 가우시안 분포의 평균은 NPLD에 의존한다.
일부 실시예들에서, 방법은 오디오 신호의 주 채널에서의 음성 및 오디오 신호의 기준 채널에서의 음성의 상대적 세기들을 결정하는 단계를 포함한다. 일부 실시예들에서, 상대적 세기들을 결정하는 단계는 시간에 걸쳐 상대적 세기들을 추적하는 단계를 포함한다. 일부 실시예들에서, 상대적 세기들을 결정하는 단계는 데이터 구동 반복 잡음 파워 추정을 포함한다. 일부 실시예들에서, 방법은 NPLD 및 SPLD 계수들을 적용하기 이전에 최소 평균 제곱(LMS) 필터를 적용하는 단계를 포함한다.
일부 실시예들에서, 기준 채널의 잡음 크기를 추정하는 단계, 주 채널의 FFT 계수의 PDF를 모델링하는 단계 및 PDF를 최대화하는 단계는 오디오 신호의 적어도 일부 필터링 전에 발생한다. 일부 실시예들에서, 기준 채널의 잡음 크기를 추정하는 단계, 주 채널의 FFT 계수의 PDF를 모델링하는 단계 및 PDF를 최대화하는 단계는 주 채널 및 기준 채널의 최소 평균 제곱 오차(MMSE) 필터링 전에 발생한다.
일부 실시예들에서, 기준 채널의 FFT 계수의 PDF를 모델링하는 단계는 복소 가우시안 분포를 모델링하는 단계를 포함하고, 복소 가우시안 분포의 평균은 복소 SPLD 계수에 의존한다.
일부 실시예들에서, 기준 채널의 잡음 크기를 추정하는 단계, 주 채널 및 기준 채널의 FFT 계수들의 PDF들을 모델링하는 단계 및 PDF들을 최대화하는 단계는 오디오 신호가 주요 필터링 또는 정화 프로세스를 받은 후에 오디오 신호의 레벨 차 사후 프로세싱에 대해 기준 채널의 잡음 분산을 조정하는 단계를 포함한다.
일부 실시예들에서, 방법은 음성 활동(voice activity) 및 식별가능한 스피커 음성 활동 중 하나 이상을 검출하는데 NPLD 및 SPLD를 이용하는 단계를 포함한다.
일부 실시예들에서, 방법은 최고 신호 대 잡음 비를 성취하기 위해 마이크로폰들 사이의 선택 시에 NPLD 및 SPLD를 이용하는 단계를 포함한다.
본 발명의 또 다른 양태는 일부 실시예들에서, 오디오 디바이스를 특징으로 하고, 상기 오디오 디바이스는: 오디오 신호를 수신하기 위한 그리고 오디오 신호의 주 채널을 전달하기 위한 주 마이크로폰; 주 마이크로폰과 상이한 관점으로부터 오디오 신호를 수신하기 위한 그리고 오디오 신호의 기준 채널을 전달하기 위한 기준 마이크로폰; 및 오디오 신호를 필터링하고/하거나 정화하기 위해 오디오 신호를 프로세싱하기 위한 적어도 하나의 프로세싱 요소를 포함하고, 적어도 하나의 프로세싱 요소는 오디오 디바이스의 주 마이크로폰과 기준 마이크로폰 사이의 잡음 파워 레벨 차(NPLD)를 추정하기 위한 방법을 야기하는 프로그램을 실행하도록 구성된다. 방법은 오디오 디바이스의 주 마이크로폰으로 오디오 신호의 주 채널을 얻는 단계; 오디오 디바이스의 기준 마이크로폰으로 오디오 신호의 기준 채널을 얻는 단계; 및 하나 이상의 주파수들에 대한 잡음 분산 추정치를 제공하기 위해 오디오 신호의 기준 채널의 잡음 크기를 추정하는 단계를 포함한다. 방법은 오디오 신호의 주 채널의 고속 푸리에 변환(FFT) 계수의 확률 밀도 함수(PDF)를 모델링하는 단계; 기준 채널의 잡음 분산 추정치와 주 채널의 잡음 분산 추정치 사이의 NPLD를 제공하기 위해 PDF를 최대화하는 단계; 오디오 신호의 기준 채널의 FFT 계수의 PDF를 모델링하는 단계; 주 및 기준 채널의 음성 FFT 계수들 사이의 복소 음성 파워 레벨 차(SPLD) 계수를 제공하기 위해 PDF를 최대화하는 단계; 및 잡음 분산 추정치, NPLD 및 SPLD 계수에 기초하여 기준 채널의 정정된 잡음 크기를 산출하는 단계를 더 포함한다.
본 발명에 따른 오디오 디바이스의 다양한 실시예들은 개시된 프로세스들 중 임의의 프로세스를 실행하도록 프로그래밍될 수 있는 적어도 하나의 프로세싱 요소를 포함한다. 이러한 오디오 디바이스는 오디오를 수신하기 위한 2개 이상의 마이크로폰들을 갖는 임의의 전자 디바이스 또는 오디오 신호의 2개 이상의 채널들을 수신하도록 구성되는 임의의 디바이스를 포함할 수 있다. 이러한 디바이스의 일부 실시예들은 모바일 전화들, 전화들, 오디오 기록 장비 및 일부 휴대가능한 매체 플레이어들을 포함하지만, 그들로 제한되지 않는다. 이러한 디바이스의 프로세싱 요소(들)는 마이크로프로세서들, 마이크로제어기들, 등을 포함할 수 있다.
개시된 주제의 다른 양태들 뿐만 아니라, 다양한 양태들의 특징들 및 장점들은 상기 제공된 개시, 첨부된 도면 및 첨부된 청구항들의 고려를 통해 당업자들에게 명백해야 한다. 상기 개시가 많은 세부사항을 제공할지라도, 이들은 다음의 청구항들 중 하나의 범위를 제한하는 것으로서 해석되지 않아야 한다. 청구항들의 범위들로부터 벗어나지 않는 다른 실시예들이 고안될 수 있다. 상이한 실시예들로부터의 특징들은 조합하여 이용될 수 있다. 각각의 청구항의 범위는 따라서, 그것의 평범한 언어 및 그것의 요소들에 대한 이용가능한 합법적 등가물들의 완전한 범위에 의해서만 표시되고 제한된다.
도 1은 하나의 실시예에 따른 주 및 기준 신호들의 클린(clean) 및 노이지(noisy) 스펙트럼들의 일 예시적인 표시를 도시한 도면.
도 2는 도 1의 신호들에 대한 추정된 그리고 정확한 NPLD 및 SPLD 스펙트럼들을 도시한 도면.
도 3은 시뮬레이팅된 카페 환경에서 측정된 잡음 채널들 둘 모두로부터의 평균 스펙트럼을 도시한 도면.
도 4는 도 3의 시뮬레이팅된 카페 환경 시나리오에서 클린 및 노이지 신호들의 평균 스펙트럼들을 도시한 도면.
도 5는 도 1의 신호들에 대한 측정된 "정확한" 그리고 추정된 NPLD 및 SPLD 스펙트럼들을 도시한 도면.
도 6은 하나의 실시예에 따른 스펙트럼 음성 증진 시스템에서 이용하기 위한 잡음 및 음성 파워 레벨 차들의 추정치에 대한 프로세스 흐름 개요를 도시한 도면.
도 7은 디지털 오디오 데이터를 분석하기 위한 컴퓨터 아키텍처를 도시한 도면.
다음의 설명은 단지 본 발명의 예시적인 실시예들에 대한 것이고, 본 발명의 범위, 적용가능성 또는 구성을 제한하도록 의도되지 않는다. 오히려, 다음의 설명은 본 발명의 다양한 실시예들을 구현하기 위한 편리한 예시를 제공하도록 의도된다. 명백하게 될 바와 같이, 본 명세서에서 제시된 바와 같이 본 발명의 범위를 벗어나지 않고 이들 실시예들에서 설명된 요소들의 기능 및 배열에서의 다양한 변경들이 행해질 수 있다. 본 명세서에서의 설명이 상이한 형상들, 구성요소들, 메커니즘들 등을 가지는 대안적으로 구성된 디바이스들로 이용되고 여전히, 본 발명의 범위에 속하도록 적응될 수 있음이 이해되어야 한다. 따라서, 본 명세서에서의 상세한 설명은 제한의 아니라 단지 예시의 목적들을 위해 제공된다.
"하나의 구현" 또는 "일 실시예"에 대한 명세서에서의 참조는 설명된 특정한 특징, 구조, 또는 특성이 본 발명의 적어도 일 실시예, 구현 또는 적용에 포함됨을 나타내도록 의도된다. 명세서에서의 다양한 장소들에서의 어구("하나의 구현에서" 또는 "일 실시예")의 출현들은 반드시, 모두가 동일한 구현 또는 실시예를 언급하고 있지 않다.
1 모델링 가정들 및 정의들
1.1 단일 모델
2개의 마이크로폰들로부터 발생하는 시간 도메인 신호들은 주 마이크로폰에 대해 y1로 칭해지고 부 (기준) 마이크로폰에 대해 y2로 칭해진다. 신호들은 음성 신호 및 잡음 교란(noise disturbance)의 합이고,
Figure 112017054463048-pct00001
(1)
여기서, n은 별개의 시간 인덱스이다. 전화기에 관해, 부 마이크로폰은 일반적으로 뒤쪽에 위치되고 이용자는 주 마이크로폰을 통해 말한다. 주 음성 신호는 따라서 종종, 부 음성 신호보다 훨씬 강하다. 잡음 신호들은 종종, 유사한 세기이지만, 잡음 소스들의 위치들 및 마이크로폰 감도들의 차들에 의존하는 주파수 의존 레벨 차들이 존재할 수 있다. 마이크로폰에서의 잡음 및 음성 신호들이 독립적임이 가정된다.
대부분의 음성 증진 알고리즘들은 FFT 도메인에서 동작하고, 여기서 신호들은
Figure 112017054463048-pct00002
(2)이고,
여기서 k는 별개의 주파수 인덱스이며 m=0,1,...은 프레임 인덱스이다.
주 및 기준 신호들은 "로우(raw)" 마이크로폰 신호들일 수 있거나 그들은 일부 종류의 사전 프로세싱 후의 마이크로폰 신호들일 수 있다. 많은 사전 프로세싱 알고리즘들이 가능하다. 예를 들면, 사전 프로세싱은 신호들의 특정 대역들을 감쇠시키는 고정된 필터들로 구성될 수 있거나, 그것은 주 신호에서 잡음 및/또는 기준 채널에서 음성을 감쇠시키려고 시도하는 알고리즘들로 구성될 수 있다. 이 유형의 알고리즘들의 예들은 빔형성 알고리즘(beamforming algorithm)들 및 최소 평균 제곱 필터들 및 칼만 필터들과 같은, 적응형 필터들이다.
스펙트럼 음성 증진은 이득 함수(G(k,m))를 각각의 노이지 푸리에 계수(Y1(k,m))에 적용하는 것으로 구성된다(예로서, [1-5] 참조). 이득은 더 많은 억제를 더 낮은 SNR을 갖는 주파수 빈들에 적용한다. 이득은 시간 변화하고 있고 매 프레임마다 결정되어야 한다. 이득은 주 채널의 2개의 SNR 파라미터들의 함수이고: 이전 SNR(
Figure 112017054463048-pct00003
) 및 이후(posterior) SNR(γ1(k,m))은 다음과 같이 각각 정의되고
Figure 112017054463048-pct00004
및 (3)
Figure 112017054463048-pct00005
(4)
여기서, λs1(k,m) 및 λd1(k,m)은 각각 주 음성 및 잡음 신호들의 스펙트럼 분산들이다.
인덱스들(k 및 m)은 FFT 도메인에서의 신호들 및 변수들이 주파수 의존적이고 프레임마다 변화할 수 있다는 이해를 통해 표기의 용이를 위해 생략될 수 있다.
스펙트럼 분산들은 크기들의 제곱들의 예상된 값들로서 정의된다:
Figure 112017054463048-pct00006
(5)
ε는 예상 연산자이다.
스펙트럼 분산들(λs1 및 λd1)은 예측치들이다. 독립 음성 및 잡음 신호들에 대해, 노이지 신호들의 스펙트럼 분산들(λyi)은 음성 및 잡음 스펙트럼 분산들의 합이다.
2 SNR들의 추정
주 채널의 이전 및 이후 SNR의 추정은 λs1 및 λd1의 추정을 요구한다. λd1을 추정하는 단순한 방식은 기준 채널을 이용하는 것이다. 마이크로폰들 둘 모두에서의 잡음 신호들이 대략 동일한 세기를 갖고 기준 채널에서의 음성 신호가 잡음 신호와 비교하여 약하다고 가정하면, λd2의 추정치는 신호 파워들의 지수 평활법(|Y2 2|)에 의해 얻어질 수 있고, 그것을 또한 λd1의 추정치로서 이용할 수 있고
Figure 112017054463048-pct00007
(6)
여기서, αNV는 잡음 분산 평활화 인자이다.
이 단순화된 추정량(estimator)은 일부 문제들을 제공할 수 있다. 전에 언급된 바와 같이, 잡음 신호들은 채널들 둘 모두에서 상이한 레벨들을 가질 수 있다. 이것은 차선의 필터링을 야기할 것이다. 또한, 마이크로폰은 종종 기준 신호들에서 타겟 음성의 일부를 픽 업(pick up)한다. 이것은 추정량(6)이 잡음 레벨을 과도추정할 것임을 의미한다. 이것은 주 음성 신호의 과도억제를 야기할 수 있다. 다음 섹션들은 이들 문제들을 처리하기 위해 제안된 방법들을 해결한다.
잡음 분산의 추정치를 고려할 때, 주 채널의 이전 SNR은 "결정 지향 접근법" 예로서,
Figure 112017054463048-pct00008
(7)에 의해 공통적으로 추정되고,
αXI는 이전 SNR 평활화 인자이고,
Figure 112017054463048-pct00009
은 이전 프레임으로부터의 추정된 주 음성 스펙트럼 크기들이며,
Figure 112017054463048-pct00010
는 추정된 이후 SNR이다.
3 전력 레벨 차들의 추정
FFT 도메인에서의 신호들의 차는 인자들(Cs(k,m) 및 Cd(k,m))로 모델링될 수 있다. 이들 주파수 의존 계수들은 2개의 마이크로폰들에서 음성 또는 잡음 레벨들의 평균 차를 설명하기 위해 도입된다. 그들은 시간에 걸쳐 변경될 수 있지만, 그들의 크기들은 프레임 레이트보다 훨씬 느린 레이트로 변경되도록 가정된다. FFT 도메인에서의 신호 모델은 이제 다음과 같이 된다.
Figure 112017054463048-pct00011
(8)
잡음 항들(N1 및 N2)은 모든 잡음 소스들로부터의 기여들을 포함한다. 그들의 분산은 동일한 것으로 가정되지만, Cd의 제곱된 크기는 실제 잡음 신호들 사이의 평균 파워 레벨 차를 모델링한다. Cd는 따라서, 잡음 파워 레벨 차(NPLD) 계수로 칭해진다. 마찬가지로, Cs는 음성 파워 레벨 차(SPLD) 계수로 칭해진다. 파워 레벨 차(PLD) 계수들은 존재할 수 있는 임의의 장기간 평균 위상 차들을 모델링하기 위해 복소인 것으로 가정된다. Cd의 위상은 다음의 이유들로 인해 Cs의 위상보다 훨씬 빠르게 변화하도록 예상된다. 모든 잡음 소스들은 마이크로폰들에 관해 상이한 상대적 위치들에 있다. 이들 잡음 소스들은 가능하게, 스피커 및 서로에 대해 이동하고 있고 또한, 반향일 수 있다.
이들 인자들은 음향 신호에 대해 아마도 덜 중요할 것 같은데, 이는 하나의 타겟 스피커가 마이크로폰들에 가깝다고 가정되기 때문이다. Cs의 위상에 대한 중요한 기여는 신호 도착 시간들의 지연이다. 일반적으로, Cs의 절대값은 1보다 적다((|Cs|<1)). Cd의 절대값은 1보다 적거나 클 수 있다. Cs(k,m) 및 절대값(|Cd(k,m)|)은 점진적으로 변하도록 가정된다(그렇지 않으면, 그들을 정확하게 추정하는 것이 어려워진다).
독립적인 음성 및 잡음을 가정하면, 노이지 신호들의 스펙트럼 분산들은 다음에 의해 모델링된다.
Figure 112017054463048-pct00012
(9)
Figure 112017054463048-pct00013
(10)
프레임 인덱스(m)가 PLD 계수들로부터 생략됨에 주의하고, 이는 그들의 크기들이 프레임의 길이 동안 거의 일정하게 유지된다고 가정되기 때문이다. N1 및 N2의 분산들이 둘 모두 λd로 같다고 가정된다. NPLD는 |Cd2에 의해 설명되고 SPLD는 |Cs2에 의해 설명된다. |Cd|의 및 |Cs|의 최대 우도 추정량들의 도출은 하기에 설명된다.
3.1 NPLD의 추정
CdN1이 공지된다고 가정한다. 음성 FFT 계수가 평균(0) 그리고 분산(λs)을 갖는 복소 가우시안 분포에 의해 모델링되면, CdN1의 값을 고려할 때 노이지 FFT 계수의 확률 밀도 함수(PDF)는 평균(CdN1) 및 분산(λs)을 갖는 복소 가우시안이다.
Figure 112017054463048-pct00014
(11)
방정식(11)은 또한 다음으로서 기록될 수 있고
Figure 112017054463048-pct00015
(12)
여기서, θ는 Y1의 위상이고 ψ는 CdN1의 위상이다. 최대 우도(ML) 추정 이론[6]은 공지되지 않은 파라미터들에 대해 PDF를 최대화하는 것은 특정 바람직한 속성들을 갖는 추정치들을 야기함을 구술한다. 예를 들면, 추정량의 분산은 관측들의 수가 증가함에 따라 크레이머-라오(
Figure 112017054463048-pct00016
) 하한계에 접근한다. 분산을 수용가능한 레벨로 감소시키기 위해, 추정은 다수의 프레임들로부터의 데이터에 기초해야 한다. 연속적인 프레임들의 음성 FFT 계수들(S(k,m))은 독립적인 것으로 가정될 수 있다. 이것은 음성 개선 문헌에서 종종 행해지는 단순화된 가정이다. Cd(k,m)N1(k,m)을 고려할 때, 다수의 프레임들의 노이지 FFT 계수들(Y1(k,m))의 조인트 PDF는 그 다음, 이들 프레임들의 PDF들(12)의 곱으로서 기록될 수 있다. M개의 연속적인 프레임들에 대한 주파수 인덱스(k)에 대해 결과로 발생하는 조인트 PDF는 다음으로서 모델링되고,
Figure 112017054463048-pct00017
(13)
Y1(k)는 M개의 연속적인 프레임들의 노이지 FFT 계수들의 벡터이다. N'1(k)는 연속적인 Cd(k,m)N1(k,m) 계수들의 벡터이다.
위상들(ψ(k,m))이 연속적인 프레임들에 대해 서로 독립적임이 가정될 것이다. PDF(12)는 ψ(k,m)=θ(k,m)에 대해 ψ(k,m)에 관해 최대화되고 즉, N'1(k)의 위상들의 ML 추정치들은 노이지 위상들과 같다. 이들 추정치들을 조인트 PDF(13)로 대체하고 |Cd(k)|에 대해 최대화하는 것은 그것의 ML 추정치에 대한 다음의 표현을 산출한다.
Figure 112017054463048-pct00018
(14)
따라서, (14)의 분자 및 분모 둘 모두는 λs(k,m)에 의해 정규화된다. 이것은 많은 음성 에너지를 갖는 프레임들이 작은 가중치를 부여받음을 의미한다. 이론에서, 이것은 음성 신호가 낮은 SNR을 가질 때 더 양호한 추정치들이 예상될 수 있을지라도,
Figure 112017054463048-pct00019
가 높은 SNR의 기간 동안 또한 추정될 수 있음을 의미한다. 특히, 그 음성 존재는 이 추정량의 도출에서 가정되었다.
가우시안 음성 모델의 이용이 공통적일지라도, 수퍼가우시안 통계 모델들이 또한 제안되었다. 예를 들면, [7-9] 및 그 안의 참조들을 참고한다. 이론에서, NPLD에 대한 NL 추정량들이 또한, 이들 모델들에 대해 얻어질 수 있다. 가우시안 모델에 기초한 추정량은 이미 매우 잘 작용하고, 여기서 이용된다.
추정량(14)이 프레임들의 모두에서 적어도 일부 음성이 존재한다고(
Figure 112017054463048-pct00020
) 가정함에 주의한다. 따라서, 정규화 인자들은 매우 적은 수에 의한 나눔을 방지하기 위해 제한된다. 실험을 통해, 다음의 정규화들이 매우 잘 작용함이 관측되었다. 주 채널의 이전 SNR을 잡음 분산과 곱합으로써 λs를 추정할 수 있다. 이전 SNR은 결정 지향 접근법을 이용하여 컴퓨팅되었고, 여기서 잡음 분산 추정치들(
Figure 112017054463048-pct00021
)은 데이터 구동 잡음 추적 알고리즘[10]에 의해 제공되었고 음성 스펙트럼 크기들(
Figure 112017054463048-pct00022
)은 비너 이득(Wiener gain)을 이용하여 추정되었다.
또 다른 가능성은 제곱된 스펙트럼 크기 추정치들 예를 들면,
Figure 112017054463048-pct00023
을 음성 스펙트럼 분산들의 대략적인 추정치들로서 이용하는 것이다. 분산을 감소시키고 매우 적은 값들을 회피하기 위해, 시간에 걸쳐 그들을 약간 평활화하는 것이 바람직하다.
음성이 존재할 때 이들 2개의 대안적인 음성 분산 추정치들이 크고, 그들은 잡음이 유일한(noise-only) 세그먼트들에서 잡음 분산에 대략 비례한다.
순수한 잡음에서, Y1의 PDF는 분산(
Figure 112017054463048-pct00024
)을 갖는 복소 가우시안으로서 모델링될 수 있다. 잡음이 유일한 기간들 동안의 ML 추정량은 다음과 같을 것이다.
Figure 112017054463048-pct00025
(15)
이 추정량은 음성 활동 검출기(Voice Activity Detector; VAD)를 요구한다. 현재 구현(14)은 분모(λd)를 추정하는데 이용된다. m에 걸친 급수가 연속적인 데이터 값들의 세그먼트의 이용을 제한할지라도, 이것은 요구되지 않는다. 예를 들면, VAD가 음성 부재를 나타내는 프레임들로부터 단지 데이터를 이용하는 것을 선택할 수 있다. 대안적으로, 급수에서의 일부 기여들에는 예를 들면, 음성 존재 확률의 추정치에 의존하여 더 적은 가중치가 부여될 수 있다.
분자 및 분모의 평균들은 지수 평활법에 의해 컴퓨팅된다. 이것은 |Cd(k)|에서의 느린 변경들을 추적하는 것을 허용한다. 예를 들면, (14)의 분자가 B(k,m)으로 칭해지면, 그것은 다음과 같이 업데이트되고,
Figure 112017054463048-pct00026
(16)
여기서
Figure 112017054463048-pct00027
은 추정된 음성 스팩트럼 분산들이다. (14)의 분모는 유사하게 업데이트된다.
Figure 112017054463048-pct00028
는 잡음 스펙트럼 크기들의 추정치들이다. 추정량(14)는 잡음 크기들(|N1(k,m)|)에 의존하고 공지되지 않는다. 데이터 구동 잡음 추적기는 추정치들(
Figure 112017054463048-pct00029
)을 제공하고 이들은 구현(16)에서 이용된다. 기준 채널의 그것들이 이용되는데, 이는 음성이 존재할 때 잡음 크기들이 주 채널로부터 보다는 기준 채널로부터 신뢰가능하게 추정되기 때문이다. 이것은
Figure 112017054463048-pct00030
이라고 가정한다.
상이한 프레임에 주어진 가중치를 또한 제어하기 위해, 음성 존재 확률의 개략적인 추정치에 의존하는 평활화 인자들(αNPLD)이 적용된다. 이들 평활화 인자들은 다음과 같이, 데이터 구동 잡음 추적 알고리즘[10]에 의해 제공된 것들로부터 발견되고,
Figure 112017054463048-pct00031
(17)
여기서, αs2는 기준 채널에 대해 데이터 구동 잡음 추적기에 의해 제공된 평활화 인자이고, Ts는 ms 단위의 프레임 스킵(frame skip)이다. 음성이 기준 채널에 존재할 가능성이 더 있을 때, 평활화 인자(αs2(k,m))는 1에 더 가까워서, 통계의 더 느린 업데이트를 야기한다.
실험들에서, NPLD 추정량이 낮게 바이어싱(biasing)됨이 통지되었고 즉, 그것은 NPLD를 어느정도 과소추정한다. 그 배경은 데이터 구동 잡음 추적기가 |N(k,m)|2의 MMSE 추정치들을 제공하는 것이고, 그들의 제곱근은 (16)으로 이용된다. 또한 바이어스의 다른 소스들일 수 있을지라도, 제곱근 연산자는 일부 바이어스를 도입한다. 예를 들면, 기준 채널로부터 얻어진 추정치들(
Figure 112017054463048-pct00032
)은 대신에, 주 채널로부터 이용되지만, 후자는 일반적으로, 주 채널의 노이지 크기들(|Y1(k,m)|)과 더 강하게 연관될 것이다. 관측된 바이어스를 보상하기 위해, (16)은 경험적 바이어스 정정 인자(η)로 곱해질 수 있다. η의 적절한 값은 1 내지 1.4의 범위에 있다.
3.2 SPLD 계수의 추정
Cs의 추정량을 얻기 위해, (8)은 다음의 형태로 재기록될 수 있다.
Figure 112017054463048-pct00033
(18)
Cd의 위상은 거의 랜덤인 것으로 예상되고, Cs는 잡음에 독립적이다. 그 다음, 괄호들 사이의 2개의 항들은 독립적이다. 그들의 합은 N'(k,m)으로서 표시되고, 다음의 분산을 갖는 복소 가우시안 잡음으로서 모델링되고,
Figure 112017054463048-pct00034
(19) 여기서
Figure 112017054463048-pct00035
이다. 일반적으로, β는 1보다 적다. NPLD 추정량을 얻는데 행해진 것(14)과 유사하게, 조인트 PDP(P(Y2|Y1'))가 최대화될 수 있고, 여기서 Y1'는
Figure 112017054463048-pct00036
값의 벡터이다. 이 PDF를 최대화하는 것은 그것의 정상적인(natural) 알고리즘을 마이너스 최소화하는 것과 등가이고, 그의 관련 부분은
Figure 112017054463048-pct00037
(20)이다.
λd'가 Cs에 의존하기 때문에, PDF를 최대화하는 Cs의 값에 대한 폐쇄 형태의 해답을 찾을 수 없다. λd'가 Cs에 의존하지 않았으면, (합산된) 몫은 다음에 대해 발견될 것이다.
Figure 112017054463048-pct00038
(21)
이 추정량이 평가된 복소임에 주의하고 즉, 크기 및 위상 둘 모두가 추정된다.
λd'가 |Cs|에 따라 단조롭게 증가하고 있기 때문에, (20)으로 합산된 몫의 실제 최소치는 (21)로부터
Figure 112017054463048-pct00039
보다 다소 큰 절대 값을 갖는 값에 위치한다. 한편, (20)에서의 항(λd')은 그 자체로 최소치의 위치를 다소 적은 절대 값을 갖는 값으로 풀링(pulling)한다. 이들 효과들은 부분적으로 보상할 수 있다. 이들 효과들은 또한, β가 적을 때 적은 것으로 예상된다. 따라서, (21)을 Cs에 대한 추정량으로서 이용했다.
NPLD 추정량에서처럼, 분자 및 분모는 지수 평활법에 의해 업데이트된다. 여기서, 단지 잡음이 존재할 가능성이 더 있을 때 1에 더 가까운 평활화 인자가 요구된다. 이러한 평활화 인자는 주 채널에 대한 데이터 구동 잡음 추적 알고리즘에 의해 제공된 하나의 αs1로부터 발견될 수 있다. 평활화 인자(αSPLD)는 다음과 같이 αs1로부터 컴퓨팅된다.
Figure 112017054463048-pct00040
(22)
αs1의 최소 획득가능한 값은
Figure 112017054463048-pct00041
(잡음이 유일한 기간들에서 바람직한)이고 그에 대해 αSPLD=1이다. 주의, 신경망(neural network) VAD는 예를 들면, VAD가 음성의 부재를 나타낼 때 업데이트를 포기함으로써 잡음이 유일한 기간들에서 유용할 수 있다.
λd'는 다음과 같이 데이터 구동 잡음 추적기에 의해 제공된 잡음 분산 추정치들로부터 산출되고,
Figure 112017054463048-pct00042
(23)
여기서
Figure 112017054463048-pct00043
Figure 112017054463048-pct00044
는 각각 주 및 기준 채널에 대한 데이터 구동 잡음 분산 추정치들이다.
Figure 112017054463048-pct00045
는 이전 프레임으로부터의 Cs의 추정치이다. 따라서, 첫째 (23)이 산출되고 그 값은 Cs의 새로운 추정치를 산출하기 위해 (21)로 통계를 업데이트하기 위해 이용된다.
3.2.1 경험적 추정량들
데이터 구동 잡음 분산 추정치들(
Figure 112017054463048-pct00046
Figure 112017054463048-pct00047
)로부터, 또한 일부 경험적 추정량들이 구성될 수 있다. 예를 들면,
Figure 112017054463048-pct00048
, 및
Figure 112017054463048-pct00049
의 비는 |Cd2의 추정량이다. 평활화 파라미터(αd)에 대한 적합한 값은
Figure 112017054463048-pct00050
이다. SPLD의 경험적 추정량은 다음의 비를 취함으로써 구성될 수 있고,
Figure 112017054463048-pct00051
, 및
Figure 112017054463048-pct00052
(25)
여기서,
Figure 112017054463048-pct00053
Figure 112017054463048-pct00054
는 데이터 구동 잡음 추적기에 의해 제공된다. 이 추정량은 그것이 위상 독립적이라는 장점이 있지만, 그것이 (21)에 기초한 추정량보다 낮은 SNR들에서 덜 잘 수행함이 발견되었다.
4 일부 예들
이 섹션에서, 인위적이고 측정된 잡음 신호들을 갖는 일부 결과들은 PLD 추정량들((14) 및 (21))의 기록을 도시하도록 보여질 것이다. 제 1 예에 대해, 인위적인 이중 채널 신호가 구성된다. 주 클린(clean) 음성 신호는 단위 분산으로 정규화된, TIMIT 문장(16kHz로 샘플링됨)이다. 사일런스 프레임들은 제거되지 않는다. 부 채널은 5로 나누어진 동일한 신호이다. 이것은 20*log10(1/5)=-14dB의 SPLD에 대응한다. 주 채널에서의 잡음은 백색 잡음이고, 기준 채널에서의 잡음은 적절한 올-폴 필터(all-pole filter)로 백색 잡음을 필터링함으로써 얻어진, 음성 형상 잡음이다. 잡음 신호들 둘 모두는 먼저, 단위 분산으로 정규화되고 그 다음, 동일한 인자에 따라 조정되어, 주 채널에서의 SNR이 5dB과 같게 한다. 도 1은 클린 및 노이지 신호들의 평균 스펙트럼들을 보여준다. 평균 주 음성 스펙트럼은 더 낮은 주파수 범위에서의 잡음 스펙트럼보다 세지만, 더 높은 주파수 범위에서는 그렇지 않다. 평균 기준 음성 스펙트럼은 잡음 스펙트럼보다 훨씬 약하다.
도 2는 정확하고 추정된 NPLD 및 SPLD 스펙트럼들을 보여준다. SNR=5dB에서의 백색 잡음은 주 신호를 위해 이용되고, 음성 형상 잡음은 기준 신호에 대해 같은 분산을 갖는다. 바이어스 정정 인자(η=1.2)가 이용되었다. NPLD는 평균 음성 스펙트럼이 상당히 높은 SNR을 갖는 최저 주파수들을 제외하고, 매우 정확하게 추정된다. 기준 채널에서의 음성이 잡음보다 훨씬 약할지라도, SPLD는 더 낮은 주파수 범위에서 상당히 잘 추정된다. 그것은 채널들 둘 모두가 잡음에 의해 압도되는 더 높은 주파수 영역들에서 과소추정된다.
다음 예는 측정된 이중 마이크로폰 잡음을 이용한다. 실생활 잡음들은 매우 종종 저역 특성들을 갖는다.
도 3은 측정된 카페 잡음의 채널들 둘 모두에 대한 평균 스펙트럼을 보여준다. 마이크로폰들은 10cm로 이격되었다. 신호들 둘 모두는 단위 표준 편차로 정규화되었다. 대부분의 주파수들에 대해, 잡음은 기준 채널에서 다소 더 시끄러운 것으로 관측되었다. 이 잡음은 (주 채널에서) 0dB의 SNR에서 MFL 데이터베이스로부터의 문장과 컴퓨터 믹싱되었다.
도 4는 클린 및 노이지 신호들의 평균 스펙트럼들을 보여준다. 이중 마이크로폰 카페 잡음은 주 채널에서 0dB의 SNR에서 이용되었다. 잡음이 매우 낮은 주파수 범위에서 채널들 둘 모두에서의 음성보다 우세함(dominate)이 보여질 수 있다.
도 5는 도 4의 노이지 신호들에 대한 측정된("정확한") 및 추정된 PLD 스펙트럼들을 보여준다. 측정된 PLD 스펙트럼들은 채널들 둘 모두의 평균 잡음 또는 음성 스펙트럼들의 비들로부터 얻어진다. 추정된 및 정확하게 측정된 PLD 스펙트럼들이 상당히 잘 부합함이 보여질 수 있다. SPLD 추정치들은 잡음이 채널들 둘 모두에서 음성보다 우세한 최저 주파수들에 대해 그리고 매우 적은 음성 에너지가 존재하는 최고 주파수들에 대해 부정확하다.
많은 정상적인 잡음 소스들의 저역 특성들은 매우 낮은 주파수 범위에서 SPLD를 정확하게 추정하는 것을 실제로 종종 매우 어렵게 할 것이다. 이 이유로 인해, 실제 구현에서, 추정량(21)은 300Hz 미만의 주파수들을 위해 이용되지 않았다. 대신에, 추정된 SPLD 스펙트럼의 평균은 300Hz보다 높은 주파수들의 제한된 범위를 위해 이용된다. 평균화하기 위한 적절한 주파수 범위는 예를 들면, 300 내지 1500Hz이고, 여기서 음성 신호는 세다(특히, 유성음의 음성에서).
5 PLD 정정들의 적용
5.1 잡음 분산의 정정
NPLD 및 SPLD 추정의 문제를 철저하게 조사하는 주요 이유는 기준 채널로부터 얻어진 잡음 분산 추정치들(6)을 개선하고 있었다. NPLD 및 SPLD 스펙트럼들은 주 채널에서 잡음 분산으로 더 가깝게 해야 하는 (6)에 대한 정정들을 산출하기 위해 이용될 수 있다. 참조 채널에서 음성 신호가 매우 약한 경우들에서, 단지 NPLD 정정을 적용하는 것이 충분할 것이다. NPLD 정정은 (6)을 추정된 NPLD 스펙트럼으로 곱함으로써 용이하게 구현될 수 있다.
기준 채널에서의 음성 신호는 잡음 유형, 음성 유형, SNR, 잡음 소스 위치, 및 폰 방향과 같은 인자들에 의존하여, 특정 주파수 대역들에서의 잡음 보다 때때로 셀 수 있다. 그 경우에, (6)은 잡음 레벨을 과대추정할 것이고, 이는 잠재적으로 MMSE 필터링 프로세스에서 상당한 음성 왜곡들을 야기한다. 음성 파워에 대한 부가적인 정정이 행해질 수 있는 많은 방식들이 존재한다. 실험을 통해, 다음의 방법이 아주 효과가 있음이 발견되었다.
(9)로부터, 채널(1)의 이전 SNR(
Figure 112017054463048-pct00055
)이
Figure 112017054463048-pct00056
과 같음이 보여질 수 있다. 마찬가지로, (10)은 채널(2)의 이전 SNR(
Figure 112017054463048-pct00057
)이
Figure 112017054463048-pct00058
과 같음을 보여준다. 따라서, 이들 이전 SNR들 사이에 다음의 관계가 존재한다.
Figure 112017054463048-pct00059
(26)
(10)을 |Cd2로 곱하고
Figure 112017054463048-pct00060
로 나누는 것은 그것을 채널(1)의 잡음 분산 항(
Figure 112017054463048-pct00061
)과 같게 한다. 따라서, 그것은 (6)에 대해 행해질 원하는 정정이다. 이전 SNR이 매 시간 프레임에서 업데이트되기 때문에, |Y22에 대한 정정은 (6)의 제 2 항에서 적용되어, 그것을
Figure 112017054463048-pct00062
(27)
Figure 112017054463048-pct00063
(28)로 수정한다.
정정들은 채널(1)의 이전 SNR(7) 및 예측된 PLD 스펙트럼들로부터 산출될 수 있다. 그러나, 더 많은 것이 요구된다. 우리가 (27)에서 이용할 수 있는 이전 SNR 추정치(
Figure 112017054463048-pct00064
)는 NPLD 정정된 잡음 분산을 이용하여, 예로서, (7)로부터 발견된다. 음성 파워에 대한 어떠한 정정도 그 잡음 분산 추정치에 아직 적용되지 않았기 때문에, 그것은 음성이 존재할 때 잡음 분산의 과대추정치이다. 결과로 발생하는 이전 SNR 추정치는 따라서, 과소추정치이다. 이것은 (27)에서
Figure 112017054463048-pct00065
로 나누는 것이 음성 에너지를 완전하게 정정하지 않을 것임을 의미한다. 더 완전한 정정은 이전 SNR(7) 및 잡음 분산들((27), (28))을 반복적으로 산출함으로써 발견될 수 있다.
완전하게 정정된 잡음 분산에 기초하여 이전 SNR에 대한 방정식을 이용하여, 이전 SNR에 대해 결과적으로 발생하는 방정식은 많은 반복들 없이 얻어질 수 있다. (27)를 (28)로, PLD 정정된 잡음 분산에 대한 결과적으로 발생하는 표현을 (7)로 대체하고, 최대 연산자를 제외하는 것은 풀기 쉬운
Figure 112017054463048-pct00066
의 2차 다항식을 야기한다. 0, 1, 또는 2개의 양의 실제 해답들이 존재할 수 있다.
정확하게 하나의 양의 해답이 존재하면, 그것은 PLD 정정된 잡음 분산을 찾기 위해 (27)로 대체될 수 있다.
이전 SNR에 대해 2개의 양의 실제 해답들이 존재할 때, 최소의 것이 이용된다. 이 상황은 최대 연산자 없이 (7)이 음일 때 발생할 수 있다. 이것이 일반적으로, 매우 낮은 SNR 상황에 대응하기 때문에, 2차 방정식에 대한 최소 해답으로 선택된다.
임의의 양의 실제 해답이 존재하지 않을 때, "완전하지 않은" 정정이 이용되고 즉, NPLD 정정이 (6)에 적용되고, 이전 SNR이 (7)로부터 산출되며, 그것은 (27)에서 이용된다.
고려된 일 대안적인 정정 방법은 기준 채널에 대해 (6)에서 보여진 바와 같이, 주 및 부 채널 둘 모두에서의 신호 파워들의 평활화에 기초했다. 각각의 채널 분산 추정치는 NPLD 및 SPLD에 의해 일반적으로 설명된 상대적 세기들을 갖는, 음성 및 잡음 구성요소로 구성된다. 잡음 구성요소에 대해 해결할 수 있다. 결과로 발생하는 추정량은 다소 큰 분산을 갖고 심지어, 0보다 적어질 수 있으며, 이에 대해 카운터 조치들이 취해져야 한다. 따라서, 일부 경우들에서, (27), (28) 아래에 설명된 정정 방법이 바람직할 수 있다.
상기 설명된 정정 기술들은 몇몇 상이한 데이터 세트들에 관해 테스팅될 때, 객관적 품질(PESQ, SNR 및 감쇠에 관한) 및 주관적 품질 둘 모두를 개선한다.
5.2 레벨 간 차 필터의 수정
레벨 간 차 필터(ILDF)는 MMSE 이득들을, 하나의 실시예에서 다음과 같은 주 및 기준 채널의 크기들의 비에 의존하는 인자(f)와 곱하고,
Figure 112017054463048-pct00067
(29)
여기서, τ는 시그모이드 함수(sigmoid function)이고 σ는 그것의 기울기 파라미터이다. ILDF는 잔여 잡음을 억제하려는 경향이 있다. 주 크기들에 대해 더 센 기준 크기들은 더 센 억제를 야기한다. 고정된 파라미터들(τ 및 σ)에 대해, 필터는 NPLD 및 SPLD가 변화할 때 상이하게 수행될 것이다. NPLD 및 SPLD가 고려될 때, 광범위한 조건들 하에서 잘 작용하는 파라미터들을 선택하기가 더 용이해진다. 이것을 행하기 위한 하나의 방식은 (27) 및 (28)에서와 동일한 PLD 정정들을 기준 채널의 크기들에 적용하는 것이고 즉, (29)에서 |Y2(k,m)| 대신에
Figure 112017054463048-pct00068
(30)을 이용하는 것이다.
PLD 분산들을 제외하고, 더 공격적인(aggressive) 필터링이 또한 음성을 포함하는 프레임들에서보다 잡음이 유일한 프레임들에서 적용될 수 있다. 이것을 성취하게 위한 하나의 방식은 임계치(τ)를 신경망(VAD) 출력의 함수로 만드는 것이고,
Figure 112017054463048-pct00069
(31)
여기서 V는 0과 1 사이의 값으로 정규화된 VAD 출력이고, τS는 우리가 음성 프레임에서 이용하기를 원하는 임계치이며, τN은 음성 프레임들에 대한 임계치이다. τS=1 및 τN=1.5가 다양한 실험들을 위해 적합하다.
5.3 다른 적용들
잡음 분산 및 사후필터 정정들을 제외하고, NPLD 및 SPLD는 몇몇 다른 방식들에서 유용할 수 있다. 일부 음성 프로세싱 알고리즘들은 신호 특성들에 관해 트레이닝(training)된다. 예를 들면, VAD들 및 음성 및 스피커 인식 시스템들. 다수의 채널들이 특징들을 컴퓨팅하기 위해 이용되면, 이들 알고리즘들은 PLD 기반 특징 정정들로부터 그들의 적용에서 유익할 수 있다. 그것은 이러한 정정들이 트레이닝 시에 보여진 특징들과 실제로 접한 특징들 사이의 차들을 감소시킬 수 있기 때문이다.
일부 적용들에서, 몇몇 이용가능한 마이크로폰들 사이를 선택하기 위한 옵션을 가질 수 있다. NPLD 및 SPLD는 최고의 신호 대 잡음 비(들)를 갖는 마이크로폰(들)을 선택하는데 도움을 줄 수 있다.
NPLD 및 SPLD는 또한, 마이크로폰 교정을 위해 이용될 수 있다. 마이크로폰들에 진입하는 테스트 신호들이 같은 세기를 가지면, NPLD 또는 SPLD는 상대적인 마이크로폰 감도들을 결정한다.
6 개요
도 6은 NPLD 및 SPLD 추정과 정정 절차들 및 그들이 새로운 스펙트럼 음성 증진 시스템에 적응하는 방법의 개요를 보여준다. 주의:
섹션 Ⅲ-A는 도면에서 본 문서의 단락들 [0056]-[0068]에 대응한다.
섹션 Ⅲ-B는 단락들 [0069]-[0077]에 대응한다.
섹션 Ⅴ-A는 단락들 [0085]-[0095]에 대응한다.
섹션 Ⅴ-B는 단락들 [0096]-[0097]에 대응한다.
사전 프로세싱된, 마이크로폰 신호들(y1(n) 및 y2(n))로부터의 중첩 프레임들은 윈도우잉(windowing)되고 FFT가 적용된다. 주 채널의 스펙트럼 크기들은 중간 잡음 분산, 이전 SNR, 및 음성 분산 추정치들을 형성하기 위해 이용된다. 기준 채널의 스펙트럼 크기들은 잡음 크기 및 중간 잡음 분산 추정치들을 형성하기 위해 이용된다.
이들 양들 및 채널들 둘 모두의 FFT 계수들로부터, 잡음 및 음성 PLD 계수들이 추정된다. 최종 잡음 분산 추정치들((27), (28)) 및 이전 SNR 추정치들은 섹션 V-A에 따라 산출된다. 또한, 이후(posterior) SNR이 컴퓨팅되고 MMSE 이득들.
사후프로세싱 단계에서, MMSE 이득들은 레벨 간 차 필터, 고른(musical) 잡음 평활화 필터, 및 비음성 프레임들을 감쇠시키는 필터에 의해 수정된다. 최종 잡음 분산 추정치들에서 기준 크기들에 적용된 PLD 정정들은 또한 레벨 간 차 필터에서 이용된다.
재구성 단계에서, 주 FFT 계수들은 수정된 MMSE 이득들에 의해 곱해지고 필터링된 계수들은 시간 도메인으로 다시 변환된다. 정화된 음성은 중첩 부가 절차에 의해 구성된다.
본 발명의 실시예들은 또한, 디지털 데이터를 분석하기 위한 컴퓨터 프로그램 제품들로 연장할 수 있다. 이러한 컴퓨터 프로그램 제품들은 디지털 데이터를 분석하기 위한 방법들을 수행하기 위해 컴퓨터 프로세서들 상의 컴퓨터 실행가능한 지시들을 실행하기 위해 의도될 수 있다. 이러한 컴퓨터 프로그램 제품들은 그 위에 인코딩된 컴퓨터 실행가능한 지시들을 갖는 컴퓨터 판독가능한 매체들을 포함할 수 있고, 컴퓨터 실행가능한 지시들은 적합한 컴퓨터 환경들 내에서 적합한 프로세서들 상에서 실행될 때, 본 명세서에서 또한 설명된 바와 같이 디지털 데이터를 분석하는 방법들을 수행한다.
본 발명의 실시예들은 하기에 더 상세하게 논의된 바와 같이, 예를 들면, 하나 이상의 컴퓨터 프로세서들 및 데이터 저장장치 또는 시스템 메모리와 같은, 컴퓨터 하드웨어를 포함하는 특수 목적 또는 범용 컴퓨터를 포함하거나 활용할 수 있다. 본 발명의 범위 내의 실시예들은 또한, 컴퓨터 실행가능한 지시들 및/또는 데이터 구조체들을 운반하거나 저장하기 위한 물리적 및 다른 컴퓨터 판독가능한 매체들을 포함한다. 이러한 컴퓨터 판독가능한 매체들은 범용 또는 특수 목적 컴퓨터 시스템에 의해 액세스될 수 있는 임의의 이용가능한 매체들일 수 있다. 컴퓨터 실행가능한 지시들을 저장하는 컴퓨터 판독가능한 매체들은 컴퓨터 저장 매체들이다. 컴퓨터 실행가능한 지시들을 운반하는 컴퓨터 판독가능한 매체들은 송신 매체들이다. 따라서, 예로서 그리고 제한 없이, 본 발명의 실시예들은 적어도 2개의 별개의 상이한 종류들의 컴퓨터 판독가능한 매체들: 컴퓨터 저장 매체들 및 송신 매체들을 포함할 수 있다.
컴퓨터 저장 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장장치, 자기 디스크 저장장치 또는 다른 자기 저장 디바이스들, 또는 원하는 프로그램 코드 수단을 컴퓨터 실행가능한 지시들 또는 데이터 구조체들의 형태로 저장하기 위해 이용될 수 있거나 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 임의의 다른 물리적 매체를 포함한다.
"네트워크"는 컴퓨터 시스템들 및/또는 모듈들 및/또는 다른 전자 디바이스들 사이에 전자 데이터의 전송을 가능하게 하는 하나 이상의 데이터 링크들로서 정의된다. 정보가 네트워크 또는 다른 통신 접속부(고정배선(hardwired), 무선, 또는 고정배선 또는 무선의 조합)를 통해 컴퓨터로 전송되거나 제공될 때, 컴퓨터는 적절하게, 접속부를 송신 매체로서 간주한다. 송신 매체들은 원하는 프로그램 코드 수단을 범용 또는 특수 목적 컴퓨터에 의해 수신되거나 액세스될 수 있는 컴퓨터 실행가능한 지시들 및/또는 데이터 구조체들의 형태로 운반하거나 송신하도록 이용될 수 있는 네트워크 및/또는 데이터 링크들을 포함할 수 있다. 상기 것들의 조합들은 또한, 컴퓨터 판독가능한 매체들의 범위 내에 포함되어야 한다.
게다가, 다양한 컴퓨터 시스템 구성요소들로의 도달 시에, 컴퓨터 실행가능한 지시들 또는 데이터 구조체들의 형태의 프로그램 코드 수단은 송신 매체들로부터 컴퓨터 저장 매체들로 자동으로 전송될 수 있다(그 반대도 마찬가지임). 예를 들면, 네트워크 또는 데이터 링크를 통해 수신된 컴퓨터 실행가능한 지시들 또는 데이터 구조체들은 네트워크 인터페이스 모듈(예로서, "NIC") 내의 RAM에서 버퍼링(buffering)되고 그 다음, 실제로 컴퓨터 시스템 RAM으로 및/또는 컴퓨터 시스템에서의 덜 휘발성인 컴퓨터 저장 매체들로 전송될 수 있다. 따라서, 컴퓨터 저장 매체들이 또한(또는 가능하게 주로) 송신 매체들을 이용하는 컴퓨터 시스템 구성요소들에 포함될 수 있음이 이해되어야 한다.
컴퓨터 실행가능한 지시들은 예를 들면, 프로세서에서 실행될 때, 범용 컴퓨터, 특수 목적 컴퓨터, 또는 특수 목적 프로세싱 디바이스로 하여금 특정 기능 또는 기능들의 그룹을 수행하게 하는 지시들 및 데이터를 포함한다. 컴퓨터 실행가능한 지시들은 예를 들면, 프로세서 상에서 직접적으로 실행될 수 있는 바이너리(binary)들, 어셈블리어와 같은 중간 포맷 지시들, 또는 심지어 특정한 기계 또는 프로세서를 향해 타겟된 컴파일러에 의한 컴파일을 요구할 수 있는 더 높은 레벨의 소스 코드일 수 있다. 주제가 구조적 특징들 및/또는 방법론적 행위들에 특수한 언어로 설명되었을지라도, 첨부된 청구항들에서 정의된 주제가 반드시 상기 설명된, 설명된 특징들 또는 행위들로 제한되는 것이 아님이 이해될 것이다. 오히려, 설명된 특징들 및 행위들은 청구항들을 구현하는 예시적인 형태들로서 개시된다.
당업자들은 본 발명이 개인용 컴퓨터들, 데스크탑 컴퓨터들, 랩탑 컴퓨터들, 메시지 프로세서들, 핸드헬드 디바이스들, 멀티 프로세서 시스템들, 마이크로프로세서 기반 또는 프로그래밍가능한 소비자 전자장치들, 네트워크 PC들, 미니컴퓨터들, 메인프레임 컴퓨터들, 모바일 전화들, PDA들, 페이저들, 라우터들, 스위치들, 등을 포함하는, 많은 유형들의 컴퓨터 프로그램 구성들을 갖는 네트워크 컴퓨팅 환경들에서 실현될 수 있음을 이해할 것이다. 본 발명은 또한, 네트워크를 통해 연결되는(고정배선 데이터 링크들, 무선 데이터 링크들에 의해, 또는 고정배선 및 무선 데이터 링크들의 조합에 의해) 로컬 및 원격 컴퓨터 시스템들이 둘 모두 동작들을 수행하는 분산 시스템 환경들에서 실현될 수 있다. 분산 시스템 환경에서, 프로그램 모듈들은 로컬 및 원격 메모리 저장 디바이스들 둘 모두에 위치될 수 있다.
도 7을 참조하면, 디지털 오디오 데이터를 분석하기 위한 일 예시적인 컴퓨터 아키텍처(600)가 도시된다. 본 명세서에서 컴퓨터 시스템(600)으로서 또한 언급된 컴퓨터 아키텍처(600)는 하나 이상의 컴퓨터 프로세서들(602) 및 데이터 저장장치를 포함한다. 데이터 저장장치는 컴퓨팅 시스템(600) 내의 메모리(604)일 수 있고 휘발성 또는 비 휘발성 메모리일 수 있다. 컴퓨팅 시스템(600)은 또한, 데이터 또는 다른 정보의 디스플레이를 위한 디스플레이(612)를 포함할 수 있다. 컴퓨팅 시스템(600)은 또한, 컴퓨팅 시스템(600)이 예를 들면, 네트워크(아마도 인터넷(610)과 같은)를 통해 다른 컴퓨팅 시스템들, 디바이스들, 또는 데이터 소스들과 통신하는 것을 허용하는 통신 채널들(608)을 포함할 수 있다. 컴퓨팅 시스템(600)은 또한, 디지털 또는 아날로그 데이터의 소스가 액세스되는 것을 허용하는 마이크로폰(606)과 같은, 입력 디바이스를 포함할 수 있다. 이러한 디지털 또는 아날로그 데이터는 예를 들면, 오디오 또는 비디오 데이터일 수 있다. 디지털 또는 아날로그 데이터는 라이브 마이크로폰으로부터와 같은, 실시간 스트리밍 데이터의 형태일 수 있거나, 컴퓨팅 시스템(600)에 의해 직접적으로 액세스가능하거나 통신 채널들(608)을 통해 또는 인터넷(610)과 같은 네트워크를 통해 더 원격으로 액세스될 수 있는 데이터 저장장치(614)로부터 액세스된 저장된 데이터일 수 있다.
통신 채널들(608)은 송신 매체들의 예들이다. 송신 매체들은 전형적으로, 컴퓨터 판독가능한 지시들, 데이터 구조체들, 프로그램 모듈들, 또는 반송파 또는 다른 전송 메커니즘과 같은 변조된 데이터 신호에서의 다른 데이터를 구현하고 임의의 정보 전달 매체들을 포함한다. 예로서 그리고 제한 없이, 송신 매체들은 유선 네트워크들 및 직접 연결된(direct-wired) 접속부들과 같은, 유선 매체들, 및 음향, 라디오, 적외선, 및 다른 무선 매체들과 같은 무선 매체들을 포함한다. 본 명세서에서 이용된 바와 같은 용어("컴퓨터 판독가능한 매체들")은 컴퓨터 저장 매체들 및 송신 매체들 둘 모두를 포함한다.
본 발명의 범위 내의 실시예들은 또한, 컴퓨터 실행가능한 지시들 및/또는 그 위에 저장된 데이터 구조체들을 운반하거나 갖기 위한 컴퓨터 판독가능한 매체들을 포함한다. "컴퓨터 저장 매체들"로 칭해진, 이러한 물리적 컴퓨터 판독가능한 매체들은 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 물리적 매체들일 수 있다. 예로서 그리고 제한 없이, 컴퓨터 판독가능한 매체들은 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장장치, 자기 디스크 저장장치 또는 다른 자기 저장 디바이스들과 같은 물리적 저장장치 및/또는 메모리 매체들, 또는 원하는 프로그램 코드 수단을 컴퓨터 실행가능한 지시들 또는 데이터 구조체들의 형태로 저장하기 위해 이용될 수 있거나 범용 또는 특수 목적 컴퓨터에 의해 액세스될 수 있는 임의의 다른 물리적 매체를 포함할 수 있다.
컴퓨터 시스템들은 예를 들면, 근거리 통신망("LAN"), 광역 네트워크("WAN"), 무선 광역 네트워크("WWAN"), 및 심지어 인터넷(110)과 같은, 네트워크(또는 그의 일부)를 통해 서로 접속될 수 있다. 그에 따라, 묘사된 컴퓨터 시스템들의 각각 뿐만 아니라, 임의의 다른 접속된 컴퓨터 시스템들 및 그들의 구성요소들은 네트워크를 통해 메시지 관련 데이터를 생성하고 메시지 관련 데이터(예로서, 인터넷 프로토콜("IP") 데이터그램들 및 전송 제어 프로토콜("TCP"), 하이퍼텍스트 전송 프로토콜("HTTP"), 단순한 메일 전송 프로토콜("SMTP"), 등과 같은 IP 데이터그램들을 활용하는 다른 더 높은 계층의 프로토콜들)를 교환할 수 있다.
개시된 주제의 다른 양태들 뿐만 아니라, 다양한 양태들의 특징들 및 장점들은 상기 제공된 개시, 첨부된 도면들 및 첨부된 청구항들의 고려를 통해 당업자들에게 분명해야 한다.
상기 개시가 많은 세부사항을 제공할지라도, 이들은 다음의 청구항들 중 임의의 청구항의 범위를 제한하는 것으로서 해석되지 않아야 한다. 청구항들의 범위들을 벗어나지 않는 다른 실시예들이 고안될 수 있다. 상이한 실시예들로부터의 특징들이 조합으로 이용될 수 있다.
마지막으로, 본 발명이 다양한 예시적인 실시예들에 관하여 상기 설명되었을지라도, 많은 변경들, 조합들 및 수정들이 본 발명의 범위를 벗어나지 않고 실시예들에 대해 행해질 수 있다. 예를 들면, 본 발명이 음성 검출에서의 이용을 위해 설명되었을지라도, 본 발명의 양태들은 용이하게, 다른 오디오, 비디오, 데이터 검출 방식들에 적용될 수 있다. 게다가, 다양한 요소들, 구성요소들, 및/또는 프로세스들은 대안적인 방식들로 구현될 수 있다. 이들 대안들은 방법들 또는 시스템의 구현 또는 동작과 연관된 임의의 수의 인자들의 특정한 적용 또는 고려에 의존하여 적합하게 선택될 수 있다. 게다가, 본 명세서에서 설명된 기술들은 다른 유형들의 애플리케이션들 및 시스템들로 이용하기 위해 연장되거나 수정될 수 있다. 이들 및 다른 변경들 또는 수정들은 본 발명의 범위 내에 포함되도록 의도된다.
참고문헌
다음의 참고문헌들은 전체적으로 참조로써 본 명세서에 통합된다.
Figure 112017054463048-pct00070
600: 컴퓨터 아키텍처 602: 컴퓨터 프로세서
604: 메모리 608: 통신 채널
610: 인터넷 612: 디스플레이
614: 데이터 저장장치

Claims (20)

  1. 오디오 디바이스의 주 마이크로폰과 기준 마이크로폰 사이의 잡음 파워 레벨 차(NPLD)를 추정하기 위한 방법에 있어서:
    오디오 디바이스의 주 마이크로폰으로 오디오 신호의 주 채널을 얻는 단계;
    상기 오디오 디바이스의 기준 마이크로폰으로 상기 오디오 신호의 기준 채널을 얻는 단계;
    하나 이상의 주파수들에 대한 잡음 분산 추정치를 제공하기 위해 상기 오디오 신호의 기준 채널의 잡음 크기를 추정하는 단계:
    상기 오디오 신호의 주 채널의 고속 푸리에 변환(FFT) 계수의 확률 밀도 함수(PDF)를 모델링(modeling)하는 단계;
    상기 기준 채널의 잡음 분산 추정치와 상기 주 채널의 잡음 분산 추정치 사이의 NPLD를 제공하기 위해 상기 PDF를 최대화하는 단계;
    상기 오디오 신호의 기준 채널의 FFT 계수의 PDF를 모델링하는 단계;
    상기 주 및 기준 채널의 음성 FFT 계수들 사이의 복소 음성 파워 레벨 차(SPLD) 계수를 제공하기 위해 상기 PDF를 최대화하는 단계; 및
    상기 잡음 분산 추정치, 상기 NPLD 및 상기 SPLD 계수에 기초하여 상기 기준 채널의 정정된 잡음 크기를 산출하는 단계를 포함하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  2. 제 1 항에 있어서,
    상기 기준 채널의 잡음 파워 레벨은 상기 주 채널의 잡음 파워 레벨과 상이한, 잡음 파워 레벨 차를 추정하기 위한 방법.
  3. 제 1 항에 있어서,
    상기 기준 채널의 잡음 크기를 추정하는 단계, 상기 주 채널의 FFT 계수의 PDF를 모델링하는 단계 및 상기 PDF를 최대화하는 단계는 지속적으로 야기되고 상기 NPLD를 추적하는 단계를 더 포함하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  4. 제 3 항에 있어서,
    상기 NPLD를 추적하는 단계는 연속적인 시간 프레임들에 걸친 통계의 지수 평활법(exponential smoothing)을 포함하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  5. 제 4 항에 있어서,
    연속적인 시간 프레임들에 걸친 통계의 지수 평활법은 데이터 구동 반복 잡음 파워 추정을 포함하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  6. 제 3 항에 있어서,
    음성이 상기 오디오 신호의 적어도 주 채널에 존재할 가능성을 결정하는 단계를 더 포함하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  7. 제 6 항에 있어서,
    음성이 상기 오디오 신호의 적어도 주 채널에 존재할 것 같으면, 상기 추적이 발생하는 레이트를 느리게 하는 단계를 포함하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  8. 제 1 항에 있어서,
    상기 기준 채널의 잡음 크기를 추정하는 단계는 데이터 구동 반복 잡음 파워 추정을 포함하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  9. 제 1 항에 있어서,
    상기 오디오 신호의 주 채널의 FFT 계수의 PDF를 모델링하는 단계는 상기 주 채널의 FFT 계수의 PDF를 복소 가우시안 분포로서 모델링하는 단계를 포함하고, 상기 복소 가우시안 분포의 평균은 상기 NPLD에 의존하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  10. 제 1 항에 있어서,
    상기 오디오 신호의 주 채널에서의 음성 및 상기 오디오 신호의 기준 채널에서의 음성의 상대적 세기들을 결정하는 단계를 더 포함하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  11. 제 10 항에 있어서,
    상대적 세기들을 결정하는 단계는 시간에 걸쳐 상기 상대적 세기들을 추적하는 단계를 포함하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  12. 제 10 항에 있어서,
    상대적 세기들을 결정하는 단계는 데이터 구동 반복 잡음 파워 추정을 포함하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  13. 제 10 항에 있어서,
    상기 NPLD 및 상기 SPLD 계수들을 적용하기 이전에 최소 평균 제곱(LMS) 필터를 적용하는 단계를 더 포함하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  14. 제 1 항에 있어서,
    상기 기준 채널의 잡음 크기를 추정하는 단계, 상기 주 채널의 FFT 계수의 PDF를 모델링하는 단계 및 상기 PDF를 최대화하는 단계는 상기 오디오 신호의 적어도 일부 필터링 전에 발생하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  15. 제 14 항에 있어서,
    상기 기준 채널의 잡음 크기를 추정하는 단계, 상기 주 채널의 FFT 계수의 PDF를 모델링하는 단계 및 상기 PDF를 최대화하는 단계는 상기 주 채널 및 상기 기준 채널의 최소 평균 제곱 오차(MMSE) 필터링 전에 발생하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  16. 제 1 항에 있어서,
    상기 기준 채널의 FFT 계수의 PDF를 모델링하는 단계는 복소 가우시안 분포를 모델링하는 단계를 포함하고, 상기 복소 가우시안 분포의 평균은 상기 복소 SPLD 계수에 의존하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  17. 제 1 항에 있어서,
    상기 기준 채널의 잡음 크기를 추정하는 단계, 상기 주 채널 및 상기 기준 채널의 FFT 계수들의 PDF들을 모델링하는 단계 및 상기 PDF들을 최대화하는 단계는 상기 오디오 신호가 주요 필터링 또는 정화 프로세스를 받은 후에 오디오 신호의 레벨 차 사후 프로세싱에 대해 상기 기준 채널의 잡음 분산을 조정하는 단계를 포함하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  18. 제 1 항에 있어서,
    음성 활동(voice activity) 및 식별가능한 스피커 음성 활동 중 하나 이상을 검출하는데 상기 NPLD 및 SPLD를 이용하는 단계를 더 포함하는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  19. 제 1 항에 있어서,
    상기 NPLD 및 SPLD는 최고 신호 대 잡음 비를 성취하기 위해 마이크로폰들 사이의 선택 시에 이용되는, 잡음 파워 레벨 차를 추정하기 위한 방법.
  20. 오디오 디바이스에 있어서,
    오디오 신호를 수신하기 위한 그리고 상기 오디오 신호의 주 채널을 전달하기 위한 주 마이크로폰;
    상기 주 마이크로폰과 상이한 관점으로부터 상기 오디오 신호를 수신하기 위한 그리고 상기 오디오 신호의 기준 채널을 전달하기 위한 기준 마이크로폰; 및
    상기 오디오 신호를 필터링하고/하거나 정화하기 위해 상기 오디오 신호를 프로세싱하기 위한 적어도 하나의 프로세싱 요소를 포함하고, 상기 적어도 하나의 프로세싱 요소는 오디오 디바이스의 주 마이크로폰과 기준 마이크로폰 사이의 잡음 파워 레벨 차(NPLD)를 추정하기 위한 방법을 야기하는 프로그램을 실행하도록 구성되며, 상기 방법은:
    오디오 디바이스의 주 마이크로폰으로 오디오 신호의 주 채널을 얻는 단계;
    상기 오디오 디바이스의 기준 마이크로폰으로 상기 오디오 신호의 기준 채널을 얻는 단계;
    하나 이상의 주파수들에 대한 잡음 분산 추정치를 제공하기 위해 상기 오디오 신호의 기준 채널의 잡음 크기를 추정하는 단계;
    상기 오디오 신호의 주 채널의 고속 푸리에 변환(FFT) 계수의 확률 밀도 함수(PDF)를 모델링하는 단계;
    상기 기준 채널의 잡음 분산 추정치와 상기 주 채널의 잡음 분산 추정치 사이의 NPLD를 제공하기 위해 상기 PDF를 최대화하는 단계;
    상기 오디오 신호의 기준 채널의 FFT 계수의 PDF를 모델링하는 단계;
    상기 주 및 기준 채널의 음성 FFT 계수들 사이의 복소 음성 파워 레벨 차(SPLD) 계수를 제공하기 위해 상기 PDF를 최대화하는 단계; 및
    상기 잡음 분산 추정치, 상기 NPLD 및 상기 SPLD 계수에 기초하여 상기 기준 채널의 정정된 잡음 크기를 산출하는 단계를 포함하는, 오디오 디바이스.
KR1020177015615A 2014-11-12 2015-11-12 주 및 기준 채널들 사이의 잡음 및 사운드 파워 레벨 차들의 결정 KR102431896B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462078828P 2014-11-12 2014-11-12
US62/078,828 2014-11-12
US14/938,798 US10127919B2 (en) 2014-11-12 2015-11-11 Determining noise and sound power level differences between primary and reference channels
US14/938,798 2015-11-11
PCT/US2015/060323 WO2016077547A1 (en) 2014-11-12 2015-11-12 Determining noise and sound power level differences between primary and reference channels

Publications (2)

Publication Number Publication Date
KR20170082595A KR20170082595A (ko) 2017-07-14
KR102431896B1 true KR102431896B1 (ko) 2022-08-16

Family

ID=55913289

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177015615A KR102431896B1 (ko) 2014-11-12 2015-11-12 주 및 기준 채널들 사이의 잡음 및 사운드 파워 레벨 차들의 결정

Country Status (6)

Country Link
US (1) US10127919B2 (ko)
EP (1) EP3218902A4 (ko)
JP (1) JP6643336B2 (ko)
KR (1) KR102431896B1 (ko)
CN (1) CN107408394B (ko)
WO (1) WO2016077547A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI573133B (zh) * 2015-04-15 2017-03-01 國立中央大學 音訊處理系統及方法
JP6732944B2 (ja) * 2016-12-16 2020-07-29 日本電信電話株式会社 目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム
GB201719734D0 (en) * 2017-10-30 2018-01-10 Cirrus Logic Int Semiconductor Ltd Speaker identification
US10847173B2 (en) 2018-02-13 2020-11-24 Intel Corporation Selection between signal sources based upon calculated signal to noise ratio
JP2021536692A (ja) * 2018-09-13 2021-12-27 アリババ グループ ホウルディング リミテッド ヒューマンマシン音声対話装置及びその操作方法
TWI759591B (zh) * 2019-04-01 2022-04-01 威聯通科技股份有限公司 語音增強方法及系統
CN110767245B (zh) * 2019-10-30 2022-03-25 西南交通大学 基于s型函数的语音通信自适应回声消除方法
KR102508413B1 (ko) * 2019-11-01 2023-03-10 가우디오랩 주식회사 주파수 스펙트럼 보정을 위한 오디오 신호 처리 방법 및 장치
CN110853664B (zh) * 2019-11-22 2022-05-06 北京小米移动软件有限公司 评估语音增强算法性能的方法及装置、电子设备
CN113473314A (zh) * 2020-03-31 2021-10-01 华为技术有限公司 音频信号处理方法以及相关设备
CN111627426B (zh) * 2020-04-30 2023-11-17 锐迪科微电子科技(上海)有限公司 消除语音交互中信道差异的方法及系统、电子设备及介质
DE102020209050B4 (de) * 2020-07-20 2022-05-25 Sivantos Pte. Ltd. Verfahren zum Betrieb eines Hörsystems, Hörsystem, Hörgerät
CN112750447B (zh) * 2020-12-17 2023-01-24 云知声智能科技股份有限公司 一种去除风噪的方法
CN113270106B (zh) * 2021-05-07 2024-03-15 深圳市友杰智新科技有限公司 双麦克风的风噪声抑制方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120130713A1 (en) * 2010-10-25 2012-05-24 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
WO2014069122A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
EP2770750A1 (en) 2013-02-25 2014-08-27 Spreadtrum Communications (Shanghai) Co., Ltd. Detecting and switching between noise reduction modes in multi-microphone mobile devices
US20140270223A1 (en) 2013-03-13 2014-09-18 Cirrus Logic, Inc. Adaptive-noise canceling (anc) effectiveness estimation and correction in a personal audio device
US20140286497A1 (en) 2013-03-15 2014-09-25 Broadcom Corporation Multi-microphone source tracking and noise suppression

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI114247B (fi) * 1997-04-11 2004-09-15 Nokia Corp Menetelmä ja laite puheen tunnistamiseksi
EP2237270B1 (en) * 2009-03-30 2012-07-04 Nuance Communications, Inc. A method for determining a noise reference signal for noise compensation and/or noise reduction
US8737636B2 (en) * 2009-07-10 2014-05-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive active noise cancellation
US9378754B1 (en) * 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
JP5573517B2 (ja) * 2010-09-07 2014-08-20 ソニー株式会社 雑音除去装置および雑音除去方法
US9330675B2 (en) * 2010-11-12 2016-05-03 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
US9264804B2 (en) * 2010-12-29 2016-02-16 Telefonaktiebolaget L M Ericsson (Publ) Noise suppressing method and a noise suppressor for applying the noise suppressing method
US8903722B2 (en) * 2011-08-29 2014-12-02 Intel Mobile Communications GmbH Noise reduction for dual-microphone communication devices
US8751220B2 (en) * 2011-11-07 2014-06-10 Broadcom Corporation Multiple microphone based low complexity pitch detector
US9094749B2 (en) * 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
US20140037100A1 (en) * 2012-08-03 2014-02-06 Qsound Labs, Inc. Multi-microphone noise reduction using enhanced reference noise signal
US9330652B2 (en) 2012-09-24 2016-05-03 Apple Inc. Active noise cancellation using multiple reference microphone signals

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120130713A1 (en) * 2010-10-25 2012-05-24 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
WO2014069122A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
EP2770750A1 (en) 2013-02-25 2014-08-27 Spreadtrum Communications (Shanghai) Co., Ltd. Detecting and switching between noise reduction modes in multi-microphone mobile devices
US20140270223A1 (en) 2013-03-13 2014-09-18 Cirrus Logic, Inc. Adaptive-noise canceling (anc) effectiveness estimation and correction in a personal audio device
US20140286497A1 (en) 2013-03-15 2014-09-25 Broadcom Corporation Multi-microphone source tracking and noise suppression

Also Published As

Publication number Publication date
JP6643336B2 (ja) 2020-02-12
US10127919B2 (en) 2018-11-13
JP2017538344A (ja) 2017-12-21
WO2016077547A1 (en) 2016-05-19
KR20170082595A (ko) 2017-07-14
CN107408394B (zh) 2021-02-05
EP3218902A4 (en) 2018-05-02
US20160134984A1 (en) 2016-05-12
CN107408394A (zh) 2017-11-28
EP3218902A1 (en) 2017-09-20

Similar Documents

Publication Publication Date Title
KR102431896B1 (ko) 주 및 기준 채널들 사이의 잡음 및 사운드 파워 레벨 차들의 결정
JP6694426B2 (ja) ランニング範囲正規化を利用したニューラルネットワーク音声活動検出
Parchami et al. Recent developments in speech enhancement in the short-time Fourier transform domain
CA2732723C (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
CN103827965B (zh) 自适应语音可理解性处理器
Gerkmann et al. Noise power estimation based on the probability of speech presence
Gerkmann et al. Unbiased MMSE-based noise power estimation with low complexity and low tracking delay
CN100543842C (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法
AU2009203194A1 (en) Noise spectrum tracking in noisy acoustical signals
US20110125490A1 (en) Noise suppressor and voice decoder
Verteletskaya et al. Noise reduction based on modified spectral subtraction method
US10332541B2 (en) Determining noise and sound power level differences between primary and reference channels
JP2020122990A (ja) 適応チャネル間弁別的リスケーリングフィルタ
Yao et al. A priori SNR estimation and noise estimation for speech enhancement
Dionelis et al. Modulation-domain Kalman filtering for monaural blind speech denoising and dereverberation
Nelke et al. Wind noise short term power spectrum estimation using pitch adaptive inverse binary masks
Bao et al. A novel speech enhancement method using power spectra smooth in wiener filtering
Yong et al. Noise estimation with lowcomplexity for speech enhancement
JP6000094B2 (ja) 話者適応化装置、話者適応化方法、プログラム
Rohith et al. Comparitive Analysis of Speech Enhancement Techniques: A Review
Madhu et al. An EM-based probabilistic approach for acoustic echo suppression
Dam et al. Optimization of Sigmoid Functions for Approximation of Speech Presence Probability and Gain Function in Speech Enhancement
BRPI0911932B1 (pt) Equipamento e método para processamento de um sinal de áudio para intensificação de voz utilizando uma extração de característica

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant