KR20170129697A - 마이크로폰 어레이 스피치 강화 기법 - Google Patents

마이크로폰 어레이 스피치 강화 기법 Download PDF

Info

Publication number
KR20170129697A
KR20170129697A KR1020177022950A KR20177022950A KR20170129697A KR 20170129697 A KR20170129697 A KR 20170129697A KR 1020177022950 A KR1020177022950 A KR 1020177022950A KR 20177022950 A KR20177022950 A KR 20177022950A KR 20170129697 A KR20170129697 A KR 20170129697A
Authority
KR
South Korea
Prior art keywords
noise
smoothing filter
output
combining
function
Prior art date
Application number
KR1020177022950A
Other languages
English (en)
Other versions
KR102367660B1 (ko
Inventor
세르게이 샬리세브
Original Assignee
인텔 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔 코포레이션 filed Critical 인텔 코포레이션
Publication of KR20170129697A publication Critical patent/KR20170129697A/ko
Application granted granted Critical
Publication of KR102367660B1 publication Critical patent/KR102367660B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/04Structural association of microphone with electric circuitry therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

마이크로폰 어레이로부터 수신된 스피치는 강화된다. 일 예에서, 잡음 필터링 시스템은 복수의 마이크로폰으로부터 오디오를 수신하고, 상기 수신된 오디오로부터 빔 형성기 출력을 결정하고, 상기 빔 형성기 출력에 제 1 자동 회귀 이동 평균 평활화 필터를 적용하고, 상기 수신된 오디오로부터 잡음 추정치를 결정하고, 상기 잡음 추정치에 제 2 자동 회귀 이동 평균 평활화 필터를 적용하고, 상기 제 1 평활화 필터의 출력 및 상기 제 2 평활화 필터의 출력을 결합하여 감소된 잡음을 갖는 수신된 오디오의 전력 스펙트럼 밀도 출력을 생성한다.

Description

마이크로폰 어레이 스피치 강화 기법
본 명세서는 오디오 처리 분야에 관한 것이며, 보다 구체적으로는 다수의 마이크로폰으로부터의 신호를 사용하여 오디오를 강화하는 것에 관한 것이다.
많은 상이한 디바이스는 다양한 상이한 용도로 마이크로폰을 제공한다. 마이크로폰은 다른 디바이스의 사용자에게 전송될 스피치를 사용자로부터 수신하기 위해 사용될 수 있다. 마이크로폰은 로컬 또는 원격 저장 및 나중 검색을 위해 음성 메모를 녹음하기 위해 사용할 수 있다. 마이크로폰은 디바이스 또는 원격 시스템에 대한 음성 커맨드에 사용될 수 있으며 마이크로폰은 주변 오디오를 녹음하기 위해 사용될 수 있다. 많은 디바이스는 또한 오디오 녹음 기능을 제공하며 카메라와 함께 비디오 녹음 기능을 제공한다. 이러한 디바이스에는 휴대용 게임 콘솔부터 스마트폰, 오디오 레코더, 비디오 카메라, 웨어러블 등이 있다.
주변 환경, 다른 스피커, 바람 및 기타 잡음이 마이크로폰에 영향을 줄 경우, 나머지 오디오 신호를 손상시키거나 압도하거나 이해할 수 없게 만들 수 있는 잡음이 생성된다. 사운드 녹음은 불쾌감을 줄 수 있으며 스피치는 다른 사람이나 자동 스피치 인식 시스템에서 인식되지 않을 수 있다. 잡음을 차단하기 위한 재료 및 구조가 개발되었지만, 이들은 일반적으로 소형 디바이스 및 웨어러블에 적합하지 않은 부피가 크거나 대형의 구조를 필요로 한다. 복잡한 알고리즘을 사용하여 스피치나 기타 의도적 사운드에서 광범위한 상이한 잡음들을 분리하고 그 다음에 잡음을 줄이거나 제거하는 소프트웨어 기반 잡음 감소 시스템도 존재한다.
유사한 참조 번호가 유사한 구성 요소를 지칭하는 첨부된 도면에서, 실시예는 제한이 아니라 예로서 도시된다.
도 1은 일 실시예에 따른 스피치 강화 시스템의 블록도이다.
도 2는 일 실시예에 따른 스피치 강화 시스템과 함께 사용하기에 적합한 사용자 디바이스의 도면이다.
도 3은 일 실시예에 따른 스피치 강화 프로세스 흐름도이다.
도 4는 일 실시예에 따른 스피치 강화를 통합한 컴퓨팅 디바이스의 블록도이다.
마이크로폰 어레이 포스트 필터는 실시간 온라인 스피치 강화를 위해 사용될 수 있다. 그런 프로세스는 듀얼 마이크로폰 어레이를 포함하는 모든 크기의 마이크로폰 어레이에 효율적이다. 이 필터는 Log-STSA(Log Short-Term Spectral Amplitude)에 이진 분류 모델을 적용하는 것에 기반한다. 이 기술을 사용하면 다른 유형의 포스트 필터에 비해 약간 증가된 복잡성만을 가지고 몇몇 음성 모델 기반 방식에 비해 더 작은 복잡성을 가지면서 인식 정확도가 상당히 개선된다.
듀얼 마이크로폰 어레이는 자동 스피치 인식기의 오류율이 전반적으로 감소함을 보여준다. 또한, 뮤지컬 잡음 아티팩트 없이 상당한 주관적 잡음 감소 및 명료도(intelligibility) 개선이 존재한다. 인식 정확도는 베이스(마이크로폰 사이의 거리)의 증가와 어레이 내의 더 많은 마이크로폰에 의해 개선된다. 설명된 기술은 또한 스피치 신호의 실제 로그 스펙트럼 전력과 모델 출력 사이의 전반적 차이가 상당히 더 낮음을 보여줄 수 있다.
여기에 설명된 바와 같은 포스트 필터는 스피치 신호 및 잡음이 정지 가우시안 프로세스(stationary Gaussian process)라고 가정하지 않는다. 대신, 스피치 인식에 의해 사용된 신호 특성을 고려하는 음성 및 잡음 신호의 확률적 특성을 기반으로 하는 분류 접근법이 사용된다. 스피치 신호는 고조파 준 안정 프로세스(harmonic quasi-stationary process)이다. 이것은 진폭이 작은 광대역 브레스 잡음(wideband breath noise)과 함께 소수의 꾸준히 변하는 스펙트럼 성분으로 구성된다. 실제로, 두 가지 중요한 유형의 잡음인 광대역 잡음 및 스피치 유사 잡음(speech-like noise)이 존재한다. 광대역 잡음의 경우, 잡음의 각 스펙트럼 성분의 전력은 스피치 스펙트럼 성분의 전력에 비해 작다. 스피치 유사 잡음의 경우, 스피치 및 잡음은 거의 항상 스펙트럼 영역에서 두 개의 해체된 빗(disjoint combs)을 생성하고 분리될 수 있다. 두 가지 유형의 잡음 모두에 대해, 스피치와 관련 없는 스펙트럼 성분을 폐기하고 폐기된 성분을 컴포트 잡음(comfort noise)으로 대체함으로써 잡음 억제를 달성할 수 있다.
본 명세서에 설명된 바와 같이, 마이크로폰 어레이로부터 수신된 스피치 신호의 잡음은 하나 이상의 기술을 사용하여 억제될 수 있다. 이러한 기술 중 일부는 제한 없이 다음과 같이 요약될 수 있다.
첫째, 예를 들어 1 프레임의 룩-어헤드(look-ahead)를 갖는 시간 ARMA(Auto-Regressive Moving-Average) 평활화 필터는 잡음 추정 전력 스펙트럼 밀도(Power Spectral Density: PSD) 및 빔 형성기 출력의 각 주파수 빈(bin)에 대해 사용된다.
이러한 ARMA 필터는 인과(causal) AR(Auto-Regressive) 단일 극 필터를 전달 함수
Figure pct00001
로 대체하는데,
Figure pct00002
는 PSD 평활화에 일반적으로 사용되는 1에 가까운 평활화 계수이다. 인과 AR 필터는 워드의 시작 부분에서 공격을 제거할 수 있기 때문에, 룩-어헤드를 갖는 ARMA 평활화 필터는 음성 공격을 보다 충실하게 추적한다. 그런 ARMA 평활화 필터는 AR 필터에 비해 약간의 지연을 추가하지만, 그 지연은 작고, 음성 인식 작업 동안 VAD(Voice Activity Detection)로 인한 기존 지연에 비추어 크지 않다.
둘째, 최적 로그-STSA(Short Term Spectral Amplitude) 포스트 필터는 입력 스피치 신호의 고조파 성분에 대한 모델로서 빔 형성기 출력에 대해 사용된다. 로그-STSA는 인식을 위한 스피치의 고조파 성분의 더 정확한 모델링을 제공한다. 최적 로그-STSA 포스트 필터는 빔 형성기에 의한 잡음 감쇠를 무시하지 않고 고려한다.
셋째, 빔 형성기 출력 잡음 추정 및 브레스 잡음의 예상된 분산(variance)에 기초한 컴포트 잡음 모델이 사용된다. 컴포트 잡음 모델은 뮤지컬 잡음 아티팩트를 유발하는 잡음 초과 억제를 방지할 수 있다.
넷째, 로지스틱 회귀 소프트 바이너리 분류기(logistic regression soft binary classifier)는 고조파 및 컴포트 잡음 모델을 혼합하기 위해 사용될 수 있다. 이는 곱셈 필터 모델(multiplicative filter model)을 홀로 사용할 경우에 비해 중하위(low-to-middle) SNR(Signal to Noise Ratio) 범위에 대한 보다 정확한 로그-STSA 추정치를 제공한다.
분류에 기초하여 추가 인식기 신뢰도 입력을 생성하는 대신 컴포트 잡음 및 고조파 모델을 혼합함으로써, 다양한 상이한 인식기가 사용될 수 있다. 인식기는 특별히 잡음 감소 시스템에 맞게 조정될 필요가 없다.
SNR 구동 소프트 이진 분류 모델은 스피치 신호의 고조파 모델과 컴포트 잡음 모델을 결합하기 위해 사용된다. 분류 모델은 다음과 같이 표현될 수 있다.
Figure pct00003
여기서,
Figure pct00004
은 음성 신호의 로그 스펙트럼 전력 추정치이고,
Figure pct00005
은 SNR이고,
Figure pct00006
은 해당 음성 고조파 성분의 확률이고,
Figure pct00007
는 고조파 성분의 로그 스펙트럼 전력 모델이며,
Figure pct00008
은 컴포트 잡음의 로그 스펙트럼 전력 모델이다.
이러한 낮은 차수 평활화 필터 및 간단한 소프트 분류기 모델은 높은 복잡성 GMM(Generalized Method of Movements) 기반 동적 모델 대신 사용되어 유사한 인식 개선을 달성할 수 있다. 동적 훈련을 필요로 하지 않는 사전 훈련된 모델이 사용될 수 있다. 이것은 여기에 설명된 기술이 실시간으로 사용될 수 있게 한다.
스피치 강화를 위한 일반적인 컨텍스트가 도 1에 도시되어 있다. 도 1은 본 명세서에 설명된 잡음 감소 또는 스피치 강화 시스템의 블록도이다. 시스템은 마이크로폰 어레이를 갖는다. 어레이의 2개의 마이크로폰(102, 104)이 도시되어 있지만, 특정 구현에 따라 더 많을 수도 있다. 각각의 마이크로폰은 STFT(Short Term Fourier Transform) 블록(106, 108)에 결합된다. 스피치와 같은 아날로그 오디오는 마이크로폰에서 수신되고 샘플링된다. 마이크로폰은 STFT 블록에 샘플 스트림을 생성한다. STFT 블록은 시간 영역 샘플 스트림을 샘플의 주파수 영역 샘플 프레임으로 변환한다. 샘플링 속도 및 프레임 크기는 임의의 원하는 정확도 및 복잡성에 맞게 조정될 수 있다. STFT 블록은 각 빔 형성기 입력(마이크로폰 샘플 스트림)
Figure pct00009
에 대한 프레임
Figure pct00010
을 결정하는데, 여기서 i는 1에서 n까지 n개의 샘플을 갖는 특정 마이크로폰으로부터의 스트림이다.
STFT 블록들에 의해 결정된 모든 프레임은 STFT 블록으로부터 빔 형성기(110)로 전송된다. 이 예에서, 빔 형성은 니어필드(near-field)로 가정된다. 그 결과, 음성은 울리지 않는다. 빔 형성은 특정 구현에 따라 상이한 환경에 맞게 수정될 수 있다. 본 명세서에 제공된 예에서, 빔은 일정한 것으로 가정된다. 특정 구현에 따라 빔스티어링(beamsteering)이 추가될 수 있다. 여기에 제공된 예에서, 음성 및 간섭은 상관관계가 없는 것으로 가정된다.
모든 프레임은 또한 STFT 블록으로부터 쌍방식(pair-wise) 잡음 추정 블록(112)으로 보내진다. 잡음은 등방성(isotropic)인 것으로 가정되며, 이는 다양한 방향으로부터 무지향성 센서에 도달하는 평면파의 중첩을 의미한다. 잡음은 마이크로폰 ij 사이의 주파수 영역
Figure pct00011
에서 공간 상관관계를 갖는다.
구형 등방성 음향 필드 및 독립형(free standing) 마이크로폰의 경우, 마이크로폰 간의 상관관계는 다음과 같이 추정될 수 있다.
Figure pct00012
여기서, ω는 음향 주파수이고, dij는 마이크로폰 사이의 거리이며, c는 소리의 속도이다. 구형 등방성은 사무실 잡음과 같은 실내 울림 잡음과 거의 일치하는 가상 잡음 소스가 구 표면에 균일하게 분포되어 있음을 의미한다. 이 추정은 1에서 n까지의 모든 마이크로폰 i, j에 대해 수행될 수 있는데, 여기서 n은 어레이 내의 마이크로폰의 수이다.
상이한 음향 분야에 대해, 상이한 모델이 간섭을 추정하기 위해 사용될 수 있다. 내장형 마이크로폰의 경우, 마이크로폰이 내장되는 디바이스로 인해 유발된회절도 고려될 수 있다.
Figure pct00013
는 관찰로부터 추정될 수 있다.
STFT 프레임 t 및 주파수 빈 ω에 대해, 이 예에서는 다음 모델이 사용된다. 이 모델은 상이한 구현 및 시스템에 맞게 수정될 수 있다.
Figure pct00014
Figure pct00015
Figure pct00016
Figure pct00017
여기서,
Figure pct00018
는 주파수 ω에서 대응하는 STFT 블록으로부터의 마이크로폰 i로부터의 잡음의 STFT 프레임 t이다.
Figure pct00019
는 주파수 ω에서 마이크로폰 i 내의 스피치 신호의 위상/진폭 시프트이며, 가중 계수로서 사용된다. S는 주파수 ω에서 음성 신호의 이상적인 깨끗한 STFT 프레임 t이다.
Figure pct00020
는 주파수 ω에서 마이크로폰 i 로부터의 잡음의 STFT 프레임 t이다. E는 잡음 추정치이다.
도 1로 되돌아가서, 빔 형성기 출력 Y는 블록(110)에 의해 다양한 상이한 방식으로 결정될 수 있다. 일 예에서는 다음과 같이, h i 로부터 결정된 가중치 w i 를 사용하여 각 STFT 프레임의 1에서 n까지의 모든 마이크로폰에 대해 가중 합이 취해진다.
Figure pct00021
Figure pct00022
마이크로폰 어레이는 방향 식별을 사용할 수 있는 핸즈프리 커맨드 시스템에 사용될 수 있다. 빔 형성기는 어레이의 방향 식별을 이용하여 바람직하지 않은 잡음 소스를 줄이고 스피치 소스를 추적할 수 있게 한다. 빔 형성기 출력은 후술하는 바와 같이 포스트 필터를 적용함으로써 나중에 강화된다.
블록(112)에서, 쌍방식 잡음 추정치 V ij 가 결정된다. 쌍방식 추정치는 마이크로폰의 각 쌍에 대한 STFT 프레임의 가중 차이를 사용하여 또는 임의의 다른 적절한 방식으로 결정될 수 있다. 마이크로폰이 두 개인 경우, 각 프레임에 대해 단지 한 쌍이 존재한다. 두 개 이상의 마이크로폰이 있는 경우, 각 프레임에 대해 두 개 이상의 쌍이 존재할 것이다. 잡음 추정치는 각 마이크로폰으로부터의 STFT 잡음 프레임 간의 가중 차이이다.
Figure pct00023
블록(114)에서, 전력 스펙트럼 밀도(PSD)
Figure pct00024
가 빔 형성기 값에 대해 결정되고, 블록(116)에서, PSD
Figure pct00025
가 쌍방식 잡음 추정치에 대해 결정된다.
블록(118)에서, 쌍방식 잡음 추정치에 대한 PSD 값
Figure pct00026
은 전체 입력 잡음 PSD 추정치
Figure pct00027
를 결정하기 위해 사용된다. 이것은 빔 형성기 가중치 및 대응하는 간섭에 의해 각각 팩터링된(factored) 잡음 추정치의 PSD의 모든 마이크로폰 1-n에 대한 i 및 j에 걸친 합을 사용하여 수행될 수 있다.
Figure pct00028
전체 빔 형성기 출력 잡음 PSD 추정치는 또한 빔 형성기로부터의 PSD Y를 사용하여 결정될 수 있다.
Figure pct00029
120 및 122에서,
Figure pct00030
Figure pct00031
는 각각 전술된 바와 같이 1 프레임 룩-어헤드를 갖는 ARMA 평활화를 사용하여 결정될 수 있다.
124에서는, 빔 형성기 및 쌍방식 잡음 추정 모두에 대한 ARMA 평활화 필터 결과가 SNR 블록에 적용되어, 예를 들어, 위너(Wiener) 필터 이득 G 및 SNR
Figure pct00032
을 결정한다. 이것은 다음과 같이 빔 형성기 값과 잡음 추정치 사이의 PSD의 차이에 기초하여 결정될 수 있다.
Figure pct00033
Figure pct00034
의 네거티브 이상 값(negative outlier value)은 작은 값 ε > 0으로 대체된다.
이 필터 이득 및 SNR 결과는 블록(126) 및 분류기(128)에서 고조파 모델에 적용된다. 고조파 모델은 필터 이득 결과 G 및 SNR
Figure pct00035
을 사용하여 고조파 음성 성분의 로그 스펙트럼 전력에 대한 최적 추정치 M H 를 결정한다. 다음 수식은 주어진 관찰 및 SNR에 대한 로그-STSA의 수학적 최적 추정치이다. 이것은 빔 형성기 출력에 대한 PSD의 로그와 이득의 로그 및 적분 항을 결합한다. 몇몇 실시예에서, 최종적인 결과에 대해 사소한 악영향만을 주면서 단순화하기 위해 적분 항은 제거될 수 있다. 적분 항이 없으면 수식은 로그 스펙트럼 영역의 위너 필터와 같다.
Figure pct00036
128에서, SNR
Figure pct00037
에 기초하여 파라미터
Figure pct00038
를 갖는 로지스틱 회귀 분류기를 사용하여 신호 베이지안 확률(signal Bayesian probability)이 다음과 같이 결정된다.
Figure pct00039
130에서, 블록(122)으로부터의 ARMA 평활화된 잡음 추정치는 컴포트 잡음 MN을 모델링하기 위해 사용된다. 이것은 다양한 상이한 방식 중 임의의 것으로 수행될 수 있다. 이 예에서,
Figure pct00040
는 브레스 잡음의 예상된 분산으로서 사용되는데, 이는 음성의 예상된 소리 크기에 의존한다. 이것은 가중치 α를 사용하는 쌍방식 잡음 V PSD의 로그와 브레스 잡음 분산의 로그의 가중 평균이다.
Figure pct00041
132에서, 블록(126)으로부터의 고조파 모델 MH, 블록(128)으로부터의 확률 PH 및 블록(130)으로부터의 컴포트 잡음 MN이 결합되어 출력 Log-PSD를 결정한다. 이것은 다음과 같이 값들을 결합함으로써 결정될 수 있다.
Figure pct00042
확률 PH는 고조파 모델 잡음 MH와 컴포트 잡음 MN을 스케일링하기 위해 적용된다. 결과적으로, 분류기 함수는 출력 Log-PSD에서 어떤 요소가 우세한지를 결정한다.
시스템 파라미터
Figure pct00043
및 ARMA 필터 계수는 특정 시스템 구성 및 예상되는 용도에 대한 최상의 인식 정확도를 위해 미리 최적화될 수 있다. 몇몇 실시예에서, 좌표 경사 하강(coordinate gradient descent)이 스피치 및 잡음 샘플의 대표적인 데이터베이스에 적용된다. 그런 데이터베이스는 사용자 스피치의 녹음을 사용하여 생성될 수 있거나 (언어 데이터 컨소시엄(Linguistic Data Consortium)으로부터의) TIDIGITS와 같은 기존의 스피치 샘플 소스가 사용될 수 있다. 데이터베이스는 스피치 샘플에 잡음 데이터의 무작위 세그먼트를 추가함으로써 확장될 수 있다.
본 명세서에 설명된 잡음 억제 시스템은, 머리 장착식 웨어러블 디바이스, 모바일폰, 태블릿, 울트라북 및 노트북을 포함하는, 마이크로폰 어레이를 갖는 다수의 상이한 유형의 디바이스에서 스피치 인식을 개선하기 위해 사용될 수 있다. 여기에 설명된 바와 같이, 마이크로폰 어레이가 사용된다. 스피치 인식은 마이크로폰에 의해 수신된 스피치에 적용된다. 스피치 인식은 샘플링된 스피치에 포스트 필터링 및 빔 형성을 적용한다. 빔 형성 이외에도 마이크로폰 어레이는 강한 잡음 감쇠가 제공되도록 SNR 및 포스트 필터링을 추정하기 위해 사용된다. 포스트 필터에는 곱셈 필터와 함께 로그 필터가 사용된다.
출력 로그-PSD(134)는 특정 구현에 따라 스피치 인식 시스템이나 스피치 전송 시스템 또는 둘 모두에 적용될 수 있다. 커맨드 시스템에 있어서, 출력(134)은 스피치 인식 시스템(136)에 직접 인가될 수 있다. 그 다음, 인식된 스피치는 커맨드 시스템(138)에 인가되어 마이크로폰으로부터의 오리지널 스피치에 포함된 커맨드 또는 요청을 결정할 수 있다. 이어서, 그 커맨드는 프로세서 또는 전송 시스템과 같은 커맨드 실행 시스템(140)에 인가될 수 있다. 커맨드는 로컬 실행을 위한 것일 수도 있고, 커맨드는 다른 디바이스에서 원격으로 실행되도록 다른 디바이스로 전송될 수도 있다.
휴먼 인터페이스를 위해, 스피치 변환 시스템에서 출력 로그 PSD는 빔 형성기 출력(112)으로부터의 위상 데이터(142)와 결합되어 PSD(134)를 스피치(144)로 변환할 수 있다. 그 다음, 이 스피치 오디오는 전송 시스템(146)에 전송되거나 렌더링될 수 있다. 스피치는 사용자에게 국부적으로 렌더링되거나, 송신기를 사용하여 회의 또는 음성 호출 단말기와 같은 다른 디바이스로 전송될 수 있다.
도 2는 스피치 인식 및 다른 사용자와의 통신을 위해 다수의 마이크로폰에 의한 잡음 감소를 이용할 수 있는 사용자 디바이스의 도면이다. 이 디바이스는 디바이스의 구성요소의 일부 또는 전부를 탑재하는 프레임 또는 하우징(202)을 갖는다. 프레임은 사용자의 눈마다 하나씩 렌즈(204)를 지니고 있다. 렌즈는 투사 표면으로 사용되어 정보를 사용자 앞에 텍스트 또는 이미지로 투사할 수 있다. 프로젝터(216)는 그래픽, 텍스트 또는 다른 데이터를 수신하여 이것을 렌즈 상에 투사한다. 특정 구현에 따라 하나 또는 두 개의 프로젝터가 존재할 수 있다.
사용자 디바이스는 또한 사용자를 둘러싼 환경을 관찰하기 위해 하나 이상의 카메라(208)를 포함한다. 도시된 예에서는, 하나의 전방 카메라가 존재한다. 그러나 깊이 이미징을 위한 복수의 전방 카메라, 측면 카메라 및 후방 카메라가 존재할 수 있다.
시스템은 또한 사용자의 귀에 의지하여 디바이스를 유지하기 위해 프레임의 각 측면에 안경다리(temple)(206)를 갖는다. 프레임의 다리는 사용자의 코에서 디바이스를 유지한다. 안경다리는 사용자에게 오디오 피드백을 생성하거나 다른 사용자와의 전화 통신을 허용하기 위해 사용자의 귀 부근에 하나 이상의 스피커(212)를 탑재하고 있다. 카메라, 프로젝터 및 스피커는 모두 시스템 온 칩(SoC)(214)에 결합된다. 이 시스템은 특히 프로세서, 그래픽 프로세서, 무선 통신 시스템, 오디오 및 비디오 처리 시스템 및 메모리를 포함할 수 있다. SoC는 더 많거나 더 적은 모듈을 포함할 수 있으며, 시스템의 일부는 SoC 외부의 개별 다이 또는 패키지로 패키징될 수 있다. 잡음 감소, 스피치 인식 및 스피치 전송 시스템을 포함하여 여기에서 설명된 오디오 처리는 모두 SoC 내에 포함되거나, 또는 이들 구성 요소 중 일부는 SoC에 결합된 개별 구성요소일 수도 있다. SoC에는 역시 디바이스에 통합된 배터리와 같은 전원 공급 장치(218)에 의해 전력이 공급된다.
이 디바이스는 또한 마이크로폰(210)의 어레이를 갖는다. 이 예에서는, 안경다리(206)를 가로질러 배열된 3개의 마이크로폰이 도시되어 있다. 반대쪽 안경다리(보이지 않음) 상에 마이크로폰이 3개 더 존재할 수 있고 다른 위치에 추가 마이크로폰이 존재할 수도 있다. 그 대신, 마이크로폰은 모두 도시된 위치와 다른 위치에 있을 수도 있다. 특정 구현에 따라 더 많거나 더 적은 마이크로폰이 사용될 수 있다. 마이크로폰 어레이는 구현에 따라 SoC에 직접 결합되거나, 또는 아날로그-디지털 변환기, 푸리에 변환 엔진 및 다른 디바이스와 같은 오디오 처리 회로를 통해 결합될 수도 있다.
사용자 디바이스는 자율적으로 동작하거나, 유선 또는 무선 링크를 사용하여 태블릿 또는 전화와 같은 다른 디바이스에 결합될 수 있다. 결합된 디바이스는 추가적인 처리, 디스플레이, 안테나 또는 다른 자원을 장치에 제공할 수 있다. 대안 적으로, 마이크로폰 어레이는 특정 구현에 따라 태블릿, 전화 또는 고정식 컴퓨터 및 디스플레이와 같은 상이한 디바이스에 통합될 수 있다.
도 3은 도 1의 시스템에 의해 수행되는 기본 동작의 간략화된 프로세스 흐름도이다. 마이크로폰 어레이로부터 오디오를 필터링하는 이 방법은 더 많거나 적은 동작을 가질 수도 있다. 도시된 동작들 각각은 특정 구현에 따라 많은 추가 동작을 포함할 수 있다. 동작은 단일 오디오 프로세서 또는 중앙 프로세서에서 수행 되거나, 다수의 상이한 하드웨어 또는 처리 디바이스에 분산될 수 있다.
302에서, 마이크로폰 어레이로부터 오디오가 수신된다. 한 쌍의 마이크로폰이 도 1과 관련하여 설명되고 6개의 마이크로폰의 어레이가 도 2와 관련하여 설명되었지만, 디바이스에 대해 의도된 용도에 따라 더 많거나 더 적게 존재할 수도 있다. 수신된 오디오는 다수의 상이한 형태를 취할 수 있다. 설명된 예에서, 오디오는 STFT 프레임으로 변환되지만, 실시예는 그것으로 제한되지 않는다.
304에서, 수신된 오디오로부터 빔 형성기 출력이 결정된다. 306에서, 빔 형성기 출력에 ARMA 평활화 필터가 적용된다. 유사하게, 308에서, 수신된 오디오로부터 잡음 추정치가 결정되고, 310에서 잡음 추정치에 제 2 ARMA 평활화 필터가 적용된다. 이들 ARMA 평활화 필터는 빔 형성기 및 잡음 추정치의 전처리된 버전에 대해 동작할 수 있다. 전처리는 다양한 PSD 값을 결정하는 것을 포함할 수 있다.
312에서, 제 1 및 제 2 평활화 필터 출력은 결합되어 감소된 잡음을 갖는 수신된 오디오의 전력 스펙트럼 밀도 출력을 생성한다. 314에서의 결과는 감소된 잡음을 갖는 수신된 오디오의 PSD이다.
결합은 오디오 또는 평활화 필터 결과를 분류한 다음 분류 결과에 기초하여 결합함으로써 수행될 수 있다. 분류기는 위에 보다 상세히 설명되어 있다.
도 4는 일 구현에 따른 컴퓨팅 디바이스(100)의 블록도이다. 컴퓨팅 디바이스는 도 2와 유사한 폼 팩터(form factor)를 가지거나, 상이한 웨어러블 또는 휴대용 디바이스의 형태일 수 있다. 컴퓨팅 디바이스(100)는 시스템 보드(2)를 수용한다. 보드(2)는 프로세서(4) 및 적어도 하나의 통신 패키지(6)를 포함하는 다수의 구성요소를 포함할 수 있다. 통신 패키지는 하나 이상의 안테나(16)에 결합된다. 프로세서(4)는 보드(2)에 물리적 및 전기적으로 결합된다.
자신의 애플리케이션에 따라, 컴퓨팅 디바이스(100)는 보드(2)에 물리적으로 또는 전기적으로 결합될 수도 있고 결합되지 않을 수도 있는 다른 구성요소를 포함할 수 있다. 이들 다른 구성 요소는 휘발성 메모리(예를 들어, DRAM)(8), 비휘발성 메모리(예를 들어, ROM)(9), 플래시 메모리(도시되지 않음), 그래픽 프로세서(12), 디지털 신호 프로세서(도시되지 않음), 암호 프로세서(도시되지 않음), 칩셋(14), 안테나(16), 터치스크린 디스플레이와 같은 디스플레이(18) , 터치스크린 제어기(20), 배터리(22), 오디오 코덱(도시되지 않음), 비디오 코덱(도시되지 않음), 전력 증폭기(24), GPS(global positioning system) 디바이스(26), 나침반(28), 가속도계(도시되지 않음), 자이로스코프(도시되지 않음), 스피커(30), 카메라(32), 마이크로폰 어레이(34) 및 대용량 기억 디바이스(예컨대, 하드 디스크 드라이브)(10), 컴팩트 디스크(CD)(도시되지 않음), 디지털 다목적 디스크(DVD)(도시되지 않음) 등을 포함할 수 있지만, 이에 제한되지 않는다. 이러한 구성요소는 시스템 보드(2)에 연결되거나, 시스템 보드에 장착되거나, 다른 구성요소와 결합될 수 있다.
통신 패키지(6)는 컴퓨팅 디바이스(100)로/로부터의 데이터의 전송을 위해 무선 및/또는 유선 통신을 가능하게 한다. "무선"이란 용어 및 그 파생어는 비고체 매체(non-solid medium)를 통한 변조된 전자기 복사의 사용을 통해 데이터를 통신할 수 있는 회로, 디바이스, 시스템, 방법, 기술, 통신 채널, 등을 설명하기 위해 사용될 수 있다. 이 용어는, 어떤 실시예에서는 그렇지 않을 수도 있지만, 관련 디바이스가 와이어를 전혀 포함하지 않는다는 것을 의미하지는 않는다. 통신 패키지(6)는, Wi-Fi(IEEE 802.11 패밀리), WiMAX(IEEE 802.16 패밀리), IEEE 802.20, LTE(Long Term Evolution), Ev-DO, HSPA+, HSDPA+, HSUPA+, EDGE, GSM, GPRS, CDMA, TDMA, DECT, 블루투스, 이더넷, 그 파생품 및 3G, 4G, 5G, 그 이상으로 지정된 기타 무선 및 유선 프로토콜을 포함하지만 이에 제한되지 않는 다수의 무선 및 유선 표준 또는 프로토콜 중 임의의 것을 구현할 수 있다. 컴퓨팅 디바이스(100)는 복수의 통신 패키지(6)를 포함할 수 있다. 예를 들어, 제 1 통신 패키지(6)는 Wi-Fi 및 블루투스와 같은 단거리 무선 통신에 전용될 수 있고, 제 2 통신 패키지(6)는 GPS, EDGE, GPRS, CDMA, WiMAX, LTE, Ev-DO 등과 같은 장거리 무선 통신에 전용될 수 있다.
마이크로폰(34) 및 스피커(30)는 본 명세서에서 설명된 바와 같은 디지털 변환, 코딩 및 디코딩, 및 잡음 감소를 수행하기 위해 오디오 프론트엔드(36)에 결합된다. 프로세서(4)는 오디오 프론트엔드에 결합되어, 인터럽트에 의해 상기 프로세스를 구동하고, 파라미터를 설정하고, 오디오 프론트엔드의 동작을 제어한다. 프레임 기반 오디오 처리는 오디오 프론트엔드 또는 통신 패키지(6)에서 수행될 수 있다.
다양한 구현에서, 컴퓨팅 디바이스(100)는 안경, 랩톱, 넷북, 노트북, 울트라북, 스마트폰, 태블릿, PDA(personal digital assistant), 울트라 모바일 PC, 모바일폰, 데스크톱 컴퓨터, 서버, 셋톱 박스, 엔터테인먼트 제어 유닛, 디지털 카메라, 휴대용 음악 플레이어 또는 디지털 비디오 레코더일 수 있다. 컴퓨팅 디바이스는 고정식, 휴대용 또는 웨어러블일 수 있다. 다른 구현에서, 컴퓨팅 디바이스(100)는 데이터를 처리하는 임의의 다른 전자 디바이스일 수 있다.
실시예는, 마더 보드, 주문형 집적 회로(ASIC) 및/또는 필드 프로그래머블 게이트 어레이(FPGA)를 사용하여 상호접속된, 하나 이상의 메모리 칩, 제어기, CPU(Central Processing Unit), 마이크로칩 또는 집적 회로의 일부로서 구현될 수 있다.
"일 실시예", "실시예", "예시적인 실시예", "다양한 실시예" 등의 언급은, 그렇게 설명된 실시예(들)가 특정 특징, 구조 또는 특성을 포함할 수 있음을 나타내지만, 모든 실시예가 반드시 그런 특정 특징, 구조 또는 특성을 포함하는 것은 아니다. 또한, 몇몇 실시예는 다른 실시예에 대해 설명된 특징들의 일부 또는 전부를 가질 수도 있고 전혀 가지지 않을 수도 있다.
다음의 설명 및 청구범위에서, "결합된"이란 용어가 그 파생어와 함께 사용될 수 있다. "결합된"은 둘 이상의 요소가 서로 협력하거나 상호작용함을 나타내기 위해 사용되지만, 물리적 또는 전기적 구성요소가 이들 사이에 개입될 수도 있고 아닐 수도 있다.
청구범위에서 사용될 때, 달리 명시되지 않는 한, 공통 요소를 기술하기 위해 서수 형용사 "제 1", "제 2", "제 3" 등을 사용하는 것은 단순히 동일 요소의 상이한 예가 참조되고 있다는 것을 나타내며, 그렇게 설명된 구성 요소가 시간적으로, 공간적으로, 순위에 있어서 또는 임의의 다른 방식으로 주어진 순서로 존재해야 한다는 것을 의미하지는 않는다.
도면 및 상기 설명은 실시예의 예를 제공한다. 당업자는 설명된 요소들 중 하나 이상이 단일 기능 요소로 결합될 수 있다는 것을 이해할 것이다. 대안적으로, 특정 요소는 다수의 기능 요소로 분할될 수도 있다. 일 실시예의 요소는 다른 실시예에 추가될 수 있다. 예를 들어, 본 명세서에 설명된 프로세스의 순서는 변경될 수 있으며 여기에 설명된 방식으로 제한되지 않는다. 또한, 임의의 흐름도의 동작은 도시된 순서로 구현될 필요는 없으며, 그 동작 전부가 반드시 수행될 필요도 없다. 또한, 다른 동작에 의존하지 않는 동작은 다른 동작과 병행하여 수행될 수 있다. 실시예의 범위는 이들 특정 예에 의해 결코 제한되지 않는다. 본 명세서에 명시적으로 제공되는지 여부에 관계없이, 구조, 치수 및 재료의 사용에서의 차이와 같은 다양한 변형이 가능하다. 실시예의 범위는 적어도 다음의 청구범위에 의해 주어진 것만큼 넓다.
다음 예는 추가 실시예에 관한 것이다. 상이한 실시예의 다양한 특징은 다양한 상이한 애플리케이션에 적합하도록 몇몇 특징은 포함되고 다른 특징은 배제되면서 다양하게 결합될 수 있다. 몇몇 실시예는, 마이크로폰 어레이로부터 오디오를 필터링하는 방법으로서, 복수의 마이크로폰으로부터 오디오를 수신하는 단계와, 상기 수신된 오디오로부터 빔 형성기 출력을 결정하는 단계와, 상기 빔 형성기 출력에 제 1 자동 회귀 이동 평균 평활화 필터(auto-regressive moving average smoothing filter)를 적용하는 단계와, 상기 수신된 오디오로부터 잡음 추정치를 결정하는 단계와, 상기 잡음 추정치에 제 2 자동 회귀 이동 평균 평활화 필터를 적용하는 단계와, 상기 제 1 평활화 필터의 출력 및 상기 제 2 평활화 필터의 출력을 결합하여 감소된 잡음을 갖는 수신된 오디오의 전력 스펙트럼 밀도 출력을 생성하는 단계를 포함하는 방법에 관한 것이다.
추가 실시예는 상기 전력 스펙트럼 밀도 출력에 스피치 인식을 적용하여 상기 수신된 오디오의 진술(statement)을 인식하는 단계를 포함한다.
추가 실시예는 상기 전력 스펙트럼 밀도 출력을 위상 데이터와 결합하여 감소된 잡음을 갖는 스피치를 포함하는 오디오 신호를 생성하는 단계를 포함한다.
추가 실시예는 상기 제 1 평활화 필터를 사용하여 고조파 잡음 모델을 결정하는 단계를 포함하고, 상기 결합하는 것은 상기 고조파 잡음 모델을 결합하는 것을 포함하며, 상기 고조파 잡음 모델은 상기 제 1 평활화 필터로부터의 이득의 고조파 음성 성분의 로그 스펙트럼 전력에 대한 추정치를 결정함으로써 결정된다.
추가 실시예에서, 상기 로그 스펙트럼 전력에 대한 추정치를 결정하는 것은, 상기 빔 형성기 출력의 전력 스펙트럼 밀도의 로그를 상기 제 1 평활화 필터로부터의 이득의 로그와 결합하는 것을 포함한다.
추가 실시예는 상기 제 2 평활화 필터를 사용하여 컴포트 잡음(comfort noise)을 결정하는 단계를 포함하고, 상기 결합하는 것은 상기 컴포트 잡음을 결합하는 것을 포함하고, 상기 컴포트 잡음은 브레스 잡음(breath noise)의 함수와 함께 상기 제 2 평활화 필터의 출력의 함수를 적용함으로써 결정된다.
추가 실시예에서, 상기 제 2 평활화 필터의 함수는 로그 함수이고, 상기 브레스 잡음의 함수는 로그 함수이다.
추가 실시예에서, 상기 제 2 평활화 필터의 함수는 가중치 α에 의해 팩터링되고(factored), 상기 브레스 잡음의 함수는 1-α에 의해 팩터링된다.
추가 실시예에서, 상기 결합하는 것은 분류기에 따라 결합하는 것을 포함한다.
추가 실시예에서, 상기 분류기는 상기 제 1 평활화 필터의 출력과 상기 제 2 평활화 필터의 출력 간의 차이를 스케일링한다.
추가 실시예에서, 상기 제 1 평활화 필터의 출력은 고조파 잡음으로 변환되고, 상기 제 2 평활화 필터의 출력은 컴포트 잡음으로 변환되고, 상기 분류기는 상기 고조파 잡음과 상기 컴포트 잡음 중 어떤 것이 상기 수신된 오디오에서 우세한지를 결정하고 상기 결정에 기초하여 상기 고조파 잡음 및 상기 컴포트 잡음을 상기 수신된 오디오와 결합한다.
추가 실시예에서, 상기 결정하는 것은 신호 대 잡음비(signal to noise ratio)에 로지스틱 회귀(logistic regression)를 적용하는 것을 포함한다.
추가 실시예에서, 상기 빔 형성기 출력을 결정하는 단계는 상기 수신된 오디오를 단기 푸리에 변환 오디오 프레임으로 변환하고 각각의 마이크로폰을 통한 각각의 프레임의 가중 합(weighted sum)을 취하는 단계를 포함한다.
추가 실시예에서, 상기 가중 합의 가중치는 각각의 마이크로폰에 대해 상이하다.
몇몇 실시예는, 명령어가 저장되어 있는 머신 판독가능 매체로서, 상기 명령어는 머신에 의해 동작될 때 상기 머신으로 하여금, 복수의 마이크로폰으로부터 오디오를 수신하는 것과, 상기 수신된 오디오로부터 빔 형성기 출력을 결정하는 것과, 상기 빔 형성기 출력에 제 1 자동 회귀 이동 평균 평활화 필터를 적용하는 것과, 상기 수신된 오디오로부터 잡음 추정치를 결정하는 것과, 상기 잡음 추정치에 제 2 자동 회귀 이동 평균 평활화 필터를 적용하는 것과, 상기 제 1 평활화 필터의 출력 및 상기 제 2 평활화 필터의 출력을 결합하여 감소된 잡음을 갖는 수신된 오디오의 전력 스펙트럼 밀도 출력을 생성하는 것을 포함하는 동작을 수행하게 하는, 머신 판독가능 매체에 관한 것이다.
추가 실시예는 상기 전력 스펙트럼 밀도 출력에 스피치 인식을 적용하여 상기 수신된 오디오의 진술을 인식하는 것을 포함한다.
추가 실시예는 상기 전력 스펙트럼 밀도 출력을 위상 데이터와 결합하여 감소된 잡음을 갖는 스피치를 포함하는 오디오 신호를 생성하는 것을 포함한다.
추가 실시예는 상기 제 1 평활화 필터를 사용하여 고조파 잡음 모델을 결정하는 것을 포함하고, 상기 결합하는 것은 상기 고조파 잡음 모델을 결합하는 것을 포함하며, 상기 고조파 잡음 모델은 상기 제 1 평활화 필터로부터의 이득의 고조파 음성 성분의 로그 스펙트럼 전력에 대한 추정치를 결정함으로써 결정된다.
추가 실시예는 상기 제 2 평활화 필터를 사용하여 컴포트 잡음을 결정하는 것을 포함하고, 상기 결합하는 것은 상기 컴포트 잡음을 결합하는 것을 포함하고, 상기 컴포트 잡음은 브레스 잡음의 함수와 함께 상기 제 2 평활화 필터의 출력의 함수를 적용함으로써 결정된다.
추가 실시예에서, 상기 제 2 평활화 필터의 함수는 가중치 α에 의해 팩터링된 로그 함수이고, 상기 브레스 잡음의 함수는 1-α에 의해 팩터링된 로그 함수이다.
추가 실시예에서, 상기 결합하는 것은 상기 제 1 평활화 필터의 출력과 상기 제 2 평활화 필터의 출력 간의 차이를 스케일링하는 분류기에 따라 결합하는 것을 포함한다.
추가 실시예에서, 상기 제 1 평활화 필터의 출력은 고조파 잡음으로 변환되고, 상기 제 2 평활화 필터의 출력은 컴포트 잡음으로 변환되고, 상기 분류기는 상기 고조파 잡음과 상기 컴포트 잡음 중 어떤 것이 상기 수신된 오디오에서 우세한지를 결정하고 상기 결정에 기초하여 상기 고조파 잡음 및 상기 컴포트 잡음을 상기 수신된 오디오와 결합한다.
몇몇 실시예는, 마이크로폰 어레이와, 복수의 마이크로폰으로부터 오디오를 수신하고, 상기 수신된 오디오로부터 빔 형성기 출력을 결정하고, 상기 빔 형성기 출력에 제 1 자동 회귀 이동 평균 평활화 필터를 적용하고, 상기 수신된 오디오로부터 잡음 추정치를 결정하고, 상기 잡음 추정치에 제 2 자동 회귀 이동 평균 평활화 필터를 적용하고, 상기 제 1 평활화 필터의 출력 및 상기 제 2 평활화 필터의 출력을 결합하여 감소된 잡음을 갖는 수신된 오디오의 전력 스펙트럼 밀도 출력을 생성하는 잡음 필터링 시스템을 포함하는 장치에 관한 것이다.
추가 실시예는 상기 전력 스펙트럼 밀도 출력을 수신하고 상기 수신된 오디오의 진술을 인식하는 스피치 인식 시스템을 포함한다.
추가 실시예는 상기 전력 스펙트럼 밀도 출력을 위상 데이터와 결합하여 감소된 잡음을 갖는 스피치를 포함하는 오디오 신호를 생성하는 스피치 변환 시스템과, 상기 오디오 신호를 원격 디바이스로 송신하는 스피치 송신기를 포함한다.
추가 실시예에서, 상기 잡음 필터링 시스템은 또한 상기 제 2 평활화 필터를 사용하여 컴포트 잡음을 결정하고, 상기 결합하는 것은 상기 컴포트 잡음을 결합하는 것을 포함하고, 상기 컴포트 잡음은 브레스 잡음의 함수와 함께 상기 제 2 평활화 필터의 출력의 함수를 적용함으로써 결정된다.
추가 실시예에서, 상기 빔 형성기 출력을 결정하는 것은 상기 수신된 오디오를 단기 푸리에 변환 오디오 프레임으로 변환하고 각각의 마이크로폰을 통한 각각의 프레임의 가중 합을 취하는 것을 포함한다.
추가 실시예에서, 상기 가중 합의 가중치는 각각의 마이크로폰에 대해 상이하다.
몇몇 실시예는, 사용자에 의해 착용되도록 구성된 프레임과, 상기 프레임에 접속된 마이크로폰 어레이와, 상기 프레임에 접속되어, 복수의 마이크로폰으로부터 오디오를 수신하고, 상기 수신된 오디오로부터 빔 형성기 출력을 결정하고, 상기 빔 형성기 출력에 제 1 자동 회귀 이동 평균 평활화 필터를 적용하고, 상기 수신된 오디오로부터 잡음 추정치를 결정하고, 상기 잡음 추정치에 제 2 자동 회귀 이동 평균 평활화 필터를 적용하고, 상기 제 1 평활화 필터의 출력 및 상기 제 2 평활화 필터의 출력을 결합하여 감소된 잡음을 갖는 수신된 오디오의 전력 스펙트럼 밀도 출력을 생성하는 잡음 필터링 시스템을 포함하는 웨어러블 디바이스에 관한 것이다.
추가 실시예에서, 상기 잡음 필터링 시스템은 또한 상기 제 2 평활화 필터를 사용하여 컴포트 잡음을 결정하고, 상기 결합하는 것은 상기 컴포트 잡음을 결합하는 것을 포함하고, 상기 컴포트 잡음은 브레스 잡음의 함수와 함께 상기 제 2 평활화 필터의 출력의 함수를 적용함으로써 결정된다.
추가 실시예에서, 상기 제 2 평활화 필터의 함수는 가중치 α에 의해 팩터링된 로그 함수이고, 상기 브레스 잡음의 함수는 1-α에 의해 팩터링된 로그 함수이다.
추가 실시예에서, 상기 결합하는 것은 상기 제 1 평활화 필터의 출력과 상기 제 2 평활화 필터의 출력 간의 차이를 스케일링하는 분류기에 따라 결합하는 것을 포함한다.
추가 실시예에서, 상기 제 1 평활화 필터의 출력은 고조파 잡음으로 변환되고, 상기 제 2 평활화 필터의 출력은 컴포트 잡음으로 변환되고, 상기 분류기는 상기 고조파 잡음과 상기 컴포트 잡음 중 어떤 것이 상기 수신된 오디오에서 우세한지를 결정하고, 상기 결정에 기초하여 신호 대 잡음비에 로지스틱 회귀를 적용함으로써 상기 고조파 잡음 및 상기 컴포트 잡음을 상기 수신된 오디오와 결합한다.

Claims (33)

  1. 마이크로폰 어레이로부터 오디오를 필터링하는 방법으로서,
    복수의 마이크로폰으로부터 오디오를 수신하는 단계와,
    상기 수신된 오디오로부터 빔 형성기 출력을 결정하는 단계와,
    상기 빔 형성기 출력에 제 1 자동 회귀 이동 평균 평활화 필터(auto-regressive moving average smoothing filter)를 적용하는 단계와,
    상기 수신된 오디오로부터 잡음 추정치를 결정하는 단계와,
    상기 잡음 추정치에 제 2 자동 회귀 이동 평균 평활화 필터를 적용하는 단계와,
    상기 제 1 평활화 필터의 출력과 상기 제 2 평활화 필터의 출력을 결합하여 감소된 잡음을 갖는 수신된 오디오의 전력 스펙트럼 밀도 출력을 생성하는 단계를 포함하는
    방법.
  2. 제 1 항에 있어서,
    상기 전력 스펙트럼 밀도 출력에 스피치 인식을 적용하여 상기 수신된 오디오의 진술(statement)을 인식하는 단계를 더 포함하는
    방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 전력 스펙트럼 밀도 출력을 위상 데이터와 결합하여 감소된 잡음을 갖는 스피치를 포함하는 오디오 신호를 생성하는 단계를 더 포함하는
    방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 제 1 평활화 필터를 사용하여 고조파 잡음 모델을 결정하는 단계를 더 포함하되,
    상기 결합하는 것은 상기 고조파 잡음 모델을 결합하는 것을 포함하며, 상기 고조파 잡음 모델은 상기 제 1 평활화 필터로부터의 이득의 고조파 음성 성분의 로그 스펙트럼 전력에 대한 추정치를 결정함으로써 결정되는
    방법.
  5. 제 4 항에 있어서,
    상기 로그 스펙트럼 전력에 대한 추정치를 결정하는 것은, 상기 빔 형성기 출력의 전력 스펙트럼 밀도의 로그를 상기 제 1 평활화 필터로부터의 이득의 로그와 결합하는 것을 포함하는
    방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 제 2 평활화 필터를 사용하여 컴포트 잡음(comfort noise)을 결정하는 단계를 더 포함하되,
    상기 결합하는 것은 상기 컴포트 잡음을 결합하는 것을 포함하고, 상기 컴포트 잡음은 브레스 잡음(breath noise)의 함수와 함께 상기 제 2 평활화 필터의 출력의 함수를 적용함으로써 결정되는
    방법.
  7. 제 6 항에 있어서,
    상기 제 2 평활화 필터의 함수는 로그 함수이고, 상기 브레스 잡음의 함수는 로그 함수인
    방법.
  8. 제 7 항에 있어서,
    상기 제 2 평활화 필터의 함수는 가중치 α에 의해 팩터링되고(factored), 상기 브레스 잡음의 함수는 1-α에 의해 팩터링되는
    방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 결합하는 것은 분류기에 따라 결합하는 것을 포함하는
    방법.
  10. 제 9 항에 있어서,
    상기 분류기는 상기 제 1 평활화 필터의 출력과 상기 제 2 평활화 필터의 출력 간의 차이를 스케일링하는
    방법.
  11. 제 10 항에 있어서,
    상기 제 1 평활화 필터의 출력은 고조파 잡음으로 변환되고, 상기 제 2 평활화 필터의 출력은 컴포트 잡음으로 변환되고, 상기 분류기는 상기 고조파 잡음과 상기 컴포트 잡음 중 어떤 것이 상기 수신된 오디오에서 우세한지를 결정하고 상기 결정에 기초하여 상기 고조파 잡음 및 상기 컴포트 잡음을 상기 수신된 오디오와 결합하는
    방법.
  12. 제 11 항에 있어서,
    상기 결정하는 것은 신호 대 잡음비(signal to noise ratio)에 로지스틱 회귀(logistic regression)를 적용하는 것을 포함하는
    방법.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
    상기 빔 형성기 출력을 결정하는 단계는 상기 수신된 오디오를 단기 푸리에 변환 오디오 프레임으로 변환하고 각각의 마이크로폰을 통한 각각의 프레임의 가중 합(weighted sum)을 취하는 단계를 포함하는
    방법.
  14. 제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
    상기 가중 합의 가중치는 각각의 마이크로폰에 대해 상이한
    방법.
  15. 명령어가 저장되어 있는 머신 판독가능 매체로서,
    상기 명령어는 머신에 의해 동작될 때 상기 머신으로 하여금,
    복수의 마이크로폰으로부터 오디오를 수신하는 것과,
    상기 수신된 오디오로부터 빔 형성기 출력을 결정하는 것과,
    상기 빔 형성기 출력에 제 1 자동 회귀 이동 평균 평활화 필터를 적용하는 것과,
    상기 수신된 오디오로부터 잡음 추정치를 결정하는 것과,
    상기 잡음 추정치에 제 2 자동 회귀 이동 평균 평활화 필터를 적용하는 것과,
    상기 제 1 평활화 필터의 출력 및 상기 제 2 평활화 필터의 출력을 결합하여 감소된 잡음을 갖는 수신된 오디오의 전력 스펙트럼 밀도 출력을 생성하는 것
    을 포함하는 동작을 수행하게 하는
    머신 판독가능 매체.
  16. 제 15 항에 있어서,
    상기 동작은 상기 전력 스펙트럼 밀도 출력에 스피치 인식을 적용하여 상기 수신된 오디오의 진술을 인식하는 것을 더 포함하는
    머신 판독가능 매체.
  17. 제 15 항 또는 제 16 항에 있어서,
    상기 동작은 상기 전력 스펙트럼 밀도 출력을 위상 데이터와 결합하여 감소된 잡음을 갖는 스피치를 포함하는 오디오 신호를 생성하는 것을 더 포함하는
    머신 판독가능 매체.
  18. 제 15 항 내지 제 17 항 중 어느 한 항에 있어서,
    상기 동작은 상기 제 1 평활화 필터를 사용하여 고조파 잡음 모델을 결정하는 것을 더 포함하고,
    상기 결합하는 것은 상기 고조파 잡음 모델을 결합하는 것을 포함하며, 상기 고조파 잡음 모델은 상기 제 1 평활화 필터로부터의 이득의 고조파 음성 성분의 로그 스펙트럼 전력에 대한 추정치를 결정함으로써 결정되는
    머신 판독가능 매체.
  19. 제 15 항 내지 제 18 항 중 어느 한 항에 있어서,
    상기 동작은 상기 제 2 평활화 필터를 사용하여 컴포트 잡음을 결정하는 것을 더 포함하고,
    상기 결합하는 것은 상기 컴포트 잡음을 결합하는 것을 포함하고, 상기 컴포트 잡음은 브레스 잡음의 함수와 함께 상기 제 2 평활화 필터의 출력의 함수를 적용함으로써 결정되는
    머신 판독가능 매체.
  20. 제 19 항에 있어서,
    상기 제 2 평활화 필터의 함수는 가중치 α에 의해 팩터링된 로그 함수이고, 상기 브레스 잡음의 함수는 1-α에 의해 팩터링된 로그 함수인
    머신 판독가능 매체.
  21. 제 15 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 결합하는 것은 상기 제 1 평활화 필터의 출력과 상기 제 2 평활화 필터의 출력 간의 차이를 스케일링하는 분류기에 따라 결합하는 것을 포함하는
    머신 판독가능 매체.
  22. 제 21 항에 있어서,
    상기 제 1 평활화 필터의 출력은 고조파 잡음으로 변환되고, 상기 제 2 평활화 필터의 출력은 컴포트 잡음으로 변환되고, 상기 분류기는 상기 고조파 잡음과 상기 컴포트 잡음 중 어떤 것이 상기 수신된 오디오에서 우세한지를 결정하고 상기 결정에 기초하여 상기 고조파 잡음 및 상기 컴포트 잡음을 상기 수신된 오디오와 결합하는
    머신 판독가능 매체.
  23. 마이크로폰 어레이와,
    복수의 마이크로폰으로부터 오디오를 수신하고, 상기 수신된 오디오로부터 빔 형성기 출력을 결정하고, 상기 빔 형성기 출력에 제 1 자동 회귀 이동 평균 평활화 필터를 적용하고, 상기 수신된 오디오로부터 잡음 추정치를 결정하고, 상기 잡음 추정치에 제 2 자동 회귀 이동 평균 평활화 필터를 적용하고, 상기 제 1 평활화 필터의 출력 및 상기 제 2 평활화 필터의 출력을 결합하여 감소된 잡음을 갖는 수신된 오디오의 전력 스펙트럼 밀도 출력을 생성하는 잡음 필터링 시스템을 포함하는
    장치.
  24. 제 23 항에 있어서,
    상기 전력 스펙트럼 밀도 출력을 수신하고 상기 수신된 오디오의 진술을 인식하는 스피치 인식 시스템을 더 포함하는
    장치.
  25. 제 23 항에 있어서,
    상기 전력 스펙트럼 밀도 출력을 위상 데이터와 결합하여 감소된 잡음을 갖는 스피치를 포함하는 오디오 신호를 생성하는 스피치 변환 시스템과, 상기 오디오 신호를 원격 디바이스로 송신하는 스피치 송신기를 더 포함하는
    장치.
  26. 제 23 항 내지 제 25 항 중 어느 한 항에 있어서,
    상기 잡음 필터링 시스템은 또한 상기 제 2 평활화 필터를 사용하여 컴포트 잡음을 결정하고,
    상기 결합하는 것은 상기 컴포트 잡음을 결합하는 것을 포함하고, 상기 컴포트 잡음은 브레스 잡음의 함수와 함께 상기 제 2 평활화 필터의 출력의 함수를 적용함으로써 결정되는
    장치.
  27. 제 23 항 내지 제 26 항 중 어느 한 항에 있어서,
    상기 빔 형성기 출력을 결정하는 것은 상기 수신된 오디오를 단기 푸리에 변환 오디오 프레임으로 변환하고 각각의 마이크로폰을 통한 각각의 프레임의 가중 합을 취하는 것을 포함하는
    장치.
  28. 제 23 항 내지 제 27 항 중 어느 한 항에 있어서,
    상기 가중 합의 가중치는 각각의 마이크로폰에 대해 상이한
    장치.
  29. 사용자에 의해 착용되도록 구성된 프레임과,
    상기 프레임에 접속된 마이크로폰 어레이와,
    상기 프레임에 접속되어, 복수의 마이크로폰으로부터 오디오를 수신하고, 상기 수신된 오디오로부터 빔 형성기 출력을 결정하고, 상기 빔 형성기 출력에 제 1 자동 회귀 이동 평균 평활화 필터를 적용하고, 상기 수신된 오디오로부터 잡음 추정치를 결정하고, 상기 잡음 추정치에 제 2 자동 회귀 이동 평균 평활화 필터를 적용하고, 상기 제 1 평활화 필터의 출력 및 상기 제 2 평활화 필터의 출력을 결합하여 감소된 잡음을 갖는 수신된 오디오의 전력 스펙트럼 밀도 출력을 생성하는 잡음 필터링 시스템을 포함하는
    웨어러블 디바이스.
  30. 제 29 항에 있어서,
    상기 잡음 필터링 시스템은 또한 상기 제 2 평활화 필터를 사용하여 컴포트 잡음을 결정하고,
    상기 결합하는 것은 상기 컴포트 잡음을 결합하는 것을 포함하고, 상기 컴포트 잡음은 브레스 잡음의 함수와 함께 상기 제 2 평활화 필터의 출력의 함수를 적용함으로써 결정되는
    웨어러블 디바이스.
  31. 제 30 항에 있어서,
    상기 제 2 평활화 필터의 함수는 가중치 α에 의해 팩터링된 로그 함수이고, 상기 브레스 잡음의 함수는 1-α에 의해 팩터링된 로그 함수인
    웨어러블 디바이스.
  32. 제 29 항 내지 제 31 항 중 어느 한 항에 있어서,
    상기 결합하는 것은 상기 제 1 평활화 필터의 출력과 상기 제 2 평활화 필터의 출력 간의 차이를 스케일링하는 분류기에 따라 결합하는 것을 포함하는
    웨어러블 디바이스.
  33. 제 32 항에 있어서,
    상기 제 1 평활화 필터의 출력은 고조파 잡음으로 변환되고, 상기 제 2 평활화 필터의 출력은 컴포트 잡음으로 변환되고, 상기 분류기는 상기 고조파 잡음과 상기 컴포트 잡음 중 어떤 것이 상기 수신된 오디오에서 우세한지를 결정하고, 상기 결정에 기초하여 신호 대 잡음비에 로지스틱 회귀를 적용함으로써 상기 고조파 잡음 및 상기 컴포트 잡음을 상기 수신된 오디오와 결합하는
    웨어러블 디바이스.
KR1020177022950A 2015-03-19 2015-03-19 마이크로폰 어레이 스피치 향상 기법 KR102367660B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2015/000476 WO2016147020A1 (en) 2015-03-19 2015-03-19 Microphone array speech enhancement

Publications (2)

Publication Number Publication Date
KR20170129697A true KR20170129697A (ko) 2017-11-27
KR102367660B1 KR102367660B1 (ko) 2022-02-24

Family

ID=53052897

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177022950A KR102367660B1 (ko) 2015-03-19 2015-03-19 마이크로폰 어레이 스피치 향상 기법

Country Status (3)

Country Link
US (1) US10186277B2 (ko)
KR (1) KR102367660B1 (ko)
WO (1) WO2016147020A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200109072A (ko) * 2019-03-12 2020-09-22 울산과학기술원 음성 구간 검출장치 및 그 방법
KR20220030260A (ko) * 2019-06-28 2022-03-10 스냅 인코포레이티드 헤드-웨어러블 장치를 사용하여 캡처된 신호들의 신호 대 잡음비를 개선하기 위한 동적 빔포밍

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106816156B (zh) * 2017-02-04 2020-06-30 北京时代拓灵科技有限公司 一种音频质量增强的方法及装置
US10375131B2 (en) * 2017-05-19 2019-08-06 Cisco Technology, Inc. Selectively transforming audio streams based on audio energy estimate
EP3422736B1 (en) 2017-06-30 2020-07-29 GN Audio A/S Pop noise reduction in headsets having multiple microphones
WO2020231151A1 (en) * 2019-05-16 2020-11-19 Samsung Electronics Co., Ltd. Electronic device and method of controlling thereof
US11146607B1 (en) * 2019-05-31 2021-10-12 Dialpad, Inc. Smart noise cancellation
US11632635B2 (en) * 2020-04-17 2023-04-18 Oticon A/S Hearing aid comprising a noise reduction system
US11482236B2 (en) * 2020-08-17 2022-10-25 Bose Corporation Audio systems and methods for voice activity detection
US11783809B2 (en) * 2020-10-08 2023-10-10 Qualcomm Incorporated User voice activity detection using dynamic classifier

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055170A1 (en) * 2005-08-11 2009-02-26 Katsumasa Nagahama Sound Source Separation Device, Speech Recognition Device, Mobile Telephone, Sound Source Separation Method, and Program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978159B2 (en) * 1996-06-19 2005-12-20 Board Of Trustees Of The University Of Illinois Binaural signal processing using multiple acoustic sensors and digital filtering

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055170A1 (en) * 2005-08-11 2009-02-26 Katsumasa Nagahama Sound Source Separation Device, Speech Recognition Device, Mobile Telephone, Sound Source Separation Method, and Program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Adam A. Hersbach et al., ‘A beamformer post-filter for cochlear implant noise reduction’, The journal of ASA, Vol.133, pp.2412~2420, April 2013.* *
Xiong Xiao et al., ‘Normalization of the speech modulation spectra for robust speech recognition’, IEEE Trans. on ASLP, Vol.16, No.8, pp.1662~1674, November 2008.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200109072A (ko) * 2019-03-12 2020-09-22 울산과학기술원 음성 구간 검출장치 및 그 방법
KR20220030260A (ko) * 2019-06-28 2022-03-10 스냅 인코포레이티드 헤드-웨어러블 장치를 사용하여 캡처된 신호들의 신호 대 잡음비를 개선하기 위한 동적 빔포밍

Also Published As

Publication number Publication date
US10186277B2 (en) 2019-01-22
KR102367660B1 (ko) 2022-02-24
WO2016147020A1 (en) 2016-09-22
US20180012616A1 (en) 2018-01-11

Similar Documents

Publication Publication Date Title
KR102367660B1 (ko) 마이크로폰 어레이 스피치 향상 기법
CN110992974B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
US10186278B2 (en) Microphone array noise suppression using noise field isotropy estimation
Gannot et al. A consolidated perspective on multimicrophone speech enhancement and source separation
CN102763160B (zh) 用于稳健噪声降低的麦克风阵列子组选择
CN111370014B (zh) 多流目标-语音检测和信道融合的系统和方法
CN106663446B (zh) 知晓用户环境的声学降噪
US20160284349A1 (en) Method and system of environment sensitive automatic speech recognition
US10230346B2 (en) Acoustic voice activity detection
US9620116B2 (en) Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
US8160273B2 (en) Systems, methods, and apparatus for signal separation using data driven techniques
US10741192B2 (en) Split-domain speech signal enhancement
US11435429B2 (en) Method and system of acoustic angle of arrival detection
Gao et al. Echowhisper: Exploring an acoustic-based silent speech interface for smartphone users
US9097795B2 (en) Proximity detecting apparatus and method based on audio signals
CN110088835B (zh) 使用相似性测度的盲源分离
US10602270B1 (en) Similarity measure assisted adaptation control
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
He et al. Towards Bone-Conducted Vibration Speech Enhancement on Head-Mounted Wearables
US11915718B2 (en) Position detection method, apparatus, electronic device and computer readable storage medium
CN115335900A (zh) 使用自适应网络来对全景声系数进行变换
WO2020066542A1 (ja) 音響オブジェクト抽出装置及び音響オブジェクト抽出方法
Sapozhnykov Sub-band detector for wind-induced noise
CN113808606B (zh) 语音信号处理方法和装置
US11997474B2 (en) Spatial audio array processing system and method

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant