KR102659035B1 - 풍절음 감쇠를 위한 방법 및 장치 - Google Patents

풍절음 감쇠를 위한 방법 및 장치 Download PDF

Info

Publication number
KR102659035B1
KR102659035B1 KR1020227028487A KR20227028487A KR102659035B1 KR 102659035 B1 KR102659035 B1 KR 102659035B1 KR 1020227028487 A KR1020227028487 A KR 1020227028487A KR 20227028487 A KR20227028487 A KR 20227028487A KR 102659035 B1 KR102659035 B1 KR 102659035B1
Authority
KR
South Korea
Prior art keywords
wind noise
spectrum
audio signal
microphone
time
Prior art date
Application number
KR1020227028487A
Other languages
English (en)
Other versions
KR20220130744A (ko
Inventor
지엔밍 송
Original Assignee
컨티넨탈 오토모티브 시스템즈 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 컨티넨탈 오토모티브 시스템즈 인코포레이티드 filed Critical 컨티넨탈 오토모티브 시스템즈 인코포레이티드
Publication of KR20220130744A publication Critical patent/KR20220130744A/ko
Application granted granted Critical
Publication of KR102659035B1 publication Critical patent/KR102659035B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/07Mechanical or electrical reduction of wind noise generated by wind passing a microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Optical Radar Systems And Details Thereof (AREA)

Abstract

다중 마이크로폰 어레이에서 캡처된 오디오 신호로부터 풍절음을 검출하고 감소시키는 방법이 설명된다. 양태에서, 풍절음 검출기는 별개의 주파수 영역에서 다수의 마이크로폰의 시간 정렬된 신호 사이의 위상차의 통계로부터 도출되는 발성음 존재 확률과 풍절음 존재 확률로부터 구성된다. 풍절음이 검출되면 위상차와 그 통계의 함수이기도 한 주파수 도메인의 이득에 의해 감소된다.

Description

풍절음 감쇠를 위한 방법 및 장치
본 출원은 마이크로폰에서 검출된 신호에서 바람 소음, 즉, 풍절음(wind noise)을 제거하거나 감소시키는 것에 관한 것이다.
풍절음(WN)은 보청기 또는 자동차의 핸즈프리 통신 시스템과 같은 많은 환경에서 청각 간섭의 주요 원인이다. 풍절음은 난류가 마이크로폰 멤브레인을 때려 주로 상대적으로 낮은 주파수 영역에 집중된 강한 가청 신호를 생성하는 것에 의해 발생한다. 이러한 오디오 디바이스 또는 음성 통신 시스템이 소음 조건 하에서 잘 작동하기 위해서는 신뢰성 있고 효과적인 풍절음 감소(WNR) 능력이 중요하다.
그러나, 기존의 소음 억제 방법은 풍절음을 적절히 제거하지 못한다. 이는 주로 시간 또는 주파수 도메인에서 에너지 또는 SNR 분석을 통해 풍절음과 발성음(speech)을 구별하기 어렵기 때문이다.
본 발명의 보다 완전한 이해를 위해, 다음의 상세한 설명 및 첨부 도면을 참조한다.
도 1은 본 발명의 다양한 실시형태에 따른 풍절음 감소를 위한 시스템의 다이어그램을 포함한다.
도 2는 본 발명의 다양한 실시형태에 따른 풍절음 감소를 위한 접근법의 흐름도를 포함한다.
도 3은 본 발명의 다양한 실시형태에 따라 본 명세서에 설명된 접근법의 동작 양태를 도시하는 다이어그램을 포함한다.
도 4는 본 발명의 다양한 실시형태에 따라 본 명세서에 설명된 접근법의 동작 양태를 도시하는 다이어그램을 포함한다.
도 5는 본 발명의 다양한 실시형태에 따라 본 명세서에 설명된 접근법의 동작 양태를 도시하는 다이어그램을 포함한다.
도 6은 본 발명의 다양한 실시형태에 따라 본 명세서에 설명된 접근법의 동작 양태를 도시하는 다이어그램을 포함한다.
도 7은 본 발명의 다양한 실시형태에 따라 본 명세서에 설명된 접근법의 동작 양태를 도시하는 다이어그램을 포함한다.
도 8은 본 발명의 다양한 실시형태에 따라 본 명세서에 설명된 접근법의 동작 양태를 도시하는 다이어그램을 포함한다.
당업자라면 도면의 요소가 단순성과 명확성을 위해 도시되었음을 이해할 수 있을 것이다. 나아가 특정 조치 및/또는 단계는 특정 발생 순서로 설명되거나 묘사될 수 있지만, 당업자라면 순서에 대한 이러한 특정성이 실제로 요구되지 않는다는 것을 이해할 수 있을 것으로 더 이해된다. 또한 본 명세서에 사용된 용어와 표현은 특정 의미가 본 명세서에 달리 제시된 경우를 제외하고는 해당하는 각각의 조사 및 연구 영역과 관련하여 이러한 용어와 표현에 부여된 일반적인 의미를 갖는 것으로 이해된다.
상세 설명
본 명세서에 설명된 접근법은 수신된 신호에서 풍절음을 결정하기 위해 둘 이상의 마이크로폰에서 공간 선택성 및 신호 상관 특성을 사용한다. 서로 다른 마이크로폰 위치에 존재하는 신호 상관 관계의 세 가지 특성(발성음 신호와 상관 관계가 없는 풍절음 신호, 상관 관계가 거의 없는 다른 위치의 풍절음, 및 상관 관계가 있는 소형 마이크로폰 어레이의 모든 마이크로폰에서의 발성음)을 사용하여, 이러한 접근법은 임의의 주어진 시간에 마이크로폰 입력을 네 가지 카테고리(풍절음, 발성음이 혼합된 풍절음, 발성음과 버피팅(buffeting) 이외의 소음, 예를 들어, 기존의 정지 소음) 중 하나로 분류하는 신뢰성 있는 풍절음 검출기를 신속하게 구성한다.
양태에서 그리고 풍절음 검출 및/또는 분류 결과에 기초하여, 본 발명은 또한 신호, 예를 들어, 2개의 들어오는 마이크로폰 입력에 대한 효과적인 풍절음 감쇠기를 생성하고 적용한다. 양태에서, 감쇠 이득 인자는 가간섭성(coherence), 2개의 (또는 다수의) 마이크로폰 입력의 상호 전력 스펙트럼의 위상뿐만 아니라 풍절음 검출기에서 추정된 발성음과 풍절음의 확률로부터 도출된다. 또한 2개의 마이크로폰 입력의 최소 통계로부터 생성된 컴포트 소음(comfort noise) 전력 스펙트럼이 생성되고 이는 소음 게이팅 효과를 제거하기 위해 풍절음 감쇠된 오디오 신호에 적용될 수 있다. 본 명세서에 제공된 접근법의 적용은 발성음 품질을 보존하면서 풍절음을 신속하고 상당한 양으로 제거한다.
양태에서, 본 접근법은 2개의 (또는 그 이상의) 마이크로폰 기반 풍절음/발성음 검출 및 풍절음 억제를 위한 다중 접근법 및 알고리즘을 구현한다. 다양한 단계가 수행된다.
일 접근법에서, 전처리가 먼저 수행된다. 양태에서, 음성 신호는 자동차의 두 마이크로폰에서 캡처되고, 각각의 마이크로폰 신호는 위상 정렬되어야 한다. 위상 정렬은 음성 소스(voice source)(예를 들어, 운전자 또는 동승자)으로부터 유래된 두 신호 사이의 일정한 시간 지연과, 두 신호의 상호 상관 관계에 기초하여 런타임(run-time)에 계산된 지연을 결정하는 기하학적 접근법의 조합을 통해 수행된다. 결정 논리(decision logic)는 기하학적 기반의 정적 지연 또는 동적으로 계산된 런타임 지연이 2개의 신호 위상 정렬에 사용되는지 여부를 결정하는 데 사용된다. 이전 접근법과 달리, 이 접근법은 자동차의 부정확한 기하학적 구조의 측정 또는 발성자(운전자/동승자) 위치에 대해 신뢰성 있고 보다 관대하다.
다음으로, 풍절음과 발성음을 측정하기 위한 메트릭이 생성된다. 발성음 존재 확률과 풍절음 존재 확률이라는 두 가지 메트릭이 생성된다. 양태에서, 이들 메트릭은 값 범위가 0 내지 1이기 때문에 확률이다.
신호 분류(예를 들어, 발성음, 소음 등)를 위해 에너지 또는 SNR(신호 대 소음비)을 이용하는 이전 접근법과 달리, 이러한 확률은 발성음/풍절음 분류에 사용되며, 다수의 주파수 영역의 위상차 통계로부터 완전히 도출된다. 본 명세서에 설명된 접근법에서, 특정 주파수 영역에 걸쳐 확산되는 위상차의 정규화된 분산은 발성음을 풍절음과 구별하기 위한 핵심 파라미터로 사용된다. 이러한 정규화된 분산은 발성음 존재 확률과 풍절음 존재 확률을 구성하는 데 추가로 사용된다. 이 프로세스는 런타임에 각각의 시간 구간(예를 들어, 10㎳ 내지 20㎳) 동안 발생한다.
그런 다음, 발성음과 풍절음이 검출 및/또는 분류된다. 본 명세서에 사용되는 분류기/검출기는 발성음 단독, 풍절음 단독 및 발성음/풍절음 혼합된 데이터를 포함하는 오디오 샘플을 사용하여 미리 훈련된(또는 오프라인 훈련된) 결정 논리(예를 들어, 하드웨어 또는 소프트웨어의 조합으로 구현됨)를 활용한다. 각각의 짧은 시간 구간(예를 들어, 10㎳ 내지 20㎳)에서, 두 가지 메트릭, 즉, 발성음 확률과 풍절음 확률이 둘 다 계산되고, 이는 다른 주파수 영역에서 신호 특성을 특성화한다. 이 두 메트릭은 개별적으로 가중치가 부여된 다음, 선형으로 결합되어, 분류에 사용되는 단일 메트릭을 형성한다. 단일 메트릭은 발성음 임계값, 풍절음 임계값, 발성음과 풍절음이 동시에 발생하는 임계값을 나타내는 3개의 임계값과 비교된다. 예에서, 이러한 임계값은 오프라인 분류기 훈련으로부터 결정된다.
양태에서 그리고 프레임마다 발성음/풍절음 분류의 신뢰성을 높이고 산발적인 분류 에러(풍절음이 억제된 후 누출되는 성가신 풍절음이 이어지는 것)를 방지하기 위해, 본 명세서에 설명된 접근법은 프레임(t)의 각각의 분류 결과(ct)가 (N-1)개의 이전 프레임의 (N-1)개의 분류 결과와 함께 길이(N)(예를 들어, N =10)의 순환 버퍼로 푸시된다는 점에서 다수결 방식을 사용한다. 현재 프레임(t)에 대한 신호 클래스 결정은 다수결에 의해 이루어지며, 즉, 순환 버퍼에서 가장 많이 발생하는 최종 분류 결과가 선택된다.
다음으로, 이득 함수가 도출되어 적용된다. (신호 대 소음비(SNR) 정보만을 활용하는) 이득 함수 구성을 위한 이전의 접근법과 달리, 본 명세서에 설명된 접근법에서 사용되는 풍절음 이득 함수는 풍절음/발성음 검출에서 중요한 역할을 하는 위상차의 정규화된 분산과 SNR의 조합이다. SNR과 위상 정보의 조합은 스펙트럼과 공간 정보를 모두 제공하며, 풍절음 감쇠/발성음 보존을 위한 이득 함수만이 도출된 기존 SNR보다 훨씬 더 잘 작동한다.
이들 실시형태의 다수에서, 시스템은 제1 마이크로폰, 제2 마이크로폰, 및 제어 회로를 포함한다. 제1 마이크로폰은 제1 오디오 신호를 획득하고, 제2 마이크로폰은 제2 오디오 신호를 획득한다. 제1 마이크로폰은 제2 마이크로폰과 공간적으로 분리되어 있다.
제어 회로는 제1 마이크로폰과 제2 마이크로폰에 결합되고, 제1 마이크로폰에 도달하는 제1 오디오 신호와 제2 마이크로폰에 도달하는 제2 오디오 신호를 시간 세그먼트로 연속적이고 동시에 분할하도록 구성된다. 각각의 시간 세그먼트에 대해, 제1 마이크로폰에 도달하는 제1 오디오 신호는 제1 프레임 오디오 신호로 형성되고, 제2 마이크로폰에 도달하는 제2 오디오 신호는 제2 프레임 오디오 신호로 형성된다.
제어 회로는 표적 음성 소스에 대해 제1 프레임 오디오 신호와 제2 프레임 오디오 신호를 시간적으로 정렬하도록 더 구성된다. 제1 프레임 오디오 신호와 제2 프레임 오디오 신호의 시간 정렬은 런타임에 2개의 마이크로폰에서 수신된 신호 간의 동적 상호 상관 관계를 평가하는 것에 의해 조정된 정적 기하학적 기반 측정에 기초한다.
제어 회로는 시간 정렬된 제1 프레임 오디오 신호와 제2 프레임 오디오 신호 각각에 대해 푸리에 변환을 수행하여 제1 스펙트럼과 제2 스펙트럼을 생성하도록 더 구성된다. 제1 스펙트럼과 제2 스펙트럼 각각은 각각의 시간 세그먼트에서 두 개의 시간 정렬된 마이크로폰 신호 중 하나의 마이크로폰 신호의 스펙트럼을 나타낸다.
제어 회로는 제1 스펙트럼과 제2 스펙트럼의 상호 상관 관계에 따라 복수의 주파수 각각에서 제1 스펙트럼과 제2 스펙트럼 사이의 위상차를 계산하도록 더 구성된다. 제어 회로는 각각의 시간 세그먼트에 대해 정해진 주파수 범위에서 위상차의 정규화된 분산을 결정하도록 더 구성된다. 주파수 범위는 마이크로폰의 기하학적 구조에 기초하여 계산되어서 위상차의 정규화된 분산을 계산할 때 에러 마진이 최소화된다.
제어 회로는 2개의 시간 정렬된 마이크로폰 신호의 스펙트럼 위상차의 정규화된 분산에 기초하여 시간 세그먼트 각각에서 발성음 존재 확률과 풍절음 존재 확률을 공식화하고 평가하도록 더 구성된다. 그런 다음 제어 회로는 각각의 시간 세그먼트에서 각각의 시간 세그먼트에 대한 카테고리를 결정하도록 구성되고, 여기서 카테고리는 발성음 단독, 풍절음 단독, 풍절음이 혼합된 발성음, 또는 알 수 없음 중 하나이며, 여기서 결정 논리는 카테고리를 결정하는 데 사용되고, 결정 논리는 발성음 존재 확률과 풍절음 존재 확률의 개별 값과 결합 값을 포함하는 제1 함수에 기초한다. 제1 함수의 값은 복수의 임계값과 비교되고, 풍절음 검출 결정을 한다. 결정된 카테고리에 기초하여, 바람 감쇠 조치가 선택적으로 트리거된다.
조치가 풍절음 감쇠를 수행하는 것인 경우 제어 회로는 이득 또는 감쇠 함수를 계산하도록 구성되고, 이 함수는 미리 결정된 주파수 범위에서 복수의 주파수 각각에서 위상차의 정규화된 분산과 개별 위상차에 기초한다. 풍절음 감쇠는 제1 스펙트럼과 제2 스펙트럼의 각각의 스펙트럼의 크기에 이득 또는 감쇠 함수를 곱하여 풍절음 제거된 제1 스펙트럼과 풍절음 제거된 제2 스펙트럼을 생성함으로써 주파수 도메인에서 실행된다.
그런 다음 제어 회로는 풍절음 제거된 제1 스펙트럼과 풍절음 제거된 제2 스펙트럼을 결합시켜 결합 스펙트럼을 생성하고 결합된 스펙트럼의 역 FFT를 취함으로써 풍절음 제거된 시간 도메인 신호를 구성하도록 구성된다.
제어 회로는 잠재적으로 다른 엔티티와 함께 시간 도메인 신호를 사용하여 조치를 취할 수 있고, 이 조치는 시간 도메인 신호를 전자 디바이스로 전송하는 것, 시간 도메인 신호를 사용하여 전자 장비를 제어하는 것, 또는 시간 도메인 신호를 사용하여 전자 장비와 상호 작용하는 것 중 하나 이상이다.
양태에서, 시간 세그먼트는 10 밀리초 내지 20 밀리초의 길이이다. 다른 예도 가능하다.
예에서, 표적 음성 소스는 차량 좌석에 앉아 있는 사람의 음성을 포함한다. 음성 소스의 다른 예도 가능하다.
다른 예에서, 발성음 존재 확률과 풍절음 존재 확률은 각각 0 내지 1의 값을 갖는다.
다른 양태에서, 카테고리의 결정은 현재 결정 및 이전 연속 시간 세그먼트의 결정 시퀀스를 고려하는 다수결 방식을 추가로 활용한다. 다른 예에서, 발성음 존재 확률과 풍절음 존재 확률은 각각의 시간 세그먼트에서 발성음 존재 또는 풍절음 존재의 정도를 평가하는 데 사용되는 메트릭을 제공한다.
또 다른 양태에서, 풍절음 감쇠 조치는 결정된 결정이 풍절음 단독이거나 발성음이 혼합된 풍절음인 경우 트리거된다. 또 다른 예에서, 임계값의 값은 발성음 및 풍절음 샘플의 양을 사용하여 오프라인 알고리즘 훈련 단계에서 오프라인으로 추정된다.
예에서, 시스템은 차량에 적어도 부분적으로 배치된다. 다른 위치도 가능하다. 일부 예에서, 사운드 소스(sound source)는 이동하는 반면, 다른 예에서 소스는 정지하거나 거의 정지해 있다.
이들 실시형태의 다른 것에서, 마이크로폰 신호에서 풍절음을 감소시키기 위한 접근법이 제공된다.
제어 회로는 제1 마이크로폰에 도달하는 제1 오디오 신호와 제2 마이크로폰에 도달하는 제2 오디오 신호를 시간 세그먼트로 연속적이고 동시에 세그먼트화하여, 각각의 시간 세그먼트에 대해 제1 마이크로폰에 도달하는 제1 오디오 신호는 제1 프레임 오디오 신호로 형성되고, 제2 마이크로폰에 도달하는 제2 오디오 신호는 제2 프레임 오디오 신호로 형성되도록 한다.
제어 회로는 표적 음성 소스에 대해 제1 프레임 오디오 신호와 제2 프레임 오디오 신호를 시간적으로 정렬한다. 제1 프레임 오디오 신호와 제2 프레임 오디오 신호의 시간 정렬은 런타임에 두 마이크로폰에서 수신된 신호 간의 동적 상호 상관 관계를 평가하는 것에 의해 조정된 정적 기하학적 기반 측정에 기초한다.
제어 회로는 시간 정렬된 제1 프레임 오디오 신호와 제2 프레임 오디오 신호 각각에 대해 푸리에 변환을 수행하여 제1 스펙트럼과 제2 스펙트럼을 생성한다. 제1 스펙트럼과 제2 스펙트럼 각각은 각각의 시간 세그먼트에서 두 개의 시간 정렬된 마이크로폰 신호 중 하나의 마이크로폰 신호의 스펙트럼을 나타낸다.
제어 회로는 제1 스펙트럼과 제2 스펙트럼의 상호 상관 관계에 따라 복수의 주파수 각각에서 제1 스펙트럼과 제2 스펙트럼 사이의 위상차를 계산한다.
제어 회로는 각각의 시간 세그먼트에 대해 정해진 주파수 범위에서 위상차의 정규화된 분산을 결정한다. 주파수 범위는 마이크로폰의 기하학적 구조에 기초하여 계산되어, 위상차의 정규화된 분산을 계산할 때 에러 마진이 최소화된다.
제어 회로는 두 개의 시간 정렬된 마이크로폰 신호의 스펙트럼 위상차의 정규화된 분산에 기초하여 각각의 시간 세그먼트에서 발성음 존재 확률과 풍절음 존재 확률을 공식화하고 평가한다. 제어 회로는 각 시간 세그먼트에서 각 시간 세그먼트에 대한 카테고리를 결정하고, 카테고리는 발성음 단독, 풍절음 단독, 풍절음이 혼합된 발성음 또는 알 수 없음 중 하나이다. 결정 논리는 카테고리를 결정하는 데 사용되며, 결정 논리는 발성음 존재 확률과 풍절음 존재 확률의 개별 값과 결합 값을 포함하는 제1 함수에 기초한다. 제1 함수의 값은 복수의 임계값과 비교되고, 풍절음 검출 결정을 한다. 결정된 카테고리에 기초하여, 바람 감쇠 조치가 선택적으로 트리거된다.
조치가 풍절음 감쇠를 수행하는 것인 경우 제어 회로는 이득 또는 감쇠 함수를 계산한다. 이 함수는 미리 결정된 주파수 범위에서 복수의 주파수 각각에서 위상차 및 개별 위상차의 정규화된 분산에 기초한다. 풍절음 감쇠는 제1 스펙트럼과 제2 스펙트럼의 각 스펙트럼의 크기에 이득 또는 감쇠 함수를 곱하여 풍절음 제거된 제1 스펙트럼과 풍절음 제거된 제2 스펙트럼을 생성함으로써 주파수 도메인에서 실행된다.
제어 회로는 풍절음 제거된 제1 스펙트럼과 풍절음 제거된 제2 스펙트럼을 결합시켜 결합 스펙트럼을 생성한다. 제어 회로는 결합된 스펙트럼의 역 FFT를 취함으로써 풍절음 제거된 시간 도메인 신호를 구성한다.
조치는 시간 도메인 신호를 사용하여 취해진다. 조치는 시간 도메인 신호를 전자 디바이스로 전송하는 것, 시간 도메인 신호를 사용하여 전자 장비를 제어하는 것, 또는 시간 도메인 신호를 사용하여 전자 장비와 상호 작용하는 것 중 하나 이상이다. 조치의 다른 예도 가능하다.
이제 도 1을 참조하여, 풍절음을 감쇠시키는 시스템의 일례가 설명된다. 차량(100)은 제1 마이크로폰(102), 제2 마이크로폰(104), 운전자(101) 및 승객(103)을 포함한다. 마이크로폰(101 및 104)은 제어 회로(106)에 결합될 수 있다.
마이크로폰(102 및 104)은 양태에서 인간의 발성음을 검출하는 임의의 유형의 마이크로폰일 수 있다. 일례에서, 마이크로폰(102 및 104)은, 시간 도메인에서 인간의 음성 신호를 감지하고, 검출된 음성을 나타내는 아날로그 신호를 생성하는 종래의 아날로그 마이크로폰일 수 있다. 차량(100)은 자동차나 트럭과 같이 사람을 운송하는 임의의 유형의 차량이다. 다른 예도 가능하다. 두 개의 마이크로폰이 도시되어 있지만 이러한 접근법은 임의의 수의 마이크로폰에 적용 가능한 것으로 이해된다.
본 명세서에 사용된 "제어 회로"라는 용어는 일반적으로 다른 구성요소 및 디바이스의 동작을 제어하도록 설계된 임의의 마이크로제어기, 컴퓨터 또는 프로세서 기반 디바이스, 예를 들어, 프로세서, 메모리 및 프로그래밍 가능한 입력/출력 주변 장치가 있는 디바이스를 폭넓게 의미하는 것으로 이해된다. 나아가, 메모리, 다른 구성요소 및 디바이스와의 통신을 위한 트랜시버 등을 포함하는 공통 부속 액세서리 디바이스를 포함하는 것으로 이해된다. 이러한 아키텍처 옵션은 이 기술 분야에 잘 알려져 있고 이해되어 있으며 본 명세서에 더 이상의 설명이 필요하지 않다. 제어 회로(106)는 (예를 들어, 당업자라면 잘 이해하는 바와 같이 메모리에 저장된 대응하는 프로그래밍을 사용함으로써) 본 명세서에 설명된 단계, 조치 및/또는 기능 중 하나 이상을 수행하도록 구성될 수 있다.
제어 회로(106)는 차량(100)의 다양한 위치에 전개될 수 있다. 일례에서, 제어 회로(106)는 (예를 들어, 차량(100)에서 다양한 기능을 제어하거나 모니터링하는) 차량 제어 유닛에 전개될 수 있다. 일반적으로 말하면, 제어 회로(106)는 수신된 마이크로폰 신호(아래에 설명됨)에 풍절음이 존재하는지 여부를 결정한 다음, 이러한 신호로부터 풍절음을 선택적으로 제거한다. 풍절음이 제거된 후, 이제 감쇠된 마이크로폰 신호는 다른 목적을 위해 (예를 들어, 차량(100)에서 조치를 수행하기 위해) 사용될 수 있다.
마이크로폰(102 및 104)은 유선 연결 또는 무선 연결에 의해 제어 회로(106)에 결합될 수 있다. 마이크로폰(102 및 104)은 또한 사용자의 요구 및/또는 시스템 요구 조건에 따라 차량(100)의 다양한 위치에 전개될 수 있다.
도 1의 시스템의 동작의 일례에서, 제1 마이크로폰(102)은 제1 오디오 신호를 획득하고, 제2 마이크로폰(104)은 제2 오디오 신호를 획득한다. 제1 마이크로폰(102)은 제2 마이크로폰(104)으로부터 공간적으로 분리되어 있다.
제어 회로(106)는 제1 마이크로폰(102)에 도달하는 제1 오디오 신호와 제2 마이크로폰(104)에 도달하는 제2 오디오 신호를 시간 세그먼트로 연속적이고 동시에 세그먼트화하여, 각각의 시간 세그먼트에 대해 제1 마이크로폰(102)에 도달하는 제1 오디오 신호는 제1 프레임 오디오 신호로 형성되고, 제2 마이크로폰(104)에 도달하는 제2 오디오 신호는 제2 프레임 오디오 신호로 형성되도록 구성된다.
제어 회로(106)는 표적 음성 소스에 대해 제1 프레임 오디오 신호와 제2 프레임 오디오 신호를 시간적으로 정렬하도록 더 구성된다. 제1 프레임 오디오 신호와 제2 프레임 오디오 신호의 시간 정렬은 런타임에 두 마이크로폰에서 수신된 신호 간의 동적 상호 상관 관계를 평가하는 것에 의해 조정된 정적 기하학적 기반 측정에 기초한다.
제어 회로(106)는 시간 정렬된 제1 프레임 오디오 신호와 제2 프레임 오디오 신호 각각에 대해 푸리에 변환을 수행하여 제1 스펙트럼과 제2 스펙트럼을 생성하도록 더 구성된다. 제1 스펙트럼과 제2 스펙트럼 각각은 각각의 시간 세그먼트에서 두 개의 시간 정렬된 마이크로폰 신호 중 하나의 마이크로폰 신호의 주파수 스펙트럼을 나타낸다.
제어 회로(106)는 제1 스펙트럼과 제2 스펙트럼의 상호 상관 관계에 따라 복수의 주파수 각각에서 제1 스펙트럼과 제2 스펙트럼 사이의 위상차를 계산하도록 더 구성된다. 제어 회로(106)는 각각의 시간 세그먼트에 대해 정해진 주파수 범위에서 위상차의 정규화된 분산을 결정하도록 더 구성된다. 주파수 범위는 마이크로폰의 기하학적 구조에 기초하여 계산되어, 위상차의 정규화된 분산을 계산할 때 에러 마진이 최소화된다.
제어 회로(106)는 두 시간 정렬된 마이크로폰 신호의 스펙트럼 위상차의 정규화된 분산에 기초하여, 각각의 시간 세그먼트에서 발성음 존재 확률과 풍절음 존재 확률을 공식화하고 평가하도록 더 구성된다. 그런 다음 제어 회로(106)는 각각의 시간 세그먼트에서 각각의 시간 세그먼트에 대한 카테고리를 결정하도록 더 구성되고, 여기서 카테고리는 발성음 단독, 풍절음 단독, 풍절음이 혼합된 발성음, 또는 알 수 없음 중 하나이며, 여기서 결정 논리는 카테고리를 결정하는 데 사용되고, 결정 논리는 발성음 존재 확률과 풍절음 존재 확률의 개별 값과 결합 값을 포함하는 제1 함수에 기초하고, 여기서 제1 함수의 값은 복수의 임계값과 비교되고, 풍절음 검출 결정을 한다. 결정된 카테고리에 기초하여, 바람 감쇠 조치가 선택적으로 트리거된다.
조치가 풍절음 감쇠를 수행하는 것인 경우, 제어 회로(106)는 이득 또는 감쇠 함수를 계산하도록 구성되고, 이 함수는 미리 결정된 주파수 범위의 복수의 주파수 각각에서 위상차와 개별 위상차의 정규화된 분산에 기초한다. 풍절음 감쇠는 제1 스펙트럼과 제2 스펙트럼의 각 스펙트럼의 크기에 이득 또는 감쇠 함수를 곱하여 풍절음 제거된 제1 스펙트럼과 풍절음 제거된 제2 스펙트럼을 생성함으로써 주파수 도메인에서 실행된다.
그런 다음 제어 회로(106)는 풍절음 제거된 제1 스펙트럼과 풍절음 제거된 제2 스펙트럼을 결합시켜 결합된 스펙트럼을 생성하고 결합된 스펙트럼의 역 FFT를 취함으로써 풍절음 제거된 시간 도메인 신호를 구성하도록 구성된다.
제어 회로(106)는 그 자체로 또는 다른 엔티티와 함께 시간 도메인 신호를 사용하여 조치를 취할 수 있으며, 이 조치는 (송신기(110)를 사용하여) 시간 도메인 신호를 전자 디바이스(예를 들어, 스마트폰, 컴퓨터, 랩탑 또는 태블릿 등의 전자 디바이스)에 전송하는 것, 최종 시간 도메인 신호를 사용하여 전자 장비(예를 들어, 오디오 시스템, 조향 시스템 또는 제동 시스템과 같은 차량(100)의 전자 장비)를 제어하는 것, 또는 시간 도메인 신호를 사용하여 전자 장비와 상호 작용하는 것 중 하나 이상이다. 일례에서, 사용자는 라디오가 활성화되도록 구두로 지시한 다음, 라디오의 볼륨을 제어할 수 있다. 다른 예도 가능하다.
양태에서, 신호의 시간 세그먼트는 10 밀리초 내지 20 밀리초의 길이이다. 다른 예도 가능하다.
예에서, 표적 음성 소스는 차량의 좌석에 앉아 있는 운전자(101) 또는 승객(105)의 음성을 포함한다. 음성 소스의 다른 예도 가능하다.
다른 예에서, 발성음 존재 확률과 풍절음 존재 확률은 각각 0 내지 1의 값을 갖는다.
다른 양태에서, 카테고리의 결정은 현재 결정과 이전의 연속적인 시간 세그먼트의 결정 시퀀스를 고려하는 다수결 방식을 추가로 활용한다. 다른 예에서, 발성음 존재 확률과 풍절음 존재 확률은 각각의 시간 세그먼트에서 발성음 존재 또는 풍절음 존재의 정도를 평가하는 데 사용되는 메트릭을 제공한다.
또 다른 양태에서, 풍절음 감쇠 조치는 결정된 결정이 풍절음 단독이거나 발성음이 혼합된 풍절음인 경우 트리거된다. 또 다른 예에서, 임계값의 값은 발성음과 풍절음 샘플의 양을 사용하여 오프라인 알고리즘 훈련 단계에서 오프라인으로 추정된다. 예를 들어, 이는 시스템 초기화 시 공장에서 결정될 수 있다.
일부 예에서, 사운드 소스(운전자(101)와 승객(103))는 이동하는 반면, 다른 예에서 소스는 정지하거나 거의 정지되어 있다.
이제 도 2를 참조하여, 풍절음을 검출하고 감쇠하기 위한 접근 방식의 일례가 설명된다.
단계(202)에서, 스펙트럼 분석이 수행된다. 일례에서, 이중 마이크로폰에서 오는 각각의 10㎳의 입력 신호(x1(n), x2(n))는 중첩 및 추가 프로세스를 통과하여 이전 프레임과 20㎳ 프레임을 공식화하고, 처리할 "원시" 데이터의 표현으로 스펙트럼 등가(x1(f), x2(f))를 생성한다.
단계(204)에서, 마이크로폰 입력 조향이 수행된다. 알고리즘은 두 개의 마이크로폰 입력(x1(f), x2(f))을 위상 정렬하도록 유지한다. 이를 위해, 마이크로폰의 기하학적 구조로부터 도출된 조향 벡터는 시스템 초기화의 일부로 계산된다. 양태에서, 기하학적 기반 조향 벡터 형성은 고정 빔 형성기(FBF)에서 사용되는 것과 유사하지만 더 간단하다.
마이크로폰의 기하학적 구조와 관련하여, (일반적으로 센터 콘솔 오버헤드의) 차량 내부에 장착된 두 개의 마이크로폰 어레이는 동일선 상에 있고 차량의 중심 축에 대해 수직이다. 마이크로폰 어레이의 기하학적 구조는 도 1에 도시된 바와 같이 운전자와 동승자의 입과 마이크로폰 간의 거리에 의해 정해진다. DM1은 운전자(101)로부터 마이크로폰(1)(102)까지의 거리이다. PM2는 동승자 또는 승객(103)으로부터 마이크로폰(2)(104)까지의 거리이다. 실제로, 또한 기하학적 구조는 운전자(101)와 앞좌석 승객(103)이 차량의 중심 축에 대해 대칭인 것, 즉 PM1 = DM2 및 PM2 = DM1 등인 것으로 가정된다.
차량의 음성 소스가 운전자(101)로부터 오고 2개의 마이크로폰(102 및 104)으로의 신호 전파를 위한 다중 경로의 효과는 무시 가능하다고 가정하면 음성 신호를 위상 정렬하는 조향 벡터(sv1)는 다음과 같이 결정된다:
여기서 τ1, τ2는 마이크로폰(1 및 2)에 도달하는 신호 전파 지연(초)이다. a1, a2는 개별 정규화된 경로 손실과 관련된 두 가지 인자이다.
조향 벡터는 가장 먼 마이크로폰에 대한 신호 전파 지연이 0이라고 가정하면 단순화되고, 이 경우 조향 벡터는 다음과 같다:
여기서 τ는 더 가까운 마이크로폰에 도달하는 음성의 상대적 지연(초 단위의 음수)이다.
이중 마이크로폰 어레이에 대한 운전자(101)와 승객(103)의 (입) 위치는 대칭인 것으로 가정되고; 공식화된 동일한 조향 벡터가 운전자(101)와 승객(103) 모두에 적용 가능하다.
차량(100)의 음성 소스가 운전자로부터 오고 2개의 마이크로폰(102 및 104)으로의 신호 전파를 위한 다중 경로의 영향은 무시 가능하다고 가정하면 음성 신호를 위상 정렬하는 조향 벡터(sv1)는 다음과 같이 결정된다:
여기서 τ1, τ2는 마이크로폰(1 및 2)에 도달하는 신호 전파 지연(초)이다. a1, a2는 개별 정규화된 경로 손실과 관련된 두 가지 인자이다.
조향 벡터는 가장 먼 마이크로폰에 대한 신호 전파 지연이 0이라고 가정하면 단순화되고, 이 경우 조향 벡터는 다음과 같다:
여기서 τ는 더 가까운 마이크로폰에 도달하는 음성의 상대적 지연(초 단위의 음수)이다.
이중 마이크로폰 어레이에 대한 운전자(101)와 승객(103)의 (입) 위치는 대칭인 것으로 가정되고; 공식화된 동일한 조향 벡터가 운전자와 공동 운전자 모두에게 적용된다.
단계(206)에서, 신호 정렬이 수행된다. 마이크로폰의 기하학적 구조로부터 도출된 조향 벡터가 주어지면 운전자 또는 동승자로부터 유래된 두 개의 마이크로폰 신호(x1(f), x2(f))는 다음과 같이 운전자와 승객의 시야 방향으로 위상 정렬된다:
운전자(103)에 대해서는,
또는 동승자(승객)(105)에 대해서는,
단계(208)에서, 동적 시간 지연 추정 및 조향 벡터 선택이 수행된다. 마이크로폰의 기하학적 구조는 한번 측정되고, 매번 사용하기 위한 고정 파라미터가 된다. 그러나, 운전자(101)와 승객(103)으로부터 2개의 마이크로폰(102 및 104)까지의 거리는 수시로 변할 수 있다. 운전자/동승자의 높이도 동일하지 않을 수 있고, 이는 측정된 기하학적 구조가 더 이상 정확히 적용되지 않음을 의미한다. 따라서, 기하학적 구조로부터 계산된 상대적 시간 지연은 "공칭"값으로 인정되어야 하며 기하학적 구조의 불일치로 인해 위상 정렬에 에러가 있다.
이 문제를 완화하기 위해, 다음과 같이 각각의 프레임에서 두 개의 마이크로폰 신호(x1(n), x2(n))의 상호 상관 관계를 통해 시간 지연이 즉각적으로 추정된다:
여기서 n과 m은 데이터 샘플 인덱스이다.
시간 도메인에서 계산된 상호 상관 관계(Rx1x2(m))는 Rx1x1(0) 및 Rx2x2(0)의 기하 평균에 의해 더 정규화되어 상호 상관 계수가 된다. 상호 상관 계수의 절대값은 구간 [0, 1]로 제한된다:
그리하여, 샘플 단위로 x1과 x2 사이의 유효한 시간 지연은 다음과 같이 추정될 수 있다:
여기서 τ_d, τ, Δ는 기하학적 τ로부터 최대 허용 편차인, 동적, 기하학적 및 마진에 대한 샘플 단위의 시간 지연을 나타낸다. thld _ R x1x2 는 임계값(예를 들어, 0.60)이다.
유효한 경우 지연(τ_d)은 샘플 단위로부터 초 단위로 변환되어 동적 조향 벡터를 구성한다:
여기서 fs는 샘플링 주파수(㎐)이다.
경로 손실은 기하학적으로 또는 동적으로 구성된 조향 벡터에 대해 동일하게 유지된다.
각각의 프레임에서, 계산된 동적 지연이 유효하면 대응하는 조향 벡터가 신호 정렬에 사용되고; 그렇지 않은 경우 기하학적으로 도출된 조향 벡터가 사용된다. 동적 τd 계산 및 조향 벡터 적용은 기하학적 마이크 일치로 인한 두 신호 정렬의 가능한 에러를 완화하고, 수치 분석으로 인한 동적 시간 지연의 간헐적인 총 에러를 방지한다.
단계(210)에서, 신호의 가간섭성과 상호 스펙트럼이 결정된다. 두 마이크로폰 신호의 통계는 차량의 풍절음과 음성 사이에 큰 차이를 나타낸다. 유용한 통계는 다음과 같이 정해진 두 신호(X1(f) 및 X2(f))의 가간섭성으로 가장 잘 표현된다:
여기서 {}*는 복소수 켤레 연산자를 나타낸다.
짧은 프레임 분석 때문에, 상호 전력 스펙트럼 X1(f)X2 *(f)는 다음과 같이 시간(t)에 따라 평활화된다:
여기서 평활화 계수(α)는 일례에서 0.5로 설정된다.
일부 양태에서, 풍절음/발성음 검출에 사용되는 가장 중요한 통계인 상호 전력 스펙트럼의 위상은 다음과 같이 계산된다:
여기서 X1(f) 및 X2(f)는 본 명세서의 다른 곳에서 논의된 바와 같이 기하학적 및 동적 조향 벡터에 의해 위상 정렬된다.
단계(212)에서, (위상 분석을 통해) 풍절음과 음성의 구별이 수행된다. 차량에서, 풍절음과 음성의 구별은 두 개의 정렬된 신호(X1(f) 및 X2(f)) 사이의 상호 복소 스펙트럼 위상으로부터 탐구된다. 음성 신호는 상관 관계가 있지만 풍절음은 상관 관계가 없다. 음성의 경우 상호 스펙트럼의 위상은 일반적으로 특히 저 또는 중 주파수 범위(예를 들어, 최대 2k㎐)에서 매우 작다. 반면에, 풍절음의 경우 상호 스펙트럼의 위상 값은 훨씬 더 크고, 시간과 주파수에 걸친 변동은 무작위적이다.
더 나은 풍절음과 음성의 구별을 위해, 분석 주파수 범위는 두 영역으로 나뉘고, 제1 영역[(F_WN), 10㎐(F_WN_B) 내지 500㎐(F_WN_E)]은 주로 풍절음을 검출하는 데 사용되며, 제2 영역[F_SP, 600㎐(F_SP_B) 내지 2000㎐(F_SP_E)]은 주로 음성을 검출하는 데 사용된다.
시간/주파수 그리드에서 개별 위상 값은 의미가 없으므로 위상을 특성화하기 위해 통계 메트릭이 생성된다. 이 메트릭은 다음과 같이 정해진 상호 스펙트럼 위상의 정규화된 분산이다:
두 개의 위상 분산(σ
Figure 112022086087658-pct00015
(wn) 및 σ
Figure 112022086087658-pct00016
(sp))은 두 주파수 영역 중 하나로부터 각각 계산된다:
σ
Figure 112022086087658-pct00017
(sp)는 영역(F_WN, f1 = F_WN_B, f2 = F_WN_E)(예를 들어, f1 = 20㎐, f2 = 500㎐)으로부터이다. σ
Figure 112022086087658-pct00018
(sp)는 영역(F_SP, f1 = F_SP_B, f2 = F_SP_E)(예를 들어, f1 = 500㎐, f2 = 2000㎐)으로부터이다.
그러나, 영역(F_SP)의 최대 주파수(f2)는 다음과 같이 되도록 제한되어야 한다:
여기서 c와 d는 음속과 두 개의 마이크로폰 사이의 이격 거리이다.
도 3a는 버피팅 없이 차량에서 기록된 이중 마이크로폰의 깨끗한 발성음을 표시하고, 도 3b는 발성음 존재 없이 차량에서 이중 마이크로폰 버피팅을 표시한다.
도 4 및 도 5(수평 축은 분산이고, 수직 축은 발생 횟수이다)는 깨끗한 음성의 경우 두 주파수 영역에서 정규화된 위상 변화 분포(히스토그램)를 나타낸다. σ
Figure 112022086087658-pct00020
(wm) 및 σ
Figure 112022086087658-pct00021
(sp) 분포는 모두 0에 가까운 구간으로 제한된다. 한편, 도 6 및 도 도 7에 도시된 바와 같이, 풍절음의 경우에 대한 2개의 분포는 훨씬 더 넓은 구간에 걸쳐 확산된다. 정규화된 위상 분산의 관점에서 음성과 풍절음은 분리될 수 있음이 분명하다.
또한, 이러한 통계 분석을 통해, 풍절음은 주파수 영역(F_WN)에서 더 쉽게 검출되는 반면, 발성음은 주파수(F_SP)에서 더 쉽게 식별되며, 특히 풍절음과 발성음이 동시에 발생할 때 더 쉽게 식별되는 것으로 결론내릴 수 있다.
단계(214)에서, 발성음 확률과 풍절음 확률의 공식화가 발생한다. 풍절음/발성음 검출 또는 식별을 용이하게 하기 위해 발성음 확률과 풍절음 확률은 다음과 같이 계산된다:
여기서 σ
Figure 112022086087658-pct00023
(wn), σ
Figure 112022086087658-pct00024
(sp)는 각각 영역(F_WN 및 F_SP)의 정규화된 위상 분산을 나타낸다. thld_low_σ
Figure 112022086087658-pct00025
, thld_high_σ
Figure 112022086087658-pct00026
는 관련된 주파수 영역에서 풍절음 확률과 발성음 확률을 결정하는 데 사용되는 임계값이다.
단계(216)에서, 풍절음, 발성음, 또는 발성음이 혼합된 풍절음을 분류하기 위해 결정 논리가 이용된다.
풍절음과 발성음 검출 결정 논리는 다음과 같이 계산된다:
여기서 thld_sp, thld_wn, thld_sp_wn은 임계값이고, αsp 및 αwn은 가중치이며, 연산자(←)는 할당이다.
즉각적인(즉, 프레임당) 분류 결과(c)는 인접한 결과를 조회함으로써 더 소음이 제거된다. (N-1)개의 이전 프레임의 (N-1)개의 결정 결과와 함께 프레임(t)의 현재 값(ct)은 길이(N)(예를 들어, N=10)의 순환 버퍼에 저장된다. 현재 프레임(t)에 대한 최종 신호 클래스 결정은 소위 다수결에 의해 결정되고; 순환 버퍼에서 가장 많이 나타나는 클래스가 선택된다.
여기서 Ct는 프레임(t)의 신호 클래스에 대한 최종 결정인 반면, ct-N-1, ct-N-2, ... ct는 현재 및 (N-1)개의 이전 프레임에 대해 계산된 순간 클래스이다.
도 8은 발성음이 단독으로 존재하는 시작 부분과 끝 부분을 제외하고 발성음과 풍절음이 모두 존재하는 이중 마이크로폰 기록에 대한 확률 추정 및 신호 분류의 결과를 강조 표시한다. 발성음과 풍절음의 예가 이 도면에 표시되어 있다. 이 예에서, 기존 소음 카테고리는 발성음 카테고리와 병합되지만 풍절음 단독 및 발성음이 혼합된 풍절음은 두 개의 별도 카테고리이다. 이 도면에 표시된 확률 분석과 분류 결정은 모두 기록의 실제 내용(즉, 발성음, 풍절음, 발성음이 혼합된 풍절음)과 일치한다. 양태에서 발성음이 혼합된 풍절음은 풍절음 확률과 발성음 존재 확률이 모두 높은 값에서 거의 항상 올바르게 선택되고 발성음 또는 풍절음 카테고리와 혼동되지 않는다는 것을 알 수 있다.
이제 풍절음 감소가 발생할 수 있다. 풍절음 감소는 풍절음 검출기가 풍절음의 존재를 검출할 때 발생한다. 풍절음 감소를 구현하는 제어 회로는, 양태에서, 풍절음 이미지 추정, 풍절음 감소 이득 구성, 컴포트 소음 생성, 풍절음 감소 및 컴포트 소음 주입의 4가지 기능을 달성하거나 사용한다.
단계(218)에서, 풍절음 이미지 추정이 수행된다. 2개의 마이크로폰(102 및 104)에서의 풍절음 신호는 상관 관계가 없는 것으로 가정되는 반면, 음성 신호는 상관 관계가 있다. 또한, 풍절음과 음성 신호도 상관 관계가 없다. 따라서, 이론적 소음 전력 스펙트럼 밀도(PSD)는 다음과 같이 공식화될 수 있다:
여기서 t, f는 프레임 및 주파수 인덱스이다.
그러나, 이러한 가정이 항상 성립되는 것은 아니다. 하나의 이유로, 이 가정의 정확성은 마이크로폰의 기하학적 구조에 의존한다. 예를 들어, 마이크로폰 간격이 클수록 두 마이크로폰에서 음성 신호의 상관 관계가 줄어든다. 이론적 풍절음(PSD)은 과소 평가되는 경향이 있다. 보다 신뢰성 있고 기능적인 풍절음(PSD)은 다음과 같이 발성음 및 풍절음의 확률에 의해 가중치가 부여된 X1 및 X2의 자동 PSD의 이론적인 평균과 기하 평균의 조합으로 설계된다:
여기서 ALPHA는 상수(0.4)이고, probwn, probsp는 선택된 시야 방향(운전자 또는 동승자를 향하는 방향)과 관련된 풍절음 확률과 발성음 확률이다.
풍절음 확률이 높고 발성음 확률이 낮은 상태에서, 풍절음(PSD)은 X1과 X2의 두 자동 PSD의 기하 평균과 거의 같다.
단계(220)에서, WNR 이득 함수가 결정된다. 풍절음 감소를 위해 설계되고 적용되는 두 가지 다른 이득 계산이 있다. 제1 이득은 하기 스펙트럼 감산 접근 방식의 변형예로부터 온다:
여기서 ΦN(t, f)은 추정되는 풍절음 전력 스펙트럼이다.
최소 이득 계수는 일반적으로 매우 강한 풍절음을 효과적으로 제거하기 위해 훨씬 작은 값(예를 들어, -40B)을 필요로 한다. 소음이 있는 경우에도 발성음을 더 잘 보존하기 위해, Gmin은 Cmin_min과 Gmin_max 사이에서 변하고, 다음과 같이 정규화된 위상 분산(σ
Figure 112022086087658-pct00032
(wn))의 함수로 만들어진다:
여기서 Gmin _min, Gmin _min은 각각 -40dB 및 -20dB로 설정되어 최소 및 최대 Gmin을 나타낸다. σ
Figure 112022086087658-pct00034
(wn)는 본 명세서의 다른 곳에서 논의된 임계값(thld_min_σ
Figure 112022086087658-pct00035
, thld_max_σ
Figure 112022086087658-pct00036
)과 함께 풍절음 검출을 위해 할당된 주파수 범위로부터 계산된 정규화된 위상 변화이다.
상호 스펙트럼 위상의 큰 값은 풍절음 존재의 강력한 지표이므로 제2 이득 함수도 다음과 같이 도출된다:
여기서 thld_min_σ
Figure 112022086087658-pct00038
, thld_max_σ
Figure 112022086087658-pct00039
는 지정된 주파수 범위에서 풍절음 확률(probwn)을 계산하기 위해 (확률 결정에 관해서) 위에서 사용한 것과 동일한 임계값이다.
이 이득 함수의 하나의 장점은 두 채널에서 시간/주파수 그리드에 대한 깊은 감쇠를 보장한다는 것이다. 이 시간/주파수 그리드는 관련된 상호 스펙트럼 위상이 과도하게 크기 때문에 풍절음이 존재할 가능성이 있다.
WNR 동작에 사용되는 최종 및 결합 억제 규칙은 다음과 같다:
단계(222)에서, 풍절음 감소가 수행되고, 이는 도 1에 도시된 바와 같이 두 마이크로폰 채널에 적용된다. 풍절음 검출기가 프레임을 풍절음 단독으로서 또는 발성음이 혼합된 풍절음으로서 검출하는 경우, WNR이 관여될 것이고, 그 계산은 하기에 나타낸다:
여기서 Xi(f))는 가상 채널(i)에 대한 복소 스펙트럼을 나타내고, Cn(f)은 미리 생성된 컴포트 소음이다. f1, f2는 WNR이 발생하는 주파수 범위를 나타낸다.
감쇠된 신호로 컴포트 소음의 주입은 또한 본 명세서에 설명된 접근법에서 활용될 수 있다. 풍절음은 매우 작은 이득 값(예를 들어, -40dB)으로 인해 일반적으로 깊이 억제된다. 진정 평활한 컴포트 소음은 미리 생성되어, 신호가 심하게 감쇠된 지점에 주입될 필요가 있다. 정지된 소음 조건의 경우 컴포트 소음 스펙트럼은 추정된 순간 소음의 장기간 평활화된 버전을 통해 생성된다. 그러나, 풍절음은 강하고 거세며 오래 지속될 수 있기 때문에 기존 방식으로 생성된 컴포트 소음은 소음 게이팅 효과가 있으며 여전히 풍절음과 같아서 풍절음 감소된 신호에 다시 추가하기에는 적합하지 않다.
풍절음 감소 적용의 경우, 최소 통계 접근 방식의 도움으로 대안적이고 더 유용한 컴포트 소음이 설계된다. 두 채널에서 동작하는 최소 통계는 고려되는 각각의 주파수에 대해 경과 시간에 걸쳐 최소값을 효율적이고 효과적으로 찾는다. 그런 다음 동기화되지 않은 최소 그리드를 조합하여 각각의 채널에 대한 "최소" 배경 소음을 공식화한다.
새로운 컴포트 소음 스펙트럼(엔벨로프)은 두 채널의 두 개의 최소 통계 집합의 평균이다:
여기서 channe[i] → Smin[f]는 최소 통계 검색 시간 동안 i번째 채널과 관련된 주파수(f)에서 최소 전력 스펙트럼 값을 나타낸다.
기존의 컴포트 소음 생성과 같이, WNR 적용을 위한 최종 컴포트 소음 생성은 정규화된 백색 소음(Nw(f)) 부분에 최소 통계로 도출된 스펙트럼 엔벨로프를 적용하는 것이다:
생성된 이 새로운 컴포트 소음은 실제로 반향 억제 후에 사용된 것과 같이 다른 장소에 적용될 수 있다.
풍절음이 신호로부터 제거된 후 이 신호는 시간 도메인으로 다시 변환되어 다른 용도로 사용될 수 있다. 예를 들어, 이 신호는 차량에 있는 다른 디바이스의 동작을 제어하는 데 사용될 수 있다. 다른 예에서, 신호는 다른 사용자 또는 디바이스로 전송될 수 있다. 또 다른 예에서, 신호는 다른 목적을 위해 처리될 수 있다.
본 명세서에 설명된 임의의 디바이스(예를 들어, 제어 회로, 제어기, 수신기, 송신기, 센서, 임의의 프리젠테이션 또는 디스플레이 디바이스 또는 외부 디바이스)는 컴퓨팅 디바이스를 사용하여 이러한 디바이스의 다양한 기능 및 동작을 구현할 수 있는 것으로 이해된다. 하드웨어 아키텍처의 관점에서, 이러한 컴퓨팅 디바이스는 프로세서, 메모리, 및 로컬 인터페이스를 통해 통신 가능하게 결합된 하나 이상의 입력 및/또는 출력(I/O) 디바이스 인터페이스(들)를 포함할 수 있지만 이들로 국한되지 않는다. 로컬 인터페이스는 예를 들어 하나 이상의 버스 및/또는 기타 유선 또는 무선 연결을 포함할 수 있지만 이들로 국한되지 않는다. 프로세서는 소프트웨어, 특히 메모리에 저장된 소프트웨어를 실행하기 위한 하드웨어 디바이스일 수 있다. 프로세서는 맞춤형 또는 상업적으로 이용 가능한 프로세서, 중앙 처리 유닛(CPU), 컴퓨팅 디바이스와 관련된 여러 프로세서 중 보조 프로세서, 반도체 기반 마이크로프로세서(마이크로칩 또는 칩 세트의 형태) 또는 일반적으로 소프트웨어 명령어를 실행하기 위한 임의의 디바이스일 수 있다.
본 명세서에 설명된 메모리 디바이스는 휘발성 메모리 요소(예를 들어, 랜덤 액세스 메모리(RAM), 예를 들어, 동적 RAM(DRAM), 정적 RAM(SRAM), 동기적 동적 RAM(SDRAM), 비디오 RAM(VRAM) 등) 및/또는 비휘발성 메모리 요소(예를 들어, 판독 전용 메모리(ROM), 하드 드라이브, 테이프, CD-ROM 등) 중 임의의 하나 또는 조합을 포함할 수 있다. 더욱이, 메모리는 전자, 자기, 광학 및/또는 다른 유형의 저장 매체를 포함할 수 있다. 메모리는 다양한 구성요소가 서로 멀리 떨어져 있지만 프로세서에서 액세스할 수 있는 분산 아키텍처를 가질 수도 있다.
본 명세서에 설명된 메모리 디바이스 중 임의의 것의 소프트웨어는 하나 이상의 개별 프로그램을 포함할 수 있으며, 각각의 프로그램은 본 명세서에 설명된 기능을 구현하기 위한 실행 가능한 명령어의 순서화된 목록을 포함한다. 소스 프로그램으로 구성될 때 프로그램은 메모리에 포함될 수도 있고 포함되지 않을 수도 있는 컴파일러, 어셈블러, 인터프리터 등을 통해 번역된다.
본 명세서에 설명된 접근 방식 중 임의의 것은 컴퓨터 매체(예를 들어, 위에서 설명된 컴퓨터 메모리)에 저장된 컴퓨터 명령어로서 적어도 부분적으로 구현될 수 있고 이러한 명령어는 마이크로프로세서와 같은 처리 디바이스에서 실행될 수 있는 것으로 이해된다. 그러나, 이러한 접근법은 전자 하드웨어 및/또는 소프트웨어의 임의의 조합으로 구현될 수 있다.
본 발명을 수행하기 위해 본 발명자에게 알려진 최상의 모드를 포함하여 본 발명의 바람직한 실시형태가 본 명세서에 설명되었다. 예시된 실시형태는 단지 예시일 뿐, 본 발명의 범위를 제한하는 것으로 간주되어서는 안 되는 것으로 이해된다.

Claims (20)

  1. 시스템으로서,
    제1 오디오 신호를 획득하는 제1 마이크로폰;
    제2 오디오 신호를 획득하는 제2 마이크로폰; 및
    상기 제1 마이크로폰과 상기 제2 마이크로폰에 결합된 제어 회로
    를 포함하되,
    상기 제1 마이크로폰은 상기 제2 마이크로폰과 공간적으로 분리되어 있고;
    상기 제어 회로는,
    상기 제1 마이크로폰에 도달하는 제1 오디오 신호와 상기 제2 마이크로폰에 도달하는 제2 오디오 신호를 시간 세그먼트로 연속적이고 동시에 분할하여, 각각의 시간 세그먼트에 대해, 상기 제1 마이크로폰에 도달하는 제1 오디오 신호는 제1 프레임 오디오 신호로 형성되고, 상기 제2 마이크로폰에 도달하는 제2 오디오 신호는 제2 프레임 오디오 신호로 형성되도록 하는 단계;
    표적 음성 소스에 대해 상기 제1 프레임 오디오 신호와 상기 제2 프레임 오디오 신호를 시간 정렬하는 단계;
    상기 제1 프레임 오디오 신호와 상기 제2 프레임 오디오 신호를 시간 정렬하는 것은 런타임에 2개의 마이크로폰에서 수신된 신호 간의 동적 상호 상관 관계를 평가하는 것에 의해 조정된 정적 기하학적 기반 측정에 기초하고;
    시간 정렬된 제1 프레임 오디오 신호와 제2 프레임 오디오 신호 각각에 대해 푸리에 변환을 수행하여 제1 스펙트럼과 제2 스펙트럼을 생성하는 단계로서, 상기 제1 스펙트럼과 상기 제2 스펙트럼 각각은 각각의 시간 세그먼트에서 2개의 시간 정렬된 마이크로폰 신호 중 하나의 마이크로폰 신호의 스펙트럼을 나타내는, 상기 제1 스펙트럼과 제2 스펙트럼을 생성하는 단계;
    상기 제1 스펙트럼과 상기 제2 스펙트럼의 상호 상관 관계에 따라 복수의 주파수 각각에서 상기 제1 스펙트럼과 상기 제2 스펙트럼 사이의 위상차를 계산하는 단계;
    각각의 시간 세그먼트에 대해 정해진 주파수 범위에서 위상차의 정규화된 분산을 결정하는 단계로서, 상기 주파수 범위는 상기 마이크로폰의 기하학적 구조에 기초하여 계산되어, 위상차의 정규화된 분산을 결정할 때 에러 마진이 최소화되는, 상기 위상차의 정규화된 분산을 결정하는 단계;
    2개의 시간 정렬된 마이크로폰 신호의 스펙트럼 위상차의 정규화된 분산에 기초하여, 각각의 시간 세그먼트에서 발성음(speech) 존재 확률과 풍절음(wind noise) 존재 확률을 공식화하고 평가하는 단계;
    각각의 시간 세그먼트에서 각각의 시간 세그먼트에 대한 카테고리를 결정하는 단계로서, 상기 카테고리는 발성음 단독, 풍절음 단독, 풍절음이 혼합된 발성음, 또는 알 수 없음 중 하나이며, 결정 논리는 상기 카테고리를 결정하는 데 사용되고, 상기 결정 논리는 발성음 존재 확률과 풍절음 존재 확률의 개별 값과 결합 값을 포함하는 제1 함수에 기초하고, 상기 제1 함수의 값은 복수의 임계값과 비교되고 풍절음 검출 결정을 하고, 결정된 카테고리에 기초하여 바람 감쇠 조치가 선택적으로 트리거되는, 상기 카테고리를 결정하는 단계;
    상기 조치가 풍절음 감쇠를 수행하는 것인 경우 이득 또는 감쇠 함수를 계산하는 단계로서, 상기 함수는 미리 결정된 주파수 범위에서 복수의 주파수 각각에서의 위상차 및 개별 위상차의 정규화된 분산에 기초하고, 풍절음 감쇠는 상기 제1 스펙트럼과 상기 제2 스펙트럼의 각 스펙트럼의 크기와 이득 또는 감쇠 함수를 곱하여 풍절음 제거된 제1 스펙트럼과 풍절음 제거된 제2 스펙트럼을 생성함으로써 주파수 도메인에서 실행되는, 상기 이득 또는 감쇠 함수를 계산하는 단계;
    상기 풍절음 제거된 제1 스펙트럼과 상기 풍절음 제거된 제2 스펙트럼을 결합시켜 결합된 스펙트럼을 생성하는 단계;
    상기 결합된 스펙트럼의 역 FFT를 취하여 풍절음 제거된 시간 도메인 신호를 구성하는 단계; 및
    상기 시간 도메인 신호를 사용하여 조치를 취하는 단계로서, 상기 조치는 상기 시간 도메인 신호를 전자 디바이스로 전송하는 것, 상기 시간 도메인 신호를 사용하여 전자 장비를 제어하는 것, 또는 상기 시간 도메인 신호를 사용하여 전자 장비와 상호 작용하는 것 중 하나 이상인, 상기 조치를 취하는 단계
    를 수행하도록 구성된, 시스템.
  2. 제1항에 있어서, 상기 시간 세그먼트는 10 밀리초 내지 20 밀리초의 길이인, 시스템.
  3. 제1항에 있어서, 표적 음성 소스는 차량의 좌석에 앉아 있는 사람의 음성을 포함하는, 시스템.
  4. 제1항에 있어서, 상기 발성음 존재 확률과 상기 풍절음 존재 확률은 각각 0 내지 1의 값을 갖는, 시스템.
  5. 제1항에 있어서, 상기 카테고리의 결정은 현재 결정 및 이전의 연속적인 시간 세그먼트의 결정 시퀀스를 고려하는 다수결 방식을 추가로 활용하는, 시스템.
  6. 제1항에 있어서, 상기 발성음 존재 확률과 상기 풍절음 존재 확률은 각각의 시간 세그먼트에서 발성음 존재 또는 풍절음 존재의 정도를 평가하는 데 사용되는 메트릭을 제공하는, 시스템.
  7. 제1항에 있어서, 상기 풍절음 감쇠 조치는 결정된 결정이 풍절음 단독 또는 발성음이 혼합된 풍절음인 경우에 트리거되는, 시스템.
  8. 제1항에 있어서, 상기 임계값의 값은 발성음 및 풍절음 샘플의 양을 사용하여 오프라인 알고리즘 훈련 단계에서 오프라인으로 추정되는, 시스템.
  9. 제1항에 있어서, 상기 시스템은 차량에 적어도 부분적으로 배치되는, 시스템.
  10. 제1항에 있어서, 사운드 소스는 이동하는, 시스템.
  11. 방법으로서,
    제어 회로에서,
    제1 마이크로폰에 도달하는 제1 오디오 신호와 제2 마이크로폰에 도달하는 제2 오디오 신호를 시간 세그먼트로 연속적이고 동시에 분할하여, 각각의 시간 세그먼트에 대해, 상기 제1 마이크로폰에 도달하는 제1 오디오 신호는 제1 프레임 오디오 신호로 형성되고, 상기 제2 마이크로폰에 도달하는 제2 오디오 신호는 제2 프레임 오디오 신호로 형성되도록 하는 단계;
    표적 음성 소스에 대해 상기 제1 프레임 오디오 신호와 상기 제2 프레임 오디오 신호를 시간 정렬하는 단계;
    상기 제1 프레임 오디오 신호와 상기 제2 프레임 오디오 신호를 시간 정렬하는 것은 런타임에 2개의 마이크로폰에서 수신된 신호 간의 동적 상호 상관 관계를 평가하는 것에 의해 조정된 정적 기하학적 기반 측정에 기초하고;
    시간 정렬된 제1 프레임 오디오 신호와 제2 프레임 오디오 신호 각각에 대해 푸리에 변환을 수행하여 제1 스펙트럼과 제2 스펙트럼을 생성하는 단계로서, 상기 제1 스펙트럼과 상기 제2 스펙트럼 각각은 각각의 시간 세그먼트에서 2개의 시간 정렬된 마이크로폰 신호 중 하나의 마이크로폰 신호의 스펙트럼을 나타내는, 상기 제1 스펙트럼과 제2 스펙트럼을 생성하는 단계;
    상기 제1 스펙트럼과 상기 제2 스펙트럼의 상호 상관 관계에 따라 복수의 주파수 각각에서 상기 제1 스펙트럼과 상기 제2 스펙트럼 사이의 위상차를 계산하는 단계;
    각각의 시간 세그먼트에 대해 정해진 주파수 범위에서 위상차의 정규화된 분산을 결정하는 단계로서, 상기 주파수 범위는 상기 마이크로폰의 기하학적 구조에 기초하여 계산되어, 위상차의 정규화된 분산을 결정할 때 에러 마진이 최소화되는, 상기 위상차의 정규화된 분산을 결정하는 단계;
    2개의 시간 정렬된 마이크로폰 신호의 스펙트럼 위상차의 정규화된 분산에 기초하여, 각각의 시간 세그먼트에서 발성음 존재 확률과 풍절음 존재 확률을 공식화하고 평가하는 단계;
    각각의 시간 세그먼트에서 각각의 시간 세그먼트에 대한 카테고리를 결정하는 단계로서, 상기 카테고리는 발성음 단독, 풍절음 단독, 풍절음이 혼합된 발성음, 또는 알 수 없음 중 하나이며, 결정 논리는 상기 카테고리를 결정하는 데 사용되고, 상기 결정 논리는 발성음 존재 확률과 풍절음 존재 확률의 개별 값과 결합 값을 포함하는 제1 함수에 기초하고, 상기 제1 함수의 값은 복수의 임계값과 비교되고 풍절음 검출 결정을 하고, 결정된 카테고리에 기초하여 바람 감쇠 조치가 선택적으로 트리거되는, 상기 카테고리를 결정하는 단계;
    상기 조치가 풍절음 감쇠를 수행하는 것인 경우 이득 또는 감쇠 함수를 계산하는 단계로서, 상기 함수는 미리 결정된 주파수 범위에서 복수의 주파수 각각에서의 위상차 및 개별 위상차의 정규화된 분산에 기초하고, 풍절음 감쇠는 상기 제1 스펙트럼과 상기 제2 스펙트럼의 각 스펙트럼의 크기와 이득 또는 감쇠 함수를 곱하여 풍절음 제거된 제1 스펙트럼과 풍절음 제거된 제2 스펙트럼을 생성함으로써 주파수 도메인에서 실행되는, 상기 이득 또는 감쇠 함수를 계산하는 단계;
    상기 풍절음 제거된 제1 스펙트럼과 상기 풍절음 제거된 제2 스펙트럼을 결합시켜 결합된 스펙트럼을 생성하는 단계;
    상기 결합된 스펙트럼의 역 FFT를 취하여 풍절음 제거된 시간 도메인 신호를 구성하는 단계; 및
    상기 시간 도메인 신호를 사용하여 조치를 취하는 단계로서, 상기 조치는 상기 시간 도메인 신호를 전자 디바이스로 전송하는 것, 상기 시간 도메인 신호를 사용하여 전자 장비를 제어하는 것, 또는 상기 시간 도메인 신호를 사용하여 전자 장비와 상호 작용하는 것 중 하나 이상인, 상기 조치를 취하는 단계
    를 포함하는, 방법.
  12. 제11항에 있어서, 상기 시간 세그먼트는 10 밀리초 내지 20 밀리초의 길이인, 방법.
  13. 제11항에 있어서, 상기 표적 음성 소스는 차량의 좌석에 앉은 사람의 음성을 포함하는, 방법.
  14. 제11항에 있어서, 상기 발성음 존재 확률과 상기 풍절음 존재 확률은 각각 0 내지 1의 값을 갖는, 방법.
  15. 제11항에 있어서, 상기 카테고리의 결정은 현재의 결정과 이전의 연속적인 시간 세그먼트에서의 결정의 시퀀스를 고려하는 다수결 방식을 더 활용하는, 방법.
  16. 제11항에 있어서, 상기 발성음 존재 확률과 상기 풍절음 존재 확률은 각각의 시간 세그먼트에서 발성음 존재 또는 풍절음 존재의 정도를 평가하는 데 사용되는 메트릭을 제공하는, 방법.
  17. 제11항에 있어서, 상기 풍절음 감쇠 조치는 결정된 결정이 풍절음 단독 또는 발성음이 혼합된 풍절음인 경우에 트리거되는, 방법.
  18. 제11항에 있어서, 상기 임계값의 값은 발성음 및 풍절음 샘플의 양을 사용하여 오프라인 알고리즘 훈련 단계를 통해 오프라인으로 추정되는, 방법.
  19. 제11항에 있어서, 상기 제어 회로는 차량에 적어도 부분적으로 배치되는, 방법.
  20. 제11항에 있어서, 사운드 소스는 이동하는, 방법.
KR1020227028487A 2020-01-24 2021-01-22 풍절음 감쇠를 위한 방법 및 장치 KR102659035B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/751,316 2020-01-24
US16/751,316 US11217269B2 (en) 2020-01-24 2020-01-24 Method and apparatus for wind noise attenuation
PCT/US2021/014507 WO2021150816A1 (en) 2020-01-24 2021-01-22 Method and apparatus for wind noise attenuation

Publications (2)

Publication Number Publication Date
KR20220130744A KR20220130744A (ko) 2022-09-27
KR102659035B1 true KR102659035B1 (ko) 2024-04-18

Family

ID=74666786

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227028487A KR102659035B1 (ko) 2020-01-24 2021-01-22 풍절음 감쇠를 위한 방법 및 장치

Country Status (6)

Country Link
US (1) US11217269B2 (ko)
EP (1) EP4094255A1 (ko)
JP (1) JP7352740B2 (ko)
KR (1) KR102659035B1 (ko)
CN (1) CN114930450A (ko)
WO (1) WO2021150816A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI739236B (zh) * 2019-12-13 2021-09-11 瑞昱半導體股份有限公司 具有抗噪機制的音訊播放裝置及方法
CN113613112B (zh) * 2021-09-23 2024-03-29 三星半导体(中国)研究开发有限公司 抑制麦克风的风噪的方法和电子装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120140946A1 (en) 2010-12-01 2012-06-07 Cambridge Silicon Radio Limited Wind Noise Mitigation

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001124621A (ja) 1999-10-28 2001-05-11 Matsushita Electric Ind Co Ltd 風雑音低減可能な騒音計測装置
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
JP4228924B2 (ja) 2004-01-29 2009-02-25 ソニー株式会社 風音低減装置
US20120163622A1 (en) 2010-12-28 2012-06-28 Stmicroelectronics Asia Pacific Pte Ltd Noise detection and reduction in audio devices
EP2673956B1 (en) * 2011-02-10 2019-04-24 Dolby Laboratories Licensing Corporation System and method for wind detection and suppression
JP5998483B2 (ja) * 2012-01-11 2016-09-28 ソニー株式会社 音声信号処理装置、音声信号処理方法、プログラム及び記録媒体
JP6174856B2 (ja) 2012-12-27 2017-08-02 キヤノン株式会社 雑音抑制装置、その制御方法、及びプログラム
CN104751853B (zh) * 2013-12-31 2019-01-04 辰芯科技有限公司 双麦克风噪声抑制方法及系统
CN106664486B (zh) * 2014-07-21 2019-06-28 思睿逻辑国际半导体有限公司 用于风噪声检测的方法和装置
JP5663112B1 (ja) 2014-08-08 2015-02-04 リオン株式会社 音信号処理装置、及び、それを用いた補聴器
US9838815B1 (en) * 2016-06-01 2017-12-05 Qualcomm Incorporated Suppressing or reducing effects of wind turbulence
GB2555139A (en) * 2016-10-21 2018-04-25 Nokia Technologies Oy Detecting the presence of wind noise
JP2018066963A (ja) 2016-10-21 2018-04-26 キヤノン株式会社 音声処理装置
KR101903874B1 (ko) 2017-01-19 2018-10-02 재단법인 다차원 스마트 아이티 융합시스템 연구단 듀얼 마이크 기반의 잡음 제거 방법 및 장치
KR20180108155A (ko) 2017-03-24 2018-10-04 삼성전자주식회사 바람 소리가 조정된 신호를 출력하는 방법 및 전자 장치
US10885907B2 (en) * 2018-02-14 2021-01-05 Cirrus Logic, Inc. Noise reduction system and method for audio device with multiple microphones

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120140946A1 (en) 2010-12-01 2012-06-07 Cambridge Silicon Radio Limited Wind Noise Mitigation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Christoph Matthias Nelke et al., 'Dual MicrophoneWind Noise Reduction by Exploiting the Complex Coherence', Speech Communication 11, September 2014.

Also Published As

Publication number Publication date
EP4094255A1 (en) 2022-11-30
CN114930450A (zh) 2022-08-19
KR20220130744A (ko) 2022-09-27
WO2021150816A1 (en) 2021-07-29
JP7352740B2 (ja) 2023-09-28
JP2023509593A (ja) 2023-03-09
US20210233557A1 (en) 2021-07-29
US11217269B2 (en) 2022-01-04

Similar Documents

Publication Publication Date Title
JP6129316B2 (ja) 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法
Cohen Relative transfer function identification using speech signals
JP6636633B2 (ja) 音響信号を向上させるための音響信号処理装置および方法
Ratnam et al. Blind estimation of reverberation time
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
KR102659035B1 (ko) 풍절음 감쇠를 위한 방법 및 장치
JP7041156B6 (ja) ビームフォーミングを使用するオーディオキャプチャのための方法及び装置
US9767826B2 (en) Methods and apparatus for robust speaker activity detection
Taseska et al. Informed spatial filtering for sound extraction using distributed microphone arrays
US9318092B2 (en) Noise estimation control system
Kolossa et al. CHiME challenge: Approaches to robustness using beamforming and uncertainty-of-observation techniques
Nelke et al. Dual microphoneWind Noise Reduction by Exploiting the Complex Coherence
WO2020064089A1 (en) Determining a room response of a desired source in a reverberant environment
Zohourian et al. GSC-based binaural speaker separation preserving spatial cues
Rahmani et al. Noise cross PSD estimation using phase information in diffuse noise field
Taseska et al. Minimum Bayes risk signal detection for speech enhancement based on a narrowband DOA model
Pfeifenberger et al. Blind source extraction based on a direction-dependent a-priori SNR.
CN110140171B (zh) 使用波束形成的音频捕获
Azarpour et al. Binaural noise PSD estimation for binaural speech enhancement
Matheja et al. 10 Speaker activity detection for distributed microphone systems in cars
Ceolini et al. Speaker Activity Detection and Minimum Variance Beamforming for Source Separation.
EP2760024A1 (en) Noise estimation control system
Madhu et al. Source number estimation for multi-speaker localisation and tracking
US11425495B1 (en) Sound source localization using wave decomposition
Choi et al. A two-channel noise estimator for speech enhancement in a highly nonstationary environment

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant