KR20200034670A - 가변 마이크로폰 어레이 방향을 갖는 헤드셋들을 위한 듀얼 마이크로폰 음성 프로세싱 - Google Patents

가변 마이크로폰 어레이 방향을 갖는 헤드셋들을 위한 듀얼 마이크로폰 음성 프로세싱 Download PDF

Info

Publication number
KR20200034670A
KR20200034670A KR1020197037044A KR20197037044A KR20200034670A KR 20200034670 A KR20200034670 A KR 20200034670A KR 1020197037044 A KR1020197037044 A KR 1020197037044A KR 20197037044 A KR20197037044 A KR 20197037044A KR 20200034670 A KR20200034670 A KR 20200034670A
Authority
KR
South Korea
Prior art keywords
array
speech
microphones
audio device
desired source
Prior art date
Application number
KR1020197037044A
Other languages
English (en)
Other versions
KR102352928B1 (ko
Inventor
사무엘 피. 에베네젤
래치드 케르코우드
Original Assignee
시러스 로직 인터내셔널 세미컨덕터 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 시러스 로직 인터내셔널 세미컨덕터 리미티드 filed Critical 시러스 로직 인터내셔널 세미컨덕터 리미티드
Publication of KR20200034670A publication Critical patent/KR20200034670A/ko
Application granted granted Critical
Publication of KR102352928B1 publication Critical patent/KR102352928B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

본 발명의 실시예들에 따르면, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법으로서, 어레이는 어레이의 사용자에 관해 복수의 위치 방향들을 가질 수 있는, 상기 방법이 제공된다. 방법은 복수의 정규화된 상호 상관 함수들을 주기적으로 계산하는 단계로서, 각각의 상호 상관 함수는 스피치의 원하는 소스에 대한 어레이의 가능한 방향에 대응하는, 상기 계산 단계, 복수의 정규화된 상호 상관 함수들에 기초하여 원하는 소스에 관한 어레이의 방향을 결정하는 단계, 복수의 정규화된 상호 상관 함수들에 기초하여 방향의 변경들을 검출하는 단계, 및 방향의 변경에 응답하여, 원하는 소스로부터의 스피치가 간섭 사운드를 감소시키면서 보존되도록 오디오 디바이스의 음성 프로세싱 파라미터들을 동적으로 수정하는 단계를 포함할 수 있다.

Description

가변 마이크로폰 어레이 방향을 갖는 헤드셋들을 위한 듀얼 마이크로폰 음성 프로세싱
본 발명의 대표적인 실시예들의 분야는 오디오 디바이스에서 음성 애플리케이션들에 관한 또는 이와 관련된 방법들, 장치들, 및 구현들에 관한 것이다. 애플리케이션들은 원하는 스피치(speech)의 소스에 관한 가변 마이크로폰 어레이 방향을 갖는 헤드셋들을 위한 듀얼 마이크로폰 음성 프로세싱을 포함한다.
스피치 활동 검출 또는 스피치 검출로서 또한 알려진 음성 활동 검출(Voice activity detection; VAD)은 인간 스피치의 존재 또는 부재가 검출되는 스피치 프로세싱에서 사용된 기술이다. VAD는 잡음 억제기들, 배경 잡음 추정기들, 적응형 빔포머(adaptive beamformer)들, 동적 빔 스티어링, 상시 음성 검출, 및 대화 기반 재생 관리를 포함하는, 다양한 애플리케이션들에서 이용될 수 있다. 많은 음성 활동 검출 애플리케이션들은 예를 들면, 통화와 같은 음성 통신 동안 이용될 수 있는 듀얼 마이크로폰 기반 스피치 증진 및/또는 잡음 감소 알고리즘을 이용할 수 있다. 대부분의 전통적인 듀얼 마이크로폰 알고리즘들은 사운드의 원하는 소스(예로서, 사용자의 입)에 대한 마이크로폰들의 어레이의 방향이 고정되고 선험적으로 알려져 있다고 가정한다. 원하는 사운드 소스에 대한 이 어레이 위치의 이러한 사전 지식은 다른 방향들로부터 나오는 간섭 신호들을 감소시키면서 사용자의 스피치를 보존하기 위해 활용될 수 있다.
듀얼 마이크로폰 어레이를 갖는 헤드셋들은 복수의 상이한 크기들 및 형상들로 들어올 수 있다. 인이어 피트니스 헤드셋(in-ear fitness headset)들과 같은 일부 헤드셋들의 작은 크기로 인해, 헤드셋들은 듀얼 마이크로폰 어레이를 이어버드 자체에 배치할 제한적인 공간을 가질 수 있다. 게다가, 마이크로폰들을 이어버드에서 수신기 가까이에 배치하는 것은 에코 관련 문제들을 도입할 수 있다. 따라서, 많은 인이어 헤드셋들은 종종, 헤드셋을 위해 볼륨 제어 박스에 배치된 마이크로폰을 포함하고 음성 통화 프로세싱 동안 단일 마이크로폰 기반 잡음 감소 알고리즘이 사용된다. 이 접근법에서, 음성 품질은 고 레벨의 배경 잡음에 대한 매질이 존재할 때 나빠질 수 있다. 볼륨 제어 박스에서 조립된 듀얼 마이크로폰들의 사용은 잡음 감소 성능을 개선할 수 있다. 피트니스 유형 헤드셋에서, 제어 박스는 빈번하게 움직일 수 있고, 사용자의 입에 대한 제어 박스 위치는 사용자 선호도, 사용자 움직임, 또는 다른 인자들에 의존하여 공간의 임의의 지점에 있을 수 있다. 예를 들면, 시끄러운 환경에서, 사용자는 증가된 입력 신호 대 잡음비를 위해 제어 박스를 입 가까이에 수동으로 배치할 수 있다. 이러한 경우들에서, 마이크로폰들이 제어 박스에 배치되는 음성 프로세싱을 위해 듀얼 마이크로폰 접근법을 사용하는 것은 도전적인 작업일 수 있다.
본 발명의 교시들에 따르면, 헤드셋들에서 음성 프로세싱에 대한 기존의 접근법들과 연관된 하나 이상의 단점들 및 문제들이 감소되거나 제거될 수 있다.
본 발명의 실시예들에 따르면, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법으로서, 어레이는 어레이의 사용자에 관해 복수의 위치 방향들을 가질 수 있는, 상기 방법이 제공된다. 방법은 복수의 정규화된 상호 상관 함수들을 주기적으로 계산하는 단계로서, 각각의 상호 상관 함수는 스피치의 원하는 소스에 대한 어레이의 가능한 방향에 대응하는, 상기 계산 단계, 복수의 정규화된 상호 상관 함수들에 기초하여 원하는 소스에 관한 어레이의 방향을 결정하는 단계, 복수의 정규화된 상호 상관 함수들에 기초하여 방향의 변경들을 검출하는 단계, 및 방향의 변경에 응답하여, 원하는 소스로부터의 스피치가 간섭 사운드들을 감소시키면서 보존되도록 오디오 디바이스의 음성 프로세싱 파라미터들을 동적으로 수정하는 단계를 포함할 수 있다.
본 발명의 이들 및 다른 실시예들에 따르면, 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로는 오디오 디바이스의 적어도 하나의 트랜스듀서(transducer)에 대한 통신을 위해 오디오 출력 신호를 생성함으로써 오디오 정보를 재생하도록 구성된 오디오 출력부, 복수의 마이크로폰들의 어레이로서, 어레이의 사용자에 관해 복수의 위치 방향들을 가질 수 있는, 상기 복수의 마이크로폰들의 어레이, 및 근접장 검출기를 구현하도록 구성된 프로세서를 포함할 수 있다. 프로세서는 각각의 상호 상관 함수가 스피치의 원하는 소스에 대한 어레이의 가능한 방향에 대응하는, 복수의 정규화된 상호 상관 함수들을 주기적으로 계산하고, 복수의 정규화된 상호 상관 함수들에 기초하여 원하는 소스에 관한 어레이의 방향을 결정하고, 복수의 정규화된 상호 상관 함수들에 기초하여 방향의 변경들을 검출하고, 방향의 변경에 응답하여, 원하는 소스로부터의 스피치가 간섭 사운드들을 감소시키면서 보존되도록 오디오 디바이스의 음성 프로세싱 파라미터들을 동적으로 수정하도록 구성될 수 있다.
본 발명의 기술적 장점들은 본 명세서에 포함된 도면들, 설명, 및 청구항들로부터 당업자에게 용이하게 명백할 수 있다. 실시예들의 목적들 및 장점들은 적어도 청구항들에서 특히 지적된 요소들, 특징들, 및 조합들에 의해 실현되고 성취될 것이다.
상기 일반적인 설명 및 하기의 상세한 설명 둘 모두가 예들이고 설명적이며 본 발명에서 제시된 청구항들을 제한하는 것이 아님이 이해되어야 한다.
본 실시예들 및 그의 특정 장점들의 더 완전한 이해는 첨부된 도면들과 결부하여 취해진 다음의 설명을 참조함으로써 획득될 수 있고, 여기서 유사한 참조 부호들은 유사한 특징들을 나타낸다.
도 1은 본 발명의 실시예들에 따른, 사용자 경험을 증진시키기 위해 다양한 검출기들이 재생 관리 시스템과 결부하여 사용될 수 있는 사용 사례 시나리오의 일례를 도시한 도면.
도 2는 본 발명의 실시예들에 따른, 일 예시적인 재생 관리 시스템을 도시한 도면.
도 3은 본 발명의 실시예들에 따른, 일 예시적인 스티어링된 응답 전력 기반 빔스티어링 시스템을 도시한 도면.
도 4는 본 발명의 실시예들에 따른, 일 예시적인 적응형 빔포머를 도시한 도면.
도 5는 본 발명의 실시예들에 따른, 피트니스 헤드셋에서 마이크로폰들의 다양한 가능한 방향들을 보여주는 개략도.
도 6은 본 발명의 실시예들에 따른, 가변 마이크로폰 어레이 방향을 갖는 헤드셋을 위해 듀얼 마이크로폰 음성 프로세싱을 구현하기 위한 오디오 디바이스의 선택된 구성요소들의 블록도.
도 7은 본 발명의 실시예들에 따른, 마이크로폰 교정 서브시스템의 선택된 구성요소들의 블록도.
도 8은 본 발명에 따른, 빔포머들에 대한 일 예시적인 이득 혼합 방식을 묘사하는 그래프를 도시한 도면.
도 9는 본 발명의 실시예들에 따른, 일 예시적인 공간적으로 제어된 적응형 필터의 선택된 구성요소들의 블록도.
도 10은 본 발명에 따른, 마이크로폰 어레이의 특정한 방향에 대응하는 빔 패턴들의 일례를 묘사하는 그래프를 도시한 도면.
도 11은 본 발명의 실시예들에 따른, 일 예시적인 제어기의 선택된 구성요소들을 도시한 도면.
도 12는 본 발명의 실시예들에 따른, 듀얼 마이크로폰 어레이의 예시적인 가능한 지향성 범위들을 묘사하는 다이어그램을 도시한 도면.
도 13은 본 발명의 실시예들에 따른, 도 5에 도시된 위치들(1 및 3)로부터 스피치가 도달하는 듀얼 마이크로폰 어레이로부터 얻어진 방향 특정 상관 통계를 묘사하는 그래프를 도시한 도면.
도 14는 본 발명의 실시예들에 따른, 스피치가 마이크로폰 어레이에 관해 제 1 특정한 방향으로부터 존재하는지를 결정하기 위해 행해질 예시적인 비교들을 묘사하는 플로차트.
도 15는 본 발명의 실시예들에 따른, 스피치가 마이크로폰 어레이에 관해 제 2 특정한 방향으로부터 존재하는지를 결정하기 위해 행해질 예시적인 비교들을 묘사하는 플로차트.
도 16은 본 발명의 실시예들에 따른, 스피치가 마이크로폰 어레이에 관해 제 3 특정한 방향으로부터 존재하는지를 결정하기 위해 행해질 예시적인 비교들을 묘사하는 플로차트.
도 17은 본 발명의 실시예들에 따른, 일 예시적인 홀드오프 메커니즘(holdoff mechanism)을 묘사하는 플로차트.
본 발명에서, 사운드의 원하는 소스(예로서, 사용자의 입)에 대한 제어 박스 위치의 임의의 변경들에 대해 강건한(robust) 듀얼 마이크로폰 어레이를 이용한 음성 프로세싱을 위한 시스템들 및 방법들이 제안된다. 구체적으로, 듀얼 마이크로폰 어레이를 사용하여 도달 방향을 추적하기 위한 시스템들 및 방법들이 개시된다. 또한, 본 명세서에서의 시스템들 및 방법들은 잘못된 스위칭을 회피하기 위해 임의의 잘못된 경보들 없이 도달 방향을 정확하게 추적하기 위해 상관 기반 근접장 테스트 통계들을 사용하는 것을 포함한다. 이러한 공간 통계들은 그 다음, 스피치 증진 프로세스를 동적으로 수정하기 위해 사용될 수 있다.
본 발명의 실시예들에 따르면, 자동 재생 관리 프레임워크는 하나 이상의 오디오 이벤트 검출기들을 사용할 수 있다. 오디오 디바이스를 위한 이러한 오디오 이벤트 검출기들은 오디오 디바이스의 사용자(예로서, 오디오 디바이스를 착용하거나 그렇지 않으면, 사용하고 있는 사용자)가 말할 때와 같은, 오디오 디바이스의 근접장의 사운드들이 검출될 때를 검출할 수 있는 근접장 검출기, 오디오 디바이스의 사용자에 근접한 또 다른 사람이 말할 때와 같은, 오디오 디바이스에 근접한 사운드들이 검출될 때를 검출할 수 있는 근접 검출기, 및 오디오 디바이스 부근에서 발생될 수 있는 음향 경보들을 검출하는 음조 경보 검출기(tonal alarm detector)를 포함할 수 있다. 도 1은 본 발명의 실시예들에 따른, 이러한 검출기들이 사용자 경험을 증진시키기 위해 재생 관리 시스템과 결부하여 사용될 수 있는 사용 사례 시나리오의 일례를 도시한다.
도 2는 본 발명의 실시예들에 따른, 이벤트 검출기(2)로부터의 결정에 기초하여 재생 신호를 수정하는 일 예시적인 재생 관리 시스템을 도시한다. 프로세서(7)에서의 신호 프로세싱 기능은 출력 오디오 트랜스듀서(8)(예로서, 라우드스피커)와 마이크로폰들(9) 사이의 에코 결합으로 인해 마이크로폰들(9)에서 수신되는 음향 에코를 소거할 수 있는 음향 에코 소거기(1)를 포함할 수 있다. 에코 감소된 신호는 근접장 검출기(3)에 의해 검출된 근접장 이벤트(예로서, 오디오 디바이스의 사용자로부터의 스피치를 포함하지만 그것으로 제한되지 않음), 근접 검출기(4)에 의해 검출된 근접 이벤트(예로서, 스피치 또는 근접장 사운드 이외의 다른 주변 사운드를 포함하지만 그것으로 제한되지 않음), 및/또는 경보 검출기(5)에 의해 검출된 음조 알람 이벤트를 포함하지만 그것으로 제한되지 않는, 하나 이상의 다양한 주변 이벤트들을 검출할 수 있는 이벤트 검출기(2)에 전달될 수 있다. 오디오 이벤트가 검출되면, 이벤트 기반 재생 제어부(6)는 출력 오디오 트랜스듀서(8)로 재생된 오디오 정보(도 2에서 "재생 콘텐트"로서 도시됨)의 특성을 수정할 수 있다. 오디오 정보는 내부 오디오 소스(예로서, 음악 파일, 비디오 파일, 등)로부터의 내부 오디오 및/또는 통신 네트워크(예로서, 셀룰러 네트워크)를 통해 수신된 전화 대화와 연련된 다운링크 스피치를 포함하지만 그것으로 제한되지 않는, 출력 오디오 트랜스듀서(8)에서 재생될 수 있는 임의의 정보를 포함할 수 있다.
도 2에 도시된 바와 같이, 근접장 검출기(3)는 근접장 이벤트들을 검출하기 위해 근접장 검출기(3)에 의해 활용될 수 있는 음성 활동 검출기(11)를 포함할 수 있다. 음성 활동 검출기(11)는 인간 스피치의 존재 또는 부재를 검출하기 위해 스피치 프로세싱을 수행하도록 구성된 임의의 적합한 시스템, 디바이스, 또는 장치를 포함할 수 있다. 이러한 프로세싱에 따라, 음성 활동 검출기(11)는 근접장 스피치의 존재를 검출할 수 있다.
도 2에 도시된 바와 같이, 근접 검출기(4)는 오디오 디바이스와 근접한 이벤트들을 검출하기 위해 근접 검출기(4)에 의해 활용될 수 있는 음성 활동 검출기(13)를 포함할 수 있다. 음성 활동 검출기(11)와 유사하게, 음성 활동 검출기(13)는 인간 스피치의 존재 또는 부재를 검출하기 위해 스피치 프로세싱을 수행하도록 구성된 임의의 적합한 시스템, 디바이스, 또는 장치를 포함할 수 있다.
도 3은 본 발명의 실시예들에 따른, 일 예시적인 스티어링된 응답 전력 기반 빔스티어링 시스템(30)을 도시한다. 스티어링된 응답 전력 기반 빔스티어링 시스템(30)은, 각각이 빔포머들(33)의 전체 뱅크가 관심 있는 원하는 장을 커버하도록 상이한 주사 방향(look direction)을 갖는 다수의 빔포머들(33)(예로서, 지연 및 합 및/또는 필터 및 합 빔포머들)을 구현함으로써 동작할 수 있다. 각각의 빔포머(33)의 빔폭은 마이크로폰 어레이 개구 길이에 의존할 수 있다. 각각의 빔포머(33)로부터의 출력 전력이 계산될 수 있고, 최대 출력 전력을 가지는 빔포머(33)는 스티어링된 응답 전력 기반 빔 선택자(35)에 의해 출력 경로(34)로 스위칭될 수 있다. 빔 선택자(35)의 스위칭은 단지 음성이 검출될 때 빔 선택자(35)에 의해 출력 전력이 측정되고, 따라서 빔 선택자(35)가 공간적으로 비정상 배경 충격 잡음(non-stationary background impulsive noise)들에 응답함으로써 다수의 빔포머들(33) 사이에서 빠르게 스위칭하는 것을 방지하도록 근접장 검출기(32)를 가지는 음성 활동 검출기(31)에 의해 제한될 수 있다.
도 4는 본 발명의 실시예들에 따른, 일 예시적인 적응형 빔포머(40)를 도시한다. 적응형 빔포머(40)는 수신된 데이터에 기초하여 변경되는 잡음 조건들에 적응할 수 있는 임의의 시스템, 디바이스, 또는 장치를 포함할 수 있다. 일반적으로, 적응형 빔포머는 고정된 빔포머들에 비해 더 높은 잡음 소거 또는 간섭 억제를 성취할 수 있다. 도 4에 도시된 바와 같이, 적응형 빔포머(40)는 일반화된 사이드 로브 소거기(GSC)로서 구현된다. 그에 따라, 적응형 빔포머(40)는 고정된 빔포머(43), 차단 매트릭스(44), 및 적응형 필터(46)를 포함하는 다수 입력 적응형 잡음 소거기(45)를 포함할 수 있다. 적응형 필터(46)가 항상 적응한다면, 그것은 감산 단계(74) 동안 또한 스피치 왜곡을 또한 야기하는 스피치 누출에 대해 트레이닝할 수 있다. 적응형 빔포머(40)의 강건성을 증가시키기 위해, 근접장 검출기(42)를 가지는 음성 활동 검출기(41)는 스피치의 존재 시에 트레이닝 또는 적응을 디스에이블링(disabling)하기 위해 제어 신호를 적응형 필터(46)에 전달할 수 있다. 이러한 구현들에서, 음성 활동 검출기(41)는 스피치가 존재할 때마다 배경 잡음이 추정되지 않는 잡음 추정 기간을 제어할 수 있다. 유사하게, 스피치 누출에 대한 GSC의 강건성은 또한, 적응형 차단 매트릭스를 사용함으로써 개선될 수 있으며, 그를 위한 제어부는 발명의 명칭이 "적응형 빔 형성을 위해 사전 화이트닝을 사용하는 적응형 차단 매트릭스(Adaptive Block Matrix Using Pre-Whitening for Adaptive Beam Forming)"인 미국 특허 제 9,607,603 호에서 설명된 바와 같은, 충격 잡음 검출기를 갖는 개선된 음성 활동 검출기를 포함할 수 있다.
도 5는 본 발명의 실시예들에 따른, 사용자의 입(48)에 관한 피트니스 헤드셋(49)에서 마이크로폰들(51)(예로서, 51a, 51b)의 다양한 가능한 방향들을 보여주는 개략도를 도시하고, 여기서 사용자의 입은 음성 관련 사운드의 원하는 소스이다.
도 6은 본 발명의 실시예들에 따른, 가변 마이크로폰 어레이 방향을 갖는 헤드셋을 위해 듀얼 마이크로폰 음성 프로세싱을 구현하기 위한 오디오 디바이스(50)의 선택된 구성요소들의 블록도를 도시한다. 도시된 바와 같이, 오디오 디바이스(50)는 마이크로폰 입력부들(52) 및 프로세서(53)를 포함할 수 있다. 마이크로폰 입력부(52)는 마이크로폰들(51)에 대한 음압을 나타내는 전기 신호(예로서, x1, x2)를 수신하도록 구성된 임의의 전기 노드를 포함할 수 있다. 일부 실시예들에서, 이러한 전기 신호들은 오디오 헤드셋과 연관된 제어기 박스(때때로 통신 박스로서 알려짐)에 위치된 각각의 마이크로폰들(51)에 의해 생성될 수 있다. 프로세서(53)는 본 명세서에서 또한 상세된 바와 같이, 음성 프로세싱을 수행하기 위해 마이크로폰 입력부들(52)에 통신가능하게 결합될 수 있고 마이크로폰 입력부들(52)에 결합된 마이크로폰들(51)에 의해 생성된 전기 신호들을 수신하고 이러한 신호들을 프로세싱하도록 구성될 수 있다. 설명적 명확성의 목적들을 위해 도시되지 않을지라도, 이러한 마이크로폰들에 의해 생성된 아날로그 신호들을 프로세서(53)에 의해 프로세싱될 수 있는 대응하는 디지털 신호들로 변환하기 위해 각각의 아날로그 디지털 변환기는 마이크로폰들(51)의 각각과 그들의 각각의 마이크로폰 입력부들(52) 사이에 결합될 수 있다.
도 6에 도시된 바와 같이, 프로세서(53)는 복수의 빔포머들(54), 제어기(56), 빔 선택자(58), 널 형성기(null former)(60), 공간적으로 제어된 적응형 필터(62), 공간적으로 제어된 잡음 감소기(64), 및 공간적으로 제어된 자동 레벨 제어기(66)를 구현할 수 있다.
빔포머들(54)은 이러한 입력부들에 의해 수신된 마이크로폰 신호들(예로서, x1, x2)에 기초하여 복수의 빔들을 생성할 수 있는 마이크로폰 입력부들(52)에 대응하는 마이크로폰 입력부들을 포함할 수 있다. 복수의 빔포머들(54)의 각각은 마이크로폰 입력부들(52)에 결합된 마이크로폰들(51)로부터 청취가능한 사운드들을 공간적으로 필터링하기 위해 복수의 빔들 중 각각의 빔을 형성하도록 구성될 수 있다. 일부 실시예들에서, 각각의 빔 포머(54)는 마이크로폰 입력부들(52)에 결합된 마이크로폰들(51)로부터 청취가능한 사운드들을 수신하고 공간적으로 필터링하기 위해 원하는 주사 방향으로 각각의 단방향 빔을 형성하도록 구성된 단방향 빔포머를 포함할 수 있고, 각각의 이러한 각각의 단방향 빔은, 단방향 빔포머들(54)에 의해 형성된 빔들이 모두 상이한 주사 방향을 갖도록, 다른 단방향 빔포머들(54)에 의해 형성된 모든 다른 단방향 빔들의 방향과 상이한 방향으로 공간 널을 가질 수 있다.
일부 실시예들에서, 빔포머들(54)은 시간 도메인 빔포머들로서 구현될 수 있다. 빔포머들(54)에 의해 형성된 다양한 빔들은 동작 동안 항상 형성될 수 있다. 도 6이 프로세서(53)를 3개의 빔포머들(54)을 구현하는 것으로서 묘사할지라도, 임의의 적합한 수의 빔들이 마이크로폰 입력부들(52)에 결합된 마이크로폰들(51)로부터 형성될 수 있음에 유의한다. 또한, 본 발명에 따른 음성 프로세싱 시스템이 임의의 적합한 수의 마이크로폰들(51), 마이크로폰 입력부들(52), 및 빔포머들(54)을 포함할 수 있음에 유의한다.
도 6에 묘사된 것과 같은 듀얼 마이크로폰 어레이에 대해, 확산 잡음 장에서 빔포머(54)의 성능은 단지 마이크로폰들(51)의 공간 다이버시티가 최대화될 때 최적일 수 있다. 마이크로폰 입력부들(52)에 결합된 2개의 마이크로폰들(51) 사이의 원하는 스피치의 도달 시간 차가 최대화될 때 공간 다이버시티가 최대화될 수 있다. 도 6에 도시된 3개의 빔 포머 구현에서, 빔 포머(2)에 대한 도달 시간 차는 일반적으로, 작을 수 있고 빔 포머(2)로부터의 신호 대 잡음 비(SNR) 개선이 따라서, 제한될 수 있다. 빔포머들(1 및 3)에 대해, 원하는 스피치가 마이크로폰들(51)의 어레이의 어느 하나의 단부(예로서, "종형(endfire)")로부터 도달할 때 빔 포머 위치가 최대화될 수 있다. 따라서, 도 6에 도시된 3개의 빔 포머 예에서, 빔포머들(1 및 3)은 지연 및 차 빔포머들을 사용하여 구현될 수 있고 빔 포머(2)는 지연 및 합 빔 포머를 사용하여 구현될 수 있다. 빔포머들(54)의 이러한 선택은 최적으로, 빔 포머 성능을 원하는 신호 도달 방향에 맞출 수 있다.
최적의 성능을 위해 그리고 마이크로폰 입력부들(52)에 결합된 마이크로폰들의 제조 허용오차들(tolerance)을 위한 공간을 제공하기 위해, 빔포머들(54)은 각각 2개의 마이크로폰 신호들을 혼합하기 전에 입력 신호들(예로서, x1, x2)을 교정하기 위해 마이크로폰 교정 서브시스템(68)을 포함할 수 있다. 예를 들면, 마이크로폰 신호 레벨 차는 마이크로폰 감도의 차들 및 연관된 마이크로폰 어셈블리/부팅 차들에 의해 야기될 수 있다. 마이크로폰 어레이에 대한 사운드의 원하는 소스의 인접에 의해 야기된 근접장 전파 손실 효과는 또한, 마이크로폰 레벨 차들을 도입할 수 있다. 이러한 근접장 효과의 정도는 원하는 소스에 관한 상이한 마이크로폰 방향들에 기초하여 달라질 수 있다. 이러한 근접장 효과는 또한, 하기에 더 설명된 바와 같이 마이크로폰들(51)의 어레이의 방향을 검출하기 위해 활용될 수 있다.
간단히 도 7에 의하면, 도 7은 본 발명의 실시예들에 따른, 마이크로폰 교정 서브시스템(68)의 선택된 구성요소들의 블록도를 도시한다. 도 7에 도시된 바와 같이, 마이크로폰 교정 서브시스템(68)은 2개의 별개의 교정 블록들로 분할될 수 있다. 제 1 블록(70)은 개별적인 마이크로폰 채널들 사이의 감도 차들을 보상할 수 있고, 블록(70)에서 마이크로폰 신호들에 적용된(예로서, 마이크로폰 보상 블록들(72)에 의해) 교정 이득들은 단지 상관된 확산 및/또는 원거리장 잡음이 존재할 때 업데이트될 수 있다. 제 2 블록(74)은 근접장 효과들을 보상할 수 있고 블록(74)에서 마이크로폰 신호들에 적용된(예로서, 마이크로폰 보상 블록들(76)에 의해) 대응하는 교정 이득들은 단지 원하는 스피치가 검출될 때 업데이트될 수 있다. 그에 따라, 간단히 도 6에 의하면, 빔포머들(54)은 보상된 마이크로폰 신호들을 혼합할 수 있고 빔 포머 출력들을 다음과 같이 생성할 수 있다:
빔 포머(1)(지연 및 차):
Figure pct00001
빔 포머(2)(지연 및 합):
Figure pct00002
빔 포머(3)(지연 및 차):
Figure pct00003
여기서,
Figure pct00004
은 마이크로폰(51b)에 더 가깝게 위치된 간섭 신호 소스에 대한 마이크로폰(51b)과 마이크로폰(51a) 사이의 도달 시간 차이고,
Figure pct00005
은 마이크로폰(51a)에 더 가깝게 위치된 간섭 신호 소스에 대한 마이크로폰(51a)과 마이크로폰(51b) 사이의 도달 시간 차이고,
Figure pct00006
Figure pct00007
는 예를 들면, 브로드사이드 위치(broadside position)(
Figure pct00008
)를 갖는, 도 5에 도시된 위치(2)로부터 도달하는 신호를 시간 정렬하기 위해 필요한 시간 지연들이다. 빔포머들(54)은 다음과 같이 이러한 시간 지연들을 산출할 수 있다:
Figure pct00009
여기서, d는 마이크로폰들(51) 사이의 간격이고, c는 사운드의 속도이고, Fs는 샘플링 주파수이며
Figure pct00010
Figure pct00011
는 각각 빔포머들(1과 3)의 주사 방향들로 도달하는 우세한 간섭 신호들이다.
지연 및 차 빔포머들(예로서, 빔포머들(1 및 3))은 고역 통과 필터링 효과를 겪을 수 있고, 차단 주파수 및 정지 대역 억제는 마이크로폰 간격, 주사 방향, 널 방향, 및 근접장 효과들로 인한 전파 손실 차에 의해 영향을 받을 수 있다. 이 고역 통과 필터링 효과는 빔포머들(1, 3)의 각각의 출력부들에서 저역 통과 등화 필터(78)를 적용함으로써 보상될 수 있다. 저역 통과 등화 필터(78)의 주파수 응답은 다음에 의해 주어질 수 있다:
Figure pct00012
여기서,
Figure pct00013
는 교정 서브시스템(68)으로부터 추정될 수 있는 근접장 전파 손실 차이고,
Figure pct00014
는 빔이 포커싱되는 주사 방향이고
Figure pct00015
는 간섭이 도달할 것으로 예상되는 널 방향이다. 하기에서 더 상세히 설명된 바와 같이, 제어기(56)에 의해 생성된 근접장 제어들 및 도달 방향 추정치(
Figure pct00016
)는 위치 특정 빔 포머 파라미터들을 동적으로 설정하기 위해 사용될 수 있다. 일 대안적인 아키텍처는 동적으로 달라지는 잡음 장에서 잡음 소거 성능을 증진시키기 위해 적응형 공간 필터가 뒤따르는 고정된 빔 포머를 포함할 수 있다. 일 특정 예로서, 빔 포머(1)에 대한 주사 및 널 방향들은 각각 -90°및 30°로 설정될 수 있고, 빔 포머(3)에 대해, 대응하는 각도 파라미터들은 각각 90°및 30°로 설정될 수 있다. 빔 포머(2)에 대한 주사 방향은 비 간섭성 잡음 장에서 신호 대 잡음비 개선을 제공할 수 있는 0°로 설정될 수 있다. 빔 포머(3)의 주사 방향에 대응하는 마이크로폰 어레이의 위치가 사운드의 원하는 소스(예로서, 사용자의 입)에 인접할 수 있고, 따라서 저역 통과 등화 필터들(78)의 주파수 응답이 빔포머들(1 및 3)에 대해 상이하게 설정될 수 있음에 유의한다.
빔 선택자(58)는 빔포머들(54)로부터 동시에 형성된 복수의 빔들을 수신하고, 제어기(56)로부터의 하나 이상의 제어 신호들에 기초하여, 동시에 형성된 빔들 중 어느 것이 공간적으로 제어된 적응형 필터(62)에 출력될 것인지를 선택하도록 구성된 임의의 적합한 시스템, 디바이스, 또는 장치를 포함할 수 있다. 게다가, 선택된 빔 포머(54)가 변경되는 마이크로폰 어레이의 검출된 방향의 변경이 발생할 때마다, 빔 선택자(58)는 또한, 빔들 사이의 이러한 트랜지션(transition)에 의해 야기된 아티팩트(artifact)들을 만들기 위해 빔포머들(54)의 출력들을 혼합함으로써 선택 사이에서 트랜지션할 수 있다. 그에 따라, 빔 선택자(58)는 빔포머들(54)의 출력들의 각각에 대한 이득 블록을 포함할 수 있고 빔 선택자(58)가 하나의 선택된 빔 포머(54)로부터 또 다른 선택된 빔 포머(54)로 트랜지션함에 따라 빔 포머 출력들의 매끄러운 혼합(smooth mixing)을 보장하기 위해 출력들에 적용된 이득들이 시간 기간에 걸쳐 수정될 수 있다. 이러한 평탄화를 성취하기 위한 일 예시적인 접근법은 단순한 재귀 평균화 필터 기반 방법(simple recursive averaging filter based method)을 사용하는 것일 수 있다. 구체적으로, i 및 j가 각각 어레이 방향 변경 전후의 헤드셋 위치들이고, 스위치 직전의 대응하는 이득이 각각 1 및 0이면, 이들 2개의 빔포머들(54)에 대한 이득들은 이러한 빔포머들(54) 사이에서 선택의 트랜지션 동안 다음과 같이 수정될 수 있다:
Figure pct00017
여기서,
Figure pct00018
는 이득에 대한 램프 시간을 제어하는 평탄화 상수(smoothing constant)이다. 이 파라미터(
Figure pct00019
)는 최종 정상 상태 이득의 63.2%에 도달하기 위해 요구된 시간을 정의할 수 있다. 이들 2개의 이득 값들의 합이 임의의 순간에 하나로 유지되고 그에 의해, 동일한 에너지 입력 신호들에 대한 에너지 보존을 보장함에 유의하는 것이 중요하다. 도 8은 본 발명에 따른, 이러한 이득 혼합 방식을 묘사하는 그래프 플롯을 도시한다.
선택된 고정된 빔 포머(54)로부터의 임의의 신호 대 잡음비(SNR) 개선은 확산 잡음 장에서 최적일 수 있다. 그러나, 지향성 간섭 잡음이 공간적으로 비정상(non-stationary)이면 SNR 개선이 제한될 수 있다. SNR을 개선하기 위해, 프로세서(53)는 공간적으로 제어된 적응형 필터(62)를 구현할 수 있다. 간단히 도 9에 의하면, 도 9는 본 발명의 실시예들에 따른, 일 예시적인 공간적으로 제어된 적응형 필터(62)의 선택된 구성요소들의 블록도를 도시한다. 동작 시에, 공간적으로 제어된 적응형 필터(62)는 우세한 지향성 간섭 잡음을 향해 선택된 빔 포머(54)의 널을 동적으로 스티어링하는 능력을 가질 수 있다. 공간적으로 제어된 적응형 필터(62)의 필터 계수들은 단지 원하는 스피치가 검출되지 않을 때 업데이트될 수 있다. 공간적으로 제어된 적응형 필터(62)에 대한 기준 신호는 기준 신호(b[n])가 스피치 억제를 회피하기 위해 가능한 적은 원하는 스피치 신호를 포함하도록 2개의 마이크로폰 신호들(x1 및 x2)을 조합함으로써 생성된다. 널형성기(60)는 원하는 스피치 방향을 향해 포커싱된 널을 갖는 기준 신호(b[n])를 생성할 수 있다. 널형성기(60)는 다음과 같이 기준 신호(b[n])를 생성할 수 있다:
도 5에 도시된 위치(1)에 대해(지연 및 차):
Figure pct00020
도 5에 도시된 위치 2에 대해(지연 및 차):
Figure pct00021
도 5에 도시된 위치(3)에 대해(지연 및 차):
Figure pct00022
여기서,
Figure pct00023
Figure pct00024
는 근접장 전파 손실 효과들을 보상하는 교정 이득들이고(하기에서 더 상세히 설명됨) 이러한 교정된 값들은 다양한 헤드셋 위치들에 대해 상이할 수 있고:
Figure pct00025
이며,
여기서, θ 및 φ는 각각 위치들(1 및 3)에서 원하는 신호 방향이다. 널형성기(60)는 잡음 기준 신호의 원하는 스피치 누설을 감소시키기 위해 2개의 교정 이득들을 포함한다. 위치(2)에서의 널형성기(60)는 지연 및 차 빔 포머일 수 있고 그것은 프론트 엔드 빔 포머(54)에서 사용되는 동일한 시간 지연들을 사용할 수 있다. 단일 널형성기(60)에 대해 대안적으로, 프론트 엔드 빔포머들(54)과 유사한 널형성기들의 뱅크가 또한 사용될 수 있다. 다른 대안적인 실시예들에서, 다른 널형성기 구현들이 사용될 수 있다.
일 예시적인 예로서, 선택된 고정된 프론트 엔드 빔 포머(54) 및 잡음 기준 널형성기(60)에 대한 도 5의 위치(3)(예로서, 90°의 각도로부터 도달하는 바람직한 스피치)에 대응하는 빔 패턴들이 도 10에 묘사된다. 동작 시에, 널형성기(60)는 그것이 원하는 스피치 방향이 달라짐에 따라 그것의 널을 동적으로 수정할 수 있다는 점에서 적응형일 수 있다.
도 11은 본 발명의 실시예들에 따른, 일 예시적인 제어기(56)의 선택된 구성요소들을 도시한다. 도 11에 도시된 바와 같이, 제어기(56)는 정규화된 상호 상관 블록(80), 정규화된 최대 상관 블록(82), 방향 특정 상관 블록(84), 도달 방향 블록(86), 브로드사이드 통계 블록(88), 마이크로폰간 레벨 차 블록(90), 및 복수의 음성 검출기들(92)(예로서, 스피치 검출기들(92a, 92b, 및 92c))을 구현할 수 있다.
음향 소스가 마이크로폰(51)에 가까울 때, 이러한 마이크로폰에 대한 직접 대 잔향 신호 비는 일반적으로 높을 수 있다. 직접 대 잔향 비는 룸/인클로저(room/enclosure)의 잔향 시간(RT60) 및 근접장 소스와 마이크로폰들(51) 사이의 경로에 있는 다른 물리적 구조들에 의존할 수 있다. 소스와 마이크로폰(51) 사이의 거리가 증가할 때, 직접 경로에서 전파 손실로 인해 직접 대 잔향 비가 감소할 수 있고, 잔향 신호의 에너지는 직접 경로 신호와 비교가능할 수 있다. 이러한 개념은 어레이 위치에 강건한 근접장 신호의 존재를 나타낼 가치 있는 통계를 얻기 위해 제어기(56)의 구성요소들에 의해 사용될 수 있다. 정규화된 상호 상관 블록(80)은 다음과 같이 마이크로폰들(51) 사이의 상호 상관 시퀀스를 계산할 수 있다:
Figure pct00026
여기서, m의 범위는
Figure pct00027
이다. 정규화된 최대 상관 블록(82)은 최대 정규화된 상관 통계를 다음과 같이 계산하기 위해 상호 상관 시퀀스를 사용할 수 있다:
Figure pct00028
여기서, Exi는 i번째 마이크로폰 에너지에 대응한다. 정규화된 최대 상관 블록(82)은 또한, 다음과 같이 정규화된 최대 상관 통계(normMaxCorr)를 생성하기 위해 이 결과에 평탄화를 적용할 수 있다:
Figure pct00029
여기서,
Figure pct00030
는 평탄화 상수이다.
방향 특정 상관 블록(84)은 다음과 같이 도 12에 도시된 바와 같이 위치들(1 및 3)로부터 스피치를 검출하기 위해 요구된 방향 특정 상관 통계(dirCorr)를 계산할 수 있다. 먼저, 방향 특정 상관 블록(84)은 상이한 지향성 영역들 내에서 정규화된 상호 상관 함수의 최대치를 결정할 수 있다:
Figure pct00031
둘째, 방향 특정 상관 블록(84)은 다음과 같이 지향성 상관 통계들 사이의 최대 편차를 결정할 수 있다:
Figure pct00032
마지막으로, 방향 특정 상관 블록(84)은 다음과 같이 방향 특정 상관 통계(dirCorr)를 계산할 수 있다:
Figure pct00033
도 13은 도 5에 도시된 위치들(1 및 3)로부터 스피치가 도달하는 듀얼 마이크로폰 어레이로부터 얻어진 방향 특정 상관 통계(dirCorr)를 보여주는 그래프를 도시한다. 도 13으로부터 보여진 바와 같이, 방향 특정 상관 통계(dirCorr)는 위치들(1 및 3)을 검출하기 위한 판별(discrimination)을 제공할 수 있다.
그러나, 방향 특정 상관 통계(dirCorr)는 도 5에 도시된 위치(2)에서의 스피치와 확산 배경 잡음을 식별하지 못할 수 있다. 그럼에도 불구하고, 브로드사이드 통계 블록(88)은 영역(
Figure pct00034
)으로부터 지향성 최대 정규화된 상호 상관 통계(
Figure pct00035
)의 분산을 추정하고, 브로드사이드 방향(예로서, 위치(2))으로부터 도달하는 근접장 신호를 나타낼 수 있는 이러한 분산이 작은지를 결정함으로써 위치(2)로부터의 스피치를 검출할 수 있다. 브로드사이드 통계 블록(88)은 다음과 같이 통계(
Figure pct00036
)의 실행 평균을 추적함으로써 분산을 계산할 수 있다:
Figure pct00037
여기서,
Figure pct00038
Figure pct00039
의 평균이고,
Figure pct00040
은 실행 평균의 지속기간에 대응하는 평탄화 상수이며
Figure pct00041
Figure pct00042
의 분산을 나타낸다.
상호 상관 시퀀스의 공간 분해능은 먼저, 라그랑지 보간 함수(Lagrange interpolation function)를 사용하여 상호 상관 시퀀스를 보간함으로써 증가될 수 있다. 도달 방향 블록(86)은 다음과 같이 보간된 상호 상관 시퀀스(
Figure pct00043
)의 최대 값에 대응하는 래그(lag)를 선택함으로써 도달 방향(DOA) 통계(
Figure pct00044
)를 계산할 수 있다:
Figure pct00045
도착 방향 블록(86)은 DOA 통계(
Figure pct00046
)를 다음과 같이 결정하기 위해 다음 공식을 이용함으로써 이러한 선택된 지연 인덱스를 각도 값으로 변환할 수 있다:
Figure pct00047
여기서,
Figure pct00048
는 보간된 샘플링 주파수이고 r은 보간 레이트이다. 이상치(outlier)들로 인한 추정 오차를 감소시키기 위해, 도달 방향 블록(86)은 원(raw) DOA 통계(
Figure pct00049
)의 평탄화된 버전을 제공하기 위해 중간 필터 DOA 통계(
Figure pct00050
)를 사용할 수 있다. 중간 필터 윈도우 크기는 임의의 적합한 수의 추정치들(예로서, 3개)로 설정될 수 있다.
듀얼 마이크로폰 어레이가 원하는 신호 소스 부근에 있다면, 마이크로폰간 레벨 차 블록(90)은 마이크로폰간 레벨 차 통계(imd)를 생성하기 위해 2개의 마이크로폰들(51) 사이의 신호 레벨들을 비교함으로써 R2 손실 현상을 활용할 수 있다. 근접장 신호가 원거리장 신호보다 충분히 크면, 이러한 마이크로폰간 레벨 차 통계(imd)는 근접장의 원하는 신호와 원거리장 또는 확산 장 간섭 신호 사이를 구별하기 위해 사용될 수 있다. 마이크로폰간 레벨 차 블록(90)은 제 2 마이크로폰 에너지(x2)에 대한 제 1 마이크로폰 신호(x1)의 에너지의 비로서 마이크로폰간 레벨 차 통계(imd)를 계산할 수 있다:
Figure pct00051
마이크로폰 간 레벨 차 블록(90)은 이 결과를 다음과 같이 평탄화할 수 있다:
Figure pct00052
빔 선택자(58)에 의한 선택된 빔의 스위칭은 단지 스피치가 배경에 존재할 때 트리거링(triggering)될 수 있다. 상이한 방향들로부터 도달할 수 있는 경쟁하는 대화자 스피치로부터의 잘못된 경보들을 회피하기 위해, 음성 활동 검출의 3개의 인스턴스들이 사용될 수 있다. 구체적으로, 음성 검출기들(92)은 빔포머들(54)의 출력들에 대해 음성 활동 검출을 수행할 수 있다. 예를 들면, 빔 포머(1)로 스위칭하기 위해, 음성 검출기(92a)는 빔 포머(1)의 출력에서 스피치를 검출해야 한다. 임의의 적합한 기술이 주어진 입력 신호에서 스피치의 존재를 검출하기 위해 사용될 수 있다.
제어기(56)는 마이크로폰 어레이의 방향의 다양한 위치들로부터 스피치의 존재를 검출하기 위해 상기 설명된 다양한 통계들을 사용하도록 구성될 수 있다.
도 14는 본 발명의 실시예들에 따른, 도 5에 도시된 바와 같이 스피치가 위치(1)로부터 존재하는지를 결정하기 위해 제어기(56)에 의해 행해질 수 있는 예시적인 비교들을 묘사하는 플로차트를 도시한다. 도 14에 도시된 바와 같이, 스피치는: (i) 도달 방향 통계(
Figure pct00053
)가 특정한 범위 내에 있고; (ii) 방향 특정 상관 통계(dirCorr)가 미리 결정된 임계치를 초과하고; (iii) 정규화된 최대 상관 통계(normMaxCorr)가 미리 결정된 임계치를 초과하고; (iv) 마이크로폰간 레벨 차 통계(imd)가 미리 결정된 임계치보다 크고; (v) 음성 검출기(92a)가 스피치가 위치(1)로부터 존재함을 검출하면 위치(1)로부터 존재하는 것으로 결정될 수 있다.
도 15는 본 발명의 실시예들에 따른, 도 5에 도시된 바와 같이 스피치가 위치(2)로부터 존재하는지를 결정하기 위해 제어기(56)에 의해 행해질 수 있는 예시적인 비교들을 묘사하는 플로차트를 도시한다. 도 15에 도시된 바와 같이, 스피치는: (i) 도달 방향 통계(
Figure pct00054
)가 특정한 범위 내에 있고; (ii) 브로드사이드 통계가 특정 임계치 미만이고; (iii) 정규화된 최대 상관 통계(normMaxCorr)가 미리 결정된 임계치를 초과하고; (iv) 마이크로폰간 레벨 차 통계(imd)가 마이크로폰 신호들(x1 및 x2)이 대략 동일한 에너지를 가짐을 나타내는 범위 내에 있으며; (v) 음성 검출기(92b)가 위치(2)로부터 존재하는 음성을 검출하면 위치(2)로부터 존재하는 것으로 결정될 수 있다.
도 16은 본 발명의 실시예들에 따른, 도 5에 도시된 바와 같이 스피치가 위치(3)로부터 존재하는지를 결정하기 위해 제어기(56)에 의해 행해질 수 있는 예시적인 비교들을 묘사하는 플로차트를 도시한다. 도 16에 도시된 바와 같이, 스피치는: (i) 도달 방향 통계(
Figure pct00055
)가 특정한 범위 내에 있고; (ii) 방향 특정 상관 통계(dirCorr)가 미리 결정된 임계치 미만이고; (iii) 정규화된 최대 상관 통계(normMaxCorr)가 미리 결정된 임계치를 초과하고; (iv) 마이크로폰간 레벨 차 통계(imd)가 미리 결정된 임계치보다 작으며; (v) 음성 검출기(92c)가 스피치가 위치(3)로부터 존재함을 검출하면 위치(3)로부터 존재하는 것으로 결정될 수 있다.
도 17에 도시된 바와 같이, 제어기(56)는 선택된 빔 포머(54)의 조기 또는 빈번한 스위칭을 회피하기 위해 홀드오프 로직(holdoff logic)을 구현할 수 있다. 예를 들면, 도 17에 도시된 바와 같이, 제어기(56)는 선택되지 않은 빔 포머(54)에 대한 주사 방향으로 임계 수의 즉각적인 스피치 검출이 발생했을 때 빔 선택자(58)로 하여금 빔포머들(54) 사이를 스위칭하게 할 수 있다. 예를 들면, 홀드오프 로직은 단계(102)에서 위치("i")로부터의 사운드가 검출되는지의 여부를 결정함으로써 시작될 수 있다. 위치("i")로부터의 사운드가 검출되지 않으면, 단계(104)에서, 홀드오프 로직은 또 다른 위치로부터의 사운드가 검출되는지를 결정할 수 있다. 또 다른 위치로부터의 사운드가 검출되면, 단계(106)에서 홀드오프 로직은 위치("i")에 대한 홀드오프 카운터를 재설정할 수 있다.
단계(102)에서, 위치("i")로부터의 사운드가 검출되면, 단계(108)에서, 홀드오프 로직은 위치("i")에 대한 홀드오프 카운터를 증가시킬 수 있다.
단계(110)에서, 홀드오프 로직은 홀드오프 카운터가 위치("i")에 대해, 임계치보다 큰지를 결정할 수 있다. 임계치보다 작으면, 제어기(56)는 단계(112)에서 선택된 빔 포머(54)를 현재 위치에 유지시킬 수 있다. 그렇지 않으면, 임계치보다 크면, 제어기(56)는 선택된 빔 포머(54)를 단계(114)에서 위치("i")의 주사 방향을 가지는 빔 포머(54)로 스위칭할 수 있다.
상기 설명된 바와 같은 홀드오프 로직은 관심 있는 각각의 위치/주사 방향으로 구현될 수 있다.
다시 도 6에 의하면, 공간적으로 제어된 적응형 필터(62)에 의한 프로세싱 후에, 결과적인 신호는 다른 신호 프로세싱 블록들에 의해 프로세싱될 수 있다. 예를 들면, 공간적으로 제어된 잡음 감소기(64)는 제어기(56)에 의해 생성된 공간 제어들이 스피치 유사 간섭이 원하는 스피치가 아니라고 나타내면, 배경 잡음의 추정을 개선할 수 있다.
또한, 마이크로폰 어레이의 방향이 변경될 때, 마이크로폰 입력 신호 레벨은 사용자의 입에 근접한 어레이의 함수로서 달라질 수 있다. 이 갑작스러운 신호 레벨 변경은 프로세싱된 출력에서 원하지 않는 오디오 아티팩트들을 도입할 수 있다. 그에 따라, 공간적으로 제어된 자동 레벨 제어기(66)는 마이크로폰 어레이의 방향의 변경들에 기초하여 신호 압축/확장 레벨을 동적으로 제어할 수 있다. 예를 들면, 어레이가 입에 매우 가까이 있게 될 때 포화를 회피하기 위해 입력 신호에 감쇠가 빠르게 적용될 수 있다. 구체적으로, 어레이가 위치(1)로부터 위치(3)로 이동되면, 위치(1)에서 원래 적응된 자동 레벨 제어 시스템의 양의 이득은 위치(3)로부터 나오는 신호를 클리핑(clipping)할 수 있다. 유사하게, 어레이가 위치(3)로부터 위치(1)로 이동되면, 위치(3)에 대해 의도된 자동 레벨 제어 시스템의 음의 이득은 위치(1)로부터 나오는 신호를 감쇠시킬 수 있고, 그에 의해 이득이 위치(3)에 대해 다시 적응할 때까지 프로세싱된 출력으로 하여금 거의 없게(be quiet) 한다. 그에 따라, 공간적으로 제어된 자동 레벨 제어기(66)는 각각의 위치에 대해 관련되는 초기 이득으로 자동 레벨 제어를 부트스트래핑(bootstrapping)함으로써 이들 문제점들을 완화시킬 수 있다. 공간적으로 제어된 자동 레벨 제어기(66)는 또한, 스피치 레벨 역학을 설명하기 위해 이 초기 이득으로부터 적응할 수 있다.
특히 본 발명의 이득을 가진 당업자들에 의해, 특히 도면들과 관련하여 본 명세서에서 설명된 다양한 동작들이 다른 회로 또는 다른 하드웨어 구성요소들에 의해 구현될 수 있음이 이해되어야 한다. 주어진 방법의 각각의 동작이 수행되는 순서가 변경될 수 있고, 본 명세서에 도시된 시스템들의 다양한 요소들은 부가, 재정렬, 조합, 생략, 수정, 등이 될 수 있다. 본 발명이 모든 이러한 수정들 및 변경들을 포함하도록 의도되고 그에 따라, 상기 설명은 제한적인 의미가 아니라 예시적인 것으로 간주되어야 한다.
유사하게, 본 발명이 특정 실시예들을 참조할지라도, 본 발명의 범위 및 커버리지(coverage)를 벗어나지 않고 이들 실시예들에 대한 특정 수정들 및 변경들이 행해질 수 있다. 게다가, 특정 실시예들에 대해 본 명세서에서 설명되는 문제들에 대한 임의의 이득들, 장점들, 또는 해결책들은 중요하거나, 요구되거나, 필수적인 특징 또는 요소로서 해석되도록 의도되지 않는다.
마찬가지로, 본 발명의 이득을 갖는, 또 다른 실시예들은 당업자들에게 명백할 것이며, 이러한 실시예들은 본 명세서에 포함되는 것으로 간주되어야 한다.

Claims (40)

  1. 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법으로서, 상기 어레이는 상기 어레이의 사용자에 관해 복수의 위치 방향들을 가질 수 있는, 상기 방법에 있어서:
    복수의 정규화된 상호 상관 함수들을 주기적으로 계산하는 단계로서, 각각의 상호 상관 함수는 스피치(speech)의 원하는 소스에 대한 상기 어레이의 가능한 방향에 대응하는, 상기 계산 단계;
    상기 복수의 정규화된 상호 상관 함수들에 기초하여 상기 스피치의 원하는 소스에 관한 상기 어레이의 방향을 결정하는 단계;
    상기 복수의 정규화된 상호 상관 함수들에 기초하여 상기 어레이의 방향의 변경들을 검출하는 단계; 및
    상기 어레이의 방향의 변경에 응답하여, 상기 스피치의 원하는 소스로부터의 스피치가 간섭 사운드들을 감소시키면서 보존되도록 상기 오디오 디바이스의 음성 프로세싱 파라미터들을 동적으로 수정하는 단계를 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  2. 제 1 항에 있어서,
    상기 오디오 디바이스는 헤드셋을 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  3. 제 2 항에 있어서,
    상기 복수의 마이크로폰들의 어레이는 상기 스피치의 원하는 소스에 관한 상기 복수의 마이크로폰들의 어레이의 위치가 고정되지 않도록 상기 헤드셋의 제어 박스에 위치되는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  4. 제 1 항에 있어서,
    상기 스피치의 원하는 소스는 상기 사용자의 입인, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  5. 제 1 항에 있어서,
    음성 프로세싱 파라미터들을 수정하는 단계는 사운드 에너지를 프로세싱하기 위해 상기 오디오 디바이스의 복수의 지향성 빔포머(beamformer)들로부터 하나의 지향성 빔포머를 선택하는 단계를 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  6. 제 5 항에 있어서,
    근접장 전파 손실의 보상을 위한 근접장 스피치, 확산된 잡음, 및 원거리장 잡음 중 적어도 하나의 존재에 응답하여 상기 복수의 마이크로폰들의 어레이를 교정하는 단계를 더 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  7. 제 6 항에 있어서,
    상기 복수의 마이크로폰들의 어레이를 교정하는 단계는 사운드 에너지를 프로세싱하기 위해 상기 지향성 빔포머에 의해 사용되는 교정 신호를 생성하는 단계를 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  8. 제 6 항에 있어서,
    상기 복수의 마이크로폰들의 어레이를 교정하는 단계는 상기 어레이의 방향의 변경에 기초하여 교정하는 단계를 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  9. 제 5 항에 있어서,
    상기 복수의 지향성 빔포머들의 출력에 기초하여 스피치의 존재를 검출하는 단계를 더 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  10. 제 1 항에 있어서,
    상기 지향성 빔포머의 주사 방향(look direction)은 상기 어레이의 방향의 변경에 기초하여 동적으로 수정되는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  11. 제 1 항에 있어서,
    상기 오디오 디바이스의 음성 프로세싱 파라미터들을 동적으로 수정하는 단계는 상기 스피치의 원하는 소스에 대한 상기 복수의 마이크로폰들의 어레이의 근접성의 변경들을 설명하기 위해 스피치를 프로세싱하는 단계를 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  12. 제 1 항에 있어서,
    적응형 공간 필터로 공간적으로 비정상 잡음들(spatially non-stationary noise)을 적응적으로 소거하는 단계를 더 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  13. 제 12 항에 있어서,
    적응형 널형성기(nullformer)를 사용하여 상기 적응형 공간 필터에 대한 잡음 기준을 생성하는 단계를 더 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  14. 제 13 항에 있어서,
    상기 스피치의 원하는 소스로부터 스피치의 도달 방향을 추적하는 단계; 및
    상기 스피치의 도달 방향 및 상기 어레이의 방향의 변경에 기초하여 상기 적응형 널형성기의 널 방향을 동적으로 수정하는 단계를 더 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  15. 제 13 항에 있어서,
    근접장 전파 손실의 보상을 위한 근접장 스피치, 확산된 잡음, 및 원거리장 잡음 중 적어도 하나의 존재에 응답하여 상기 복수의 마이크로폰들의 어레이를 교정하는 단계를 더 포함하고, 상기 복수의 마이크로폰들의 어레이를 교정하는 단계는 상기 잡음 기준을 생성하는 단계를 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  16. 제 12 항에 있어서,
    근접장 스피치의 존재를 모니터링하는 단계; 및
    상기 근접장 스피치의 존재의 검출에 응답하여 상기 적응형 공간 필터의 적응을 중단시키는 단계를 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  17. 제 1 항에 있어서,
    상기 스피치의 원하는 소스로부터 스피치의 도달 방향을 추적하는 단계를 더 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  18. 제 1 항에 있어서,
    상기 어레이의 방향에 기초하여 단일 채널 잡음 감소 알고리즘의 잡음 추정을 제어하는 단계를 더 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  19. 제 1 항에 있어서,
    상기 복수의 정규화된 상호 상관 함수들, 사운드의 원하는 소스로부터의 도달 방향의 추정치, 마이크로폰간 레벨 차, 및 스피치의 존재 또는 부재에 기초하여 상기 어레이의 방향을 검출하는 단계를 더 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  20. 제 1 항에 있어서,
    홀드오프 메커니즘(holdoff mechanism)을 사용하여 상기 어레이의 방향을 입증하는 단계를 더 포함하는, 복수의 마이크로폰들의 어레이를 가지는 오디오 디바이스에서의 음성 프로세싱을 위한 방법.
  21. 오디오 디바이스의 적어도 일부를 구현하기 위한 집적 회로에 있어서:
    상기 오디오 디바이스의 적어도 하나의 트랜스듀서(transducer)에 대한 통신을 위해 오디오 출력 신호를 생성함으로써 오디오 정보를 재생하도록 구성된 오디오 출력부;
    복수의 마이크로폰들의 어레이로서, 상기 어레이의 사용자에 관해 복수의 위치 방향들을 가질 수 있는, 상기 복수의 마이크로폰들의 어레이; 및
    근접장 검출기를 구현하도록 구성된 프로세서를 포함하고, 상기 프로세서는:
    각각의 상호 상관 함수가 스피치의 원하는 소스에 대한 상기 어레이의 가능한 방향에 대응하는, 복수의 정규화된 상호 상관 함수들을 주기적으로 계산하고;
    상기 복수의 정규화된 상호 상관 함수들에 기초하여 상기 스피치의 원하는 소스에 관한 상기 어레이의 방향을 결정하고;
    상기 복수의 정규화된 상호 상관 함수들에 기초하여 상기 어레이의 방향의 변경들을 검출하고;
    상기 어레이의 방향의 변경에 응답하여, 상기 스피치의 원하는 소스로부터의 스피치가 간섭 사운드들을 감소시키면서 보존되도록 상기 오디오 디바이스의 음성 프로세싱 파라미터들을 동적으로 수정하도록 구성되는, 집적 회로.
  22. 제 21 항에 있어서,
    상기 오디오 디바이스는 헤드셋을 포함하는, 집적 회로.
  23. 제 21 항에 있어서,
    상기 복수의 마이크로폰들의 어레이는 상기 원하는 소스에 관한 상기 복수의 마이크로폰들의 어레이의 위치가 고정되지 않도록 상기 헤드셋의 제어 박스에 위치되는, 집적 회로.
  24. 제 21 항에 있어서,
    상기 스피치의 원하는 소스는 상기 사용자의 입인, 집적 회로.
  25. 제 21 항에 있어서,
    음성 프로세싱 파라미터들을 수정하는 것은 사운드 에너지를 프로세싱하기 위해 상기 오디오 디바이스의 복수의 지향성 빔포머들로부터 하나의 지향성 빔포머를 선택하는 것을 포함하는, 집적 회로.
  26. 제 25 항에 있어서,
    근접장 전파 손실의 보상을 위한 근접장 스피치, 확산된 잡음, 및 원거리장 잡음 중 적어도 하나의 존재에 응답하여 상기 복수의 마이크로폰들의 어레이를 교정하는 것을 더 포함하는, 집적 회로.
  27. 제 26 항에 있어서,
    상기 복수의 마이크로폰들의 어레이를 교정하는 것은 사운드 에너지를 프로세싱하기 위해 상기 지향성 빔포머에 의해 사용되는 교정 신호를 생성하는 것을 포함하는, 집적 회로.
  28. 제 26 항에 있어서,
    상기 복수의 마이크로폰들의 어레이를 교정하는 것은 상기 어레이의 방향의 변경에 기초하여 교정하는 것을 포함하는, 집적 회로.
  29. 제 25 항에 있어서,
    상기 복수의 지향성 빔포머들의 출력에 기초하여 스피치의 존재를 검출하는 것을 더 포함하는, 집적 회로.
  30. 제 25 항에 있어서,
    상기 지향성 빔포머의 주사 방향은 상기 어레이의 방향의 변경에 기초하여 동적으로 수정되는, 집적 회로.
  31. 제 21 항에 있어서,
    상기 오디오 디바이스의 음성 프로세싱 파라미터들을 동적으로 수정하는 것은 상기 스피치의 원하는 소스에 대한 상기 복수의 마이크로폰들의 어레이의 근접성의 변경들을 설명하기 위해 스피치를 프로세싱하는 것을 포함하는, 집적 회로.
  32. 제 21 항에 있어서,
    적응형 공간 필터로 공간적으로 비정상 잡음들을 적응적으로 소거하는 것을 더 포함하는, 집적 회로.
  33. 제 32 항에 있어서,
    적응형 널형성기를 사용하여 상기 적응형 공간 필터에 대한 잡음 기준을 생성하는 것을 더 포함하는, 집적 회로.
  34. 제 33 항에 있어서,
    상기 스피치의 원하는 소스로부터 스피치의 도달 방향을 추적하는 것; 및
    상기 도달 방향 및 상기 어레이의 방향의 변경에 기초하여 상기 적응형 널형성기의 널 방향을 동적으로 수정하는 것을 더 포함하는, 집적 회로.
  35. 제 33 항에 있어서,
    근접장 전파 손실의 보상을 위한 근접장 스피치, 확산된 잡음, 및 원거리장 잡음 중 적어도 하나의 존재에 응답하여 상기 복수의 마이크로폰들의 어레이를 교정하는 것을 더 포함하고, 상기 복수의 마이크로폰들의 어레이를 교정하는 것은 상기 잡음 기준을 생성하는 것을 포함하는, 집적 회로.
  36. 제 32 항에 있어서,
    근접장 스피치의 존재를 모니터링하는 것; 및
    상기 근접장 스피치의 존재의 검출에 응답하여 상기 적응형 공간 필터의 적응을 중단시키는 것을 포함하는, 집적 회로.
  37. 제 21 항에 있어서,
    상기 스피치의 원하는 소스로부터 스피치의 도달 방향을 추적하는 것을 더 포함하는, 집적 회로.
  38. 제 21 항에 있어서,
    상기 어레이의 방향에 기초하여 단일 채널 잡음 감소 알고리즘의 잡음 추정을 제어하는 것을 더 포함하는, 집적 회로.
  39. 제 21 항에 있어서,
    상기 복수의 정규화된 상호 상관 함수들, 사운드의 원하는 소스로부터의 도달 방향의 추정치, 마이크로폰간 레벨 차, 및 스피치의 존재 또는 부재에 기초하여 상기 어레이의 방향을 검출하는 것을 더 포함하는, 집적 회로.
  40. 제 21 항에 있어서,
    홀드오프 메커니즘을 사용하여 상기 어레이의 방향을 입증하는 것을 더 포함하는, 집적 회로.
KR1020197037044A 2017-05-15 2018-05-11 가변 마이크로폰 어레이 방향을 갖는 헤드셋들을 위한 듀얼 마이크로폰 음성 프로세싱 KR102352928B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/595,168 US10297267B2 (en) 2017-05-15 2017-05-15 Dual microphone voice processing for headsets with variable microphone array orientation
US15/595,168 2017-05-15
PCT/US2018/032180 WO2018213102A1 (en) 2017-05-15 2018-05-11 Dual microphone voice processing for headsets with variable microphone array orientation

Publications (2)

Publication Number Publication Date
KR20200034670A true KR20200034670A (ko) 2020-03-31
KR102352928B1 KR102352928B1 (ko) 2022-01-21

Family

ID=59462328

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197037044A KR102352928B1 (ko) 2017-05-15 2018-05-11 가변 마이크로폰 어레이 방향을 갖는 헤드셋들을 위한 듀얼 마이크로폰 음성 프로세싱

Country Status (6)

Country Link
US (1) US10297267B2 (ko)
KR (1) KR102352928B1 (ko)
CN (1) CN110741434B (ko)
GB (2) GB2562544A (ko)
TW (1) TWI713844B (ko)
WO (1) WO2018213102A1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11019414B2 (en) * 2012-10-17 2021-05-25 Wave Sciences, LLC Wearable directional microphone array system and audio processing method
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
CN106782585B (zh) * 2017-01-26 2020-03-20 芋头科技(杭州)有限公司 一种基于麦克风阵列的拾音方法及系统
US10395667B2 (en) * 2017-05-12 2019-08-27 Cirrus Logic, Inc. Correlation-based near-field detector
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
US10885907B2 (en) 2018-02-14 2021-01-05 Cirrus Logic, Inc. Noise reduction system and method for audio device with multiple microphones
US10524048B2 (en) * 2018-04-13 2019-12-31 Bose Corporation Intelligent beam steering in microphone array
US10771887B2 (en) * 2018-12-21 2020-09-08 Cisco Technology, Inc. Anisotropic background audio signal control
CN111627425B (zh) * 2019-02-12 2023-11-28 阿里巴巴集团控股有限公司 一种语音识别方法及系统
US11276397B2 (en) * 2019-03-01 2022-03-15 DSP Concepts, Inc. Narrowband direction of arrival for full band beamformer
CN112216298B (zh) * 2019-07-12 2024-04-26 大众问问(北京)信息科技有限公司 双麦克风阵列声源定向方法、装置及设备
TWI736117B (zh) * 2020-01-22 2021-08-11 瑞昱半導體股份有限公司 聲音定位裝置與方法
CN113347519B (zh) * 2020-02-18 2022-06-17 宏碁股份有限公司 消除特定对象语音的方法及应用其的耳戴式声音信号装置
US11670298B2 (en) * 2020-05-08 2023-06-06 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
US11783826B2 (en) * 2021-02-18 2023-10-10 Nuance Communications, Inc. System and method for data augmentation and speech processing in dynamic acoustic environments
CN112995838B (zh) * 2021-03-01 2022-10-25 支付宝(杭州)信息技术有限公司 拾音设备、拾音系统和音频处理方法
CN113253244A (zh) * 2021-04-07 2021-08-13 深圳市豪恩声学股份有限公司 Tws耳机距离传感器校准方法、设备和存储介质
WO2023287416A1 (en) * 2021-07-15 2023-01-19 Hewlett-Packard Development Company, L.P. Rendering avatar to have viseme corresponding to phoneme within detected speech

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010281816A (ja) * 2009-06-04 2010-12-16 Honda Motor Co Ltd 音源方向推定装置及び音源方向推定方法
KR20130114162A (ko) * 2010-10-25 2013-10-16 퀄컴 인코포레이티드 녹음된 사운드 신호에 기초한 머리 추적을 위한 시스템, 방법, 장치 및 컴퓨터 판독가능 매체
US20140093091A1 (en) * 2012-09-28 2014-04-03 Sorin V. Dusan System and method of detecting a user's voice activity using an accelerometer

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003264048A1 (en) * 2002-08-09 2004-02-25 Intersense, Inc. Motion tracking system and method
US7492889B2 (en) 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
EP2146519B1 (en) * 2008-07-16 2012-06-06 Nuance Communications, Inc. Beamforming pre-processing for speaker localization
US8565446B1 (en) 2010-01-12 2013-10-22 Acoustic Technologies, Inc. Estimating direction of arrival from plural microphones
US9313572B2 (en) * 2012-09-28 2016-04-12 Apple Inc. System and method of detecting a user's voice activity using an accelerometer
US9131041B2 (en) 2012-10-19 2015-09-08 Blackberry Limited Using an auxiliary device sensor to facilitate disambiguation of detected acoustic environment changes
US9532138B1 (en) 2013-11-05 2016-12-27 Cirrus Logic, Inc. Systems and methods for suppressing audio noise in a communication system
EP3269150A1 (en) * 2015-03-10 2018-01-17 Ossic Corporation Calibrating listening devices
US9607603B1 (en) 2015-09-30 2017-03-28 Cirrus Logic, Inc. Adaptive block matrix using pre-whitening for adaptive beam forming
US9838783B2 (en) 2015-10-22 2017-12-05 Cirrus Logic, Inc. Adaptive phase-distortionless magnitude response equalization (MRE) for beamforming applications
US9479885B1 (en) 2015-12-08 2016-10-25 Motorola Mobility Llc Methods and apparatuses for performing null steering of adaptive microphone array
US9980075B1 (en) * 2016-11-18 2018-05-22 Stages Llc Audio source spatialization relative to orientation sensor and output

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010281816A (ja) * 2009-06-04 2010-12-16 Honda Motor Co Ltd 音源方向推定装置及び音源方向推定方法
KR20130114162A (ko) * 2010-10-25 2013-10-16 퀄컴 인코포레이티드 녹음된 사운드 신호에 기초한 머리 추적을 위한 시스템, 방법, 장치 및 컴퓨터 판독가능 매체
US20140093091A1 (en) * 2012-09-28 2014-04-03 Sorin V. Dusan System and method of detecting a user's voice activity using an accelerometer

Also Published As

Publication number Publication date
GB2575404B (en) 2022-02-09
GB201915795D0 (en) 2019-12-18
CN110741434B (zh) 2021-05-04
US10297267B2 (en) 2019-05-21
TWI713844B (zh) 2020-12-21
WO2018213102A1 (en) 2018-11-22
GB2562544A (en) 2018-11-21
GB2575404A (en) 2020-01-08
CN110741434A (zh) 2020-01-31
GB201709855D0 (en) 2017-08-02
KR102352928B1 (ko) 2022-01-21
TW201901662A (zh) 2019-01-01
US20180330745A1 (en) 2018-11-15

Similar Documents

Publication Publication Date Title
KR102352928B1 (ko) 가변 마이크로폰 어레이 방향을 갖는 헤드셋들을 위한 듀얼 마이크로폰 음성 프로세싱
US10079026B1 (en) Spatially-controlled noise reduction for headsets with variable microphone array orientation
US10885907B2 (en) Noise reduction system and method for audio device with multiple microphones
US9520139B2 (en) Post tone suppression for speech enhancement
US9818425B1 (en) Parallel output paths for acoustic echo cancellation
US10331396B2 (en) Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrival estimates
KR101184806B1 (ko) 강인한 두 마이크로폰 잡음 억제 시스템
US8644517B2 (en) System and method for automatic disabling and enabling of an acoustic beamformer
US7464029B2 (en) Robust separation of speech signals in a noisy environment
US9215328B2 (en) Beamforming apparatus and method based on long-term properties of sources of undesired noise affecting voice quality
CN110140359B (zh) 使用波束形成的音频捕获
WO2008041878A2 (en) System and procedure of hands free speech communication using a microphone array
US10638224B2 (en) Audio capture using beamforming
US9813808B1 (en) Adaptive directional audio enhancement and selection
US9313573B2 (en) Method and device for microphone selection
US11277685B1 (en) Cascaded adaptive interference cancellation algorithms
US9443531B2 (en) Single MIC detection in beamformer and noise canceller for speech enhancement
US9646629B2 (en) Simplified beamformer and noise canceller for speech enhancement
US9510096B2 (en) Noise energy controlling in noise reduction system with two microphones
US20190348056A1 (en) Far field sound capturing
Kodrasi et al. Curvature-based optimization of the trade-off parameter in the speech distortion weighted multichannel wiener filter
CN110140171B (zh) 使用波束形成的音频捕获

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right