KR102545750B1 - 헤드셋들을 위한 유연한 음성 캡처 프론트-엔드 - Google Patents

헤드셋들을 위한 유연한 음성 캡처 프론트-엔드 Download PDF

Info

Publication number
KR102545750B1
KR102545750B1 KR1020197032933A KR20197032933A KR102545750B1 KR 102545750 B1 KR102545750 B1 KR 102545750B1 KR 1020197032933 A KR1020197032933 A KR 1020197032933A KR 20197032933 A KR20197032933 A KR 20197032933A KR 102545750 B1 KR102545750 B1 KR 102545750B1
Authority
KR
South Korea
Prior art keywords
voice activity
microphone
signal processing
processing device
activity detection
Prior art date
Application number
KR1020197032933A
Other languages
English (en)
Other versions
KR20190135045A (ko
Inventor
브렌튼 로버트 스틸레
벤자민 허친스
후 천
Original Assignee
시러스 로직 인터내셔널 세미컨덕터 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 시러스 로직 인터내셔널 세미컨덕터 리미티드 filed Critical 시러스 로직 인터내셔널 세미컨덕터 리미티드
Publication of KR20190135045A publication Critical patent/KR20190135045A/ko
Application granted granted Critical
Publication of KR102545750B1 publication Critical patent/KR102545750B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • G10K11/341Circuits therefor
    • G10K11/346Circuits therefor using phase variation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/25Array processing for suppression of unwanted side-lobes in directivity characteristics, e.g. a blocking matrix

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

구성가능한 음성 활동 검출을 위한 신호 프로세싱 디바이스. 복수의 입력은 개별 마이크로폰 신호들을 수신한다. 마이크로폰 신호 라우터는 마이크로폰 신호들을 구성가능하게 라우팅한다. 적어도 하나의 음성 활동 검출 모듈은 라우터로부터 마이크로폰 신호들의 쌍을 수신하고, 스피치 또는 노이즈가 음성 활동 검출 모듈에 의해 마이크로폰 신호들의 개별 쌍에서 검출되었는지를 표시하는 개별 출력을 생성한다. 음성 활동 판정 모듈은 음성 활동 검출 모듈(들)의 출력을 수신하고, 음성 활동이 마이크로폰 신호들에 존재하는지를 결정한다. 공간 노이즈 감소 모듈은 마이크로폰 신호 라우터로부터 마이크로폰 신호들을 수신하고, 음성 활동 판정 모듈의 출력에 부분적으로 기초하여 적응성 빔포밍을 수행하고, 공간 노이즈 감소 출력을 출력한다. 디바이스는 매우 다양한 헤드셋 폼 팩터들 중 하나에 대한 공간 노이즈 감소를 전달하기 위한 간단한 구성능력을 허용한다.

Description

헤드셋들을 위한 유연한 음성 캡처 프론트-엔드
본 발명은 헤드셋 음성 캡처, 및 특히 복수의 헤드셋 폼 팩터(form factor) 중 임의의 폼 팩터, 또는 심지어 다소 임의의 헤드셋 폼 팩터에 대한 음성 캡처 기능들을 제공하도록 간단하게 구성될 수 있는 시스템, 및 그 시스템을 시행하는 방법에 관한 것이다.
헤드셋들은 사용자가 음악 또는 오디오를 개인적으로 듣거나, 핸즈-프리 전화를 걸거나 음성 커맨드들을 음성 인식 시스템에게 전달하기 위한 대중적인 방식이다. 이어버드(earbud)들, 온-이어(on-ear)(개방형), 오버-이어(over-ear)(밀폐형), 넥밴드(neckband), 펜던트 등을 포함하는 다양한 헤드셋 폼 팩터, 즉 헤드셋들의 타입들이 이용가능하다. 유선 아날로그, USB, 블루투스 등을 포함하는 몇몇 헤드셋 연결 솔루션들이 또한 존재한다. 고객을 위해서는, 그런 폼 팩터들을 다양하게 선택하는 것이 바람직하지만, 헤드셋의 폼 팩터 및 헤드셋 상의 마이크로폰들의 정확한 위치에 의해 정의되는 바와 같은 디바이스의 기하구조에 크게 의존하는 다수의 오디오 프로세싱 알고리즘이 있고, 이에 의해 헤드셋 폼 팩터가, 알고리즘이 구성된 예상 기하구조와 상이한 경우 알고리즘의 성능이 현저하게 떨어질 것이다.
음성 캡처 사용 사례는, 헤드셋 사용자의 음성이 캡처되고 임의의 주변 노이즈가 최소화되는 상황을 지칭한다. 이런 사용의 경우에 대한 일반적인 시나리오들은, 사용자가 음성 통화를 하거나, 스피치 인식 시스템과 상호작용할 때이다. 이들 시나리오들 둘 모두는 기본 알고리즘들에 엄격한 요건들을 둔다. 음성 통화들에 대해, 전화 표준들 및 사용자 요건들은, 우수한 사운드 품질로 높은 레벨들의 노이즈 감소가 달성되는 것을 요구한다. 유사하게, 스피치 인식 시스템들은 통상적으로 가능한 한 많은 노이즈를 제거하면서 오디오 신호가 최소로 수정될 것을 요구한다. 사용자가 말하고 있는지 아닌지 여부에 대한 응답으로 알고리즘의 동작을 변경하는 것이 중요한 다수의 신호 프로세싱 알고리즘이 존재한다. 따라서, 신호 내에 스피치의 존재 또는 부재를 결정하기 위해 입력 신호를 프로세싱하는 음성 활동 검출은 음성 캡처 및 다른 그런 신호 프로세싱 알고리즘들의 중요한 양태이다. 그러나, 음성 캡처는 일반적인 알고리즘 아키텍처로 시행하기에 특히 어렵다.
헤드셋 사용자 음성을 캡처하기 위해 존재하는 많은 알고리즘이 있지만, 그런 알고리즘들은 언제나 관련 헤드셋에 대한 마이크로폰들의 특정 구성 및 특정 헤드셋 폼 팩터를 위해 특정하게 설계되고 최적화된다. 주어진 폼 팩터에 대해서도, 헤드셋들은 매우 다양한 가능한 마이크로폰 포지션들(각각의 귀 상의 마이크로폰들, 외이도에 대해 내부 또는 외부, 각각의 귀 상의 다수의 마이크로폰, 목에 두른 마이크로폰들 등)을 갖는다. 도 1은 음성 캡처 기능을 각각 필요로 할 수 있는 가능한 많은 마이크로폰 포지션들의 일부 예들을 도시한다. 도 1에서, 검정 점들은 특정 설계에 존재하는 마이크로폰들을 나타내고, 개방 원들은 사용되지 않은 마이크로폰 위치들을 표시한다. 알 수 있는 바와 같이, 그런 폼 팩터들 및 이용가능한 마이크로폰 포지션들의 급증으로, 개발 및 테스트될 필요가 있는 음성 캡처 솔루션들의 수는 빠르게 관리하기 어렵게 될 수 있다. 마찬가지로, 각각의 솔루션이 상이한 방식으로 튜닝되고 매우 숙련된 엔지니어 시간을 필요로 할 수 있어서, 비용들이 증가하므로 튜닝은 매우 어렵게 될 수 있다.
본 명세서에 포함된 문서들, 행위들, 재료들, 디바이스들, 물품들 등의 임의의 논의는 단지 본 발명에 대한 맥락을 제공하는 목적을 위한 것이다. 이들 문제들 중 임의의 것 또는 모두가 종래 기술 베이스의 일부를 형성하거나 본 출원의 각각의 청구항의 우선일 이전에 존재하는 바와 같은 본 발명에 관련된 분야에서 공통의 일반적인 지식인 것으로 인정되지 않아야 한다.
본 명세서 전반에 걸쳐, "포함하다", 또는 "포함하다" 또는 "포함하는"과 같은 변형들의 단어가 언급된 엘리먼트, 정수 또는 단계, 또는 엘리먼트들의 그룹, 정수들 또는 단계들을 포함하지만, 임의의 다른 엘리먼트, 정수 또는 단계, 또는 엘리먼트들의 그룹, 정수들 또는 단계들의 배제가 아님을 의미하는 것으로 이해될 것이다.
본 명세서에서, 엘리먼트가 옵션들의 리스트 중 "적어도 하나"일 수 있다는 언급은, 엘리먼트가 나열된 옵션들 중 임의의 하나일 수 있거나, 나열된 옵션들 중 2개 이상의 임의의 조합일 수 있다는 것이 이해되어야 한다.
제1 양태에 따르면, 본 발명은 구성가능한 음성 활동 검출을 위한 신호 프로세싱 디바이스를 제공하고, 이 디바이스는:
개별 마이크로폰 신호들을 수신하기 위한 복수의 입력;
입력들로부터 마이크로폰 신호들을 라우팅하기 위한 마이크로폰 신호 라우터;
마이크로폰 신호 라우터로부터 마이크로폰 신호들의 쌍을 수신하도록 구성되고, 스피치 또는 노이즈가 음성 활동 검출 모듈에 의해 마이크로폰 신호들의 개별 쌍에서 검출되었는지를 표시하는 개별 출력을 생성하도록 구성된 적어도 하나의 음성 활동 검출 모듈;
적어도 하나의 음성 활동 검출 모듈의 출력을 수신하고 음성 활동이 마이크로폰 신호들에 존재하는지를 적어도 하나의 음성 활동 검출 모듈의 출력으로부터 결정하고, 음성 활동이 마이크로폰 신호들에 존재하는지를 표시하는 출력을 생성하기 위한 음성 활동 판정 모듈;
마이크로폰 신호 라우터로부터 마이크로폰 신호들을 수신하고 음성 활동 판정 모듈의 출력에 부분적으로 기초하여 적응성 빔포밍(beamforming)을 수행하고, 공간 노이즈 감소 출력을 출력하기 위한 공간 노이즈 감소 모듈을 포함한다.
제2 양태에 따르면, 본 발명은 구성가능한 프론트 엔드(front end) 음성 활동 검출 시스템을 구성하기 위한 방법을 제공하고, 이 방법은:
선택된 폼 팩터를 갖는 헤드셋의 마이크로폰들에 의해 검출된 이상적인 스피치를 시스템에 제시함으로써 시스템의 일반화된 사이드로브 제거기(generalised sidelobe canceller)의 적응성 블록 매트릭스를 트레이닝하는 단계; 및
트레이닝된 적응성 블록 매트릭스의 세팅들을 일반화된 사이드로브 제거기의 고정 블록 매트릭스에 복사하는 단계를 포함한다.
구성가능한 음성 활동 검출 디바이스를 피팅(fitting)하기 위한 컴퓨터 판독가능 매체로서, 컴퓨터 판독가능 매체는, 하나 이상의 프로세서에 의해 실행될 때,
음성 활동 검출 모듈들로의 마이크로폰 입력들의 라우팅을 구성하는 성능; 및
공간 노이즈 감소 모듈로의 마이크로폰 입력들의 라우팅을 구성하는 성능
을 야기하는 명령어들을 포함한다.
본 발명의 일부 실시예들에서, 공간 노이즈 감소 모듈은 일반화된 사이드로브 제거기 모듈을 포함한다. 그런 실시예들에서, 일반화된 사이드로브 제거기 모듈은 복수의 일반화된 사이드로브 제거 모드를 구비할 수 있고, 상기 모드들 중 하나에 따라 동작하도록 구성될 수 있다.
일반화된 사이드로브 제거기 모듈을 포함하는 실시예들에서, 일반화된 사이드로브 제거기 모듈은:
트레이닝에 의해 구성가능한 고정 블록 매트릭스 모듈; 및
마이크로폰 신호 조건들에 적응하도록 동작가능한 적응성 블록 매트릭스 모듈
을 포함하는 블록 매트릭스 섹션을 포함할 수 있다.
본 발명의 일부 실시예들에서, 신호 프로세싱 디바이스는 복수의 음성 활동 검출 모듈을 더 포함할 수 있다. 예컨대, 신호 프로세싱 디바이스는 4개의 음성 활동 검출 모듈을 포함할 수 있다. 신호 프로세싱 디바이스는 적어도 하나의 레벨 차이 음성 활동 검출 모듈, 및 적어도 하나의 상호 상관 음성 활동 검출 모듈을 포함할 수 있다. 예컨대, 신호 프로세싱 디바이스는 하나의 레벨 차이 음성 활동 검출 모듈, 및 3개의 상호 상관 음성 활동 검출 모듈을 포함할 수 있다.
본 발명의 일부 실시예들에서, 음성 활동 판정 모듈은 진리표를 포함한다. 일부 실시예들에서, 음성 활동 판정 모듈은 고정되고 프로그래밍 가능하지 않다. 다른 실시예들에서, 음성 활동 판정 모듈은, 음성 활동 검출을 디바이스에 피팅할 때 구성가능하다. 일부 실시예들에서 음성 활동 판정 모듈은 투표 알고리즘을 포함할 수 있다. 일부 실시예들에서 음성 활동 판정 모듈은 신경망을 포함할 수 있다.
본 발명의 일부 실시예들에서, 신호 프로세싱 디바이스는 헤드셋이다.
본 발명의 일부 실시예들에서, 신호 프로세싱 디바이스는 헤드셋과 상호운용가능한 마스터 디바이스, 이를테면 스마트폰 또는 태블릿이다.
본 발명의 일부 실시예들에서, 신호 프로세싱 디바이스는 디바이스의 하나 이상의 엘리먼트에 대한 구성 세팅들을 저장하는 구성 레지스터를 더 포함한다.
본 발명의 일부 실시예들에서, 신호 프로세싱 디바이스는 공간 노이즈 감소 모듈의 출력 신호에 백 엔드(back end) 노이즈 감소를 적용하도록 구성된 백 엔드 노이즈 감소 모듈을 더 포함한다.
본 발명의 예는 이제 첨부 도면들을 참조하여 설명될 것이다.
도 1은 헤드셋 폼 팩터들의 예들, 및 각각의 폼 팩터에 대한 일부 가능한 마이크로폰 포지션들을 도시한다.
도 2는 본 발명의 일 실시예에 따른 프론트-엔드 음성 캡처를 위해 구성가능한 시스템의 아키텍처를 예시한다.
도 3a-도 3g는 도 2의 시스템의 일반화된 사이드로브 제거기의 이용가능한 동작 모드들을 예시한다.
도 4a는 도 2의 시스템의 일반화된 사이드로브 제거기로의 구성가능한 마이크로폰 라우팅을 위한 튜닝 툴 규칙들을 예시하고, 도 4b는 도 2의 시스템의 일반화된 사이드로브 제거기를 구성하기 위한 튜닝 툴 규칙들을 예시한다.
도 5는 도 2의 시스템에 대한 피팅 프로세스를 예시한다.
도 6은 도 2의 시스템에 대한 음성 활동 검출(VAD) 라우팅 구성 프로세스를 예시한다.
도 7은 도 2의 시스템에 대한 VAD 구성 프로세스를 예시한다.
도 8은 본 발명의 다른 실시예에 따른 프론트-엔드 음성 캡처를 위해 구성가능한 시스템의 아키텍처를 예시한다.
프론트-엔드 음성 캡처를 위한 시스템(200)의 전체 아키텍처가 도 2에 도시된다. 본 발명의 이 실시예의 시스템(200)은 다양한 헤드셋 폼 팩터들 중 임의의 헤드셋 폼 팩터, 즉 예컨대 도 1에 도시된 것들을 포함하는, 헤드셋들의 타입들에 배치될 수 있는 프론트-엔드 음성 캡처를 위한 유연한 아키텍처를 포함한다. 시스템(200)은, 맞춤형 프론트-엔드 음성 캡처 아키텍처가 각각의 상이한 헤드셋 폼 팩터를 위해 제작되도록 요구하지 않고, 해당 헤드셋이 사용자의 음성을 캡처하도록 최적으로 구성되도록, 프론트-엔드 음성 캡처 동작이 관련된 특정 헤드셋 플랫폼의 폼 팩터에 간단히 맞춤화되거나 튜닝될 수 있다는 점에서 유연하다. 특히, 시스템(200)은 다양한 폼 팩터들 및/또는 마이크로폰 구성들을 갖는 헤드셋들 상에 배치될 수 있는 단일 솔루션으로 설계된다.
더 상세히, 시스템(200)은 디지털 펄스 밀도 변조(pulse density modulation)(PDM) 입력 채널들을 통해 최대 4개의 마이크로폰(212, 214, 216, 218)으로부터 신호들을 수신하도록 동작가능한 마이크로폰 라우터(210)를 포함한다. 이 실시예에서 4개의 마이크로폰 입력 채널의 제공은 선택된 디지털 신호 프로세싱 코어의 디지털 오디오 인터페이스 능력들을 반영하지만, 대안적인 실시예들에서 본 발명은 더 많거나 더 적은 채널의 마이크로폰 입력들을 지원하는 DSP 코어들에 적용될 수 있고 그리고/또는 마이크로폰 신호들은 또한 아날로그 디지털 변환기(analog to digital converter)(ADC)를 통해 아날로그 마이크로폰들로부터 나올 수 있다. 도 2의 점선들에 의해 그래픽으로 표시된 바와 같이, 마이크로폰들(214, 216 및 218)은, 도 1에 도시된 것들과 같이 시스템(200)이 적용되는 헤드셋 폼 팩터에 의존하여 존재할 수 있거나 존재하지 않을 수 있다. 게다가, 각각의 마이크로폰의 위치 및 기하구조는 알려지지 않는다.
마이크로폰 라우터, 즉 마이크로폰 스위칭 매트릭스(210)의 추가 작업은 공간 프로세싱 블록 또는 모듈(240)의 유연성으로 인해 발생하고, 이는 마이크로폰 라우터(210)가 마이크로폰 입력들을 음성 활동 검출 모듈(VAD)들(220, 222, 224, 226)뿐 아니라 다양한 일반화된 사이드로브 제거기 모듈(GSC) 입력들에 독립적으로 라우팅하도록 요구한다.
마이크로폰 라우터(210)의 목적은 ADC들 또는 디지털 마이크 입력들 뒤에 있고 원시 오디오를 신호 프로세싱 블록들 또는 모듈들, 즉 라우팅 어레이에 기반하여 따르는 알고리즘들로 라우팅하는 것이다. 라우터(210) 자체는 매우 유연하고 임의의 라우팅 알고리즘들과 결합될 수 있다.
마이크로폰 라우터(210)는 (아래에 더 상세히 논의된 수단에 의해) 각각의 현존하는 마이크로폰 입력 신호를 하나 이상의 음성 활동 검출(VAD) 모듈(220, 222, 224, 226)에 전달하도록 구성된다. 특히, 마이크로폰 라우터(210)의 구성에 의존하여, 단일 마이크로폰 신호는 하나의 VAD에 전달될 수 있거나 둘 이상의 VAD에 복사될 수 있다. 이 실시예에서 시스템(200)은 4개의 VAD를 포함하고, VAD(220)는 레벨 차이 VAD이고 VAD들(222, 224 및 226)은 상호 상관 VAD들을 포함한다. 본 발명의 다른 실시예들에서, 대안적인 수의 VAD들이 제공될 수 있고, 그리고/또는 상이한 타입들의 VAD들이 제공될 수 있다. 특히, 일부 대안적인 실시예들에서, 다수의 마이크로폰 신호 입력이 제공될 수 있고, 마이크로폰 라우터(210)는 최상의 쌍의 마이크로폰 입력들을 단일 VAD에 라우팅하도록 구성될 수 있다. 그러나, 본 실시예는 4개의 VAD(220, 222, 224, 226)를 제공하는 데, 그 이유는 시스템(200)의 아키텍처가 다양한 헤드셋 폼 팩터들에 관하여 충분히 정확한 음성 활동 검출을 제공하기에 적합한 유연성을 전달하기 위해 3개의 상호 상관 VAD 및 하나의 레벨 차이 VAD를 제공하는 것이 특히 이익이라는 것을 본 발명자들이 발견하였기 때문이다. 선택된 VAD들은 대부분의 일반적인 구성들을 커버한다.
VAD들(220, 222, 224, 226) 각각은 VAD가 스피치를 검출하는지 노이즈를 검출하는지에 대해 결정하기 위해, 마이크로폰 라우터(210)에 의해 해당 VAD로 라우팅되는 2개의 개별 마이크로폰 입력 신호 상에서 동작한다. 특히, 각각의 VAD는, 해당 VAD에 의해 프로세싱된 마이크로폰 신호들의 쌍에서 스피치가 검출되는 경우를 표시하는 하나의 출력, 및 노이즈가 검출되는 경우를 표시하는 제2 출력을 생성한다. 각각의 VAD로부터 2개의 출력에 대한 제공은 각각의 VAD가 불확실한 신호 조건들에서 노이즈도 스피치도 확실하게 검출되지 않은 것을 표시하게 한다. 그러나, 대안적인 실시예들은 스피치가 검출, 또는 스피치 비검출을 표시하는 단일 출력을 가지는 것으로 VAD들의 일부 또는 모두를 구현할 수 있다.
레벨 차이 VAD(220)는 2개의 마이크로폰 신호의 레벨 차이들에 기초하여 음성 활동 검출을 착수하도록 구성되고, 따라서 마이크로폰 라우팅은 입에 가까운 제1 마이크로폰 신호, 및 입으로부터 더 멀리 떨어진 제2 마이크로폰 신호를 이 VAD에게 제공하도록 구성되어야 한다. 레벨 차이 VAD는, 하나의 마이크로폰이 다른 마이크로폰보다 입에 상대적으로 더 가까운(이를테면 하나의 마이크가 귀에 있고 다른 마이크가 입에 가까이 매달린 펜던트 상에 있을 때) 마이크로폰 쌍들을 위해 설계된다. 더 상세히, 레벨 차이 음성 활동 검출기 알고리즘은, 헤드셋을 착용한 사용자로부터 근 거리 스피치를 검출하기 위한 주 메트릭으로서 전대역 레벨 차이를 사용한다. 이는 비교적 넓은 간격을 가진 마이크로폰들과 함께 사용되도록 설계되고, 여기서 하나의 마이크로폰은 다른 마이크로폰보다 입에 상대적으로 더 가깝다. 이런 알고리즘은 저주파수 우세 노이즈의 존재에서 견고성을 개선하기 위해 상이한 주파수 대역들에서 동작하는 검출기의 쌍을 사용하고, 하나의 검출기는 200 Hz의 고역통과 컷오프를 가지며 다른 검출기는 1500 Hz의 고역통과 컷오프를 가진다. 2개의 스피치 검출기 출력은 OR되고 2개의 노이즈 검출기는 AND되어 단일 스피치 및 노이즈 검출기 출력을 제공한다. 2개의 검출기는 다음 단계들을 수행한다: (a) 오디오 블록에 걸쳐 각각의 마이크로폰에 대한 전력을 계산하는 단계; (b) 시간에 따른 전력들과 평활화의 비율을 계산하는 단계; (c) 최소값-제어 재귀 평균(minima-controlled recursive averaging)(MCRA) 스타일 윈도윙 기법을 사용하여 최소값 비율을 추적하는 단계; (d) 현재 비율을 최소값에 비교하는 단계. 델타에 의존하여, 노이즈로서, 스피치 또는 불확정을 검출한다.
상호 상관 VAD들(222, 224, 226)은 사용자의 입으로부터 비교적 유사한 거리에 있는(이를테면 각각의 귀의 마이크로폰, 또는 귀의 마이크들의 쌍) 마이크로폰 쌍들과 함께 사용되도록 설계된다. 제1 상호 상관 VAD(222)는 크로스-헤드(cross-head) VAD에 종종 사용되고, 따라서 마이크로폰 라우팅은 이 VAD에 머리의 좌측으로부터의 제1 마이크로폰 신호 및 머리의 우측으로부터의 제2 마이크로폰 신호를 제공하도록 구성되어야 한다. 제2 상호 상관 VAD(224)는 종종 좌측 VAD에 사용되고, 따라서 마이크로폰 라우팅은 이 VAD에 머리의 좌측 상의 2개의 마이크로폰으로부터의 신호들을 제공하도록 구성되어야 한다. 제3 상호 상관 VAD(224)는 종종 우측 VAD에 사용되고, 따라서 마이크로폰 라우팅은 이 VAD에 머리의 우측 상의 2개의 마이크로폰으로부터의 신호들을 제공하도록 구성되어야 한다. 그러나, 이들 라우팅 옵션들은 단순히 통상적인 옵션들이고 시스템(200)은 헤드셋 폼 팩터 및 다른 변수들에 의존하여 대안적인 라우팅 옵션들을 허용하도록 유연하다.
더 상세히, 각각의 상호 상관 음성 활동 검출기(222, 224, 226)는, 헤드셋을 착용한 사용자로부터 근 거리 스피치를 검출하기 위한 주 메트릭으로서 정규화된 상호-상관을 사용한다. 정규화된 상호 상관은 표준 상호 상관 방정식을 취한다:
Figure 112019113922383-pct00001
이어서, 각각의 프레임을 아래에 의해 정규화한다:
Figure 112019113922383-pct00002
이 메트릭의 최대값은, 비잔향 사운드들이 존재할 때 높고, 잔향 사운드들이 존재할 때 낮기 때문에 사용된다. 일반적으로, 근-거리 스피치는 원거리 스피치보다 잔향이 더 적을 것이어서, 이 메트릭을 우수한 근-거리 검출기로 만든다. 최대값의 포지션은 또한 우세한 사운드의 도착 방향(DOA)을 결정하는 데 사용된다. 알고리즘을 특정 도착 방향으로 최대값만을 찾도록 제한함으로써, DOA 및 상관 기준들 둘 모두는 효율적인 방식으로 함께 적용된다. n의 검색 범위를 미리정의된 윈도우로 제한하고 고정된 임계값을 사용하는 것은, 최대 정규화된 상호 상관이 통상적으로 근-거리 스피치에 대해 0.9를 초과하므로, 낮은 레벨들의 노이즈에서 스피치를 검출하는 정확한 방식이다. 그러나, 높은 레벨들의 노이즈에 대해, 근-거리 스피치에 대한 최대 정규화된 상호 상관은, 오프-축의 존재, 아마도 잔향 노이즈가 메트릭을 바이어싱하기 때문에, 상당히 더 낮다. 이어서, 알고리즘이 높은 SNR들에서 너무 민감하므로, 임계값을 더 낮게 세팅하는 것은 적절하지 않다. 솔루션은 노이즈 감소 시스템들에 기반하여 MCRA에 사용된 유사한 윈도잉 기법을 사용하는 최소값 추적기를 도입하는 것이고 - 그러나, 이 경우 주파수 도메인 값들의 세트보다 오히려, 단일 값이 추적된다. 최소값 내지 1.0 사이의 중간에 있는 임계값이 계산된다. 이 값이 결코 너무 낮게 떨어지지 않는 것을 보장하기 위해 추가 기준들이 적용된다. 비교적 밀접하게 이격된 마이크로폰들이 사용될 때, 원하는 보기 방향이 획득될 수 있는 것을 보장하기 위해 추가 보간 단계가 요구된다. 상관 결과를 업샘플링하는 것은 상호-상관을 계산하기 전에 오디오를 업샘플링하는 것에 비교하여 계산을 수행하기에 훨씬 더 효율적인 방식이고, 정확히 동일한 결과를 제공한다. 선형 보간법은, 매우 효율적이고 업샘플링과 매우 유사한 답변을 제공하므로, 현재 사용된다. 선형 업샘플링에 의해 도입된 차이들은 전체 시스템의 성능에 실질적인 차이를 만들지 않는 것으로 밝혀졌다.
이들 상이한 VADS의 출력들은 공간 프로세싱(240) 및 백-엔드 노이즈 감소(250)의 적응을 유도하기 위해 적절한 방식으로 함께 조합될 필요가 있다. 가장 유연한 방식으로 이를 수행하기 위해, 필요한 임의의 방식으로 이들을 결합할 수 있는 진리표가 구현된다. VAD 진리표(230)는 VAD들(220, 222, 224, 226)의 가능하게 상충하는 출력들을 해결하고 스피치가 검출되는지에 대한 단일 결정을 생성함으로써, 음성 활동 판정 모듈이 되는 목적을 제공한다. 이 목적을 위해, VAD 진리표(230)는 VAD들(220, 222, 224, 226) 모두의 출력들을 입력으로서 취한다. VAD 진리표는 (아래에 더 상세히 논의된 수단에 의해) 룩업 테이블(LUT) 기법을 사용하여 진리표를 구현하도록 구성된다. 진리표의 2개의 사례가 요구되고, 하나의 사례는 스피치 검출 VAD 출력들을 위한 것이고, 하나는 노이즈 검출 VAD 출력들을 위한 것이다. 이것은 2개의 별개의 모듈, 또는 2개의 별개의 진리표를 갖는 단일 모듈로서 구현될 수 있다. 각각의 표에는 4개의 VAD의 조합마다 하나씩인 16개의 진리표 엔트리가 있다. 따라서, 모듈(230)은 매우 유연하고 임의의 알고리즘들과 결합될 수 있다. 이 방법은 VAD 상태들의 어레이를 허용하고 진리표를 구현하기 위해 룩업 테이블을 사용한다. 이것은 최대 4개의 입력 플래그(flag)의 값에 기반하여 단일 출력 플래그를 제공하는 데 사용된다. 디폴트 구성은 예컨대, 모든 활성 VAD 출력들이 스피치를 표시하는 경우만 스피치를 표시하고, 그렇지 않으면 스피치를 표시하지 않는 진리표일 수 있다.
본 발명은, 공간 프로세싱이 또한 유연한 프론트 엔드 음성 활동 검출 시스템에 통합되어야 하는 필수 기능인 것을 추가로 인식한다. 따라서, 시스템(200)은 공간 프로세싱 모듈(240)을 더 포함하고, 공간 프로세싱 모듈(240)은 이 실시예에서 빔포밍을 착수하고 신호 전력을 최소화하고 따라서 노이즈를 억제하기 위해 널(null)을 조정하도록 구성된 일반화된 사이드로브 제거기를 포함한다.
VAD 엘리먼트들(220, 222, 224, 226 및 230) 및 공간 프로세싱(240)은 마이크로폰 포지션에 가장 의존하는 2개의 부분이고, 따라서 이들은 특정 마이크로폰 포지션에 거의 의존하지 않는 매우 일반적인 방식으로 작동하도록 설계된다.
공간 프로세싱(240)은 일반화된 사이드로브 제거기(GSC)에 기반하고 다양한 포지션들에 장착된 최대 4개의 마이크로폰을 처리하도록 주의깊게 설계되었다. 본 실시예들은, 마이크로폰 기하구조의 일부가 2개의 부분으로 블록킹 매트릭스를 구현하고 단일 트레이닝 단계 동안 하나의 부분(도 3a-도 3g에서 FBMn으로 표시됨)의 구성을 고정하고 동작 동안 다른 부분(도 3a-도 3g에서 ABMn으로 표시됨)만이 적응되도록 허용함으로써 블록킹 매트릭스에서 캡처될 수 있다는 것을 인식하므로, GSC는 이 애플리케이션에 매우 적합하다. 본 발명의 대안적인 실시예들에서, 별개의 고정 블록 매트릭스가 사용되지 않고, 대신 단일 적응성 블록 매트릭스를 초기화하기 위해 사전트레이닝이 사용된다. 일반화된 사이드로브 제거기(GSC)는 시스템 객체로서 구현된다. 이는 최대 4개의 입력 신호를 프로세싱하고, 최대 4개의 출력 신호를 생성할 수 있다. 이것은 모듈이 도 3a-도 3g에 도시된 바와 같은 7개의 모드 중 하나로 구성되게 한다.
도 3a는 하나의 스피치 입력(s1), 하나의 노이즈 입력(n1), 하나의 출력(s1)이 있는 경우에 적용되는 GSC(240)에 대한 모드 1을 도시한다. 도 3b는 2개의 입력(s1 & s2), 스피치 = 50:50 혼합, 노이즈 = 차이가 있는 경우에 적용되는 GSC(240)에 대한 모드 2를 도시한다. 도 3c는 2개의 스피치 입력(s1, s2) 50:50 혼합, 하나의 노이즈 입력(n1), 하나의 출력(s1)이 있는 경우에 적용되는 GSC(240)에 대한 모드 3을 도시한다. 도 3d는 하나의 스피치 입력(s1), 2개의 노이즈 입력(n1, n2), 하나의 출력(s1)이 있는 경우에 적용되는 GSC(240)에 대한 모드 4를 도시한다. 도 3e는 2개의 스피치 입력(s1, s2) 50:50 혼합, 2개의 노이즈 입력(n1, n2), 하나의 출력(s1)이 있는 경우에 적용되는 GSC(240)에 대한 모드 5를 도시한다. 도 3f는 2개의 스피치 입력(s1, s2), 2개의 노이즈 입력(n1, n2), 2개의 출력(s1, s2)이 있는 경우에 적용되는 GSC(240)에 대한 모드 6을 도시한다. 도 3g는 2개의 스피치 입력(s1, s2), 2개의 노이즈 입력(n1, n2), 및 하나의 출력(s1)이 있는 경우에 적용될 수 있는 모드 5에 대한 대안적인 모드인 GSC(240)에 대한 모드 7을 도시한다. 모드 7이 모드 5에 대한 경우보다 스피치 왜곡을 덜 유발하는 GSC를 제공하는 것으로 밝혀졌기 때문에, 일부 실시예들에서 모드 7은 모드 5를 대체할 수 있고, 모드 5는 그런 실시예들에서 생략될 수 있다. 따라서, 모드 7은 특히 넥밴드 헤드셋들 및 이어버드 헤드셋들에 응용가능할 수 있다.
모드 1 - 3은 단일 적응성 메인(사이드-로브) 제거기를 포함하고, 블록킹 매트릭스 스테이지는 마이크 입력들의 수 및 타입에 적합하다. 모드 4 & 5는 이중 경로 메인 제거기 스테이지를 포함하고, 2개의 노이즈 기준은 적응적으로 필터링되고, 단일 스피치 채널에서 노이즈를 제거하기 위해 적용되어, 하나의 스피치 출력을 초래한다. 모드 6은 2개의 독립적인 2개의-마이크 GSC를 포함하고, 2개의 상관되지 않은 스피치 출력을 갖는 모드 1을 효과적으로 복제한다.
도 3a-도 3g에서, 모든 적응성 필터들은 시간-도메인 FIR 필터들로서 적용되고, 블록킹 매트릭스는 서브대역 NLMS를 사용하여 적응성 제어를 실행한다.
GSC(240)는 구성가능한 이중 일반화된 사이드로브 제거기(GSC)를 구현한다. GSC(240)는 다수의 마이크로폰 신호 입력을 취하고, 원하지 않는 노이즈를 제거함으로써 스피치를 추출하도록 시도한다. 표준 GSC 토폴로지에 따라, 기본 알고리즘은 2개의 스테이지 프로세스를 이용한다. 제1 스테이지는 노이즈 입력 마이크로폰들로부터 원하는 스피치 신호를 제거하기 위해 하나 이상의 FIR 필터를 적응시키도록 시도하는 블록킹 매트릭스(BM)를 포함한다. 이어서, 결과적인 "노이즈 기준(들)”은 종종 사이드로브 제거기라 지칭되는 제2 스테이지 "메인 제거기"(MC)에 전송된다. 이 스테이지는 입력 스피치 마이크(들) 및 블록킹 매트릭스 스테이지로부터의 노이즈 기준들을 결합하고 출력 스피치 신호로부터 노이즈를 제거(또는 최소화)하도록 시도한다.
그러나, 종래의 GSC 동작과 달리, GSC(240)는 다음과 같이 라벨(S1 - 스피치 마이크 1; S2 - 스피치 마이크 2; N1 - 노이즈 마이크 1; N2 - 노이즈 마이크 2)이 달린 입력으로서 최대 4개의 마이크로폰의 신호들을 수신하도록 적응적으로 구성될 수 있다. 모듈은 가능한 한 구성가능하도록 설계되어, 해당 애플리케이션에 의존하여 다수의 입력 구성을 허용한다. 이것은 일부 복잡성을 도입하고, 모듈이 사용되는 사용-경우에 의존하여 사용자가 사용 모드를 특정하도록 요구한다. 이런 접근법은 모듈(200)이 최대 4개의 마이크로폰 입력과 함께 다양한 설계들에 걸쳐 사용될 수 있게 한다. 특히, 그런 사용 모드들을 제공하는 것은, 상이한 하드웨어 입력들에 관련하여 단일 빔포머에 의한 최적 성능을 전달하는 GSC의 개발을 허용하였다.
블록킹 매트릭스 스테이지(그리고 실제로 전체로서 GSC)의 성능은 기본적으로 신호 입력들의 선택에 의존한다. 노이즈 및 스피치 입력들의 부적절한 배정은 상당한 스피치 왜곡, 또는 최악의 경우 완전한 스피치 제거를 유도할 수 있다. 본 실시예는 간단한 GUI를 제시하고 라우팅 및 구성을 위한 규칙들의 세트를 구현하는 튜닝 툴을 추가로 제공하여, 특정 헤드셋을 개발하는 엔지니어가 마이크로폰 포지션들의 자신의 선택에 따라 시스템(200)을 쉽게 구성하게 한다.
도 4a는 주어진 헤드셋 폼 팩터에 대해 GSC에 이런 입력들을 설정하도록 마이크로폰 라우터(210)를 구성하기 위한 튜닝 툴 규칙들을 예시한다. s1은 입력 스피치 기준 #1이고, 일반적으로 최상의 입력 스피치 마이크 또는 소스(즉, 입에 더 가까운 마이크)에 연결된다. n1은 입력 노이즈 기준 #1이고, 일반적으로 최상의 입력 노이즈 마이크 또는 소스(즉, 입/스피치 소스로부터 가장 먼 마이크)에 연결된다. s2는 입력 스피치 기준 #2이고, n2는 입력 노이즈 기준 #2이다.
도 4b는 도 3으로부터 적합한 모드의 선택을 포함하는 GSC를 구성하기 위한 튜닝 툴 규칙들을 예시한다. 도 3f의 이런 튜닝 툴 모드 6에는 사용되지 않지만, 대안적인 실시예들에서, 튜닝 툴은 모드 6을 스테레오 모드로서 채택할 수 있다.
중요하게, 블록킹 매트릭스 및 메인 제거기 필터들 둘 모두의 적응은 적절한 입력 조건들 동안에만 발생해야 한다. 특히, BM 적응은 알려진 우수한 스피치 동안만 발생해야 하고, MC 적응은 스피치가 아닌 동안에만 발생해야 한다. 이들 적응 제어 입력들은 논리적으로 상호 배타적이고, 이것이 이 실시예에서 GSC(240)와 VAD 엘리먼트들(220, 222, 224, 226, 230)의 통합을 위한 핵심 이유이다.
본 발명의 본 실시예의 추가 양태는, GSC의 일반화된 적용성이, 스피치 및/또는 노이즈 신호들의 프론트 엔드 "청소"를 착수하기 위해 프론트 엔드 빔포머(들)를 구현하기 위한 전용 코드를 기재하는 것이 실현가능하지 않다, 이를테면 코드가 마이크로폰 포지션들 및 기하구조들의 지식을 요구하는 것을 의미한다는 것이다. 대신, 본 실시예는 도 5에 도시된 바와 같은 피팅 프로세스를 제공한다. 교정 스테이지에서, GSC는, 특정 헤드셋이 HATS 또는 사람에게 있는 동안 스피치에 적응하도록 허용되어, GSC 의 모든 변수들은 이상적인(노이즈 없음) 스피치 조건들에서 해당 헤드셋에 대해 우수한 솔루션으로 트레이닝된다. 이것은 GSC 변수들이 스피치만 존재하는 상황으로 트레이닝되는 것을 허용한다. 이어서, 이런 트레이닝된 필터의 세팅들은 GSC에 대한 고정 블록 매트릭스(FBMn)에 복사되고 이후 디바이스 동작 전반에 걸쳐 고정된 채로 있고, 개별 적응성 블록 매트릭스(ABMn)는 정상적인 GSC 동작에 요구된 증분 적응성에 영향을 미친다. 본원의 다른 곳에 언급된 바와 같이, 일부 구성들에서, FBM이 사용되지 않는 측면 펜던트 헤드셋 폼 팩터에서와 같이 FBM은 사용되지 않는 데, 그 이유는 마이크로폰들 사이의 경로가 사용 동안 펜던트 움직임으로 인해 너무 많이 가변하기 때문이다. 이런 접근법은, 이상적인 스피치 조건에서 이런 효과를 달성하도록 트레이닝될 때, FBMn이 전용 빔포머 코드에 대한 필요를 제거할 뿐 아니라, 고정된 프론트 엔드 마이크로폰 매칭 기능도 제공하는 것을 의미한다. 게다가, ABMn은 적응성 마이크로폰 매칭 역할을 시행하여, 제조 허용 오차들로 인해 헤드셋마다 가변하는 마이크로폰들 사이의 차이들을 보상한다. 함께, 이것은, 시스템(200)이 프론트 엔드 마이크로폰 매칭을 요구하지 않는 것을 의미한다. 프론트 엔드 빔포머들 및 프론트 엔드 마이크로폰 매칭을 제거하는 것은 본 실시예가 많은 상이한 헤드셋 폼 팩터들에 매우 유연하게 할 수 있게 하는 다른 중요한 요소이다. 차례로, 이들 작업들을 달성하는 2개의 부분 블록 매트릭스의 성능에 대한 심한 의존은 매우 미세하게 튜닝된 GSC를 유발하고, 블록 매트릭스들에서 주파수 도메인 NLMS의 사용은, 그런 GSC 성능이 달성될 수 있는 하나의 방식이다.
통상적으로, 각각의 GSC 모드에서, 메인 제거기(MC) 노이즈 제거기 적응성 필터 스테이지에 대한 적응성 제어는 또한 외부적으로 제어되어, 판정 모듈(230)에 의해 식별된 바와 같이 스피치가 아닌 기간들 동안 MC 필터 적응만을 허용한다.
GSC(240)는 또한 임의의 적절한 프로세스에 의해 검출될 수 있는 다른 신호 조건들, 이를테면 음향 에코, 바람 소리 또는 차단된 마이크로폰에 대한 응답으로 적응적으로 동작할 수 있다.
따라서, 본 실시예는 마이크로폰 매칭 및 프론트 엔드 프로세싱의 부재에도 불구하고 효과적으로 동작할 수 있고, 헤드셋 기하구조의 미래 지식을 필요로 하지 않는 적응성 프론트 엔드를 제공한다.
도 2를 다시 참조하여, 시스템(200)은 구성 레지스터(260)를 더 포함한다. 구성 레지스터는 라우터(210) 입력-출력 매핑, 진리표(230)의 로직, GSC(240)의 아키텍처의 파라미터들, 및 VAD들(220, 222, 224, 226)과 연관된 파라미터들(도 2의 레지스터(260)로부터 연장된 연결되지 않은 화살표들에 의해 예시적으로 표시됨)을 제어하기 위한 파라미터들을 저장한다. 그런 구성 세팅들을 생성하기 위한 피팅 프로세스가 도 5에 도시된다. 마이크로폰 입력들을 VAD들에 적절히 라우팅하도록 마이크로폰 라우터(210)를 구성하기 위한 VAD 라우팅 구성 프로세스는 도 6에 도시된다. 튜닝 툴에 의해 구현되는 VAD 구성 프로세스가 도 7에 도시된다. 도 7에서, 헤드셋이 넥 스타일 폼 팩터가 아닌 경우 CCVAD1 주사 각은 4 도로 세팅되고, 이는 중요한 값이 아니지만 각각의 귀에 마이크로폰을 가진 헤드셋에 대해 +/- 1개의 샘플 오프셋을 제공하게 되고, 또한 헤드셋을 착용한 포지션이 조정될 때에도 충분히 잘 수행되는 값이다. 구성 파라미터들은 알고리즘 외부에서 세팅 또는 판독되는 이들 값들이다. 이들 값들은 3개의 타입으로 나뉜다: 빌드 시간, 실행 시간 및 판독 전용. 빌드 시간 파라미터들은, 알고리즘이 빌드되고 솔루션에 링크될 때 한 번 세팅된다. 이들은 통상적으로 실행시간에서 변경되지 않지만, 알고리즘의 동작(이를테면 블록 크기, FFT 주파수 분해능)에 영향을 미치는 솔루션의 양태들에 관련된다. 빌드 시간 파라미터들은 종종 C 코드에서 #defines에 의해 세팅된다. 실행 시간 파라미터들은 (보통 튜닝 툴에 의해) 실행 시간에서 세팅된다. 알고리즘이 실제로 실행되는 동안 이들 파라미터들 모두를 변경하는 것이 가능하지 않을 수 있지만, 알고리즘이 일시중지된 동안 적어도 이들 파라미터들 모두를 변경하는 것이 가능해야 한다. 이들 많은 파라미터는 실제 값들로 세팅되고, DSP에 의해 사용될 수 있는 값으로 변환될 필요가 있을 수 있다. 이런 변환은 종종 튜닝 툴에서 발생할 것이다. 또한 이는 DSP에서도 수행될 수 있지만, 이를 수행하는 데 요구되는 프로세싱 전력의 증가에 주의깊은 생각이 주어질 필요가 있다. 판독 전용 파라미터들은 알고리즘 외부에서 세팅될 수 없지만, 판독될 수 있다. 이들 파라미터들은 다른 알고리즘들에 의해, 그리고 (일부 상황에서) 사용자 인터페이스에 디스플레이를 위해 튜닝 툴에 의해 판독될 수 있다.
본 발명의 다른 실시예들은 기본 알고리즘들 및 블록들 모두의 세부사항들을 이해할 필요가 없고, 이런 입력을 레지스터(260)에 의해 유지될 구성 파라미터들의 세트로 감소시키도록 구성된 사람으로부터 헤드셋 구성에 관한 정보를 취하는 GUI 기반 튜닝 툴 형태를 취할 수 있다. 그런 실시예들에서, 주어진 헤드셋 플랫폼 및 마이크로폰 구성에 음성-캡처 시스템(200)의 맞춤화 또는 튜닝은 튜닝 툴에 의해 가능해지고, 튜닝 툴은 도 1에 도시된 것들 같은 다양한 마이크로폰 구성들에 최적으로 작동하도록 솔루션을 구성하는 데 사용될 수 있다. 따라서, 본 발명의 설명된 실시예는 헤드셋 상에서 마주치는 모든 공통 마이크로폰 포지션들에 적용될 수 있고, 간단한 튜닝 툴로 최적 성능을 위해 간단히 구성될 수 있는 단일 시스템(200)을 제공한다.
따라서, 알고리즘들의 주의깊은 선택을 통해 그리고 재구성가능한 프레임워크의 사용을 통해 가변 헤드셋 폼 팩터의 문제를 처리하는 아키텍처가 제시된다. 이런 아키텍처의 시뮬레이션 결과들은, 유사한 헤드셋들의 성능을 맞춤형 알고리즘 설계와 매칭할 수 있는 것을 도시한다. 헤드셋 상에서 마주치는 공통 마이크로폰 포지션들 모두를 커버할 수 있고 상당히 간단한 튜닝 툴로 최적 음성 캡처 성능을 위해 구성될 수 있는 아키텍처가 개발되었다.
도 8은, 도 2의 실시예와 유사한 엘리먼트들이 다시 설명되지 않는 대안적인 실시예를 예시한다. 그러나, 이 실시예는 백 엔드 노이즈 감소를 생략하는 데, 이는 일부 경우들에서, 노이즈 감소가 별도로 구현될 것이라는 기대와 함께 적응성 시스템이 제공될 수 있거나, 자동 스피치 인식(ASR)에 사용되는 경우 적절한 최종 아키텍처일 수 있는 적합한 형태일 수 있다. 이것은, ASR이 통상적으로 그런 노이즈를 허용하기 위한 자신의 능력으로 인해 백 엔드 노이즈 감소 없이 신호들에 대해 최상이지만 스펙트럼 노이즈 감소에 의해 통상적으로 도입되는 동적 재밸런싱의 허용오차가 빈약한 상태에서 수행되는 것을 반영한다.
본원에서 "모듈" 또는 "블록"에 대한 언급은 오디오 데이터를 프로세싱하도록 구성되고 더 널은 시스템 아키텍처의 일부이며, 다른 시스템 컴포넌트들과 상호연결된 방식으로 통신들 또는 데이터를 수신, 프로세싱, 저장 및/또는 출력하는 하드웨어 또는 소프트웨어 구조일 수 있다.
본원에서 무선 통신들에 대한 언급은, 전자기 또는 음향 파들이 유선 또는 전도체를 따르기보다 대기 또는 자유 공간을 통해 신호를 전달하는 통신들, 모니터링 또는 제어 시스템을 언급하는 것으로 이해되어야 한다.
넓게 설명된 본 발명의 사상 또는 범위에서 벗어나지 않고 특정 실시예들에 도시된 바와 같은 본 발명에 대해 다수의 변형 및/또는 수정이 이루어질 수 있다는 것이 통상의 기술자들에 의해 인식될 것이다. 그러므로, 본 실시예들은 모든 면들에서 제한적이거나 제한이 아닌 예시로서 간주되어야 한다.

Claims (20)

  1. 구성가능한 음성 활동 검출을 위한 신호 프로세싱 디바이스로서,
    개별 마이크로폰 신호들을 수신하기 위한 복수의 입력;
    라우팅 알고리즘에 기초하여 상기 입력들로부터 복수의 음성 활동 검출 모듈로 마이크로폰 신호들을 선택적으로 라우팅하도록 구성가능한 마이크로폰 신호 라우터;
    복수의 음성 활동 검출 모듈 - 각각의 음성 활동 검출 모듈은 상기 마이크로폰 신호 라우터로부터 마이크로폰 신호들의 쌍을 수신하도록 구성되고, 스피치 또는 노이즈가 음성 활동 검출 모듈에 의해 마이크로폰 신호들의 개별 쌍에서 검출되었는지를 표시하는 개별 출력을 생성하도록 구성됨 -;
    상기 복수의 음성 활동 검출 모듈의 출력들을 수신하고, 음성 활동이 상기 마이크로폰 신호들에 존재하는지를 상기 복수의 음성 활동 검출 모듈의 출력들로부터 결정하고, 음성 활동이 상기 마이크로폰 신호들에 존재하는지를 표시하는 출력을 생성하기 위한 음성 활동 판정 모듈;
    상기 마이크로폰 신호 라우터로부터 마이크로폰 신호들을 수신하고, 상기 음성 활동 판정 모듈의 출력에 부분적으로 기초하여 적응성 빔포밍(adaptive beamforming)을 수행하고, 공간 노이즈 감소 출력 신호를 출력하기 위한 공간 노이즈 감소 모듈
    을 포함하는, 신호 프로세싱 디바이스.
  2. 제1항에 있어서, 상기 공간 노이즈 감소 모듈은 일반화된 사이드로브 제거기 모듈(generalised sidelobe canceller module)을 포함하는, 신호 프로세싱 디바이스.
  3. 제2항에 있어서, 상기 일반화된 사이드로브 제거기 모듈은 복수의 일반화된 사이드로브 제거 모드를 구비하고, 상기 모드들 중 하나에 따라 동작하도록 구성가능한, 신호 프로세싱 디바이스.
  4. 제2항 또는 제3항에 있어서, 상기 일반화된 사이드로브 제거기 모듈은:
    트레이닝에 의해 구성가능한 고정 블록 매트릭스 모듈; 및
    마이크로폰 신호 조건들에 적응하도록 동작가능한 적응성 블록 매트릭스 모듈
    을 포함하는 블록 매트릭스 섹션을 포함하는, 신호 프로세싱 디바이스.
  5. 제1항 내지 제3항 중 어느 한 항에 있어서, 복수의 음성 활동 검출 모듈을 더 포함하는, 신호 프로세싱 디바이스.
  6. 제5항에 있어서, 4개의 음성 활동 검출 모듈을 포함하는, 신호 프로세싱 디바이스.
  7. 제5항에 있어서, 적어도 하나의 레벨 차이 음성 활동 검출 모듈, 및 적어도 하나의 상호 상관 음성 활동 검출 모듈을 포함하는, 신호 프로세싱 디바이스.
  8. 제6항에 있어서, 하나의 레벨 차이 음성 활동 검출 모듈, 및 3개의 상호 상관 음성 활동 검출 모듈을 포함하는, 신호 프로세싱 디바이스.
  9. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 음성 활동 판정 모듈은 진리표를 포함하는, 신호 프로세싱 디바이스.
  10. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 음성 활동 판정 모듈은 고정되고 프로그래밍 가능하지 않은, 신호 프로세싱 디바이스.
  11. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 음성 활동 판정 모듈은 상기 디바이스에 음성 활동 검출을 피팅(fitting)할 때 구성가능한, 신호 프로세싱 디바이스.
  12. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 음성 활동 판정 모듈은 투표 알고리즘을 포함하는, 신호 프로세싱 디바이스.
  13. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 음성 활동 판정 모듈은 신경망을 포함하는, 신호 프로세싱 디바이스.
  14. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 디바이스는 헤드셋인, 신호 프로세싱 디바이스.
  15. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 디바이스는 헤드셋과 상호운용가능한 마스터 디바이스인, 신호 프로세싱 디바이스.
  16. 제15항에 있어서, 상기 마스터 디바이스는 스마트폰 또는 태블릿인, 신호 프로세싱 디바이스.
  17. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 디바이스의 하나 이상의 엘리먼트에 대한 구성 세팅들을 저장하는 구성 레지스터를 더 포함하는, 신호 프로세싱 디바이스.
  18. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 공간 노이즈 감소 모듈의 출력 신호에 백 엔드(back end) 노이즈 감소를 적용하도록 구성된 백 엔드 노이즈 감소 모듈을 더 포함하는, 신호 프로세싱 디바이스.
  19. 구성가능한 프론트 엔드(front end) 음성 활동 검출 시스템을 구성하기 위한 방법으로서,
    선택된 폼 팩터를 갖는 헤드셋의 마이크로폰들에 의해 검출된 이상적인 스피치를 시스템에 제시함으로써 상기 시스템의 일반화된 사이드로브 제거기의 적응성 블록 매트릭스를 트레이닝하는 단계; 및
    상기 트레이닝된 적응성 블록 매트릭스의 세팅들을 상기 일반화된 사이드로브 제거기의 고정 블록 매트릭스에 복사하는 단계
    를 포함하는, 방법.
  20. 구성가능한 음성 활동 검출 디바이스를 피팅하기 위한 컴퓨터 판독가능 매체로서,
    상기 컴퓨터 판독가능 매체는, 하나 이상의 프로세서에 의해 실행될 때,
    라우팅 알고리즘에 기초하여 복수의 음성 활동 검출 모듈로의 마이크로폰 입력들의 선택적 라우팅을 구성하는 성능 - 상기 라우팅 알고리즘은 마이크로폰 신호들의 쌍을 각각의 음성 활동 검출 모듈로 라우팅함 -; 및
    공간 노이즈 감소 모듈로의 상기 마이크로폰 입력들의 라우팅을 구성하는 성능
    을 야기하는 명령어들을 포함하는, 컴퓨터 판독가능 매체.
KR1020197032933A 2017-04-10 2018-04-06 헤드셋들을 위한 유연한 음성 캡처 프론트-엔드 KR102545750B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762483615P 2017-04-10 2017-04-10
US62/483,615 2017-04-10
GB1708372.6A GB2561408A (en) 2017-04-10 2017-05-25 Flexible voice capture front-end for headsets
GB1708372.6 2017-05-25
PCT/GB2018/050930 WO2018189513A1 (en) 2017-04-10 2018-04-06 Flexible voice capture front-end for headsets

Publications (2)

Publication Number Publication Date
KR20190135045A KR20190135045A (ko) 2019-12-05
KR102545750B1 true KR102545750B1 (ko) 2023-06-21

Family

ID=59270909

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197032933A KR102545750B1 (ko) 2017-04-10 2018-04-06 헤드셋들을 위한 유연한 음성 캡처 프론트-엔드

Country Status (4)

Country Link
US (1) US10490208B2 (ko)
KR (1) KR102545750B1 (ko)
GB (3) GB2561408A (ko)
WO (1) WO2018189513A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10418048B1 (en) * 2018-04-30 2019-09-17 Cirrus Logic, Inc. Noise reference estimation for noise reduction
US11488615B2 (en) * 2018-05-21 2022-11-01 International Business Machines Corporation Real-time assessment of call quality
TWI690218B (zh) * 2018-06-15 2020-04-01 瑞昱半導體股份有限公司 耳機
CN110996208B (zh) * 2019-12-13 2021-07-30 恒玄科技(上海)股份有限公司 一种无线耳机及其降噪方法
CN111179975B (zh) * 2020-04-14 2020-08-04 深圳壹账通智能科技有限公司 用于情绪识别的语音端点检测方法、电子设备及存储介质
EP4147230A4 (en) 2020-05-08 2024-04-10 Microsoft Technology Licensing Llc SYSTEM AND METHOD FOR DATA AUGMENTATION FOR MULTIMICROPHONE SIGNAL PROCESSING

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080260180A1 (en) * 2007-04-13 2008-10-23 Personics Holdings Inc. Method and device for voice operated control
JP2013030946A (ja) * 2011-07-28 2013-02-07 Handotai Rikougaku Kenkyu Center:Kk センサネットワークシステムとその通信方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7174022B1 (en) * 2002-11-15 2007-02-06 Fortemedia, Inc. Small array microphone for beam-forming and noise suppression
KR100480789B1 (ko) * 2003-01-17 2005-04-06 삼성전자주식회사 피드백 구조를 이용한 적응적 빔 형성방법 및 장치
US8340309B2 (en) 2004-08-06 2012-12-25 Aliphcom, Inc. Noise suppressing multi-microphone headset
US7813923B2 (en) * 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
WO2007123051A1 (ja) * 2006-04-20 2007-11-01 Nec Corporation 適応アレイ制御装置、方法、プログラム、及び適応アレイ処理装置、方法、プログラム
GB2438259B (en) * 2006-05-15 2008-04-23 Roke Manor Research An audio recording system
FR2902326B1 (fr) * 2006-06-20 2008-12-05 Oreal Utilisation de la coumarine, de butylated hydroxyanisole et d'ethoxyquine pour le traitement de la canitie
EP2074286A1 (en) * 2006-08-24 2009-07-01 Vishvas Prabhakar Ambardekar Modified revolving piston internal combustion engine
WO2009132270A1 (en) 2008-04-25 2009-10-29 Andrea Electronics Corporation Headset with integrated stereo array microphone
KR20100003530A (ko) * 2008-07-01 2010-01-11 삼성전자주식회사 전자기기에서 음성 신호의 잡음 제거 장치 및 방법
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
DE102012003460A1 (de) * 2011-03-15 2012-09-20 Heinz Lindenmeier Multiband-Empfangsantenne für den kombinierten Empfang von Satellitensignalen und terrestrisch ausgestrahlten Rundfunksignalen
US9443532B2 (en) * 2012-07-23 2016-09-13 Qsound Labs, Inc. Noise reduction using direction-of-arrival information
US9313572B2 (en) * 2012-09-28 2016-04-12 Apple Inc. System and method of detecting a user's voice activity using an accelerometer
US8976957B2 (en) 2013-05-15 2015-03-10 Google Technology Holdings LLC Headset microphone boom assembly
US10229700B2 (en) * 2015-09-24 2019-03-12 Google Llc Voice activity detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080260180A1 (en) * 2007-04-13 2008-10-23 Personics Holdings Inc. Method and device for voice operated control
JP2013030946A (ja) * 2011-07-28 2013-02-07 Handotai Rikougaku Kenkyu Center:Kk センサネットワークシステムとその通信方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Lee,Hyeopwoo et.al, Space-time voice activity detection, IEEE transactions on consumer electronics, IEEE, Aug. 2009, Vol.55, no.3, pp.1471-1476*
Zwyssig, Erich Paul, Speech processing using digital MEMS microphones, University of Edinburgh, 2013*

Also Published As

Publication number Publication date
WO2018189513A1 (en) 2018-10-18
US20180294000A1 (en) 2018-10-11
GB2598870B (en) 2022-09-14
GB201913586D0 (en) 2019-11-06
GB2598870A8 (en) 2022-05-18
GB2598870A (en) 2022-03-16
KR20190135045A (ko) 2019-12-05
GB2561408A (en) 2018-10-17
GB2574170B (en) 2022-02-09
GB201708372D0 (en) 2017-07-12
US10490208B2 (en) 2019-11-26
GB2574170A (en) 2019-11-27

Similar Documents

Publication Publication Date Title
KR102545750B1 (ko) 헤드셋들을 위한 유연한 음성 캡처 프론트-엔드
CN110392912B (zh) 使用多个麦克风的自动噪声消除
US9589556B2 (en) Energy adjustment of acoustic echo replica signal for speech enhancement
US9723422B2 (en) Multi-microphone method for estimation of target and noise spectral variances for speech degraded by reverberation and optionally additive noise
EP3039882B1 (en) Assisting conversation
CN111149369B (zh) 头戴式受话器耳上状态检测
US8787587B1 (en) Selection of system parameters based on non-acoustic sensor information
US9313573B2 (en) Method and device for microphone selection
US20180350381A1 (en) System and method of noise reduction for a mobile device
KR20190085927A (ko) 적응성 빔포밍
EP3935631B1 (en) Voice signal enhancement for head-worn audio devices
US9508359B2 (en) Acoustic echo preprocessing for speech enhancement
CN111385713A (zh) 麦克风设备和头戴式耳机
US9646629B2 (en) Simplified beamformer and noise canceller for speech enhancement
KR102112018B1 (ko) 영상 회의 시스템에서의 음향 반향 제거 장치 및 방법
US10297245B1 (en) Wind noise reduction with beamforming
US8737652B2 (en) Method for operating a hearing device and hearing device with selectively adjusted signal weighing values
US11889268B2 (en) Method for operating a hearing aid system having a hearing instrument, hearing aid system and hearing instrument
US11533555B1 (en) Wearable audio device with enhanced voice pick-up
US10540955B1 (en) Dual-driver loudspeaker with active noise cancellation
US11967304B2 (en) Sound pick-up device, sound pick-up method and non-transitory computer-readable recording medium recording sound pick-up program
JP6861233B2 (ja) 補聴器の作動方法
Saito et al. Noise suppressing microphone array for highly noisy environments using power spectrum density estimation in beamspace
CN116343816A (zh) 音频设备中语音提取方法、音频设备及计算机实现的方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant