KR20180051189A - 자동 음성 트리거 방법 및 이를 적용한 음향 분석기 - Google Patents

자동 음성 트리거 방법 및 이를 적용한 음향 분석기 Download PDF

Info

Publication number
KR20180051189A
KR20180051189A KR1020160148187A KR20160148187A KR20180051189A KR 20180051189 A KR20180051189 A KR 20180051189A KR 1020160148187 A KR1020160148187 A KR 1020160148187A KR 20160148187 A KR20160148187 A KR 20160148187A KR 20180051189 A KR20180051189 A KR 20180051189A
Authority
KR
South Korea
Prior art keywords
resonator
signal
microphone
voice
microphones
Prior art date
Application number
KR1020160148187A
Other languages
English (en)
Inventor
박상하
강성찬
김재흥
윤용섭
이충호
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020160148187A priority Critical patent/KR20180051189A/ko
Priority to US15/806,863 priority patent/US10566011B2/en
Publication of KR20180051189A publication Critical patent/KR20180051189A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/24Structural combinations of separate transducers or of two parts of the same transducer and responsive respectively to two or more frequency ranges
    • H04R1/245Structural combinations of separate transducers or of two parts of the same transducer and responsive respectively to two or more frequency ranges of microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R23/00Transducers other than those covered by groups H04R9/00 - H04R21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/28Transducer mountings or enclosures modified by provision of mechanical or acoustic impedances, e.g. resonator, damping means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R17/00Piezoelectric transducers; Electrostrictive transducers
    • H04R17/02Microphones
    • H04R17/025Microphones using a piezoelectric polymer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R17/00Piezoelectric transducers; Electrostrictive transducers
    • H04R17/10Resonant transducers, i.e. adapted to produce maximum output at a predetermined frequency
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Abstract

자동 음성 트리거 방법 및 이를 적용한 음향 분석기가 개시된다.
개시된 자동 음성 트리거 방법에 따르면, 서로 다른 주파수 대역폭을 갖는 복수의 공진기 마이크로폰 배열에서 적어도 하나의 공진기 마이크로폰으로 신호를 수신하고, 이 수신된 신호를 분석하여 수신된 신호가 음성 신호인지 여부를 판별한다. 수신된 신호가 음성 신호로 판별되면, 광대역 신호를 수신 분석하도록 전체 시스템을 깨운다.

Description

자동 음성 트리거 방법 및 이를 적용한 음향 분석기{Auto voice trigger method and audio analyzer employed the same }
자동 음성 트리거 방법 및 이를 적용한 음향 분석기가 개시된다.
음향 스펙트럼을 분석하는 음향 분석기는 핸드폰, 텔레비전, 컴퓨터, 가전 기기, 자동차, 또는 스마트홈 환경 등에서 상황인식, 음성인식, 화자 인증, 음성 비서 등에 활용될 수 있다.
음성 인식이나 음성비서 혹은 화자 인증을 위한 음성 트리거 방법은 크게 두 가지 방법이 존재한다.
첫번째 방법은 음성인식이나 화자 인증을 수동 조작을 통해 시작하는 방법으로, 사용자가 음성인식이나 화자인증 시스템을 사용하고 싶을 때 '시작' 버튼을 누르고 시작하는 경우이다.
두번째 방법은 마이크로폰을 항상 켜 놓은 상태에서 마이크로폰으로 실시간 수신되는 신호를 분석하여 수신된 단어가 사용자가 등록한 목소리 혹은 사용자가 지정한 특정 단어와 비슷하다고 판별되었을 때 음성 분석 시스템을 깨우는(wake-up) 방법으로, 자동 음성 트리거 방법이다.
두 가지의 음성 트리거 방법 중, 사용자 편리성 때문에 두 번째 방법인 자동 음성 트리거에 대한 다양한 방법들이 제안되어 점차 널리 사용되는 추세이다. 가장 일반적으로 사용되는 자동 음성 트리거 방식은, 광대역 마이크로폰에서 수신된 신호의 에너지가 일정 문턱치(threshold)를 넘으면 음성 신호가 수신되었다고 판단하고 음성 분석 시스템을 깨워는 방식이다.
이러한 자동 음성 트리거 방식은 사용자 편리성이 있으나, 마이크로폰이 항상 켜져 있어야 하고, 실시간 수신되는 신호를 분석해야 하므로 연산량과 전력소모량이 크다.
가장 일반적으로 사용되는 에너지 기반의 자동 음성 트리거 방식의 경우, 전체 대역의 신호 에너지의 값으로 음성 신호 발생 여부를 판단하므로, 큰 소리의 잡음(noise)이 발생하여도 트리거가 온(on) 되어 잡음 환경에서의 정확도가 낮아질 수 있다. 자동 음성 트리거의 정확도 향상을 위해 광대역 마이크로폰에서 수신된 신호를 주파수 대역별 신호로 분리, 분석하여 음성 신호가 아닌 잡음 신호에 좀 더 강인한 음성 트리거 방식들이 제안되고 있다. 이러한 방식들을 사용하면 음성 트리거의 정확도는 향상되지만, 신호 분석을 위한 연산량 및 전력 소모량이 증가한다.
또한, 자동 음성 트리거 방식 두가지 모두, 음성 트리거를 위하여 광대역 마이크로폰으로 음성이 존재하는 주파수 대역 이외의 신호도 실시간으로 수신, 분석하므로 기본적인 전력소모량 및 연산량 부담이 적지 않다.
공진기 배열 마이크로폰을 적용하며, 연산량과 전력 소모량을 줄일 수 있고, 음성 신호 여부 판별의 정확도가 높은 자동 음성 트리거 방법 및 이를 적용한 음향 분석기를 제공한다.
실시예에 따른 자동 음성 트리거 방법은, 서로 다른 주파수 대역폭을 갖는 복수의 공진기 마이크로폰 배열에서 적어도 하나의 공진기 마이크로폰으로 신호를 수신하는 단계와; 상기 수신된 신호를 분석하여 수신된 신호가 음성 신호인지 여부를 판별하는 단계와; 수신된 신호가 음성 신호로 판별되면, 광대역 신호를 수신 분석하도록 전체 시스템을 깨우는 단계;를 포함한다.
상기 광대역 신호를 상기 복수의 공진기 마이크로폰을 이용하여 수신 분석할 수 있다.
상기 광대역 신호를 광대역 마이크로폰을 이용하여 수신 분석할 수 있다.
상기 복수의 공진기 마이크로폰 개수가 P1개이고, 상기 음성 신호 판별에 사용되는 공진기 마이크로폰의 개수가 P2개일 때, 상기 음성 신호 판별에 사용되는 공진기 마이크로폰의 개수는 P2 < P1, P2는 1 이상인 조건을 만족할 수 있다.
상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역내에 위치하는 하나의 공진기 마이크로폰을 포함할 수 있다.
상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역을 벗어나는 적어도 하나의 공진기 마이크로폰을 더 포함하여, 수신된 신호의 비교에 의해 신호와 잡음을 구분할 수 있다.
상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역내에 위치하는 2개 이상의 공진기 마이크로폰을 포함할 수 있다.
상기 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰은 서로 인접한 주파수 대역폭을 가질 수 있다.
상기 복수의 공진기 마이크로폰을 주파수 대역폭 순서로 나열할 때, 상기 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰은 서로 인접하지 않을 수 있다.
상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역을 벗어나는 적어도 하나의 공진기 마이크로폰을 더 포함하여, 수신된 신호의 비교에 의해 신호와 잡음을 구분하도록 마련될 수 있다.
음향 분석기는, 서로 다른 주파수 대역폭을 갖는 복수의 공진기 마이크로폰 배열과; 서로 다른 주파수 대역폭을 갖는 복수의 공진기 마이크로폰 배열에서 일부 공진기 마이크로폰으로 수신된 신호를 이용하여, 수신된 신호가 음성 신호인지 여부를 판별하는 자동 음성 트리거부와; 상기 자동 음성 트리거부에서 상기 수신된 신호가 음성 신호로 판별되면, 전체 시스템을 깨워 광대역 신호를 수신 분석하도록 제어하는 제어부;를 포함할 수 있다.
상기 광대역 신호를 상기 복수의 공진기 마이크로폰을 이용하여 수신 분석할 수 있다.
상기 광대역 신호를 수신 분석하는 광대역 마이크로폰을 더 포함할 수 있다.
상기 복수의 공진기 마이크로폰 개수가 P1개이고, 상기 음성 신호 판별에 사용되는 공진기 마이크로폰의 개수가 P2개일 때,
상기 음성 신호 판별에 사용되는 공진기 마이크로폰의 개수는 P2 < P1, P2는 1 이상인 조건을 만족하는 음향 분석기.
상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역내에 위치하는 하나의 공진기 마이크로폰을 포함할 수 있다.
상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역을 벗어나는 적어도 하나의 공진기 마이크로폰을 더 포함하여, 수신된 신호의 비교에 의해 신호와 잡음을 구분하도록 마련될 수 있다.
상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역내에 위치하는 2개 이상의 공진기 마이크로폰을 포함할 수 있다.
상기 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰은 서로 인접한 주파수 대역폭을 가질 수 있다.
상기 복수의 공진기 마이크로폰을 주파수 대역폭 순서로 나열할 때, 상기 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰은 서로 인접하지 않은 주파수 대역폭을 가질 수 있다.
상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역을 벗어나는 적어도 하나의 공진기 마이크로폰을 더 포함하여, 수신된 신호의 비교에 의해 신호와 잡음을 구분하도록 마련될 수 있다.
실시예에 따른 자동 음성 트리거 방법 및 이를 적용한 음향 분석기에 따르면, 복수의 공진기 마이크로폰 배열 중 음성 대역에 포함되는 적어도 하나의 공진기 마이크로폰을 이용하여 음성 신호를 판별하므로, 연산량과 전력소모량을 줄일 수 있으며, 음성 신호 여부 판별 정확도를 높일 수 있다.
도 1은 실시예에 따른 자동 음성 트리거 방식을 적용한 음향 분석기를 개략적으로 보인 블록도이다.
도 2는 다른 실시에에 따른 자동 음성 트리거 방식을 적용한 음향 분석기를 개략적으로 보인 블록도이다.
도 3a는 서로 다른 주파수 대역폭을 가지는 복수의 공진기 마이크로폰 배열에서 트리거 오프(trigger off) 상태로서, 자동 음성 트리거 작동중 하나의 공진기 마이크로폰만이 음성 신호 판별을 위해 켜져 있는 상태를 보여준다.
도 3b는 서로 다른 주파수 대역폭을 가지는 복수의 공진기 마이크로폰 배열에서 트리거 온(trigger on) 상태로서, 자동 음성 트리거 작동중 수신된 신호가 음성 신호로 판별되었을 때, 수신된 광대역 신호를 분석하도록 복수의 공진기 마이크로폰이 켜져 있는 상태를 보여준다.
도 4는 음성 신호 대역의 인접한 두 개 이상의 공진기 마이크로폰을 이용하여 음성 신호를 판별하는 방식을 보여준다.
도 5는 음성 신호 대역의 인접하지 않은 두 개 이상의 공진기 마이크로폰에서 수신된 신호의 값들을 비교하여 음성 신호를 판별하는 방식을 보여준다.
도 6은 음성 대역 내의 공진기 마이크로폰과 음성 대역을 벗어나는 영역에 위치하는 하나의 공진기 마이크로폰을 사용하여 음성 신호를 판별하는 방식을 보여준다.
도 7은 비교예로서, 기존의 자동 음성 트리거를 위한 음향 분석기를 보여준다.
도 8a 및 도 8b는 각각 기존의 자동 음성 트리거 방식에서 음성 트리거 온/오프 상태일 때의 사용 주파수 대역을 나타낸다.
도 9는 실시예에 따른 자동 음성 트리거 방식에 적용되는 복수의 공진기 마이크로폰 배열의 일예를 예시적으로 보여준다.
도 10a 및 도 10b는 단일 공진기 마이크로폰(R)의 구조를 보인 단면도이다.
도 10c는 도 10a 및 도 10b의 단일 공진기 마이크로폰(R)의 주파수 응답 특성을 예시적으로 보인 그래프이다.
도 11은 실시예에 따른 복수의 공진기 마이크로폰 배열을 이용하는 자동 음성 트리거 분석 결과의 일예를 보여준다.
도 12는 비교예로서, 기존의 광대역 마이크로폰을 이용하는 자동 음성 트리거 분석 결과를 보여준다.
도 13은 도 11의 실시예에서와 같이 샘플링 주파수가 fs=4.41kHz인 경우와 도 12의 기존 방식과 같이 샘플링 주파수가 fs=44.1kHz일 때의 전력소모량을 비교하여 보여준다.
도 14는 실시예에 따른 복수의 공진기 마이크로폰 배열을 이용하는 자동 음성 트리거 분석 결과의 다른 예를 보여준다.
도 15는 비교예로서, 기존의 광대역 마이크로폰을 이용하는 자동 음성 트리거 분석 결과를 보여준다.
도 16a 및 도 16b는 실시예에 따른 복수의 공진기 마이크로폰 배열을 이용하는 자동 음성 트리거 분석 결과의 다른 예를 보여준다.
도 17a 및 도 17b는 실시예에 따른 복수의 공진기 마이크로폰 배열을 이용하는 자동 음성 트리거 분석 결과의 다른 예를 보여준다.
도 18a 및 도 18b는 실시예에 따른 복수의 공진기 마이크로폰 배열을 이용하는 자동 음성 트리거 분석 결과의 다른 예를 보여준다.
이하, 첨부된 도면들을 참조하면서, 실시예에 따른 음성 트리거 방법 및 이를 적용한 음향 분석기를 상세히 설명한다.
도 1은 실시예에 따른 자동 음성 트리거 방식을 적용한 음향 분석기를 개략적으로 보인 블록도이다. 도 2는 다른 실시에에 따른 자동 음성 트리거 방식을 적용한 음향 분석기를 개략적으로 보인 블록도이다. 도 1은 자동 음성 트리거에 의해 전체 시스템을 깨운 상태에서 광대역 신호 수신 및 분석이 복수의 공진기 마이크로폰 배열(100)에서 이루어지는 경우를 보여준다. 도 2는 자동 음성 트리거에 의해 전체 시스템을 깨운 상태에서 광대역 신호 수신 및 분석이 광대역 마이크로폰(500)에서 이루어지는 경우를 보여준다.
도 1 및 도 2를 참조하면, 음향 분석기는, 서로 다른 주파수 대역폭을 갖는 복수의 공진기 마이크로폰 배열(100)과, 자동 음성 트리거부(200)와, 제어부(300)를 포함한다. 자동 음선 트리거부(200)는, 서로 다른 주파수 대역폭을 갖는 복수의 공진기 마이크로폰 배열(200)에서 일부 공진기 마이크로폰으로 수신된 신호를 이용하여, 수신된 신호가 음성 신호인지 여부를 판별한다. 제어부(300)는 자동 음성 트리거부(200)에서 수신된 신호가 음성 신호로 판별되면, 전체 시스템을 깨워 광대역 신호를 수신 분석하도록 제어한다.
복수의 공진기 마이크로폰 배열(100)의 각 공진기 마이크로폰은 협대역 신호를 수신하는 협대역 마이크로폰으로, 예를 들어, 복수의 공진기 마이크로폰 각각은 특정 주파수 대역폭의 신호 수신이 가능한 공진기 마이크로폰이다.
일반적으로 사용되는 마이크로폰의 샘플링 주파수(sampling frequency)는 약 44100 Hz이다. 그러나 사람 음성의 에너지가 주로 존재하는 주파수 대역은 약 4000 Hz 미만으로, 사람의 피치(pitch, 기본 음고)는 100 Hz~ 600 Hz 대역에 존재하고, 사람의 포만트(formant, 유효한 배음 성분들)는 100 Hz ~ 5000 Hz 대역에 존재한다.
물론, 음성 인식이나 화자 인식의 정확도 향상을 위해서 보다 고주파 대역의 성분들을 정밀히 분석하여 유효한 특정 성분 값(feature)을 추출하는 일이 필요할 수는 있으나, 마이크로폰으로 수신된 신호가 사람의 음성인지 아닌지를 판단하는 자동 음성 트리거를 위해서는 넓게는 약 4000 Hz 이하, 좁게는 약 2000 Hz 이하의 주파수 성분들로도 충분한 판단이 가능할 수 있다.
실시예에 따른 자동 음성 트리거 방식에 따르면, 공진기 마이크로폰 배열(100)로 1초에 만개 이하(적으면 4~5천여개)의 데이터만 실시간으로 수신, 분석하여 음성 신호 여부를 판별할 수 있다. 이에 반해, 음성 트리거에 광대역 마이크로폰을 이용하는 경우에는, 광대역 마이크로폰으로 1초에 4~5만개의 데이터를 실시간으로 수신, 분석하여 음성 신호 여부를 판별한다.
여기서, 광대역 마이크로폰이란 대략적으로 0~44,100 Hz의 주파수 대역 신호 수신이 가능한 마이크로폰이며, 공진기 마이크로폰은 특정 주파수 대역폭의 신호 수신이 가능한 마이크로폰이다. 공진기 마이크로폰 배열은 각기 다른 특정 주파수 대역폭을 갖는 공진기 마이크로폰을 여러 개 사용하는 것으로, 예를 들어 주파수 대역폭이 0~10,000 Hz, 10,000 ~ 20,000 Hz, 20,000 ~ 30,000 Hz, 30,000 ~ 40,000 Hz, 40,000 ~ 50,000 Hz인 5개의 공진기 마이크로폰 배열을 이용하면 기존의 광대역 마이크로폰이 수신 가능한 신호들을 모두 수신할 수 있다.
실시예에 따르면, 공진기 마이크로폰 배열(100)은, 5개 이상의 공진기 마이크로폰, 예컨대, 10 내지 20개 또는 20개 이상의 공진기 마이크로폰을 포함할 수 있다. 관심을 두는 광대역의 주파수 범위를 예컨대, P1개의 영역으로 나누어, 각 주파수 범위에 대응하는 주파수 대역폭을 갖는 공진기 마이크로폰 P1개를 배열함으로써, 관심을 두는 광대역의 주파수 범위 전체를 커버할 수 있다.
자동 음성 트리거부(300)는, 복수의 공진기 마이크로폰 배열(100)에서 일부 공진기 마이크로폰으로 수신된 신호를 이용하여, 수신된 신호가 음성 신호인지 여부를 판별한다. 예를 들어, 복수의 공진기 마이크로폰 개수가 P1개이고, 음성 신호 판별에 사용되는 공진기 마이크로폰의 개수가 P2개일 때, 음성 신호 판별에 사용되는 공진기 마이크로폰의 개수는 P2 < P1, P2는 1 이상의 조건을 만족할 수 있다.
복수의 공진기 마이크로폰 배열(100)을 주파수 대역폭 순으로 배치할 때, 복수의 공진기 마이크로폰은 도 3a 및 도 3b에서와 같은 주파수 대역폭 배치를 가질 수 있다. 도 3a 및 도 3b에서 주파수 대역폭 각각이 공진기 마이크로폰에 하나씩 대응된다.
음성 신호 판별에는 도 3a에서와 같이, 적어도 하나의 공진기 마이크로폰(온 상태로 표시된 주파수 대역폭을 가지는 공진기 마이크로폰)이 사용될 수 있다. 이때, 음성 신호 판별에 사용되는 공진기 마이크로폰 중 적어도 하나는 주파수 대역폭이 음성 신호 대역 내에 위치할 수 있다.
도 3a 및 도 3b는 서로 다른 주파수 대역폭을 가지는 복수의 공진기 마이크로폰 배열(100)의 주파수 대역에 따른 배치를 보여준다. 도 3a는 트리거 오프(trigger off) 상태로서, 자동 음성 트리거 작동중 하나의 공진기 마이크로폰만이 음성 신호 판별을 위해 켜져 있는 상태를 보여준다. 도 3b는 트리거 온(trigger on) 상태로서, 자동 음성 트리거 작동중 수신된 신호가 음성 신호로 판별되었을 때, 수신된 광대역 신호를 분석하도록 복수의 공진기 마이크로폰이 켜져 있는 상태를 보여준다. 자동 음성 트리거 작동 중 수신된 신호가 음성 신호로 판별되면, 전체 시스템(예를 들어, 데이터 저장을 위한 메모리, 데이터 연산을 위한 메인 보드 등)을 깨워 본격적으로 신호를 분석하는 단계로 넘어간다.
제어부(300)는, 자동 음성 트리거부(200)에서 수신된 신호가 음성 신호로 판별되었을 때, 전체 시스템을 깨워 광대역 신호 수신 및 분석이 이루어지도록 음향 분석기를 제어한다. 이때, 도 1에서와 같이 광대역 신호를 복수의 공진기 마이크로폰 배열(100)을 이용하여 수신 및 분석하도록 된 경우에는, 도 3b에서와 같이 복수의 공진기 마이크로폰 모두를 on 상태가 되도록 제어할 수 있다. 또한, 도 2에서와 같이 광대역 신호를 광대역 마이크로폰(500)을 이용하여 수신 및 분석하도록 된 경우에는, 광대역 마이크로폰(500)이 on 상태가 되도록 제어할 수 있다.
도 1 및 도 2에서와 같이, 자동 음성 트리거부(200)에서 수신된 신호가 음성 신호로 판별되지 않은 경우는 트리거 오프(trigger off) 상태로서, 수신된 신호가 음성 신호로 판별될 때까지, 계속하여 자동 음성 트리거부(200)에서 음성 신호 판별 동작이 이루어질 수 있다.
도 3a 및 도 3b는 실시예에 따른 자동 음성 트리거 방식의 공진기 마이크로폰에서 음성 트리거 온/오프 상태일 때의 사용 주파수 대역을 나타낸다. 특정 대역예컨대, 약 1500~2000Hz의 신호만 수신하여 음성 신호 여부를 판단하다가 음성 신호라 판단되면 광대역 주파수의 신호를 수신하여 분석하는 형태로 이루어질 수 있다.
이와 같이, 복수의 공진기 마이크로폰 배열(100) 중 음성 여부를 판별할 수 있는 적어도 하나의 공진기 마이크로폰만 항상 켜놓으면, 광대역 마이크로폰을 항상 켜 놓는 경우에 비해 필요한 클럭(clock) 수가 감소하므로 (예를 들어, 공진기 마이크로폰: 10kHz 이하, 광대역 마이크로폰: 44.1kHz), 동일한 시간 내에 수신, 처리해야 하는 데이터의 개수가 감소할 수 있어, 보다 적은 전력소모량과 연산량으로 기존과 비슷한 성능의 자동 음성 트리거로서 사용이 가능하게 된다.
특히, 실시예에 따른 자동 음성 트리거 방식에 따르면, 광대역 마이크로폰으로 데이터 수신 후, FFT(fast fourier transfer)와 특정 주파수 대역의 신호를 추출하기 위한 밴드 패스 필터(band-pass filter)를 적용하여 주파수 대역별 신호를 분석하는 방법과 비교했을 때 연산량과 연산시간을 크게 줄일 수 있다.
한편, 도 3a에서는 복수의 공진기 마이크로폰 배열(100) 중 음성 신호 대역에 속하는 하나의 공진기 마이크로폰을 음성 신호 판별에 사용하는 경우를 예를 들어 보여주는데, 도 4 내지 도 6에서와 같이, 음성 신호 대역에 속하는 2개 이상의 공진기 마이크로폰이 음성 신호 판별에 사용될 수도 있다.
예를 들어, 도 4 및 도 5에서와 같이 주파수 대역폭이 음성 신호 대역 내에 위치하는 2개 이상의 공진기 마이크로폰이 음성 신호 판별에 사용될 수 있다. 도 4 및 도 5에서는 각각 주파수 대역폭이 음성 신호 대역 내에 위치하는 2개의 공진기 마이크로폰(어둡게 해칭된 주파수 대역폭을 가지는 공진기 마이크로폰)이 음성 신호 판별에 사용되는 경우를 예시적으로 보여주는데, 주파수 대역폭이 음성 신호 대역 내에 위치하는 3개 이상의 공진기 마이크로폰이 음성 신호 판별에 사용될 수도 있다.
이때, 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰은 도 4에서와 같이 서로 인접한 주파수 대역폭을 가질 수 있다. 또한, 도 5에서와 같이, 복수의 공진기 마이크로폰을 주파수 대역폭 순서로 나열할 때, 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰 사이에 다른 주파수 대역폭을 가지는 적어도 하나의 공진기 마이크로폰이 위치할 수 있다.
도 4는 음성 신호 대역의 인접한 두 개 이상의 공진기 마이크로폰을 음성 신호 식별에 사용하는 방법으로, 후술하는 도 17a 및 도 17b의 분석 결과로부터 알 수 있는 바와 같이, 두 개 이상의 공진기 마이크로폰에서 수신된 신호의 값들을 비교하여 음성 신호와 큰 소리의 노이즈를 구별할 수 있다. 예를 들어, 음성 신호가 발생하였을 때에는 음성 신호 대역의 인접한 두 개의 공진기 마이크로폰에서 수신된 신호들의 상관관계가 높은 반면, 노이즈가 발생하였을 때에는 수신된 신호들의 상관관계가 낮다. 따라서, 두 개의 공진기 마이크로폰에서 수신된 신호들의 비교값(상관관계, 에너지의 합, 에너지의 차 등)이 일정한 문턱치(threshold) 값을 넘는지 여부로 음성 신호 여부를 판별할 수 있다.
도 5는 음성 신호 대역의 인접하지 않은 두 개 이상의 공진기 마이크로폰에서 수신된 신호의 값들을 비교하여 음성 신호와 노이즈를 구별하고자 하는 방법으로, 후술하는 도 18a 및 도 18b의 분석 결과로부터 알 수 있는 바와 같이, 두 개 이상의 공진기 마이크로폰에서 수신된 신호의 값들을 비교하여 음성 신호와 큰 소리의 노이즈를 구별할 수 있다. 이때, 두 개의 공진기 마이크로폰의 주파수 대역을 음성 신호에서 하모닉 관계에 있는 주파수 대역으로 선별할 수 있으며, 이 경우, 음성 신호 발생 여부의 판별 정확도를 보다 높일 수 있다.
즉, 두 개 공진기 마이크로폰 중 하나의 공진기 마이크로폰은 picth 발생 구간의 주파수 대역을 갖으며, 다른 하나의 공진기 마이크로폰은 pitch의 하모닉이 존재하는 주파수 대역(혹은 포만트 대역)을 갖도록 설계한 후 수신된 신호의 값들을 비교할 수 있다. 이 경우, 음성 신호가 발생할 경우, 수신된 신호들간의 상관관계가 높고, 신호의 합의 크기는 커지며, 시간 프레임별 신호 발생 위치가 비슷한 등의 특성이 나타날 수 있다. 반면, 노이즈 신호가 발생할 경우에는 수신된 신호들간의 상관관계가 낮고, 신호의 합의 크기는 일정하며, 시간 프레임에서 신호 발생 위치가 랜덤한 특성이 나타날 수 있다. 이러한 신호 비교를 통해 노이즈에 보다 강건한 자동 음성 트리거가 가능하다.
한편, 음성 신호 판별에 사용되는 공진기 마이크로폰은, 도 6에서와 같이, 음성 신호 대역 내에 위치하는 적어도 하나의 공진기 마이크로폰에 부가하여, 주파수 대역폭이 음성 신호 대역을 벗어나는 적어도 하나의 공진기 마이크로폰을 더 포함할 수 있다. 도 6은 도 3a와 비교할 때, 음성 신호 판별시 음성 신호 대역을 벗어나는 영역에 위치하는 하나의 공진기 마이크로폰을 더 사용하는 경우를 예시적으로 보여준다. 음성 신호 판별시 음성 신호 대역을 벗어나는 영역에 위치하는 적어도 하나의 공진기 마이크로폰을 더 사용하는 것은, 도 4 및 도 5에서와 같이, 음성 신호 대역에 속하는 2개 이상의 공진기 마이크로폰이 음성 신호 판별에 사용되는 경우에도 적용될 수 있다.
도 6에서와 같이, 자동 음성 트리거를 위해, 음성이 존재하는 구간의 주파수 대역을 가지는 하나 이상의 공진기 마이크로폰을 사용하며, 음성이 존재하지 않는 주파수 대역을 갖는 공진기 마이크로폰을 추가적으로 더 사용할 수 있다. 이와 같이, 음성대역의 공진기 마이크로폰과 비음성대역의 공진기 마이크로폰을 음성 신호 판별에 사용하는 경우, 후술하는 도 16a 및 도 16b의 분석 결과로부터 알 수 있는 바와 같이, 두 개 이상의 공진기 마이크로폰에서 수신된 신호의 값들을 비교하여 신호 대 잡음비(SNR)나 상관관계 등 수신된 신호의 비교값으로음성 신호와 큰 소리의 노이즈를 구별할 수 있다.
도 7은 비교예로서, 기존의 자동 음성 트리거를 위한 음향 분석기를 보여준다.
도 7에서와 같이, 기존의 자동 음성 트리거 방식은 자동 음성 트리거부(200')에서 광대역 마이크로폰(500')에서 수신되고 있는 광대역 신호를 분석하고, 음성 신호로 판별되어 트리거 온 상태가 되면, 제어부(300')에서 전체 시스템(데이터 저장을 위한 메모리, 데이터 연산을 위한 메인보드 등)을 깨워 본격적으로 신호를 분석하는 방식으로 이루어진다.
도 8a 및 도 8b는 각각 기존의 자동 음성 트리거 방식에서 음성 트리거 온/오프 상태일 때의 사용 주파수 대역을 나타낸다. 도 8a와 도 8b에서와 같이, 기존의 자동 음성 트리거 방식에 따르면, 항상 광대역(0~44,100Hz) 주파수의 신호를 수신하여 음성 신호 여부를 판단하므로, 본 실시예와 비교할 때, 훨씬 큰 전력소모량과 연산량이 요구된다.
도 9는 실시예에 따른 자동 음성 트리거 방식에 적용되는 복수의 공진기 마이크로폰 배열의 일예를 예시적으로 보여준다. 도 9에서는 공진기 마이크로폰(R) 개수가 12개인 경우를 예시적으로 보여준다.
도 9에서는 복수의 공진기 마이크로폰들(R)이 중심 주파수 순서대로 배열된 경우를 예시적으로 보여주는데, 중심 주파수 배열 순서는 다양하게 변형될 수 있다.
또한, 공진기 마이크로폰들(R)은 일정한 배열 주기(p)를 가질 수 있으며, 인접한 공진기 마이크로폰(R) 간의 중심 주파수 간격은 Δf일 수 있으며, 인접한 공진기 마이크로폰(R) 간에 중심 주파수는 서로 다를 수 있다. 또한, 인접한 공진기 마이크로폰(R) 간의 주파수 대역폭은 서로 이격될 수 있다.
도 10a 및 도 10b는 단일 공진기 마이크로폰(R)의 구조를 보인 단면도이고, 도 10c는 단일 공진기 마이크로폰(R)의 주파수 응답 특성을 예시적으로 보인 그래프이다.
복수의 공진기 마이크로폰(R)은 지지 기판(50)에 어레이로 배치될 수 있으며, 이때, 주파수 대역폭이 서로 다른 복수의 공진기 마이크로폰(R)은 지지 기판(50)에 일단이 고정되게 배열될 수 있다.
도 10a 및 도 10b에 도시된 바와 같이, 공진기 마이크로폰(R)은 지지 기판(50)에 고정되는 고정부(10)와, 신호에 반응하여 가동되는 가동부(30)와, 가동부(30)의 움직임을 센싱하는 감지부(20)를 포함할 수 있다. 공진기 마이크로폰(R)은 또한, 가동부(30)에 소정의 질량(m)을 제공하기 위한 질량체(40)를 더 포함할 수 있다.
지지 기판(50)에는 관통홀(TH)이 형성될 수 있고, 복수의 공진기 마이크로폰(R) 각각의 가동부(30)가 관통홀(TH)과 마주하도록 배치될 수 있다. 관통홀(TH)은 가동부(30)가 외력에 의해 진동하는 공간을 제공하며, 이를 만족하는 한, 형상이나 크기는 특별히 한정되지 않는다. 지지 기판(50)은 실리콘 기판 등 다양한 재질로 형성될 수 있다.
복수의 공진기 마이크로폰(R)은 서로 겹침이 없이 평면적으로 배열되며, 즉, 물리적 신호의 입력 경로에 전체적으로 동시에 노출되게 배열될 수 있다. 복수의 공진기 마이크로폰(R)의 고정부(10)들이 배치된 궤적은 관통홀(TH)의 단면 형상을 따라 형성될 수 있다. 관통홀(TH)은 원형으로 도시되었으나 이에 한정되지 않으며, 다각형이나, 그 외, 다양한 폐곡선 형상을 가질 수 있다.
예를 들어, 복수의 공진기 마이크로폰(R)의 고정부(10)들이 배치된 궤적은 다각형, 원형, 폐곡선 형상, 다각형 형상, 또는 서로 나란한 두 직선 형태일 수 있다.
가동부(30)는 탄성 필름으로 이루어질 수 있다. 탄성 필름은 길이 L, 폭 W를 가질 수 있고, 질량체(40)의 질량(m)과 함께, 공진기(R)의 공진 특성을 정하는 요소가 된다. 탄성 필름으로는 실리콘, 금속, 폴리머 등의 재질이 사용될 수 있다.
감지부(20)는 가동부(30)의 움직임을 센싱하는 센서층을 포함할 수 있다. 감지부(20)는 예를 들어, 압전 소자를 포함할 수 있고, 이 경우, 전극층, 압전물질층, 전극층이 적층된 구조를 가질 수 있다. 압전물질로는 ZnO, SnO, PZT, ZnSnO3, Polyvinylidene fluoride(PVDF), poly(vinylidene fluoride-trifluoroethylene) (P(VDF-TrFE)), AlN 또는 PMN-PT 등이 사용될 수 있다. 전극층으로, 금속 물질이나 이 외, 다양한 전도성 재질이 사용될 수 있다.
공진기 마이크로폰(R)들은 대략 수㎛ 이하의 폭, 수㎛ 이하의 두께, 및 대략 수 mm 이하의 길이를 가질 수 있다. 이러한 미세한 크기의 공진기들 마이크로폰(R)들은 MEMS(Micro Electro Mechanical System) 공정에 의해 제작될 수 있다.
공진기(R)는 외부 신호에 반응하여 Z 방향을 따라 상하로 진동하며, 변위 z값은 다음의 운동 방정식을 따라 정해질 수 있다.
Figure pat00001
여기서, c는 댐핑 계수(damping coefficient)이고, k는 탄성 계수이며, F0cosωt는 외력(driving force)으로, 공진기(R)에 입사되는 신호에 의한 작용을 나타낸다. k값은 가동부(30)의 물성과 형상에 의해 정해진다.
운동 방정식에 의해 공진기 마이크로폰(R)은 도 2c와 같이, 중심 주파수 f0, 밴드폭(BW)를 가지는 주파수 응답 특성을 나타낼 수 있다.
이때, 중심 주파수 f0는 다음과 같다.
Figure pat00002
밴드폭(BW)은 중심 주파수 f0에 의한 주파수 응답값(z-magnitude)의 반을 나타내는 주파수 대역폭을 의미한다.
이와 같이, 공진기 마이크로폰(R)들은 설계된, 서로 다른 중심 주파수를 가지며, 중심 주파수를 중심으로 하는 소정 대역의 주파수를 감지할 수 있다.
도 11은 실시예에 따른 복수의 공진기 마이크로폰 배열(100)을 이용하는 자동 음성 트리거 분석 결과의 일예를 보여준다. 비교예로서, 도 12는 기존의 광대역 마이크로폰(500')을 이용하는 자동 음성 트리거 분석 결과를 보여준다. 도 11 및 도 12는 음성 신호만 수신 되는 경우에 대한 것이다. 도 11에서는 공진기 마이크로폰을 도 12에서의 광대역 마이크로폰(500')에 대비되게 협대역 마이크로폰으로 표현한다.
도 11을 참조하면, 사용 주파수 대역에서 음성 신호 판별에 사용되는 협대역 마이크로폰에 사람의 음성 신호가 감지될 때, 협대역 마이크로폰(약 f0 = 2kHz)에는 음성 신호가 수신되며, 수신된 음성 신호를 에너지 기반의 음성 신호 구간 탐지 알고리즘을 적용하여 검출하면, 도 11의 하단 그래프에서 점선으로 표현된 바와 같이, 음성 대역 구간이 검출될 수 있다.
분석할 총 데이터(Data) 개수는 샘플링(sampling) 주파수와 신호 길이의 곱으로 나타낼 수 있다. 협대역 마이크로폰의 샘플링 주파수가 약 4410Hz이고, 신호 길이가 약 15초(s)일 때, 분석할 총 데이터 개수는 대략 66150개가 된다.
비교예로서, 도 12를 참조하면, 사용 주파수 대역에서 광대역 마이크로폰을 이용하여 사람의 음성 신호를 수신하고, 수신된 음성 신호를 에너지 기반의 음성 신호 구간 탐지 알고리즘을 적용하여 검출하면, 도 12의 하단 그래프에서 점선으로 표현된 바와 같이, 음성 대역 구간이 검출될 수 있다.
이때, 분석할 총 데이터(Data) 개수는 광대역 마이크로폰의 샘플링 주파수가 약 44100Hz이므로, 신호 길이가 약 15초(s)일 때, 분석할 총 데이터 개수는 대략 661,500개가 된다.
여기서, 협대역 마이크로폰의 샘플링 주파수 4410Hz는 도 12의 광대역 마이크로폰으로 수신한 음성 신호의 spectrogram에서 주파수 2kHz 대역의 신호만을 샘플링한 것에 대응할 수 있다.
음성 신호만이 수신되는 경우에는, 실시예에 따른 협대역 마이크로폰을 이용한 음성 트리거 방식은, 기존의 광대역 마이크로폰을 이용하는 방식과 음성 트리거 결과는 실질적으로 동일할 수 있으며, 데이터 수신과 분석에 사용되는 데이터 개수는 실시예의 방식이 기존의 광대역 마이크로폰을 이용하는 방식에 비해 1/10배 감소하므로, 연산량과 전력소모량을 그만큼 줄일 수 있다.
도 13은 도 11의 실시예에서와 같이 샘플링 주파수가 fs=4.41kHz인 경우와 도 12의 기존 방식과 같이 샘플링 주파수가 fs=44.1kHz일 때의 전력소모량을 비교하여 보여준다.
도 13에서 알 수 있는 바와 같이, 공진기 마이크로폰으로 신호 수신을 하는 점을 제외하고, 기존의 광대역 마이크로폰을 적용한 방식과 동일한 신호 검출 알고리즘을 사용한 경우, 기존 방식과 실시예의 음성 트리거 결과는 동일하나, 데이터 수신과 분석에 사용되는 데이터 개수가 실시예의 방식에서 1/10배 감소하므로, 기존 방식의 전력 소모량이 24.2mW인 반면에, 실시예의 전력 소모량은 22.7mW로 줄어들 수 있다.
여기서, 도 13은 실시예의 전력 소모량이 기존 방식에 비해 감소함을 비교하기 위해 보인 것일 뿐, 실시예의 전력 소모량이 이에 한정되는 것은 아니다. 공진기 마이크로폰 전용으로 칩을 구성하는 경우, 실시예의 전력 소모량은 도 13에서 예시로 보인 것보다 훨씬 크게 감소할 수 있다.
도 14는 실시예에 따른 복수의 공진기 마이크로폰 배열(100)을 이용하는 자동 음성 트리거 분석 결과의 다른 예를 보여준다. 비교예로서, 도 15는 기존의 광대역 마이크로폰(500')을 이용하는 자동 음성 트리거 분석 결과를 보여준다. 도 14 및 도 15는 음성 신호 뿐만 아니라, 잡음 신호도 수신 되는 경우에 대한 것이다. 도 14에서는 공진기 마이크로폰을 도 15에서의 광대역 마이크로폰에 대비되게 협대역 마이크로폰으로 표현한다. 도 14 및 15에서 좌측의 waveform 및 spectrogram은 동일한 것이다.
도 14를 참조하면, 사용 주파수 대역에서 음성 신호 판별에 사용되는 협대역 마이크로폰에 사람의 음성 신호와 함께 Car noise, pink noise 등의 잡음신호가 수신될 때, 협대역 마이크로폰(약 f0 = 1219kHz)에는 음성 신호 뿐만 아니라 잡음신호도 수신된다. 이러한 협대역 마이크로폰을 통과한 신호를 에너지 기반의 음성 신호 구간 탐지 알고리즘을 적용하여 검출하면, 도 14의 우측 공진기 마이크로폰을 통과한 신호 그래프에서 점선으로 표현된 바와 같이, 음성 대역 구간이 검출될 수 있다.
분석할 총 데이터(Data) 개수는 샘플링(sampling) 주파수와 신호 길이의 곱으로 나타낼 수 있다. 협대역 마이크로폰의 샘플링 주파수가 약 4410Hz이고, 신호 길이는 약 11초(s)가 되므로, 분석할 총 데이터 개수는 대략 48,510개가 된다.
비교예로서, 도 15를 참조하면, 사용 주파수 대역에서 광대역 마이크로폰을 이용하여 사람의 음성 신호와 함께 Car noise, pink noise 등의 잡음신호가 수신될 때, 광대역 마이크로폰에는 음성 신호 뿐만 아니라 잡음신호도 수신된다. 이러한 광대역 마이크로폰을 통과한 신호를 에너지 기반의 음성 신호 구간 탐지 알고리즘을 적용하여 검출하면, 도 15의 우측 광대역 마이크로폰을 통과한 신호 그래프에서 점선으로 표현된 바와 같이, 음성 대역 구간이 검출될 수 있다.
이때, 분석할 총 데이터(Data) 개수는 광대역 마이크로폰의 샘플링 주파수가 약 44100Hz이고, 신호 길이가 약 11초(s)이므로, 분석할 총 데이터 개수는 대략 485,100개가 된다.
여기서, 협대역 마이크로폰의 샘플링 주파수 4410Hz는 광대역 마이크로폰으로 수신한 음성 신호의 spectrogram에서 주파수 1219kHz 대역의 신호만을 샘플링한 것에 대응할 수 있다.
도 16a 및 도 16b는 실시예에 따른 복수의 공진기 마이크로폰 배열(100)을 이용하는 자동 음성 트리거 분석 결과의 다른 예를 보여준다. 도 16a 및 도 16b는 음성 신호 뿐만 아니라, 잡음 신호도 수신 되는 경우에 대한 것이다. 도 16a 및 도 16b는 음성 신호 판별에 서로 인접한 주파수 대역폭을 가지는 2개의 공진기 마이크로폰을 이용하는 실시예로, 서로 인접한 비음성대역의 공진기 마이크로폰(S0)과 음성대역의 공진기 마이크로폰(S1)을 이용하는 경우에 대한 것이다.
도 16a를 참조하면, 사용 주파수 대역에서 음성 신호 판별에 사용되는 복수의 공진기 마이크로폰 배열에 사람의 음성 신호와 함께 Car noise, pink noise 등의 잡음신호가 수신될 때, 음성 신호 판별에 이용하는 비음성대역의 공진기 마이크로폰(S0)과 음성대역의 공진기 마이크로폰(S1)에는 음성 신호 뿐만 아니라 잡음신호도 수신된다.
도 16b에서와 같이, 이러한 비음성대역의 공진기 마이크로폰(S0)을 통과한 신호와 음성대역의 공진기 마이크로폰(S1)을 통과한 신호를 비교하면, 도 16b의 우측 그래프와 같이 상관 계수(correlation coefficient)를 프레임(frame) 및 구간별로 구하고, 비음성대역의 공진기 마이크로폰(S0)을 통과한 신호와 음성대역의 공진기 마이크로폰(S1)을 통과한 신호의 곱을 구할 수 있다.
이와 같이 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰이 서로 인접한 주파수 대역폭을 가질 때, 두 개 이상의 공진기 마이크로폰에서 수신된 신호의 값들을 비교하여 음성 신호와 잡음 신호를 구별할 수 있으며, 예를 들어, 비교값이 일정한 문턱치를 넘으면, 전체 시스템(예를 들어, 데이터 저장을 위한 메모리, 데이터 연산을 위한 메인 보드 등)을 깨워 본격적으로 신호를 분석하는 단계 즉, 트리거 온(trigger on)으로 넘어갈 수 있다.
도 16a 및 도 16b에서와 같이, 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰으로 서로 인접한 비음성대역의 공진기 마이크로폰(S0)과 음성대역의 공진기 마이크로폰(S1)을 적용할 때, 음성/잡음 신호의 구분 성능이 보다 향상될 수 있으므로, 잡음 신호가 수신되는 경우에도 음성 신호가 있는지 여부를 정확히 판별할 수 있다.
도 17a 및 도 17b는 실시예에 따른 복수의 공진기 마이크로폰 배열(100)을 이용하는 자동 음성 트리거 분석 결과의 다른 예를 보여준다. 도 17a 및 도 17b는 음성 신호 뿐만 아니라, 잡음 신호도 수신 되는 경우에 대한 것이다. 도 17a 및 도 17b는 음성 신호 판별에 서로 인접한 주파수 대역폭을 가지는 2개의 공진기 마이크로폰을 이용하는 실시예로, 서로 인접한 음성대역의 공진기 마이크로폰(S1)(S2)를 이용하는 경우에 대한 것이다.
도 17a를 참조하면, 사용 주파수 대역에서 음성 신호 판별에 사용되는 복수의 공진기 마이크로폰 배열에 사람의 음성 신호와 함께 Car noise, pink noise 등의 잡음신호가 수신될 때, 음성 신호 판별에 이용하는 음성대역의 공진기 마이크로폰(S1)(S2)에는 음성 신호 뿐만 아니라 잡음신호도 수신된다.
도 17b에서와 같이, 이러한 음성대역의 공진기 마이크로폰(S1)(S2)을 통과한 신호를 비교하면, 도 17b의 우측 그래프와 같이 상관 계수(correlation coefficient)를 프레임(frame) 및 구간별로 구할 수 있다.
이와 같이 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰이 서로 인접한 주파수 대역폭을 가질 때, 두 개 이상의 공진기 마이크로폰에서 수신된 신호의 값들을 비교하여 음성 신호와 잡음 신호를 구별할 수 있으며, 예를 들어, 비교값이 일정한 문턱치를 넘으면, 전체 시스템(예를 들어, 데이터 저장을 위한 메모리, 데이터 연산을 위한 메인 보드 등)을 깨워 본격적으로 신호를 분석하는 단계 즉, 트리거 온(trigger on)으로 넘어갈 수 있다.
도 17a 및 도 17b에서와 같이, 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰으로 서로 인접한 음성대역의 공진기 마이크로폰(S1)(S2)을 적용할 때, 음성/잡음 신호의 구분 성능이 향상될 수 있으므로, 잡음 신호가 수신되는 경우에도 음성 신호가 있는지 여부를 정확히 판별할 수 있다.
도 18a 및 도 18b는 실시예에 따른 복수의 공진기 마이크로폰 배열(100)을 이용하는 자동 음성 트리거 분석 결과의 다른 예를 보여준다. 도 18a 및 도 18b는 음성 신호 뿐만 아니라, 잡음 신호도 수신 되는 경우에 대한 것이다. 도 18a 및 도 18b는 음성 신호 판별에 서로 이격된 음성대역의 공진기 마이크로폰(S1)(S3)을 이용하는 경우에 대한 것이다.
도 18a를 참조하면, 사용 주파수 대역에서 음성 신호 판별에 사용되는 복수의 공진기 마이크로폰 배열에 사람의 음성 신호와 함께 Car noise, pink noise 등의 잡음신호가 수신될 때, 음성 신호 판별에 이용하는 음성대역의 공진기 마이크로폰(S1)(S3)에는 음성 신호 뿐만 아니라 잡음신호도 수신된다.
도 18b에서와 같이, 이러한 음성대역의 공진기 마이크로폰(S1)(S3)을 통과한 신호를 비교하면, 도 18b의 우측 그래프와 같이 상관 계수(correlation coefficient)를 프레임(frame) 및 구간별로 구할 수 있다.
이와 같이 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰이 서로 이격된 주파수 대역폭을 가질 때, 두 개 이상의 공진기 마이크로폰에서 수신된 신호의 값들을 비교하여 음성 신호와 잡음 신호를 구별할 수 있으며, 예를 들어, 비교값이 일정한 문턱치를 넘으면, 전체 시스템(예를 들어, 데이터 저장을 위한 메모리, 데이터 연산을 위한 메인 보드 등)을 깨워 본격적으로 신호를 분석하는 단계 즉, 트리거 온(trigger on)으로 넘어갈 수 있다.
도 18a 및 도 18b에서와 같이, 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰으로 서로 이격된 음성대역의 공진기 마이크로폰(S1)(S3)을 적용하는 경우에도, 음성/잡음 신호의 구분 성능이 향상될 수 있으므로, 잡음 신호가 수신되는 경우에도 음성 신호가 있는지 여부를 정확히 판별할 수 있다.
이상에서와 같은 다양한 실시예에 따른 복수의 공진기 마이크로폰 배열을 이용한 자동 음성 트리거 방식을 적용하면, 기존의 광대역 마이크로폰을 적용한 음성 트리거 방식에 비해, 연산량 및 전력소모량이 감소할 수 있다.
이상의 다양한 실시예에 따른 자동 음성 트리거 방식 및 이를 적용한 음향 분석기는, 핸드폰, 텔레비전, 컴퓨터, 가전 기기, 자동차, 또는 스마트홈 환경 등에서 상황인식, 음성인식, 화자 인증, 음성 비서 등에 활용될 수 있다.
100...공진기 마이크로폰 배열 200...자동 음성 트리거부
300...제어부 500...광대역 마이크로폰

Claims (20)

  1. 서로 다른 주파수 대역폭을 갖는 복수의 공진기 마이크로폰 배열에서 적어도 하나의 공진기 마이크로폰으로 신호를 수신하는 단계와;
    상기 수신된 신호를 분석하여 수신된 신호가 음성 신호인지 여부를 판별하는 단계와;
    수신된 신호가 음성 신호로 판별되면, 광대역 신호를 수신 분석하도록 전체 시스템을 깨우는 단계;를 포함하는 자동 음성 트리거 방법.
  2. 제1항에 있어서, 상기 광대역 신호를 상기 복수의 공진기 마이크로폰을 이용하여 수신 분석하는 자동 음성 트리거 방법.
  3. 제1항에 있어서, 상기 광대역 신호를 광대역 마이크로폰을 이용하여 수신 분석하는 자동 음성 트리거 방법.
  4. 제1항에 있어서, 상기 복수의 공진기 마이크로폰 개수가 P1개이고, 상기 음성 신호 판별에 사용되는 공진기 마이크로폰의 개수가 P2개일 때,
    상기 음성 신호 판별에 사용되는 공진기 마이크로폰의 개수는 P2 < P1, P2는 1 이상인 조건을 만족하는 자동 음성 트리거 방법.
  5. 제1항에 있어서, 상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역내에 위치하는 하나의 공진기 마이크로폰을 포함하는 자동 음성 트리거 방법.
  6. 제5항에 있어서, 상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역을 벗어나는 적어도 하나의 공진기 마이크로폰을 더 포함하여,
    수신된 신호의 비교에 의해 신호와 잡음을 구분하도록 된 자동 음성 트리거 방법.
  7. 제1항에 있어서, 상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역내에 위치하는 2개 이상의 공진기 마이크로폰을 포함하는 자동 음성 트리거 방법.
  8. 제7항에 있어서, 상기 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰은 서로 인접한 주파수 대역폭을 가지는 자동 음성 트리거 방법.
  9. 제7항에 있어서, 상기 복수의 공진기 마이크로폰을 주파수 대역폭 순서로 나열할 때,
    상기 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰 사이에 그 주파수 대역폭 사이에 위치하는 주파수 대역폭을 가지는 적어도 하나의 공진기 마이크로폰이 위치하는 자동 음성 트리거 방법.
  10. 제7항 내지 제9항 중 어느 한 항에 있어서, 상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역을 벗어나는 적어도 하나의 공진기 마이크로폰을 더 포함하여,
    수신된 신호의 비교에 의해 신호와 잡음을 구분하도록 된 자동 음성 트리거 방법.
  11. 서로 다른 주파수 대역폭을 갖는 복수의 공진기 마이크로폰 배열과;
    서로 다른 주파수 대역폭을 갖는 복수의 공진기 마이크로폰 배열에서 일부 공진기 마이크로폰으로 수신된 신호를 이용하여, 수신된 신호가 음성 신호인지 여부를 판별하는 자동 음성 트리거부와;
    상기 자동 음성 트리거부에서 상기 수신된 신호가 음성 신호로 판별되면, 전체 시스템을 깨워 광대역 신호를 수신 분석하도록 제어하는 제어부;를 포함하는 음향 분석기.
  12. 제11항에 있어서, 상기 광대역 신호를 상기 복수의 공진기 마이크로폰을 이용하여 수신 분석하는 음향 분석기.
  13. 제11항에 있어서, 상기 광대역 신호를 수신 분석하는 광대역 마이크로폰을 더 포함하는 음향 분석기.
  14. 제11항에 있어서, 상기 복수의 공진기 마이크로폰 개수가 P1개이고, 상기 음성 신호 판별에 사용되는 공진기 마이크로폰의 개수가 P2개일 때,
    상기 음성 신호 판별에 사용되는 공진기 마이크로폰의 개수는 P2 < P1, P2는1 이상의 조건을 만족하는 음향 분석기.
  15. 제11항에 있어서, 상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역내에 위치하는 하나의 공진기 마이크로폰을 포함하는 음향 분석기.
  16. 제15항에 있어서, 상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역을 벗어나는 적어도 하나의 공진기 마이크로폰을 더 포함하여,
    수신된 신호의 비교에 의해 신호와 잡음을 구분하도록 된 음향 분석기.
  17. 제11항에 있어서, 상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역내에 위치하는 2개 이상의 공진기 마이크로폰을 포함하는 음향 분석기.
  18. 제17항에 있어서, 상기 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰은 서로 인접한 주파수 대역폭을 가지는 음향 분석기.
  19. 제17항에 있어서, 상기 복수의 공진기 마이크로폰을 주파수 대역폭 순서로 나열할 때,
    상기 음성 신호 판별에 사용되는 2개 이상의 공진기 마이크로폰 사이에 그 주파수 대역폭 사이에 위치하는 주파수 대역폭을 가지는 적어도 하나의 공진기 마이크로폰이 위치하는 음향 분석기.
  20. 제17항 내지 제19항 중 어느 한 항에 있어서, 상기 음성 신호 판별에 사용되는 공진기 마이크로폰은, 주파수 대역폭이 음성 신호 대역을 벗어나는 적어도 하나의 공진기 마이크로폰을 더 포함하여,
    수신된 신호의 비교에 의해 신호와 잡음을 구분하도록 된 음향 분석기.
KR1020160148187A 2016-11-08 2016-11-08 자동 음성 트리거 방법 및 이를 적용한 음향 분석기 KR20180051189A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160148187A KR20180051189A (ko) 2016-11-08 2016-11-08 자동 음성 트리거 방법 및 이를 적용한 음향 분석기
US15/806,863 US10566011B2 (en) 2016-11-08 2017-11-08 Auto voice trigger method and audio analyzer employing the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160148187A KR20180051189A (ko) 2016-11-08 2016-11-08 자동 음성 트리거 방법 및 이를 적용한 음향 분석기

Publications (1)

Publication Number Publication Date
KR20180051189A true KR20180051189A (ko) 2018-05-16

Family

ID=62064099

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160148187A KR20180051189A (ko) 2016-11-08 2016-11-08 자동 음성 트리거 방법 및 이를 적용한 음향 분석기

Country Status (2)

Country Link
US (1) US10566011B2 (ko)
KR (1) KR20180051189A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190136878A (ko) * 2018-05-30 2019-12-10 한국과학기술원 커브드 형태의 복수의 주파수 채널을 갖는 음성인식 센서
US10823814B2 (en) 2017-09-01 2020-11-03 Samsung Electronics Co., Ltd. Sound direction detection sensor including multi-resonator array
KR20210060523A (ko) * 2018-09-12 2021-05-26 션젼 복스테크 컴퍼니 리미티드 다중 음향-전기 변환기들을 구비한 신호 처리 디바이스
US11955128B2 (en) 2021-02-25 2024-04-09 Samsung Electronics Co., Ltd. Method for voice identification and device using same

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11665482B2 (en) 2011-12-23 2023-05-30 Shenzhen Shokz Co., Ltd. Bone conduction speaker and compound vibration device thereof
US9973641B2 (en) * 2015-10-22 2018-05-15 Kabushiki Kaisha Toshiba Multi-function printer
GB2567018B (en) * 2017-09-29 2020-04-01 Cirrus Logic Int Semiconductor Ltd Microphone authentication
US11565365B2 (en) * 2017-11-13 2023-01-31 Taiwan Semiconductor Manufacturing Co., Ltd. System and method for monitoring chemical mechanical polishing
CN109801629A (zh) * 2019-03-01 2019-05-24 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调
KR20200133632A (ko) * 2019-05-20 2020-11-30 삼성전자주식회사 지향성 음향 센서 및 이를 이용한 음원 거리 측정방법
CN110288989A (zh) * 2019-06-03 2019-09-27 安徽兴博远实信息科技有限公司 语音交互方法及系统
KR102626924B1 (ko) 2019-06-20 2024-01-19 삼성전자주식회사 지향성 음향 센서와, 이를 이용한 지향 특성의 조절 방법 및 특정 방향의 음향 신호 감쇄 방법
CN111369992A (zh) * 2020-02-27 2020-07-03 Oppo(重庆)智能科技有限公司 指令执行方法、装置、存储介质及电子设备
CN115223548B (zh) * 2021-06-29 2023-03-14 达闼机器人股份有限公司 语音交互方法、语音交互设备及存储介质
KR20230086877A (ko) 2021-12-08 2023-06-16 삼성전자주식회사 지향성 음향 센서

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3522954B2 (ja) * 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
US5715319A (en) * 1996-05-30 1998-02-03 Picturetel Corporation Method and apparatus for steerable and endfire superdirective microphone arrays with reduced analog-to-digital converter and computational requirements
US6549629B2 (en) * 2001-02-21 2003-04-15 Digisonix Llc DVE system with normalized selection
US6847930B2 (en) 2002-01-25 2005-01-25 Acoustic Technologies, Inc. Analog voice activity detector for telephone
JP3867057B2 (ja) 2003-02-20 2007-01-10 三井造船株式会社 音響センサアレイ、音響診断装置及び音響診断方法
EP1524879B1 (en) * 2003-06-30 2014-05-07 Nuance Communications, Inc. Handsfree system for use in a vehicle
DK176894B1 (da) * 2004-01-29 2010-03-08 Dpa Microphones As Mikrofonstruktur med retningsvirkning
JP4192800B2 (ja) * 2004-02-13 2008-12-10 ソニー株式会社 音声集音装置と方法
US8190440B2 (en) 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
US8357981B2 (en) * 2010-05-28 2013-01-22 Avago Technologies Wireless Ip (Singapore) Pte. Ltd. Transducer devices having different frequencies based on layer thicknesses and method of fabricating the same
US9331656B1 (en) * 2010-06-17 2016-05-03 Steven M. Gottlieb Audio systems and methods employing an array of transducers optimized for particular sound frequencies
US8964966B2 (en) * 2010-09-15 2015-02-24 Avaya Inc. Multi-microphone system to support bandpass filtering for analog-to-digital conversions at different data rates
US9148729B2 (en) * 2012-09-25 2015-09-29 Invensence, Inc. Microphone with programmable frequency response
US9269352B2 (en) * 2013-05-13 2016-02-23 GM Global Technology Operations LLC Speech recognition with a plurality of microphones
CN104378723A (zh) * 2013-08-16 2015-02-25 上海耐普微电子有限公司 具有语音唤醒功能的麦克风
US9147397B2 (en) * 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US10068587B2 (en) * 2014-06-30 2018-09-04 Rajeev Conrad Nongpiur Learning algorithm to detect human presence in indoor environments from acoustic signals
WO2016007528A1 (en) * 2014-07-10 2016-01-14 Analog Devices Global Low-complexity voice activity detection
KR102207928B1 (ko) 2014-08-13 2021-01-26 삼성전자주식회사 음향 센싱 소자 및 주파수 정보 획득 방법
US10181329B2 (en) * 2014-09-05 2019-01-15 Intel IP Corporation Audio processing circuit and method for reducing noise in an audio signal
KR102299330B1 (ko) 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
CN107210824A (zh) * 2015-01-30 2017-09-26 美商楼氏电子有限公司 麦克风的环境切换
KR20180015482A (ko) 2016-08-03 2018-02-13 삼성전자주식회사 음향 스펙트럼 분석기 및 이에 구비된 공진기들의 배열방법
US10079026B1 (en) * 2017-08-23 2018-09-18 Cirrus Logic, Inc. Spatially-controlled noise reduction for headsets with variable microphone array orientation

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10823814B2 (en) 2017-09-01 2020-11-03 Samsung Electronics Co., Ltd. Sound direction detection sensor including multi-resonator array
KR20190136878A (ko) * 2018-05-30 2019-12-10 한국과학기술원 커브드 형태의 복수의 주파수 채널을 갖는 음성인식 센서
KR20210060523A (ko) * 2018-09-12 2021-05-26 션젼 복스테크 컴퍼니 리미티드 다중 음향-전기 변환기들을 구비한 신호 처리 디바이스
US11955128B2 (en) 2021-02-25 2024-04-09 Samsung Electronics Co., Ltd. Method for voice identification and device using same

Also Published As

Publication number Publication date
US10566011B2 (en) 2020-02-18
US20180130485A1 (en) 2018-05-10

Similar Documents

Publication Publication Date Title
KR20180051189A (ko) 자동 음성 트리거 방법 및 이를 적용한 음향 분석기
US9479884B2 (en) Audio sensing device and method of acquiring frequency information
US9830913B2 (en) VAD detection apparatus and method of operation the same
US10867611B2 (en) User programmable voice command recognition based on sparse features
US9202463B2 (en) Voice-activated precision timing
US11887606B2 (en) Method and apparatus for recognizing speaker by using a resonator
KR100283358B1 (ko) 진동파 검출방법 및 진동파 검출장치
US20190261107A1 (en) Apparatus and methods for monitoring a microphone
US11605372B2 (en) Time-based frequency tuning of analog-to-information feature extraction
EP2905780A1 (en) Voiced sound pattern detection
CN106664486A (zh) 用于风噪声检测的方法和装置
US10645493B2 (en) Sound direction detection sensor and electronic apparatus including the same
US10347249B2 (en) Energy-efficient, accelerometer-based hotword detection to launch a voice-control system
US10750281B2 (en) Sound source separation apparatus and sound source separation method
GB2526980A (en) Sensor input recognition
TW201810253A (zh) 用於致動感測器設備的裝置和方法
KR102184932B1 (ko) 다채널을 이용한 음성인식 방법
Shkel Zero-Power Sensing and Processing With Piezoelectric Resonators
EP3754538A1 (en) Detection of door opening and closing events
CN117896648A (en) Earphone wearing state detection method and device, earphone and storage medium
CN115881165A (zh) 基于耳机音频的慢阻肺检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination