KR101434071B1 - 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동 감지(vad) 구성 - Google Patents

통신 시스템에서 사용을 위한 마이크로폰과 음성 활동 감지(vad) 구성 Download PDF

Info

Publication number
KR101434071B1
KR101434071B1 KR1020127018648A KR20127018648A KR101434071B1 KR 101434071 B1 KR101434071 B1 KR 101434071B1 KR 1020127018648 A KR1020127018648 A KR 1020127018648A KR 20127018648 A KR20127018648 A KR 20127018648A KR 101434071 B1 KR101434071 B1 KR 101434071B1
Authority
KR
South Korea
Prior art keywords
microphone
noise
signal
voice activity
vad
Prior art date
Application number
KR1020127018648A
Other languages
English (en)
Other versions
KR20120091454A (ko
Inventor
그레고리 씨. 버넷
니콜라스 제이. 페티트
앤드류 이. 에뉴디
알렉산더 엠. 애실리
Original Assignee
앨리프컴
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=28675460&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR101434071(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 앨리프컴 filed Critical 앨리프컴
Publication of KR20120091454A publication Critical patent/KR20120091454A/ko
Application granted granted Critical
Publication of KR101434071B1 publication Critical patent/KR101434071B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/01Noise reduction using microphones having different directional characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone

Abstract

주변환경의 음향 신호들을 수신하도록 다수의 마이크로폰 구조를 이용하는 통신 시스템으로서, 휴대용 핸드세과 헤드셋 장치를 모두 포함하는 통신 시스템이 소개된다. 이 마이크로폰 구조는 두 개의 일방향 마이크로폰들을 포함하는 2-마이크로폰 어레이, 한 개의 일방향 마이크로폰과 한 개의 전방향 마이크로폰을 포함하는 2-마이크로폰 어레이를 포함한다. 통신 시스템은 사람 음성 활동의 정보를 제공하기 위해 음성 활동 검출(VAD) 장치를 또한 포함한다. 통신 시스템의 구성요소들은 음향 신호와 음성 활동 신호들을 수신하여, 이에 따라, 음성 활동 신호들의 데이터로부터 제어 신호를 자동적으로 발생시킨다. 통신 시스템의 상기 제어 신호를 이용하여, 구성요소들은 음향 신호의 주파수 서브밴드 데이터에 적합한 잡음제거 방법을 자동적으로 선택한다. 선택된 잡음제거 방법은 음향 신호에 적용되어, 음향 신호가 스피치(101)와 잡음(102)을 포함할 때 잡음제거된 음향 신호를 발생시킨다.

Description

통신 시스템에서 사용을 위한 마이크로폰과 음성 활동 감지(VAD) 구성{MICROPHONE AND VOICE ACTIVITY DETECTION (VAD) CONFIGURATIONS FOR USE WITH COMMUNICATION SYSTEMS}
- 관련 출원 -
본 출원은 2002년 3월 27일자 미국특허출원 US-A 60/368,209 호를 우선권주장한다.
또한 본 출원은 2001년 7월 12일자 미국특허출원 09/905,361 호, 2002년 5월 30일자 미국특허출원 10/159,770 호, 2002년 11월 21일자 미국특허출원 10/301,237 호, 2003년 3월 5일자 미국특허출원 10/383,162 호에 또한 관련된 출원이다.
본 출원은 음향 잡음의 존재 하에서 요망하는 음향 신호를 검출하고 처리하는 시스템 및 방법에 관한 것이다.
많은 잡음 억제 알고리듬 및 기술들이 개발되어 왔다. 언어 통신 시스템을 위해 오늘날 사용되는 대부분의 잡음 억제 시스템은 1970년대에 가장 먼저 발견된 단일-마이크로폰 주파수 삭감 기술을 바탕으로 하며, 예를 들어, S.F.Boll이 제시한 "Suppression of Acoustic Noise in Speech using Spectral Subtraction" IEEE Trans. on ASSP, pp 113-120, 1979 에 소개되어 있다. 이러한 기술들은 해를 거듭하여 정련되어왔으나, 작동의 기본적 원리는 동일하게 유지되었다. 예를 들어, McLaughlin 외 다수의 미국 특허, US 5,687,243 와, Vilmur 외 다수의 미국 특허, US 4,811,404를 참고할 수 있다. 일반적으로, 이러한 기술들은 배경 잡음 특징을 결정하기 위해 단일-마이크로폰 음성 활동 검출기(VAD)를 이용한다. 일반적으로 "음성"은 일반적으로 사람의 유성음, 무성음 또는 유성음 및 무성음의 조합을 포함하는 것으로 간주된다. 이해되는 곳에서, 배경 잡음 특징을 결정하기 위해 단일-마이크로폰 음성 활동 검출기(VAD)를 이용한다.
상기 VAD는 또한 디지털 셀룰러 시스템에서 사용되어 왔다. 그러한 이용의 실시예로서 Ashley 의 미국 특허 번호 6,453,291 를 참고할 수 있다. 이 경우, 디지털 셀룰러 시스템의 프론트-엔드(front-end)에 적합한 VAD 구성이 소개되어 있다. 또한, 일부 코드 분할 다중 액세스(CDMA) 시스템들은 사용되는 유효 라디오 스펙트럼을 최소화하기 위해 VAD 를 이용하고, 이에 의해 더 많은 시스템 용량을 얻을 수 있다. 또한, GSM 통신 시스템은 공통-채널 간섭을 줄이고 그리고 클라이언트 또는 가입자 장치에서 배터리 소모를 감소하기 위해 VAD를 포함할 수 있다.
이러한 전형적인 단일-마이크로폰 VAD 시스템들은 단일 마이크로폰에 의해 수신되는 음향 정보의 분석 결과로 그 용량이 크게 제한되며, 이 때 상기 분석은 전형적인 신호 처리 기술을 이용하여 수행된다. 특히, 처리 신호들이 낮은 신호-대-잡음 비율(SNR)을 지닐 때, 그리고 배경 잡음이 빠르게 변하는 곳에서의 세팅에서, 이러한 단일-마이크로폰 VAD 시스템들의 성능 제한이 나타난다. 따라서 이러한 단일-마이크로폰 VAD 를 이용하는 잡음 억제 시스템에서 이와 유사한 제한사항들이 발견된다.
이러한 전형적인 단일-마이크로폰 VAD 시스템들의 여러 제약사항들은 미국, 캘리포니아, 샌프란시스코 소재의 Aliph 사에 의해 개발된 패스파인더(Pathfinder) 잡음 억제 시스템의 도입으로 극복되었다. 그 내용은 위 관련 출원에 상세하게 소개되어 있다. 패스파인더 잡음 억제 시스템은 여러 중요한 측면에서 기존 잡음 소거 시스템과 차별화된다. 예를 들어, 이 시스템은 두 개 이상의 마이크로폰과 함께 정확한 유성음 활동 감지(VAD) 신호를 이용하며, 이때, 마이크로폰들은 잡음과 스피치 신호들의 믹스를 검출한다. 패스파인더 잡음 억제 시스템은 다수의 통신 시스템 및 신호 처리 시스템과 함께 일체형으로 사용될 수 있으며, 따라서 다양한 장치 및 방법들이 VAD 신호를 공급하는 데 사용될 수 있다. 더욱이, 음향 신호 정보를 패스파인더 시스템에 제공하기 위해 다수의 마이크로폰 종류 및 구조들이 사용될 수 있다.
도 1 은 발명의 일실시예 하에서 패스파인더(Pathfinder) 잡음 억제 시스템 및 VAD 시스템을 포함하는 신호 처리 시스템의 블락 다이어그램이다.
도 1A 는 일실시예 하에서, 특정 마이크로폰 구조를 사용하면서 VAD에 관계된 신호의 수신 및 처리에 있어 이용을 위한 하드웨어를 포함하는 잡음 억제/통신 시스템의 블락 다이어그램이다.
도 1B 는 공지 기술의 적응성 잡음 소거 시스템의 블락 다이어그램이다.
도 2는 공지 기술에서 여러 다른 종류의 마이크로폰과 그 관련 공간 응답을 기술하는 표이다.
도 3A는 한 실시예에서, 일방향 스피치 마이크로폰과 전방향 잡음 마이크로폰을 이용한 마이크로폰 구조를 도시한다.
도 3B는 도 3A의 실시예 하에서, 일방향 스피치 마이크로폰과 전방향 잡음 마이크로폰을 이용하는 핸드셋의 마이크로폰 구조도이다.
도 3C는 도 3A의 실시예 하에서, 일방향 스피치 마이크로폰과 전방향 잡음 마이크로폰을 이용하는 헤드셋의 마이크로폰 구조도이다.
도 4A는 한 실시예 하에서, 전방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 마이크로폰의 구조도이다.
도 4B는 도 4A의 실시예 하에서, 전방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 핸드셋의 마이크로폰 구조도이다.
도 4C는 도 4A의 실시예 하에서, 전방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 헤드셋의 마이크로폰 구조도이다.
도 5A는 대안의 실시예 하에서, 전방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 마이크로폰의 구조도이다.
도 5B는 도 5A의 실시예 하에서, 전방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 핸드셋의 마이크로폰 구조도이다.
도 5C는 도 5A의 실시예 하에서, 전방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 헤드셋의 마이크로폰 구조도이다.
도 6A는 한 실시예 하에서, 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 마이크로폰의 구조도이다.
도 6B는 도 6A의 실시예 하에서, 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 핸드셋의 마이크로폰 구조도이다.
도 6C는 도 6A의 실시예 하에서, 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 헤드셋의 마이크로폰 구조도이다.
도 7A는 대안의 실시예 하에서, 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 마이크로폰의 구조도이다.
도 7B는 도 7A의 실시예 하에서, 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 핸드셋의 마이크로폰 구조도이다.
도 7C는 도 7A의 실시예 하에서, 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 헤드셋의 마이크로폰 구조도이다.
도 8A는 한 실시예 하에서, 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 마이크로폰의 구조도이다.
도 8B는 도 8A의 실시예 하에서, 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 핸드셋의 마이크로폰 구조도이다.
도 8C는 도 8A의 실시예 하에서, 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 헤드셋의 마이크로폰 구조도이다.
도 9A는 한 실시예 하에서, 전방향 스피치 마이크로폰과 전방향 잡음 마이크로폰을 이용하는 마이크로폰의 구조도이다.
도 9B는 도 9A의 실시예 하에서, 전방향 스피치 마이크로폰과 전방향 잡음 마이크로폰을 이용하는 핸드셋의 마이크로폰 구조도이다.
도 9C는 도 9A의 실시예 하에서, 전방향 스피치 마이크로폰과 전방향 잡음 마이크로폰을 이용하는 헤드셋의 마이크로폰 구조도이다.
도 10A는 한 실시예 하에서, GEMS 센서를 수용하기에 적합한 사람 두부에서의 감지 영역을 도시한다.
도 10B는 한 실시예 하에서, 범용 핸드셋 또는 헤드셋 장치에서 GEMS 안테나의 부착을 도시하는 도면이다.
도 11A는 한 실시예 하에서, 가속계/SSM의 부착에 적합한 인체 두부에서의 감지 영역을 도시한다.
도 11B는 한 실시예 하에서, 범용 핸드셋 또는 헤드셋 장치에서 가속계/SSM의 부착을 도시하는 도면이다.
다수의 통신 시스템들이 아래에 소개되어 있다. 여기에는 주변 환경의 음향 신호들을 수신하기 위해 다양한 마이크로폰 구조들을 이용하는 헤드셋 및 핸드셋 장치들이 포함된다. 마이크로폰 구조는 예를 들어, 두 개의 일방향 마이크로폰을 포함하는 2-마이크로폰 어레이와, 한 개의 일방향 마이크로폰 및 한 개의 전방향 마이크로폰을 포함하는 2-마이크로폰 어레이를 포함한다. 그러나 이에 제한되지는 않는다. 통신 시스템들은 사람 음성 활동의 정보를 포함하는 음성 활동 신호들을 제공하기 위해 음성 활동 검출(VAD) 장치들을 또한 포함할 수 있다. 통신 시스템들의 구성 요소들은 음향 신호와 음성 활동 신호들을 수신하여, 이에 따라, 음성 활동 신호들의 데이터로부터 제어 신호들을 발생시킨다. 통신 시스템들의 구성요소들은 이 제어 신호들을 이용하여, 음향 신호들의 주파수 서브대역의 데이터에 적합한 잡음제거 방법을 자동적으로 선택할 수 있다. 선택된 잡음제거 방법은 음향 신호에 적용되어, 음향 신호가 스피치와 잡음을 포함할 때 잡음제거된 음향 신호들을 발생시킬 수 있다.
패스파인더 잡음 억제 시스템과 함께 사용하기 위해 수많은 마이크로폰 구조들이 아래에 소개되어 있다. 이와 같이, 각각의 구성은 패스파인더 시스템의 범위에서, 통신 장치의 잡음 전송을 감소시키기 위한 이용 방법과 함께 상세하게 설명된다. 패스파인더 잡음 억제 시스템이 언급될 때, 잡음 파형을 추정하고 이를 신호로부터 소거하는 잡음 억제 시스템으로서 공개된 마이크로폰 구조 및 VAD 정보를 신뢰성있게 동작하도록 이용할 수 있는 잡음 억제 시스템이 포함된다. 패스파인더는 잡음과 함께 요망 스피치 신호들을 포함하는 신호들에 대해 동작하는 시스템을 위한 편리한 구현이다. 따라서, 이러한 물리적 마이크로폰 구조들을 이용하는 것은 통신, 스피치 인식, 그리고 애플리케이션이나 장치의 음성-특징 제어와 같은 응용분야를 포함하며, 이에 제한되지도 않는다.
여기서 사용되는 용어 중 "스피치(speech)"나 "음성(voice)"은 사람의 유성음, 무성음, 그리고 유성/무성 혼합음을 의미한다. 무성음이나 유성음은 필요할 때만 구분한다. 그러나, 잡음에 반하여 사용될 때 용어 "스피치 신호(speech signal)"나 "스피치(speech)"는 신호의 어떤 요망 부분을 단순히 언급하는 것으로서, 반드시 사람의 음성을 의미하는 것은 아니다. 한 예로서, 음악이나, 그 외 다른 종류의 요망 음향 정보가 될 수도 있다. 도면에 사용되는 바와 같이, "스피치"는 관심대상인 어떠한 신호를 의미하며, 사람의 음성, 음악, 또는 듣고자 하는 그 외 다른 요망 신호일 수 있다.
마찬가지로, "잡음(noise)"은 요망 스피치 신호를 왜곡시키거나 알아듣기 어렵게 하는 불필요한 음향 정보를 의미한다. "잡음 억제(noise suppression)"란 전기 신호에서 잡음을 감소시키거나 제거하는 방법을 의미한다.
더욱이, "VAD"라는 용어는 디지털 도메인이나 아날로그 도메인에서 스피치 발생을 표현하는 벡터나 어레이 신호, 데이터, 또는 정보로 규정된다. VAD 정보의 공통적 표현은 해당하는 음향 신호들과 동일한 속도로 샘플링되는 1비트 디지털 신호이다. 이때, 한 개의 제로 값은 해당 시간 샘플 중 스피치 발생이 없음을 의미하며, 한 개의 단위값(즉, 1)은 해당 시간 샘플 중 스피치가 발생하였음을 의미한다. 본 명세서에서 소개되는 실시예들은 디지털 도메인에 따라 기술되지만, 아날로그 도메인에 대해서도 역시 유효한 점을 이해하여야 한다.
달리 명시하지 않을 경우, 용어 "패스파인더(Pathfinder)"는 두 개 이상의 마이크로폰, VAD 장치 및 알고리즘을 이용하는 잡음제거 시스템을 의미한다. 이는 신호의 잡음을 추정하여 이를 상기 신호로부터 소거한다. Ailph의 패스파인더 시스템은 이러한 종류의 잡음제거 시스템에 대한 편리한 기준이 되는데, 하지만, 상기 정의한 바보다 더 많은 기능을 가진다. 일부 경우에(도 8과 9의 마이크로폰 어레이 참고), Aliph 패스파인더 시스템의 "풀 기능" 및 "풀-버전"이 사용되며(잡음 마이크로폰에 상당량의 스피치 에너지가 존재하기 때문), 이 경우들이 텍스트에서 수치화될 것이다. "풀 기능"은 신호의 잡음제거에 있어서 패스파인더 시스템에 의해 H1(z)와 H2(z)를 이용함을 표시한다. 달리 명시하지 않을 경우 신호의 잡음제거에 H1(z)만이 사용된다고 가정한다.
패스파인더 시스템은 음향 잡음 억제 및 에코-소거 시스템을 바탕으로 하는 디지털 신호 처리(DSP) 시스템이다. 패스파인더 시스템은 스피치 처리 시스템의 프론트-엔드에 연결될 수 있는 것으로서, VAD 정보와 수신한 음향 정보를 이용하여, 요망 음향 신호 내의 잡음을 감소시키거나 제거한다. 이때, 스피치와 잡음을 포함하는 신호로부터 잡음 파형을 추정하여 이를 신호로부터 삭감하는 방식을 이용한다.
도 1 은 한 실시예 하에서, 패스파인더 잡음제거/억제 시스템(105)과 VAD 시스템(106)을 포함하는 신호 처리 시스템(100)의 블락 다이어그램이다. 상기 신호 처리 시스템(100)은 한 개 이상의 스피치 신호 소스(101)와 한 개 이상의 잡음 소스(102)로부터 신호나 정보를 수신하는 두 개의 마이크로폰 MIC1(103)과 MIC2(104)를 포함한다. 스피치 신호 소스(101)로부터 MIC1까지의 경로 s(n)과, 잡음 소스(102)로부터 MIC2로의 경로 n(n)은 단위값으로 간주된다. 또한, H1(z)는 잡음 소스(102)로부터 MIC1까지의 경로를 나타내고, H2(z)는 스피치 신호 소스(101)로부터 MIC2까지의 경로를 나타낸다.
신호 처리 시스템(100)의 구성요소들, 가령, 잡음제거 시스템(105)은 무선 연결, 유선 연결, 또는 무선 및 유선 연결의 조합을 통해 마이크로폰 MIC1과 MIC2에 연결된다. 마찬가지로, VAD 시스템(106)은 잡음제거 시스템(105)같은 신호 처리 시스템(100)의 구성요소들에 무선 연결, 유선 연결, 또는 무선 및 유선 연결의 조합을 통해 연결된다. 한 예로서, VAD 시스템(106)의 구성요소로서 아래에 기술되는 VAD 장치 및 마이크로폰들은 신호 처리 시스템의 다른 구성요소들과 무선 통신을 위한 블루투스 무선 규약에 부합할 수 있다. 그러나 이에 제한되지는 않는다.
도 1A는 한 실시예 하에서 특정 마이크로폰 구조를 이용하면서 VAD에 관한 신호들을 수신 및 처리하는 데 사용되는 하드웨어를 포함하는 잡음 억제/통신 시스템의 블락 다이어그램이다. 도 1A에 관하여, 각각의 실시예들은 특정 구조의 두 개 이상의 마이크로폰(110)과, 한 개의 유성음 활동 검출(VAD) 시스템(130)을 포함한다. VAD 시스템(130)은 VAD 장치(140)와 VAD 알고리즘(150)을 포함한다. 그 내용은 상술한 관련 출원에 소개된 내용이다. 일부 실시예에서, 마이크로폰 구조(110)와 VAD 장치(140)는 동일한 물리적 하드웨어를 포함하지만 이에 제한되지는 않는다. 마이크로폰(110)과 VAD(130)은 정보를 패스파인더 잡음 억제 시스템(120)에 입력하며, 시스템(120)은 수신한 정보를 이용하여, 마이크로폰의 정보에서 잡음을 제거하고 잡음제거된 스피치(160)를 통신 장치(170)로 출력한다.
통신 장치(170)는 핸드셋과 헤드셋 통신 장치를 모두 포함하지만 이에 제한되지는 않는ㄴ다. 핸드셋이나 헤드셋 통신 장치들은 셀룰러폰, 이동 전화, 포터블 폰, 위성 전화, 유선전화, 인터넷 전화, 무선 송수신기, 무선 통신 라디오, PDA, PC 등과 같이 마이크로폰, 스피커, 통신 전자장치, 통신 송수신기를 포함하는 휴대용 통신 장치를 포함하지만 이에 제한되지는 않는다.
핸드셋이나 헤드셋 통신 장치들은 신체에 착용하거나 부착하는 마이크로폰과 스피커를 포함하는 자체 내장형 장치를 포함하지만, 이에 제한되지는 않는다. 헤드셋은 핸드셋과의 결합을 통해 핸드셋으로 기능하는 경우가 잦으며, 이 경우에 결합은 유선, 무선, 또는 유무선 연결의 조합일 수 있다. 그러나, 헤드셋이 독립적으로 통신망의 구성요소로 통신할 수 있다.
VAD 장치(140)는 가속계, 피부 표면 마이크로폰(Skin Surface Microphone; SSM), 그리고 전자기 장치를 관련 소프트웨어나 알고리즘과 함께 포함하지만 이에 제한되지는 않는다. 더욱이, VAD 장치(140)는 음향 마이크로폰을 관련 소프트웨어와 함께 포함한다. VAD 장치들 및 관련 소프트웨어는 2003년 3월 5일자 미국특허출원 US-A 10/383,162 호("Voice Activity Detection (VAD) Devices and Methods for Use with Noise Suppression Systems")에 기재되어 있다.
각각의 핸드셋/헤드셋 설계에 대한 아래 기재한 구조들은 신뢰도높은 VAD 신호를 얻기 위해 사용되는 방법 및 마이크로폰의 위치 및 방향을 포함한다. 그 외 모든 구성요소들(가령, 스피커, 헤드셋과 스피커에 대한 장착 하드웨어, 버튼, 플러그, 핸드셋을 위한 물리적 하드웨어, 등)은 패스파인더 잡음 억제 알고리즘의 동작에 필수적인 사항이라고 볼 수 없으며, 따라서 상세하게 설명하지 않을 것이다. 단 핸드셋이나 헤드셋의 일방향 마이크로폰들의 장착은 예외적으로 설명할 것이다. 이 장착은 지향성 마이크로폰들의 적절한 설명을 위한 정보를 제공한다. 당 분야의 통상의 지식을 가진 자들은 본 명세서에서 위치 및 방향 정보가 주어질 때 일방향 마이크로폰들을 정확하게 장착하는 데 어려움이 없을 것이다.
더욱이, 아래 소개되는 헤드셋들의 연결 방법(물리적 또는 전자기적, 또는 그 외 다른 방법)은 필수사항이라고 보기 어렵다. 소개되는 헤드셋들은 어떤 종류의 연결로도 작용하며, 따라서 본 명세서에서 상세하게 설명하지 않는다. 마지막으로, 마이크로폰 구조(110)와 VAD(130)는 독립적으로 동작하며, 따라서, 어떤 마이크로폰 구조도 어떤 VAD 장치/방법과도 조화롭게 동작할 수 있다. 단, VAD 및 마이크로폰 구조를 위해 동일한 마이크로폰을 이용하는 것이 요망되는 경우는 제외한다. 이 경우에, VAD는 마이크로폰 구조에 대해 일부 요건을 요구한다. 이 예외들이 텍스트에서 설명될 것이다.
마이크로폰 구조
일부 특정 마이크로폰 종류(전방향/단방향 등) 및 마이크로폰 방향을 이용하는 경우를 제외하면 패스파인더 시스템들은 주어진 종류의 개별 마이크로폰들의 응답의 전형적 분포에 대해 민감하지 않다. 따라서, 마이크로폰들은 주파수 응답 측면에서 부합될 필요가 없으며, 특별히 민감하거나 고가일 필요도 없다. 실제로, 본 명세서에서 소개되는 구조들은 저렴한 오프-쉘프 마이크로폰(off-the-shelf microphones)을 이용하여 구성되며, 이것이 매우 효과적이라는 것이 이미 증명된 바 있다. 설명을 돕기 위해 도 1에는 패스파인더 설정이 도시되어 있으며, 그 설정은 아래 내용과 관련 출원을 참고할 수 있다. 패스파인더 시스템에서 마이크로폰들의 상대적 위치 및 방향이 본 명세서에서 설명된다. 잡음 마이크로폰에 어떤 스피치 신호도 존재할 수 없음을 명시하는 종래의 적응성 잡음 소거(ANC)와는 달리, 패스파인더는 두 종류의 마이크로폰에 스피치 신호가 존재할 수 있게 하며, 이는 다음 문단에서 소개되는 구조가 사용되는 한 마이크로폰들이 매우 가까이 위치할 수 있음을 의미한다. 아래에는 패스파인더 잡음 억제 시스템을 구현하는 데 사용되는 마이크로폰 구조들에 대한 설명이 이어진다.
오늘날 여러 다른 종류의 마이크로폰들이 존재하지만, 일반적으로 말해서, 두 개의 주된 범주가 존재한다. 즉, 전방향(OMNI) 및 일방향(UNI) 마이크로폰이 존재한다. 전방향 마이크로폰은 상대적 음향 신호 위치에 대해 비교적 일관된 공간 응답을 나타내며, 일방향 마이크로폰은 음향 소스와 마이크로폰의 상대적 방향에 따라 변화하는 응답을 보인다. 구체적으로 말하자면, 일방향 마이크로폰은 마이크로폰의 뒤와 옆에서 덜 민감하게 반응하도록 설계되어, 마이크로폰 전면으로부터의 신호가 측면 및 후방에서의 신호에 비해 강조된다.
여러 종류의 일방향 마이크로폰들이 존재하며(전방향 마이크로폰은 단 한종류), 이 종류들은 마이크로폰의 공간 응답에 의해 차별화된다. 도 2는 여러 다른 종류의 마이크로폰들과 그 관련 공간 응답을 설명하는 표이다(http://www.shure.com의 Shure 마이크로폰 회사 웹사이트 참조). 카디오이드(cardioid)와 수퍼-카디오이드 일방향 마이크로폰이 모두 본 명세서의 실시예에서 제대로 동작하는 것이 발견되었으며, 하이퍼-카디오이드와 양방향 마이크로폰도 물론 사용할 수 있다. 또한, "클로즈-토크(close-talk)" 마이크로폰(마이크로폰으로부터 몇센티미터 이상 떨어진 음향 소스를 무시)이 스피치 마이크로폰으로 사용될 수 있으며, 이러한 이유로 클로즈-토크 마이크로폰이 본 명세서에서의 일방향 마이크로폰으로 간주된다.
혼합형 전방향 및 일방향 마이크로폰을 포함하는 마이크로폰 어레이
한 실시예에서, 전방향 및 일방향 마이크로폰들이 혼합되어, 패스파인더 시스템에서이용하기 위한 2-마이크로폰 어레이를 형성한다. 2-마이크로폰 어레이는 일방향 마이크로폰이 스피치 마이크로폰인 조합과, 전방향 마이크로폰이 스피치 마이크로폰인 조합을 포함한다. 그러나 이에 제한되지는 않는다.
스피치 마이크로폰으로서의 일방향 마이크로폰
도 1을 참고해보자. 본 구조에서, 일방향 마이크로폰이 스피치 마이크로폰(103)으로 사용되고, 전방향 마이크로폰이 잡음 마이크로폰(104)으로 사용된다. 이들은 서로 몇센티미터 거리 내에서 사용되는 것이 일반적이지만, 15 센티미터 이상의 거리에 위치할 수도 있으며, 이 거리에서도 여전히 잘 동작한다. 도 3A는, 한 실시예 하에서, 일방향 스피치 마이크로폰과 전방향 잡음 마이크로폰을 이용하는 일반적 구조(300)를 도시한다. 마이크로폰 표면에 수직인 벡터들 간의 상대적 각도 f는 대략 60~135도 범위 내에 있다. 거리 d1과 d2는 각각 0~15 센티미터 범위 내에 있다. 도 3B는 도 3A의 실시예 하에서, 일방향 스피치 마이크로폰과 전방향 잡음 마이크로폰을 이용하는 핸드셋의 일반 구조(310)를 도시한다. 도 3C는 도 3A의 실시예 하에서, 일방향 스피치 마이크로폰과 전방향 잡음 마이크로폰을 이용하는 헤드셋의 일반 구조(320)를 도시한다.
일반 구조(310, 320)는 마이크로폰들이 일반적 방식으로 어떻게 정렬되는 지, 그리고 핸드셋과 헤드셋에 대해 이 설정의 가능한 구현들을 도시한다. 일방향 마이크로폰은 스피치 마이크로폰으로서 사용자의 입을 향한다. 전방향 마이크로폰은 어떤 특정 방향성을 띄지 않지만, 본 실시예에서 그 위치는 가능한 스피치 신호로부터 전방향 마이크로폰을 물리적으로 차폐시킨다. 이 설정은 패스파인더 시스템에서 잘 동작한다. 왜냐하면, 스피치 마이크로폰이 주로 스피치를, 잡음 마이크로폰이 주로 잡음을 지니기 때문이다. 따라서, 스피치 마이크로폰은 높은 신호대잡음비(SNR)를 가지며, 잡음 마이크로폰은 낮은 SNR을 가진다. 이를 통해 패스파인더 알고리즘이 효과적으로 기능할 수 있다.
스피치 마이크로폰으로서 전방향 마이크로폰
도 1을 참고해보자. 본 구조에서, 전방향 마이크로폰이 스피치 마이크로폰(103)으로 사용되고, 일방향 마이크로폰이 잡음 마이크로폰(104)으로 사용된다. 그 이유는 잡음 마이크로폰에서 스피치의 양을 작게 유지하여, 패스파인더 알고리즘을 단순화시키고 신호제거(스피치의 불필요한 제거)를 최소한으로 유지시킬 수 있기 때문이다. 이 구조는 기존 핸드셋에 대한 간단한 애드-온을 위한 가장 보증된 방식이다. 기존의 핸드셋들은 스피치 캡처를 위해 전방향 마이크로폰을 이미 이용하고 있다. 또한, 두 마이크로폰들이 서로 매우 가깝게 위치할 수도 있고, 15센티미터 이상 떨어져 위치할 수도 있다. 두 마이크로폰이 5cm 이하의 매우 가깝게 위치할 때 최적 성능이 구현되며, 일방향 마이크로폰의 지향성이 효과적으로 기능하도록 일방향 마이크로폰이 사용자 입으로부터 충분히 멀리(10-15 cm 범위) 이격될 때 최적의 성능이 구현된다.
스피치 마이크로폰이 전방향인 이 구조에서, 전방향의 스피치 양에 비해 일방향 마이크로폰의 스피치 양을 적게 유지하도록 일방향 마이크로폰의 방향이 결정된다. 이는 일방향 마이크로폰이 화자의 입으로부터 먼 방향으로 위치하는 것을 의미하며, 화자로부터 멀어지는 방향의 크기는 f로 표시된다. f는 0에서 180도 사이의 값을 취할 수 있다. f는 어떤 평면 상에서 한 마이크로폰의 방향과 또다른 마이크로폰의 방향 간의 각도를 표시한다. 도 4A는, 한 실시예 하에서, 전방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 구조(400)를 도시한다. 마이크로폰 표면에 수직인 벡터들 간의 상대적 각도 f는 대략 180도이다. 거리 d는 0~15 센티미터 범위 내에 있다. 도 4B는 도 4A의 실시예 하에서, 전방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 핸드셋의 일반 구조(410)를 도시한다. 도 4C는 도 4A의 실시예 하에서, 전방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 헤드셋의 일반 구조(420)를 도시한다.
도 5A는, 대안의 실시예 하에서, 전방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 일반적 구조(500)를 도시한다. 마이크로폰 표면에 수직인 벡터들 간의 상대적 각도 f는 대략 60~135도 범위 내에 있다. 거리 d1과 d2는 각각 0~15 센티미터 범위 내에 있다. 도 5B는 도 5A의 실시예 하에서, 전방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 핸드셋의 일반 구조(510)를 도시한다. 도 5C는 도 5A의 실시예 하에서, 전방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 헤드셋의 일반 구조(520)를 도시한다.
도 4와 5의 실시예들에서는 MIC1의 SNR이 MIC2의 SNR보다 크다. f가 큰 경우(180도 범위), 화자 전면에서 발생하는 잡음은 잘 캡처되지 않을 수 있어서, 약간 감소된 잡음제거 성능을 보인다. 추가적으로, f가 너무 작아질 경우, 상당량의 스피치가 잡음 마이크로폰에 의해 캡처될 수 있어서, 잡음제거된 신호의 왜곡과 연산 비용을 증가시킨다. 따라서, 이 구조에서 일방향 마이크로폰에 대한 방위각이 대략 60-135도 내에 위치하는 것이 최대 성능을 위해 바람직하다(도 5 참조).이로 인해, 사용자 전면에서 발생하는 잡음들이 쉽게 캡처될 수 있고, 따라서, 잡음제거 성능을 향상시킬 수 있다. 이는 패스파인더의 풀 기능이 요구되지 않도록 잡음 마이크로폰에 의해 캡처되는 스피치 신호의 양을 작게 유지한다. 당 분야의 통상의 지식을 가진 자는 간단한 실험을 통해 그 외 다른 수많은 일방향/전방향 조합에 대해 효율적인 각도를 쉽게 결정할 수 있을 것이다.
두 개의 일방향 마이크로폰을 포함하는 마이크로폰 어레이
한 실시예의 마이크로폰 어레이는 두 개의 일방향 마이크로폰을 포함하며, 이때, 제 1 일방향 마이크로폰은 스피치 마이크로폰이고, 제 2 일방향 마이크로폰은 잡음 마이크로폰이다. 다음의 내용에서 스피치 일방향 마이크로폰의 공간 응답 최대값은 사용자 입을 향할 때라고 가정한다.
화자로부터 먼 방향으로 위치하는 잡음 일방향 마이크로폰
도 4A, 4B, 4C와 도 5A, 5B, 5C를 참고하여 앞서 설명한 구조들과 유사하게, 화자로부터 먼 방향으로 잡음 일방향 마이크로폰을 위치시키는 것은 잡음 마이크로폰에 의해 캡처되는 스피치의 양을 감소시켜서, H1(z)의 연산만을 이용하는 더 간단한 버전의 패스파인더를 이용할 수 있게 한다. 화자의 입에 대한 방위각이 0에서 180도 사이에서 변할 수 있다. 180도 부근에서, 사용자 전면으로부터 발생되는 잡음은 잡음의 최적 억제를 구현할만큼 잡음 마이크로폰에서 충분하게 캡처되지 않을 수 있다. 따라서, 이 구조가 사용될 경우, 카디오이드(cardioid)가 스피치 마이크로폰으로, 수퍼-카디오이드가 잡음 마이크로폰으로 사용될 때 최적으로 동작할 것이다. 이는 사용자 전면에 제한된 잡음 캡처를 가능하게 할 것이며, 잡음 억제를 증가시킬 것이다. 그러나, 신호 처리에 패스파인더의 풀-기능이 사용되지 않을 경우 더 많은 스피치가 캡처될 수 있고, 따라서, 신호 제거를 유발할 수 있다. 따라서, 이 구조에서 잡음 억제, 신호 제거, 그리고 연산 복잡도 간의 조화가 요구된다.
도 6A는 한 실시예 하에서 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 구조(600)를 도시한다. 마이크로폰들의 표면에 수직인 벡터들간의 상대적 각도 f는 대략 180도이다. 거리 d는 0에서 15 cm 사이의 범위에 놓인다. 도 6B는 도 6A의 실시예 하에서 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 핸드셋의 일반 구조(610)를 도시한다. 도 6c는 도 6A의 실시예 하에서 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 헤드셋의 일반 구조(620)를 도시한다.
도 7A는 한 대안의 실시예 하에서 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 구조(700)를 도시한다. 마이크로폰들의 표면에 수직인 벡터들 간의 각도 f는 대략 60 내지 135도의 범위 내에 있다. 거리 d1과 d2는 대략 0에서 15 cm 사이의 값이다. 도 7B는 도 7A의 실시예 하에서, 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 핸드셋의 일반 구조(710)를 도시한다. 도 7C는 도 7A의 실시예 하에서 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 헤드셋의 일반 구조(720)를 도시한다. 당 분야의 통상의 지식을 가진 자라면, 본원에서 소개되는 사항들을 이용하여 다양한 일방향/일방향 조합들에 대해 효율적인 각도를 결정할 수 있을 것이다.
일방향 / 일방향 마이크로폰 어레이
도 8A는 한 실시예 하에서 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 구조(800)를 도시한다. 마이크로폰 표면에 수직한 벡터들 간의 상대 각도 f는 대략 180도이다. 마이크로폰들은 축(802) 상에 놓이게 되는 데, 그 축의 한쪽 말단에는 사용자의 입이, 다른 한 말단에는 잡음 마이크로폰(804)이 위치한다. 최적의 성능을 위해, 마이크로폰들간 간격 d는 시간 샘플링 간격의 정수배(d = 1, 2, 3...)여야 할 것이다. 하지만 이에 제한되지는 않는다. en 일방향 마이크로폰들이 반드시 사람의 입과 동일한 축 위에 놓여야 하는 것은 아니며, 잡음제거에 큰 영향을 미치지 않는다면 최대 30도 또는 그 이상으로도 방향을 틀어 놓일 수도 있다. 그러나, 두 마이크로폰들이 화자의 입과 서로에 대해 한 라인 상에 놓일 때 최적의 성능을 얻을 수 있다. 당 분야의 통상의 지식을 가진 자에게 있어 다른 방향을 사용할 수도 있으나, 최적의 성능을 위해서는 두 마이크로폰들 간 차동 전이 함수가 비교적 간단하여야 할 것이다. 이 어레이의 두 일방향 마이크로폰들은 VAD 신호를 연산하는 데 이용하기 위한 간단한 어레이로 작용할 수도 있다. 이는 상술한 관련 출원에서 소개되어 있다.
도 8B는 도 8A의 실시예 하에서, 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 핸드셋의 일반 구조(810)를 도시한다. 도 8C는 도 8A의 실시예 하에서, 일방향 스피치 마이크로폰과 일방향 잡음 마이크로폰을 이용하는 헤드셋의 일반 구조(820)를 도시한다.
일방향/일방향 마이크로폰 어레이를 이용할 때, 동일한 종류의 일방향 마이크로폰(카디오이드, 수퍼카디오이드, 등등)이 사용되어야 한다. 이에 해당하지 않을 경우, 한 개의 마이크로폰은 다른 마이크로폰이 검출하지 못하는 신호들을 검출할 수 있어서, 잡음 억제 효과를 저하시킬 수 있다. 두 일방향 마이크로폰들은 화자를 향해 동일 방향으로 정렬되어야 한다. 잡음 마이크로폰은 다량의 스피치를 캡처할 것이며, 따라서, 신호제거(designaling)를 방지하기 위해 패스파인더 시스템의 풀 버전이 사용되어야 한다.
한 말단에 사용자의 입을, 다른 한 말단에 잡음 마이크로폰을 포함하는 축 위에 두 일방향 마이크로폰을 위치시키고, 마이크로폰 간격 d를 시간 샘플링 간격의 정수배로 설정함으로서, 두 마이크로폰들 간의 차동 전이 함수가 간단해질 수 있고, 따라서, 패스파인더 시스템이 피크 효율로 동작할 수 있다. 한 예로서, 음향 데이터가 8kHz로 샘플링될 경우, 샘플들간 시간은 1/8000 초(즉, 0.125 밀리초)에 해당한다. 공기 중의 음속은 압력과 온도에 따라 좌우되지만, 해발 고도와 상온에서 약 345m/sec 이다. 따라서, 0.125 밀리초에 소리는 345x0.000125 = 4.3 cm를 이동할 것이고, 따라서 마이크로폰은 4.3 cm, 8.6 cm, 또는 12.9 cm 등등으로 이격되어야 할 것이다.
예를 들어, 도 8을 참고할 때, 8kHz 샘플링 시스템의 경우, 거리 d가 1 샘플 길이(즉, 4.3 cm)로 선택될 경우, MIC1과 MIC2를 연결하는 축 상에서 MIC1의 전면에 위치하는 음향 소스에 대하여 차동 전이 함수 H2(z)는 다음과 같다.
H2(z) = M2(z)/M1(z) = Cz-1
이때, Mn(z)는 마이크로폰 n으로부터의 이산 디지털 출력이고, C는 MIC1으로부터 음향 소스까지 거리와 마이크로폰들의 응답에 따라 좌우되는 상수이며, z-1은 이산 디지털 도메인의 단순한 지연이다. 실질적으로, 사용자 입으로부터 발원하는 음향 에너지의 경우에, MIC2에 의해 캡처되는 정보는 MIC1에 의해 캡처되는 정보와 동일하며, 단지 단일 샘플(4.3 cm 이격으로 인함)만큼 지연되며 진폭이 다를 뿐이다. 이러한 간단한 H2(z)는 이 어레이 구조에 대해 하드코딩(hardcode)될 수 있고, 잡음있는 스피치를 최소한의 왜곡으로 잡음제거하기 위해 패스파인더와 함께 사용될 수 있다.
두 전방향 마이크로폰을 포함하는 마이크로폰 어레이
한 실시예의 마이크로폰 어레이는 두 전방향 마이크로폰들을 포함하며, 이때, 제 1 전방향 마이크로폰은 스피치 마이크로폰이고, 제 2 전방향 마이크로폰은 잡음 마이크로폰이다.
도 9A는 한 실시예 하에서, 전방향 스피치 마이크로폰과 전방향 스피치 마이크로폰을 이용하는 구조(900)를 도시한다. 이 마이크로폰들은 한 축(902) 상에 놓이는 데, 이 축의 한쪽 말단에는 사용자의 입이, 다른 말단에는 잡음 마이크로폰(904)이 위치한다. 최적의 성능을 위해, 마이크로폰들간 간격 d는 샘플링 시간 간격의 정수배(d=1, 2, 3)여야 하지만, 꼭 여기에 제한받는 것은 아니다. 두 전방향 마이크로폰들이 반드시 화자의 입과 정확하게 동일한 축 상에 놓여야 하는 것도 아니다. 잡음제거에 크게 영향을 미치지 않는다면 최대 30도까지, 또는 그 이상까지 마이크로폰들의 방향이 틀어질 수 있다. 그러나, 마이크로폰들이 화자의 입과 서로에 대해 한 라인 상에 놓일 때 최적의 성능이 나타난다. 당 분야의 통상의 지식을 가진 자에게 있어 다른 방향들이 사용될 수 있으나, 최적의 성능의 경우에는 두 마이크로폰들 간 차동 전이 함수가 비교적 간단해져야 하며, 이는 두 일방향 마이크로폰을 이용하는 상술한 문단의 예에서와 마찬가지이다. 이 어레이의 두 전방향 마이크로폰들은 VAD 신호를 연산하는 데 사용하기 위한 간단한 어레이로 작용할 수도 있다. 그 내용은 상술한 관련 출원에서 소개되어 있다.
도 9B는 도 9A의 실시예 하에서 전방향 스피치 마이크로폰과 전방향 잡음 마이크로폰을 이용하는 핸드셋의 일반 구조(910)를 도시한다. 도 9C는 도 9A의 실시예 하에서, 전방향 스피치 마이크로폰과 전방향 잡음 마이크로폰을 이용하는 헤드셋의 일반 구조(920)를 도시한다.
상술한 일방향/일방향 마이크로폰에서처럼, 두 전방향 마이크로폰 및 화자의 입에 대한 완벽한 정렬이 엄격하게 요구되는 것은 아니지만, 이 정렬은 최적의 성능을 제공한다. 이 구조는 비용 측면(전방향이 일방향에 비해 저렴함)이나 패키징 측면(일방향보다 전방향의 배출이 더 간단함)에서 모두 핸드셋을 위한 바람직한 구현이 된다.
음성 활동 검출( VAD ) 장치
도 1A를 참고할 때, VAD 장치는 한 실시예의 잡음 억제 시스템의 한가지 구성요소이다. 다음은 잡음 억제 시스템에 사용하기 위한 다수의 VAD 장치에 해당하는 내용으로서, 각각의 장치가 핸드셋 및 헤드셋 애플리케이션용으로 어떻게 구현될 수 있는 지를 보여준다. VAD는 2003년 3월 5일자 미국특허출원 10/383,162 호("Voice Activity Detection Devices and Methods for Use with Noise Suppression Systems")에 소개된 패스파인더 잡음제거 시스템의 한가지 구성요소이다.
범용 전자기 센서( GEMS ) VAD
GEMS는 RF 간섭계로서, 1-5GHz 주파수 범위에서 초저전력으로 동작하며, 매우 작은 진폭의 진동을 검출하는 데 사용할 수 있다. GEMS는 스피치 발생과 관련된 호흡기, 목, 볼, 두부의 진동을 검출하는 데 사용된다. 이 진동들은 스피치 발생과 관련된 발성층의 여닫힘으로 인해 발생하며, 이를 검출함으로서 잡음에 대해 견고한 매우 정확한 VAD를 도출할 수 있다(관련 출원 내용 참고).
도 10A는 한 실시예 하에서, GEMS 센서를 수용하기에 적합한 인체 두부의 감지 영역(1002)을 도시한다. 감지 영역(1002)은 최적 감도 영역(1004)을 또한 포함하며, 이 근처에서는 GEMS 센서가 발성에 관련된 진동 신호들을 검출하도록 위치할 수 있다. 최적 감도 영역(1004)과 함께 감지 영역(1002)은 인체 두부의 양 측면에 대해 동일하다. 또한, 감지 영역(1002)은 목과 흉부 상의 영역을 포함한다(도시되지 않음).
GEMS가 RF 센서이기 때문에, 이는 안테나를 이용한다. 초소형 마이크로패치 안테나(4x7mm2 내지 20x20mm2)가 사용되어 GEMS의 진동 검출을 행한다. 이 안테나들은 최적 효율을 위해 피부에 가깝게 위치하도록 설계된다. 다른 안테나들도 물론 사용될 수 있다. 안테나는 핸드셋이나 수화기에 어떤 방식으로도 장착될 수 있으나, 유일한 제한사항이라면, 진동 검출을 위한 충분한 에너지가 진동하는 물체에 도달하여야 한다는 점이다. 일부 경우에, 이는 피부 접촉을 필요로할 것이며, 그 외 다른 경우에는 피부 접촉이 필요하지 않을 수 있다.
표면 피부 진동-기반 VAD
관련 출원에 소개된 미국출원들에 기재된 바와 같이, 피부 표면 마이크로폰(Skin Surface Microphones: SSM)이라 불리는 장치 및 가속계들은 스피치 발생으로 인해 나타나는 피부 진동을 검출하는 데 사용될 수 있다. 그러나, 이 센서들은 외부 음향 잡음에 의해 오염될 수 있고, 따라서, 그 위치설정 및 이용시 주의하여야 한다. 가속계는 잘 알려진 장치이며, SSM도 진동 검출에 사용될 수 있는 장치이지만 가속계와 같은 동일한 충실도를 보이지는 않는다. 다행스럽게도, VAD를 제작하는 것은 하부 진동의 고충실도 재현을 요하지 않으며, 단지, 진동이 발생하고 있음을 결정하는 것만을 요한다. 이를 위해 SSM이 매우 적합하다.
SSM은 공기중의 음향 정보가 마이크로폰의 검출 요소와 연결되는 것을 방지하도록 수정된 기존의 마이크로폰이다. 실리콘 겔 층이나 그 외 다른 커버는 마이크로폰의 임피던스를 변화시키고 대기중의 음향 정보가 검출되는 것을 상당량 방해한다. 따라서 이 마이크로폰은 대기중의 음향 정보로부터 차폐된다. 하지만, 공기와는 다른 매질과 물리적으로 접촉하고 있는 한, 상기 매질에서 이동하는 음파를 검출할 수 있다.
스피치 중, 가속계/SSM이 볼이나 목에 위치할 경우, 스피치 발생과 관련된 진동이 쉽게 검출된다. 그러나, 대기중의 음향 데이터는 가속계/SSM에 의해 그다지 검출되지 않는다. 관심 대상인 신호를 처리하여 잡음제거하는 데 사용되는 VAD 신호를 발생시키기 위해, 가속계/SSM에 의한 검출에, (세포)조직-음향 신호가 사용된다.
귀 내에서의 피부 진동
가속계/SSM에 의해 검출되는 외부 잡음의 양을 감소시키고 우수한 진동을 보장하기 위해 사용될 수 있는 한가지 위치설정 방법은 귓구멍 속에 가속계/SSM을 위치시키는 것이다. 이는 Temco의 Voiceducer처럼 일부 상용 제품으로 구현되어 있으며, 이 경우에 진동이 통신 시스템에 대한 입력으로 직접 이용된다. 그러나 본원에서 소개하는 잡음 억제 시스템에서는 가속계 신호가 VAD 신호 연산에만 사용된다. 따라서, 귀속의 가속계/SSM은 덜 민감할 수 있고 더 적은 대역폭을 필요로하며, 따라서 저렴한 편이다.
귀 바깥의 피부 진동
스피치 생성과 관련된 피부 진동들을 가속계/SSM을 이용하여 검출할 수 있는 귀바깥의 위치에는 여러 가지가 있다. 가속계/SSM은 핸드셋이나 수화기에 어떤 방식으로도 장착될 수 있으며, 유일한 제한사항이라면, 스피치 생성과 관련된 피부 진동을 검출하기 위해 신뢰성있는 피부 접촉이 보장되어야 한다는 점이다. 도 11A는 한 실시예 하에서, 가속계/SSM의 위치설정에 적합한 인체 두부 상의 감지 영역(1102, 1104, 1106, 1108)을 도시한다. 감지 영역은 볼(1102), 머리(1104), 귀 뒤편(1106), 그리고 목 전면 및 측면(1108)을 포함한다. 더욱이, 감지 영역은 목과 가슴의 영역을 포함한다. 감지 영역(1102-1108)은 머리의 양 측면에 대해서도 동일하게 적용된다.
감지 영역(1102-1108)은 한 실시예 하에서 SSM에 의해 스피치를 신뢰성있게 검출할 수 있는 최적 감도 영역 A-F를 포함한다. 최적 감도 영역 A-F는 귀 뒤편 A, 귀 위편 B, 볼 중앙 부분 C, 귓구멍 앞부분 D, 유양 돌기(mostoid bone)나 그 외 다른 진동 조직과 접촉하는 귓구멍 내부의 영역 E, 그리고 코 F를 포함한다. 이 감지 영역(1102-1108) 근처에 가속계/SSM을 위치시키는 것은 헤드셋과 잘 동작하지만, 핸드셋의 경우엔 볼, 턱, 머리, 또는 목과의 접촉을 요구한다. 위 영역들은 안내용으로 제시되는 것으로서, 유용한 진동을 검출할 수있는 그 외 다른 영역들은 명시하지 않았을 뿐이다.
도 11B는 한 실시예 하에서, 범용 핸드셋이나 헤드셋 장치(1120)에 가속계/SSM을 배치(1110)시키는 것을 도시한다. 일반적으로, 가속계/SSM 배치(1110)는 장치(1120)를 사용할 때 사람 머리의 감지 영역(1102-1108)에 대응하는 장치(1120)의 부분에 놓일 수 있다.
2-마이크로폰 음향 VAD
이 VAD는 어레이 VAD, 패스파인더 VAD, 스테레오 VAD를 포함하는 것으로서, 외부 하드웨어없이 두 개의 마이크로폰으로 동작한다. 어레이 VAD, 패스파인더 VAD, 스테레오 VAD 각각은 아래 설명되는 바와 같이 서로 다른 방식으로 2-마이크로폰 구조를 활용한다.
어레이 VAD
어레이 VAD는 상술한 관련 출원의 미국출원에서 소개된 바와 같이, 간단한 선형 어레이로 마이크로폰들을 배열하여 어레이의 특성을 이용하여 스피치를 검출한다. 어레이 VAD는 마이크로폰과 사용자 입이 선형으로 위치할 때, 그리고, 마이크로폰들이 샘플링 거리의 정수배만큼 이격되어 위치할 때 기능한다. 즉, 시스템의 샘플링 주파수가 8kHz이고 음속이 대략 345m/s일 경우, 한 샘플에서 소리는 d = 345m/s x (1/8000 s) = 4.3 cm를 이동할 것이다. 따라서 마이크로폰들은 4.3, 8.6, 12.9 ... cm만큼 이격되어야 할 것이다. 핸드셋과 헤드셋에서 어레이 VAD의 실시예들은 도 8 및 9의 마이크로폰 구조와 동일하다(상술한 바와 같음). 마이크로폰이 VAD 용으로 사용되어 잡음제거를 위해 음향 정보를 캡처할 경우, 이 구조는 상술한 바와 같이 일방향/일방향 마이크로폰 어레이와 전방향/전방향 마이크로폰 어레이에서처럼 배열되는 마이크로폰들을 이용한다.
패스파인더 VAD
패스파인더 VAD 역시 관련 출원 단락의 미국 출원에서 소개된 바 있는 것으로서, 음성이 발생 중인 시기를 결정하기 위해 패스파인더 기술의 차동 전이 함수 H1(z)의 이득을 이용한다. 이와 같이, 상술한 마이크로폰 구조의 어느 것으로도 특별한 변경없이 패스파인더 VAD가 사용될 수 있다. 도 7과 관련하여 설명한 일방향/일방향 마이크로폰 구조에서 매우 좋은 성능이 발견되었다.
스테레오 VAD
스테레오 VAD 역시 관련 출원 단락의 미국출원에 소개된 바 있는 사항으로서, 잡음 및 스피치로부터 주파수 진폭의 차를 이용하여 스피치 발생 시기를 결정한다. 잡음 마이크로폰에서보다 스피치 마이크로폰에서 SNR이 더 큰 마이크로폰 구조를 이용한다. 또한, 이 VAD 기술로 동작하는 것은 앞서 어떤 마이크로폰 구조로도 가능하다. 하지만 도 7과 관련하여 설명한 일방향/일방향 마이크로폰 구조에서 최적 성능이 발견되었다.
수동 동작형 VAD
본 실시예에서, 사용자나 외부 관측자는 푸시버튼이나 스위칭 장치를 이용하여 VAD를 수동으로 동작시킨다. 이는 상술한 구조 중 한가지를 이용하여 레코딩되는 데이터의 레코딩에 따라 오프라인으로 실행될 수도 있다. 상술한 바와 유사한 자동 VAD 장치를 수동으로 보조하는 것과, VAD 장치를 수동으로 동작시키는 것은 VAD 신호를 발생시킨다. 이 VAD가 마이크로폰에 의존하지 않기 때문에, 상술한 마이크로폰 구조와 동일한 활용으로 수동 동작형 VAD가 사용될 수 있다.
단일-마이크로폰/기존 VAD
잡음 억제를 위해 패스파인더에 의해 사용되는 VAD 신호를 만들기 위해 스피치 및 잡음 마이크로폰 중 하나 또는 둘 모두에 어떤 기존의 음향 방법도 사용될 수 있다. 예를 들어, 기존의 이동 전화 VAD(Ashley의 미국특허 제 6,453,291 호 참조: 디지털 셀룰러 시스템의 프론트 엔드에 적합한 VAD 구조가 설명됨)는 패스파인더 잡음 억제 시스템에 사용하기 위한 VAD 신호의 구축에 있어 스피치 마이크로폰과 함께 사용된다. 또다른 실시예에서, 입 근처에 높은 SNR 신호를 레코딩하기 위해 "클로즈-토크(close-talk)"나 그래디언트 마이크로폰이 사용될 수 있고, 이를 통해, VAD 신호를 쉽게 연산할 수 있다. 이 마이크로폰은 시스템의 스피치 마이크로폰으로 사용될 수 있고, 또는 완전히 별개일 수도 있다. 그래디언트 마이크로폰이 시스템의 스피치 마이크로폰으로 또한 사용되는 경우에, 그래디언트 마이크로폰은, 혼합형 전방향 및 일방향 마이크로폰을 포함하는 마이크로폰 어레이의 경우에, 일방향 마이크로폰이 스피치 마이크로폰일 때(도 3 관련 설명 참조) 일방향 마이크로폰을 차지하며, 두 일방향 마이크로폰을 포함하는 마이크로폰 어레이에서 잡음 마이크로폰이 화자로부터 먼 방향으로 틀어질 때(도 6 및 7 관련 설명 참조) 한 개의 일방향 마이크로폰을 차지한다.
패스파인더 잡음 억제 시스템
위에서 설명된 것과 같이, 도 1 은 한 실시예 하에서, 패스파인더 잡음 억제 시스템(105)와 VAD 시스템(106)를 포함하는 신호 처리 시스템(100)의 블락 다이어그램이다. 상기 신호 처리 시스템(100)은 한 개 이상의 스피치 신호 소스(101)와 한 개 이상의 잡음 소스(102)로부터 신호나 정보를 수신하는 두 개의 마이크로폰 MIC1(103)과 MIC2(104)를 포함한다. 스피치 신호 소스(101)로부터 MIC1까지의 경로 s(n)과, 잡음 소스(102)로부터 MIC2로의 경로 n(n)은 단위값으로 간주된다. 또한, H1(z)는 잡음 소스(102)로부터 MIC1까지의 경로를 나타내고, H2(z)는 스피치 신호 소스(101)로부터 MIC2까지의 경로를 나타낸다.
일부 방법으로 유도된 VAD 신호(106)는 잡음제거 방법을 제어하기 위해 사용된다. MIC1로 들어가는 음향 정보는 m1(n)으로 표시된다. MIC2로 들어가는 음향 정보는 m2(n)로 표시된다. z(디지털 주파수) 도메인에서, 우리는 이를 M1(z) 와 M2(z)로서 표현할 수 있다. 따라서,
M1(z) = S(z) + N(z)H1(z)
M2(z) = N(z) + S(z)H2(z) ...방정식(1)
이는 모든 실제 두-개의 시스템에 대한 일반적 경우이다. MIC1로 잡음의 일부 누출이 항상 있으며, MIC 2로 신호의 일부 누출이 있다. 방정식 1은 4개의 알려지지 않은 변수와 단지 두 개의 방정식을 지니며, 그 결과 정확하게 풀릴 수 없다.
그러나 아마 다른 방법으로 방정식 1의 미지값들 중 일부를 해결하는 방법이 존재한다. 상기 신호가 발생되고 있지 않은 경우를 관찰해보자. 즉, 음성이 발생되지 않는 것을 VAD가 표시하는 경우이다. 이 경우, s(n) =S(z) =0 그리고 방정식 1은 다음과 같이 정리된다.
M1n(z) = N(z)H1(z)
M2n(z) = N(z)
이때, M 변수의 첨자 n 은 잡음만이 수신되고 있음을 나타낸다.
이것은
M1n(z) = M2n(z)H1(z)
H1(z) = M1n(z)/M2n(z) (2)
가 된다.
이제, 잡음만이 수신되고 있을 때 가용한 시스템 식별 알고리즘과 마이크로폰의 출력을 이용하여 H1(z)를 계산할 수 있다. 이 계산은 상기 시스템이 잡음 내의 어떠한 변화를 추적할 수 있도록 하기 위해 적응성으로 행하여져야 한다.
방정식 1 내의 미지값 중 하나를 구한 후, VAD를 이용하여 음성이 거의 잡음없이 발생할 때를 결정함으로서 H2(z)를 구할 수 있다. VAD가 음성을 표시할 경우, 하지만 마이크로폰의 최근 히스토리(1초 내외)가 저잡음을 표시할 경우, n(s) = N(z)~0 이라고 가정한다. 그 때 방정식 1은
M1s(z) = S(z)
M2s(z) = S(z)H2(z) 가 된다.
그곳에서 차례로,
M2s(z) = M1s(z)H2(z)
H2(z) = M2s(z)/M1s(z) 가 된다.
H2(z)에 대한 이러한 계산은 H1(z) 계산의 역으로 나타나지만, 기억할 점은 스피치 생성 중일 때 연산이 시작됨에 따라 서로 다른 입력들이 사용되었다는 점이다. 주의할 것은 H2(z)는 비교적 일정하여야 한다는 점이다. 왜냐하면, 항상 단일 소스(사용자)가 존재하며, 사용자와 마이크로폰 간의 상대적 위치가 비교적 일정하여야 하기 때문이다. H2(z) 계산을 위해 작은 적응성 이득의 이용은 잘 작동하고 계산을 잡음의 존재에서 더 강건하게 만든다.
위의 H1(z) 및 H2(z)의 계산 이후, 위 값들은 신호로부터 잡음을 제거하기 위해 사용된다. 방정식 1을 다시 쓰면,
S(z) = M1(z) - N(z)H1(z)
N(z) = M2(z) - S(z)H2(z)
S(z) = M1(z) - [M2(z) - S(z)H2(z)]H1(z)
S(z)[1-H2(z)H1(z)] = M1(z) - M2(z)H1(z)
를 얻을 수 있고, 이로서 S(z)를 구할 수 있다.
S(z) = {M1(z)-M2(z)H1(z)} / {1-H2(z)H1(z)} (3)
일반적으로, H2(z)는 상대적으로 작고, H1(z)은 1보다 더 작다. 따라서 대부분의 주파수에서 대부분의 상황에서,
H2(z)H1(z) << 1
이고, 따라서 신호는 아래의 방정식을 이용하여 계산할 수 있다.
S(z) ~ M1(z) - M2(z)H1(z)
따라서, 상기 가정은 H2(z)가 필요하지 않으며, H1(z)는 단지 연산을 위한 보조자료일 뿐이다. 필요할 경우 H2(z)가 계산될 수 있지만, 우수한 마이크로폰 배치 및 방향은 H2(z) 계산의 필요성을 제거할 수 있다.
음향 신호의 처리에서 다수의 서브밴드들의 이용을 통해 상당한 잡음 억제를 얻을 수 있다. 이는 트랜스퍼 함수를 연산하는 데 사용되는 대부분의 적응성 필터들이 FIR 타입이기 때문이며, 이는 아래의 관계에서처럼 제로들(zeros) 및 폴들(poles)을 모두 포함하는 시스템을 계산하기 위해 폴은 이용하지 않고 단지 제로들만을 이용한다.
H1(z) -> (모델) -> B(z) / A(z)
이러한 모델은 충분한 탭이 주어졌을 때 정확하게 계산될 수 있으나, 이는 연산 비용 및 수렴 시간을 크게 증가시킬 수 있다. 최소-평균 제곱(LMS) 시스템과 같은 에너지-기반 적응성 필터 시스템에서 일반적으로 발생하는 것은, 상기 시스템의 크기 및 위상이 다른 주파수들보다 에너지를 많이 포함하는 작은 주파수 범위들에서 잘 매치된다는 것이다. 이로 인해, LMS가 그 능력의 최대한도로 에러 에너지를 최소화시키는 요건을 만족시킬 수 있다. 하지만, 이는 부합하는 주파수 바깥 영역의 잡음을 발생하게 할 수 있어서, 잡음 억제의 효과를 감소시킬 수 있다.
서브밴드들의 이용은 이 문제를 완화시킨다. 1차 마이크로폰 및 2차 마이크로폰으로부터의 신호들이 다중 서브밴드로 필터링되고, 각각의 서브밴드로부터의 데이터는 각자의 적응성 필터에 전달된다. 이로 인해 적응성 필터가 데이터를 그 독자적 서브밴드에 부합시키도록 시도할 수 있고, 이는 신호 에너지가 최고인 경우보다 선호된다. 각각의 서브밴드로부터의 잡음 억제 결과는 함께 더하여져서, 최종적으로 잡음제거된 최종 신호를 형성한다. 모두를 시간에 따라 정렬 및 유지시키고 필터 시프트를 보상하는 것은 쉽지 않으나, 그 결과는 메모리 및 처리 요건 증가를 댓가로 하여 시스템에 훨씬 우수한 모델이 된다.
일견으로는, 패스파인더 알고리듬이 고전적 ANC(적응성 잡음제거)와 같은 다른 알고리듬과 매우 유사한 것처럼 보인다(도 1B 참조). 그러나 자세히 관찰하면, 잡음 억제 성능 측면에서 모든 차이점을 구현하는 여러 영역들을 발견할 수 있다. 가령, 수신한 신호에 대한 잡음 억제 시스템의 적응을 제어하기 위해 VAD 정보를 이용하고, 관심 대상인 스펙트럼에서의 적절한 수렴을 보장하기 위해 수많은 서브밴드들을 이용하며, 또한, 시스템의 기준 마이크로폰에서 관심 대상인 음향 신호와의 동작을 지원하는 등이 이에 포함된다. 이 사항들은 아래에서 추가적으로 설명될 것이다.
수신한 신호에 대한 잡음 억제 시스템의 적응을 제어하기 위해 VAD를 이용하는 바에 관하여, 기존의 ANC는 VAD 정보를 이용하지 않는다. 스피치 생성 중, 기준 마이크로폰에 신호가 존재하기 때문에, 스피치 생성 시간 중 H1(z)(잡음 마이크로폰으로부터 주(1차) 마이크로폰까지의 경로)의 계수들을 적응시키면 관심 대상인 신호로부터 다량의 스피치 에너지가 제거될 수 있다. 그 결과는 신호 왜곡 및 감소(신호-제거)로 나타난다. 따라서, 위에서 설명된 다양한 방법들은 H1(잡음만) 그리고 H2(필요한 경우, 스피치가 생성되고 있을 때)의 계수들을 적응시켜야 할 시기를 패스파인더 시스템에게 지시하기 위해 충분히 정확한 VAD를 구성하도록 VAD 정보를 이용한다.
고전적인 ANC와 상기 패스파인더 시스템 간의 중요한 차이는 위에서 설명한 것과 같은 음향 데이터의 서브밴딩에 있다. 많은 서브밴드들이 패스파인더 시스템에 의해 사용되어, 서브밴드의 정보에 대한 LMS알고리즘의 적용을 개별적으로 지원하고, 따라서, 관심대상인 스펙트럼에서의 적절한 수렴을 보장할 수 있고 또한 패스파인더 시스템이 이 스펙트럼 사이에서 효과적이게 할 수 있다.
ANC 알고리즘이 H1의 모델링을 위해 LMS 적응성 필터를 사용하며 이 모델이 필터 구축에 모든 제로들을 이용하기 때문에, "실제(real)" 기능 시스템이 이 방식으로 정확하게 모델링되는 것은 결코 쉽지 않았다. 기능 시스템들은 폴(poles)과 제로(zeros)를 거의 변함없이 포함하며, 따라서, LMS 필터의 응답과는 매우 다른 주파수 응답을 보인다. LMS에서 가능한 최선이라면, 단일 주파수에서 실제 시스템의 위상 및 크기를 부합시키는 것이다. 그래서, 이 주파수 바깥에서는 모델이 실제와 차이가 많으며 이 영역에서 잡음 에너지의 증가를 야기할 수 있다. 따라서, 관심대상인 음향 데이터의 전체 스펙트럼에 대해 LMS 알고리즘을 적용하면, 해당 주파수에서 신호 저하가 나타나고 그 크기 및 위상 일치가 불량한 경우가 잦다.
마지막으로, 상기 패스파인더 알고리듬은 시스템의 기준 마이크로폰 내의 관련 음향 신호와의 동작을 지원한다. 음향 신호를 기준 마이크로폰에 의해 수신하는 것은 마이크로폰이 고전적인 ANC 구조에서보다 서로 훨씬 가깝게 배치될 수 있다는 것을 의미한다. 이 더 가까운 간격(spacing)은 적응성 필터 계산을 단순화시키고 그리고 보다 간결한 마이크로폰 구조/해결책을 가능하게 한다. 또한, 신호 왜곡 및 신호-제거를 최소화시키면서 신호 소스와 기준 마이크로폰 간의 신호 경로 모델링을 지원하는 특별한 마이크로폰 구조가 개발되어 있다.
한 실시예에서, 지향성 마이크로폰의 이용은 트랜스퍼 함수가 1에 접근하지 못함을 보장한다. 지향성 마이크로폰으로도, 일부 신호가 잡음 마이크로폰으로 수신된다. 이를 무시하고 H2(z)=0으로 가정할 경우, 완전한 VAD의 가정 하에서 일부 왜곡이 존재할 것이다. 이는 방정식 2를 참고하여 H2(z)가 포함되지 않을 때의 값을 도출함으로서 표현될 수 있다.
S(z)[1 - H2(z)H1(z)] = M1(z) - M2(z)H1(z) (4)
이는 상기 신호가 성분[1-H2(z)H1(z)] 에 의해 왜곡될 것임을 보여준다. 따라서 왜곡의 타입 및 양은 잡음 환경에 따라 변화할 것이다. 잡음이 거의 없는 경우에, H1(z)은 대략 제로이고 거의 왜곡이 존재하지 않는다. 잡음이 존재할 때, 왜곡의 양은 잡음 소스의 타입, 위치, 그리고 강도와 함께 변화한다. 우수한 마이크로폰 구조 디자인은 이러한 왜곡을 최소화 한다.
각 서브밴드의 H1 계산은 음성이 발생되고 있지 않음을 상기 VAD가 표시할 때, 또는 음성이 발생하더라도 서브밴드의 SNR이 충분히 낮을 때 구현된다. 역으로, H2 는 VAD가 스피치가 발생되고 있으며 각 서브밴드의 SNR이 충분히 높을 때 각각의 서브밴드 내에서 계산될 수 있다. 그러나 적합한 마이크로폰 배치 및 처리로 신호 왜곡이 최소화 될 수 있고 H1만 계산하면 된다. 이는 처리 요건을 대폭 감소시키고, 패스파인더 알고리즘의 구현을 대폭 단순화시킨다. 기존의 ANC에서는 어떠한 신호도 MIC2에 들어가지 않지만, 패스파인더 알고리즘에서는 적절한 마이크로폰 구조를 이용할 때 신호가 MIC2에 들어가는 것을 감내한다. 적절한 마이크로폰의 한 실시예(도 7A 참조)는 두 카디오이드 일방향 마이크로폰들이 MIC1, MIC2로 사용되는 것이다.
이 구조는 MIC1이 사용자 입을 향하도록 설정한다. 더욱이, 이 구조에서는 MIC2를 MIC1에 가능한 가깝게 배치하며, MIC2가 MIC1에 대해 90도의 방향으로 놓인다.
VAD에 대한 잡음 억제 의존도를 설명하기 위한 최선의 방식은 VAD 실패시 잡음제거에 대한 VAD 오류의 결과를 검사하는 것이다. 발생할 수 있는 에러에는 두 가지 타입들이 있다. 폴스 포지티브(False Positive: FP)는 음성이 발생하지 않았지만 음성이 발생하고 있음을 VAD가 표시할 때이며, 폴스 네거티브(False Negative: FN)는 스피치가 발생하였음을 VAD가 검출하지 못할 때이다. 폴스 포지티브들은 너무 자주 발생하는 경우에만 문제가 된다. 왜냐하면, FP가 간혹 발생하는 경우에는 H 계수가 업데이트를 짧게 중단시킬 뿐이기 때문이다. 경험적으로 볼 때에도 이는 잡음 억제 성능에 큰 영향을 미치지 않는 것으로 파악되었다. 다른 한편 폴스 네거티브는 발견하지 못한 스피치의 SNR이 높을 경우 문제를 일으킬 수 있다. 시스템의 두 마이크로폰에 스피치와 잡음이 존재한다고 가정하고, VAD가 실패하여 폴스 네거티브를 되돌려보내서 시스템이 잡음만을 검출할 경우, MIC2의 신호는 다음과 같다.
M2 =H1N +H2S
이 경우에 설명의 명료성을 위해 z를 삭제하였다. VAD가 잡음 존재만을 표시하기 때문에, 시스템은 아래의 방정식에 따른 단일 트랜스퍼 함수와 신호 잡음으로 위와 같이 시스템을 모델링하려 시도한다.
Figure 112012056856928-pat00001
상기 패스파인더 시스템은
Figure 112012056856928-pat00002
을 계산하기 위해 LMS 알고리듬을 이용하나, 상기 LMS 알고리듬은 일반적으로 시간에 따라 불변인, 모든-제로 시스템의 모델링에서 일반적으로 최적이다. 잡음 및 스피치 신호가 잘 상관되지 않기 때문에, 상기 시스템은 일반적으로 스피치 및 스피치와 관련된 트랜스퍼 함수, 또는 잡음 및 잡음에 관련된 트랜스퍼 함수를 모델링하며, 이 모델링은 MIC 1 내의 데이터의 SNR, H1, H2의 모델링을 위한 능력, 그리고 H1 및 H2의 시간-불변성에 의존한다. 이들은 아래에서 추가적으로 설명된다.
MIC1에서의 데이터 SNR과 관련하여, 매우 낮은 SNR(0보다 작은)이 패스파인더 시스템을 잡음 트랜스퍼 함수에 수렴시키는 경향이 있다. 이와는 대조적으로, 높은 SNR(0보다 더 큰)은 패스파인더 시스템을 스피치 트랜스퍼 함수에 수렴시키는 경향이 있다. H1을 모델링하기 위한 능력의 경우, H1 또는 H2가 LMS(모든-제로 모델)를 이용하여 보다 쉽게 모델링될 경우, 상기 패스파인더 시스템은 그 각각의 트랜스퍼 함수로 수렴하는 경향이 있다.
H1과 H2의 시간에 따른 불변성에 대한 시스템 모델링의 의존성에 있어서, LMS가 시간-불변 시스템에서 모델링하기에 최적임을 고려해보자. 따라서, 패스파인더 시스템은 H2에 수렴하는 경향이 있다. 왜냐하면 H2가 H1보다 더 느리게 변하기 때문이다.
LMS가 잡음 트랜스퍼 함수에 대해 스피치 트랜스퍼 함수를 모델링할 경우, 스피치는 잡음으로 분류되어 LMS 필터의 계수들이 동일하거나 유사하게 유지되는 한 제거된다. 따라서, 패스파인더 시스템이 스피치 트랜스퍼 함수 H2의 모델에 수렴한 후(수밀리초 내에 발생), 이어지는 스피치들은 위로부터 제거된 에너지를 가질 것이며, 또한, 이 스피치가 잡음이라고 시스템이 가정할 것이다. 왜냐하면, 그 트랜스퍼 함수가 VAD가 실패했을 때 모델링된 함수와 유사하기 때문이다. 본 경우에, H2를 주로 모델링한 경우, 잡음은 영향을 미치지 않거나 일부분 제거될 것이다.
이 과정의 최종 결과는 클리닝된 스피치의 왜곡 및 볼륨 감소에 있고, 그 엄격함은 상술한 변수들에 의해 결정된다. 시스템이 H1에 수렴하려 할 경우, 이어지는 이득 손실 및 스피치 왜곡은 별 의미가 없을 것이다. 그러나 시스템이 H2에 수렴하려 할 경우, 스피치가 크게 왜곡될 수 있다.
이 VAD 실패 분석은 마이크로폰의 위치, 종류, 방향과 서브밴드의 이용에 관련된 세부사항을 설명하려 시도하지 않는다. 하지만 잡음제거에 대한 VAD의 중요성을 전달하는 것을 의미한다. 상술한 결과는 단일 서브밴드나 임의 숫자의 서브밴드들에 적용할 수 있다. 왜냐하면, 각 서브밴드에서의 상호작용들이 동일하기 때문이다.
추가적으로, 상술한 VAD 실패 분석에서 설명한 VAD 오류들로부터 발생하는 문제점과 VAD에 대한 의존도는 패스파인더 잡음 억제 시스템에 제한되지 않는다. 잡음제거 방식을 결정하기 위해 VAD를 이용하는 어떤 적응성 필터 잡음 억제 시스템도 마찬가지로 영향을 받을 것이다. 본 공개 내용에서, 패스파인더 잡음 억제 시스템이 언급될 때, 스피치 및 잡음을 모두 포함하는 신호로부터 잡음 파형을 추정하여 이를 삭감하기 위해 여러 마이크로폰을 이용하면서 신뢰성있는 동작을 위해 VAD에 의존하는 모든 잡음 억제 시스템들이 이러한 기준에 포함된다. 패스파인더는 단순히 편리한 구현에 지나지 않는다.
상술한 마이크로폰 및 VAD 구조들은 통신 시스템에 사용하기 위한 것으로서, 이러한 통신 시스템은, 사람의 음성 활동의 정보를 포함하는 음성 활동 신호들을 수신하면서 음성 활동 신호의 정보를 이용하여 제어 신호를 자동적으로 발생시키는 음성 검출 서브시스템과, 이 음성 검출 서브시스템에 연결된 잡음제거 서브시스템을 포함한다. 이러한 잡음제거 서브시스템은 잡음제거 서브시스템의 구성요소들에 주변환경의 음향 신호를 제공하기 위해 연결된 마이크로폰들을 포함하며, 이 마이크로폰들의 구조는 각각의 마이크로폰의 공간 응답 곡선의 최대값들 사이에서 한 각도를 가지면서 한 거리만큼 이격된 두 개의 일방향 마이크로폰들을 포함한다. 상기 잡음제거 시스템의 구성요소들은 제어 신호를 이용하여 음향 신호들의 한 개 이상의 주파수 서브밴드 데이터에 적합한 한 개 이상의 잡음제거 방법을 자동적으로 선택하고, 잡음제거된 음향 신호를 발생시키기 위해 선택된 잡음제거 방법을 이용하여 음향 신호를 처리한다. 이때, 잡음제거 방법은 음향 신호의 잡음에 관련된 잡음 파형 추정치를 발생시키고, 음향 신호가 스피치와 잡음을 포함할 때 음향 신호로부터 상기 잡음 파형 추정치를 빼는 과정을 포함한다.
두 일방향 마이크로폰들은 0~15 cm 범위의 거리만큼 이격된다.
두 일방향 마이크로폰들은 0~180도 범위로 각 마이크로폰의 공간 응답 곡선의 최대값들 사이의 각도를 가진다.
한 실시예의 음성 검출 서브시스템은 음성 활동 신호들을 수신하기 위한 한 개 이상의 안테나를 포함하는 한 개 이상의 성문 전자기 마이크로전력 센서(glottal electromagnetic micropower sensor: GEMS)와, GEMS 음성 활동 신호를 처리하여 제어 신호들을 발생시키기 위한 한 개 이상의 음성 활동 검출기(VAD) 알고리즘을 추가로 포함한다.
또하나의 실시예의 음성 검출 서브시스템은 음성 활동 신호를 수신하기 위해 사용자 피부와 접촉하는 한 개 이상의 가속계 센서와, 상기 가속계 센서 음성 활동 신호들을 처리하여 제어 신호들을 발생시키기 위한 한 개 이상의 음성 활동 검출기(VAD) 알고리즘을 추가로 포함한다.
또다른 실시예의 음성 검출 서브시스템은 음성 활동 신호들을 수신하기 위해 사용자 피부와 접촉하는 한 개 이상의 피부 표면 마이크로폰 센서와, 상기 피부 표면 마이크로폰 센서 음성 활동 신호를 처리하여 제어 신호를 발생시키는 한 개 이상의 음성 활동 검출기(VAD) 알고리즘을 추가로 포함한다.
음성 검출 서브시스템은 마이크로폰과의 결합을 통해 음성 활동 신호를 또한 수신할 수 있다.
또하나의 실시예에 따른 음성 검출 서브시스템은 각 마이크로폰의 공간 응답 곡선의 최대값 사이에서 한 각도를 가지면서 한 거리만큼 이격되는 두 개의 일방향 마이크로폰들을 추가로 포함한다. 이때, 그 거리는 0~15 cm 이고, 그 각도는 0~180도이다. 또한 음성 활동 신호를 처리하여 제어 신호를 발생시키는 한 개 이상의 음성 활동 검출기(VAD) 알고리즘을 추가로 포함한다.
대안의 실시예의 음성 검출 서브시스템은 음성 활동 신호를 발생시키는 한 개 이상의 수동 동작형 음성 활동 검출기(VAD)를 추가로 포함한다.
한 실시예의 통신 시스템은 마이크로폰들을 포함하는 휴대용 핸드셋을 추가로 포함한다. 이때 휴대용 핸드셋은 셀룰러 폰, 위성 전화, 휴대 전화, 유선 전화, 인터넷 폰, 무선 송수신기, 무선 통신 라디오, PDA, 그리고 PC 중 한가지 이상을 포함한다. 휴대용 핸드셋은 음성 검출 서브시스템과 잡음제거 서브시스템 중 한가지 이상을 포함할 수 있다.
한 실시예의 통신 시스템은 한 개 이상의 스피커 장치와 함께 마이크로폰들을 포함하는 휴대용 헤드셋을 추가로 포함한다. 이때 휴대용 헤드셋은 셀룰러 폰, 위성 전화, 휴대 전화, 유선 전화, 인터넷 폰, 무선 송수신기, 무선 통신 라디오, PDA, 그리고 PC 중 한가지 이상을 포함한다. 휴대용 헤드셋은 무선 연결, 유선 연결, 그리고 유/무선 연결의 조합 중 한가지 이상을 이용하여 통신 장치에 연결된다.
통신 장치는 음성 검출 서브시스템과 잡음제거 서브시스템 중 한가지 이상을 포함할 수 있다. 대안으로, 휴대용 헤드셋은 음성 검출 서브시스템과 잡음제거 서브시스템 중 한가지 이상을 포함할 수 있다.
상술한 휴대용 헤드셋은 셀룰러 폰, 위성 전화, 휴대 전화, 유선 전화, 인터넷 폰, 무선 송수신기, 무선 통신 라디오, PDA, 그리고 PC 중 한가지 이상을 포함한다.
상술한 마이크로폰 및 VAD 구조는 여러 실시예들의 통신 시스템에서 사용할 수 있다. 이때, 통신 시스템은 사람의 음성 활동의 정보를 포함하는 음성 활동 신호들을 수신하면서 음성 활동 신호의 정보를 이용하여 제어 신호를 자동적으로 발생시키는 음성 검출 서브시스템과, 이 음성 검출 서브시스템에 연결된 잡음제거 서브시스템을 포함한다. 이러한 잡음제거 서브시스템은 잡음제거 서브시스템의 구성요소들에 주변환경의 음향 신호를 제공하기 위해 연결된 마이크로폰들을 포함하며, 이 마이크로폰들의 구조는 한 거리만큼 이격된 한 개의 전방향 마이크로폰과 한 개의 일방향 마이크로폰을 포함한다. 상기 잡음제거 시스템의 구성요소들은 제어 신호를 이용하여 음향 신호들의 한 개 이상의 주파수 서브밴드 데이터에 적합한 한 개 이상의 잡음제거 방법을 자동적으로 선택하고, 잡음제거된 음향 신호를 발생시키기 위해 선택된 잡음제거 방법을 이용하여 음향 신호를 처리한다. 이때, 잡음제거 방법은 음향 신호의 잡음에 관련된 잡음 파형 추정치를 발생시키고, 음향 신호가 스피치와 잡음을 포함할 때 음향 신호로부터 상기 잡음 파형 추정치를 빼는 과정을 포함한다.
전방향 마이크로폰과 일방향 마이크로폰은 0~15 cm 범위의 거리만큼 이격된다.
전방향 마이크로폰은 한 개 이상의 스피치 신호 소스로부터 신호들을 캡처하도록 방향설정되고, 일방향 마이크로폰은 한 개 이상의 잡음 신호 소스로부터 신호들을 캡처하도록 방향설정된다. 일방향 마이크로폰의 공간 응답 곡선의 최대값과 스피치 신호 소스 간의 각도는 대략 45~180도 범위에 놓인다.
한 실시예의 음성 검출 서브시스템은 음성 활동 신호들을 수신하기 위한 한 개 이상의 안테나를 포함하는 한 개 이상의 성문 전자기 마이크로전력 센서(glottal electromagnetic micropower sensor: GEMS)와, GEMS 음성 활동 신호를 처리하여 제어 신호들을 발생시키기 위한 한 개 이상의 음성 활동 검출기(VAD) 알고리즘을 추가로 포함한다.
또하나의 실시예의 음성 검출 서브시스템은 음성 활동 신호를 수신하기 위해 사용자 피부와 접촉하는 한 개 이상의 가속계 센서와, 상기 가속계 센서 음성 활동 신호들을 처리하여 제어 신호들을 발생시키기 위한 한 개 이상의 음성 활동 검출기(VAD) 알고리즘을 추가로 포함한다.
또다른 실시예의 음성 검출 서브시스템은 음성 활동 신호들을 수신하기 위해 사용자 피부와 접촉하는 한 개 이상의 피부 표면 마이크로폰 센서와, 상기 피부 표면 마이크로폰 센서 음성 활동 신호를 처리하여 제어 신호를 발생시키는 한 개 이상의 음성 활동 검출기(VAD) 알고리즘을 추가로 포함한다.
또하나의 실시예에 따른 음성 검출 서브시스템은 각 마이크로폰의 공간 응답 곡선의 최대값 사이에서 한 각도를 가지면서 한 거리만큼 이격되는 두 개의 일방향 마이크로폰들을 추가로 포함한다. 이때, 그 거리는 0~15 cm 이고, 그 각도는 0~180도이다. 또한 음성 활동 신호를 처리하여 제어 신호를 발생시키는 한 개 이상의 음성 활동 검출기(VAD) 알고리즘을 추가로 포함한다.
상기 음성 검출 서브시스템은 음성 활동 신호를 발생시키는 한 개 이상의 수동 동작형 음성 활동 검출기(VAD)를 추가로 포함한다.
한 실시예의 통신 시스템은 마이크로폰들을 포함하는 휴대용 핸드셋을 추가로 포함한다. 이때 휴대용 핸드셋은 셀룰러 폰, 위성 전화, 휴대 전화, 유선 전화, 인터넷 폰, 무선 송수신기, 무선 통신 라디오, PDA, 그리고 PC 중 한가지 이상을 포함한다. 휴대용 핸드셋은 음성 검출 서브시스템과 잡음제거 서브시스템 중 한가지 이상을 포함할 수 있다.
한 실시예의 통신 시스템은 한 개 이상의 스피커 장치와 함께 마이크로폰들을 포함하는 휴대용 헤드셋을 추가로 포함한다. 이때 휴대용 헤드셋은 셀룰러 폰, 위성 전화, 휴대 전화, 유선 전화, 인터넷 폰, 무선 송수신기, 무선 통신 라디오, PDA, 그리고 PC 중 한가지 이상을 포함한다. 휴대용 헤드셋은 무선 연결, 유선 연결, 그리고 유/무선 연결의 조합 중 한가지 이상을 이용하여 통신 장치에 연결된다. 한 실시예에서, 통신 장치는 음성 검출 서브시스템과 잡음제거 서브시스템 중 한가지 이상을 포함할 수 있다. 대안으로, 휴대용 헤드셋은 음성 검출 서브시스템과 잡음제거 서브시스템 중 한가지 이상을 포함할 수 있다.
상술한 휴대용 헤드셋은 셀룰러 폰, 위성 전화, 휴대 전화, 유선 전화, 인터넷 폰, 무선 송수신기, 무선 통신 라디오, PDA, 그리고 PC 중에서 선택되는 휴대용 통신 장치이다.
상술한 마이크로폰 및 VAD 구조는 여러 실시예들의 통신 시스템에서 사용할 수 있다. 이때, 통신 시스템은 통신망에서 이용을 위한 한 개 이상의 송수신기와, 사람의 음성 활동의 정보를 포함하는 음성 활동 신호들을 수신하면서 음성 활동 신호의 정보를 이용하여 제어 신호를 자동적으로 발생시키는 음성 검출 서브시스템과, 이 음성 검출 서브시스템에 연결된 잡음제거 서브시스템을 포함한다. 이러한 잡음제거 서브시스템은 잡음제거 서브시스템의 구성요소들에 주변환경의 음향 신호를 제공하기 위해 연결된 마이크로폰들을 포함하며, 이 마이크로폰들의 구조는 각각의 마이크로폰의 공간 응답 곡선의 최대값들 간의 한 각도와 한 거리만큼 이격된 제 1 마이크로폰과 제 2 마이크로폰을 포함한다. 상기 잡음제거 시스템의 구성요소들은 제어 신호를 이용하여 음향 신호들의 한 개 이상의 주파수 서브밴드 데이터에 적합한 한 개 이상의 잡음제거 방법을 자동적으로 선택하고, 잡음제거된 음향 신호를 발생시키기 위해 상기 선택된 잡음제거 방법을 이용하여 음향 신호를 처리한다. 이때, 잡음제거 방법은 음향 신호의 잡음에 관련된 잡음 파형 추정치를 발생시키고, 음향 신호가 스피치와 잡음을 포함할 때 음향 신호로부터 상기 잡음 파형 추정치를 빼는 과정을 포함한다.
한 실시예에서, 제 1, 2 마이크로폰 각각은 일방향 마이크로폰으로서, 그 거리는 0~15 cm, 그 각도는 0~180도이다.
한 실시예에서, 제 1 마이크로폰은 전방향 마이크로폰이고 제 2 마이크로폰은 일방향 마이크로폰이다. 이때, 제 1 마이크로폰은 한 개 이상의 스피치 신호 소스로부터 신호를 캡처하도록 방향설정되고, 제 2 마이크로폰은 한 개 이상의 잡음 신호 소스로부터 신호들을 캡처하도록 방향설정된다. 제 2 마이크로폰의 공간 응답 곡선의 최대값과 스피치 신호 소스 간의 각도는 대략 45~180도 범위에 놓인다.
한 실시예의 송수신기는 제 1, 2 마이크로폰들을 포함한다. 그러나 이에 제한되지는 않는다.
송수신기는 통신망과 사용자 사이에서 정보를 헤드셋을 통해 연결할 수 있다. 송수신기와 함께 사용되는 헤드셋은 제 1, 2 마이크로폰들을 포함할 수 있다.
발명의 태양들은 다양한 회로에 프로그램되는 기능으로 구현될 수 있다. 그 회로의 예로는 필드 프로그램형 게이트 어레이(FPGA)같은 프로그램형 로직 디바이스(PLD), 프로그램형 어레이 로직(PLA) 디바이스, 전기적 프로그램형 로직 및 메모리 디바이스와 표준셀-기반 디바이스, 그리고 전용 집적 회로(ASIC)가 있다. 발명의 태양들을 구현하기 위한 그 외 다른 가능성으로는, EEPROM같은 메모리를 구비한 마이크로컨트롤러, 내장형 마이크로프로세서, 펌웨어, 소프트웨어 등이 있다. 발명의 태양들이 제작 중 한 개 이상의 스테이지에서 소프트웨어로 구현된다면, 소프트웨어는 캐리어 신호 상에 변조되는 자기-판독식 또는 광학-판독식 디스크같은 컴퓨터-판독형 매체에 의해 저장될 수 있다.
더욱이, 발명의 태양들은 소프트웨어-기반 회로 시뮬레이션, 개별 로직(순차형, 조합형), 커스텀 디바이스, 퍼지(신경) 로직, 퀀텀 디바이스, 그리고 상술한 디바이스 종류들의 하이브리드를 구비한 마이크로프로세서로 구현될 수 있다. 물론, 아래의 소자 기술들이 가령, 보완형 금속-산화물 반도체(CMOS)같은 금속-산화물 반도체 전계 효과 트랜지스터(MOSFET) 기술, 에미터-연결 로직(ECL)같은 쌍극성 기술, 실리콘-컨저게이트 폴리머와 금속-컨저게이트 폴리머-금속 구조같은 폴리머 기술, 혼합형 아날로그 및 디지털 등처럼, 다양한 소자 종류로 제공될 수 있다.
발명은 데이터 파일이나 스트림을 압축 및 압축해제하는 방법을 제공하기 위해 동작하는 모든 처리 시스템들을 포함하는 것으로 간주하여야 한다. 발명의 한 태양이 컴퓨터-판독형 매체로 구현되는 것으로 언급되었으나, 다른 태양도 컴퓨터-판독형 매체로 구현될 수 있다.

Claims (30)

  1. 통신 시스템에 있어서, 이 시스템은,
    사람의 음성 활동과 관련된 정보를 포함하는 음성 활동 신호를 수신하여 음성 활동 신호를 이용하여 제어 신호를 자동적으로 발생시키도록 구성된 음성 검출 서브시스템, 그리고
    상기 음성 검출 서브시스템에 무선 연결되는 잡음제거 서브시스템을 포함하고,
    상기 잡음제거 서브시스템은 잡음제거 서브시스템과 무선 연결된 복수의 마이크로폰을 포함하는 마이크로폰 어레이를 포함하며, 상기 마이크로폰 어레이의 제 1 마이크로폰은 사용자의 입에 대해제 1 위치에 고정되고, 상기 제 1 위치는 입을 향해 제 1 마이크로폰의 정면부를 배향시키며, 상기 마이크로폰 어레이의 제 2 마이크로폰은 입에 대해 제 2 위치에 고정되고, 상기 제 2 위치는 입으로부터 먼 방향으로 제 2 마이크로폰의 정면부를 배향시켜서 제 2 위치가 제 1 위치와 소정 각도를 형성하며, 이때 상기 각도는 제로보다 크고,
    상기 마이크로폰 어레이는 잡음제거 서브시스템의 구성요소들에게 주변환경의 음향 신호를 무선으로 제공하고,
    상기 잡음제거 서브시스템의 구성요소들은 제어 신호를 이용하여 음향 신호들의 한 개 이상의 주파수 서브밴드 데이터에 적합한 한 개 이상의 잡음제거 방법을 자동적으로 선택하고, 잡음제거된 음향 신호를 발생시키기 위해 상기 선택된 잡음제거 방법을 이용하여 음향 신호를 처리하며,
    이때, 잡음제거 방법은 음향 신호의 잡음에 관련된 잡음 파형 추정치를 발생시키고, 음향 신호가 스피치와 잡음을 포함할 때 음향 신호로부터 상기 잡음 파형 추정치를 빼는 과정을 포함하며,
    또한 상기 음성 검출 서브시스템이 상기 마이크로폰 어레이와는 독립적으로, 한 센서를 사용하여 음성 활동 신호를 무선으로 수신하고 상기 음성 활동 신호로부터 발생된 제어 신호를 잡음 제거 시스템으로 무선으로 출력하도록 하며, 상기 잡음 제거 시스템이 상기 마이크로폰 어레이로부터 상기 음향 신호의 잡음을 제거하기 위해 상기 제어신호를 사용하도록 구성됨을 특징으로 하는 통신 시스템.
  2. 제 1 항에 있어서, 상기 음성 검출 서브시스템은
    음성 활동 신호들을 수신하기 위한 한 개 이상의 안테나를 포함하는 한 개 이상의 성문 전자기 마이크로전력 센서(glottal electromagnetic micropower sensor: GEMS)와,
    GEMS 음성 활동 신호를 처리하여 제어 신호들을 발생시키기 위한 한 개 이상의 음성 활동 검출기(VAD) 알고리즘
    을 추가로 포함함을 특징으로 하는 통신 시스템.
  3. 제 1 항에 있어서, 상기 음성 검출 서브시스템은
    음성 활동 신호를 수신하기 위해 사용자 피부와 접촉하는 한 개 이상의 가속계 센서(accelerometer sensor)와,
    가속계 센서 음성 활동 신호들을 처리하여 제어 신호들을 발생시키기 위한 한 개 이상의 음성 활동 검출기(VAD) 알고리즘
    을 추가로 포함하는 것을 특징으로 하는 통신 시스템.
  4. 제 1 항에 있어서, 상기 음성 검출 서브시스템은
    음성 활동 신호들을 수신하기 위해 사용자 피부와 접촉하는 한 개 이상의 피부 표면 마이크로폰 센서와,
    피부 표면 마이크로폰 센서 음성 활동 신호를 처리하여 제어 신호를 발생시키는 한 개 이상의 음성 활동 검출기(VAD) 알고리즘
    을 추가로 포함함을 특징으로 하는 통신 시스템.
  5. 제 1 항에 있어서, 상기 음성 검출 서브시스템은 음성 활동 신호를 발생시키는 한 개 이상의 수동 조작(manually activated) 음성 활동 검출기(VAD)를 추가로 포함함을 특징으로 하는 통신 시스템.
  6. 제 1 항에 있어서, 상기 통신 시스템은 마이크로폰들을 포함하는 휴대용 핸드셋을 추가로 포함하고, 이때, 상기 휴대용 핸드셋은 셀룰러 폰, 위성 전화, 휴대 전화, 유선 전화, 인터넷 폰, 무선 송수신기, 무선 통신 라디오, PDA, 그리고 PC 중 한가지 이상을 포함함을 특징으로 하는 통신 시스템.
  7. 제 6 항에 있어서, 상기 휴대용 핸드셋은 음성 검출 서브시스템과 잡음제거 서브시스템 중 한가지 이상을 포함함을 특징으로 하는 통신 시스템.
  8. 제 1 항에 있어서, 상기 통신 시스템은 한 개 이상의 스피커 장치와 함께 복수의 마이크로폰을 포함하는 휴대용 헤드셋을 추가로 포함함을 특징으로 하는 통신 시스템.
  9. 제 8 항에 있어서, 상기 휴대용 헤드셋이 셀룰러 폰, 위성 전화, 휴대 전화, 유선 전화, 인터넷 폰, 무선 송수신기, 무선 통신 라디오, PDA, 그리고 PC 중에서 선택된 한 개 이상의 통신 장치에 연결됨을 특징으로 하는 통신 시스템.
  10. 제 9 항에 있어서, 상기 휴대용 헤드셋이 무선 연결, 유선 연결, 그리고 유/무선 연결의 조합 중 한가지 이상을 이용하여 상기 통신 장치에 연결됨을 특징으로 하는 통신 시스템.
  11. 제 9 항에 있어서, 상기 통신 장치가 음성 검출 서브시스템과 잡음제거 서브시스템 중 한가지 이상을 포함함을 특징으로 하는 통신 시스템.
  12. 제 8 항에 있어서, 상기 휴대용 헤드셋이 음성 검출 서브시스템과 잡음제거 서브시스템 중 한가지 이상을 포함함을 특징으로 하는 통신 시스템.
  13. 제 8 항에 있어서, 상기 휴대용 헤드셋이 셀룰러 폰, 위성 전화, 휴대 전화, 유선 전화, 인터넷 폰, 무선 송수신기, 무선 통신 라디오, PDA, 그리고 PC 중에서 선택된 휴대용 통신 장치임을 특징으로 하는 통신 시스템.
  14. 제 1 항에 있어서, 상기 제 1 및 제 2 마이크로폰이 일방향 마이크로폰인 것을 특징으로 하는 통신 시스템.
  15. 제 1 항에 있어서, 상기 제 1 마이크로폰이 전방향 마이크로폰이고, 상기 제 2 마이크로폰이 일방향 마이크로폰인 것을 특징으로 하는 통신 시스템.
  16. 통신 시스템에 있어서, 상기 시스템은,
    사람의 음성 활동과 관련된 정보를 포함하는 음성 활동 신호들을 수신하고 음성 활동 신호를 이용하여 제어 신호를 자동적으로 발생시키도록 구성된 음성 검출 서브시스템, 그리고
    상기 음성 검출 서브시스템에 무선 연결된 잡음제거 서브시스템을 포함하며, 이때, 상기 잡음제거 서브시스템은 잡음제거 서브시스템과 무선 연결된 복수의 마이크로폰을 포함하는 마이크로폰 어레이를 포함하고, 상기 마이크로폰 어레이의 제 1 마이크로폰은 사용자의 입에 대해 제 1 위치에 고정되고, 상기 제 1 위치는 제 1 마이크로폰의 전면부를 입을 향해 배향시키며, 상기 마이크로폰 어레이의 제 2 마이크로폰은 입에 대해 제 2 위치에 고정되고, 상기 제 2 위치는 제 2 마이크로폰의 전면부를 입으로부터 먼 반향으로 배향시켜서 제 2 위치가 제 1 위치와 소정의 각도를 형성하며, 상기 각도가 제로보다 크고,
    상기 마이크로폰 어레이는 잡음제거 서브시스템의 구성요소들에게 주변환경의 음향 신호를 무선으로 제공하고, 상기 잡음제거 서브시스템의 구성요소들은 제어 신호를 이용하여 음향 신호들의 한 개 이상의 주파수 서브밴드 데이터에 적합한 한 개 이상의 잡음제거 방법을 자동적으로 선택하고, 잡음제거된 음향 신호를 발생시키기 위해 상기 선택된 잡음제거 방법을 이용하여 음향 신호를 처리하며,
    이때, 잡음제거 방법은 음향 신호의 잡음에 관련된 잡음 파형 추정치를 발생시키고, 음향 신호가 스피치와 잡음을 포함할 때 음향 신호로부터 상기 잡음 파형 추정치를 빼는 과정을 포함하며,
    상기 음성 검출 서브시스템이 상기 마이크로폰 어레이와는 독립적으로, 한 센서를 사용하여 음성 활동 신호를 무선으로 수신하고 상기 음성 활동 신호로부터 발생된 제어 신호를 잡음 제거 시스템으로 무선으로 출력하도록 하며, 상기 잡음 제거 시스템이 상기 마이크로폰 어레이로부터 상기 음향 신호의 잡음을 제거하기 위해 상기 제어신호를 사용하도록 구성되고,
    휴대용 헤드셋이 상기 복수의 마이크로폰과 한 개 이상의 스피커 장치를 포함하고, 상기 휴대용 헤드셋은 셀룰러 폰, 위성 전화, 휴대 전화, 유선 전화, 인터넷 폰, 무선 송수신기, 무선 통신 라디오, PDA, PC 그리고 음성 검출 서브시스템과 잡음제거 서브시스템 중 한가지 이상에 연결됨을 특징으로 하는 통신 시스템.
  17. 제 16 항에 있어서, 상기 제 1 마이크로폰이 일방향 마이크로폰이고, 상기 제 2 마이크로폰이 전방향 마이크로폰인 것을 특징으로 하는 통신 시스템.
  18. 제 17 항에 있어서, 상기 제 1 마이크로폰과 상기 제 2 마이크로폰이 0~15 cm 범위의 거리만큼 이격되는 것을 특징으로 하는 통신 시스템.
  19. 제 17 항에 있어서, 상기 각도가 0~180도 범위에 있는 것을 특징으로 하는 통신 시스템.
  20. 제 17 항에 있어서, 상기 각도가 0~135도 범위에 있는 것을 특징으로 하는 통신 시스템.
  21. 제 17 항에 있어서, 상기 각도가 0~90도 범위에 있는 것을 특징으로 하는 통신 시스템.
  22. 제 16 항에 있어서, 상기 제 1 마이크로폰이 전방향 마이크로폰이고, 상기 제 2 마이크로폰이 일방향 마이크로폰인 것을 특징으로 하는 통신 시스템.
  23. 제 22 항에 있어서, 상기 제 1 마이크로폰과 상기 제 2 마이크로폰이 0~15 cm 범위의 거리만큼 이격되는 것을 특징으로 하는 통신 시스템.
  24. 제 22 항에 있어서, 상기 각도가 30~180도 범위에 있는 것을 특징으로 하는 통신 시스템.
  25. 제 22 항에 있어서, 상기 각도가 60~180도 범위에 있는 것을 특징으로 하는 통신 시스템.
  26. 제 22 항에 있어서, 상기 각도가 90~180도 범위에 있는 것을 특징으로 하는 통신 시스템.
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
KR1020127018648A 2002-03-27 2003-03-27 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동 감지(vad) 구성 KR101434071B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US36820902P 2002-03-27 2002-03-27
US60/368,209 2002-03-27
PCT/US2003/009280 WO2003083828A1 (en) 2002-03-27 2003-03-27 Nicrophone and voice activity detection (vad) configurations for use with communication systems

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020117002131A Division KR20110025853A (ko) 2002-03-27 2003-03-27 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동 감지(vad) 구성

Publications (2)

Publication Number Publication Date
KR20120091454A KR20120091454A (ko) 2012-08-17
KR101434071B1 true KR101434071B1 (ko) 2014-08-26

Family

ID=28675460

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020117002131A KR20110025853A (ko) 2002-03-27 2003-03-27 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동 감지(vad) 구성
KR10-2004-7015441A KR20040101373A (ko) 2002-03-27 2003-03-27 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동감지(vad) 구성
KR1020127018648A KR101434071B1 (ko) 2002-03-27 2003-03-27 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동 감지(vad) 구성

Family Applications Before (2)

Application Number Title Priority Date Filing Date
KR1020117002131A KR20110025853A (ko) 2002-03-27 2003-03-27 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동 감지(vad) 구성
KR10-2004-7015441A KR20040101373A (ko) 2002-03-27 2003-03-27 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동감지(vad) 구성

Country Status (9)

Country Link
US (1) US8467543B2 (ko)
EP (1) EP1497823A1 (ko)
JP (1) JP2005522078A (ko)
KR (3) KR20110025853A (ko)
CN (1) CN1643571A (ko)
AU (1) AU2003223359A1 (ko)
CA (1) CA2479758A1 (ko)
TW (1) TW200305854A (ko)
WO (1) WO2003083828A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101982812B1 (ko) 2017-11-20 2019-05-27 김정근 헤드셋 및 그의 음질 향상 방법

Families Citing this family (148)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019091B2 (en) * 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US8280072B2 (en) 2003-03-27 2012-10-02 Aliphcom, Inc. Microphone array with rear venting
AU2003278018B2 (en) 2002-10-17 2008-09-04 2249020 Alberta Ltd. Method and apparatus for controlling a device or process with vibrations generated by tooth clicks
US9066186B2 (en) 2003-01-30 2015-06-23 Aliphcom Light-based detection for acoustic applications
US9099094B2 (en) 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
US7496387B2 (en) * 2003-09-25 2009-02-24 Vocollect, Inc. Wireless headset for use in speech recognition environment
US20050071158A1 (en) * 2003-09-25 2005-03-31 Vocollect, Inc. Apparatus and method for detecting user speech
US7914468B2 (en) * 2004-09-22 2011-03-29 Svip 4 Llc Systems and methods for monitoring and modifying behavior
US8543390B2 (en) * 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
WO2006066618A1 (en) * 2004-12-21 2006-06-29 Freescale Semiconductor, Inc. Local area network, communication unit and method for cancelling noise therein
US20060147063A1 (en) * 2004-12-22 2006-07-06 Broadcom Corporation Echo cancellation in telephones with multiple microphones
US20070116300A1 (en) * 2004-12-22 2007-05-24 Broadcom Corporation Channel decoding for wireless telephones with multiple microphones and multiple description transmission
US20060133621A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone having multiple microphones
US8509703B2 (en) * 2004-12-22 2013-08-13 Broadcom Corporation Wireless telephone with multiple microphones and multiple description transmission
US7983720B2 (en) * 2004-12-22 2011-07-19 Broadcom Corporation Wireless telephone with adaptive microphone array
US20060135085A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone with uni-directional and omni-directional microphones
US7813923B2 (en) * 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
US8417185B2 (en) 2005-12-16 2013-04-09 Vocollect, Inc. Wireless headset and method for robust voice data communication
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
CN1809105B (zh) * 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US7885419B2 (en) 2006-02-06 2011-02-08 Vocollect, Inc. Headset terminal with speech functionality
US7773767B2 (en) 2006-02-06 2010-08-10 Vocollect, Inc. Headset terminal with rear stability strap
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8949120B1 (en) * 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
JP4887968B2 (ja) * 2006-08-09 2012-02-29 ヤマハ株式会社 音声会議装置
WO2008062782A1 (fr) * 2006-11-20 2008-05-29 Nec Corporation Système d'estimation de parole, procédé d'estimation de parole et programme d'estimation de parole
US20080152157A1 (en) * 2006-12-21 2008-06-26 Vimicro Corporation Method and system for eliminating noises in voice signals
KR100873094B1 (ko) 2006-12-29 2008-12-09 한국표준과학연구원 가속도계를 이용한 넥 마이크로폰
KR100892095B1 (ko) 2007-01-23 2009-04-06 삼성전자주식회사 헤드셋에서 송수신 음성신호 처리 장치 및 방법
TWI465121B (zh) * 2007-01-29 2014-12-11 Audience Inc 利用全方向麥克風改善通話的系統及方法
US8254591B2 (en) 2007-02-01 2012-08-28 Personics Holdings Inc. Method and device for audio recording
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US8625819B2 (en) * 2007-04-13 2014-01-07 Personics Holdings, Inc Method and device for voice operated control
US11317202B2 (en) 2007-04-13 2022-04-26 Staton Techiya, Llc Method and device for voice operated control
US11217237B2 (en) 2008-04-14 2022-01-04 Staton Techiya, Llc Method and device for voice operated control
US8611560B2 (en) 2007-04-13 2013-12-17 Navisense Method and device for voice operated control
US8625816B2 (en) * 2007-05-23 2014-01-07 Aliphcom Advanced speech encoding dual microphone configuration (DMC)
US8982744B2 (en) * 2007-06-06 2015-03-17 Broadcom Corporation Method and system for a subband acoustic echo canceller with integrated voice activity detection
CN101779476B (zh) 2007-06-13 2015-02-25 爱利富卡姆公司 全向性双麦克风阵列
US8767975B2 (en) * 2007-06-21 2014-07-01 Bose Corporation Sound discrimination method and apparatus
US20090010453A1 (en) * 2007-07-02 2009-01-08 Motorola, Inc. Intelligent gradient noise reduction system
US7817808B2 (en) * 2007-07-19 2010-10-19 Alon Konchitsky Dual adaptive structure for speech enhancement
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
GB2453118B (en) * 2007-09-25 2011-09-21 Motorola Inc Method and apparatus for generating and audio signal from multiple microphones
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
US8155364B2 (en) * 2007-11-06 2012-04-10 Fortemedia, Inc. Electronic device with microphone array capable of suppressing noise
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8611554B2 (en) * 2008-04-22 2013-12-17 Bose Corporation Hearing assistance apparatus
US8611556B2 (en) * 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US8554556B2 (en) * 2008-06-30 2013-10-08 Dolby Laboratories Corporation Multi-microphone voice activity detector
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US9129291B2 (en) 2008-09-22 2015-09-08 Personics Holdings, Llc Personalized sound management and method
US9277330B2 (en) * 2008-09-29 2016-03-01 Technion Research And Development Foundation Ltd. Optical pin-point microphone
USD605629S1 (en) 2008-09-29 2009-12-08 Vocollect, Inc. Headset
AU2009308442A1 (en) * 2008-10-24 2010-04-29 Aliphcom, Inc. Acoustic Voice Activity Detection (AVAD) for electronic systems
US8229126B2 (en) * 2009-03-13 2012-07-24 Harris Corporation Noise error amplitude reduction
FR2945696B1 (fr) * 2009-05-14 2012-02-24 Parrot Procede de selection d'un microphone parmi deux microphones ou plus, pour un systeme de traitement de la parole tel qu'un dispositif telephonique "mains libres" operant dans un environnement bruite.
US8160287B2 (en) 2009-05-22 2012-04-17 Vocollect, Inc. Headset with adjustable headband
DE202009009804U1 (de) * 2009-07-17 2009-10-29 Sennheiser Electronic Gmbh & Co. Kg Headset und Hörer
CN104485118A (zh) 2009-10-19 2015-04-01 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
US8438659B2 (en) 2009-11-05 2013-05-07 Vocollect, Inc. Portable computing device and headset interface
EP3217653B1 (en) 2009-12-24 2023-12-27 Nokia Technologies Oy An apparatus
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
EP2362381B1 (en) * 2010-02-25 2019-12-18 Harman Becker Automotive Systems GmbH Active noise reduction system
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8447595B2 (en) * 2010-06-03 2013-05-21 Apple Inc. Echo-related decisions on automatic gain control of uplink speech signal in a communications device
US8639499B2 (en) * 2010-07-28 2014-01-28 Motorola Solutions, Inc. Formant aided noise cancellation using multiple microphones
US9078077B2 (en) 2010-10-21 2015-07-07 Bose Corporation Estimation of synthetic audio prototypes with frequency-based input signal decomposition
CN102411936B (zh) * 2010-11-25 2012-11-14 歌尔声学股份有限公司 语音增强方法、装置及头戴式降噪通信耳机
US9032042B2 (en) 2011-06-27 2015-05-12 Microsoft Technology Licensing, Llc Audio presentation of condensed spatial contextual information
CN102300140B (zh) 2011-08-10 2013-12-18 歌尔声学股份有限公司 一种通信耳机的语音增强方法及降噪通信耳机
CN102497613A (zh) * 2011-11-30 2012-06-13 江苏奇异点网络有限公司 用于课堂扩音的双通道实时语音输出方法
US9648421B2 (en) 2011-12-14 2017-05-09 Harris Corporation Systems and methods for matching gain levels of transducers
US8958569B2 (en) * 2011-12-17 2015-02-17 Microsoft Technology Licensing, Llc Selective spatial audio communication
US9135915B1 (en) * 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US20150365762A1 (en) * 2012-11-24 2015-12-17 Polycom, Inc. Acoustic perimeter for reducing noise transmitted by a communication device in an open-plan environment
US9076459B2 (en) 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
CN105051814A (zh) * 2013-03-12 2015-11-11 希尔Ip有限公司 降噪方法及系统
US9270244B2 (en) 2013-03-13 2016-02-23 Personics Holdings, Llc System and method to detect close voice sources and automatically enhance situation awareness
US20140288441A1 (en) * 2013-03-14 2014-09-25 Aliphcom Sensing physiological characteristics in association with ear-related devices or implements
DE102013005049A1 (de) 2013-03-22 2014-09-25 Unify Gmbh & Co. Kg Verfahren und Vorrichtung zur Steuerung einer Sprachkommunikation sowie Verwendung derselben
US20140364967A1 (en) * 2013-06-08 2014-12-11 Scott Sullivan System and Method for Controlling an Electronic Device
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9271077B2 (en) 2013-12-17 2016-02-23 Personics Holdings, Llc Method and system for directional enhancement of sound using small microphone arrays
JP2015194753A (ja) 2014-03-28 2015-11-05 船井電機株式会社 マイクロホン装置
US9807492B1 (en) 2014-05-01 2017-10-31 Ambarella, Inc. System and/or method for enhancing hearing using a camera module, processor and/or audio input and/or output devices
CN106797512B (zh) 2014-08-28 2019-10-25 美商楼氏电子有限公司 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质
CN104332160A (zh) * 2014-09-28 2015-02-04 联想(北京)有限公司 信息处理方法及电子设备
US9378753B2 (en) 2014-10-31 2016-06-28 At&T Intellectual Property I, L.P Self-organized acoustic signal cancellation over a network
US9973633B2 (en) 2014-11-17 2018-05-15 At&T Intellectual Property I, L.P. Pre-distortion system for cancellation of nonlinear distortion in mobile devices
US9636260B2 (en) 2015-01-06 2017-05-02 Honeywell International Inc. Custom microphones circuit, or listening circuit
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
KR101731714B1 (ko) 2015-08-13 2017-04-28 중소기업은행 음질 개선을 위한 방법 및 헤드셋
US9924265B2 (en) * 2015-09-15 2018-03-20 Intel Corporation System for voice capture via nasal vibration sensing
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
CN105654960A (zh) * 2015-09-21 2016-06-08 宇龙计算机通信科技(深圳)有限公司 一种对终端声音消噪的处理方法及装置
CN110493692B (zh) * 2015-10-13 2022-01-25 索尼公司 信息处理装置
CN105355210B (zh) * 2015-10-30 2020-06-23 百度在线网络技术(北京)有限公司 用于远场语音识别的预处理方法和装置
CN105280195B (zh) * 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
CN105469785B (zh) * 2015-11-25 2019-01-18 南京师范大学 通信终端双麦克风消噪系统中的语音活动检测方法及装置
US10324494B2 (en) 2015-11-25 2019-06-18 Intel Corporation Apparatus for detecting electromagnetic field change in response to gesture
WO2017094121A1 (ja) * 2015-12-01 2017-06-08 三菱電機株式会社 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム
CN105304094B (zh) * 2015-12-08 2019-03-08 南京师范大学 基于神经网络的手机定位方法及定位装置
EP3188495B1 (en) 2015-12-30 2020-11-18 GN Audio A/S A headset with hear-through mode
US9997173B2 (en) * 2016-03-14 2018-06-12 Apple Inc. System and method for performing automatic gain control using an accelerometer in a headset
US10079027B2 (en) 2016-06-03 2018-09-18 Nxp B.V. Sound signal detector
US9905241B2 (en) 2016-06-03 2018-02-27 Nxp B.V. Method and apparatus for voice communication using wireless earbuds
US10298282B2 (en) 2016-06-16 2019-05-21 Intel Corporation Multi-modal sensing wearable device for physiological context measurement
US20170365249A1 (en) * 2016-06-21 2017-12-21 Apple Inc. System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector
US10241583B2 (en) 2016-08-30 2019-03-26 Intel Corporation User command determination based on a vibration pattern
US10564925B2 (en) 2017-02-07 2020-02-18 Avnera Corporation User voice activity detection methods, devices, assemblies, and components
KR101898911B1 (ko) * 2017-02-13 2018-10-31 주식회사 오르페오사운드웍스 인이어 마이크와 아웃이어 마이크 수음특성을 이용한 소음 제거 이어셋 및 소음 제거 방법
CN113114866A (zh) * 2017-03-10 2021-07-13 株式会社Bonx 便携通信终端及其控制方法、通信系统和记录介质
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
KR20180115599A (ko) * 2017-04-13 2018-10-23 인하대학교 산학협력단 발화 개선을 위한 두경부 물리 특성 기반의 가이드 및 피드백 시스템
CN107331407B (zh) * 2017-06-21 2020-10-16 深圳市泰衡诺科技有限公司 下行通话降噪方法及装置
US10264186B2 (en) * 2017-06-30 2019-04-16 Microsoft Technology Licensing, Llc Dynamic control of camera resources in a device with multiple displays
EP3425923A1 (en) * 2017-07-06 2019-01-09 GN Audio A/S Headset with reduction of ambient noise
WO2019030898A1 (ja) * 2017-08-10 2019-02-14 三菱電機株式会社 雑音除去装置および雑音除去方法
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
WO2019061323A1 (zh) * 2017-09-29 2019-04-04 深圳传音通讯有限公司 一种降噪方法及终端
US10405082B2 (en) 2017-10-23 2019-09-03 Staton Techiya, Llc Automatic keyword pass-through system
CN107889002B (zh) * 2017-10-30 2019-08-27 恒玄科技(上海)有限公司 颈环蓝牙耳机、颈环蓝牙耳机的降噪系统及降噪方法
EP3714452B1 (en) * 2017-11-23 2023-02-15 Harman International Industries, Incorporated Method and system for speech enhancement
US11277685B1 (en) * 2018-11-05 2022-03-15 Amazon Technologies, Inc. Cascaded adaptive interference cancellation algorithms
CN110189763B (zh) * 2019-06-05 2021-07-02 普联技术有限公司 一种声波配置方法、装置及终端设备
US10748521B1 (en) * 2019-06-19 2020-08-18 Bose Corporation Real-time detection of conditions in acoustic devices
EP4147229A1 (en) 2020-05-08 2023-03-15 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
CN112104929A (zh) * 2020-05-13 2020-12-18 苏州触达信息技术有限公司 一种智能设备、控制智能音箱的方法和系统
CN113178187A (zh) * 2021-04-26 2021-07-27 北京有竹居网络技术有限公司 一种语音处理方法、装置、设备及介质、程序产品
CN113470676A (zh) * 2021-06-30 2021-10-01 北京小米移动软件有限公司 声音处理方法、装置、电子设备和存储介质
CN113676816A (zh) * 2021-09-26 2021-11-19 惠州市欧迪声科技有限公司 一种用于骨传导耳机的回音消除方法、骨传导耳机

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001025082A (ja) * 1999-07-02 2001-01-26 Fujitsu Ltd マイクロホンアレイ装置
WO2002007151A2 (en) * 2000-07-19 2002-01-24 Aliphcom Method and apparatus for removing noise from speech signals

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3789166A (en) 1971-12-16 1974-01-29 Dyna Magnetic Devices Inc Submersion-safe microphone
US4006318A (en) 1975-04-21 1977-02-01 Dyna Magnetic Devices, Inc. Inertial microphone system
US4591668A (en) 1984-05-08 1986-05-27 Iwata Electric Co., Ltd. Vibration-detecting type microphone
DE3742929C1 (de) * 1987-12-18 1988-09-29 Daimler Benz Ag Verfahren zur Verbesserung der Zuverlaessigkeit von Sprachsteuerungen von Funktionselementen und Vorrichtung zu dessen Durchfuehrung
JPH02149199A (ja) 1988-11-30 1990-06-07 Matsushita Electric Ind Co Ltd エレクトレットコンデンサマイクロホン
US5212764A (en) 1989-04-19 1993-05-18 Ricoh Company, Ltd. Noise eliminating apparatus and speech recognition apparatus using the same
GB9119908D0 (en) * 1991-09-18 1991-10-30 Secr Defence Apparatus for launching inflatable fascines
JP3279612B2 (ja) 1991-12-06 2002-04-30 ソニー株式会社 雑音低減装置
FR2687496B1 (fr) 1992-02-18 1994-04-01 Alcatel Radiotelephone Procede de reduction de bruit acoustique dans un signal de parole.
US5353376A (en) * 1992-03-20 1994-10-04 Texas Instruments Incorporated System and method for improved speech acquisition for hands-free voice telecommunication in a noisy environment
JP3176474B2 (ja) * 1992-06-03 2001-06-18 沖電気工業株式会社 適応ノイズキャンセラ装置
US5400409A (en) 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
US5625684A (en) * 1993-02-04 1997-04-29 Local Silence, Inc. Active noise suppression system for telephone handsets and method
JPH06318885A (ja) 1993-03-11 1994-11-15 Nec Corp 帯域分割適応フィルタによる未知システム同定の方法及び装置
US5459814A (en) 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5633935A (en) 1993-04-13 1997-05-27 Matsushita Electric Industrial Co., Ltd. Stereo ultradirectional microphone apparatus
US5590241A (en) * 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5414776A (en) 1993-05-13 1995-05-09 Lectrosonics, Inc. Adaptive proportional gain audio mixing system
DE69327396T2 (de) * 1993-07-28 2000-05-11 Pan Communications Inc Zweiweg-Kommunikations-Ohrhörer
US5406622A (en) 1993-09-02 1995-04-11 At&T Corp. Outbound noise cancellation for telephonic handset
US5515865A (en) 1994-04-22 1996-05-14 The United States Of America As Represented By The Secretary Of The Army Sudden Infant Death Syndrome (SIDS) monitor and stimulator
US5684460A (en) 1994-04-22 1997-11-04 The United States Of America As Represented By The Secretary Of The Army Motion and sound monitor and stimulator
DE69531413T2 (de) * 1994-05-18 2004-04-15 Nippon Telegraph And Telephone Corp. Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ
JP2758846B2 (ja) 1995-02-27 1998-05-28 埼玉日本電気株式会社 ノイズキャンセラ装置
US5590702A (en) * 1995-06-20 1997-01-07 Venture Enterprises, Incorporated Segmental casting drum for continuous casting machine
US5835608A (en) 1995-07-10 1998-11-10 Applied Acoustic Research Signal separating system
US6000396A (en) * 1995-08-17 1999-12-14 University Of Florida Hybrid microprocessor controlled ventilator unit
US6006175A (en) 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US5729694A (en) 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
JP3522954B2 (ja) 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
US5853005A (en) 1996-05-02 1998-12-29 The United States Of America As Represented By The Secretary Of The Army Acoustic monitoring system
DE19635229C2 (de) 1996-08-30 2001-04-26 Siemens Audiologische Technik Richtungsempfindliche Hörhilfe
JP2874679B2 (ja) 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
US6430295B1 (en) 1997-07-11 2002-08-06 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for measuring signal level and delay at multiple sensors
US5986600A (en) 1998-01-22 1999-11-16 Mcewan; Thomas E. Pulsed RF oscillator and radar motion sensor
US5966090A (en) 1998-03-16 1999-10-12 Mcewan; Thomas E. Differential pulse radar motion sensor
US6191724B1 (en) 1999-01-28 2001-02-20 Mcewan Thomas E. Short pulse microwave transceiver
JP2000312395A (ja) 1999-04-28 2000-11-07 Alpine Electronics Inc マイクロホンシステム
JP2001189987A (ja) 1999-12-28 2001-07-10 Pioneer Electronic Corp 狭指向性マイクロホンユニット
US6980092B2 (en) * 2000-04-06 2005-12-27 Gentex Corporation Vehicle rearview mirror assembly incorporating a communication system
FR2808958B1 (fr) * 2000-05-11 2002-10-25 Sagem Telephone portable a attenuation de bruit environnant
US6963649B2 (en) * 2000-10-24 2005-11-08 Adaptive Technologies, Inc. Noise cancelling microphone
US7206418B2 (en) * 2001-02-12 2007-04-17 Fortemedia, Inc. Noise suppression for a wireless communication device
US20030044025A1 (en) * 2001-08-29 2003-03-06 Innomedia Pte Ltd. Circuit and method for acoustic source directional pattern determination utilizing two microphones
US7085715B2 (en) * 2002-01-10 2006-08-01 Mitel Networks Corporation Method and apparatus of controlling noise level calculations in a conferencing system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001025082A (ja) * 1999-07-02 2001-01-26 Fujitsu Ltd マイクロホンアレイ装置
WO2002007151A2 (en) * 2000-07-19 2002-01-24 Aliphcom Method and apparatus for removing noise from speech signals

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Joerg Meyer et al., ‘Multi-channel speech enhancement in a car environment using wiener filtering and spectral subtraction’, ICASSP 97, Vol.2, pp.1167~1170, 1997*
Joerg Meyer et al., 'Multi-channel speech enhancement in a car environment using wiener filtering and spectral subtraction', ICASSP 97, Vol.2, pp.1167~1170, 1997 *
shok K. Krishnamurthy et al., ‘Two-Channel Speech Analysis’, IEEE Trans. on Acoustic, Speech, and Signal Processing, Vol. ASSP-34, No.4, August 1986*
shok K. Krishnamurthy et al., 'Two-Channel Speech Analysis', IEEE Trans. on Acoustic, Speech, and Signal Processing, Vol. ASSP-34, No.4, August 1986 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101982812B1 (ko) 2017-11-20 2019-05-27 김정근 헤드셋 및 그의 음질 향상 방법

Also Published As

Publication number Publication date
EP1497823A1 (en) 2005-01-19
CN1643571A (zh) 2005-07-20
KR20110025853A (ko) 2011-03-11
US8467543B2 (en) 2013-06-18
AU2003223359A1 (en) 2003-10-13
WO2003083828A1 (en) 2003-10-09
CA2479758A1 (en) 2003-10-09
JP2005522078A (ja) 2005-07-21
KR20040101373A (ko) 2004-12-02
US20030228023A1 (en) 2003-12-11
KR20120091454A (ko) 2012-08-17
TW200305854A (en) 2003-11-01

Similar Documents

Publication Publication Date Title
KR101434071B1 (ko) 통신 시스템에서 사용을 위한 마이크로폰과 음성 활동 감지(vad) 구성
US8340309B2 (en) Noise suppressing multi-microphone headset
US11304014B2 (en) Hearing aid device for hands free communication
US8942383B2 (en) Wind suppression/replacement component for use with electronic systems
US20110158420A1 (en) Stand-alone ear bud for active noise reduction
US20030179888A1 (en) Voice activity detection (VAD) devices and methods for use with noise suppression systems
EP2165564A1 (en) Dual omnidirectional microphone array
US20140126737A1 (en) Noise suppressing multi-microphone headset
JP2009135777A (ja) マイクロフォンユニット及び音声入力装置
US9614945B1 (en) Anti-noise canceling headset and related methods
CA2477767A1 (en) Voice activity detection (vad) devices and methods for use with noise suppression systems
US20140372113A1 (en) Microphone and voice activity detection (vad) configurations for use with communication systems
EP4300992A1 (en) A hearing aid comprising a combined feedback and active noise cancellation system
US20230254649A1 (en) Method of detecting a sudden change in a feedback/echo path of a hearing aid
US20230308817A1 (en) Hearing system comprising a hearing aid and an external processing device
EP4064730A1 (en) Motion data based signal processing

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170719

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190218

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190819

Year of fee payment: 6