KR20110008333A - 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법 - Google Patents

음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법 Download PDF

Info

Publication number
KR20110008333A
KR20110008333A KR1020107028265A KR20107028265A KR20110008333A KR 20110008333 A KR20110008333 A KR 20110008333A KR 1020107028265 A KR1020107028265 A KR 1020107028265A KR 20107028265 A KR20107028265 A KR 20107028265A KR 20110008333 A KR20110008333 A KR 20110008333A
Authority
KR
South Korea
Prior art keywords
noise
microphone
signal
vad
acoustic signal
Prior art date
Application number
KR1020107028265A
Other languages
English (en)
Inventor
그레고리 씨. 버넷
니콜라스 제이. 페티트
알렉산더 엠. 아세일리
앤드류 이. 에이나우디
Original Assignee
앨리프컴
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 앨리프컴 filed Critical 앨리프컴
Publication of KR20110008333A publication Critical patent/KR20110008333A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

음성 활동 감지(VAD) 장치, 시스템 및 방법이 음향 신호의 잡음을 제거하기 위해 신호 처리 시스템과 함께 사용하기 위해 설명되었다. 신호 처리 시스템 그리고/또는 VAD 시스템의 성분은 음향 신호 및 음성 활동 신호를 수신한다. 제어 신호들은 자동적으로 상기 음향 활동 신호의 데이터로부터 발생된다. 신호 처리 시스템 그리고/또는 VAD 시스템의 성분들은 상기 음향 신호의 주파수 서브-밴드의 데이터에 적합한 잡음제거 방법을 자동적으로 선택하기 위해 사용한다. 상기 선택된 잡음제거 방법은 잡음이 제거된 음향 신호를 발생하기 위해 상기 음향 신호에 적용된다.

Description

음성 활동 감지(VAD) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법{VOICE ACTIVITY DETECTION(VAD) DEVICES AND METHODS FOR USE WITH NOISE SUPPRESSION SYSTEMS}
당해 출원은 다음의 우선권을 참고한다. 미국 특허 출원 번호 60/362,162, 명칭 PATHFINDER-BASED VOICE ACTIVITY DETECTION(PVAD) USED WITH PATHFINDER NOISE SUPPRESSION, 2002 년 3월 5일 출원, 특허 출원 번호 60/362,170, ACCELEROMETER-BASED VOICE ACTIVITY DETECTION(PVAD) WITH PATHFINDER NOISE SUPPRESSION, 2002 년 3월 5일 출원, 출원 번호 60/361,981, ARRAY-BASED VOICE ACTIVITY DETECTION(AVAD) AND PATHFINDER NOISE SUPPRESSION, 2002년 3월 5일 출원, 출원 번호 60/362,161, PATHFINDER NOISE SUPPRESSION USING AN EXTERNAL VOICE ACTIVITY DETECTION(VAD) DEVICE, 2002년 3월 5일 출원, 출원 번호 60/362,103, ACCELEROMETER-BASED VOICE ACTIVITY DETECTION, 2002년 3월 5일 출원, 그리고 출원 번호 60/368,343, TWO-MICROPHONE FREQUENCY-BASED VOICE ACTIVITY DETECTION, 2002년 3월 27일 출원, 모두 현재 계류 중이다.
또한 이 출원은 다음의 미국특허 출원과도 관계된다. 출원 번호 09/905,361, METHOD AND APPARATUS FOR REMOVING NOISE FROM ELECTRONIC SIGNALS, 2001년 7월 12일 출원, 출원 번호 10/159,770, DETECTING VOICED AND UNVOICED SPEECH USING BOTH ACOUSTIC AND NONACOUSTIC SENSORS, 2002년 5월 30일 출원, 그리고 출원 번호 10/301,237, METHOD AND APPARATUS FOR REMOVING NOISE FROM ELECTRONIC SIGNALS, 2002년 11월 21 일 출원이다.
*설명된 실시예들은 음향 신호의 존재에서 원하는 신호의 처리 및 감지를 위한 시스템 및 방법에 관한 것이다.
많은 잡음 억제 알고리즘 및 기술들이 개발되어 왔다. 언어 통신 시스템을 위해 오늘날 사용되는 대부분의 잡음 억제 시스템은 1970년대에 가장 먼저 발견된 단일-마이크로폰 주파수 공제 기술에 기초하고 그리고 예를 들어, S.F.Boll에 의해 쓰인 "Suppression of Acoustic Noise in Speech using Spectral Subtraction," IEEE Trans. on ASSP, pp 113-120, 1979 에 설명된다. 이러한 기술들은 해를 거듭하여 정련되어왔으나, 작동의 기본적 원리는 동일하게 유지되었다. 예를 들어, 미국 특허 번호 5,687,243 의 McLaughlin, et al. 그리고 미국 특허 번호 4,811,404 의 Vilmur, et al.에서 볼 수 있다. 일반적으로, 이러한 기술들은 "음성"이 일반적으로 사람의 유성음, 무성음 또는 유성음 및 무성음의 조합을 포함하는 것으로 이해되는 곳에서, 배경 잡음 특징을 결정하기 위해 단일-마이크로폰 음성 활동 검출기(VAD)를 이용한다.
상기 VAD는 또한 디지털 셀룰러 시스템에서 사용되어 왔다. 그러한 이용의 실시예로서 Ashley의 미국 특허 번호 6,453,291 을 보라. 그곳에서 디지털 셀룰러 시스템의 프론트-엔드(front-end)에 적합한 VAD 구현이 설명되었다. 또한, 일부 코드 분할 다중 액세스(CDMA) 시스템들은 사용되는 유효 라디오 스펙트럼을 최소화하기 위해 VAD를 이용하고, 이로써 더 많은 시스템 용량이 허용된다. 또한, 이동 통신(GSM) 시스템을 위한 전역 시스템은 공통-채널 간섭을 줄이고 그리고 클라이언트 또는 구독자 장치에서 배터리 소비를 감소하기 위해 VAD를 포함할 수 있다.
이러한 특정 단일-마이크로폰 VAD 시스템들은 단일 마이크로폰에 의해 수신되는 음향 정보의 결과로서 용량 내에 상당히 제한되고, 이 때 상기 분석은 특정 신호 처리 기술을 이용하여 수행된다. 특히, 이러한 단일-마이크로폰 VAD 시스템들의 수행에 있어 제한점은 처리 신호들이 낮은 신호-대-잡음 비율(SNR)을 지닐 때, 그리고 배경 잡음이 빠르게 변하는 곳에서의 세팅에서 주목된다. 따라서 유사한 제한들이 이러한 단일-마이크로폰 VAD를 이용하는 잡음 억제 시스템 내에서 발견된다.
적응성 잡음 억제 시스템과 함께 사용하기 위한, 다수의 음성 활동 검출(VAD) 장치 및 방법이 이하에 설명된다. 또한 잡음 억제 시스템(구체적으로, Aliph, San Francisco, California(.aliph.com)사의 상기 패스파인더 잡음 억제 시스템)의 성분으로서 이 명세서에 설명되는 VAD 장치 및 방법들을 이용하는 실험으로부터, 결과들이 아래에 제시된다. 그러나, 실시예가 이에 제한되는 것은 아니다. 아래의 설명에서, 상기 패스파인더 잡음 억제 시스템이 언급될 때, 상기 패스파인더 잡음 억제 시스템이 잡음 파형을 측정하고 그것을 신호에서 제외하는 잡음 억제 시스템들 그리고 신뢰 가능한 작동을 위한 VAD 정보를 이용할 수 있다는 것을 주목하여야 한다. 패스파인더는 단순히 잡음을 지닌 원하는 음성 신호를 포함하는 신호 상에서 작동하는 시스템의 편리한 참조 구현 예이다.
잡음 억제 시스템과 함께 여기에서 설명되는 VAD 장치 및 방법들이 설명될 때, 상기 VAD 신호는 잡음 억제 시스템과 독립적으로 처리되고, 그 결과 VAD 정보의 처리 및 수령은 잡음 억제와 관련된 처리에 독립적이나, 상기 실시예들은 그렇게 제한되는 것은 아니다. 이 독립성은 처리(예를 들어, 상기 수신된 신호를 처리하기 위한 독립적인 기술들(소프트웨어, 알고리즘, 루틴들)을 이용하는 동안 신호를 잡음 억제 시스템으로 수신하기 위한 동일한 장치를 이용하는 것)를 통해, 그리고 다른 하드웨어 및 다른 소프트웨어의 결합을 통해 물리적으로(예를 들어, VAD 및 잡음 억제에 관련된 신호를 수신하고 처리함에 있어 이용을 위한 다른 하드웨어) 획득한다.
다음의 설명에서, "음향"은 일반적으로 대기 중의 음향파의 전파로 정의된다. 대기를 제외한 매체에서 음향파의 전파는 그렇게 기록될 것이다. "음성" 또는 "목소리"로의 기준은 일반적으로 유성음, 무성음, 그리고/또는 유성음 및 무성음의 결합을 포함하는 인간 언어를 언급한다. 무성음 EH는 유성음은 필요한 곳에서 구별된다. 용어 " 잡음 억제"는 일반적으로 어떠한 잡음이 전기 신호 내에서 감소되거나 또는 제어되었는지에 의한 어떠한 방법을 설명한다.
게다가, 상기 용어 "VAD" 는 일반적으로 벡터 또는 배열 신호, 데이터 또는 디지털 또는 아날로그 영역 내의 언어의 일치를 나타내는 일부 방법에서 정보를 정의한다. VAD 정보의 공통된 표현은 대응하는 시간 샘플 동안 스피치가 발생되었음을 표시하는 1 값 그리고 대응하는 시간 샘플 동안 어떠한 스피치도 발생되지 않았음을 표시하는 0 값과 함께 대응하는 음향 신호와 동일한 비율에서 샘플 되는 1-비트 디지털 신호이다.
여기서 설명되는 상기 VAD 장치/방법은 변화 그리고 움직임 센서, 음향 센서, 그리고 수동 VAD 장치들을 일반적으로 포함하나 그것에 제한되는 것은 아니다. 한 실시예에서, 가속도계는 인간 음성과 관련된 피부 표면 변화를 검출함에 있어 사용을 위해 피부 상에 배치된다. 이러한 기록된 변화들은 그 후 음성 그리고 잡음 모두를 포함하는 기록된 음향 신호로부터 동시에(몇 밀리초 내에) 환경 음향 잡음을 억압함에 있어 적합 잡음 억압 알고리즘에 의해 또는 그와 함께 사용을 위해 VAD 신호를 계산하기 위해 사용된다.
여기서 설명된 VAD 장치/방법들의 또 다른 실시예는 얇은 막을 지닌 수정된 음향 마이크로폰을 포함하고 그 결과 상기 마이크로폰은 더 이상 효율적으로 대기 중의 음향 변화를 검출하지 못한다. 상기 얇은 막은, 하지만, 상기 마이크로폰이 사람 피부와 같은 물리적 접촉(좋은 기계적 저항 매치를 허용하는)내에서 그것과 함께 물체 내의 음향 변화를 검출하는 것을 허용한다. 즉, 상기 음향 마이크로폰은 일부 방법으로 수정되고 그 결과 그것은 더 이상 대기 중에서의 음향 진동을 검출하지 못하나 상기 마이크로폰이 접촉되어 있는 물체에서의 음향 진동만을 검출한다. 이는 대기 중의 음향 환경적 잡음을 효율적으로 검출하지 못하나, 그 사람의 음성 산출과 관련된 사람 피부의 진동(vibration)을 검출하기 위해 마이크로폰을 구성한다. 상기 검출된 변화들은 아래에 설명되는 것과 같은 잡음 억제 시스템 내에서 이용을 위한 VAD 신호를 형성하기 위해 처리된다.
그러나 여기서 설명되는 VAD의 또 다른 실시예는 무선주파수 진동계(RF) 또는 레이저 진동계와 같은, 피부 진동을 검출하는 전자기 진동계 센서를 이용한다. 또한, 상기 RF 진동계는 볼의 내부 표면 또는 기관염 벽과 같은 몸 내의 조직의 움직임을 검출한다. 스피치 생성과 관련된 외부 피부 그리고 내부 조직 모두는 아래에 설명된 것과 같은 잡음 억제 시스템 내의 사용을 위해 VAD 신호를 형성하기 위해 사용될 수 있다.
또한 여기서 설명된 VAD 장치/방법의 또 다른 실시예들은 직접적으로 음성 주름 움직임을 검출하기 위해 전기성문파측정법(elctroglottograph)을 포함한다. 상기 EGG 는 음성 주름 접촉 지역을 측정하는 교류(AC) 기반 방법이다. 상기 EGG 가 충분한 음성 주름 접촉을 표시할 때, 따라나오는 가정은 유성음이 발생하고, 그리고 대응하는 유성음의 VAD 신호는 아래에 설명된 것과 같은 잡음 억제 시스템 내의 이용을 위해 발생된다는 점이다. 유사하게, 부가적 VAD 실시예들은 사람의 음성 조음기관, 스피치가 생성되고 있는 지표를 검출하기 위한 비디오 시스템을 이용한다.
아래에 설명되는 VAD 장치/방법의 또 다른 세트는 대부분의 환경적 잡음 조건 하에서 신뢰성 있게 그리고 정확하게 VAD 신호를 생성하기 위해 대응하는 신호 처리 기술에 따라 하나 이상의 음향 마이크로폰에서 수신되는 신호를 이용한다. 이러한 환경들은 단순한 배열 그리고 함께-배치된(또는 그 정도로 가깝게) 전 방향 및 단방향 음향 마이크로폰들의 조합을 포함한다. VAD 실시예의 이 세트에서 가장 간단한 구현은 상대적으로 높은 SNR에서 신호를 기록하기 위해 사용자의 입에 매우 가깝게 배치된 단일 마이크로폰의 이용을 포함한다. 이 마이크로폰은 예를 들어, 경사 또는 "close-talk" 마이크로폰이 될 수 있다. 다른 구현들은 다양한 방향과 구현들에서 단방향 그리고 전 방향 마이크로폰들의 결합의 이용을 포함한다. 관련된 신호 처리에 따라, 이러한 마이크로폰에서 수신된 상기 신호들은 아래에 설명된 것과 같이 잡음 억제 시스템과 함께 사용하기 위해 VAD 신호를 계산하기 위해 사용된다. 또한 아래에서 설명하는 것은 시스템에 대한 관찰자에 의해서 또는 워키토키 내에서와 같이 수동적으로 활성화되는 VAD 시스템이다.
위에서 언급한 것과 같이, 여기서 설명되는 상기 VAD 장치 및 방법들은 캘리포니아, 샌프란시스코의 Aliph 사로부터 이용 가능한 패스파인더 잡음 억제 시스템(여기서 "패스파인더 시스템"으로 언급되는)과 같은 잡음 억제 시스템과 함께 사용을 위해 여기서 설명된다. VAD 장치의 설명이 패스파인더 잡음 억제 시스템의 내용에서 제공되는 동안 당업자는 VAD 장치 및 방법이 알려진 다양한 잡음 억제 시스템 및 방법과 함께 사용될 수 있다는 것을 인할 것이다.
패스파인더 시스템은 디지털 신호 처리(DSP)기반 음향 잡음 억제 그리고 반향-제거 시스템이다. 스피치 처리 시스템의 프론트-엔드로 결합할 수 있는 상기 패스파인더 시스템은 잡음 파형을 평가하고 그리고 그것을 스피치와 잡음 모두를 포함하는 신호로부터 제거함으로써 원하는 음향 신호 내의 잡음을 감소하거나 또는 제거하기 위해 VAD 정보 그리고 수신된 음향 정보를 이용한다. 상기 패스파인더 시스템은 관련 출원에서 그리고 이하에서 보다 상세히 설명하겠다.
도 1 은 실시예 하에서, 패스파인더 잡음 억제 시스템(101) 그리고 VAD 시스템(102)을 포함하는 신호 처리 시스템(100)의 블락 다이어그램이다. 상기 신호 처리 시스템(100)은 하나 이상의 잡음원(122) 그리고 하나 이상의 스피치 신호원으로부터 정보 또는 신호를 수신하는 두 개의 마이크로폰 MIC(110)그리고 MIC2(112)를 포함한다. 상기 스피치 신호원(120)으로부터 MIC 1까지 경로 s(n) 그리고 잡음원(122)으로부터 MIC 2까지의 경로 n(n)은 1(unity)이 되도록 간주된다. 게다가, H1(z)은 상기 잡음원(122)으로부터 MIC1까지 경로를 나타내고, H2(z)는 그리고 스피치 신호원(120)으로부터 MIC 2까지 경로를 나타낸다. 패스파인더 시스템(101)을 포함하는 신호 처리 시스템(100)에 대조적으로, 도 2 는 공지기술에 알려진 것과 같이 전통적 적합 잡음 제거 시스템(202)을 통합하는 신호 처리 시스템(200)의 블락 다이어그램이다.
신호 처리 시스템(100)의 성분들, 예를 들어, 상기 잡음 억제 시스템(101), 무선 커플링을 통한 마이크로폰 MIC1 그리고 MIC2로의 결합, 그리고/또는 무선 그리고 유선 커플링의 결합이 그 예이다. 이와 같이, 상기 VAD 시스템(102)은 잡음 억제 시스템(101)과 같이, 무선 커플링, 유선 커플링 그리고/또는 무선 그리고 유선 커플링의 결합을 통해 신호 처리 시스템의 성분(100)에 결합한다. 실시예로서, 상기 VAD 장치 그리고 VAD 시스템(102)의 성분으로서 아래에 설명된 마이크로폰들은 제한되는 것은 아니나 신호 처리 시스템의 다른 성분과 무선 통신을 위해 블루투스 무선 특징에 따를 수 있다.
도 1과 관련하여, 상기 VAD 시스템(102)으로부터 VAD 신호(104)는 여기서 설명된 방법으로 유도되고, 잡음 유형, 크기, 그리고/또는 방향에 관계없이 상기 수신된 신호로부터 잡음 제어를 제어한다. 상기 VAD 신호(104)가 발성의 결여를 표시할 때, 상기 패스파인더 시스템(101)은 MIC 1 그리고 MIC 2 신호를 상기 수신된 신호의 미리-구체화된 서브밴드에 대해 전달 함수 H1(z)의 모델을 위한 계수들을 계산하기 위해 이용한다. 상기 VAD 신호(104)가 발성의 결여를 표시할 때, 상기 패스파인더 시스템(101)은 H1(z)의 업데이트를 멈추고 그리고 상기 수신된 신호의 미리-구체화된 서브밴드에 대한 전달함수 H2(z)를 위한 계수를 계산하기 시작한다. H1 계수의 업데이트는 상기 서브밴드 내의 SNR이 낮은 경우( 유의할 것은 H1(z) 그리고 H2(z)가 때때로, 편의를 위해 각각 H1 그리고 H2로서 간주된다)음성 생성중 서브 밴드 내에서 계속될 수 있다. 실시예의 패스파인더 시스템(101)은 "Adaptive Signal Processing", Prentice-Hall Publishing, ISBN 0-13-004029-0 내의 B.Widrow 및 S.Stea rns 에 의해 또한 설명된 것과 마찬가지로 H1 그리고 H2를 계산하기 위해 최소 평균 제곱근(LMS)을 이용한다. 상기 전달 함수는 시간 영역, 주파수 영역, 또는 시간/주파수 영역 모두의 결합에서 계산될 수 있다. 상기 패스파인더 시스템은 그 후 전달 함수 H1(z) 및 H2(z)의 결합을 이용한 관련 수신된 음향 신호로부터 잡음을 제거하고, 그것에 의해 하나 이상의 잡음이 제거된 음향 흐름을 생성한다.
상기 패스파인더 시스템은 다양한 방법으로 구현될 수 있으나, 모든 실시예가 정확도에 신뢰하거나 신뢰할 수 있는 VAD 장치 그리고/또는 방법에 일반적이다. 상기 VAD 장치/방법은 정확하여야만 한다. 왜냐하면 상기 패스파인더 시스템은 스피치가 낮은 동안 SNR일 때 EH는 스피치가 없을 때 그것의 필터 계수를 업데이트하기 때문이다. 충분한 스피치 에너지가 계수가 업데이트 되는 동안 존재하는 경우, 그 후의 유사한 주파수 특징을 지닌 스피치는 억제될 수 있다. 상기 VAD 장치/방법은 다양한 환경 조건하에서 높은 정확성을 제공하기 위해 강건해야만 한다. 명백히, 어떠한 VAD 장치/방법이 만족스럽게 작동하지 못할 때 일부 조건이 있을 수 있으나, 일반적 환경 하에서, 상기 VAD 장치/방법은 관련 스피치 신호 상의 일부 역 효과를 지닌 최대 잡음 억제를 제공하는 것을 수행하여만 한다.
잡음 억제 시스템과 함께 VAD 장치/방법을 이용할 때, 상기 VAD 신호는 잡음 억제 시스템과 독립적으로 처리되고, 그 결과 VAD 정보의 수신 및 처리는 잡음 억제와 관련된 처리로부터 독립적이나 실시예가 그것에 제한되는 것은 아니다. 이 독립성은 처리(예를 들어, 수신된 신호를 처리하기 위해 독립적 기술(소프트웨어, 알고리즘, 루틴)을 이용하는 동안 신호를 잡음 억제 시스템으로 수신하기 위한 동일한 하드웨어를 이용하는 것 ) 그리고 아래에 설명한 것과 같은 다른 하드웨어 그리고 다른 소프트웨어의 결합을 통해, 물리적으로 획득된다.
도 1A 는 실시예 하에서, VAD에 관련된 신호를 수신하고 그리고 처리함에 있어 이용을 위한 하드웨어를 포함하는 VAD 시스템(102A)의 블락 다이어그램이다. 상기 VAD 시스템(102A)은 대응하는 VAD 알고리즘(140)으로 데이터를 제공하기 위해 결합된 VAD 장치(130)를 포함한다. 주의할 것은 또 다른 실시예의 잡음 억제 시스템은 당업자에게 자명한 잡음 억제 처리를 하는 VAD 알고리즘의 모든 또는 일부 함수를 통합할 수 있다.
도 1B 는 실시예 하에서, VAD 정보(164)를 수신함에 있어 사용을 위한 관련된 잡음 억제 시스템(101)의 하드웨어를 이용하는 VAD 시스템(102B)의 블락 다이어그램이다. 상기 VAD 시스템(102B)은 대응하는 신호 처리 시스템(100)의 다른 성분들 또는 MIC 1 그리고 MIC2로부터 데이터(164)를 수신하는 VAD 알고리즘(150)을 포함한다. 잡음 억제 시스템의 또 다른 실시예는 당업자에게 자명한 방법에서 잡음 억제 처리기능을 하는 VAD 알고리즘의 일부 또는 전체 기능을 통합할 수 있다.
도 1 은 발명의 일실시예 하에서 패스파인더(Pathfinder) 잡음 억제 시스템 및 VAD 시스템을 포함하는 신호 처리 시스템의 블락 다이어그램이다.
도 1A 는 일실시예 하의 VAD에 관계된 신호의 수신 및 처리에 있어 이용을 위한 하드웨어를 포함하는 VAD 시스템의 블락 다이어그램이다.
도 1B 는 다른 실시예하에서, VAD 정보를 수신함에 있어 사용을 위한 관련된 잡음 억제 시스템의 하드웨어를 이용하는 VAD 시스템의 블락 다이어그램이다.
도 2 는 당업자에게 알려진 것과 같이, 전통적 적합 잡음 소거 시스템을 통합하는 신호 처리 시스템의 블락 다이어그램이다.
도 3 은 실시예 하에서 가속화-기반 VAD를 이용하는 유성음 및 무성음을 결정하기 위한 방법의 흐름 다이어그램이다.
도 4 는 실시예 하에서, VAD 신호를 이용하는 패스파인더 시스템에 의해 처리된 이후의 대응하는 가속도계-기반 VAD 신호, 대응하는 가속도계 출력 신호, 그리고 잡음이 제거된 오디오 신호에 따른 잡음의 오디오 신호(실시간 기록)를 포함하는 평면도를 도시한다.
도 5 는 실시예 하에서, VAD 신호를 이용하는 패스파인더 시스템에 의한 처리 이후에 대응하는 SSM-기반 VAD 신호, 대응하는 SSM 출력 신호, 그리고 잡음 제거된 오디오 신호를 따라 잡음의 오디오 신호(실시간 기록)를 포함하는 평면도를 도시한다.
도 6은 실시예 하에서, VAD 신호를 이용하는 패스파인더 시스템에 의한 처리 이후에 대응하는 GEMS-기반 VAD 신호, 대응하는 GEMS 출력 신호, 그리고 잡음 제거된 오디오 신호를 따른 잡음의 오디오 신호(실시간 기록)를 포함하는 평면도를 도시한다.
도 7은 실시예 하에서 대응하는 EGG-기반 VAD 신호에 따라 디지털적으로 부가된 잡음을 지닌 기록된 구두 음향 데이터 및 대응하는 하이패스 필터된 EGG 출력 신호를 포함하는 평면도를 도시한다.
도 7 은 실시예 하에서, 대응하는 EGG-기반 VAD 신호를 따라 디지털 적으로 부가된 잡음을 지닌 기록된 구두의 음향 데이터, 그리고 대응하는 하이패스 필터된 EGG 출력 신호를 포함하는 평면도를 도시하다.
도 8 은 실시예 하에서, 비디오-기반 VAD를 이용하는 유성음을 결정하기 위한 방법의 흐름 다이어그램(80)이다.
도 9 는 대응하는 단일(경사)마이크로폰-기반 VAD 신호를 따른 잡음의 오디오 신호(실시간 기록), 대응하는 경사 마이크로폰 출력 신호, 그리고 VAD 신호를 이용하는 패스파인더 시스템에 의한 처리 이후의 잡음 제거된 신호를 포함하는 평면도를 도시한다.
도 10 은 실시예 하에서, 관련된 공간적 응답 커브에 따라, 상기 마이크로폰 배열의 단일 심장학 단방향 마이크로폰 배열을 도시한다.
도 11 은 실시예 하에서, PVAD 시스템의 마이크로폰 배열을 도시한다.
도 12 는 PVAD의 또 다른 실시예 하에서, H1(z) 이득 값을 이용하는 무성음 및 유성음을 결정하기 위한 흐름 다이어그램 방법이다.
도 13 은 실시예 하에서, 대응하는 마이크로폰-기반 PVAD 신호를 따른 잡음의 오디오 신호(실시간 기록), 대응하는 PVAD 이득 대 시간 신호, 그리고 PVAD 신호를 이용하는 패스파인더 시스템에 의한 처리 이후 상기 잡음이 제거된 오디오 신호를 포함하는 평면도를 도시한다.
도 14 는 실시예 하에서, 스트레오 VAD를 이용하는 무성음 및 유성음을 결정하기 위한 방법의 흐름 다이어그램이다.
도 15 는 실시예 하에서, 대응하는 SVAD 신호를 따른 잡음의 오디오 신호(실시간 기록), 그리고 상기 SVAD 신호를 이용하는 패스파인더 시스템에 의한 처리에 따른 잡음이 제거된 오디오 신호를 포함하는 평면도를 도시한다.
도 16 은 실시예 하에서, AVAD 를 이용하는 유성음 및 무성음을 결정하는 방법의 흐름 다이어그램이다.
도 17 은 실시예 하에서, 대응하는 결합된 에너지 신호를 따른 AVAD 시스템의 각 마이크로폰으로부터 그리고 오디오 신호를 포함하는 평면도를 도시한다.
도 18 은 실시예 하에서, 패스파인더 잡음 억제 시스템 및 단일-마이크로폰(종래의)VAD 시스템을 포함하는 신호 처리 시스템의 블락 다이어그램이다.
도 19 는 실시예 하에서, 단일-마이크로폰을 이용하는 음성 정보를 발생하기 위한 방법의 흐름 다이어그램이다.
도 20은 실시예 하에서, 기류-기반 VAD 를 이용하는 무성음 및 유성음을 결정하기 위한 방법의 흐름 다이어그램이다.
도 21 은 실시예 하에서, 대응하는 수동의 활성화된/계산된 VAD 신호에 따른 잡음의 오디오 신호, 수동 VAD 신호를 이용하는 패스파인더 시스템에 의해 처리된 이후의 잡음이 제거된 오디오 신호를 포함하는 평면도를 도시한다.
진동/움직임-기반 VAD 장치/방법
상기 잡음/움직임-기반 VAD 장치들은 VAD 그리고 잡음 억제에 관련된 신호를 수신하고 처리함에 있어 이용을 위한 물리적 하드웨어 장치들을 포함한다. 화자 또는 사용자가 스피치를 생성함에 따라, 그 결과적인 진동들은 화자의 조직을 통해 전파하고, 그리고 그 결과 다양한 방법을 이용하여 피부의 아래에서 또는 피부에서 검출될 수 있다. 이러한 진동들은, 그들이 유성음 및 무성음 모두와 매우 연관되어 있고(무성음 진동이 훨씬 더 약하고 그리고 검출하기가 보다 어려움에도 불구하고) 그리고 일반적으로 환경적 음향 잡음(예를 들어, 아래에 설명되는 전자기 진동계와 같은 일부 장치/방법은 환경 잡음에 의해 영향 받지 않는다)에 의해서만 단지 영향을 받기 때문에, VAD 정보의 뛰어난 소스이다. 이러한 조직 진동들 또는 움직임들은 예를 들어, 가속도계-기반 장치, 피부 표면 마이크로폰(SSM)장치, 무선 주파수(RF) 진동계 및 레이저 진동계를 모두 포함하는 전자기(EM) 진동계 장치, 직접적 성대 움직임 측정 장치, 그리고 비디오 검출 장치들을 포함하는 다수의 VAD 장치들을 이용하여 검출된다.
가속도계-기반 VAD 장치/방법
가속도계는 스피치와 연관된 피부 진동을 검출할 수 있다. 도 1 그리고 도 1A와 관련하여, 실시예의 VAD 시스템(102A)은 관련된 알고리즘(140)으로 피부 진동의 데이터를 제공하는 가속도계-기반 장치(130)를 포함한다. 실시예의 알고리즘은 아래에 설명된 것과 같은 스레쉬홀드 비교를 따라 에너지 계산 기술을 이용하나, 여기에 제한되는 것은 아니다. 주의할 것은 보다 더 복잡한 에너지-기반 방법들이 당업자에게 명백하다는 점이다.
도 3 은 실시예 하에서 가속도계-기반 VAD를 이용하는 유성음 및 무성음 스피치를 결정하기 위한 방법의 흐름 다이어그램(300)이다. 일반적으로, 상기 에너지는 어떠한 계산이 발생하고 그리고 시간에 대한 크기의 제곱을 합하는 것에 대해 표준 윈도우 크기를 정함으로써 결정된다.
Figure pat00001
그곳에서, I 는 윈도우의 시작으로부터 윈도우의 끝까지의 범위이고 디지털 샘플 첨자이다.
도 3과 관련하여. 작동은 블락(302)에서 가속도계 데이터를 수신하는 것에 기초하여 시작한다. VAD와 관련된 상기 처리는 블락(304)에서 처리를 위해 필터된 데이터를 디지털 화 하고 그리고 얼라이어싱을 미리 배제하기 위해 상기 가속도계로부터 데이터를 필터링 하는 것을 포함한다. 상기 디지털화된 데이터는 길이에서 20 밀리세컨드(msec)로 단편화되고, 그리고 그 데이터는 블락(306)에서 시간에서 8msec 로 스텝화 된다. 상기 처리는 또한 블락(308)에서 잡음에 의해 붕괴되거나 또는 그렇지 않은 경우 원하지 않는 주파수 정보를 제거하기 위해 블락(308)에서 윈도우된 데이터를 필터링 하는 것을 포함한다. 각 윈도우에서 상기 에너지는 블락(310)에서 위에서 설명된 것과 같은 크기의 제곱을 합함으로써 계산된다. 상기 계산된 에너지 값들은 윈도우 길이에 의해 에너지 값을 나눔으로써 정규화 될 수 있다. 그러나 이것은 추가적 계산을 포함하거나 상기 윈도우 길이가 변화하지 않는 한 필요가 없다.
상기 계산되거나 또는 정규화 된 에너지 값들은 블락(312)에서 스레쉬홀드에 비교된다. 상기 가속도계 데이터에 대응하는 상기 스피치는 블락(314)에서 상기 가속도계 데이터의 에너지가 스레쉬홀드 값에서 또는 그 이상일 때 유성음으로서 할당된다. 이와 같이, 상기 가속도계 데이터에 대응하는 상기 스피치는 상기 가속도계 데이터의 에너지가 블락(316)에서 스레쉬홀드 값보다 아래일 때 무성음으로 할당된다. 또 다른 실시예에서 잡음 억제 시스템들은 발성 신호의 신뢰 또는 상대적 세기를 표시하기 위해 다중 스레쉬홀드 값들을 이용할 수 있다. 다중 서브밴드들은 또한 증가된 정확성을 위해 처리된다.
도 4는 대응하는 가속도계-기반 VAD 신호(404), 대응하는 가속도계 출력 신호(412), 그리고 실시예 하에서 VAD 신호(404)를 이용하는 패스파인더 시스템에 의한 처리 이후에 상기 잡음이 제거된 오디오 신호(422)를 따라 잡음의 오디오 신호(실시간 기록)(402)를 포함하는 평면도를 도시한다. 이 실시예에서, 상기 가속도계 데이터는 500Hz 이하에서 상기 가속도계에 결합할 수 있는 원하지 않는 음향 잡음을 제거하기 위해 500 그리고 2500Hz 간에서 필터되어 밴드 패스된다. 상기 오디오 신호(402)는 8 피트의 천장 높이를 지니고 그리고 측면 상의 6피트로 측정되는 챔버 내부의 혼선 잡음 환경 내에서 Aliph 마이크로폰 세트 그리고 표준 가속도계를 이용하여 기록된다. 상기 패스파인더 시스템은 대략 10msec의 지연과 함께 실-시간으로 구현된다. 가공되지 않은 오디오 신호(402) 및 잡음이 제거된 오디오 신호(422) 간의 차이는 상기 원하는 스피치 신호의 적은 왜곡을 지닌 25-30dB의 범위 내에서 대략 잡음 억제를 도시한다. 따라서 가속도계-기반 VAD 정보를 이용하는 잡음 제거가 효율적이다.
피부 표면 마이크로폰( SSM )VAD 장치/방법
도 1 그리고 도 1A와 다시 관련하여, 실시예의 VAD 시스템(102A)은 관련된 알고리즘(140)으로 데이터를 제공하는 SSM VAD 장치(130)를 포함한다. 상기 SSM 은 마이크로폰의 검출 성분과 결합으로부터 공수 음향 정보를 막기 위해 수정된 종래의 마이크로폰이다. 실리콘 겔의 레이어 또는 다른 커버는 마이크로폰의 저항을 변화시키고 그리고 상당한 정도로 공수 음향 정보가 검출되는 것을 방지한다. 따라서 이 마이크로폰은 공수의 음향 에너지로부터 보호되나 상기 매체와 물리적 접촉을 유지하는 동안을 제외하고 매체 내에서 음향파의 전송을 검출할 수 있다. 효율적으로 사람 피부 내에서 음향 에너지를 검출하기 위해, 상기 젤은 피부의 기계적 저항 특징으로 매치된다.
스피치 동안, 상기 SSM이 턱 또는 목에 배치될 때, 스피치 생성과 관련된 진동은 쉽게 검출된다. 그러나 상기 공수 음향 데이터는 SSM에 의해 상당히 검출되지 않는다. 상기 SSM에 의한 검출에서 조직-생성 음향 신호는 가속도계-기반 VAD 신호 및 도 3과 함께 사용되는 에너지/스레쉬홀드 방법에 관하여 위에서 설명된 것과 같이 관련 신호의 처리 및 잡음제거에서 VAD 신호를 생성하기 위해 사용된다.
도 5 는 대응하는 SSM-기반 VAD 신호(504), 대응하는 SSM 출력 신호(512), 그리고 실시예 하에서 VAD 신호(504)를 이용하는 패스파인더 시스템에 의한 처리 이후의 잡음이 제거된 오디오 신호(522)를 따라 잡음의 오디오 신호(실시간 기록)(502)를 포함한다. 상기 오디오 신호(502)는 9 피트의 천장을 지니고 측면 상에 6 피트로 측정되는 챔버 내부의 혼선 잡음 환경에서 Aliph 마이크로폰 세트 및 표준 가속도계를 이용하여 기록된다. 상기 패스파인더 시스템은 약 10msec의 지연과 함께 실시간으로 구현된다. 가공하지 않은 오디오 신호(502) 및 잡음이 제거된 오디오 신호(522) 내의 차이는 명백히 원하는 스피치 신호의 적은 왜곡을 지닌 20-25dB의 범위에서 대략 잡음 억제를 보여준다. 따라서 SSM-기반 VAD 정보를 이용하는 잡음제거는 효율적이다.
전자기( EM ) 진동계 VAD 장치/방법
도 1 및 도 1A로 돌아가서, 실시예의 VAD 시스템(102A)은 관련된 알고리즘(140)으로 데이터를 제공하는 EM 진동계 VAD 장치(130)를 포함한다. 상기 EM 진동계 장치들은 또한 조직 진동을 검출하나, 측정을 위해 목표된 조직의 직접적 접촉 없이 어느 정도의 거리에서 할 수 있다. 또한, 일부 EM 진동계 장치들은 사람 몸의 내부 조직의 진동을 검출할 수 있다. 상기 EM 진동계들은 음향 잡음에 영향을 받지 않고, 그들을 높은 잡음 환경에서 사용을 위한 좋은 선택으로 만든다. 실시예의 상기 패스파인더 시스템은 제한되는 것은 아니나 아래에 차례로 설명된 것의 각각의 RF 진동계 그리고 레이저 진동계를 포함하는 EM 진동계로부터 VAD 정보를 수신한다.
상기 RF 진동계는 전자기 스펙트럼의 마이크로웨이브 부분으로 라디오 내에서 작동하고 그리고 스피치 생산과 관련된 내부사람 조직의 상대적 움직임을 측정할 수 있다. 상기 내부사람 조직은 기관, 볼, 턱, 그리고/또는 코/비음 통로의 조직을 포함하나 이에 제한되는 것은 아니다. 상기 RF 진동계는 저-전력 무선 파형을 이용하는 움직임을 감지하고, 그리고 이러한 장치로부터 데이터는 조정된 목표와 매우 잘 대응하도록 보인다. RF 진동계 신호 내의 음향 잡음의 결여의 결과로서, 실시예의 VAD 시스템은 이러한 장치로부터 신호들이 도 3 및 가속도계-기반 VAD와 관계된 위에서 설명된 것과 같은 에너지/스레쉬홀드 방법을 이용하여 VAD를 구성한다.
RF 진동계의 실시예는 Aliph, San Francisco, California 로부터 이용 가능한 General Electromagnetic Motion Sensor(GEMS) 무선진동계이다. 다른 RF 진동계들이 "The Physiological Basis of Glottal Function for the Human Vocal Tract", Ph.D. Thesis, University of California Davis, January 1999 의 Gregory C. Burnett 에 의해 관련된 출원 내에 설명되었다.
레이저 진동계는 광의 가시 주파수와 가까운 곳에서 또는 그곳에서 작동하며, 위에서 설명한 SSM 그리고 가속도계와 유사하게 또한 단지 표면 진동 검출에 의해 제한된다. RF 진동계와 같이, 레이저 진동계 신호와 관련된 어떠한 음향 잡음도 없다. 게다가, 실시예의 VAD 시스템은 이러한 장치로부터 신호들이 도 3 그리고 가속도계-기반 VAD와 관련된 위에서 설명된 에너지/스레쉬홀드 방법을 이용하는 VAD를 구성하기 위해 이용한다.
도 6 은 대응하는 GEMS-기반 VAD 신호(604), 대응하는 GEMS 출력 신호(612), 그리고 실시예 하에서 VAD 신호(604)를 이용하는 패스파인더 시스템에 의해 처리된 이후 잡음이 제거된 오디오 신호(622)를 따라 잡음 오디오 신호(실시간 기록)(602)를 포함하는 평면도를 도시한다. 상기 GEMS-기반 VAD 신호(604)는 Aliph(San Francisco, California) 사의 기관-장착 GEMS 무선진동계로부터 수신된다. 상기 오디오 신호(602)는 8 피트의 천정 높이를 지니고 측면의 6피트를 측정하는 챔버 내부의 혼선 잡음 환경 내의 Aliph 마이크로폰 세트를 이용하여 기록된다. 상기 패스파인더 시스템은 약 10msec의 지연으로 실시간으로 구현된다. 가공되지 않은 오디오 신호(602) 그리고 잡음이 제거된 오디오 신호(622) 내의 상기 차이는 명백히 원하는 스피치 신호의 적은 왜곡을 지닌 20-25dB의 범위 내에서 대략 잡음 억제를 보여준다. 따라서 GEMS-기반 VAD 정보를 이용하는 잡음 제거가 효율적이다. VAD 신호 및 잡음 제거 모두가 효율적이라는 것은 명백하다. 무성음은 H1(z)의 수렴 그리고 상기 잡음이 제거된 스피치의 퀄리티에 상당히 영향을 미치지 않는다는 점에서 보통은 충분히 낮다.
직접적 성문 움직임 측정 VAD 장치/방법
도 1 그리고 도 1A와 관련하여, 실시예의 VAD 시스템(102A)은 관련된 알고리즘(140)에 데이터를 제공하는 직접적 성문 움직임 측정 VAD 장치(130)를 포함한다. 실시예의 상기 패스파인더 시스템의 직접적 성문 움직임 측정 VAD 장치는 음성적 주름 움직임 또는 움직임을 직접 측정하는 어떠한 장치와 마찬가지로, 전기성문그래프(EGG)를 포함한다. 상기 EGG는 갑상선 연골의 측면 상에 배치된 두 개 이상의 전극을 이용하는 성대 주름 접촉에 대응하는 신호로 되돌아간다. 대안적인 전류의 작은 양은 목 조직(성대 주름을 포함하는) 그리고 목의 다른 측면 상의 다른 전극에 대해 하나 이상의 전극들로부터 전송된다. 상기 주름들이 서로 접촉할 때, 전극의 한 세트로부터 또 다른 곳까지 흐르는 전류의 양이 증가된다. 그들이 접촉하고 있지 않은 경우, 흐르는 전류의 양은 감소된다. 상기 EM 진동계 그리고 SSM 모두와 마찬가지로, 상기 EGG의 신호와 관련된 어떠한 음향 잡음도 있지 않다. 또한, 실시예의 VAD 시스템은 도 3 및 가속도계-기반 VAD와 관련되어 위에서 설명된 에너지/스레쉬홀드 방법을 이용하는 VAD를 구성하기 위해 EGG로부터 신호들을 이용한다.
도 7 은 실시예 하에서, 대응하는 EGG-기반 VAD 신호(704) 그리고 대응하는 하이패스 필터된 EGG 출력 신호(712)를 따라 디지털적으로 부가된 잡음을 지닌 영어-구사 남자에 의해 발성된 기록된 음향 데이터(702)를 포함하는 평면도를 도시한다. 음향 데이터(702) 그리고 EGG 출력의 비교는 상기 성대 주름이 접촉되고 있지 않은 곳에서 상기 EGG가 무성음 또는 매우 부드러운 유성음을 검출할 수 없음에도 불구하고, EGG 가 유성음을 검출하는 곳에서 정확하게 되는 것을 보여준다. 실험에서, 하지만, 무성음 그리고 부드러운 유성음(모두 에너지는 매우 낮은)을 검출하는 무능력은 정상적 환경 조건 하에서 스피치의 잡음을 제거하기 위해 시스템의 능력에 상당히 영향을 미치지 않는다. EGG 에 관한 더 많은 정보는 " A Critical Review of Elctroglottography", CRC Crit Rev Biomedical Engineering 12, pp 131-161, 1985 의 D.G. Childers 와 A.K.Krishnamurthy 에 의해 제공된다.
비디오 검출 VAD 장치/방법
도 1 그리고 도 1 A와 관련된 실시예의 VAD 시스템(102A) 는 관련 알고리즘(140)으로 데이터를 제공하는 비디오 검출 VAD 장치(130)를 포함한다. 실시예의 비디오카메라 및 처리 시스템은 턱, 입술, 이빨 그리고 혀를 포함하는 성대 조음기관의 움직임을 검출한다. 비디오 및 컴퓨터 시스템들은 현재 3차원 하에서 컴퓨터 시각을 지원하는 개발 하에 있으며, 따라서 비디오-기반 VAD 가 가능하다. 그러한 시스템을 구성하기 위한 상기 툴에 관한 정보는http://www.intel.co./research/mrl/research/opencv/ 에서 이용가능하다.
실시예의 상기 패스파인더 시스템은 상기 조음 기관들의 움직임을 검출하기 위한 비디오 시스템의 성분을 이용할 수 있고 그리고 VAD 정보를 발생할 수 있다. 도 8 은 실시예 하에서, 비디오-기반 VAD 를 이용하는 유성음을 결정하기 위한 방법의 흐름 다이어그램(800)이다. 비디오 시스템의 성분은 블락(802)에서 사용자의 얼굴 그리고 음성 조음기관을 배치하고, 그리고 블락(804)에서 조음기관의 움직임을 계산한다. 비디오 시스템의 성분 그리고/또는 상기 패스파인더 시스템은 상기 계산된 조음기관의 움직임이 블락(806)에서 스레쉬홀드 속도 및 진동(단순 움직임으로부터 구별할 수 있고 앞뒤로 움직이는)보다 더 빠른지를 결정한다. 상기 움직임이 스레쉬홀드 속도보다 그리고/또는 진동보다 더 느린 경우, 작동은 위에서 설명한 것과 같이 블락(802)에서 계속된다.
상기 움직임이 블락(806)에서 결정되는 것과 같이 스레쉬홀드 속도 그리고 진동보다 더 빠를 때, 비디오 시스템의 성분 그리고/또는 패스파인더 시스템은 상기 움직임이 블락(808)에서 스레쉬홀드 값보다 더 큰지를 결정한다. 상기 움직임이 상기 스레쉬홀드 값보다 더 작은 경우, 작동은 위에서 설명한 것과 같이 블락(802)에서 계속된다. 상기 움직임이 상기 스레쉬홀드 값보다 더 큰 경우, 상기 비디오 VAD 시스템의 성분들은 발성이 발생되었음을 블락(801)에서 결정하고 그리고 블락 812에서 상기 패스파인더 시스템으로 관련 VAD 정보를 전송한다. 이 비디오-기반 VAD는 음향 잡음의 영향에 면역 적이고 그리고 특히 감시 작동에 유용하게 만든다.
음향 정보-기반 VAD 장치/방법
도 1 그리고 도 1B와 관련하여 위에서 설명한 것과 같이, 잡음 억제 시스템과 함께 VAD를 이용할 때, 상기 VAD 신호는 잡음 억제 시스템에 독립적으로 처리되고 그 결과 VAD 정보의 수령 및 처리는 잡음 억제와 관련된 처리로부터 독립적으로 처리된다. 상기 음향 정보-기반 VAD 장치는 상기 수신된 신호를 처리하기 위해 독립적인 기술들(소프트웨어, 알고리즘, 루틴)을 이용하는 동안, 상기 잡음 억제 시스템으로 신호를 수신하기 위해 동일한 하드웨어를 이용한다는 면에서 처리를 통해 이 독립성을 획득한다. 일부 경우에서, 그러나, 음향 마이크로폰들은 VAD 구성을 위해 사용되며 잡음 억제를 위해서는 아니다.
실시예의 상기 음향 정보-기반 VAD 장치/방법은 관련 스피치의 검출을 위해 하나 이상의 종래의 음향 마이크로폰에 의존한다. 그것과 같이, 그들은 환경 음향 잡음에 보다 민감하고 그리고 일반적으로 모든 잡음 환경에 신뢰할 수 있도록 작동하지 않는다. 그러나 상기 음향 정보-기반 VAD는 단순해지고, 더 싸지고 그리고 VAD 그리고 음향 데이터 마이크로폰들 모두에 동일한 마이크로폰을 이용할 수 있도록 하는 이점을 지닌다. 게다가, 일부 장치에서, 가격이 고-잡음 수행보다 더 중요한 곳에서, 이러한 VAD 해결책들이 바람직하다. 실시예의 상기 음향 정보-기반 VAD 장치/방법은 제한되는 것은 아니나, 단일 마이크로폰 VAD, 패스파인더 VAD, 스테레오 VAD(SVAD), 배열 VAD(AVAD) 그리고 아래에서 설명된 것과 같은 단일-마이크로폰 종래 VAD 장치/방법을 포함한다.
단일 마이크로폰 VAD 장치/방법
이는 아마도 사용자가 말하고 있는 것을 감지하는 가장 단순한 방법이다. 도 1 그리고 도 1B와 관련하여, 실시예의 VAD 시스템(102B)은 대응하는 신호 처리 시스템(100)의 단일 마이크로폰으로부터 데이터(164)를 수신하는 VAD 알고리즘(150)을 포함한다. 상기 마이크로폰(일반적으로 "close-talk"(또는 경사)마이크로폰)은 사용자의 입에 매우 가깝게 배치되고, 때때로 입술과 직접적으로 접촉된다. 경사 마이크로폰은 상대적으로 상기 마이크로폰으로부터 몇 센티미터 더 떨어진 곳에서 발생하는 소리에 상대적으로 무감각하며 그 결과 상기 경사 마이크로폰 신호들은 일반적으로 상대적으로 높은 SNR을 지닌다. 물론, 상기 단일 마이크로폰으로부터 실현된 수행은 사용자의 입 그리고 마이크로폰 간의 거리, 환경 잡음의 엄격성, 그리고 그의 또는 그녀의 입술에 얼마나 사용자의 자진성이 가까운지에 따라 단일 마이크로폰으로부터 실현된다. 기록된 데이터의 스펙트럼의 부분 이상 또는 가깝게-배치된 단일 마이크로폰으로부터 신호는 주로 상대적으로 높은 SNR을 지니고, 실시예의 패스파인더 시스템은 도 3 및 가속도계-기반과 관련되어 위에서 설명된 에너지/스레쉬홀드 방법을 이용하여 VAD를 구성하도록 신호를 이용할 수 있다.
도 9 는 대응하는 단일(경사)마이크로폰-기반 VAD 신호(904), 대응하는 경사 마이크로폰 출력 신호(912), 그리고 실시예 하에서 VAD 신호(904)를 이용하는 패스파인더 시스템에 의해 처리된 이후의 잡음이 제거된 오디오 신호(922)를 따라 잡음의 오디오 신호(실시간 기록)(902)를 포함하는 평면도를 도시한다. 상기 오디오 신호(902)는 8피트의 천장 높이를 지니고 그리고 측면 상에 6피트로 측정되는 챔버 내부의 혼선 잡음 환경 내에서 Aliph 마이크로폰 세트를 이용하여 기록된다. 상기 패스파인더 시스템은 약 10msec의 지연과 함께 실시간으로 구현된다. 가공하지 않은 오디오 신호(902) 및 잡음이 제거된 오디오 신호(922) 간의 차이는 원하는 스피치 신호의 적은 왜곡을 지닌 25-30dB의 범위에서 잡음 억제를 보여준다. 이러한 결과들이 단일 마이크로폰-기반 VAD 정보가 효율적일 수 있음을 보여준다.
패스파인더 VAD ( PVAD ) 장치/방법
도 1 그리고 도 1B로 다시 돌아가서, 실시예의 PVAD 시스템(102B)은 대응하는 신호 처리 시스템(100)의 마이크로폰 배열로부터 데이터(164)를 수신하는 PVAD 알고리즘(150)을 포함한다. 상기 마이크로폰 배열은 제한되는 것은 아니나 두 개의 마이크로폰들을 포함한다. 실시예의 PVAD는 시간 영역에서 작동하고 그리고 서로 몇 센티미터 이내의 마이크로폰 배열의 두 개의 마이크로폰에 배치된다. 마이크로폰들 중의 하나 이상은 방향성 마이크로폰이다.
도 10은 실시예 하에서, 관련 공간 응답 커브(1010)를 따라 마이크로폰 배열의 단일 심장 단일방향 마이크로폰(1002)을 도시한다. 상기 단일방향 마이크로폰(1002)은 또한 여기서 스피치 마이크로폰(1002)으로서 또는 MIC 1로서 간주되고 발생되며 그 결과 사용자의 입은 상기 스피치 마이크로폰(1002)의 공간 응답(1010) 내의 최대(1014)에 가까이 있거나 또는 그 곳에 있다. 이 시스템은, 그러나, 심장 방향 마이크로폰에 제한되지 않는다.
*도 11 은 실시예 하에서, PVAD 시스템의 마이크로폰 배열(1100)을 도시한다. 상기 마이크로폰 배열(1100)은 두 개의 심장 단방향 마이크로폰 MIC1(1002) 그리고 MIC2(1102)를 포함하고, 각각은 공간 응답 커브(1010 그리고 1110)를 지닌다. 마이크로폰 배열(1100) 내에서 사용될 때, 스피치 마이크로폰 MIC 1과 같이 사용되는 마이크로폰의 타입 상의 제한은 없다. 그런, 최적의 수행은 상기 스피치 마이크로폰 MIC 1이 단방향 마이크로폰일 때 수행되고 그 결과 사용자의 입은 공간 응답 커브(1010) 내의 최대에 가깝거나 그 곳이다. 이는 마이크로폰 신호들 내의 차이가 스피치가 발생할 때 크다는 것을 확실히 한다.
MIC1 그리고 MIC 2를 포함하는 마이크로폰 구조의 한 실시예는 사용자 귀 가까이 마이크로폰에 배치된다. 상기 구현은 사용자의 입 쪽을 향한 스피치 마이크로폰 MIC1을 향하고 그리고 사용자의 머리로부터 떨어진 잡음 마이크로폰 MIC2를 향하며, 그 결과 각 마이크로폰의 공간 응답 커브의 최대는 서로 약 90도 바뀐다. 이는 상기 잡음 마이크로폰 MIC2 가 동시에 사용자로부터 너무 많은 스피치를 캡처하지 않는 동안 머리의 앞부분으로부터 충분히 캡처하는 것을 허용한다.
마이크로폰 구현의 두 개의 대안적 실시예들이 마이크로폰 (1102, 1002)을 향하고 그 결과 각 마이크로폰의 공간 응답의 최대값은 각각 서로 75 도 그리고 135 도 떨어진다. PVAD의 이러한 구현들은 H1(z) 계산을 단순화 가능하도록 서로 가깝게 마이크로폰들을 배치하고 그리고 그러한 방법으로 마이크로폰을 향하며, 상기 스피치 마이크로폰 MIC 1 은 대부분의 스피치를 검출하고 그리고 상기 잡음 마이크로폰 MIC 2 는 대부분의 잡음(예를 들어, H2(z)는 상대적으로 작다)을 검출한다. 각 마이크로폰의 공간 응답 커브의 최대값 간의 변위는 약 180도에 다 할 수 있으나 약 45도보다 작아서는 안 된다.
상기 PVAD 시스템은 VAD를 계산함에 있어 돕기 위해 스피치 마이크로폰 그리고 잡음 마이크로폰(여기서 H1로 알려진 패스파인더)간의 차등 패스를 계산하는 방법을 이용한다. 잡음 억제를 위해 이 정보를 이용하는 대신, 상기 VAD 시스템은 언제 잡음을 제거해야 하는지를 결정하기 위해 H1의 이득을 이용한다. 잡음 마이크로폰으로 스피치 마이크로폰 내의 신호의 에너지 비율을 관찰함에 있어, PVAD H1 이득(여기서 이득으로 간주되는)은 다음과 같이 계산된다.
Figure pat00002
그 곳에서 Xi 는 I 번째의 스피치 마이크로폰의 디지털화된 신호의 샘플이고, 그리고 Yi 는 잡음 마이크로폰의 I번째 디지털화 된 신호의 샘플이다. 이 VAD 출원에 적합하게 H1을 계산하기 위한 어떠한 요구도 없다. 이 실시예가 디지털 도메인임에도 불구하고, 상기 결과들은 마찬가지로 아날로그 영역에서 유효하다. 상기 이득은 마찬가지로 시간 또는 주파수 영역에서 계산될 수 있다. 주파수 영역에서, 상기 이득 변수는 H1 계수의 제곱의 합이다. 위에서와 같이, 상기 윈도우의 길이는 에너지 계산에 포함되지 않는다. 왜냐하면, 에너지들의 비율을 계산할 때, 관련 윈도우의 길이가 삭제되기 때문이다. 마지막으로, 이 실시예는 단일 주파수 서브밴드를 위한 것이며, 다수의 원하는 서브밴드들에 유효하다.
도 11과 다시 관련하여, 마이크로폰 배열(1100)을 위한 공간 응답 커브(1010 그리고 1110)는 제 1 반구(1120)에서 1보다 더 큰 이득을 보이고 그리고 제 2 반구(1130)에서 1보다 작은 이득을 보이며, 이에 제한되는 것은 아니다. 이는, 사용자의 입으로 스피치 마이크로폰 MIC 1의 상대적 인접성을 따라, 잡음으로부터 스피치를 구별하는 것을 도와준다.
상기 PVAD 실시예의 마이크로폰 배열(1100)은 부가적 이점을 제공하고 이점에서 동일한 두 개의 마이크로폰이 잡음을 제거하기 위해 그리고 VAD를 위해 사용되는 것을 허용하는 동안 상기 패스파인더 시스템의 최적 수행에 전도적이다. 그것에 의해 시스템 가격을 줄인다. VAD의 최적 수행은, 하지만, 상기 두 개의 마이크로폰들이 그 구현을 위한 이득에서 매우 큰 변화의 이점을 취하기 위해 반대 방향을 취한다.
또 다른 실시예의 상기 PVAD는 제한되는 것은 아니나 제 3 단방향 마이크로폰 MIC3( 보이지 않음) 을 포함한다. MIC2가 단지 잡음 억제만을 위해 사용되고 그리고 MIC 1이 VAD 그리고 잡음 억제 모두를 위해 사용되는 동안, 상기 제 3 마이크로폰 MIC3 은 MIC1에 반대방향이고 그리고 단지 VAD만을 위해 사용된다. 이는 부가적 마이크로폰 그리고 50% 더 많은 음향 데이터의 처리를 희생하고 더 나은 전체적 시스템 수행을 초래한다.
실시예의 상기 패스파인더 시스템은 도 3 및 가속도계-기반 VAD와 관련하여 위에서 설명된 에너지/스레쉬홀드 방법을 이용하여 VAD를 구성하기 위해 PVAD로부터 신호들을 이용한다. 마이크로폰 데이터 내의 잡음의 상당한 양이 될 수 있기 때문에, 항상 가속도계-기반 VAD 실시예의 에너지/스레쉬홀드 VAD 검출 알고리즘을 이용하는 것이 가능하지 않다. 대안적 VAD 실시예는 아래에서와 같이 발성이 발생하는 경우를 결정하기 위해 상기 이득(잡음만의 시간에서)의 지난 값을 사용한다.
도 12는 PVAD의 또 다른 실시예 하에서, 이득 값을 이용하는 무성음 및 유성음을 결정하기 위한 방법의 흐름 다이어그램(1200)이다. 블락(1202)에서 시스템 마이크로폰을 통해 신호를 수신하는 것과 함께 시작한다. PVAD 시스템의 성분은 얼라이어싱을 미리 제거하기 위해 데이터를 필터하고, 블락(1204)에서 상기 필터하다 데이터를 디지털화 한다. 상기 마이크로폰으로부터 디지털화된 데이터는 길이에서 윈도우 20msec로 분할되고, 그리고 상기 데이터는 블락(1206)에서 시간에서 8msec로 스텝화 된다. 또한, 윈도우된 데이터는 원하지 않는 주파수 정보를 제거하기 위해 필터된다. 잡음만의 윈도우(벡터 OLD_STD)로부터 약 50 이득 계산의 표준 편차(SD)가 블락(1208)에서 OLD_STD의 평균(AVE)을 따라 계산되나 그것에 제한되는 것은 아니다. AVE 그리고 SD를 위한 값들은 미리 지정된 최소값에 대해 비교되고 그리고 최소값보다 더 작은 경우, 블락(1210)에서 각각 상기 최소값까지 증가된다.
상기 PVAD 시스템의 성분은 다음으로 블락(1212)에서 다수의 상기 SD를 지닌 AVE를 합함으로써 발성 스레쉬홀드를 다음으로 계산한다. 더 낮은 스레쉬홀드는 위쪽의 스레쉬홀드가 SD를 4배 한 것에 AVE를 합한 것으로부터 초래되는 동안 SD를 1.5배 한 것에 AVE를 합한 것으로부터 초래된다. 각 윈도우에서 상기 에너지는 블락(1214)에서 크기의 제곱을 합함으로써 계산된다. 또한, 블락(1214)에서, 상기 이득은 MIC2에서 에너지로 MIC에서 에너지의 비율을 취함으로써 계산된다. 작은 컷오프 값이 안정성을 확실히 하기 위해 상기 MIC2에 부가되나 여기에 제한되는 것은 아니다.
상기 계산된 이득은 블락(1216)에서 3개의 가능한 결과와 함께 스레쉬홀드와 비교된다. 상기 이득이 더 낮은 스레쉬홀드보다 더 작은 때, 결정은 상기 윈도우가 유성음을 포함하지 않는다고 하고, 그리고 상기 OLD_STD 벡터가 새로운 이득 값과 함께 업데이트 되었다고 한다. 상기 이득이 더 낮은 스레쉬홀드보다 더 클 때 그리고 더 높은 스레쉬보다 작을 때, 결정은 상기 윈도우가 유성음을 포함하지 않으나 상기 스피치는 유성음으로 유성음으로서 취급되고 그리고 상기 OLD_STD 벡터는 새로운 이득 값으로 업데이트 되지 않는다. 상기 이득이 더 낮은 그리고 더 높은 스레쉬홀드 모두보다 더 클 때, 결정은 상기 윈도우가 유성음을 포함하고, 그리고 상기 OLD_STD 벡터는 새로운 이득 값으로 업데이트 되지 않는다고 결정된다.
이 방법의 구현과 관계없이, 상기 아이디어는 스피치가 잡음 배경으로부터 그것을 구별하기 위해 발생하고 있을 때, H1(z)= M1(z)/M2(z)의 더 큰 이득을 이용한다. 스피치 동안 계산된 상기 이득은 더 커야만 한다. 왜냐하면, 마이크로폰 구조 때문에, 상기 스피치는 스피치 마이크로폰(MIC1) 내에서 잡음 마이크로폰(MIC2) 인 것보다 훨씬 더 크다. 역으로, 상기 잡음은 주로 기형학적으로 발산하고 그리고 종종 MIC1보다 MIC2 내에서 더 크다. 이는 전 방향 마이크로폰이 스피치 마이크로폰으로서 사용되는 경우에는 항상 옳은 것은 아니며, 그것은 시스템이 작동할 수 있는 곳에서 잡음의 레벨을 제한한다. 주의할 것은 잡음 제거의 음향-만의 방법은 환경 잡음에 보다 민감하다. 그러나 위에서 설명된 단방향-단방향 마이크로폰 구조는 0dB 보다 약간 더 작은 MIC 1 내의 SNR과 함께 만족스런 결과를 제공한다. 따라서 이 PVAD-기반 잡음 억제 시스템은 사용자가 부딪힐 것 같은 모든 잡음 환경에서 효율적으로 작동할 수 있다. 또한, 필요한 경우, MIC 1의 SNR에서 증가는 사용자의 입에 더 가까운 마이크로폰을 움직임으로써 실현될 수 있다.
도 13은 대응하는 마이크로폰-기반 PVAD 신호(1304), 대응하는 PVAD 이득 신호(1312), 그리고 실시예 하에서 PVAD 신호(1304)를 이용하는 패스파인더 시스템에 의해 처리된 이후의 잡음이 제거된 오디오 신호(1322)를 따란 잡음 오디오 신호(실시간 기록)를 포함하는 평면도이다. 상기 오디오 신호(1302)는 8피트 천장 높이를 지니고 측면 상에 6 피트를 측정하는 챔버 이내의 혼선 잡음 환경에서 Aliph 마이크로폰 세트를 이용하여 기록된다. 상기 패스파인더 시스템은 10msec의 지연과 함께 실시간으로 구현된다. 가공되지 않은 오디오 신호(1302) 그리고 잡음이 제거된 오디오 신호(1322)에서 차이는 원하는 스피치 신호의 적은 왜곡을 지닌 20-25dB의 범위 내에서 잡음 억제를 보여준다. 따라서 마이크로폰-기반 PVAD 정보를 이용한 잡음 제거는 효율적이다.
스테레오 VAD ( SVAD ) 장치/방법
도 1 그리고 도 1B와 관련하여, 실시예의 SVAD 시스템(102B)은 대응하는 신호 처리 시스템(100)의 주파수-기반 두 개의-마이크로폰 배열로부터 데이터(164)를 수신하는 SVAD 알고리즘(150)을 포함한다. 상기 SVAD 알고리즘은 이론상 수신된 스피치의 주파수 스펙트럼이 그것이 잡음으로부터 분간될 수 있도록 작동한다. 그것과 같이, SVAD 장치/방법과 관련된 상기 처리는 마이크로폰들 간의 평균 FFT들의 비교를 포함한다. 상기 SVAD는 도 11과 관련하여 위에서 설명된 PVAD와 유사한 방향에서 두 개의 마이크로폰을 이용하고 또한 현재 윈도우가 스피치를 포함하는지를 결정하기 위해 이전의 윈도우로부터 잡음 데이터에 의존한다. PVAD 장치/방법과 관련하여 위에서 설명한 것과 같이, 상기 스피치 마이크로폰은 여기서 MIC1로 간주되고 그리고 잡음 마이크로폰은 MIC2로 간주된다.
도 1 과 관련하여, 상기 패스파인더 잡음 억제 시스템은 두 개의 마이크로폰을 스피치(MIC1) 그리고 잡음(MIC2)을 특징화하기 위해 이용한다. 자연히, 마이크로폰 둘 내의 스피치 및 잡음의 혼합이 있으나, MIC 1의 SNR은 MIC 2의 그것보다 더 크다고 가정한다. 이는 일반적으로 MIC 1이 MIC 2에 비해 스피치원(사용자)에 대해 더 가까이 또는 더 낫게 향하는 것을 의미하고 그리고 어떠한 잡음 소스도 스피치 소스보다 MIC1 그리고 MIC2로부터 더 멀리 떨어져 있음을 의미한다. 그러나 상기 동일한 효과는 전 방향 그리고 단방향 또는 유사한 마이크로폰의 조합을 이용함으로써 수행될 수 있다.
두 개의 마이크로폰들 간의 SNR에 있어 상기 차이는 시간 영역 또는 주파수 영역에서 개발될 수 있다. 상기 스피치로부터 잡음을 분리하기 위해, 시간에 대해 잡음의 평균 스펙트럼을 계산하는 것이 필요하다. 이는 다음과 같은 지수 평균 방법을 이용하여 획득된다.
L(i, k) = αL(i-1,k)+(1-α)S(i, k)
그곳에서 α는 평균(0.999의 매우 부드러운 평균 을 초래하며, 0.9는 매우 부드럽지 않다)을 제어한다. 상기 변수 L(i, k) 및 S(i, k)는 각각 평균 그리고 순간적 변수이다. I 는 분리된 시간 샘플을 표현하고, k 는 주파수 저장통(bin)을 표현하며, 다수의 그것은 FFT의 길이에 의해 결정된다. 종래의 평균 또는 이동 평균은 또한 이러한 값들을 결정하기 위해 사용될 수 있다.
도 14 는 일실시예 하에서 스테레오 VAD를 이용하는 유성음 및 무성음을 결정하기 위한 방법의 흐름 다이어그램(1400)이다. 이 실시예에서, 데이터는 도 1과 관련하여 설명한 것과 같이 두 개의 마이크로폰들을 이용하여 8kHz(얼라이어싱을 미리 제거하기 위해 적절한 예방책을 취함)에서 기록된다. 사용되는 상기 윈도우들은 8 밀리세컨드 스텝을 지닌 20밀리세컨드 길이로서 사용된다.
작동은 블락 1402에서 두 개의 마이크로폰들에서 신호를 수신하는 것으로 시작한다. 마이크로폰 신호로부터 데이터는 얼라이어싱을 미리 제거하기 위해 적절히 필터되고 그리고 프로세싱을 위해 디지털화 된다. 또한, MIC 1 그리고 MIC 2로부터 이전의 160 샘플들은 블락(1404)에서 해밍 윈도우를 이용하여 윈도우된다. 상기 SVAD 시스템의 성분들은 블락 1406 그리고 1408에서 FFT 1 및 FFT 2를 얻기 위해 윈도우된 데이터의 FFT의 크기를 계산한다.
0.85의 α값을 따라 위에서 설명된 지수 평균 방법을 이용하면, FFT 1 그리고 FFT 2는 블락(1410)에서 MF1 그리고 MF2를 생성하기 위해 지수적으로 평균된다. MF1 그리고 MF2를 이용하여, 블락 1412에서, 상기 시스템은 컷오프와 함께 MF1 그리고 MF2의 비율의 평균으로서 VAD_det를 계산한다.
Figure pat00003
그 곳에서 I 는 관련 윈도우이고, k 는 주파수 빈(bin) 그리고 상기 컷오프는 상기 MIC2 주파수 빈 크기가 매우 작을 때 합리적으로 크기의 비율을 유지한다. 상기 FFT들은 128의 길이이기 때문에, 비율의 평균값을 얻기 위해 128에 의해 결과를 나눈다.
패스파인더 시스템의 성분은 블락(1414)에서 발성 스레쉬홀드 V_thresh와 행렬식 VAD_det를 비교한다. 또한, 상기 비교에 따라, VAD_det의 값이 V_thresh 이하인 경우, 시스템 세트 VAD_상태의 성분을 0으로 하고, VAD_det의 값이 V_thresh 이상인 경우 VAD_state를 1로 세트한다.
결정은 블락 1416에서 VAD_state 이 일인지에 대하여 이루어진다. 상기 VAD_state 이 1인 때에, 패스파인더 시스템의 성분은 블락(1417)에서 VAD_det의 가장 큰 값을 기록하는 연속적인 발성 섹션의 카운터를 따라 변수를 업데이트하고 그리고 작동은 아래에 설명된 것과 같이 블락(1420)에서 계속한다. 무성음 윈도우가 유성음 이후에 나타나는 경우, 이전의 연속적 유성음 섹션(하나 이상의 윈도우들을 포함할 수 있는)내의 가장 큰 VAD_det의 기록은 상기 발성 지표가 에러이었는지를 알기 위해 결정된다. 섹션 내의 가장 큰 VAD_det가 세트 스레쉬홀드(예를 들어, 낮고 높은 행렬식 레벨 간의 차이의 40%에 낮은 행렬식 레벨을 더한) 이하인 경우, 상기 발성 상태는 그 윈도우를 위해 음수 1(-1)의 값으로 세트된다. 이는 이전의 유성음 섹션이 사실상 무성음 같지 않았다는 잡음 제거 알고리즘을 경계하기 위해 사용될 수 있고, 그 결과 상기 패스파인더 시스템은 그의 계수 계산을 수정할 수 있다.
상기 SVAD 시스템이 블락(1416)에서 VAD_state 이 영과 같은지를 결정할 때, SVAD 시스템 리셋 변수들의 성분은 블락(1418)에서 가장 큰 VAD_det를 포함한다. 또한, 이전의 윈도우가 유성인 경우, 체크는 이전의 유성 섹션이 잘못된 포지티브였는지를 결정하기 위해 수행된다. 상기 패스파인더 시스템의 성분은 그 후 높거나 낮은 행렬식 레벨을 업데이트 하고, 그것은 블락(1420)에서 발성 스레쉬홀드 V_thresh를 계산하기 위해 사용된다. 작동은 그 후 블락(1402)로 되돌아간다.
이 실시예에서 낮거나 높은 행렬식 레벨은 현재 VAD_det가 다음과 같이 낮거나 높은 행렬식 레벨 위 또는 아래인지에 따라 결정되는 α값과 함께 모두 지수 평균을 이용하여 계산된다. 낮은 행렬식 레벨을 위해, VAD_det의 값이 현재 낮은 행렬식 레벨보다 더 큰 경우, α의 값은 0.999와 같도록 세트되고, 그렇지 않은 경우 0.9가 사용된다. 높은 행렬식 레벨을 위해, 현재 VAD_det 의 값이 현재 높은 행렬식 레벨보다 작을 때 α는 0.999와 같게 세트되는 경우 그리고 현재 VAD_det 가 현재 높은 행렬식 레벨보다 더 큰 때 α가 0.9와 같게 세트되는 경우를 제외하고, 유사한 방법이 사용된다. 종래의 평균 또는 이동 평균은 다양한 대안적 실시예에서 이러한 레벨들을 결정하기 위해 사용될 수 있다.
실시예의 스레쉬홀드 값은 일반적으로 또한 구체화된 절대 최소 스레쉬홀드와 함께 낮거나 높은 행렬식 레벨간의 차이의 15에 낮은 행렬식 레벨을 더한 것으로 세트되나, 이 실시예에 제한되는 것은 아니다. 상기 절대 최소 스레쉬홀드는 세트되어야만 하고 그 결과 조용한 환경에서, 상기 VAD는 임의적으로 유발되지 않는다.
SVAD 를 이용하는 유성음 및 무성음을 결정하기 위한 방법의 또 다른 실시예들은 윈도우 크기, FFT 크기, 컷오프 값 그리고 α값들을 포함하는 다른 변수들을 마이크로폰들 간의 평균 FFT의 비교를 수행함에 있어 이용할 수 있다. 상기 SVAD 장치/방법들은 마이크로폰들의 SNR에 있어 차이가 충분한 경우 어떠한 잡음의 종류와도 함께 작동한다. 절대값 SNR 은 두 개의 마이크로폰들의 상대적 SNR과 같은 요소의 대부분이 아니다. 따라서 더 나은 VAD 수행을 일반적으로 초래하는 큰 상대적 SNR 차이를 지니도록 마이크로폰을 구성한다.
상기 SVAD 장치/방법들은 다수의 다른 마이크로폰 구조, 잡음 타입 그리고 잡음 레벨과 함께 성공적으로 사용되어 왔다. 예로서, 도 15는 대응하는 SVAD 신호(1504), 그리고 실시예 하에서 SVAD 신호(1504) 를 이용하는 패스파인더 시스템에 의해 처리된 이후의 잡음이 제거된 오디오 신호(1522)를 따라 잡음의 오디오 신호(실시간기록)(1502)를 포함하는 평면도를 도시한다. 상기 오디오 신호(1502)는 8 피트의 천장 높이를 지니고 측면 상에 6 피트를 측정하는 챔버 내부의 혼선 잡음 환경 내에 Aliph 마이크로폰 세트를 이용하여 기록된다. 상기 패스파인더 시스템은 약 10msec 의 지연과 함께 실시간으로 구현된다. 가공하지 않은 오디오 신호(1502) 그리고 잡음이 제거된 오디오 신호(1522) 내의 차이는 SVAD 신호(1504)를 이용할 때 원하는 스피치 신호의 적은 왜곡을 지닌 25-30 dB 범위 내에서 잡음 억제를 도시한다.
배열 VAD ( AVAD ) 장치/방법
도 1 그리고 도 1B와 관련하여, 실시예의 AVAD 시스템(102B)은 대응하는 신호 처리 시스템(100)의 마이크로폰 배열로부터 데이터(164)를 수신하는 AVAD 알고리즘(150)을 포함한다. AVAD-기반 시스템의 마이크로폰 배열은 제한되는 것은 아니나 환경 잡음으로부터 사용자의 스피치를 구별하기 위해 작동하는 두 개 이상의 마이크로폰들의 배열을 포함한다. 한 실시예에서, 두 개의 마이크로폰들이 미리 지정된 거리만큼 떨어져 배치되고, 그것으로 마이크로폰에 연결하는 라인의 축, 또는 그 라인의 중간지점 상과 같은 특정 방향 내에 배치된 음향 소스들의 강조를 지원한다. 또 다른 실시예는 패스파인더 시스템과 같은 관련된 적합 잡음 시스템과 관련되어 사용을 위한 VAD 신호를 구성하고 관점의 배열 필드 내의 원하는 신호를 배치하기 위해 빔형성(beanforming) 또는 소스 트래킹(source tracking)을 이용한다. 부가적인 대안 책들은 그와 같은 정보에 적용할 때, 예를 들어, M.Brandstein 과 D.Ward,2001, ISBN 3-540-41953-5 에 의한 "Microphone Arrays"에서 발견되는 것과 같이 당업자에게 명백하다.
실시예의 상기 AVAD 는 파라소닉 단방향 마이크로폰들을 이용하여 구성된 두 개의-마이크로폰 배열을 포함한다. 상기 마이크로폰들의 단방향성은 음향 원들의 검출이 배열의 앞 또는 앞에 배치된 그러한 음향 원들로 향하도록 돕는다. 그러나 단방향 마이크로폰들의 이용이 요구되지 않는다. 특히, 상기 배열이 장착되는 경우 소리는 벽과 같은 한 측면으로부터만 접근할 수 있다. 약 30.5cm 의 선형 거리는 두 개의 마이크로폰들을 분리하고, 저-잡음 확장기는 국가의 기구' Labview 5.0을 이용하여 개인용 컴퓨터 상에 기록하기 위해 마이크로폰들로부터 데이터를 확장하나, 그것에 제한되는 것은 아니다. 이 배열을 이용하면, 12 비트 그리고 32 kHz에서 마이크로폰 데이터를 기록하며, 디지털 적으로 필터하고 그리고 데이터를 16kHz까지 데시메이트 한다(decimate). 또 다른 실시예들은 음향 데이터의 충실이 관련성이 없기 때문에, 더 낮은 해상도(8-비트) 그리고 충분한 이전 필터링을 따라 샘플링 비율(몇 kHz까지 내려간)을 상당히 이용할 수 있다.
관련 신호원(사람 스피커)은 마이크로폰 배열의 미디라인 상의 마이크로폰 배열로부터 약 30cm 떨어진 거리에 배치된다. 관련 신호원을 위한 MIC 1 그리고 MIC 2 사이에서 제로(zero) 지연을 그리고 모든 다른 소스들을 위해 넌-제로 지연을 제공한다. 대안적 실시예들은 다수의 대안적 구현들을 이용할 수 있으며, 각 지연이 관련 소스가 위치될 수 있는 곳에서 액티브 지역을 정의하는 것과 같이 다른 지연 값을 제공한다.
이 경험을 위해, 두 개의 확성기들은 잡음 신호를 제공하고, 하나는 마이크로폰 배열의 오른쪽으로 약 50cm의 거리에 배치되고 그리고 제 2 확성기는 사람 스피커의 뒤 그리고 오른쪽으로 약 150cm의 거리에서 배치된다. 2-5dB의 범위 내의 약 SNR을 지닌 거리 잡음 및 트럭 잡음은 이러한 확성기를 통해 플레이된다. 게다가, 일부 기록들은 조정 목적을 위해 어떠한 부가적 잡음 없이 만들어진다.
도 16은 실시예 하에서 AVAD를 이용하는 유성 및 무성음을 결정하기 위한 방법의 플로우 다이어그램(1600)이다. 작동은 블락(1602)에서 두 개의 마이크로폰에서 신호를 수신하는 것에 기초하여 시작한다. VAD와 관련된 상기 프로세싱은 얼라이어싱을 미리제외하기 위해 마이크로폰으로부터 상기 데이터를 필터링 하고 그리고 블락(1604)에서 프로세싱을 위해 상기 필터된 데이터를 디지털화 하는 것을 포함한다. 이 디지털화 된 데이터는 길이 윈도우 20 밀리세컨드로 분할되고 그리고 데이터는 블락(1606)에서 동시에 8msec로 스텝화 된다. 상기 프로세싱은 또한 잡음에 의해 붕괴된 그렇지 않으면 원하지 않는 주파수 정보를 제거하기 위해 블락(1608)에서 윈도우된 데이터를 필터링 하는 것을 포함한다.
*MIC 1로부터 윈도우된 데이터는 블락(1610)에서 MIC2로부터 윈도우된 데이터에 부과되고, 그 결과는 다음과 같이 제곱된다.
M12 =(M1 + M2)2
마이크로폰 데이터의 합은 결과 데이터의 제로-지연 성분을 강조한다. 이는 구조적으로 동일 위상에 있는 MIC 1 그리고 MIC 2의 부분에 부과되고 그리고 파괴적으로 위상이 다른 부분에 부가된다. 관련 신호원이 모든 주파수에서 동상이기 때문에, 그것은 구조적으로, 상기 잡음원이(그것의 위상 관계가 주파수에 따라 변하는) 일반적으로 파괴적으로 부가되는 동안 더해진다. 그 후, 상기 결과적 신호는 제곱되고, 제로-지연 성분을 크게 증가시킨다. 상기 결과적인 신호는 제로-지연 성분들이 실질적으로 증가되어온 것과 같이, 발성(도 3 및 가속도계-기반과 관련하여 위에서 설명된 것과 같은)을 검출하기 위한 단순한 에너지/스레쉬홀드 알고리즘을 이용한다.
계속해서, 결과적인 벡터 내의 상기 에너지는 블락(1612)에서 위에서 설명된 것과 같은 크기의 제곱을 합함으로써 계산된다. 마지막 50 잡음만의 윈도우(벡터 OLD_STD)의 표준편차(SD)가 블락(1614)에서 OLD_STD의 평균(AVE)을 따라 계산된다. AVE 및 SD를 위한 값들이 미리 지정된 최소값과 비교되고, 최소값보다 더 적은 경우, 각각 블락(1616)에서 최소값까지 증가된다.
패스파인더 시스템의 성분은 다음으로 블락(1618)에서 다수의 SD를 따라 AVE를 합함으로써 발성 스레쉬홀드들을 계산하다. 더 낮은 스레쉬홀드는 위쪽 스레쉬홀드가 AVE에 SD를 4배 한 것을 더한 것으로부터 초래되는 동안 SD의 1.5배에 AVE를 더한 것으로부터 초래된다. 상기 에너지는 다음으로 블락(1620)에서 가능한 결과와 함께 스레쉬홀드와 비교된다. 상기 에너지가 더 낮은 스레쉬홀드보다 적을 때, 상기 윈도우가 유성음을 포함하지 않는다고 그리고 상기 OLD_STD 벡터가 새로운 이득 값과 함께 업데이트 된다고 결정된다. 상기 에너지가 낮은 쪽 스레쉬홀드보다 더 크고 높은 쪽 스레쉬홀드보다 작을 때, 상기 윈도우는 유성음을 포함하지 않는다고 결정되나, 스피치는 유성음 스피치로 생각되고, OLD_STD 벡터는 새로운 이득 값과 함께 업데이트 되지 않는다고 결정된다. 에너지가 낮은 쪽 그리고 위쪽 스레쉬홀드 모두보다 더 큰 때에는, 상기 윈도우가 유성음을 포함하고, OLD_STD 벡터가 새로운 이득 값과 함께 업데이트 되지 않는다고 결정된다.
도 17은 실시예 하에서, 각각 대응하는 VAD 신호(1712 및 1722)를 따라 AVAD 시스템의 각 마이크로폰으로부터 오디오 신호(1710 및 1720)를 포함하는 평면도를 도시한다. 또한 보이는 것은 오디오 신호(1710, 1720)를 합한 것으로부터 발생되는 결과적 신호(1730)이다. 스피커는 마이크로폰 배열의 중앙으로부터 약 30cm 떨어진 곳에 배치되고, 사용되는 잡음은 트럭 잡음이며, 그리고 SNR은 양 마이크로폰에서 0dB 보다 더 작다. 상기 VAD 신호들(1712, 1722)은 패스파인더 시스템으로 입력으로서 또는 다른 잡음 억제 시스템에 제공될 수 있다.
종래의 단일-마이크로폰 VAD 장치/방법
잡음 억제 시스템의 실시예는 VAD 정보를 발생하기 위한 두 개의 마이크로폰 시스템의 한 마이크로폰의 신호를 이용하나, 그것에 제한되는 것은 아니다. 도 18은 실시예 하에서, 패스파인더 잡음 억제 시스템(101) 그리고 단일-마이크로폰 VAD 시스템(102B)을 포함하는 신호 처리 시스템(1800)의 블락 다이어그램이다. 상기 시스템(1800)은 주된 마이크로폰 MIC 1, 또는 스피치 마이크로폰, 그리고 기준 마이크로폰 MIC 2, 또는 잡음 마이크로폰을 포함한다. 상기 주된 마이크로폰 MIC 1 은 신호를 상기 VAD 시스템(102B) 그리고 패스파인더 시스템(101)에 결합한다. 상기 기준 마이크로폰 MIC 2 는 신호를 패스파인더 시스템(101)에 결합한다. 결과적으로, 주된 마이크로폰 MIC 1로부터 신호들은 패스파인더 시스템(101)에 스피치와 잡음 데이터를 제공하고 그리고 어떠한 VAD 정보가 유도되었는가로부터 VAD 시스템(102B)으로 데이터를 제공한다.
상기 VAD 시스템(102B)은 VAD 신호를 계산하기 위해 미국 특허 번호 4,811,404 및 5,687,243 에 설명된 것과 같은 VAD 알고리즘을 포함하나 그것에 제한되는 것은 아니다. 시스템의 기준 마이크로폰 MIC 2를 통해 수신된 신호들은 잡음 억제를 위해서만 사용된다.
도 19 는 실시예 하에서 단일-마이크로폰 VAD를 이용하는 발성 정보를 발생하기 위한 방법의 흐름 다이어그램(1900)이다. 작동은 블락(1902)에서 주된 마이크로폰에서 신호를 수신함으로서 시작한다. VAD와 관련된 상기 처리는 얼라이어싱을 미리 제외하기 위해 주된 마이크로폰으로부터 데이터를 필터링 하는 것 그리고 블락(1904)에서, 적합한 샘플링 비율(일반적으로 8kHz)에서 처리를 위해 필터된 데이터를 디지털화 하는 것을 포함한다. 상기 디지털화된 데이터는 분리되고 그리고 블락(1906)에서 종래의 VAD에 적합하도록 필터된다. 상기 VAD 정보는 블락(1908)에서 VAD 알고리즘에 의해 계산되고 블락(1910)에서 잡음제거 작동에서 사용을 위해 패스파인더 시스템으로 제공된다.
기류-유도 VAD 장치/방법
기류-기반 VAD 장치/방법은 입 그리고/또는 사용자의 코로부터 VAD 신호를 구성하기 위해 기류를 이용한다. 기류는 당업자에게 알려진 다수의 방법들을 이용하여 측정될 수 있고 그리고 정확한 VAD 정보를 생산하기 위해 큰 움직임 흐름과 호흡으로부터 분리된다. 호흡과 큰 움직임 흐름이 대부분의 낮은 주파수(100Hz보다 적은)에너지로 구성된 것과 같이, 흐름은 호흡과 흐름 데이터를 하이패스 필터한 큰 움직임 흐름으로부터 분리된다. 기류를 측정하는 장치의 예는 Glottal Enterprise's Pneumotach Mask 이고, 또한 정보는 http://www.glottal.com 에서 이용할 수 있다.
기류-기반 VAD 장치/방법을 이용함으로써, 상기 기류는 상대적으로 음향잡음으로부터 자유롭다. 왜냐하면 상기 기류는 입 그리고 코에 매우 가깝게 검출되기 때문이다. 그와 같이, 에너지/스레쉬홀드는 도 3 그리고 가속도계-기반 VAD와 관련되어 위에서 설명된 것과 같이, 알고리즘은 발성을 검출하고 VAD 신호를 생성하기 위해 사용될 수 있다.
기류-기반 VAD 장치 그리고/또는 관련된 잡음 억제 시스템의 또 다른 대안적 실시예는 당업자에게 알려진 것과 같이 VAD 신호를 발생하기 위해 다른 에너지-기반 방법을 이용할 수 있다.
도 20은 실시예 하에서, 기류-기반 VAD를 이용하는 유성음 및 무성음을 결정하기 위한 방법의 흐름 다이어그램(2000)이다. 작동은 블락(2002)에서 기류 데이터를 수신하는 것과 함께 시작한다. VAD와 관련된 상기 처리는 얼라이어싱을 미리제외하기 위해 기류 데이터를 필터하는 것과, 블락(2004)에서 처리를 위해 필터된 데이터를 디지털화 하는 것을 포함한다. 상기 디지털화된 데이터는 윈도우 20밀리세컨드의 길이로 단편화 되고 그리고 상기 데이터는 블락(2006)에서 동시에 8msec 로 스텝화 된다. 다른 원하지 않는 주파수 정보와 마찬가지로 낮은 주파수 움직임 그리고 호흡 인공물들을 제거하기 위해, 블락(2008)에서 상기 프로세싱은 또한 블락(2008)에서 윈도우하다 데이터를 필터하는 것을 포함한다. 각 윈도우에서 상기 에너지는 블락(2010)에서 위에서 설명된 것과 같은 크기의 제곱을 합함으로써 계산된다.
상기 계산된 에너지 값들은 블락(2012)에서 스레쉬홀드 값에 비교된다. 기류 데이터에 대응하는 윈도우의 상기 스피치는 상기 윈도우의 에너지가 블락(2014)에서 스레쉬홀드 값에서 또는 그 이상일 때 유성음으로서 지정된다. 상기 유성음 데이터의 정보는 블락(2016)에서 VAD 정보로서 사용을 위해 패스파인더 시스템으로 패스된다. 또 다른 대안적 실시예들의 잡음 억제 시스템들은 발성 신호의 상대적 강도 또는 확신을 표시하기 위해 다중 스레쉬홀드 값을 이용할 수 있으나, 여기에 제한되는 것은 아니다.
수동 VAD 장치/방법
실시예의 수동 VAD 장치들은 사용자 또는 관찰자에 의한 수동 활동을 위한 가능성을 제공하는 VAD 장치를 포함한다. 예를 들어 푸쉬버튼 또는 스위치 장치 등이다. 수동 장치의 활성화 또는 수동적으로 위에서 설명된 것과 같은 자동 VAD 장치를 무시하는 것은 VAD 신호의 발생을 초래한다.
도 21은 대응하는 수동적으로 활성화된/계산된 VAD 신호(2104), 그리고 실시예 하에서 수동 VAD 신호(2104)를 이용하는 패스파인더 시스템에 의한 처리 이후의 잡음이 제거된 신호(2122)에 따른 잡음 오디오 신호(2102)를 포함하는 평면도를 도시한다. 상기 오디오 신호(2102)는 8피트의 천장 높이를 지니고 측면 상에 6피트를 측정하는 챔버 내부의 혼합 잡음 환경내의 Aliph 마이크로폰 세트를 이용하여 기록된다. 상기 패스파인더 시스템은 약 10msec의 지연을 지닌 채 실시간으로 구현된다. 가공되지 않은 오디오 신호(2102) 그리고 잡음이 제거된 오디오 신호(2122)간의 차이는 명백히 원하는 스피치 신호의 적은 왜곡을 지닌 25-30dB의 범위 내에서 잡음 억제를 도시한다. 따라서 수동 VAD 정보를 이용하는 잡음제거는 효과적이다.
당업자는 원하는 음향 정보 및 잡음을 포함하는 신호들을 처리하는 다수의 전기 시스템을 인식하는 것은 위에서 설명된 VAD 장치/방법에 유익할 수 있다. 예를 들어, 위에서 설명된 VAD 장치들 중의 하나를 포함하는 수화기 또는 헤드세트는 셀룰러 텔레폰과 같은 핸드세트에 결합된 유선 그리고/또는 무선을 통해 링크될 수 있다. 특히, 예를 들어, 상기 수화기 또는 헤드세트는 패스파인더 시스템 잡음제거를 지지하기 위해 위에서 설명된 피부 표면 마이크로폰(SSM) VAD를 포함한다.
또 다른 실시예로서, 종래의 마이크로폰은 핸드세트에 결합하고, 그 곳에서 핸드셋은 VAD 결정 및 잡음제거를 수행하는 하나 이상의 프로그램들을 접대한다. 예를 들어, 하나 이상의 종래 마이크로폰들을 이용하는 핸드셋은 VAD 결정 그리고 잡음제거를 수행하기 위한 일부 결합에서 PVAD 그리고 패스파인더 시스템을 이용한다.
패스파인더 잡음 억제 시스템
위에서 설명된 것과 같이, 도 1 은 실시예 하에서, 패스파인더 잡음 억제 시스템(101) 그리고 VAD 시스템(102)를 포함하는 신호 처리 시스템(100)의 블락 다이어그램이다. 상기 신호 처리 시스템(100)은 하나 이상의 잡음 소스(122) 그리고 하나 이상의 스피치원(120)으로부터 신호 또는 정보를 수신하는 두 개의 마이크로폰 MIC 1(110) 그리고 MIC 2(112)를 포함한다. 상기 스피치원(120)으로부터 MIC 1까지의 경로 s(n) 그리고 상기 잡음 소스(122)로부터 MIC 2까지 경로 n(n)은 1(unity)로 간주된다. 또한, H1(z)은 잡음원(122)로부터 MIC1까지 경로, 그리고 H2(z)는 상기 신호 소스(120)로부터 MIC 2까지 경로를 표현한다.
일부 방법으로 유도된 VAD 신호(104)는 잡음제거 방법을 제어하기 위해 사용된다. MIC 1로 들어가는 음향 정보는 m1(n)로 표시된다. MIC 2로 들어가는 음향 정보는 m2(n)로 표시된다. z(디지털 주파수) 영역에서, 우리는 그들을 M1(z) 와 M2(z)로서 표현할 수 있다. 따라서
M1(z)=S(z) +N(z)H1(z)
M2(z)=N(z)+S(z)H2(z) ...방정식(1)
이는 모든 실제 두-개의 시스템을 위한 일반적 경우이다. MIC1로 잡음의 일부 누출이 항상 있으며, MIC 2로 신호의 일부 누출이 있다. 방정식 1은 4개의 알려지지 않은 변수와 단지 두 개의 방정식을 지니며, 그 결과 정확하게 해결될 수 없다.
그러나 아마 다른 방법으로 방정식 1에서 알려지지 않은 일부를 해결하기 위한 일부 방법이 있다. 상기 신호가 발생되고 있지 않은 경우를 관찰하면, 즉, VAD가 발성이 발생되지 않는 것을 표시하는 곳에서이다. 이 경우, s(n) =S(z) =0 그리고 방정식 1은 다음과 같이 정리된다.
M1n(z) =N(z)H1(z)
M2n(z)=N(z)
그곳에서 M 변수 상의 첨자 n 은 단지 잡음이 수신되고 있음을 나타낸다.
이것은
M1n(z)=M2n(z)H1(z)
H1(z) = M1n(z)/M2n(z) 가 된다.
이제, H1(z) 는 이용 가능한 시스템 확인 알고리즘의 어느 것이든지 이용하도록 계산될 수 있고 그리고 단지 잡음이 수신되고 있을 때 마이크로폰은 출력한다. 상기 계산은 상기 시스템이 잡음 내의 어떠한 변화를 추적하는 것을 허용하기 위해 적합하게 행해져야 한다.
방정식 1 내의 알지 못하는 변수들 중의 하나를 해결한 이후, H2(z)는 발성이 작은 잡음과 함께 발생될 때를 결정하기 위해 VAD를 이용함으로써 해결될 수 있다. 상기 VAD가 발성을 표시하나, 상기 마이크로폰의 최근(1초 정도의)히스토리가 잡음의 낮은 레벨을 표시할 때, n(s)=N(z)~0 이라고 가정한다. 그 때 방정식 1은
M1s(z)=S(z)
M2s(z)=S(z)H2(z) 가 된다.
그곳에서 차례로,
M2s(z)=M1s(z)H2(z)
H2(z) = M2s(z)/M1s(z) 가 된다.
H2(z)를 위한 이 계산은 H1(z) 계산의 역으로 나타나지만, 기억할 것은 다른 입력들이 사용되었다는 점이다. 주의할 것은 H2(z)는 상수이고, 항상 단일 소스(사용자) 그리고 사용자와 마이크로폰 간의 상대적 위치가 상대적으로 상수이어야만 한다는 점이다. H2(z) 계산을 위한 작은 적합한 이득의 이용은 잘 작동하고 계산을 잡음의 존재에서 더 강건하게 만든다.
위의 H1(z) 및 H2(z)의 계산 이후, 그들은 신호로부터 잡음을 제거하기 위해 사용된다. 방정식 1을 다시 쓰면,
S(z)=M1(z)-N(z)H1(z)
N(z)=M2(z)-S(z)H2(z)
*S(z)=M1(z)-[M2(z)-S(z)H2(z)]H1(z)
S(z)[1-H2(z)H1(z)]=M1(z)-M2(z)H1(z)
S(z)를 해결하기 위해
S(z)=M1(z)-M2(z)H1(z)/1-H2(z)H1(z) (2)
일반적으로, H2(z)는 상대적으로 작고, H1(z)은 1보다 더 작다. 따라서 대부분의 주파수에서 대부분의 상황에서,
H2(z)H1(z)<<1
그리고 신호는 다음을 이용하여 계산될 수 있다.
Figure pat00004
게다가, 상기 가정은 H2(z)가 필요하지 않으며, H1(z)은 단지 계산되도록 전송이다. H2(z)가 원하는 경우 계산될 수 있고, 좋은 마이크로폰 배치 및 방향은 H2(z) 계산을 위한 필요를 제거할 수 있다.
상당한 잡음 억제는 음향 신호의 처리에서 다수의 서브밴드들의 이용을 통해 획득될 수 있다. 이는 대부분의 적합한 필터들이 전달 함수가 FIR 타입인 경우를 계산하기 위해 사용되고, 이는 제로들 및 폴들을 모두 포함하는 시스템을 계산하기 위해 폴은 이용하지 않고 단지 제로들만을 이용한다.
Figure pat00005
그러한 모델은 충분히 정확한 주어진 탭이 될 수 있으나, 이것은 크게 계산 시간과 수렴 시간을 증가시킬 수 있다. 최소-평균 제곱(LMS) 시스템과 같은 에너지-기반 적응(adaptive) 필터 시스템에서 일반적으로 발생하는 것은 상기 시스템은 크기 및 위상이 다른 주파수들보다 에너지를 많이 포함하는 작은 주파수 범위들에서 잘 매치된다는 것이다. 이는 LMS가 자신의 능력의 최대한으로 에러 에너지를 최소화하기 위해 필요한 것들을 수행하는 것을 허용하나, 이것은 주파수를 매칭 하는 외부 지역 내의 잡음이 발생하는 원인이 되고, 잡음 억제의 효율성을 감소시킨다.
서브밴드들을 이용함으로서 이러한 문제점이 완화된다. 메인 마이크로폰과 보조 마이크로폰으로부터의 신호들이 복수의 서브밴드로 필터링되고, 각 서브밴드로부터의 결과적인 데이터(주파수 위상 변화가 있을 수 있고, 필요할 경우 데시메이트될 수 있음)는 각자의 적응 필터(adaptive filter)로 전달된다. 이에 따라, 적응 필터는 데이터를 각자의 서브밴드에 부합시키도록 시도하게 되며, 이러한 시도는 신호의 에너지가 가장 높은 곳에서만 이루어지는 것이 아니다. 각 서브밴드로부터 잡음억제된 결과들은 함께 합쳐져서, 종국에 잡음제거된 최종 신호를 형성하게 된다. 이 모든 것을 시간에 따라 정렬시키고 필터 시프트를 보정해야 한다는 것이 쉬운 일은 아니다. 하지만, 그 결과는 메모리 용량 증가 및 프로세싱 요건들을 대가로 하여 시스템에 더 우수한 모델이 된다.
처음에는, 그것은 패스파인더 알고리즘이 도 2에 보이는 고전적 AND(적응성 잡음 제거)와 같은 다른 알고리즘과 매우 유사한 경우처럼 보인다. 그러나 자세히 관찰하면, 수신된 신호로 잡음 억제 시스템의 적합을 제어하기 위해 VAD 정보를 이용하는 것, 관심 대상 스펙트럼 전체에 걸쳐 충분한 수렴을 보장하기 위해 다수의 서브밴드를 이용하는 것, 그리고 아래에 차례로 설명된 것과 같은 상기 시스템의 기준 마이크로폰에서 관심대상 음향 신호를 이용하여 작동하는 것을 지원하는 것을 포함하여, 잡음 억제 수행 면에서 모든 차이를 만드는 다수의 영역을 드러낸다.
수신된 신호로의 잡음 억제 시스템의 적합성을 제어하기 위해 VAD의 이용을 고려하여, 고전적 AND 는 어떠한 VAD 정보도 이용하지 않는다. 따라서 스피치 생산 동안, 기준 마이크로폰 내에 신호가 있고, 스피치 생산의 시간이 관련 신호로부터 스피치 에너지의 큰 부분을 제거하는 결과를 초래하는 동안 H1(z)( 잡음으로부터 주된 마이크로폰까지 경로)의 계수를 적합화 한다. 상기 결과는 신호 왜곡 및 감소(신호-제거)이다. 게다가, 위에서 설명된 다양한 방법들은 H1(잡음만) 그리고 H2(필요한 경우, 스피치가 생성되고 있을 때)의 계수를 적합화 할 때 패스파인더 시스템을 명령하기 위해 충분히 정확한 VAD를 구성한다.
고전적인 ANC 그리고 상기 패스파인더 시스템 간의 중요한 차이는 위에서 설명한 것과 같은 음향 데이터의 서브밴딩을 포함한다. 많은 서브밴드들은 개개의 서브밴드들의 정보 상의 LMS 알고리즘의 응용을 지원하기 위해 패스파인더 시스템에 의해 사용된다. 그것으로, 관련 스펙트럼에 대한 충분한 수렴을 확실히 보장하고 그리고 상기 패스파인더 시스템이 스펙트럼에 대해 효과적이 되도록 한다.
상기 ANC 알고리즘이 일반적으로 모델 H1에 LMS 적합 필터를 이용하고 이 모델은 필터를 생성하기 위해 모든 제로를 이용하기 때문에, "실제의"기능 시스템은 이런 방식으로 정확하게 모델 될 수 있다. 기능 시스템들은 거의 불변으로 폴과 제로 모두를 지니며, 그러므로 LMS 필터의 그것과는 매우 다른 주파수 응답을 지닌다. 종종, 최고의 LMS가 할 수 있는 것은 단일 주파수(또는 매우 작은 범위)에서 실제 시스템의 위상 및 크기를 매치하는 것이다. 그 결과 이 주파수의 외부에서 상기 모델 적합성은 매우 나쁘며 이러한 지역 내의 잡음 에너지의 증가를 초래할 수 있다. 게다가, 관련 음향 데이터의 전체 스펙트럼에 대한 LMS 알고리즘의 응용은 나쁜 크기/위상 매치를 지닌 주파수에서 관련 신호의 하강을 초래한다.
마지막으로, 상기 패스파인더 알고리즘은 시스템의 기준 마이크로폰 내의 관련 음향 신호와 함께 작동하는 것을 지원한다. 음향 신호가 기준 마이크로폰에 의해 수신되도록 허용하는 것은 마이크로폰이 고전적인 ANC 구조에서를 제외한 각각에 대해 훨씬 보다 가깝게 배치될 수 있다는 것을 의미한다. 이 더 가까운 공간(spacing)은 적합한 필터 계산을 단순화 하고 그리고 보다 간결한 마이크로폰 구조/해결책을 가능하게 한다. 또한, 특별한 마이크로폰 구조는 신호 왜곡 및 신호-제거를 최소화 하도록 개발되어 왔고 그리고 관련 신호 소스 그리고 기준 마이크로폰 간의 신호 패스의 모델링을 지지한다.
*실시예에서, 방향성 마이크로폰의 이용은 전달 함수가 1에 접근하지 못함을 확실히 한다. 방향성 마이크로폰과 함께 심지어, 일부 신호는 잡음 마이크로폰으로 수신된다. 이것이 무시되는 경우, 그리고 H2(z)=0으로 가정되는 경우, 완전한 VAD를 가정하면 일부 왜곡이 존재할 것이다. 이는 방정식 2와 관련하여 볼 수 있고 H2(z)가 포함되지 않을 때 결과를 해결한다.
S(z)[1-H2(z)H1(z)]=M1(z)-M2(z)H1(z)
이는 상기 신호가 성분[1-H2(z)H1(z)] 에 의해 왜곡될 것을 보여준다. 따라서 왜곡의 타입 및 양은 잡음 환경에 의존하여 변화할 것이다. 매우 적은 잡음과 함께, H1(z)은 대략 제로이고 매우 적은 왜곡이 있다. 잡음의 존재와 함께, 왜곡의 양은 타입, 위치, 그리고 잡음원(s)의 강도와 함께 변화한다. 좋은 마이크로폰 구조 디자인은 이러한 왜곡을 최소화 한다.
각 서브밴드의 H1 계산은 상기 VAD가 발성이 발생되지 않고 있음을 표시할 때 또는 발성이 발생되었으나, 서브밴드의 SNR이 충분히 낮을 때 구현된다. 역으로, H2 는 VAD가 스피치가 발생되고 있을 때 각 서브밴드 내에서 계산될 수 있고 그리고 서브밴드 SNR은 충분히 높다. 그러나 적합한 마이크로폰 배치 및 처리와 함께, 신호 왜곡은 최소화 될 수 있고 그리고 단지 H1은 계산될 필요가 있다. 이것은 상당히 요구되는 처리를 감소시키고 패스파인더 알고리즘의 구현을 단순화 한다. 고전적 ANC가 어떠한 신호도 MIC 2로 허용하지 않을 때, 상기 패스파인더 알고리즘은 적합한 마이크로폰 구조를 이용할 때 MIC 2 내에서 신호를 견딘다. 도 11과 관련하여 위에서 설명된 것과 같은 적합한 마이크로폰 구조의 실시예는 두 개의 심장학 단일 방향 마이크로폰이 사용되는 곳에서, MIC 1 그리고 MIC 2의 하나이다.
사용자의 입 쪽으로 상기 구조가 MIC1을 향한다. 또한, 상기 구조는 가능한 MIC1에 가깝도록 MIC 2를 배치하고 그리고 MIC 1과 관련하여 90도에서 MIC 2를 향한다.
VAD에 대한 잡음 억제의 의존성을 설명하기 위한 가장 좋은 방법은 아마 VAD실패의 상황 하에서 잡음 제거에 대한 VAD 에러의 효과를 실험하는 것이다. 발생할 수 있는 에러에는 두 가지 타입이 있다. 잘못된 포지티브들(FP)은 상기 VAD가 그것이 지니지 않았을 때 발성이 생성되는 것을 VAD 가 표시되는 때이고, 그리고 잘못된 네거티브들(FN)은 상기 VAD가 스피치가 발생되었음을 검출하지 못할 때이다. 잘못된 포지티브들은 그들이 너무 자주 발생할 경우 단지 다루기 힘든 것이다. 예비의 FP는 H1 계수가 간략히 업데이트 하는 것을 멈추도록 만 일으킬 수 있을 것이고, 실험은 이것은 잡음 억제 수행에 감지할 수 있을 정도로 영향을 미치지 않는다. 잘못된 네거티브들은, 반면, 특히 사라진 스피치의 SNR이 높은 경우 문제점을 발생시킬 수 있다.
시스템의 양 마이크로폰들 내의 스피치 그리고 잡음이 있다고 그리고 상기 시스템은 단지 잡음만을 검출한다고 가정한다. 왜냐하면 VAD는 잘못된 네거티브를 실패하고 되돌아오기 때문이다. MIC 2에서 상기 신호는
M2 =H1N +H2S
그곳에서 z의 것은 명백히 억압되어 왔다. 상기 VAD는 단지 잡음의 존재만을 표시하기 때문에, 상기 시스템은 단일 잡음 그리고 다음에 따른 단일 전달 함수 위의 시스템을 모델하려는 시도를 한다.
Figure pat00006
상기 패스파인더 시스템은
Figure pat00007
을 계산하기 위해 LMS 알고리즘을 이용하나, 상기 LMS 알고리즘은 일반적으로 시간 변화, 모든-제로 시스템의 모델링에서 일반적으로 최고이다. 그것은 상기 잡음 및 스피치 신호가 연관될 것 같지 않기 때문에, 상기 시스템은 일반적으로 스피치 그리고 그것과 연관된 전달 함수 또는 잡음 그리고 그것과 관련된 전달 함수를 모델하며, MIC 1 내의 데이터의 SNR, 모델 H1 그리고 H2로의 능력 그리고 H1 및 H2의 시간-변화에 의존한다.
MIC 1 내의 데이터의 SNR과 관련하여, 매우 낮은 SNR(0보다 작은)은 패스파인더 시스템이 잡음 전달 함수로 수렴하도록 일으키는 경향이 있다. 대조적으로, 높은 SNR(0보다 더 큰)은 패스파인더 시스템이 스피치 전달 함수로 수렴하도록 일으키는 경향이 있다. H1을 모델하기 위한 능력의 경우, H1 또는 H2는 LMS(모든-제로 모델)를 이용하여 보다 쉽게 모델 되고, 상기 패스파인더 시스템은 그 각각의 전달 함수로 수렴되는 경향이 있다.
H1 그리고 H2의 시간-변화상에서 시스템 모델링의 의존성을 설명함에 있어, LMS가 시간-변화 시스템을 모델링함에 있어 최고임을 간주한다. 따라서 상기 패스파인더 시스템은 일반적으로 H2로 수렴하는 경향이 있다. 왜냐하면 H2는 H1이 변화할 것보다 훨씬 느리게 변화하기 때문이다.
상기 LMS가 잡음 전달 함수에 대해 스피치 전달 함수를 모델 하는 경우, 상기 스피치는 잡음으로 분류되고 그리고 상기 LMS 필터의 계수가 동일하거나 유사하게 남아있는 한 제거된다. 따라서 패스파인더 시스템이 스피치 전달 함수 H2(몇 밀리세컨드의 차원에서 발생할 수 있는)의 모델로 수렴되고, 상기 시스템이 그것의 전달 함수가 상기 VAD가 실패할 때 모델 된 하나와 유사하기 때문에 이 스피치가 잡음이라고 "가정"하는 것과 마찬가지로, 그 후의 스피치(심지어 VAD가 실패하지 않는 곳에서 스피치까지)가 그것으로부터 제거된 에너지를 지닌다. 이 경우, H2가 우선 모델 되고 있는 곳에서, 상기 잡음은 영향을 받지 않거나 또는 단지 부분적으로 제거될 것이다.
상기 처리의 끝 결과는 깨끗해진 스피치의 왜곡 및 볼륨의 감소이다. 그것의 엄격함은 위에서 설명한 변수에 의해 결정된다. 상기 시스템이 H1을 수렴하는 경향이 있는 경우, 그 후의 이득 손실 및 상기 스피치의 왜곡은 중요하지 않을 것이다. 그러나 상기 시스템이 H2로 수렴하는 경우, 상기 스피치는 매우 심하게 왜곡될 수 있다.
이 VAD 실패 분석은 서브밴드의 이용, 타입, 그리고 마이크로폰의 방향과 관련된 희박함 들을 설명하기 위한 시도를 하지 않으나, 그것은 상기 잡음제거로의 VAD의 중요성을 전달하는 것을 의미한다. 위의 결과들은 단일 서브밴드에 또는 임의의 다수의 서브밴드들에 적합하다. 왜냐하면 각 서브밴드의 상호작용은 동일하기 때문이다.
부가적으로, VAD 상의 의존성 및 위의 VAD 실패 분석 내에서 설명된 VAD 에러들로부터 발생하는 문제점들은 패스파인더 잡음 억제 시스템에 제한되지 않는다. 잡음을 어떻게 제거하는지를 결정하기 위해 VAD를 이용하는 어떠한 적합 필터 잡음 억제 시스템도 유사하게 영향을 미칠 것이다. 이 명세서에서, 상기 패스파인더 잡음 억제 시스템이 간주될 때, 그것은 잡음 파형을 측정하기 위해 그리고 그것을 스피치와 잡음을 모두 포함하는 신호로부터 제거하기 위해 다수의 마이크로폰을 이용하는 모든 잡음 억제 시스템이라는 것을 유의하여야 하며, 그것은 신뢰할 수 있는 작동을 위해 VAD에 의존한다는 것이 포함되어 있다. 패스파인더는 단지 편리하게 관련된 구현이다.
패스파인더 시스템과 같이 잡음 억제 시스템과 함께 사용하기 위해 위에서 설명된 상기 VAD 장치들 및 방법들은 잡음제거 음향 신호를 위한 시스템을 포함하고, 이 때 상기 시스템은, 잡음제거 서브시스템의 성분으로 환경의 음향 신호를 제공하기 위해 결합된 하나 이상의 수신기를 포함하는 잡음제거 서브시스템, 잡음제거 서브시스템에 결합된 음성 검출 서브시스템으로서, 사람 발성 활동의 정보를 포함하는 음성 활동 신호를 수신하는 음성 검출 서브시스템을 포함한다. 이 때 상기 음성 검출 서브시스템의 성분들은 자동적으로 음성 활동 신호의 정보를 이용하는 제어 신호를 발생한다. 이 때 잡음제거 서브시스템의 성분은 자동적으로 제어 신호를 이용하는 음향 신호의 하나 이상의 주파수 서브밴드의 데이터에 적합한 하나 이상의 잡음제거 방법을 선택하며, 이 때 잡음제거 서브시스템은 잡음이 제거된 음향 신호를 발생하기 위해 상기 선택된 잡음제거 방법을 이용하여 음향 신호를 처리한다.
잡음 제거 서브시스템의 실시예의 수신기는 음향 신호를 검출하는 하나 이상의 마이크로폰 배열에 결합한다.
실시예의 마이크로폰 배열은 두 개 이상의 가깝게-배치된 마이크로폰을 포함한다.
실시예의 음성 검출 서브시스템은 센서를 통해 음성 활동 신호를 수신하고, 이 때 상기 센서는 가속도계들 중의 하나 이상, 사용자의 피부와 물리적으로 접촉한 피부 표면 마이크로폰, 사람 조직 진동계 검출기, 무선 주파수(RF) 진동 검출기, 레이저 진동 검출기, 전기성문그래프(EGG) 장치, 그리고 컴퓨터 비전 조직 진동 검출기로부터 선택된다.
실시예의 음성 검출 서브시스템은 상기 수신기에 결합된 마이크로폰 배열을 통해 음성 활동 신호를 수신하고, 상기 마이크로폰 배열은, 마이크로폰들 중의 하나 이상, 경사진 마이크로폰, 그리고 한 쌍의 단방향 마이크로폰들을 포함한다.
실시예의 음성 검출 서브시스템은 상기 수신기에 결합된 마이크로폰 배여을 통해 음성 활동 신호를 수신하고, 이 때 상기 마이크로폰 배열은 제 2 단방향 마이크로폰과 함께-배치된 제 1 단방향 마이크로폰을 포함한다. 이 때 상기 제 1 단방향 마이크로폰은 제 2 단방향 마이크로폰의 공간 응답 커브 최대로부터 방위각 내에 45도에서 180도 범위 내이다.
실시예의 상기 음성 검출 서브시스템은 상기 수신기에 결합된 마이크로폰 배열을 통해 음성 활동 신호를 수신한다. 이 때 상기 마이크로폰 배열은 제 2 단방향 마이크로폰을 지닌 함께 선형적으로(colinearly) 배치된 제 1 단방향 마이크로폰을 포함한다.
패스파인더 시스템과 같은 잡음 억제 시스템과 함께 이용을 위해 위에서 설명된 상기 VAD 방법들은 잡음제거 음향 신호를 위한 방법을 포함하고, 이 때 상기 방법은, 음향 신호 및 음성 활동 신호들을 수신하는 것, 상기 음성 활동 신호의 데이터로부터 제어 신호를 자동으로 발생하는 것, 상기 제어신호를 이용하여 상기 음향 신호의 하나 이상의 주파수 서브밴드의 데이터에 적합한 하나 이상의 잡음제거 방법을 자동적으로 선택하는 것, 그리고 상기 선택된 잡음 제거 방법을 적용하고 상기 잡음이 제거된 음향 신호를 발생하는 것을 포함한다.
한 실시예에서, 선택은 또한 유성음을 포함하는 주파수 서브밴드를 위한 제 1 잡음 제거 방법을 선택하는 것을 또한 포함한다.
한 실시예에서, 선택은 또한 무성음을 포함하는 주파수 서브밴드를 위한 제 2 잡음 제거 방법을 선택하는 것을 또한 포함한다.
한 실시예에서, 선택은 또한 스피치가 결여된 주파수 서브밴드를 위한 잡음제거 방법을 선택하는 단계를 또한 포함한다.
실시예에서, 선택은 또한 수신된 음향 신호의 잡음 정보에 응답하는 잡음제거 선택 방법을 또한 포함하고, 이 때 상기 잡음 정보는 잡음 크기, 잡음 타입, 그리고 화자에 대한 잡음 방향 중의 하나 이상을 포함한다.
한 실시예에서, 선택은 또한 수신된 음향 신호의 잡음 정보에 응답하는 잡음 제거 방법의 선택을 또한 포함하고, 이 때 사이 잡음 정보는 화자에 대한 잡음원 움직임을 포함한다.
패스파인더 시스템과 같은 잡음 억제 시스템과 함께 이용을 위해 위에서 설명된 VAD 방법들은 음향 신호로부터 잡음을 제거하기 위한 방법을 포함하고, 이 때 상기 방법은, 음향 신호를 수신하는 것, 사람 음성 활동과 관련된 정보를 수신하는 것, 상기 음향 신호로부터 잡음의 제거를 제어함에 있어 이용을 위한, 하나 이상의 제어 신호를 발생하는 것, 신호 제어에 응답함에 있어, 하나 이상의 주파수 서브밴드에서 음향 신호를 처리함에 있어 이용을 위한, 하나 이상의 전달 함수를 자동적으로 발생하는 것, 상기 음향 신호로 발생된 전달함수를 적용하는 것, 그리고 상기 음향 신호로부터 잡음을 제거하는 것을 포함한다.
실시예의 상기 방법은 또한 수신된 음향 신호를 다수의 주파수 서브밴드로 분할하는 것을 포함한다.
한 실시예에서, 전달 함수를 발생하는 것은 또한 상기 제어 신호가 상기 음성 정보가 서브밴드의 음향신호로부터 결여되었다는 것을 표시할 때 서브밴드의 음향 신호를 표현하는 하나 이상의 제 1 전달 함수의 계수를 적합화 하는 것을 포함한다.
한 실시예에서, 전달 함수를 발생하는 것은 또한 제어 신호가 발성 정보가 서브밴드의 음향 신호 내에 존재함을 표시할 때 서브밴드의 음향 신호를 표현하는 하나 이상의 제 2 전달 함수를 발생하는 것을 포함한다.
한 실시예에서, 생성된 전달 함수를 적용하는 것은 또한 상기 음향 신호의 잡음과 관련된 잡음 파형 측정을 발생하는 것, 그리고 상기 음향 신호가 스피치와 잡음을 포함할 때 상기 음향 신호로부터 잡음 파형 측정을 제거하는 것을 포함한다.
당해 발명의 측면들은 장치 특정 집적 회로(ASIC)와 마찬가지로 필드 프로그램형 게이트 배열(FPGA), 프로그램형 배열 로직(PAL) 장치, 전기적 프로그램형 로직 및 메모리 장치들 그리고 표준 셀-기반 장치들과 같은 프로그램형 로직 장치(PLD)를 포함하는 다수의 회로로 프로그램된 기능으로 구현된다. 당해 발명을 구현하는 일부 다른 가능성들은, 메모리를 지닌 마이크로컨트롤러(전기적으로 지울 수 있는 프로그램형 읽기 전용 메모리(EEPROM), 삽입된 마이크로프로세서, 펌웨어, 소프트웨어 등을 포함한다. 당해 발명의 측면이 제조(예를 들어, PLD 내에 또는 펌웨어 내에 삽입되기 전에) 동안 하나 이상의 단계에서 소프트웨어로 구체화 되는 경우, 상기 소프트웨어는 자기적으로 또는 선택적으로-판독 가능한 디스크(고정된 또는 플라피)에 의해 수행되고, 전송 신호에 조정되거나 또는 그렇지 않으면 전송된다.
게다가, 당해 발명의 측면들은 소프트웨어-기반 회로 경쟁, 분절된 회로(순차적 및 결합적), 커스텀 장치, 경관(신경계) 로직, 양자 장치, 그리고 위의 장치 타입 중의 어느 것과의 혼합을 지닌 마이크로프로세서 내에서 구체화 된다. 물론, 기초가 되는 장치 기술들은 다양한 성분 타입, 예를 들어 보충적 메탈-산화 반도체(CMOS)와 같은 메탈-산화 반도체 필드-이펙트 트랜지스터(MOSFET) 기술, 에미터-결합된 로직(ECL)과 같은 바이폴라 기술들, 폴리머 기술(예를 들어, 실리콘-컨쥬게이트 된 폴리머 및 메탈-컨쥬게이트 된 폴리머-메탈 구조), 혼합된 아날로그 및 디지털, 등 과 같은 다양한 성분 타입 내에서 제공된다.

Claims (18)

  1. 음향 신호의 잡음을 제거하기 위한 시스템으로서,
    - 잡음제거 서브시스템의 성분으로 환경의 음향 신호를 제공하도록 연결된 하나 이상의 수신기를 포함하는 잡음제거 서브시스템으로서, 상기 하나 이상의 수신기는 음향 신호를 검출하는 마이크로폰 어레이에 연결되고, 상기 마이크로폰 어레이는 제 1 마이크로 폰과 제 2 마이크로 폰을 포함하되, 상기 제 1 마이크로폰은 사용자의 입이 제 1 마이크로폰의 공간 응답이 최대인 지점에 위치하도록 배치되고, 상기 제 2 마이크로폰은 상기 제 1 마이크로폰의 공간 응답으로부터 75도 내지 135도 사이로 제 2 마이크로폰의 공간 응답이 최대인 지점이 이동되도록 배치되는 것이 특징인, 잡음제거 서브시스템
    - 상기 잡음제거 서브시스템에 결합된 음성 검출 서브시스템으로서, 상기 음성 검출 서브시스템은 인간 음성 활동의 정보를 포함하는 음성 활동 신호를 수신하며, 상기 음성 검출 서브시스템의 성분들은 상기 음성 활동 신호의 정보를 이용하여 제어 신호를 자동적으로 발생시키는 상기 음성 검출 서브시스템
    을 포함하고,
    - 이 때 잡음 제거 서브시스템의 성분들은 상기 제어 신호를 이용하여 음향 신호들 중의 하나 이상의 주파수 서브밴드의 데이터에 대응하는 하나 이상의 잡음제거 방법을 자동으로 선택하며, 그리고,
    - 이 때, 잡음제거 서브시스템의 성분들은 잡음이 제거된 음향 신호를 발생하기 위해 상기 선택된 잡음제거 방법을 이용하여 음향 신호들을 처리하는
    것을 특징으로 하는 음향 신호의 잡음을 제거하기 위한 시스템.
  2. 제 1 항에 있어서, 이 때 상기 수신기는 상기 음향 신호를 검출하는 하나 이상의 마이크로폰 배열에 결합하는 것을 특징으로 하는 음향 신호의 잡음을 제거하기 위한 시스템.
  3. 제 2 항에 있어서, 이 때 상기 마이크로폰 배열은 인접하게 배열된 두 개 이상의 마이크로폰을 포함하는 것을 특징으로 하는 음향 신호의 잡음을 제거하기 위한 시스템.
  4. 제 1 항에 있어서, 이 때 상기 음성 검출 서브시스템은 센서를 통해 음성 활동 신호를 수신하고, 이 때 상기 센서는 가속도계, 사용자의 피부와 물리적으로 접촉하는 피부 표면 마이크로폰, 인체 조직 진동 검출기, 무선 주파수(RF) 진동 검출기, 레이저 진동 검출기, 전기성문그래프(EGG) 장치, 그리고 컴퓨터 비전 조직 진동 검출기들 중의 하나 이상에서 선택되는 것을 특징으로 하는 음향 신호의 잡음을 제거하기 위한 시스템.
  5. 제 1 항에 있어서, 이 때 상기 음성 검출 서브시스템은 수신기에 결합된 마이크로폰 배열을 통해 음성 활동 신호를 수신하고, 상기 마이크로폰 배열은 마이크로폰, 경사 마이크로폰 그리고 한 쌍의 단방향 마이크로폰들 중의 하나 이상을 포함하는 것을 특징으로 하는 음향 신호의 잡음을 제거하기 위한 시스템.
  6. 제 1 항에 있어서, 이 때 상기 음성 검출 서브시스템은 수신기에 결합된 마이크로폰 배열을 통해 음성 활동 신호를 수신하고, 이 때 상기 마이크로폰 배열은 제 2 단방향 마이크로폰과 함께-배치된 제 1 단방향 마이크로폰을 포함하며, 이 때 상기 제 1 단방향 마이크로폰은 방향을 지으며 그 결과 제 1 단방향 마이크로폰의 공간 응답 커브 최대값은 상기 제 2 단방향 마이크로폰의 공간 응답 커브 최대값으로부터 방위각에서 45도서 180도의 범위 내인 것을 특징으로 하는 음향 신호의 잡음을 제거하기 위한 시스템.
  7. 제 1 항에 있어서, 이 때 상기 음성 검출 서브시스템은 수신기에 결합된 마이크로폰 배열을 통해 음성 활동 신호를 수신하고, 이 때 상기 마이크로폰 배열은 제 2 단방향 마이크로폰과 공동으로 선형으로 배치된 제 1 단방향 마이크로폰을 포함하는 것을 특징으로 하는 음향 신호의 잡음을 제거하기 위한 시스템.
  8. 음향 신호의 잡음을 제거하기 위한 방법으로서,
    -음향 신호 및 음성 활동 신호를 수신기를 통해 수신하고, 상기 수신기는 음향 신호 및 음성 활동 신호를 검출하는 마이크로폰 어레이에 연결되며, 상기 마이크로폰 어레이는 사용자의 입이 제 1 마이크로폰의 공간 응답의 최대인 지점에 위치하도록 방향이 정해진 제 1 마이크로폰을 포함하며, 상기 마이크로폰 어레이는 제 1 마이크로폰의 공간 응답으로부터 75도 내지 135도 사이로 제 2 마이크로폰의 공간 응답이 최대인 지점이 이동되도록 방향이 정해진 제 2 마이크로폰을 포함하며,
    - 음성 활동 신호의 데이터로부터 제어 신호를 자동적으로 발생하며,
    - 제어 신호를 이용하여 상기 음향 신호의 하나 이상의 주파수 서브밴드에서의 데이터에 대응하는 하나 이상의 잡음제거 방법을 자동적으로 선택하고,
    - 선택된 잡음이 제거된 방법을 적용하며 상기 잡음이 제거된 음향 신호를 발생하는
    단계를 포함하는 것을 특징으로 하는 음향 신호의 잡음을 제거하기 위한 방법.
  9. 제 8 항에 있어서, 이 때 선택단계는 또한 유성음을 포함하는 주파수 서브밴드를 위한 제 1 잡음제거 방법을 선택하는 것을 포함하는 것을 특징으로 하는 음향 신호의 잡음을 제거하기 위한 방법.
  10. 제 9 항에 있어서, 이 때 선택단계는 또한 무성음을 포함하는 주파수 서브밴드를 위한 제 2 잡음 제거 방법을 선택하는 것을 포함하는 것을 특징으로 하는 음향 신호의 잡음을 제거하기 위한 방법.
  11. 제 8 항에 있어서, 이 때 선택단계는 또한 스피치가 결여된 주파수 서브밴드를 위한 잡음제거 방법을 선택하는 것을 포함하는 것을 특징으로 하는 음향 신호의 잡음을 제거하기 위한 방법.
  12. 제 8 항에 있어서, 이 때 선택단계는 또한 상기 수신된 음향 신호의 잡음 정보에 대한 잡음 제거 방법을 선택하는 것을 포함하고, 이 때 상기 잡음 정보는 잡음 크기, 잡음 타입, 그리고 화자에 대한 잡음 방향 중의 하나 이상을 포함하는 것을 특징으로 하는 음향 신호의 잡음을 제거하기 위한 방법.
  13. 제 8 항에 있어서, 이 때 선택단계는 또한 상기 수신된 음향 신호의 잡음 정보에 대한 잡음제거 방법을 선택하는 것을 포함하고, 이 때 상기 잡음 정보는 화자에 대한 잡음원 움직임을 포함하는 것을 특징으로 하는 음향 신호의 잡음을 제거하기 위한 방법.
  14. 음향 신호로부터 잡음을 제거하기 위한 방법으로서,
    - 음향 신호를 수신기를 통해 수신하고, 상기 수신기는 음향 신호를 검출하는 마이크로폰 어레이에 연결되고, 상기 마이크로폰 어레이는 사용자의 입이 제 1 마이크로폰의 공간 응답이 최대인 지점에 위치하도록 방향이 정해진 제 1 마이크로폰을 포함하며, 상기 마이크로폰 어레이는 제 1 마이크로폰의 공간 응답으로부터 75도 내지 135도 사이로 제 2 마이크로폰의 공간 응답의 최대인 지점이 이동되도록 방향이 정해진 제 2 마이크로폰을 포함하며,
    - 사람 음성 활동과 관련된 정보를 수신하며,
    - 상기 음향 신호로부터 잡음의 제거를 제어함에 있어 이용을 위한 하나 이상의 제어 신호를 발생하고,
    - 제어 신호에 응답하여, 하나 이상의 주파수 서브밴드에서 음향 신호를 처리하는 데 이용하기 위해 하나 이상의 전달 함수를 자동으로 발생하며,
    - 상기 발생된 전달 함수를 상기 음향 신호에 적용하고, 그리고,
    - 상기 음향 신호로부터 잡음을 제거하는
    단계를 포함하는 것을 특징으로 하는 음향 신호로부터 잡음을 제거하기 위한 방법.
  15. 제 14 항에 있어서, 상기 방법은 또한 상기 수신된 음향 신호들을 다수의 주파수 서브밴드로 분할하는 단계를 추가적으로 포함하는 것을 특징으로 하는 음향 신호로부터 잡음을 제거하기 위한 방법.
  16. 제 14 항에 있어서, 이 때 전달 함수를 생성하는 것은 또한 음향 정보가 서브밴드의 음향 신호로부터 결여되었음을 표시할 때 서브밴드의 음향 신호를 대표하는 하나 이상의 전달 함수의 계수들을 적합화 하는 것을 추가적으로 포함하는 것을 특징으로 하는 음향 신호로부터 잡음을 제거하기 위한 방법.
  17. 제 14 항에 있어서, 이 때 전달 함수를 생성하는 것은 또한 상기 제어 신호가 음성 정보가 서브밴드의 음향 신호 내에 있음을 표시할 때 서브밴드의 음향 신호를 대표하는 제 2 전달 함수를 발생하는 것을 추가적으로 포함하는 것을 특징으로 하는 음향 신호로부터 잡음을 제거하기 위한 방법.
  18. 제 14 항에 있어서, 이 때 상기 생성된 전달 함수를 적용하는 것은 또한,
    - 음향 신호의 잡음과 관련된 잡음 파형 측정을 발생하고, 그리고,
    -상기 음향 신호가 스피치와 잡음을 포함할 때, 상기 음향 신호로부터 잡음 파형 측정을 제외하는
    것을 추가적으로 포함하는 것을 특징으로 하는 음향 신호로부터 잡음을 제거하기 위한 방법.
KR1020107028265A 2002-03-05 2003-03-05 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법 KR20110008333A (ko)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
US36216102P 2002-03-05 2002-03-05
US36216202P 2002-03-05 2002-03-05
US36217002P 2002-03-05 2002-03-05
US36210302P 2002-03-05 2002-03-05
US36198102P 2002-03-05 2002-03-05
US60/361,981 2002-03-05
US60/362,161 2002-03-05
US60/362,170 2002-03-05
US60/362,103 2002-03-05
US60/362,162 2002-03-05

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7013890A Division KR20040096662A (ko) 2002-03-05 2003-03-05 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께이용하기 위한 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020127017128A Division KR101402551B1 (ko) 2002-03-05 2003-03-05 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법

Publications (1)

Publication Number Publication Date
KR20110008333A true KR20110008333A (ko) 2011-01-26

Family

ID=29424853

Family Applications (3)

Application Number Title Priority Date Filing Date
KR10-2004-7013890A KR20040096662A (ko) 2002-03-05 2003-03-05 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께이용하기 위한 방법
KR1020107028265A KR20110008333A (ko) 2002-03-05 2003-03-05 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법
KR1020127017128A KR101402551B1 (ko) 2002-03-05 2003-03-05 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR10-2004-7013890A KR20040096662A (ko) 2002-03-05 2003-03-05 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께이용하기 위한 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020127017128A KR101402551B1 (ko) 2002-03-05 2003-03-05 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법

Country Status (6)

Country Link
EP (1) EP1483591A2 (ko)
JP (1) JP2005520211A (ko)
KR (3) KR20040096662A (ko)
AU (1) AU2003263733A1 (ko)
CA (1) CA2477767A1 (ko)
WO (1) WO2003096031A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012001269A1 (de) 2011-01-27 2012-08-02 Lg Electronics Inc. Solarzellenpaneel

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019091B2 (en) 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US9066186B2 (en) 2003-01-30 2015-06-23 Aliphcom Light-based detection for acoustic applications
US9099094B2 (en) 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
JP2007171637A (ja) * 2005-12-22 2007-07-05 Toshiba Tec Corp 音声処理装置
JP2008042740A (ja) * 2006-08-09 2008-02-21 Nara Institute Of Science & Technology 非可聴つぶやき音声採取用マイクロホン
US8718290B2 (en) * 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US9384759B2 (en) * 2012-03-05 2016-07-05 Malaspina Labs (Barbados) Inc. Voice activity detection and pitch estimation
US9437213B2 (en) 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
US9015044B2 (en) 2012-03-05 2015-04-21 Malaspina Labs (Barbados) Inc. Formant based speech reconstruction from noisy signals
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
US9530433B2 (en) * 2014-03-17 2016-12-27 Sharp Laboratories Of America, Inc. Voice activity detection for noise-canceling bioacoustic sensor
US9311928B1 (en) * 2014-11-06 2016-04-12 Vocalzoom Systems Ltd. Method and system for noise reduction and speech enhancement
US20170150254A1 (en) * 2015-11-19 2017-05-25 Vocalzoom Systems Ltd. System, device, and method of sound isolation and signal enhancement
CN107742522B (zh) * 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
CN107910011B (zh) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
EP3575811A1 (en) * 2018-05-28 2019-12-04 Koninklijke Philips N.V. Optical detection of a communication request by a subject being imaged in the magnetic resonance imaging system
CN110875052A (zh) * 2018-08-31 2020-03-10 深圳市优必选科技有限公司 机器人的语音去噪方法、机器人装置以及存储装置
US11011182B2 (en) * 2019-03-25 2021-05-18 Nxp B.V. Audio processing system for speech enhancement
EP3800640A4 (en) * 2019-06-21 2021-09-29 Shenzhen Goodix Technology Co., Ltd. VOICE DETECTION METHOD, VOICE DETECTION DEVICE, VOICE PROCESSING CHIP AND ELECTRONIC DEVICE
CN111613236A (zh) * 2020-04-21 2020-09-01 明峰医疗系统股份有限公司 一种ct语音降噪方法
CN113223547B (zh) * 2021-04-30 2024-05-24 杭州网易智企科技有限公司 双讲检测方法、装置、设备和介质
WO2023210452A1 (ja) * 2022-04-25 2023-11-02 ソニーグループ株式会社 ヒアリングデバイス、イヤーピース、プログラムおよび制御方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3522954B2 (ja) * 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
JP2000312395A (ja) * 1999-04-28 2000-11-07 Alpine Electronics Inc マイクロホンシステム
US20020039425A1 (en) * 2000-07-19 2002-04-04 Burnett Gregory C. Method and apparatus for removing noise from electronic signals

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012001269A1 (de) 2011-01-27 2012-08-02 Lg Electronics Inc. Solarzellenpaneel

Also Published As

Publication number Publication date
AU2003263733A8 (en) 2003-11-11
CA2477767A1 (en) 2003-11-20
JP2005520211A (ja) 2005-07-07
EP1483591A2 (en) 2004-12-08
WO2003096031A2 (en) 2003-11-20
AU2003263733A1 (en) 2003-11-11
KR20120081639A (ko) 2012-07-19
KR20040096662A (ko) 2004-11-16
KR101402551B1 (ko) 2014-05-30
WO2003096031A3 (en) 2004-04-08
WO2003096031A9 (en) 2004-06-10

Similar Documents

Publication Publication Date Title
KR101402551B1 (ko) 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법
US20030179888A1 (en) Voice activity detection (VAD) devices and methods for use with noise suppression systems
TWI281354B (en) Voice activity detector (VAD)-based multiple-microphone acoustic noise suppression
ES2775799T3 (es) Método y aparato para la mejora multisensorial del habla en un dispositivo móvil
JP6034793B2 (ja) オーディオ信号生成システム及び方法
US10218327B2 (en) Dynamic enhancement of audio (DAE) in headset systems
KR101532153B1 (ko) 음성 활동 검출 시스템, 방법, 및 장치
JP6031041B2 (ja) 複数のオーディオセンサを有する装置とその動作方法
TW200305854A (en) Microphone and voice activity detection (VAD) configurations for use with communication system
CA2798512A1 (en) Vibration sensor and acoustic voice activity detection system (vads) for use with electronic systems
CN114762360A (zh) 入耳检测
EP2567377A1 (en) Wind suppression/replacement component for use with electronic systems
CN109920451A (zh) 语音活动检测方法、噪声抑制方法和噪声抑制系统
CN110931027A (zh) 音频处理方法、装置、电子设备及计算机可读存储介质
Kalgaonkar et al. Ultrasonic doppler sensor for voice activity detection
Dupont et al. Combined use of close-talk and throat microphones for improved speech recognition under non-stationary background noise
CN113963699A (zh) 一种金融设备智能语音交互方法
TW200304119A (en) Voice activity detection (VAD) devices and methods for use with noise suppression systems
JP5249431B2 (ja) 信号経路を分離する方法及び電気喉頭を使用して音声を改良するための使用方法
Radha et al. A Study on Alternative Speech Sensor
Li et al. Towards Pitch-Insensitive Speaker Verification via Soundfield
WO2021239254A1 (en) A own voice detector of a hearing device

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
A107 Divisional application of patent
B601 Maintenance of original decision after re-examination before a trial
WITB Written withdrawal of application
J301 Trial decision

Free format text: TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20120601

Effective date: 20120821