KR20100075976A - 다수의 마이크로폰 음성 활동 검출기 - Google Patents

다수의 마이크로폰 음성 활동 검출기 Download PDF

Info

Publication number
KR20100075976A
KR20100075976A KR1020107009383A KR20107009383A KR20100075976A KR 20100075976 A KR20100075976 A KR 20100075976A KR 1020107009383 A KR1020107009383 A KR 1020107009383A KR 20107009383 A KR20107009383 A KR 20107009383A KR 20100075976 A KR20100075976 A KR 20100075976A
Authority
KR
South Korea
Prior art keywords
speech
reference signal
noise
voice activity
characteristic value
Prior art date
Application number
KR1020107009383A
Other languages
English (en)
Other versions
KR101265111B1 (ko
Inventor
송 왕
사미르 쿠말 구푸타
에디 엘. 티. 초이
Original Assignee
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 콸콤 인코포레이티드 filed Critical 콸콤 인코포레이티드
Publication of KR20100075976A publication Critical patent/KR20100075976A/ko
Application granted granted Critical
Publication of KR101265111B1 publication Critical patent/KR101265111B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Push-Button Switches (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

다수의 마이크로폰들을 이용하는 음성 활동 검출이 대화 기준 마이크로폰 및 잡음 기준 마이크로폰 각각의 에너지 사이의 관계에 기반할 수 있다. 대화 기준 마이크로폰 및 잡음 기준 마이크로폰 각각으로부터의 에너지 출력이 결정될 수 있다. 대화 대 잡음 에너지 비가 결정되고 미리결정된 음성 활동 임계값에 대해 비교된다. 다른 실시예에서, 대화의 상관 및 자동상관의 절대값 및/또는 잡음 기준 신호들의 자동상관의 절대값이 결정되고, 상관값들에 기반한 비가 결정된다. 미리결정된 임계값을 초과하는 비들은 음성 신호의 존재를 표시한다. 대화 및 잡음 에너지들 또는 상관들은 이산 프레임 크기를 통해 또는 가중된 평균을 이용하여 결정될 수 있다.

Description

다수의 마이크로폰 음성 활동 검출기{MULTIPLE MICROPHONE VOICE ACTIVITY DETECTOR}
본 출원은 2006년 10월 20일에 출원되고, 미국 출원 번호 11/551,509 인, "Enhancement Techniques for Blind source Separation"(대리인 서류 번호 061193) 및 "Apparatus and Method of Noise and Echo Reduction in Multiple Microphone Audio Systems" (대리인 서류 번호 061521)인, 본 출원과 함께 출원된 출원들과 관련된다.
본 명세서는 오디오 프로세싱 분야에 관련된다. 특히, 본 출원은 다수의 마이크로폰을 이용한 음성 활동 검출과 관련된다.
음성 활동 검출기들과 같은, 신호 활동 검출기들은 전자 장치에서 불필요한 프로세싱의 양을 최소화하기 위해 사용될 수 있다. 음성 활동 검출기는 마이크로폰에 따르는 하나 이상의 프로세싱 단계들을 선택적으로 제어할 수 있다.
예를 들어, 레코딩 장치는 잡음 신호의 프로세싱 및 레코딩을 최소화하기 위해 음성 활동 검출기를 구현할 수 있다. 음성 활동 검출기는 음성 활동이 없는 기간 동안 신호 프로세싱 및 레코딩을 디-에너자이즈(de-energize)하거나 또는 동작해제(deactivate)할 수 있다. 유사하게, 이동 전화기, 개인 휴대용 단말기, 또는 랩탑과 같은 통신 장치는 잡음 신호들에 할당된 프로세싱 전력을 감소시키고 우너격 수신 장치로 전송되거나 또는 통신되는 음성 신호들을 감소시키기 위해 음성 활동 검출기를 구현할 수 있다. 음성 활동 검출기는 음성 활동이 없는 기간동안 음성 처리 및 전송을 디-에너자이즈하거나 동작해제한다.
만족스럽게 동작하는 음성 활동 검출기의 능력은 잡음 조건들의 변화 또는 매우 큰 잡음 에너지를 갖는 잡음 조건에 의해 방해받을 수 있다. 음성 활동 검출기의 성능은 모바일 장치에 장착되는 경우 더 복잡해질 수 있으며, 이는 동적인 잡음 환경 대문이다. 이동 장치는 상대적으로 잡음 없는 환경에서 동작하거나 실질적으인 잡은 조건 하에서 동작할 수 있으며, 잡음 에너지는 음성 에너지의 단위이다.
동적 잡음 환경의 존재는 음성 활동 검출을 복잡하게 한다. 음성 활동의 오류 표시는 잡음 신호들의 프로세싱 및 전송을 야기할 수 있다. 잡음 신호들의 프로세싱 및 전송은, 특히 잡음 전송 기간이 음성 활동 검출기에 의해 음성 활동이 부족하다는 표시로 인해 비활성 기간 내에 산재하는 경우 불량한 사용자 경험을 생성할 수 있다.
역으로, 불량한 음성 활동 검출은 음성 신호의 실질적인 부분의 손실을 야기한다. 음성 활동의 초기 부분의 손실은 사용자가 스피치의 부분들을 주기적으로 반복해야 할 필요가 있도록 하며, 이는 바람직하지 않은 조건이다.
통상적인 음성 활동 검출(VAD) 알고리즘은 하나의 마이크로폰 신호만을 사용한다. 초기 VAD 알고리즘들은 에너지 기반 기준을 사용한다. 이러한 타입의 알고리즘은 음성 활동에 대한 결정을 수행하기 위해 임계값을 추정한다. 단일 마이크로폰 VAD는 고정적인 잡음에 대해 잘 동작한다. 그러나, 단일 마이크로폰 VAD는 비-고정적 잡음을 다루는데 어려움을 겪는다.
다른 VAD 기술은 신호들의 제로-크로싱을 카운트하고 제로-크로싱의 레이트에 기반하여 음성 활동 결정을 수행한다. 이 방법은 배경 잡음이 비-스피치 신호들일때 잘 동작한다. 배경 신호가 스피치와 같은 신호인 경우, 이 방법은 신뢰성 있는 결정을 수행하는데 실패한다. 핏치(pitch), 포만트(formant) 형태, 캡스트럼(cepstrum) 및 주기성과 같은 다른 특징들이 음성 활동 검출을 위해 사용될 수 있다. 이러한 특징들은 음성 활동 결정을 내리기 위해 검출되고 스피치 신호에 비교된다.
음성 특징들을 이용하는 대신해, 스피치 존재 및 스피치 부재의 통계적 모델들이 음성 활동 결정을 내리기 위해 사용될 수 있다. 이러한 구현에서, 통계적 모델들은 업데이트되고 음성 활동 결정은 통계적 모델들의 가능성에 기반하여 내려진다. 다른 방법은 신호를 전-처리하기 위해 단일 마이크로폰 소스 분리 네트워크를 이용한다. 이 결정은 라그란제(Largrange) 프로그래밍 신경(neural) pxmdnjzm 및 활동 적응 임계값의 평탄화된(smoothened) 오류 신호를 이용하여 내려진다.
다수의 마이크로폰들에 기반한 VAD 알고리즘들이 연구되어왔다. 다수의 마이크로폰 실시예들은 견고한 검출을 달성하기 위해 잡음 억제, 임계치 적응, 및 핏치 검출을 혼합할 수 있다. 실시예는 신호-대-간섭-비(SIR)을 최스피치하기 위해 선형 필터링을 이용한다. 그리고 나서, 방법에 기반한 통계적 모델이 향상된 신호를 이용하여 음성 활동을 검출하기 위해 사용된다. 다른 실시예는 선형 마이크로폰 어레이 및 푸리어 변환들을 사용하여 어레이 출력 벡터의 주파수 도메인 표현을 생성한다. 주파수 도메인 표현은 신호-대-잡음-비(SNR)를 추정하는데 사용될 수 있으며, 미리-결정된 임계값은 스피치 활동을 검출하기 위해 사용될 수 있다. 또 다른 실시예는 MSC(magnitude square coherence) 및 적응 임계값을 사용하여 2-센서 기반 VAD 방법에서 음성 활동을 검출한다.
음성 활동 검출 알고리즘들의 대다수가 계산적으로 비용이 크며 전력 소모 및 연산 복잡성이 고려되는, 모바일 애플리케이션들에 적합하지 않다. 그러나, 모바일 애플리케이션들은 또한 모바일 장치에 흔한 동적인 잡음 환경 및 비-고정적 특성의 일부 때문에 음성 활동 검출 환경에 도전하고 있다.
다수의 마이크로폰들을 이용하는 음성 활동 검출이 대화 기준 마이크로폰 및 잡음 기준 마이크로폰 각각의 에너지 사이의 관계에 기반할 수 있다. 대화 기준 마이크로폰 및 잡음 기준 마이크로폰 각각으로부터의 에너지 출력이 결정될 수 있다. 대화 대 잡음 에너지 비가 결정되고 미리결정된 음성 활동 임계값에 대해 비교된다. 다른 실시예에서, 대화의 상관 및 자동상관의 절대값 및/또는 잡음 기준 신호들의 자동상관의 절대값이 결정되고, 상관값들에 기반한 비가 결정된다. 미리결정된 임계값을 초과하는 비들은 음성 신호의 존재를 표시한다. 대화 및 잡음 에너지들 또는 상관들은 이산 프레임 크기를 통해 또는 가중된 평균을 이용하여 결정될 수 있다.
본 발명의 양상들은 음성 활동을 검출하는 방법을 포함한다. 방법은 대화 기준 마이크로폰으로부터 대화 기준 신호를 수신하는 단계, 상기 대화 기준 마이크로폰과 구별되는(distinct from) 잡음 기준 마이크로폰으로부터 잡음 기준 신호를 수신하는 단계, 상기 대화 기준 신호에 적어도 부분적으로 기반하여 대화 특성 값을 결정하는 단계, 상기 대화 기준 신호 및 상기 잡음 기준 신호에 적어도 부분적으로 기반하여 결합된(combined) 특성 값을 결정하는 단계. 상기 대화 특성 값 및 상기 결합된 특성 값에 적어도 부분적으로 기반하여 음성 활동 메트릭을 결정하는 단계 및 상기 음성 활동 메트릭에 기반하여 음성 활동 상태를 결정하는 단계를 포함한다.
본 발명의 양상들은 음성 활동 검출 방법을 포함한다. 방법은 적어도 하나의 마이크로폰으로부터 대화 기준 신호를 수신하는 단계, 상기 대화 기준 마이크로폰과 구별되는 적어도 하나의 잡음 기준 마이크로폰으로부터 잡음 기준 신호를 수신하는 단계, 상기 대화 기준 신호에 기반하여 자동상관의 절대값을 결정하는 단계, 상기 대화 기준 신호 및 잡음 기준 신호에 기반하여 교차 상관을 결정하는 단계, 상기 대화 기준 신호의 자동상관의 절대값 대 상기 교차 상관의 비에 부분적으로 기반하여 음성 활동 메트릭을 결정하는 단계 및 상기 음성활동 메트릭을 적어도 하나의 임계값에 비교함으로써 음성 활동 상태를 결정하는 단계를 포함한다.
본 발명의 양상들은 음성 활동을 검출하도록 구성되는 장치를 포함한다. 장치는 대화 기준 신호를 출력하도록 구성되는 대화 기준 마이크로폰, 잡음 기준 신호를 출력하도록 구성되는 잡음 기준 마이크로폰, 대화 기준 마이크로폰과 연결되고 대화 특성 값을 결정하도록 구성되는 대화 특성 값 생성기, 기 대화 기준 마이크로폰 및 상기 잡음 기준 마이크로폰에 연결되고 결합된 특성 값을 결정하도록 구성되는 결합된 특성 값 생성기, 대화 특성 값 및 상기 결합된 특성 값에 적어도 부분적으로 기반하여 음성 활동 메트릭을 결정하도록 구성되는 음성 활동 메트릭 모듈, 임계값에 대해 상기 음성 활동 메트릭을 비교하고 음성 활동 상태를 출력하도록 구성되는 비교기를 포함한다.
본 발명의 양상들은 음성 활동을 검출하도록 구성되는 장치를 포함한다. 장치는 대화 기준 신호를 수신하기 위한 수단, 잡음 기준 신호를 수신하기 위한 수단, 상기 대화 기준 신호에 기반하여 자동상관을 결정하기 위한 수단, 상기 대화 기준 신호 및 상기 잡음 기준 신호에 기반하여 교차 상관을 결정하기 위한 수단, 상기 교차 상관에 대한 상기 대화 기준 신호의 상기 자동 상관의 절대 값의 비에 적어도 부분적으로 기반하여 음성 활동 메트릭을 결정하기 위한 수단 및 적어도 하나의 임계값에 상기 음성 활동 메트릭을 비교함으로써 음성 활동 상태를 결정하기 위한 수단을 포함한다.
본 발명의 양상들은 하나 이상의 프로세서들에 의해 사용될 수 있는 명령들을 포함하는, 프로세서 판독가능한 매체를 포함한다. 명령들은 적어도 하나의 대화 기준 마이크로폰으로부터의 대화 기준 신호에 적어도 부분적으로 기반하여 대화 특성 값을 결정하기 위한 명령들, 적어도 하나의 잡음 기준 마이크로폰으로부터 상기 대화 기준 신호 및 잡음 기준 신호에 적어도 부분적으로 기반하여 결합된 특성 값을 결정하기 위한 명령들, 상기 대화 특성 값 및 상기 결합된 특성 값에 적어도 부분적으로 기반하여 음성 활동 메트릭을 결정하기 위한 명령들 및 상기 음성 활동 메트릭에 기반하여 음성 활동을 결정하기 위한 명령들을 포함한다.
본 명세서의 실시예들의 특징들 목적들 및 이점들은 유사한 엘리먼트들이 유사한 참조 번호들을 가지는 도면들과 함께 아래에 설명된 상세한 설명으로부터 더 명확해질 것이다.
도 1은 음성 활동 검출을 가지는 다수의 마이크로폰 모바일 장치를 포함하는 동작 환경의 기능적 블록 다이어그램이다.
도 2는 교정된 다수의 마이크로폰 음성 활동 검출기를 이용한 모바일 장치의 실시예의 단순화된 기능적 블록 다이어그램이다.
도 3은 음성 활동 검출기 및 에코 제거를 이용한 모바일 장치의 실시예의 단순화된 기능적인 블록 다이어그램이다.
도 4A는 신호 향상을 이용한 음성 활동 검출기를 가지는 모바일 장치의 실시예의 단순화된 기능 블록 다이어그램이다.
도 4B는 빔형성을 이용하는 신호 향상의 단순화된 기능적 블록 다이어그램이다.
도 5는 선택적인 신호 향상을 이용한 음성 활동 검출기를 이용한 모바일 장치의 실시예의 단순화된 기능 블록 다이어그램이다.
도 6은 대화 인코딩을 제어하는 음성 활동 검출기를 이용한 모바일 장치의 실시예의 단순화된 기능적 블록 다이어그램이다.
도 7은 음성 활동 검출의 단순화된 방법의 플로우차트이다.
도 8은 교정된 다수의 마이크로폰 음성 활동 검출기 및 신호 향상을 이용한 모바일 장치의 일 실시예에의 단순화된 기능 블록 다이어그램이다.
다수의 마이크로폰을 이용하는 음성 활동 검출(VAD)을 위한 장치 및 방법들이 개시된다. 장치 및 방법들은 입 기준점(mouth reference point; MRP)의 실질적인 인근 필드에서 제 1 세트 또는 그룹의 마이크로폰들을 사용하며, MRP는 신호 소스의 위치로서 간주된다. 제 2 세트 또는 그룹의 마이크로폰들은 실질적으로 감소된 음성 위치에 구성될 수 있다. 이상적으로, 제 2 세트의 마이크로폰들은 제 1 세트의 마이크로폰들과 실질적으로 동일한 잡음 환경에 우치ㅣ하나, 스피치 신호들과 실질적으로 연결되지 않는다. 임의의 모바일 장치들은 이러한 최적 구성을 허용하지 않으며, 오히려 제 1 세트의 마이크로폰들에서 수신된 스피치가 제 2 세트의 마이크로폰들에 의해 수신된 스피치보다 계속하여(consistently) 더 큰 구성을 허용한다.
제 1 세트의 마이크로폰들은 제 2 세트의 마이크로폰들과 비교하여 일반적으로 더 양호한 품질을 가진 스피치 신호를 수신하고 변환한다. 이렇게 하여, 제 1 세트의 마이크로폰들은 스피치 기준 마이크로폰들로 간주될 수 있으며, 제 2 세트의 마이크로폰들은 잡음 기준 마이크로폰들로 간주될 수 있다.
VAD 모듈은 먼저 스피치 기준 마이크로폰들 및 잡음 기준 마이크로폰들 각각에서의 신호들에 기반하여 특성을 결정한다. 스피치 기준 마이크로폰들 및 잡음 기준 마이크로폰들에 대응하는 특성 값들은 음성 활동 검출을 수행하기 위해 사용된다.
예를 들어, VAD 모듈은 스피치 기준 마이크로폰들 및 잡음 기준 마이크로폰들로부터의 신호들 각각의 에너지들을 계산하고, 추정하고 또는 결정한다. 에너지들은 미리결정된 스피치 및 잡음 샘플 시간들에서 계산되거나 스피치 및 잡음 샘플들의 프레임에 기반하여 계산될 수 있다.
다른 예에서, VAD 모듈은 스피치 기준 마이크로폰들 및 잡음 기준 마이크로폰들 각각에서 신호의 자기상관(autocorrelation)을 결정하도록 구성될 수 있다. 자기상관 값들은 미리결정된 샘플 시간에 대응하거나 미리결정된 프레임 인터벌에 걸쳐 계산될 수 있다.
VAD 모듈은 특성 값들의 비에 적어도 부분적으로 기반하여 활성 메트릭을 계산하거나 또는 결정할 수 있다. 일 실시예에서, VAD 모듈은 잡음 기준 마이크로폰들로부터의 에너지에 상대적인 스피치 기준 마이크로론들로부터의 에너지의 비를 결정하도록 구성될 수 있다. VAD 모듈은 잡음 기준 마이크로폰들로부터의 자기상관에 상대적인 음성 기준 마이크로폰들로부터의 자기상관의 비를 결정하도록 구성될 수 있다. 다른 실시예에서, 이전에 설명된 비들 중 하나의 제곱근(square root)은 활성 메트릭으로서 사용된다. VAD는 음성 활동의 존재 또는 부재를 결정하기 위해 미리결정된 임계값에 대해 활동 메트릭을 비교한다.
도 1은 음성 활동 검출을 가지는 다수의 마이크로폰 모바일 장치(110)를 포함하는 동작 환경(100)의 기능적 블록 다이어그램이다. 모바일 장치의 관점에서 설명되었으나, 여기에 설명된 음성 활동 검출 방법들 및 장치는 모바일 장치들에서의 애플리케이션들로 제한되는 것이 아니고, 고정형 장치들, 휴대용 장치들, 모바일 장치들에서 구현될 수 있으며, 호스트 장치가 모바일 또는 고정식인 경우에 동작할 수 있다.
동작 환경(100)은 다수의 마이크로폰 모바일 장치(110)를 도시한다. 다수의 마이크로폰 장치는, 여기서 모바일 장치(110)의 전면에 도시된, 적어도 하나의 스피치 기준 마이크로폰(112), 여기서, 스피치 기준 마이크로폰(112)의 반대의 모바일 장치(110)의 면에 도시된, 적어도 하나의 잡음 기준 마이크로폰(114)을 포함한다.
도 1의 모바일 장치(110)가, 일반적으로 도면들에 도시된 실시예들이, 하나의 스피치 기준 마이크로폰(112) 및 하나의 잡음 기준 마이크로폰(114)을 도시하였으나, 모바일 장치(110)는 스피치 기준 마이크로폰 그룹 또는 잡음 기준 마이크로폰 그룹을 구현할 수 있다. 스피치 기준 마이크로폰 그룹 및 잡음 기준 마이크로폰 그룹 각각은 하나 이상의 마이크로폰들을 포함할 수 있다. 스피치 기준 마이크로폰 그룹은 잡음 기준 마이크로폰 그룹에서 다수의 마이크로폰들과 구별되거나 동일한 다수의 마이크로폰들을 포함할 수 있다.
추가적으로, 잡음 기준 마이크로폰 그룹의 마이크로폰들은 일반적으로 잡음 기준 마이크로폰 그룹의 마이크로폰들로부터 배제되나, 그러나 이는 절대적인 제한은 아니며, 하나 이상의 마이크로폰들은 두 개의 마이크로폰 그룹들 사이에서 공유될 수 있다. 그러나, 잡음 기준 마이크로폰 그룹과 스피치 기준 마이크로폰 그룹의 연합은 적어도 두 개의 마이크로폰들을 포함한다.
스피치 기준 마이크로폰(112)은 잡음 기준 마이크로폰(114)을 가지는 반대편인 모바일 장치(110)의 표면에 존재하는 것으로서 도시된다. 스피치 기준 마이크로폰(112) 및 잡음 기준 마이크로폰(114)의 배치는 임의의 물리적 방향으로 제한되지 않는다. 마이크로폰들의 배치는 일반적으로 잡음 기준 마이크로폰(114)으로부터 스피치 신호들을 고립시키는 능력에 의해 좌우된다.
일반적으로, 두 개의 마이크로폰 그룹들의 마이크로폰들은 모바일 장치(110)의 상이한 위치들에서 마운팅된다. 각각의 마이크로폰은 원하는(desired) 스피치 및 배경 잡음의 조합의 자신의 고유 버전을 수신한다. 스피치 신호는 인근-필드(near-field) 소스들로 가정될 수 있다. 두 개의 마이크로폰 그룹에서의 소리 압력 레벨(sound pressure level: SPL) 마이크로폰들의 위치에 따라 상이할 수 있다. 하나의 마이크로폰이 입 기준점(MRP) 또는 스피치 소스(130)에 더 가까운 경우, 이는 MRP로부터 더 멀게 위치한 다른 마이크로폰 보다 더 높은 SPL을 수신할 수 있다. 더 높은 SPL을 가지는 마이크로폰은 스피치 기준 마이크로폰(112) 또는 1차적 마이크로폰으로 지칭되며, 이는 스피치 기준 신호를 생성하며, 이는 s SP (n)으로서 표시된다. 스피치 소스(130)의 MRP로부터 감소된 SPL을 가지는 마이크로폰은 잡음 기준 마이크로폰(114) 또는 2차적 마이크로폰으로서 지칭되며, 이는 잡음 기준 신호를 생성하며, 이는 s SN (n)으로서 표시된다. 스피치 기준 신호는 일반적으로 배경 잡음을 포함하며, 잡음 기준 신호는 또한 요구되는 스피치를 포함할 수 있음을 유의한다.
모바일 장치(110)는 음성 활동 검출을 포함할 수 있으며, 아래에 더 자세히 설명될 바와 같이, 스피치 소스(130)로부터 스피치 신호의 존재를 결정할 수 있다. 음성 활동 검출의 동작은 동작 환경(100)에 있을 수 있는 잡음 소스들의 수 또는 배치에 의해 복잡해질 수 있다.
모바일 장치(110)로의 잡음 발생(incident)는 크게 상관되지 않는(uncorrelated) 백색 잡음 컴포넌트를 가질 수 있으며, 하나 이상의 유색(colored) 잡음 소스들(예를 들어, 140-1 내지 140-4)을 포함할 수 있다. 추가적으로, 모바일 전화기(110)는, 예를 들어, 출력 트랜스듀서(120)로부터 스피치 잡음 마이크로폰(112) 및 잡음 기준 마이크로폰(114) 중 하나 또는 둘 다로 연결되는 에코(echo) 신호의 형태로 자신이 간섭을 생성할 수 있다.
하나 이상의 유색 잡음 소스들은 각각 모바일 장치(110)와 상대적으로 구별되는 위치 또는 근원으로부터 기원하는 잡음 신호들을 생성할 수 있다. 제 1 잡음 소스(1401-1) 및 제 2 잡음 소스(140-2)는 각각 스피치 기준 마이크로폰(112)에 대해 더 가까이 또는 더 직접적인 경로에 위치할 수 있으며, 제 3 및 제 4 잡음 소스들(140-3 및 140-4)는 잡음 기준 마이크로폰(114)에 대해 더 가까이 또는 더 직접적인 경로에 위치할 수 있다. 추가적으로, 하나 이상의 잡음 소스들(예를 들어, 140-4)은 표면(150)에서 반사되는 또는 모바일 장치(110)로 다수의 경로를 가로지르는 잡음 신호를 생성할 수 있다.
잡음 소스들 각각이 마이크로폰들에 상당한 신호를 기여할 수 있으나. 잡음 소스들(140-1 내지 140-4) 각각은 일반적으로 먼 필드에 위치하며, 따라서, 스피치 기준 마이크로폰(112) 및 잡음 기준 마이크로폰(114) 각각에 대해 실질적으로 유사한 소리 압력 레벨(SPL)들 만큼 기여한다.
각각의 잡음 신호와 연관되는 크기, 위치 및 주파수 응답의 동적인 특성은 음성 활동 검출 프로세스의 복잡성에 기여한다. 추가적으로, 모바일 장치(110)는 일반적으로 배터리로 전력공급되며, 따라서, 음성 활동 검출과 연관되는 전력 소모가 고려될 수 있다.
모바일 장치(110)는 스피치 기준 마이크로폰(112) 및 잡음 기준 마이크로폰(114)으로부터의 신호들 각각을 프로세싱 함으로써 음성 활동 검출을 수행하고 대응하는 스피치 및 잡음 특성 값들을 생성할 수 있다. 모바일 장치(10)는 스피치 및 잡음 특성 값들에 적어도 부분적으로 기반하여 음성 활동 메트릭을 생성하며, 음성 활성 메트릭을 임계값과 비교함으로써 음성활동을 결정할 수 있다.
도 2는 교정된 다수의 마이크로폰 음성 활동 검출기를 이용한 모바일 장치(110)의 실시예의 단순화된 기능적 블록 다이어그램이다. 모바일 장치(110)는 스피치 기준 마이크로폰(112)을 포함하며, 이는 마이크로폰들의 그룹일 수 있으며, 잡음 기준 마이크로폰(114)을 포함하고, 이는 잡음 기준 마이크로폰들의 그룹일 수 있다.
스피치 기준 마이크로폰(112)으로부터의 출력은 제 1 아날로그 대 디지털 변환기(ADC)(212)로 연결될 수 있다. 모바일 장치(110)가 일반적으로 필터링 및 증폭과 같은, 마이크로폰 신호들의 아날로그 프로세싱을 구현하나, 스피치 신호들의 아날로그 프로세싱은 명확성 및 간략성을 위해 도시되지 않는다.
잡음 기준 마이크로폰(114)으로부터의 출력은 제 2 ADC(214)로 연결될 수 있다. 잡음 기준 신호들의 아날로그 프로세싱은 실질적으로 동일한 스펙트럼 응답을 유지하기 위해 일반적으로 스피치 기준 신호들에서 수행되는 아날로그 프로세싱과 실질적으로 동일할 수 있다. 그러나, 아날로그 프로세싱 부분의 스펙트럼 응답은 동일할 필요는 없으며, 이는 교정기(220)가 수정을 제공할 수 있기 때문이다. 추가적으로, 교정기(220)의 모든 또는 일부 기능들은 도 2에 도시된 디지털 프로세싱 보다 아날로그 프로세싱 부분들에서 구현될 수 있다.
제 1 및 제 2 ADC들(212 및 214)는 각각 그들 각각의 신호들을 디지털 표현으로 변환한다. 제 1 및 제 2 ADC들(212 및 214)로부터의 디지털화된 출력은 음성 활동 검출 이전에 스피치 및 잡음 신호 경로들의 스펙트럼 응답을 실질적으로 등화(equalize)하도록 동작하는 교정기(220)에 연결될 수 있다.
교정기(220)는 주파수 선택적 수정을 결정하고 그리고 스피치 신호 경로 또는 잡음 신호 경로와 직렬로 배치된 스칼라/필터(224)를 제어하도록 구성되는 교정 생성기(222)를 포함한다. 교정 생성기(222)는 고정된 교정 응답 커브를 제공하기 위해 스칼라/필터(224)를 제어하도록 구성될 수 있으며, 또는 교정 생성기(222)는 동적 교정 응답 커브를 제공하기 위해 스칼라/필터(224)를 제어하도록 구성될 수 있다. 교정 생성기(222)는 하나 이상의 동작 파라미터들에 기반하여 가변 교정 응답 커브를 제공하기 위해 스칼라/필터(224)를 제어할 수 있다. 예를 들어, 교정 생성기(222)는 신호 전력 검출기(미도시)를 포함하거나 또는 액세스할 수 있으며, 스피치 또는 잡음 전력에 응답하여 스칼라/필터(224)의 응답을 가변할 수 있다. 다른 실시예들은 다른 파라미터들 또는 파라미터들의 조합을 사용할 수 있다.
교정기(220)는 교정 기간 동안 스칼라/필터(224)에 의해 제공되는 교정을 결정하도록 구성될 수 있다. 모바일 장치(110)는 예를 들어, 제조 기간 동안 최초로 교정될 수 있으며, 또는 하나 이상의 이벤트들, 시간들, 또는 이벤트들 및 시간들의 조합에서 교정을 개시할 수 있는 교정 스케줄에 따라 교정될 수 있다. 예를 들어, 교정기(220)는 모바일 장치가 파워 업할때마다 교정을 개시할 수 있으며, 또는 가장 최근 교정 이후로 미리결정된 시간이 경과한 경우에만 파워 업 동안 교정을 개시할 수 있다.
교정 동안, 모바일 장치(110)는 멀리 있는 필드 소스들이 존재하고, 스피치 기준 마이크로폰(112) 또는 잡음 기준 마이크로폰(114)에서 인근 필드 신호들을 경험하지 않는 조건하에 있을 수 있다. 교정 생성기(220)는 각각의 스피치 신호 및 잡음 신호를 모니터링하고 상대 스펙트럼 응답을 결정한다. 교정 생성기(222)는, 스칼라/필터(224)에 적용되는 경우, 스칼라/필터(224)로 하여금 스펙트럼 응답의 상대 차이들에 대해 보상하도록 하는 교정 제어 신호를 생성하거나 또는 특정한다.
스칼라/필터(224)는 증폭, 감쇠(attenuation), 필터링, 또는 스펙트럼 차이들을 실질적으로 보상할 수 있는 임의의 다른 신호 프로세싱을 도입할 수 있다. 스칼라/필터(224)는 잡음 신호의 경로에 위치되는 것으로 도시되었으며, 이는 스칼라/필터가 스피치 신호를 왜곡(distort)되는 것을 방지한다. 그러나, 스칼라/필터(224)의 일부 또는 전부는 스피치 신호 경로에 위치할 수 있으며, 스피치 신호 경로 및 잡음 신호 경로 중 하나 또는 둘 다의 아날로그 및 디지털 신호 경로들에 걸쳐 분배될 수 있다.
교정기(220)는 음성 활동 검출(VAD) 모듈(230)의 각각의 출력에 교정된 스피치 및 잡음 신호들을 연결한다. VAD 모듈(230)은 스피치 특성 값 생성기(232), 잡음 특성 값 생성기(234), 스피치 및 잡음 특성 값들 상에서 동작하는 음성 활동 메트릭 모듈(240), 및 음성 활동 메트릭에 기반하여 음성 활동의 존재 또는 부재를 결정하도록 구성되는 비교기(250)를 포함한다. VAD 모듈(230)은 선택적으로 스피치 기준 신호 및 잡음 기준 신호 둘 다의 조합에 기반하여 특성값을 생성하도록 구성되는 결합된 특성 값 생성기(236)를 포함할 수 있다. 예를 들어, 결합된 특성 값 생성기(236)는 스피치 및 잡음 신호들의 상호 상관을 결정하도록 구성될 수 있다. 상호 상관의 절대값이 취해질 수 있으며, 상호 상관의 컴포넌트들은 제곱될 수 있다.
스피치 특성 값 생성기(232)는 스피치 신호에 저어도 부분적으로 기반하는 값을 생성하도록 구성될 수 있다. 스피치 특성 값 생성기(232)는, 예를 들어, 특정 샘플 시간에서 스피치 신호의 에너지(E SP (n)), 특정 샘플 타임에서 스피치 신호의 자기상관(ρ SP (n)), 또는 스피치 신호의 자기상관 절대값과 같은다른 신호 특성 값들과 같은 특성 값들을 생성하도록 구성될 수 있거나, 또는 자기상관의 컴포넌트들이 취해질 수 있다.
잡음 특성 값 생성기(234)는 상보적인(complementary) 잡음 특성 값을 생성하도록 구성될 수 있다. 즉, 잡음 특성 값 생성기(234)는 스피치 특성 값 생성기(232)가 스피치 에너지 값을 생성하는 경우, 특정 시간에서의 잡음 에너지 값(E NS (n))을 생성하도록 구성될 수 있다. 유사하게, 잡음 특성 값 생성기(234)는 스피치 특성 값 생성기(232)가 스피치 자기상관 값을 생성하는 경우 특정 시간에서 잡음 자기상관 값(ρ NS (n))을 생성하도록 구성될 수 있다. 잡음 자기상관 값의 절대값이 또한 취해질 수 있으며, 또는 잡음 자기상관값이 취해질 수 있다.
음성 활동 메트릭 모듈(240)은 스피치 특성 값, 잡음 특성 값, 그리고 선택적으로 상호 상관 값에 기반하여 음성 활동 메트릭을 생성하도록 구성될 수 있다. 음성 활동 메트릭 모듈(240)은, 예를 들어, 계산적으로 복잡하지 않은 음성 활동 메트릭을 생성하도록 구성될 수 있다. VAD 모듈(230)은 따라서 실질적으로 실시간으로 음성 활동 검출 신호를, 상대적으로 적은 프로세싱 자원들을 사용하여 생성할 수 있다. 하나의 실시예에서, 음성 활동 메트릭 모듈(230)은 하나 이상의 특성 값들의 비 또는 하나 이상의 특성 값들 및 상호 상관 값들의 비 또는 하나 이상의 특성 값들 및 상호 상관 값들의 절대값의 비를 결정하도록 구성될 수 있다.
음성 활동 메트릭 모듈(240)은 음성 활동 매트릭을 하나 이상의 임계값들과 비교함으로써 스피치 활동의 존재를 결정하도록 구성될 수 있는 비교기(250)에 연결할 수 있다. 임계값들 각각은 고정되고, 미리결정된 값일 수 있으며, 또는 하나 이상의 임계값들은 동적 임계값일 수 있다.
하나의 실시예에서, VAD 모듈(230)은 스피치 활동을 결정하기 위해 세 개의 구별되는 상관들을 결정한다. 음성 특성 값 생성기(232)는 스피치 기준 신호의 자동-상관(ρ SP (n))을 생성하고, 잡음 특성 값 생성기(234)는 잡음 기준 신호의 자동-상관(ρ NS (n))을 생성하고, 상호 상관 모듈(236)은 스피치 기준 t니호및 잡음 기준 신호의 절대값들의 교차-상관(ρ C (n))을 생성한다. 여기서 n은 시간 인덱스를 나타낸다. 자나친 지연을 피하기 위해, 상관들은 다음의 식을 이용하여 지수적 윈도우 방법을 이용하여 대략적으로 계산될 수 있다. 자동-상관에 대해, 식은 다음과 같다:
Figure pct00001
교차-상관에 대하여, 식은 다음과 같다:
Figure pct00002
위의 식들에서. ρ(n)은 시간 n에서 상관이다. s(n)은 시간 n에서 스피치 또는 마이크로폰 신호들 중 하나이다. α는 0 에서 1 사이의 상수이다.
Figure pct00003
은 절대값을 나타낸다. 상관은 또한 N의 윈도우 크기를 가지는 제곱 윈도으를 이용하여 다음과 같이 계산될 수 있다:
Figure pct00004
또는
Figure pct00005
VAD 결정은 ρ SP (n), ρ SP (n), 및 ρ C (n)에 기반하여 수행될 수 있다. 일반적으로,
Figure pct00006
다음의 예에서, VAD 결정의 두 개의 카테고리들이 설명된다. 하나는 샘플-기반 VAD 결정 방법이다. 또 다른 것은 프레임-기반 VAD 결정 방법이다. 일반적으로, 자기상관 또는 상호 상관의 절대값을 이용한 것에 기반하는 VAD 결정 방법들은 상호 상관 또는 자기상관의 더 작은 동적 레인지를 허용한다. 동적 레인지의 감소는 VAD 결정 방법들의 더 안정적인 전이들을 허용할 수 있다.
샘플 기반 VAD 결정
VAD 모듈은 시간 n에서 계산된 상관들에 기반하여 시간 n에서 스피치 및 잡음 샘플들의 각각의 짝에 대한 VAD 결정을 수행할 수 있다. 일 예로서, 음성 활동 메트릭 모듈은 세 개의 상관 값들 사이의 관계에 기반하여 음성 활동 메트릭을 결정하도록 구성될 수 있다.
Figure pct00007
T(n)의 양(quantity)은 ρ SP (n), ρ NS (n), ρ C (n) 및 R(n)에 기반하여 결정될 수 있다, 예를 들어,
Figure pct00008
비교기는 R(n) 및 T(n)에 기반하여 VAD 결정을 수행할 수 있다, 예를 들어,
Figure pct00009
특정한 예에서, 음성 활동 메트릭R(n)은 스피치 특성 값 생성기(232)로부터의 스피치 자기상관 값ρ SP (n) 및 상호 상관 모듈(236)로부터의 상호 상관 ρ C (n) 사이의 비로 정의될 수 있다. 시간 n에서, 음성 활동 메트릭은 다음과 같이 정의되는 비일 수 있다:
Figure pct00010
음성 활동 메트릭의 전술한 예에서, 음성 활동 메트릭 모듈(40)은 값을 한정(bound)한다. 음성 활동 모듈(240)은 δ이하로 분모를 한정함으로써 값을 한정하고, 여기서, δ은 0으로 나누는 것을 피하기 위한 작은 양의 숫자이다. 다른 예로서, R(n)은 ρ C (n) 및 ρ NS (n) 사이의 비로서 정의될 수 있다, 예를 들어,
Figure pct00011
특정한 예에서, T(n)은 고정된 임계값일 수 있다. R SP (n)이 요구되는 스피치가 시간 n까지 존재하는 경우 최소 비라고 가정한다. R NS (n)이 요구되는 스피치가 시간 n까지 부재하는 경우 최대 비라고 가정한다. 임계값 T(n)은 R SP (n) 및 R NS (n) 사이에서 결정되거나 또는 선택될 수 있으며, 또는 등가적으로, 다음과 같다:
Figure pct00012
임계값은 또한 가변적일 수 있으며, 요구되는 스피치 및 배경 잡음의 변화에 적어도 부분적으로 기반하여 가변할 수 있다. 이러한 경우에, R SP (n) 및 R NS (n)은 가장 최근의 마이크로폰 신호에 기반하여 결정될 수 있다.
비교기(250)는 음성 활동에 대한 결정을 수행하기 위해 임계값을 음성 활동 메트릭(여기서 비 R(n))에 비교한다. 이러한 특정 예에서, 결정 수행 함수 vad(*,*)은 다음과 같이 정의될 수 있다
Figure pct00013
프레임 기반 VAD 결정
VAD 결정은 또한 샘플들의 전체 프레임이 하나의 VAD 결정을 생성하고 공유하도록 수행될 수 있다. 샘플들의 프레임은 시간 m 및 시간 m + M - 1 사이에서 생성되거나 수신되며, 여기서, M은 프레임 크기를 나타낸다.
일 예로서, 스피치 특성 값 생성기(232), 잡음 특성 값 생성기(234) 및 결합된 특성 값 생성기(236)는 데이터의 전체 프레임의 상관들을 결정할 수 있다. 제곱 윈도우를 사용하여 계산된 상관을 비교하면, 프레임 상관은 시간 m + M -1에서 계산된 상관(즉, ρ(m + M - 1))과 등가이다.
VAD 결정은 두 개의 마이크로폰 신호들의 에너지 또는 자기상관 값들에 기반하여 수행될 수 있다. 유사하게, 음성 활동 메트릭 모듈(240)은 샘플-기반 환경에서 전술한 바와 같이, 관계 R(n)에 기반한 활동 메트릭을 결정할 수 있다. 비교기는 임계값 T(n)에 기반하여 음성 활동 결정에 근거할 수 있다.
신호 향상 이후에 신호들에 기반한 VAD
스피치 기준 신호의 SNR이 낮은 경우에, VAD 결정은 과감한(aggressive) 경향이 있다. 스피치의 온셋(onset) 및 오프셋(offset) 부분은 비-스피치 세그먼트로 분류될 수 있다. 스피치 기준 마이크로폰 및 잡음 기준 마이크로폰으로부터의 신호 레벨들은 바람직한 스피치 신호가 존재하는 경우 유사하며, 전술한 VAD 장치 및 방법들은 신뢰성 있는 VAD 결정을 제공하지 못할 수 있다. 일부 경우에서, 추가적인 신호 향상은 신뢰성 있는 결정을 내리기 위해 VAD를 보조하기 위해 하나 이상의 마이크로폰 신호들에 적용될 수 있다.
신호 향상은 요구되는 스피치 신호를 변경하지 아니하고 스피치 기준 신호의 배경 잡음의 양을 감소하도록 구현될 수 있다. 신호 향상은 또한 배경 잡음을 변경하지 아니하고 잡음 기준 신호에서 스피치의 양 또는 레벨을 감소하도록 구성될 수 있다. 임의의 실시예들에서, 신호 향상은 스피치 기준 향상 및 잡음 기준 향상의 조합을 수행할 수 있다.
도 3은 음성 활동 검출기 및 에코 제거를 이용한 모바일 장치9110)의 실시예의 단순화된 기능적인 블록 다이어그램이다. 모바일 장치(110)는 도 2의 교정기 없이 도시되었으나, 모바일 장치(110)의 에코 제거의 구현은 교정을 제외하지 않는다. 또한, 모바일 장치(110)는 디지털 도메인에서 에코 제거를 구현하나, 에코 제거의 일부 또는 전부는 아날로그 도메인에서 수행될 수 있다.
모바일 장치(110)의 음성 프로세싱 부분은 도 2에 도시된 부분과 실질적으로 유사할 수 있다. 스피치 기준 마이크로폰(112) 또는 마이크로폰들의 그룹은 스피치 신호를 수신하고 SPL을 오디오 신호로부터 전기적 스피치 기준 신호로 변환한다. 제 1 ADC(212)는 알라고르 스피치 기준 신호를 디지털 표현으로 변환한다. 제 1 ADC(121)는 디지털화된 스피치 기준 신호를 제 1 결합기(352)의 제 1 입력에 연결한다.
유사하게, 잡음 기준 마이크로폰(114) 또는 마이크로폰들의 그룹은 잡음 신호들을 수신하고 잡음 기준 신호를 생성한다. 제 2 ADC(214)는 아날로그 잡음 기준 신호를 디지털 표현으로 변환한다. 제 2 ADC(214)는 디지털화된 잡음 기준 신호를 제 2 결합기(354)의 제 1 입력으로 연결한다.
제 1 및 제 2 결합기들(352 및 354)는 모바일 장치(110)의 에코 제거 부분의 일부일 수 있다. 제 1 및 제 2 결합기들(352 및 354)는, 예를 들어, 신호 합산기, 신호 감산기, 커플러, 변조기 등이거나 또는 신호들을 결합하도록 구성되는 임의의 다른 장치일 수 있다.
모바일 장치(10)는 모바일 장치(110)로부터의 오디오 출력으로 인한 에코 신호를 효율적으로 제거하기 위해 에코 제거를 구현할 수 있다. 모바일 장치(110)는 기저대역 프로세서와 같은 신호 소스(미도시)로부터 디지털화된 오디어 출력 신호를 수신하고 디지털화된 오디오 신호를 아날로그 표현들로 변환하는 출력 디지털 대 아날로그 변환기(DAC)(310)를 포함한다. DAC(310)의 출력은 스피커(320)와 같은, 출력 트랜스듀서에 연결될 수 있다. 스피커(320)는 수신기 또는 라우드스피커일 수 있으며, 아날로그 신호를 오디오 신호로 변환하도록 구성될 수 있다. 모바일 장치(110)는 DAC(310) 및 스피커(320) 사이의 하나 이상의 오디오 프로세싱 단계들을 구현할 수 있다. 그러나, 출력 신호 프로세싱 단계들은 간략성을 위해 도시되지 않는다.
디지털 출력 신호는 제 1 에코 제거기(342) 및 제 2 에코 제거기(344)의 입력에 연결될 수 있다. 제 1 에코 제거기(342)는 스피치 기준 신호에 적용되는 에코 제거 신호를 생성하도록 구성될 수 있으며 제 2 에코 제거기는 잡음 기준 신호에 적용되는 에코 제거 신호를 생성하도록 구성될 수 있다.
제 1 에코 제거기(342)의 출력은 제 1 결합기(342)의 제 2 입력에 연결될 수 있다. 제 2 에코 제거기(344)의 출력은 제 2 결합기(344)의 제 2 입력에 연결될 수 있다. 결합기들(352 및 354)는 결합된 신호들을 VAD 모듈(230)로 연결한다. VAD 모듈(230)은 도 2와 관련하여 설명된 방식으로 동작하도록 구성될 수 있다.
에코 저거기들(342 및 344) 각각은 각각의 신호 라인들에서 에코 신호를 감소시키기거나 또는 실질적으로 제거하는 에코 제거 신호를 생성하도록 구성될 수 있다. 각각의 에코 제거기(342 및 344)는 각각의 결합기들(342 및 354)의 출력에 에코 제거된 신호를 샘플링하거 또는 모니터링하는 입력을 포함할 수 있다. 결합기들(342 및 354)로부터의 출력은 상주 에코를 최소화하기 위해 각각의 에코 제거기들(342 및 344)에 의해 사용될 수 있는 에러 피드백 신호로서 동작한다.
각각의 에코 제거기(342 및 344)는, 예를 들어, 증폭기, 감쇄기, 필터, 지연 모듈, 또는 에코 제거 신호를 생성하는 이들의 조합을 포함할 수 있다. 출력 신호 및 에코 신호 사이의 높은 상관은 에코 제거기들(342 및 344)가 더 쉽게 에코 신호를 검출하고 보상하도록 허용한다.
다른 실시예에서, 추가적인 신호 향상은 스피치 기준 마이크로폰들이 임 기준점에 더 가깝다는 가정이 유지되지 않기 때문에 바람직할 수 있다. 예를 들어, 두 개의 마이크로폰들은 서로 가까이 있어서, 두 개의 마이크로폰 사이의 차이가 매우 작을 수 있다. 이러한 경우에, 향상되지 않은 신호는 신뢰성 있는 VAD 결정을 생산하는데 실패할 수 있다. 이러한 경우에, 신호 향상은 VAD 결정을 개선하는 것을 돕기위해 사용될 수 있다.
도 4는 신호 향상을 이용한 음성 활동 검출기를 가지는 모바일 장치(110)의 실시예의 단순화된 기능 블록 다이어그램이다. 전과 같이, 도 2 및 3과 관련하여 설명된 교정 및 에코 제거 기술들 및 장치들 중 하나 또는 둘 다는 신호 향상에 더하여 구현될 수 있다.
모바일 장치(110)는 스피치 신호를 수신하고 SPL을 오디오 신호로 부터 전기적 스피치 기준 신호로 변환하도록 구성되는 마이크로폰들의 그룹 또는 스피치 기준 마이크로폰(112)을 포함한다. 제 1 ADC(212)는 아날로그 스피치 기준 신호를 디지털 표현들로 변환한다. 제 1 ADC(212)는 디지털화한 스피치 기준 신호를 신호 향상 모듈(400)의 제 1 입력에 연결한다.
유사하게, 잡음 기준 마이크로폰(114) 또는 마이크로폰들의 그룹은 잡음 신호들을 수신하고 잡음 기준 신호를 생성한다. 제 2 ADC(214)는 아날로그 잡음 간섭 신호를 디지털 표현으로 변환한다. 제 2 ADC(213)는 디지털화된 잡음 신호를 신호 향상 모듈(400)의 제 2 입력에 연결한다.
신호 향상 모듈(400)은 향상된 스피치 기준 신호 및 향상된 잡음 기준 신호를 생성하도록 구성될 수 있다. 신호 향상 모듈(400)은 향상된 스피치 및 잡음 기준 신호들을 VAD 모듈(230)에 연결한다. VAD 모듈(230)은 향상된 스피치 및 잡음 기준 신호들 상에서 음성 활동 결정을 내리기 위해 동작한다.
빔형성 또는 신호 분리 이후에 신호들에 기반한 VAD
신호 향상 모듈(400)은 센서 지향성(directivity)을 생산하기 위해 적응형 빔형성을 구현하도록 구성될 수 있다. 신호 향상 모듈(400)은 필터들 한 세트를 이용하고 마이크로폰들을 센서들의 어레이로서 취급(treat)하여 적응형 빔형성을 구현한다. 센서 지향성은 다수의 신호 소스들이 존재할때 요구되는 신호를 추출하기 위해 사용될 수 있다. 많은 빔형성 알고리즘들이 센서 지향성을 달성하기 위해 사용가능하다. 빔형성 알고리즘의 인스탠시에이션 또는 빔형성 알고리즘들의 조합은 빔형성기로서 지칭된다. 대-개의 마이크로폰 스피치 통신에서, 빔형성기는 배경 잡음이 감소될 수 있는 향상된 스피치 기준 신호를 생성하기 위해 입 기준점에 센서 방향을 지시하기 위해 사용될 수 있다. 이는 또한 바람직한 스피치가 감소되는 향상된 잡음 기준 신호를 생성할 수 있다.
도 4B는 스피치 및 잡음 기준 마이크로폰들(112 및 114)를 빔형성하는 신호 향상 모듈(400)의 실시예의 단순화된 기능적 블록 다이어그램이다.
신호 향상 모듈(400)은 마이크로폰의 제 1 어레이를 포함하는 스피치 기준 마이크로폰들(112-1 내지 112-n)의 세트를 포함한다. 스피치 기준 마이크로폰들(112-1 내지 112-n) 각각은 자신의 출력을 대응하는 필터(412-1 내지 412-n)에 연결할 수 있다. 필터들(412-1 내지 412-n) 각각은 제 1 빔형성 제어기(420-1)에 의해 제어될 수 있는 응답을 제공한다. 각각의 필터(예를 들어, 412-1)은 가변적인 지연, 스펙트럼 응답, 이득 또는 임의의 다른 파라미터를 제공하기 위해 제어될 수 있다.
제 1 빔형성 제어기(420-1)은 미리결정된 세트의 빔들에 대응하는, 미리결정된 세트의 필터 제어 신호들을 이용하여 구성될 수 있으며, 또는 연속된 방법으로 빔을 효율적으로 조종(steer) 하기 위해 미리결정된 알고리즘에 따라 필터 응답들을 가변하도록 구성될 수 있다.
필터들(412-1 내지 412) 각각은 자신의 필터링된 신호를 제 1 결합기(430-1)의 대응하는 입력으로 출력한다. 제 1 결합기(430-1)의 출력은 빔형성된 스피치 기준 신호일 수 있다.
잡음 기준 신호는 마이크로폰들의 제 2 어레이를 포함하는 잡음 기준 마이크로폰들(114-1 내지 114-k)의 세트를 이용하여 유사하게 빔형성될 수 있다. 잡음 기초 마이크로폰들의 수(k)는 스피치 기준 마이크로폰들의 수(n)과 구별되거나 또는 동일할 수 있다.
도 4B의 모바일 장치(110)가 구별되는 스피치 기준 마이크르폰들(112-1 내지 112-n) 및 잡음 기준 마이크로폰들(114-1 내지 114-k)을 도시하나, 다른 실싱PEmf에서, 스피치 기준 마이크로폰들(112-1 내지 112-n)의 일부 또는 전부는 잡음 기준 마이크로폰들(114-1 내지 114-k)로서 사용될 수 있다. 예를 들어, 스피치 기준 마이크로폰들(112-1 내지 112-n)의 세트는 잡음 기준 마이크로폰들(114-1 내지 114-k)의 세트에 대해 사용되는 동일한 마이크로폰들일 수 있다.
잡음 기준 마이크로폰들(114-1 내지 114-k) 각각은 자신의 출력을 대응하는 필터(414-1 내지 414-k)로 연결한다. 필터들(414-1 내지 414-k) 각각은 제 2 빔형성 제어기(420-2)에 의해 제어될 수 있는 응답을 제공한다. 각각의 필터(예를 들어, 414-1)은 가변적인 지연, 스펙트럼 응답, 이득 또는 임의의 다른 파라미터를 제공하기 위해 제어될 수 있다. 제 2 빔형성 제어기(420-2)는 필터들(414-1 내지 414-k)을 제어하여 미리결정된 이산 적인(dicrete) 수의 빔 구성들을 제공할 수 있으며, 또는 실질적으로 연속적인 방법으로 빔을 조종하도록 구성될 수 있다.
도 4B의 신호 향상 모듈(400)에서, 구별되는 빔형성 제어기들(420-1 및 42002)는 스피치 및 잡음 기준 신호들을 독립적으로 빔형성하기 위해 사용될 수 있다. 그러나, 다른 실시예에서, 단일 빔형성 제어기가 스피치 기준 신호들 및 잡음 기준 신호들 둘 다를 빔형성 하기위해 사용될 수 있다.
신호 향상 모듈(400)은 블라인드 소스 분리를 구현할 수 있다. BSS(Blind source seperation)은 이러한 신호들의 혼합들의 측정치들을 이용하여 독립적인 소스 신호들을 복원(restore)하기 위한 방법이다. 여기서, 용어 "블라인드"는 두개의 이미를 가진다. 첫째로, 기존 신호들 또는 소스 신호들은 알려져 있지 않다. 두 번째로 혼합 프로세스는 알려져 있지 않다. 신호 분리를 달성하기 위해 사용가능한 많은 알고리즘들이 존재한다. 두-개의 마이크로폰 스피치 통신들에서, BSS는 스피치 및 배경 잡음을 분리하기 위해 사용될 수 있다. 신호 분리 이후에, 스피치 기준 신호의 배경 잡음은 어느정도 감소될 수 있으며, 잡음 기준 신호의 스피치는 어느정도 감소될 수 있다.
신호 향상 모듈(400)은, 예를 들어, S. Amari, A. Cichocki 및 H.H. Yang, "A New learing algorithm for blind signal separation", Advanced in Neural Information Processing Systems 8, MIT Press, 1996, L. Molgedey 및 H.G. Schuster, "Separation of mixture of independent signals using time delayed correlations," Phys. Rev. Lett., 72(23): 3634-3637, 1994 또는 L. Parra 및 C. Spence, "Convolutive blind source separation of non-stationary sources", IEEE Trans. on Speech and Audio Processing, 8(3): 320-327, 2000년 5월 중 임의의 하나에 설명된 BSS 방법들 및 장치들 중 하나를 구현할 수 있다.
더 공격적인 신호 향상에 기반한 VAD
때로, 배경 잡음 레벨이 너무나 높아서 신호 SNR이 여전히 빔형성 또는 신호 분리 이후에도 양호하지 않을 수 있다. 이러한 경우, 스피치 기준 신호의 신호 SNR이 추가로 향상될 수 있다. 예를 들어, 신호 향상 모듈(400)은 스피치 기준 신호의 SNR을 추가적으로 향상시키기 위해 스펙트럼 감산을 구현할 수 있다. 잡음 기준 신호는 이러한 경우에 향상될 필요가 있거나 필요가 없다.
신호 향상 모듈은, 예를 들어, S. F. Boll, "Suppression of Acoustic Noise in speech Using Spectral Substraction" IEEE Trans . Acoustics , Speech and Signal Processing, 27(2): 112-120, 1979년 4월, R. Mukai, S. Araki, H. Sawada and S. Makino, Removal of residual crosstalk components in blind source separation using LMS filters, In Proc . of 12 th IEEE Workshop on Neural Networks for Signal Processing, pp. 435-444, Martigny, Switzerland, Sept. 2002, 또는 R. Mukai, S. Araki, H. Sawada and S. Makino, Removal of residual cross-talk components in blind source separation using time-delayed spectral subtraction" In Proc . of ICASSP 2002, pp. 1789-1792, 2002년 5월 중 임의의 하나에 설명된 스펙트럼 감산 방법들 및 장치들 중 하나를 구현할 수 있다.
잠재적 애플리케이션들
여기에 설명된 VAD 방법들 및 장치는 배경 잡음을 억제하기 위해 사용될 수 있다. 아래에 제공된 예들은 가능한 애플리케이션을 망라하는 것이 아니며, 여기에 설명된 다수의-마이크로폰 VAD 장치 및 방법들의 애플리케이션을 제한하지 않는다. 설명된 VAD 방법들 및 장치는 잼재적으로 VAD 결정이 필요하고 다수의 마이크로폰 신호들이 사용가능한 임의의 애플리케이션에서 사용될 수 있다. VAD는 실-시간 신호 프로세싱에 적합하나 오프-라인 신호 프로세싱 애플리케이션들의 잠재적인 구현으로부터 제한되지 않는다.
도 5는 선택적인 신호 향상을 이용한 음성 활동 검출기를 이용한 모바일 장치(110)의 실시예의 단순화된 기능 블록 다이어그램이다. VAD 모듈(230)로부터의 VAD 결정은 사용가능한 이득 증폭기(510)의 이득을 제어하기 위해 사용될 수 있다.
VAD 모듈(230)은 출력 음성 활동 검출 신호를 이득 생성기(520) 또는 제어기의 입력에 연결할 수 있으며, 이는 스피치 기준 신호에 적응되는 이득을 제어하도록 구성된다. 일 실시예에서, 이득 생성기(520)는 가변 이득 증폭기(510)에 의해 적용되는 이득을 제어하도록 구성된다. 가변 이득 증폭기(510)는 디지털 도메인에서 구현되는 것으로 도시되고, 예를 들어, 스케일러, 곱셈기, 쉬프트 레지스터, 레지스터 로테이터, 및 등과 이들의 조합으로서 구현될 수 있다.
일 예로서, 두개의-마이크로폰 VAD에 의해 제어되는 스칼라 이득은 스피치 기준 신호에 적용될 수 있다. 특정한 예에서, 가변 이득 증폭기(510)로부터의 이득은 스피치가 검출되는 경우 1로 설정될 수 있다. 가변 이득 증폭기(510)로부터의 이득은 스피치가 검출되지 않은 경우 1 보다 적게 설정될 수 있다.
가변 이득 증폭기(510)는 디지털 도메인에서 도시되나, 가변 이득은 스피치 기준 마이크로폰으로부터의 신호에 직접 적용될 수 있다. 기변이득은 또한 디지털 도메인의 스피치 기준 신호에 적용되거나 도 5에 도시된 바와 같이 신호 향상 모듈(400)로부터 획득된 향상된 스피치 기준 신호에 적용될 수 있다.
여기에 설명된 VAD 방법들 및 장치는 현대 스피치 코딩을 보조하기 위해 사용될 수 있다. 도 6은 스피치 인코딩을 제어하는 음성 활동 검출기를 이용한 모바일 w장치(110)의 실시예의 단순화된 기능적 블록 다이어그램이다.
도 6의 실시예에서, VAD 모듈(230)은 VAD 결정을 스피치 코더(600)의 제어 입력에 연결한다.
일반적으로 현대 스피치 코더들은 내부 음성 활동 검출기들을 가질 수 있으며, 이는 일반적으로 하나의 마이크로폰으로부터의 신호 또는 향상된 신호를 사용한다. 신호 향상 모듈(400)에 의해 제공된 바와 같은, 두개의-마이크로폰 신호 향상을 이용함으로써, 내부 VAD에 의해 수신된 신호는 기존 마이크로폰 신호보다 더 양호한 SNR을 가질 수 있다. 따라서, 향상된 신호를 이용하는 내부 VAD는 더 신뢰성있는 결정을 수행할 수 있다. 두 개의 신호들을 사용하는, 내부 VAD 및 외부 VAD로부터의 결정을 결합함으로써, 더욱 더 신뢰성있는 VAD 결정을 획득하는 것이 가능하다. 예를 들어, 스피치 코드(600)는 내부 VAD 결정 및 VAD 모듈(230)로부터의 VAD 결정의 논리적 조합을 수행하도록 구성될 수 있다. 스피치 코더(600)는, 예를 들어, 두 신호의 논리적 AND 및 논리적 OR 상에서 동작한다.
도 7은 음성 활동 검출의 단순화된 방법(700)의 플로우차트이다. 방법(700)은 도 2-6과 관련되어 설명된 장치들 및 기술들 중 하나 또는 그 조합으로 도 1의 모바일 장치에 의해 구현된다.
방법(700)은 특정한 실시예들에서 생략될 수 있는 몇몇 선택적인 단계들을 이용하여 설명된다. 또한, 방법(700)은 단지 설명을 위한 목적으로 특정 순서로 수행되는 것으로서 설명되며, 단계들 중 일부는 상이한 순서로 수행될 수 있다.
방법은 블록(710)에서 시작하며, 여기서 모바일 장치는 초기에 교정을 수행한다. 모바일 장치는, 예를 들어, 주파수 선택적 이득, 감쇄, 또는 지연을 도입하여 스피치 기준 및 잡음 기준 신호 경로들의 응답을 실질적으로 등화한다.
교정 이후에 모바일 장치는 블록(722)으로 진행하며 기준 마이크로폰들로부터 스피치 기준 신호를 수신한다. 스피치 기준 신호는 음성 활동의 존재 또는 부재를 포함할 수 있다.
모바일 장치는 블록(724)으로 진행하고 동기에 잡음 기준 마이크로폰으로부터 신호에 깁나하여 교정 모듈로부터의 교정된 잡음 기준 신호를 수신한다. 잡음 기준 마이크로폰은 일반적으로, 스피치 기준 마이크로폰들과 상대적으로 감소된 레벨의 음성신호를 연결하나, 이것이 필수적인 것은 아니다.
모바일 장치는 선택적인 블록(728)로 진행하고, 예를 들어, 모바일 장치가 스피치 및 잡음 기준 신호들 중 하나 또는 둘 다에 연결될 수 있는 오디어 신호를 출력하는 경우, 수신된 스피치 및 잡음 신호들에 대한 에코 제거를 수행한다.
모바일 장치는 블록(730)으로 진행하고 스피치 기준 신호들 및 잡음 기준 신호들의 신호 향상을 선택적으로 수행한다. 모바일 장치는 예를 들어, 물리적 제한으로 인하여 잡음 기준 마이크로폰으로부터 스피치 기준 마이크로폰을 충분히 분리할수 없는 장치들에서의 신호 향상을 포함할 수 있다. 모바일 스테이션이 신호 향상을 수행하는 경우, 계속되는 프로세싱은 향상된 스피치 기준 신호 및 향상된 잡음 기준 신호 상에서 수행될 것이다. 신호 향상이 생략되면, 모바일 장치는 신호 기준 신호 및 잡음 기준 신호 상에서 동작할 수 있다.
모바일 장치는 블록(742)로 진행하고, 스피치 기준 신호에 기반하여 스피치 특성 값들을 결정하고, 계산하고 또는 생성한다. 모바일 장치는 복수의 샘플들에 기반하여, 이전의 샘플들의 가중된 평균에 기반하여, 선 샘플들의 지수적 감쇄에 기반하여 또는 샘플들의 미리결정된 윈도우에 기반하여 특정 샘플과 관련되는 스피치 특성 값을 결정하도록 구성될 수 있다.
일 실시예에서, 모바일 장치는 스피치 기준 신호의 자기상관을 결정하도록 구성될 수 있다. 다른 실시예에서, 모바일 장치는 수신된 신호의 에너지를 결정하도록 구성될 수 있다.
모바일 장치는 블록(744)으로 진행하며, 상보적인 잡음 특성 값을 결정하고, 계싼하고 또는 생성한다. 모바일 스테이션은 일반적으로 스피치 특성 값을 생성하기 위해 사용된 동일한 기술들을 이용하여 잡음 특성 값을 결정한다. 즉, 모바일 장치가 프레임-기반 스피치 특성 값을 결정하면, 모바일 장치는 이와같이 프레임-기반 잡음 특성 값을 결정한다. 유사하게, 모바일 장치가 스피치 특성 값으로서 자기상관을 결정하면, 모바일 장치는 잡음 특성 값으로서 자기상관을 결정한다.
모바일 스테이션은 블롯(746)으로 선택적으로 진행하고, 스피치 기준 신호 및 잡음 기준 신호에 적어도 부분적으로 기반하여 상보적인 결합된 특성 값을 결정하고, 계산하고 또는 생성한다. 예를 들어, 모바일 장치는 두 신호들의 상호 상관을 결정하도록 구성될 수 있다. 다른 실시예들에서, 모바일 장치는, 예를 들어, 음성 활동 메트릭이 결합된 특성 값에 기반하지 않는 경우와 같이, 결합된 특성 값을 결정하는 것을 생략할 수 있다.
모바일 장치는 블록(750)으로 진행하고 스피치 특성 값, 잡음 특성 값, 및 결합된 특성 값 중 하나 이상에 적어도 부분적으로 기반하여 음성 활동 메트릭을 결정하고 계산하고 또는 생성한다. 일 실시예에서, 모바일 장치는 결합된 상호 상관 값에 스피치 자기상관 값의 비를 결정하도록 구성된다. 다른 실시예에서, 모바일 장치는 잡음 에너지 값대 스피치 에너지 값의 비를 결정하도록 구성된다. 모바일 장치는 다른 기술들을 이용하여 다른 활동 메트릭들을 유사하게 결정할 수 있다.
모바일 장치는 블록(760)으로 진행하고 음성 활동 결정을 내리고 또는 음성 활동 상태를 결정한다. 예를 들어, 모바일 장치는 음성 활등 메트릭을 하나 이상의 임계값들에 대해 비교함으로써 음성 활동 결정을 수행할 수 있다. 임계값들은 고정되거나 동적일 수 있다. 일 실시예에서, 모바일 장치는 음성 활동 메트릭이 미리결정된 임계값을 초과하는 경우 음성 활동의 존재를 결정한다.
음성 활동 상태를 결정한 이후에, 모바일 장치는 블록(770)으로 진행하고, 음성 활동 상태에 적어도 부분적으로 기반하여 하나 이상의 파라미터들을 가변하고, 조정하고 또는 수정하거나 제어한다. 예를 들어, 모바일 장치는 음성 활동 상태에 기반하여 스피치 기준 신호 증폭기의 이득을 설정할 수 있으며, 스피치 코더를 제어하기 위해 음성 활동 상태를 사용할 수 있으며, 또는 스피치 코더 상태를 제어하기 위한 다른 VAD 결정과의 조합으로 음성 활동 상태를 사용할 수 있다.
모바일 장치는 결정 블록(780)으로 진행하여 재교정이 요구되는지 여부를 결정한다. 모바일 장치는 하나 이상의 이벤트들 시간 기간들 등 또는 이들의 조합이 경과하면 교정을 수행할 수 있다. 재교정이 요구되면, 모바일 장치는 블록(710)으로 리턴한다. 또는 모바일 장치는 블록(722)으로 리턴하여 음성 활동을 위해 스피치 및 잡음 기준 신호들을 모니터링하는 것을 계속한다.
도 8은 교정된 다수의 마이크로폰 음성 활동 검출기 및 신호 향상을 이용한 모바일 장치(800)의 일 실시예에의 단순화된 기능 블록 다이어그램이다. 모바일 장치(800)는 스피치 및 잡음 기준 마이크로폰들(812 및 814), 스피치 및 잡음 기준 신호들을 디지털 표현으로 변환하기 위한 수단(822 및 824)을 포함한다. 에코를 제거하기 위한 수단은 제거하기 위한 수단으로부터의 출력과 신호(832 및 834)를 결합하기 위한 수단과 함께 동작한다.
에코 제거된 스피치 및 잡음 기준 신호들은 스피치 기준 신호 경로의 스펙트럼 응답을 잡음 기준 신호 경로의 스펙트럼 응답과 실질적으로 유사하도록 하는 교정하기 위한 수단(850)에 연결될 수 있다. 스피치 및 잡음 기준 신호들은 스피치 기준 신호 또는 잡음 기준 신호 중 적어도 하나를 향상키기기 위한 수단(856)에 연결될 수 있다. 향상시키기 위한 수단(856)이 사용되는 경우, 음성 활동 메트릭은 향상된 스피치 기준 신호 또는 향상된 잡음 기준 신호 중 하나에 적어도 부분적으로 기반한다.
음성 활동을 검출하기 위한 수단(860)은 스피치 기준 신호에 기반하여 자기상관을 결정하기 위한 수단, 스피치 기준 신호 및 잡음 기준 신호에 기반하여 상호 상관을 결정하기 위한 수단, 스피치 기준 신호의 자기상관의 상호 상관에 대한 비에 부분적으로 기반하여 음성 활동 메트릭을 결정하기 위한 수단, 음성 활동 메트릭을 적어도 하나의 임계값에 비교함으로써 음성 활동 상태를 결정하기 위한 수단을 포함할 수 있다.
음성 황동 검출 및 음성 활동 상태에 기반하여 모바일 장치의 하나 이상의 부분들의 동작을 가변하는 방법들 및 장치가 여기에 설명된다. 여기에 나타낸 VAD 방법들 및 장치들은 홀로 사용될 수 있으나, 이들은 더 신뢰성 있는 VAD 결정들을 수행하기 위해 일반적인 VAD 방법들 및 장치와 결합될 수 있다. 일 예로서, 개시된 VAD 방법은 음성 활동의 더 신뢰성 있는 검출을 수행하기 위해 제로-크로싱 방법과 결합될 수 있다.
당업자가 회로가 전술한 기능들 중 일부 또는 전부를 구현할 수 있음을 이해할 것임을 알아야 한다. 모든 기능들을 구현하는 하나의 회로가 존재할 수 있다. 도한 모든 기능들을 구현할 수 있는 제 2 회로와 결합하는 회로의 다수의 섹션들이 존재할 수 있다. 일반적으로, 다수의 기능들이 회로에서 구현되는 경우, 이는 집적회로일 수 있다. 현재의 모바일 플랫폼 기술들을 dlyd하여, 집적회로는 적어도 하나의 디지털 신호 프로세서(DSP), 적어도 하나의 DSP들을 제어하거나 그리고/또는 통신하는 적어도 하나의 ARM 프로세서를 포함한다. 회로는 섹션에 의해 설명될 수 있다. 종종 섹션들은 상이한 기능들을 수행하기 위해 재-사용된다. 따라서, 어떠한 회로들이 전술한 설명들의 일부를 포함하는 지를 설명함에 있어서, 당업자는 회로의 제 1 섹션, 제 2 섹션, 제 3 섹션, 제 4 섹션 및 제 5 섹션이 동일한 회로일 수 있으며, 또는 더 큰 회로 또는 회로들의 세트의 일부인 상이한 회로들일 수 있음을 이해할 것이다.
회로는 음성 활동을 검출하도록 구성되며, 회로는 스피치 기준 마이크로폰으로부터 스피치 기준 신호를 수신하도록 적응된다. 동일한 회로, 다른 회로 또는 동일하거나 상이한 회로의 제 2 섹션은 잡음 기준 마이크로폰으로부터 출력 기준 t니호를 수신하도록 구성된다. 또한, 스피치 특성 값을 결정하도록 구성되는, 제 1 섹션에 연결된 스피치 특성 값 생성기를 포함하는 동일한 회로, 상이한 회로 또는 동일하거나 상이한 회로의 제 3섹션이 존재할 수 있다. 제 1 섹션 및 제 2 섹션에 연결되과 결합된 특성 값을 결정하도록 구성되는 결합된 특성 값 생성기를 포함하는 제 4 섹션은 집적회로의 일부일 수 있다. 또한, 상기 스피치 특성 값 및 상기 결합된 특성 값에 적어도 부분적으로 기반하여 음성 활동 메트릭을 결정하도록 구성되는 음성 활동 메트릭 모듈을 포함하는 제 5 섹션은 집적 회로의 부분일 수 있다. 음성 활동 메트릭을 임계값에 대해 비교하고 음성 활동 상태를 출력하기 위해 비교기가 사용될 수 있다. 일반적으로 임의의 섹션들(제 1, 제 2, 제 3, 제 4 또는 제 5)은 집적회로의 부분이거나 집적회로로부터 분리될 수 있다. 즉, 섹션들은 각각 더 큰 회로의 부분이거나, 그들은 각각 개별적 집적 회로이거나 이들의 결합일 수 있다.

Claims (25)

  1. 음성 활동을 검출하는 방법으로서,
    스피치 기준 마이크로폰으로부터 스피치 기준 신호를 수신하는 단계;
    상기 스피치 기준 마이크로폰과 구별되는(distinct from) 잡음 기준 마이크로폰으로부터 잡음 기준 신호를 수신하는 단계;
    상기 스피치 기준 신호에 적어도 부분적으로 기반하여 스피치 특성 값을 결정하는 단계;
    상기 스피치 기준 신호 및 상기 잡음 기준 신호에 적어도 부분적으로 기반하여 결합된(combined) 특성 값을 결정하는 단계;
    상기 스피치 특성 값 및 상기 결합된 특성 값에 적어도 부분적으로 기반하여 음성 활동 메트릭을 결정하는 단계 ― 여기서 상기 스피치 특성 값을 결정하는 단계는 상기 스피치 기준 신호의 자기상관(autocorrelation)의 절대 값을 결정하는 단계를 포함함 ―; 및
    상기 음성 활동 메트릭에 기반하여 음성 활동 상태를 결정하는 단계를 포함하는, 음성 활동을 검출하는 방법.
  2. 제 1 항에 있어서, 상기 스피치 기준 신호 또는 음성 기준 신호 중 적어도 하나를 빔형성(beamforming)하는 단계를 더 포함하는, 음성 활동을 검출하는 방법.
  3. 제 1 항에 있어서, 상기 음성 기준 신호에서 음성 신호 컴포넌트를 향상시키기 위해 상기 스피치 기준 신호 및 잡음 기준 신호에 BSS(Blind Source Separation)을 수행하는 단계를 더 포함하는, 음성 활동을 검출하는 방법.
  4. 제 1 항에 있어서, 상기 스피치 기준 신호 또는 잡음 기준 신호 중 적어도 하나에 스펙트럼 감산(subraction)을 수행하는 단계를 더 포함하는, 음성 활동을 검출하는 방법.
  5. 제 1 항에 있어서, 상기 잡음 기준 신호에 적어도 부분적으로 기반하여 잡음 특성 값을 결정하는 단계를 더 포함하고, 여기서 상기 음성 활동 메트릭은 상기 잡음 특성 값에 적어도 부분적으로 기반하는, 음성 활동을 검출하는 방법.
  6. 제 1 항에 있어서, 상기 스피치 기준 신호는 음성 활동의 존재 또는 부재를 포함하는, 음성 활동을 검출하는 방법.
  7. 제 6 항에 있어서, 상기 자기상관은 특정 시간 인스턴스에서 스피치 기준 에너지와의 선(prior) 자기상관의 가중된 합을 포함하는, 음성 활동을 검출하는 방법.
  8. 제 1 항에 있어서, 상기 스피치 특성 값을 결정하는 단계는 상기 스피치 기준 신호의 에너지를 결정하는 단계를 포함하는, 음성 활동을 검출하는 방법.
  9. 제 1 항에 있어서, 상기 결합된 특성 값을 결정하는 단계는 상기 스피치 기준 신호 및 잡음 기준 신호에 기반하여 상호 상관(cross correlation)을 결정하는 단계를 포함하는, 음성 활동을 검출하는 방법.
  10. 제 1 항에 있어서, 상기 음성 활동 상태를 결정하는 단계는 임계값에 대해 상기 음성 활동 메트릭을 비교하는 단계를 포함하는, 음성 활동을 검출하는 방법.
  11. 제 1 항에 있어서,
    상기 스피치 기준 마이크로폰은 적어도 하나의 스피치 마이크로폰을 포함하고;
    상기 잡음 기준 마이크로폰은 상기 적어도 하나의 스피치 마이크로폰과 구별되는 적어도 하나의 잡음 마이크로폰을 포함하고;
    상기 스피치 특성 값을 결정하는 단계는 상기 스피치 기준 신호에 기반하여 자기상관을 결정하는 단계를 포함하고;
    상기 결합된 특성 값을 결정하는 단계는 상기 스피치 기준 신호 및 상기 잡음 기준 신호에 기반하여 상호 상관을 결정하는 단계를 포함하고;
    상기 음성 활동 메트릭을 결정하는 단계는 상기 상호 상관에 대한 상기 음성 기준 신호의 상기 자기상관의 상기 절대값의 비를 결정하는 것에 적어도 부분적으로 기반하고; 그리고
    상기 음성 활동 상태를 결정하는 단계는 상기 음성 활동 메트릭을 적어도 하나의 임계값에 대해 비교하는 단계를 포함하는, 음성 활동을 검출하는 방법.
  12. 제 11 항에 있어서, 상기 스피치 기준 신호 또는 상기 음성 기준 신호 중 적어도 하나의 신호 향상을 수행하는 단계를 더 포함하고, 상기 음성 활동 메트릭은 향상된 스피치 기준 신호 또는 향상된 잡음 기준 신호 중 하나에 적어도 부분적으로 기반하는, 음성 활동을 검출하는 방법.
  13. 제 11 항에 있어서, 상기 음성 활동 상태에 기반하여 동작 파라미터를 가변(vary)하는 단계를 더 포함하는, 음성 활동을 검출하는 방법.
  14. 제 13 항에 있어서, 상기 동작 파라미터는 상기 스피치 기준 신호에 적용되는 이득을 포함하는, 음성 활동을 검출하는 방법.
  15. 제 13 항에 있어서, 상기 동작 파라미터는 상기 스피치 기준 신호 상에서 동작하는 스피치 코더의 상태를 포함하는, 음성 활동을 검출하는 방법.
  16. 음성 활동을 검출하도록 구성되는 장치로서,
    스피치 기준 신호를 출력하도록 구성되는 스피치 기준 마이크로폰;
    잡음 기준 신호를 출력하도록 구성되는 잡음 기준 마이크로폰;
    상기 스피치 기준 마이크로폰과 연결되고 스피치 특성 값을 결정하도록 구성되는 스피치 특성 값 생성기 ― 여기서 상기 스피치 특성 값을 결정하는 것은 상기 스피치 기준 신호의 상기 자기상관의 절대값을 결정하는 것을 포함함 ―;
    상기 스피치 기준 마이크로폰 및 상기 잡음 기준 마이크로폰에 연결되고 결합된 특성 값을 결정하도록 구성되는 결합된 특성 값 생성기;
    상기 스피치 특성 값 및 상기 결합된 특성 값에 적어도 부분적으로 기반하여 음성 활동 메트릭을 결정하도록 구성되는 음성 활동 메트릭 모듈; 및
    임계값에 대해 상기 음성 활동 메트릭을 비교하고 음성 활동 상태를 출력하도록 구성되는 비교기를 포함하는, 음성 활동을 검출하도록 구성되는 장치.
  17. 제 16 항에 있어서, 상기 스피치 기준 마이크로폰은 복수의 마이크로폰들을 포함하는, 음성 활동을 검출하도록 구성되는 장치.
  18. 제 16 항에 있어서, 상기 스피치 특성 값 생성기는 이전 스피치 특성 값들의 지수적 감쇠(exponential decay)에 기반하여 가중된 평균을 결정하도록 구성되는, 음성 활동을 검출하도록 구성되는 장치.
  19. 제 16 항에 있어서, 상기 결합된 특성 값 생성기는 상기 스피치 기준 신호 및 상기 잡음 기준 신호에 기반하여 상호 상관을 결정하도록 구성되는, 음성 활동을 검출하도록 구성되는 장치.
  20. 제 16 항에 있어서, 상기 음성 활동 메트릭 모듈은 상기 잡음 특성 값에 대한 상기 스피치 특성 값의 비를 결정하도록 구성되는, 음성 활동을 검출하도록 구성되는 장치.
  21. 음성 활동을 검출하도록 구성되는 장치로서,
    스피치 기준 신호를 수신하기 위한 수단;
    잡음 기준 신호를 수신하기 위한 수단;
    상기 스피치 기준 신호에 기반하여 자기상관을 결정하기 위한 수단;
    상기 스피치 기준 신호 및 상기 잡음 기준 신호에 기반하여 상호 상관을 결정하기 위한 수단;
    상기 상호 상관에 대한 상기 스피치 기준 신호의 상기 자기상관의 절대 값의 비에 적어도 부분적으로 기반하여 음성 활동 메트릭을 결정하기 위한 수단; 및
    적어도 하나의 임계값에 대하여 상기 음성 활동 메트릭을 비교함으로써 음성 활동 상태를 결정하기 위한 수단을 포함하는, 음성 활동을 검출하도록 구성되는 장치.
  22. 제 21 항에 있어서, 스피치 기준 신호 경로의 스펙트럼 응답을 잡음 기준 신호 경로의 스펙트럼 응답에 실질적으로 유사하도록 조정(calibrate)하기 위한 수단을 더 포함하는, 음성 활동을 검출하도록 구성되는 장치.
  23. 하나 이상의 프로세서들에 의해 사용될 수 있는 명령들을 포함하는, 컴퓨터-판독가능한 매체로서,
    적어도 하나의 스피치 기준 마이크로폰으로부터의 스피치 기준 신호에 적어도 부분적으로 기반하여 스피치 특성 값을 결정하기 위한 명령들 ― 상기 스피치 특성 값을 결정하는 것은 상기 스피치 기준 신호의 자기상관의 절대 값을 결정하는 것을 포함함 ―;
    적어도 하나의 잡음 기준 마이크로폰으로부터 상기 스피치 기준 신호 및 잡음 기준 신호에 적어도 부분적으로 기반하여 결합된 특성 값을 결정하기 위한 명령들;
    상기 스피치 특성 값 및 상기 결합된 특성 값에 적어도 부분적으로 기반하여 음성 활동 메트릭을 결정하기 위한 명령들; 및
    상기 음성 활동 메트릭에 기반하여 음성 활동 상태를 결정하기 위한 명령들을 포함하는, 컴퓨터-판독가능한 매체.
  24. 음성 활동을 검출하도록 구성되는 회로로서.
    스피치 기준 마이크로폰으로부터 출력 스피치 기준 신호를 수신하도록 적응되는 제 1 섹션;
    잡음 기준 마이크로폰으로부터 출력 기준 신호를 수신하도록 적응되는 제 2 섹션;
    상기 제 1 섹션 연결되고 스피치 특성 값을 결정하도록 구성되는 스피치 특성 값 생성기를 포함하는 제 3 섹션 ― 여기서 상기 스피치 특성 값을 결정하는 것은 상기 스피치 기준 신호의 상기 자기상관의 절대값을 결정하는 것을 포함함 ―;
    상기 제 1 섹션 및 상기 제 2 섹션에 연결되고 결합된 특성 값을 결정하도록 구성되는 결합된 특성 값 생성기를 포함하는 제 4 섹션;
    상기 스피치 특성 값 및 상기 결합된 특성 값에 적어도 부분적으로 기반하여 음성 활동 메트릭을 결정하도록 구성되는 음성 활동 메트릭 모듈을 포함하는 제 5 섹션; 및
    임계값에 대해 상기 음성 활동 메트릭을 비교하고 음성 활동 상태를 출력하도록 구성되는 비교기를 포함하는, 음성 활동을 검출하도록 구성되는 회로.
  25. 제 24 항에 있어서, 상기 제 1 섹션, 제 2 섹션, 제 3 섹션, 제 4 섹션 및 제 5 섹션으로 구성되는 그룹에서 임의의 두 개의 섹션들은 유사한 회로를 포함하는, 음성 활동을 검출하도록 구성되는 회로.
KR1020107009383A 2007-09-28 2008-09-26 다수의 마이크로폰 음성 활동 검출기 KR101265111B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/864,897 2007-09-28
US11/864,897 US8954324B2 (en) 2007-09-28 2007-09-28 Multiple microphone voice activity detector

Publications (2)

Publication Number Publication Date
KR20100075976A true KR20100075976A (ko) 2010-07-05
KR101265111B1 KR101265111B1 (ko) 2013-05-16

Family

ID=40002930

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107009383A KR101265111B1 (ko) 2007-09-28 2008-09-26 다수의 마이크로폰 음성 활동 검출기

Country Status (12)

Country Link
US (1) US8954324B2 (ko)
EP (1) EP2201563B1 (ko)
JP (1) JP5102365B2 (ko)
KR (1) KR101265111B1 (ko)
CN (1) CN101790752B (ko)
AT (1) ATE531030T1 (ko)
BR (1) BRPI0817731A8 (ko)
CA (1) CA2695231C (ko)
ES (1) ES2373511T3 (ko)
RU (1) RU2450368C2 (ko)
TW (1) TWI398855B (ko)
WO (1) WO2009042948A1 (ko)

Families Citing this family (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280072B2 (en) 2003-03-27 2012-10-02 Aliphcom, Inc. Microphone array with rear venting
US8019091B2 (en) 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US8326611B2 (en) * 2007-05-25 2012-12-04 Aliphcom, Inc. Acoustic voice activity detection (AVAD) for electronic systems
US9066186B2 (en) 2003-01-30 2015-06-23 Aliphcom Light-based detection for acoustic applications
US8477961B2 (en) * 2003-03-27 2013-07-02 Aliphcom, Inc. Microphone array with rear venting
US9099094B2 (en) 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8503686B2 (en) 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US8321213B2 (en) * 2007-05-25 2012-11-27 Aliphcom, Inc. Acoustic voice activity detection (AVAD) for electronic systems
US8046219B2 (en) * 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system
EP2081189B1 (en) * 2008-01-17 2010-09-22 Harman Becker Automotive Systems GmbH Post-filter for beamforming means
US8554551B2 (en) 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
US8812309B2 (en) * 2008-03-18 2014-08-19 Qualcomm Incorporated Methods and apparatus for suppressing ambient noise using multiple audio signals
US9113240B2 (en) * 2008-03-18 2015-08-18 Qualcomm Incorporated Speech enhancement using multiple microphones on multiple devices
US8184816B2 (en) * 2008-03-18 2012-05-22 Qualcomm Incorporated Systems and methods for detecting wind noise using multiple audio sources
US8606573B2 (en) * 2008-03-28 2013-12-10 Alon Konchitsky Voice recognition improved accuracy in mobile environments
EP2107553B1 (en) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Method for determining barge-in
US8244528B2 (en) * 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
WO2009130388A1 (en) * 2008-04-25 2009-10-29 Nokia Corporation Calibrating multiple microphones
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
CN101983402B (zh) * 2008-09-16 2012-06-27 松下电器产业株式会社 声音分析装置、方法、系统、合成装置、及校正规则信息生成装置、方法
US8724829B2 (en) * 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
US8229126B2 (en) * 2009-03-13 2012-07-24 Harris Corporation Noise error amplitude reduction
US9049503B2 (en) * 2009-03-17 2015-06-02 The Hong Kong Polytechnic University Method and system for beamforming using a microphone array
US8620672B2 (en) * 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
WO2011049516A1 (en) * 2009-10-19 2011-04-28 Telefonaktiebolaget Lm Ericsson (Publ) Detector and method for voice activity detection
EP2339574B1 (en) * 2009-11-20 2013-03-13 Nxp B.V. Speech detector
US20110125497A1 (en) * 2009-11-20 2011-05-26 Takahiro Unno Method and System for Voice Activity Detection
US8462193B1 (en) * 2010-01-08 2013-06-11 Polycom, Inc. Method and system for processing audio signals
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
TWI408673B (zh) * 2010-03-17 2013-09-11 Issc Technologies Corp Voice detection method
CN102201231B (zh) * 2010-03-23 2012-10-24 创杰科技股份有限公司 语音侦测方法
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
JP5575977B2 (ja) * 2010-04-22 2014-08-20 クゥアルコム・インコーポレイテッド ボイスアクティビティ検出
US9378754B1 (en) * 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
CN101867853B (zh) * 2010-06-08 2014-11-05 中兴通讯股份有限公司 基于传声器阵列的语音信号处理方法及装置
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
US20120114130A1 (en) * 2010-11-09 2012-05-10 Microsoft Corporation Cognitive load reduction
ES2740173T3 (es) * 2010-12-24 2020-02-05 Huawei Tech Co Ltd Un método y un aparato para realizar una detección de actividad de voz
EP2619753B1 (en) * 2010-12-24 2014-05-21 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting voice activity in input audio signal
CN102740215A (zh) * 2011-03-31 2012-10-17 Jvc建伍株式会社 声音输入装置、通信装置、及声音输入装置的动作方法
CN102300140B (zh) * 2011-08-10 2013-12-18 歌尔声学股份有限公司 一种通信耳机的语音增强方法及降噪通信耳机
US9648421B2 (en) 2011-12-14 2017-05-09 Harris Corporation Systems and methods for matching gain levels of transducers
US9064497B2 (en) * 2012-02-22 2015-06-23 Htc Corporation Method and apparatus for audio intelligibility enhancement and computing apparatus
US20130282373A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
JP6028502B2 (ja) 2012-10-03 2016-11-16 沖電気工業株式会社 音声信号処理装置、方法及びプログラム
JP6107151B2 (ja) * 2013-01-15 2017-04-05 富士通株式会社 雑音抑圧装置、方法、及びプログラム
US9107010B2 (en) * 2013-02-08 2015-08-11 Cirrus Logic, Inc. Ambient noise root mean square (RMS) detector
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US9560444B2 (en) * 2013-03-13 2017-01-31 Cisco Technology, Inc. Kinetic event detection in microphones
US9312826B2 (en) 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
CN105379308B (zh) * 2013-05-23 2019-06-25 美商楼氏电子有限公司 麦克风、麦克风系统及操作麦克风的方法
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US9978387B1 (en) * 2013-08-05 2018-05-22 Amazon Technologies, Inc. Reference signal generation for acoustic echo cancellation
US9251806B2 (en) * 2013-09-05 2016-02-02 Intel Corporation Mobile phone with variable energy consuming speech recognition module
CN104751853B (zh) * 2013-12-31 2019-01-04 辰芯科技有限公司 双麦克风噪声抑制方法及系统
CN104916292B (zh) * 2014-03-12 2017-05-24 华为技术有限公司 检测音频信号的方法和装置
US9530433B2 (en) * 2014-03-17 2016-12-27 Sharp Laboratories Of America, Inc. Voice activity detection for noise-canceling bioacoustic sensor
US9516409B1 (en) 2014-05-19 2016-12-06 Apple Inc. Echo cancellation and control for microphone beam patterns
CN104092802A (zh) * 2014-05-27 2014-10-08 中兴通讯股份有限公司 音频信号的消噪方法及系统
US9288575B2 (en) * 2014-05-28 2016-03-15 GM Global Technology Operations LLC Sound augmentation system transfer function calibration
CN105321528B (zh) * 2014-06-27 2019-11-05 中兴通讯股份有限公司 一种麦克风阵列语音检测方法及装置
CN104134440B (zh) * 2014-07-31 2018-05-08 百度在线网络技术(北京)有限公司 用于便携式终端的语音检测方法和语音检测装置
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
US9516159B2 (en) * 2014-11-04 2016-12-06 Apple Inc. System and method of double talk detection with acoustic echo and noise control
TWI616868B (zh) * 2014-12-30 2018-03-01 鴻海精密工業股份有限公司 會議記錄裝置及其自動生成會議記錄的方法
US9685156B2 (en) * 2015-03-12 2017-06-20 Sony Mobile Communications Inc. Low-power voice command detector
US9330684B1 (en) * 2015-03-27 2016-05-03 Continental Automotive Systems, Inc. Real-time wind buffet noise detection
US10242689B2 (en) * 2015-09-17 2019-03-26 Intel IP Corporation Position-robust multiple microphone noise estimation techniques
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
CN105280195B (zh) * 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US10325134B2 (en) 2015-11-13 2019-06-18 Fingerprint Cards Ab Method and system for calibration of an optical fingerprint sensing device
US20170140233A1 (en) * 2015-11-13 2017-05-18 Fingerprint Cards Ab Method and system for calibration of a fingerprint sensing device
CN105609118B (zh) * 2015-12-30 2020-02-07 生迪智慧科技有限公司 语音检测方法及装置
CN106971741B (zh) * 2016-01-14 2020-12-01 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及系统
CN106997768B (zh) * 2016-01-25 2019-12-10 电信科学技术研究院 一种语音出现概率的计算方法、装置及电子设备
KR102468148B1 (ko) 2016-02-19 2022-11-21 삼성전자주식회사 전자 장치 및 전자 장치의 음성 및 잡음 분류 방법
US10510363B2 (en) 2016-03-31 2019-12-17 OmniSpeech LLC Pitch detection algorithm based on PWVT
US10074380B2 (en) * 2016-08-03 2018-09-11 Apple Inc. System and method for performing speech enhancement using a deep neural network-based signal
JP6567478B2 (ja) * 2016-08-25 2019-08-28 日本電信電話株式会社 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置
US10237647B1 (en) * 2017-03-01 2019-03-19 Amazon Technologies, Inc. Adaptive step-size control for beamformer
EP3392882A1 (en) * 2017-04-20 2018-10-24 Thomson Licensing Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
JP2018191145A (ja) * 2017-05-08 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム及びディクテーション方法
US10395667B2 (en) * 2017-05-12 2019-08-27 Cirrus Logic, Inc. Correlation-based near-field detector
CN110582755A (zh) * 2017-06-20 2019-12-17 惠普发展公司,有限责任合伙企业 信号合并器
US11316865B2 (en) 2017-08-10 2022-04-26 Nuance Communications, Inc. Ambient cooperative intelligence system and method
US10957427B2 (en) * 2017-08-10 2021-03-23 Nuance Communications, Inc. Automated clinical documentation system and method
US9973849B1 (en) * 2017-09-20 2018-05-15 Amazon Technologies, Inc. Signal quality beam selection
US10839822B2 (en) * 2017-11-06 2020-11-17 Microsoft Technology Licensing, Llc Multi-channel speech separation
CN109994122B (zh) * 2017-12-29 2023-10-31 阿里巴巴集团控股有限公司 语音数据的处理方法、装置、设备、介质和系统
KR102475989B1 (ko) 2018-02-12 2022-12-12 삼성전자주식회사 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법
US20190272902A1 (en) 2018-03-05 2019-09-05 Nuance Communications, Inc. System and method for review of automated clinical documentation
EP3762921A4 (en) 2018-03-05 2022-05-04 Nuance Communications, Inc. AUTOMATED CLINICAL DOCUMENTATION SYSTEM AND PROCESS
US11250383B2 (en) 2018-03-05 2022-02-15 Nuance Communications, Inc. Automated clinical documentation system and method
US11450307B2 (en) * 2018-03-28 2022-09-20 Telepathy Labs, Inc. Text-to-speech synthesis system and method
AU2019244700B2 (en) 2018-03-29 2021-07-22 3M Innovative Properties Company Voice-activated sound encoding for headsets using frequency domain representations of microphone signals
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US11341987B2 (en) * 2018-04-19 2022-05-24 Semiconductor Components Industries, Llc Computationally efficient speech classifier and related methods
US10847178B2 (en) * 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
CN108632711B (zh) * 2018-06-11 2020-09-04 广州大学 扩声系统增益自适应控制方法
CN112384975A (zh) * 2018-07-12 2021-02-19 杜比实验室特许公司 使用辅助信号的音频装置的传输控制
EP3667662B1 (en) * 2018-12-12 2022-08-10 Panasonic Intellectual Property Corporation of America Acoustic echo cancellation device, acoustic echo cancellation method and acoustic echo cancellation program
CN111294473B (zh) * 2019-01-28 2022-01-04 展讯通信(上海)有限公司 信号处理方法及装置
JP7404664B2 (ja) * 2019-06-07 2023-12-26 ヤマハ株式会社 音声処理装置及び音声処理方法
US11227679B2 (en) 2019-06-14 2022-01-18 Nuance Communications, Inc. Ambient clinical intelligence system and method
US11043207B2 (en) 2019-06-14 2021-06-22 Nuance Communications, Inc. System and method for array data simulation and customized acoustic modeling for ambient ASR
US11216480B2 (en) 2019-06-14 2022-01-04 Nuance Communications, Inc. System and method for querying data points from graph data structures
US11531807B2 (en) 2019-06-28 2022-12-20 Nuance Communications, Inc. System and method for customized text macros
CN112153505A (zh) * 2019-06-28 2020-12-29 中强光电股份有限公司 降噪系统及降噪方法
US11670408B2 (en) 2019-09-30 2023-06-06 Nuance Communications, Inc. System and method for review of automated clinical documentation
CN111049848B (zh) * 2019-12-23 2021-11-23 腾讯科技(深圳)有限公司 通话方法、装置、系统、服务器及存储介质
WO2021226507A1 (en) 2020-05-08 2021-11-11 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
WO2021253235A1 (zh) * 2020-06-16 2021-12-23 华为技术有限公司 语音活动检测方法和装置
US11222103B1 (en) 2020-10-29 2022-01-11 Nuance Communications, Inc. Ambient cooperative intelligence system and method
EP4075822B1 (en) * 2021-04-15 2023-06-07 Rtx A/S Microphone mute notification with voice activity detection
WO2023085749A1 (ko) * 2021-11-09 2023-05-19 삼성전자주식회사 빔포밍을 제어하는 전자 장치 및 이의 동작 방법
CN115831145B (zh) * 2023-02-16 2023-06-27 之江实验室 一种双麦克风语音增强方法和系统

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0161258B1 (ko) 1988-03-11 1999-03-20 프레드릭 제이 비스코 음성활동 검출 방법 및 장치
US5276779A (en) * 1991-04-01 1994-01-04 Eastman Kodak Company Method for the reproduction of color images based on viewer adaption
IL101556A (en) * 1992-04-10 1996-08-04 Univ Ramot Multi-channel signal separation using cross-polyspectra
TW219993B (en) 1992-05-21 1994-02-01 Ind Tech Res Inst Speech recognition system
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5825671A (en) * 1994-03-16 1998-10-20 U.S. Philips Corporation Signal-source characterization system
JP2758846B2 (ja) 1995-02-27 1998-05-28 埼玉日本電気株式会社 ノイズキャンセラ装置
US5694474A (en) 1995-09-18 1997-12-02 Interval Research Corporation Adaptive filter for signal processing and method therefor
FI100840B (fi) 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5774849A (en) 1996-01-22 1998-06-30 Rockwell International Corporation Method and apparatus for generating frame voicing decisions of an incoming speech signal
TW357260B (en) 1997-11-13 1999-05-01 Ind Tech Res Inst Interactive music play method and apparatus
JP3505085B2 (ja) 1998-04-14 2004-03-08 アルパイン株式会社 オーディオ装置
US6526148B1 (en) * 1999-05-18 2003-02-25 Siemens Corporate Research, Inc. Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals
US6694020B1 (en) * 1999-09-14 2004-02-17 Agere Systems, Inc. Frequency domain stereophonic acoustic echo canceller utilizing non-linear transformations
US6424960B1 (en) * 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US7558391B2 (en) * 1999-11-29 2009-07-07 Bizjak Karl L Compander architecture and methods
US6606382B2 (en) 2000-01-27 2003-08-12 Qualcomm Incorporated System and method for implementation of an echo canceller
AU2000251208A1 (en) 2000-06-05 2001-12-17 Nanyang Technological University Adaptive directional noise cancelling microphone system
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
KR100394840B1 (ko) * 2000-11-30 2003-08-19 한국과학기술원 독립 성분 분석을 이용한 능동 잡음 제거방법
US7941313B2 (en) 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
JP3364487B2 (ja) 2001-06-25 2003-01-08 隆義 山本 複合音声データの音声分離方法、発言者特定方法、複合音声データの音声分離装置、発言者特定装置、コンピュータプログラム、及び、記録媒体
JP2003241787A (ja) 2002-02-14 2003-08-29 Sony Corp 音声認識装置および方法、並びにプログラム
GB0204548D0 (en) * 2002-02-27 2002-04-10 Qinetiq Ltd Blind signal separation
US6904146B2 (en) * 2002-05-03 2005-06-07 Acoustic Technology, Inc. Full duplex echo cancelling circuit
JP3682032B2 (ja) 2002-05-13 2005-08-10 株式会社ダイマジック オーディオ装置並びにその再生用プログラム
US7082204B2 (en) 2002-07-15 2006-07-25 Sony Ericsson Mobile Communications Ab Electronic devices, methods of operating the same, and computer program products for detecting noise in a signal based on a combination of spatial correlation and time correlation
US7359504B1 (en) * 2002-12-03 2008-04-15 Plantronics, Inc. Method and apparatus for reducing echo and noise
KR20050115857A (ko) 2002-12-11 2005-12-08 소프트맥스 인코퍼레이티드 안정성 강제하에서 독립 성분 분석을 사용하여 음향을처리하는 시스템 및 방법
JP2004274683A (ja) 2003-03-12 2004-09-30 Matsushita Electric Ind Co Ltd エコーキャンセル装置、エコーキャンセル方法、プログラムおよび記録媒体
WO2005024788A1 (ja) 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
US7099821B2 (en) 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
GB0321722D0 (en) * 2003-09-16 2003-10-15 Mitel Networks Corp A method for optimal microphone array design under uniform acoustic coupling constraints
US20050071158A1 (en) * 2003-09-25 2005-03-31 Vocollect, Inc. Apparatus and method for detecting user speech
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
JP2005227512A (ja) 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 音信号処理方法及びその装置、音声認識装置並びにプログラム
JP2005227511A (ja) 2004-02-12 2005-08-25 Yamaha Motor Co Ltd 対象音検出方法、音信号処理装置、音声認識装置及びプログラム
US8687820B2 (en) 2004-06-30 2014-04-01 Polycom, Inc. Stereo microphone processing for teleconferencing
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
JP4862656B2 (ja) * 2005-01-20 2012-01-25 日本電気株式会社 信号除去方法、信号除去システムおよび信号除去プログラム
WO2006131959A1 (ja) 2005-06-06 2006-12-14 Saga University 信号分離装置
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
JP4556875B2 (ja) 2006-01-18 2010-10-06 ソニー株式会社 音声信号分離装置及び方法
US7970564B2 (en) 2006-05-02 2011-06-28 Qualcomm Incorporated Enhancement techniques for blind source separation (BSS)
US8068619B2 (en) * 2006-05-09 2011-11-29 Fortemedia, Inc. Method and apparatus for noise suppression in a small array microphone system
US7817808B2 (en) * 2007-07-19 2010-10-19 Alon Konchitsky Dual adaptive structure for speech enhancement
US8175871B2 (en) * 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
US8046219B2 (en) * 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system
US8223988B2 (en) * 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures

Also Published As

Publication number Publication date
CN101790752B (zh) 2013-09-04
JP5102365B2 (ja) 2012-12-19
EP2201563A1 (en) 2010-06-30
CA2695231A1 (en) 2009-04-02
ATE531030T1 (de) 2011-11-15
ES2373511T3 (es) 2012-02-06
CN101790752A (zh) 2010-07-28
TW200926151A (en) 2009-06-16
RU2010116727A (ru) 2011-11-10
TWI398855B (zh) 2013-06-11
BRPI0817731A8 (pt) 2019-01-08
JP2010541010A (ja) 2010-12-24
US20090089053A1 (en) 2009-04-02
US8954324B2 (en) 2015-02-10
WO2009042948A1 (en) 2009-04-02
RU2450368C2 (ru) 2012-05-10
KR101265111B1 (ko) 2013-05-16
EP2201563B1 (en) 2011-10-26
CA2695231C (en) 2015-02-17

Similar Documents

Publication Publication Date Title
KR101265111B1 (ko) 다수의 마이크로폰 음성 활동 검출기
US7464029B2 (en) Robust separation of speech signals in a noisy environment
US7983907B2 (en) Headset for separation of speech signals in a noisy environment
US8521530B1 (en) System and method for enhancing a monaural audio signal
US8396234B2 (en) Method for reducing noise in an input signal of a hearing device as well as a hearing device
KR102317686B1 (ko) 잡음 환경에 적응적인 음성 신호 처리방법 및 장치
KR20070050058A (ko) 향상된 잡음 억제를 구비한 전화통신 디바이스
JP6250147B2 (ja) 補聴器システムの信号処理方法および補聴器システム
KR20100009936A (ko) 음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방법
CN110140171B (zh) 使用波束形成的音频捕获
Azarpour et al. Fast noise PSD estimation based on blind channel identification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
E90F Notification of reason for final refusal
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170330

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee