KR101158291B1

KR101158291B1 - 음성 활동 검출 디바이스 및 방법

Info

Publication number: KR101158291B1
Application number: KR1020097026440A
Authority: KR
Inventors: 제 왕
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2007-06-07
Filing date: 2008-05-07
Publication date: 2012-06-20
Also published as: JP5089772B2; EP2159788B1; CN101320559B; ATE540398T1; US20100088094A1; EP2159788A1; WO2008148323A1; KR20100012035A; CN101320559A; JP2010529494A; EP2159788A4; US8275609B2

Abstract

음성 활동 검출(voice activity detection, VAD) 임계값이 배경 잡음 변동에 적응할 수 있는, VAD 디바이스 및 방법을 개시한다. 이 VAD 디바이스는, 입력된 VAD 판정 결과에 따라 현재 신호의 배경 잡음 특성을 분석하고, 배경 잡음 변동에 관련된 파라미터를 취득하며, 상기 취득한 파라미터를 출력하도록 구성된 배경 분석 유닛; 상기 배경 분석 유닛에 의해 출력된 파라미터에 따라 VAD 임계값의 바이어스를 취득하고, 상기 VAD 임계값의 바이어스를 출력하도록 구성된 VAD 임계값 조정 유닛; 및 상기 VAD 임계값 조정 유닛에 의해 출력된 VAD 임계값의 바이어스에 따라 수정될 VAD 임계값을 수정하고, 상기 수정한 VAD 임계값에 따라 배경 잡음 판정을 수행하고, VAD 판정 결과를 출력하도록 구성된 VAD 판정 유닛을 포함한다.

Description

음성 활동 검출 디바이스 및 방법 {DEVICE AND METHOD FOR VOICE ACTIVITY DETECTION}

본 출원은 2007년 6월 7일자로 출원된 중국특허출원 제200710108408.0에 대해 우선권을 주장하여 2008년 5월 7일자로 출원된 국제특허출원 PCT/CN2008/070899호에 계속하는 것이며, 이들 특허문헌 모두의 내용 전부는 원용에 의해 본 명세서에 포함된다.
본 발명은 일반적으로 오디오 신호 처리에 관한 것이며, 더욱 구체적으로는 음성 활동 검출 장치 및 방법에 관한 것이다.

음성 신호 처리 분야에서, 음성 활동(voice activity)을 검출하는 기술이 널리 사용되어 왔다. 이 기술을, 음성 코딩(voice coding) 분야에서는 음성 활동 검출(voice activity detection, VAD)라고 하고; 음성 인식(speech recognition) 분야에서는 음성 종점 검출(speech endpoint dectiton)이라고 하며; 음성 향상(speech enhancement) 분야에서는 음성 휴지 검출(speech pause detection) 검출이라고 한다. 이들 기술은 상이한 시나리오로 상이한 측면에 초점을 맞추고 있으며, 따라서 상이한 처리 결과를 얻는다. 그러나, 본질적으로 이들 기술은 음성 통신의 경우에 또는 언어 자료(corpus) 내에 음성이 존재하는지를 검출하는 데 사용된다. 검출의 정확도는 다음 프로세스(예를 들면, 음성 코딩, 음성 인식 및 음성 향상)의 품질에 직접적인 영향을 미친다.

음성 코딩 기술은 음성 신호의 전송 대역폭을 감소시킬 수 있고 통신 시스템의 용량을 증가시킬 수 있다. 음성 통신에서, 시간의 40%가 음성 신호를 포함하 고, 나머지는 무언(silence) 또는 배경 잡음(background noise)을 포함한다. 따라서, 전송 대역을 절약하기 위해, VAD를 사용하여 배경 잡음과 비잡음 신호(non-noise signal)를 구별할 수 있어, 인코더(encoder)는 배경 잡음과 비잡음 신호를 상이한 비율로 인코딩할 수 있으므로, 평균 비트율(mean bit rate)을 줄일 수 있다. 최근에는, 대규모 조직과 기구에 의해 제정된 모든 음성 코딩 표준은 VAD 기술의 구체적인 애플리케이션을 다룬다.

종래기술에서, 적응성 다중 비율 음성 코덱(adaptive multi-rate speech codec, AMR)에 사용되는 VAD1 및 VAD2와 같은, VAD 알고리즘은 입력 신호의 신호대잡음비(signal noise ratio, SNR)에 따라 현재의 신호 프레임이 잡음 프레임인지를 판단한다. VAD는 추정된 배경 잡음 에너지를 계산하고, 현재 신호 프레임의 에너지 비율을 미리 설정된 임계값을 가지는 배경 잡음의 에너지(즉, SNR)와 비교한다. SNR이 임계값보다 크면, VAD는 현재의 프레임을 비잡음 프레임인 것으로 결정한다. VAD의 분류 결과는 인코더에서 비연속 전송 시스템/편안한 잡음 생성(discontinuous transmission system/comfortable noise generation, DTX/CNG)을 지도하기 위해 사용된다. DTX/CNG의 목적은, 입력 신호가 잡음 구간에 있을 때에만 비연속 코딩 및 전송을 수행하는 것이다. 대역폭을 절약하기 위해, 코딩 및 전송되지 않은 잡음은 디코더에서 내삽(interpolate)된다.

본 발명의 실시 중에, 본 발명자는 종래기술에 다음과 같은 문제점이 있음을 발견하였다: 종래기술의 VAD 알고리즘은 장기 배경 잡음 레벨의 이동 평균(moving average of a long-term background noise level)에 따라 적응되고, 배경 잡음의 변동에 대해 적응되지 않는다는 것을 알았다. 따라서, 적응성(adaptability)이 제한된다.

본 발명의 실시예는, VAD 임계값이 배경 잡음 변동에 적응할 수 있는, VAD 디바이스 및 방법을 제공한다.

본 발명의 실시예에 제공되는 음성 활동 검출(voice activity detection, VAD) 디바이스는,

입력된 VAD 판정 결과에 따라 현재 신호의 배경 잡음 특성을 분석하고, 배경 잡음 변동에 관련된 파라미터를 취득하며, 취득된 파라미터를 출력하도록 구성된 배경 분석 유닛;

상기 배경 분석 유닛에 의해 출력된 파라미터에 따라 VAD 임계값의 바이어스를 취득하고, 상기 VAD 임계값의 바이어스를 출력하도록 구성된 VAD 임계값 조정 유닛; 및

상기 VAD 임계값 조정 유닛에 의해 출력된 VAD 임계값의 바이어스에 따라 수정될 VAD 임계값을 수정하고, 상기 수정한 VAD 임계값을 사용하여 배경 잡음 판정을 수행하고, VAD 판정 결과를 출력하도록 구성된 VAD 판정 유닛을 포함한다.

본 발명에서 제공되는 VAD 방법은,

배경 잡음의 VAD 판정 결과에 따라 현재 신호의 배경 잡음 특성을 분석하고, 배경 잡음 변동(background noise variation)에 관련된 파라미터를 취득하는 단계;

상기 배경 잡음 변동에 관련된 파라미터에 따라 VAD 임계값의 바이어스를 취득하는 단계; 및

상기 VAD 임계값의 바이어스에 따라 수정될 VAD 임계값을 수정하고, 상기 수정한 VAD 임계값을 사용하여 상기 배경 잡음에 대한 VAD 판정을 수행하는 단계를 포함한다.

도 1은 본 발명의 실시예의 VAD 디바이스의 구성을 나타낸 것이다.

도 2는 본 발명의 실시예의 VAD 방법의 흐름도이다.

이하에서는 본 발명의 실시예의 시나리오에 따라 VAD 알고리즘을 설명한다.

이 알고리즘에서는, 입력 신호 프레임을 9개의 서브대역(subband)으로 분할한다. 각 서브밴드의 신호 레벨 level[n] 및 추정된 배경 잡음 레벨 bckr_est[n]을 계산한다. 그 후, level[n] 및 bckr_est[n]에 따라 아래의 식에 의해 SNR을 계산한다:

VAD 판정은 SNR을 임계값 vad_thr과 비교하는 것이다. SNR이 vad_thr보다 크면, 현재 프레임은 비잡음 프레임이고; 그렇지 않으면 현재 프레임은 잡음 프레임이다. vad_thr은 아래의 식에 의해 계산된다:

이 VAD 알고리즘에서, noise_level만이 vad_thr의 종속 변수이지만, noise_level은 장기(long-term) 배경 잡음 레벨의 이동 평균(moving average)을 반영한다. 따라서, vad_thr은 배경 잡음 변동에 적응적이지 않다(상이한 변동량을 가지는 배경이 장기 레벨에 대해 동일한 이동 평균을 가질 수 있기 때문임). 또한, 배경 변동은 VAD 판정에 큰 영향을 미친다. 예를 들면, VAD는 대량의 배경 잡음을 비잡음 신호로 잘못 결정할 수 있고, 따라서 대역폭을 낭비할 수 있다.

제1 실시예: 도 1은 본 발명의 제1 실시예의 VAD 디바이스를 나타낸 것이다. VAD 디바이스는 배경 분석 유닛, VAD 임계값 조정 유닛, VAD 판정 유닛, 및 외부 인터페이스 유닛을 포함한다.

배경 분석 유닛은, 입력된 VAD 판정 결과에 따라 현재 신호의 배경 잡음 특성을 분석하고, 배경 잡음 변동에 관련된 파라미터를 취득하며, 취득된 파라미터를 VAD 임계값 조정 유닛에 출력하도록 구성되어 있으며, 이들 파라미터는 배경 잡음 변동에 대한 파라미터들을 포함한다. 구체적으로, 이 배경 잡음 특성 파라미터는, 현재 환경에서 현재 신호의 배경 잡음에 대한 사이즈, 타입[안정(steady) 배경 또는 불안정(unsteady) 배경], 변동 비율 및 SNR을 식별하기 위해 사용된다. 배경 잡음 특성 파라미터는 적어도 배경 잡음의 피크 SNR을 포함하고, 장기 SNR, 추정된 배경 잡음 레벨, 배경 잡음 에너지 변동, 배경 잡음 스펙트럼 변동, 및 배경 잡음 변동 비율을 더 포함할 수 있다.

VAD 임계값 조정 유닛은, 배경 분석 유닛에 의해 출력된 파라미터에 따라 VAD 임계값의 바이어스를 취득하고, VAD 임계값의 바이어스를 출력하도록 구성되어 있다.

구체적으로, VAD 임계값 조정 유닛이 배경 분석 유닛에 출력된 파라미터 중 어느 하나를 수신한 때, VAD 임계값 조정 유닛은 배경 잡음 변동에 관련된 파라미터들의 현재 값에 따라 VAD 임계값의 바이어스를 갱신한다. VAD 임계값 조정 유닛은 또한 배경 분석 유닛에 의해 출력된 파라미터 값의 변경 여부를 판정할 수 있으며; 변경된 경우, VAD 임계값 조정 유닛은 배경 잡음 변동에 관련된 파라미터들의 현재 값에 따라 VAD 임계값의 바이어스를 갱신한다.

VAD 임계값의 바이어스는 배경 분석 유닛에 의해 출력된 파라미터에 따른 VAD 임계값 조정 유닛의 내부적 적응(internal adaptation)을 통해, 및/또는 VAD 디바이스의 외부 동작점 정보(external work point information)와 배경 분석 유닛에 의해 출력된 파라미터들을 조합하여, 취득된다.

설정(setting)이 VAD 임계값 조정 유닛의 내부적 적응만을 고려하는 경우, VAD 임계값 조정 유닛은 배경 분석 유닛에 의해 출력된 파라미터에 따라 VAD 임계값의 제1 바이어스를 취득하고, VAD 임계값의 제1 바이어스를 VAD의 최종 바이어스로서 VAD 판정 유닛에 출력한다.

설정이 VAD 디바이스의 외부 정보 및 VAD 임계값 조정 유닛의 내부적 적응을 고려하고, 현재 신호가 안정 잡음(stedy noise)이고, 및/또는 현재 신호의 SNR이 높은 경우, VAD 판정 유닛의 VAD 판정 결과는 이상적인 결과에 더욱 더 가깝고, 외부 정보에 따라 VAD 임계값의 제2 바이어스을 계산하는 것을 불필요하게 만든다. 따라서, VAD 임계값 조정 유닛은 배경 분석 유닛에 의해 출력된 파라미터에 따라 VAD 임계값의 제1 바이어스를 취득하고, VAD 임계값의 제1 바이어스를 VAD 임계값의 최종 바이어스로서 VAD 판정 유닛에 출력한다.

설정이 VAD 디바이스의 외부 정보 및 VAD 임계값 조정 유닛의 내부적 적응을 고려하고 현재 신호의 배경 잡음이 비안정 잡음(non-steady noise)이고 및/또는 현재 신호의 SNR이 낮은 경우, VAD 임계값 조정 유닛은 배경 분석 유닛에 의해 출력된 파라미터에 따라 VAD 임계값의 제1 바이어스와, 배경 분석 유닛에 의해 출력된 파라미터 및 VAD 디바이스의 외부 정보에 따라 VAD 임계값의 제2 바이어스를 취득하고, VAD 임계값의 제1 바이어스와 VAD 임계값의 제2 바이어스를 결합(예를 들면, 이 2개의 임계값을 가산하거나 이 2개의 임계값을 다른 방식으로 처리)하여 VAD 임계값의 최종 바이어스를 취득하고, VAD 임계값의 최종 바이어스를 VAD 판정 유닛에 출력한다.

설정이 VAD 디바이스의 외부 정보만을 고려하는 경우, VAD 임계값 조정 유닛은 배경 분석 유닛에 의해 출력된 파라미터와 VAD 디바이스의 외부 정보에 따라 VAD 임계값의 제2 바이어스를 취득하고, VAD 임계값의 제2 바이어스를 VAD 임계값의 최종 바이어스로서 VAD 판정 유닛에 출력한다.

VAD 판정 유닛은, VAD 임계값 조정 유닛에 의해 출력된 VAD 임계값의 바이어 스에 따라 수정될 VAD 임계값을 수정하고, 수정한 VAD 임계값을 사용하여 배경 잡음을 판정하며, VAD 판정 결과를 배경 분석 유닛에 출력하여 VAD 임계값의 부단한(constant) 적응을 실현하도록 구성된다. 또한, VAD 판정 유닛은 VAD 판정 결과를 출력하도록 구성된다.

제1 실시예의 다른 시나리오의 VAD 알고리즘에서, 수정될 VAD 임계값을 결정하는 방법은 SNR과 다음의 관계를 가진다: AMR VAD2로 수정될 임계값을 결정하는 방법에서는, 수정될 다수의 임계값이 어레이에 미리 저장되어 있다. 이들 임계값은 장기 SNR과 일정한 매핑 관계를 가진다. VAD는 현재의 장기 SNR에 따라 어레이 내의 수정될 임계값을 선택하고, 선택한 임계값을 수정될 VAD 임계값으로 사용한다. 본 실시예에서 수정될 VAD 임계값을 결정하는 방법은, 현재 신호의 장기 SNR을 수정될 임계값으로서 사용하는 단계를 포함할 수 있다. 예를 들면, 최종 VAD 임계값이 100이고 VAD 임계값 조정 유닛에 의해 출력된 VAD 임계값의 바이어스가 10이며 수정될 현재의 VAD 임계값이 95라고 가정하면, 수정된 최종 VAD 임계값은 105이다. 그 후, VAD 판정 유닛는 VAD 임계값을 100에서 105로 변경하고, 판정을 계속한다.

구체적으로, 본 실시예의 VAD는 배경 잡음와 비배경 잡음을 구분하기 위한 VAD와, 배경 잡음, 음성, 및 음악을 구분하기 위한 SAD에서의 새로운 VAD를 포함한다. VAD의 경우, 분류 타입에는 배경 잡음과 비잡음을 포함한다. SAD의 경우, 분류 타입에는 배경 잡음, 음성, 및 음악을 포함한다. 본 실시예에서, SAD 내의 VAD는 입력 신호를 배경 잡음와 비잡음로 분류한다. 즉, 본 실시예서는 음성과 음악 을 동일한 타입으로서 처리한다.

제2 실시예: 도 2는 본 발명의 제2 실시예의 VAD 방법을 나타낸 것이다. VAD 방법은 다음 단계를 포함한다:

S1. 배경 잡음의 VAD 판정 결과에 따라 현재 신호의 배경 잡음 특성을 분석하고, 배경 잡음 변동에 관련된 파라미터를 취득한다.

배경 잡음 변동에 관련된 파라미터는 배경 잡음의 피크 SNR을 적어도 포함하고, 배경 에너지의 변동 크기, 배경 잡음 스펙트럼의 변동 크기, 및/또는 배경 잡음의 변동 비율을 더 포함할 수 있다. 배경 잡음 변동에 관련된 파라미터를 취득하는 프로세스에서, 예를 들면 장기 SNR 및 추정된 배경 잡음 레벨과 같은, 현재 신호의 배경 잡음 특성을 나타내는 기타 파라미터도 취득될 수 있다.

S2. 배경 잡음 변동에 관련된 파라미터에 따라 VAD 임계값의 바이어스를 취득한다.

배경 잡음 변동에 관련된 파라미터 중 어느 하나가 갱신된 경우, VAD 임계값의 바이어스가 배경 잡음 변동에 관련된 파라미터의 현재 값에 따라 갱신된다.

구체적으로, 배경 잡음 변동에 관련된파라미터의 현재 값에 따라 VAD 임계값의 바이어스를 취득하는 방법은, 다음 4가지 경우를 포함하지만, 이에 한정되지는 않는다:

경우 1: 설정이 특정한 정보를 고려할 필요가 없는 경우, VAD 임계값의 제1 바이어스는 배경 잡음 변동에 관련된 파라미터에 따라 취득되고, VAD 임계값의 제1 바이어스가 VAD 임계값의 최종 바이어스로서 사용된다.

경우 2: 설정이 특정한 정보를 고려할 필요가 있고 배경음(background sound)이 비안정된 잡음이고 및/또는 SNR이 낮은 경우, VAD 임계값의 제1 바이어스는 배경 잡음 변동에 관련된 파라미터에 따라 취득되고 VAD 임계값의 제2 바이어스는 배경 잡음 변동에 관련된 파라미터 및 상기한 특정한 정보에 따라 취득되며; VAD 임계값의 최종 바이어스는 VAD 임계값의 제1 바이어스와 VAD 임계값의 제2 바이어스를 결합(예를 들면, 이 2개의 임계값을 가산하거나 이 2개의 임계값을 다른 방식으로 처리)하여 취득된다.

경우 3: 설정이 구체적인 정보를 고려할 필요가 있고 배경음이 안정 잡음이고 및/또는 SNR이 높은 경우, VAD 임계값의 제1 바이어스는 배경 잡음 변동에 관련된 파라미터에 따라 취득되고, VAD 임계값의 제1 바이어스가 VAD 임계값의 최종 바이어스로서 사용된다.

경우 4: 설정이 특정한 정보만을 고려하는 경우, VAD 임계값의 제2 바이어스는 배경 잡음 변동에 관련된 파라미터와 그 특정한 정보에 따라 취득되고, VAD 임계값이 VAD 임계값의 최종 바이어스로서 사용된다.

전술한 경우 1 내지 경우 3에서, VAD 임계값의 제1 바이어스는 배경 잡음 에너지 변동, 배경 잡음 스펙트럼 변동 크기, 배경 잡음 변동 비율, 장기 SNR, 및/또는 배경 잡음의 피크 SNR이 증가함에 따라 증가한다. VAD 임계값의 제1 바이어스는 다음의 식 중 하나에 의해 계산될 수 있다:

vad_thr_delta = β*(snr_peak-vad_thr_default), 이 식에서 vad_thr_delta는 VAD 임계값의 제1 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값 을 나타내며; snr_peak는 배경 잡음의 피크 SNR을 나타내고; β는 상수이다.

vad_thr_delta = β*f(var_rate)*(snr_peak-vad_thr_default), 이 식에서 vad_thr_delta는 VAD 임계값의 제1 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; snr_peak는 배경 잡음의 피크 SNR을 나타내고; β는 상수이며; var_rate는 배경 잡음 변동 비율을 나타내고; f()는 함수를 나타낸다.

vad_thr_delta = β*f(var_rate)*f(pow_var)*(snr_peak-vad_thr_default), 이 식에서 vad_thr_delta는 VAD 임계값의 제1 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; snr_peak는 배경 잡음의 피크 SNR을 나타내고; β는 상수이며; pow_var는 배경 에너지 변동 크기를 나타내고; var_rate는 배경 잡음 변동 비율을 나타내며; f()는 함수를 나타낸다.

vad_thr_delta = β*f(var_rate)*f(spec_var)*(snr_peak-vad_thr_default), 이식에서 vad_thr_delta는 VAD 임계값의 제1 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; snr_peak는 배경 잡음의 피크 SNR을 나타내고; β는 상수이며; spec_var는 배경 잡음 스펙트럼 변동 크기를 나타내고; var_rate는 배경 잡음 변동 비율을 나타내며; f()는 함수를 나타낸다.

vad_thr_delta = β*f(var_rate)*f(pow_var)*f(spec_var)*(snr_peak-vad_thr_default), 이식에서 vad_thr_delta는 VAD 임계값의 제1 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; snr_peak는 배경 잡음의 피크 SNR을 나타내고; β는 상수이며; spec_var는 배경 잡음 스펙트럼 변동 크기를 나타내고; var_rate는 배경 잡음 변동 비율을 나타내며; pow_var는 배경 에너지 변 동 크기를 나타내고; f()는 함수를 나타낸다.

주: VAD 임계값의 제1 바이어스를 계산하기 위한 전술한 식 각각에 장기 SNR 파라미터가 추가될 수 있다. 즉, 전술한 식은 또한 장기 SNR 함수가 승산된 후에 적용될 수도 있다.

전술한 경우 2 및 경우 4에서, VAD 임계값의 제2 바이어스의 절대값은 배경 잡음 에너지 변동, 배경 잡음 스펙트럼 변동 크기, 배경 잡음 변동 비율, 장기 SNR, 및/또는 배경 잡음의 피크 SNR이 증가함에 따라 증가한다. 또한, 구체적인 정보는 동작점의 지향성(work point orientation)을 나타내고, 식에서는 양(positive)의 부호 또는 음(negative)의 부호로 표현된다. 특정한 동작점이 품질 지향성인 경우, 부호는 음이고; 특정한 동작점이 대역폭 절약 지향성인 경우에, 부호는 양이다. VAD 임계값의 제2 바이어스는 다음의 식 중 하나에 의해 계산될 수 있다:

vad_thr_delta_out = sign*γ*(snr_peak-vad_thr_default), 이 식에서, vad_thr_delta_out은 VAD 임계값의 제2 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; sign은 특정한 정보의 지향성(orientation)에 의해 결정된 vad_thr_delta_out의 양의 부호 또는 음의 부호를 나타내고; snr_peak는 배경 잡음의 SNR 피크를 나타내며; γ는 상수이다.

vad_thr_delta_out = sign*γ*f(var_rate)*(snr_peak-vad_thr_default), 이 식에서 vad_thr_delta_out은 VAD 임계값의 제2 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; sign은 특정한 정보의 지향 성(orientation)에 의해 결정된 vad_thr_delta_out의 양의 부호 또는 음의 부호를 나타내고; snr_peak는 배경 잡음의 SNR 피크를 나타내며; γ는 상수이고; var_rate는 배경 잡음 변동 비율을 나타내며; f()는 함수를 나타낸다.

vad_thr_delta_out = sign*γ*f(var_rate)*f(pow_var)*(snr_peak-vad_thr_default), 이 식에서 vad_thr_delta_out은 VAD 임계값의 제2 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; sign은 특정한 정보의 지향성(orientation)에 의해 결정된 vad_thr_delta_out의 양의 부호 또는 음의 부호를 나타내고; snr_peak는 배경 잡음의 SNR 피크를 나타내며; γ는 상수이고; pow_var는 배경 에너지 변동 크기를 나타내며; var_rate는 배경 잡음 변동 비율을 나타내고; f()는 함수를 나타낸다.

vad_thr_delta_out = sign*γ*f(var_rate)*f(pow_var)*(snr_peak-vad_thr_default), 이 식에서 vad_thr_delta_out은 VAD 임계값의 제2 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; sign은 특정한 정보의 지향성(orientation)에 의해 결정된 vad_thr_delta_out의 양의 부호 또는 음의 부호를 나타내고; snr_peak는 배경 잡음의 SNR 피크를 나타내며; γ는 상수이고; spec_var는 배경 잡음 스펙트럼 변동 크기를 나타내며; var_rate는 배경 잡음 변동 비율을 나타내고; f()는 함수를 나타낸다.

vad_thr_delta_out = sign*γ*f(var_rate)*f(pow_var)*f(spec_var)*(snr_peak-vad_thr_default), 이 식에서 vad_thr_delta_out은 VAD 임계값의 제2 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; 부호는 특정한 정보의 지향성(orientation)에 의해 결정된 vad_thr_delta_out의 양의 부호 또는 음의 부호를 나타내고; snr_peak는 배경 잡음의 SNR 피크를 나타내며; γ는 상수이고; spec_var는 배경 잡음 스펙트럼 변동 크기를 나타내며; var_rate는 배경 잡음 변동 비율을 나타내고; pow_var는 배경 에너지 변동 크기를 나타내며; f()는 함수를 나타낸다.

주: VAD 임계값의 제2 바이어스를 계산하기 위한 전술한 식 각각에 장기 SNR 파라미터가 추가될 수 있다. 즉, 전술한 식은 또한 장기 SNR 함수가 승산된 후에 적용될 수도 있다.

VAD 임계값의 제1 바이어스와 VAD 임계값의 제2 바이어스를 계산하기 위한 전술한 식에서, snr_peak는 2개의 인접하는 비배경 잡음 프레임 사이의 배경 잡음 프레임 각각에 대응하는 SNR 중의 최대 SNR; 또는 2개의 인접하는 배경 잡음 프레임 사이의 비배경 잡음 프레임 각각에 대응하는 SNR 중의 최소 SNR; 또는 간격이 미리 설정된 프레임 개수보다 작은 2개의 배경 잡음 프레임 사이의 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나; 또는 간격이 미리 설정된 프레임 개수보다 큰 2개의 배경 잡음 프레임 사이의 미리 설정된 임계값보다 작은 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나이다. 임계값은 다음의 규칙에 따라 설정된다: 2개의 배경 잡음 프레임 사이의 모든 비배경 잡음 프레임의 SNR이 2개의 세트를 포함한다고 가정한다: 하나는 임계값보다 큰 모든 SNR로 구성되고, 나머지는 임계값보다 작은 모든 SNR으로 구성되며; 이들 2세트의 평균값의 차이를 최대화하는 임계값이 미리 설정된 임계값으로 결정된다.

S3. VAD 임계값의 바이어스에 따라 수정될 VAD 임계값을 수정하고, 수정한 VAD 임계값을 사용하여 배경 잡음에 대한 VAD 판정을 수행한다.

제3 실시예: 본 실시예는 전술한 실시예에서 제공된 VAD 디바이스와 방법을 결합하여 모듈러 프로세스(modular process)를 제공한다.

단계 1: VAD 판정 유닛이 입력된 오디오 신호의 타입에 대해 초기 판정을 수행하고, VAD 판정 결과를 배경 분석 유닛에 입력한다.

VAD 임계값의 초기 바이어스는 0(영)이다. VAD 판정 유닛이 수정될 VAD 임계값에 따라 VAD 판정을 수행한다. 예를 들면, 수정될 VAD 임계값은 품질과 대역폭 절약 사이의 균형을 유지하기 위한 것이다.

단계 2: 배경 분석 유닛이 VAD 판정 결과에 따라 현재의 프레임이 배경 잡음 프레임임을 알고 있을 때, 배경 분석 유닛은 현재 프레임의 단기 배경 잡음 특성 파라미터를 계산하고, 이들 파라미터를 메모리에 저장한다. 이하에 이들 파라미터 및 이들 파라미터를 계산하는 방법을 설명한다:

1. 서브대역 레벨 level [k, i], 여기서 k 및 i는 i번째 프레임의 k번째 서브대역을 나타낸다. 서브대역은 필터 그룹 또는 변환 방법(conversion method)을 사용하여 계산될 수 있다.

2. 단기 배경 잡음 레벨 bckr_noise [i](현재 프레임이 배경 프레임인 경우에만 계산),

, 이 식에서 i는 i번째 프레임의 배경 잡음 레벨 을 나타내고; k는 k번째 서브대역을 나타내며; N은 서브대역의 총수를 나타낸다.

3. 프레임 에너지 pow [i],

, 이 식에서 i는 i번째 프레임의 프레임 에너지를 나타낸다.

4. 단기 SNR snr [i],

, 이 식에서 i는 i번째 프레임의 단기 SNR을 나타내고; bckr_noise_pow [i]는 추정된 배경 잡음 에너지를 나타낸다. 이들 파라미터에 대해서는 후술한다.

단계 3: 배경 분석 유닛이 일정한 수의 프레임을 분석하였을 때, 배경 분석 유닛은 메모리 내의 이력(history) 단기 배경 잡음 특성 파라미터에 따라 장기 배경 잡음 특성 파라미터를 계산하기 시작하고, 배경 잡음 변동에 관련된 파라미터를 출력한다. 그 후, 배경 잡음 변동에 관련된 파라미터들이 계속 갱신된다. 장기 SNR를 제외한, 기타 파라미터는 현재 프레임이 배경 프레임인 경우에만 갱신된다. 장기 SNR은 현재 프레임이 비배경 프레임인 경우에만 갱신된다. 이하에 이들 파라미터 및 이들 파라미터를 계산하는 방법을 설명한다:

1. 추정된 장기 배경 잡음 레벨 bckr_noise_long [i],

, 이 식에서 α는 0과 1사이의 비례 인수(scale factor)이고, 그 값은 약 5%이다.

2. 장기 SNR snr_long[i],

, 이 식에서 L은 장기 평균 계산을 위해 선택된 비배경 프레임의 수를 나타낸다.

3. 배경 잡음 에너지 변동 pow_var [i],

, 이 식에서 L은 장기 평균 계산을 위해 선택된 배경 프레임의 수를 나타낸다.

4. 배경 잡음 스펙트럼 변동 spec_var [i],

, 이 식에서 L은 장기 평균 계산을 위해 선택된 배경 프레임의 수를 나타낸다. 배경 잡음 스펙트럼 변동은 또한 라인 스펙트럼 주파수(line spectrum frequency, LSF) 계수에 기초하여 계산될 수도 있다.

5. 배경 잡음 변동 rate var_rate[i],

, 이 식에서

는 x가 참이면 1이고; 그렇지 않으면 0이며; L은 장기 평균 계산을 위해 선택된 배경 프레임의 수를 나타낸다.

6. 추정된 장기 배경 잡음 에너지 bckr_noise_pow [i],

이 식에서 α는 0과 1 사이의 비례 인수이고, 그 값은 약 5%이다.

단계 4: VAD 임계값 조정 유닛은 배경 잡음 변동에 관련되고 배경 분석 유닛에 의해 출력된 파라미터들에 따라 VAD 임계값의 바이어스를 계산한다.

VAD 임계값을 수정하는 프로세스에서, 대응하는 방향에서 진폭의 VAD 임계값을 수정하기 위해 VAD 임계값의 바이어스를 취득하여야 한다.

제2 실시예에서 단계 2의 경우 1에 따르면, VAD 임계값 조정 유닛은 내부적 적응을 통해 VAD 임계값의 제1 바이어스를 취득하고, 외부적으로 특정한 정보를 고려하지 않고, 이 VAD 임계값의 제1 바이어스를 VAD 임계값의 최종 바이어스로 사용한다. 수정될 현재 VAD 임계값이 vad_thr_defaultDLRH, VAD 임계값의 제1 바이어스가 vad_thr_delta라고 하면, 수정된 VAD 임계값은 vad_thr_default + vad_thr_delta이다. 그 후, VAD 임계값의 제1 바이어스가 다음 식에 의해 계산된다: vad_thr_delta = β*(snr_peak-vad_thr_default), 여기서 snr_peak는 배경 피크 SRN을 나타내고, β는 상수이다. snr_peak는 장기 이력 배경 프레임 선택에 있어 피크 SNR일 수 있다; 즉 snr_peak = MAX(snr[i]), i=0,-1,-2...-n, 여기서 i는 최신 이력 배경 프레임 및 최신 이력 배경 프레임 이전의 첫번째 배경 프레임에서 n번째 배경 프레임까지를 나타낸다. snr_peak는 또한 이력 비배경 선택에서의 골짜기(valley) SNR 또는 다수의 최소 SNR 중 하나일 수 있다. 이 경우에, snr_peak=MIN(snr [i]), i=0,-1,-2...-n, 여기서 i는 최신 이력 비배경 프레임 및 최신 이력 비배경 프레임 이전의 첫번째 비배경 프레임에서 n번째 비배경 프레임까지, 또는 snr_peak∈{X}를 나타매고, 여기서 {X}는 장기 이력 비배경 프레임 선택에 있어 SNR의 집합 ({Y})의 서브집합을 나타내고, ｜MEAN({X})-MEAN({Y-X})｜의 값을 최대화하며, 여기서 MEAN은 평균값을 나타낸다. var_rate는 장기 배경 내의 음의 SNR의 횟수이다.

즉, snr_peak은, 2개의 인접한 비배경 잡음 프레임 사이의 각 배경 잡음 프레임에 대응하는 SNR 중 최대 SNR, 또는 2개의 인접한 배경 잡음 프레임 사이의 각 비배경 잡음 프레임에 대응하는 SNR 중 최소 SNR, 또는 간격이 미리 설정된 프레임의 수보다 작은 2개의 배경 잡음 프레임 사이의 각 비배경 잡음 프레임에 대응하는 SNR 중 어느 하나, 또는 간격이 미리 설정된 프레임의 수보다 큰 2개의 배경 잡음 프레임 사이의, 미리 정해진 임계값보다 작은 각 비배경 잡음 프레임에 대응하는 SNR 중 어느 하나이다. 임계값은 다음의 규칙에 따라 설정된다: 2개의 배경 잡음 프레임 사이의 모든 비배경 잡음 프레임의 SNR은 2개의 세트를 포함하고, 그 하나는 임계값보다 큰 모든 SNR로 구성되고, 나머지는 임계값보다 작은 모든 SNR로 구성된다고 가정하면; 이 2 세트의 평균값의 차를 최대화하는 임계값이 미리 설정된 임계값으로 결정된다.

다수의 임계값을 가지는 VAD 알고리즘에서, 각각의 임계값 또는 이들 임계값 중 몇몇은 전술한 방법에 따라 조정될 수 있다.

단계 5: VAD 판정 유닛이 VAD 임계값 조정 유닛에 의해 출력된 VAD 임계값의 바이어스에 따라 수정될 VAD 임계값을 수정하고, 수정한 VAD 임계값에 따라 배경 잡음을 판정하며, VAD 판정 결과를 출력한다.

VAD 임계값 조정 유닛이 첫번째 경우에 따라 VAD 임계값의 바이어스를 취득하면, 수정된 VAD 임계값은 vad_thr_default+vad_thr_delta이다.

끝으로, 본 발명의 실시예에서, 현재 신호의 배경 잡음 특성이 배경 잡음의 VAD 판정 결과에 따라 분석되고, 배경 잡음 변동에 관련된 파라미터가 취득되어, VAD 임계값이 배경 잡음 변동에 적응하게 한다. 그후, 배경 잡음 변동에 관련된 파라미터에 따라 VAD 임계값의 바이어스가 취득되고; 이 VAD 임계값의 바이어스에 따라 수정될 VAD 임계값이 수정되어, 배경 잡음 변동을 반영할 수 있는 VAD 임계값이 취득되며; 수정된 VAD 임계값을 사용하여 배경 잡음에 대해 VAD 판정이 수행된다. 따라서, VAD 임계값이 배경 잡음 변동에 적응되어, VAD는 변동이 서로 다른 배경 잡음 환경에서 최적의 성능을 얻을 수 있다.

또한, 본 발명의 실시예는 VAD 임계값의 바이어스를 취득하는 방법에 따라 상이한 구현 방식을 제공한다. 특히, 본 발명의 실시예는, 본 발명을 더욱 잘 지원하는 배경 잡음의 피크 SNR(snr_peak)의 값을 계산하는 해법을 설명하였다.

해당 기술분야의 당업자는, 전술한 실시예에 따른 방법의 모든 단계 또는 일부 단계를 프로그램에 의해 지시를 받는 하드웨어로 수행할 수 있음을 알 것이다. 해당 프로그램은 판독 전용 메모리(ROM)/임의 접근 메모리(RAM), 자기 디스크, 및 컴팩트 디스크와 같은, 컴퓨터로 판독 가능한 저장 매체에 저장될 수 있다.

해당 기술분야의 당업자가 본 발명의 사상 및 범위를 벗어나지 않으면서, 본 발명을 다양하게 변경 및 수정할 수 있음은 명백하다. 이하의 청구의 범위 또는 그 등가물에 의해 정해지는 보호 범위 내에 포함되다면 본 발명은 그러한 변경 및 수정을 포함하도록 의도된다.

Claims

음성 활동 검출(voice activity detection, VAD) 디바이스로서,

입력된 VAD 판정 결과에 따라 현재 신호의 배경 잡음 특성을 분석하고, 배경 잡음 변동에 관련된 파라미터를 취득하며, 상기 취득한 파라미터를 출력하도록 구성된 배경 분석 유닛;

상기 배경 분석 유닛에 의해 출력된 파라미터에 따라 VAD 임계값의 바이어스를 취득하고, 상기 VAD 임계값의 바이어스를 출력하도록 구성된 VAD 임계값 조정 유닛;

상기 VAD 임계값 조정 유닛에 의해 출력된 VAD 임계값의 바이어스에 따라 수정될 VAD 임계값을 수정하고, 상기 수정한 VAD 임계값에 따라 배경 잡음 판정을 수행하고, VAD 판정 결과를 출력하도록 구성된 VAD 판정 유닛; 및

상기 음성 활동 검출 다바이스의 외부 정보를 수신하도록 구성된 외부 인터페이스 유닛

을 포함하는 음성 활동 검출 디바이스.
제1항에 있어서,

상기 배경 분석 유닛에 의해 출력된 파라미터는 배경 잡음의 피크 신호대잡음비(signal noise ratio, SNR)를 포함하는, 음성 활동 검출 디바이스.
제2항에 있어서,

상기 배경 분석 유닛에 의해 출력 파라미터는 배경 에너지 변동 크기, 배경 잡음 스펙트럼 변동 크기, 장기 SNR, 및 배경 잡음 변동 비율 중 적어도 하나를 더 포함하는, 음성 활동 검출 디바이스.
제1항에 있어서,

상기 VAD 임계값 조정 유닛이 상기 배경 분석 유닛에 의해 출력된 파라미터 중 어느 하나를 수신하는 경우, 상기 VAD 임계값 조정 유닛은 배경 잡음 변동에 관련된 파라미터의 현재값에 따라 상기 VAD 임계값의 바이어스를 갱신하도록 구성되는, 음성 활동 검출 디바이스.
제1항에 있어서,

상기 VAD 임계값 조정 유닛은, 상기 배경 분석 유닛에 의해 출력된 파라미터에 따라 상기 VAD 임계값의 제1 바이어스를 취득하고, 상기 VAD 임계값의 제1 바이어스를 상기 VAD 임계값의 최종 바이어스로서 상기 VAD 판정 유닛에 출력하거나;

상기 VAD 임계값 조정 유닛은, 상기 배경 분석 유닛에 의해 출력된 파라미터에 따라 상기 VAD 임계값의 제1 바이어스를 취득하고 상기 배경 분석 유닛에 의해 출력된 파라미터 및 상기 디바이스의 외부 정보에 따라 상기 VAD 임계값의 제2 바이어스를 취득하며, 상기 VAD 임계값의 제1 바이어스와 상기 VAD 임계값의 제2 바이어스를 결합하여 상기 VAD 임계값의 최종 바이어스를 취득하고, 상기 VAD 임계값의 최종 바이어스를 상기 VAD 판정 유닛에 출력하거나;

상기 VAD 임계값 조정 유닛은, 상기 배경 분석 유닛에 의해 출력된 파라미터 및 상기 디바이스의 외부 정보에 따라 상기 VAD 임계값의 제2 바이어스를 취득하고, 상기 VAD 임계값의 제2 바이어스를 상기 VAD 임계값의 최종 바이어스로서 상기 VAD 판정 유닛에 출력하는, 음성 활동 검출 디바이스.
제1항에 있어서,

상기 VAD 판정 유닛은, 수정될 VAD 임계값을 실시간(real-time basis)으로 갱신하고, 상기 VAD 임계값 조정 유닛에 의해 출력된 상기 VAD 임계값의 바이어스를 수신한 때 수정될 현재 VAD 임계값을 추출하며, 상기 VAD 임계값의 바이어스에 따라 상기 현재 VAD 임계값을 수정하는, 음성 활동 검출 디바이스.
음성 활동 검출(voice activity detection, VAD) 방법으로서,

배경 잡음의 VAD 판정 결과에 따라 현재 신호의 배경 잡음 특성을 분석하고, 배경 잡음 변동에 관련된 파라미터를 취득하는 단계;

상기 배경 잡음 변동에 관련된 파라미터에 따라 VAD 임계값의 바이어스를 취득하는 단계; 및

상기 VAD 임계값의 바이어스에 따라 수정될 VAD 임계값을 수정하고, 상기 수정한 VAD 임계값을 사용하여 상기 배경 잡음에 대한 VAD 판정을 수행하는 단계

를 포함하고,

상기 배경 잡음 변동에 관련된 파라미터에 따라 상기 VAD 임계값의 바이어스를 취득하는 단계는,

설정(setting)이 특정한 정보를 고려할 필요가 없는 경우, 상기 배경 잡음 변동에 관련된 파라미터에 따라 상기 VAD 임계값의 제1 바이어스를 취득하고, 상기 VAD 임계값의 제1 바이어스를 VAD의 최종 바이어스로서 사용하는 단계;

설정이 특정한 정보를 고려할 필요가 있고, 배경음이 비안정 잡음 중 적어도 하나이며, 신호대잡음비(SNR)가 미리 설정된 값보다 낮은 경우, 상기 배경 잡음 변동에 관련된 파라미터에 따라 상기 VAD 임계값의 제1 바이어스를 취득하고 상기 배경 잡음 변동에 관련된 파라미터 및 상기 특정한 정보에 따라 상기 VAD 임계값의 제2 바이어스를 취득하며, 상기 VAD 임계값의 제1 바이어스와 상기 VAD 임계값의 제2 바이어스의 결합에 의해 상기 VAD 임계값의 최종 바이어스를 취득하는 단계;

설정이 특정한 정보를 고려할 필요가 있고, 배경음이 안정 잡음 중 적어도 하나이며, SNR이 상기 미리 설정된 값보다 높은 경우, 상기 배경 잡음 변동에 관련된 파라미터에 따라 상기 VAD 임계값의 제1 바이어스를 취득하고, 상기 VAD 임계값의 제1 바이어스를 상기 VAD 임계값의 최종 바이어스로서 사용하는 단계; 및

설정이 특정한 정보만을 고려하는 경우, 상기 배경 잡음 변동에 관련된 파라미터 및 상기 특정한 정보에 따라 상기 VAD 임계값의 제2 바이어스를 취득하고, 상기 VAD 임계값의 제2 바이어스를 상기 VAD 임계값의 최종 바이어스로서 사용하는 단계

중 적어도 하나를 포함하는, 음성 활동 검출 방법.
제7항에 있어서,

상기 배경 잡음 변동에 관련된 파라미터는 배경 잡음의 피크 신호대잡음비(signal noise ratio, SNR)를 포함하는, 음성 활동 검출 방법.
제8항에 있어서,

상기 배경 잡음 변동에 관련된 파라미터는 배경 에너지 변동 크기, 배경 잡음 스펙트럼 변동 크기, 장기 SNR, 및 배경 잡음 변동 비율 중 적어도 하나를 더 포함하는, 음성 활동 검출 방법.
제7항에 있어서,

상기 배경 잡음 변동에 관련된 파라미터 중 하나가 갱신되는 경우, 상기 방법은, 상기 배경 잡음 변동에 관련된 파라미터의 현재값에 따라 상기 VAD 임계값의 바이어스를 갱신하는 단계를 포함하는 음성 활동 검출 방법.
제7항에 있어서,

상기 VAD 임계값의 제1 바이어스는 배경 잡음 에너지 변동, 배경 잡음 스펙트럼 변동 크기, 배경 잡음 변동 비율, 장기 SNR, 및 배경 잡음의 피크 SNR 중 적어도 하나의 증가에 따라 증가하는, 음성 활동 검출 방법.
제11항에 있어서,

vad_thr_delta = β*(snr_peak-vad_thr_default);

vad_thr_delta = β*f(var_rate)*(snr_peak-vad_thr_default);

vad_thr_delta = β*f(var_rate)*f(pow_var)*(snr_peak-vad_thr_default);

vad_thr_delta = β*f(var_rate)*f(spec_var)*(snr_peak-vad_thr_default); 및

vad_thr_delta = β*f(var_rate)*f(pow_var)*f(spec_var)*(snr_peak-vad_thr_default)

중 적어도 하나를 더 포함하며,

위 식에서 vad_thr_delta는 상기 VAD 임계값의 제1 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; snr_peak는 배경 잡음의 피크 SNR을 나타내고; β는 상수이며; var_rate는 배경 잡음 변동 비율을 나타내고; f()는 함수를 나타내고; pow_var는 배경 에너지 변동 크기를 나타내며; spec_var는 배경 잡음 스펙트럼 변동 크기를 나타내는, 음성 활동 검출 방법.
제7항에 있어서,

상기 VAD 임계값의 제2 바이어스의 절대값은 배경 잡음 에너지 변동, 배경 잡음 스펙트럼 변동 크기, 배경 잡음 변동 비율, 장기 SNR, 및 배경 잡음의 피크 SNR 중 적어도 하나의 증가에 따라 증가하는, 음성 활동 검출 방법.
제13항에 있어서,

vad_thr_delta_out = sign*γ*(snr_peak-vad_thr_default);

vad_thr_delta_out = sign*γ*f(var_rate)*(snr_peak-vad_thr_default);

vad_thr_delta_out = sign*γ*f(var_rate)*f(pow_var)*(snr_peak-vad_thr_default); 및

vad_thr_delta_out = sign*γ*f(var_rate)*f(pow_var)*(snr_peak-vad_thr_default)

중 적어도 하나를 더 포함하고,

위 식에서, vad_thr_delta_out은 상기 VAD 임계값의 제2 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; sign은 특정한 정보의 지향성(orientation)에 의해 결정된 vad_thr_delta_out의 양의 부호 또는 음의 부호를 나타내고; snr_peak는 배경 잡음의 SNR 피크를 나타내며; γ는 상수이고; var_rate는 배경 잡음 변동 비율을 나타내며; f()는 함수를 나타내고; pow_var는 배경 에너지 변동 크기를 나타내며; spec_var는 배경 잡음 스펙트럼 변동 크기를 나타내는, 음성 활동 검출 방법.
제12항에 있어서,

snr_peak는 2개의 인접하는 비배경 잡음 프레임 사이의 배경 잡음 프레임 각각에 대응하는 SNR 중의 최대 SNR이거나;

snr_peak는 2개의 인접하는 배경 잡음 프레임 사이의 비배경 잡음 프레임 각각에 대응하는 SNR 중의 최소 SNR이거나;

snr_peak는, 간격이 미리 설정된 프레임 개수보다 작은 2개의 배경 잡음 프레임 사이의 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나이거나;

snr_peak는, 간격이 미리 설정된 프레임 개수보다 큰 2개의 배경 잡음 프레임 사이의 미리 설정된 임계값보다 작은 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나인, 음성 활동 검출 방법.
제14항에 있어서,

snr_peak는 2개의 인접하는 비배경 잡음 프레임 사이의 배경 잡음 프레임 각각에 대응하는 SNR 중의 최대 SNR이거나;

snr_peak는 2개의 인접하는 배경 잡음 프레임 사이의 비배경 잡음 프레임 각각에 대응하는 SNR 중의 최소 SNR이거나;

snr_peak는, 간격이 미리 설정된 프레임 개수보다 작은 2개의 배경 잡음 프레임 사이의 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나이거나;

snr_peak는, 간격이 미리 설정된 프레임 개수보다 큰 2개의 배경 잡음 프레임 사이의 미리 설정된 임계값보다 작은 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나인, 음성 활동 검출 방법.
제15항에 있어서,

snr_peak이, 간격이 미리 설정된 프레임 개수보다 큰 2개의 배경 잡음 프레임 사이의 미리 설정된 임계값보다 작은 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나이면, 상기 임계값은 다음의 규칙:

-2개의 배경 잡음 프레임 사이의 비배경 잡음 프레임의 모든 SNR이 2개의 세트를 포함한다고 가정하면, 한 세트는 임계값보다 큰 모든 SNR로 구성되고, 나머지 세트는 임계값보다 작은 모든 SNR로 구성되며, 각 세트의 평균값의 차이를 최대화하는 임계값이 미리 설정된 임계값으로서 결정됨-

에 따라 설정되는, 음성 활동 검출 방법.
제16항에 있어서,

snr_peak이, 간격이 미리 설정된 프레임 개수보다 큰 2개의 배경 잡음 프레임 사이의 미리 설정된 임계값보다 작은 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나이면, 상기 임계값은 다음의 규칙:

-2개의 배경 잡음 프레임 사이의 비배경 잡음 프레임의 모든 SNR이 2개의 세트를 포함한다고 가정하면, 한 세트는 임계값보다 큰 모든 SNR로 구성되고, 나머지 세트는 임계값보다 작은 모든 SNR로 구성되며, 각 세트의 평균값의 차이를 최대화하는 임계값이 미리 설정된 임계값으로서 결정됨-

에 따라 설정되는, 음성 활동 검출 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제