KR101336203B1

KR101336203B1 - 전자기기에서 음성 검출 방법 및 장치

Info

Publication number: KR101336203B1
Application number: KR1020070097898A
Authority: KR
Inventors: 유성엽
Original assignee: 삼성전자주식회사
Priority date: 2007-09-28
Filing date: 2007-09-28
Publication date: 2013-12-05
Also published as: KR20090032560A

Abstract

본 발명은 전자기기에서 음성 검출 방법 및 장치에 관한 것으로서, 입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하는 과정과, 상기 입력 신호에서 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 과정과, 상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 과정과, 상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하는 과정과, 상기 SNR에 따라 동적으로 변화하는 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 과정을 포함하여 시간과 공간에 따라 다양하게 변화하는 잡음이 존재하는 상황에서도 음성 구간과 묵음 구간을 명확하게 검출할 수 있는 효과가 있다.

음성 검출, 음성 검출기, 묵음 구간, 음성 구간

Description

전자기기에서 음성 검출 방법 및 장치{APPARATUS AND METHOD FOR DETECTING VOICE ACTIVITY IN ELECTRONIC DEVICE}

본 발명은 전자기기에서 음성 검출(VAD : Voice Activity Detection) 방법 및 장치에 관한 것으로서, 특히, 해당 프레임의 신호대 잡음의 에너지 비율에 따라 동적으로 변화되는 문턱값을 이용하여 음성 신호를 검출하는 방법 및 장치에 관한 것이다.

일반적으로, 전자기기에서 마이크를 통해 사용자의 음성을 입력받을 경우, 주변 환경으로 인한 여러 가지 잡음이 상기 사용자의 음성과 함께 상기 마이크로 입력된다. 이에 따라, 상기 사용자의 음성을 재생하고자 할 경우, 상기 입력된 잡음으로 인해 상기 사용자의 음성이 왜곡되거나 제대로 들리지 않게 되어 사용자가 표현하고자 하는 의사가 정확히 전달되지 않는 경우가 종종 발생하게 된다.

따라서, 종래의 휴대용 단말기에서는 사용자의 의사가 정확히 전달되도록 하기 위해 입력 신호의 에너지 혹은 스펙트럼 정보를 이용하여 음성이 존재하는 음성 구간과 음성이 존재하지 않고 잡음만이 존재하는 묵음 구간을 판단함으로써, 상기 음성 신호를 검출하고 있다. 즉, 상기 전자기기에서 입력되는 음성 신호의 초기 몇 프레임을 묵음 구간으로 가정하고, 가정된 묵음 구간의 에너지 혹은 스펙트럼의 평균값과 이후에 입력되는 음성 신호의 에너지 혹은 스펙트럼 값의 차이를 고정된 문턱값과 비교하여 상기 이후에 입력되는 음성 신호가 음성인지 묵음(잡음)인지 여부를 판단한다.

도 1은 종래 기술에 따른 전자기기의 음성 검출 블록 구성을 도시하고 있다.

상기 도 1에 도시된 바와 같이, 종래 기술에 따른 전자기기에서 FFT부(101)는 마이크로부터 입력되는 음성 신호를 FFT 연산하여 주파수 영역의 신호로 변환한 후, 묵음 스펙트럼 측정부(103)와 스펙트럼 차이 측정부(105)로 출력한다. 상기 묵음 스펙트럼 측정부(103)는 상기 주파수 영역의 신호 중 묵음 구간으로 가정된 소정 수의 초기 프레임들에 대한 스펙트럼 평균값을 산출하여 묵음 구간의 통계적 정보를 획득하고, 상기 스펙트럼 차이 측정부(105)는 상기 가정된 묵음 구간 이후에 입력되는 프레임들의 스펙트럼을 계산하여 상기 묵음 구간의 통계적 정보인 스펙트럼 평균값과의 차이값을 계산한다. 그리고, 문턱값 비교부(107)는 상기 계산된 차이값을 기 설정된 고정된 문턱값과 비교하여 상기 차이값이 고정된 문턱값보다 크면 해당 프레임을 음성 신호 프레임으로 판단하고 상기 차이값이 고정된 문턱값보다 작으면 상기 해당 프레임을 묵음 신호 프레임으로 판단한다.

상술한 바와 같이 종래의 전자기기에서는 고정된 문턱값을 이용하여 음성 신호인지 묵음 신호인지 여부를 판별한다. 그러나, 실제 환경에서는 잡음이 일정하게 존재하지 않고 시간과 공간에 따라 여러가지 형태로 변하기 때문에 상기와 같이 고정된 문턱값을 이용하여 음성 신호와 묵음 신호를 판단할 경우 오류가 발생될 확률이 높다. 즉, 상기 전자기기에서 상기 고정된 문턱값을 이용할 경우 음성 신호가 묵음 신호로 잘못 판단되거나 묵음 신호가 음성 신호로 잘못 판단될 수 있다. 이러한 신호의 잘못된 판단은 잡음이 심한 환경에서 음성 신호와 묵음 신호와의 에너지 혹은 스펙트럼 차이가 작아져서 발생 확률이 더 높아지는 문제점이 있다.

본 발명은 상술한 바와 같은 문제점을 해결하기 위해 도출된 것으로서, 본 발명의 목적은 전자기기에서 음성 검출 방법 및 장치를 제공함에 있다.

본 발명의 다른 목적은 전자기기에서 입력되는 음성신호에 따라 동적으로 변화하는 문턱값을 이용하여 다양한 환경에서 음성 신호 검출 성능을 향상시키는 방법 및 장치를 제공함에 있다.

본 발명의 또 다른 목적은 전자기기에서 해당 프레임의 신호대 잡음 에너지 비율에 따라 동적으로 변화하는 문턱값을 이용하여 음성 신호를 검출하는 방법 및 장치를 제공함에 있다.

상술한 목적들을 달성하기 위한 본 발명의 제 1 견지에 따르면, 전자기기에서 음성 검출 방법은, 입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하는 과정과, 상기 입력 신호에서 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 과정과, 상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 과정과, 상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하는 과정과, 상기 SNR에 따라 동적으로 변화하는 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 과정을 포함하는 것을 특징으로 한다.

상술한 목적들을 달성하기 위한 본 발명의 제 2 견지에 따르면, 전자기기에서 음성 검출 장치는, 입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하고, 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 에너지 및 스펙트럼 측정부와, 상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 스펙트럼 차이 측정부와, 상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하고, 상기 SNR에 따라 동적으로 변화하는 문턱값을 계산하는 문턱값 계산부와, 상기 계산된 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 문턱값 비교부를 포함하는 것을 특징으로 한다.

본 발명은 전자기기에서 해당 프레임의 신호대 잡음의 에너지 비율에 따라 동적으로 변화되는 문턱값으로 음성 구간과 묵음 구간을 판단하여 음성 신호를 검출함으로써, 시간과 공간에 따라 다양하게 변화하는 잡음이 존재하는 상황에서도 음성 구간과 묵음 구간을 명확하게 검출할 수 있는 효과가 있다.

이하 본 발명의 바람직한 실시 예를 첨부된 도면의 참조와 함께 상세히 설명 한다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다.

이하 본 발명에서는 전자기기에서 입력되는 음성 신호의 신호대 잡음 에너지 비율에 따라 동적으로 변화하는 문턱값을 이용하여 음성 신호를 검출하는 기술에 관해 설명할 것이다. 이하 설명에서는 음성 신호에서 사용자의 음성이 존재하는 신호 구간을 음성 구간이라 하고, 상기 사용자의 음성이 존재하지 않고 잡음만이 존재하는 묵음 구간이라 칭한다.

도 2는 본 발명에 따른 전자기기의 블록 구성을 도시하고 있다.

상기 도 2에 도시된 바와 같이, 전자기기는 FFT(Fast Fourier Transform)부(201), 에너지 및 스펙트럼 측정부(203), 스펙트럼 차이 측정부(205), 문턱값 계산부(207), 문턱값 비교부(209)를 포함하여 구성된다.

상기 FFT부(201)는 마이크를 통해 입력되는 신호를 FFT 연산하여 시간 영역에서 주파수 영역의 신호로 변환한 후, 에너지 및 스펙트럼 측정부(203)와 문턱값 계산부(207)로 출력한다.

상기 에너지 및 스펙트럼 측정부(203)는 상기 FFT부(201)로부터 입력되는 주파수 영역 신호의 각 프레임들에 대한 에너지 및 스펙트럼을 측정하고, 묵음 구간으로 가정된 소정 수의 초기 프레임들에 대한 에너지 및 스펙트럼의 평균값을 산출한다. 여기서, 상기 에너지 및 스펙트럼의 평균값은 하기 수학식 1 및 2와 같이 산 출한다.

하기 수학식 1은 묵음 구간에 대한 에너지 평균을 나타낸다.

여기서, 상기 E_R은 상기 묵음 구간에 대한 에너지 평균을 나타내고, 상기 E_r은 r번째 프레임의 에너지를 나타내고, M은 묵음 구간으로 설정된 프레임의 수를 나타낸다.

하기 수학식 2는 묵음 구간에 대한 스펙트럼 평균을 나타낸다.

여기서, 상기 R(w)_R은 상기 묵음 구간에 대한 스펙트럼 평균을 나타내고, 상기 R(w)_r은 r번째 프레임의 스펙트럼을 나타내고, M은 묵음 구간으로 설정된 프레임의 수를 나타낸다.

상기 에너지 및 스펙트럼 측정부(203)는 상기 산출된 묵음 구간의 에너지 평균 값과 상기 묵음 구간 이후에 입력된 신호의 프레임 각각에 대해 측정된 에너지 를 상기 문턱값 계산부(207)로 제공하고, 상기 묵음 구간의 스펙트럼 평균값과 상기 묵음 구간 이후에 입력된 신호의 프레임 각각에 대해 측정된 스펙트럼을 상기 스펙트럼 차이 측정부(205)로 제공한다. 또한, 상기 에너지 및 스펙트럼 측정부(203)는 상기 문턱값 비교부(209)로부터 상기 묵음 구간으로 가정된 구간 이후의 신호 프레임이 묵음 구간으로 판단됨이 입력될 시, 해당 신호 프레임까지의 구간을 새로운 묵음 구간으로 가정하고 상기 해당 신호 프레임의 에너지와 스펙트럼을 이용하여 상기 묵음 구간의 에너지 평균값과 스펙트럼 평균값을 갱신한다. 여기서, 상기 묵음 구간의 에너지 평균값과 스펙트럼 평균값은 하기 수학식 3 및 4와 같이, 망각 인자(forgetting factor)에 의한 귀납적 필터링(recursive filtering) 방식을 통해 갱신된다.

하기 수학식 3은 새로운 묵음 구간의 에너지 평균을 나타낸다.

여기서, 상기 E_Rnew은 새로운 묵음 구간에 대한 에너지 평균을 나타내고, α는 망각 인자(forgetting factor)를 나타내고, E_Rold는 이전 묵음 구간의 에너지 평균을 나타내며, E_N은 새롭게 묵음 구간으로 판단된 프레임의 에너지를 나타낸다.

하기 수학식 4는 새로운 묵음 구간의 스펙트럼 평균을 나타낸다.

여기서, 상기 R(w)_Rnew는 새로운 묵음 구간에 대한 스펙트럼 평균을 나타내고, α는 망각 인자(forgetting factor)를 나타내고, R(w)_Rold는 이전 묵음 구간의 스펙트럼 평균을 나타내며, R(w)_N은 새로운 묵음 구간으로 판단된 프레임의 스펙트럼을 나타낸다.

상기 에너지 및 스펙트럼 측정부(203)는 상기 수학식 3 및 4와 같이, 갱신된 에너지 및 스펙트럼 평균값을 각각 상기 문턱값 계산부(207)와 상기 스펙트럼 차이 측정부(205)로 제공한다.

상기 스펙트럼 차이 측정부(205)는 상기 에너지 및 스펙트럼 측정부(203)로부터 제공되는 묵음 구간의 스펙트럼 평균값과 상기 묵음 구간 이후에 입력되는 신호 프레임에 대한 스펙트럼의 차이값을 측정한 후, 상기 측정된 차이값을 상기 문턱값 비교부(209)로 제공한다. 여기서, 상기 입력되는 신호 프레임에 대한 스펙트럼 차이값은 하기 수학식 5를 이용하여 측정한다.

하기 수학식 5는 묵음 구간의 스펙트럼 평균값과 입력되는 신호에서 특정 프레임의 스펙트럼 간의 차이값을 나타낸다.

여기서, 상기 D[i]는 입력 신호에서 i번째 프레임의 스펙트럼 값과 묵음 구간의 스펙트럼 평균값의 차이를 나타내며, 상기 S(w)는 입력 신호에서 i번째 프레임의 스펙트럼을 나타내고, 상기 R(w)_R은 묵음 구간의 스펙트럼 평균값을 나타내고, 상기 N은 주파수 bin 수를 나타낸다.

상기 문턱값 계산부(207)는 상기 에너지 및 스펙트럼 측정부(203)로부터 제공되는 묵음 구간의 에너지 평균값과 상기 묵음 구간 이후에 입력되는 신호 프레임에 대한 에너지의 비율, 즉, 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출한다. 이때, 상기 문턱값 계산부(207)는 하기 수학식 6과 같이 상기 SNR을 산출한다.

하기 수학식 6은 묵음 구간의 에너지 평균값과 특정 신호 프레임의 에너지의 비율인 SNR을 나타낸다.

여기서, 상기 SNR[i]는 i번째 프레임에 대한 SNR을 나타내며, E_s[i]는 입력 되는 신호에서 i번째 프레임의 에너지를 나타내고, 상기 E_R은 묵음 구간의 에너지 평균값을 나타낸다.

상기 문턱값 계산부(207)는 상기 문턱값 계산부(207)로부터 제공되는 SNR과 기 설정된 최소 SNR 값 및 최대 SNR 값을 이용하여 해당 프레임에 대한 문턱값을 설정한다. 여기서, 상기 문턱값 계산부(207)는 하기 수학식 7을 이용하여 상기 문턱값을 계산한다.

하기 수학식 7은 각 프레임의 SNR에 따른 최적의 문턱값을 나타낸다.

여기서, 상기 TH_OPT[i]는 i번째 프레임의 SNR에 따라 최적화된 문턱값을 나타내고, 상기 TH_min은 최소 문턱값을 나타내고, 상기 TH_max는 최대 문턱값을 나타낸다. 그리고, 상기 SNR_min은 최소 SNR값을 나타내고, 상기 SNR_max는 최대 SNR값을 나타내고, 상기 SNR[i]는 i번째 프레임의 SNR을 나타낸다.

상기 수학식 7을 이용하여 계산된 문턱값은 도 4에 도시된 바와 같은 특성을 가진다. 즉, 상기 도 4에 도시된 바와 같이, 해당 프레임의 SNR값이 기 설정된 최소 SNR값보다 작을 경우에는 입력 신호와 묵음 신호의 스펙트럼 차이가 점점 작아지며, 이에 따라 정확한 음성 구간과 묵음 구간을 구별하기 위해서는 비교적 낮은 문턱값이 필요하게 됨으로써, 최소 문턱값이 해당 프레임의 문턱값으로 설정된다. 그리고, 해당 프레임의 SNR값이 기 설정된 최대 SNR값보다 큰 경우에는 입력 신호와 묵음 신호의 스펙트럼 차이가 점점 커지며, 이에 따라 비교적 높은 문턱값으로도 음성 구간과 묵음 구간을 구별할 수 있으므로, 최대 문턱값이 해당 프레임의 문턱값으로 설정된다. 반면, 상기 해당 프레임의 SNR값이 기 설정된 최소 SNR값보다 크고 최대 SNR값보다 작은 경우에는 해당 프레임의 문턱값은 상기 SNR에 비례하여 증가하거나 감소하게 된다.

여기서, 상기 SNR의 크기에 따른 입력 신호와 묵음 신호 간의 스펙트럼 차이는 도 5에 도시된 바와 같은 특성을 가진다. 즉, 상기 도 5(a)에 도시된 바와 같이 입력되는 신호의 에너지와 묵음 구간의 에너지 평균값에 따른 SNR이 25dB일 경우와 상기 도 5(b)에 도시된 바와 같이 입력되는 신호의 에너지와 묵음 구간의 에너지 평균값에 따른 SNR이 5dB일 경우를 비교해보면, 상기 SNR이 25인 경우의 스펙트럼의 차이가 상기 SNR이 5인 경우의 스펙트럼 차이보다 큰 것을 알 수 있다.

상기 문턱값 비교부(209)는 상기 문턱값 계산부(207)에서 계산 및 설정된 문턱값과 상기 스펙트럼 차이 측정부(205)에서 계산된 스펙트럼 차이값을 비교하여 해당 프레임이 음성 구간의 신호인지 묵음 구간의 신호인지 여부를 판별한다. 즉, 상기 문턱값 비교부(209)는 상기 차이값이 상기 문턱값보다 큰 경우 해당 프레임을 음성 구간의 신호로 판별하고, 상기 차이값이 상기 문턱값보다 작거나 같은 경우 해당 프레임을 묵음 구간의 신호로 판별한다. 여기서, 상기 해당 프레임이 묵음 구간의 신호로 판별될 시, 상기 문턱값 비교부(209)는 상기 해당 프레임이 묵음 구간으로 판단되었음을 상기 에너지 및 스펙트럼 측정부(203)로 알린다.

도 3은 본 발명의 실시 예에 따른 전자기기에서 음성 검출 절차를 도시하고 있다.

상기 도 3을 참조하면, 먼저 상기 전자기기는 301단계에서 신호가 입력되면, 303단계로 진행하여 상기 입력된 신호 프레임에 대한 에너지 및 스펙트럼을 측정한다.

이후, 상기 전자기기는 305단계에서 상기 입력된 신호 프레임이 묵음 구간으로 가정된 소정 수(M)의 초기 프레임 이후의 신호 프레임인지 여부를 검사한다. 상기 입력된 신호 프레임이 상기 묵음 구간으로 가정된 소정 수의 초기 프레임에 해당할 시, 상기 전자기기는 321단계로 진행하여 현재까지 입력된 신호 프레임의 에너지 및 스펙트럼 평균값을 산출한 후, 상기 301단계로 되돌아가 이하 단계를 재수행한다.

상기 입력된 신호 프레임이 상기 묵음 구간으로 가정된 소정 수의 초기 프레임 이후의 신호 프레임에 해당할 시, 상기 전자기기는 307단계에서 상기 입력된 신호 프레임의 에너지와 기 계산된 묵음 구간의 에너지 평균값 간의 비율 즉, 신호대 잡음 에너지 비율(SNR)을 측정한다.

이후, 상기 전자기기는 309단계에서 상기 측정된 SNR과 기 설정된 최소 SNR(SNR_min)값을 비교하고, 상기 측정된 SNR이 기 설정된 최소 SNR값보다 작거나 같을 경우 323단계로 진행하여 기 설정된 최소 문턱값을 해당 프레임의 문턱값으로 설정(TH = TH_min)하고 하기 317단계로 진행한다.

반면, 상기 측정된 SNR이 기 설정된 최소 SNR값보다 클 경우 상기 전자기기는 311단계에서 상기 측정된 SNR과 기 설정된 최대 SNR(SNR_max)값을 비교하고, 상기 측정된 SNR이 기 설정된 최대 SNR값보다 크거나 같을 경우, 325단계로 진행하여 기 설정된 최대 문턱값을 해당 프레임의 문턱값으로 설정(TH = TH_max)하고 하기 317단계로 진행한다.

반면, 상기 측정된 SNR이 기 설정된 최대 SNR값보다 작을 경우, 상기 전자기기는 313단계에서 상기 SNR 값에 비례하여 증가 혹은 감소하는 문턱값을 상기 수학식 7과 같이 계산한 후, 계산된 문턱값을 상기 해당 프레임의 문턱값으로 설정(TH = [TH_min, TH_max])한다.

이후, 상기 전자기기는 315단계에서 상기 입력 신호의 스펙트럼과 묵음 구간의 스펙트럼 평균을 이용하여 상기 수학식 5와 같이, 스펙트럼 차이값을 산출하고, 317단계로 진행하여 상기 산출된 스펙트럼 차이값과 상기 설정된 해당 프레임의 문턱값을 비교한다.

만일, 상기 산출된 스펙트럼 차이값이 상기 해당 프레임의 문턱값보다 클 경 우, 상기 전자기기는 상기 해당 프레임을 음성 구간으로 판별하고 상기 301단계로 되돌아가 이하 단계를 재수행한다.

반면, 상기 산출된 스펙트럼 차이값이 상기 해당 프레임의 문턱값보다 작거나 같을 경우, 상기 전자기기는 327단계에서 상기 해당 프레임을 묵음 구간으로 판별하고 329단계에서 상기 해당 프레임의 에너지 및 스펙트럼을 이용하여 상기 수학식 3 및 4와 같이 묵음 구간의 에너지 평균값 및 스펙트럼 평균값을 갱신한다.

이후, 상기 전자기기는 상기 301단계로 되돌아가 이하 단계를 재수행한다.

한편 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능하다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

도 1은 종래 기술에 따른 전자기기의 음성 검출 블록 구성을 도시하는 도면,

도 2는 본 발명에 따른 전자기기의 블록 구성을 도시하는 도면,

도 3은 본 발명의 실시 예에 따른 전자기기에서 음성 검출 절차를 도시하는 도면,

도 4는 본 발명의 실시 예에 따른 전자기기에서 최적화된 문턱 값의 특성을 도시하는 도면, 및

도 5는 본 발명의 실시 예에 따른 전자기기에서 신호대 잡음 비에 따른 스펙트럼 특성을 도시하는 도면.

Claims

전자기기에서 음성 검출 방법에 있어서,

입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하는 과정과,

상기 입력 신호에서 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 과정과,

상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 과정과,

상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하는 과정과,

상기 SNR에 따라 동적으로 변화하는 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 과정을 포함하는 것을 특징으로 하는 방법.
제 1항에 있어서,

상기 스펙트럼 차이값은, 하기 수학식 8과 같이 나타내는 것을 특징으로 하는 방법.

여기서, 상기 D[i]는 입력 신호에서 i번째 프레임의 스펙트럼 값과 묵음 구간의 스펙트럼 평균값의 차이를 나타내며, 상기 S(w)는 입력 신호에서 i번째 프레임의 스펙트럼을 나타내고, 상기 R(w)_R은 묵음 구간으로 가정된 소정 수의 프레임에 대한 스펙트럼 평균값을 나타내고, 상기 N은 주파수 bin 수를 나타냄.
제 1항에 있어서,

상기 동적으로 변화하는 문턱값은,

하기 수학식 9와 같이 계산하여 설정하는 것을 특징으로 하는 방법.

여기서, 상기 TH_OPT[i]는 i번째 프레임의 SNR에 따라 최적화된 문턱값을 나타내고, 상기 TH_min은 최소 문턱값을 나타내고, 상기 TH_max는 최대 문턱값을 나타낸다. 그리고, 상기 SNR_min은 최소 SNR값을 나타내고, 상기 SNR_max는 최대 SNR값을 나타내고, 상기 SNR[i]는 i번째 프레임의 SNR을 나타냄.
제 1항에 있어서,

상기 문턱값과 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 과정은,

상기 입력된 신호 프레임의 SNR에 따라 동적으로 변화하는 문턱값을 설정하는 과정과,

상기 설정된 문턱값과 해당 프레임에 대한 스펙트럼 차이값을 비교하여 상기 해당 프레임이 음성 구간인지 묵음 구간인지 여부를 판별하는 과정을 포함하는 것을 특징으로 하는 방법.
제 4항에 있어서,

상기 동적으로 변화하는 문턱값을 설정하는 과정은,

상기 입력된 신호 프레임의 SNR을 기 설정된 최소 SNR값 및 최대 SNR값과 비 교하는 과정과,

상기 입력된 신호 프레임의 SNR이 기 설정된 최소 SNR값보다 작거나 같을 경우, 기 설정된 최소 문턱값을 상기 입력된 신호 프레임의 문턱값으로 설정하는 과정을 포함하는 것을 특징으로 하는 방법.
제 5항에 있어서,

상기 입력된 신호 프레임의 SNR이 기 설정된 최대 SNR값보다 크거나 같을 경우, 기 설정된 최대 문턱값을 상기 입력된 신호 프레임의 문턱값으로 설정하는 과정을 더 포함하는 것을 특징으로 하는 방법.
제 4항에 있어서,

상기 해당 프레임이 묵음 구간으로 판별될 경우, 상기 해당 프레임의 에너지 및 스펙트럼을 이용하여 상기 에너지 평균값과 스펙트럼 평균값을 갱신하는 과정을 더 포함하는 것을 특징으로 하는 방법.
제 7항에 있어서,

상기 에너지 평균값은,

하기 수학식 10을 이용하여 갱신하는 것을 특징으로 하는 방법.

여기서, 상기 E_Rnew은 새로운 묵음 구간에 대한 에너지 평균을 나타내고, α는 망각 인자(forgetting factor)를 나타내고, E_Rold는 이전 묵음 구간의 에너지 평균을 나타내며, E_N은 새롭게 묵음 구간으로 판단된 프레임의 에너지를 나타냄.
제 7항에 있어서,

상기 스펙트럼 평균값은,

하기 수학식 11을 이용하여 갱신하는 것을 특징으로 하는 방법.

여기서, 상기 R(w)_Rnew는 새로운 묵음 구간에 대한 스펙트럼 평균을 나타내고, α는 망각 인자(forgetting factor)를 나타내고, R(w)_Rold는 이전 묵음 구간의 스펙트럼 평균을 나타내며, R(w)_N은 새로운 묵음 구간으로 판단된 프레임의 스펙트럼을 나타냄.
전자기기에서 음성 검출 장치에 있어서,

입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하고, 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 에너지 및 스펙트럼 측정부와,

상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 스펙트럼 차이 측정부와,

상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하고, 상기 SNR에 따라 동적으로 변화하는 문턱값을 계산하는 문턱값 계산부와,

상기 계산된 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 문턱값 비교부를 포함하는 것을 특징으로 하는 장치.
제 10항에 있어서,

상기 스펙트럼 차이값은, 하기 수학식 12와 같이 나타내는 것을 특징으로 하는 장치.

여기서, 상기 D[i]는 입력 신호에서 i번째 프레임의 스펙트럼 값과 묵음 구간의 스펙트럼 평균값의 차이를 나타내며, 상기 S(w)는 입력 신호에서 i번째 프레임의 스펙트럼을 나타내고, 상기 R(w)_R은 묵음 구간으로 가정된 소정 수의 프레임에 대한 스펙트럼 평균값을 나타내고, 상기 N은 주파수 bin 수를 나타냄.
제 10항에 있어서,

상기 문턱값 계산부는, 상기 동적으로 변화하는 문턱값을 하기 수학식 13과 같이 계산하여 설정하는 것을 특징으로 하는 장치.

여기서, 상기 TH_OPT[i]는 i번째 프레임의 SNR에 따라 최적화된 문턱값을 나타내고, 상기 TH_min은 최소 문턱값을 나타내고, 상기 TH_max는 최대 문턱값을 나타낸다. 그리고, 상기 SNR_min은 최소 SNR값을 나타내고, 상기 SNR_max는 최대 SNR값을 나타내고, 상기 SNR[i]는 i번째 프레임의 SNR을 나타냄.
제 10항에 있어서,

상기 문턱값 계산부는, 상기 입력된 신호 프레임의 SNR을 기 설정된 최소 SNR값 및 최대 SNR값과 비교하여 상기 입력된 신호 프레임의 SNR이 기 설정된 최소 SNR값보다 작거나 같을 경우, 기 설정된 최소 문턱값을 상기 입력된 신호 프레임의 문턱값으로 설정하고, 상기 입력된 신호 프레임의 SNR이 기 설정된 최대 SNR값보다 크거나 같을 경우, 기 설정된 최대 문턱값을 상기 입력된 신호 프레임의 문턱값으로 설정하는 것을 특징으로 하는 장치.
제 10항에 있어서,

상기 문턱값 비교부는, 상기 문턱값과 해당 프레임에 대한 스펙트럼 차이값을 비교하여 상기 해당 프레임이 음성 구간인지 묵음 구간인지 여부를 판별하는 것을 포함하는 것을 특징으로 하는 장치.
제 14항에 있어서,

상기 에너지 및 스펙트럼 측정부는,

상기 문턱값 비교부에서 해당 프레임이 묵음 구간으로 판별될 경우, 상기 해당 프레임의 에너지 및 스펙트럼을 이용하여 상기 에너지 평균값과 스펙트럼 평균값을 갱신하는 것을 특징으로 하는 장치.
제 15항에 있어서,

상기 에너지 및 스펙트럼 측정부는, 하기 수학식 14를 이용하여 상기 에너지 평균값을 갱신하는 것을 특징으로 하는 장치.

여기서, 상기 E_Rnew은 새로운 묵음 구간에 대한 에너지 평균을 나타내고, α는 망각 인자(forgetting factor)를 나타내고, E_Rold는 이전 묵음 구간의 에너지 평균을 나타내며, E_N은 새롭게 묵음 구간으로 판단된 프레임의 에너지를 나타냄.
제 15항에 있어서,

상기 에너지 및 스펙트럼 측정부는, 하기 수학식 15를 이용하여 상기 스펙트럼 평균값을 갱신하는 것을 특징으로 하는 장치.

여기서, 상기 R(w)_Rnew는 새로운 묵음 구간에 대한 스펙트럼 평균을 나타내고, α는 망각 인자(forgetting factor)를 나타내고, R(w)_Rold는 이전 묵음 구간의 스펙트럼 평균을 나타내며, R(w)_N은 새로운 묵음 구간으로 판단된 프레임의 스펙트럼을 나타냄.