KR101336203B1 - 전자기기에서 음성 검출 방법 및 장치 - Google Patents
전자기기에서 음성 검출 방법 및 장치 Download PDFInfo
- Publication number
- KR101336203B1 KR101336203B1 KR1020070097898A KR20070097898A KR101336203B1 KR 101336203 B1 KR101336203 B1 KR 101336203B1 KR 1020070097898 A KR1020070097898 A KR 1020070097898A KR 20070097898 A KR20070097898 A KR 20070097898A KR 101336203 B1 KR101336203 B1 KR 101336203B1
- Authority
- KR
- South Korea
- Prior art keywords
- value
- snr
- frame
- energy
- spectrum
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000000694 effects Effects 0.000 title abstract description 4
- 238000001228 spectrum Methods 0.000 claims abstract description 68
- 230000003595 spectral effect Effects 0.000 claims abstract description 58
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000005259 measurement Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephone Function (AREA)
Abstract
본 발명은 전자기기에서 음성 검출 방법 및 장치에 관한 것으로서, 입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하는 과정과, 상기 입력 신호에서 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 과정과, 상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 과정과, 상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하는 과정과, 상기 SNR에 따라 동적으로 변화하는 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 과정을 포함하여 시간과 공간에 따라 다양하게 변화하는 잡음이 존재하는 상황에서도 음성 구간과 묵음 구간을 명확하게 검출할 수 있는 효과가 있다.
음성 검출, 음성 검출기, 묵음 구간, 음성 구간
Description
본 발명은 전자기기에서 음성 검출(VAD : Voice Activity Detection) 방법 및 장치에 관한 것으로서, 특히, 해당 프레임의 신호대 잡음의 에너지 비율에 따라 동적으로 변화되는 문턱값을 이용하여 음성 신호를 검출하는 방법 및 장치에 관한 것이다.
일반적으로, 전자기기에서 마이크를 통해 사용자의 음성을 입력받을 경우, 주변 환경으로 인한 여러 가지 잡음이 상기 사용자의 음성과 함께 상기 마이크로 입력된다. 이에 따라, 상기 사용자의 음성을 재생하고자 할 경우, 상기 입력된 잡음으로 인해 상기 사용자의 음성이 왜곡되거나 제대로 들리지 않게 되어 사용자가 표현하고자 하는 의사가 정확히 전달되지 않는 경우가 종종 발생하게 된다.
따라서, 종래의 휴대용 단말기에서는 사용자의 의사가 정확히 전달되도록 하기 위해 입력 신호의 에너지 혹은 스펙트럼 정보를 이용하여 음성이 존재하는 음성 구간과 음성이 존재하지 않고 잡음만이 존재하는 묵음 구간을 판단함으로써, 상기 음성 신호를 검출하고 있다. 즉, 상기 전자기기에서 입력되는 음성 신호의 초기 몇 프레임을 묵음 구간으로 가정하고, 가정된 묵음 구간의 에너지 혹은 스펙트럼의 평균값과 이후에 입력되는 음성 신호의 에너지 혹은 스펙트럼 값의 차이를 고정된 문턱값과 비교하여 상기 이후에 입력되는 음성 신호가 음성인지 묵음(잡음)인지 여부를 판단한다.
도 1은 종래 기술에 따른 전자기기의 음성 검출 블록 구성을 도시하고 있다.
상기 도 1에 도시된 바와 같이, 종래 기술에 따른 전자기기에서 FFT부(101)는 마이크로부터 입력되는 음성 신호를 FFT 연산하여 주파수 영역의 신호로 변환한 후, 묵음 스펙트럼 측정부(103)와 스펙트럼 차이 측정부(105)로 출력한다. 상기 묵음 스펙트럼 측정부(103)는 상기 주파수 영역의 신호 중 묵음 구간으로 가정된 소정 수의 초기 프레임들에 대한 스펙트럼 평균값을 산출하여 묵음 구간의 통계적 정보를 획득하고, 상기 스펙트럼 차이 측정부(105)는 상기 가정된 묵음 구간 이후에 입력되는 프레임들의 스펙트럼을 계산하여 상기 묵음 구간의 통계적 정보인 스펙트럼 평균값과의 차이값을 계산한다. 그리고, 문턱값 비교부(107)는 상기 계산된 차이값을 기 설정된 고정된 문턱값과 비교하여 상기 차이값이 고정된 문턱값보다 크면 해당 프레임을 음성 신호 프레임으로 판단하고 상기 차이값이 고정된 문턱값보다 작으면 상기 해당 프레임을 묵음 신호 프레임으로 판단한다.
상술한 바와 같이 종래의 전자기기에서는 고정된 문턱값을 이용하여 음성 신호인지 묵음 신호인지 여부를 판별한다. 그러나, 실제 환경에서는 잡음이 일정하게 존재하지 않고 시간과 공간에 따라 여러가지 형태로 변하기 때문에 상기와 같이 고정된 문턱값을 이용하여 음성 신호와 묵음 신호를 판단할 경우 오류가 발생될 확률이 높다. 즉, 상기 전자기기에서 상기 고정된 문턱값을 이용할 경우 음성 신호가 묵음 신호로 잘못 판단되거나 묵음 신호가 음성 신호로 잘못 판단될 수 있다. 이러한 신호의 잘못된 판단은 잡음이 심한 환경에서 음성 신호와 묵음 신호와의 에너지 혹은 스펙트럼 차이가 작아져서 발생 확률이 더 높아지는 문제점이 있다.
본 발명은 상술한 바와 같은 문제점을 해결하기 위해 도출된 것으로서, 본 발명의 목적은 전자기기에서 음성 검출 방법 및 장치를 제공함에 있다.
본 발명의 다른 목적은 전자기기에서 입력되는 음성신호에 따라 동적으로 변화하는 문턱값을 이용하여 다양한 환경에서 음성 신호 검출 성능을 향상시키는 방법 및 장치를 제공함에 있다.
본 발명의 또 다른 목적은 전자기기에서 해당 프레임의 신호대 잡음 에너지 비율에 따라 동적으로 변화하는 문턱값을 이용하여 음성 신호를 검출하는 방법 및 장치를 제공함에 있다.
상술한 목적들을 달성하기 위한 본 발명의 제 1 견지에 따르면, 전자기기에서 음성 검출 방법은, 입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하는 과정과, 상기 입력 신호에서 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 과정과, 상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 과정과, 상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하는 과정과, 상기 SNR에 따라 동적으로 변화하는 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 과정을 포함하는 것을 특징으로 한다.
상술한 목적들을 달성하기 위한 본 발명의 제 2 견지에 따르면, 전자기기에서 음성 검출 장치는, 입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하고, 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 에너지 및 스펙트럼 측정부와, 상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 스펙트럼 차이 측정부와, 상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하고, 상기 SNR에 따라 동적으로 변화하는 문턱값을 계산하는 문턱값 계산부와, 상기 계산된 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 문턱값 비교부를 포함하는 것을 특징으로 한다.
본 발명은 전자기기에서 해당 프레임의 신호대 잡음의 에너지 비율에 따라 동적으로 변화되는 문턱값으로 음성 구간과 묵음 구간을 판단하여 음성 신호를 검출함으로써, 시간과 공간에 따라 다양하게 변화하는 잡음이 존재하는 상황에서도 음성 구간과 묵음 구간을 명확하게 검출할 수 있는 효과가 있다.
이하 본 발명의 바람직한 실시 예를 첨부된 도면의 참조와 함께 상세히 설명 한다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다.
이하 본 발명에서는 전자기기에서 입력되는 음성 신호의 신호대 잡음 에너지 비율에 따라 동적으로 변화하는 문턱값을 이용하여 음성 신호를 검출하는 기술에 관해 설명할 것이다. 이하 설명에서는 음성 신호에서 사용자의 음성이 존재하는 신호 구간을 음성 구간이라 하고, 상기 사용자의 음성이 존재하지 않고 잡음만이 존재하는 묵음 구간이라 칭한다.
도 2는 본 발명에 따른 전자기기의 블록 구성을 도시하고 있다.
상기 도 2에 도시된 바와 같이, 전자기기는 FFT(Fast Fourier Transform)부(201), 에너지 및 스펙트럼 측정부(203), 스펙트럼 차이 측정부(205), 문턱값 계산부(207), 문턱값 비교부(209)를 포함하여 구성된다.
상기 FFT부(201)는 마이크를 통해 입력되는 신호를 FFT 연산하여 시간 영역에서 주파수 영역의 신호로 변환한 후, 에너지 및 스펙트럼 측정부(203)와 문턱값 계산부(207)로 출력한다.
상기 에너지 및 스펙트럼 측정부(203)는 상기 FFT부(201)로부터 입력되는 주파수 영역 신호의 각 프레임들에 대한 에너지 및 스펙트럼을 측정하고, 묵음 구간으로 가정된 소정 수의 초기 프레임들에 대한 에너지 및 스펙트럼의 평균값을 산출한다. 여기서, 상기 에너지 및 스펙트럼의 평균값은 하기 수학식 1 및 2와 같이 산 출한다.
하기 수학식 1은 묵음 구간에 대한 에너지 평균을 나타낸다.
여기서, 상기 ER은 상기 묵음 구간에 대한 에너지 평균을 나타내고, 상기 Er은 r번째 프레임의 에너지를 나타내고, M은 묵음 구간으로 설정된 프레임의 수를 나타낸다.
하기 수학식 2는 묵음 구간에 대한 스펙트럼 평균을 나타낸다.
여기서, 상기 R(w)R은 상기 묵음 구간에 대한 스펙트럼 평균을 나타내고, 상기 R(w)r은 r번째 프레임의 스펙트럼을 나타내고, M은 묵음 구간으로 설정된 프레임의 수를 나타낸다.
상기 에너지 및 스펙트럼 측정부(203)는 상기 산출된 묵음 구간의 에너지 평균 값과 상기 묵음 구간 이후에 입력된 신호의 프레임 각각에 대해 측정된 에너지 를 상기 문턱값 계산부(207)로 제공하고, 상기 묵음 구간의 스펙트럼 평균값과 상기 묵음 구간 이후에 입력된 신호의 프레임 각각에 대해 측정된 스펙트럼을 상기 스펙트럼 차이 측정부(205)로 제공한다. 또한, 상기 에너지 및 스펙트럼 측정부(203)는 상기 문턱값 비교부(209)로부터 상기 묵음 구간으로 가정된 구간 이후의 신호 프레임이 묵음 구간으로 판단됨이 입력될 시, 해당 신호 프레임까지의 구간을 새로운 묵음 구간으로 가정하고 상기 해당 신호 프레임의 에너지와 스펙트럼을 이용하여 상기 묵음 구간의 에너지 평균값과 스펙트럼 평균값을 갱신한다. 여기서, 상기 묵음 구간의 에너지 평균값과 스펙트럼 평균값은 하기 수학식 3 및 4와 같이, 망각 인자(forgetting factor)에 의한 귀납적 필터링(recursive filtering) 방식을 통해 갱신된다.
하기 수학식 3은 새로운 묵음 구간의 에너지 평균을 나타낸다.
여기서, 상기 ERnew은 새로운 묵음 구간에 대한 에너지 평균을 나타내고, α는 망각 인자(forgetting factor)를 나타내고, ERold는 이전 묵음 구간의 에너지 평균을 나타내며, EN은 새롭게 묵음 구간으로 판단된 프레임의 에너지를 나타낸다.
하기 수학식 4는 새로운 묵음 구간의 스펙트럼 평균을 나타낸다.
여기서, 상기 R(w)Rnew는 새로운 묵음 구간에 대한 스펙트럼 평균을 나타내고, α는 망각 인자(forgetting factor)를 나타내고, R(w)Rold는 이전 묵음 구간의 스펙트럼 평균을 나타내며, R(w)N은 새로운 묵음 구간으로 판단된 프레임의 스펙트럼을 나타낸다.
상기 에너지 및 스펙트럼 측정부(203)는 상기 수학식 3 및 4와 같이, 갱신된 에너지 및 스펙트럼 평균값을 각각 상기 문턱값 계산부(207)와 상기 스펙트럼 차이 측정부(205)로 제공한다.
상기 스펙트럼 차이 측정부(205)는 상기 에너지 및 스펙트럼 측정부(203)로부터 제공되는 묵음 구간의 스펙트럼 평균값과 상기 묵음 구간 이후에 입력되는 신호 프레임에 대한 스펙트럼의 차이값을 측정한 후, 상기 측정된 차이값을 상기 문턱값 비교부(209)로 제공한다. 여기서, 상기 입력되는 신호 프레임에 대한 스펙트럼 차이값은 하기 수학식 5를 이용하여 측정한다.
하기 수학식 5는 묵음 구간의 스펙트럼 평균값과 입력되는 신호에서 특정 프레임의 스펙트럼 간의 차이값을 나타낸다.
여기서, 상기 D[i]는 입력 신호에서 i번째 프레임의 스펙트럼 값과 묵음 구간의 스펙트럼 평균값의 차이를 나타내며, 상기 S(w)는 입력 신호에서 i번째 프레임의 스펙트럼을 나타내고, 상기 R(w)R은 묵음 구간의 스펙트럼 평균값을 나타내고, 상기 N은 주파수 bin 수를 나타낸다.
상기 문턱값 계산부(207)는 상기 에너지 및 스펙트럼 측정부(203)로부터 제공되는 묵음 구간의 에너지 평균값과 상기 묵음 구간 이후에 입력되는 신호 프레임에 대한 에너지의 비율, 즉, 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출한다. 이때, 상기 문턱값 계산부(207)는 하기 수학식 6과 같이 상기 SNR을 산출한다.
하기 수학식 6은 묵음 구간의 에너지 평균값과 특정 신호 프레임의 에너지의 비율인 SNR을 나타낸다.
여기서, 상기 SNR[i]는 i번째 프레임에 대한 SNR을 나타내며, Es[i]는 입력 되는 신호에서 i번째 프레임의 에너지를 나타내고, 상기 ER은 묵음 구간의 에너지 평균값을 나타낸다.
상기 문턱값 계산부(207)는 상기 문턱값 계산부(207)로부터 제공되는 SNR과 기 설정된 최소 SNR 값 및 최대 SNR 값을 이용하여 해당 프레임에 대한 문턱값을 설정한다. 여기서, 상기 문턱값 계산부(207)는 하기 수학식 7을 이용하여 상기 문턱값을 계산한다.
하기 수학식 7은 각 프레임의 SNR에 따른 최적의 문턱값을 나타낸다.
여기서, 상기 THOPT[i]는 i번째 프레임의 SNR에 따라 최적화된 문턱값을 나타내고, 상기 THmin은 최소 문턱값을 나타내고, 상기 THmax는 최대 문턱값을 나타낸다. 그리고, 상기 SNRmin은 최소 SNR값을 나타내고, 상기 SNRmax는 최대 SNR값을 나타내고, 상기 SNR[i]는 i번째 프레임의 SNR을 나타낸다.
상기 수학식 7을 이용하여 계산된 문턱값은 도 4에 도시된 바와 같은 특성을 가진다. 즉, 상기 도 4에 도시된 바와 같이, 해당 프레임의 SNR값이 기 설정된 최소 SNR값보다 작을 경우에는 입력 신호와 묵음 신호의 스펙트럼 차이가 점점 작아지며, 이에 따라 정확한 음성 구간과 묵음 구간을 구별하기 위해서는 비교적 낮은 문턱값이 필요하게 됨으로써, 최소 문턱값이 해당 프레임의 문턱값으로 설정된다. 그리고, 해당 프레임의 SNR값이 기 설정된 최대 SNR값보다 큰 경우에는 입력 신호와 묵음 신호의 스펙트럼 차이가 점점 커지며, 이에 따라 비교적 높은 문턱값으로도 음성 구간과 묵음 구간을 구별할 수 있으므로, 최대 문턱값이 해당 프레임의 문턱값으로 설정된다. 반면, 상기 해당 프레임의 SNR값이 기 설정된 최소 SNR값보다 크고 최대 SNR값보다 작은 경우에는 해당 프레임의 문턱값은 상기 SNR에 비례하여 증가하거나 감소하게 된다.
여기서, 상기 SNR의 크기에 따른 입력 신호와 묵음 신호 간의 스펙트럼 차이는 도 5에 도시된 바와 같은 특성을 가진다. 즉, 상기 도 5(a)에 도시된 바와 같이 입력되는 신호의 에너지와 묵음 구간의 에너지 평균값에 따른 SNR이 25dB일 경우와 상기 도 5(b)에 도시된 바와 같이 입력되는 신호의 에너지와 묵음 구간의 에너지 평균값에 따른 SNR이 5dB일 경우를 비교해보면, 상기 SNR이 25인 경우의 스펙트럼의 차이가 상기 SNR이 5인 경우의 스펙트럼 차이보다 큰 것을 알 수 있다.
상기 문턱값 비교부(209)는 상기 문턱값 계산부(207)에서 계산 및 설정된 문턱값과 상기 스펙트럼 차이 측정부(205)에서 계산된 스펙트럼 차이값을 비교하여 해당 프레임이 음성 구간의 신호인지 묵음 구간의 신호인지 여부를 판별한다. 즉, 상기 문턱값 비교부(209)는 상기 차이값이 상기 문턱값보다 큰 경우 해당 프레임을 음성 구간의 신호로 판별하고, 상기 차이값이 상기 문턱값보다 작거나 같은 경우 해당 프레임을 묵음 구간의 신호로 판별한다. 여기서, 상기 해당 프레임이 묵음 구간의 신호로 판별될 시, 상기 문턱값 비교부(209)는 상기 해당 프레임이 묵음 구간으로 판단되었음을 상기 에너지 및 스펙트럼 측정부(203)로 알린다.
도 3은 본 발명의 실시 예에 따른 전자기기에서 음성 검출 절차를 도시하고 있다.
상기 도 3을 참조하면, 먼저 상기 전자기기는 301단계에서 신호가 입력되면, 303단계로 진행하여 상기 입력된 신호 프레임에 대한 에너지 및 스펙트럼을 측정한다.
이후, 상기 전자기기는 305단계에서 상기 입력된 신호 프레임이 묵음 구간으로 가정된 소정 수(M)의 초기 프레임 이후의 신호 프레임인지 여부를 검사한다. 상기 입력된 신호 프레임이 상기 묵음 구간으로 가정된 소정 수의 초기 프레임에 해당할 시, 상기 전자기기는 321단계로 진행하여 현재까지 입력된 신호 프레임의 에너지 및 스펙트럼 평균값을 산출한 후, 상기 301단계로 되돌아가 이하 단계를 재수행한다.
상기 입력된 신호 프레임이 상기 묵음 구간으로 가정된 소정 수의 초기 프레임 이후의 신호 프레임에 해당할 시, 상기 전자기기는 307단계에서 상기 입력된 신호 프레임의 에너지와 기 계산된 묵음 구간의 에너지 평균값 간의 비율 즉, 신호대 잡음 에너지 비율(SNR)을 측정한다.
이후, 상기 전자기기는 309단계에서 상기 측정된 SNR과 기 설정된 최소 SNR(SNRmin)값을 비교하고, 상기 측정된 SNR이 기 설정된 최소 SNR값보다 작거나 같을 경우 323단계로 진행하여 기 설정된 최소 문턱값을 해당 프레임의 문턱값으로 설정(TH = THmin)하고 하기 317단계로 진행한다.
반면, 상기 측정된 SNR이 기 설정된 최소 SNR값보다 클 경우 상기 전자기기는 311단계에서 상기 측정된 SNR과 기 설정된 최대 SNR(SNRmax)값을 비교하고, 상기 측정된 SNR이 기 설정된 최대 SNR값보다 크거나 같을 경우, 325단계로 진행하여 기 설정된 최대 문턱값을 해당 프레임의 문턱값으로 설정(TH = THmax)하고 하기 317단계로 진행한다.
반면, 상기 측정된 SNR이 기 설정된 최대 SNR값보다 작을 경우, 상기 전자기기는 313단계에서 상기 SNR 값에 비례하여 증가 혹은 감소하는 문턱값을 상기 수학식 7과 같이 계산한 후, 계산된 문턱값을 상기 해당 프레임의 문턱값으로 설정(TH = [THmin, THmax])한다.
이후, 상기 전자기기는 315단계에서 상기 입력 신호의 스펙트럼과 묵음 구간의 스펙트럼 평균을 이용하여 상기 수학식 5와 같이, 스펙트럼 차이값을 산출하고, 317단계로 진행하여 상기 산출된 스펙트럼 차이값과 상기 설정된 해당 프레임의 문턱값을 비교한다.
만일, 상기 산출된 스펙트럼 차이값이 상기 해당 프레임의 문턱값보다 클 경 우, 상기 전자기기는 상기 해당 프레임을 음성 구간으로 판별하고 상기 301단계로 되돌아가 이하 단계를 재수행한다.
반면, 상기 산출된 스펙트럼 차이값이 상기 해당 프레임의 문턱값보다 작거나 같을 경우, 상기 전자기기는 327단계에서 상기 해당 프레임을 묵음 구간으로 판별하고 329단계에서 상기 해당 프레임의 에너지 및 스펙트럼을 이용하여 상기 수학식 3 및 4와 같이 묵음 구간의 에너지 평균값 및 스펙트럼 평균값을 갱신한다.
이후, 상기 전자기기는 상기 301단계로 되돌아가 이하 단계를 재수행한다.
한편 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능하다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 종래 기술에 따른 전자기기의 음성 검출 블록 구성을 도시하는 도면,
도 2는 본 발명에 따른 전자기기의 블록 구성을 도시하는 도면,
도 3은 본 발명의 실시 예에 따른 전자기기에서 음성 검출 절차를 도시하는 도면,
도 4는 본 발명의 실시 예에 따른 전자기기에서 최적화된 문턱 값의 특성을 도시하는 도면, 및
도 5는 본 발명의 실시 예에 따른 전자기기에서 신호대 잡음 비에 따른 스펙트럼 특성을 도시하는 도면.
Claims (17)
- 전자기기에서 음성 검출 방법에 있어서,입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하는 과정과,상기 입력 신호에서 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 과정과,상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 과정과,상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하는 과정과,상기 SNR에 따라 동적으로 변화하는 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 과정을 포함하는 것을 특징으로 하는 방법.
- 제 1항에 있어서,상기 문턱값과 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 과정은,상기 입력된 신호 프레임의 SNR에 따라 동적으로 변화하는 문턱값을 설정하는 과정과,상기 설정된 문턱값과 해당 프레임에 대한 스펙트럼 차이값을 비교하여 상기 해당 프레임이 음성 구간인지 묵음 구간인지 여부를 판별하는 과정을 포함하는 것을 특징으로 하는 방법.
- 제 4항에 있어서,상기 동적으로 변화하는 문턱값을 설정하는 과정은,상기 입력된 신호 프레임의 SNR을 기 설정된 최소 SNR값 및 최대 SNR값과 비 교하는 과정과,상기 입력된 신호 프레임의 SNR이 기 설정된 최소 SNR값보다 작거나 같을 경우, 기 설정된 최소 문턱값을 상기 입력된 신호 프레임의 문턱값으로 설정하는 과정을 포함하는 것을 특징으로 하는 방법.
- 제 5항에 있어서,상기 입력된 신호 프레임의 SNR이 기 설정된 최대 SNR값보다 크거나 같을 경우, 기 설정된 최대 문턱값을 상기 입력된 신호 프레임의 문턱값으로 설정하는 과정을 더 포함하는 것을 특징으로 하는 방법.
- 제 4항에 있어서,상기 해당 프레임이 묵음 구간으로 판별될 경우, 상기 해당 프레임의 에너지 및 스펙트럼을 이용하여 상기 에너지 평균값과 스펙트럼 평균값을 갱신하는 과정을 더 포함하는 것을 특징으로 하는 방법.
- 전자기기에서 음성 검출 장치에 있어서,입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하고, 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 에너지 및 스펙트럼 측정부와,상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 스펙트럼 차이 측정부와,상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하고, 상기 SNR에 따라 동적으로 변화하는 문턱값을 계산하는 문턱값 계산부와,상기 계산된 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 문턱값 비교부를 포함하는 것을 특징으로 하는 장치.
- 제 10항에 있어서,상기 문턱값 계산부는, 상기 입력된 신호 프레임의 SNR을 기 설정된 최소 SNR값 및 최대 SNR값과 비교하여 상기 입력된 신호 프레임의 SNR이 기 설정된 최소 SNR값보다 작거나 같을 경우, 기 설정된 최소 문턱값을 상기 입력된 신호 프레임의 문턱값으로 설정하고, 상기 입력된 신호 프레임의 SNR이 기 설정된 최대 SNR값보다 크거나 같을 경우, 기 설정된 최대 문턱값을 상기 입력된 신호 프레임의 문턱값으로 설정하는 것을 특징으로 하는 장치.
- 제 10항에 있어서,상기 문턱값 비교부는, 상기 문턱값과 해당 프레임에 대한 스펙트럼 차이값을 비교하여 상기 해당 프레임이 음성 구간인지 묵음 구간인지 여부를 판별하는 것을 포함하는 것을 특징으로 하는 장치.
- 제 14항에 있어서,상기 에너지 및 스펙트럼 측정부는,상기 문턱값 비교부에서 해당 프레임이 묵음 구간으로 판별될 경우, 상기 해당 프레임의 에너지 및 스펙트럼을 이용하여 상기 에너지 평균값과 스펙트럼 평균값을 갱신하는 것을 특징으로 하는 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070097898A KR101336203B1 (ko) | 2007-09-28 | 2007-09-28 | 전자기기에서 음성 검출 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070097898A KR101336203B1 (ko) | 2007-09-28 | 2007-09-28 | 전자기기에서 음성 검출 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090032560A KR20090032560A (ko) | 2009-04-01 |
KR101336203B1 true KR101336203B1 (ko) | 2013-12-05 |
Family
ID=40759355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070097898A KR101336203B1 (ko) | 2007-09-28 | 2007-09-28 | 전자기기에서 음성 검출 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101336203B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102512614B1 (ko) * | 2018-12-12 | 2023-03-23 | 삼성전자주식회사 | 오디오 개선을 지원하는 전자 장치 및 이를 위한 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990060129A (ko) * | 1997-12-31 | 1999-07-26 | 구자홍 | 음성인식 시스템의 음성구간 검출방법 |
KR100724736B1 (ko) * | 2006-01-26 | 2007-06-04 | 삼성전자주식회사 | 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치 |
-
2007
- 2007-09-28 KR KR1020070097898A patent/KR101336203B1/ko not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990060129A (ko) * | 1997-12-31 | 1999-07-26 | 구자홍 | 음성인식 시스템의 음성구간 검출방법 |
KR100724736B1 (ko) * | 2006-01-26 | 2007-06-04 | 삼성전자주식회사 | 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20090032560A (ko) | 2009-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100944252B1 (ko) | 오디오 신호 내에서 음성활동 탐지 | |
US9959886B2 (en) | Spectral comb voice activity detection | |
JP5905608B2 (ja) | 背景雑音の存在下でのボイスアクティビティ検出 | |
KR100883712B1 (ko) | 음원 방향 추정 방법, 및 음원 방향 추정 장치 | |
US9524735B2 (en) | Threshold adaptation in two-channel noise estimation and voice activity detection | |
US20140337021A1 (en) | Systems and methods for noise characteristic dependent speech enhancement | |
US9524733B2 (en) | Objective speech quality metric | |
JP2010061151A (ja) | 雑音環境のための音声活動検出器及び有効化器 | |
KR20130042649A (ko) | 오디오 신호에서의 잡음 추정을 위한 방법 및 장치 | |
US8924199B2 (en) | Voice correction device, voice correction method, and recording medium storing voice correction program | |
KR20080036897A (ko) | 음성 끝점을 검출하기 위한 장치 및 방법 | |
JP2007286097A (ja) | 音声受付クレーム検出方法、装置、音声受付クレーム検出プログラム、記録媒体 | |
TWI393453B (zh) | 適用於自動控制裝置的音調偵測方法及音調偵測裝置 | |
KR101336203B1 (ko) | 전자기기에서 음성 검출 방법 및 장치 | |
JP4601970B2 (ja) | 有音無音判定装置および有音無音判定方法 | |
CN110556128B (zh) | 一种语音活动性检测方法、设备及计算机可读存储介质 | |
WO2017128910A1 (zh) | 一种语音出现概率的确定方法、装置及电子设备 | |
EP3748636A1 (en) | Voice processing device and voice processing method | |
CN113316075B (zh) | 一种啸叫检测方法、装置及电子设备 | |
JP2002198918A (ja) | 適応雑音レベル推定器 | |
KR100284772B1 (ko) | 음성 검출 장치 및 그 방법 | |
US20220068270A1 (en) | Speech section detection method | |
JPH07109559B2 (ja) | 音声区間検出方法 | |
JP3026855B2 (ja) | 音声認識装置 | |
JP6282999B2 (ja) | 補聴器の指向性を試験するための装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20161028 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20171030 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |