KR101336203B1 - 전자기기에서 음성 검출 방법 및 장치 - Google Patents

전자기기에서 음성 검출 방법 및 장치 Download PDF

Info

Publication number
KR101336203B1
KR101336203B1 KR1020070097898A KR20070097898A KR101336203B1 KR 101336203 B1 KR101336203 B1 KR 101336203B1 KR 1020070097898 A KR1020070097898 A KR 1020070097898A KR 20070097898 A KR20070097898 A KR 20070097898A KR 101336203 B1 KR101336203 B1 KR 101336203B1
Authority
KR
South Korea
Prior art keywords
value
snr
frame
energy
spectrum
Prior art date
Application number
KR1020070097898A
Other languages
English (en)
Other versions
KR20090032560A (ko
Inventor
유성엽
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020070097898A priority Critical patent/KR101336203B1/ko
Publication of KR20090032560A publication Critical patent/KR20090032560A/ko
Application granted granted Critical
Publication of KR101336203B1 publication Critical patent/KR101336203B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 전자기기에서 음성 검출 방법 및 장치에 관한 것으로서, 입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하는 과정과, 상기 입력 신호에서 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 과정과, 상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 과정과, 상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하는 과정과, 상기 SNR에 따라 동적으로 변화하는 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 과정을 포함하여 시간과 공간에 따라 다양하게 변화하는 잡음이 존재하는 상황에서도 음성 구간과 묵음 구간을 명확하게 검출할 수 있는 효과가 있다.
음성 검출, 음성 검출기, 묵음 구간, 음성 구간

Description

전자기기에서 음성 검출 방법 및 장치{APPARATUS AND METHOD FOR DETECTING VOICE ACTIVITY IN ELECTRONIC DEVICE}
본 발명은 전자기기에서 음성 검출(VAD : Voice Activity Detection) 방법 및 장치에 관한 것으로서, 특히, 해당 프레임의 신호대 잡음의 에너지 비율에 따라 동적으로 변화되는 문턱값을 이용하여 음성 신호를 검출하는 방법 및 장치에 관한 것이다.
일반적으로, 전자기기에서 마이크를 통해 사용자의 음성을 입력받을 경우, 주변 환경으로 인한 여러 가지 잡음이 상기 사용자의 음성과 함께 상기 마이크로 입력된다. 이에 따라, 상기 사용자의 음성을 재생하고자 할 경우, 상기 입력된 잡음으로 인해 상기 사용자의 음성이 왜곡되거나 제대로 들리지 않게 되어 사용자가 표현하고자 하는 의사가 정확히 전달되지 않는 경우가 종종 발생하게 된다.
따라서, 종래의 휴대용 단말기에서는 사용자의 의사가 정확히 전달되도록 하기 위해 입력 신호의 에너지 혹은 스펙트럼 정보를 이용하여 음성이 존재하는 음성 구간과 음성이 존재하지 않고 잡음만이 존재하는 묵음 구간을 판단함으로써, 상기 음성 신호를 검출하고 있다. 즉, 상기 전자기기에서 입력되는 음성 신호의 초기 몇 프레임을 묵음 구간으로 가정하고, 가정된 묵음 구간의 에너지 혹은 스펙트럼의 평균값과 이후에 입력되는 음성 신호의 에너지 혹은 스펙트럼 값의 차이를 고정된 문턱값과 비교하여 상기 이후에 입력되는 음성 신호가 음성인지 묵음(잡음)인지 여부를 판단한다.
도 1은 종래 기술에 따른 전자기기의 음성 검출 블록 구성을 도시하고 있다.
상기 도 1에 도시된 바와 같이, 종래 기술에 따른 전자기기에서 FFT부(101)는 마이크로부터 입력되는 음성 신호를 FFT 연산하여 주파수 영역의 신호로 변환한 후, 묵음 스펙트럼 측정부(103)와 스펙트럼 차이 측정부(105)로 출력한다. 상기 묵음 스펙트럼 측정부(103)는 상기 주파수 영역의 신호 중 묵음 구간으로 가정된 소정 수의 초기 프레임들에 대한 스펙트럼 평균값을 산출하여 묵음 구간의 통계적 정보를 획득하고, 상기 스펙트럼 차이 측정부(105)는 상기 가정된 묵음 구간 이후에 입력되는 프레임들의 스펙트럼을 계산하여 상기 묵음 구간의 통계적 정보인 스펙트럼 평균값과의 차이값을 계산한다. 그리고, 문턱값 비교부(107)는 상기 계산된 차이값을 기 설정된 고정된 문턱값과 비교하여 상기 차이값이 고정된 문턱값보다 크면 해당 프레임을 음성 신호 프레임으로 판단하고 상기 차이값이 고정된 문턱값보다 작으면 상기 해당 프레임을 묵음 신호 프레임으로 판단한다.
상술한 바와 같이 종래의 전자기기에서는 고정된 문턱값을 이용하여 음성 신호인지 묵음 신호인지 여부를 판별한다. 그러나, 실제 환경에서는 잡음이 일정하게 존재하지 않고 시간과 공간에 따라 여러가지 형태로 변하기 때문에 상기와 같이 고정된 문턱값을 이용하여 음성 신호와 묵음 신호를 판단할 경우 오류가 발생될 확률이 높다. 즉, 상기 전자기기에서 상기 고정된 문턱값을 이용할 경우 음성 신호가 묵음 신호로 잘못 판단되거나 묵음 신호가 음성 신호로 잘못 판단될 수 있다. 이러한 신호의 잘못된 판단은 잡음이 심한 환경에서 음성 신호와 묵음 신호와의 에너지 혹은 스펙트럼 차이가 작아져서 발생 확률이 더 높아지는 문제점이 있다.
본 발명은 상술한 바와 같은 문제점을 해결하기 위해 도출된 것으로서, 본 발명의 목적은 전자기기에서 음성 검출 방법 및 장치를 제공함에 있다.
본 발명의 다른 목적은 전자기기에서 입력되는 음성신호에 따라 동적으로 변화하는 문턱값을 이용하여 다양한 환경에서 음성 신호 검출 성능을 향상시키는 방법 및 장치를 제공함에 있다.
본 발명의 또 다른 목적은 전자기기에서 해당 프레임의 신호대 잡음 에너지 비율에 따라 동적으로 변화하는 문턱값을 이용하여 음성 신호를 검출하는 방법 및 장치를 제공함에 있다.
상술한 목적들을 달성하기 위한 본 발명의 제 1 견지에 따르면, 전자기기에서 음성 검출 방법은, 입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하는 과정과, 상기 입력 신호에서 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 과정과, 상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 과정과, 상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하는 과정과, 상기 SNR에 따라 동적으로 변화하는 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 과정을 포함하는 것을 특징으로 한다.
상술한 목적들을 달성하기 위한 본 발명의 제 2 견지에 따르면, 전자기기에서 음성 검출 장치는, 입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하고, 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 에너지 및 스펙트럼 측정부와, 상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 스펙트럼 차이 측정부와, 상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하고, 상기 SNR에 따라 동적으로 변화하는 문턱값을 계산하는 문턱값 계산부와, 상기 계산된 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 문턱값 비교부를 포함하는 것을 특징으로 한다.
본 발명은 전자기기에서 해당 프레임의 신호대 잡음의 에너지 비율에 따라 동적으로 변화되는 문턱값으로 음성 구간과 묵음 구간을 판단하여 음성 신호를 검출함으로써, 시간과 공간에 따라 다양하게 변화하는 잡음이 존재하는 상황에서도 음성 구간과 묵음 구간을 명확하게 검출할 수 있는 효과가 있다.
이하 본 발명의 바람직한 실시 예를 첨부된 도면의 참조와 함께 상세히 설명 한다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단된 경우 그 상세한 설명은 생략한다.
이하 본 발명에서는 전자기기에서 입력되는 음성 신호의 신호대 잡음 에너지 비율에 따라 동적으로 변화하는 문턱값을 이용하여 음성 신호를 검출하는 기술에 관해 설명할 것이다. 이하 설명에서는 음성 신호에서 사용자의 음성이 존재하는 신호 구간을 음성 구간이라 하고, 상기 사용자의 음성이 존재하지 않고 잡음만이 존재하는 묵음 구간이라 칭한다.
도 2는 본 발명에 따른 전자기기의 블록 구성을 도시하고 있다.
상기 도 2에 도시된 바와 같이, 전자기기는 FFT(Fast Fourier Transform)부(201), 에너지 및 스펙트럼 측정부(203), 스펙트럼 차이 측정부(205), 문턱값 계산부(207), 문턱값 비교부(209)를 포함하여 구성된다.
상기 FFT부(201)는 마이크를 통해 입력되는 신호를 FFT 연산하여 시간 영역에서 주파수 영역의 신호로 변환한 후, 에너지 및 스펙트럼 측정부(203)와 문턱값 계산부(207)로 출력한다.
상기 에너지 및 스펙트럼 측정부(203)는 상기 FFT부(201)로부터 입력되는 주파수 영역 신호의 각 프레임들에 대한 에너지 및 스펙트럼을 측정하고, 묵음 구간으로 가정된 소정 수의 초기 프레임들에 대한 에너지 및 스펙트럼의 평균값을 산출한다. 여기서, 상기 에너지 및 스펙트럼의 평균값은 하기 수학식 1 및 2와 같이 산 출한다.
하기 수학식 1은 묵음 구간에 대한 에너지 평균을 나타낸다.
Figure 112007070002707-pat00001
여기서, 상기 ER은 상기 묵음 구간에 대한 에너지 평균을 나타내고, 상기 Er은 r번째 프레임의 에너지를 나타내고, M은 묵음 구간으로 설정된 프레임의 수를 나타낸다.
하기 수학식 2는 묵음 구간에 대한 스펙트럼 평균을 나타낸다.
Figure 112007070002707-pat00002
여기서, 상기 R(w)R은 상기 묵음 구간에 대한 스펙트럼 평균을 나타내고, 상기 R(w)r은 r번째 프레임의 스펙트럼을 나타내고, M은 묵음 구간으로 설정된 프레임의 수를 나타낸다.
상기 에너지 및 스펙트럼 측정부(203)는 상기 산출된 묵음 구간의 에너지 평균 값과 상기 묵음 구간 이후에 입력된 신호의 프레임 각각에 대해 측정된 에너지 를 상기 문턱값 계산부(207)로 제공하고, 상기 묵음 구간의 스펙트럼 평균값과 상기 묵음 구간 이후에 입력된 신호의 프레임 각각에 대해 측정된 스펙트럼을 상기 스펙트럼 차이 측정부(205)로 제공한다. 또한, 상기 에너지 및 스펙트럼 측정부(203)는 상기 문턱값 비교부(209)로부터 상기 묵음 구간으로 가정된 구간 이후의 신호 프레임이 묵음 구간으로 판단됨이 입력될 시, 해당 신호 프레임까지의 구간을 새로운 묵음 구간으로 가정하고 상기 해당 신호 프레임의 에너지와 스펙트럼을 이용하여 상기 묵음 구간의 에너지 평균값과 스펙트럼 평균값을 갱신한다. 여기서, 상기 묵음 구간의 에너지 평균값과 스펙트럼 평균값은 하기 수학식 3 및 4와 같이, 망각 인자(forgetting factor)에 의한 귀납적 필터링(recursive filtering) 방식을 통해 갱신된다.
하기 수학식 3은 새로운 묵음 구간의 에너지 평균을 나타낸다.
Figure 112007070002707-pat00003
여기서, 상기 ERnew은 새로운 묵음 구간에 대한 에너지 평균을 나타내고, α는 망각 인자(forgetting factor)를 나타내고, ERold는 이전 묵음 구간의 에너지 평균을 나타내며, EN은 새롭게 묵음 구간으로 판단된 프레임의 에너지를 나타낸다.
하기 수학식 4는 새로운 묵음 구간의 스펙트럼 평균을 나타낸다.
Figure 112007070002707-pat00004
여기서, 상기 R(w)Rnew는 새로운 묵음 구간에 대한 스펙트럼 평균을 나타내고, α는 망각 인자(forgetting factor)를 나타내고, R(w)Rold는 이전 묵음 구간의 스펙트럼 평균을 나타내며, R(w)N은 새로운 묵음 구간으로 판단된 프레임의 스펙트럼을 나타낸다.
상기 에너지 및 스펙트럼 측정부(203)는 상기 수학식 3 및 4와 같이, 갱신된 에너지 및 스펙트럼 평균값을 각각 상기 문턱값 계산부(207)와 상기 스펙트럼 차이 측정부(205)로 제공한다.
상기 스펙트럼 차이 측정부(205)는 상기 에너지 및 스펙트럼 측정부(203)로부터 제공되는 묵음 구간의 스펙트럼 평균값과 상기 묵음 구간 이후에 입력되는 신호 프레임에 대한 스펙트럼의 차이값을 측정한 후, 상기 측정된 차이값을 상기 문턱값 비교부(209)로 제공한다. 여기서, 상기 입력되는 신호 프레임에 대한 스펙트럼 차이값은 하기 수학식 5를 이용하여 측정한다.
하기 수학식 5는 묵음 구간의 스펙트럼 평균값과 입력되는 신호에서 특정 프레임의 스펙트럼 간의 차이값을 나타낸다.
Figure 112007070002707-pat00005
여기서, 상기 D[i]는 입력 신호에서 i번째 프레임의 스펙트럼 값과 묵음 구간의 스펙트럼 평균값의 차이를 나타내며, 상기 S(w)는 입력 신호에서 i번째 프레임의 스펙트럼을 나타내고, 상기 R(w)R은 묵음 구간의 스펙트럼 평균값을 나타내고, 상기 N은 주파수 bin 수를 나타낸다.
상기 문턱값 계산부(207)는 상기 에너지 및 스펙트럼 측정부(203)로부터 제공되는 묵음 구간의 에너지 평균값과 상기 묵음 구간 이후에 입력되는 신호 프레임에 대한 에너지의 비율, 즉, 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출한다. 이때, 상기 문턱값 계산부(207)는 하기 수학식 6과 같이 상기 SNR을 산출한다.
하기 수학식 6은 묵음 구간의 에너지 평균값과 특정 신호 프레임의 에너지의 비율인 SNR을 나타낸다.
Figure 112007070002707-pat00006
여기서, 상기 SNR[i]는 i번째 프레임에 대한 SNR을 나타내며, Es[i]는 입력 되는 신호에서 i번째 프레임의 에너지를 나타내고, 상기 ER은 묵음 구간의 에너지 평균값을 나타낸다.
상기 문턱값 계산부(207)는 상기 문턱값 계산부(207)로부터 제공되는 SNR과 기 설정된 최소 SNR 값 및 최대 SNR 값을 이용하여 해당 프레임에 대한 문턱값을 설정한다. 여기서, 상기 문턱값 계산부(207)는 하기 수학식 7을 이용하여 상기 문턱값을 계산한다.
하기 수학식 7은 각 프레임의 SNR에 따른 최적의 문턱값을 나타낸다.
Figure 112007070002707-pat00007
Figure 112007070002707-pat00008
Figure 112007070002707-pat00009
여기서, 상기 THOPT[i]는 i번째 프레임의 SNR에 따라 최적화된 문턱값을 나타내고, 상기 THmin은 최소 문턱값을 나타내고, 상기 THmax는 최대 문턱값을 나타낸다. 그리고, 상기 SNRmin은 최소 SNR값을 나타내고, 상기 SNRmax는 최대 SNR값을 나타내고, 상기 SNR[i]는 i번째 프레임의 SNR을 나타낸다.
상기 수학식 7을 이용하여 계산된 문턱값은 도 4에 도시된 바와 같은 특성을 가진다. 즉, 상기 도 4에 도시된 바와 같이, 해당 프레임의 SNR값이 기 설정된 최소 SNR값보다 작을 경우에는 입력 신호와 묵음 신호의 스펙트럼 차이가 점점 작아지며, 이에 따라 정확한 음성 구간과 묵음 구간을 구별하기 위해서는 비교적 낮은 문턱값이 필요하게 됨으로써, 최소 문턱값이 해당 프레임의 문턱값으로 설정된다. 그리고, 해당 프레임의 SNR값이 기 설정된 최대 SNR값보다 큰 경우에는 입력 신호와 묵음 신호의 스펙트럼 차이가 점점 커지며, 이에 따라 비교적 높은 문턱값으로도 음성 구간과 묵음 구간을 구별할 수 있으므로, 최대 문턱값이 해당 프레임의 문턱값으로 설정된다. 반면, 상기 해당 프레임의 SNR값이 기 설정된 최소 SNR값보다 크고 최대 SNR값보다 작은 경우에는 해당 프레임의 문턱값은 상기 SNR에 비례하여 증가하거나 감소하게 된다.
여기서, 상기 SNR의 크기에 따른 입력 신호와 묵음 신호 간의 스펙트럼 차이는 도 5에 도시된 바와 같은 특성을 가진다. 즉, 상기 도 5(a)에 도시된 바와 같이 입력되는 신호의 에너지와 묵음 구간의 에너지 평균값에 따른 SNR이 25dB일 경우와 상기 도 5(b)에 도시된 바와 같이 입력되는 신호의 에너지와 묵음 구간의 에너지 평균값에 따른 SNR이 5dB일 경우를 비교해보면, 상기 SNR이 25인 경우의 스펙트럼의 차이가 상기 SNR이 5인 경우의 스펙트럼 차이보다 큰 것을 알 수 있다.
상기 문턱값 비교부(209)는 상기 문턱값 계산부(207)에서 계산 및 설정된 문턱값과 상기 스펙트럼 차이 측정부(205)에서 계산된 스펙트럼 차이값을 비교하여 해당 프레임이 음성 구간의 신호인지 묵음 구간의 신호인지 여부를 판별한다. 즉, 상기 문턱값 비교부(209)는 상기 차이값이 상기 문턱값보다 큰 경우 해당 프레임을 음성 구간의 신호로 판별하고, 상기 차이값이 상기 문턱값보다 작거나 같은 경우 해당 프레임을 묵음 구간의 신호로 판별한다. 여기서, 상기 해당 프레임이 묵음 구간의 신호로 판별될 시, 상기 문턱값 비교부(209)는 상기 해당 프레임이 묵음 구간으로 판단되었음을 상기 에너지 및 스펙트럼 측정부(203)로 알린다.
도 3은 본 발명의 실시 예에 따른 전자기기에서 음성 검출 절차를 도시하고 있다.
상기 도 3을 참조하면, 먼저 상기 전자기기는 301단계에서 신호가 입력되면, 303단계로 진행하여 상기 입력된 신호 프레임에 대한 에너지 및 스펙트럼을 측정한다.
이후, 상기 전자기기는 305단계에서 상기 입력된 신호 프레임이 묵음 구간으로 가정된 소정 수(M)의 초기 프레임 이후의 신호 프레임인지 여부를 검사한다. 상기 입력된 신호 프레임이 상기 묵음 구간으로 가정된 소정 수의 초기 프레임에 해당할 시, 상기 전자기기는 321단계로 진행하여 현재까지 입력된 신호 프레임의 에너지 및 스펙트럼 평균값을 산출한 후, 상기 301단계로 되돌아가 이하 단계를 재수행한다.
상기 입력된 신호 프레임이 상기 묵음 구간으로 가정된 소정 수의 초기 프레임 이후의 신호 프레임에 해당할 시, 상기 전자기기는 307단계에서 상기 입력된 신호 프레임의 에너지와 기 계산된 묵음 구간의 에너지 평균값 간의 비율 즉, 신호대 잡음 에너지 비율(SNR)을 측정한다.
이후, 상기 전자기기는 309단계에서 상기 측정된 SNR과 기 설정된 최소 SNR(SNRmin)값을 비교하고, 상기 측정된 SNR이 기 설정된 최소 SNR값보다 작거나 같을 경우 323단계로 진행하여 기 설정된 최소 문턱값을 해당 프레임의 문턱값으로 설정(TH = THmin)하고 하기 317단계로 진행한다.
반면, 상기 측정된 SNR이 기 설정된 최소 SNR값보다 클 경우 상기 전자기기는 311단계에서 상기 측정된 SNR과 기 설정된 최대 SNR(SNRmax)값을 비교하고, 상기 측정된 SNR이 기 설정된 최대 SNR값보다 크거나 같을 경우, 325단계로 진행하여 기 설정된 최대 문턱값을 해당 프레임의 문턱값으로 설정(TH = THmax)하고 하기 317단계로 진행한다.
반면, 상기 측정된 SNR이 기 설정된 최대 SNR값보다 작을 경우, 상기 전자기기는 313단계에서 상기 SNR 값에 비례하여 증가 혹은 감소하는 문턱값을 상기 수학식 7과 같이 계산한 후, 계산된 문턱값을 상기 해당 프레임의 문턱값으로 설정(TH = [THmin, THmax])한다.
이후, 상기 전자기기는 315단계에서 상기 입력 신호의 스펙트럼과 묵음 구간의 스펙트럼 평균을 이용하여 상기 수학식 5와 같이, 스펙트럼 차이값을 산출하고, 317단계로 진행하여 상기 산출된 스펙트럼 차이값과 상기 설정된 해당 프레임의 문턱값을 비교한다.
만일, 상기 산출된 스펙트럼 차이값이 상기 해당 프레임의 문턱값보다 클 경 우, 상기 전자기기는 상기 해당 프레임을 음성 구간으로 판별하고 상기 301단계로 되돌아가 이하 단계를 재수행한다.
반면, 상기 산출된 스펙트럼 차이값이 상기 해당 프레임의 문턱값보다 작거나 같을 경우, 상기 전자기기는 327단계에서 상기 해당 프레임을 묵음 구간으로 판별하고 329단계에서 상기 해당 프레임의 에너지 및 스펙트럼을 이용하여 상기 수학식 3 및 4와 같이 묵음 구간의 에너지 평균값 및 스펙트럼 평균값을 갱신한다.
이후, 상기 전자기기는 상기 301단계로 되돌아가 이하 단계를 재수행한다.
한편 본 발명의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능하다. 그러므로 본 발명의 범위는 설명된 실시 예에 국한되어 정해져서는 아니 되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 종래 기술에 따른 전자기기의 음성 검출 블록 구성을 도시하는 도면,
도 2는 본 발명에 따른 전자기기의 블록 구성을 도시하는 도면,
도 3은 본 발명의 실시 예에 따른 전자기기에서 음성 검출 절차를 도시하는 도면,
도 4는 본 발명의 실시 예에 따른 전자기기에서 최적화된 문턱 값의 특성을 도시하는 도면, 및
도 5는 본 발명의 실시 예에 따른 전자기기에서 신호대 잡음 비에 따른 스펙트럼 특성을 도시하는 도면.

Claims (17)

  1. 전자기기에서 음성 검출 방법에 있어서,
    입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하는 과정과,
    상기 입력 신호에서 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 과정과,
    상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 과정과,
    상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하는 과정과,
    상기 SNR에 따라 동적으로 변화하는 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 과정을 포함하는 것을 특징으로 하는 방법.
  2. 제 1항에 있어서,
    상기 스펙트럼 차이값은, 하기 수학식 8과 같이 나타내는 것을 특징으로 하는 방법.
    Figure 112007070002707-pat00010
    여기서, 상기 D[i]는 입력 신호에서 i번째 프레임의 스펙트럼 값과 묵음 구간의 스펙트럼 평균값의 차이를 나타내며, 상기 S(w)는 입력 신호에서 i번째 프레임의 스펙트럼을 나타내고, 상기 R(w)R은 묵음 구간으로 가정된 소정 수의 프레임에 대한 스펙트럼 평균값을 나타내고, 상기 N은 주파수 bin 수를 나타냄.
  3. 제 1항에 있어서,
    상기 동적으로 변화하는 문턱값은,
    하기 수학식 9와 같이 계산하여 설정하는 것을 특징으로 하는 방법.
    Figure 112007070002707-pat00011
    Figure 112007070002707-pat00012
    Figure 112007070002707-pat00013
    여기서, 상기 THOPT[i]는 i번째 프레임의 SNR에 따라 최적화된 문턱값을 나타내고, 상기 THmin은 최소 문턱값을 나타내고, 상기 THmax는 최대 문턱값을 나타낸다. 그리고, 상기 SNRmin은 최소 SNR값을 나타내고, 상기 SNRmax는 최대 SNR값을 나타내고, 상기 SNR[i]는 i번째 프레임의 SNR을 나타냄.
  4. 제 1항에 있어서,
    상기 문턱값과 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 과정은,
    상기 입력된 신호 프레임의 SNR에 따라 동적으로 변화하는 문턱값을 설정하는 과정과,
    상기 설정된 문턱값과 해당 프레임에 대한 스펙트럼 차이값을 비교하여 상기 해당 프레임이 음성 구간인지 묵음 구간인지 여부를 판별하는 과정을 포함하는 것을 특징으로 하는 방법.
  5. 제 4항에 있어서,
    상기 동적으로 변화하는 문턱값을 설정하는 과정은,
    상기 입력된 신호 프레임의 SNR을 기 설정된 최소 SNR값 및 최대 SNR값과 비 교하는 과정과,
    상기 입력된 신호 프레임의 SNR이 기 설정된 최소 SNR값보다 작거나 같을 경우, 기 설정된 최소 문턱값을 상기 입력된 신호 프레임의 문턱값으로 설정하는 과정을 포함하는 것을 특징으로 하는 방법.
  6. 제 5항에 있어서,
    상기 입력된 신호 프레임의 SNR이 기 설정된 최대 SNR값보다 크거나 같을 경우, 기 설정된 최대 문턱값을 상기 입력된 신호 프레임의 문턱값으로 설정하는 과정을 더 포함하는 것을 특징으로 하는 방법.
  7. 제 4항에 있어서,
    상기 해당 프레임이 묵음 구간으로 판별될 경우, 상기 해당 프레임의 에너지 및 스펙트럼을 이용하여 상기 에너지 평균값과 스펙트럼 평균값을 갱신하는 과정을 더 포함하는 것을 특징으로 하는 방법.
  8. 제 7항에 있어서,
    상기 에너지 평균값은,
    하기 수학식 10을 이용하여 갱신하는 것을 특징으로 하는 방법.
    Figure 112007070002707-pat00014
    여기서, 상기 ERnew은 새로운 묵음 구간에 대한 에너지 평균을 나타내고, α는 망각 인자(forgetting factor)를 나타내고, ERold는 이전 묵음 구간의 에너지 평균을 나타내며, EN은 새롭게 묵음 구간으로 판단된 프레임의 에너지를 나타냄.
  9. 제 7항에 있어서,
    상기 스펙트럼 평균값은,
    하기 수학식 11을 이용하여 갱신하는 것을 특징으로 하는 방법.
    Figure 112007070002707-pat00015
    여기서, 상기 R(w)Rnew는 새로운 묵음 구간에 대한 스펙트럼 평균을 나타내고, α는 망각 인자(forgetting factor)를 나타내고, R(w)Rold는 이전 묵음 구간의 스펙트럼 평균을 나타내며, R(w)N은 새로운 묵음 구간으로 판단된 프레임의 스펙트럼을 나타냄.
  10. 전자기기에서 음성 검출 장치에 있어서,
    입력 신호 프레임에 대한 에너지 및 스펙트럼을 측정하고, 소정 수의 초기 프레임에 대한 에너지 평균값 및 스펙트럼 평균값을 산출하는 에너지 및 스펙트럼 측정부와,
    상기 스펙트럼 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 스펙트럼을 이용하여 스펙트럼 차이값을 산출하는 스펙트럼 차이 측정부와,
    상기 에너지 평균값과 상기 소정 수 이후에 입력된 신호 프레임의 에너지값의 비율을 기반으로 신호대 잡음 에너지 비율(Signal to Noise Ratio: 이하 'SNR'이라 칭함)을 산출하고, 상기 SNR에 따라 동적으로 변화하는 문턱값을 계산하는 문턱값 계산부와,
    상기 계산된 문턱값과 상기 스펙트럼 차이값을 비교하여 상기 입력 신호에서 음성을 검출하는 문턱값 비교부를 포함하는 것을 특징으로 하는 장치.
  11. 제 10항에 있어서,
    상기 스펙트럼 차이값은, 하기 수학식 12와 같이 나타내는 것을 특징으로 하는 장치.
    Figure 112007070002707-pat00016
    여기서, 상기 D[i]는 입력 신호에서 i번째 프레임의 스펙트럼 값과 묵음 구간의 스펙트럼 평균값의 차이를 나타내며, 상기 S(w)는 입력 신호에서 i번째 프레임의 스펙트럼을 나타내고, 상기 R(w)R은 묵음 구간으로 가정된 소정 수의 프레임에 대한 스펙트럼 평균값을 나타내고, 상기 N은 주파수 bin 수를 나타냄.
  12. 제 10항에 있어서,
    상기 문턱값 계산부는, 상기 동적으로 변화하는 문턱값을 하기 수학식 13과 같이 계산하여 설정하는 것을 특징으로 하는 장치.
    Figure 112007070002707-pat00017
    Figure 112007070002707-pat00018
    Figure 112007070002707-pat00019
    여기서, 상기 THOPT[i]는 i번째 프레임의 SNR에 따라 최적화된 문턱값을 나타내고, 상기 THmin은 최소 문턱값을 나타내고, 상기 THmax는 최대 문턱값을 나타낸다. 그리고, 상기 SNRmin은 최소 SNR값을 나타내고, 상기 SNRmax는 최대 SNR값을 나타내고, 상기 SNR[i]는 i번째 프레임의 SNR을 나타냄.
  13. 제 10항에 있어서,
    상기 문턱값 계산부는, 상기 입력된 신호 프레임의 SNR을 기 설정된 최소 SNR값 및 최대 SNR값과 비교하여 상기 입력된 신호 프레임의 SNR이 기 설정된 최소 SNR값보다 작거나 같을 경우, 기 설정된 최소 문턱값을 상기 입력된 신호 프레임의 문턱값으로 설정하고, 상기 입력된 신호 프레임의 SNR이 기 설정된 최대 SNR값보다 크거나 같을 경우, 기 설정된 최대 문턱값을 상기 입력된 신호 프레임의 문턱값으로 설정하는 것을 특징으로 하는 장치.
  14. 제 10항에 있어서,
    상기 문턱값 비교부는, 상기 문턱값과 해당 프레임에 대한 스펙트럼 차이값을 비교하여 상기 해당 프레임이 음성 구간인지 묵음 구간인지 여부를 판별하는 것을 포함하는 것을 특징으로 하는 장치.
  15. 제 14항에 있어서,
    상기 에너지 및 스펙트럼 측정부는,
    상기 문턱값 비교부에서 해당 프레임이 묵음 구간으로 판별될 경우, 상기 해당 프레임의 에너지 및 스펙트럼을 이용하여 상기 에너지 평균값과 스펙트럼 평균값을 갱신하는 것을 특징으로 하는 장치.
  16. 제 15항에 있어서,
    상기 에너지 및 스펙트럼 측정부는, 하기 수학식 14를 이용하여 상기 에너지 평균값을 갱신하는 것을 특징으로 하는 장치.
    Figure 112007070002707-pat00020
    여기서, 상기 ERnew은 새로운 묵음 구간에 대한 에너지 평균을 나타내고, α는 망각 인자(forgetting factor)를 나타내고, ERold는 이전 묵음 구간의 에너지 평균을 나타내며, EN은 새롭게 묵음 구간으로 판단된 프레임의 에너지를 나타냄.
  17. 제 15항에 있어서,
    상기 에너지 및 스펙트럼 측정부는, 하기 수학식 15를 이용하여 상기 스펙트럼 평균값을 갱신하는 것을 특징으로 하는 장치.
    Figure 112007070002707-pat00021
    여기서, 상기 R(w)Rnew는 새로운 묵음 구간에 대한 스펙트럼 평균을 나타내고, α는 망각 인자(forgetting factor)를 나타내고, R(w)Rold는 이전 묵음 구간의 스펙트럼 평균을 나타내며, R(w)N은 새로운 묵음 구간으로 판단된 프레임의 스펙트럼을 나타냄.
KR1020070097898A 2007-09-28 2007-09-28 전자기기에서 음성 검출 방법 및 장치 KR101336203B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070097898A KR101336203B1 (ko) 2007-09-28 2007-09-28 전자기기에서 음성 검출 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070097898A KR101336203B1 (ko) 2007-09-28 2007-09-28 전자기기에서 음성 검출 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20090032560A KR20090032560A (ko) 2009-04-01
KR101336203B1 true KR101336203B1 (ko) 2013-12-05

Family

ID=40759355

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070097898A KR101336203B1 (ko) 2007-09-28 2007-09-28 전자기기에서 음성 검출 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101336203B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102512614B1 (ko) * 2018-12-12 2023-03-23 삼성전자주식회사 오디오 개선을 지원하는 전자 장치 및 이를 위한 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990060129A (ko) * 1997-12-31 1999-07-26 구자홍 음성인식 시스템의 음성구간 검출방법
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990060129A (ko) * 1997-12-31 1999-07-26 구자홍 음성인식 시스템의 음성구간 검출방법
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치

Also Published As

Publication number Publication date
KR20090032560A (ko) 2009-04-01

Similar Documents

Publication Publication Date Title
KR100944252B1 (ko) 오디오 신호 내에서 음성활동 탐지
US9959886B2 (en) Spectral comb voice activity detection
JP5905608B2 (ja) 背景雑音の存在下でのボイスアクティビティ検出
KR100883712B1 (ko) 음원 방향 추정 방법, 및 음원 방향 추정 장치
US9524735B2 (en) Threshold adaptation in two-channel noise estimation and voice activity detection
US20140337021A1 (en) Systems and methods for noise characteristic dependent speech enhancement
US9524733B2 (en) Objective speech quality metric
JP2010061151A (ja) 雑音環境のための音声活動検出器及び有効化器
KR20130042649A (ko) 오디오 신호에서의 잡음 추정을 위한 방법 및 장치
US8924199B2 (en) Voice correction device, voice correction method, and recording medium storing voice correction program
KR20080036897A (ko) 음성 끝점을 검출하기 위한 장치 및 방법
JP2007286097A (ja) 音声受付クレーム検出方法、装置、音声受付クレーム検出プログラム、記録媒体
TWI393453B (zh) 適用於自動控制裝置的音調偵測方法及音調偵測裝置
KR101336203B1 (ko) 전자기기에서 음성 검출 방법 및 장치
JP4601970B2 (ja) 有音無音判定装置および有音無音判定方法
CN110556128B (zh) 一种语音活动性检测方法、设备及计算机可读存储介质
WO2017128910A1 (zh) 一种语音出现概率的确定方法、装置及电子设备
EP3748636A1 (en) Voice processing device and voice processing method
CN113316075B (zh) 一种啸叫检测方法、装置及电子设备
JP2002198918A (ja) 適応雑音レベル推定器
KR100284772B1 (ko) 음성 검출 장치 및 그 방법
US20220068270A1 (en) Speech section detection method
JPH07109559B2 (ja) 音声区間検出方法
JP3026855B2 (ja) 音声認識装置
JP6282999B2 (ja) 補聴器の指向性を試験するための装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161028

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20171030

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee