KR101022519B1 - System and method for voice activity detection using vowel characteristic, and method for measuring sound spectral similarity used thereto - Google Patents

System and method for voice activity detection using vowel characteristic, and method for measuring sound spectral similarity used thereto Download PDF

Info

Publication number
KR101022519B1
KR101022519B1 KR1020090033531A KR20090033531A KR101022519B1 KR 101022519 B1 KR101022519 B1 KR 101022519B1 KR 1020090033531 A KR1020090033531 A KR 1020090033531A KR 20090033531 A KR20090033531 A KR 20090033531A KR 101022519 B1 KR101022519 B1 KR 101022519B1
Authority
KR
South Korea
Prior art keywords
band
vowel
peak
voice
feature
Prior art date
Application number
KR1020090033531A
Other languages
Korean (ko)
Other versions
KR20100115033A (en
Inventor
육동석
유인철
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020090033531A priority Critical patent/KR101022519B1/en
Publication of KR20100115033A publication Critical patent/KR20100115033A/en
Application granted granted Critical
Publication of KR101022519B1 publication Critical patent/KR101022519B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

본 발명은 음성 인식을 위한 음성구간 검출 기술에 관한 것으로서, 본 발명에 따른 모음 특징을 이용한 음성구간 검출 시스템은 모음의 스펙트럼에서 특징 피크가 위치한 피크 대역을 나타내는 모음특징정보를 저장하는 모음특징 저장부; 및 입력 음향의 스펙트럼에서 상기 저장된 모음특징정보가 나타내는 피크 대역에 대응하는 대응 대역 및 상기 대응 대역을 제외한 비대응 대역의 평균에너지를 이용하여 상기 입력 음향이 음성에 해당하는지를 판단함으로써 음성구간을 검출하는 음성구간 검출부를 포함하는 것을 특징으로 하여, 다양한 잡음 환경 및 SNR 하에서 음성구간 검출 성능을 개선함은 물론, 연산량을 감소시켜 음성 인식 시스템의 에너지 효율을 개선하는 이점을 제공한다.The present invention relates to a speech section detection technology for speech recognition. The speech section detection system using the vowel feature according to the present invention includes a vowel feature storage unit for storing vowel feature information indicating a peak band at which a feature peak is located in a spectrum of a vowel. ; And determining whether the input sound corresponds to voice by using an average energy of a corresponding band corresponding to the peak band indicated by the stored vowel feature information in the spectrum of the input sound and a non-corresponding band except the corresponding band. Characterized in that it includes a speech section detection unit, to improve the speech section detection performance under various noise environments and SNR, as well as to reduce the amount of computation provides an advantage of improving the energy efficiency of the speech recognition system.

Description

모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법{System and method for voice activity detection using vowel characteristic, and method for measuring sound spectral similarity used thereto}System and method for voice activity detection using vowel characteristic, and method for measuring sound spectral similarity used

본 발명은 음성 인식을 위한 음성구간 검출 기술에 관한 것으로서, 더욱 상세하게는 모음의 특징적 스펙트럼 피크를 이용하여 다양한 잡음 환경 및 SNR 하에서 음성구간 검출 성능을 개선함은 물론, 연산량을 감소시켜 음성 인식 시스템의 에너지 효율을 개선하는 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법에 관한 것이다.The present invention relates to a speech segment detection technique for speech recognition, and more particularly, to improve speech segment detection performance under various noise environments and SNRs by using characteristic spectral peaks of vowels, and to reduce the amount of computation. The present invention relates to a speech segment detection system and method for improving the energy efficiency of the apparatus and a method for measuring acoustic spectral similarity used therein.

음성 인식(voice recognition)이란, 자동적인 음성 인식 시스템을 통해 인간으로부터 발화된 음성으로부터 언어적 의미, 내용을 식별하는 것으로서, 구체적으로는 음성 파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정을 말한다. 이러한 음성 인식 기술은 가정용 전자기기, 휴대폰, 보안 및 인증 등 다양한 분야에 적용되고 있으며, 그 적용분야 및 수요는 더욱 급속히 증가할 전망이다.Voice recognition is to identify linguistic meaning and content from speech spoken by humans through an automatic speech recognition system. Specifically, voice recognition is performed by inputting a speech waveform to identify a word or word string and extract meaning. Refers to the process. Such voice recognition technology is applied to various fields such as home electronics, mobile phones, security and authentication, and its application field and demand are expected to increase more rapidly.

한편, 음성 인식을 수행하는 음성 인식 시스템(voice recognition system)은 크게 단어 음성 인식 시스템(word recognition system), 연속 음성 인식 시스템(continuous speech recognition system) 및 화자 인식 시스템(speaker recognition system)으로 분류할 수 있으며, 상기 음성 인식 시스템들에 적용되는 음성 인식 알고리즘들은 일반적으로 음성구간 검출 과정, 특징(feature) 추출 과정, 그리고 매칭(matching) 과정을 포함하고 있다.Meanwhile, a voice recognition system that performs voice recognition can be broadly classified into a word speech system, a continuous speech recognition system, and a speaker recognition system. Speech recognition algorithms applied to the speech recognition systems generally include a speech section detection process, a feature extraction process, and a matching process.

상기 음성 인식 과정들 중 상기 음성구간 검출(Voice Activity Detection: VAD) 과정은 발생한 특정 소리가 인간의 목소리에 해당하는지를 판별하는 기술로서, 주로 음성 인식의 전처리 단계로 적용되는 기술이다. 이러한 음성구간 검출 기술에 있어서, 연구·개발시의 실험실 환경은 물론 다양한 잡음이 존재하는 실제 생활 환경에서 높은 인식률 내지 정확도를 유지할 수 있는지 여부는 매우 중요한 문제이다.Among the speech recognition processes, the voice activity detection (VAD) process is a technology for determining whether a specific sound generated corresponds to a human voice, and is mainly applied as a preprocessing step of speech recognition. In such speech section detection technology, it is very important to be able to maintain high recognition rate or accuracy in a laboratory environment during research and development as well as in a real life environment in which various noises exist.

음성구간 검출에 관한 기존의 기술들로는, 음성 및 음성 이외의 소리에 관한 학습 데이터를 이용하여 모델을 학습시킨 후 음성구간을 검출하는 기계학습 방식과, 음성의 특성과 깊이 관련된 특징(zero crossing rate, spectral entropy 등)을 모델링하고 해당 특징의 출현 여부를 탐색하여 음성구간을 검출하는 방식이 소개된 바 있다.Existing techniques related to speech segmentation include machine learning methods that detect a speech segment after training the model using learning data about speech and sound other than speech, and features such as zero crossing rate, A method of detecting vocal intervals by modeling spectral entropy and searching for the appearance of a corresponding feature has been introduced.

그러나, 기존의 기계학습 방식의 경우, 해당 모델이 음성 이외의 모든 소리를 학습하는 것은 불가능하며, 그로 인해 학습 되지 않은 소리에 대해 음성구간 검출 성능이 크게 떨어질 수밖에 없다는 문제점이 있다.However, in the conventional machine learning method, it is impossible for the model to learn all sounds other than the voice, and thus, there is a problem in that the speech section detection performance of the untrained sound is greatly reduced.

또한, 기존의 음성 특징을 모델링하는 방식의 경우, 음성 이외의 많은 잡음들도 음성과 유사한 특징을 나타내며, 그로 인해 음성이 아닌 잡음을 음성으로 오인식하는 문제점이 있다.In addition, in the conventional method of modeling speech features, many noises other than speech also have similar characteristics to speech, and thus there is a problem of misrecognizing noise other than speech as speech.

요컨대, 기존 기술들은 음성 전체를 대상으로 특징을 찾아내어 이를 이용한다는 점에서 음성구간 검출 성능을 저해하는 근본적인 문제점이 있다. 그 이유는, 인간의 음성은 폐, 입술, 혀, 비강 등 다양한 조음기관의 상호작용을 거쳐 발생하는 매우 복잡한 소리 신호에 해당하여 음성 전체를 아우르는 단일한 특징을 찾는 것이 매우 곤란하고, 음성 신호와 음성 이외의 소리 신호를 구분하는 명백한 특징도 밝혀진 바 없기 때문이다.In short, existing technologies have a fundamental problem of impairing speech segment detection performance in that they use features of the entire speech. The reason is that human voice is a very complex sound signal generated through the interaction of various articulation organs such as lungs, lips, tongue, and nasal cavity, so it is very difficult to find a single feature that covers the entire voice. This is because no clear feature of distinguishing sound signals other than speech has been revealed.

한편, 기존의 음성구간 검출 방식들의 경우 제한된 실험실 환경에서는 높은 인식률을 보이는 반면, 실제 생활 환경, 예컨대 집 또는 사무실 등에서는 인식률의 급격한 저하를 보이는 다른 주된 요인으로는 크게 두 가지를 들 수 있다.On the other hand, the conventional voice interval detection method shows a high recognition rate in a limited laboratory environment, while the other major factors that show a sharp drop in the recognition rate in a real life environment, such as home or office, there are two major.

한 가지 요인은, 배경 잡음(background noise) 및 실내 잔향(room reverberation) 등에 기인한 신호 손상(signal corruption)이다. 이러한 신호 손상은 동일한 음성 신호인 경우라도 음성 인식 시스템의 학습시 사용되는 깨끗한 음성 신호와 실제 환경에서 입력되는 잡음이 포함된 음성 신호 간에 매칭을 곤란하게 한다.One factor is signal corruption due to background noise and room reverberation. This signal impairment makes it difficult to match between the clean voice signal used in the learning of the speech recognition system and the voice signal including noise input in a real environment even in the case of the same voice signal.

그러나, 상기 신호 손상 문제를 해결하려는 기존의 연구들은, 단지 특정 조건들 하에서만 상기 신호 손상의 영향을 어느 정도 감소시킬 수 있을 뿐, 실제 생활 사용되는 기기들에 적용되었을 때 일관되고 신뢰성 있는 성능을 보여줄 수 없었 다. 그 이유는, 실제 생활 환경에서 발생할 수 있는 배경 잡음은 매우 다양하여 모든 배경 잡음을 예상할 수 없을 뿐 아니라, 배경 잡음의 특성도 시간에 따라 변화한다는 점에 기인한다. 따라서, S. F. Boll이, "Suppression of acoustic noise in speech using spectral subtraction"(IEEE Transactions on Acoustics, Speech, and Signal Processing, ASSP-27(2), pp. 113-120, 1979.)에서 소개한 바와 같이 배경 잡음을 추정하는 알고리즘들을 적용하여 신호 손상 문제를 해결하는 것은 한계가 있다.However, existing studies to solve the signal corruption problem can only reduce the effect of the signal damage to some extent only under certain conditions, and provide consistent and reliable performance when applied to real-life devices. Couldn't show The reason is that background noise that can occur in a real life environment is so diverse that not only all background noise can be predicted, but also that the characteristics of the background noise change with time. Thus, as SF Boll introduced in "Suppression of acoustic noise in speech using spectral subtraction" (IEEE Transactions on Acoustics, Speech, and Signal Processing, ASSP-27 (2), pp. 113-120, 1979.). Solving the signal impairment problem by applying algorithms for estimating background noise is limited.

다른 한 가지 요인은, 음성 인식 시스템으로 하여금 학습하지 않은 음향 신호를 식별하여 음성 신호 이외의 음향 신호를 이미 학습한 음성 신호로 인식하지 않도록 하는 오픈-셋(open-set) 문제이다.Another factor is an open-set problem that causes the speech recognition system to identify unacknowledged acoustic signals and not to recognize acoustic signals other than speech signals as already learned speech signals.

그러나, 상기 오픈-셋 문제를 해결하려는 기존의 연구들은, 실제 생활 환경에서 신뢰할 만한 성능을 달성할 수 없었다. 그 이유는, 앞서 설명한 바와 같이 실제 생활 환경에서 사전에 방대한 음향들의 특징들을 모두 학습하는 것은 사실상 불가능하기 때문이다.However, existing studies to solve the open-set problem have not been able to achieve reliable performance in a real life environment. The reason is that, as described above, it is virtually impossible to learn all the features of the vast sounds in advance in a real life environment.

요컨대, 기존 기술은 다양한 잡음이 발생하는 실제 생활 환경에서 신호 손상 및 오픈-셋 문제를 해결하여 안정된 인식률을 제공할 수 있는 직접적인 해결책을 제시하지 못하고 있다는 문제점이 있다. 또한, 기존 기술은 음성구간 검출시 정보 처리 및 연산량을 감소시켜 오늘날 급속도로 발전하고 있는 이동 통신 시스템, USN(Ubiquitous Sensor Network) 등 자원제약적 환경에 용이하게 적용할 수 있는 음성 인식 기술을 제시하지 못하고 있다는 문제점이 있다.In short, the existing technology does not provide a direct solution that can provide stable recognition rate by solving signal corruption and open-set problems in a real life environment in which various noises occur. In addition, the existing technology cannot reduce the amount of information processing and calculation when detecting the voice section, and thus cannot provide a voice recognition technology that can be easily applied to resource-constrained environments such as the mobile communication system and the USN (Ubiquitous Sensor Network). There is a problem.

따라서, 본 발명이 해결하고자 하는 첫 번째 기술적 과제는, 모음의 특징적 스펙트럼 피크를 이용하여 다양한 잡음 환경 및 SNR 하에서 음성구간 검출 성능을 개선함은 물론, 연산량을 감소시켜 음성 인식 시스템의 에너지 효율을 개선하는 음성구간 검출 시스템을 제공하는 것이다.Accordingly, the first technical problem to be solved by the present invention is not only to improve the speech segment detection performance under various noise environments and SNR by using the characteristic spectral peak of the vowel, but also to reduce the amount of computation to improve the energy efficiency of the speech recognition system. It is to provide a voice section detection system.

본 발명이 해결하고자 하는 두 번째 기술적 과제는, 모음의 특징적 스펙트럼 피크를 이용하여 다양한 잡음 환경 및 SNR 하에서 음성구간 검출 성능을 개선함은 물론, 연산량을 감소시켜 음성 인식 시스템의 에너지 효율을 개선하는 음성구간 검출 방법을 제공하는 것이다.The second technical problem to be solved by the present invention is to improve the speech segmentation performance under various noise environments and SNRs by using characteristic spectral peaks of vowels, as well as to reduce the amount of computation and improve the energy efficiency of speech recognition systems. An interval detection method is provided.

본 발명이 해결하고자 하는 세 번째 기술적 과제는, 상기 음성구간 검출 시스템 및 방법에 사용되는 음향 스펙트럼 유사도 측정 방법을 제공하는 것이다.The third technical problem to be solved by the present invention is to provide a method for measuring the acoustic spectral similarity used in the speech section detection system and method.

상기와 같은 첫 번째 기술적 과제를 해결하기 위하여 본 발명은, 모음의 스펙트럼에서 특징 피크가 위치한 피크 대역을 나타내는 모음특징정보를 저장하는 모음특징 저장부; 및 입력 음향의 스펙트럼에서 상기 저장된 모음특징정보가 나타내는 피크 대역에 대응하는 대응 대역 및 상기 대응 대역을 제외한 비대응 대역의 평균에너지를 이용하여 상기 입력 음향이 음성에 해당하는지를 판단함으로써 음성구간을 검출하는 음성구간 검출부를 포함하는 모음 특징을 이용한 음성구간 검출 시스템을 제공한다.In order to solve the first technical problem as described above, the present invention provides a vowel feature storage unit for storing vowel feature information indicating a peak band in which a feature peak is located in a vowel spectrum; And determining whether the input sound corresponds to voice by using an average energy of a corresponding band corresponding to the peak band indicated by the stored vowel feature information in the spectrum of the input sound and a non-corresponding band except the corresponding band. Provided is a speech section detection system using a vowel feature including a speech section detector.

일 실시예에 있어서, 상기 모음특징 저장부는, 상기 모음의 스펙트럼 피크들 중 미리 결정된 문턱값(threshold)보다 큰 에너지를 지니는 피크를 특징 피크로 추출하는 특징피크 추출부; 및 상기 추출된 특징 피크가 상기 모음의 스펙트럼에서 위치한 피크 대역을 나타내는 모음특징정보를 생성하는 특징정보 생성부를 포함한다.The vowel feature storage unit may include: a feature peak extracting unit extracting a peak having an energy greater than a predetermined threshold among spectral peaks of the vowel as a feature peak; And a feature information generator for generating vowel feature information representing a peak band in which the extracted feature peak is located in the spectrum of the vowel.

일 실시예에 있어서, 상기 특징정보 생성부는, 상기 모음의 전체 스펙트럼 대역을 소정 개수의 단위 대역으로 구별하여, 상기 모음의 스펙트럼에서 상기 피크 대역에 해당하는 단위 대역을 1로 나타내고 상기 피크 대역 이외의 대역인 밸리 대역(valley band)에 해당하는 단위 대역을 0으로 나타내는 상기 모음특징정보를 생성한다.In one embodiment, the feature information generation unit, by dividing the entire spectral band of the vowels into a predetermined number of unit bands, and represents a unit band corresponding to the peak band in the spectrum of the vowels as 1 and other than the peak band. The vowel feature information representing a unit band corresponding to a valley band, which is a band, as 0 is generated.

일 실시예에 있어서, 상기 음성구간 검출부는, 상기 입력 음향의 스펙트럼에서, 상기 저장된 모음특징정보의 상기 피크 대역에 대응하는 대응 대역 및 상기 대응 대역을 제외한 비대응 대역의 평균에너지를 산출하는 평균에너지 산출부; 및 상기 대응 대역 및 상기 비대응 대역 간의 평균에너지 차를 이용하여 상기 모음 및 상기 입력 음향 간 스펙트럼 유사도를 측정하는 유사도 측정부를 포함한다.In one embodiment, the voice section detector, in the spectrum of the input sound, the average energy for calculating the average energy of the corresponding band corresponding to the peak band of the stored vowel feature information and the non-corresponding band except the corresponding band A calculator; And a similarity measurer that measures spectral similarity between the vowel and the input sound by using an average energy difference between the corresponding band and the non-compliant band.

일 실시예에 있어서, 상기 유사도 측정부는, 상기 대응 대역의 평균에너지에서 상기 비대응 대역의 평균에너지를 감산한 값을 나타내는 PVED(Peak-Valley Energy Difference) 값을 이용하여 상기 스펙트럼 유사도를 측정한다.In example embodiments, the similarity measurer measures the spectral similarity using a Peak-Valley Energy Difference (PVED) value representing a value obtained by subtracting the average energy of the non-corresponding band from the average energy of the corresponding band.

일 실시예에 있어서, 상기 음성구간 검출부는, 상기 PVED 값이 미리 결정된 임계값보다 큰 경우 상기 입력 음향을 음성으로 판단하여 음성구간으로 검출한다.The voice section detector, when the PVED value is greater than a predetermined threshold, determines the input sound as voice and detects the voice section as a voice section.

일 실시예에 있어서, 상기 음성구간 검출부는, 상기 저장된 모음특징정보들에 대하여 상기 PVED 값을 산출하고, 상기 산출된 PVED 값 중 최대 PVED 값이 상기 임계값보다 큰 경우 상기 입력 음향을 음성으로 판단한다.The voice section detector may be configured to calculate the PVED value with respect to the stored vowel feature information, and determine the input sound as voice when the maximum PVED value among the calculated PVED values is greater than the threshold value. do.

일 실시예에 있어서, 상기 음성구간 검출부는, 상기 PVED 값이 상기 임계값보다 크지 않은 경우 상기 입력 음향에 대해 행오버(Hang-over) 알고리즘을 적용하는 행오버 처리부를 더 포함하고, 상기 음성구간 검출부는, 상기 행오버 처리부에 의해 상기 입력 음향이 음성으로 처리되는 경우 상기 입력 음향을 음성으로 판단한다.The voice segment detector may further include a hangover processor configured to apply a hang-over algorithm to the input sound when the PVED value is not greater than the threshold value. The detector determines the input sound as a voice when the input sound is processed by the hangover processor.

상기와 같은 두 번째 기술적 과제를 해결하기 위하여 본 발명은, 음성구간 검출 시스템(Voice Activity Detection system)에서 상기 시스템에 입력되는 입력 음향들의 음성구간을 검출하는 방법에 있어서, 모음의 스펙트럼에서 특징 피크가 위치한 피크 대역을 나타내는 모음특징정보를 저장하는 모음특징 저장 단계; 및 입력 음향의 스펙트럼에서 상기 저장된 모음특징정보가 나타내는 피크 대역에 대응하는 대응 대역 및 상기 대응 대역을 제외한 비대응 대역의 평균에너지를 이용하여 상기 입력 음향이 음성에 해당하는지를 판단함으로써 음성구간을 검출하는 음성구간 검출 단계를 포함하는 모음 특징을 이용한 음성구간 검출 방법을 제공한다.In order to solve the second technical problem as described above, the present invention provides a method for detecting a voice section of input sounds input to the system in a voice activity detection system, wherein a feature peak in a spectrum of a vowel A vowel feature storing step of storing vowel feature information indicating a located peak band; And determining whether the input sound corresponds to voice by using an average energy of a corresponding band corresponding to the peak band indicated by the stored vowel feature information in the spectrum of the input sound and a non-corresponding band except the corresponding band. Provided is a speech segment detection method using a vowel feature including speech segment detection.

상기와 같은 세 번째 기술적 과제를 해결하기 위하여 본 발명은, 음성구간 검출 시스템(Voice Activity Detection system)에서 사전 학습된 모음 및 상기 시스템에 입력되는 입력 음향 간 주파수 스펙트럼의 유사도(similarity)를 측정하는 방법에 있어서, 상기 입력 음향의 스펙트럼에서, 상기 모음의 스펙트럼 상 특징 피 크가 위치한 피크 대역에 대응하는 대응 대역 및 상기 대응 대역을 제외한 비대응 대역의 평균에너지를 산출하는 단계; 및 상기 대응 대역 및 상기 비대응 대역 간의 평균에너지 차를 이용하여 상기 모음 및 상기 입력 음향 간 스펙트럼 유사도를 측정하는 단계를 포함하는 음향 스펙트럼 유사도 측정 방법을 제공한다.In order to solve the third technical problem as described above, the present invention, a method for measuring the similarity (similarity) of the frequency spectrum between the pre-learned vowels and the input sound input to the system in the Voice Activity Detection system (Voice Activity Detection system) Calculating an average energy of a corresponding band corresponding to a peak band in which the spectral feature peaks of the vowels are located and a non-corresponding band excluding the corresponding band from the input sound spectrum; And measuring spectral similarity between the vowel and the input sound using an average energy difference between the corresponding band and the non-compliant band.

본 발명은, 잡음에 의해 손상된 입력 음향 신호에 대한 특징 추출 과정 없이 학습된 모음의 특징적 스펙트럼 피크를 이용함으로써 다양한 잡음 환경 및 SNR(Signal-to-Noise Ratio) 하에서 음성구간 검출 성능을 개선하는 이점을 제공한다.The present invention provides the advantage of improving the speech segment detection performance under various noise environments and signal-to-noise ratios (SNRs) by using the characteristic spectral peaks of the learned vowels without the feature extraction process for the input acoustic signal damaged by noise. to provide.

또한, 음성구간 검출 과정에서 정보 처리 및 연산량을 감소시켜 오늘날 급속도로 발전하고 있는 이동단말기기, USN의 센서노드 등 자원제약적 환경에 용이하게 적용할 수 있다는 이점을 제공한다.In addition, by reducing the amount of information processing and calculation in the speech section detection process, it provides an advantage that it can be easily applied to resource-constrained environment such as mobile terminal device, USN sensor node that is rapidly developing today.

나아가, 음성 인식의 전처리 단계로 적용함으로써 비음성 구간에서 음성 인식 시스템으로 하여금 불필요한 동작을 제거하도록 하여 에너지 효율을 더욱 개선할 수 있다는 이점을 제공한다.Furthermore, by applying it as a preprocessing step of speech recognition, the speech recognition system can be further improved in energy efficiency by allowing the speech recognition system to remove unnecessary motion in the non-speech section.

본 발명에 관한 구체적인 내용의 설명에 앞서 이해의 편의를 위해 본 발명이 해결하고자 하는 기술적 과제의 개요를 우선 제시한다.Prior to the description of the specific contents of the present invention, for the sake of understanding, an outline of the technical problem to be solved by the present invention is first presented.

도 1에는 본 발명에 따른 모음 특징을 이용한 음성구간 검출 방법의 기본 원리가 도시되어 있다.1 illustrates a basic principle of a speech segment detection method using a vowel feature according to the present invention.

도 1을 참조하면, 본 발명은 기존 기술에서 음성 전체에 관한 특징 추출이 곤란하다는 문제와 신호 손상(signal corruption) 및 오픈-셋(open-set) 문제를 해결하기 위해, 음성 인식 과정에 있어서 잡음 왜곡이 발생한 입력 음향 신호로부터 특징을 추출하는 과정 없이, 학습 단계(110)를 통해 사전 학습된 잡음없는 모음 신호(112)로부터 스펙트럼 특징(114)을 추출 및 저장하고, 검출 단계(120)에서 상기 저장된 스펙트럼 특징(114)을 이용하여 상기 모음 신호(112) 및 잡음 왜곡이 발생한 입력 음향 신호(122) 간의 매칭을 수행하도록 한다. 그 이유는, 기존 기술의 신호 손상 및 오픈-셋 문제가 바로 잡음에 의해 왜곡된 입력 음향 신호(122)로부터 추출된 특징(124)을 이용하여 소정의 매칭을 수행함으로써 초래되었기 때문이다.Referring to FIG. 1, the present invention solves the problem that it is difficult to extract features related to the entire speech in the existing technology, and to solve signal corruption and open-set problems. Without extracting the feature from the distorted input acoustic signal, the spectral feature 114 is extracted and stored from the pre-learned noiseless vowel signal 112 through the learning step 110, and the detection step 120 The stored spectral feature 114 is used to perform matching between the vowel signal 112 and the input acoustic signal 122 where the noise distortion has occurred. This is because signal corruption and open-set problems of the prior art were caused by performing certain matching using features 124 extracted from input acoustic signals 122 distorted by noise.

따라서, 본 발명은 모음의 스펙트럼 특징만을 추출하여 모음 신호 및 입력 음향 신호 간 매칭을 수행하며, 이를 위해 PVED(Peak-Valley Energy Difference)라는 새로운 유사도(similarity) 측정 기준을 도입한다.Accordingly, the present invention extracts only the spectral features of a vowel to perform matching between the vowel signal and the input acoustic signal, and introduces a new similarity measure called Peak-Valley Energy Difference (PVED).

이하, 본 발명의 기술적 과제의 해결 방안을 명확화하기 위해 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명한다. 다만, 본 발명을 설명함에 있어서 관련된 공지기술 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불명료하게 할 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자 등의 의도 또는 관례 등에 따라 달라질 수 있을 것이다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings in order to clarify the solutions of the technical problems of the present invention. However, in describing the present invention, when it is determined that the detailed description of the related known technology or configuration may make the gist of the present invention unclear, the detailed description thereof will be omitted. In addition, terms to be described later are terms defined in consideration of functions in the present invention, which may vary according to intention or custom of a user, an operator, or the like. Therefore, the definition should be based on the contents throughout this specification.

도 2에는 본 발명에 따른 모음 특징을 이용한 음성구간 검출 시스템의 일례 가 블록도로 도시되어 있다.2 shows an example of a speech segment detection system using a vowel feature according to the present invention.

도 3에는 본 발명에 따른 모음 특징을 이용한 음성구간 검출 방법의 일례가 흐름도로 도시되어 있다.3 is a flowchart illustrating an example of a speech segment detection method using a vowel feature according to the present invention.

도 2 및 도 3을 참조하면, 우선 본 발명에 따른 음성구간 검출 시스템(200)은, 모음특징 저장부(210) 및 음성구간 검출부(220)를 포함하며, 음향 수신부(230) 및 스펙트럼 분석부(240)를 더 포함할 수 있다.2 and 3, first, the speech section detection system 200 according to the present invention includes a vowel feature storage unit 210 and a speech section detection unit 220, and includes an audio receiver 230 and a spectrum analyzer. 240 may further include.

상기 모음특징 저장부(210)는, 학습 단계를 통해 모음의 주파수 스펙트럼에서 특징 피크(characteristic peak)가 위치한 피크 대역(peak band)을 나타내는 모음특징정보를 저장한다(S310, S320).The vowel feature storage unit 210 stores vowel feature information indicating a peak band at which a characteristic peak is located in the frequency spectrum of the vowel through a learning step (S310 and S320).

더욱 구체적으로 설명하면, 상기 모음특징 저장부(210)는 인간의 음성을 구성하는 모음에 대한 학습 단계를 수행하기 위해 특징피크 추출부(212) 및 특징정보 생성부(214)를 포함할 수 있다.In more detail, the vowel feature storage unit 210 may include a feature peak extractor 212 and a feature information generator 214 to perform a learning step on a vowel constituting a human voice. .

상기 특징피크 추출부(212)는, 상기 모음의 스펙트럼에서 상기 특징 피크를 추출한다(S310). 이 경우, 다양한 형태의 추출 방식을 적용하여 상기 특징 피크를 추출할 수 있다. 일 실시예에 있어서, 연산의 단순화를 위해 상기 특징피크 추출부(212)는 상기 모음의 스펙트럼 피크들 중 미리 결정된 문턱값(threshold)보다 큰 에너지를 지니는 피크를 특징 피크로 추출할 수 있다.The feature peak extractor 212 extracts the feature peak from the spectrum of the vowel (S310). In this case, the feature peak may be extracted by applying various types of extraction methods. In an embodiment, the feature peak extractor 212 may extract a peak having an energy greater than a predetermined threshold among the spectral peaks of the vowel as a feature peak to simplify the calculation.

인간의 음성(voice 또는 speech)은 크게 자음(consonant)과 모음(vowel)으로 구성된다. 자음의 경우 지속시간이 매우 짧으며 항상 모음과 함께 발성되는 특징이 있다. 반면, 모음의 경우 상대적으로 지속시간이 길고 각각의 모음은 스펙트럼 상 에 포먼트(formant)라 알려진 고유한 특징 피크들을 지니고 있다.Human speech (voice or speech) is largely composed of consonants and vowels. In the case of consonants, the duration is very short and it is always characterized by vowels. On the other hand, vowels have a relatively long duration and each vowel has its own characteristic peaks known as formants in the spectrum.

도 4에는 'a' 모음의 주파수 스펙트럼이 도시되어 있다.4 shows the frequency spectrum of the 'a' vowel.

도 4에 도시된 바와 같이, 모음의 경우 각각 고유한 특징 피크를 지니고 있음을 알 수 있다. 모음 스펙트럼 상에 특징 피크들이 존재하는 피크 대역은 주변 대역에 비해 현저히 높은 에너지를 지니기 때문에 잡음에 의한 왜곡에도 쉽게 사라지지 않는다. 따라서, 인간의 음성 중 모음 부분은 다양한 잡음이 발생하는 실제 생활 환경에서도 검출이 용이하며, 상기 모음 부분만 검출할 수 있으면 모음 앞의 수십~수백 ms를 함께 음성으로 간주하는 방식을 이용하여 자음 및 모음 전체를 검출할 수 있게 된다. 상기 특징피크 추출부(212)는 이러한 모음의 특징 피크들을 추출하는 것이다. 물론, 상술한 바와 같이, 단순한 에너지 기반 피크 추출 방식뿐만 아니라, 더욱 복잡한 알고리즘들이 사용될 수도 있다.As shown in FIG. 4, it can be seen that each vowel has its own characteristic peak. The peak band where the characteristic peaks are present on the vowel spectrum has a significantly higher energy than the surrounding band so that it does not disappear easily due to noise distortion. Therefore, the vowel portion of the human voice is easy to detect even in a real life environment in which various noises occur, and if only the vowel portion can be detected, the consonant and The entire vowel can be detected. The feature peak extractor 212 extracts feature peaks of this vowel. Of course, as described above, not only simple energy-based peak extraction schemes, but also more complex algorithms may be used.

상기 특징정보 생성부(214)는, 상기 추출된 특징 피크가 상기 모음의 스펙트럼에서 위치한 피크 대역을 나타내는 모음특징정보를 생성한다(S320).The feature information generator 214 generates vowel feature information indicating a peak band in which the extracted feature peak is located in the spectrum of the vowel (S320).

도 5에는 상기 모음특징정보 생성 과정이 도시되어 있다.5 illustrates a process of generating the vowel feature information.

도 5를 참조하면, 상기 특징피크 추출부(212)가 예컨대 특정 모음의 스펙트럼(510)에서 4개의 특징 피크를 추출한 경우, 상기 특징정보 생성부(214)는 상기 4개의 특징 피크들이 위치한 4개의 피크 대역들을 나타내는 모음특징정보(520)를 생성한다.Referring to FIG. 5, when the feature peak extractor 212 extracts four feature peaks from, for example, a particular collection of spectra 510, the feature information generator 214 may display four feature peaks. The vowel feature information 520 representing the peak bands is generated.

일 실시예에 있어서, 상기 특징정보 생성부(214)는, 상기 모음의 전체 스펙트럼 대역을 소정 개수의 단위 대역으로 구별하여, 상기 모음의 스펙트럼에서 상기 피크 대역에 해당하는 단위 대역을 1로 나타내고 상기 피크 대역 이외의 대역인 밸리 대역(valley band)에 해당하는 단위 대역을 0으로 나타냄으로써 상기 모음특징정보를 생성한다. 예컨대, 상기 모음특징정보(520)는 피크 특징 벡터(peak signature vector) 형태로 생성될 수 있다. 즉, 모음 신호에 관한 학습 데이터에 DFT(Discrete Fourier Transform)를 적용하여 얻어진 N 차원(N dimension)의 평균 스펙트럼으로부터 상기 특징피크 추출부(212)가 상기 문턱값 이상의 특징 피크를 추출하면, 상기 특징정보 생성부(214)는 상기 특징 피크가 위치한 피크 대역(peak band)에 해당하는 각각의 차원에 1을 할당하고, 상기 피크 대역 이외의 대역인 밸리 대역(valley band)에 해당하는 각각의 차원에 0을 할당하여 N 차원의 피크 특징 벡터(peak signature vector)를 생성할 수 있다.In one embodiment, the feature information generator 214 divides the entire spectral band of the vowel into a predetermined number of unit bands, and represents a unit band corresponding to the peak band in the vowel spectrum as 1 and The vowel feature information is generated by indicating a unit band corresponding to a valley band, which is a band other than the peak band, as 0. For example, the vowel feature information 520 may be generated in the form of a peak signature vector. That is, when the feature peak extractor 212 extracts feature peaks greater than or equal to the threshold value from an N-dimensional average spectrum obtained by applying a Discrete Fourier Transform (DFT) to training data about a vowel signal, the feature peak is extracted. The information generator 214 assigns 1 to each dimension corresponding to the peak band where the feature peak is located, and assigns 1 to each dimension corresponding to a valley band which is a band other than the peak band. By assigning zero, an N-dimensional peak signature vector may be generated.

아래에서 다시 설명하겠지만, 이와 같이 상기 모음특징정보를 이진값으로 생성하여 저장함으로써 상기 모음특징 저장부(210)의 데이터 저장량을 감소시킬 수 있음은 물론, 본 발명에 따른 음향 스펙트럼 유사도 측정 방법을 통해 음성구간 검출시 연산량을 감소시키고 에너지 효율을 개선할 수 있게 된다.As will be described again below, by generating and storing the vowel feature information as a binary value as described above, the amount of data stored in the vowel feature storage unit 210 can be reduced, as well as through the acoustic spectrum similarity measuring method according to the present invention. It is possible to reduce the amount of calculation and improve energy efficiency when detecting a voice segment.

상술한 바와 같이, 상기 모음특징 저장부(210)는 상기 모음특징정보를 저장함으로써 상기 모음을 학습한다. 일 실시예에 있어서, 상기 모음특징 저장부(210)에 의한 학습 단계(S310 내지 S320)는 생산자 내지 제조자의 의도 등에 따라 음성 인식 시스템의 생산 내지 제작시에 수행될 수 있다. 이 경우, 상기 특징피크 추출부(212) 및 특징정보 생성부(214)의 동작을 외부 장치에서 수행하고 상기 모음특징 저장부(210)는 상기 모음특징정보만을 저장하도록 구성할 수 있다. 또한, 일 실시 예에 있어서, 음성 인식 시스템의 사용자 또는 운용자에 따라 커스터마이징(customizing)이 가능하도록 구성할 수 있다. 즉, 음성 인식 전, 사용자 또는 운용자가 잡음없는 환경에서 상기 음성구간 검출 시스템(200)으로 하여금 개별적으로 모음을 학습하도록 구성할 수 있다. 이 경우, 상기 음향 수신부(230)가 웨이브폼(waveform)의 음성 신호를 수신하여 상기 스펙트럼 분석부(240)로 전달하면, 상기 스펙트럼 분석부(240)는 주파수 분석을 통해 상기 음성 신호 중 모음 신호를 스펙트럼 벡터로 변경하여 상기 모음특징 저장부(210)로 전달하도록 구성할 수 있다.As described above, the vowel feature storage unit 210 learns the vowel by storing the vowel feature information. In one embodiment, the learning steps (S310 to S320) by the vowel feature storage unit 210 may be performed at the time of production or production of the speech recognition system according to the intention of the producer or manufacturer. In this case, operations of the feature peak extractor 212 and the feature information generator 214 may be performed by an external device, and the vowel feature storage 210 may be configured to store only the vowel feature information. In addition, in one embodiment, it can be configured to be customized according to the user or operator of the speech recognition system. That is, before speech recognition, a user or operator may configure the speech section detection system 200 to individually learn the vowels in a noise-free environment. In this case, when the sound receiver 230 receives a voice signal of a waveform and delivers it to the spectrum analyzer 240, the spectrum analyzer 240 performs a vowel signal among the voice signals through frequency analysis. It can be configured to transfer to the vowel feature storage unit 210 by changing to a spectral vector.

그 다음, 상기 음성구간 검출부(220)는, 입력 음향에 대한 음성구간 검출(Voice Activity Detection; VAD) 단계에서 입력 음향의 스펙트럼 상 상기 저장된 모음특징정보가 나타내는 피크 대역에 대응하는 대응 대역(relevant band) 및 상기 대응 대역을 제외한 비대응 대역(irrelevant band)의 평균에너지(average energy)를 이용하여 상기 입력 음향이 음성에 해당하는지를 판단함으로써 음성구간을 검출한다(S330 내지 S370).Next, the voice section detection unit 220, in a voice activity detection (VAD) step for the input sound, a corresponding band corresponding to the peak band indicated by the stored vowel feature information on the spectrum of the input sound. ) And a voice section by detecting whether the input sound corresponds to voice using average energy of an irrelevant band excluding the corresponding band (S330 to S370).

더욱 구체적으로 설명하면, 상기 음성구간 검출부(220)는 상기 입력 음향에 대한 VAD 단계를 수행하기 위해, 평균에너지 산출부(222) 및 유사도 측정부(224)를 포함하며, 행오버 처리부(226)를 더 포함할 수 있다.In more detail, the voice interval detector 220 includes an average energy calculator 222 and a similarity measurer 224 to perform a VAD step on the input sound, and includes a hangover processor 226. It may further include.

우선, 상기 음향 수신부(230)가 웨이브폼(waveform)의 입력음향 신호를 수신하여 상기 스펙트럼 분석부(240)로 전달하면, 상기 스펙트럼 분석부(240)는 주파수 분석 과정을 통해 상기 입력음향 신호를 스펙트럼 벡터로 변경한다(S330). 상기 스펙트럼 분석부(240)는 DFT(Discrete Fourier Transform) 등을 이용하여 상기 주파 수 분석을 수행할 수 있다.First, when the sound receiver 230 receives an input sound signal of a waveform and transmits it to the spectrum analyzer 240, the spectrum analyzer 240 receives the input sound signal through a frequency analysis process. Change to a spectral vector (S330). The spectrum analyzer 240 may perform the frequency analysis using a discrete fourier transform (DFT).

상기 평균에너지 산출부(222)는, 상기 대응 대역 및 상기 비대응 대역의 단위 대역 당 평균에너지를 산출한다(S340).The average energy calculator 222 calculates average energy per unit band of the corresponding band and the non-compliant band (S340).

그 다음, 상기 유사도 측정부(224)는, 상기 대응 대역 및 상기 비대응 대역 간의 평균에너지 차를 이용하여 상기 모음 및 상기 입력 음향 간 스펙트럼 유사도(similarity)를 측정한다(S350).Next, the similarity measurer 224 measures the spectral similarity between the vowel and the input sound by using an average energy difference between the corresponding band and the non-compliant band (S350).

상술한 바와 같이, 인간의 음성 중 모음들은 특징적인 스펙트럼 피크를 지닌다. 따라서, 각 모음의 스펙트럼의 대역은 상기 특징 피크가 위치한 피크 대역(peak band)과 상기 피크 대역 이외의 대역인 밸리 대역(valley band)으로 구분될 수 있다.As mentioned above, vowels in human speech have characteristic spectral peaks. Accordingly, the band of the spectrum of each vowel may be divided into a peak band in which the feature peak is located and a valley band which is a band other than the peak band.

특히 주목할 점은, 상기 밸리 대역은 상기 피크 대역에 비해 상당히 넓다는 것이다. 즉, 상기 피크 대역은 좁은 대역에 음향 에너지가 집중되어 있는 대역에 해당하는 반면, 상기 밸리 대역은 매우 넓은 대역에 음향 에너지가 산재되어 있는 대역에 해당한다. 그 결과, 상기 피크 대역의 평균에너지는 상대적으로 큰 값을 나타내고, 상기 밸리 대역의 평균에너지는 상대적으로 작은 값을 나타낸다.Of particular note is that the valley band is considerably wider than the peak band. That is, the peak band corresponds to a band in which acoustic energy is concentrated in a narrow band, whereas the valley band corresponds to a band in which acoustic energy is scattered in a very wide band. As a result, the average energy of the peak band represents a relatively large value, and the average energy of the valley band represents a relatively small value.

마찬가지로, 상기 입력 음향이 상기 모음을 포함하는 음성에 해당한다면, 잡음의 존재에 무관하게 상기 입력 음향 스펙트럼에서 상기 대응 대역의 평균에너지는 상대적으로 큰 값을 나타내고, 상기 비대응 대역의 평균에너지는 작은 값을 나타내게 된다.Similarly, if the input sound corresponds to a voice including the vowel, the mean energy of the corresponding band in the input sound spectrum shows a relatively large value regardless of the presence of noise, and the mean energy of the non-corresponding band is small. Will display the value.

따라서, 본 발명은 상기 대응 대역 및 상기 비대응 대역의 평균에너지를 이 용하여 상기 모음 및 상기 입력 음향 간 유사도를 측정하고자 하는 것이다.Accordingly, the present invention intends to measure the similarity between the vowel and the input sound using the average energy of the corresponding band and the non-compliant band.

일 실시예에 있어서, 상기 유사도 측정부(224)는 상기 대응 대역의 평균에너지에서 상기 비대응 대역의 평균에너지를 감산한 값을 나타내는 PVED(Peak-Valley Energy Difference) 값을 이용하여 상기 스펙트럼 유사도를 측정할 수 있다.In one embodiment, the similarity measurer 224 may calculate the spectral similarity using a peak-valley energy difference (PVED) value representing a value obtained by subtracting the average energy of the non-corresponding band from the average energy of the corresponding band. It can be measured.

상기 PVED은 상기 모음의 모음특징정보인 피크 특징 벡터(S) 및 상기 입력 음향의 스펙트럼(X)만을 이용하여 유사도를 측정할 수 있도록 한다.The PVED makes it possible to measure the similarity using only the peak feature vector (S) which is the vowel feature information of the vowel and the spectrum (X) of the input sound.

상기 PVED 값은 수학식 1과 같이 나타낼 수 있다.The PVED value may be represented as in Equation 1.

Figure 112009023280817-pat00001
Figure 112009023280817-pat00001

상기 수학식 1은 구체적으로 수학식 2와 같이 산출될 수 있다.Equation 1 may be specifically calculated as Equation 2.

Figure 112009023280817-pat00002
Figure 112009023280817-pat00002

상기 수학식 2에서, N은 상기 S 및 X의 차원을 나타내고, X[k]는 상기 입력 음향 스펙트럼(X)의 k 차원 에너지를 나타내고, S[k]는 상기 피크 특징 벡터(S)의 k 차원 이진값을 나타낸다. 즉, S[k]는 상기 모음의 상기 피크 대역에 대해 이진값 1을, 그리고 상기 밸리 지역에 대해 이진값 0을 지닌다.In Equation 2, N represents the dimensions of the S and X, X [k] represents the k-dimensional energy of the input acoustic spectrum (X), S [k] is k of the peak feature vector (S) Represents a dimensional binary value. That is, S [k] has a binary value of 1 for the peak band of the vowel and a binary value of 0 for the valley region.

상기 음성구간 검출부(220)는, 상기 PVED 값이 미리 결정된 임계값보다 큰 경우(S352), 상기 입력 음향을 상기 모음을 포함하는 음성으로 판단하여 상기 입력 음향을 음성구간으로 검출한다(S360). 그러나, 상기 PVED 값이 상기 임계값 이하인 경우(S352), 상기 입력 음향을 잡음 또는 비음성 음향으로 판단한다(S362).When the PVED value is greater than a predetermined threshold (S352), the voice section detector 220 determines the input sound as a voice including the vowel and detects the input sound as a voice section (S360). However, when the PVED value is less than or equal to the threshold value (S352), the input sound is determined as noise or non-voice sound (S362).

일 실시예에 있어서, 상기 음성구간 검출부(220)는 상기 PVED 값이 상기 임계값 이하인 경우 상기 행오버 처리부(226)를 통해 상기 입력 음향에 대하여 행오버(Hang-over) 알고리즘을 적용한다(S354).According to an embodiment, when the PVED value is less than or equal to the threshold value, the voice interval detector 220 applies a hang-over algorithm to the input sound through the hangover processor 226 (S354). ).

상기 행오버 알고리즘이란, 일반적 음성 인식 시스템(voice recognition system)에서 발화시 발생하는 음성 중간의 묵음(intra-speech silence) 구간을 음성으로 함께 처리하는 과정을 말한다. 즉, 인간의 음성은 귀를 통해 듣는 경우 연속적으로 끊임없이 발생하는 것으로 들리지만, 상기 음성을 밀리센컨드(ms) 단위로 분석하면 음성 중간 중간에 몇십~몇백 ms 이하의 소리없는 짧은 휴지기간이 존재한다. 따라서, 상기 행오버 알고리즘은 상기 음성 중간에 등장하는 묵음을 음성으로 함께 처리하는 것이다.The hangover algorithm refers to a process of processing together an intra-speech silence section of a voice generated during speech in a general voice recognition system. That is, the human voice sounds continuously occurring continuously when it is heard through the ear, but when the voice is analyzed in milliseconds (ms), there is a short silent period of several tens to several hundred ms or less in the middle of the voice. . Therefore, the hangover algorithm is to process the silence appearing in the middle of the voice together.

본 발명에서도 상기 행오버 알고리즘을 적용한다. 즉, 상기 음성구간 검출부(220)는 상기 행오버 처리부(226)에 의한 상기 행오버 알고리즘 적용 후(S354), 상기 입력 음향이 음성으로 처리되는 구간에 속하는 것이면(S356), 상기 입력 음향을 음성으로 판단하여 음성구간으로서 검출한다(S360).The present invention also applies the hangover algorithm. That is, after the application of the hangover algorithm by the hangover processing unit 226 (S354), the voice section detection unit 220 belongs to a section in which the input sound is processed as voice (S356). In operation S360, the signal is determined as a voice section.

도 6에는 잡음 왜곡이 발생한 입력 음향의 스펙트럼이 도시되어 있다.6 shows the spectrum of the input sound with noise distortion.

도 6에 도시된 바와 같이, 채널 왜곡(channel distortion), 예컨대 잔향(reverberation)과 숏 버스트(short burst) 잡음 등 배경 잡음들로 인해 모음 소리의 특징적 스펙트럼 피크들이 일부 묻혀버리는 경우는 물론, 배경 잡음에 불구하 고 입력 음향 스펙트럼 상에 여전히 모음 소리의 특징적인 스펙트럼 피크들이 존재하는 경우라도, 기존 기술은 상기 입력 음향 스펙트럼으로부터 특징을 추출하여 모음 스펙트럼과의 유사성을 판단하기 때문에 오인식을 초래하게 된다. 그 이유는, 기존 기술에서 좁은 대역에 존재하는 피크들의 유사성 여부는 상대적으로 매우 넓은 대역에 걸쳐 존재하는 밸리들의 유사성 여부에 따라 무의미해 질 수 있기 때문이다.As shown in FIG. 6, the background noise, as well as the background spectral peaks of the vowel sound, are partially buried due to channel distortions such as reverberation and short burst noise. Nevertheless, even if there are still characteristic spectral peaks of the vowel sound on the input acoustic spectrum, the existing technique causes misrecognition because it extracts features from the input acoustic spectrum to determine similarity with the vowel spectrum. The reason is that the similarity of peaks existing in a narrow band in the existing technology may be meaningless depending on the similarity of valleys existing in a relatively very wide band.

도 7a 내지 도 7c에는 도 5의 모음특징정보를 이용하여 산출한 입력 음향 스펙트럼의 대응 대역 및 비대응 대역의 상대적 평균에너지가 히스토그램으로 도시되어 있다.7A to 7C show a histogram of relative average energy of corresponding and non-corresponding bands of the input sound spectrum calculated using the vowel feature information of FIG. 5.

도 7a 및 도 7b에 도시된 바와 같이, 입력 음향에 배경 잡음이 존재하는 경우뿐만 아니라 추가적 피크들이 존재하는 경우에도 상기 입력 음향이 상기 모음을 포함하는 음성이라면, 상기 입력 음향의 스펙트럼에서 상기 대응 대역의 평균에너지(black bar)가 상기 비대응 대역의 평균에너지(white bar)에 비해 상대적으로 큰 값을 지님을 알 수 있다. 그러나, 도 7c에 도시된 바와 같이, 상기 입력 음향이 잡음에 불과하다면 상기 입력 음향의 스펙트럼에서 상기 대응 대역 및 상기 비대응 대역 간에 평균에너지 차가 크지 않음을 알 수 있다.As shown in FIGS. 7A and 7B, if the input sound is a voice including the vowel not only when there is background noise in the input sound but also when additional peaks are present, the corresponding band in the spectrum of the input sound. It can be seen that the average energy (black bar) of has a relatively large value compared to the average energy (white bar) of the non-corresponding band. However, as shown in FIG. 7C, if the input sound is only noise, it can be seen that the average energy difference between the corresponding band and the non-compliant band is not large in the spectrum of the input sound.

따라서, 본 발명은 에너지 기반의 유사도 측정 방식, 즉 상기 PVED 기반의 유사도 측정 방식을 통해 오인식 발생의 원인이 되는 입력 음향 신호로부터의 특징 추출 과정을 제거하고, 모음 및 입력 음향 간 유사도 측정에 있어서 특정 관련 대역에 집중할 수 있도록 한다. 그 결과, 본 발명은 잡음 또는 비음성 음향이 음성으 로 오인식되는 경우를 방지할 수 있다. 이러한 결과는, 오직 모음의 특징 피크들이 입력 음향의 스펙트럼 상에 나타나는 경우에만 상기 PVED 값이 상대적으로 크게 나타나기 때문이다.Accordingly, the present invention eliminates the feature extraction process from the input acoustic signal that causes the misrecognition through the energy-based similarity measuring method, that is, the PVED-based similarity measuring method, and determines the similarity between the vowel and the input sound. Focus on the bands involved. As a result, the present invention can prevent a case where noise or non-voice sound is misrecognized as voice. This result is because the PVED value appears relatively large only if the characteristic peaks of the vowel appear on the spectrum of the input sound.

일 실시예에 있어서, 상기 모음특징 저장부(210)에 저장된 모음특징정보들이 복수인 경우 상기 음성구간 검출부(220)는, 각각의 모음특징정보에 대한 상기 PVED 값을 산출하고, 상기 산출된 PVED 값 중 최대 PVED 값이 상기 임계값보다 큰 경우, 상기 입력 음향을 상기 최대 PVED 값에 대응하는 모음이 존재하는 음성으로 판단할 수 있다. 즉, 상기 학습 단계를 위한 모음 학습 데이터가 200개이었다면, 상기 학습 단계에서 200개의 모음특징정보, 예컨대 이진값들로 이루어진 피크 특징 벡터(peak signature vector)들이 생성되었을 것이고, 상기 모음특징정보들 각각에 대해서 입력 음향 신호의 PVED 값을 측정하여 최대 PVED 값을 상기 임계값과 비교하는 것이다.In one embodiment, when there are a plurality of vowel feature information stored in the vowel feature storage unit 210, the voice section detector 220 calculates the PVED value for each vowel feature information, and calculates the calculated PVED. When the maximum PVED value among the values is greater than the threshold value, the input sound may be determined as a voice having a vowel corresponding to the maximum PVED value. That is, if there were 200 vowel training data for the learning step, 200 vowel feature information, for example, peak signature vectors consisting of binary values would have been generated in the learning step. The PVED value of the input acoustic signal is measured for and the maximum PVED value is compared with the threshold value.

그 다음, 상기 음성구간 검출 시스템에 입력되는 후속 입력 음향이 존재하는 경우, 상술한 음성구간 검출 과정을 반복한다(S370).Then, when there is a subsequent input sound input to the voice interval detection system, the above-described voice interval detection process is repeated (S370).

상기 음성구간 검출 시스템(200)에 의해 입력 음향들로부터 음성구간이 검출되면, 음성 인식부(250)는 기존 기술들을 이용하여 음성 분석, 음소 인식, 단어 인식, 문장 해석, 및 의미 추출 과정 등을 수행할 수 있다.When the speech section is detected from the input sounds by the speech section detecting system 200, the speech recognizer 250 performs a speech analysis, phoneme recognition, word recognition, sentence interpretation, and meaning extraction process using existing techniques. Can be done.

한편, 본 발명은 컴퓨터로 판독할 수 있는 기록매체에 컴퓨터가 읽어들일 수 있는 프로그램 코드로서 구현하는 것이 가능하다. 본 발명이 소프트웨어를 통해 실행될 때, 본 발명의 구성 수단들은 필요한 작업을 실행하는 코드 세그먼트들이다. 프로그램 또는 코드 세그먼트들은 프로세서 판독 가능 매체에 저장되거나 전송 매체 또는 통신망에서 반송파와 결합된 컴퓨터 데이터 신호에 의하여 전송될 수 있다.On the other hand, the present invention can be embodied as computer readable program codes on a computer readable recording medium. When the present invention is executed through software, the constituent means of the present invention are code segments for performing necessary tasks. The program or code segments may be stored on a processor readable medium or transmitted by a computer data signal coupled with a carrier on a transmission medium or network.

컴퓨터가 판독할 수 있는 기록매체에는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 판독할 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 판독할 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽어들일 수 있는 코드가 저장되고 실행될 수 있다.The computer-readable recording medium includes all kinds of recording devices for storing data that can be read by a computer system. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disks, optical data storage devices, and the like. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.

이하, 본 발명의 현저한 효과를 검증한다.Hereinafter, the significant effects of the present invention are verified.

본 발명의 성능 실험을 위해 TIMIT, NTIMIT(telephone), FFMTIMIT(far field microphone), 및 CTIMIT(cellular phone) 코퍼스(corpus)들을 사용하였다. 각각의 음향들은 10ms 간격을 두어 32ms 블록들로 세그먼트(segment)화하고, 각각의 블록에 해밍 윈도우(Hamming window)를 통한 푸리에 분석을 적용하였다.TIMIT, NTIMIT (telephone), FFMTIMIT (far field microphone), and CTIMIT (cellular phone) corpus were used for the performance experiment of the present invention. Each sound was segmented into 32ms blocks at 10 ms intervals, and Fourier analysis was applied to each block through a Hamming window.

또한, 본 발명의 성능을 비교 평가하기 위해 동일 테스트 데이터에 대하여 기존의 VAD 방식들, 즉 "A Silence Compression Scheme for G.729 Optimized for Terminals Conforming to ITU-T V.70"(ITU-T Rec. G.729 Annex B, 1996.)에 소개된 방식(G.729), "Digital Cellular Telecommunications System(Phase 2+); Voice Activity Detector(VAD) for Adaptive Multi Rate(AMR) Speech Traffic Channels"(GSM 06.94 v7.1.1(ETSI EN 301 708), 1999.)에 소개된 두 방식(AMR1 및 AMR2), A. Davis 외 2인이 "A statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold"(IEEE Transactions on Audio, Speech, and Language Processing, vol.14, no.2, pp.412-424, 2006.)에서 소개한 방식(LVS), 그리고 J. L. Shen 외 2인이 "Robust entropy-based endpoint detection for speech recognition in noisy environments"(Proceeding of International Conference on Spoken Language Processing, paper 0232, 1998.)에서 소개한 방식(SE)을 사용하였다.In addition, to compare and evaluate the performance of the present invention, the existing VAD schemes for the same test data, that is, "A Silence Compression Scheme for G.729 Optimized for Terminals Conforming to ITU-T V.70" (ITU-T Rec. Method introduced in G.729 Annex B, 1996. (G.729), "Digital Cellular Telecommunications System (Phase 2+); Voice Activity Detector (VAD) for Adaptive Multi Rate (AMR) Speech Traffic Channels" (GSM 06.94 Two methods (AMR1 and AMR2) introduced in v7.1.1 (ETSI EN 301 708), 1999.), A. Davis et al., 2 described "A statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold" ( IEEE Transactions (LVS) as introduced in on Audio, Speech, and Language Processing , vol. 14, no.2, pp.412-424, 2006.), and JL Shen et al. "Robust entropy-based endpoint detection for speech" recognition in noisy environments "( Proceeding of International Conference on Spoken Language Processing , paper 0232, 1998.) was used.

도 8에는 상기 4가지 코퍼스(corpus)에 대한 본 발명의 음성구간 검출 성능 실험결과가 도시되어 있다.Figure 8 shows the results of the speech section detection performance of the present invention for the four corpus (corpus).

도 8에 도시된 바와 같이, 본 발명(PVED)의 음성구간 검출 성능이 평균적으로는 물론, 각각의 코퍼스에 대해서도 기존 방식들보다 현저히 우수함을 알 수 있다.As shown in FIG. 8, it can be seen that the speech segment detection performance of the present invention (PVED) is significantly superior to the existing schemes on average as well as for each corpus.

도 9에는 다양한 SNR 레벨에 따른 본 발명의 음성구간 검출 성능 실험결과가 도시되어 있다.9 shows a test result of speech section detection performance of the present invention according to various SNR levels.

도 10에는 다양한 배경 잡음에 따른 본 발명의 음성구간 검출 성능 실험결과가 도시되어 있다.10 illustrates a test result of speech section detection performance of the present invention according to various background noises.

다양한 SNR 레벨 및 배경 잡음에 따른 본 발명의 검출 성능을 측정하기 위해, 0dB에서 30dB까지 5dB 단위로 7가지 SNR 레벨의 배경 잡음들을 생성하고 전체 TIMIT 코퍼스와 혼합하여 테스트 데이터를 생성하였다. 상기 배경 잡음으로는 10가지 배경 잡음, 즉 화이트 노이즈(white noise), 핑크 노이즈(pink noise), 그리고 오로라-2 코퍼스(Aurora-2 corpus)에서의 8개 잡음(공항, 전람회, 식당, 거리, 지하절, 자동차, 기차, 및 다중 누화(babble) 잡음)을 사용하였다. 즉, 441000개(441000=TIMIT(6300)×잡음종류(10)×SNR레벨(7))의 테스트 데이터를 사용하였다.In order to measure the detection performance of the present invention according to various SNR levels and background noises, 7 SNR levels of background noises were generated in 5dB steps from 0dB to 30dB and mixed with the entire TIMIT corpus to generate test data. The background noise includes 10 background noises: white noise, pink noise, and 8 noises in Aurora-2 corpus (airports, exhibitions, restaurants, streets, Underground passages, cars, trains, and multiple crosstalk noise) were used. That is, test data of 441000 (441000 = TIMIT 6300 x noise type 10 x SNR level 7) were used.

도 9 및 도 10에 도시된 바와 같이, 본 발명(PVED)의 음성구간 검출 성능이 평균적으로는 물론. 각각의 SNR 레벨 및 배경 잡음에 대해서도 기존 방식들보다 현저히 우수함을 알 수 있다.9 and 10, the speech segment detection performance of the present invention (PVED) is, of course, on average. It can be seen that each SNR level and background noise is significantly superior to the conventional methods.

상술한 바와 같이, 본 발명은 잡음에 의해 손상된 입력 음향 신호에 대한 특징 추출 과정 없이 학습된 모음의 특징적 스펙트럼 피크를 이용함으로써 다양한 잡음 환경 및 SNR 하에서 음성구간 검출 성능을 개선하는 이점을 제공한다. 또한, 음성구간 검출 과정에서 정보 처리 및 연산량을 감소시켜 오늘날 급속도로 발전하고 있는 이동단말기기, USN의 센서노드 등 자원제약적 환경에 용이하게 적용할 수 있다는 이점을 제공한다. 나아가, 음성 인식의 전처리 단계로 적용함으로써 비음성 구간에서 음성 인식 시스템으로 하여금 불필요한 동작을 제거하도록 하여 에너지 효율을 더욱 개선할 수 있다는 이점을 제공한다.As described above, the present invention provides the advantage of improving speech segment detection performance under various noise environments and SNRs by using the characteristic spectral peaks of the learned vowels without the feature extraction process for the input acoustic signal corrupted by noise. In addition, by reducing the amount of information processing and calculation in the speech section detection process, it provides an advantage that it can be easily applied to resource-constrained environment such as mobile terminal device, USN sensor node that is rapidly developing today. Furthermore, by applying it as a preprocessing step of speech recognition, the speech recognition system can be further improved in energy efficiency by allowing the speech recognition system to remove unnecessary motion in the non-speech section.

지금까지 본 발명에 대해 실시예들을 참고하여 설명하였다. 그러나 당업자라면 본 발명의 본질적인 기술적 사상으로부터 벗어나지 않는 범위에서 본 발명이 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 즉, 본 발명의 진정한 기술적 범위는 첨부된 특허청구범위에 나타나 있으며, 그와 균등범위 내에 있 는 모든 차이점은 본 발명에 포함되는 것으로 해석되어야 할 것이다.So far, the present invention has been described with reference to the embodiments. However, one of ordinary skill in the art will appreciate that the present invention can be implemented in a modified form without departing from the essential technical spirit of the present invention. Therefore, the disclosed embodiments should be considered in an illustrative rather than a restrictive sense. That is, the true technical scope of the present invention is shown in the appended claims, and all differences within the equivalent scope will be construed as being included in the present invention.

도 1은 본 발명에 따른 모음 특징을 이용한 음성구간 검출 방법의 기본 원리를 나타낸 도면이다.1 is a view showing the basic principle of the voice interval detection method using a vowel feature according to the present invention.

도 2은 본 발명에 따른 모음 특징을 이용한 음성구간 검출 시스템의 일례를 나타낸 블록도이다.2 is a block diagram illustrating an example of a speech section detection system using a vowel feature according to the present invention.

도 3은 본 발명에 따른 모음 특징을 이용한 음성구간 검출 방법의 일례를 나타낸 흐름도이다.3 is a flowchart illustrating an example of a speech segment detection method using a vowel feature according to the present invention.

도 4는 'a' 모음의 주파수 스펙트럼을 나타낸 도면이다.4 is a diagram illustrating a frequency spectrum of an 'a' vowel.

도 5는 본 발명의 모음특징정보 생성 과정을 나타낸 도면이다.5 is a diagram illustrating a process of generating vowel feature information according to the present invention.

도 6은 잡음 왜곡이 발생한 입력 음향의 스펙트럼을 나타낸 도면이다.6 is a diagram illustrating a spectrum of input sound in which noise distortion occurs.

도 7a 내지 도 7c는 도 5의 모음특징정보를 이용하여 산출한 입력 음향 스펙트럼의 대응 대역 및 비대응 대역의 상대적 평균에너지를 히스토그램으로 나타낸 도면이다.7A to 7C are histograms showing relative average energies of corresponding and non-corresponding bands of the input sound spectrum calculated using the vowel feature information of FIG. 5.

도 8 내지 도 10은 본 발명의 음성구간 검출 성능 실험결과를 나타낸 도면이다.8 to 10 are diagrams showing the test results of the speech section detection performance of the present invention.

Claims (19)

사전 학습된 잡음없는 모음의 스펙트럼에서 특징 피크가 위치한 피크 대역을 나타내는 모음특징정보를 미리 저장하는 모음특징 저장부; 및A vowel feature storage unit for storing vowel feature information indicating a peak band in which a feature peak is located in a pre-learned noiseless spectral spectrum; And 입력 음향의 스펙트럼에서 상기 저장된 모음특징정보가 나타내는 피크 대역에 대응하는 대응 대역 및 상기 대응 대역을 제외한 비대응 대역의 평균에너지를 이용하여 상기 입력 음향이 음성에 해당하는지를 판단함으로써 음성구간을 검출하는 음성구간 검출부를 포함하는 모음 특징을 이용한 음성구간 검출 시스템.A voice for detecting a voice section by determining whether the input sound corresponds to voice using the average energy of the corresponding band corresponding to the peak band indicated by the stored vowel feature information in the spectrum of the input sound and the non-corresponding band except the corresponding band. Speech segment detection system using a vowel feature including a segment detector. 제1항에 있어서,The method of claim 1, 상기 모음특징 저장부는,The vowel feature storage unit, 상기 모음의 스펙트럼 피크들 중 미리 결정된 문턱값(threshold)보다 큰 에너지를 지니는 피크를 특징 피크로 추출하는 특징피크 추출부; 및A feature peak extracting unit extracting a peak having an energy larger than a predetermined threshold among the spectral peaks of the vowel as a feature peak; And 상기 추출된 특징 피크가 상기 모음의 스펙트럼에서 위치한 피크 대역을 나타내는 모음특징정보를 생성하는 특징정보 생성부를 포함하는 것을 특징으로 하는 모음 특징을 이용한 음성구간 검출 시스템.And a feature information generator for generating vowel feature information indicating a peak band in which the extracted feature peak is located in the spectrum of the vowel. 제2항에 있어서,The method of claim 2, 상기 특징정보 생성부는, 상기 모음의 전체 스펙트럼 대역을 소정 개수의 단위 대역으로 구별하여, 상기 모음의 스펙트럼에서 상기 피크 대역에 해당하는 단위 대역을 1로 나타내고 상기 피크 대역 이외의 대역인 밸리 대역(valley band)에 해당하는 단위 대역을 0으로 나타내는 상기 모음특징정보를 생성하는 것을 특징으로 하는 모음 특징을 이용한 음성구간 검출 시스템.The feature information generation unit divides the entire spectral band of the vowel into a predetermined number of unit bands, and represents a unit band corresponding to the peak band as 1 in the spectral of the vowel and represents a valley band other than the peak band. and a vowel feature information representing a unit band corresponding to zero). 제1항에 있어서,The method of claim 1, 상기 음성구간 검출부는,The voice section detection unit, 상기 입력 음향의 스펙트럼에서, 상기 저장된 모음특징정보의 상기 피크 대역에 대응하는 대응 대역 및 상기 대응 대역을 제외한 비대응 대역의 평균에너지를 산출하는 평균에너지 산출부; 및An average energy calculator configured to calculate an average energy of a corresponding band corresponding to the peak band of the stored vowel feature information and a non-corresponding band excluding the corresponding band from the spectrum of the input sound; And 상기 대응 대역 및 상기 비대응 대역 간의 평균에너지 차를 이용하여 상기 모음 및 상기 입력 음향 간 스펙트럼 유사도를 측정하는 유사도 측정부를 포함하는 것을 특징으로 하는 모음 특징을 이용한 음성구간 검출 시스템.And a similarity measurer for measuring the spectral similarity between the vowel and the input sound by using an average energy difference between the corresponding band and the non-compliant band. 제4항에 있어서,The method of claim 4, wherein 상기 유사도 측정부는, 상기 대응 대역의 평균에너지에서 상기 비대응 대역의 평균에너지를 감산한 값을 나타내는 PVED(Peak-Valley Energy Difference) 값을 이용하여 상기 스펙트럼 유사도를 측정하는 것을 특징으로 하는 모음 특징을 이용한 음성구간 검출 시스템.The similarity measuring unit measures the spectral similarity using a peak-valley energy difference (PVED) value representing a value obtained by subtracting the average energy of the non-corresponding band from the average energy of the corresponding band. Voice segment detection system. 제5항에 있어서,The method of claim 5, 상기 음성구간 검출부는, 상기 PVED 값이 미리 결정된 임계값보다 큰 경우 상기 입력 음향을 음성으로 판단하여 음성구간으로 검출하는 것을 특징으로 하는 모음 특징을 이용한 음성구간 검출 시스템.The voice section detector, when the PVED value is greater than a predetermined threshold value, the voice section detection system using the vowel feature, characterized in that for determining the input sound as a voice section. 제6항에 있어서,The method of claim 6, 상기 음성구간 검출부는, 상기 저장된 모음특징정보들에 대하여 상기 PVED 값을 산출하고, 상기 산출된 PVED 값 중 최대 PVED 값이 상기 임계값보다 큰 경우 상기 입력 음향을 음성으로 판단하는 것을 특징으로 하는 모음 특징을 이용한 음성구간 검출 시스템.The voice section detector may calculate the PVED value with respect to the stored vowel feature information and determine the input sound as a voice when the maximum PVED value among the calculated PVED values is greater than the threshold value. Voice segment detection system using features. 제6항에 있어서,The method of claim 6, 상기 음성구간 검출부는, 상기 PVED 값이 상기 임계값보다 크지 않은 경우 상기 입력 음향에 대해 행오버(Hang-over) 알고리즘을 적용하는 행오버 처리부를 더 포함하고,The voice section detector further includes a hangover processor configured to apply a hang-over algorithm to the input sound when the PVED value is not greater than the threshold value. 상기 음성구간 검출부는, 상기 행오버 처리부에 의해 상기 입력 음향이 음성으로 처리되는 경우 상기 입력 음향을 음성으로 판단하는 것을 특징으로 하는 모음 특징을 이용한 음성구간 검출 시스템.The voice section detection unit, the voice section detection system using the vowel feature, characterized in that for determining the input sound as a voice when the input sound is processed by the hangover processing unit. 음성구간 검출 시스템(Voice Activity Detection system)에서 상기 시스템에 입력되는 입력 음향들의 음성구간을 검출하는 방법에 있어서,In a voice activity detection system (Voice Activity Detection system) for detecting a voice interval of the input sound input to the system, 사전 학습된 잡음없는 모음의 스펙트럼에서 특징 피크가 위치한 피크 대역을 나타내는 모음특징정보를 미리 저장하는 모음특징 저장 단계; 및A vowel feature storage step of pre-store vowel feature information indicating a peak band at which a feature peak is located in a pre-learned noiseless spectral spectrum; And 입력 음향의 스펙트럼에서 상기 저장된 모음특징정보가 나타내는 피크 대역에 대응하는 대응 대역 및 상기 대응 대역을 제외한 비대응 대역의 평균에너지를 이용하여 상기 입력 음향이 음성에 해당하는지를 판단함으로써 음성구간을 검출하는 음성구간 검출 단계를 포함하는 모음 특징을 이용한 음성구간 검출 방법.A voice for detecting a voice section by determining whether the input sound corresponds to voice using the average energy of the corresponding band corresponding to the peak band indicated by the stored vowel feature information in the spectrum of the input sound and the non-corresponding band except the corresponding band. Speech segment detection method using a vowel feature comprising a segment detection step. 제9항에 있어서,10. The method of claim 9, 상기 모음특징 저장 단계는,The vowel feature storing step, 상기 모음의 스펙트럼 피크들 중 미리 결정된 문턱값(threshold)보다 큰 에너지를 지니는 피크를 특징 피크로 추출하는 특징피크 추출 단계; 및A feature peak extracting step of extracting a peak having an energy greater than a predetermined threshold among the spectral peaks of the vowel as a feature peak; And 상기 추출된 특징 피크가 상기 모음의 스펙트럼에서 위치한 피크 대역을 나타내는 모음특징정보를 생성하는 특징정보 생성 단계를 포함하는 것을 특징으로 하는 모음 특징을 이용한 음성구간 검출 방법.And a feature information generating step of generating vowel feature information indicating a peak band in which the extracted feature peak is located in the spectrum of the vowel. 제10항에 있어서,The method of claim 10, 상기 특징정보 생성 단계는, 상기 모음의 전체 스펙트럼 대역을 소정 개수의 단위 대역으로 구별하여, 상기 모음의 스펙트럼에서 상기 피크 대역에 해당하는 단위 대역을 1로 나타내고 상기 피크 대역 이외의 대역인 밸리 대역(valley band)에 해당하는 단위 대역을 0으로 나타내는 상기 모음특징정보를 생성하는 단계인 것을 특징으로 하는 모음 특징을 이용한 음성구간 검출 방법.The generating of the characteristic information may include classifying the entire spectral band of the vowels into a predetermined number of unit bands, indicating a unit band corresponding to the peak band as 1 in the spectral band of the vowel, and having a valley band that is a band other than the peak band ( generating a vowel feature information indicating a unit band corresponding to a valley band of 0 by using a vowel feature. 제9항에 있어서,10. The method of claim 9, 상기 음성구간 검출 단계는,The voice section detection step, 상기 입력 음향의 스펙트럼에서, 상기 저장된 모음특징정보의 상기 피크 대역에 대응하는 대응 대역 및 상기 대응 대역을 제외한 비대응 대역의 평균에너지를 산출하는 평균에너지 산출 단계; 및Calculating an average energy of the corresponding band corresponding to the peak band of the stored vowel feature information and the non-corresponding band excluding the corresponding band from the spectrum of the input sound; And 상기 대응 대역 및 상기 비대응 대역 간의 평균에너지 차를 이용하여 상기 모음 및 상기 입력 음향 간 스펙트럼 유사도를 측정하는 유사도 측정 단계를 포함하는 것을 특징으로 하는 모음 특징을 이용한 음성구간 검출 방법.And a similarity measuring step of measuring a spectral similarity between the vowel and the input sound by using an average energy difference between the corresponding band and the non-compliant band. 제12항에 있어서,The method of claim 12, 상기 유사도 측정 단계는, 상기 대응 대역의 평균에너지에서 상기 비대응 대역의 평균에너지를 감산한 값을 나타내는 PVED(Peak-Valley Energy Difference) 값을 이용하여 상기 스펙트럼 유사도를 측정하는 단계인 것을 특징으로 하는 모음 특징을 이용한 음성구간 검출 방법.The measuring similarity may include measuring the spectral similarity using a peak-valley energy difference (PVED) value representing a value obtained by subtracting the average energy of the non-corresponding band from the average energy of the corresponding band. Speech segment detection method using vowel feature. 제13항에 있어서,The method of claim 13, 상기 음성구간 검출 단계는, 상기 PVED 값이 미리 결정된 임계값보다 큰 경우 상기 입력 음향을 음성으로 판단하여 음성구간으로 검출하는 단계인 것을 특징 으로 하는 모음 특징을 이용한 음성구간 검출 방법.The voice section detecting step, the voice section detection method using the vowel feature characterized in that the step of detecting the input sound to the voice section when the PVED value is greater than a predetermined threshold value. 제14항에 있어서,The method of claim 14, 상기 음성구간 검출 단계는, 상기 저장된 모음특징정보들에 대하여 상기 PVED 값을 산출하고, 상기 산출된 PVED 값 중 최대 PVED 값이 상기 임계값보다 큰 경우 상기 입력 음향을 음성으로 판단하는 단계인 것을 특징으로 하는 모음 특징을 이용한 음성구간 검출 방법.The voice section detecting step may include calculating the PVED value with respect to the stored vowel feature information, and determining the input sound as a voice when the maximum PVED value among the calculated PVED values is greater than the threshold value. Speech segment detection method using a vowel feature. 제14항에 있어서,The method of claim 14, 상기 음성구간 검출 단계는, 상기 PVED 값이 상기 임계값보다 크지 않은 경우 상기 입력 음향에 대해 행오버(Hang-over) 알고리즘을 적용하는 행오버 처리 단계를 더 포함하고,The voice section detecting step may further include a hangover processing step of applying a hang-over algorithm to the input sound when the PVED value is not greater than the threshold value. 상기 음성구간 검출 단계는, 상기 행오버 처리 단계에 의해 상기 입력 음향이 음성으로 처리되는 경우 상기 입력 음향을 음성으로 판단하는 단계인 것을 특징으로 하는 모음 특징을 이용한 음성구간 검출 방법.The voice section detection step, the voice section detection method using the vowel feature, characterized in that the step of determining the input sound as a voice when the input sound is processed by the hangover processing step. 음성구간 검출 시스템(Voice Activity Detection system)에서 사전 학습된 잡음없는 모음 및 상기 시스템에 입력되는 입력 음향 간 주파수 스펙트럼의 유사도(similarity)를 측정하는 방법에 있어서,In the method for measuring the similarity (similarity) of the frequency spectrum between the noise-free vowels pre-trained in the Voice Activity Detection system and the input sound input to the system, 상기 입력 음향의 스펙트럼에서, 상기 모음의 스펙트럼 상 특징 피크가 위치한 피크 대역에 대응하는 대응 대역 및 상기 대응 대역을 제외한 비대응 대역의 평균에너지를 산출하는 단계; 및Calculating an average energy of the corresponding band corresponding to the peak band in which the spectral feature peaks of the vowels are located and the non-corresponding band excluding the corresponding band from the spectrum of the input sound; And 상기 대응 대역 및 상기 비대응 대역 간의 평균에너지 차를 이용하여 상기 모음 및 상기 입력 음향 간 스펙트럼 유사도를 측정하는 단계를 포함하는 음향 스펙트럼 유사도 측정 방법.And measuring spectral similarity between the vowel and the input sound using an average energy difference between the corresponding band and the non-compliant band. 제17항에 있어서,The method of claim 17, 상기 유사도 측정 단계는, 상기 대응 대역의 평균에너지에서 상기 비대응 대역의 평균에너지를 감산한 값을 나타내는 PVED(Peak-Valley Energy Difference) 값을 이용하여 상기 스펙트럼 유사도를 측정하는 단계인 것을 특징으로 하는 음향 스펙트럼 유사도 측정 방법.The measuring similarity may include measuring the spectral similarity using a peak-valley energy difference (PVED) value representing a value obtained by subtracting the average energy of the non-corresponding band from the average energy of the corresponding band. Acoustic spectral similarity measurement method. 제9항 내지 제18항 중 어느 한 항에 따른 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체.A computer-readable recording medium having recorded thereon a program for executing a method according to any one of claims 9 to 18 by a computer.
KR1020090033531A 2009-04-17 2009-04-17 System and method for voice activity detection using vowel characteristic, and method for measuring sound spectral similarity used thereto KR101022519B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090033531A KR101022519B1 (en) 2009-04-17 2009-04-17 System and method for voice activity detection using vowel characteristic, and method for measuring sound spectral similarity used thereto

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090033531A KR101022519B1 (en) 2009-04-17 2009-04-17 System and method for voice activity detection using vowel characteristic, and method for measuring sound spectral similarity used thereto

Publications (2)

Publication Number Publication Date
KR20100115033A KR20100115033A (en) 2010-10-27
KR101022519B1 true KR101022519B1 (en) 2011-03-16

Family

ID=43134010

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090033531A KR101022519B1 (en) 2009-04-17 2009-04-17 System and method for voice activity detection using vowel characteristic, and method for measuring sound spectral similarity used thereto

Country Status (1)

Country Link
KR (1) KR101022519B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10304443B2 (en) 2014-01-21 2019-05-28 Samsung Electronics Co., Ltd. Device and method for performing voice recognition using trigger voice

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110121633B (en) * 2016-12-29 2023-04-04 三星电子株式会社 Method and apparatus for recognizing speaker by using resonator
CN107331393B (en) * 2017-08-15 2020-05-12 成都启英泰伦科技有限公司 Self-adaptive voice activity detection method
KR101964359B1 (en) * 2017-11-14 2019-04-01 네오컨버전스 주식회사 Method and apparatus of generating audio data for deep learning
JPWO2021125037A1 (en) * 2019-12-17 2021-06-24
CN112151066A (en) * 2020-09-07 2020-12-29 厦门大学 Voice feature recognition-based language conflict monitoring method, medium and equipment
KR20220115453A (en) * 2021-02-10 2022-08-17 삼성전자주식회사 Electronic device supporting improved voice activity detection

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060053003A1 (en) * 2003-06-11 2006-03-09 Tetsu Suzuki Acoustic interval detection method and device
KR20070069631A (en) * 2005-12-28 2007-07-03 삼성전자주식회사 Method of segmenting phoneme in a vocal signal and the system thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060053003A1 (en) * 2003-06-11 2006-03-09 Tetsu Suzuki Acoustic interval detection method and device
KR20070069631A (en) * 2005-12-28 2007-07-03 삼성전자주식회사 Method of segmenting phoneme in a vocal signal and the system thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10304443B2 (en) 2014-01-21 2019-05-28 Samsung Electronics Co., Ltd. Device and method for performing voice recognition using trigger voice
US11011172B2 (en) 2014-01-21 2021-05-18 Samsung Electronics Co., Ltd. Electronic device and voice recognition method thereof

Also Published As

Publication number Publication date
KR20100115033A (en) 2010-10-27

Similar Documents

Publication Publication Date Title
Tan et al. rVAD: An unsupervised segment-based robust voice activity detection method
US9536547B2 (en) Speaker change detection device and speaker change detection method
CN108198547B (en) Voice endpoint detection method and device, computer equipment and storage medium
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
EP0625774B1 (en) A method and an apparatus for speech detection
JP4568371B2 (en) Computerized method and computer program for distinguishing between at least two event classes
KR101022519B1 (en) System and method for voice activity detection using vowel characteristic, and method for measuring sound spectral similarity used thereto
Hu et al. Pitch‐based gender identification with two‐stage classification
CN108305639B (en) Speech emotion recognition method, computer-readable storage medium and terminal
Vyas A Gaussian mixture model based speech recognition system using Matlab
CN108091340B (en) Voiceprint recognition method, voiceprint recognition system, and computer-readable storage medium
Ghahabi et al. A robust voice activity detection for real-time automatic speech recognition
Martinez et al. On the relevance of auditory-based Gabor features for deep learning in robust speech recognition
CN108682432B (en) Speech emotion recognition device
JP2012048119A (en) Voice interval detecting method, speech recognition method, voice interval detector, speech recognition device, and program and storage method therefor
Karthikeyan et al. Hybrid machine learning classification scheme for speaker identification
JP4696418B2 (en) Information detection apparatus and method
Kakade et al. An automatic real time speech-speaker recognition system: a real time approach
Vlaj et al. Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
Dov et al. Voice activity detection in presence of transients using the scattering transform
Hong Speaker gender recognition system
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
Odriozola et al. An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods
CN114512133A (en) Sound object recognition method, sound object recognition device, server and storage medium

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140120

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150108

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee