KR19990038741A - Speech detection method using continuous pitch information - Google Patents

Speech detection method using continuous pitch information Download PDF

Info

Publication number
KR19990038741A
KR19990038741A KR1019970058578A KR19970058578A KR19990038741A KR 19990038741 A KR19990038741 A KR 19990038741A KR 1019970058578 A KR1019970058578 A KR 1019970058578A KR 19970058578 A KR19970058578 A KR 19970058578A KR 19990038741 A KR19990038741 A KR 19990038741A
Authority
KR
South Korea
Prior art keywords
pitch
voice
detecting
value
predetermined
Prior art date
Application number
KR1019970058578A
Other languages
Korean (ko)
Other versions
KR100246617B1 (en
Inventor
안영목
김회린
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019970058578A priority Critical patent/KR100246617B1/en
Publication of KR19990038741A publication Critical patent/KR19990038741A/en
Application granted granted Critical
Publication of KR100246617B1 publication Critical patent/KR100246617B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야1. TECHNICAL FIELD OF THE INVENTION
본 발명은 연속 피치 정보를 이용한 음성 검출 방법에 관한 것임.The present invention relates to a voice detection method using continuous pitch information.
2. 발명이 해결하려고 하는 기술적 과제2. The technical problem to be solved by the invention
본 발명은, 외부로부터 입력된 신호에 대하여 에너지와 영교차율을 이용하여 음성인지 여부를 판단한 후에 음성 신호라고 판단되면 더 나아가서 연속적인 피치 정보 중 피치의 존재 범위 영역, 인접피치 사이의 주파수 변화량과 피치 발생수를 이용하여 음성을 검출하는 음성 검출 방법을 제공하고자 함.According to the present invention, after determining whether a voice is a voice signal with respect to a signal input from the outside using energy and a zero crossing rate, if it is determined to be a voice signal, the frequency change amount and pitch between continuous pitch information and adjacent pitches are further included. An object of the present invention is to provide a voice detection method for detecting voice using a number of occurrences.
3. 발명의 해결방법의 요지3. Summary of Solution to Invention
본 발명은, 외부로부터 입력되는 음성 신호의 피치 정보를 검출하는 단계, 검출된 피치가 소정의 기준 피치 영역에 존재하는지를 확인하는 단계, 주파수 변화량을 계산한 후에 계산된 주파수 변화량이 소정의 제 1 기준값보다 작은지를 확인하는 단계 및 각 확인 결과에 따라 음성을 검출하는 단계를 포함한다.The present invention provides a method of detecting pitch information of an audio signal input from the outside, checking whether a detected pitch exists in a predetermined reference pitch area, and calculating a frequency change amount after calculating a frequency change amount to a predetermined first reference value. Checking whether it is smaller and detecting a voice according to each verification result.
4. 발명의 중요한 용도4. Important uses of the invention
본 발명은 음성 인식 시스템에 이용됨.The present invention is used in a speech recognition system.

Description

연속 피치 정보를 이용한 음성 검출 방법Speech detection method using continuous pitch information
본 발명은 피치 정보를 이용한 음성 검출 방법에 관한 것으로서, 특히 음성 신호가 지닌 연속된 피치의 특성을 이용하여 음성 검출 장치가 비음성과 사용자의 음성을 구별하도록 한 음성 검출 방법에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech detection method using pitch information, and more particularly, to a speech detection method in which a speech detection apparatus distinguishes a non-voice from a user's speech by using characteristics of a continuous pitch of a speech signal.
본 발명에 사용되는 용어를 정의하면 다음과 같다.The terms used in the present invention are defined as follows.
피치(Pitch)는 음향 감각의 하나의 속성으로, 주로 음향 자극의 주파수에 관계하나, 음압이나 파형도 다소 관계한다.Pitch is an attribute of the acoustic sensation, which is mainly related to the frequency of the acoustic stimulus, but also somewhat related to sound pressure or waveform.
비음성은 음성이 아닌 소리로서 전화벨 소리, 문닫는 소리, 책상 두드리는 소리, 마른 기침 소리 및 박수 소리 등을 말한다.Non-voice is a sound that is not a voice, such as a ringtone, a door, a knock on a desk, a dry cough and a clap.
음성 인식 기술이란 사용자가 발성한 음성을 분석하여 그 발성 내용이 무엇인지를 알아내는 기술이다. 기존의 음성 인식 시스템은 음성 검출부, 음성 특징 추출부, 기준 패턴 비교부, 인식 결과 검증부 및 인식 결과 출력부로 구성되어 있다. 음성 인식 시스템에서 음성 검출부는 사용자의 음성을 검출해 내는 일을 담당하고 있다.Speech recognition technology is a technology that finds out what the contents of speech are by analyzing the speech spoken by the user. The existing speech recognition system includes a speech detector, a speech feature extractor, a reference pattern comparator, a recognition result verification unit, and a recognition result output unit. In the voice recognition system, the voice detector is responsible for detecting a user's voice.
기존의 음성 인식 시스템은 음성 검출부에서 음성이 검출되면 음성 특징 추출 과정, 기준 패턴 비교 과정, 인식 결과 검증 과정 및 인식 결과 출력 과정을 수행한다. 따라서, 음성 검출부에서 사용자의 음성 신호가 아닌 소리를 음성으로 잘못 검출할 경우에 전술한 불필요한 여러 과정을 수행하게 되며, 음성 인식 시스템은 사용자가 원하지 않는 동작을 하게 된다.The existing speech recognition system performs a speech feature extraction process, a reference pattern comparison process, a recognition result verification process, and a recognition result output process when a speech is detected by the speech detector. Therefore, when the voice detector incorrectly detects a sound other than the user's voice signal as a voice, the above-described unnecessary processes are performed, and the voice recognition system performs an operation not desired by the user.
기존의 음성 검출 방법은 입력 신호의 에너지 및 영교차율(Zero Crossing Ratio)을 이용하여 사용자의 음성을 검출한다. 에너지 및 영교차율을 이용한 기존의 음성 검출 방법은 사용자의 음성뿐만 아니라 주변의 잡음, 예를 들면 전화벨 소리, 책상 두드리는 소리, 문닫는 소리, 마른 기침 소리 및 박수 소리 등을 음성 신호로 잘못 검출하는 경우가 많다.Conventional voice detection methods detect the user's voice using energy and zero crossing ratio of the input signal. Conventional voice detection methods using energy and zero crossing rate are used to detect not only the user's voice but also the surrounding noises such as telephone ringing, desk knocking, door closing, dry cough and applause as voice signals. There are many.
이것은 주변 잡음의 에너지 및 영교차율이 음성 검출부에서 미리 정해 놓은 음성에 대한 에너지 및 영교차율의 기준 값을 넘어서는 경우가 발생되기 때문이다.This is because the energy and zero crossing rate of the ambient noise exceed the reference values of the energy and zero crossing rate for the voice previously determined by the voice detector.
피치(Pitch) 정보를 이용한 기존의 음성 검출 방법은 우선 에너지와 영교차율 정보를 이용하여 일차적인 음성 영역을 검출하고, 검출된 영역의 최대 에너지 구간에는 유성음이 존재한다고 가정한 후, 최대 에너지 구간 주변에서 피치 정보를 구한다. 그리고 이 구간에서 추정된 피치가 사람의 피치 존재 범위를 나타내는 특정계수 범위내에 있는가를 판단하며 사람의 피치 존재 범위내에 있는 것으로 판단되면 입력 신호에 음성이 존재한다고 판단한다. 이 방법의 경우에 분석 구간 안에서 피치 발생 여부에 초점을 맞추고 있다. 다시 말하면 입력 신호에서 검출된 피치가 특정 범위 내에 존재할 경우에 음성으로 간주한다. 그런데 주변 잡음의 신호원은 그 종류가 매우 다양하기 때문에 모든 주파수 대역에 존재할 수 있다. 따라서, 주변 잡음이 위의 조건을 만족시키는 경우가 종종 발생되므로 잘못된 음성 검출이 발생될 수 있다.The conventional speech detection method using pitch information first detects a primary speech region using energy and zero crossing rate information, and assumes that voiced sound exists in the maximum energy section of the detected region, and then surrounds the maximum energy section. Obtain pitch information from. In addition, it is determined whether the pitch estimated in this section is within a specific coefficient range indicating a pitch presence range of a person. If it is determined that the pitch is within a pitch range of a person, it is determined that voice exists in the input signal. In this case, the focus is on whether pitches occur within the analysis interval. In other words, if the pitch detected in the input signal is within a certain range, it is regarded as voice. However, the sources of ambient noise can be present in all frequency bands because of their wide variety. Therefore, a case in which the ambient noise satisfies the above conditions often occurs, so that false voice detection may occur.
결론적으로 종래의 음성 인식 방법은 음성 검출 과정, 음성 특징 추출 과정, 기준 패턴 비교 과정, 인식 결과 검증 과정 및 인식 결과 출력 과정을 순차적으로 거쳐 수행되며, 특히 음성 검출 과정에 있어서 에너지 및 영교차율과 피치 정보를 이용한 방법이 사용됨으로 인하여 음성 명령어가 아닌 비음성이 음성으로 잘못 검출되는 문제점이 있었다.In conclusion, the conventional speech recognition method is performed through the speech detection process, the speech feature extraction process, the reference pattern comparison process, the recognition result verification process, and the recognition result output process, in particular, the energy and zero crossing rate and pitch in the speech detection process. There is a problem in that non-speech, not voice command, is incorrectly detected as voice due to the method using information.
이를 구체적으로 살펴보면 다음과 같다.Looking at this in detail.
도 1 은 종래의 음성 검출 방법에 대한 흐름도이다.1 is a flowchart of a conventional voice detection method.
먼저, 사용자의 음성 신호를 입력받아(10) 아날로그 음성신호를 디지털 신호로 변환한 후에(11) 분석 크기 만큼의 음성 데이터에 대한 에너지 및 영교차율을 계산한다(12). 이후, 에너지 및 영교차율의 계산 결과가 이미 설정된 기준값보다 큰지를 판단하여(13) 기준값보다 크면 다음 단계인 피치 검출과정으로 넘어가고, 기준값보다 크지 않으면 절차를 종료한다. 피치 검출 과정에서는 검출된 영역의 최대 에너지 구간에는 유성음이 존재한다고 가정한 후 최대에너지 구간 주변에서 피치 정보를 구한다(14). 이후에 이 구간에서 추정된 피치가 사람의 피치 존재 범위를 나타내는 특정계수 범위내에 있는가를 판단하여(15) 사람의 피치 존재 범위내에 있는 것으로 판단되면 음성을 검출한 후에(16) 종료하고 기준값을 넘어서지 않으면 바로 종료한다.First, after receiving the user's voice signal (10) converts the analog voice signal into a digital signal (11), and calculates the energy and zero crossing rate for the voice data as much as the analysis size (12). Subsequently, it is determined whether the calculation result of the energy and the zero crossing rate is larger than the already set reference value (13). If it is larger than the reference value, the process proceeds to the next step, the pitch detection process. In the pitch detection process, it is assumed that voiced sound exists in the maximum energy section of the detected region, and then pitch information is obtained around the maximum energy section (14). After that, if it is determined that the pitch estimated in this section is within a specific coefficient range representing the pitch presence range of the person (15) and is determined to be within the pitch existence range of the person, after the voice is detected (16), the process ends and does not exceed the reference value. Exit immediately.
이러한 종래 기술은 사용자의 음성 뿐만아니라 주변의 잡음, 예를 들면 전화벨 소리, 책상 두드리는 소리, 문닫는 소리 및 마른 기침 소리 등이 미리 정해 놓은 음성에 대한 에너지 및 영교차율의 기준값을 넘어서는 경우와 입력 신호로부터 검출된 피치가 특정 범위내에 존재하는 경우에 비음성을 음성신호로 인식하여 불필요한 동작을 실행하는 경우가 종종 발생한다는 문제점이 있었다.This prior art is not only the user's voice but also the surrounding noise, such as the ringing of the phone, the knocking of the desk, the closing door, and the dry cough, etc., exceed the reference values of the energy and zero crossing rate for the predetermined voice and the input signal. In the case where the detected pitch is within a specific range, there is a problem that an unnecessary operation is often performed by recognizing non-voice as a voice signal.
상기한 바와 같은 문제점을 해결하기 위하여 안출된 본 발명은, 외부로부터 입력된 신호에 대하여 에너지와 영교차율을 이용하여 음성인지 여부를 판단한 후에 음성 신호라고 판단되면 더 나아가서 연속적인 피치 정보를 이용하여 피치가 기준 피치의 범위내인지, 피치의 주파수 변화량이 기준값의 범위내인지 및 피치 발생수가 기준값을 넘었는지의 여부를 판단하여 상기의 조건을 만족하면 음성 신호로 판단하여 음성을 검출하는 음성 검출 방법을 제공하는데 그 목적이 있다.In order to solve the problems described above, the present invention, after determining whether the voice is a voice signal with respect to the signal input from the outside using energy and zero crossing rate, and furthermore, if it is determined that the voice signal, further pitch using continuous pitch information Is a range of a reference pitch, whether the frequency variation of the pitch is within a range of the reference value, and whether the number of pitches has exceeded the reference value. The purpose is to provide.
도 1 은 종래의 음성 검출 방법에 대한 흐름도.1 is a flowchart of a conventional voice detection method.
도 2 는 본 발명이 적용되는 음성 인식 시스템의 일실시예 구성도.2 is a block diagram of an embodiment of a speech recognition system to which the present invention is applied.
도 3 은 본 발명에 따른 연속 피치 정보를 이용한 음성 검출 방법에 대한 일실시예를 나타내는 흐름도.3 is a flowchart illustrating an embodiment of a voice detection method using continuous pitch information according to the present invention;
* 도면의 주요 부분에 대한 부호의 설명* Explanation of symbols for the main parts of the drawings
21: 음성 입력 장치 22: 아날로그/디지털 변환 장치21: voice input device 22: analog / digital converter
23: 기억 장치 24: 중앙 처리 장치23: memory 24: central processing unit
25: 인식 결과 출력 장치25: recognition result output device
상기 목적을 달성하기 위한 본 발명은, 음성 검출 장치에 적용되는 음성 검출 방법에 있어서, 외부로부터 입력되는 음성 신호의 피치 정보를 검출하는 제 1 단계; 상기 검출된 피치가 소정의 기준 피치 영역에 존재하는지를 확인하는 제 2 단계; 주파수 변화량을 계산한 후에 계산된 주파수 변화량이 소정의 제 1 기준값보다 작은지를 확인하는 제 3 단계; 및 상기 각 단계에서 주어진 조건을 만족하는 신호를 음성 신호로 판단하여 검출하는 제 4 단계를 포함하여 이루어지는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a voice detection method applied to a voice detection device, comprising: a first step of detecting pitch information of a voice signal input from an external device; A second step of confirming whether the detected pitch exists in a predetermined reference pitch area; A third step of checking whether the calculated frequency change amount is smaller than a predetermined first reference value after calculating the frequency change amount; And a fourth step of determining and detecting a signal satisfying a given condition in each step as a voice signal.
또한, 본 발명은, 음성 검출 장치에 적용되는 음성 검출 방법에 있어서, 외부로부터 입력되는 음성 신호의 피치 정보를 검출하는 제 1 단계; 상기 검출된 피치가 소정의 기준 피치 영역에 존재하는지를 확인하는 제 2 단계; 상기 피치 정보에서 피치 발생수를 검출하여 소정의 기준값을 넘는지를 확인하는 제 3 단계; 및 상기 각 단계에서 주어진 조건을 만족하는 신호를 음성 신호로 판단하여검출하는 제 4 단계를 포함하여 이루어지는 것을 특징으로 한다.The present invention also provides a voice detection method applied to a voice detection device, comprising: a first step of detecting pitch information of a voice signal input from an external device; A second step of confirming whether the detected pitch exists in a predetermined reference pitch area; A third step of detecting the number of pitch occurrences from the pitch information to determine whether a predetermined reference value is exceeded; And a fourth step of determining and detecting a signal satisfying a given condition in each step as a voice signal.
이하 첨부된 도 2와 도 3을 참조하여 본 발명에 따른 일실시예를 상세히 설명한다.Hereinafter, an embodiment according to the present invention will be described in detail with reference to FIGS. 2 and 3.
도 2 는 본 발명이 적용되는 음성 인식 시스템의 일실시예 구성도이다.2 is a block diagram of an embodiment of a speech recognition system to which the present invention is applied.
음성 입력 장치(21)는 외부로부터 사용자의 음성 신호를 수신하고, 아날로그/디지털 변환 장치(22)는 음성 입력 장치(21)로부터 출력된 아날로그 신호를 입력받아 디지털 신호로 변환하여 출력하며, 중앙 처리 장치(23)는 아날로그/디지털 변환 장치(22)로부터 디지털 음성 데이터를 입력받아 음성 구간을 검출하고 이 영역에 대한 음성 특징 벡터를 추출하며 이 특징 벡터와 기억장치(24)내에 저장되어 있던 각 어휘들의 기준 패턴과 비교하여 가장 유사한 어휘를 찾은 후에 인식 결과에 대한 검증 과정을 거쳐 인식 결과 출력 장치(25)를 통해서 음성 인식 결과를 출력시킨다.The voice input device 21 receives a user's voice signal from the outside, and the analog / digital converter 22 receives an analog signal output from the voice input device 21, converts the digital signal into a digital signal, and outputs the central signal. The device 23 receives digital voice data from the analog-to-digital converter 22, detects a voice section, extracts a voice feature vector for this region, and stores each vocabulary stored in the feature vector and the storage device 24. After finding the most similar vocabulary by comparing with the reference pattern of these, the verification result is verified and the speech recognition result is output through the recognition result output device 25.
음성 인식 시스템에서 사용되는 음성 신호는 자음과 모음의 결합으로 이루어진다. 따라서, 음성 신호에는 피치가 존재한다. 일반적으로 남성의 피치는 낮고 여성의 피치는 상대적으로 남성보다 높다. 음성 인식을 위해 사용자가 발성한 음성 신호에는 사람에 따라서 그 영역은 다르지만 고유한 피치 존재 영역을 갖고 있다. 이것은 (수학식 1)로서 표시할 수 있다.The speech signal used in the speech recognition system consists of a combination of consonants and vowels. Therefore, pitch exists in the audio signal. In general, the pitch of men is lower and that of women is relatively higher than that of men. The voice signal uttered by the user for speech recognition has a unique pitch presence region, although the region varies depending on the person. This can be expressed as (Equation 1).
Pitch Min≤Pitch(t) ≤ Pitch MaxPitch Min≤Pitch (t) ≤ Pitch Max
(수학식 1)에서 Pitch Min은 사용자 음성 신호에 대한 피치의 최소값을 의미하고, Pitch Max는 피치의 최대값을 의미한다. 한편, 비음성은 거의 모든 주파수 대역에 존재한다. 따라서, 단순히 특정 주파수 대역에서 피치가 검출되었다고 해서 입력 신호에 사용자의 음성이 존재한다고 판단하는 것은 성급한 일이다.In Equation 1, Pitch Min means a minimum value of pitch for a user voice signal, and Pitch Max means a maximum value of a pitch. On the other hand, non-voice is present in almost all frequency bands. Therefore, it is premature to determine that the user's voice exists in the input signal simply by detecting the pitch in a specific frequency band.
피치는 성대의 진동에 의해서 발생된다. 음성 인식 시스템을 사용하는 사람이 평범하게 음성 신호를 발성할 경우에 해당 발화 내에서 피치 변화는 심하지 않다. 특히, 서로 이웃하는 피치의 존재 영역 즉, 주파수 영역은 매우 유사한 특성을 갖는다. 이것은 (수학식 2)로서 표시될 수 있다.The pitch is generated by the vibration of the vocal cords. When a person using a speech recognition system speaks a normal speech signal, the pitch change is not severe within the speech. In particular, the region of existence of the pitches adjacent to each other, that is, the frequency region, has very similar characteristics. This can be expressed as (Equation 2).
|Pitch(t)-Pitch(t+1)|≤ Pitch TH| Pitch (t) -Pitch (t + 1) | ≤ Pitch TH
(수학식 2)에서 Pitch TH는 이웃하는 피치 사이의 변화량인데 사람에 따라서 다르다. 한편, 대부분의 비음성은 값이 매우 크게 나타난다. 이러한 특성은 음성 신호와 비음성을 구별하는데 도움을 준다.In Equation 2, Pitch TH is the amount of change between neighboring pitches. On the other hand, most non-negative values are very large. This property helps to distinguish between voice signal and non-voice.
사용자의 음성 신호는 비음성과는 달리 항상 위의 두 가지 조건을 동시에 만족한다. 또한 위의 두 가지 조건을 만족하는 피치의 발생 수는 N개 이상이 된다. N은 음성 신호의 종류 및 사용자의 발성 방법에 따라서 달라지므로 음성 인식 시스템의 사용 조건에 따라서 음성 검출 장치에서 사용되는 N의 값은 바뀔 수 있다.The user's voice signal, unlike non-voice, always satisfies the above two conditions simultaneously. In addition, the number of occurrences of the pitch that satisfies the above two conditions becomes N or more. Since N varies depending on the type of speech signal and the user's speech method, the value of N used in the speech detection apparatus may change according to the use condition of the speech recognition system.
도 3 은 본 발명에 따른 연속 피치 정보를 이용한 음성 검출 방법에 대한 일실시예를 나타내는 흐름도이다.3 is a flowchart illustrating an embodiment of a voice detection method using continuous pitch information according to the present invention.
먼저, 사용자의 음성 신호를 입력받아(10) 아날로그 음성신호를 디지털 신호로 변환한 후에(11) 분석 크기 만큼의 음성 데이터에 대한 에너지 및 영교차율을 계산한다(12). 이후, 에너지 및 영교차율의 계산 결과가 이미 설정된 기준값보다 큰지를 판단하여(13) 기준값보다 크면 다음 단계인 피치 검출 과정으로 넘어가고, 기준값보다 크지 않으면 절차를 종료한다. 피치 검출 과정에서는 검출된 영역의 최대 에너지 구간에는 유성음이 존재한다고 가정한 후에 최대에너지 구간 주변에서 피치 정보를 구한다(14). 이후에 이 구간에서 추정된 피치가 사람의 피치 존재 범위를 나타내는 특정계수 범위내에 있는가를 판단하여(15) 특정 계수 범위내에 있는 것으로 판단되면 주파수 변화량 차이 비교 과정으로 넘어가고, 특정 계수 범위내에 있지 않다고 판단되면 절차를 종료한다. 주파수 변화량 차이 비교 과정에서는 서로 이웃하는 피치값 사이의 주파수 변화량을 계산하여(30) 설정된 기준값을 넘어서는지 여부를 비교하여(31) 설정된 기준값을 넘어서지 않으면 다음 과정인 피치 발생수 판단 과정으로 넘어가고, 그렇지 않으면 종료한다. 피치 발생수 판단 과정에서는 음성 신호의 발생 피치수를 검출한 후에(32), 검출한 피치 발생수가 기준값을 넘어서는지 여부를 판단하여(33) 기준값을 넘어서면 음성을 검출한 후에(16) 절차를 종료하고 그렇지 않으면 바로 종료한다.First, after receiving the user's voice signal (10) converts the analog voice signal into a digital signal (11), and calculates the energy and zero crossing rate for the voice data as much as the analysis size (12). Subsequently, it is determined whether the result of calculating the energy and the zero crossing rate is greater than the reference value that is already set (13). If the reference value is larger than the reference value, the process proceeds to the next step, the pitch detection process. In the pitch detection process, it is assumed that voiced sound exists in the maximum energy section of the detected region, and then pitch information is obtained around the maximum energy section (14). Subsequently, it is determined whether the estimated pitch in this section is within a specific coefficient range representing a human pitch existence range (15). If it is determined to be within a specific coefficient range, the process proceeds to a comparison process of difference in frequency variation, and determines that it is not within a specific coefficient range. If so, terminate the procedure. In the frequency difference difference comparison process, the frequency change amount between neighboring pitch values is calculated (30) to compare whether or not to exceed the set reference value (31). Otherwise exit. In the pitch generation number determination process, after detecting the number of pitches generated by the voice signal (32), it is determined whether the detected pitch number exceeds the reference value (33). Exit otherwise exit immediately.
이상에서 설명한 본 발명에서 주파수 변화량 차이 비교 과정(31)과 피치 발생수 판단 과정(33) 중 한 과정을 실시하지 않아도 상기의 목적에 맞는 효과를 얻을 수 있다.In the present invention described above, an effect that satisfies the above object can be obtained without performing one of the frequency variation difference comparison process 31 and the pitch occurrence number determination process 33.
또한, 본 발명에서 피치 존재 범위 판단 과정(15), 주파수 변화량 차이 비교 과정(31) 및 피치 발생수 판단 과정(33)은 반드시 순차적으로 실시되어야 하는 것은 아니며 임의적인 순서로 실시되어도 동일한 효과를 얻을 수 있다.In addition, in the present invention, the pitch presence range determination process 15, the frequency variation difference comparison process 31, and the pitch occurrence number determination process 33 are not necessarily performed sequentially, and the same effect may be obtained even if performed in an arbitrary order. Can be.
또한, 본 발명은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.In addition, the present invention can be variously substituted, modified and changed within the scope without departing from the spirit of the present invention for those skilled in the art to which the present invention pertains to the foregoing embodiments and the accompanying drawings. It is not limited.
상기와 같은 본 발명은, 음성 명령어가 아닌 비음성 신호의 입력을 사전에 막을 수 있어 음성 인식 시스템의 성능을 향상시킬 수 있으며, 비음성을 음성으로 인식하여 사용자가 원하지 않는 불필요한 동작을 수행하는 것을 방지할 수 있어 비음성 신호에 대한 잘못된 반응을 방지할 수 있는 효과가 있다.The present invention as described above, it is possible to prevent the input of the non-voice signal in addition to the voice command in advance to improve the performance of the speech recognition system, to recognize the non-voice as a voice to perform unnecessary operations that the user does not want This prevents false reactions to non-voice signals.

Claims (6)

  1. 음성 검출 장치에 적용되는 음성 검출 방법에 있어서,In the voice detection method applied to the voice detection device,
    외부로부터 입력되는 음성 신호의 피치 정보를 검출하는 제 1 단계;A first step of detecting pitch information of an audio signal input from the outside;
    상기 검출된 피치가 소정의 기준 피치 영역에 존재하는지를 확인하는 제 2 단계;A second step of confirming whether the detected pitch exists in a predetermined reference pitch area;
    주파수 변화량을 계산한 후에 계산된 주파수 변화량이 소정의 제 1 기준값보다 작은지를 확인하는 제 3 단계; 및A third step of checking whether the calculated frequency change amount is smaller than a predetermined first reference value after calculating the frequency change amount; And
    상기 각 단계에서 주어진 조건을 만족하는 신호를 음성 신호로 판단하여검출하는 제 4 단계A fourth step of detecting and detecting a signal satisfying a given condition in each step as a voice signal
    를 포함하여 이루어진 연속 피치 정보를 이용한 음성 검출 방법.Speech detection method using the continuous pitch information made, including.
  2. 제 1 항에 있어서,The method of claim 1,
    상기 제 4 단계 수행전에,Before performing the fourth step,
    상기 피치 정보에서 피치 발생수를 검출하여 피치 발생수가 소정의 제 2 기준값을 넘는지를 확인하는 제 5 단계A fifth step of detecting whether the number of pitch occurrences exceeds the predetermined second reference value by detecting the number of pitch occurrences in the pitch information;
    를 더 포함하여 이루어진 연속 피치 정보를 이용한 음성 검출 방법.Speech detection method using the continuous pitch information further comprises.
  3. 제 2 항에 있어서,The method of claim 2,
    상기 제 5 단계는,The fifth step,
    상기 피치 정보에서 피치 발생수를 검출하는 제 6 단계;A sixth step of detecting a number of pitch occurrences in the pitch information;
    상기 검출된 피치 발생수가 상기 소정의 제 2 기준값을 넘는지를 비교하는 제 7 단계; 및A seventh step of comparing whether the detected number of pitch occurrences exceeds the predetermined second reference value; And
    상기 제 7 단계의 비교 결과, 피치 발생수가 상기 소정의 제 2 기준값을 넘으면 다음 단계를 수행하고, 피치 발생수가 상기 제 2 기준값을 넘지 않으면 종료하는 제 8 단계As a result of the comparison of the seventh step, when the number of pitch occurrences exceeds the predetermined second reference value, the next step is performed; and if the number of pitch occurrences does not exceed the second reference value, an eighth step of ending
    를 포함하여 이루어진 연속 피치 정보를 이용한 음성 검출 방법.Speech detection method using the continuous pitch information made, including.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,The method according to any one of claims 1 to 3,
    상기 제 3 단계는,The third step,
    상기 피치 정보에서 주파수 변화량을 계산하는 제 9 단계;A ninth step of calculating a frequency change amount from the pitch information;
    상기 계산된 주파수 변화량이 상기 소정의 제 1 기준값보다 작은지를 비교하는 제 10 단계; 및A tenth step of comparing whether the calculated frequency change amount is smaller than the predetermined first reference value; And
    상기 제 10 단계의 비교 결과, 주파수 변화량이 상기 소정의 제 1 기준값보다 작으면 다음 단계를 수행하고, 주파수 변화량이 상기 제 1 기준값보다 작지 않으면 종료하는 제 11 단계As a result of the comparison of the tenth step, if the frequency change amount is smaller than the predetermined first reference value, the next step is performed; and if the frequency change amount is not smaller than the first reference value, the eleventh step ends
    를 포함하여 이루어진 연속 피치 정보를 이용한 음성 검출 방법.Speech detection method using the continuous pitch information made, including.
  5. 음성 검출 장치에 적용되는 음성 검출 방법에 있어서,In the voice detection method applied to the voice detection device,
    외부로부터 입력되는 음성 신호의 피치 정보를 검출하는 제 1 단계;A first step of detecting pitch information of an audio signal input from the outside;
    상기 검출된 피치가 소정의 기준 피치 영역에 존재하는지를 확인하는 제 2 단계;A second step of confirming whether the detected pitch exists in a predetermined reference pitch area;
    상기 피치 정보에서 피치 발생수를 검출하여 소정의 기준값을 넘는지를 확인하는 제 3 단계; 및A third step of detecting the number of pitch occurrences from the pitch information to determine whether a predetermined reference value is exceeded; And
    상기 각 단계에서 주어진 조건을 만족하는 신호를 음성 신호로 판단하여 검출하는 제 4 단계A fourth step of detecting and detecting a signal satisfying a given condition in each step as a voice signal
    를 포함하여 이루어진 연속 피치 정보를 이용한 음성 검출 방법.Speech detection method using the continuous pitch information made, including.
  6. 제 5 항에 있어서,The method of claim 5,
    상기 제 3 단계는,The third step,
    상기 피치 정보에서 피치 발생수를 검출하는 제 5 단계;A fifth step of detecting a number of pitch occurrences in the pitch information;
    상기 검출된 피치 발생수가 상기 소정의 기준값을 넘는지를 비교하는 제 6 단계; 및A sixth step of comparing whether the detected number of pitch occurrences exceeds the predetermined reference value; And
    상기 제 6 단계의 비교 결과, 피치 발생수가 상기 소정의 기준값을 넘으면 다음 단계를 수행하고, 피치 발생수가 상기 기준값을 넘지 않으면 종료하는 제 7 단계As a result of the comparison of the sixth step, if the number of pitches exceeds the predetermined reference value, the next step is performed, and if the number of pitches does not exceed the reference value, the seventh step ends.
    를 포함하여 이루어진 연속 피치 정보를 이용한 음성 검출 방법.Speech detection method using the continuous pitch information made, including.
KR1019970058578A 1997-11-06 1997-11-06 Speech detection method using the continuous pitch information KR100246617B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970058578A KR100246617B1 (en) 1997-11-06 1997-11-06 Speech detection method using the continuous pitch information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970058578A KR100246617B1 (en) 1997-11-06 1997-11-06 Speech detection method using the continuous pitch information

Publications (2)

Publication Number Publication Date
KR19990038741A true KR19990038741A (en) 1999-06-05
KR100246617B1 KR100246617B1 (en) 2000-03-15

Family

ID=19524316

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970058578A KR100246617B1 (en) 1997-11-06 1997-11-06 Speech detection method using the continuous pitch information

Country Status (1)

Country Link
KR (1) KR100246617B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030060593A (en) * 2002-01-10 2003-07-16 주식회사 현대오토넷 Method for recognizing voice using pitch
KR102102387B1 (en) * 2018-10-29 2020-04-21 주식회사 사운드잇 Method and System for detecting User's utterance in a multi-channel audio environment

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030060593A (en) * 2002-01-10 2003-07-16 주식회사 현대오토넷 Method for recognizing voice using pitch
KR102102387B1 (en) * 2018-10-29 2020-04-21 주식회사 사운드잇 Method and System for detecting User's utterance in a multi-channel audio environment

Also Published As

Publication number Publication date
KR100246617B1 (en) 2000-03-15

Similar Documents

Publication Publication Date Title
JP5810946B2 (en) Specific call detection device, specific call detection method, and computer program for specific call detection
JP4246703B2 (en) Automatic speech recognition method
JP2006215499A (en) Speech processing system
JP4914295B2 (en) Force voice detector
Yoo et al. Robust voice activity detection using the spectral peaks of vowel sounds
KR100246617B1 (en) Speech detection method using the continuous pitch information
Shahnawazuddin et al. Improving the performance of keyword spotting system for children's speech through prosody modification
JP2797861B2 (en) Voice detection method and voice detection device
JP3523382B2 (en) Voice recognition device and voice recognition method
KR100391123B1 (en) speech recognition method and system using every single pitch-period data analysis
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
JP6758890B2 (en) Voice discrimination device, voice discrimination method, computer program
KR20040082756A (en) Method for Speech Detection Using Removing Noise
KR100480506B1 (en) Speech recognition method
JP3114757B2 (en) Voice recognition device
KR100677224B1 (en) Speech recognition method using anti-word model
KR20210000802A (en) Artificial intelligence voice recognition processing method and system
JP2004139049A (en) Speaker normalization method and speech recognition device using the same
Gulzar et al. An Improved Endpoint Detection Algorithm using Bit Wise Approach for Isolated, Spoken Paired and Hindi Hybrid Paired Words
JP2004004182A (en) Device, method and program of voice recognition
JP2001083978A (en) Speech recognition device
JP2664136B2 (en) Voice recognition device
KR19990087730A (en) Real-time speech recognition system for unspecified speakers and method thereof
Vlaj et al. Effective Pitch Value Detection in Noisy Intelligent Environments for Efficient Natural Language Processing
Xue Speaker Recognition System Using Dynamic Time Warping Matching and Mel-Scale Frequency Cepstral Coefficients

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20071115

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee