KR100501919B1 - Voice Recognizer Provided with Two Amplifiers and Voice Recognizing Method thereof - Google Patents
Voice Recognizer Provided with Two Amplifiers and Voice Recognizing Method thereof Download PDFInfo
- Publication number
- KR100501919B1 KR100501919B1 KR10-2002-0053873A KR20020053873A KR100501919B1 KR 100501919 B1 KR100501919 B1 KR 100501919B1 KR 20020053873 A KR20020053873 A KR 20020053873A KR 100501919 B1 KR100501919 B1 KR 100501919B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- converter
- feature
- amplifier
- input
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 230000003321 amplification Effects 0.000 claims abstract description 28
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 238000001514 detection method Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000000295 complement effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03F—AMPLIFIERS
- H03F2200/00—Indexing scheme relating to amplifiers
- H03F2200/03—Indexing scheme relating to amplifiers the amplifier being designed for audio applications
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Analogue/Digital Conversion (AREA)
- Control Of Amplification And Gain Control (AREA)
Abstract
본 발명에 따른 2개의 증폭기를 구비한 음성인식기는 마이크를 통하여 입력된 음성신호를 증폭하는 제1증폭기 및 제2증폭기, 증폭된 음성신호를 각각 A/D 변환하는 제1컨버터 및 제2컨버터, 특징추출부, 끝점검출부, 및 인식부를 구비함으로써, 상기 제1증폭기는 상기 음성신호를 높은 증폭도로 증폭하고, 상기 제2증폭기는 상기 음성신호를 낮은 증폭도로 증폭하고, 그리고 특징추출부는 상기 제1컨버터로부터 입력되는 음성신호의 왜곡이 심한 경우는 상기 제2컨버터로부터 입력되는 음성신호로부터 음성의 특징을 추출한다. 아울러 본원발명에 따른 음성신호의 전처리방법은 마이크를 통하여 입력되는 음성신호를 높은 증폭도를 갖는 제1증폭기 및 낮은 증폭도를 갖는 제2증폭기를 통하여 각각 증폭하고, 상기 제1증폭기 및 제2증폭기를 통하여 증폭된 음성신호를 제1컨버터 및 제2컨버터로 각각 A/D 변환하고, 상기 제1컨버터에 의해 변환된 디지털 신호로부터 음성 구간을 검출하고 또한 음성의 특징을 추출하나 만약 이 디지털 신호가 왜곡이 심할 경우에는 상기 제2컨버터에 의해 변환된 디지털 신호로부터 음성의 특징을 추출한다.The voice recognizer having two amplifiers according to the present invention includes a first amplifier and a second amplifier for amplifying a voice signal input through a microphone, a first converter and a second converter for A / D conversion of the amplified voice signals, respectively; By having a feature extractor, an endpoint detector, and a recognizer, the first amplifier amplifies the speech signal with a high amplification, the second amplifier amplifies the speech signal with a low amplification, and the feature extractor includes the first extractor. When the distortion of the voice signal input from the converter is severe, the feature of the voice is extracted from the voice signal input from the second converter. In addition, the pre-processing method of the voice signal according to the present invention amplifies the voice signal input through the microphone through a first amplifier having a high amplification degree and a second amplifier having a low amplification degree, respectively, and through the first amplifier and the second amplifier A / D conversion of the amplified voice signal to the first converter and the second converter, respectively, the voice section is detected from the digital signal converted by the first converter and the voice feature is extracted. In severe cases, the feature of the voice is extracted from the digital signal converted by the second converter.
Description
발명의 분야Field of invention
본 발명은 2개의 증폭기를 갖는 음성인식기에 관한 것이다. 보다 구체적으로 본 발명은 증폭도(gain)를 달리하는 2개의 증폭기를 통하여 증폭된 음성신호를 통하여 끝점 추출 및 특징 추출을 행하는 음성인식기에 관한 것이다.The present invention relates to a speech recognizer having two amplifiers. More specifically, the present invention relates to a speech recognizer that performs end point extraction and feature extraction through voice signals amplified by two amplifiers having different gains.
발명의 배경Background of the Invention
일반적으로 음성인식이라 함은 입력된 화자의 음성을 분석하고 그 특징을 추출하여 사전에 구축된 음성모델과 매칭(matching)함으로써 인식하는 기술을 말한다. 이러한 종래의 음성인식기는 제1(a)도에 도시된 바와 같이, 마이크를 통하여 입력되는 음성신호로부터 음성구간을 검출하는 끝점검출부(111), 음성신호로부터 그 특징을 추출하는 특징추출부(112)로 이루어지는 전처리부(110)와 상기 전처리부에서 검출된 음성구간의 특징 데이터를 통하여 음성 인식모델을 매칭(matching)시켜 인식을 수행하는 인식부(120)로 구성된다. 상기 전처리부(110)에서 이루어지는 처리과정은 제1(b)도에 도시된 바와 같이, 마이크를 통하여 입력된 음성신호는 증폭기 및 A/D 컨버터를 통하여 디지털화된 후에 일정 개수의 샘플을 하나의 프레임(frame)으로 하는 프레임 단위의 데이터로 특징 추출 및 끝점 검출을 하게 된다. 화자의 음성구간이 끝났음을 끝점 검출을 통하여 알게 되면, 음성데이터의 입력은 중지하고 상기 추출된 특징데이터와 사전에 저장된 음성모델과의 비교 및 매칭(matching)을 통하여 음성인식을 수행한다. In general, speech recognition refers to a technology of recognizing a speaker by analyzing a voice of an input speaker, extracting a feature, and matching the speech model with a previously constructed speech model. As shown in FIG. 1 (a), the conventional voice recognizer includes an endpoint detector 111 for detecting a voice section from a voice signal input through a microphone, and a feature extractor 112 for extracting a feature from the voice signal. It consists of a pre-processing unit 110 and a recognition unit 120 for performing the recognition by matching the speech recognition model through the feature data detected by the pre-processing unit. As shown in FIG. 1 (b), the processing performed by the preprocessing unit 110 is performed by digitizing the voice signal input through the microphone through an amplifier and an A / D converter. Feature extraction and end point detection are performed in frame-based data. When the end of the speech section is found through the end point detection, the input of the speech data is stopped and the speech recognition is performed by comparing and matching the extracted feature data with the previously stored speech model.
그러나, 이러한 종래의 음성인식방법에 있어서는 전처리과정이 하나의 증폭기 및 하나의 A/D 컨버터를 통하여 증폭 및 디지털 처리를 하게 됨에 따라 끝점 검출 및 특징 추출에 있어서 오류가 발생하기 쉽다. 즉, 종래 행해지는 끝점 검출의 경우, 입력된 신호의 에너지를 이용하여 프레임 단위로 진행하되, 입력된 신호에 있어서 음성구간과 주위 잡음(background noise)간의 에너지 차이를 이용하여 기준값 이상이면 음성구간으로 검출하는 방법을 사용한다. 따라서, 실제 환경에서는 사용자가 마이크와의 거리가 일정하지 않고 또한 성별에 따라 발성되는 음량에 차이가 있음에 따라 끝점 검출이 누락되거나 또는 특징 추출에 오류를 생기게 할 수 있는 것이다. 상기 증폭기의 증폭도(gain)와 이에 따른 입력신호의 에너지 레벨을 구체적으로 살피면 다음과 같다. 즉, 종래의 음성인식기에서 증폭기의 증폭도를 너무 작게 한 경우의 에너지 레벨을 도시한 제2(a)도의 경우, 음성구간의 시작부분, 즉 자음과 모음의 첫 부분이 너무 낮은 에너지를 갖게 됨에 따라 끝점 검출에서 누락될 수 있음을 알 수 있다. 이러한 누락을 방지하기 위하여 증폭기의 증폭도를 너무 크게 한 경우의 에너지 레벨을 도시한 제2(b)의 경우, 음성구간 중에 다소 크게 발성된 부분은 오버플로우(overflow)가 발생하여 데이터가 클리핑(clipping)되어 왜곡된 음성 특징이 검출되는 정보 손상이 발생할 수 있음을 또한 알 수 있다.However, in the conventional speech recognition method, as the preprocessing process is amplified and digitally processed through one amplifier and one A / D converter, errors in end point detection and feature extraction are likely to occur. That is, in the case of the conventional end point detection, the energy of the input signal is advanced in units of frames, and if the input signal is equal to or greater than the reference value by using the energy difference between the voice interval and the background noise, the voice interval is performed. Use the method of detection. Therefore, in a real environment, the end point detection may be missed or an error may occur in the feature extraction as the distance between the microphone is not constant and the voice volume varies depending on the gender. Looking at the gain of the amplifier (gain) and the energy level of the input signal accordingly in detail as follows. That is, in the case of the second diagram (a) showing the energy level when the amplifier amplification degree is too small in the conventional speech recognizer, the beginning of the speech section, that is, the first part of the consonant and the vowel has too low energy. It can be seen that it may be missing in the endpoint detection. In the case of the second (b) showing the energy level when the amplification degree of the amplifier is too large to prevent such omission, a somewhat louder part of the voice section overflows, causing data to be clipped. It can also be appreciated that information corruption may occur whereby distorted speech features are detected.
이러한 증폭도에 따른 오인식을 방지하기 위한 해결책으로 자동으로 증폭도를 조절하는 기능을 갖는 AGC(Auto-Gain-Controller)을 사용하기도 하는 바, 제3(a)도는 종래의 음성인식기에 AGC(Auto-Gain-Controller)을 설치한 경우에 있어서 최초 증폭도가 너무 작은 경우의 에너지 레벨을 도시한 것이고, 제3(b)도는 최초 증폭도가 너무 큰 경우의 에너지 레벨을 도시한 것이다. 제3(a)도에 도시된 바와 같이, 최초 세팅된 증폭도가 너무 작은 경우에는 작은 소리에 대한 반응을 늦게 함으로써 음성구간의 시작부분에 대한 누락이 발생할 가능성이 여전히 존재함을 알 수 있다. 즉, 증폭도 조절에 필요한 시간동안의 음성구간이 끝점 검출에서 누락되는 것이다. 또한 제3(b)도에 도시된 바와 같이, 최초 세팅된 증폭도가 너무 큰 경우에는 최초 큰 목소리가 입력되어 발생한 오버플로우에 의한 클리핑 구간은 왜곡된 특징이 추출될 가능성이 있는 것이다.In order to prevent the misunderstanding according to the amplification degree, an AGC (Auto-Gain-Controller) having a function of automatically adjusting the amplification degree may be used. FIG. 3 (a) shows an AGC (Auto-Gain) in a conventional speech recognizer In the case of installing the controller, the energy level is shown when the initial amplification degree is too small. FIG. 3 (b) shows the energy level when the initial amplification degree is too large. As shown in FIG. 3 (a), when the initial set amplification degree is too small, it can be seen that there is still a possibility that a drop in the beginning of the voice segment may occur by delaying the response to the small sound. In other words, the speech section for the time necessary to adjust the amplification degree is missing from the end point detection. In addition, as shown in FIG. 3 (b), when the amplification degree initially set is too large, a distortion feature may be extracted in the clipping section due to the overflow caused by the first loud voice being input.
따라서, 본 발명자는 음성인식의 전처리 과정에 있어서 종래의 문제점을 해결하고자 2개의 증폭기를 구비한 음성인식기 및 그 인식방법을 개발하게 된 것이다.Accordingly, the present inventors have developed a voice recognizer having two amplifiers and a recognition method thereof to solve the conventional problems in the preprocessing of voice recognition.
본 발명의 목적은 입력되는 음성을 보다 정확하게 인식할 수 있는 음성인식기를 제공하기 위한 것이다.An object of the present invention is to provide a voice recognizer that can recognize the input voice more accurately.
본 발명의 다른 목적은 끝점 검출에서 누락되는 부분을 방지할 수 있는 음성인식기를 제공하기 위한 것이다.Another object of the present invention is to provide a voice recognizer that can prevent the missing part in the end point detection.
본 발명의 또 다른 목적은 오버플로우(overflow)에 의하여 발생하는 클리핑(clipping)을 방지할 수 있는 음성인식기를 제공하기 위한 것이다.Still another object of the present invention is to provide a voice recognizer capable of preventing clipping caused by overflow.
본 발명의 또 다른 목적은 실제 환경에서 발생하는 다양한 잡음에 대하여 영향을 덜 받는 음성인식기를 제공하기 위한 것이다.Another object of the present invention is to provide a speech recognizer that is less affected by various noises generated in a real environment.
본 발명의 또 다른 목적은 마이크의 거리 및 음량의 차이에 영향을 덜 받는 음성인식기를 제공하기 위한 것이다. Another object of the present invention is to provide a voice recognizer which is less affected by the difference in distance and volume of the microphone.
본 발명의 상기 및 기타의 목적들은 하기 설명되는 본 발명에 의하여 모두 달성될 수 있다. The above and other objects of the present invention can be achieved by the present invention described below.
발명의 요약Summary of the Invention
본 발명에 따른 2개의 증폭기를 구비한 음성인식기는 음성을 입력하기 위한 마이크, 상기 마이크를 통하여 입력된 음성신호를 증폭하는 제1증폭기 및 제2증폭기, 상기 제1증폭기 및 제2증폭기를 통하여 증폭된 음성신호를 각각 A/D 변환하는 제1컨버터 및 제2컨버터, 상기 제1컨버터 및 제2컨버터로부터 입력되는 음성신호로부터 음성의 특징을 추출하는 특징추출부, 상기 제1컨버터로부터 입력되는 음성신호로부터 음성구간을 검출하기 위한 끝점검출부, 및 상기 특징추출부로부터 입력되는 음성의 특징으로부터 음성을 인식하는 인식부를 구비하고, 상기 제1증폭기는 상기 음성신호를 높은 증폭도로 증폭하고, 상기 제2증폭기는 상기 음성신호를 낮은 증폭도로 증폭하고, 그리고 상기 특징추출부는 상기 제1컨버터로부터 입력되는 음성신호의 왜곡이 심한 경우는 상기 제2컨버터로부터 입력되는 음성신호로부터 음성의 특징을 추출하는 것을 특징으로 한다.The speech recognizer having two amplifiers according to the present invention includes a microphone for inputting voice, a first amplifier and a second amplifier for amplifying a voice signal input through the microphone, and amplification through the first amplifier and the second amplifier. A feature extractor for extracting a feature of speech from the first and second converters for A / D conversion of the speech signal, the voice signal input from the first and second converters, and the voice input from the first converter An endpoint detecting unit for detecting a speech section from the signal, and a recognition unit for recognizing speech from a feature of the voice input from the feature extracting section, the first amplifier amplifies the speech signal with a high amplification, and the second An amplifier amplifies the voice signal with low amplification, and the feature extractor has a severe distortion of the voice signal input from the first converter. Case is characterized in that the extracted characteristic of the speech from the speech signal received from the second converter.
아울러 본원발명에 따른 음성신호의 전처리방법은 마이크를 통하여 입력되는 음성신호를 높은 증폭도를 갖는 제1증폭기 및 낮은 증폭도를 갖는 제2증폭기를 통하여 각각 증폭하고, 상기 제1증폭기 및 제2증폭기를 통하여 증폭된 음성신호를 제1컨버터 및 제2컨버터로 각각 A/D 변환하고, 상기 제1컨버터에 의해 변환된 디지털 신호로부터 음성 구간을 검출하고 또한 음성의 특징을 추출하나 만약 이 디지털 신호가 왜곡이 심할 경우에는 상기 제2컨버터에 의해 변환된 디지털 신호로부터 음성의 특징을 추출한다.In addition, the pre-processing method of the voice signal according to the present invention amplifies the voice signal input through the microphone through a first amplifier having a high amplification degree and a second amplifier having a low amplification degree, respectively, and through the first amplifier and the second amplifier A / D conversion of the amplified voice signal to the first converter and the second converter, respectively, the voice section is detected from the digital signal converted by the first converter and the voice feature is extracted. In severe cases, the feature of the voice is extracted from the digital signal converted by the second converter.
발명의 상세한 설명Detailed description of the invention
이하에서는 첨부된 도면을 참고로 하여 본원발명에 따른 바람직한 구체예를 설명하기로 한다. Hereinafter, with reference to the accompanying drawings will be described a preferred embodiment according to the present invention.
제4(a)도는 본 발명의 일 구체예에 따른 음성인식기의 개략적인 구성도이고, 제4(b)도는 다른 구체예에 대한 개략적인 구성도이고, 그리고 제4(c)도는 본 발명에 따른 음성인식기의 전처리부에서 행해지는 동작을 개략적으로 도시한 흐름도이다. 제4(a)도에 도시된 본 발명에 따른 음성인식기는 음성을 입력하기 위한 마이크(210), 상기 마이크(210)를 통하여 입력된 음성신호를 증폭하는 하이게인(high gain) 증폭기(220) 및 로우게인(low gain) 증폭기(230), 상기 하이게인 증폭기(220) 및 로우게인 증폭기(230)를 통하여 증폭된 음성신호를 각각 A/D 변환하는 제1컨버터(240) 및 제2컨버터(250), 상기 제1컨버터(240) 및 제2컨버터(250)로부터 입력되는 디지털신호로부터 음성의 특징을 추출하는 특징추출부(112), 상기 제1컨버터(240)로부터 입력되는 디지털신호로부터 음성구간을 검출하는 끝점검출부(111), 및 상기 특징추출기로부터 입력되는 음성의 특징으로부터 음성을 인식하는 인식부(120)로 이루어진다. 본 발명에 따른 음성인식기는 종래의 음성인식기와 비교하여, 전처리과정에 있어서 서로 다른 증폭도를 갖는 2개의 증폭기를 구비하고, 이에 따른 A/D컨버터를 각각 구비함에 그 특징이 있다. 상기 마이크(210), 증폭기(220, 230), 및 A/D컨버터(240, 250)는 아날로그 파트(200)에 속하고, 상기 끝점검출부(111), 특징추출부(112)를 포함하는 전처리부(110), 및 인식부(120)는 디지털 파트(100)에 속한다. 본 도에서는 상기 전처리부(110), 및 인식부(120)가 별도로 존재하는 것처럼 도시되어 있으나, 프로그램을 통하여 CPU를 통하여 구현할 수도 있다. 아울러 상기 A/D컨버터는 별도의 제1 및 제2 컨버터로 구분되어 있으나, 하나의 A/D컨버터로서 2개의 채널, 즉 입력단자를 갖는 A/D컨버터일 수도 있다. 4 (a) is a schematic configuration diagram of a voice recognizer according to an embodiment of the present invention, Figure 4 (b) is a schematic configuration diagram for another embodiment, and Figure 4 (c) is a It is a flowchart schematically showing an operation performed in the preprocessor of the voice recognizer. The voice recognizer according to the present invention shown in FIG. 4 (a) includes a microphone 210 for inputting voice and a high gain amplifier 220 for amplifying a voice signal input through the microphone 210. And a first converter 240 and a second converter for A / D converting the voice signals amplified by the low gain amplifier 230, the high gain amplifier 220, and the low gain amplifier 230, respectively. 250, a feature extractor 112 extracting a feature of speech from the digital signals input from the first converter 240 and the second converter 250, and the speech from the digital signal input from the first converter 240. End point detection unit 111 for detecting a section, and the recognition unit 120 for recognizing the voice from the feature of the voice input from the feature extractor. Compared with the conventional speech recognizer, the speech recognizer according to the present invention includes two amplifiers having different amplification degrees in the preprocessing process, and has an A / D converter. The microphone 210, the amplifiers 220 and 230, and the A / D converters 240 and 250 belong to the analog part 200, and include the end point detection unit 111 and the feature extraction unit 112. The unit 110 and the recognition unit 120 belong to the digital part 100. Although the preprocessor 110 and the recognizer 120 are illustrated as being separately present in this figure, they may be implemented through a CPU through a program. In addition, the A / D converter is divided into separate first and second converters, but may be an A / D converter having two channels, that is, input terminals, as one A / D converter.
상기 하이게인 증폭기(220)는 상기 마이크를 통하여 입력되는 음성신호를 높은 증폭도로 증폭하고, 상기 로우게인 증폭기(230)는 상기 음성신호를 낮은 증폭도로 증폭한다. 따라서 상기 하이게인 증폭기(220)를 통하여 증폭된 음성신호는 상기 로우게인 증폭기(230)를 통하여 증폭된 음성신호에 비하여 상대적으로 높은 에너지 레벨을 갖게 된다. 이렇게 서로 다른 에너지 레벨을 갖는 음성신호는 각각 제1A/D컨버터(240) 및 제2A/D컨버터(250)를 통하여 샘플링, 즉 디지털화된다. 이렇게 샘플링(sampling)된 데이터는 프레임(frame) 단위로 처리되는데, 바람직하게는 10ms 정도의 시간을 하나의 프레임으로 하여 처리한다. 또한 샘플링 비율에 따라 변하지만, 하나의 프레임은 160 샘플이나 또는 320 샘플로 구성하는 것이 더욱 바람직하다.The high gain amplifier 220 amplifies the voice signal input through the microphone with a high amplification, and the low gain amplifier 230 amplifies the voice signal with a low amplification. Therefore, the voice signal amplified by the high gain amplifier 220 has a relatively high energy level compared to the voice signal amplified by the low gain amplifier 230. The voice signals having different energy levels are sampled, that is, digitized, through the first A / D converter 240 and the second A / D converter 250, respectively. The sampled data is processed in units of frames, and preferably, a time of about 10 ms is processed as one frame. In addition, although it varies according to the sampling rate, it is more preferable that one frame is composed of 160 samples or 320 samples.
이렇게 디지털화된 음성데이터는 프레임 단위로 끝점 검출 및 특징 추출이 이루어지는 바, 이하에서 구체적으로 살핀다.The digitized voice data is detected in the following manner by end point detection and feature extraction in units of frames.
음성데이터의 끝점 추출은 상술한 바와 같이 입력되는 신호에서 음성구간을 검출하기 위한 것으로서, 본 발명에 따른 끝점검출부(111)에서 행해진다. 상기 끝점검출부(111)는 하이게인 증폭기(220) 및 제1A/D컨버터(240)를 통하여 입력되는 신호로부터 음성구간을 검출한다. 상기 끝점검출부(111)는 최초 입력되는 몇 프레임의 데이터를 주위 잡음으로 간주하고, 상기 주위 잡음에 대한 에너지 평균값(Eb)을 구한다. 그리고 상기 잡음에 대한 에너지 평균값(Eb)에 특정 배수를 곱한 값(Et)을 기준값으로 하여, 상기 기준값보다 큰 에너지 레벨을 갖는 신호를 음성구간으로 간주한다. 상기 기준값(Et)을 결정하기 위한 특정 배수는 사용자의 특성, 및 용도에 따라 적절하게 조절할 수 있다. 따라서 상기 끝점검출부(111)는 입력되는 신호 중에서 처음으로 상기 기준값(Et)을 넘는 지점을 음성구간의 시작점으로 판단하고, 아울러 상기 시작점 이후에 상기 기준값(Et) 이하로 에너지가 떨어지는 지점을 음성의 마지막 부분으로 간주한다.The end point extraction of the voice data is for detecting a voice section from the input signal as described above, and is performed by the end point detection unit 111 according to the present invention. The endpoint detection unit 111 detects a speech section from a signal input through the high gain amplifier 220 and the first A / D converter 240. The endpoint detection unit 111 considers the data of the first input several frames as the ambient noise and obtains an energy average value E b for the ambient noise. A signal having an energy level larger than the reference value is regarded as a voice interval, based on a value E t obtained by multiplying a specific multiple of the energy average value E b with respect to the noise. The specific multiple for determining the reference value E t can be appropriately adjusted according to the user's characteristics and usage. Accordingly, the end point detection unit 111 determines a point exceeding the reference value E t as a start point of a voice interval for the first time among the input signals, and further determines a point where energy falls below the reference value E t after the start point. It is considered the last part of the voice.
이러한 방식으로 음성구간을 검출함에 있어서, 상기 하이게인 증폭기(220)에서 증폭된 신호를 사용하는 것이 상기 로우게인 증폭기(230)를 통하여 증폭된 신호를 사용하는 것보다 유리하다. 이는 음성구간을 검출함에 있어서 주위잡음에 대한 에너지(Eb)와 음성구간의 에너지의 에너지 차이를 이용함에 따라, 그 에너지 차이가 클수록 음성구간을 검출하기가 용이하기 때문이다. 즉, 기준값(Et)을 세분화하여 결정할 수 있고, 이에 따라 음성구간의 에너지가 작아서 음성구간이 아닌 부분으로 판단될 가능성이 줄어든다. 이는 결국 마이크와의 거리 및 성별에 따른 음량의 차이에 따른 입력 신호의 에너지 변동에 대해 끝점검출부(111)가 안정적으로 대처할 수 있도록 한다.In detecting the voice section in this manner, it is advantageous to use the signal amplified by the high gain amplifier 220 than to use the signal amplified by the low gain amplifier 230. This is because it is easier to detect the voice section as the energy difference is larger as the energy difference between the energy E b for the ambient noise and the energy of the voice section is used in detecting the voice section. That is, the reference value E t can be determined by subdividing, and accordingly, the energy of the voice section is small, so that the possibility of being judged as a non-voice section is reduced. This allows the endpoint detection unit 111 to cope with the energy variation of the input signal according to the difference in volume according to distance and gender with the microphone.
음성데이터의 특징 추출은 상술한 바와 같이 입력된 음성신호의 특징을 추출하기 위한 것으로서, 본 발명에 따른 특징 추출부(112)에서 행하여진다. 상기 특징 추출부(112)는 기본적으로는 상기 하이게인 증폭기(220) 및 제1A/D컨버터를 통하여 입력된 음성신호에 대하여 특징을 추출한다. 그러나 상기 하이게인 증폭기(220)를 통하여 증폭된 신호가 너무 증폭되어 측정 최대치를 넘는 경우가 발생할 수도 있다. 이러한 경우를 오버플로우(overflow)가 발생하였다고 하며, 상기 오버플로우가 발생한 음성구간은 음성 특징이 왜곡됨으로써 음성인식에 있어 오류가 발생한다. 따라서 본 발명에 따른 특징 추출부(112)는 상기 제1A/D컨버터(240)로부터 입력되는 디지털 신호가 왜곡이 심한 경우에는, 상기 로우게인 증폭기(230) 및 제2A/D컨버터(250)를 통하여 음성신호를 입력받는다. 이러한 입력전환을 통하여 상기 특징 추출부(112)는 왜곡되지 않은 음성의 특징을 추출할 수 있게 된다. The feature extraction of the voice data is for extracting the feature of the input voice signal as described above, and is performed by the feature extraction unit 112 according to the present invention. The feature extractor 112 basically extracts a feature of the audio signal input through the high gain amplifier 220 and the first A / D converter. However, the signal amplified by the high gain amplifier 220 may be too amplified to exceed the measurement maximum value. In such a case, an overflow has occurred, and the speech section in which the overflow occurs has an error in speech recognition due to distortion of speech features. Therefore, when the digital signal input from the first A / D converter 240 is severely distorted, the feature extractor 112 according to the present invention operates the low gain amplifier 230 and the second A / D converter 250. It receives a voice signal through. Through this input switching, the feature extractor 112 can extract the feature of the sound that is not distorted.
상기 특징 추출부(112)가 음성신호에 있어서 왜곡 여부를 판단하는 과정은 다음과 같다. 증폭도가 큰 하이게인 증폭기(220)를 통해 증폭되는 음성신호 중에서 큰 목소리에 대해서는 오버플로우가 발생하여 클리핑(clipping)이 될 수가 있다. 이는 A/D컨버터의 입력한계를 넘는 입력에 대해서는 자동적으로 최대값을 부여하기 때문에 발생한다. 예를 들면, 출력 데이터 해상도(resolution)가 16 비트이고 2의 보수(complement) 형식으로 데이터를 표현하는 A/D컨버터라면, ±32,768 이상의 입력에 대해서는 모두 ±32,768(정확하게는 +32,767, -32,768)로 에너지 값을 읽게 되어, 실제 에너지값이 클리핑(clipping)되는 것이다. The process of determining whether the feature extractor 112 is distorted in the voice signal is as follows. Of the voice signals amplified by the high gain amplifier 220 having a large amplification degree, overflow may occur for a large voice, thereby causing clipping. This occurs because the maximum value is automatically set for inputs that exceed the input limit of the A / D converter. For example, if the A / D converter output data resolution is 16 bits and represents data in complement form of 2, all inputs of ± 32,768 or more are ± 32,768 (exactly +32,767, -32,768). As the energy value is read, the actual energy value is clipped.
이러한 클리핑이 발생했는지 여부를 판단하는 방법은, 상기 A/D 컨버터의 최대값 근처의 특정값을 최대 문턱값으로 사전에 정하고, 입력된 하나의 프레임에 대한 데이터로부터 상기 최대 문턱값을 넘는 샘플이 몇 개인지, 또는 몇 %의 데이터가 상기 최대 문턱값을 넘었는지를 판단하는 것이다. 즉, 하나의 프레임에서 최대 문턱값을 넘는 데이터가 사전에 정해진 비율을 넘는 경우는 해당 프레임은 오버플로우가 발생하여 클리핑된 프레임으로 판단하게 되는 것이다. 예를 들어 설명하면, 출력 데이터 해상도(resolution)가 16 비트이고 2의 보수 형식으로 데이터를 표현하는 A/D컨버터의 경우에는 ±32,000을 최대 문턱값으로 정하고, 입력되는 160개의 샘플 데이터 중에서 16개(160 ×10%)의 샘플이 ±32,000을 넘는 경우는 이 프레임에는 오버플로우가 발생하여 입력 데이터가 왜곡되었다고 판단한다. 상기 최대 문턱값을 넘는 데이터의 양을 측정하기 위한 카운터(counter)는 프로그램의 형식으로 CPU를 통하여 구현하는 것이 바람직하다.The method of determining whether or not such clipping has occurred, the predetermined value near the maximum value of the A / D converter in advance as a maximum threshold value, and the sample exceeding the maximum threshold value from the data for one input frame It is to determine how many, or what percentage of data has exceeded the maximum threshold. That is, when data exceeding a maximum threshold in one frame exceeds a predetermined ratio, the corresponding frame is overflowed and is determined as a clipped frame. For example, in the case of an A / D converter having an output data resolution of 16 bits and representing data in a two's complement format, ± 32,000 is set as a maximum threshold, and 16 out of 160 sample data inputted. If the sample of (160 x 10%) exceeds ± 32,000, an overflow occurs in this frame and it is determined that the input data is distorted. A counter for measuring the amount of data exceeding the maximum threshold is preferably implemented through a CPU in the form of a program.
상기 최대 문턱값 및 최대 문턱값을 넘는 데이터의 비율은 사전에 결정해 두는 것이 일반적이나, 특정 알고리즘을 통하여 상황에 따라 변동하게 할 수도 있다. 입력 프레임이 왜곡되었다고 판단되면, 상기 특징 추출부(112)는 로우게인 증폭기(230), 및 제2A/D컨버터를 통하여 입력되는 신호로부터 음성 특징을 추출한다. 이렇게 추출된 음성특징은 인식부(120)에 보내지고, 상기 인식부(120)는 사전에 생성해 놓은 음성모델과의 매칭(matching)을 통하여 음성인식을 수행한다.The maximum threshold and the ratio of the data exceeding the maximum threshold are generally determined in advance, but may be changed depending on the situation through a specific algorithm. If it is determined that the input frame is distorted, the feature extractor 112 extracts a voice feature from a signal input through the low gain amplifier 230 and the second A / D converter. The extracted voice feature is sent to the recognizer 120, and the recognizer 120 performs voice recognition through matching with a previously generated voice model.
제4(b)도는 본 발명에 따른 2개의 증폭기를 구비한 음성인식기에 대한 다른 구체예에 대한 개략적인 구성도이다. 상기 음성인식기는 2개의 마이크(210, 210′)를 구비하며, 상기 각각의 마이크에 대하여 하이게인 증폭기(220), 및 로우게인 증폭기(230)가 연결된다. 상기 음성인식기는 2개의 마이크(210, 210′)를 구비함에 따라, 마이크로부터 거리에 따라 달라지는 음량 및 주위 환경으로부터 발생하는 잡음에 대하여 보다 능동적으로 대처할 수 있다.Figure 4 (b) is a schematic diagram of another embodiment of the speech recognizer with two amplifiers according to the present invention. The voice recognizer includes two microphones 210 and 210 ', and a high gain amplifier 220 and a low gain amplifier 230 are connected to each of the microphones. Since the voice recognizer includes two microphones 210 and 210 ', the voice recognizer can more actively cope with noise generated from the surrounding environment and the volume depending on the distance from the microphone.
제4(c)도는 본 발명에 따른 음성인식기의 전처리부에서 행해지는 동작을 개략적으로 도시한 흐름도이다. 도시된 바와 같이, 마이크(210), 증폭기(220, 230), 및 A/D컨버터(240, 250)를 통하여 입력되는 신호는 프레임 단위로 특징추출부(112) 및 끝점검출부(111)에 입력되고(S1), 상기 특징추출부(112)는 하이게인 증폭기(220), 및 제1A/D컨버터를 통하여 입력되는 데이터로부터 왜곡된 데이터인지 여부를 판단한다. 왜곡되지 않은 프레임인 경우는 입력된 신호로부터 음성특징을 추출하여 이를 음성특징 버퍼(buffer)에 임시적으로 저장하고(S2), 왜곡된 프레임으로 판단된 경우는 로우게인 증폭기(230), 및 제2A/D컨버터를 통하여 입력된 데이터로부터 음성특징을 추출하여 음성특징 버퍼에 저장한다(S3). 아울러 상기 끝점검출부(112)는 프레임의 왜곡에 관계없이 하이게인 증폭기(220), 및 제1A/D컨버터를 통하여 입력되는 데이터로부터 끝점을 검출한다(S4). 끝점 검출이 완료되면 음성 입력을 중지하고(S5), 인식부(120)에 상기 음성특징 버퍼에 저장된 데이터를 전달(S6)함으로써 음성인식을 수행하도록 한다. 본 도에서는 음성 특징의 추출이 이루어진 다음에 끝점을 검출하는 것으로 도시되어 있으나, 끝점 검출 후에 특징을 추출하거나, 또는 끝점 추출과 특징 추출이 동시에 이루어질 수도 있다.4 (c) is a flowchart schematically showing an operation performed in the preprocessor of the voice recognizer according to the present invention. As shown, signals input through the microphone 210, the amplifiers 220 and 230, and the A / D converters 240 and 250 are input to the feature extractor 112 and the endpoint detector 111 in units of frames. In operation S 1 , the feature extractor 112 determines whether the data is distorted from the data input through the high gain amplifier 220 and the first A / D converter. If the frame is not distorted, the voice feature is extracted from the input signal and temporarily stored in the voice feature buffer (S 2 ), and if it is determined that the frame is distorted, the low gain amplifier 230 is used. The voice feature is extracted from the data input through the 2A / D converter and stored in the voice feature buffer (S 3 ). In addition, the end point detector 112 detects the end point from the data input through the high gain amplifier 220 and the first A / D converter regardless of the distortion of the frame (S 4 ). When the end point detection is completed (S 5 ), the voice recognition is performed by transferring the data stored in the voice feature buffer to the recognition unit 120 (S 6 ). Although the end point is detected after the speech feature is extracted in this figure, the feature may be extracted after the end point is detected, or the end point extraction and the feature extraction may be performed simultaneously.
본 발명은 끝점 검출에서 누락되는 부분 및 오버플로우(overflow)에 의하여 발생하는 클리핑(clipping)을 방지함으로써, 실제 환경에서 발생하는 다양한 잡음 및 마이크와의 거리, 화자의 음량에 영향을 덜 받도록 하고, 입력되는 음성을 보다 정확하게 인식할 수 있는 음성인식기를 제공하는 효과를 갖는다. The present invention prevents clipping caused by the missing part and the overflow in the end point detection, thereby being less affected by various noises and distances from the microphone, the speaker's volume, It has the effect of providing a voice recognizer that can recognize the input voice more accurately.
본 발명의 단순한 변형 내지 변경은 이 분야의 통상의 지식을 가진 자에 의하여 용이하게 실시될 수 있으며, 이러한 변형이나 변경은 모두 본 발명의 영역에 포함되는 것으로 볼 수 있다. Simple modifications or changes of the present invention can be easily carried out by those skilled in the art, and all such modifications or changes can be seen to be included in the scope of the present invention.
제1(a)도는 종래의 음성인식기의 역할에 대한 개략적인 구성도이고, 제1(b)도는 제1(a)도에 따른 음성인식기의 전처리부에서 행하여지는 동작을 개략적으로 도시한 흐름도이다.Figure 1 (a) is a schematic configuration diagram of the role of the conventional voice recognizer, Figure 1 (b) is a flow chart schematically showing the operation performed in the preprocessor of the voice recognizer according to the first (a). .
제2(a)도는 종래의 음성인식기에서 증폭기의 증폭도를 너무 작게 한 경우의 에너지 레벨을 도시한 것이고, 제2(b)도는 증폭도를 너무 크게 한 경우의 에너지 레벨을 도시한 것이다.FIG. 2 (a) shows the energy level when the amplification degree of the amplifier is too small in the conventional speech recognizer, and FIG. 2 (b) shows the energy level when the amplification degree is too large.
제3(a)도는 종래의 음성인식기에 AGC(Auto-Gain-Controller)을 설치한 경우에 있어서 너무 작은 음성이 입력된 경우의 에너지 레벨을 도시한 것이고, 제3(b)도는 너무 큰 음성이 입력된 경우의 에너지 레벨을 도시한 것이다. FIG. 3 (a) shows the energy level when too small voice is input in the case where AGC (Auto-Gain-Controller) is installed in the conventional voice recognizer. FIG. The energy level in the case of input is shown.
제4(a)도는 본 발명의 일 구체예에 따른 음성인식기의 개략적인 구성도이고, 제4(b)도는 다른 구체예에 대한 개략적인 구성도이고, 그리고 제4(c)도는 본 발명에 따른 음성인식기의 전처리부에서 행해지는 동작을 개략적으로 도시한 흐름도이다.4 (a) is a schematic configuration diagram of a voice recognizer according to an embodiment of the present invention, Figure 4 (b) is a schematic configuration diagram for another embodiment, and Figure 4 (c) is a It is a flowchart schematically showing an operation performed in the preprocessor of the voice recognizer.
* 도면의 주요 부호에 대한 간단한 설명 *Brief description of the main symbols in the drawings
100 : 디지털 파트 110 : 전처리부 100: digital part 110: preprocessing unit
111 : 끝점검출부 112 : 특징추출부 111: endpoint detection unit 112: feature extraction unit
120 : 인식부 200 : 아날로그 파트 120: recognition unit 200: analog parts
210, 210′: 마이크 220 : 하이 게인 증폭기 210, 210 ′: Microphone 220: High gain amplifier
230 : 로우 게인 증폭기 240 : 제1A/D컨버터 230: low gain amplifier 240: 1A / D converter
250 : 제2A/D컨버터 250: 2 A / D converter
Claims (6)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0053873A KR100501919B1 (en) | 2002-09-06 | 2002-09-06 | Voice Recognizer Provided with Two Amplifiers and Voice Recognizing Method thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0053873A KR100501919B1 (en) | 2002-09-06 | 2002-09-06 | Voice Recognizer Provided with Two Amplifiers and Voice Recognizing Method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040022050A KR20040022050A (en) | 2004-03-11 |
KR100501919B1 true KR100501919B1 (en) | 2005-07-18 |
Family
ID=37326001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2002-0053873A KR100501919B1 (en) | 2002-09-06 | 2002-09-06 | Voice Recognizer Provided with Two Amplifiers and Voice Recognizing Method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100501919B1 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4532648A (en) * | 1981-10-22 | 1985-07-30 | Nissan Motor Company, Limited | Speech recognition system for an automotive vehicle |
JPH05284079A (en) * | 1992-04-03 | 1993-10-29 | Toshiba Corp | Telephone set |
JPH0786952A (en) * | 1993-09-13 | 1995-03-31 | Nippon Telegr & Teleph Corp <Ntt> | Predictive encoding method for voice |
US5574824A (en) * | 1994-04-11 | 1996-11-12 | The United States Of America As Represented By The Secretary Of The Air Force | Analysis/synthesis-based microphone array speech enhancer with variable signal distortion |
KR19990072431A (en) * | 1998-02-04 | 1999-09-27 | 비센트 비.인그라시아 | Dual band amplifier |
-
2002
- 2002-09-06 KR KR10-2002-0053873A patent/KR100501919B1/en active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4532648A (en) * | 1981-10-22 | 1985-07-30 | Nissan Motor Company, Limited | Speech recognition system for an automotive vehicle |
JPH05284079A (en) * | 1992-04-03 | 1993-10-29 | Toshiba Corp | Telephone set |
JPH0786952A (en) * | 1993-09-13 | 1995-03-31 | Nippon Telegr & Teleph Corp <Ntt> | Predictive encoding method for voice |
US5574824A (en) * | 1994-04-11 | 1996-11-12 | The United States Of America As Represented By The Secretary Of The Air Force | Analysis/synthesis-based microphone array speech enhancer with variable signal distortion |
KR19990072431A (en) * | 1998-02-04 | 1999-09-27 | 비센트 비.인그라시아 | Dual band amplifier |
Also Published As
Publication number | Publication date |
---|---|
KR20040022050A (en) | 2004-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2561850B2 (en) | Voice processor | |
KR101437830B1 (en) | Method and apparatus for detecting voice activity | |
US6651040B1 (en) | Method for dynamic adjustment of audio input gain in a speech system | |
JP5614767B2 (en) | Audio processing device | |
JP5282523B2 (en) | Basic frequency extraction method, basic frequency extraction device, and program | |
JP4548953B2 (en) | Voice automatic gain control apparatus, voice automatic gain control method, storage medium storing computer program having algorithm for voice automatic gain control, and computer program having algorithm for voice automatic gain control | |
KR100501919B1 (en) | Voice Recognizer Provided with Two Amplifiers and Voice Recognizing Method thereof | |
US6823304B2 (en) | Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant | |
TW200811833A (en) | Detection method for voice activity endpoint | |
CN113470691B (en) | Automatic gain control method of voice signal and related device thereof | |
JP3484559B2 (en) | Voice recognition device and voice recognition method | |
JP2002041083A (en) | Remote control system, remote control method and memory medium | |
CN116895281B (en) | Voice activation detection method, device and chip based on energy | |
JP5857216B2 (en) | Automatic gain controller | |
JP2007206154A (en) | Voice section detection under real environment noise | |
JPH07225592A (en) | Device for detecting sound section | |
JP2000155600A (en) | Speech recognition system and input voice level alarming method | |
KR100915112B1 (en) | Sound signal process system for measuring position of sound source | |
KR100531776B1 (en) | How to set the gain of the amplifier according to the user | |
CN118737160A (en) | Voiceprint registration method and device, computer equipment and storage medium | |
JP3065691B2 (en) | Voice recognition device | |
JP3032215B2 (en) | Sound detection device and method | |
JP2001117585A (en) | Method and device for voice recognition | |
JPH0573090A (en) | Speech recognizing method | |
JP2001265368A (en) | Voice recognition device and recognized object detecting method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
N231 | Notification of change of applicant | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130620 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20140619 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20150615 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20160617 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20170622 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20180615 Year of fee payment: 14 |
|
FPAY | Annual fee payment |
Payment date: 20190626 Year of fee payment: 15 |