KR20040022050A - 2개의 증폭기를 구비한 음성인식기 및 그 음성인식 방법 - Google Patents

2개의 증폭기를 구비한 음성인식기 및 그 음성인식 방법 Download PDF

Info

Publication number
KR20040022050A
KR20040022050A KR1020020053873A KR20020053873A KR20040022050A KR 20040022050 A KR20040022050 A KR 20040022050A KR 1020020053873 A KR1020020053873 A KR 1020020053873A KR 20020053873 A KR20020053873 A KR 20020053873A KR 20040022050 A KR20040022050 A KR 20040022050A
Authority
KR
South Korea
Prior art keywords
voice
converter
feature
input
amplifier
Prior art date
Application number
KR1020020053873A
Other languages
English (en)
Other versions
KR100501919B1 (ko
Inventor
백종관
이병수
Original Assignee
(주) 보이스웨어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주) 보이스웨어 filed Critical (주) 보이스웨어
Priority to KR10-2002-0053873A priority Critical patent/KR100501919B1/ko
Publication of KR20040022050A publication Critical patent/KR20040022050A/ko
Application granted granted Critical
Publication of KR100501919B1 publication Critical patent/KR100501919B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03FAMPLIFIERS
    • H03F2200/00Indexing scheme relating to amplifiers
    • H03F2200/03Indexing scheme relating to amplifiers the amplifier being designed for audio applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Analogue/Digital Conversion (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

본 발명에 따른 2개의 증폭기를 구비한 음성인식기는 마이크를 통하여 입력된 음성신호를 증폭하는 제1증폭기 및 제2증폭기, 증폭된 음성신호를 각각 A/D 변환하는 제1컨버터 및 제2컨버터, 특징추출부, 끝점검출부, 및 인식부를 구비함으로써, 상기 제1증폭기는 상기 음성신호를 높은 증폭도로 증폭하고, 상기 제2증폭기는 상기 음성신호를 낮은 증폭도로 증폭하고, 그리고 특징추출부는 상기 제1컨버터로부터 입력되는 음성신호의 왜곡이 심한 경우는 상기 제2컨버터로부터 입력되는 음성신호로부터 음성의 특징을 추출한다. 아울러 본원발명에 따른 음성신호의 전처리방법은 마이크를 통하여 입력되는 음성신호를 높은 증폭도를 갖는 제1증폭기 및 낮은 증폭도를 갖는 제2증폭기를 통하여 각각 증폭하고, 상기 제1증폭기 및 제2증폭기를 통하여 증폭된 음성신호를 제1컨버터 및 제2컨버터로 각각 A/D 변환하고, 상기 제1컨버터에 의해 변환된 디지털 신호로부터 음성 구간을 검출하고 또한 음성의 특징을 추출하나 만약 이 디지털 신호가 왜곡이 심할 경우에는 상기 제2컨버터에 의해 변환된 디지털 신호로부터 음성의 특징을 추출한다.

Description

2개의 증폭기를 구비한 음성인식기 및 그 음성인식 방법 {Voice Recognizer Provided with Two Amplifiers and Voice Recognizing Method thereof}
발명의 분야
본 발명은 2개의 증폭기를 갖는 음성인식기에 관한 것이다. 보다 구체적으로 본 발명은 증폭도(gain)를 달리하는 2개의 증폭기를 통하여 증폭된 음성신호를 통하여 끝점 추출 및 특징 추출을 행하는 음성인식기에 관한 것이다.
발명의 배경
일반적으로 음성인식이라 함은 입력된 화자의 음성을 분석하고 그 특징을 추출하여 사전에 구축된 음성모델과 매칭(matching)함으로써 인식하는 기술을 말한다. 이러한 종래의 음성인식기는 제1(a)도에 도시된 바와 같이, 마이크를 통하여입력되는 음성신호로부터 음성구간을 검출하는 끝점검출부(111), 음성신호로부터 그 특징을 추출하는 특징추출부(112)로 이루어지는 전처리부(110)와 상기 전처리부에서 검출된 음성구간의 특징 데이터를 통하여 음성 인식모델을 매칭(matching)시켜 인식을 수행하는 인식부(120)로 구성된다. 상기 전처리부(110)에서 이루어지는 처리과정은 제1(b)도에 도시된 바와 같이, 마이크를 통하여 입력된 음성신호는 증폭기 및 A/D 컨버터를 통하여 디지털화된 후에 일정 개수의 샘플을 하나의 프레임(frame)으로 하는 프레임 단위의 데이터로 특징 추출 및 끝점 검출을 하게 된다. 화자의 음성구간이 끝났음을 끝점 검출을 통하여 알게 되면, 음성데이터의 입력은 중지하고 상기 추출된 특징데이터와 사전에 저장된 음성모델과의 비교 및 매칭(matching)을 통하여 음성인식을 수행한다.
그러나, 이러한 종래의 음성인식방법에 있어서는 전처리과정이 하나의 증폭기 및 하나의 A/D 컨버터를 통하여 증폭 및 디지털 처리를 하게 됨에 따라 끝점 검출 및 특징 추출에 있어서 오류가 발생하기 쉽다. 즉, 종래 행해지는 끝점 검출의 경우, 입력된 신호의 에너지를 이용하여 프레임 단위로 진행하되, 입력된 신호에 있어서 음성구간과 주위 잡음(background noise)간의 에너지 차이를 이용하여 기준값 이상이면 음성구간으로 검출하는 방법을 사용한다. 따라서, 실제 환경에서는 사용자가 마이크와의 거리가 일정하지 않고 또한 성별에 따라 발성되는 음량에 차이가 있음에 따라 끝점 검출이 누락되거나 또는 특징 추출에 오류를 생기게 할 수 있는 것이다. 사기 증폭기의 증폭도(gain)와 이에 따른 입력신호의 에너지 레벨을 구체적으로 살피면 다음과 같다. 즉, 종래의 음성인식기에서 증폭기의 증폭도를 너무작게 한 경우의 에너지 레벨을 도시한 제2(a)도의 경우, 음성구간의 시작부분, 즉 자음과 모음의 첫 부분이 너무 낮은 에너지를 갖게 됨에 따라 끝점 검출에서 누락될 수 있음을 알 수 있다. 이러한 누락을 방지하기 위하여 증폭기의 증폭도를 너무 크게 한 경우의 에너지 레벨을 도시한 제2(b)의 경우, 음성구간 중에 다소 크게 발성된 부분은 오버플로우(overflow)가 발생하여 데이터가 클리핑(clipping)되어 왜곡된 음성 특징이 검출되는 정보 손상이 발생할 수 있음을 또한 알 수 있다.
이러한 증폭도에 따른 오인식을 방지하기 위한 해결책으로 자동으로 증폭도를 조절하는 기능을 갖는 AGC(Auto-Gain-Controller)을 사용하기도 하는 바, 제3(a)도는 종래의 음성인식기에 AGC(Auto-Gain-Controller)을 설치한 경우에 있어서 최초 증폭도가 너무 작은 경우의 에너지 레벨을 도시한 것이고, 제3(b)도는 최초 증폭도가 너무 큰 경우의 에너지 레벨을 도시한 것이다. 제3(a)도에 도시된 바와 같이, 최초 세팅된 증폭도가 너무 작은 경우에는 작은 소리에 대한 반응을 늦게 함으로써 음성구간의 시작부분에 대한 누락이 발생할 가능성이 여전히 존재함을 알 수 있다. 즉, 증폭도 조절에 필요한 시간동안의 음성구간이 끝점 검출에서 누락되는 것이다. 또한 제3(b)도에 도시된 바와 같이, 최초 세팅된 증폭도가 너무 큰 경우에는 최초 큰 목소리가 입력되어 발생한 오버플로우에 의한 클리핑 구간은 왜곡된 특징이 추출될 가능성이 있는 것이다.
따라서, 본 발명자는 음성인식의 전처리 과정에 있어서 종래의 문제점을 해결하고자 2개의 증폭기를 구비한 음성인식기 및 그 인식방법을 개발하게 된 것이다.
본 발명의 목적은 입력되는 음성을 보다 정확하게 인식할 수 있는 음성인식기를 제공하기 위한 것이다.
본 발명의 다른 목적은 끝점 검출에서 누락되는 부분을 방지할 수 있는 음성인식기를 제공하기 위한 것이다.
본 발명의 또 다른 목적은 오버플로우(overflow)에 의하여 발생하는 클리핑(clipping)을 방지할 수 있는 음성인식기를 제공하기 위한 것이다.
본 발명의 또 다른 목적은 실제 환경에서 발생하는 다양한 잡음에 대하여 영향을 덜 받는 음성인식기를 제공하기 위한 것이다.
본 발명의 또 다른 목적은 마이크의 거리 및 음량의 차이에 영향을 덜 받는 음성인식기를 제공하기 위한 것이다.
본 발명의 상기 및 기타의 목적들은 하기 설명되는 본 발명에 의하여 모두 달성될 수 있다.
제1(a)도는 종래의 음성인식기의 역할에 대한 개략적인 구성도이고, 제1(b)도는 제1(a)도에 따른 음성인식기의 전처리부에서 행하여지는 동작을 개략적으로 도시한 흐름도이다.
제2(a)도는 종래의 음성인식기에서 증폭기의 증폭도를 너무 작게 한 경우의 에너지 레벨을 도시한 것이고, 제2(b)도는 증폭도를 너무 크게 한 경우의 에너지 레벨을 도시한 것이다.
제3(a)도는 종래의 음성인식기에 AGC(Auto-Gain-Controller)을 설치한 경우에 있어서 너무 작은 음성이 입력된 경우의 에너지 레벨을 도시한 것이고, 제3(b)도는 너무 큰 음성이 입력된 경우의 에너지 레벨을 도시한 것이다.
제4(a)도는 본 발명의 일 구체예에 따른 음성인식기의 개략적인 구성도이고, 제4(b)도는 다른 구체예에 대한 개략적인 구성도이고, 그리고 제4(c)도는 본 발명에 따른 음성인식기의 전처리부에서 행해지는 동작을 개략적으로 도시한 흐름도이다.
* 도면의 주요 부호에 대한 간단한 설명 *
100 : 디지털 파트 110 : 전처리부
111 : 끝점검출부 112 : 특징추출부
120 : 인식부 200 : 아날로그 파트
210, 210′: 마이크 220 : 하이 게인 증폭기
230 : 로우 게인 증폭기 240 : 제1A/D컨버터
250 : 제2A/D컨버터
발명의 요약
본 발명에 따른 2개의 증폭기를 구비한 음성인식기는 음성을 입력하기 위한 마이크, 상기 마이크를 통하여 입력된 음성신호를 증폭하는 제1증폭기 및 제2증폭기, 상기 제1증폭기 및 제2증폭기를 통하여 증폭된 음성신호를 각각 A/D 변환하는 제1컨버터 및 제2컨버터, 상기 제1컨버터 및 제2컨버터로부터 입력되는 음성신호로부터 음성의 특징을 추출하는 특징추출부, 상기 제1컨버터로부터 입력되는 음성신호로부터 음성구간을 검출하기 위한 끝점검출부, 및 상기 특징추출부로부터 입력되는 음성의 특징으로부터 음성을 인식하는 인식부를 구비하고, 상기 제1증폭기는 상기 음성신호를 높은 증폭도로 증폭하고, 상기 제2증폭기는 상기 음성신호를 낮은 증폭도로 증폭하고, 그리고 상기 특징추출부는 상기 제1컨버터로부터 입력되는 음성신호의 왜곡이 심한 경우는 상기 제2컨버터로부터 입력되는 음성신호로부터 음성의 특징을 추출하는 것을 특징으로 한다.
아울러 본원발명에 따른 음성신호의 전처리방법은 마이크를 통하여 입력되는 음성신호를 높은 증폭도를 갖는 제1증폭기 및 낮은 증폭도를 갖는 제2증폭기를 통하여 각각 증폭하고, 상기 제1증폭기 및 제2증폭기를 통하여 증폭된 음성신호를 제1컨버터 및 제2컨버터로 각각 A/D 변환하고, 상기 제1컨버터에 의해 변환된 디지털 신호로부터 음성 구간을 검출하고 또한 음성의 특징을 추출하나 만약 이 디지털 신호가 왜곡이 심할 경우에는 상기 제2컨버터에 의해 변환된 디지털 신호로부터 음성의 특징을 추출한다.
발명의 상세한 설명
이하에서는 첨부된 도면을 참고로 하여 본원발명에 따른 바람직한 구체예를 설명하기로 한다.
제4(a)도는 본 발명의 일 구체예에 따른 음성인식기의 개략적인 구성도이고, 제4(b)도는 다른 구체예에 대한 개략적인 구성도이고, 그리고 제4(c)도는 본 발명에 따른 음성인식기의 전처리부에서 행해지는 동작을 개략적으로 도시한 흐름도이다. 제4(a)도에 도시된 본 발명에 따른 음성인식기는 음성을 입력하기 위한 마이크(210), 상기 마이크(210)를 통하여 입력된 음성신호를 증폭하는 하이게인(high gain) 증폭기(220) 및 로우게인(low gain) 증폭기(230), 상기 하이게인 증폭기(220) 및 로우게인 증폭기(230)를 통하여 증폭된 음성신호를 각각 A/D 변환하는 제1컨버터(240) 및 제2컨버터(250), 상기 제1컨버터(240) 및 제2컨버터(250)로부터 입력되는 디지털신호로부터 음성의 특징을 추출하는 특징추출부(112), 상기 제1컨버터(240)로부터 입력되는 디지털신호로부터 음성구간을 검출하는 끝점검출부(111), 및 상기 특징추출기로부터 입력되는 음성의 특징으로부터 음성을 인식하는 인식부(120)로 이루어진다. 본 발명에 따른 음성인식기는 종래의 음성인식기와 비교하여, 전처리과정에 있어서 서로 다른 증폭도를 갖는 2개의 증폭기를 구비하고, 이에 따른 A/D컨버터를 각각 구비함에 그 특징이 있다. 상기 마이크(210), 증폭기(220, 230), 및 A/D컨버터(240, 250)는 아날로그 파트(200)에 속하고, 상기 끝점검출부(111), 특징추출부(112)를 포함하는 전처리부(110), 및 인식부(120)는 디지털 파트(100)에 속한다. 본 도에서는 상기 전처리부(110), 및 인식부(120)가 별도로 존재하는 것처럼 도시되어 있으나, 프로그램을 통하여 CPU를 통하여 구현할 수도 있다. 아울러 상기 A/D컨버터는 별도의 제1 및 제2 컨버터로 구분되어 있으나, 하나의 A/D컨버터로서 2개의 채널, 즉 입력단자를 갖는 A/D컨버터일 수도 있다.
상기 하이게인 증폭기(220)는 상기 마이크를 통하여 입력되는 음성신호를 높은 증폭도로 증폭하고, 상기 로우게인 증폭기(230)는 상기 음성신호를 낮은 증폭도로 증폭한다. 따라서 상기 하이게인 증폭기(220)를 통하여 증폭된 음성신호는 상기 로우게인 증폭기(230)를 통하여 증폭된 음성신호에 비하여 상대적으로 높은 에너지 레벨을 갖게 된다. 이렇게 서로 다른 에너지 레벨을 갖는 음성신호는 각각 제1A/D컨버터(240) 및 제2A/D컨버터(250)를 통하여 샘플링, 즉 디지털화된다. 이렇게 샘플링(sampling)된 데이터는 프레임(frame) 단위로 처리되는데, 바람직하게는 10ms 정도의 시간을 하나의 프레임으로 하여 처리한다. 또한 샘플링 비율에 따라 변하지만, 하나의 프레임은 160 샘플이나 또는 320 샘플로 구성하는 것이 더욱 바람직하다.
이렇게 디지털화된 음성데이터는 프레임 단위로 끝점 검출 및 특징 추출이 이루어지는 바, 이하에서 구체적으로 살핀다.
음성데이터의 끝점 추출은 상술한 바와 같이 입력되는 신호에서 음성구간을 검출하기 위한 것으로서, 본 발명에 따른 끝점검출부(111)에서 행해진다. 상기 끝점검출부(111)는 하이게인 증폭기(220) 및 제1A/D컨버터(240)를 통하여 입력되는 신호로부터 음성구간을 검출한다. 상기 끝점검출부(111)는 최초 입력되는 몇 프레임의 데이터를 주위 잡음으로 간주하고, 상기 주위 잡음에 대한 에너지 평균값(Eb)을 구한다. 그리고 상기 잡음에 대한 에너지 평균값(Eb)에 특정 배수를 곱한 값(Et)을 기준값으로 하여, 상기 기준값보다 큰 에너지 레벨을 갖는 신호를 음성구간으로 간주한다. 상기 기준값(Et)을 결정하기 위한 특정 배수는 사용자의 특성, 및 용도에 따라 적절하게 조절할 수 있다. 따라서 상기 끝점검출부(111)는 입력되는 신호 중에서 처음으로 상기 기준값(Et)을 넘는 지점을 음성구간의 시작점으로 판단하고, 아울러 상기 시작점 이후에 상기 기준값(Et) 이하로 에너지가 떨어지는 지점을 음성의 마지막 부분으로 간주한다.
이러한 방식으로 음성구간을 검출함에 있어서, 상기 하이게인 증폭기(220)에서 증폭된 신호를 사용하는 것이 상기 로우게인 증폭기(230)를 통하여 증폭된 신호를 사용하는 것보다 유리하다. 이는 음성구간을 검출함에 있어서 주위잡음에 대한 에너지(Eb)와 음성구간의 에너지의 에어지 차이를 이용함에 따라, 그 에너지 차이가 클수록 음성구간을 검출하기가 용이하기 때문이다. 즉, 기준값(Et)을 세분화하여 결정할 수 있고, 이에 따라 음성구간의 에너지가 작아서 음성구간이 아닌 부분으로 판단될 가능성이 줄어든다. 이는 결국 마이크와의 거리 및 성별에 따른 음량의 차이에 따른 입력 신호의 에너지 변동에 대해 끝점검출부(111)가 안정적으로 대처할 수 있도록 한다.
음성데이터의 특징 추출은 상술한 바와 같이 입력된 음성신호의 특징을 추출하기 위한 것으로서, 본 발명에 따른 특징 추출부(112)에서 행하여진다. 상기 특징 추출부(112)는 기본적으로는 상기 하이게인 증폭기(220) 및 제1A/D컨버터를 통하여입력된 음성신호에 대하여 특징을 추출한다. 그러나 상기 하이게인 증폭기(220)를 통하여 증폭된 신호가 너무 증폭되어 측정 최대치를 넘는 경우가 발생할 수도 있다. 이러한 경우를 오버플로우(overflow)가 발생하였다고 하며, 상기 오버플로우가 발생한 음성구간은 음성 특징이 왜곡됨으로써 음성인식에 있어 오류가 발생한다. 따라서 본 발명에 따른 특징 추출부(112)는 상기 제1A/D컨버터(240)로부터 입력되는 디지털 신호가 왜곡이 심한 경우에는, 상기 로우게인 증폭기(230) 및 제2A/D컨버터(250)를 통하여 음성신호를 입력받는다. 이러한 입력전환을 통하여 상기 특징 추출부(112)는 왜곡되지 않은 음성의 특징을 추출할 수 있게 된다.
상기 특징 추출부(112)가 음성신호에 있어서 왜곡 여부를 판단하는 과정은 다음과 같다. 증폭도가 큰 하이게인 증폭기(220)를 통해 증폭되는 음성신호 중에서 큰 목소리에 대해서는 오버플로우가 발생하여 클리핑(clipping)이 될 수가 있다. 이는 A/D컨버터의 입력한계를 넘는 입력에 대해서는 자동적으로 최대값을 부여하기 때문에 발생한다. 예를 들면, 출력 데이터 해상도(resolution)가 16 비트이고 2의 보수(complement) 형식으로 데이터를 표현하는 A/D컨버터라면, ±32,768 이상의 입력에 대해서는 모두 ±32,768(정확하게는 +32,767, -32,768)로 에너지 값을 읽게 되어, 실제 에너지값이 클리핑(clipping)되는 것이다.
이러한 클리핑이 발생했는지 여부를 판단하는 방법은, 상기 A/D 컨버터의 최대값 근처의 특정값을 최대 문턱값으로 사전에 정하고, 입력된 하나의 프레임에 대한 데이터로부터 상기 최대 문턱값을 넘는 샘플이 몇 개인지, 또는 몇 %의 데이터가 상기 최대 문턱값을 넘었는지를 판단하는 것이다. 즉, 하나의 프레임에서 최대문턱값을 넘는 데이터가 사전에 정해진 비율을 넘는 경우는 해당 프레임은 오버플로우가 발생하여 클리핑된 프레임으로 판단하게 되는 것이다. 예를 들어 설명하면, 출력 데이터 해상도(resolution)가 16 비트이고 2의 보수 형식으로 데이터를 표현하는 A/D컨버터의 경우에는 ±32,000을 최대 문턱값으로 정하고, 입력되는 160개의 샘플 데이터 중에서 16개(160 ×10%)의 샘플이 ±32,000을 넘는 경우는 이 프레임에는 오버플로우가 발생하여 입력 데이터가 왜곡되었다고 판단한다. 상기 최대 문턱값을 넘는 데이터의 양을 측정하기 위한 카운터(counter)는 프로그램의 형식으로 CPU를 통하여 구현하는 것이 바람직하다.
상기 최대 문턱값 및 최대 문턱값을 넘는 데이터의 비율은 사전에 결정해 두는 것이 일반적이나, 특정 알고리즘을 통하여 상황에 따라 변동하게 할 수도 있다. 입력 프레임이 왜곡되었다고 판단되면, 상기 특징 추출부(112)는 로우게인 증폭기(230), 및 제2A/D컨버터를 통하여 입력되는 신호로부터 음성 특징을 추출한다. 이렇게 추출된 음성특징은 인식부(120)에 보내지고, 상기 인식부(120)는 사전에 생성해 놓은 음성모델과의 매칭(matching)을 통하여 음성인식을 수행한다.
제4(b)도는 본 발명에 따른 2개의 증폭기를 구비한 음성인식기에 대한 다른 구체예에 대한 개략적인 구성도이다. 상기 음성인식기는 2개의 마이크(210, 210′)를 구비하며, 상기 각각의 마이크에 대하여 하이게인 증폭기(220), 및 로우게인 증폭기(230)가 연결된다. 상기 음성인식기는 2개의 마이크(210, 210′)를 구비함에 따라, 마이크로부터 거리에 따라 달라지는 음량 및 주위 환경으로부터 발생하는 잡음에 대하여 보다 능동적으로 대처할 수 있다.
제4(c)도는 본 발명에 따른 음성인식기의 전처리부에서 행해지는 동작을 개략적으로 도시한 흐름도이다. 도시된 바와 같이, 마이크(210), 증폭기(220, 230), 및 A/D컨버터(240, 250)를 통하여 입력되는 신호는 프레임 단위로 특징추출부(112) 및 끝점검출부(111)에 입력되고(S1), 상기 특징추출부(112)는 하이게인 증폭기(220), 및 제1A/D컨버터를 통하여 입력되는 데이터로부터 왜곡된 데이터인지 여부를 판단한다. 왜곡되지 않은 프레임인 경우는 입력된 신호로부터 음성특징을 추출하여 이를 음성특징 버퍼(buffer)에 임시적으로 저장하고(S2), 왜곡된 프레임으로 판단된 경우는 로우게인 증폭기(230), 및 제2A/D컨버터를 통하여 입력된 데이터로부터 음성특징을 추출하여 음성특징 버퍼에 저장한다(S3). 아울러 상기 끝점검출부(112)는 프레임의 왜곡에 관계없이 하이게인 증폭기(220), 및 제1A/D컨버터를 통하여 입력되는 데이터로부터 끝점을 검출한다(S4). 끝점 검출이 완료되면 음성 입력을 중지하고(S5), 인식부(120)에 상기 음성특징 버퍼에 저장된 데이터를 전달(S6)함으로써 음성인식을 수행하도록 한다. 본 도에서는 음성 특징의 추출이 이루어진 다음에 끝점을 검출하는 것으로 도시되어 있으나, 끝점 검출 후에 특징을 추출하거나, 또는 끝점 추출과 특징 추출이 동시에 이루어질 수도 있다.
본 발명은 끝점 검출에서 누락되는 부분 및 오버플로우(overflow)에 의하여발생하는 클리핑(clipping)을 방지함으로써, 실제 환경에서 발생하는 다양한 잡음 및 마이크와의 거리, 화자의 음량에 영향을 덜 받도록 하고, 입력되는 음성을 보다 정확하게 인식할 수 있는 음성인식기를 제공하는 효과를 갖는다.
본 발명의 단순한 변형 내지 변경은 이 분야의 통상의 지식을 가진 자에 의하여 용이하게 실시될 수 있으며, 이러한 변형이나 변경은 모두 본 발명의 영역에 포함되는 것으로 볼 수 있다.

Claims (6)

  1. 음성을 입력하기 위한 마이크;
    상기 마이크를 통하여 입력된 신호를 증폭하는 제1증폭기 및 제2증폭기;
    상기 제1증폭기 및 제2증폭기를 통하여 증폭된 신호를 각각 A/D 변환하는 제1컨버터 및 제2컨버터;
    상기 제1컨버터로부터 입력되는 디지털신호로부터 음성구간을 검출하는 끝점검출부:
    상기 제1컨버터 및 제2컨버터로부터 입력되는 디지털신호로부터 음성의 특징을 추출하는 특징추출부; 및
    상기 특징추출부로부터 입력되는 음성의 특징으로부터 음성을 인식하는 인식부;
    로 이루어지고, 상기 제1증폭기는 상기 음성신호를 높은 증폭도로 증폭하고, 상기 제2증폭기는 상기 음성신호를 낮은 증폭도로 증폭하고, 그리고 상기 특징추출부는 상기 제1컨버터로부터 입력되는 디지털신호의 왜곡이 심한 경우는 상기 제2컨버터로부터 입력되는 디지털신호로부터 음성의 특징을 추출하는 것을 특징으로 하는 2개의 증폭기를 구비한 음성인식기.
  2. 제1항에 있어서, 상기 특징추출부는 상기 제1컨버터로부터 입력되는 디지털신호로부터 왜곡된 데이터의 양을 측정하는 카운터(counter)를 더 포함하고, 상기 왜곡된 데이터의 양이 사전에 정해진 값 이상인 경우에 상기 제2컨버터로부터 입력되는 디지털신호로부터 음성의 특징을 추출하는 것을 특징으로 하는 2개의 증폭기를 구비한 음성인식기.
  3. 제2항에 있어서, 상기 카운터는 사전에 정해진 문턱값을 넘는 데이터를 왜곡된 데이터로 판단하는 것을 특징으로 하는 2개의 증폭기를 구비한 음성인식기.
  4. 제1항에 있어서, 상기 특징추출부, 끝점검출부, 및 인식부는 프로그램에 의하여 동작하는 CPU에 의해 구현되는 것을 특징으로 하는 2개의 증폭기를 구비한 음성인식기.
  5. 마이크를 통하여 입력되는 음성신호를 높은 증폭도를 갖는 제1증폭기 및 낮은 증폭도를 갖는 제2증폭기를 통하여 각각 증폭하고;
    상기 제1증폭기 및 제2증폭기를 통하여 증폭된 음성신호를 제1컨버터 및 제2컨버터를 통하여 각각 A/D 변환하고;
    상기 제1컨버터에 의해 변환된 디지털 신호로부터 음성구간 검출 및 음성특징 추출을 행하고; 그리고
    상기 제1컨버터에 의해 변환된 디지털 신호의 왜곡이 심한 경우에는 상기 제2컨버터에 의해 변환된 디지털 신호로부터 음성의 특징을 추출하는;
    단계들로 이루어지는 것을 특징으로 하는 음성신호의 전처리방법.
  6. 제5항에 있어서, 상기 제1컨버터로부터 입력되는 데이터 중에서 사전에 정해진 문턱값을 넘는 데이터의 양을 측정하고, 상기 문턱값을 넘는 데이터의 양이 사전에 정해진 값 이상인 경우에 상기 제2컨버터로부터 입력되는 디지털신호로부터 음성의 특징을 추출하는 것을 특징으로 하는 음성신호의 전처리방법.
KR10-2002-0053873A 2002-09-06 2002-09-06 2개의 증폭기를 구비한 음성인식기 및 그 음성인식 방법 KR100501919B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0053873A KR100501919B1 (ko) 2002-09-06 2002-09-06 2개의 증폭기를 구비한 음성인식기 및 그 음성인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0053873A KR100501919B1 (ko) 2002-09-06 2002-09-06 2개의 증폭기를 구비한 음성인식기 및 그 음성인식 방법

Publications (2)

Publication Number Publication Date
KR20040022050A true KR20040022050A (ko) 2004-03-11
KR100501919B1 KR100501919B1 (ko) 2005-07-18

Family

ID=37326001

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0053873A KR100501919B1 (ko) 2002-09-06 2002-09-06 2개의 증폭기를 구비한 음성인식기 및 그 음성인식 방법

Country Status (1)

Country Link
KR (1) KR100501919B1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5870292A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 車両用音声認識装置
JPH05284079A (ja) * 1992-04-03 1993-10-29 Toshiba Corp 電話機
JPH0786952A (ja) * 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> 音声の予測符号化方法
US5574824A (en) * 1994-04-11 1996-11-12 The United States Of America As Represented By The Secretary Of The Air Force Analysis/synthesis-based microphone array speech enhancer with variable signal distortion
US6043721A (en) * 1998-02-04 2000-03-28 Motorola, Inc. Dual band amplifier

Also Published As

Publication number Publication date
KR100501919B1 (ko) 2005-07-18

Similar Documents

Publication Publication Date Title
JP2561850B2 (ja) 音声処理装置
KR101437830B1 (ko) 음성 구간 검출 방법 및 장치
US6651040B1 (en) Method for dynamic adjustment of audio input gain in a speech system
JPH10210075A (ja) 有音検知装置および方法
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
JP4548953B2 (ja) 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム
KR100501919B1 (ko) 2개의 증폭기를 구비한 음성인식기 및 그 음성인식 방법
US6823304B2 (en) Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant
TW200811833A (en) Detection method for voice activity endpoint
KR20180126926A (ko) 바지-인 음성 인식을 위한 신호 처리 장치 및 방법
JP3484559B2 (ja) 音声認識装置および音声認識方法
JP2002041083A (ja) 遠隔制御システムおよび遠隔制御方法、並びに記録媒体
JP5857216B2 (ja) 自動利得制御装置
JP2001312292A (ja) 音声処理装置
JP2007206154A (ja) 実環境騒音下の音声区間の検出
JP2870421B2 (ja) 話速変換機能を有する補聴器
JP2000155600A (ja) 音声認識システムおよび入力音声レベル警告方法
JPH07225592A (ja) 有音区間検出装置
KR20020095502A (ko) 소음환경에서의 끝점 검출 방법
JP3065691B2 (ja) 音声認識装置
KR100915112B1 (ko) 음원 위치 측정을 위한 음성 신호 처리 시스템
KR100531776B1 (ko) 사용자에따른증폭기의이득설정방법
JP3032215B2 (ja) 有音検出装置及びその方法
JP2001117585A (ja) 音声認識方法及び装置
JP5331901B2 (ja) 音声制御装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130620

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20140619

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20150615

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20160617

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20170622

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20180615

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20190626

Year of fee payment: 15