KR20140060187A - 음성인식시스템의 증폭율 조정장치 및 방법 - Google Patents
음성인식시스템의 증폭율 조정장치 및 방법 Download PDFInfo
- Publication number
- KR20140060187A KR20140060187A KR1020120126972A KR20120126972A KR20140060187A KR 20140060187 A KR20140060187 A KR 20140060187A KR 1020120126972 A KR1020120126972 A KR 1020120126972A KR 20120126972 A KR20120126972 A KR 20120126972A KR 20140060187 A KR20140060187 A KR 20140060187A
- Authority
- KR
- South Korea
- Prior art keywords
- volume
- voice
- user
- voice signal
- amplification
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012935 Averaging Methods 0.000 claims abstract description 10
- 230000003321 amplification Effects 0.000 claims description 79
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 79
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G7/00—Volume compression or expansion in amplifiers
- H03G7/002—Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/002—Damping circuit arrangements for transducers, e.g. motional feedback circuits
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Circuit For Audible Band Transducer (AREA)
- Control Of Amplification And Gain Control (AREA)
Abstract
본 발명은 마이크로 입력되는 사용자 음성의 증폭율을 주변 환경 조건에 따라 적정한 레벨로 자동 조절할 수 있도록 하는 음성인식시스템의 증폭율 조정방법이 개시된다.
본 발명은 음성인식서비스의 실행에서 입력된 사용자 음성신호에서 음성음량과 잡음음량을 계산하는 과정; 사용자 음성신호의 음성음량을 평균화하여 평균음량을 계산하는 과정; 사용자 음성신호의 평균음량과 사용자 환경의 잡음음량을 고려하여 목표음량을 결정하고, 목표음량을 추종하도록 앰프의 증폭율 결정하여 볼륨값을 조정하는 과정을 포함한다.
본 발명은 음성인식서비스의 실행에서 입력된 사용자 음성신호에서 음성음량과 잡음음량을 계산하는 과정; 사용자 음성신호의 음성음량을 평균화하여 평균음량을 계산하는 과정; 사용자 음성신호의 평균음량과 사용자 환경의 잡음음량을 고려하여 목표음량을 결정하고, 목표음량을 추종하도록 앰프의 증폭율 결정하여 볼륨값을 조정하는 과정을 포함한다.
Description
본 발명은 음성인식시스템에 관한 것으로, 보다 상세하게는 마이크로 입력되는 사용자 음성의 증폭율을 주변 환경 조건에 따라 적정한 레벨로 자동 조절할 수 있도록 하는 음성인식시스템의 증폭율 조정장치 및 방법에 관한 것이다.
음성인식시스템은 마이크로 입력되는 음성을 인식한 다음 문자로 변환시켜 음성 명령에 대한 동작이 실행될 수 있도록 한다.
음성인식시스템은 마이크로 입력되는 음성이 적절한 음량을 갖는 경우 인식성능에 큰 차이가 없으나, 주변소음이 크거나 입력되는 음량이 낮은 경우에는 인식률이 현격하게 떨어지게 된다.
이러한 경우 음성인식시스템은 잘못 인식된 결과를 확인 요청하거나 음성 인식의 실패를 안내하고, 음성의 재입력을 요청하므로 사용자에게 불편을 제공하게 한다.
마이크로 입력되는 음성의 세기가 정상적인 음성 보다 작은 경우 동일한 신호대 잡음비(Signal to Noise Ratio)의 조건에서 인식률이 떨어진다.
실험에 의하면 신호대 잡음비가 5dB일 때 정상적인 음성의 음량은 -25dB로 검출되었으나 정상 음성 보다 작은 음성의 음량은 -37dB로 검출되어, 정상적인 음성에 비하여 음성 인식률이 12% 감소됨을 알 수 있었다(94% → 82%).
예를 들어, 사무실 등의 조용한 환경에서는 입력 음성의 음량이 작아도 인식률에 큰 변화를 가져오지 않으나, 차량이나 지하철 등과 같이 잡음 신호가 큰 시끄러운 환경에서는 인식률의 현저한 저하를 가져온다.
도 4 및 도 5는 종래의 음성인식시스템에서 신호대 잡음비에 따른 음성인식율을 도시한 그래프이다.
도시된 바와 같이 입력되는 음성에 대하여 신호대 잡음(S/N)비가 낮아지면 인식률이 낮아지고, 특히 특정 음량(예를 들어 6dB)을 경계로 급격히 낮아지는 특성을 나타나는 것을 확인할 수 있다.
현재 스마트폰이나 차량용 네이게이션 시스템에 적용된 음성인식기술의 서비스를 이용하기 위해서는 조용한 환경에서 사용되어야 하고, 시끄러운 환경에서 서비스를 이용하기 위해서는 입력 음성을 크게 하기 위한 별도의 노력이 수반되어야 하므로 불편함을 발생시킬 수 있다.
차량에 적용된 음성인식시스템은 마이크의 위치가 정해져 있기 때문에 각 운전자의 신체 조건이나 각각의 운전자 음성이 갖는 고유의 음량에 의해 마이크로 입력되는 음량은 일정하지 않게 된다.
따라서, 마이크 종류와 마이크의 장착 위치에 따라 앰프(AMP)의 증폭율을 시험에 의하여 조정을 하고 있으나 운전자와 마이크 사이의 거리가 멀어지거나 운전자 음성이 갖는 음량이 낮은 경우에는 운전자가 입력하는 음성의 음량이 낮아지게 되므로, 이와 같은 사용자 조건 및 환경 조건을 적용하여 최적의 음성 인식 성능이 제공될 수 있도록 증폭율을 조정해야 한다.
입력신호를 일정한 크기로 조절하는 방법으로 자동이득조절(Automatic Gain Control)기법을 1925년 Harold Alden Wheeler가 자동볼륨제어(Automatic Volume Control : AVC)를 개발하였고, 1928년 칼 큐프뮬러가 자동이득조절(AGC) 시스템의 분석에 대한 서적을 출판하였으며, 1930년대에는 모든 방송기기에 사용되었다.
자동이득조절(AGC)은 라디오 수신기 뿐 아니라 레이더, 오디오, 비디오, 전화기 등 전자분야 뿐아니라 생물학 분야에서도 처리할 수 있는 레벨안으로 신호의 크기를 조정하기 위해 널리 사용되고 있다.
자동이득조절(AGC)은 입력되는 신호를 실시간으로 분석하여 음량을 조절하기 때문에 사용하는 사람이 별도로 음량을 조절하지 않아도 되는 편리함을 제공한다.
최근들어 음성인식시스템에서는 HMM(Hidden Markov Model)방식을 이용하여 문자와 음성간의 관계를 분석할 수 있는 기준(Reference)패턴을 만들어 사용하는데, 이를 음향모델(Acoustic Model)이라고 한다.
음향모델을 만들기 위해서는 다양한 사람들의 음성을 녹음하여야 하고, 녹음을 할 때는 음량이 상대적으로 너무 크거나 너무 작아서 디지털화 범위를 벗어나지 않도록 해야한다.
이를 위해 음향모델을 만들기 위한 녹음장치에는 입력되는 음성이 일정한 크기의 범위내에 들어가는지를 검사하는 기능을 가지고 있어 너무 크거나 작은 음량이 녹음되는 것을 미리 방지한다.
음향모델을 만들기 위해 다양한 사람들의 음성을 녹음할 때 자동이득조절(AGC)을 사용하게 되면 음성 주파수와 에너지 정보 및 시간적인 변화량의 정보를 포함하는 음성에서 시간적인 변화량의 정보를 변화시켜 왜곡시키게 된다.
따라서, 사람에 따른 시간적인 변화량에 대한 차이가 없게 되어 음성인식시스템의 성능을 저하시키므로, 현재의 음성인식시스템에서는 음성 입력단에 자동이득조절(AGC)을 사용하지 않고 있으며, 마이크로 입력되는 음성을 증폭하는 앰프의 증폭율을 고정시켜 사용하고 있다.
상기와 같이 입력되는 음성을 증폭하는 앰프의 증폭율을 고정하게 되면 사용자가 입력하는 음량의 작고 큼에 상관없이 항상 일정하게 증폭하므로 사용환경이 시끄럽거나 사용자 음성의 음량이 작은 경우는 음성인식 성능을 저하시키게 된다.
본 발명은 이러한 문제점을 해결하고자 개발된 것으로, 그 목적은 마이크로 입력되는 사용자 음성의 음량에 대한 증폭율을 주변 환경 조건에 따라 적정한 레벨로 자동 조절하여 사용 환경과 사용자에 따라 달라지는 입력 음성에 대하여 최적의 인식성능을 제공하고자 한다.
본 발명은 이전 음성인식에서 입력된 음량들로 사용자의 평균음량을 계산하고, 이를 기반으로 앰프의 증폭율을 비선형적으로 조절하여 사용 환경이나 사용자에 관계없이 최적의 인식 성능을 제공하고자 한다.
본 발명의 실시예에 따르는 특징은 소정 공간에 설치되고, 사용자의 입력 음성을 수집하여 전기적 신호로 변환시키는 마이크; 마이크에서 제공되는 사용자 음성신호를 볼륨으로 조정된 음량으로 증폭하는 앰프; 상기 앰프의 증폭율을 조정하는 볼륨; 앰프에서 증폭된 아날로그 음성신호를 마이크로 프로세스가 인식하는 디지털 신호로 변환시키는 A/D변환기; A/D변환기에서 디지털 신호로 변환된 사용자 음성신호를 지정된 영역에 저장하는 제1DB; 제1DB에 저장된 음성신호를 분석하여 문자로 변환하는 음성인식기; 상기 음성인식기의 문자 변환이 완료되면 제1DB에서 문자로 변환된 사용자 음성신호를 추출하여 음성의 시작점과 끝점을 분석하고, 음성신호를 구성하는 음성음량과 잡음음량을 계산하는 음량계산부; 상기 음량계산부에서 계산된 사용자 음성신호의 음성음량과 잡음음량을 지정된 영역에 저장하는 제2DB; 사용자 음성신호의 음성음량을 평균화하여 평균음량을 판단하고, 사용자 환경의 잡음음량을 고려하여 앰프의 증폭율 비선형적으로 결정하여 볼륨값을 조정하는 음량조정부를 포함하는 음성인식시스템의 증폭율 조정장치가 제공된다.
상기 음량계산부는 음성인식기에서 제공되는 음성신호의 시작점과 끝점 정보를 이용하여 사용자 음성의 음성음량과 잡음음량을 계산할 수 있다.
상기 음량조정부는 음성인식 서비스 제공 전에 음성인식을 위한 목표음량에 대한 최소, 최대값, 목표음량을 위한 증폭율, 음량을 조정할 상태, 잡음음량에 대한 임계값을 포함하여 음량조정을 위한 초기 정보들을 설정할 수 있다.
상기 음량조정부는 사용자 음성신호의 평균음량과 사용자 환경의 잡음음량을 고려하여 목표음량을 결정하고, 비선형적 증폭방식으로 목표음량을 추종하는 증폭율을 결정하여 볼륨을 조정할 수 있다.
상기 음량조정부는 사용자 음성신호의 평균음량이 잡음음량보다 낮은 경우는 목표음량이 입력될 수 있도록 증폭률을 결정하여 볼륨을 조정할 수 있다.
상기 음량조정부는 사용자의 평균음량이 목표음량 보다 크면 증폭의 한계값까지 선형적으로 증폭되도록 증폭율을 계산하여 볼륨을 조정할 수 있다.
상기 음량조정부는 사용자의 평균음량 보다 잡음음량이 너무 큰 경우 앰프의 증폭율을 제어하지 않을 수 있다.
또한, 본 발명의 다른 실시예에 따르는 특징은 음성인식서비스의 실행에서 입력된 사용자 음성신호에서 음성음량과 잡음음량을 계산하는 과정; 상기 계산된 사용자 음성신호의 음성음량을 평균화하여 평균음량을 계산하는 과정; 상기 사용자 음성신호의 평균음량과 사용자 환경의 잡음음량을 고려하여 목표음량을 결정하고, 목표음량을 추종하도록 앰프의 증폭율 결정하여 볼륨값을 조정하는 과정을 포함하는 음성인식시스템의 증폭율 조정방법이 제공된다.
상기 사용자 음성신호에 대한 음성음량과 잡음음량의 계산은 음성신호의 시작점과 끝점 정보를 이용하여 계산할 수 있다.
상기 목표음량을 추종하도록 하는 증폭율은 비선형적 증폭방식으로 결정할 수 있다.
상기 사용자 음성신호의 평균음량이 잡음음량보다 낮은 경우는 목표음량이 입력될 수 있도록 증폭률을 높게 결정하여 볼륨을 조정할 수 있다.
상기 사용자의 평균음량이 목표음량 보다 크면 증폭의 한계값까지 선형적으로 증폭되도록 증폭율을 계산하여 볼륨을 조정할 수 있다.
상기 사용자의 평균음량 보다 잡음음량이 너무 큰 경우 앰프의 증폭율을 제어하지 않을 수 있다.
또한, 본 발명의 다른 실시예에 따르면 사용자의 입력 음성을 수집하는 마이크; 마이크에서 수집된 음성신호를 볼륨으로 조정된 음량으로 증폭하는 앰프; 앰프의 증폭율을 조정하는 볼륨; 앰프에서 증폭된 아날로그 음성신호를 디지털 신호로 변환시키는 A/D변환기; 디지털 신호로 변환된 사용자 음성신호를 저장하는 제1DB; 제1DB에 저장된 음성신호를 분석하여 문자로 변환하는 음성인식기를 포함하는 음성인식시스템에 있어서, 상기 음성인식기에서 문자로 변환된 사용자 음성신호의 시작점과 끝점을 분석하고, 음성신호를 구성하는 음성음량과 잡음음량을 계산하는 음량계산부; 상기 사용자 음성신호의 음성음량을 평균화하여 평균음량을 추출하고, 사용자 환경의 잡음음량에 따라 앰프의 증폭율 비선형적으로 결정하여 볼륨값을 조정하는 음량조정부를 포함하는 음성인식시스템의 증폭율 조정장치가 제공된다.
이와 같이 본 발명은 사용자의 신체 조건이나 사용되는 환경, 사용자 음성의 음량에 관계없이 음성인식 성능이 최대가 되는 음량이 입력될 수 있어 최적의 인식환경을 제공하므로 음성인식시스템의 사용에 최적의 성능 및 만족감을 제공할 수 있다.
도 1은 본 발명의 실시예에 따른 음성인식시스템의 증폭율 조절장치를 개략적으로 도시한 도면이다.
도 2는 본 발명의 실시예에 따른 음성인식시스템의 증폭율 조절절차를 도시한 흐름도이다.
도 3은 본 발명의 실시예에 따른 음성인식시스템의 증폭율 조절 전후의 인식율을 비교한 그래프이다.
도 4 및 도 5는 종래의 음성인식시스템에서 신호대 잡음비에 따른 음성인식율을 도시한 그래프이다.
도 6은 종래의 음성인식시스템에서 동일한 신호대 잡음비에서 음성 음량과 인식율을 도시한 도면이다.
도 2는 본 발명의 실시예에 따른 음성인식시스템의 증폭율 조절절차를 도시한 흐름도이다.
도 3은 본 발명의 실시예에 따른 음성인식시스템의 증폭율 조절 전후의 인식율을 비교한 그래프이다.
도 4 및 도 5는 종래의 음성인식시스템에서 신호대 잡음비에 따른 음성인식율을 도시한 그래프이다.
도 6은 종래의 음성인식시스템에서 동일한 신호대 잡음비에서 음성 음량과 인식율을 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세하게 설명하면 다음과 같다.
본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 부여한다.
또한, 도면에서 나타난 각 구성은 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도면에 도시된 바에 한정되지 않는다.
도 1은 본 발명의 실시예에 따른 음성인식시스템의 증폭율 조절장치를 개략적으로 도시한 도면이다.
도 1을 참조하면, 본 발명의 실시예에 따른 음성인식시스템의 증폭율 조절장치는 마이크(101)와 앰프(102), A/D변환기(103), 제1DB(104), 음성인식기(105), 음량계산부(106), 제2DB(107), 음량조정부(108) 및 볼륨(109)을 포함한다.
마이크(101)는 소정의 공간에 설치되며, 사용자가 입력하는 음성을 수집한 다음 전기적 신호로 변환시켜 앰프(102)에 제공한다.
앰프(102)는 마이크(101)에서 제공되는 사용자의 음성신호를 볼륨(109)으로 조정된 소정의 음량으로 증폭하여 A/D변환기(103)에 제공한다.
A/D변환기(103)는 앰프(102)에서 소정의 음량으로 증폭된 아날로그 음성신호를 마이크로 프로세스가 인식할 수 있도록 디지털 신호로 변환시켜 제1DB(104)에 저장한다.
제1DB(104)는 상기 A/D변환기(103)에서 디지털 신호로 변환되어 인가되는 사용자의 음성신호를 지정된 영역에 저장한다.
음성인식기(105)는 상기 제1DB(104)에 저장된 사용자의 음성신호를 분석하여 인식한 다음 문자로 변환한다.
음량계산부(106)는 상기 음성인식기(105)에서 음성신호의 분석이 완료되어 문자로 변환되면 제1DB(104)로부터 문자로 변환된 음성신호를 추출한 다음 음성의 시작점과 끝점을 분석하여 음성신호를 구성하는 음성음량과 잡음음량을 계산하고, 계산된 결과를 음량조정부(108)에 통지한다.
상기 음량계산부(106)는 음성인식기(105)로부터 문자로 변환된 음성신호에 대한 음성의 시작점과 끝점에 대한 정보가 제공되는 경우 해당 정보를 이용하여 음성신호를 구성하는 음성음량과 잡음음량을 계산한다.
제2DB(107)는 음성인식 서비스의 실행에 따라 계산되는 사용자의 음성신호를 구성하는 음성음량과 잡음음량을 지정된 영역에 저장한다.
음량조정부(108)는 음성인식 서비스가 제공되기 전에 음성인식을 위한 목표음량의 최소, 최대값과 목표음량을 위한 증폭율, 음량을 조정할 상태, 잡음음량에 대한 임계값 등을 포함하여 음량 조정을 위한 초기 정보들을 설정한다.
음량조정부(108)는 이전 음성인식 서비스의 실행에서 제2DB(107)에 저장된 사용자 음성신호를 구성하는 음성음량과 잡음음량을 평균화하여 사용자의 평균음량을 판단하고, 사용자 환경의 잡음음량을 고려하여 최적의 목표음량을 결정하며, 목표음량을 추종하는 앰프(102)의 증폭율 비선형적으로 결정하여 결정된 증폭율로 볼륨(109)값을 조정한다.
상기 음량조정부(108)는 사용자의 평균음량이 잡음음량보다 낮은 경우는 목표음량이 입력될 수 있도록 증폭률을 계산하여 볼륨(209)을 조정한다.
상기 음량조정부(108)는 사용자의 평균음량이 적정음량 크기내에 포함되는 경우 현재의 증폭율을 유지하여 볼륨(109)을 현재의 상태로 유지하며, 사용자의 평균음량이 목표음량 보다 크면 증폭의 한계값까지 선형적으로 증폭되도록 증폭율을 결정하여 볼륨(109)을 조정한다.
상기 음량조정부(108)는 사용자의 평균음량 보다 잡음음량이 너무 큰 경우 앰프(102)의 증폭도를 제어하지 않는 선택적 증폭방식을 적용한다.
전술한 바와 같은 기능을 포함하는 음성인식시스템에서 증폭율을 조정하는 동작은 다음과 같이 실행된다.
사용자가 음성인식시스템의 특정 기능을 작동시키기 위해 소정의 공간에 설치된 마이크(101)를 향하여 음성 명령을 입력하게 되면(S101), 마이크(101)는 사용자가 입력하는 음성을 수집하여 전기적 신호로 변환시켜 앰프(102)에 제공한다.
앰프(102)는 마이크(101)에서 제공되는 사용자의 음성신호를 볼륨(109)으로 조정된 소정의 음량으로 증폭하여 A/D변환기(103)에 제공한다(S102).
상기 A/D변환기(103)는 앰프(102)에서 소정의 음량으로 증폭된 아날로그 음성신호를 마이크로 프로세스가 인식할 수 있도록 디지털 신호로 변환시켜 제1DB(104)의 지정된 영역에 저장하고, 사용자의 음성이 입력된 정보를 음성인식기(105)에 제공한다.
이때, 음성인식기(105)는 상기 제1DB(104)에 저장된 사용자의 음성신호를 분석하여 인식한 다음 문자로 변환하고, 문자 인식이 완료되었음을 음량계산부(106)에 제공한다(S103).
음량계산부(106)는 상기 음성인식기(105)에서의 문자 변환 완료에 따라 제1DB(104)로부터 문자로 변환된 음성신호를 추출한 다음 음성의 시작점과 끝점을 분석하여(S104) 음성신호를 구성하는 음성음량과 잡음음량을 계산한다(S105).
그리고, 음량계산부(106)는 음성음량과 잡음음량의 계산결과를 음량조정부(108)에 제공한다.
음량조정부(108)는 이전의 음성인식 서비스에서 제2DB(107)에 저장된 사용자 음성신호를 구성하는 음성음량과 잡음음량을 평균화하여 사용자의 평균음량을 판단하고(S106), 사용자 환경의 잡음음량을 고려하여 적정한 음량이 입력되도록 앰프(102)의 증폭율 비선형적으로 결정한 다음(S107) 결정된 증폭율로 볼륨(109)값을 조정한다.
상기 음량조정부(108)는 제2DB(107)에 저장된 사용자 음성신호를 구성하는 음성음량과 잡음음량을 평균화하여 사용자의 평균음량을 판단하고, 사용자 환경의 잡음음량을 고려하여 목표음량을 결정하며, 점진적인 비선형적 증폭방식으로 목표음량을 추종하는 증폭율을 결정하고, 결정된 증폭율로 볼륨(109)을 조정한다.
상기 음량조정부(108)는 사용자의 평균음량이 잡음음량보다 낮은 경우는 목표음량이 입력될 수 있도록 증폭률을 계산하여 볼륨(209)을 조정한다.
상기 음량조정부(108)는 사용자의 평균음량이 적정음량 크기내에 포함되는 경우 현재의 증폭율을 유지하여 볼륨(109)을 현재의 상태로 유지한다.
또한, 상기 음량조정부(108)는 사용자의 평균음량이 목표음량 보다 크면 증폭의 한계값까지 선형적으로 증폭되도록 증폭율을 계산하여 볼륨(109)을 조정한다.
상기 음량조정부(108)는 사용자의 평균음량 보다 잡음음량이 너무 큰 경우 앰프(102)의 증폭도를 제어하지 않는 선택적 증폭방식을 적용한다.
상기한 절차를 통해 음량조정부(108)는 음성인식 서비스가 제공되기 전에 음성인식을 위한 목표음량의 최소, 최대값과 목표음량을 위한 증폭율, 음량을 조정할 상태, 잡음음량에 대한 임계값 등을 포함하여 음량 조정을 위한 초기 정보들을 설정한다.
도 3은 본 발명의 실시예에 따른 음성인식시스템의 증폭율 조절 전후의 인식율을 비교한 그래프로, 도시된 바와 같이 붉은 색의 증폭된 음량이 파란색의 사용자 입력 음성을 추종하므로 거의 동일 내지 유사한 인식률을 보여주고 있다.
이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술 사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.
101 : 마이크 102 : 앰프
103 : A/D변환기 104 : 제1DB
105 : 음성인식기 106 : 음량계산부
107 : 제2DB 108 : 음량조정부
109 : 볼륨
103 : A/D변환기 104 : 제1DB
105 : 음성인식기 106 : 음량계산부
107 : 제2DB 108 : 음량조정부
109 : 볼륨
Claims (14)
- 소정 공간에 설치되고, 사용자의 입력 음성을 수집하여 전기적 신호로 변환시키는 마이크;
마이크에서 제공되는 사용자 음성신호를 볼륨으로 조정된 음량으로 증폭하는 앰프;
상기 앰프의 증폭율을 조정하는 볼륨;
앰프에서 증폭된 아날로그 음성신호를 마이크로 프로세스가 인식하는 디지털 신호로 변환시키는 A/D변환기;
A/D변환기에서 디지털 신호로 변환된 사용자 음성신호를 지정된 영역에 저장하는 제1DB;
제1DB에 저장된 음성신호를 분석하여 문자로 변환하는 음성인식기;
상기 음성인식기의 문자 변환이 완료되면 제1DB에서 문자로 변환된 사용자 음성신호를 추출하여 음성의 시작점과 끝점을 분석하고, 음성신호를 구성하는 음성음량과 잡음음량을 계산하는 음량계산부;
상기 음량계산부에서 계산된 사용자 음성신호의 음성음량과 잡음음량을 지정된 영역에 저장하는 제2DB;
상기 계산된 사용자 음성신호의 음성음량을 평균화하여 평균음량을 판단하고, 사용자 환경의 잡음음량을 고려하여 앰프의 증폭율 비선형적으로 결정하여 볼륨값을 조정하는 음량조정부;
를 포함하는 음성인식시스템의 증폭율 조정장치. - 제1항에 있어서,
상기 음량계산부는 음성인식기에서 제공되는 음성신호의 시작점과 끝점 정보를 이용하여 사용자 음성의 음성음량과 잡음음량을 계산하는 음성인식시스템의 증폭율 조정장치. - 제1항에 있어서,
상기 음량조정부는 음성인식 서비스 제공 전에 음성인식을 위한 목표음량에 대한 최소, 최대값, 목표음량을 위한 증폭율, 음량을 조정할 상태, 잡음음량에 대한 임계값을 포함하여 음량조정을 위한 초기 정보들을 설정하는 음성인식시스템의 증폭율 조정장치. - 제1항에 있어서,
상기 음량조정부는 사용자 음성신호의 평균음량과 사용자 환경의 잡음음량을 고려하여 목표음량을 결정하고, 비선형적 증폭방식으로 목표음량을 추종하는 증폭율을 결정하여 볼륨을 조정하는 음성인식시스템의 증폭율 조정장치. - 제1항 또는 제4항 중 어느 한 항에 있어서,
상기 음량조정부는 사용자 음성신호의 평균음량이 잡음음량보다 낮은 경우는 목표음량이 입력될 수 있도록 증폭률을 결정하여 볼륨을 조정하는 음성인식시스템의 증폭율 조정장치. - 제1항 또는 제4항 중 어느 한 항에 있어서,
상기 음량조정부는 사용자의 평균음량이 목표음량 보다 크면 증폭의 한계값까지 선형적으로 증폭되도록 증폭율을 계산하여 볼륨을 조정하는 음성인식시스템의 증폭율 조정장치. - 제1항에 있어서,
상기 음량조정부는 사용자의 평균음량 보다 잡음음량이 너무 큰 경우 앰프의 증폭율을 제어하지 않는 음성인식시스템의 증폭율 조정장치. - 음성인식서비스의 실행에서 입력된 사용자 음성신호에서 음성음량과 잡음음량을 계산하는 과정;
상기 계산된 사용자 음성신호의 음성음량을 평균화하여 평균음량을 계산하는 과정;
상기 사용자 음성신호의 평균음량과 사용자 환경의 잡음음량을 고려하여 목표음량을 결정하고, 목표음량을 추종하도록 앰프의 증폭율 결정하여 볼륨값을 조정하는 과정;
을 포함하는 음성인식시스템의 증폭율 조정방법. - 제8항에 있어서,
상기 사용자 음성신호에 대한 음성음량과 잡음음량의 계산은 음성신호의 시작점과 끝점 정보를 이용하는 계산하는 음성인식시스템의 증폭율 조정방법. - 제8항에 있어서,
상기 목표음량을 추종하도록 하는 증폭율은 비선형적 증폭방식으로 결정하는 음성인식시스템의 증폭율 조정방법. - 제8항에 있어서,
상기 사용자 음성신호의 평균음량이 잡음음량보다 낮은 경우는 목표음량이 입력될 수 있도록 증폭률을 높게 결정하여 볼륨을 조정하는 음성인식시스템의 증폭율 조정방법. - 제8항에 있어서,
상기 사용자의 평균음량이 목표음량 보다 크면 증폭의 한계값까지 선형적으로 증폭되도록 증폭율을 계산하여 볼륨을 조정하는 음성인식시스템의 증폭율 조정방법. - 제8항에 있어서,
상기 사용자의 평균음량 보다 잡음음량이 너무 큰 경우 앰프의 증폭율을 제어하지 않는 음성인식시스템의 증폭율 조정방법. - 사용자의 입력 음성을 수집하는 마이크; 마이크에서 수집된 음성신호를 볼륨으로 조정된 음량으로 증폭하는 앰프; 앰프의 증폭율을 조정하는 볼륨; 앰프에서 증폭된 아날로그 음성신호를 디지털 신호로 변환시키는 A/D변환기; 디지털 신호로 변환된 사용자 음성신호를 저장하는 제1DB; 제1DB에 저장된 음성신호를 분석하여 문자로 변환하는 음성인식기를 포함하는 음성인식시스템에 있어서,
상기 음성인식기에서 문자로 변환된 사용자 음성신호의 시작점과 끝점을 분석하고, 음성신호를 구성하는 음성음량과 잡음음량을 계산하는 음량계산부;
상기 사용자 음성신호의 음성음량을 평균화하여 평균음량을 추출하고, 사용자 환경의 잡음음량에 따라 앰프의 증폭율 비선형적으로 결정하여 볼륨값을 조정하는 음량조정부;
를 포함하는 음성인식시스템의 증폭율 조정장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120126972A KR101405202B1 (ko) | 2012-11-09 | 2012-11-09 | 음성인식시스템의 증폭율 조정장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020120126972A KR101405202B1 (ko) | 2012-11-09 | 2012-11-09 | 음성인식시스템의 증폭율 조정장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140060187A true KR20140060187A (ko) | 2014-05-19 |
KR101405202B1 KR101405202B1 (ko) | 2014-06-10 |
Family
ID=50889728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120126972A KR101405202B1 (ko) | 2012-11-09 | 2012-11-09 | 음성인식시스템의 증폭율 조정장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101405202B1 (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020067666A1 (ko) * | 2018-09-28 | 2020-04-02 | 주식회사 솔루게이트 | 버추얼 상담 시스템 및 이를 이용한 상담방법 |
CN111105798A (zh) * | 2018-10-29 | 2020-05-05 | 宁波方太厨具有限公司 | 基于语音识别的设备控制方法 |
CN111192573A (zh) * | 2018-10-29 | 2020-05-22 | 宁波方太厨具有限公司 | 基于语音识别的设备智能化控制方法 |
CN115065849A (zh) * | 2022-06-06 | 2022-09-16 | 北京字跳网络技术有限公司 | 音频录制方法、装置及电子设备 |
KR102490053B1 (ko) * | 2022-10-28 | 2023-01-18 | (주)우보재난시스템 | 예경보방송 전달내용을 문자로 변환하여 응답하는 ai 예경보 방송 시스템 및 방법 |
KR102490049B1 (ko) * | 2022-10-28 | 2023-01-18 | (주)우보재난시스템 | 예경보방송 전달내용을 문자로 변환하여 응답하는 ai 예경보 방송장치 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102371770B1 (ko) | 2015-01-19 | 2022-03-07 | 삼성전자주식회사 | 음성 인식 장지 및 방법 |
KR20200084727A (ko) | 2019-01-03 | 2020-07-13 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19939102C1 (de) | 1999-08-18 | 2000-10-26 | Siemens Ag | Verfahren und Anordnung zum Erkennen von Sprache |
JP2001117585A (ja) | 1999-10-15 | 2001-04-27 | Nec Home Electronics Ltd | 音声認識方法及び装置 |
KR20090101706A (ko) * | 2008-03-24 | 2009-09-29 | 최윤정 | 차량용 메시지 시스템을 포함한 원격 예약을 통한 자동콘트롤 시스템과 음성인식제어시스템 |
KR20100047740A (ko) * | 2008-10-29 | 2010-05-10 | 주식회사 대우일렉트로닉스 | 볼륨 제어 장치 및 방법 |
-
2012
- 2012-11-09 KR KR1020120126972A patent/KR101405202B1/ko active IP Right Grant
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020067666A1 (ko) * | 2018-09-28 | 2020-04-02 | 주식회사 솔루게이트 | 버추얼 상담 시스템 및 이를 이용한 상담방법 |
US11837251B2 (en) | 2018-09-28 | 2023-12-05 | Solugate Inc. | Virtual counseling system and counseling method using the same |
CN111105798A (zh) * | 2018-10-29 | 2020-05-05 | 宁波方太厨具有限公司 | 基于语音识别的设备控制方法 |
CN111192573A (zh) * | 2018-10-29 | 2020-05-22 | 宁波方太厨具有限公司 | 基于语音识别的设备智能化控制方法 |
CN111192573B (zh) * | 2018-10-29 | 2023-08-18 | 宁波方太厨具有限公司 | 基于语音识别的设备智能化控制方法 |
CN111105798B (zh) * | 2018-10-29 | 2023-08-18 | 宁波方太厨具有限公司 | 基于语音识别的设备控制方法 |
CN115065849A (zh) * | 2022-06-06 | 2022-09-16 | 北京字跳网络技术有限公司 | 音频录制方法、装置及电子设备 |
CN115065849B (zh) * | 2022-06-06 | 2023-11-14 | 北京字跳网络技术有限公司 | 音频录制方法、装置及电子设备 |
KR102490053B1 (ko) * | 2022-10-28 | 2023-01-18 | (주)우보재난시스템 | 예경보방송 전달내용을 문자로 변환하여 응답하는 ai 예경보 방송 시스템 및 방법 |
KR102490049B1 (ko) * | 2022-10-28 | 2023-01-18 | (주)우보재난시스템 | 예경보방송 전달내용을 문자로 변환하여 응답하는 ai 예경보 방송장치 |
Also Published As
Publication number | Publication date |
---|---|
KR101405202B1 (ko) | 2014-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101405202B1 (ko) | 음성인식시스템의 증폭율 조정장치 및 방법 | |
US8538043B2 (en) | Apparatus for processing an audio signal and method thereof | |
JP2953397B2 (ja) | ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器 | |
WO2010131470A1 (ja) | ゲイン制御装置及びゲイン制御方法、音声出力装置 | |
CN101790843B (zh) | 用于任何期望的压缩曲线的可变自动限幅控制(alc)阈值 | |
EP2631907A1 (en) | Method and apparatus for audio intelligibility enhancement | |
US10461712B1 (en) | Automatic volume leveling | |
US7835773B2 (en) | Systems and methods for adjustable audio operation in a mobile communication device | |
US10466959B1 (en) | Automatic volume leveler | |
CN105324937A (zh) | 音量控制速率 | |
CN110660408B (zh) | 一种数字自动控制增益的方法和装置 | |
US9391575B1 (en) | Adaptive loudness control | |
KR102591447B1 (ko) | 음성 신호 레벨링 | |
CN112581960A (zh) | 语音唤醒方法、装置、电子设备及可读存储介质 | |
US20090252347A1 (en) | Method and Apparatus For Automatic Gain Control | |
US20120014539A1 (en) | Signal processing apparatus, semiconductor chip, signal processing system, and method of processing signal | |
US9614486B1 (en) | Adaptive gain control | |
EP4289066A1 (en) | Two-stage digital automatic gain control | |
CN202841067U (zh) | 放大器电路 | |
CN112235462A (zh) | 语音调节方法、系统、电子设备及计算机可读存储介质 | |
JPH11220345A (ja) | 自動利得制御装置 | |
US12132458B2 (en) | Long-term signal estimation during automatic gain control | |
JP7423156B2 (ja) | 音声処理装置および音声処理方法 | |
CN104716917B (zh) | 公共广播声压自适应控制方法 | |
US8169260B2 (en) | Amplifier circuit utilizing characteristic correction and smooth curvilinear correction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180530 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20190528 Year of fee payment: 6 |