KR20140060187A - 음성인식시스템의 증폭율 조정장치 및 방법 - Google Patents

음성인식시스템의 증폭율 조정장치 및 방법 Download PDF

Info

Publication number
KR20140060187A
KR20140060187A KR1020120126972A KR20120126972A KR20140060187A KR 20140060187 A KR20140060187 A KR 20140060187A KR 1020120126972 A KR1020120126972 A KR 1020120126972A KR 20120126972 A KR20120126972 A KR 20120126972A KR 20140060187 A KR20140060187 A KR 20140060187A
Authority
KR
South Korea
Prior art keywords
volume
voice
user
voice signal
amplification
Prior art date
Application number
KR1020120126972A
Other languages
English (en)
Other versions
KR101405202B1 (ko
Inventor
양옥식
김대중
김순용
김재인
Original Assignee
현대자동차주식회사
기아자동차주식회사
미디어젠(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 기아자동차주식회사, 미디어젠(주) filed Critical 현대자동차주식회사
Priority to KR1020120126972A priority Critical patent/KR101405202B1/ko
Publication of KR20140060187A publication Critical patent/KR20140060187A/ko
Application granted granted Critical
Publication of KR101405202B1 publication Critical patent/KR101405202B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/002Damping circuit arrangements for transducers, e.g. motional feedback circuits

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

본 발명은 마이크로 입력되는 사용자 음성의 증폭율을 주변 환경 조건에 따라 적정한 레벨로 자동 조절할 수 있도록 하는 음성인식시스템의 증폭율 조정방법이 개시된다.
본 발명은 음성인식서비스의 실행에서 입력된 사용자 음성신호에서 음성음량과 잡음음량을 계산하는 과정; 사용자 음성신호의 음성음량을 평균화하여 평균음량을 계산하는 과정; 사용자 음성신호의 평균음량과 사용자 환경의 잡음음량을 고려하여 목표음량을 결정하고, 목표음량을 추종하도록 앰프의 증폭율 결정하여 볼륨값을 조정하는 과정을 포함한다.

Description

음성인식시스템의 증폭율 조정장치 및 방법{APPARATUS FOR CONTROLLING AMPLIFIER GAIN IN VOICE RECOGNITION SYSTEM AND METHOD THEREOF}
본 발명은 음성인식시스템에 관한 것으로, 보다 상세하게는 마이크로 입력되는 사용자 음성의 증폭율을 주변 환경 조건에 따라 적정한 레벨로 자동 조절할 수 있도록 하는 음성인식시스템의 증폭율 조정장치 및 방법에 관한 것이다.
음성인식시스템은 마이크로 입력되는 음성을 인식한 다음 문자로 변환시켜 음성 명령에 대한 동작이 실행될 수 있도록 한다.
음성인식시스템은 마이크로 입력되는 음성이 적절한 음량을 갖는 경우 인식성능에 큰 차이가 없으나, 주변소음이 크거나 입력되는 음량이 낮은 경우에는 인식률이 현격하게 떨어지게 된다.
이러한 경우 음성인식시스템은 잘못 인식된 결과를 확인 요청하거나 음성 인식의 실패를 안내하고, 음성의 재입력을 요청하므로 사용자에게 불편을 제공하게 한다.
마이크로 입력되는 음성의 세기가 정상적인 음성 보다 작은 경우 동일한 신호대 잡음비(Signal to Noise Ratio)의 조건에서 인식률이 떨어진다.
실험에 의하면 신호대 잡음비가 5dB일 때 정상적인 음성의 음량은 -25dB로 검출되었으나 정상 음성 보다 작은 음성의 음량은 -37dB로 검출되어, 정상적인 음성에 비하여 음성 인식률이 12% 감소됨을 알 수 있었다(94% → 82%).
예를 들어, 사무실 등의 조용한 환경에서는 입력 음성의 음량이 작아도 인식률에 큰 변화를 가져오지 않으나, 차량이나 지하철 등과 같이 잡음 신호가 큰 시끄러운 환경에서는 인식률의 현저한 저하를 가져온다.
도 4 및 도 5는 종래의 음성인식시스템에서 신호대 잡음비에 따른 음성인식율을 도시한 그래프이다.
도시된 바와 같이 입력되는 음성에 대하여 신호대 잡음(S/N)비가 낮아지면 인식률이 낮아지고, 특히 특정 음량(예를 들어 6dB)을 경계로 급격히 낮아지는 특성을 나타나는 것을 확인할 수 있다.
현재 스마트폰이나 차량용 네이게이션 시스템에 적용된 음성인식기술의 서비스를 이용하기 위해서는 조용한 환경에서 사용되어야 하고, 시끄러운 환경에서 서비스를 이용하기 위해서는 입력 음성을 크게 하기 위한 별도의 노력이 수반되어야 하므로 불편함을 발생시킬 수 있다.
차량에 적용된 음성인식시스템은 마이크의 위치가 정해져 있기 때문에 각 운전자의 신체 조건이나 각각의 운전자 음성이 갖는 고유의 음량에 의해 마이크로 입력되는 음량은 일정하지 않게 된다.
따라서, 마이크 종류와 마이크의 장착 위치에 따라 앰프(AMP)의 증폭율을 시험에 의하여 조정을 하고 있으나 운전자와 마이크 사이의 거리가 멀어지거나 운전자 음성이 갖는 음량이 낮은 경우에는 운전자가 입력하는 음성의 음량이 낮아지게 되므로, 이와 같은 사용자 조건 및 환경 조건을 적용하여 최적의 음성 인식 성능이 제공될 수 있도록 증폭율을 조정해야 한다.
입력신호를 일정한 크기로 조절하는 방법으로 자동이득조절(Automatic Gain Control)기법을 1925년 Harold Alden Wheeler가 자동볼륨제어(Automatic Volume Control : AVC)를 개발하였고, 1928년 칼 큐프뮬러가 자동이득조절(AGC) 시스템의 분석에 대한 서적을 출판하였으며, 1930년대에는 모든 방송기기에 사용되었다.
자동이득조절(AGC)은 라디오 수신기 뿐 아니라 레이더, 오디오, 비디오, 전화기 등 전자분야 뿐아니라 생물학 분야에서도 처리할 수 있는 레벨안으로 신호의 크기를 조정하기 위해 널리 사용되고 있다.
자동이득조절(AGC)은 입력되는 신호를 실시간으로 분석하여 음량을 조절하기 때문에 사용하는 사람이 별도로 음량을 조절하지 않아도 되는 편리함을 제공한다.
최근들어 음성인식시스템에서는 HMM(Hidden Markov Model)방식을 이용하여 문자와 음성간의 관계를 분석할 수 있는 기준(Reference)패턴을 만들어 사용하는데, 이를 음향모델(Acoustic Model)이라고 한다.
음향모델을 만들기 위해서는 다양한 사람들의 음성을 녹음하여야 하고, 녹음을 할 때는 음량이 상대적으로 너무 크거나 너무 작아서 디지털화 범위를 벗어나지 않도록 해야한다.
이를 위해 음향모델을 만들기 위한 녹음장치에는 입력되는 음성이 일정한 크기의 범위내에 들어가는지를 검사하는 기능을 가지고 있어 너무 크거나 작은 음량이 녹음되는 것을 미리 방지한다.
음향모델을 만들기 위해 다양한 사람들의 음성을 녹음할 때 자동이득조절(AGC)을 사용하게 되면 음성 주파수와 에너지 정보 및 시간적인 변화량의 정보를 포함하는 음성에서 시간적인 변화량의 정보를 변화시켜 왜곡시키게 된다.
따라서, 사람에 따른 시간적인 변화량에 대한 차이가 없게 되어 음성인식시스템의 성능을 저하시키므로, 현재의 음성인식시스템에서는 음성 입력단에 자동이득조절(AGC)을 사용하지 않고 있으며, 마이크로 입력되는 음성을 증폭하는 앰프의 증폭율을 고정시켜 사용하고 있다.
상기와 같이 입력되는 음성을 증폭하는 앰프의 증폭율을 고정하게 되면 사용자가 입력하는 음량의 작고 큼에 상관없이 항상 일정하게 증폭하므로 사용환경이 시끄럽거나 사용자 음성의 음량이 작은 경우는 음성인식 성능을 저하시키게 된다.
공개특허공보 제10-2009-0083100호(2009.08.03.) 공개특허공보 제10-2001-0095633호(2001.11.07.)
본 발명은 이러한 문제점을 해결하고자 개발된 것으로, 그 목적은 마이크로 입력되는 사용자 음성의 음량에 대한 증폭율을 주변 환경 조건에 따라 적정한 레벨로 자동 조절하여 사용 환경과 사용자에 따라 달라지는 입력 음성에 대하여 최적의 인식성능을 제공하고자 한다.
본 발명은 이전 음성인식에서 입력된 음량들로 사용자의 평균음량을 계산하고, 이를 기반으로 앰프의 증폭율을 비선형적으로 조절하여 사용 환경이나 사용자에 관계없이 최적의 인식 성능을 제공하고자 한다.
본 발명의 실시예에 따르는 특징은 소정 공간에 설치되고, 사용자의 입력 음성을 수집하여 전기적 신호로 변환시키는 마이크; 마이크에서 제공되는 사용자 음성신호를 볼륨으로 조정된 음량으로 증폭하는 앰프; 상기 앰프의 증폭율을 조정하는 볼륨; 앰프에서 증폭된 아날로그 음성신호를 마이크로 프로세스가 인식하는 디지털 신호로 변환시키는 A/D변환기; A/D변환기에서 디지털 신호로 변환된 사용자 음성신호를 지정된 영역에 저장하는 제1DB; 제1DB에 저장된 음성신호를 분석하여 문자로 변환하는 음성인식기; 상기 음성인식기의 문자 변환이 완료되면 제1DB에서 문자로 변환된 사용자 음성신호를 추출하여 음성의 시작점과 끝점을 분석하고, 음성신호를 구성하는 음성음량과 잡음음량을 계산하는 음량계산부; 상기 음량계산부에서 계산된 사용자 음성신호의 음성음량과 잡음음량을 지정된 영역에 저장하는 제2DB; 사용자 음성신호의 음성음량을 평균화하여 평균음량을 판단하고, 사용자 환경의 잡음음량을 고려하여 앰프의 증폭율 비선형적으로 결정하여 볼륨값을 조정하는 음량조정부를 포함하는 음성인식시스템의 증폭율 조정장치가 제공된다.
상기 음량계산부는 음성인식기에서 제공되는 음성신호의 시작점과 끝점 정보를 이용하여 사용자 음성의 음성음량과 잡음음량을 계산할 수 있다.
상기 음량조정부는 음성인식 서비스 제공 전에 음성인식을 위한 목표음량에 대한 최소, 최대값, 목표음량을 위한 증폭율, 음량을 조정할 상태, 잡음음량에 대한 임계값을 포함하여 음량조정을 위한 초기 정보들을 설정할 수 있다.
상기 음량조정부는 사용자 음성신호의 평균음량과 사용자 환경의 잡음음량을 고려하여 목표음량을 결정하고, 비선형적 증폭방식으로 목표음량을 추종하는 증폭율을 결정하여 볼륨을 조정할 수 있다.
상기 음량조정부는 사용자 음성신호의 평균음량이 잡음음량보다 낮은 경우는 목표음량이 입력될 수 있도록 증폭률을 결정하여 볼륨을 조정할 수 있다.
상기 음량조정부는 사용자의 평균음량이 목표음량 보다 크면 증폭의 한계값까지 선형적으로 증폭되도록 증폭율을 계산하여 볼륨을 조정할 수 있다.
상기 음량조정부는 사용자의 평균음량 보다 잡음음량이 너무 큰 경우 앰프의 증폭율을 제어하지 않을 수 있다.
또한, 본 발명의 다른 실시예에 따르는 특징은 음성인식서비스의 실행에서 입력된 사용자 음성신호에서 음성음량과 잡음음량을 계산하는 과정; 상기 계산된 사용자 음성신호의 음성음량을 평균화하여 평균음량을 계산하는 과정; 상기 사용자 음성신호의 평균음량과 사용자 환경의 잡음음량을 고려하여 목표음량을 결정하고, 목표음량을 추종하도록 앰프의 증폭율 결정하여 볼륨값을 조정하는 과정을 포함하는 음성인식시스템의 증폭율 조정방법이 제공된다.
상기 사용자 음성신호에 대한 음성음량과 잡음음량의 계산은 음성신호의 시작점과 끝점 정보를 이용하여 계산할 수 있다.
상기 목표음량을 추종하도록 하는 증폭율은 비선형적 증폭방식으로 결정할 수 있다.
상기 사용자 음성신호의 평균음량이 잡음음량보다 낮은 경우는 목표음량이 입력될 수 있도록 증폭률을 높게 결정하여 볼륨을 조정할 수 있다.
상기 사용자의 평균음량이 목표음량 보다 크면 증폭의 한계값까지 선형적으로 증폭되도록 증폭율을 계산하여 볼륨을 조정할 수 있다.
상기 사용자의 평균음량 보다 잡음음량이 너무 큰 경우 앰프의 증폭율을 제어하지 않을 수 있다.
또한, 본 발명의 다른 실시예에 따르면 사용자의 입력 음성을 수집하는 마이크; 마이크에서 수집된 음성신호를 볼륨으로 조정된 음량으로 증폭하는 앰프; 앰프의 증폭율을 조정하는 볼륨; 앰프에서 증폭된 아날로그 음성신호를 디지털 신호로 변환시키는 A/D변환기; 디지털 신호로 변환된 사용자 음성신호를 저장하는 제1DB; 제1DB에 저장된 음성신호를 분석하여 문자로 변환하는 음성인식기를 포함하는 음성인식시스템에 있어서, 상기 음성인식기에서 문자로 변환된 사용자 음성신호의 시작점과 끝점을 분석하고, 음성신호를 구성하는 음성음량과 잡음음량을 계산하는 음량계산부; 상기 사용자 음성신호의 음성음량을 평균화하여 평균음량을 추출하고, 사용자 환경의 잡음음량에 따라 앰프의 증폭율 비선형적으로 결정하여 볼륨값을 조정하는 음량조정부를 포함하는 음성인식시스템의 증폭율 조정장치가 제공된다.
이와 같이 본 발명은 사용자의 신체 조건이나 사용되는 환경, 사용자 음성의 음량에 관계없이 음성인식 성능이 최대가 되는 음량이 입력될 수 있어 최적의 인식환경을 제공하므로 음성인식시스템의 사용에 최적의 성능 및 만족감을 제공할 수 있다.
도 1은 본 발명의 실시예에 따른 음성인식시스템의 증폭율 조절장치를 개략적으로 도시한 도면이다.
도 2는 본 발명의 실시예에 따른 음성인식시스템의 증폭율 조절절차를 도시한 흐름도이다.
도 3은 본 발명의 실시예에 따른 음성인식시스템의 증폭율 조절 전후의 인식율을 비교한 그래프이다.
도 4 및 도 5는 종래의 음성인식시스템에서 신호대 잡음비에 따른 음성인식율을 도시한 그래프이다.
도 6은 종래의 음성인식시스템에서 동일한 신호대 잡음비에서 음성 음량과 인식율을 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세하게 설명하면 다음과 같다.
본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 부여한다.
또한, 도면에서 나타난 각 구성은 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도면에 도시된 바에 한정되지 않는다.
도 1은 본 발명의 실시예에 따른 음성인식시스템의 증폭율 조절장치를 개략적으로 도시한 도면이다.
도 1을 참조하면, 본 발명의 실시예에 따른 음성인식시스템의 증폭율 조절장치는 마이크(101)와 앰프(102), A/D변환기(103), 제1DB(104), 음성인식기(105), 음량계산부(106), 제2DB(107), 음량조정부(108) 및 볼륨(109)을 포함한다.
마이크(101)는 소정의 공간에 설치되며, 사용자가 입력하는 음성을 수집한 다음 전기적 신호로 변환시켜 앰프(102)에 제공한다.
앰프(102)는 마이크(101)에서 제공되는 사용자의 음성신호를 볼륨(109)으로 조정된 소정의 음량으로 증폭하여 A/D변환기(103)에 제공한다.
A/D변환기(103)는 앰프(102)에서 소정의 음량으로 증폭된 아날로그 음성신호를 마이크로 프로세스가 인식할 수 있도록 디지털 신호로 변환시켜 제1DB(104)에 저장한다.
제1DB(104)는 상기 A/D변환기(103)에서 디지털 신호로 변환되어 인가되는 사용자의 음성신호를 지정된 영역에 저장한다.
음성인식기(105)는 상기 제1DB(104)에 저장된 사용자의 음성신호를 분석하여 인식한 다음 문자로 변환한다.
음량계산부(106)는 상기 음성인식기(105)에서 음성신호의 분석이 완료되어 문자로 변환되면 제1DB(104)로부터 문자로 변환된 음성신호를 추출한 다음 음성의 시작점과 끝점을 분석하여 음성신호를 구성하는 음성음량과 잡음음량을 계산하고, 계산된 결과를 음량조정부(108)에 통지한다.
상기 음량계산부(106)는 음성인식기(105)로부터 문자로 변환된 음성신호에 대한 음성의 시작점과 끝점에 대한 정보가 제공되는 경우 해당 정보를 이용하여 음성신호를 구성하는 음성음량과 잡음음량을 계산한다.
제2DB(107)는 음성인식 서비스의 실행에 따라 계산되는 사용자의 음성신호를 구성하는 음성음량과 잡음음량을 지정된 영역에 저장한다.
음량조정부(108)는 음성인식 서비스가 제공되기 전에 음성인식을 위한 목표음량의 최소, 최대값과 목표음량을 위한 증폭율, 음량을 조정할 상태, 잡음음량에 대한 임계값 등을 포함하여 음량 조정을 위한 초기 정보들을 설정한다.
음량조정부(108)는 이전 음성인식 서비스의 실행에서 제2DB(107)에 저장된 사용자 음성신호를 구성하는 음성음량과 잡음음량을 평균화하여 사용자의 평균음량을 판단하고, 사용자 환경의 잡음음량을 고려하여 최적의 목표음량을 결정하며, 목표음량을 추종하는 앰프(102)의 증폭율 비선형적으로 결정하여 결정된 증폭율로 볼륨(109)값을 조정한다.
상기 음량조정부(108)는 사용자의 평균음량이 잡음음량보다 낮은 경우는 목표음량이 입력될 수 있도록 증폭률을 계산하여 볼륨(209)을 조정한다.
상기 음량조정부(108)는 사용자의 평균음량이 적정음량 크기내에 포함되는 경우 현재의 증폭율을 유지하여 볼륨(109)을 현재의 상태로 유지하며, 사용자의 평균음량이 목표음량 보다 크면 증폭의 한계값까지 선형적으로 증폭되도록 증폭율을 결정하여 볼륨(109)을 조정한다.
상기 음량조정부(108)는 사용자의 평균음량 보다 잡음음량이 너무 큰 경우 앰프(102)의 증폭도를 제어하지 않는 선택적 증폭방식을 적용한다.
전술한 바와 같은 기능을 포함하는 음성인식시스템에서 증폭율을 조정하는 동작은 다음과 같이 실행된다.
사용자가 음성인식시스템의 특정 기능을 작동시키기 위해 소정의 공간에 설치된 마이크(101)를 향하여 음성 명령을 입력하게 되면(S101), 마이크(101)는 사용자가 입력하는 음성을 수집하여 전기적 신호로 변환시켜 앰프(102)에 제공한다.
앰프(102)는 마이크(101)에서 제공되는 사용자의 음성신호를 볼륨(109)으로 조정된 소정의 음량으로 증폭하여 A/D변환기(103)에 제공한다(S102).
상기 A/D변환기(103)는 앰프(102)에서 소정의 음량으로 증폭된 아날로그 음성신호를 마이크로 프로세스가 인식할 수 있도록 디지털 신호로 변환시켜 제1DB(104)의 지정된 영역에 저장하고, 사용자의 음성이 입력된 정보를 음성인식기(105)에 제공한다.
이때, 음성인식기(105)는 상기 제1DB(104)에 저장된 사용자의 음성신호를 분석하여 인식한 다음 문자로 변환하고, 문자 인식이 완료되었음을 음량계산부(106)에 제공한다(S103).
음량계산부(106)는 상기 음성인식기(105)에서의 문자 변환 완료에 따라 제1DB(104)로부터 문자로 변환된 음성신호를 추출한 다음 음성의 시작점과 끝점을 분석하여(S104) 음성신호를 구성하는 음성음량과 잡음음량을 계산한다(S105).
그리고, 음량계산부(106)는 음성음량과 잡음음량의 계산결과를 음량조정부(108)에 제공한다.
음량조정부(108)는 이전의 음성인식 서비스에서 제2DB(107)에 저장된 사용자 음성신호를 구성하는 음성음량과 잡음음량을 평균화하여 사용자의 평균음량을 판단하고(S106), 사용자 환경의 잡음음량을 고려하여 적정한 음량이 입력되도록 앰프(102)의 증폭율 비선형적으로 결정한 다음(S107) 결정된 증폭율로 볼륨(109)값을 조정한다.
상기 음량조정부(108)는 제2DB(107)에 저장된 사용자 음성신호를 구성하는 음성음량과 잡음음량을 평균화하여 사용자의 평균음량을 판단하고, 사용자 환경의 잡음음량을 고려하여 목표음량을 결정하며, 점진적인 비선형적 증폭방식으로 목표음량을 추종하는 증폭율을 결정하고, 결정된 증폭율로 볼륨(109)을 조정한다.
상기 음량조정부(108)는 사용자의 평균음량이 잡음음량보다 낮은 경우는 목표음량이 입력될 수 있도록 증폭률을 계산하여 볼륨(209)을 조정한다.
상기 음량조정부(108)는 사용자의 평균음량이 적정음량 크기내에 포함되는 경우 현재의 증폭율을 유지하여 볼륨(109)을 현재의 상태로 유지한다.
또한, 상기 음량조정부(108)는 사용자의 평균음량이 목표음량 보다 크면 증폭의 한계값까지 선형적으로 증폭되도록 증폭율을 계산하여 볼륨(109)을 조정한다.
상기 음량조정부(108)는 사용자의 평균음량 보다 잡음음량이 너무 큰 경우 앰프(102)의 증폭도를 제어하지 않는 선택적 증폭방식을 적용한다.
상기한 절차를 통해 음량조정부(108)는 음성인식 서비스가 제공되기 전에 음성인식을 위한 목표음량의 최소, 최대값과 목표음량을 위한 증폭율, 음량을 조정할 상태, 잡음음량에 대한 임계값 등을 포함하여 음량 조정을 위한 초기 정보들을 설정한다.
도 3은 본 발명의 실시예에 따른 음성인식시스템의 증폭율 조절 전후의 인식율을 비교한 그래프로, 도시된 바와 같이 붉은 색의 증폭된 음량이 파란색의 사용자 입력 음성을 추종하므로 거의 동일 내지 유사한 인식률을 보여주고 있다.
이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술 사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.
101 : 마이크 102 : 앰프
103 : A/D변환기 104 : 제1DB
105 : 음성인식기 106 : 음량계산부
107 : 제2DB 108 : 음량조정부
109 : 볼륨

Claims (14)

  1. 소정 공간에 설치되고, 사용자의 입력 음성을 수집하여 전기적 신호로 변환시키는 마이크;
    마이크에서 제공되는 사용자 음성신호를 볼륨으로 조정된 음량으로 증폭하는 앰프;
    상기 앰프의 증폭율을 조정하는 볼륨;
    앰프에서 증폭된 아날로그 음성신호를 마이크로 프로세스가 인식하는 디지털 신호로 변환시키는 A/D변환기;
    A/D변환기에서 디지털 신호로 변환된 사용자 음성신호를 지정된 영역에 저장하는 제1DB;
    제1DB에 저장된 음성신호를 분석하여 문자로 변환하는 음성인식기;
    상기 음성인식기의 문자 변환이 완료되면 제1DB에서 문자로 변환된 사용자 음성신호를 추출하여 음성의 시작점과 끝점을 분석하고, 음성신호를 구성하는 음성음량과 잡음음량을 계산하는 음량계산부;
    상기 음량계산부에서 계산된 사용자 음성신호의 음성음량과 잡음음량을 지정된 영역에 저장하는 제2DB;
    상기 계산된 사용자 음성신호의 음성음량을 평균화하여 평균음량을 판단하고, 사용자 환경의 잡음음량을 고려하여 앰프의 증폭율 비선형적으로 결정하여 볼륨값을 조정하는 음량조정부;
    를 포함하는 음성인식시스템의 증폭율 조정장치.
  2. 제1항에 있어서,
    상기 음량계산부는 음성인식기에서 제공되는 음성신호의 시작점과 끝점 정보를 이용하여 사용자 음성의 음성음량과 잡음음량을 계산하는 음성인식시스템의 증폭율 조정장치.
  3. 제1항에 있어서,
    상기 음량조정부는 음성인식 서비스 제공 전에 음성인식을 위한 목표음량에 대한 최소, 최대값, 목표음량을 위한 증폭율, 음량을 조정할 상태, 잡음음량에 대한 임계값을 포함하여 음량조정을 위한 초기 정보들을 설정하는 음성인식시스템의 증폭율 조정장치.
  4. 제1항에 있어서,
    상기 음량조정부는 사용자 음성신호의 평균음량과 사용자 환경의 잡음음량을 고려하여 목표음량을 결정하고, 비선형적 증폭방식으로 목표음량을 추종하는 증폭율을 결정하여 볼륨을 조정하는 음성인식시스템의 증폭율 조정장치.
  5. 제1항 또는 제4항 중 어느 한 항에 있어서,
    상기 음량조정부는 사용자 음성신호의 평균음량이 잡음음량보다 낮은 경우는 목표음량이 입력될 수 있도록 증폭률을 결정하여 볼륨을 조정하는 음성인식시스템의 증폭율 조정장치.
  6. 제1항 또는 제4항 중 어느 한 항에 있어서,
    상기 음량조정부는 사용자의 평균음량이 목표음량 보다 크면 증폭의 한계값까지 선형적으로 증폭되도록 증폭율을 계산하여 볼륨을 조정하는 음성인식시스템의 증폭율 조정장치.
  7. 제1항에 있어서,
    상기 음량조정부는 사용자의 평균음량 보다 잡음음량이 너무 큰 경우 앰프의 증폭율을 제어하지 않는 음성인식시스템의 증폭율 조정장치.
  8. 음성인식서비스의 실행에서 입력된 사용자 음성신호에서 음성음량과 잡음음량을 계산하는 과정;
    상기 계산된 사용자 음성신호의 음성음량을 평균화하여 평균음량을 계산하는 과정;
    상기 사용자 음성신호의 평균음량과 사용자 환경의 잡음음량을 고려하여 목표음량을 결정하고, 목표음량을 추종하도록 앰프의 증폭율 결정하여 볼륨값을 조정하는 과정;
    을 포함하는 음성인식시스템의 증폭율 조정방법.
  9. 제8항에 있어서,
    상기 사용자 음성신호에 대한 음성음량과 잡음음량의 계산은 음성신호의 시작점과 끝점 정보를 이용하는 계산하는 음성인식시스템의 증폭율 조정방법.
  10. 제8항에 있어서,
    상기 목표음량을 추종하도록 하는 증폭율은 비선형적 증폭방식으로 결정하는 음성인식시스템의 증폭율 조정방법.
  11. 제8항에 있어서,
    상기 사용자 음성신호의 평균음량이 잡음음량보다 낮은 경우는 목표음량이 입력될 수 있도록 증폭률을 높게 결정하여 볼륨을 조정하는 음성인식시스템의 증폭율 조정방법.
  12. 제8항에 있어서,
    상기 사용자의 평균음량이 목표음량 보다 크면 증폭의 한계값까지 선형적으로 증폭되도록 증폭율을 계산하여 볼륨을 조정하는 음성인식시스템의 증폭율 조정방법.
  13. 제8항에 있어서,
    상기 사용자의 평균음량 보다 잡음음량이 너무 큰 경우 앰프의 증폭율을 제어하지 않는 음성인식시스템의 증폭율 조정방법.
  14. 사용자의 입력 음성을 수집하는 마이크; 마이크에서 수집된 음성신호를 볼륨으로 조정된 음량으로 증폭하는 앰프; 앰프의 증폭율을 조정하는 볼륨; 앰프에서 증폭된 아날로그 음성신호를 디지털 신호로 변환시키는 A/D변환기; 디지털 신호로 변환된 사용자 음성신호를 저장하는 제1DB; 제1DB에 저장된 음성신호를 분석하여 문자로 변환하는 음성인식기를 포함하는 음성인식시스템에 있어서,
    상기 음성인식기에서 문자로 변환된 사용자 음성신호의 시작점과 끝점을 분석하고, 음성신호를 구성하는 음성음량과 잡음음량을 계산하는 음량계산부;
    상기 사용자 음성신호의 음성음량을 평균화하여 평균음량을 추출하고, 사용자 환경의 잡음음량에 따라 앰프의 증폭율 비선형적으로 결정하여 볼륨값을 조정하는 음량조정부;
    를 포함하는 음성인식시스템의 증폭율 조정장치.
KR1020120126972A 2012-11-09 2012-11-09 음성인식시스템의 증폭율 조정장치 및 방법 KR101405202B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120126972A KR101405202B1 (ko) 2012-11-09 2012-11-09 음성인식시스템의 증폭율 조정장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120126972A KR101405202B1 (ko) 2012-11-09 2012-11-09 음성인식시스템의 증폭율 조정장치 및 방법

Publications (2)

Publication Number Publication Date
KR20140060187A true KR20140060187A (ko) 2014-05-19
KR101405202B1 KR101405202B1 (ko) 2014-06-10

Family

ID=50889728

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120126972A KR101405202B1 (ko) 2012-11-09 2012-11-09 음성인식시스템의 증폭율 조정장치 및 방법

Country Status (1)

Country Link
KR (1) KR101405202B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020067666A1 (ko) * 2018-09-28 2020-04-02 주식회사 솔루게이트 버추얼 상담 시스템 및 이를 이용한 상담방법
CN111105798A (zh) * 2018-10-29 2020-05-05 宁波方太厨具有限公司 基于语音识别的设备控制方法
CN111192573A (zh) * 2018-10-29 2020-05-22 宁波方太厨具有限公司 基于语音识别的设备智能化控制方法
CN115065849A (zh) * 2022-06-06 2022-09-16 北京字跳网络技术有限公司 音频录制方法、装置及电子设备
KR102490053B1 (ko) * 2022-10-28 2023-01-18 (주)우보재난시스템 예경보방송 전달내용을 문자로 변환하여 응답하는 ai 예경보 방송 시스템 및 방법
KR102490049B1 (ko) * 2022-10-28 2023-01-18 (주)우보재난시스템 예경보방송 전달내용을 문자로 변환하여 응답하는 ai 예경보 방송장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102371770B1 (ko) 2015-01-19 2022-03-07 삼성전자주식회사 음성 인식 장지 및 방법
KR20200084727A (ko) 2019-01-03 2020-07-13 삼성전자주식회사 전자 장치 및 이의 제어 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19939102C1 (de) 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
JP2001117585A (ja) 1999-10-15 2001-04-27 Nec Home Electronics Ltd 音声認識方法及び装置
KR20090101706A (ko) * 2008-03-24 2009-09-29 최윤정 차량용 메시지 시스템을 포함한 원격 예약을 통한 자동콘트롤 시스템과 음성인식제어시스템
KR20100047740A (ko) * 2008-10-29 2010-05-10 주식회사 대우일렉트로닉스 볼륨 제어 장치 및 방법

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020067666A1 (ko) * 2018-09-28 2020-04-02 주식회사 솔루게이트 버추얼 상담 시스템 및 이를 이용한 상담방법
US11837251B2 (en) 2018-09-28 2023-12-05 Solugate Inc. Virtual counseling system and counseling method using the same
CN111105798A (zh) * 2018-10-29 2020-05-05 宁波方太厨具有限公司 基于语音识别的设备控制方法
CN111192573A (zh) * 2018-10-29 2020-05-22 宁波方太厨具有限公司 基于语音识别的设备智能化控制方法
CN111105798B (zh) * 2018-10-29 2023-08-18 宁波方太厨具有限公司 基于语音识别的设备控制方法
CN111192573B (zh) * 2018-10-29 2023-08-18 宁波方太厨具有限公司 基于语音识别的设备智能化控制方法
CN115065849A (zh) * 2022-06-06 2022-09-16 北京字跳网络技术有限公司 音频录制方法、装置及电子设备
CN115065849B (zh) * 2022-06-06 2023-11-14 北京字跳网络技术有限公司 音频录制方法、装置及电子设备
KR102490053B1 (ko) * 2022-10-28 2023-01-18 (주)우보재난시스템 예경보방송 전달내용을 문자로 변환하여 응답하는 ai 예경보 방송 시스템 및 방법
KR102490049B1 (ko) * 2022-10-28 2023-01-18 (주)우보재난시스템 예경보방송 전달내용을 문자로 변환하여 응답하는 ai 예경보 방송장치

Also Published As

Publication number Publication date
KR101405202B1 (ko) 2014-06-10

Similar Documents

Publication Publication Date Title
KR101405202B1 (ko) 음성인식시스템의 증폭율 조정장치 및 방법
US8538043B2 (en) Apparatus for processing an audio signal and method thereof
JP2953397B2 (ja) ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器
WO2010131470A1 (ja) ゲイン制御装置及びゲイン制御方法、音声出力装置
CN101790843B (zh) 用于任何期望的压缩曲线的可变自动限幅控制(alc)阈值
EP2631907A1 (en) Method and apparatus for audio intelligibility enhancement
US10461712B1 (en) Automatic volume leveling
US7835773B2 (en) Systems and methods for adjustable audio operation in a mobile communication device
CN105324937A (zh) 音量控制速率
CN110660408B (zh) 一种数字自动控制增益的方法和装置
US9391575B1 (en) Adaptive loudness control
KR102591447B1 (ko) 음성 신호 레벨링
CN112581960A (zh) 语音唤醒方法、装置、电子设备及可读存储介质
US20090252347A1 (en) Method and Apparatus For Automatic Gain Control
CN103873984A (zh) 自动调节电子装置输出音量的系统及方法
US11817115B2 (en) Enhanced de-esser for in-car communication systems
US20240088856A1 (en) Long-term signal estimation during automatic gain control
US20140010377A1 (en) Electronic device and method of adjusting volume in teleconference
US9614486B1 (en) Adaptive gain control
CN202841067U (zh) 放大器电路
CN105513606A (zh) 语音信号处理方法、装置和系统
US20070076895A1 (en) Audio processing system and method for hearing protection
JP7423156B2 (ja) 音声処理装置および音声処理方法
JP5857216B2 (ja) 自動利得制御装置
US11876497B2 (en) Automatic progressive transition of volume adaptation to environmental noise

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180530

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190528

Year of fee payment: 6