KR100705563B1 - 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법 - Google Patents

입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법 Download PDF

Info

Publication number
KR100705563B1
KR100705563B1 KR1020040102613A KR20040102613A KR100705563B1 KR 100705563 B1 KR100705563 B1 KR 100705563B1 KR 1020040102613 A KR1020040102613 A KR 1020040102613A KR 20040102613 A KR20040102613 A KR 20040102613A KR 100705563 B1 KR100705563 B1 KR 100705563B1
Authority
KR
South Korea
Prior art keywords
voice
speech
input level
signal section
signal
Prior art date
Application number
KR1020040102613A
Other languages
English (en)
Other versions
KR20060063437A (ko
Inventor
정명기
심현식
이종창
김광춘
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020040102613A priority Critical patent/KR100705563B1/ko
Priority to US11/262,843 priority patent/US20060122831A1/en
Priority to CN200510124900.8A priority patent/CN1787073A/zh
Priority to JP2005344967A priority patent/JP2006163392A/ja
Priority to EP05026106A priority patent/EP1669978A1/en
Publication of KR20060063437A publication Critical patent/KR20060063437A/ko
Application granted granted Critical
Publication of KR100705563B1 publication Critical patent/KR100705563B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명의 음성 인식 시스템은, 외부로부터 화자의 음성을 독취하는 음성독취부, 독취된 음성을 음성인식부에서 제공되는 음성 입력 레벨에 따라 수신하여 음성인식부로 출력하는 음성레벨 제어부, 음성레벨 제어부에서 출력되는 음성으로부터 음성 인식에 필요한 음성 신호 구간을 검출하는 음성 검출부, 검출한 음성 신호 구간에 대해 임계값을 기준으로 음성 신호의 포화 여부를 결정하는 음성포화 검출부, 및 음성 신호 구간에 대해 음성 신호가 포화된 것으로 판단되면 음성레벨 제어부가 음성을 포화되지 않은 상태로 수신하도록 새로운 음성 입력 레벨을 결정하고 새로운 음성 입력 레벨 정보를 음성레벨 제어부로 출력하는 입력레벨 결정부를 갖는다.
음성, 입력 레벨, 자동 조절, 음성 인식, 포화, 음성 신호 구간

Description

입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를 이용한 음성 인식 방법{Speech Recognition System capable of Controlling Automatically Inputting Level and Speech Recognition Method using the same}
도 1은 종래의 음성 인식 시스템에서 음성 검출을 실패한 결과를 표시한 일예를 도시한 도면,
도 2는 종래의 음성 인식 시스템에서 음성 검출을 실패한 결과를 표시한 다른 예를 도시한 도면,
도 3은 본 발명에 따른 음성 입력 레벨 자동 조절을 위한 음성 인식 시스템의 바람직한 실시예를 도시한 블록도,
도 4는 도 3의 음성 검출부에서 음성 신호의 에너지와 영점 교차율(Zero crossing rate)을 이용한 음성 신호 구간 검출 원리를 설명하기 위한 도면, 그리고
도 5는 본 발명에 따른 음성 인식 시스템을 이용한 음성 인식 방법의 바람직한 실시예를 도시한 플로우도이다.
본 발명은 음성인식 시스템에 관한 것으로서, 보다 상세하게는, 입력되는 음성에 대한 음성 신호 구간 검출 및 포화 여부에 따라 음성의 입력 레벨을 조절할 수 있는 음성 인식 시스템 및 이를 이용한 음성 인식 방법에 관한 것이다.
일반적으로 음성 인식 시스템은 입력되는 음성을 주파수 분석 기법을 이용한 다양한 분석 방법을 통하여 그 특징 벡터를 구성하여 음성 인식을 위해 이용한다. 음성 인식 시스템은 다양한 음성 인식 기법 중 중 입력된 음성 신호의 에너지를 이용한 음성 인식 기법을 널리 사용하고 있다.
음성의 에너지를 이용한 음성 인식 방법에서, 음성 인식 시스템은 음성 인식을 위해 입력되는 음성 신호에 대한 에너지를 정규화(Normalization)하여 상기 음성의 에너지 편차를 최소한으로 줄인다. 이때 음성 인식 시스템은 입력된 음성 신호의 특정 시점에서의 에너지 레벨(또는 신호 레벨)은 일일이 확인하지 않는다.
기존의 음성 인식 방법에서, 음성 인식 시스템은 음성 신호의 입력 레벨이 매우 낮아 음성 검출이 실패하거나 음성 입력 레벨이 높아 음성의 임의의 구간에서 음성 입력의 해상도(Resolution)를 벗어나는 음성이 입력되었을 경우, 음성 인식률이 저하될 우려가 있다. 그러나 기존의 음성 인식 시스템을 이용한 음성 인식 방법은 상기와 같은 상황에서 음성 인식 저하를 보상하기 위한 방법을 제시하고 있지 않다.
즉, 종래의 음성 인식 시스템은 입력되는 음성의 레벨에 따라 이용 가능한 범위의 레벨로 음성 입력 레벨을 조절하지 않는다. 따라서 종래의 음성 인식 시스 템은 음성 입력 레벨이 낮아 음성 검출에 실패하거나 음성 입력 레벨이 높아 음성의 구간에서 입력 신호의 포화(Saturation) 현상이 발생하여 음성 인식률을 저하 시킬 수 있다.
도 1은 종래의 음성 인식 시스템에서 음성 검출을 실패한 결과를 표시한 일예를 도시한 도면이다. 도시된 바와 같이 도면에는 입력되는 음성이 음성 인식 구간으로 설정된 범위 보다 낮은 신호 레벨로 인하여 음성 검출을 실패한 결과 정보(10)가 표시되어 있다.
도 2는 종래의 음성 인식 시스템에서 음성 검출을 실패한 결과를 표시한 다른 예를 도시한 도면이다. 도시된 바와 같이 도면에는 입력되는 음성이 음성 인식 구간으로 설정된 범위 보다 높은(포화) 신호 레벨로 인하여 음성 인식을 실패를 결과 정보(20)가 표시되어 있다.
도 1 및 도 2와 같이 음성 인식이 실패한 경우, 종래의 음성 인식 시스템은 사용자가 직접 음성 입력 레벨을 음성 인식 실패 이유에 따라 조절하도록 한다. 즉, 사용자는 음성 입력을 받는 마이크와 사용자의 거리를 조절하거나 입력 장치의 마이크 이득을 조절하여 입력 레벨을 조절한다.
음성 인식 시스템을 사용하는 사용자는 주기적으로 일정한 간격으로 사용하기 보다는 어떤 시점을 시작으로 수차례를 연속해서 사용하기 때문에, 최초 인식으로 인한 입력 레벨의 보정이 그 다음 인식에 영향을 줄 확률이 높다. 또한 하나의 음성 인식 시스템을 사용하는 사용자가 다수일 경우, 사용자 마다 다른 음량과 음성 입력 방식(마이크와 화자와의 거리 차이)이 다른 경우가 많다. 이 경우, 사용 자에 따라 음성 인식 시스템의 음성 입력 레벨을 상황에 따라 실시간으로 조절해 주어야 하지만, 종래의 음성 인식 시스템은 사용자가 직접 수작업으로 일일이 조절해 주어야하는 문제점이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 사용자가 발성한 음성을 분석하여 음성 인식 구간에서 음성으로 인식할 수 있도록 음성 입력 레벨을 자동으로 또는 능동적으로 조절할 수 있는 음성 인식 시스템 및 이를 이용한 음성 인식 방법을 제공하는 데 있다.
본 발명의 다른 목적은, 다수의 화자 또는 동일한 화자에 의해 발성되는 다양한 음량 및 발성 패턴에 대응하여 입력되는 음성의 검출율 및 인식율 높일 수 있는 음성 인식 시스템 및 이를 이용한 음성 인식 방법을 제공하는 데 있다.
상기와 같은 목적은 본 발명의 실시예에 따라, 음성 인식 시스템에 있어서, 설정된 음성 입력 레벨에 따라 독취되는 음성을 수신하여 출력하는 음성수신부, 및 출력된 음성 중 음성 인식에 필요한 음성 신호 구간에 대해 설정된 임계값을 기준으로 음성 신호의 포화 여부에 따라 음성 입력 레벨을 결정하여 음성수신부로 출력하는 음성인식부를 포함하는 것을 음성 인식 시스템에 의해 달성된다.
바람직하게는, 상기 음성수신부는, 외부로부터 화자의 음성을 독취하는 음성 독취부, 및 독취된 음성을 음성인식부에서 제공되는 음성 입력 레벨에 따라 수신하여 음성인식부로 출력하는 음성레벨 제어부를 갖는다.
바람직하게는, 상기 음성 인식부는, 음성수신부에서 출력되는 음성으로부터 음성 인식에 필요한 음성 신호 구간을 검출하는 음성 검출부, 검출한 음성 신호 구간에 대해 임계값을 기준으로 음성 신호의 포화 여부를 결정하는 음성포화 검출부, 및 음성 신호 구간에 대해 음성 신호가 포화된 것으로 판단되면 음성수신부가 음성을 포화되지 않은 상태로 수신하도록 새로운 음성 입력 레벨을 결정하고 새로운 음성 입력 레벨 정보를 음성수신부로 출력하는 입력레벨 결정부를 갖는다.
본 실시예의 음성 인식 시스템은 음성 검출부에서 검출한 음성 신호 구간에 대해 포화되지 않은 것으로 판단되면, 검출한 음성 신호 구간에 대해 음성 인식 처리를 수행하는 음성보정부를 더 갖는다.
상기 음성검출부는 음성수신부로부터 입력되는 음성 신호에 대한 에너지 값 및 영점 교차율(Zero Crossing Rate)을 이용하여 음성 신호 구간을 검출한다.
상기 음성포화 검출부는 음성 신호 구간의 평균 에너지 값을 산출하고 평균 에너지 값이 특정 임계값 이상이면, 음성 신호 구간의 음성 신호가 포화된 것으로 판단한다.
상기 음성포화 검출부는 음성 신호 구간을 수 내지 수십 개의 짧은 구간으로 나누어 각 구간에서의 음성 신호 값이 음성 입력의 해상도(Resolution)보다 큰 값인 경우, 음성 신호 구간의 음성 신호가 포화된 것으로 판단한다.
상기 입력레벨 결정부는 음성검출부에서 음성 신호 구간의 검출을 실패한 경 우, 새로운 음성 입력 레벨을 결정한다.
상기 입력레벨 결정부는 음성검출부에서 음성 신호 구간의 검출을 실패한 경우, 현재 설정된 음성 입력 레벨(
Figure 112004057654072-pat00001
)과 설정 가능한 음성 입력 레벨의 최대값(
Figure 112004057654072-pat00002
)의 중간으로 새로운 음성 입력 레벨(
Figure 112004057654072-pat00003
)을 결정한다.
상기 입력레벨 결정부는 음성포화 검출부에서 음성 신호 구간의 음성 신호가 포화된 것으로 판단되면, 현재 설정된 음성 입력 레벨(
Figure 112004057654072-pat00004
)과 설정 가능한 음성 입력 레벨의 최소값(
Figure 112004057654072-pat00005
)의 중간값으로 새로운 음성 입력 레벨(
Figure 112004057654072-pat00006
)을 결정한다.
한편, 상기와 같은 목적은 본 발명의 실시예에 따라, 음성 인식 시스템을 이용한 음성 인식 방법에 있어서, 설정된 음성 입력 레벨에 따라 독취되는 음성을 수신하여 출력하는 단계, 출력되는 음성으로부터 음성 인식에 필요한 음성 신호 구간을 검출하는 단계, 검출한 음성 신호 구간에 대해 임계값을 기준으로 음성 신호의 포화 여부를 결정하는 단계, 음성 신호 구간에 대해 음성 신호가 포화된 것으로 판단되면 음성을 포화되지 않은 상태로 수신하기 위한 새로운 음성 입력 레벨을 결정하는 단계, 및 새로운 음성 입력 레벨에 따라 상기 음성을 독취하여 수신하는 단계를 포함하는 음성 인식 방법에 의해 달성된다.
바람직하게는, 상기 음성 신호 구간 검출 단계에서는 음성 신호에 대한 에너지 값 및 영점 교차율(Zero Crossing Rate)을 이용하여 음성 신호 구간을 검출한 다.
상기 음성 신호 포화 결정 단계에서는 음성 신호 구간의 평균 에너지 값을 산출하고 평균 에너지 값이 특정 임계값 이상이면, 음성 신호 구간의 음성 신호가 포화된 것으로 판단한다.
상기 음성 신호 포화 결정 단계에서는 음성 신호 구간을 수 내지 수십 개의 짧은 구간으로 나누어 각 구간에서의 음성 신호 값이 음성 입력의 해상도(Resolution)보다 큰 값인 경우, 음성 신호 구간의 음성 신호가 포화된 것으로 판단한다.
상기 새로운 음성 입력 레벨 단계에서는 음성 신호 구간의 검출을 실패한 경우, 새로운 음성 입력 레벨을 결정한다.
상기 새로운 음성 입력 레벨 단계에서는 음성 신호 구간 검출 단계에서 음성 신호 구간의 검출을 실패한 경우, 현재 설정된 음성 입력 레벨(
Figure 112004057654072-pat00007
)과 설정 가능한 음성 입력 레벨의 최대값(
Figure 112004057654072-pat00008
)의 중간으로 새로운 음성 입력 레벨(
Figure 112004057654072-pat00009
)을 결정한다.
상기 새로운 음성 입력 레벨 단계에서는 음성 신호 포화 결정 단계에서 음성 신호 구간의 음성 신호가 포화된 것으로 판단되면, 현재 설정된 음성 입력 레벨(
Figure 112004057654072-pat00010
)과 설정 가능한 음성 입력 레벨의 최소값(
Figure 112004057654072-pat00011
)의 중간값으로 새로운 음성 입력 레벨(
Figure 112004057654072-pat00012
)을 결정한다.
본 발명에 따르면, 입력된 음성 신호로부터 음성 신호 구간 검출 여부 및 검출한 음성 신호 구간에 대한 포화 여부에 따라 음성 입력 레벨을 조절함으로써, 입력되는 음성 신호로부터 음성 검출의 실패율과 음성 신호 포화로 인한 음성 인식률의 저하를 줄일 수 있다. 또한 사용자가 직접 음성 입력 레벨을 조작하지 않고 음성 신호 구간 검출이 실패하거나 검출한 음성 신호가 포화된 상태인 경우 능동적으로 음성 입력 레벨을 조절함으로써, 화자(Speaker)마다 다양한 음량과 발성 패턴(마이크와 화자와의 거리)에 적응적으로 음성 검출의 실패율 및 음성 인식율 저하를 줄일 수 있다.
이하, 본 발명의 바람직한 실시예들을 첨부한 도면을 참조하여 상세히 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
도 3은 본 발명에 따른 음성 입력 레벨 자동 조절을 위한 음성 인식 시스템의 바람직한 실시예를 도시한 블록도이다.
도면에 도시된 음성 인식 시스템은 본 발명과 관련이 없는 구성에 대해 생략하고 본 발명의 주요 구성에 대해서만 도시한 것이다. 이러한 음성 인식 시스템은 단일 시스템으로 구현될 수도 있고 클라이언트/서버 형태의 네트워크를 이용한 구조로 구현될 수도 있다.
도시된 바와 같이, 음성 인식 시스템은 음성수신부(200) 및 음성인식부(300)를 갖는다.
음성수신부(200)는 화자(110)에 의해 발성되는 음성을 독취하여 음성인식부(300)로 출력한다.
음성수신부(240)는 마이크(220) 및 수신레벨 제어부(240)를 갖는다.
마이크(220)는 화자(110)에 의해 발성되는 음성을 독취하고, 수신레벨 제어부(240)는 마이크(220)에 독취되는 음성의 수신 레벨을 입력되는 입력 레벨 정보에 따라 결정된 레벨로 수신한다.
음성인식부(300)는 음성수신부(200)로부터 입력되는 음성 신호 중 음성 구간에 대해, 포화 여부를 판단하여 그 결과에 따라 수신레벨 제어부(240)의 음성 입력 레벨을 결정하고 음성 구간의 음성에 대한 보정을 수행하여 실제 사용할 음성으로 인식하여 해당 블록으로 출력한다.
음성 인식부(300)는 음성검출부(End Point Detector: EPD)(310), 음성보정부(330), 음성포화 검출부(Saturation Detector)(350), 및 입력레벨 결정부(370)를 갖는다. 여기서 음성포화 검출부(350) 및 입력레벨 결정부(370)는 음성 인식부(300)에 포함되도록 구성하여 단일 시스템 내에서 음성 수신부(200)를 직접 제어할 수 있으며, 네트워크 구성을 통하여 클라이언트에 구현될 수도 또는 서버에 구현될 수도 있다.
음성검출부(310)는 음성 수신부(200)로부터 입력된 음성 신호에서 음성 인식에 필요한 음성 신호 구간을 검출해 낸다. 음성검출부(310)는 입력되는 음성 신호로부터 음성 인식에 필요한 실제 음성 신호 구간을 검출할 때, 음성 신호의 에너지와 영점 교차율(Zero crossing rate)을 이용한다.
음성보정부(330)는 음성검출부(310)에서 검출한 음성 신호 구간의 음성에 포함된 노이즈를 줄인 후 실제 사용할 음성으로 인식하여 출력한다.
음성포화 검출부(350)는 음성검출부(310)에서 검출한 음성 신호 구간에 대해 음성 신호의 포화(Saturation)를 검출해 낸다. 음성포화 검출부(350)는 입력된 음성 신호로부터 입력 레벨 조절을 결정하기 위한 기준(Criteria)에 따라 음성 신호의 포화를 검출하는 방법은 아래와 같다.
음성포화 검출부(350)는 입력되는 음성 신호의 평균 에너지를 계산하여 특정 임계값 이상이 되면, 음성 신호가 포화된 것으로 판단한다. 또한 음성포화 검출부(350)는 음성 구간을 수 내지 수십 개의 짧은 구간으로 나누어 각 구간에서의 음성 신호 값이 음성 입력의 해상도(Resolution)보다 큰 값이 나타날 경우, 음성 신호가 포화된 것으로 결정할 수도 있다.
입력레벨 결정부(370)는 음성검출부(310)에 의해 검출한 음성 신호 구간 및 음성포화 검출부(350)에서 검출한 음성 포화 상태를 참고하여 수신레벨 제어부(240)에서 입력 레벨의 조절 수준을 결정한다.
입력레벨 결정부(370)는 음성검출부(310)에서 음성 신호 구간의 검출을 위한 음성의 끝점 검출에 실패했거나 음성포화 검출부(350)에서 음성 신호가 포화된 것으로 결정된 경우, 음성수신부(200)의 수신레벨 제어부(240)에서 조절할 음성에 대한 입력 레벨을 결정한다. 이때 입력레벨 결정부(370)는 결정한 입력 레벨 정보를 음성입력부(200)의 수신레벨 제어부(240)로 전송한다.
이에 따라 수신레벨 제어부(240)는 입력레벨 결정부(370)에서 제공되는 입력 레벨정보에 대응하는 레벨로 마이크(220)에 독취되는 화자(110)의 음성을 수신한다.
도 4는 도 3의 음성 검출부(310)에서 음성 신호의 에너지와 영점 교차율(Zero crossing rate)을 이용한 음성 신호 구간 검출 원리를 설명하기 위한 도면이다.
음성검출부(310)는 음성 신호가 입력되면, 음성 신호에 대한 에너지 및 영점 교차율을 측정한다.
도 4A는 음성검출부(310)에서 측정한 음성 신호에 대한 에너지 값을 샘플별로 나타낸 그래프이다.
음성검출부(310)는 에너지 값이 상한 임계값(Thr.U) 이상이 되면 음성이 시작되었다고 판단하고, 해당 시점으로부터 일정 샘플 구간 앞에서부터 음성 구간의 시작으로 결정한다. 이때 음성검출부(310)는 다시 에너지 값이 하한 임계값(Thr.L) 이하로 떨어지는 샘플 구간이 일정 시간 지속되면 음성 구간이 끝난 것으로 결정한다.
도 4B는 음성검출부(310)에서 산출한 영점 교차율 값을 샘플별로 나타낸 그래프이다.
음성검출부(310)는 도 4A에 도시된 음성 신호의 에너지 값과 함께, 도 4B에 도시된 영교차율을 기준으로 삼아 음성 구간을 판별한다. 영교차율이란 음성 신호의 레벨이 영점을 얼마나 많이 교차하느냐를 나타내는 것이다. 음성검출부(310)는 영교차율을 이용하여 현재의 음성 신호 샘플 값과 바로 전 음성 신호의 샘플 값의 곱이 음수이면, 영점을 교차하였다고 판별한다. 이러한 것을 기준으로 할 수 있는 이유는 음성 신호가 그 해당 구간에서 주기적인 구간을 반드시 포함하고 있고, 그 주기적인 구간의 영 교차율은 음성이 없는 구간의 영 교차율에 비하여 상당히 작기 때문이다.
도 4B에 도시된 바와 같이, 음성이 없는 구간의 영 교차율은 임계값(Thr.ZCR)보다 크게 나타나는 것을 알 수 있다. 반대로 음성 구간에서는 영 교차율이 나타나지 않음을 알 수 있다.
음성검출부(310)는 음성 검출이 성공하면, 검출된 음성 신호를 음성포화 검출부(350)로 전송한다.
도 5는 본 발명에 따른 음성 인식 시스템을 이용한 음성 인식 방법의 바람직한 실시예를 도시한 플로우도이다.
먼저, 음성수신부(240)의 수신레벨 제어부(240)는 사용자의 음성을 설정된 입력 레벨로 수신하고, 수신한 음성을 음성 인식부(300)로 출력한다(S110). 음성 인식부(300)의 음성 검출부(310)는 입력되는 음성으로부터 실제 음성 신호 구간을 검출한다(S130). 본 실시예에서 음성 검출부(310)는 음성 신호에 대한 에너지 및 영점 교차율을 이용하여 음성 신호 구간을 검출한다.
음성 구간 검출에 성공하면(S150), 음성포화 검출부(350)는 검출된 음성 신호를 분석하여 음성의 포화 여부를 검출한다(S170). 이때 음성포화 검출부(350)는 음성의 포화 검출을 위해 음성의 에너지를 이용하거나 음성 데이터 값을 이용할 수 있다. 구체적으로, 음성포화 검출부(350)는 음성 구간을 10~40msec 정도의 짧은 단 구간으로 구분한다. 이렇게 음성 구간을 단 구간으로 구분의 이유는 시간에 따라 변화하는 음성 신호가 짧은 구간에서는 정지한(Stationary) 특성을 나타내기 때문이다. 음성 신호의 에너지를 이용하여 음성 포화를 검출하는 경우, 음성포화 검출부(350)는 아래 수학식 1과 같이 단 구간으로 구분된 음성 구간에서 음성데이터의 에너지를 계산한다.
Figure 112004057654072-pat00013
Figure 112004057654072-pat00014
: j번째 음성 구간의 평균 에너지
Figure 112004057654072-pat00015
: 음성 단구간의 데이터 수(샘플 수)
Figure 112004057654072-pat00016
: j번째 음성 구간의 음성 데이터
음성포화 검출부(350)는 계산된 음성 구간의 에너지 값과 음성 신호의 포화라고 결정할 수 있는 에너지의 임계값을 비교한다. 이때 음성포화 검출부(350)는 임계값 보다 큰 에너지가 계산되었다면, 입력된 음성 신호가 포화되었다고 판단한다(S190).
여기서 음성 신호의 포화라고 결정할 수 있는 에너지의 임계값은 음성 입력의 해상도에 의해 결정될 수 있다. 예를 들어 16비트(bit)의 해상도를 가진 음성 신호라면 음성 데이터의 범위는 이므로, 이 값을 이용하여 임계값을 계산할 수 있다.
아래 수학식 2와 같이 음성 신호의 데이터 값을 이용하여 음성 포화를 결정하는 경우, 음성포화 결정부(350)는 구분된 음성 구간에서 연속된 수 개의 음성 데이터 값이 해상도에 의해 가질 수 있는 최대값(
Figure 112004057654072-pat00017
)이면, 입력된 음성 신호가 포화되었다고 판단한다.
Figure 112004057654072-pat00018
Figure 112004057654072-pat00019
: 입력 신호의 해상도에 따라 설정된 최대값(예, 16Bit일 때)
t : j번째 음성 구간에서의 음성 데이터 각 위치
L : 설정해 놓은 연속된 포화 음성 데이터의 수
한편, S150 단계 및 S190 단계에서 음성 검출부(310)가 음성 검출을 실패하거나 음성포화 검출부(350)가 음성 신호의 포화 상태를 검출하게 되면, 입력레벨 결정부(370)는 음성 수신부(200)에서 음성을 수신할 때 적용할 새로운 입력 레벨을 결정한다(S210).
입력 레벨을 결정하는 예로는 아래 수학식 3과 같이 2가지 경우가 있다. 첫째 음성검출부(310)에서 음성 검출을 실패한 경우, 입력레벨 결정부(370)는 현재 음성 입력 레벨(
Figure 112004057654072-pat00020
)과 음성 입력 레벨의 최대값(
Figure 112004057654072-pat00021
)의 중간으로 새로운 음성 입력 레벨(
Figure 112004057654072-pat00022
)을 결정한다. 둘째 음성포화 검출부(350)에서 음성의 포화 상태가 검출된 경우, 입력레벨 결정부(370)는 현재의 음성 입력 레벨(
Figure 112004057654072-pat00023
)과 음 성 입력 레벨의 최소값(
Figure 112004057654072-pat00024
)의 중간값으로 새로운 음성 입력 레벨(
Figure 112004057654072-pat00025
)을 결정한다.
Figure 112004057654072-pat00026
: 입력 레벨의 증가
Figure 112004057654072-pat00027
: 입력 레별의 감소
Figure 112004057654072-pat00028
: 새로운 음성 입력 레벨
Figure 112004057654072-pat00029
: 기존의 음성 입력 레벨
Figure 112004057654072-pat00030
: 입력 레벨의 최대값
Figure 112004057654072-pat00031
: 입력 레벨의 최소값
새로운 음성 입력 레벨(
Figure 112004057654072-pat00032
)이 결정되면, 입력레벨 결정부(370)는 결정된 새로운 음성 입력 레벨 정보를 수신레벨 제어부(240)에 제공한다. 이에 따라 수신레벨 제어부(240)는 마이크(220)에 독취되는 음성을 새로운 음성 입력 레벨에 따라 수신하여 음성 검출부(310)로 출력한다.
한편 S190 단계에서 음성 신호가 포화 상태가 아닌 것으로 판단되면, 음성보정부(330)는 음성 검출부(310)에서 검출한 음성 신호 구간에 대해 잡음을 줄이고 정상적인 음성 인식 처리 동작을 수행한다(S230).
이상에서는 본 발명에서 특정의 바람직한 실시예에 대하여 도시하고 또한 설명하였다. 그러나, 본 발명은 상술한 실시예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능할 것이다.
본 발명에 따르면, 입력된 음성 신호로부터 음성 신호 구간 검출 여부 및 검출한 음성 신호 구간에 대한 포화 여부에 따라 음성 입력 레벨을 조절함으로써, 입력되는 음성 신호로부터 음성 검출의 실패율과 음성 신호 포화로 인한 음성 인식률의 저하를 줄일 수 있다.
또한 사용자가 직접 음성 입력 레벨을 조작하지 않고 음성 신호 구간 검출이 실패하거나 검출한 음성 신호가 포화된 상태인 경우 능동적으로 음성 입력 레벨을 조절함으로써, 화자(Speaker)마다 다양한 음량과 발성 패턴(마이크와 화자와의 거리)에 적응적으로 음성 검출의 실패율 및 음성 인식율 저하를 줄일 수 있다.

Claims (18)

  1. 음성 인식 시스템에 있어서,
    설정된 음성 입력 레벨에 따라 독취되는 음성을 수신하여 출력하는 음성수신부; 및
    상기 출력된 음성 중 음성 인식에 필요한 음성 신호 구간을 검출하고, 검출된 음성 신호 구간에 대해 설정된 임계값을 기준으로 음성 신호의 포화 여부를 판단하여 음성 신호 구간의 검출을 실패한 경우 그리고 상기 음성 신호 구간의 음성 신호가 포화된 것으로 판단되는 경우, 현재 설정된 음성 입력 레벨(
    Figure 712006004237428-pat00051
    )과 설정 가능한 상기 음성 입력 레벨의 최대값(
    Figure 712006004237428-pat00052
    )의 중간으로 상기 새로운 음성 입력 레벨(
    Figure 712006004237428-pat00053
    )을 결정하여 결정된 음성 입력 레벨값을 상기 음성수신부로 출력하는 음성인식부를 포함하는 것을 특징으로 하는 음성 인식 시스템.
  2. 제 1항에 있어서,
    상기 음성수신부는,
    외부로부터 화자의 음성을 독취하는 음성독취부; 및
    상기 독취된 음성을 상기 음성인식부에서 제공되는 상기 음성 입력 레벨에 따라 수신하여 상기 음성인식부로 출력하는 음성레벨 제어부를 포함하는 것을 특징으로 하는 음성 인식 시스템.
  3. 제 1항에 있어서,
    상기 음성 인식부는,
    상기 음성수신부에서 출력되는 음성으로부터 상기 음성 인식에 필요한 음성 신호 구간을 검출하는 음성 검출부;
    상기 검출한 음성 신호 구간에 대해 임계값을 기준으로 음성 신호의 포화 여부를 결정하는 음성포화 검출부; 및
    상기 음성 신호 구간에 대해 상기 음성 신호가 포화된 것으로 판단되면, 상기 음성수신부가 상기 음성을 포화되지 않은 상태로 수신하도록 새로운 음성 입력 레벨을 결정하고 상기 새로운 음성 입력 레벨 정보를 상기 음성수신부로 출력하는 입력레벨 결정부를 포함하는 것을 특징으로 하는 음성 인식 시스템.
  4. 제 3항에 있어서,
    상기 음성 검출부에서 검출한 음성 신호 구간에 대해 포화되지 않은 것으로 판단되면, 상기 검출한 음성 신호 구간에 대해 음성 인식 처리를 수행하는 음성보정부를 더 포함하는 것을 특징으로 하는 음성 인식 시스템.
  5. 제 3항에 있어서,
    상기 음성검출부는 상기 음성수신부로부터 입력되는 음성 신호에 대한 에너지 값 및 영점 교차율(Zero Crossing Rate)을 이용하여 상기 음성 신호 구간을 검 출하는 것을 특징으로 하는 음성 인식 시스템.
  6. 제 3항에 있어서,
    상기 음성포화 검출부는 상기 음성 신호 구간의 평균 에너지 값을 산출하고 상기 평균 에너지 값이 특정 임계값 이상이면, 상기 음성 신호 구간의 음성 신호가 포화된 것으로 판단하는 것을 특징으로 하는 음성 인식 시스템.
  7. 제 3항에 있어서,
    상기 음성포화 검출부는 상기 음성 신호 구간을 수 내지 수십 개의 짧은 구간으로 나누어 각 구간에서의 음성 신호 값이 음성 입력의 해상도(Resolution)보다 큰 값인 경우, 상기 음성 신호 구간의 음성 신호가 포화된 것으로 판단하는 것을 특징으로 하는 음성 인식 시스템.
    기 새로운 음성 입력 레벨을 결정하는 것을 특징으로 하는 음성 인식 시스템.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 음성 인식 시스템을 이용한 음성 인식 방법에 있어서,
    설정된 음성 입력 레벨에 따라 독취되는 음성을 수신하여 출력하는 단계;
    상기 출력되는 음성으로부터 음성 인식에 필요한 음성 신호 구간을 검출하고, 상기 검출한 음성 신호 구간에 대해 임계값을 기준으로 음성 신호의 포화 여부를 결정하는 단계;
    상기 음성 신호 구간의 검출을 실패한 경우 그리고 상기 음성 신호 구간의 음성 신호가 포화된 것으로 판단되는 경우, 현재 설정된 음성 입력 레벨(
    Figure 712006004237428-pat00054
    )과 설정 가능한 상기 음성 입력 레벨의 최대값(
    Figure 712006004237428-pat00055
    )의 중간으로 상기 새로운 음성 입력 레벨(
    Figure 712006004237428-pat00056
    )을 결정하는 단계; 및
    상기 결정된 새로운 음성 입력 레벨에 따라 상기 음성을 독취하여 수신하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  12. 제 11항에 있어서,
    상기 검출한 음성 신호 구간에 대해 포화되지 않은 것으로 판단되면, 상기 검출한 음성 신호 구간에 대해 음성 인식 처리를 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
  13. 제 11항에 있어서,
    상기 음성 신호 구간 검출 단계에서는 상기 음성 신호에 대한 에너지 값 및 영점 교차율(Zero Crossing Rate)을 이용하여 상기 음성 신호 구간을 검출하는 것 을 특징으로 하는 음성 인식 방법.
  14. 제 11항에 있어서,
    상기 음성 신호 포화 결정 단계에서는 상기 음성 신호 구간의 평균 에너지 값을 산출하고 상기 평균 에너지 값이 특정 임계값 이상이면, 상기 음성 신호 구간의 음성 신호가 포화된 것으로 판단하는 것을 특징으로 하는 음성 인식 방법.
  15. 제 11항에 있어서,
    상기 음성 신호 포화 결정 단계에서는 상기 음성 신호 구간을 수 내지 수십 개의 짧은 구간으로 나누어 각 구간에서의 음성 신호 값이 음성 입력의 해상도(Resolution)보다 큰 값인 경우, 상기 음성 신호 구간의 음성 신호가 포화된 것으로 판단하는 것을 특징으로 하는 음성 인식 방법.
  16. 삭제
  17. 삭제
  18. 삭제
KR1020040102613A 2004-12-07 2004-12-07 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법 KR100705563B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020040102613A KR100705563B1 (ko) 2004-12-07 2004-12-07 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법
US11/262,843 US20060122831A1 (en) 2004-12-07 2005-11-01 Speech recognition system for automatically controlling input level and speech recognition method using the same
CN200510124900.8A CN1787073A (zh) 2004-12-07 2005-11-22 自动控制输入等级的语音识别系统及语音识别方法
JP2005344967A JP2006163392A (ja) 2004-12-07 2005-11-30 入力レベルの自動調整のための音声認識システム及びこれを用いた音声認識方法
EP05026106A EP1669978A1 (en) 2004-12-07 2005-11-30 Speech detection system and method for automatically controlling the input level of speech signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040102613A KR100705563B1 (ko) 2004-12-07 2004-12-07 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR20060063437A KR20060063437A (ko) 2006-06-12
KR100705563B1 true KR100705563B1 (ko) 2007-04-10

Family

ID=35911210

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040102613A KR100705563B1 (ko) 2004-12-07 2004-12-07 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법

Country Status (5)

Country Link
US (1) US20060122831A1 (ko)
EP (1) EP1669978A1 (ko)
JP (1) JP2006163392A (ko)
KR (1) KR100705563B1 (ko)
CN (1) CN1787073A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10762897B2 (en) 2016-08-12 2020-09-01 Samsung Electronics Co., Ltd. Method and display device for recognizing voice

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100834679B1 (ko) * 2006-10-31 2008-06-02 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법
JP5239594B2 (ja) * 2008-07-30 2013-07-17 富士通株式会社 クリップ検出装置及び方法
KR20110010939A (ko) * 2009-07-27 2011-02-08 삼성전자주식회사 휴대용 단말기에서 음성 인식 성능을 향상시키기 위한 장치 및 방법
US9426592B2 (en) 2013-02-14 2016-08-23 Google Inc. Audio clipping detection
KR101520938B1 (ko) * 2013-04-26 2015-05-18 미디어젠(주) 음량 크기의 통계적 특성을 이용한 음량측정방법
GB2535766B (en) 2015-02-27 2019-06-12 Imagination Tech Ltd Low power detection of an activation phrase
US10963063B2 (en) * 2015-12-18 2021-03-30 Sony Corporation Information processing apparatus, information processing method, and program
CN108320742B (zh) * 2018-01-31 2021-09-14 广东美的制冷设备有限公司 语音交互方法、智能设备及存储介质
TWI672690B (zh) * 2018-03-21 2019-09-21 塞席爾商元鼎音訊股份有限公司 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置
JP7131362B2 (ja) * 2018-12-20 2022-09-06 トヨタ自動車株式会社 制御装置、音声対話装置及びプログラム
CN114512127B (zh) * 2022-01-29 2023-12-26 深圳市九天睿芯科技有限公司 语音控制方法、装置、设备、介质及智能语音采集系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115098A (ja) * 1994-10-18 1996-05-07 Hitachi Microcomput Syst Ltd 音声編集方法および装置
KR19990011286A (ko) * 1997-07-22 1999-02-18 구자홍 잡음환경하에서 음성인식을 위한 음성구간 검출방법
JPH11126093A (ja) 1997-10-24 1999-05-11 Hitachi Eng & Service Co Ltd 音声入力調整方法および音声入力システム
KR19990060129A (ko) * 1997-12-31 1999-07-26 구자홍 음성인식 시스템의 음성구간 검출방법
KR20020033791A (ko) * 2000-07-10 2002-05-07 마츠시타 덴끼 산교 가부시키가이샤 음성 인식 장치, 음성 인식 방법 및 음성 인식 프로그램을 기록한 기록 매체

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870705A (en) * 1994-10-21 1999-02-09 Microsoft Corporation Method of setting input levels in a voice recognition system
US6744882B1 (en) * 1996-07-23 2004-06-01 Qualcomm Inc. Method and apparatus for automatically adjusting speaker and microphone gains within a mobile telephone
US5841385A (en) * 1996-09-12 1998-11-24 Advanced Micro Devices, Inc. System and method for performing combined digital/analog automatic gain control for improved clipping suppression
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
US6314396B1 (en) * 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
GB2355607B (en) * 1999-10-20 2002-01-16 Motorola Israel Ltd Digital speech processing system
US6651040B1 (en) * 2000-05-31 2003-11-18 International Business Machines Corporation Method for dynamic adjustment of audio input gain in a speech system
US8019091B2 (en) * 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US6754623B2 (en) * 2001-01-31 2004-06-22 International Business Machines Corporation Methods and apparatus for ambient noise removal in speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115098A (ja) * 1994-10-18 1996-05-07 Hitachi Microcomput Syst Ltd 音声編集方法および装置
KR19990011286A (ko) * 1997-07-22 1999-02-18 구자홍 잡음환경하에서 음성인식을 위한 음성구간 검출방법
JPH11126093A (ja) 1997-10-24 1999-05-11 Hitachi Eng & Service Co Ltd 音声入力調整方法および音声入力システム
KR19990060129A (ko) * 1997-12-31 1999-07-26 구자홍 음성인식 시스템의 음성구간 검출방법
KR20020033791A (ko) * 2000-07-10 2002-05-07 마츠시타 덴끼 산교 가부시키가이샤 음성 인식 장치, 음성 인식 방법 및 음성 인식 프로그램을 기록한 기록 매체

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10762897B2 (en) 2016-08-12 2020-09-01 Samsung Electronics Co., Ltd. Method and display device for recognizing voice

Also Published As

Publication number Publication date
CN1787073A (zh) 2006-06-14
US20060122831A1 (en) 2006-06-08
EP1669978A1 (en) 2006-06-14
JP2006163392A (ja) 2006-06-22
KR20060063437A (ko) 2006-06-12

Similar Documents

Publication Publication Date Title
JP2006163392A (ja) 入力レベルの自動調整のための音声認識システム及びこれを用いた音声認識方法
JP6751658B2 (ja) 音声認識装置、音声認識システム
US5146504A (en) Speech selective automatic gain control
KR100944252B1 (ko) 오디오 신호 내에서 음성활동 탐지
US6321197B1 (en) Communication device and method for endpointing speech utterances
JPH09325790A (ja) 音声処理方法および装置
US20180275951A1 (en) Speech recognition device, speech recognition method and storage medium
US20020049596A1 (en) Speech recognition apparatus and method
US8050415B2 (en) Method and apparatus for detecting audio signals
JP3878482B2 (ja) 音声検出装置および音声検出方法
KR100800873B1 (ko) 음성 신호 검출 시스템 및 방법
EP2898510B1 (en) Method, system and computer program for adaptive control of gain applied to an audio signal
EP0944036A1 (en) Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device
KR20080038896A (ko) 음성 인식 오류 통보 장치 및 방법
EP0487307A2 (en) Method and system for speech recognition without noise interference
US10403289B2 (en) Voice processing device and voice processing method for impression evaluation
KR100976082B1 (ko) 잡음 환경들에 대한 음성 활동도 검출기 및 검증기
US20120209598A1 (en) State detecting device and storage medium storing a state detecting program
CN107977187B (zh) 一种混响调节方法及电子设备
EP1300832A1 (en) Speech recognizer, method for recognizing speech and speech recognition program
JP2016033530A (ja) 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
US20040172244A1 (en) Voice region detection apparatus and method
US20220059068A1 (en) Information processing device, sound masking system, control method, and recording medium
KR20110078091A (ko) 이퀄라이저 조정 장치 및 방법
JP2975772B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment
FPAY Annual fee payment
FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee