KR100705563B1

KR100705563B1 - 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법

Info

Publication number: KR100705563B1
Application number: KR1020040102613A
Authority: KR
Inventors: 정명기; 심현식; 이종창; 김광춘
Original assignee: 삼성전자주식회사
Priority date: 2004-12-07
Filing date: 2004-12-07
Publication date: 2007-04-10
Also published as: CN1787073A; JP2006163392A; EP1669978A1; KR20060063437A; US20060122831A1

Abstract

본 발명의 음성 인식 시스템은, 외부로부터 화자의 음성을 독취하는 음성독취부, 독취된 음성을 음성인식부에서 제공되는 음성 입력 레벨에 따라 수신하여 음성인식부로 출력하는 음성레벨 제어부, 음성레벨 제어부에서 출력되는 음성으로부터 음성 인식에 필요한 음성 신호 구간을 검출하는 음성 검출부, 검출한 음성 신호 구간에 대해 임계값을 기준으로 음성 신호의 포화 여부를 결정하는 음성포화 검출부, 및 음성 신호 구간에 대해 음성 신호가 포화된 것으로 판단되면 음성레벨 제어부가 음성을 포화되지 않은 상태로 수신하도록 새로운 음성 입력 레벨을 결정하고 새로운 음성 입력 레벨 정보를 음성레벨 제어부로 출력하는 입력레벨 결정부를 갖는다.

음성, 입력 레벨, 자동 조절, 음성 인식, 포화, 음성 신호 구간

Description

입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를 이용한 음성 인식 방법{Speech Recognition System capable of Controlling Automatically Inputting Level and Speech Recognition Method using the same}

도 1은 종래의 음성 인식 시스템에서 음성 검출을 실패한 결과를 표시한 일예를 도시한 도면,

도 2는 종래의 음성 인식 시스템에서 음성 검출을 실패한 결과를 표시한 다른 예를 도시한 도면,

도 3은 본 발명에 따른 음성 입력 레벨 자동 조절을 위한 음성 인식 시스템의 바람직한 실시예를 도시한 블록도,

도 4는 도 3의 음성 검출부에서 음성 신호의 에너지와 영점 교차율(Zero crossing rate)을 이용한 음성 신호 구간 검출 원리를 설명하기 위한 도면, 그리고

도 5는 본 발명에 따른 음성 인식 시스템을 이용한 음성 인식 방법의 바람직한 실시예를 도시한 플로우도이다.

본 발명은 음성인식 시스템에 관한 것으로서, 보다 상세하게는, 입력되는 음성에 대한 음성 신호 구간 검출 및 포화 여부에 따라 음성의 입력 레벨을 조절할 수 있는 음성 인식 시스템 및 이를 이용한 음성 인식 방법에 관한 것이다.

일반적으로 음성 인식 시스템은 입력되는 음성을 주파수 분석 기법을 이용한 다양한 분석 방법을 통하여 그 특징 벡터를 구성하여 음성 인식을 위해 이용한다. 음성 인식 시스템은 다양한 음성 인식 기법 중 중 입력된 음성 신호의 에너지를 이용한 음성 인식 기법을 널리 사용하고 있다.

음성의 에너지를 이용한 음성 인식 방법에서, 음성 인식 시스템은 음성 인식을 위해 입력되는 음성 신호에 대한 에너지를 정규화(Normalization)하여 상기 음성의 에너지 편차를 최소한으로 줄인다. 이때 음성 인식 시스템은 입력된 음성 신호의 특정 시점에서의 에너지 레벨(또는 신호 레벨)은 일일이 확인하지 않는다.

기존의 음성 인식 방법에서, 음성 인식 시스템은 음성 신호의 입력 레벨이 매우 낮아 음성 검출이 실패하거나 음성 입력 레벨이 높아 음성의 임의의 구간에서 음성 입력의 해상도(Resolution)를 벗어나는 음성이 입력되었을 경우, 음성 인식률이 저하될 우려가 있다. 그러나 기존의 음성 인식 시스템을 이용한 음성 인식 방법은 상기와 같은 상황에서 음성 인식 저하를 보상하기 위한 방법을 제시하고 있지 않다.

즉, 종래의 음성 인식 시스템은 입력되는 음성의 레벨에 따라 이용 가능한 범위의 레벨로 음성 입력 레벨을 조절하지 않는다. 따라서 종래의 음성 인식 시스 템은 음성 입력 레벨이 낮아 음성 검출에 실패하거나 음성 입력 레벨이 높아 음성의 구간에서 입력 신호의 포화(Saturation) 현상이 발생하여 음성 인식률을 저하 시킬 수 있다.

도 1은 종래의 음성 인식 시스템에서 음성 검출을 실패한 결과를 표시한 일예를 도시한 도면이다. 도시된 바와 같이 도면에는 입력되는 음성이 음성 인식 구간으로 설정된 범위 보다 낮은 신호 레벨로 인하여 음성 검출을 실패한 결과 정보(10)가 표시되어 있다.

도 2는 종래의 음성 인식 시스템에서 음성 검출을 실패한 결과를 표시한 다른 예를 도시한 도면이다. 도시된 바와 같이 도면에는 입력되는 음성이 음성 인식 구간으로 설정된 범위 보다 높은(포화) 신호 레벨로 인하여 음성 인식을 실패를 결과 정보(20)가 표시되어 있다.

도 1 및 도 2와 같이 음성 인식이 실패한 경우, 종래의 음성 인식 시스템은 사용자가 직접 음성 입력 레벨을 음성 인식 실패 이유에 따라 조절하도록 한다. 즉, 사용자는 음성 입력을 받는 마이크와 사용자의 거리를 조절하거나 입력 장치의 마이크 이득을 조절하여 입력 레벨을 조절한다.

음성 인식 시스템을 사용하는 사용자는 주기적으로 일정한 간격으로 사용하기 보다는 어떤 시점을 시작으로 수차례를 연속해서 사용하기 때문에, 최초 인식으로 인한 입력 레벨의 보정이 그 다음 인식에 영향을 줄 확률이 높다. 또한 하나의 음성 인식 시스템을 사용하는 사용자가 다수일 경우, 사용자 마다 다른 음량과 음성 입력 방식(마이크와 화자와의 거리 차이)이 다른 경우가 많다. 이 경우, 사용 자에 따라 음성 인식 시스템의 음성 입력 레벨을 상황에 따라 실시간으로 조절해 주어야 하지만, 종래의 음성 인식 시스템은 사용자가 직접 수작업으로 일일이 조절해 주어야하는 문제점이 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 사용자가 발성한 음성을 분석하여 음성 인식 구간에서 음성으로 인식할 수 있도록 음성 입력 레벨을 자동으로 또는 능동적으로 조절할 수 있는 음성 인식 시스템 및 이를 이용한 음성 인식 방법을 제공하는 데 있다.

본 발명의 다른 목적은, 다수의 화자 또는 동일한 화자에 의해 발성되는 다양한 음량 및 발성 패턴에 대응하여 입력되는 음성의 검출율 및 인식율 높일 수 있는 음성 인식 시스템 및 이를 이용한 음성 인식 방법을 제공하는 데 있다.

상기와 같은 목적은 본 발명의 실시예에 따라, 음성 인식 시스템에 있어서, 설정된 음성 입력 레벨에 따라 독취되는 음성을 수신하여 출력하는 음성수신부, 및 출력된 음성 중 음성 인식에 필요한 음성 신호 구간에 대해 설정된 임계값을 기준으로 음성 신호의 포화 여부에 따라 음성 입력 레벨을 결정하여 음성수신부로 출력하는 음성인식부를 포함하는 것을 음성 인식 시스템에 의해 달성된다.

바람직하게는, 상기 음성수신부는, 외부로부터 화자의 음성을 독취하는 음성 독취부, 및 독취된 음성을 음성인식부에서 제공되는 음성 입력 레벨에 따라 수신하여 음성인식부로 출력하는 음성레벨 제어부를 갖는다.

바람직하게는, 상기 음성 인식부는, 음성수신부에서 출력되는 음성으로부터 음성 인식에 필요한 음성 신호 구간을 검출하는 음성 검출부, 검출한 음성 신호 구간에 대해 임계값을 기준으로 음성 신호의 포화 여부를 결정하는 음성포화 검출부, 및 음성 신호 구간에 대해 음성 신호가 포화된 것으로 판단되면 음성수신부가 음성을 포화되지 않은 상태로 수신하도록 새로운 음성 입력 레벨을 결정하고 새로운 음성 입력 레벨 정보를 음성수신부로 출력하는 입력레벨 결정부를 갖는다.

본 실시예의 음성 인식 시스템은 음성 검출부에서 검출한 음성 신호 구간에 대해 포화되지 않은 것으로 판단되면, 검출한 음성 신호 구간에 대해 음성 인식 처리를 수행하는 음성보정부를 더 갖는다.

상기 음성검출부는 음성수신부로부터 입력되는 음성 신호에 대한 에너지 값 및 영점 교차율(Zero Crossing Rate)을 이용하여 음성 신호 구간을 검출한다.

상기 음성포화 검출부는 음성 신호 구간의 평균 에너지 값을 산출하고 평균 에너지 값이 특정 임계값 이상이면, 음성 신호 구간의 음성 신호가 포화된 것으로 판단한다.

상기 음성포화 검출부는 음성 신호 구간을 수 내지 수십 개의 짧은 구간으로 나누어 각 구간에서의 음성 신호 값이 음성 입력의 해상도(Resolution)보다 큰 값인 경우, 음성 신호 구간의 음성 신호가 포화된 것으로 판단한다.

상기 입력레벨 결정부는 음성검출부에서 음성 신호 구간의 검출을 실패한 경 우, 새로운 음성 입력 레벨을 결정한다.

상기 입력레벨 결정부는 음성검출부에서 음성 신호 구간의 검출을 실패한 경우, 현재 설정된 음성 입력 레벨(

)과 설정 가능한 음성 입력 레벨의 최대값(

)의 중간으로 새로운 음성 입력 레벨(

)을 결정한다.

상기 입력레벨 결정부는 음성포화 검출부에서 음성 신호 구간의 음성 신호가 포화된 것으로 판단되면, 현재 설정된 음성 입력 레벨(

)과 설정 가능한 음성 입력 레벨의 최소값(

)의 중간값으로 새로운 음성 입력 레벨(

)을 결정한다.

한편, 상기와 같은 목적은 본 발명의 실시예에 따라, 음성 인식 시스템을 이용한 음성 인식 방법에 있어서, 설정된 음성 입력 레벨에 따라 독취되는 음성을 수신하여 출력하는 단계, 출력되는 음성으로부터 음성 인식에 필요한 음성 신호 구간을 검출하는 단계, 검출한 음성 신호 구간에 대해 임계값을 기준으로 음성 신호의 포화 여부를 결정하는 단계, 음성 신호 구간에 대해 음성 신호가 포화된 것으로 판단되면 음성을 포화되지 않은 상태로 수신하기 위한 새로운 음성 입력 레벨을 결정하는 단계, 및 새로운 음성 입력 레벨에 따라 상기 음성을 독취하여 수신하는 단계를 포함하는 음성 인식 방법에 의해 달성된다.

바람직하게는, 상기 음성 신호 구간 검출 단계에서는 음성 신호에 대한 에너지 값 및 영점 교차율(Zero Crossing Rate)을 이용하여 음성 신호 구간을 검출한 다.

상기 음성 신호 포화 결정 단계에서는 음성 신호 구간의 평균 에너지 값을 산출하고 평균 에너지 값이 특정 임계값 이상이면, 음성 신호 구간의 음성 신호가 포화된 것으로 판단한다.

상기 음성 신호 포화 결정 단계에서는 음성 신호 구간을 수 내지 수십 개의 짧은 구간으로 나누어 각 구간에서의 음성 신호 값이 음성 입력의 해상도(Resolution)보다 큰 값인 경우, 음성 신호 구간의 음성 신호가 포화된 것으로 판단한다.

상기 새로운 음성 입력 레벨 단계에서는 음성 신호 구간의 검출을 실패한 경우, 새로운 음성 입력 레벨을 결정한다.

상기 새로운 음성 입력 레벨 단계에서는 음성 신호 구간 검출 단계에서 음성 신호 구간의 검출을 실패한 경우, 현재 설정된 음성 입력 레벨(

)과 설정 가능한 음성 입력 레벨의 최대값(

)의 중간으로 새로운 음성 입력 레벨(

)을 결정한다.

상기 새로운 음성 입력 레벨 단계에서는 음성 신호 포화 결정 단계에서 음성 신호 구간의 음성 신호가 포화된 것으로 판단되면, 현재 설정된 음성 입력 레벨(

)과 설정 가능한 음성 입력 레벨의 최소값(

)의 중간값으로 새로운 음성 입력 레벨(

)을 결정한다.

본 발명에 따르면, 입력된 음성 신호로부터 음성 신호 구간 검출 여부 및 검출한 음성 신호 구간에 대한 포화 여부에 따라 음성 입력 레벨을 조절함으로써, 입력되는 음성 신호로부터 음성 검출의 실패율과 음성 신호 포화로 인한 음성 인식률의 저하를 줄일 수 있다. 또한 사용자가 직접 음성 입력 레벨을 조작하지 않고 음성 신호 구간 검출이 실패하거나 검출한 음성 신호가 포화된 상태인 경우 능동적으로 음성 입력 레벨을 조절함으로써, 화자(Speaker)마다 다양한 음량과 발성 패턴(마이크와 화자와의 거리)에 적응적으로 음성 검출의 실패율 및 음성 인식율 저하를 줄일 수 있다.

이하, 본 발명의 바람직한 실시예들을 첨부한 도면을 참조하여 상세히 설명한다. 도면들 중 동일한 구성요소들은 가능한 한 어느 곳에서든지 동일한 부호들로 나타내고 있음에 유의해야 한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.

도 3은 본 발명에 따른 음성 입력 레벨 자동 조절을 위한 음성 인식 시스템의 바람직한 실시예를 도시한 블록도이다.

도면에 도시된 음성 인식 시스템은 본 발명과 관련이 없는 구성에 대해 생략하고 본 발명의 주요 구성에 대해서만 도시한 것이다. 이러한 음성 인식 시스템은 단일 시스템으로 구현될 수도 있고 클라이언트/서버 형태의 네트워크를 이용한 구조로 구현될 수도 있다.

도시된 바와 같이, 음성 인식 시스템은 음성수신부(200) 및 음성인식부(300)를 갖는다.

음성수신부(200)는 화자(110)에 의해 발성되는 음성을 독취하여 음성인식부(300)로 출력한다.

음성수신부(240)는 마이크(220) 및 수신레벨 제어부(240)를 갖는다.

마이크(220)는 화자(110)에 의해 발성되는 음성을 독취하고, 수신레벨 제어부(240)는 마이크(220)에 독취되는 음성의 수신 레벨을 입력되는 입력 레벨 정보에 따라 결정된 레벨로 수신한다.

음성인식부(300)는 음성수신부(200)로부터 입력되는 음성 신호 중 음성 구간에 대해, 포화 여부를 판단하여 그 결과에 따라 수신레벨 제어부(240)의 음성 입력 레벨을 결정하고 음성 구간의 음성에 대한 보정을 수행하여 실제 사용할 음성으로 인식하여 해당 블록으로 출력한다.

음성 인식부(300)는 음성검출부(End Point Detector: EPD)(310), 음성보정부(330), 음성포화 검출부(Saturation Detector)(350), 및 입력레벨 결정부(370)를 갖는다. 여기서 음성포화 검출부(350) 및 입력레벨 결정부(370)는 음성 인식부(300)에 포함되도록 구성하여 단일 시스템 내에서 음성 수신부(200)를 직접 제어할 수 있으며, 네트워크 구성을 통하여 클라이언트에 구현될 수도 또는 서버에 구현될 수도 있다.

음성검출부(310)는 음성 수신부(200)로부터 입력된 음성 신호에서 음성 인식에 필요한 음성 신호 구간을 검출해 낸다. 음성검출부(310)는 입력되는 음성 신호로부터 음성 인식에 필요한 실제 음성 신호 구간을 검출할 때, 음성 신호의 에너지와 영점 교차율(Zero crossing rate)을 이용한다.

음성보정부(330)는 음성검출부(310)에서 검출한 음성 신호 구간의 음성에 포함된 노이즈를 줄인 후 실제 사용할 음성으로 인식하여 출력한다.

음성포화 검출부(350)는 음성검출부(310)에서 검출한 음성 신호 구간에 대해 음성 신호의 포화(Saturation)를 검출해 낸다. 음성포화 검출부(350)는 입력된 음성 신호로부터 입력 레벨 조절을 결정하기 위한 기준(Criteria)에 따라 음성 신호의 포화를 검출하는 방법은 아래와 같다.

음성포화 검출부(350)는 입력되는 음성 신호의 평균 에너지를 계산하여 특정 임계값 이상이 되면, 음성 신호가 포화된 것으로 판단한다. 또한 음성포화 검출부(350)는 음성 구간을 수 내지 수십 개의 짧은 구간으로 나누어 각 구간에서의 음성 신호 값이 음성 입력의 해상도(Resolution)보다 큰 값이 나타날 경우, 음성 신호가 포화된 것으로 결정할 수도 있다.

입력레벨 결정부(370)는 음성검출부(310)에 의해 검출한 음성 신호 구간 및 음성포화 검출부(350)에서 검출한 음성 포화 상태를 참고하여 수신레벨 제어부(240)에서 입력 레벨의 조절 수준을 결정한다.

입력레벨 결정부(370)는 음성검출부(310)에서 음성 신호 구간의 검출을 위한 음성의 끝점 검출에 실패했거나 음성포화 검출부(350)에서 음성 신호가 포화된 것으로 결정된 경우, 음성수신부(200)의 수신레벨 제어부(240)에서 조절할 음성에 대한 입력 레벨을 결정한다. 이때 입력레벨 결정부(370)는 결정한 입력 레벨 정보를 음성입력부(200)의 수신레벨 제어부(240)로 전송한다.

이에 따라 수신레벨 제어부(240)는 입력레벨 결정부(370)에서 제공되는 입력 레벨정보에 대응하는 레벨로 마이크(220)에 독취되는 화자(110)의 음성을 수신한다.

도 4는 도 3의 음성 검출부(310)에서 음성 신호의 에너지와 영점 교차율(Zero crossing rate)을 이용한 음성 신호 구간 검출 원리를 설명하기 위한 도면이다.

음성검출부(310)는 음성 신호가 입력되면, 음성 신호에 대한 에너지 및 영점 교차율을 측정한다.

도 4A는 음성검출부(310)에서 측정한 음성 신호에 대한 에너지 값을 샘플별로 나타낸 그래프이다.

음성검출부(310)는 에너지 값이 상한 임계값(Thr.U) 이상이 되면 음성이 시작되었다고 판단하고, 해당 시점으로부터 일정 샘플 구간 앞에서부터 음성 구간의 시작으로 결정한다. 이때 음성검출부(310)는 다시 에너지 값이 하한 임계값(Thr.L) 이하로 떨어지는 샘플 구간이 일정 시간 지속되면 음성 구간이 끝난 것으로 결정한다.

도 4B는 음성검출부(310)에서 산출한 영점 교차율 값을 샘플별로 나타낸 그래프이다.

음성검출부(310)는 도 4A에 도시된 음성 신호의 에너지 값과 함께, 도 4B에 도시된 영교차율을 기준으로 삼아 음성 구간을 판별한다. 영교차율이란 음성 신호의 레벨이 영점을 얼마나 많이 교차하느냐를 나타내는 것이다. 음성검출부(310)는 영교차율을 이용하여 현재의 음성 신호 샘플 값과 바로 전 음성 신호의 샘플 값의 곱이 음수이면, 영점을 교차하였다고 판별한다. 이러한 것을 기준으로 할 수 있는 이유는 음성 신호가 그 해당 구간에서 주기적인 구간을 반드시 포함하고 있고, 그 주기적인 구간의 영 교차율은 음성이 없는 구간의 영 교차율에 비하여 상당히 작기 때문이다.

도 4B에 도시된 바와 같이, 음성이 없는 구간의 영 교차율은 임계값(Thr.ZCR)보다 크게 나타나는 것을 알 수 있다. 반대로 음성 구간에서는 영 교차율이 나타나지 않음을 알 수 있다.

음성검출부(310)는 음성 검출이 성공하면, 검출된 음성 신호를 음성포화 검출부(350)로 전송한다.

먼저, 음성수신부(240)의 수신레벨 제어부(240)는 사용자의 음성을 설정된 입력 레벨로 수신하고, 수신한 음성을 음성 인식부(300)로 출력한다(S110). 음성 인식부(300)의 음성 검출부(310)는 입력되는 음성으로부터 실제 음성 신호 구간을 검출한다(S130). 본 실시예에서 음성 검출부(310)는 음성 신호에 대한 에너지 및 영점 교차율을 이용하여 음성 신호 구간을 검출한다.

음성 구간 검출에 성공하면(S150), 음성포화 검출부(350)는 검출된 음성 신호를 분석하여 음성의 포화 여부를 검출한다(S170). 이때 음성포화 검출부(350)는 음성의 포화 검출을 위해 음성의 에너지를 이용하거나 음성 데이터 값을 이용할 수 있다. 구체적으로, 음성포화 검출부(350)는 음성 구간을 10~40msec 정도의 짧은 단 구간으로 구분한다. 이렇게 음성 구간을 단 구간으로 구분의 이유는 시간에 따라 변화하는 음성 신호가 짧은 구간에서는 정지한(Stationary) 특성을 나타내기 때문이다. 음성 신호의 에너지를 이용하여 음성 포화를 검출하는 경우, 음성포화 검출부(350)는 아래 수학식 1과 같이 단 구간으로 구분된 음성 구간에서 음성데이터의 에너지를 계산한다.

: j번째 음성 구간의 평균 에너지

: 음성 단구간의 데이터 수(샘플 수)

: j번째 음성 구간의 음성 데이터

음성포화 검출부(350)는 계산된 음성 구간의 에너지 값과 음성 신호의 포화라고 결정할 수 있는 에너지의 임계값을 비교한다. 이때 음성포화 검출부(350)는 임계값 보다 큰 에너지가 계산되었다면, 입력된 음성 신호가 포화되었다고 판단한다(S190).

여기서 음성 신호의 포화라고 결정할 수 있는 에너지의 임계값은 음성 입력의 해상도에 의해 결정될 수 있다. 예를 들어 16비트(bit)의 해상도를 가진 음성 신호라면 음성 데이터의 범위는 이므로, 이 값을 이용하여 임계값을 계산할 수 있다.

아래 수학식 2와 같이 음성 신호의 데이터 값을 이용하여 음성 포화를 결정하는 경우, 음성포화 결정부(350)는 구분된 음성 구간에서 연속된 수 개의 음성 데이터 값이 해상도에 의해 가질 수 있는 최대값(

)이면, 입력된 음성 신호가 포화되었다고 판단한다.

: 입력 신호의 해상도에 따라 설정된 최대값(예, 16Bit일 때)

t : j번째 음성 구간에서의 음성 데이터 각 위치

L : 설정해 놓은 연속된 포화 음성 데이터의 수

한편, S150 단계 및 S190 단계에서 음성 검출부(310)가 음성 검출을 실패하거나 음성포화 검출부(350)가 음성 신호의 포화 상태를 검출하게 되면, 입력레벨 결정부(370)는 음성 수신부(200)에서 음성을 수신할 때 적용할 새로운 입력 레벨을 결정한다(S210).

입력 레벨을 결정하는 예로는 아래 수학식 3과 같이 2가지 경우가 있다. 첫째 음성검출부(310)에서 음성 검출을 실패한 경우, 입력레벨 결정부(370)는 현재 음성 입력 레벨(

)과 음성 입력 레벨의 최대값(

)의 중간으로 새로운 음성 입력 레벨(

)을 결정한다. 둘째 음성포화 검출부(350)에서 음성의 포화 상태가 검출된 경우, 입력레벨 결정부(370)는 현재의 음성 입력 레벨(

)과 음 성 입력 레벨의 최소값(

)의 중간값으로 새로운 음성 입력 레벨(

)을 결정한다.

: 입력 레벨의 증가

: 입력 레별의 감소

: 새로운 음성 입력 레벨

: 기존의 음성 입력 레벨

: 입력 레벨의 최대값

: 입력 레벨의 최소값

새로운 음성 입력 레벨(

)이 결정되면, 입력레벨 결정부(370)는 결정된 새로운 음성 입력 레벨 정보를 수신레벨 제어부(240)에 제공한다. 이에 따라 수신레벨 제어부(240)는 마이크(220)에 독취되는 음성을 새로운 음성 입력 레벨에 따라 수신하여 음성 검출부(310)로 출력한다.

한편 S190 단계에서 음성 신호가 포화 상태가 아닌 것으로 판단되면, 음성보정부(330)는 음성 검출부(310)에서 검출한 음성 신호 구간에 대해 잡음을 줄이고 정상적인 음성 인식 처리 동작을 수행한다(S230).

이상에서는 본 발명에서 특정의 바람직한 실시예에 대하여 도시하고 또한 설명하였다. 그러나, 본 발명은 상술한 실시예에 한정되지 아니하며, 특허 청구의 범위에서 첨부하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능할 것이다.

본 발명에 따르면, 입력된 음성 신호로부터 음성 신호 구간 검출 여부 및 검출한 음성 신호 구간에 대한 포화 여부에 따라 음성 입력 레벨을 조절함으로써, 입력되는 음성 신호로부터 음성 검출의 실패율과 음성 신호 포화로 인한 음성 인식률의 저하를 줄일 수 있다.

또한 사용자가 직접 음성 입력 레벨을 조작하지 않고 음성 신호 구간 검출이 실패하거나 검출한 음성 신호가 포화된 상태인 경우 능동적으로 음성 입력 레벨을 조절함으로써, 화자(Speaker)마다 다양한 음량과 발성 패턴(마이크와 화자와의 거리)에 적응적으로 음성 검출의 실패율 및 음성 인식율 저하를 줄일 수 있다.

Claims

음성 인식 시스템에 있어서,

설정된 음성 입력 레벨에 따라 독취되는 음성을 수신하여 출력하는 음성수신부; 및

상기 출력된 음성 중 음성 인식에 필요한 음성 신호 구간을 검출하고, 검출된 음성 신호 구간에 대해 설정된 임계값을 기준으로 음성 신호의 포화 여부를 판단하여 음성 신호 구간의 검출을 실패한 경우 그리고 상기 음성 신호 구간의 음성 신호가 포화된 것으로 판단되는 경우, 현재 설정된 음성 입력 레벨(
)과 설정 가능한 상기 음성 입력 레벨의 최대값(
)의 중간으로 상기 새로운 음성 입력 레벨(
)을 결정하여 결정된 음성 입력 레벨값을 상기 음성수신부로 출력하는 음성인식부를 포함하는 것을 특징으로 하는 음성 인식 시스템.
제 1항에 있어서,

상기 음성수신부는,

외부로부터 화자의 음성을 독취하는 음성독취부; 및

상기 독취된 음성을 상기 음성인식부에서 제공되는 상기 음성 입력 레벨에 따라 수신하여 상기 음성인식부로 출력하는 음성레벨 제어부를 포함하는 것을 특징으로 하는 음성 인식 시스템.
제 1항에 있어서,

상기 음성 인식부는,

상기 음성수신부에서 출력되는 음성으로부터 상기 음성 인식에 필요한 음성 신호 구간을 검출하는 음성 검출부;

상기 검출한 음성 신호 구간에 대해 임계값을 기준으로 음성 신호의 포화 여부를 결정하는 음성포화 검출부; 및

상기 음성 신호 구간에 대해 상기 음성 신호가 포화된 것으로 판단되면, 상기 음성수신부가 상기 음성을 포화되지 않은 상태로 수신하도록 새로운 음성 입력 레벨을 결정하고 상기 새로운 음성 입력 레벨 정보를 상기 음성수신부로 출력하는 입력레벨 결정부를 포함하는 것을 특징으로 하는 음성 인식 시스템.
제 3항에 있어서,

상기 음성 검출부에서 검출한 음성 신호 구간에 대해 포화되지 않은 것으로 판단되면, 상기 검출한 음성 신호 구간에 대해 음성 인식 처리를 수행하는 음성보정부를 더 포함하는 것을 특징으로 하는 음성 인식 시스템.
제 3항에 있어서,

상기 음성검출부는 상기 음성수신부로부터 입력되는 음성 신호에 대한 에너지 값 및 영점 교차율(Zero Crossing Rate)을 이용하여 상기 음성 신호 구간을 검 출하는 것을 특징으로 하는 음성 인식 시스템.
제 3항에 있어서,

상기 음성포화 검출부는 상기 음성 신호 구간의 평균 에너지 값을 산출하고 상기 평균 에너지 값이 특정 임계값 이상이면, 상기 음성 신호 구간의 음성 신호가 포화된 것으로 판단하는 것을 특징으로 하는 음성 인식 시스템.
제 3항에 있어서,

상기 음성포화 검출부는 상기 음성 신호 구간을 수 내지 수십 개의 짧은 구간으로 나누어 각 구간에서의 음성 신호 값이 음성 입력의 해상도(Resolution)보다 큰 값인 경우, 상기 음성 신호 구간의 음성 신호가 포화된 것으로 판단하는 것을 특징으로 하는 음성 인식 시스템.

기 새로운 음성 입력 레벨을 결정하는 것을 특징으로 하는 음성 인식 시스템.
삭제
삭제
삭제
음성 인식 시스템을 이용한 음성 인식 방법에 있어서,

설정된 음성 입력 레벨에 따라 독취되는 음성을 수신하여 출력하는 단계;

상기 출력되는 음성으로부터 음성 인식에 필요한 음성 신호 구간을 검출하고, 상기 검출한 음성 신호 구간에 대해 임계값을 기준으로 음성 신호의 포화 여부를 결정하는 단계;

상기 음성 신호 구간의 검출을 실패한 경우 그리고 상기 음성 신호 구간의 음성 신호가 포화된 것으로 판단되는 경우, 현재 설정된 음성 입력 레벨(
)과 설정 가능한 상기 음성 입력 레벨의 최대값(
)의 중간으로 상기 새로운 음성 입력 레벨(
)을 결정하는 단계; 및

상기 결정된 새로운 음성 입력 레벨에 따라 상기 음성을 독취하여 수신하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
제 11항에 있어서,

상기 검출한 음성 신호 구간에 대해 포화되지 않은 것으로 판단되면, 상기 검출한 음성 신호 구간에 대해 음성 인식 처리를 수행하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
제 11항에 있어서,

상기 음성 신호 구간 검출 단계에서는 상기 음성 신호에 대한 에너지 값 및 영점 교차율(Zero Crossing Rate)을 이용하여 상기 음성 신호 구간을 검출하는 것 을 특징으로 하는 음성 인식 방법.
제 11항에 있어서,

상기 음성 신호 포화 결정 단계에서는 상기 음성 신호 구간의 평균 에너지 값을 산출하고 상기 평균 에너지 값이 특정 임계값 이상이면, 상기 음성 신호 구간의 음성 신호가 포화된 것으로 판단하는 것을 특징으로 하는 음성 인식 방법.
제 11항에 있어서,

상기 음성 신호 포화 결정 단계에서는 상기 음성 신호 구간을 수 내지 수십 개의 짧은 구간으로 나누어 각 구간에서의 음성 신호 값이 음성 입력의 해상도(Resolution)보다 큰 값인 경우, 상기 음성 신호 구간의 음성 신호가 포화된 것으로 판단하는 것을 특징으로 하는 음성 인식 방법.
삭제
삭제
삭제