KR20080038896A

KR20080038896A - 음성 인식 오류 통보 장치 및 방법

Info

Publication number: KR20080038896A
Application number: KR1020060106404A
Authority: KR
Inventors: 김현수; 정명기; 박영희
Original assignee: 삼성전자주식회사
Priority date: 2006-10-31
Filing date: 2006-10-31
Publication date: 2008-05-07
Also published as: US20080101556A1; US20150187350A1; KR100834679B1; US8976941B2; US9530401B2

Abstract

본 발명은 음성 인식 오류 통보 장치 및 방법에 관한 것이다. 이를 위해 본 발명에 따른 음성 인식 오류 통보 방법은 입력되는 음성 데이터에서 순수 음성 데이터를 검출하여 출력하는 제1 과정과, 상기 순수 음성 데이터에 대하여 적어도 하나의 음성 인식 오류 원인을 검사하는 제2 과정과, 상기 음성 인식 오류에 대한 검사 결과 음성 인식 오류가 발생한 원인을 확인하고, 상기 확인된 음성 인식 오류 발생한 원인을 출력하는 제3 과정을 포함한다.

음성신호, 음성인식, 음성처리, 오류 통보

Description

음성 인식 오류 통보 장치 및 방법{METHOD AND APPARATUS FOR ALARMING OF SPEECH-RECOGNITION ERROR}

도 1은 본 발명의 실시 예에 따른 음성 인식 오류 발생 시 오류 발생 원인을 사용자에게 통보하기 위한 음성 인식 장치에 대한 블록 구성도,

도 2는 본 발명의 실시 예에 따른 음성 인식 장치에서 음성 인식 오류 발생 시 오류 발생 원인을 사용자에게 통보하기 위한 과정을 도시하는 흐름도.

본 발명은 음성 인식 장치 및 방법에 관한 것으로, 특히 음성 인식 과정에서 음성 인식 오류 발생 시 오류 방생 원인을 사용자에게 통보하기 위한 장치 및 방법에 관한 것이다.

음성 인식 기술은 홈 네트워크(Home Networking), 로봇(Robotics), 유비쿼터스 네트워크(Ubiquitous Networking) 등과 같은 차세대 기술 분야에서 맨-머쉰 통신(Man-Machine Communicatoin)의 필수 요소로서, 현재 사용되는 환경에 따라 그 성능이 많이 제약되는 모습을 보이고 있다. 음성 인식 장치의 개발 환경과 실제 사 용 환경의 불일치로 인한 채널 잡음과 주변 환경 잡음에 따른 성능 저하가 음성 인식 기술의 상용화에 많은 어려움을 가져오고 있는 것이 현실이다. 또한, 음성 인식 장치를 사용하는 사람의 발음이나 발성 습관이 음성 인식기의 인식 성능에 많은 영향을 주고 있다.

일반적으로 음성 인식 장치는 음성 기반 사용자 인터페이스나 음성 인식 등 에서는 인식에서 사용할 수 있는 특징 추출 또는 패턴 매칭을 위한 적정한 음성 입력을 요구한다. 그러나, 통상적인 상호 작용은 환경적 요인 때문에 요소 기술에서 요구하는 만큼의 정보를 얻지 못하는 경우가 많게 된다, 예를 들어, 사용자의 발성이 너무 느리고 빠르거나, 너무 크고 작은 경우, 또한 잡음이 너무 많아 인식이 되지 않을 경우나 무선 통신 등에서 음성 신호 전송 중 패킷을 잃어 버려 음성 신호가 끊긴 경우 등으로 음성 인식이 어려운 경우가 발생한다. 이와 같이 환경적 요인 또는 음성 입력 자체가 부정확하여 음성 인식이 되지 않을 경우 현재에는 이를 극복할 방안이 없었다.

상술한 바와 같이 종래의 음성 인식에서 환경적이거나 음성 입력 자체의 부정확성 등의 원인으로 음성 인식 오류가 발생하면, 현재로는 알고리즘적으로 극복하기가 불가능하다.

따라서, 본 발명은 음성 기반 사용자 인터페이스에서 인식 오류 발생 시 오류 방생 원인을 사용자에게 통보하기 위한 장치 및 방법을 제공한다.

또한, 본 발명은 음성 인식 과정에서 잡음, 전송에러, 음량 크기, 음량 속도와 같은 음성 인식 오류가 발생할 수 있는 원인들을 분석하여 자동으로 사용자에게 피드백해줄 수 있는 장치 및 방법을 제공한다.

이를 위해 본 발명에 따른 음성 인식 오류 통보 장치에 있어서, 입력되는 음성 데이터에서 순수 음성 데이터를 검출하여 출력하는 음성 데이터 검출부와, 음성 인식 오류를 판단하기 위한 원인마다 각각의 모듈을 구비하고, 상기 순수 음성 데이터가 입력되면 상기 모듈 각각에서 상기 입력된 순수 음성 데이터에 대하여 적어도 하나의 음성 인식 오류를 검사하여 검사결과를 출력하는 음성 인식 오류 검사부와, 상기 음성 인식 오류에 대한 검사 결과들이 입력되면 상기 검사 결과 음성 인식 오류가 발생한 원인을 확인하고, 상기 확인된 음성 인식 오류 발생한 원인을 출력하는 음성 인식 오류 판단부와, 상기 입력 음성 데이터를 상기 음성 인식 오류 검사부의 각각의 모듈을 통해 적어도 하나의 음성 인식 오류를 검사하도록 제어한 후, 상기 검사결과를 상기 음성 인식 오류 판단부로 입력되도록 하고 상기 음성 인식 오류 판단부로부터 출력되는 음성 인식 오류 발생 원인을 사용자에게 알리도록 제어하는 제어부를 포함한다.

또한, 본 발명에 따른 음성 인식 오류 통보 방법에 있어서, 입력되는 음성 데이터에서 순수 음성 데이터를 검출하여 출력하는 제1 과정과, 상기 순수 음성 데이터에 대하여 적어도 하나의 음성 인식 오류 원인을 검사하는 제2 과정과, 상기 음성 인식 오류에 대한 검사 결과 음성 인식 오류가 발생한 원인을 확인하고, 상기 확인된 음성 인식 오류 발생한 원인을 출력하는 제3 과정을 포함함을 특징으로 한다.

본 발명은 음성 인식 장치에서 음성 인식 과정에서 오류가 발생한 경우, 오류가 발생한 원인을 분석하여 이를 사용자에게 통보하여 오류가 나지 않도록 유도할 수 있도록 하는 방안을 제안한다. 본 발명에서 오류 발생 원인으로는 사용자의 발성이 너무 느리고 빠르거나, 너무 크고 작은 경우, 또한 잡음이 너무 많아 인식이 되지 않을 경우나 무선 통신 등에서 음성 신호 전송 중 패킷을 잃어 버려 음성 신호가 끊긴 경우 등으로 설명하지만, 다른 오류 발생 원인에 대하여도 별도의 오류 검사를 통해 사용자에게 통보할 수 있다.

그러면, 이하 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.

도 1은 본 발명의 실시 예에 따른 음성 인식 오류 발생 시 오류 발생 원인을 사용자에게 통보하기 위한 음성 인식 장치에 대한 블록 구성도이다. 도 1을 참조하면, 본 발명의 실시 예에 따른 음성 인식 장치는 음성 데이터 검출부(100), 음성 인식기(102), 음성 인식 오류 검사부(110), 음성 인식 오류 판단부(120), 잡음 분리부(131), 잡음 예측부(132), 제어부(140), 메모리부(150)를 포함한다. 또한, 본 발명의 도 1에서 도시는 하지 않았지만, 음성 인식 오류 결과를 사용자에게 통보하기 위한 구성 요소인 표시부 또는 스피커를 포함하는 음성 처리부를 더 구비할 수 도 있다.

먼저, 제어부(140)는 음성 인식 장치의 전반적인 제어동작을 수행한다. 특히, 본 발명에서 제어부(140)는 입력 음성 데이터를 음성 인식 오류 검사부(110)의 각각의 모듈을 통해 적어도 하나의 음성 인식 오류를 검사하도록 제어한 후, 검사결과를 음성 인식 오류 판단부(120)로 입력되도록 하고 음성 인식 오류 판단부(120)로부터 출력되는 음성 인식 오류 발생 원인을 사용자에게 알리도록 제어한다. 구체적인 제어부(140)의 동작에 대하여는 하기의 도 2의 설명에서 살펴보도록 한다.

메모리부(150)는 다수의 프로그램과 데이터를 저장하기 위한 롬(ROM : READ ONLY MEMORY) 및 램(RAM : RANDOM ACCESS MEMORY) 등으로 이루어질 수 있으며, 음성 인식 장치의 일반적인 동작을 제어하기 위한 프로그램들을 저장한다. 본 발명의 실시 예에 따라 오류 검출을 위한 다수개의 기준값들은 저장한다. 구체적으로 메모리부(150)는 음성이 크게 발성한 것임을 구별하기 위한 제1 크기 레벨과 음성이 작게 발성한 것임을 구별하기 위한 제2 크기 레벨, 음성이 빠르게 발성한 것임을 구별하기 위한 제1 속도 레벨과 음성이 느리게 발성한 것임을 구별하기 위한 제2 크기 속도 레벨을 저장한다. 또한, 메모리부(150)는 입력 음성에 포함된 부가 잡음으로 인한 오류 발생을 판단하기 위한 잡음 기준치를 저장하고, 채널 전송에 따른 전송 에러 발생으로 인한 오류 발생을 판단하기 위한 전송 에러 기준치를 저장한다.

음성 데이터 검출부(100)는 마이크를 통하여 입력된 오디오 신호(Audio Signal)를 입력으로 하고, 입력된 오디오 신호의 데이터에서 순수 음성 데이 터(speech utterance) 부분을 검출한다. 검출된 순수 음성 데이터는 음성 인식기(102), 음성 인식 오류 검사부(110)로 출력된다.

음성 인식기(102)는 검출된 음성 데이터가 존재하는 음성 구간을 분석하여 음성을 인식한다. 이때, 음성 인식기는 일반적인 음성 인식을 위한 모듈이므로 상용되는 단어 인식기를 대상으로 하며 인식한 음성이 가지는 상대적인 정확도(recognition score)를 제공해 주어야 한다. 또한 적절한 음성 입력 레벨을 제시해 주어야 한다. 음성 인식에 대한 구체적인 동작 설명을 본 발명에서 생략하도록 한다.

음성 인식 오류 검사부(110)는 채널 전송 에러 검사부(111), 크기 레벨 검사부(112), 발성 속도 검사부(113), 잡음 검사부(114)를 포함하여 구성된다. 이러한 음성 인식 오류 검사부(110)를 구성하는 각 모듈에 대하여 살펴보도록 한다.

먼저, 채널 전송 에러 검사부(111)는 수신한 음성 신호에 대하여 수신되지 않은 패킷을 분석하여 전송 에러 여부를 판단한다.

크기 레벨 검사부(112)는 발성 에너지 분석 기능을 수행한다. 발성 에너지 분석 기능이란, 사용자가 발화한 음성 데이터에서 발성 에너지를 분석하여 발성의 세기가 음성 인식 장치에서 미리 설정된 기준에 비하여 어느 정도 에너지 수준을 가지고 있는지 결과를 제시하는 기능이다. 사용자의 발화로부터 검출된 음성 구간의 데이터를 시간 영역(time domain)에서 분석하며, 실제 구간의 에너지를 계산하거나 보다 전체적인 음성 구간내의 발성 에너지를 측정하기 위하여 파형을 특정 수준에서 클리핑 하여 수준 이상 또는 이하가 되는 데이터의 수를 계산하여 결과를 제시한다.

즉, 입력된 음성 신호의 에너지 크기를 검사하는 모듈로, 음성 에너지 크기 검사는 미리 설정된 기준 크기 레벨과 비교하여 입력된 음성 크기를 검사한다. 이때, 크기 레벨 검사부(112)는 메모리부(150)에 저장된 음성이 크게 발성한 것임을 구별하기 위한 제1 크기 레벨과 음성이 작게 발성한 것임을 구별하기 위한 제2 크기 레벨을 읽어 각각의 크기 레벨과 음성 크기를 비교한다.

크기 레벨 검사부(112)는 만약, 입력 음성 데이터에서 추출된 순수 음성 구간의 데이터에서 제 1 크기 레벨보다 크게 입력된 음성 구간이 특정 임계치(시스템이 따라 유동적으로 변할 수 있는)보다 큰 경우 크게 발성된 것으로 판단하고 제 2크기 레벨보다 작게 입력된 음성 구간이 특정 임계치보다 작은면 음성이 작게 발성된 것으로 판단한다.

상기와 같이 크기 레벨 검사부(112)에서 음성 신호의 에너지 크기를 추정하고, 추정된 음성 신호의 에너지 크기가 음성 인식에 적합한 수준인지를 판단하는 기능을 가지고, 이러한 기능에 대하여 살펴보면 하기와 같다. 본 발명에서 사용되는 음성 신호의 에너지 크기 추정 방법은 하나의 실시 예일 뿐이고, 다른 에너지 크기 추정 방법을 사용하여 입력 음성 신호의 에너지 크기를 추정할 수도 있다.

1. 시간 도메인 분석(Time-domain analysis)

1) 순수 음성 영역 추출(Pure speech region extraction)

음성 에너지 추정을 위하여 시간 영역에서의 음성 데이터를 분석할 수 있어야 한다. 직접적인 음성 데이터 분석과 짧은 주기(short-time duration)로 프레임 화(framing)된 블록 단위의 분석이 가능해야 한다.

또한, 이때 음성 에너지 추정은 검출된 음성 데이터 구간 내에서 순수 음성 구간만을 대상으로 수행한다. 음성 데이터 검출부(100)에서 검출된 음성 데이터 구간에서 시작 부분과 끝 부분의 마진(margin) 영역을 제거할 수 있어야 한다.

또한, 시간 영역에서의 음성 데이터에 대한 영교차율을 추정할 수 있어야 한다.

또한, 시간 영역에서의 음성 데이터에 대한 에너지 수준을 추정할 수 있어야 한다.

또한, 시간 영역에서의 음성 데이터에 대한 영교차율과 에너지 수준을 분석하여 순수 음성 데이터 구간을 추출할 수 있어야 한다. 음성 구간의 판단 기준이 되는 영교차율과 에너지 수준의 기준값은 해당 기능 모듈의 입력 인자로 전달되어야 한다.

2) 다이렉트 샘플 데이터 분석(direct sample data analysis)

시간 영역에서의 음성 데이터 값을 직접 조작하여 분석할 수 있어야 한다.

또한, 임계치로 주어진 특정 레벨값(절대값)을 기준으로 음성 데이터 값을 클리핑(clipping) 할 수 있어야 한다. 클리핑 되는 레벨값은 기능 모듈의 입력인자로 전달되어야 한다.

임계치 이상인 음성 데이터의 수를 추정할 수 있어야 한다. 추정된 음성 데이터의 수는 전체 음성 데이터의 길이에 대한 잔차(Residual) 데이터의 길이의 비로 추정한다. 분석된 길이의 비를 이용하여 입력된 음성 데이터의 발성 에너지의 크기를 기준 비율과 비교하여 추정한다.

3) 블록 추정 분석(Block Approximation Analysis)

시간 영역에서의 음성 데이터를 분석하기 위한 특징(Feature)을 간략히 하기 위하여 짧은 주기(short-time duration)으로 프레임화(framing) 된 음성 데이터 블록단위의 분석이 가능해야 한다.

이때, 크기 레벨 검사부(112)는 음성 데이터를 짧은 시간 구간으로 나누며 각 시간 구간은 서로 중첩될 수 있어야 한다. 기준이 되는 시간 구간과 중첩되는 구간의 정보는 시간 단위(msec)로 해당 기능 모듈의 입력인자로 전달되어야 한다.

또한, 나뉘어진 음성 구간을 대표하는 블록 에너지 값을 추정할 수 있어야 한다. 에너지 값은 구간 내의 데이터의 제곱의 평균값을 이용하거나 연산의 간소화를 위하여 구간 내의 데이터들의 절대치의 평균값을 이용할 수 있다. 추정된 블록 에너지들을 기준 블록 에너지와 비교하여 입력된 음성 데이터의 발성 에너지의 수준을 추정한다.

2. 결과 생성

상기에서 분석된 음성 에너지 정보를 이용하여 입력된 음성 데이터의 발성 에너지 수준을 결정할 수 있어야 한다. 에너지 수준은 대표값을 이용하여 나타낼 수 있다.

이때, 음성 에너지의 수준은 기준값과 비교한 상대적인 값인[-5, 5]의 범위를 가지도록 표준화 할 수 있다. 입력된 에너지 레벨이 제안된 에너지 레벨의 1/5이하일 때 ‘―5’의 입력 레벨로 표현하며 에너지 레벨이 제안된 에너지 레벨의 5 배 이상일 경우 ‘5’의 입력 레벨로 표현할 수 있다. 제안된 에너지 레벨의 범위 안에 있을 때 ‘0’의 입력 레벨로 표현할 수 있다.

또한, 입력된 에너지 레벨을 상기와 같이 표현할 시 아래 <표 1>과 같이 5가지 수준의 대표값으로 결과를 줄 수 있다.

발성 속도 검사부(113)는 발화 속도 분석 기능을 수행한다. 이때, 발화 속도 분석 기능이란 발화된 음성 데이터에서 음절수를 추정하여 해당 음절 수에 따른 발화 속도를 분석하여 결과를 제시하는 기능이다. 검출된 음성 구간에서 발화된 음성의 자음과 모음의 조합을 파악하여 가능한 음절 조합을 구성한 뒤 전체 음절 수를 추정하고, 추정된 음절 수에 해당하는 발화 속도가 어느 정도 인지 판단한다.

즉, 발성 속도 검사부(113)는 입력된 음성 신호의 속도를 검사하는 모듈로, 음성 속도 검사는 미리 설정된 기준 속도 레벨과 비교하여 입력된 음성 속도를 검사한다. 이때, 발송 속도 검사부(113)는 메모리부(150)에 저장된 음성이 빠르게 발성한 것임을 구별하기 위한 제1 속도 레벨과 음성이 느리게 발성한 것임을 구별하기 위한 제2 크기 속도 레벨을 읽어 각각의 속도 레벨과 입력된 음성 속도를 비교한다. 발성 속도 검사부(113)는 만약, 입력 음성 속도 레벨이 제1 속도 레벨보다 크면 입력된 음성이 빠르게 발성된 것으로 판단하고, 음성 속도 레벨이 제2 속도 레벨보다 작으면 음성이 느리게 발성된 것으로 판단한다. 더 구체적으로는 발성 속도 검사부(113)는 입력된 음성 데이터에서 발화된 음절 수를 추정하여 음절 수에 해당하는 음성 데이터의 길이가 음성 인식에 적절한 길이인지 확인하는 기능을 수행한다.

상기와 같이 발성 속도 검사부(113)에서 음성 신호의 발성 속도를 추정하고, 추정된 음성 신호의 발성 속도가 음성 인식에 적합한 수준인지를 판단하는 기능을 가지고, 이러한 기능에 대하여 살펴보면 하기와 같다. 본 발명에서 사용되는 음성 신호의 발성 속도 추정 방법은 하나의 실시 예일 뿐이고, 다른 발성 속도 추정 방법을 사용하여 입력 음성 신호의 발성 속도를 추정할 수도 있다.

1. 시간 도메인 분석(Time-domain analysis)

1) 순수 음성 영역 추정(Pure Speech Region Estimation)

음성 데이터의 발화 속도 추정은 검출된 음성 데이터 구간 내에서 순수 음성 구간만을 대상으로 수행한다. 음성 데이터 검출부(100)에서 검출된 음성 데이터 구간에서 시작 부분과 끝 부분의 마진 영역을 제거할 수 있어야 한다. 또한, 시간 영역에서의 음성 데이터에 대한 영교차율을 추정할 수 있어야 한다. 또한, 시간 영역에서의 음성 데이터에 대한 에너지 수준을 추정할 수 있어야 한다. 또한, 시간 영역에서의 음성 데이터에 대한 영교차율과 에너지 수준을 분석하여 순수 음성 데이터 구간을 추출할 수 있어야 한다. 음성구간의 판단 기준이 되는 영교차율과 에너지 수준의 기준값은 해당 기능 모듈의 입력 인자로 전달되어야 한다.

2) 모음 카운트 추정(Vowel Count Estimation)

발화된 음성의 발화속도를 추정하는데 사용되는 음절 수를 추정할 수 있어야 한다. 음절수의 추정은 유성음 구간을 추정하여 그 수를 추정하는 방법으로 수행할 수 있다. 또한, 검출된 음성 구간 데이터를 짧은 시간 구간으로 나누며 각 시간 구간은 서로 중첩될 수 있어야 한다. 기준이 되는 시간 구간과 중첩되는 구간의 정보는 시간 단위(msec)로 해당 기능 모듈의 입력인자로 전달되어야 한다. 또한, 나뉘어진 음성 구간을 대표하는 블록 에너지 값과 ZCR을 추정할 수 있어야 한다. 에너지 값은 구간 내의 데이터의 제곱의 평균값을 이용하거나 연산의 간소화를 위하여 구간 내의 데이터들의 절대치의 평균값을 이용할 수 있다. 또한, 구간별 에너지 값과 ZCR 을 기준값과 비교하여 유성음 구간과 무성음 구간을 구분해 낼 수 있어야 한다. 구분이 되는 기준값는 해당 기능 모듈의 입력인자로 전달되어야 한다. 또한, 유성음 구간의 음절 전이를 추정하기 위하여 에너지 변이를 추적할 수 있어야 한다. 에너지 변이가 일정 시간 내에서 감소와 증가가 검출되었을 때 음절 전이가 발생했다 판별할 수 있어야 한다.

2. 결과 생성

추정되는 음성 발화 속도는 전체 음성을 분석하여 음절 수를 추정한 뒤 음절수에 따른 발화 시간을 계산하여 사전에 정해 놓은 적정 발화 시간 내에 포함되어 있는지를 결정할 수 있어야 한다. 또한, 발화 속도 수준은 기준값과 비교한 상대적인 값인 [-1, 1]의 범위를 가지도록 표준화할 수 있다. 발화된 음성 속도를 추정하여 적정 발화 속도 범위보다 빠르다면 ‘1’의 레벨로 표현하며 느리다면 ‘-1’의 레벨로 표현할 수 있다.

또한, 음성 신호의 속도 레벨을 상기와 같이 표현할 시 아래 <표 2>과 같이 3가지 수준의 대표값으로 결과를 줄 수 있다.

잡음 분리부(131)는 입력된 음성 신호에서 비 음성 구간 데이터로부터 현재 상황의 주변 잡음을 음성 구간과 구분하는 모듈이다. 음성 데이터 검출부(100)에서 검출된 음성 데이터는 순수 발성된 데이터 앞/뒤로 일정 수준의 묵음(Silence) 구간을 포함하게 된다. 잡음 분리부(131)는 음성 데이터 검출부(100)의 여유(Margin) 구간에 대하여 입력 레벨을 분석하여 현재 음성 인식 시간의 주변 환경 잡음의 유무를 구분하는 기능을 수행한다.

잡음 예측부(132)는 비 음성 구간의 데이터에서 구분된 주변 잡음을 음향학적으로 분석하여 통계치를 추출해 내는 모듈이다. 추출해 낸 통계치는 잡음 검사부(114)에 기준값으로 제공해 줄 수 있다.

잡음 검사부(114)는 주변 잡음 분석 기능을 수행한다. 이때, 주변 잡음 분석 기능이란 발화된 음성 데이터에서 검출된 음성 구간에 부가된 주변 잡음의 세기를 분석하여 결과를 제시하는 기능이다. 검출된 음성구간의 시작과 끝 부분에는 음성 분석에 필요한 묵음 구간을 포함하고 있다. 묵음 구간의 데이터를 분석하여 음성을 발화한 시점의 주변 환경이 어느 정도 잡음을 부가시켰는지 판단한다. 또한, 선택적으로 음성을 입력받는 마이크로부터 음성 검출과 독립적으로 데이터를 입력받을 수 있다면 일정 크기의 버퍼를 통하여 음성 입력 시점의 잡음 환경을 추정하여 사용하고, 음성의 시작점을 검출하기까지의 버퍼 데이터를 분석하여 결과를 제시한다.

즉, 잡음 검사부(114)는 입력된 음성 신호에 포함되어 있는 주변 환경 잡음이 부가 정도를 검사하는 모듈로, 검출된 음성 구간에 포함된 음성 신호 이외에 다른 신호가 어느 정도 포함되어 있는지 음향학적 분석하여 입력된 음성에 주변 잡음이 어느 정도 포함되어 있는지 정량적인 값을 추출한다. 이와 같이 추출된 입력 음성 신호에 대한 잡음 값과 메모리부(150)에 저장된 잡음 기준값을 비교하여 입력 음성 신호에 대한 잡음 치가 잡음 기준치 이상이면 현재 잡음이 너무 많아 음성 인식이 되지 않은 것으로 판단한다.

상기와 같이 잡음 검사부(114)에서 음성 신호에 포함된 잡음 정도를 추정하고, 추정된 음성 신호의 잡음 정보가 음성 인식에 적합한 수준인지를 판단하는 기능을 가지고, 이러한 기능에 대하여 살펴보면 하기와 같다. 본 발명에서 사용되는 잡음 추정 방법은 하나의 실시 예일 뿐이고, 다른 잡음 추정 방법을 사용하여 입력 음성 신호에 포함된 잡음 정도를 추정할 수도 있다.

1. 시간 도메인 분석(Time-domain analysis)

1) 음성/묵음 구간 분리(Speech / Silence Region Division)

부가된 잡음의 존재 여부를 확인하기 위하여 음성 데이터 구간과 비음성 데이터 구간을 나누어 분석할 수 있어야 한다.

또한, 시간 영역에서의 음성 데이터에 대한 영교차율을 추정할 수 있어야 한다. 또한, 시간 영역에서의 음성 데이터에 대한 에너지 수준을 추정할 수 있어야 한다. 또한, 시간 영역에서의 음성 데이터에 대한 영교차율과 에너지 수준을 분석하여 순수 음성 데이터 구간과 비음성 데이터 구간을 구분할 수 있어야 한다. 구간의 판단기준이 되는 영교차율과 에너지 수준의 기준값은 해당 기능 모듈의 입력 인자로 전달되어야 한다.

2) 음성 구간 분석(Speech Region Analysis)

음성 구간 내에 포함된 부가 잡음을 확인할 수 있어야 한다. 음성 구간 데이터에서 에너지 포락선(envelop)을 조사하여 짧은 시간 상승하는 구간의 존재 유무를 확인 하는 기능을 수행할 수 있어야 한다.

또한, 음성 구간내의 데이터에서 각 데이터 샘플(sample)의 제곱을 이용하여 에너지 레벨의 포락선을 추정할 수 있어야 한다. 또한, 추정된 음성 에너지 포락선을 조사하여 짧은 시간 구간 내에 존재하는 에너지 상승(boosting)을 검출해낼 수 있어야 한다.

3) 묵음 구간 분석(Silence Region Analysis)

입력된 음성 데이터내에 부가된 잡음을 확인하기 위하여 비 음성 데이터구간의 에너지 수준을 검사할 수 있어야 한다. 또한, 비 음성 데이터 구간 전체를 대상으로 하며 비 음성 데이터 구간의 평균 에너지 레벨을 추정할 수 있어야 한다. 또한, 상기에서 분석된 부가 잡음 정보를 이용하여 입력된 음성 데이터의 주변 환경 잡음 수준을 결정할 수 있어야 한다. 부가 잡음수준은 대표값을 이용하여 나타낼 수 있다.

2. 결과 생성

상기에서 분석된 부가 잡음의 수준은 기준값과 비교한 상대적인 값인 [0, 5]의 범위를 가지도록 표준화 할 수 있다. 부가된 주변잡음이 음성 신호의 에너지의 1/2 이상인 경우‘5’의 레벨로 표현할 수 있다. 부가된 주변 잡음이 없을 경우 ‘0’의 레벨로 표현할 수 있다.

또한, 하기의 <표 3>와 같이 3개의 대표값으로 추정하여 결과를 줄 수 있다.

음성 인식 오류 판단부(120)는 발화 적합성 판별 기능을 수행한다. 이때, 발화 적합성 판별 기능이란, 발성 에너지 분석 결과, 주변잡음 분석 결과, 발화속도 분석 결과 등 사용자의 발화로부터 검출된 음성 구간이 음성 인식에 적합한지 여부를 판별하는 기능이다. 상기의 음성 인식 오류 검사부(110)으로 부터 출력된 분석 결과가 음성 인식에 적합한 범위에 존재하는지 그렇지 않은지, 적합하지 않다면 가장 큰 원인이 무엇인지 등을 판별하기 위하여 다양한 환경에서 실제 실험한 결과를 분석하여 가장 분별성 있는 추론 공식을 근사화 하여 사용할 수 있다.

즉, 음성 인식 오류 판단부(120)는 음성 인식 오류 검사부(110)로부터 출력되는 각각의 음성 인식 오류 검사 결과를 입력으로 하여 최종 음성 인식의 결과를 판단하는 모듈이다. 이러한 음성 인식 오류 판단부(120)는 음성 인식 오류 검사부(110)의 각 모듈들의 결과의 값들을 조합하여 입력된 음성이 인식에 적합한지를 결정하는 기능을 수행한다.

즉, 상기한 음성 인식 오류 판단부(120)는 발화된 사용자의 음성을 모듈별로 분석한 결과를 기준하여 음성 인식에 어느 정도 적합한 지 결정하는 기능을 수행한다. 이후, 음성 인식에 부적합 하다고 판단될 경우 그 주된 원인을 제어부(140)의 제어 하에 표시부 또는 스피커를 통해 출력한다.

그러면, 음성 인식 오류 판단부(120)에서 음성 인식 오류 검사부(110)로부터 출력되는 각각의 음성 인식 오류 검사 결과를 입력으로 하여 최종 음성 인식의 결과를 판단하는 동작에 대하여 하기에서 구체적으로 살펴보도록 한다.

1. 인식 스코어 허용(Recognition Score Permission)

음성 인식 결과값을 확인하여 인식의 신뢰도를 검증할 수 있어야 한다. 또한, 인식 결과값을 특정 기준값과 비교하여 인식 결과를 수용할 지 판별할 수 있어야 한다. 기준값이 되는 인식 수준은 해당 기능모듈의 입력으로 전달 되어야 한다.

2. 가장 유력한 오류 원인 판별(Dominant Failure Reason Detection)

인식 결과를 수용하지 못할 경우 인식 결과 거절의 주된 원인을 판별할 수 있어야 한다. 만약, 하기 <표 4>와 같은 조건일 때 인식 결과 거절의 주요 원인을 발성된 소리가 크다라고 결정한다.

또한, 하기 <표 5>와 같은 조건일 때 인식 결과 거절의 주요 원인을 발성된 소리가 작다라고 결정한다.

또한, 하기 <표 6>과 같은 조건일 때 인식 결과 거절의 주요 원인을 주변 잡음 때문이라고 결정한다.

또한, 하기 <표 7>과 같은 조건일 때 인식 결과 거절의 주요 원인을 발화 속도가 느리다라고 결정한다.

또한, 하기의 <표 8>과 같은 조건일 때 인식 결과 거절의 주요 원인을 발화 속도가 빠르다라고 결정한다.

3. 결과 생성

음성의 에너지 크기 분석 결과, 주변잡음 부가 추정 결과, 발화 속도검사 결과를 이용하여 음성 인식의 결과가 유효할 확률이 어느 정도 되는지 결과를 도출할 수 있어야 한다.

또한, 음성 인식의 유효성은 다음과 갈은 상대적인 값인 [0, 5]의 범위를 가지도록 표준화할 수 있다. 표준화를 위한 기준은 따로 결정되지 아니하며 실험적인 결과에 의하여 기준을 결정할 수 있다. 각 모듈의 분석 결과가 모두 적합으로 판별되었을 경우 ‘5’의 레벨로 표현하며 모든 분석 결과가 부적합으로 판별되었을 경우 ‘0’의 레벨로 표현한다. 이는 하기의 <표 9>와 같이 결과를 출력한다.

그러면, 이제 상기의 도 1과 같이 구성되는 음성 인식 장치에서 음성 인식 오류 발생 시 오류 발생 원인을 사용자에게 통보하기 위한 과정에 대하여 도 2를 참조하여 설명하도록 한다.

먼저, 200단계에서 제어부(140)가 음성 인식 오류 피드백 기능 설정이 있음을 인지하고, 202단계에서 음성 신호 입력이 있으면 204, 210, 216, 222단계로 진행하여 입력된 음성 신호에 대하여 오류 발생에 대하여 검사한다.

먼저, 206단계에서 제어부(140)는 잡음 검사부(114)를 제어하여 입력 음성 신호 내에 포함된 부가 잡음 정도를 검사한다. 이때, 부가 잡음 검사는 상기의 도 1에서의 잡음 검사부(114)에서 기재한 바와 같이 검사할 수 있다. 이후, 제어부(140)는 206단계로 진행하여 잡음 검사부(114)를 제어하여 부가 잡음이 미리 설정된 잡음 기준치를 초과하는지를 검사한다. 만약, 부가 잡음이 미리 설정된 잡음 기준치를 초과하면 제어부(140)는 208단계로 진행하여 음성 인식 오류 발생 원인이 잡음임을 알린다. 이때, 오류 발생에 대한 출력은 음성 인식 장치의 화면을 통해 메시지로 출력할 수도 있고, 스피커를 통해 음성으로 출력할 수도 있다. 그러나, 206단계 검사결과 부가 잡음이 미리 설정된 잡음 기준치를 초과하지 않으면 제어부(140)는 228단계로 진행하여 음성 인식 결과를 수용한다. 이때, 음성 인식 결과를 수용한다는 것은 오류가 발생하지 않음을 인지하여 음성 인식기(102)로부터 인식된 결과대로 인식에 따른 동작을 수행하는 것을 의미한다.

또한, 제어부(140)가 202단계에서 210단계로 진행하면, 속도 레벨 검사부(113)를 제어하여 입력 음성 신호의 속도 레벨을 검사한다. 이때, 음성 신호의 속도 레벨 검사는 상기의 도 1에서의 발성 속도 검사부(113)에서 기재한 바와 같이 검사할 수 있다. 이후, 제어부(140)는 212단계로 진행하여 속도 레벨 검사부(113)를 통해 입력 음성 신호의 속도 레벨이 제1 속도 기준치를 초과하는지, 제2 속도 기준치 미만인지를 검사한다. 이때, 만약 입력 음성 신호의 속도 레벨이 제1 속도 기준치를 초과하면 음성이 빠름을 인식하고, 입력 음성 신호의 속도 레벨이 제2 속도 기준치 미만이면 음성이 느림을 인식한다. 이후, 제어부(140)는 214단계로 진행하여 음성 인식 오류 발생 원인이 음성 속도임을 알린다. 이때, 제어부(140)가 입력 음성 신호의 속도 레벨이 제1 속도 기준치를 초과하면 음성이 빠름을 인식한 경우에는 입력되는 음성이 빨라서 음성 인식 오류가 발생하였음을 출력한다. 또한, 제어부(140)가 입력 음성 신호의 속도 레벨이 제2 속도 기준치 미만이면 음성이 느림을 인식한 경우에는 음성이 느려서 음성 인식 오류가 발생하였음을 출력한다. 이때, 오류 발생에 대한 출력은 음성 인식 장치의 화면을 통해 메시지로 출력할 수도 있고, 스피커를 통해 음성으로 출력할 수도 있다. 그러나, 212단계 검사결과 입력 음성 신호의 속도 레벨이 제1 속도 기준치 이하이고, 제2 속도 기준치 이상에 속한다면 228단계로 진행하여 음성 인식 결과를 수용한다.

또한, 216단계로 진행한 제어부(140)는 크기 레벨 검사부(112)를 제어하여 입력 음성 신호의 크기 레벨을 검사한다. 이때, 음성 신호의 크기 레벨 검사는 상기의 도 1에서의 크기 레벨 검사부(112)에서 기재한 바와 같이 검사할 수 있다. 이후, 제어부(140)는 212단계로 진행하여 크기 레벨 검사부(112)를 통해 입력 음성 신호의 크기 레벨이 제1 크기 기준치를 초과하는지, 제2 크기 기준치 미만인지를 검사한다. 이때, 만약 입력 음성 신호의 크기 레벨이 제1 크기 기준치를 초과하면 음성이 큼을 인식하고, 입력 음성 신호의 크기 레벨이 제2 속도 기준치 미만이면 음성이 작음을 인식한다. 이후, 제어부(140)는 214단계로 진행하여 음성 인식 오류 발생 원인이 음성 크기임을 알린다. 이때, 제어부(140)가 입력 음성 신호의 크기 레벨이 제1 크기 기준치를 초과하면 음성이 큼을 인식한 경우에는 음성이 커서 음성 인식 오류가 발생하였음을 출력한다. 또한, 제어부(140)가 입력 음성 신호의 크기 레벨이 제2 크기 기준치 미만이면 음성이 작음을 인식한 경우에는 음성이 작아서 음성 인식 오류가 발생하였음을 출력한다. 이때, 오류 발생에 대한 출력은 음성 인식 장치의 화면을 통해 메시지로 출력할 수도 있고, 스피커를 통해 음성으로 출력할 수도 있다. 그러나, 218단계 검사결과 입력 음성 신호의 크기 레벨이 제1 크기 기준치 이하이고, 제2 크기 기준치 이상에 속한다면 228단계로 진행하여 음성 인식 결과를 수용한다.

또한, 222단계로 진행한 제어부(140)는 전송 채널 에러 검사부(111)를 제어하여 입력 음성 신호에 대한 전송 에러율을 검사한다. 이후, 제어부(140)는 224단계로 진행하여 전송 채널 에러 검사부(111)를 통해 입력 음성 신호에 대한 전송 에러율이 미리 설정된 전송 에러 기준치를 초과하는 지를 검사한다. 이때, 만약 입력 음성 신호에 대한 전송 에러율이 미리 설정된 전송 에러 기준치를 초과하면 제어부(140)는 226단계로 진행하여 음성 인식 오류 발생 원인이 채널 전송 에러임을 알린다. 이때, 오류 발생에 대한 출력은 음성 인식 장치의 화면을 통해 메시지로 출력할 수도 있고, 스피커를 통해 음성으로 출력할 수도 있다. 그러나, 224단계 검사결과 입력 음성 신호에 대한 전송 에러율이 전송 에러 기준치보다 이하라면 제어부(140)는 228단계로 진행하여 음성 인식 결과를 수용한다.

상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해져야 한다.

상기한 바와 같이 본 발명에서는 음성 인식이 실패하는 경우 입력 음성의 부가 잡음, 발성 속도, 입력 레벨, 전송 에러 등에 대한 환경 분석을 통하여 인식 오류 원인을 확인한 후, 이를 사용자에게 통보함으로써, 사용자가 오류 원인에 따라 오류 발생을 개선할 수 있도록 하는 이점이 있다. 또한, 사용자에게 오인식 원인에 대한 피드백을 주어 인식 환경을 개선하도록 유도함으로써 실감 인식률을 크게 개선시킬 수 있는 이점이 있다.

Claims

음성 인식 오류 통보 장치에 있어서,

입력되는 음성 데이터에서 순수 음성 데이터를 검출하여 출력하는 음성 데이터 검출부와,

음성 인식 오류를 판단하기 위한 원인마다 각각의 모듈을 구비하고, 상기 순수 음성 데이터가 입력되면 상기 모듈 각각에서 상기 입력된 순수 음성 데이터에 대하여 적어도 하나의 음성 인식 오류를 검사하여 검사결과를 출력하는 음성 인식 오류 검사부와,

상기 음성 인식 오류에 대한 검사 결과들이 입력되면 상기 검사 결과 음성 인식 오류가 발생한 원인을 확인하고, 상기 확인된 음성 인식 오류 발생한 원인을 출력하는 음성 인식 오류 판단부와,

상기 입력 음성 데이터를 상기 음성 인식 오류 검사부의 각각의 모듈을 통해 적어도 하나의 음성 인식 오류를 검사하도록 제어한 후, 상기 검사결과를 상기 음성 인식 오류 판단부로 입력되도록 하고 상기 음성 인식 오류 판단부로부터 출력되는 음성 인식 오류 발생 원인을 사용자에게 알리도록 제어하는 제어부를 포함하는 것을 특징으로 하는 음성 인식 오류 통보 장치.
제 1항에 있어서, 상기 음성 인식 오류 검사부는,

수신된 음성 신호에 대하여 수신되지 않은 패킷을 분석하여 채널 전송 에러값을 계산하고, 상기 채널 전송 에러값이 미리 설정된 전송 에러 기준치를 초과하는 지에 대한 여부에 따라 입력 음성 신호가 음성 인식에 적합한 지를 판단하는 채널 전송 에러 검사부를 포함하는 것을 특징으로 하는 음성 인식 오류 통보 장치.
제 1항에 있어서, 상기 음성 인식 오류 검사부는,

입력된 음성 신호의 에너지 크기를 검사하고, 상기 입력 음성 신호의 에너지 크기와 미리 설정된 크기 기준치와 비교하여 음성 인식에 적합한 지를 판단하는 크기 레벨 검사부를 포함하는 것을 특징으로 하는 음성 인식 오류 통보 장치.
제 1항에 있어서, 상기 음성 인식 오류 검사부는,

입력된 음성 신호의 발성 속도를 추정하고, 추정된 음성 신호의 발성 속도가 미리 설정된 속도 기준치와 비교하여 음성 인식에 적합한 지를 판단하는 발성 속도 검사부를 포함하는 것을 특징으로 하는 음성 인식 오류 통보 장치.
제 1항에 있어서, 상기 음성 인식 오류 검사부는,

입력된 음성신호에 포함된 음성신호 이외에 다른 신호에 대한 주변 잡음 값 을 추출한 후, 상기 주변 잡음값이 미리 설정된 잡음 기준값를 초과하는 지에 대한 여부에 따라 입력 음성 신호가 음성 인식에 적합한 지를 판단하는 잡음 검사부를 포함하여 구성된 것을 특징으로 하는 음성 인식 오류 통보 장치.
음성 인식 오류 통보 방법에 있어서,

입력되는 음성 데이터에서 순수 음성 데이터를 검출하여 출력하는 제1 과정과,

상기 순수 음성 데이터에 대하여 적어도 하나의 음성 인식 오류 원인을 검사하는 제2 과정과,

상기 음성 인식 오류에 대한 검사 결과 음성 인식 오류가 발생한 원인을 확인하고, 상기 확인된 음성 인식 오류 발생한 원인을 출력하는 제3 과정을 포함하여 이루어진 것을 특징으로 하는 음성 인식 오류 통보 방법.
제 6항에 있어서, 상기 제2 과정은,

수신된 음성 신호에 대하여 수신되지 않은 패킷을 분석하여 채널 전송 에러값을 계산하고, 상기 채널 전송 에러값이 미리 설정된 전송 에러 기준치를 초과하는 지에 대한 여부에 따라 입력 음성 신호가 음성 인식에 적합한 지를 판단하는 과정을 포함하여 이루어진 것을 특징으로 하는 음성 인식 오류 통보 방법.
제 6항에 있어서, 상기 제2 과정은,

입력된 음성 신호의 에너지 크기를 검사하고, 상기 입력 음성 신호의 에너지 크기와 미리 설정된 크기 기준치와 비교하여 음성 인식에 적합한 지를 판단하는 과정을 포함하는 것을 특징으로 하는 음성 인식 오류 통보 방법.
제 6항에 있어서, 상기 제2 과정은,

입력된 음성 신호의 발성 속도를 추정하고, 추정된 음성 신호의 발성 속도가 미리 설정된 속도 기준치와 비교하여 음성 인식에 적합한 지를 판단하는 과정을 포함하는 것을 특징으로 하는 음성 인식 오류 통보 방법.
제 6항에 있어서, 상기 제2 과정은,

입력된 음성신호에 포함된 음성신호 이외에 다른 신호에 대한 주변 잡음 값을 추출한 후, 상기 주변 잡음값이 미리 설정된 잡음 기준값를 초과하는 지에 대한 여부에 따라 입력 음성 신호가 음성 인식에 적합한 지를 판단하는 과정을 포함하는 것을 특징으로 하는 음성 인식 오류 통보 방법.