KR20080038896A - 음성 인식 오류 통보 장치 및 방법 - Google Patents

음성 인식 오류 통보 장치 및 방법 Download PDF

Info

Publication number
KR20080038896A
KR20080038896A KR1020060106404A KR20060106404A KR20080038896A KR 20080038896 A KR20080038896 A KR 20080038896A KR 1020060106404 A KR1020060106404 A KR 1020060106404A KR 20060106404 A KR20060106404 A KR 20060106404A KR 20080038896 A KR20080038896 A KR 20080038896A
Authority
KR
South Korea
Prior art keywords
speech
voice
input
recognition error
error
Prior art date
Application number
KR1020060106404A
Other languages
English (en)
Other versions
KR100834679B1 (ko
Inventor
김현수
정명기
박영희
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020060106404A priority Critical patent/KR100834679B1/ko
Priority to US11/928,665 priority patent/US8976941B2/en
Publication of KR20080038896A publication Critical patent/KR20080038896A/ko
Application granted granted Critical
Publication of KR100834679B1 publication Critical patent/KR100834679B1/ko
Priority to US14/643,420 priority patent/US9530401B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Signal Processing (AREA)

Abstract

본 발명은 음성 인식 오류 통보 장치 및 방법에 관한 것이다. 이를 위해 본 발명에 따른 음성 인식 오류 통보 방법은 입력되는 음성 데이터에서 순수 음성 데이터를 검출하여 출력하는 제1 과정과, 상기 순수 음성 데이터에 대하여 적어도 하나의 음성 인식 오류 원인을 검사하는 제2 과정과, 상기 음성 인식 오류에 대한 검사 결과 음성 인식 오류가 발생한 원인을 확인하고, 상기 확인된 음성 인식 오류 발생한 원인을 출력하는 제3 과정을 포함한다.
음성신호, 음성인식, 음성처리, 오류 통보

Description

음성 인식 오류 통보 장치 및 방법{METHOD AND APPARATUS FOR ALARMING OF SPEECH-RECOGNITION ERROR}
도 1은 본 발명의 실시 예에 따른 음성 인식 오류 발생 시 오류 발생 원인을 사용자에게 통보하기 위한 음성 인식 장치에 대한 블록 구성도,
도 2는 본 발명의 실시 예에 따른 음성 인식 장치에서 음성 인식 오류 발생 시 오류 발생 원인을 사용자에게 통보하기 위한 과정을 도시하는 흐름도.
본 발명은 음성 인식 장치 및 방법에 관한 것으로, 특히 음성 인식 과정에서 음성 인식 오류 발생 시 오류 방생 원인을 사용자에게 통보하기 위한 장치 및 방법에 관한 것이다.
음성 인식 기술은 홈 네트워크(Home Networking), 로봇(Robotics), 유비쿼터스 네트워크(Ubiquitous Networking) 등과 같은 차세대 기술 분야에서 맨-머쉰 통신(Man-Machine Communicatoin)의 필수 요소로서, 현재 사용되는 환경에 따라 그 성능이 많이 제약되는 모습을 보이고 있다. 음성 인식 장치의 개발 환경과 실제 사 용 환경의 불일치로 인한 채널 잡음과 주변 환경 잡음에 따른 성능 저하가 음성 인식 기술의 상용화에 많은 어려움을 가져오고 있는 것이 현실이다. 또한, 음성 인식 장치를 사용하는 사람의 발음이나 발성 습관이 음성 인식기의 인식 성능에 많은 영향을 주고 있다.
일반적으로 음성 인식 장치는 음성 기반 사용자 인터페이스나 음성 인식 등 에서는 인식에서 사용할 수 있는 특징 추출 또는 패턴 매칭을 위한 적정한 음성 입력을 요구한다. 그러나, 통상적인 상호 작용은 환경적 요인 때문에 요소 기술에서 요구하는 만큼의 정보를 얻지 못하는 경우가 많게 된다, 예를 들어, 사용자의 발성이 너무 느리고 빠르거나, 너무 크고 작은 경우, 또한 잡음이 너무 많아 인식이 되지 않을 경우나 무선 통신 등에서 음성 신호 전송 중 패킷을 잃어 버려 음성 신호가 끊긴 경우 등으로 음성 인식이 어려운 경우가 발생한다. 이와 같이 환경적 요인 또는 음성 입력 자체가 부정확하여 음성 인식이 되지 않을 경우 현재에는 이를 극복할 방안이 없었다.
상술한 바와 같이 종래의 음성 인식에서 환경적이거나 음성 입력 자체의 부정확성 등의 원인으로 음성 인식 오류가 발생하면, 현재로는 알고리즘적으로 극복하기가 불가능하다.
따라서, 본 발명은 음성 기반 사용자 인터페이스에서 인식 오류 발생 시 오류 방생 원인을 사용자에게 통보하기 위한 장치 및 방법을 제공한다.
또한, 본 발명은 음성 인식 과정에서 잡음, 전송에러, 음량 크기, 음량 속도와 같은 음성 인식 오류가 발생할 수 있는 원인들을 분석하여 자동으로 사용자에게 피드백해줄 수 있는 장치 및 방법을 제공한다.
이를 위해 본 발명에 따른 음성 인식 오류 통보 장치에 있어서, 입력되는 음성 데이터에서 순수 음성 데이터를 검출하여 출력하는 음성 데이터 검출부와, 음성 인식 오류를 판단하기 위한 원인마다 각각의 모듈을 구비하고, 상기 순수 음성 데이터가 입력되면 상기 모듈 각각에서 상기 입력된 순수 음성 데이터에 대하여 적어도 하나의 음성 인식 오류를 검사하여 검사결과를 출력하는 음성 인식 오류 검사부와, 상기 음성 인식 오류에 대한 검사 결과들이 입력되면 상기 검사 결과 음성 인식 오류가 발생한 원인을 확인하고, 상기 확인된 음성 인식 오류 발생한 원인을 출력하는 음성 인식 오류 판단부와, 상기 입력 음성 데이터를 상기 음성 인식 오류 검사부의 각각의 모듈을 통해 적어도 하나의 음성 인식 오류를 검사하도록 제어한 후, 상기 검사결과를 상기 음성 인식 오류 판단부로 입력되도록 하고 상기 음성 인식 오류 판단부로부터 출력되는 음성 인식 오류 발생 원인을 사용자에게 알리도록 제어하는 제어부를 포함한다.
또한, 본 발명에 따른 음성 인식 오류 통보 방법에 있어서, 입력되는 음성 데이터에서 순수 음성 데이터를 검출하여 출력하는 제1 과정과, 상기 순수 음성 데이터에 대하여 적어도 하나의 음성 인식 오류 원인을 검사하는 제2 과정과, 상기 음성 인식 오류에 대한 검사 결과 음성 인식 오류가 발생한 원인을 확인하고, 상기 확인된 음성 인식 오류 발생한 원인을 출력하는 제3 과정을 포함함을 특징으로 한다.
본 발명은 음성 인식 장치에서 음성 인식 과정에서 오류가 발생한 경우, 오류가 발생한 원인을 분석하여 이를 사용자에게 통보하여 오류가 나지 않도록 유도할 수 있도록 하는 방안을 제안한다. 본 발명에서 오류 발생 원인으로는 사용자의 발성이 너무 느리고 빠르거나, 너무 크고 작은 경우, 또한 잡음이 너무 많아 인식이 되지 않을 경우나 무선 통신 등에서 음성 신호 전송 중 패킷을 잃어 버려 음성 신호가 끊긴 경우 등으로 설명하지만, 다른 오류 발생 원인에 대하여도 별도의 오류 검사를 통해 사용자에게 통보할 수 있다.
그러면, 이하 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
도 1은 본 발명의 실시 예에 따른 음성 인식 오류 발생 시 오류 발생 원인을 사용자에게 통보하기 위한 음성 인식 장치에 대한 블록 구성도이다. 도 1을 참조하면, 본 발명의 실시 예에 따른 음성 인식 장치는 음성 데이터 검출부(100), 음성 인식기(102), 음성 인식 오류 검사부(110), 음성 인식 오류 판단부(120), 잡음 분리부(131), 잡음 예측부(132), 제어부(140), 메모리부(150)를 포함한다. 또한, 본 발명의 도 1에서 도시는 하지 않았지만, 음성 인식 오류 결과를 사용자에게 통보하기 위한 구성 요소인 표시부 또는 스피커를 포함하는 음성 처리부를 더 구비할 수 도 있다.
먼저, 제어부(140)는 음성 인식 장치의 전반적인 제어동작을 수행한다. 특히, 본 발명에서 제어부(140)는 입력 음성 데이터를 음성 인식 오류 검사부(110)의 각각의 모듈을 통해 적어도 하나의 음성 인식 오류를 검사하도록 제어한 후, 검사결과를 음성 인식 오류 판단부(120)로 입력되도록 하고 음성 인식 오류 판단부(120)로부터 출력되는 음성 인식 오류 발생 원인을 사용자에게 알리도록 제어한다. 구체적인 제어부(140)의 동작에 대하여는 하기의 도 2의 설명에서 살펴보도록 한다.
메모리부(150)는 다수의 프로그램과 데이터를 저장하기 위한 롬(ROM : READ ONLY MEMORY) 및 램(RAM : RANDOM ACCESS MEMORY) 등으로 이루어질 수 있으며, 음성 인식 장치의 일반적인 동작을 제어하기 위한 프로그램들을 저장한다. 본 발명의 실시 예에 따라 오류 검출을 위한 다수개의 기준값들은 저장한다. 구체적으로 메모리부(150)는 음성이 크게 발성한 것임을 구별하기 위한 제1 크기 레벨과 음성이 작게 발성한 것임을 구별하기 위한 제2 크기 레벨, 음성이 빠르게 발성한 것임을 구별하기 위한 제1 속도 레벨과 음성이 느리게 발성한 것임을 구별하기 위한 제2 크기 속도 레벨을 저장한다. 또한, 메모리부(150)는 입력 음성에 포함된 부가 잡음으로 인한 오류 발생을 판단하기 위한 잡음 기준치를 저장하고, 채널 전송에 따른 전송 에러 발생으로 인한 오류 발생을 판단하기 위한 전송 에러 기준치를 저장한다.
음성 데이터 검출부(100)는 마이크를 통하여 입력된 오디오 신호(Audio Signal)를 입력으로 하고, 입력된 오디오 신호의 데이터에서 순수 음성 데이 터(speech utterance) 부분을 검출한다. 검출된 순수 음성 데이터는 음성 인식기(102), 음성 인식 오류 검사부(110)로 출력된다.
음성 인식기(102)는 검출된 음성 데이터가 존재하는 음성 구간을 분석하여 음성을 인식한다. 이때, 음성 인식기는 일반적인 음성 인식을 위한 모듈이므로 상용되는 단어 인식기를 대상으로 하며 인식한 음성이 가지는 상대적인 정확도(recognition score)를 제공해 주어야 한다. 또한 적절한 음성 입력 레벨을 제시해 주어야 한다. 음성 인식에 대한 구체적인 동작 설명을 본 발명에서 생략하도록 한다.
음성 인식 오류 검사부(110)는 채널 전송 에러 검사부(111), 크기 레벨 검사부(112), 발성 속도 검사부(113), 잡음 검사부(114)를 포함하여 구성된다. 이러한 음성 인식 오류 검사부(110)를 구성하는 각 모듈에 대하여 살펴보도록 한다.
먼저, 채널 전송 에러 검사부(111)는 수신한 음성 신호에 대하여 수신되지 않은 패킷을 분석하여 전송 에러 여부를 판단한다.
크기 레벨 검사부(112)는 발성 에너지 분석 기능을 수행한다. 발성 에너지 분석 기능이란, 사용자가 발화한 음성 데이터에서 발성 에너지를 분석하여 발성의 세기가 음성 인식 장치에서 미리 설정된 기준에 비하여 어느 정도 에너지 수준을 가지고 있는지 결과를 제시하는 기능이다. 사용자의 발화로부터 검출된 음성 구간의 데이터를 시간 영역(time domain)에서 분석하며, 실제 구간의 에너지를 계산하거나 보다 전체적인 음성 구간내의 발성 에너지를 측정하기 위하여 파형을 특정 수준에서 클리핑 하여 수준 이상 또는 이하가 되는 데이터의 수를 계산하여 결과를 제시한다.
즉, 입력된 음성 신호의 에너지 크기를 검사하는 모듈로, 음성 에너지 크기 검사는 미리 설정된 기준 크기 레벨과 비교하여 입력된 음성 크기를 검사한다. 이때, 크기 레벨 검사부(112)는 메모리부(150)에 저장된 음성이 크게 발성한 것임을 구별하기 위한 제1 크기 레벨과 음성이 작게 발성한 것임을 구별하기 위한 제2 크기 레벨을 읽어 각각의 크기 레벨과 음성 크기를 비교한다.
크기 레벨 검사부(112)는 만약, 입력 음성 데이터에서 추출된 순수 음성 구간의 데이터에서 제 1 크기 레벨보다 크게 입력된 음성 구간이 특정 임계치(시스템이 따라 유동적으로 변할 수 있는)보다 큰 경우 크게 발성된 것으로 판단하고 제 2크기 레벨보다 작게 입력된 음성 구간이 특정 임계치보다 작은면 음성이 작게 발성된 것으로 판단한다.
상기와 같이 크기 레벨 검사부(112)에서 음성 신호의 에너지 크기를 추정하고, 추정된 음성 신호의 에너지 크기가 음성 인식에 적합한 수준인지를 판단하는 기능을 가지고, 이러한 기능에 대하여 살펴보면 하기와 같다. 본 발명에서 사용되는 음성 신호의 에너지 크기 추정 방법은 하나의 실시 예일 뿐이고, 다른 에너지 크기 추정 방법을 사용하여 입력 음성 신호의 에너지 크기를 추정할 수도 있다.
1. 시간 도메인 분석(Time-domain analysis)
1) 순수 음성 영역 추출(Pure speech region extraction)
음성 에너지 추정을 위하여 시간 영역에서의 음성 데이터를 분석할 수 있어야 한다. 직접적인 음성 데이터 분석과 짧은 주기(short-time duration)로 프레임 화(framing)된 블록 단위의 분석이 가능해야 한다.
또한, 이때 음성 에너지 추정은 검출된 음성 데이터 구간 내에서 순수 음성 구간만을 대상으로 수행한다. 음성 데이터 검출부(100)에서 검출된 음성 데이터 구간에서 시작 부분과 끝 부분의 마진(margin) 영역을 제거할 수 있어야 한다.
또한, 시간 영역에서의 음성 데이터에 대한 영교차율을 추정할 수 있어야 한다.
또한, 시간 영역에서의 음성 데이터에 대한 에너지 수준을 추정할 수 있어야 한다.
또한, 시간 영역에서의 음성 데이터에 대한 영교차율과 에너지 수준을 분석하여 순수 음성 데이터 구간을 추출할 수 있어야 한다. 음성 구간의 판단 기준이 되는 영교차율과 에너지 수준의 기준값은 해당 기능 모듈의 입력 인자로 전달되어야 한다.
2) 다이렉트 샘플 데이터 분석(direct sample data analysis)
시간 영역에서의 음성 데이터 값을 직접 조작하여 분석할 수 있어야 한다.
또한, 임계치로 주어진 특정 레벨값(절대값)을 기준으로 음성 데이터 값을 클리핑(clipping) 할 수 있어야 한다. 클리핑 되는 레벨값은 기능 모듈의 입력인자로 전달되어야 한다.
임계치 이상인 음성 데이터의 수를 추정할 수 있어야 한다. 추정된 음성 데이터의 수는 전체 음성 데이터의 길이에 대한 잔차(Residual) 데이터의 길이의 비로 추정한다. 분석된 길이의 비를 이용하여 입력된 음성 데이터의 발성 에너지의 크기를 기준 비율과 비교하여 추정한다.
3) 블록 추정 분석(Block Approximation Analysis)
시간 영역에서의 음성 데이터를 분석하기 위한 특징(Feature)을 간략히 하기 위하여 짧은 주기(short-time duration)으로 프레임화(framing) 된 음성 데이터 블록단위의 분석이 가능해야 한다.
이때, 크기 레벨 검사부(112)는 음성 데이터를 짧은 시간 구간으로 나누며 각 시간 구간은 서로 중첩될 수 있어야 한다. 기준이 되는 시간 구간과 중첩되는 구간의 정보는 시간 단위(msec)로 해당 기능 모듈의 입력인자로 전달되어야 한다.
또한, 나뉘어진 음성 구간을 대표하는 블록 에너지 값을 추정할 수 있어야 한다. 에너지 값은 구간 내의 데이터의 제곱의 평균값을 이용하거나 연산의 간소화를 위하여 구간 내의 데이터들의 절대치의 평균값을 이용할 수 있다. 추정된 블록 에너지들을 기준 블록 에너지와 비교하여 입력된 음성 데이터의 발성 에너지의 수준을 추정한다.
2. 결과 생성
상기에서 분석된 음성 에너지 정보를 이용하여 입력된 음성 데이터의 발성 에너지 수준을 결정할 수 있어야 한다. 에너지 수준은 대표값을 이용하여 나타낼 수 있다.
이때, 음성 에너지의 수준은 기준값과 비교한 상대적인 값인[-5, 5]의 범위를 가지도록 표준화 할 수 있다. 입력된 에너지 레벨이 제안된 에너지 레벨의 1/5이하일 때 ‘―5’의 입력 레벨로 표현하며 에너지 레벨이 제안된 에너지 레벨의 5 배 이상일 경우 ‘5’의 입력 레벨로 표현할 수 있다. 제안된 에너지 레벨의 범위 안에 있을 때 ‘0’의 입력 레벨로 표현할 수 있다.
또한, 입력된 에너지 레벨을 상기와 같이 표현할 시 아래 <표 1>과 같이 5가지 수준의 대표값으로 결과를 줄 수 있다.
Figure 112006079698212-PAT00001
발성 속도 검사부(113)는 발화 속도 분석 기능을 수행한다. 이때, 발화 속도 분석 기능이란 발화된 음성 데이터에서 음절수를 추정하여 해당 음절 수에 따른 발화 속도를 분석하여 결과를 제시하는 기능이다. 검출된 음성 구간에서 발화된 음성의 자음과 모음의 조합을 파악하여 가능한 음절 조합을 구성한 뒤 전체 음절 수를 추정하고, 추정된 음절 수에 해당하는 발화 속도가 어느 정도 인지 판단한다.
즉, 발성 속도 검사부(113)는 입력된 음성 신호의 속도를 검사하는 모듈로, 음성 속도 검사는 미리 설정된 기준 속도 레벨과 비교하여 입력된 음성 속도를 검사한다. 이때, 발송 속도 검사부(113)는 메모리부(150)에 저장된 음성이 빠르게 발성한 것임을 구별하기 위한 제1 속도 레벨과 음성이 느리게 발성한 것임을 구별하기 위한 제2 크기 속도 레벨을 읽어 각각의 속도 레벨과 입력된 음성 속도를 비교한다. 발성 속도 검사부(113)는 만약, 입력 음성 속도 레벨이 제1 속도 레벨보다 크면 입력된 음성이 빠르게 발성된 것으로 판단하고, 음성 속도 레벨이 제2 속도 레벨보다 작으면 음성이 느리게 발성된 것으로 판단한다. 더 구체적으로는 발성 속도 검사부(113)는 입력된 음성 데이터에서 발화된 음절 수를 추정하여 음절 수에 해당하는 음성 데이터의 길이가 음성 인식에 적절한 길이인지 확인하는 기능을 수행한다.
상기와 같이 발성 속도 검사부(113)에서 음성 신호의 발성 속도를 추정하고, 추정된 음성 신호의 발성 속도가 음성 인식에 적합한 수준인지를 판단하는 기능을 가지고, 이러한 기능에 대하여 살펴보면 하기와 같다. 본 발명에서 사용되는 음성 신호의 발성 속도 추정 방법은 하나의 실시 예일 뿐이고, 다른 발성 속도 추정 방법을 사용하여 입력 음성 신호의 발성 속도를 추정할 수도 있다.
1. 시간 도메인 분석(Time-domain analysis)
1) 순수 음성 영역 추정(Pure Speech Region Estimation)
음성 데이터의 발화 속도 추정은 검출된 음성 데이터 구간 내에서 순수 음성 구간만을 대상으로 수행한다. 음성 데이터 검출부(100)에서 검출된 음성 데이터 구간에서 시작 부분과 끝 부분의 마진 영역을 제거할 수 있어야 한다. 또한, 시간 영역에서의 음성 데이터에 대한 영교차율을 추정할 수 있어야 한다. 또한, 시간 영역에서의 음성 데이터에 대한 에너지 수준을 추정할 수 있어야 한다. 또한, 시간 영역에서의 음성 데이터에 대한 영교차율과 에너지 수준을 분석하여 순수 음성 데이터 구간을 추출할 수 있어야 한다. 음성구간의 판단 기준이 되는 영교차율과 에너지 수준의 기준값은 해당 기능 모듈의 입력 인자로 전달되어야 한다.
2) 모음 카운트 추정(Vowel Count Estimation)
발화된 음성의 발화속도를 추정하는데 사용되는 음절 수를 추정할 수 있어야 한다. 음절수의 추정은 유성음 구간을 추정하여 그 수를 추정하는 방법으로 수행할 수 있다. 또한, 검출된 음성 구간 데이터를 짧은 시간 구간으로 나누며 각 시간 구간은 서로 중첩될 수 있어야 한다. 기준이 되는 시간 구간과 중첩되는 구간의 정보는 시간 단위(msec)로 해당 기능 모듈의 입력인자로 전달되어야 한다. 또한, 나뉘어진 음성 구간을 대표하는 블록 에너지 값과 ZCR을 추정할 수 있어야 한다. 에너지 값은 구간 내의 데이터의 제곱의 평균값을 이용하거나 연산의 간소화를 위하여 구간 내의 데이터들의 절대치의 평균값을 이용할 수 있다. 또한, 구간별 에너지 값과 ZCR 을 기준값과 비교하여 유성음 구간과 무성음 구간을 구분해 낼 수 있어야 한다. 구분이 되는 기준값는 해당 기능 모듈의 입력인자로 전달되어야 한다. 또한, 유성음 구간의 음절 전이를 추정하기 위하여 에너지 변이를 추적할 수 있어야 한다. 에너지 변이가 일정 시간 내에서 감소와 증가가 검출되었을 때 음절 전이가 발생했다 판별할 수 있어야 한다.
2. 결과 생성
추정되는 음성 발화 속도는 전체 음성을 분석하여 음절 수를 추정한 뒤 음절수에 따른 발화 시간을 계산하여 사전에 정해 놓은 적정 발화 시간 내에 포함되어 있는지를 결정할 수 있어야 한다. 또한, 발화 속도 수준은 기준값과 비교한 상대적인 값인 [-1, 1]의 범위를 가지도록 표준화할 수 있다. 발화된 음성 속도를 추정하여 적정 발화 속도 범위보다 빠르다면 ‘1’의 레벨로 표현하며 느리다면 ‘-1’의 레벨로 표현할 수 있다.
또한, 음성 신호의 속도 레벨을 상기와 같이 표현할 시 아래 <표 2>과 같이 3가지 수준의 대표값으로 결과를 줄 수 있다.
Figure 112006079698212-PAT00002
잡음 분리부(131)는 입력된 음성 신호에서 비 음성 구간 데이터로부터 현재 상황의 주변 잡음을 음성 구간과 구분하는 모듈이다. 음성 데이터 검출부(100)에서 검출된 음성 데이터는 순수 발성된 데이터 앞/뒤로 일정 수준의 묵음(Silence) 구간을 포함하게 된다. 잡음 분리부(131)는 음성 데이터 검출부(100)의 여유(Margin) 구간에 대하여 입력 레벨을 분석하여 현재 음성 인식 시간의 주변 환경 잡음의 유무를 구분하는 기능을 수행한다.
잡음 예측부(132)는 비 음성 구간의 데이터에서 구분된 주변 잡음을 음향학적으로 분석하여 통계치를 추출해 내는 모듈이다. 추출해 낸 통계치는 잡음 검사부(114)에 기준값으로 제공해 줄 수 있다.
잡음 검사부(114)는 주변 잡음 분석 기능을 수행한다. 이때, 주변 잡음 분석 기능이란 발화된 음성 데이터에서 검출된 음성 구간에 부가된 주변 잡음의 세기를 분석하여 결과를 제시하는 기능이다. 검출된 음성구간의 시작과 끝 부분에는 음성 분석에 필요한 묵음 구간을 포함하고 있다. 묵음 구간의 데이터를 분석하여 음성을 발화한 시점의 주변 환경이 어느 정도 잡음을 부가시켰는지 판단한다. 또한, 선택적으로 음성을 입력받는 마이크로부터 음성 검출과 독립적으로 데이터를 입력받을 수 있다면 일정 크기의 버퍼를 통하여 음성 입력 시점의 잡음 환경을 추정하여 사용하고, 음성의 시작점을 검출하기까지의 버퍼 데이터를 분석하여 결과를 제시한다.
즉, 잡음 검사부(114)는 입력된 음성 신호에 포함되어 있는 주변 환경 잡음이 부가 정도를 검사하는 모듈로, 검출된 음성 구간에 포함된 음성 신호 이외에 다른 신호가 어느 정도 포함되어 있는지 음향학적 분석하여 입력된 음성에 주변 잡음이 어느 정도 포함되어 있는지 정량적인 값을 추출한다. 이와 같이 추출된 입력 음성 신호에 대한 잡음 값과 메모리부(150)에 저장된 잡음 기준값을 비교하여 입력 음성 신호에 대한 잡음 치가 잡음 기준치 이상이면 현재 잡음이 너무 많아 음성 인식이 되지 않은 것으로 판단한다.
상기와 같이 잡음 검사부(114)에서 음성 신호에 포함된 잡음 정도를 추정하고, 추정된 음성 신호의 잡음 정보가 음성 인식에 적합한 수준인지를 판단하는 기능을 가지고, 이러한 기능에 대하여 살펴보면 하기와 같다. 본 발명에서 사용되는 잡음 추정 방법은 하나의 실시 예일 뿐이고, 다른 잡음 추정 방법을 사용하여 입력 음성 신호에 포함된 잡음 정도를 추정할 수도 있다.
1. 시간 도메인 분석(Time-domain analysis)
1) 음성/묵음 구간 분리(Speech / Silence Region Division)
부가된 잡음의 존재 여부를 확인하기 위하여 음성 데이터 구간과 비음성 데이터 구간을 나누어 분석할 수 있어야 한다.
또한, 시간 영역에서의 음성 데이터에 대한 영교차율을 추정할 수 있어야 한다. 또한, 시간 영역에서의 음성 데이터에 대한 에너지 수준을 추정할 수 있어야 한다. 또한, 시간 영역에서의 음성 데이터에 대한 영교차율과 에너지 수준을 분석하여 순수 음성 데이터 구간과 비음성 데이터 구간을 구분할 수 있어야 한다. 구간의 판단기준이 되는 영교차율과 에너지 수준의 기준값은 해당 기능 모듈의 입력 인자로 전달되어야 한다.
2) 음성 구간 분석(Speech Region Analysis)
음성 구간 내에 포함된 부가 잡음을 확인할 수 있어야 한다. 음성 구간 데이터에서 에너지 포락선(envelop)을 조사하여 짧은 시간 상승하는 구간의 존재 유무를 확인 하는 기능을 수행할 수 있어야 한다.
또한, 음성 구간내의 데이터에서 각 데이터 샘플(sample)의 제곱을 이용하여 에너지 레벨의 포락선을 추정할 수 있어야 한다. 또한, 추정된 음성 에너지 포락선을 조사하여 짧은 시간 구간 내에 존재하는 에너지 상승(boosting)을 검출해낼 수 있어야 한다.
3) 묵음 구간 분석(Silence Region Analysis)
입력된 음성 데이터내에 부가된 잡음을 확인하기 위하여 비 음성 데이터구간의 에너지 수준을 검사할 수 있어야 한다. 또한, 비 음성 데이터 구간 전체를 대상으로 하며 비 음성 데이터 구간의 평균 에너지 레벨을 추정할 수 있어야 한다. 또한, 상기에서 분석된 부가 잡음 정보를 이용하여 입력된 음성 데이터의 주변 환경 잡음 수준을 결정할 수 있어야 한다. 부가 잡음수준은 대표값을 이용하여 나타낼 수 있다.
2. 결과 생성
상기에서 분석된 부가 잡음의 수준은 기준값과 비교한 상대적인 값인 [0, 5]의 범위를 가지도록 표준화 할 수 있다. 부가된 주변잡음이 음성 신호의 에너지의 1/2 이상인 경우‘5’의 레벨로 표현할 수 있다. 부가된 주변 잡음이 없을 경우 ‘0’의 레벨로 표현할 수 있다.
또한, 하기의 <표 3>와 같이 3개의 대표값으로 추정하여 결과를 줄 수 있다.
Figure 112006079698212-PAT00003
음성 인식 오류 판단부(120)는 발화 적합성 판별 기능을 수행한다. 이때, 발화 적합성 판별 기능이란, 발성 에너지 분석 결과, 주변잡음 분석 결과, 발화속도 분석 결과 등 사용자의 발화로부터 검출된 음성 구간이 음성 인식에 적합한지 여부를 판별하는 기능이다. 상기의 음성 인식 오류 검사부(110)으로 부터 출력된 분석 결과가 음성 인식에 적합한 범위에 존재하는지 그렇지 않은지, 적합하지 않다면 가장 큰 원인이 무엇인지 등을 판별하기 위하여 다양한 환경에서 실제 실험한 결과를 분석하여 가장 분별성 있는 추론 공식을 근사화 하여 사용할 수 있다.
즉, 음성 인식 오류 판단부(120)는 음성 인식 오류 검사부(110)로부터 출력되는 각각의 음성 인식 오류 검사 결과를 입력으로 하여 최종 음성 인식의 결과를 판단하는 모듈이다. 이러한 음성 인식 오류 판단부(120)는 음성 인식 오류 검사부(110)의 각 모듈들의 결과의 값들을 조합하여 입력된 음성이 인식에 적합한지를 결정하는 기능을 수행한다.
즉, 상기한 음성 인식 오류 판단부(120)는 발화된 사용자의 음성을 모듈별로 분석한 결과를 기준하여 음성 인식에 어느 정도 적합한 지 결정하는 기능을 수행한다. 이후, 음성 인식에 부적합 하다고 판단될 경우 그 주된 원인을 제어부(140)의 제어 하에 표시부 또는 스피커를 통해 출력한다.
그러면, 음성 인식 오류 판단부(120)에서 음성 인식 오류 검사부(110)로부터 출력되는 각각의 음성 인식 오류 검사 결과를 입력으로 하여 최종 음성 인식의 결과를 판단하는 동작에 대하여 하기에서 구체적으로 살펴보도록 한다.
1. 인식 스코어 허용(Recognition Score Permission)
음성 인식 결과값을 확인하여 인식의 신뢰도를 검증할 수 있어야 한다. 또한, 인식 결과값을 특정 기준값과 비교하여 인식 결과를 수용할 지 판별할 수 있어야 한다. 기준값이 되는 인식 수준은 해당 기능모듈의 입력으로 전달 되어야 한다.
2. 가장 유력한 오류 원인 판별(Dominant Failure Reason Detection)
인식 결과를 수용하지 못할 경우 인식 결과 거절의 주된 원인을 판별할 수 있어야 한다. 만약, 하기 <표 4>와 같은 조건일 때 인식 결과 거절의 주요 원인을 발성된 소리가 크다라고 결정한다.
Figure 112006079698212-PAT00004
또한, 하기 <표 5>와 같은 조건일 때 인식 결과 거절의 주요 원인을 발성된 소리가 작다라고 결정한다.
Figure 112006079698212-PAT00005
또한, 하기 <표 6>과 같은 조건일 때 인식 결과 거절의 주요 원인을 주변 잡음 때문이라고 결정한다.
Figure 112006079698212-PAT00006
또한, 하기 <표 7>과 같은 조건일 때 인식 결과 거절의 주요 원인을 발화 속도가 느리다라고 결정한다.
Figure 112006079698212-PAT00007
또한, 하기의 <표 8>과 같은 조건일 때 인식 결과 거절의 주요 원인을 발화 속도가 빠르다라고 결정한다.
Figure 112006079698212-PAT00008
3. 결과 생성
음성의 에너지 크기 분석 결과, 주변잡음 부가 추정 결과, 발화 속도검사 결과를 이용하여 음성 인식의 결과가 유효할 확률이 어느 정도 되는지 결과를 도출할 수 있어야 한다.
또한, 음성 인식의 유효성은 다음과 갈은 상대적인 값인 [0, 5]의 범위를 가지도록 표준화할 수 있다. 표준화를 위한 기준은 따로 결정되지 아니하며 실험적인 결과에 의하여 기준을 결정할 수 있다. 각 모듈의 분석 결과가 모두 적합으로 판별되었을 경우 ‘5’의 레벨로 표현하며 모든 분석 결과가 부적합으로 판별되었을 경우 ‘0’의 레벨로 표현한다. 이는 하기의 <표 9>와 같이 결과를 출력한다.
Figure 112006079698212-PAT00009
그러면, 이제 상기의 도 1과 같이 구성되는 음성 인식 장치에서 음성 인식 오류 발생 시 오류 발생 원인을 사용자에게 통보하기 위한 과정에 대하여 도 2를 참조하여 설명하도록 한다.
먼저, 200단계에서 제어부(140)가 음성 인식 오류 피드백 기능 설정이 있음을 인지하고, 202단계에서 음성 신호 입력이 있으면 204, 210, 216, 222단계로 진행하여 입력된 음성 신호에 대하여 오류 발생에 대하여 검사한다.
먼저, 206단계에서 제어부(140)는 잡음 검사부(114)를 제어하여 입력 음성 신호 내에 포함된 부가 잡음 정도를 검사한다. 이때, 부가 잡음 검사는 상기의 도 1에서의 잡음 검사부(114)에서 기재한 바와 같이 검사할 수 있다. 이후, 제어부(140)는 206단계로 진행하여 잡음 검사부(114)를 제어하여 부가 잡음이 미리 설정된 잡음 기준치를 초과하는지를 검사한다. 만약, 부가 잡음이 미리 설정된 잡음 기준치를 초과하면 제어부(140)는 208단계로 진행하여 음성 인식 오류 발생 원인이 잡음임을 알린다. 이때, 오류 발생에 대한 출력은 음성 인식 장치의 화면을 통해 메시지로 출력할 수도 있고, 스피커를 통해 음성으로 출력할 수도 있다. 그러나, 206단계 검사결과 부가 잡음이 미리 설정된 잡음 기준치를 초과하지 않으면 제어부(140)는 228단계로 진행하여 음성 인식 결과를 수용한다. 이때, 음성 인식 결과를 수용한다는 것은 오류가 발생하지 않음을 인지하여 음성 인식기(102)로부터 인식된 결과대로 인식에 따른 동작을 수행하는 것을 의미한다.
또한, 제어부(140)가 202단계에서 210단계로 진행하면, 속도 레벨 검사부(113)를 제어하여 입력 음성 신호의 속도 레벨을 검사한다. 이때, 음성 신호의 속도 레벨 검사는 상기의 도 1에서의 발성 속도 검사부(113)에서 기재한 바와 같이 검사할 수 있다. 이후, 제어부(140)는 212단계로 진행하여 속도 레벨 검사부(113)를 통해 입력 음성 신호의 속도 레벨이 제1 속도 기준치를 초과하는지, 제2 속도 기준치 미만인지를 검사한다. 이때, 만약 입력 음성 신호의 속도 레벨이 제1 속도 기준치를 초과하면 음성이 빠름을 인식하고, 입력 음성 신호의 속도 레벨이 제2 속도 기준치 미만이면 음성이 느림을 인식한다. 이후, 제어부(140)는 214단계로 진행하여 음성 인식 오류 발생 원인이 음성 속도임을 알린다. 이때, 제어부(140)가 입력 음성 신호의 속도 레벨이 제1 속도 기준치를 초과하면 음성이 빠름을 인식한 경우에는 입력되는 음성이 빨라서 음성 인식 오류가 발생하였음을 출력한다. 또한, 제어부(140)가 입력 음성 신호의 속도 레벨이 제2 속도 기준치 미만이면 음성이 느림을 인식한 경우에는 음성이 느려서 음성 인식 오류가 발생하였음을 출력한다. 이때, 오류 발생에 대한 출력은 음성 인식 장치의 화면을 통해 메시지로 출력할 수도 있고, 스피커를 통해 음성으로 출력할 수도 있다. 그러나, 212단계 검사결과 입력 음성 신호의 속도 레벨이 제1 속도 기준치 이하이고, 제2 속도 기준치 이상에 속한다면 228단계로 진행하여 음성 인식 결과를 수용한다.
또한, 216단계로 진행한 제어부(140)는 크기 레벨 검사부(112)를 제어하여 입력 음성 신호의 크기 레벨을 검사한다. 이때, 음성 신호의 크기 레벨 검사는 상기의 도 1에서의 크기 레벨 검사부(112)에서 기재한 바와 같이 검사할 수 있다. 이후, 제어부(140)는 212단계로 진행하여 크기 레벨 검사부(112)를 통해 입력 음성 신호의 크기 레벨이 제1 크기 기준치를 초과하는지, 제2 크기 기준치 미만인지를 검사한다. 이때, 만약 입력 음성 신호의 크기 레벨이 제1 크기 기준치를 초과하면 음성이 큼을 인식하고, 입력 음성 신호의 크기 레벨이 제2 속도 기준치 미만이면 음성이 작음을 인식한다. 이후, 제어부(140)는 214단계로 진행하여 음성 인식 오류 발생 원인이 음성 크기임을 알린다. 이때, 제어부(140)가 입력 음성 신호의 크기 레벨이 제1 크기 기준치를 초과하면 음성이 큼을 인식한 경우에는 음성이 커서 음성 인식 오류가 발생하였음을 출력한다. 또한, 제어부(140)가 입력 음성 신호의 크기 레벨이 제2 크기 기준치 미만이면 음성이 작음을 인식한 경우에는 음성이 작아서 음성 인식 오류가 발생하였음을 출력한다. 이때, 오류 발생에 대한 출력은 음성 인식 장치의 화면을 통해 메시지로 출력할 수도 있고, 스피커를 통해 음성으로 출력할 수도 있다. 그러나, 218단계 검사결과 입력 음성 신호의 크기 레벨이 제1 크기 기준치 이하이고, 제2 크기 기준치 이상에 속한다면 228단계로 진행하여 음성 인식 결과를 수용한다.
또한, 222단계로 진행한 제어부(140)는 전송 채널 에러 검사부(111)를 제어하여 입력 음성 신호에 대한 전송 에러율을 검사한다. 이후, 제어부(140)는 224단계로 진행하여 전송 채널 에러 검사부(111)를 통해 입력 음성 신호에 대한 전송 에러율이 미리 설정된 전송 에러 기준치를 초과하는 지를 검사한다. 이때, 만약 입력 음성 신호에 대한 전송 에러율이 미리 설정된 전송 에러 기준치를 초과하면 제어부(140)는 226단계로 진행하여 음성 인식 오류 발생 원인이 채널 전송 에러임을 알린다. 이때, 오류 발생에 대한 출력은 음성 인식 장치의 화면을 통해 메시지로 출력할 수도 있고, 스피커를 통해 음성으로 출력할 수도 있다. 그러나, 224단계 검사결과 입력 음성 신호에 대한 전송 에러율이 전송 에러 기준치보다 이하라면 제어부(140)는 228단계로 진행하여 음성 인식 결과를 수용한다.
상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시할 수 있다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위와 특허청구범위의 균등한 것에 의해 정해져야 한다.
상기한 바와 같이 본 발명에서는 음성 인식이 실패하는 경우 입력 음성의 부가 잡음, 발성 속도, 입력 레벨, 전송 에러 등에 대한 환경 분석을 통하여 인식 오류 원인을 확인한 후, 이를 사용자에게 통보함으로써, 사용자가 오류 원인에 따라 오류 발생을 개선할 수 있도록 하는 이점이 있다. 또한, 사용자에게 오인식 원인에 대한 피드백을 주어 인식 환경을 개선하도록 유도함으로써 실감 인식률을 크게 개선시킬 수 있는 이점이 있다.

Claims (10)

  1. 음성 인식 오류 통보 장치에 있어서,
    입력되는 음성 데이터에서 순수 음성 데이터를 검출하여 출력하는 음성 데이터 검출부와,
    음성 인식 오류를 판단하기 위한 원인마다 각각의 모듈을 구비하고, 상기 순수 음성 데이터가 입력되면 상기 모듈 각각에서 상기 입력된 순수 음성 데이터에 대하여 적어도 하나의 음성 인식 오류를 검사하여 검사결과를 출력하는 음성 인식 오류 검사부와,
    상기 음성 인식 오류에 대한 검사 결과들이 입력되면 상기 검사 결과 음성 인식 오류가 발생한 원인을 확인하고, 상기 확인된 음성 인식 오류 발생한 원인을 출력하는 음성 인식 오류 판단부와,
    상기 입력 음성 데이터를 상기 음성 인식 오류 검사부의 각각의 모듈을 통해 적어도 하나의 음성 인식 오류를 검사하도록 제어한 후, 상기 검사결과를 상기 음성 인식 오류 판단부로 입력되도록 하고 상기 음성 인식 오류 판단부로부터 출력되는 음성 인식 오류 발생 원인을 사용자에게 알리도록 제어하는 제어부를 포함하는 것을 특징으로 하는 음성 인식 오류 통보 장치.
  2. 제 1항에 있어서, 상기 음성 인식 오류 검사부는,
    수신된 음성 신호에 대하여 수신되지 않은 패킷을 분석하여 채널 전송 에러값을 계산하고, 상기 채널 전송 에러값이 미리 설정된 전송 에러 기준치를 초과하는 지에 대한 여부에 따라 입력 음성 신호가 음성 인식에 적합한 지를 판단하는 채널 전송 에러 검사부를 포함하는 것을 특징으로 하는 음성 인식 오류 통보 장치.
  3. 제 1항에 있어서, 상기 음성 인식 오류 검사부는,
    입력된 음성 신호의 에너지 크기를 검사하고, 상기 입력 음성 신호의 에너지 크기와 미리 설정된 크기 기준치와 비교하여 음성 인식에 적합한 지를 판단하는 크기 레벨 검사부를 포함하는 것을 특징으로 하는 음성 인식 오류 통보 장치.
  4. 제 1항에 있어서, 상기 음성 인식 오류 검사부는,
    입력된 음성 신호의 발성 속도를 추정하고, 추정된 음성 신호의 발성 속도가 미리 설정된 속도 기준치와 비교하여 음성 인식에 적합한 지를 판단하는 발성 속도 검사부를 포함하는 것을 특징으로 하는 음성 인식 오류 통보 장치.
  5. 제 1항에 있어서, 상기 음성 인식 오류 검사부는,
    입력된 음성신호에 포함된 음성신호 이외에 다른 신호에 대한 주변 잡음 값 을 추출한 후, 상기 주변 잡음값이 미리 설정된 잡음 기준값를 초과하는 지에 대한 여부에 따라 입력 음성 신호가 음성 인식에 적합한 지를 판단하는 잡음 검사부를 포함하여 구성된 것을 특징으로 하는 음성 인식 오류 통보 장치.
  6. 음성 인식 오류 통보 방법에 있어서,
    입력되는 음성 데이터에서 순수 음성 데이터를 검출하여 출력하는 제1 과정과,
    상기 순수 음성 데이터에 대하여 적어도 하나의 음성 인식 오류 원인을 검사하는 제2 과정과,
    상기 음성 인식 오류에 대한 검사 결과 음성 인식 오류가 발생한 원인을 확인하고, 상기 확인된 음성 인식 오류 발생한 원인을 출력하는 제3 과정을 포함하여 이루어진 것을 특징으로 하는 음성 인식 오류 통보 방법.
  7. 제 6항에 있어서, 상기 제2 과정은,
    수신된 음성 신호에 대하여 수신되지 않은 패킷을 분석하여 채널 전송 에러값을 계산하고, 상기 채널 전송 에러값이 미리 설정된 전송 에러 기준치를 초과하는 지에 대한 여부에 따라 입력 음성 신호가 음성 인식에 적합한 지를 판단하는 과정을 포함하여 이루어진 것을 특징으로 하는 음성 인식 오류 통보 방법.
  8. 제 6항에 있어서, 상기 제2 과정은,
    입력된 음성 신호의 에너지 크기를 검사하고, 상기 입력 음성 신호의 에너지 크기와 미리 설정된 크기 기준치와 비교하여 음성 인식에 적합한 지를 판단하는 과정을 포함하는 것을 특징으로 하는 음성 인식 오류 통보 방법.
  9. 제 6항에 있어서, 상기 제2 과정은,
    입력된 음성 신호의 발성 속도를 추정하고, 추정된 음성 신호의 발성 속도가 미리 설정된 속도 기준치와 비교하여 음성 인식에 적합한 지를 판단하는 과정을 포함하는 것을 특징으로 하는 음성 인식 오류 통보 방법.
  10. 제 6항에 있어서, 상기 제2 과정은,
    입력된 음성신호에 포함된 음성신호 이외에 다른 신호에 대한 주변 잡음 값을 추출한 후, 상기 주변 잡음값이 미리 설정된 잡음 기준값를 초과하는 지에 대한 여부에 따라 입력 음성 신호가 음성 인식에 적합한 지를 판단하는 과정을 포함하는 것을 특징으로 하는 음성 인식 오류 통보 방법.
KR1020060106404A 2006-10-31 2006-10-31 음성 인식 오류 통보 장치 및 방법 KR100834679B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020060106404A KR100834679B1 (ko) 2006-10-31 2006-10-31 음성 인식 오류 통보 장치 및 방법
US11/928,665 US8976941B2 (en) 2006-10-31 2007-10-30 Apparatus and method for reporting speech recognition failures
US14/643,420 US9530401B2 (en) 2006-10-31 2015-03-10 Apparatus and method for reporting speech recognition failures

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060106404A KR100834679B1 (ko) 2006-10-31 2006-10-31 음성 인식 오류 통보 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20080038896A true KR20080038896A (ko) 2008-05-07
KR100834679B1 KR100834679B1 (ko) 2008-06-02

Family

ID=39330164

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060106404A KR100834679B1 (ko) 2006-10-31 2006-10-31 음성 인식 오류 통보 장치 및 방법

Country Status (2)

Country Link
US (2) US8976941B2 (ko)
KR (1) KR100834679B1 (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101324232B1 (ko) * 2011-12-30 2013-11-01 삼성전자주식회사 전자 장치 및 그의 제어 방법
US8650036B2 (en) 2011-12-30 2014-02-11 Samsung Electronics Co., Ltd. Electronic apparatus and method of controlling electronic apparatus
WO2016129740A1 (ko) * 2015-02-10 2016-08-18 미디어젠 주식회사 사용자 패턴에 기반한 오류 db모듈을 적용한 임베디드 음성인식 처리방법 및 시스템
US9437127B2 (en) 2011-12-28 2016-09-06 Samsung Electronics Co., Ltd. Device and method for displaying image, device and method for supplying power, and method for adjusting brightness of contents
KR102617914B1 (ko) * 2023-05-10 2023-12-27 주식회사 포지큐브 음성 인식 방법 및 그 시스템
KR102620070B1 (ko) * 2022-10-13 2024-01-02 주식회사 타이렐 상황 인지에 따른 자율발화 시스템
KR102626954B1 (ko) * 2023-04-20 2024-01-18 주식회사 덴컴 치과용 음성 인식 장치 및 이를 이용한 방법
KR102632806B1 (ko) * 2023-06-16 2024-02-05 주식회사 엘솔루 Stt결과 조기 확정을 위한 음성 인식 방법 및 장치
KR102632872B1 (ko) * 2023-05-22 2024-02-05 주식회사 포지큐브 음성인식 오류 교정 방법 및 그 시스템

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110035215A1 (en) * 2007-08-28 2011-02-10 Haim Sompolinsky Method, device and system for speech recognition
JP5451982B2 (ja) * 2008-04-23 2014-03-26 ニュアンス コミュニケーションズ,インコーポレイテッド 支援装置、プログラムおよび支援方法
KR20110010939A (ko) * 2009-07-27 2011-02-08 삼성전자주식회사 휴대용 단말기에서 음성 인식 성능을 향상시키기 위한 장치 및 방법
KR101122591B1 (ko) 2011-07-29 2012-03-16 (주)지앤넷 핵심어 인식에 의한 음성 인식 장치 및 방법
GB2511078A (en) * 2013-02-22 2014-08-27 Cereproc Ltd System for recording speech prompts
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
DE102014209499A1 (de) * 2014-05-20 2015-11-26 Continental Automotive Gmbh Verfahren zum Betreiben eines Sprachdialogsystems für ein Kraftfahrzeug
WO2016013503A1 (ja) * 2014-07-23 2016-01-28 三菱電機株式会社 音声認識装置及び音声認識方法
US10720154B2 (en) * 2014-12-25 2020-07-21 Sony Corporation Information processing device and method for determining whether a state of collected sound data is suitable for speech recognition
US10959648B2 (en) 2015-06-25 2021-03-30 The University Of Chicago Wearable word counter
US10134424B2 (en) * 2015-06-25 2018-11-20 VersaMe, Inc. Wearable word counter
US10789939B2 (en) 2015-06-25 2020-09-29 The University Of Chicago Wearable word counter
JP6621613B2 (ja) 2015-08-10 2019-12-18 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
JPWO2017130486A1 (ja) * 2016-01-28 2018-11-22 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
EP3489949A4 (en) * 2016-07-19 2019-08-07 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US10430449B2 (en) * 2017-03-28 2019-10-01 Rovi Guides, Inc. Systems and methods for correcting a voice query based on a subsequent voice query with a lower pronunciation rate
JP2018191145A (ja) * 2017-05-08 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム及びディクテーション方法
US11128954B2 (en) 2017-05-25 2021-09-21 Samsung Electronics Co., Ltd Method and electronic device for managing loudness of audio signal
CN107464564B (zh) * 2017-08-21 2023-05-26 腾讯科技(深圳)有限公司 语音交互方法、装置及设备
CN107767872A (zh) * 2017-10-13 2018-03-06 深圳市汉普电子技术开发有限公司 语音识别方法、终端设备及存储介质
JP6812381B2 (ja) * 2018-02-08 2021-01-13 日本電信電話株式会社 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
US10636423B2 (en) 2018-02-21 2020-04-28 Motorola Solutions, Inc. System and method for managing speech recognition
JP2020160144A (ja) * 2019-03-25 2020-10-01 株式会社Subaru 音声認識装置
CN110473530B (zh) * 2019-08-21 2021-12-07 北京百度网讯科技有限公司 指令分类方法、装置、电子设备及计算机可读存储介质
US11810573B2 (en) 2021-04-23 2023-11-07 Comcast Cable Communications, Llc Assisted speech recognition
US11810558B2 (en) * 2021-05-26 2023-11-07 International Business Machines Corporation Explaining anomalous phonetic translations
CN113223496A (zh) * 2021-06-22 2021-08-06 北京字节跳动网络技术有限公司 一种语音技能测试方法、装置及设备

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2535854A1 (fr) * 1982-11-10 1984-05-11 Cit Alcatel Procede et dispositif d'evaluation du niveau de bruit sur une voie telephonique
US6263307B1 (en) * 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6336091B1 (en) * 1999-01-22 2002-01-01 Motorola, Inc. Communication device for screening speech recognizer input
DE19941227A1 (de) * 1999-08-30 2001-03-08 Philips Corp Intellectual Pty Verfahren und Anordnung zur Spracherkennung
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US6662155B2 (en) * 2000-11-27 2003-12-09 Nokia Corporation Method and system for comfort noise generation in speech communication
US20020107695A1 (en) * 2001-02-08 2002-08-08 Roth Daniel L. Feedback for unrecognized speech
WO2003081578A1 (en) * 2002-03-21 2003-10-02 U.S. Army Medical Research And Materiel Command Methods and systems for detecting, measuring, and monitoring stress in speech
US7542897B2 (en) * 2002-08-23 2009-06-02 Qualcomm Incorporated Condensed voice buffering, transmission and playback
GB0224806D0 (en) 2002-10-24 2002-12-04 Ibm Method and apparatus for a interactive voice response system
DE112004000782T5 (de) * 2003-05-08 2008-03-06 Voice Signal Technologies Inc., Woburn Signal-zu-Rausch-Verhältnis vermittelter Spracherkennungs-Algorithmus
US7392188B2 (en) * 2003-07-31 2008-06-24 Telefonaktiebolaget Lm Ericsson (Publ) System and method enabling acoustic barge-in
US7386443B1 (en) * 2004-01-09 2008-06-10 At&T Corp. System and method for mobile automatic speech recognition
KR100705563B1 (ko) * 2004-12-07 2007-04-10 삼성전자주식회사 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법
US20060229880A1 (en) * 2005-03-30 2006-10-12 International Business Machines Corporation Remote control of an appliance using a multimodal browser
US20060247927A1 (en) * 2005-04-29 2006-11-02 Robbins Kenneth L Controlling an output while receiving a user input
US7584097B2 (en) * 2005-08-03 2009-09-01 Texas Instruments Incorporated System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions
TWI319152B (en) * 2005-10-04 2010-01-01 Ind Tech Res Inst Pre-stage detecting system and method for speech recognition
US8019050B2 (en) * 2007-01-03 2011-09-13 Motorola Solutions, Inc. Method and apparatus for providing feedback of vocal quality to a user
US8140325B2 (en) * 2007-01-04 2012-03-20 International Business Machines Corporation Systems and methods for intelligent control of microphones for speech recognition applications
US8503686B2 (en) * 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
KR101612788B1 (ko) * 2009-11-05 2016-04-18 엘지전자 주식회사 이동 단말기 및 그 제어 방법
JP5738020B2 (ja) * 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
US8990082B2 (en) * 2011-03-25 2015-03-24 Educational Testing Service Non-scorable response filters for speech scoring systems

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9437127B2 (en) 2011-12-28 2016-09-06 Samsung Electronics Co., Ltd. Device and method for displaying image, device and method for supplying power, and method for adjusting brightness of contents
KR101324232B1 (ko) * 2011-12-30 2013-11-01 삼성전자주식회사 전자 장치 및 그의 제어 방법
US8650036B2 (en) 2011-12-30 2014-02-11 Samsung Electronics Co., Ltd. Electronic apparatus and method of controlling electronic apparatus
US9148688B2 (en) 2011-12-30 2015-09-29 Samsung Electronics Co., Ltd. Electronic apparatus and method of controlling electronic apparatus
WO2016129740A1 (ko) * 2015-02-10 2016-08-18 미디어젠 주식회사 사용자 패턴에 기반한 오류 db모듈을 적용한 임베디드 음성인식 처리방법 및 시스템
KR102620070B1 (ko) * 2022-10-13 2024-01-02 주식회사 타이렐 상황 인지에 따른 자율발화 시스템
KR102626954B1 (ko) * 2023-04-20 2024-01-18 주식회사 덴컴 치과용 음성 인식 장치 및 이를 이용한 방법
KR102617914B1 (ko) * 2023-05-10 2023-12-27 주식회사 포지큐브 음성 인식 방법 및 그 시스템
KR102632872B1 (ko) * 2023-05-22 2024-02-05 주식회사 포지큐브 음성인식 오류 교정 방법 및 그 시스템
KR102632806B1 (ko) * 2023-06-16 2024-02-05 주식회사 엘솔루 Stt결과 조기 확정을 위한 음성 인식 방법 및 장치

Also Published As

Publication number Publication date
US20080101556A1 (en) 2008-05-01
US20150187350A1 (en) 2015-07-02
KR100834679B1 (ko) 2008-06-02
US8976941B2 (en) 2015-03-10
US9530401B2 (en) 2016-12-27

Similar Documents

Publication Publication Date Title
KR100834679B1 (ko) 음성 인식 오류 통보 장치 및 방법
Ferrer et al. Is the speaker done yet? Faster and more accurate end-of-utterance detection using prosody
JP5331784B2 (ja) スピーチエンドポインタ
US20140156276A1 (en) Conversation system and a method for recognizing speech
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US20160275968A1 (en) Speech detection device, speech detection method, and medium
US20180137880A1 (en) Phonation Style Detection
KR20170083391A (ko) 음성 인식 시스템에서의 발화 검증 장치 및 그 방법
US20130325475A1 (en) Apparatus and method for detecting end point using decoding information
KR20150088926A (ko) 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR20170073113A (ko) 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치
JP2007288242A (ja) オペレータ評価方法、装置、オペレータ評価プログラム、記録媒体
Kaushik et al. Automatic detection and removal of disfluencies from spontaneous speech
Czap et al. Intensity feature for speech stress detection
KR20050049207A (ko) 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법
JP2797861B2 (ja) 音声検出方法および音声検出装置
CN113053415A (zh) 一种连读的检测方法、装置、设备及存储介质
JPH05173592A (ja) 音声/非音声判別方法および判別装置
JP2006010739A (ja) 音声認識装置
KR101444410B1 (ko) 발음 수준에 따른 발음 평가 장치 및 그 방법
JPH07295588A (ja) 発話速度推定方法
KR100334238B1 (ko) 음성 파형의 포락선 정보를 이용한 음성/비음성 판별 장치및 그 방법
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
Hamzah et al. Acoustical analysis of filled pause in Malay spontaneous speech
JPH05249987A (ja) 音声検出方法および音声検出装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130429

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140429

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150429

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160428

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170427

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180427

Year of fee payment: 11