KR20100073161A - 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치 - Google Patents

고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치 Download PDF

Info

Publication number
KR20100073161A
KR20100073161A KR1020080131755A KR20080131755A KR20100073161A KR 20100073161 A KR20100073161 A KR 20100073161A KR 1020080131755 A KR1020080131755 A KR 1020080131755A KR 20080131755 A KR20080131755 A KR 20080131755A KR 20100073161 A KR20100073161 A KR 20100073161A
Authority
KR
South Korea
Prior art keywords
speech
word
similarity
result
reliability
Prior art date
Application number
KR1020080131755A
Other languages
English (en)
Other versions
KR101217524B1 (ko
Inventor
강점자
이윤근
박전규
정호영
전형배
정훈
이성주
정의석
왕지현
강병옥
박기영
김종진
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080131755A priority Critical patent/KR101217524B1/ko
Priority to US12/535,024 priority patent/US8374869B2/en
Publication of KR20100073161A publication Critical patent/KR20100073161A/ko
Application granted granted Critical
Publication of KR101217524B1 publication Critical patent/KR101217524B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

본 발명은 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치에 있어서, 엔베스트 음성인식을 통해 단어수준에서 인식된 결과에 대해 엔베스트 발화검증을 통해서 신뢰도를 측정하고, 동적 시간 와핑에 의한 음소간 유사도를 측정하여 신뢰도와 유사도를 기반으로 음성인식의 수락/거절 또는 판단불가 등을 표시함으로써 보다 신뢰성 높은 음성인식이 가능하도록 한다.
엔베스트, 발화검증, 음성, 인식, 신뢰도, 유사도

Description

고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치{UTTERANCE VERIFICATION METHOD AND DEVICE FOR ISOLATED WORD NBEST RECOGNITION RESULT}
본 발명은 음성인식 시스템에 관한 것으로, 특히, 고립어 음성인식 시스템의 인식결과가 엔베스트(NBest) 출력 리스트를 제공하는 응용에서 엔베스트 출력 각각의 결과에 대해서 신뢰도와 유사도를 기반으로 보다 신뢰성 높은 음성인식이 가능하도록 하는 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치에 관한 것이다.
본 연구는 지식경제부 및 정보통신연구진흥원의 IT 신성장동력핵심기술개발 사업의 일환으로 수행하였음.[2006-S-036-03, 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발]
음성인식시스템은 응용 또는 인식 성능에 따라 음성인식 결과를 한 개 또는 여러 개의 결과를 출력한다. 일반적으로 음성인식시스템의 인식 성능이 우수한 경우, 입력 음성에 대한 유사도가 가장 높은 우도 값을 갖는 데이터를 한 개 출력하는 방식을 사용하나, 인식 성능이 떨어지는 경우, 여러 개의 출력 리스트를 제공함 으로써, 사용자가 정답을 선택하는 방식으로 서비스를 제공함으로써 음성 인식 성능 향상 효과를 갖는다.
이와 같이, 여러 개의 출력 가능한 리스트중, 몇 개의 출력 리스트를 제공하는 것을 엔베스트(Nbest)라고 하며, 출력 리스트의 갯수는 시스템의 사양과 응용에 따라 결정한다.
기존의 엔베스트 출력 리스트를 제공하는 음성인식시스템은 출력된 결과를 보고, 사용자가 정답 여부를 판단하는 방식으로 이루어져 있다. 즉, 엔베스트 출력 리스트를 제공하는 시스템은 발화 검증 기법을 제공하지 않고, 사용자에게 발화검증을 맡긴다는 의미이다.
그러나, 위와 같이 출력되는 엔베스트 리스트가 사용자가 발성한 데이터와 유사한 어휘셋으로 출력되지 않고, 단어 상호간에 서로 연관성이 전혀 없는 데이터가 출력되거나, 유사어휘들로 출력되는 경우가 있는데, 이와 같이 전혀 다른 어휘셋으로 출력되는 경우 시스템 신뢰도가 떨어지는 문제점이 있었다.
아래의 [예제 1]은 사용자 발성이 "풍민목욕탕" 인 경우에 대해 10-best 인식결과의 예를 도시한 것으로, 출력 결과들이 사용자 발성과 아주 유사하여 사용자가 판단하기에 음성인식시스템이 혼동 가능성이 있음을 인정할 수 있는 부분이다.
[예제 1]
정 답 : 풍민목욕탕
인식결과 : 풍민목욕탕, 문현목욕탕, 동문목욕탕, 광민목욕탕, 관문목욕탕
북문목욕탕, 탄현목욕탕, 양문목욕탕, 영현목욕탕, 영문목욕탕
그러나, 사용자 발성이 "청담빌라" 인 경우에 대해 10-best 인식결과의 예를 도시한 [예제 2]에서와 같이 인식결과들 간에 서로 연관성이 없는 결과가 출력되는 경우 사용자가 음성인식시스템의 신뢰도를 의심하게 된다.
[예제 2]
정 답 : 청담빌라
인식결과 : 한남클럽, 청담빌라, 용담클럽, 황금브라, 한담민박, 공간주방
동암드럼, 동아엠푸라, 한남칼라, 본컴퓨터
따라서 본 발명은 고립어 음성인식 시스템의 인식결과가 엔베스트(NBest) 출력 리스트를 제공하는 응용에서 엔베스트 출력 각각의 결과에 대해서 신뢰도와 유사도를 기반으로 보다 신뢰성 높은 음성인식이 가능하도록 하는 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치를 제공하고자 한다.
상술한 본 발명은 고립어 엔베스트 인식결과를 위한 발화검증 방법으로서, 입력된 음성에 대해 엔베스트 음성 인식 결과를 기반으로 문맥종속 음소와 반음소 모델에 대한 우도값을 산출하는 단계와, 상기 우도값을 이용하여 엔베스트 음성 인식된 단어의 신뢰도를 측정하는 단계와, 상기 엔베스트 음성 인식된 단어에 대해 음소간 유사도를 산출하는 단계와, 상기 신뢰도를 임계치와 비교하고, 상기 유사도를 유사도 평균과 비교하는 단계와, 상기 신뢰도와 유사도 비교 결과가 모두 수락 인 경우 상기 엔베스트 음성 인식된 단어를 수락하는 단계를 포함한다.
또한, 본 발명은 고립어 엔베스트 인식결과를 위한 발화검증 장치로서, 입력된 음성의 특징벡터를 추출하고, 끝점검출을 수행하는 전처리부와, 상기 특징벡터로부터 추출되는 문맥종속 음소 모델을 참조하여 비터비 탐색을 통해 엔베스트 음성인식을 수행하는 엔베스트 음성인식부와, 상기 엔베스트 음성인식된 단어에 대해 문맥종속 음소와 음소별 혼동 확률값을 활용한 반음소 모델에 대한 우도값을 계산하며, 상기 단어에 대해 측정한 신뢰도를 임계치와 비교하고, 상기 단어에 대해 측정한 유사도를 유사도 평균과 비교한 후, 상기 신뢰도와 유사도 비교결과가 모두 수락인 경우 상기 엔베스트 음성 인식된 단어를 수락하는 엔베스트 발화검증부를 포함한다.
본 발명에서는 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치에 있어서, 엔베스트 음성인식을 통해 단어수준에서 인식된 결과에 대해 엔베스트 발화검증을 통해서 신뢰도를 측정하고, 동적 시간 와핑에 의한 음소간 유사도를 측정하여 신뢰도와 유사도를 기반으로 음성인식의 수락/거절 또는 판단불가 등을 표시함으로써 보다 신뢰성 높은 음성인식이 가능하도록 하는 이점이 있다.
이하, 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하 기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 실시 예가 적용되는 음성인식시스템의 구성도를 나타낸 것으로, 본 발명의 음성인식 시스템은 시스템 제어부(102), 전처리부(104), 엔베스트 음성인식부(106), 엔베스트 발화검증부(108) 등을 포함한다.
이하, 도 1을 참조하여 음성인식 시스템 각 부에서의 동작을 상세히 설명하기로 한다.
먼저, 사용자(100)가 음성인식 기능이 탑재된 음성인식 시스템을 사용하여 음성을 입력하면 시스템 제어부(102)에서 이를 받아, 전처리부(104)에 전달한다. 전처리부(104)에서는 잡음 처리 및 음성구간 검출을 위한 끝점검출과 특징추출을 수행하여 엔베스트 음성인식부(106)에 전달하고, 엔베스트 음성인식부(106)는 문맥종속 음소 음향모델(26)을 참조하여 비터비 탐색을 통해 엔베스트 음성인식을 수행하고, 그 결과를 엔베스트 발화검증부(108)로 전달한다.
그러면, 엔베스트 발화검증부(108)는 음성인식된 결과에 대해 신뢰도 측정을 수행하게 되며, 이와 같은 신뢰도 측정을 위하여 반음소 모델(24)과 사전에 훈련 데이터로부터 구해진 음소별 혼동 확률값(28)을 이용한다. 즉, 엔베스트 발화검증부(108)는 LLR(Log Likelihood Ratio)기반의 신뢰도 측정을 수행하며, 이때 분류기로 SVM(Support Vector Machine)을 사용한다. 그리고, 인식된 결과의 유사도 측정을 위하여 동적 시간 와핑(DTW : Dynamic Time Warping)에 의한 유사도를 측정하여, 분류기의 결과와 유사도 결과를 비교한 후, 음성인식된 결과를 수락(110) 또는 거절(112) 할 것인지, 수락 또는 거절의 판단이 명확하지 않은 경우에는 사용자가 판단할 수 있도록 판단불가(114)를 표시하여 사용자가 판단할 수 있도록 한다.
도 2는 본 발명의 실시 예에 따른 엔베스트 발화검증의 신뢰도 측정을 위해 사용되는 모델 생성과정을 도시한 것으로, 입력으로 특징벡터(20)을 사용하여 문맥독립 음소 음향모델(22)을 생성하고, 문맥종속 음소 음향모델(26)이 생성된다. 훈련과정 중에 각각 생성되는 문맥독립 음소 음향모델(22)은 분류화 작업을 통해 반음소 모델(24)을 생성하여 신뢰도 측정에 사용한다. 문맥종속 음소 음향모델(26)은 도 1의 엔베스트 음성인식부(106)에서 사용한다. 반음소 모델(24)은 도 1의 엔베스트 발화검증부(108)에서 사용한다.
도 3a 내지 도 3b는 본 발명의 실시 예에 따른 엔베스트 발화검증을 위한 세부 처리 흐름도를 도시한 것이다. 이하, 도 1, 도 2 및 도 3a 내지 도 3b를 참조하여 본 발명의 실시 예를 상세히 설명하기로 한다.
먼저, 도 1의 엔베스트 음성인식부(106)에서 엔베스트 단어, 음소 수준 인식결과를 출력하면, 엔베스트 발화검증부(108)는 엔베스트 단어, 음소 인식 결과를 수신하고, 엔베스트 단어/음소 기반으로 발화검증을 시작한다(S300).
이어, 엔베스트 발화검증부(108)는 출력된 단어의 구간정보와 도 2의 과정에서 얻어진 문맥종속 음소 모델을 적용하여 단어를 구성하고 있는 음소별 우도값을 계산한다(S302).
이때, 문맥종속 음소에 대한 우도값은 아래의 [수학식 1]에서와 같이 산출된다.
문맥종속음소에 대한 우도값
Figure 112008088113519-PAT00001
즉, 위 [수학식 1]에서와 같이, 문맥종속 음소에 대한 우도값을 구하기 위해서는 현재 음소의 우도값에서 이 기저 음소가 갖는 평균값으로 뺀 후, 표준편차로 나누어 계산하게 된다.
이어, 엔베스트 발화검증부(108)는, 도 2과정에서 얻어진 반음소 모델(24)을 이용하여 반음소 모델에 대한 우도값을 계산한다(S304). 이때, 반음소 모델에 대한 우도값은 아래의 [수학식 2]에서와 같이 산출된다.
반음소 모델에 대한 우도값
Figure 112008088113519-PAT00002
즉, 위 [수학식 2]에서와 같이, 반음소 모델에 대한 우도값을 계산하기 위해서는 현재 음소에 대한 반음소 모델에 대한 우도값에서 현재 음소에 대한 반음소 모델에 대한 평균값을 뺀 후, 현재 음소에 대한 반음소 모델에 대한 표준편차로 나누어 계산하게 된다.
위와 같이, 문맥종속 음소에 대한 우도값과 반음소 모델에 대한 우도값 계산이 완료되면, 엔베스트 발화검증부(108)는 음소 수준 신뢰도 측정을 수행한다(S306).
영가설 모델에 대한
Figure 112008088113519-PAT00003
은 문맥종속 모델의 현재 음소의 확률값, 대립 가설 모델에 대한
Figure 112008088113519-PAT00004
의 확률값은 반음소 모델(24)을 사용한 확률값을 의미한다.
음소 i에 대해 프레임 길이로 정규화한 신뢰도 측정을 수식으로 표현하면 아래 [수학식 3]과 같고, 음소별 동적 확률값의 범위를 제한하기 위하여 [수학식 4]의 시그모이드 함수를 사용한다.
Figure 112008088113519-PAT00005
Figure 112008088113519-PAT00006
즉, 위 [수학식 3, 4]에서와 같이, 음소수준 신뢰도 측정은 문맥종속 음소에 대한 우도값에서 반음소 모델에 대한 우도값을 뺀 후, 해당 음소가 갖는 프레임수로 나누어 계산한 후, 시그모이드 함수를 취해 사용한다.
이와 같이, 음소 수준의 신뢰도 값이 구해지면, 엔베스트 발화검증부(108)는 단어수준 신뢰도 측정을 수행한다(S308).
이때, 단어수준 신뢰도 측정은 아래의 [수학식 5]에서와 같이 산출된다.
단어수준 신뢰도
Figure 112008088113519-PAT00007
즉, 위 [수학식 5]에서와 같이, 단어수준 신뢰도 측정은 반음소 모델에 대한 우도값을 단어가 갖는 음소의 수로 나누어 산출된 값을 문맥 종속에 대한 우도값에서 감산하여 산출하게 된다.
위, 단어수준 신뢰도 측정을 수식으로 표현하면 아래의 [수학식 6]과 같다. [수학식 6]에서 N은 단어를 구성하고 있는 음소의 수를 의미한다.
Figure 112008088113519-PAT00008
위와 같이, 단어수준 신뢰도 측정이 완료되면, 엔베스트 발화검증부(108)는 분류기를 사용하거나, 특정 신뢰도 값을 사용하여 임계치를 각각 설정하고, 구해진 신뢰도 값과 임계치 값을 비교한다(S310).
단어수준 신뢰도 값이 임계치 값보다 크면 해당 단어는 수락의 의미로 참값을 저장하고(S312), 임계치 값보다 작으면 거절의 의미로 거짓값을 저장한 다(S314). 이때, 분류기의 입력으로 사용되는 신뢰도 측정 파라미터는 다음의 [표 1]에 정리된 특징이 사용된다.
[표 1]
Figure 112008088113519-PAT00009
즉, 위와 같은 [표 1]의 신뢰도 측정 파라미터를 사용하여 SVM 훈련을 하고, 훈련된 모델을 사용하여 신뢰도 값과 임계치 값을 비교한다. 단어수준 신뢰도 값이 임계치보다 크면 수락의 의미로 참이란 정보를 저장하고(S312), 신뢰도 값이 임계치보다 작으면 거절의 의미로 거짓이란 정보를 저장한다(S314).
이어, 엔베스트 발화검증부(108)는 분류기를 통해 결정된 값을 저장하는 것과는 별도로, 엔베스트 인식결과에 대해 음소간 유사도를 계산하고(S316), 아래의 [수학식 6]에서와 같이 유사도 평균을 계산한다(S318).
유사도 평균
Figure 112008088113519-PAT00010
즉, 위 [수학식 7]에서와 같이 유사도 계산을 위해서는 [도 1]의 음소별 혼동확률값(20)을 비용(cost)으로 사용하여 엔베스트 인식결과 각각에 대한 유사도(distance)를 구하여, 유사도 합을 구한 후, 엔베스트 인식결과의 유사도 합을 엔베스트 수로 나누어 구한다.
이어, 엔베스트 발화검증부(108)는 해당 단어에 대한 유사도와 엔베스트 단어 유사도 평균값을 비교하여(S320), 해당 단어 유사도가 평균 유사도보다 작으면 수락 정보를 저장하고(S322), 해당 단어 유사도가 평균 유사도보다 크면 거절 정보를 저장한다(S324).
그런 후, 엔베스트 발화검증부(108)는 위와 같이 분류기를 사용하여 결정된 정보와 유사도에 의해 결정된 정보를 결합하여 비교판단을 수행한다(S326).
이때 만일, 신뢰도 값이 수락이고, 유사도 값도 수락이면 해당 음성 인식된 단어를 수락하고(S328), 신뢰도 값이 거절이고, 유사도도 거절이면 해당 음성 인식된 단어를 거절로 판단한다(S330). 그렇지 않고, 신뢰도 값이 거절이고, 유사도는 수락이거나, 신뢰도 값이 수락이고, 유사도가 거절이면 해당 음성 인식된 단어에 대해서는 판단불가로 판단하도록 하여(S332) 사용자 동작을 기다린다(S334).
상기한 바와 같이, 본 발명에서는 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치에 있어서, 엔베스트 음성인식을 통해 단어수준에서 인식된 결과에 대해 엔베스트 발화검증을 통해서 신뢰도를 측정하고, 동적 시간 와핑에 의한 음소간 유사도를 측정하여 신뢰도와 유사도를 기반으로 음성인식의 수락/거절 또는 판단불가 등을 표시함으로써 보다 신뢰성 높은 음성인식이 가능하도록 한다.
한편 상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여져야 한다.
도 1은 본 발명의 실시 예에 따른 고립어 엔베스트 인식결과를 위한 발화검증 장치의 블록 구성도,
도 2는 본 발명의 실시 예에 따른 모델생성 과정 예시도,
도 3a 내지 도 3b는 본 발명의 실시 예에 따른 고립어 엔베스트 인식결과를 위한 발화검증 처리 흐름도.
<도면의 주요 부호에 대한 간략한 설명>
102 : 시스템 제어부 104 : 전처리부
106 : 엔베스트 음성인식부 108 : 엔베스트 발화검증부
26 : 문맥종속 음소음향 모델 24 : 반음소 모델
28 : 음소별 혼동확률값

Claims (18)

  1. 고립어 엔베스트 인식결과를 위한 발화검증 방법으로서,
    입력된 음성에 대해 엔베스트 음성 인식 결과를 기반으로 문맥종속 음소와 반음소 모델에 대한 우도값을 산출하는 단계와,
    상기 우도값을 이용하여 엔베스트 음성 인식된 단어의 신뢰도를 측정하는 단계와,
    상기 엔베스트 음성 인식된 단어에 대해 음소간 유사도를 산출하는 단계와,
    상기 신뢰도를 임계치와 비교하고, 상기 유사도를 유사도 평균과 비교하는 단계와,
    상기 신뢰도와 유사도 비교 결과가 모두 수락인 경우 상기 엔베스트 음성 인식된 단어를 수락하는 단계
    포함하는 고립어 엔베스트 인식결과를 위한 발화검증 방법.
  2. 제 1 항에 있어서,
    상기 비교단계는, 상기 신뢰도가 상기 임계치보다 크면 상기 엔베스트 음성 인식된 단어를 결과로 수락하는 단계와,
    상기 신뢰도가 상기 임계치보다 작으면 상기 엔베스트 음성 인식된 단어를 결과로 거절하는 단계와,
    상기 유사도가 상기 유사도 평균보다 작으면 상기 엔베스트 음성 인식된 단어를 결과로 수락하는 단계와,
    상기 유사도가 상기 유사도 평균보다 크면 상기 엔베스트 음성 인식된 단어를 결과로 거절하는 단계
    를 포함하는 고립어 엔베스트 인식결과를 위한 발화검증 방법.
  3. 제 1 항에 있어서,
    상기 방법은,
    상기 신뢰도와 유사도 비교 결과가 모두 거절인 경우 상기 엔베스트 인식된 단어를 거절하는 단계
    를 더 포함하는 고립어 엔베스트 인식결과를 위한 발화검증 방법.
  4. 제 1 항에 있어서,
    상기 방법은,
    상기 신뢰도와 유사도 비교 결과 중 어느 하나가 수락이고, 다른 하나가 거절인 경우 상기 엔베스트 음성 인식된 단어에 대한 판단 불가를 결정하는 단계
    를 더 포함하는 고립어 엔베스트 인식결과를 위한 발화검증 방법.
  5. 제 1 항에 있어서,
    상기 문맥종속 음소에 대한 우도값은,
    아래의 [수학식]에서와 같이 계산되는 고립어 엔베스트 인식결과를 위한 발화검증 방법.
    [수학식]
    문맥종속 음소에 대한 우도값
    Figure 112009014267070-PAT00015
  6. 제 1 항에 있어서,
    상기 반음소 모델에 대한 우도값은,
    아래의 [수학식]에서와 같이 계산되는 고립어 엔베스트 인식결과를 위한 발화검증 방법.
    [수학식]
    반음소 모델에 대한 우도값
    Figure 112009014267070-PAT00016
  7. 제 1 항에 있어서,
    상기 엔베스트 음성 인식된 단어의 신뢰도는,
    아래의 [수학식]에서와 같이 계산되는 고립어 엔베스트 인식결과를 위한 발화검증 방법.
    [수학식]
    단어수준 신뢰도
    Figure 112009014267070-PAT00017
  8. 제 1 항에 있어서,
    상기 유사도 평균은,
    아래의 [수학식]에서와 같이 계산되는 고립어 엔베스트 인식결과를 위한 발화검증 방법.
    [수학식]
    유사도 평균
    Figure 112009014267070-PAT00018
  9. 제 1 항에 있어서,
    상기 엔베스트 음성 인식은,
    입력된 음성의 특징벡터로부터 추출된 문맥종속 음소 모델을 참조하여 비터비 탐색을 통해 수행되는 고립어 엔베스트 인식결과를 위한 발화검증 방법.
  10. 고립어 엔베스트 인식결과를 위한 발화검증 장치로서,
    입력된 음성의 특징벡터를 추출하고, 끝점검출을 수행하는 전처리부와,
    상기 특징벡터로부터 추출되는 문맥종속 음소 모델을 참조하여 비터비 탐색을 통해 엔베스트 음성인식을 수행하는 엔베스트 음성인식부와,
    상기 엔베스트 음성인식된 단어에 대해 문맥종속 음소와 반음소 모델에 대한 우도값을 계산하며, 상기 단어에 대해 측정한 신뢰도를 임계치와 비교하고, 상기 단어에 대해 측정한 유사도를 유사도 평균과 비교한 후, 상기 신뢰도와 유사도 비교결과가 모두 수락인 경우 상기 엔베스트 음성 인식된 단어를 수락하는 엔베스트 발화검증부
    를 포함하는 고립어 엔베스트 인식결과를 위한 발화검증 장치.
  11. 제 10 항에 있어서,
    상기 엔베스트 발화검증부는,
    상기 신뢰도가 상기 임계치보다 크면 상기 엔베스트 음성 인식된 단어를 결과로 수락하고, 상기 임계치보다 작으면 상기 엔베스트 음성 인식된 단어를 결과로 거절하는 고립어 엔베스트 인식결과를 위한 발화검증 장치.
  12. 제 10 항에 있어서,
    상기 엔베스트 발화검증부는,
    상기 유사도가 상기 유사도 평균보다 작으면 상기 엔베스트 음성 인식된 단어를 결과로 수락하고, 상기 유사도 평균보다 크면 상기 엔베스트 음성 인식된 단어를 결과로 거절하는 고립어 엔베스트 인식결과를 위한 발화검증 장치.
  13. 제 10 항에 있어서,
    상기 엔베스트 발화검증부는,
    상기 신뢰도와 유사도 비교 결과가 모두 거절인 경우 상기 엔베스트 인식된 단어를 거절하는 고립어 엔베스트 인식결과를 위한 발화검증 장치.
  14. 제 13 항에 있어서,
    상기 엔베스트 발화검증부는,
    상기 신뢰도와 유사도 비교 결과 중 어느 하나가 수락이고, 다른 하나가 거절인 경우 상기 엔베스트 음성 인식된 단어에 대한 판단 불가를 결정하는 고립어 엔베스트 인식결과를 위한 발화검증 장치.
  15. 제 10 항에 있어서,
    상기 문맥종속 음소에 대한 우도값은,
    아래의 [수학식]에서와 같이 계산되는 고립어 엔베스트 인식결과를 위한 발화검증 장치.
    [수학식]
    문맥종속 음소에 대한 우도값
    Figure 112009014267070-PAT00019
  16. 제 10 항에 있어서,
    상기 반음소 모델에 대한 우도값은,
    아래의 [수학식]에서와 같이 계산되는 고립어 엔베스트 인식결과를 위한 발화검증 장치.
    [수학식]
    반음소 모델에 대한 우도값
    Figure 112009014267070-PAT00020
  17. 제 10 항에 있어서,
    상기 엔베스트 음성 인식된 단어의 신뢰도는,
    아래의 [수학식]에서와 같이 계산되는 고립어 엔베스트 인식결과를 위한 발화검증 장치.
    [수학식]
    단어수준 신뢰도
    Figure 112009014267070-PAT00021
  18. 상기 유사도 평균은,
    아래의 [수학식]에서와 같이 계산되는 고립어 엔베스트 인식결과를 위한 발화검증 장치.
    [수학식]
    유사도 평균
    Figure 112009014267070-PAT00022
KR1020080131755A 2008-12-22 2008-12-22 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치 KR101217524B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080131755A KR101217524B1 (ko) 2008-12-22 2008-12-22 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
US12/535,024 US8374869B2 (en) 2008-12-22 2009-08-04 Utterance verification method and apparatus for isolated word N-best recognition result

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080131755A KR101217524B1 (ko) 2008-12-22 2008-12-22 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20100073161A true KR20100073161A (ko) 2010-07-01
KR101217524B1 KR101217524B1 (ko) 2013-01-18

Family

ID=42267360

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080131755A KR101217524B1 (ko) 2008-12-22 2008-12-22 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치

Country Status (2)

Country Link
US (1) US8374869B2 (ko)
KR (1) KR101217524B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170083391A (ko) * 2016-01-08 2017-07-18 한국전자통신연구원 음성 인식 시스템에서의 발화 검증 장치 및 그 방법
KR20180117942A (ko) * 2017-04-20 2018-10-30 한국전자통신연구원 심층신경망 기반 음성 인식 시스템을 위한 발화 검증 방법

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8838449B2 (en) * 2010-12-23 2014-09-16 Microsoft Corporation Word-dependent language model
KR20130014893A (ko) * 2011-08-01 2013-02-12 한국전자통신연구원 음성 인식 장치 및 방법
US8700398B2 (en) * 2011-11-29 2014-04-15 Nuance Communications, Inc. Interface for setting confidence thresholds for automatic speech recognition and call steering applications
TWI475558B (zh) * 2012-11-08 2015-03-01 Ind Tech Res Inst 詞語驗證的方法及裝置
US9159319B1 (en) * 2012-12-03 2015-10-13 Amazon Technologies, Inc. Keyword spotting with competitor models
US9123340B2 (en) 2013-03-01 2015-09-01 Google Inc. Detecting the end of a user question
CN104103280B (zh) * 2014-07-15 2017-06-06 无锡中感微电子股份有限公司 基于动态时间归整算法的离线语音端点检测的方法和装置
CN105513588B (zh) * 2014-09-22 2019-06-25 联想(北京)有限公司 一种信息处理方法及电子设备
KR102450853B1 (ko) * 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법
CN105632495B (zh) * 2015-12-30 2019-07-05 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10403268B2 (en) * 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
US10540963B2 (en) * 2017-02-02 2020-01-21 International Business Machines Corporation Input generation for classifier
CN107799114A (zh) * 2017-04-26 2018-03-13 珠海智牧互联科技有限公司 一种猪只咳嗽声音识别方法及系统
CN107302474B (zh) * 2017-07-04 2020-02-04 四川无声信息技术有限公司 网络数据应用的特征提取方法及装置
US11182557B2 (en) * 2018-11-05 2021-11-23 International Business Machines Corporation Driving intent expansion via anomaly detection in a modular conversational system
US10891940B1 (en) 2018-12-13 2021-01-12 Noble Systems Corporation Optimization of speech analytics system recognition thresholds for target word identification in a contact center
CN113362827B (zh) * 2021-06-24 2024-02-13 上海风和雨网络科技有限公司 语音识别方法、装置、计算机设备及存储介质

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
JPH04182000A (ja) * 1990-11-16 1992-06-29 A T R Jido Honyaku Denwa Kenkyusho:Kk 連続音声認識装置
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
DE59705581D1 (de) * 1996-09-10 2002-01-10 Siemens Ag Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
US6125345A (en) * 1997-09-19 2000-09-26 At&T Corporation Method and apparatus for discriminative utterance verification using multiple confidence measures
JP3854713B2 (ja) * 1998-03-10 2006-12-06 キヤノン株式会社 音声合成方法および装置および記憶媒体
US6223155B1 (en) * 1998-08-14 2001-04-24 Conexant Systems, Inc. Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system
KR100298177B1 (ko) 1998-10-14 2001-08-07 이계철 음성인식시스템에서의반음소모델구축방법및그를이용한발화검증방법
US6571210B2 (en) * 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
US7761296B1 (en) * 1999-04-02 2010-07-20 International Business Machines Corporation System and method for rescoring N-best hypotheses of an automatic speech recognition system
US6539353B1 (en) * 1999-10-12 2003-03-25 Microsoft Corporation Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition
US6850886B2 (en) 1999-10-21 2005-02-01 Sony Corporation System and method for speech verification using an efficient confidence measure
US20060074664A1 (en) 2000-01-10 2006-04-06 Lam Kwok L System and method for utterance verification of chinese long and short keywords
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
KR100883650B1 (ko) 2002-04-17 2009-02-18 삼성전자주식회사 정규화 상태 라이크리후드를 이용한 음성인식방법 및 그장치
EP1378886A1 (en) * 2002-07-02 2004-01-07 Ubicall Communications en abrégé "UbiCall" S.A. Speech recognition device
WO2004047076A1 (ja) * 2002-11-21 2004-06-03 Matsushita Electric Industrial Co., Ltd. 標準モデル作成装置及び標準モデル作成方法
US7340396B2 (en) * 2003-02-18 2008-03-04 Motorola, Inc. Method and apparatus for providing a speaker adapted speech recognition model set
KR20060098673A (ko) * 2005-03-03 2006-09-19 삼성전자주식회사 음성 인식 방법 및 장치
KR100679044B1 (ko) * 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
KR100664960B1 (ko) 2005-10-06 2007-01-04 삼성전자주식회사 음성 인식 장치 및 방법
CN1963917A (zh) * 2005-11-11 2007-05-16 株式会社东芝 评价语音的分辨力、说话人认证的注册和验证方法及装置
KR100819848B1 (ko) * 2005-12-08 2008-04-08 한국전자통신연구원 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
KR100845428B1 (ko) * 2006-08-25 2008-07-10 한국전자통신연구원 휴대용 단말기의 음성 인식 시스템
TW200926140A (en) * 2007-12-11 2009-06-16 Inst Information Industry Method and system of generating and detecting confusion phones of pronunciation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170083391A (ko) * 2016-01-08 2017-07-18 한국전자통신연구원 음성 인식 시스템에서의 발화 검증 장치 및 그 방법
KR20180117942A (ko) * 2017-04-20 2018-10-30 한국전자통신연구원 심층신경망 기반 음성 인식 시스템을 위한 발화 검증 방법

Also Published As

Publication number Publication date
KR101217524B1 (ko) 2013-01-18
US20100161334A1 (en) 2010-06-24
US8374869B2 (en) 2013-02-12

Similar Documents

Publication Publication Date Title
KR101217524B1 (ko) 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
US11393476B2 (en) Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US10403268B2 (en) Method and system of automatic speech recognition using posterior confidence scores
US9147400B2 (en) Method and apparatus for generating speaker-specific spoken passwords
CN111640456B (zh) 叠音检测方法、装置和设备
US9564134B2 (en) Method and apparatus for speaker-calibrated speaker detection
CN107886968B (zh) 语音评测方法及系统
JP2013205842A (ja) プロミネンスを使用した音声対話システム
KR101317339B1 (ko) 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법
JP2005227686A (ja) 音声認識装置、音声認識プログラムおよび記録媒体。
CN112309406A (zh) 声纹注册方法、装置和计算机可读存储介质
Santoso et al. Speech emotion recognition based on self-attention weight correction for acoustic and text features
US20200279570A1 (en) Speaker determination apparatus, speaker determination method, and control program for speaker determination apparatus
JP2014182270A (ja) 情報処理装置及び方法
JP2008145989A (ja) 音声識別装置および音声識別方法
KR20090055320A (ko) 혼동 행렬 기반 발화 검증 방법 및 장치
KR101066472B1 (ko) 초성 기반 음성인식장치 및 음성인식방법
KR20100073160A (ko) 음성인식 시스템의 발화검증 방법 및 장치
JP6675683B2 (ja) 言語判断装置、音声認識装置、言語判断方法、およびプログラム
JP2006313261A (ja) 音声認識装置並びに音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
KR101752709B1 (ko) 음성인식시스템에서 발화검증 방법 및 그 음성인식시스템
CN112992184B (zh) 一种发音评测方法、装置、电子设备和存储介质
JPH11249688A (ja) 音声認識装置およびその方法
WO2016009634A1 (ja) 会話分析システム、会話分析方法および会話分析プログラムが記録された記憶媒体
JP7446900B2 (ja) 対話装置、対話システム及び対話方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
LAPS Lapse due to unpaid annual fee