KR101229108B1 - 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 - Google Patents

단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 Download PDF

Info

Publication number
KR101229108B1
KR101229108B1 KR1020090128386A KR20090128386A KR101229108B1 KR 101229108 B1 KR101229108 B1 KR 101229108B1 KR 1020090128386 A KR1020090128386 A KR 1020090128386A KR 20090128386 A KR20090128386 A KR 20090128386A KR 101229108 B1 KR101229108 B1 KR 101229108B1
Authority
KR
South Korea
Prior art keywords
word
phoneme
likelihood
log
threshold
Prior art date
Application number
KR1020090128386A
Other languages
English (en)
Other versions
KR20110071742A (ko
Inventor
정훈
이윤근
박전규
강점자
이성주
박기영
전형배
김종진
왕지현
정의석
강병옥
정호영
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090128386A priority Critical patent/KR101229108B1/ko
Publication of KR20110071742A publication Critical patent/KR20110071742A/ko
Application granted granted Critical
Publication of KR101229108B1 publication Critical patent/KR101229108B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법에 관한 것으로, 음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 상기 단어에 대한 반음소를 갖는 반단어로부터 해당 단어의 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 음소 세그먼트 정보 추출기, 추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 우도값 계산기, 상기 음소와 상기 반음소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 문턱값 계산기, 및 상기 문턱값과 상기 우도값 계산기에 의해 산출된 로그-우도 비율을 비교하여, 그 결과에 따라 음성 인식 결과를 출력하거나 차단하는 비교기를 포함한다. 본 발명에 따르면, 음성인식 결과에 대한 단어 기반의 발화 검증 시스템에서 인식되는 단어별로 서로 다른 신뢰도 문턱값을 적용함으로써 안정적인 발화 검증 성능을 얻는 효과가 있다.

Description

단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법{Apparatus for utterance verification based on word specific confidence threshold}
본 발명은 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법에 관한 것으로, 특히 단어의 특성을 고려하여 단어별로 서로 다른 신뢰도 문턱값을 설정하여 발화 검증을 수행하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법에 관한 것이다.
본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-04, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
음성인식이란 기계로 하여금 인간의 일상적인 음성을 이해하고 이해된 음성에 따라 업무를 수행하는 것을 말한다.
음성인식(Speech recognition)의 기술은 컴퓨터와 정보통신의 발달로 인간이 직접 움직이지 않고 원거리에서도 정보를 손쉽게 얻을 수 있으며, 음성에 따라 작동하는 시스템으로 이루어진 기기들의 개발로 이어지고 있다.
이러한 음성 인식 기술을 바탕으로 다양한 음성인식 응용 분야가 개발되고 있으며, 그 중에 하나는 발성과 함께 발성된 언어에 따라 원하는 정보를 안내하는 시스템에 있다.
이러한, 음성인식 시스템은 발화된 음성에 대한 인식 성능이 100%가 되지 못하기 때문에, 사용자는 오인식의 결과로 인해 불편을 겪을 수 있다.
이를 방지하기 위해 발화검증 단계를 두어 인식 신뢰도가 낮은 결과는 출력하지 않음으로써 오인식으로 인한 불편함을 줄인다.
발화검증은, 음성인식시스템에서 인식된 결과의 신뢰도를 측정하여 출력을 허용할지 거부할지를 결정하는 후처리 기술이다.
즉, 발화검증단계에서는 음성인식 결과의 신뢰도를 평가하여 신뢰도(Confidence)가 임계값(Threshold)보다 낮은 결과에 대해서는 인식결과를 거절하고, 신뢰도가 임계값 보다 높은 인식결과에 대해서는 음성인식 시스템의 출력으로 보내게 되는 것이다.
현재 가장 널리 사용되는 발화 검증 기술 중의 하나가 LRT(Likelihood Ratio Test)에 기반한 방식이다.
LRT 기반의 발화 검증에서는 인식된 단어의 신뢰도 값을 인식된 단어와 그의 반대 개념인 반단어(Anti-word) 간의 우도비(Likelihood ratio)로 정의하고, 이 우도비가 기 설정된 신뢰도 문턱값을 넘어선 경우에는 출력을 허용하고 그렇지 않은 경우에는 거절하는 방식이다.
기존 LRT에 기반한 방식에서는 이 신뢰도 문턱값이 인식 단어에 무관하게 고정된 값을 사용하였다.
그러나, 단어들은 서로 다른 음향학적 특성을 지니는 음소로 구성되어 있으므로, 단어가 어떤 음소로 구성되느냐에 따라 인식 결과의 우도비 혹은 신뢰도가 서로 다른 분포를 가질 수 있다.
따라서, 단어별 특성을 고려하지 않고 일괄적으로 고정된 신뢰도 문턱값을 사용하는 기존의 방식에서는 인식된 단어에 따라 발화 검증 성능의 편차가 발생할 수가 있다.
상기한 문제를 해결하기 위하여, 본 발명은 단어 간 서로 다른 음향학적인 특성을 고려하여 단어별로 서로 다른 신뢰도 문턱값을 정의하도록 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법을 제공함에 그 목적이 있다.
상기한 목적을 달성하기 위한 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치는, 음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 반단어에 대응하는 각각의 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 음소 세그먼트 정보 추출기, 추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 우도값 계산기, 상기 음소와 상기 반음소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 문턱값 계산기, 및 상기 문턱값과 상기 우도값 계산기에 의해 산출된 로그-우도 비율을 비교하여, 그 결과에 따라 음성 인식 결과를 출력하거나 차단하는 비교기를 포함하는 것을 특징으로 한다.
상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 계산하여 각 확률 분포값에 대한 함수로 모델링하는 우도값 분포 계산기를 더 포함하는 것을 특징으로 한다.
상기 우도값 분포 계산기는, 상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 정규분포함수로 정의하는 것을 특징으로 한다.
상기 문턱값 계산기는, 상기 음소와 상기 반음소에 대한 각 확률 분포값을 적용하여 상기 문턱값을 계산하는 것을 특징으로 한다.
상기 문턱값 계산기는, 정인식된 단어를 거절할 때 발생하는 오류율과, 오인식된 단어를 허용 시 발생하는 오류율이 같아지는 임의의 수를 문턱값으로 정의하는 것을 특징으로 한다.
상기 비교기는, 상기 인식된 단어의 로그-우도 비율이 상기 문턱값 보다 큰 경우 상기 음성인식결과의 출력을 허용하고, 그렇지 않은 경우에는 상기 음성인식결과의 출력을 차단하는 것을 특징으로 한다.
인식 대상 단어에 대해 다양한 사용자가 발성한 음성이 저장되는 음성 DB를 더 포함하는 것을 특징으로 한다.
입력된 음성으로부터 소정의 단어를 인식하는 단어 인식기를 더 포함하며, 상기 단어 인식기는, 상기 음성 DB를 탐색하여 상기 입력된 음성에 대응하는 단어를 추출하는 것을 특징으로 한다.
한편, 상기한 목적을 달성하기 위한 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 방법은, 음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 상기 단어에 대한 반단어로부터 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 단계, 추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 단계, 상기 음소와 상기 반음 소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 단계, 및 상기 문턱값과 상기 우도값 계산기에 의해 산출된 로그-우도 비율을 비교하여, 상기 인식된 단어의 로그-우도 비율이 상기 문턱값 보다 큰 경우 상기 음성인식결과의 출력을 허용하고, 그렇지 않은 경우에는 상기 음성인식결과의 출력을 차단하는 단계를 포함하는 것을 특징으로 한다.
상기 로그-우도 비율을 계산하는 단계에서 계산된 상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 계산하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명에 따르면, 음성인식 결과에 대한 단어 기반의 발화 검증 시스템에서 인식되는 단어별로 서로 다른 신뢰도 문턱값을 적용함으로써 안정적인 발화 검증 성능을 얻는 효과가 있다.
또한, 본 발명은 은닉 마코프 모델을 사용하는 음성 인식 장치에서 LRT 기반의 발화 검증 시스템의 성능을 향상시키는 이점이 있다.
본 발명은 은닉 마코프 모델을 사용하는 음성 인식 장치에서 LRT 기반의 발화 검증 시스템의 성능을 향상시키고자 한 것으로, 본 발명에서는 단어의 특성을 고려하여 단어별로 서로 다른 신뢰도 문턱값을 설정하는 장치 및 방법을 제시하고 자 한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예를 설명한다.
먼저, 도 1은 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치의 구성을 설명하는데 참조되는 블록도이다.
도 1을 참조하면, 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치는 단어 인식기(110), 음성 DB(120), 음소 세그먼트 정보 추출기(130), 음소별 우도값 계산기(140), 반음소별 우도값 계산기(150), 우도값 분포 계산기(160), 및 문턱값 계산기(170)를 포함한다.
음성 DB(120)에는 인식 대상 단어에 대해 다양한 사용자들이 발성한 음성 데이터가 저장된다.
단어 인식기(110)는 음성 DB(120)로 부터 해당 단어를 인식한다.
음소 세그먼트 정보 추출기(130)는 단어 인식기(110)에 의해 인식된 단어인 'W'를 분석하여, 해당 단어 W를 구성하는 음소들에 대한 세그먼트 정보를 추출한다.
또한, 음소 세그먼트 정보 추출기(130)는 음성 인식기에 의해 인식된 단어 W 외에, 해당 단어 W의 반대 개념인 반단어(Anti-word) 'A'에 대한 음소 세그먼트 정보를 함께 추출한다. 이때, 반단어 'A'에 대하여 음소 세그먼트 정보 추출기(130)에 의해 추출된 음소는 해당 단어 W로부터 추출된 음소의 반대 개념이므로, 반음소(Anti-phone)라 한다.
음소별 우도값 계산기(140)는 음소 세그먼트 정보 추출기(130)에 의해 추출된 음소들에 대한 우도값(likelihood)을 계산한다.
여기서, 우도값이라 함은, 어떤 가설 H에 대한 어떤 시행의 결과 E(Evidence)가 주어졌을 때, 만일 주어진 가설 H가 참이라면, 그에 대한 결과 E가 나올 정도는 얼마나 되는지를 나타내는 값이다.
이때, 음소별 우도값 계산기(140)는 앞서 계산된 음소들에 대한 우도값에 로그를 취한 후 더 하여 단어 W에 대한 로그-우도(Log-Likelihood, LLW) 값을 계산한다.
한편, 반음소별 우도값 계산기(150)는 음소 세그먼트 정보 추출기(130)에 의해 추출된 반음소들에 대한 우도값(likelihood)을 계산하고, 로그를 취하여 반단어 A에 대한 로그-우도(Log-Likelihood, LLA) 값을 계산한다.
한편, 기호 '180'에서는 단어 W에 대한 로그-우도와 반단어 A에 대한 로그-우도간의 차이를 구함으로써 단어 W와 반단어 A에 대한 로그-우도비(log-likelihood ratio)를 구하게 된다.
은닉 마코프 모델을 사용하는 음성 인식 장치에서 LRT 기반의 발화 검증 시스템은 입력된 음성 신호에 대해 인식된 결과의 신뢰도를 측정하여 인식 결과의 출 력 여부를 결정한다. 이는, [수학식 1]과 같이 기술된다.
Figure 112009079095744-pat00001
[수학식 1]에서 WLLR(O;W)는 입력된 음성 신호 O에 대응하는 인식 결과 W에 대한 단어-레벨 로그 우도비(Word-level Log-Likelihood Ratio, WLLR)로, 인식 결과 W와 반 단어간 A간의 로그 우도비(Log-Likelihood Ratio, LLR)가 된다.
여기서, r은 인식된 결과의 출력을 허용할지 여부를 결정하는 문턱값을 의미한다.
한편, 단어 W를 구성하는 음소열 (ph1, ph2, ..., phN)의 i번째 음소 phi에 대응하는 반음소는 ai가 된다. 이때, 반음소 ai를 phi의 반 음소 모델이라 한다.
우도값 분포 계산기(160)는 parametric 모델을 이용해 fW(x)와 fA(x)를 모델링한다. 이때, 우도값 분포 계산기(160)는 단어 W를 구성하는 음소열 (ph1, ph2, ..., phN) 중 i번째 음소 phi와, 반음소 ai에 대한 로그-우도값을 각각 독립적인 랜덤 변수 Pi와 Ai로 정의한다. 이를 식으로 나타내면 [수학식 2]와 같다.
Figure 112009079095744-pat00002
이때, Pi와 Ai의 분포는 정규 분포 모양을 가지므로(도 3 참조), 아래의 [수학식 3]과 같이 정규분포 함수로 모델링한다.
Figure 112009079095744-pat00003
[수학식 3]에서 μ는 평균이며, σ2은 분산이다.
우도값 분포 계산기(160)는 앞서 정의된 [수학식 2] 및 [수학식 3]을 이용하여 단어 W에 대한 로그-우도값에 대한 확률분포함수 fW(x)와, 반단어 A의 로그-우도값에 대한 확률분포함수 fA(x)를 정의한다.
단어 W와 반단어 A는 각각 음소 ph1, ph2, ..., phN과 반음소 a1, a2, ..., aN으로 구성되어 있으므로 [수학식 4]와 같이 W와 A를 구성하는 각 음소에 해당하는 랜덤 변수들인 Pi와 Ai의 합으로 표현된다.
Figure 112009079095744-pat00004
따라서, 단어 W와 반단어 A의 확률분포함수는 [수학식 5]와 같은 정규분포함수로 정의된다.
Figure 112009079095744-pat00005
한편, 문턱값 계산기(170)는 음성인식 결과의 출력을 허용할지, 또는 거부할지를 결정하기 위한 문턱값을 계산한다. 문턱값 계산기(170)에 의해 계산된 문턱값은 음성 인식된 단어와 그의 반단어에 대한 로그-우도값에 따라 달라지게 된다.
일반적으로 발화 검증 시스템의 성능을 측정하는 단위로는 ERR(Equal Error Rate)이 사용된다. ERR이란, 정인식된 단어를 거절할 때 발생하는 오류율인 FRR(False Rejection Rate)과, 오인식된 단어를 허용시 발생하는 오류율인 FAR(False Acceptance Rate)이 동일하도록 신뢰도 문턱값을 조정했을 때의 성능을 의미한다.
만일, 우도값 분포 계산기(160)로부터 단어 W의 로그-우도값에 대한 확률분포함수 fW(x)가 주어지면, 단어 W의 FRRW(r)은 [수학식 6]과 같이 정의할 수 있다.
Figure 112009079095744-pat00006
또한, 우도값 분포 계산기(160)로부터 반단어 A의 로그-우도값에 대한 확률분포함수 fA(x)가 주어지면, 반단어 A의 FARA(r)은 [수학식 7]과 같이 정의할 수 있다.
Figure 112009079095744-pat00007
따라서, 단어 W에 대한 FRRW(r)과 반단어 A에 대한 FARA(r)이 같은 오류를 가지는 EER의 경우, 최적의 신뢰도 문턱값은 [수학식 8]을 만족하는 r이 된다.
Figure 112009079095744-pat00008
즉, [수학식 5]의 단어 W와 반단어 A의 확률분포함수 fW(x)와 fA(x)를 [수학식 8]에 적용하면, 다음과 같은 [수학식 9]가 얻어진다.
Figure 112009079095744-pat00009
이때, [수학식 9]를 만족하는 단어 W의 문턱값 r은 [수학식 10]과 같이 정의할 수 있다.
Figure 112009079095744-pat00010
문턱값 계산기(170)에 의해 출력된 문턱값 r은 비교기(190)로 인가되어, WLLR에 대한 비교값이 된다.
여기서, WLLR은 입력된 음성 신호로부터 인식된 단어 W에 대한 Word-level Log-Likelihood Ratio로, 인식된 단어 W와 반단어 A 간의 로그-우도 비율을 나타낸다.
이때, 비교기(190)는 WLLR과 문턱값 r을 비교하여 WLLR>r을 만족하면, 음성인식 결과의 출력을 허용하고, 그렇지 않으면 음성인식 결과의 출력을 거절한다.
한편, 도 2는 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치에서 음소 및 반음소에 대한 log-likelihood 확률 분포 모델링 과정을 나타낸 것이다.
도 2를 참조하면, 단어 인식기(110)는 먼저 음성 DB(120)로 부터 단어를 인식하고(210), 음소 세그먼트 정보 추출기(130)는 단어 인식기(110)에 의해 인식된 음소 세그먼트 정보를 추출한다(220).
이때, 음소별 우도값 계산기(140)는 음소별 로그 우도값을 추출하고(230), 우도값 분포 계산기(160)는 음소별 우도값 계산기(140)에 의해 추출된 음소별 로그 우도값을 이용하여 로그 우도값 분포 모델(Pi)을 생성한다(240).
한편, 반음소별 우도값 계산기(150)는 반음소별 로그 우도값을 추출하고(250), 우도값 분포 계산기(160)는 마찬가지로, 반음소별 우도값 계산기(150)에 의해 추출된 반음소별 로그 우도값을 이용하여 로그 우도값 분포 모델(Ai)을 생성한다(260).
이후, 우도 분포값 계산기에 의해 생성된 로드 우도값 분포 모델 Pi, Ai은 음성인식결과의 출력을 결정하는 문턱값을 계산하는데 적용된다.
도 3은 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치에서 확률분포함수를 구하는데 적용되는 예를 나타낸 것으로서, 특히 음소 phi와, 반음소 ai에 대한 로그-우도값의 분포도를 나타낸 것이다.
도 3에 도시된 바와 같이, 일반적으로 산출되는 음소 phi와, 반음소 ai에 대한 로그-우도값 Pi와 Ai의 분포는 정규 분포 모양을 가진다.
따라서, 우도값 분포 계산기(160)는 음소 phi와, 반음소 ai에 대한 로그-우도값 Pi와 Ai에 대한 정규분포함수를 정의하고, 문턱값 계산기(170)는 로그-우도값 Pi와 Ai에 대한 정규분포함수를 이용하여 문턱값을 계산한다.
상기와 같이 구성되는 본 발명에 따른 본 발명의 동작 흐름을 설명한다.
도 4는 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 방법에 대한 동작 흐름을 도시한 순서도이다.
도 4에 도시된 바와 같이, 사용자로부터 음성이 입력되면(S400), 단어 인식기(110)는 단어(W)를 인식한다(S410).
이후, 음소 세그먼트 정보 추출기(130)는 'S410' 과정에서 인식된 단어 W에 대한 음소 세그먼트 정보를 추출하고(S420), 음소별 우도값 계산기(140)는 단어 W의 각 음소별 로그 유사도 비율(LLRW)을 계산한다(S430).
한편, 반음소별 우도값 계산기(150)는 단어 W의 반단어인 A의 각 반음소별 로그 유사도 비율(LLRA)을 계산한다(S440).
이후, 우도값 분포 계산기(160)는 'S430' 과정과, 'S440' 과정에서 계산된 각 음소별 로그 유사도 비율(LLRW)과, 각 반음소별 로그 유사도 비율(LLRA)에 대한 확률 분포값 fW(x)와, fA(x)를 각각 계산한다(S450).
문턱값 계산기(170)는 'S450' 과정에서 계산된 fW(x)와, fA(x)를 이용하여 문턱값을 계산한다. 문턱값 계산기(170)는 FRRW(r)=FARA(r)을 만족하는 'r' 값을 산출하고(S460), 이때 산출된 r을 문턱값으로 정의한다(S470).
문턱값 계산기(170)에 의해 문턱값 'r'이 정의되면, 문턱값을 비교기(190)로 전달한다.
이때, 비교기(190)는 음소별 우도값 계산기(140)와 반음소별 우도값 계산기(150)에 의해 계산된 단어 W의 로그 유사도 비율(WLLR)과 문턱값 r을 비교하여(S480), 단어 W의 로그 유사도 비율(WLLR)이 r 보다 큰 경우에만 음성 인식 결과에 대한 출력을 허용하도록 한다(S490).
만일, 단어 W의 로그 유사도 비율(WLLR)이 r 이하인 경우에는 음성 인식 결과에 대한 출력을 차단하도록 한다(S500).
이후, 다른 음성이 입력되면(S510), 앞서 설명한 'S400' 내지 'S500' 과정을 반복하여 수행함으로써 음성 인식 결과에 대한 출력 여부를 확인하도록 한다.
이때, 'S400' 내지 'S500' 과정을 수행하는 동안, 'S460' 과정에서 산출되는 'r' 값은 단어별로 서로 다른 값을 가지게 되므로, 단어별로 서로 다른 신뢰도 문턱값을 적용함으로써 안정적인 발화 검증 성능을 얻을 수 있는 효과를 갖는다.
이상에서와 같이 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
도 1 은 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치의 구성을 설명하는데 참조되는 블록도이다.
도 2 는 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치에서 음소 및 반음소에 대한 log-likelihood 확률 분포 모델링 과정을 나타낸 것이다.
도 3 은 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 장치에서 확률분포함수를 구하는데 적용되는 함수를 나타낸 예시도이다.
도 4 는 본 발명에 따른 단어별 신뢰도 문턱값에 기반한 발화 검증 방법에 대한 동작 흐름을 나타내는 순서도이다.

Claims (10)

  1. 음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 반단어에 대응하는 각각의 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 음소 세그먼트 정보 추출기;
    추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 우도값 계산기;
    상기 음소와 상기 반음소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 문턱값 계산기; 및
    상기 문턱값과 상기 우도값 계산기에 의해 산출된 로그-우도 비율을 비교하여, 그 결과에 따라 음성 인식 결과를 출력하거나 차단하는 비교기;를 포함하고,
    상기 문턱값 계산기는,
    정인식된 단어를 거절할 때 발생하는 오류율과, 오인식된 단어를 허용시 발생하는 오류율이 같아지는 임의의 수를 문턱값으로 정의하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치.
  2. 청구항 1에 있어서,
    상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 계산하여 각 확률 분포값에 대한 함수로 모델링하는 우도값 분포 계산기;를 더 포함하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치.
  3. 청구항 2에 있어서,
    상기 우도값 분포 계산기는,
    상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 정규분포함수로 정의하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치.
  4. 청구항 2에 있어서,
    상기 문턱값 계산기는,
    상기 음소와 상기 반음소에 대한 각 확률 분포값을 적용하여 상기 문턱값을 계산하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치.
  5. 삭제
  6. 청구항 1에 있어서,
    상기 비교기는,
    상기 인식된 단어의 로그-우도 비율이 상기 문턱값 보다 큰 경우 상기 음성인식결과의 출력을 허용하고, 그렇지 않은 경우에는 상기 음성인식결과의 출력을 차단하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치.
  7. 청구항 1에 있어서,
    특정 음성과 그에 대응하는 단어가 서로 매칭되어 저장되는 음성 DB;를 더 포함하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치.
  8. 청구항 7에 있어서,
    입력된 음성으로부터 소정의 단어를 인식하는 단어 인식기;를 더 포함하며,
    상기 단어 인식기는, 상기 음성 DB를 탐색하여 상기 입력된 음성에 대응하는 단어를 추출하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 장치.
  9. 음성신호 입력 시 인식된 단어를 분석하여, 상기 단어와 상기 단어에 대한 반음소를 갖는 반단어로부터 해당 단어의 음소와 반음소에 대한 음소 세그먼트 정보를 추출하는 단계;
    추출된 상기 음소 및 상기 반음소에 대한 우도값(likelihood)을 계산하고, 상기 우도값으로부터 로그-우도 비율을 계산하는 단계;
    상기 음소와 상기 반음소의 로그-우도 비율에 따라 상기 인식된 단어에 대응하는 문턱값을 계산하는 단계; 및
    상기 문턱값과 상기 로그-우도 비율을 비교하여, 상기 인식된 단어의 로그-우도 비율이 상기 문턱값 보다 큰 경우 상기 인식된 단어의 출력을 허용하고, 그렇지 않은 경우에는 상기 인식된 단어의 출력을 차단하는 단계;를 포함하고,
    상기 문턱값은 정인식된 단어를 거절할 때 발생하는 오류율과, 오인식된 단어를 허용시 발생하는 오류율이 같아지는 임의의 수로 정의하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 방법.
  10. 청구항 9에 있어서,
    상기 로그-우도 비율을 계산하는 단계에서 계산된 상기 음소와 상기 반음소의 로그-우도 비율에 대한 확률 분포값을 계산하는 단계;를 더 포함하는 것을 특징으로 하는 단어별 신뢰도 문턱값에 기반한 발화 검증 방법.
KR1020090128386A 2009-12-21 2009-12-21 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 KR101229108B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090128386A KR101229108B1 (ko) 2009-12-21 2009-12-21 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090128386A KR101229108B1 (ko) 2009-12-21 2009-12-21 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20110071742A KR20110071742A (ko) 2011-06-29
KR101229108B1 true KR101229108B1 (ko) 2013-02-01

Family

ID=44402775

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090128386A KR101229108B1 (ko) 2009-12-21 2009-12-21 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101229108B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101424496B1 (ko) * 2013-07-03 2014-08-01 에스케이텔레콤 주식회사 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
US10418027B2 (en) 2016-10-12 2019-09-17 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210016767A (ko) 2019-08-05 2021-02-17 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249684A (ja) 1998-03-04 1999-09-17 Nec Corp 話者照合における閾値決定方法及び装置
KR20030069378A (ko) * 2002-02-20 2003-08-27 대한민국(전남대학교총장) 음성인식시스템의 핵심어 검출을 위한 후처리방법
KR20070061266A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법
US20070219797A1 (en) 2006-03-16 2007-09-20 Microsoft Corporation Subword unit posterior probability for measuring confidence

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249684A (ja) 1998-03-04 1999-09-17 Nec Corp 話者照合における閾値決定方法及び装置
KR20030069378A (ko) * 2002-02-20 2003-08-27 대한민국(전남대학교총장) 음성인식시스템의 핵심어 검출을 위한 후처리방법
KR20070061266A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법
US20070219797A1 (en) 2006-03-16 2007-09-20 Microsoft Corporation Subword unit posterior probability for measuring confidence

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101424496B1 (ko) * 2013-07-03 2014-08-01 에스케이텔레콤 주식회사 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
US10418027B2 (en) 2016-10-12 2019-09-17 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same

Also Published As

Publication number Publication date
KR20110071742A (ko) 2011-06-29

Similar Documents

Publication Publication Date Title
US8930196B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
CN112102815B (zh) 语音识别方法、装置、计算机设备和存储介质
US6618702B1 (en) Method of and device for phone-based speaker recognition
US20090119103A1 (en) Speaker recognition system
CN111640456B (zh) 叠音检测方法、装置和设备
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
JP2008146054A (ja) 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
JP3496706B2 (ja) 音声認識方法及びそのプログラム記録媒体
KR101444411B1 (ko) 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법
KR100776729B1 (ko) 결정 트리 기반의 상태 군집화 방법을 사용하는 비핵심어모델링부를 포함하는 화자독립 가변어휘 핵심어 검출시스템 및 그 방법
KR20160015005A (ko) 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치
JP7291099B2 (ja) 音声認識方法及び装置
KR20020045960A (ko) 음성인식에서 핵심어 검출 성능 개선 방법
KR20170090815A (ko) 음성 인식 장치 및 이의 동작방법
Herbig et al. Evaluation of two approaches for speaker specific speech recognition
Padmanabhan Studies on voice activity detection and feature diversity for speaker recognition
CN113327596B (zh) 语音识别模型的训练方法、语音识别方法和装置
KR100776730B1 (ko) 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를포함하는 화자독립 가변어휘 핵심어 검출 시스템 및 그방법
Herbig et al. Adaptive systems for unsupervised speaker tracking and speech recognition
Madhusudhana Rao et al. Machine hearing system for teleconference authentication with effective speech analysis
Kanrar i Vector used in Speaker Identification by Dimension Compactness

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151228

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161228

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee