KR100755483B1 - 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법 - Google Patents

단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법 Download PDF

Info

Publication number
KR100755483B1
KR100755483B1 KR1020060068989A KR20060068989A KR100755483B1 KR 100755483 B1 KR100755483 B1 KR 100755483B1 KR 1020060068989 A KR1020060068989 A KR 1020060068989A KR 20060068989 A KR20060068989 A KR 20060068989A KR 100755483 B1 KR100755483 B1 KR 100755483B1
Authority
KR
South Korea
Prior art keywords
slot
word
endpoint
decoding method
viterbi algorithm
Prior art date
Application number
KR1020060068989A
Other languages
English (en)
Other versions
KR20070061220A (ko
Inventor
정훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20070061220A publication Critical patent/KR20070061220A/ko
Application granted granted Critical
Publication of KR100755483B1 publication Critical patent/KR100755483B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • G10L2019/0015Viterbi algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Error Detection And Correction (AREA)

Abstract

본 발명은 Hidden Markov Model(HMM) 기반의 고립단어 음성인식 시스템에서 끝점 검출부의 오류로 인해 발생하는 오인식을 보상하기 위한 변형된 비터비 알고리즘에 관한 것이다. HMM 기반의 고립 단어 음성인식 시스템은 음성 인식부에서 비터비 알고리즘을 사용해 끝점 검출된 음성 신호와 인식 대상 단어 모델간의 유사도를 측정하고 최고 유사도를 지니는 단어를 인식 대상 어휘로 인식하게 된다. 이때, 음성 인식부의 비터비 알고리즘은 정확하게 음성 구간이 검출됐다는 가정하에 끝점 검출된 음성 구간의 양 끝점은 인식 대상 단어 모델의 양 끝점과 일치한다는 끝점제한(Endpoints constraint)을 적용한 후에 유사도를 측정하게 된다. 그러나, 주변 잡음 환경의 변화로 인해 끝점 검출부에서 음성의 끝점을 부정확하게 검출한 경우에도 음성 인식부의 비터비 알고리즘은 끝점제한(Endpoints constrain)을 적용하게 되므로 고립단어 인식에서는 오인식의 원인이 된다.
본 발명에서는 이와 같이 부정확한 끝점 검출로부터 발생하는 오인식을 보상하기 위해 기존의 비터비 알고리즘이 지니는 끝점제한(Endpoints constrain)를 제거하는 방법과 이를 효율적으로 구현한 방식을 제공한다.
상기 목적을 달성하기 위한 본 발명의 비터비 디코딩 방법은, 입력 신호의 슬롯 단위로 수행되는 비터비 디코딩 방법으로서, 소정의 초기화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 시작점으로 간주하여 초기화를 수행하는 초기화 단계; 상기 입력 신호의 각 슬롯의 신호와 판단 모델과의 유사도를 측정하는 재귀 화 단계; 및 소정의 종료화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 끝점으로 간주하여 종료화 작업을 수행하는 종료화 단계를 포함하는 것을 특징으로 한다.
음성인식, 비터비 알고리즘, 끝점 제한

Description

단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법{VITERBI DECODING METHOD WITH WORD BOUNDARY DETECTION ERROR COMPENSATION}
도 1은 종래기술에 의한 끝점제한(Endpoints constrain)에 기반한 비터비 디코딩 방법을 도시한 블록도.
도 2는 본 발명 일실시예에 따른 끝점제한 없는 비터비 디코딩 방법을 도시한 블록도.
도 3은 단순한 끝점제한없는 비터비 디코딩 방법을 적용할 경우의 연산량 증가 원리를 보여주는 그래프.
도 4는 본 발명의 일실시예에 따른 끝점제한없는 비터비 디코딩 방법에서 이용하는 부분적인 가설(hypothesis)들의 시간 조건 접근 과정을 도시한 그래프.
도 5는 도 5는 끝점 검출 함수의 변수들의 의미를 설명하기 위한 그래프.
도 6은 본 발명의 일실시예에 따른 끝점제한없는 비터비 디코딩 방법에 따른 단어 에러율(WER: Word Error Rate) 향상 효과를 도시한 그래프.
도 7은 본 발명의 비터비 알고리즘에 의해 부가적인 계산 부담을 도시한 그래프.
<도면의 주요부분에 대한 부호의 설명>
110: 끝점 검출부 120: 특징 추출부
130: 비터비 알고리즘 140: 음성 인식부
240: 변형된 비터비 알고리즘 수행부
본 발명은 끝점 검출부의 오류로 인해 발생하는 오인식을 보상하기 위한 변형된 비터비 디코딩 방법에 관한 것으로, 특히 HMM(Hidden Markov Model) 기반의 고립단어 인식시스템에 사용되기 위한 것이다.
고립 단어 인식 시스템은 도 1에 도시한 바와 같이 컴퓨터로 입력된 신호로부터 음성 구간이라고 여겨지는 부분을 검출하는 끝점 검출부(110), 검출된 음성 신호로부터 인식에 적합한 파라메타로 변환하는 특징 추출부(120)와 인식 대상 어휘에 대해 모델과 특징 파라메타간의 유사도를 측정하는 음성 인식부(140)으로 구성된다. 끝점 검출부(110)는 주변 잡음 환경의 변화에 대해서도 음성 구간만을 정확히 검출하기 위해 음성과 비음성을 구분 짓는 다양한 파라메타를 사용해 음성 구간을 검출한다.
특징 추출부(120)는 여러 가지 방법으로 구현될 수 법으로 구현될 수 있으나 MFCC(Mel-Frequency Cepstrum Coefficient)나 PLPCC(Perceptual Linear Prediction Cepstrum Coefficient)가 주로 사용된다. 음성인식부(140)에서는 HMM로 모델딩된 단어와 입력 신호간의 유사도를 측정하기 위해 비터비 알고리즘(130)을 사용하게 된다.
기존의 비터비 알고리즘은 검출된 음성 구간의 양 끝점은 인식 대상 모델의 양 끝점과 일치한다는 끝점 제한(Endpoints constraint)이라는 제약조건하에서 3가지 단계를 거쳐 유사도를 측정하게 된다. 끝점 검출된 신호의 시작점과 단어 모델의 시작점을 맞추고 단어의 초기 상태가 시작 프레임을 관측할 확률을 구하는 초기화 단계, 입력 신호의 각 프레임과 단어 모델간의 유사도를 동적 프로그래밍을 통해 측정하는 재귀적 방법, 입력 신호의 끝점과 단어 모델의 끝점을 맞춘 후 입력된 음성이 측정된 단어일 확률을 구하는 종료화 단계로 구성된다.
따라서, 끝점 제한(Endpoints constraint)가 적용되는 기존의 비터비 알고리즘에서는 끝점 검출부의 오류로 인해 비음성이 검출된 음성 구간의 양끝에 일부 포함된 경우에도 이를 음성으로 간주하여 유사도를 측정하게 되므로 결과적으로는 잘못된 인식 결과를 초래하게 된다.
본 발명에서는 상기한 문제를 해결하기 위한 것으로 끝점 검출 오류로 인한 음성 인식 성능 저하를 방지할 수 있는 비터비 디코딩 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 끝점 제약(Endpoints constraint)을 없앤 비터비 디코딩 방법을 제공하는 것을 그 심화된 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 비터비 디코딩 방법은, 입력 신호의 슬롯 단위로 수행되는 비터비 디코딩 방법으로서, 소정의 초기화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 시작점으로 간주하여 초기화를 수행하는 초기화 단계; 상기 입력 신호의 각 슬롯의 신호와 판단 모델과의 유사도를 측정하는 재귀화 단계; 및 소정의 종료화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 끝점으로 간주하여 종료화 작업을 수행하는 종료화 단계를 포함하는 것을 특징으로 한다.
먼저, 음성 인식 분야에 사용될때의 비터비 알고리즘의 형태에 대하여 논하겠다.
비터비 알고리즘은 다음단의 확률을 최대화하는 최적 상태의 시퀀스를 찾는 DP 알고리즘으로, 변수 δt(i)를 다음 수학식 1과 같이 정의함으로써, λ={π,A,B}로 주어지는 HMM(Hiddin Markov Model) 및 음향 관찰값 X={x1, x2,..., xτ}에 적용될 수 있다.
Figure 112006052530353-pat00001
최적 상태 개연성값은 다음 수학식 2a 내지 2c와 같은 비터비 알고리즘에 의해 계산되는데, 초기화 과정에서는 하기 수학식 2a가 적용되고, 재귀화 과정에서는 하기 수학식 2b가 적용되고, 종료화 과정에서는 하기 수학식 2c가 적용된다.
Figure 112006052530353-pat00002
Figure 112006052530353-pat00003
Figure 112006052530353-pat00004
상기 3 수학식들에 나타난 바와 같이, 초기화 과정 및 종료화 과정은 서치 공간의 경계를 t=1인 첫번째 슬롯부터 t=T인 마지막 슬롯까지로 제한한다.
이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
(실시예)
본 실시예의 비터비 디코딩 방법은, 도 2의 비터비 알고리즘 수행부에서 수행되며, 소정의 초기화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 시작점으로 간주하여 초기화를 수행하는 초기화 단계(210); 상기 입력 신호의 각 슬롯의 신호와 판단 모델과의 유사도를 측정하는 재귀화 단계(220); 및 소정의 종료화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 끝점으로 간주하여 종료화 작업을 수행하는 종료화 단계(230)를 포함한다. 도시한 본 실시예의 개선된 비터비 알고리즘은 경계가 제한되지 않은 서치 공간에서 단어를 서치할 수 있게 된다.
우선, 소정의 초기화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 시작점으로 간주하여 초기화를 수행하는 초기화 단계(210)는 다음과 같이 수행될 수 있다.
임의로 설정된 Db 프레임내의 모든 슬롯이 음성 구간의 시작점이 될 수 있으므로 각 프레임에 대해 단어 모델은 매번 초기화 단계를 가질 수 있다. 따라서, 도 4에 도시한 바와 같이, t의 상태 i가 시간 τ에 도달할 때까지의 시작 경계 마진의 슬롯 개수와 동일한 개수의 부분적인 가설(hypothesis)이 존재한다. 각 가설들은 하기 수학식 3과 같이 시간 조건 접근에 따른 변수의 항들로 표현될 수 있다.
Figure 112006052530353-pat00005
여기서, 주어진 HMM λ는 시간 τ에서 시작하고 t에서 끝나는 부분 음향 관 찰값
Figure 112006052530353-pat00006
를 생성할 수 있도록,
Figure 112006052530353-pat00007
는 조건 확률값을 표시한다.
도시한 최대 근사화 중, 상태 i가 t에 도달하는 하나의 유일한 가설이 존재한다. 그러므로 수학식 1은
Figure 112006052530353-pat00008
이 시간에 대하여 적당히 정규화될 수 있다면, 하기 수학식 4a와 같이
Figure 112006052530353-pat00009
의 항들로 표현될 수 있다.
Figure 112006052530353-pat00010
여기서
Figure 112006052530353-pat00011
는 정규화 웨이트 φ(τ)에 의해 시간 τ=1 부터 시작하는 것처럼 보이게 하는 정규화된 개연성값이다. 수학식 4a는 시작점이 t인 경우의 재귀 과정을 표현한 것인데, 시작점이 t인 경우 초기 조건은 하기 수학식 4b와 같다.
Figure 112006052530353-pat00012
상기 수학식 4b에서 πi 는 i번째 상태가 처음에 발생할 확률, bi(xτ)는 i번째 상태가 τ번째 음성 샘플을 관측할 확률이다,
이때, 각 프레임에서 시작되는 시작점은 서로 다른 음성 구간을 지니게 된다. 서로 다른 시작점에서 시작되어 형성될 수 있는 모든 프레임에 대하여 음성 정보와 비교하는 비터비 연산을 수행하는 경우, 도 3에 도시한 바와 같이 각 프레임 별로 비터비 연산을 동시에 병렬적으로 수행되야 하므로, 종래 기술에 비해 비터비 연산에 대한 부담이 수십배로 증가될 수 밖에 없다.
따라서, 이를 마치 모든 프레임이 동일한 시작 프레임에서 시작한 것과 동일한 효과를 주기 위해 정규화해 줄 필요가 있다. 비터비 디코딩이 최적의 상태 시퀀스를 찾는 과정이기 때문에, 상태 i의 시간 τ에서 새롭게 시작하는 가정은, 이전 시간 τ-1에서의 최대 개연성을 가지는 상태에서의 트랜지션부터 만들어져도 무방하며, 이에 따라 정규화 웨이트 φ(τ)를 하기 수학식 5와 같이 정의할 수 있다.
Figure 112006052530353-pat00013
상기 수학식 5에서 δτ-1(i) 는 i번째 상태가 1번에서 τ-1 번째까지의 입력 샘플을 관측할 확률이다. 임의로 설정된 프레임 De 이상의 모든 프레임은 음성 구간의 끝점이 될 수 있도록 하기 위해 종료화 단계를 모든 프레임에 대해 설정하고 서로 다른 프레임으로 종료됨으로써 발생하는 유사도의 차이를 보상하기 위해 음성 프레임의 크기로 정규화한다.
여기서, Db는 시작 경계 마진을 의미하며, φ(τ)는 시간 τ-1에서의 최대 개연성을 의미한다. 대부분의 음성 인식기는 대부분의 가능성 높은 가정들에 비교하여 가능성없는 가정들을 제거하기 위해, 빔 프루닝(beam prunning) 기술을 사용 하기 때문에, 정규화된 웨이트 φ(τ)는 추가적인 연산 부담없이 획득될 수 있으며, 실시간적으로 처리될 수 있다.
소정의 종료화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 끝점으로 간주하여 종료화 작업을 수행하는 종료화 단계(230)는 다음과 같이 수행될 수 있다. 재귀화 단계(220)가 보다 먼저 수행되지만 설명의 편의를 위해 뒤로 미루겠다.
끝점 제한은 종료 영역을 t=T부터 끝점 영역 마진 T-De≤t≤T 까지 확장함으로써 달성될 수 있다. 시작점 제한의 경우와 유사하게, 음향 관찰값들의 서로 다른 길이로 표현될 수 있는 많은 종료 가정들이 존재하며, 하기 수학식 6과 같이 개연성값들을 평균화할(normalize) 수 있다.
Figure 112006052530353-pat00014
상기 시작점 제한의 경우와는 다르게, 종료화 단계에서 평균화는 시간 동기처리에 영향을 주지 않으므로, 상기 수식의 경우 시간에 대한 개연성값들의 평균화를 간단히 구할 수 있다.
살펴본 바와 같이, 제한없는 단어 경계 서치를 위하여 통상적인 비터비 알고리즘의 초기화 단계(210)와 종료 단계(220)를 개정하였다. 상기 2 단계들을 치환하고 상기 입력 신호의 각 슬롯의 신호와 판단 모델과의 유사도를 측정하는 재귀화 단계(220)를 수행함에 의해, 하기 수학식 7 내지 9와 같은 개정된 비터비 알고리즘이 완성된다. 초기화 과정에서는 하기 수학식 7이 적용되고, 재귀화 과정에서는 하기 수학식 8이 적용되고, 종료화 과정에서는 하기 수학식 9가 적용된다.
Figure 112006052530353-pat00015
Figure 112006052530353-pat00016
Figure 112006052530353-pat00017
여기서, Db 및 De는, 그것 내에 정확한 단어의 경계가 존재한다고 가정하는, 단어 경계 마진을 의미한다. 상기 3 수식들에 나타낸 바와 같이 통상적인 비터비 알고리즘은, 초기화 단계와 종료화 단계에 대한 최소한의 개정에 의해, 용이하게 본 발명의 비터비 알고리즘으로 변환될 수 있다.
본 발명의 비터비 디코딩 알고리즘을 다양한 끝점 검출 에러 조건에서 평가하기 위해, 하기 수학식 10과 같이 부정확한 끝점 검출의 경우를 시뮬레이션하는 함수를 정의한다.
Figure 112006052530353-pat00018
여기서, nb 및 ne는 비음성 신호를 의미하고, db 및 de는 비음성 신호 구간이며, Pb 및 Pe는 휴지 구간이다. ω는 0의 평균값과 단위 분산을 가지는 가우션 노이즈이며, S는 정확하게 세그먼트화된 발음을 의미한다. 도 5는 끝점 검출 함수의 변수들(t, nb, db, pb, ne, de, pe, S)의 의미를 도시하고 있다.
실험에서 단어 경계 마진 Db 및 De는 다음 수학식 11과 같이 주어진다.
Figure 112006052530353-pat00019
여기서, T는 발음의 총 슬롯 개수를 의미하며, 도 6은 정확한 세그먼트화된 발음들 뿐만 아니라 부정확한 끝점 검출된(EPD) 발음들 상에서의 단어 에러율(WER: Word Error Rate)을 보여준다.
개정된 비터비 알고리즘은 부정확한 끝점 검출된(EPD) 발음들 상에서의 단어 에러율(WER: Word Error Rate)을 상당 수준으로 향상시킴을 알 수 있다.
도 7은 본 발명의 비터비 알고리즘에 의해 부가적인 계산 부담을 보여준다. 계산량은 실시간적인 펙터에 의해 측정될 수 있다. 도면의 값은 총 인식 시간을 음성 발음의 총 시간으로 나눈 값이다. 도시한 바와 같이, 부정확한 끝점 검출된(EPD) 발음들 상의 서치 공간의 제한없는 단어 경계를 서치하는데 소요되는 시간은, 동일한 단어 경계 마진을 가지는 정확하게 끝점 검출된 발음들의 경우보다 더 걸린다. 이는 보다 활성화된 서브-단어 모델들이 비음성 신호에 의해 존재하기 때문이다.
이상, 본 발명을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러가지 변형이 가능하다.
본 발명에 따른 끝점 제약(Endpoints constraint)을 없앤 비터비 디코딩 방법을 수행함에 따라, 끝점 검출부에서 발생할 수 있는 음성 검출 오류를 보상하여 음성 인식 성능을 일정하게 유지하는 효과가 있다.
즉, 본 발명은 HMM 기반의 고립 단어 음성인식 시스템에서 주변 잡음 환경의 변환에 대해 끝점 검출부가 정확히 음성 구간만을 검출하지 못하여 오인식을 발생하는 경우에도 이를 음성 인식부에서 보상함으로써 음성 인식 시스템의 성능을 높이는 효과를 가져온다.

Claims (6)

  1. 입력 신호의 슬롯 단위로 수행되는 비터비 디코딩 방법에 있어서,
    소정의 초기화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 시작점으로 간주하여 초기화를 수행하는 초기화 단계;
    상기 입력 신호의 각 슬롯의 신호와 판단 모델과의 유사도를 측정하는 재귀화 단계; 및
    소정의 종료화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 끝점으로 간주하여 종료화 작업을 수행하는 종료화 단계
    를 포함하는 비터비 디코딩 방법.
  2. 제1항에 있어서,
    상기 초기화 단계에서는 다음 수학식에 따른 초기화가 수행되는 것을 특징으로 하는 비터비 디코딩 방법.
    Figure 112006052530353-pat00020
  3. 제2항에 있어서, 상기 수학식의 φ(τ)는 다음 수학식에 따라 정의되는 것을 특징으로 하는 비터비 디코딩 방법.
    Figure 112006052530353-pat00021
  4. 제1항에 있어서,
    상기 재귀화 단계에서는 다음 수학식에 따른 유사도 측정이 수행되는 것을 특징으로 하는 비터비 디코딩 방법.
    Figure 112006052530353-pat00022
  5. 제1항에 있어서,
    상기 종료화 단계에서는 다음 수학식에 따른 종료화가 수행되는 것을 특징으로 하는 비터비 디코딩 방법.
    Figure 112006052530353-pat00023
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 입력 신호는 음성의 변화를 전기적 신호에 적용한 음성 신호이며,
    상기 판단 모델은 단어를 슬롯에 따라 모델링한 단어 모델인 것을 특징으로 하는 비터비 디코딩 방법.
KR1020060068989A 2005-12-08 2006-07-24 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법 KR100755483B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20050119478 2005-12-08
KR1020050119478 2005-12-08

Publications (2)

Publication Number Publication Date
KR20070061220A KR20070061220A (ko) 2007-06-13
KR100755483B1 true KR100755483B1 (ko) 2007-09-05

Family

ID=38357157

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060068989A KR100755483B1 (ko) 2005-12-08 2006-07-24 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법

Country Status (1)

Country Link
KR (1) KR100755483B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9294134B2 (en) 2012-09-14 2016-03-22 Freescale Semiconductor, Inc. Viterbi decoding device and method for decoding a signal produced by a convolutional encoder
CN111488753A (zh) * 2019-01-29 2020-08-04 北京骑胜科技有限公司 二维码识别方法、装置、电子设备以及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000025827A (ko) * 1998-10-14 2000-05-06 이계철 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법
KR20040061070A (ko) * 2002-12-30 2004-07-07 주식회사 케이티 음성인식시스템에서의 음성인식장치 및 그 방법
KR20050058598A (ko) * 2003-12-12 2005-06-17 엘지전자 주식회사 음성 인식 시스템의 발화 검증 방법
KR20050065975A (ko) * 2003-12-26 2005-06-30 한국전자통신연구원 수정된 비터비 알고리즘과 빔폭 및 지속시간을 이용한핵심어 검출기
KR20060092544A (ko) * 2005-02-18 2006-08-23 삼성전자주식회사 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치
KR20070061266A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000025827A (ko) * 1998-10-14 2000-05-06 이계철 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법
KR20040061070A (ko) * 2002-12-30 2004-07-07 주식회사 케이티 음성인식시스템에서의 음성인식장치 및 그 방법
KR20050058598A (ko) * 2003-12-12 2005-06-17 엘지전자 주식회사 음성 인식 시스템의 발화 검증 방법
KR20050065975A (ko) * 2003-12-26 2005-06-30 한국전자통신연구원 수정된 비터비 알고리즘과 빔폭 및 지속시간을 이용한핵심어 검출기
KR20060092544A (ko) * 2005-02-18 2006-08-23 삼성전자주식회사 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치
KR20070061266A (ko) * 2005-12-08 2007-06-13 한국전자통신연구원 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
10-2000-25827
10-2004-0061070
10-2005-58598
10-2005-65975
10-2006-0092544
10-2007-0061266
단어 경계 검출 오류 보정을 위한 수정된 비터비 알고리즘, 한국음향학회지, 26(1E), pp.21-26, 2007

Also Published As

Publication number Publication date
KR20070061220A (ko) 2007-06-13

Similar Documents

Publication Publication Date Title
EP3438973B1 (en) Method and apparatus for constructing speech decoding network in digital speech recognition, and storage medium
US8990086B2 (en) Recognition confidence measuring by lexical distance between candidates
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
KR101988222B1 (ko) 대어휘 연속 음성 인식 장치 및 방법
US7647224B2 (en) Apparatus, method, and computer program product for speech recognition
US8831943B2 (en) Language model learning system, language model learning method, and language model learning program
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
US20110077943A1 (en) System for generating language model, method of generating language model, and program for language model generation
US20090076817A1 (en) Method and apparatus for recognizing speech
US20120239401A1 (en) Voice recognition system and voice recognition method
EP2539888B1 (en) Online maximum-likelihood mean and variance normalization for speech recognition
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
US20070203700A1 (en) Speech Recognition Apparatus And Speech Recognition Method
US20030023438A1 (en) Method and system for the training of parameters of a pattern recognition system, each parameter being associated with exactly one realization variant of a pattern from an inventory
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
US6314392B1 (en) Method and apparatus for clustering-based signal segmentation
US6662158B1 (en) Temporal pattern recognition method and apparatus utilizing segment and frame-based models
JP6276513B2 (ja) 音声認識装置および音声認識プログラム
US7680663B2 (en) Using a discretized, higher order representation of hidden dynamic variables for speech recognition
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
KR100755483B1 (ko) 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법
KR100930587B1 (ko) 혼동 행렬 기반 발화 검증 방법 및 장치
JP4239479B2 (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
WO2010024052A1 (ja) 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
CN110875034B (zh) 用于语音识别的模板训练方法、语音识别方法及其系统

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100802

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee