KR100755483B1

KR100755483B1 - 단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법

Info

Publication number: KR100755483B1
Application number: KR1020060068989A
Authority: KR
Inventors: 정훈
Original assignee: 한국전자통신연구원
Priority date: 2005-12-08
Filing date: 2006-07-24
Publication date: 2007-09-05
Also published as: KR20070061220A

Abstract

본 발명은 Hidden Markov Model(HMM) 기반의 고립단어 음성인식 시스템에서 끝점 검출부의 오류로 인해 발생하는 오인식을 보상하기 위한 변형된 비터비 알고리즘에 관한 것이다. HMM 기반의 고립 단어 음성인식 시스템은 음성 인식부에서 비터비 알고리즘을 사용해 끝점 검출된 음성 신호와 인식 대상 단어 모델간의 유사도를 측정하고 최고 유사도를 지니는 단어를 인식 대상 어휘로 인식하게 된다. 이때, 음성 인식부의 비터비 알고리즘은 정확하게 음성 구간이 검출됐다는 가정하에 끝점 검출된 음성 구간의 양 끝점은 인식 대상 단어 모델의 양 끝점과 일치한다는 끝점제한(Endpoints constraint)을 적용한 후에 유사도를 측정하게 된다. 그러나, 주변 잡음 환경의 변화로 인해 끝점 검출부에서 음성의 끝점을 부정확하게 검출한 경우에도 음성 인식부의 비터비 알고리즘은 끝점제한(Endpoints constrain)을 적용하게 되므로 고립단어 인식에서는 오인식의 원인이 된다.

본 발명에서는 이와 같이 부정확한 끝점 검출로부터 발생하는 오인식을 보상하기 위해 기존의 비터비 알고리즘이 지니는 끝점제한(Endpoints constrain)를 제거하는 방법과 이를 효율적으로 구현한 방식을 제공한다.

상기 목적을 달성하기 위한 본 발명의 비터비 디코딩 방법은, 입력 신호의 슬롯 단위로 수행되는 비터비 디코딩 방법으로서, 소정의 초기화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 시작점으로 간주하여 초기화를 수행하는 초기화 단계; 상기 입력 신호의 각 슬롯의 신호와 판단 모델과의 유사도를 측정하는 재귀 화 단계; 및 소정의 종료화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 끝점으로 간주하여 종료화 작업을 수행하는 종료화 단계를 포함하는 것을 특징으로 한다.

음성인식, 비터비 알고리즘, 끝점 제한

Description

단어 끝점 검출 오류 보상을 가지는 비터비 디코딩 방법{VITERBI DECODING METHOD WITH WORD BOUNDARY DETECTION ERROR COMPENSATION}

도 1은 종래기술에 의한 끝점제한(Endpoints constrain)에 기반한 비터비 디코딩 방법을 도시한 블록도.

도 2는 본 발명 일실시예에 따른 끝점제한 없는 비터비 디코딩 방법을 도시한 블록도.

도 3은 단순한 끝점제한없는 비터비 디코딩 방법을 적용할 경우의 연산량 증가 원리를 보여주는 그래프.

도 4는 본 발명의 일실시예에 따른 끝점제한없는 비터비 디코딩 방법에서 이용하는 부분적인 가설(hypothesis)들의 시간 조건 접근 과정을 도시한 그래프.

도 5는 도 5는 끝점 검출 함수의 변수들의 의미를 설명하기 위한 그래프.

도 6은 본 발명의 일실시예에 따른 끝점제한없는 비터비 디코딩 방법에 따른 단어 에러율(WER: Word Error Rate) 향상 효과를 도시한 그래프.

도 7은 본 발명의 비터비 알고리즘에 의해 부가적인 계산 부담을 도시한 그래프.

<도면의 주요부분에 대한 부호의 설명>

110: 끝점 검출부 120: 특징 추출부

130: 비터비 알고리즘 140: 음성 인식부

240: 변형된 비터비 알고리즘 수행부

본 발명은 끝점 검출부의 오류로 인해 발생하는 오인식을 보상하기 위한 변형된 비터비 디코딩 방법에 관한 것으로, 특히 HMM(Hidden Markov Model) 기반의 고립단어 인식시스템에 사용되기 위한 것이다.

고립 단어 인식 시스템은 도 1에 도시한 바와 같이 컴퓨터로 입력된 신호로부터 음성 구간이라고 여겨지는 부분을 검출하는 끝점 검출부(110), 검출된 음성 신호로부터 인식에 적합한 파라메타로 변환하는 특징 추출부(120)와 인식 대상 어휘에 대해 모델과 특징 파라메타간의 유사도를 측정하는 음성 인식부(140)으로 구성된다. 끝점 검출부(110)는 주변 잡음 환경의 변화에 대해서도 음성 구간만을 정확히 검출하기 위해 음성과 비음성을 구분 짓는 다양한 파라메타를 사용해 음성 구간을 검출한다.

특징 추출부(120)는 여러 가지 방법으로 구현될 수 법으로 구현될 수 있으나 MFCC(Mel-Frequency Cepstrum Coefficient)나 PLPCC(Perceptual Linear Prediction Cepstrum Coefficient)가 주로 사용된다. 음성인식부(140)에서는 HMM로 모델딩된 단어와 입력 신호간의 유사도를 측정하기 위해 비터비 알고리즘(130)을 사용하게 된다.

기존의 비터비 알고리즘은 검출된 음성 구간의 양 끝점은 인식 대상 모델의 양 끝점과 일치한다는 끝점 제한(Endpoints constraint)이라는 제약조건하에서 3가지 단계를 거쳐 유사도를 측정하게 된다. 끝점 검출된 신호의 시작점과 단어 모델의 시작점을 맞추고 단어의 초기 상태가 시작 프레임을 관측할 확률을 구하는 초기화 단계, 입력 신호의 각 프레임과 단어 모델간의 유사도를 동적 프로그래밍을 통해 측정하는 재귀적 방법, 입력 신호의 끝점과 단어 모델의 끝점을 맞춘 후 입력된 음성이 측정된 단어일 확률을 구하는 종료화 단계로 구성된다.

따라서, 끝점 제한(Endpoints constraint)가 적용되는 기존의 비터비 알고리즘에서는 끝점 검출부의 오류로 인해 비음성이 검출된 음성 구간의 양끝에 일부 포함된 경우에도 이를 음성으로 간주하여 유사도를 측정하게 되므로 결과적으로는 잘못된 인식 결과를 초래하게 된다.

본 발명에서는 상기한 문제를 해결하기 위한 것으로 끝점 검출 오류로 인한 음성 인식 성능 저하를 방지할 수 있는 비터비 디코딩 방법을 제공하는데 그 목적이 있다.

또한, 본 발명은 끝점 제약(Endpoints constraint)을 없앤 비터비 디코딩 방법을 제공하는 것을 그 심화된 목적으로 한다.

상기 목적을 달성하기 위한 본 발명의 비터비 디코딩 방법은, 입력 신호의 슬롯 단위로 수행되는 비터비 디코딩 방법으로서, 소정의 초기화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 시작점으로 간주하여 초기화를 수행하는 초기화 단계; 상기 입력 신호의 각 슬롯의 신호와 판단 모델과의 유사도를 측정하는 재귀화 단계; 및 소정의 종료화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 끝점으로 간주하여 종료화 작업을 수행하는 종료화 단계를 포함하는 것을 특징으로 한다.

먼저, 음성 인식 분야에 사용될때의 비터비 알고리즘의 형태에 대하여 논하겠다.

비터비 알고리즘은 다음단의 확률을 최대화하는 최적 상태의 시퀀스를 찾는 DP 알고리즘으로, 변수 δ^t(i)를 다음 수학식 1과 같이 정의함으로써, λ={π,A,B}로 주어지는 HMM(Hiddin Markov Model) 및 음향 관찰값 X={x₁, x₂,..., x_τ}에 적용될 수 있다.

최적 상태 개연성값은 다음 수학식 2a 내지 2c와 같은 비터비 알고리즘에 의해 계산되는데, 초기화 과정에서는 하기 수학식 2a가 적용되고, 재귀화 과정에서는 하기 수학식 2b가 적용되고, 종료화 과정에서는 하기 수학식 2c가 적용된다.

상기 3 수학식들에 나타난 바와 같이, 초기화 과정 및 종료화 과정은 서치 공간의 경계를 t=1인 첫번째 슬롯부터 t=T인 마지막 슬롯까지로 제한한다.

이하, 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

(실시예)

본 실시예의 비터비 디코딩 방법은, 도 2의 비터비 알고리즘 수행부에서 수행되며, 소정의 초기화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 시작점으로 간주하여 초기화를 수행하는 초기화 단계(210); 상기 입력 신호의 각 슬롯의 신호와 판단 모델과의 유사도를 측정하는 재귀화 단계(220); 및 소정의 종료화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 끝점으로 간주하여 종료화 작업을 수행하는 종료화 단계(230)를 포함한다. 도시한 본 실시예의 개선된 비터비 알고리즘은 경계가 제한되지 않은 서치 공간에서 단어를 서치할 수 있게 된다.

우선, 소정의 초기화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 시작점으로 간주하여 초기화를 수행하는 초기화 단계(210)는 다음과 같이 수행될 수 있다.

임의로 설정된 D_b 프레임내의 모든 슬롯이 음성 구간의 시작점이 될 수 있으므로 각 프레임에 대해 단어 모델은 매번 초기화 단계를 가질 수 있다. 따라서, 도 4에 도시한 바와 같이, t의 상태 i가 시간 τ에 도달할 때까지의 시작 경계 마진의 슬롯 개수와 동일한 개수의 부분적인 가설(hypothesis)이 존재한다. 각 가설들은 하기 수학식 3과 같이 시간 조건 접근에 따른 변수의 항들로 표현될 수 있다.

여기서, 주어진 HMM λ는 시간 τ에서 시작하고 t에서 끝나는 부분 음향 관 찰값

를 생성할 수 있도록,

는 조건 확률값을 표시한다.

도시한 최대 근사화 중, 상태 i가 t에 도달하는 하나의 유일한 가설이 존재한다. 그러므로 수학식 1은

이 시간에 대하여 적당히 정규화될 수 있다면, 하기 수학식 4a와 같이

의 항들로 표현될 수 있다.

여기서

는 정규화 웨이트 φ(τ)에 의해 시간 τ=1 부터 시작하는 것처럼 보이게 하는 정규화된 개연성값이다. 수학식 4a는 시작점이 t인 경우의 재귀 과정을 표현한 것인데, 시작점이 t인 경우 초기 조건은 하기 수학식 4b와 같다.

상기 수학식 4b에서 π_i 는 i번째 상태가 처음에 발생할 확률, b_i(x_τ)는 i번째 상태가 τ번째 음성 샘플을 관측할 확률이다,

이때, 각 프레임에서 시작되는 시작점은 서로 다른 음성 구간을 지니게 된다. 서로 다른 시작점에서 시작되어 형성될 수 있는 모든 프레임에 대하여 음성 정보와 비교하는 비터비 연산을 수행하는 경우, 도 3에 도시한 바와 같이 각 프레임 별로 비터비 연산을 동시에 병렬적으로 수행되야 하므로, 종래 기술에 비해 비터비 연산에 대한 부담이 수십배로 증가될 수 밖에 없다.

따라서, 이를 마치 모든 프레임이 동일한 시작 프레임에서 시작한 것과 동일한 효과를 주기 위해 정규화해 줄 필요가 있다. 비터비 디코딩이 최적의 상태 시퀀스를 찾는 과정이기 때문에, 상태 i의 시간 τ에서 새롭게 시작하는 가정은, 이전 시간 τ-1에서의 최대 개연성을 가지는 상태에서의 트랜지션부터 만들어져도 무방하며, 이에 따라 정규화 웨이트 φ(τ)를 하기 수학식 5와 같이 정의할 수 있다.

상기 수학식 5에서 δ^τ-1(i) 는 i번째 상태가 1번에서 τ-1 번째까지의 입력 샘플을 관측할 확률이다. 임의로 설정된 프레임 D_e 이상의 모든 프레임은 음성 구간의 끝점이 될 수 있도록 하기 위해 종료화 단계를 모든 프레임에 대해 설정하고 서로 다른 프레임으로 종료됨으로써 발생하는 유사도의 차이를 보상하기 위해 음성 프레임의 크기로 정규화한다.

여기서, D_b는 시작 경계 마진을 의미하며, φ(τ)는 시간 τ-1에서의 최대 개연성을 의미한다. 대부분의 음성 인식기는 대부분의 가능성 높은 가정들에 비교하여 가능성없는 가정들을 제거하기 위해, 빔 프루닝(beam prunning) 기술을 사용 하기 때문에, 정규화된 웨이트 φ(τ)는 추가적인 연산 부담없이 획득될 수 있으며, 실시간적으로 처리될 수 있다.

소정의 종료화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 끝점으로 간주하여 종료화 작업을 수행하는 종료화 단계(230)는 다음과 같이 수행될 수 있다. 재귀화 단계(220)가 보다 먼저 수행되지만 설명의 편의를 위해 뒤로 미루겠다.

끝점 제한은 종료 영역을 t=T부터 끝점 영역 마진 T-D_e≤t≤T 까지 확장함으로써 달성될 수 있다. 시작점 제한의 경우와 유사하게, 음향 관찰값들의 서로 다른 길이로 표현될 수 있는 많은 종료 가정들이 존재하며, 하기 수학식 6과 같이 개연성값들을 평균화할(normalize) 수 있다.

상기 시작점 제한의 경우와는 다르게, 종료화 단계에서 평균화는 시간 동기처리에 영향을 주지 않으므로, 상기 수식의 경우 시간에 대한 개연성값들의 평균화를 간단히 구할 수 있다.

살펴본 바와 같이, 제한없는 단어 경계 서치를 위하여 통상적인 비터비 알고리즘의 초기화 단계(210)와 종료 단계(220)를 개정하였다. 상기 2 단계들을 치환하고 상기 입력 신호의 각 슬롯의 신호와 판단 모델과의 유사도를 측정하는 재귀화 단계(220)를 수행함에 의해, 하기 수학식 7 내지 9와 같은 개정된 비터비 알고리즘이 완성된다. 초기화 과정에서는 하기 수학식 7이 적용되고, 재귀화 과정에서는 하기 수학식 8이 적용되고, 종료화 과정에서는 하기 수학식 9가 적용된다.

여기서, D_b 및 D_e는, 그것 내에 정확한 단어의 경계가 존재한다고 가정하는, 단어 경계 마진을 의미한다. 상기 3 수식들에 나타낸 바와 같이 통상적인 비터비 알고리즘은, 초기화 단계와 종료화 단계에 대한 최소한의 개정에 의해, 용이하게 본 발명의 비터비 알고리즘으로 변환될 수 있다.

본 발명의 비터비 디코딩 알고리즘을 다양한 끝점 검출 에러 조건에서 평가하기 위해, 하기 수학식 10과 같이 부정확한 끝점 검출의 경우를 시뮬레이션하는 함수를 정의한다.

여기서, n_b 및 n_e는 비음성 신호를 의미하고, d_b 및 d_e는 비음성 신호 구간이며, P_b 및 P_e는 휴지 구간이다. ω는 0의 평균값과 단위 분산을 가지는 가우션 노이즈이며, S는 정확하게 세그먼트화된 발음을 의미한다. 도 5는 끝점 검출 함수의 변수들(t, n_b, d_b, p_b, n_e, d_e, p_e, S)의 의미를 도시하고 있다.

실험에서 단어 경계 마진 Db 및 De는 다음 수학식 11과 같이 주어진다.

여기서, T는 발음의 총 슬롯 개수를 의미하며, 도 6은 정확한 세그먼트화된 발음들 뿐만 아니라 부정확한 끝점 검출된(EPD) 발음들 상에서의 단어 에러율(WER: Word Error Rate)을 보여준다.

개정된 비터비 알고리즘은 부정확한 끝점 검출된(EPD) 발음들 상에서의 단어 에러율(WER: Word Error Rate)을 상당 수준으로 향상시킴을 알 수 있다.

도 7은 본 발명의 비터비 알고리즘에 의해 부가적인 계산 부담을 보여준다. 계산량은 실시간적인 펙터에 의해 측정될 수 있다. 도면의 값은 총 인식 시간을 음성 발음의 총 시간으로 나눈 값이다. 도시한 바와 같이, 부정확한 끝점 검출된(EPD) 발음들 상의 서치 공간의 제한없는 단어 경계를 서치하는데 소요되는 시간은, 동일한 단어 경계 마진을 가지는 정확하게 끝점 검출된 발음들의 경우보다 더 걸린다. 이는 보다 활성화된 서브-단어 모델들이 비음성 신호에 의해 존재하기 때문이다.

이상, 본 발명을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 발명은 상기 실시예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러가지 변형이 가능하다.

본 발명에 따른 끝점 제약(Endpoints constraint)을 없앤 비터비 디코딩 방법을 수행함에 따라, 끝점 검출부에서 발생할 수 있는 음성 검출 오류를 보상하여 음성 인식 성능을 일정하게 유지하는 효과가 있다.

즉, 본 발명은 HMM 기반의 고립 단어 음성인식 시스템에서 주변 잡음 환경의 변환에 대해 끝점 검출부가 정확히 음성 구간만을 검출하지 못하여 오인식을 발생하는 경우에도 이를 음성 인식부에서 보상함으로써 음성 인식 시스템의 성능을 높이는 효과를 가져온다.

Claims

입력 신호의 슬롯 단위로 수행되는 비터비 디코딩 방법에 있어서,

소정의 초기화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 시작점으로 간주하여 초기화를 수행하는 초기화 단계;

상기 입력 신호의 각 슬롯의 신호와 판단 모델과의 유사도를 측정하는 재귀화 단계; 및

소정의 종료화 단계 완료 조건에 부합되는 슬롯까지, 모든 슬롯을 끝점으로 간주하여 종료화 작업을 수행하는 종료화 단계

를 포함하는 비터비 디코딩 방법.
제1항에 있어서,

상기 초기화 단계에서는 다음 수학식에 따른 초기화가 수행되는 것을 특징으로 하는 비터비 디코딩 방법.
제2항에 있어서, 상기 수학식의 φ(τ)는 다음 수학식에 따라 정의되는 것을 특징으로 하는 비터비 디코딩 방법.
제1항에 있어서,

상기 재귀화 단계에서는 다음 수학식에 따른 유사도 측정이 수행되는 것을 특징으로 하는 비터비 디코딩 방법.
제1항에 있어서,

상기 종료화 단계에서는 다음 수학식에 따른 종료화가 수행되는 것을 특징으로 하는 비터비 디코딩 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,

상기 입력 신호는 음성의 변화를 전기적 신호에 적용한 음성 신호이며,

상기 판단 모델은 단어를 슬롯에 따라 모델링한 단어 모델인 것을 특징으로 하는 비터비 디코딩 방법.