KR940002852B1

KR940002852B1 - 격리단어 인식방법

Info

Publication number: KR940002852B1
Application number: KR1019910020182A
Authority: KR
Inventors: 김민성
Original assignee: 주식회사 금성사; 이헌조
Priority date: 1991-11-13
Filing date: 1991-11-13
Publication date: 1994-04-04
Also published as: KR930010848A

Abstract

내용 없음.

Description

격리단어 인식방법

제1도는 본 발명의 격리단어 인식방법.

제2도는 본 발명의 격리단어 인식방법의 신호흐름도.

* 도면의 주요 부분에 대한 부호의 설명

1 : 인터페이스부 2 : A/D변환기

3 : 디에스피 집적소자 4 : 어드레스 디코더

5 : 버퍼 6 : 기준백터 롬

7 : 기준패턴 램 8 : 프로그램 롬

9 : I/O 디코더 10 : 음성인식 정보 이용장치

본 발명은 음성인식 시스템에서 격리단어를 인식하는 기술에 관한 것으로, 특히 시간적 정보를 첨가하여 인식률을 저하시키지 않으면서 응답시간을 단축시키는데 적당하도록한 격리단어 인식방법에 관한 것이다.

일반적인 단어 인식 알고리즘에 있어서는 입력패턴과 기준패턴을 DTW(Dynamic Time Warping)를 이용해서 유사도를 계산하여 유사도가 가장 큰 패턴으로 입력 문자를 인식하는바, DWP는 계산량이 많아 기준 패턴수(인식하고자 하는 단어수)의 증가에 따라 응답시간이 매우 길어지게 되므로 실시간 처리가 곤란하게 된다.

이를 해결하기 위한 수단으로 VQ(Vector Quantizer)를 이용하는 방법이 제안되었는바, 이는 M개의 벡터에서 대표적인 N개(<M)의 백터를 양자화 하는 방법으로써 이때 양자화된 N개의 벡터를 VQ코드북 벡터라 하며, 여기서 기준패턴 R=r1 r2 …rn(M은 기준패턴의 퓨처 벡터의 프레임수)로 표현되고, 이 양자화된 패턴 R'=C^k1 ₁C^k2 ₂C^k3 ₃… C^km _m(C^kj _j는 rj에 대응하는 VQ코드북)로 표현된다.

시간 감축을 위해서 기준패턴을 R기준패턴으로 DTW하여 인식하지 않고, R' 패턴으로 입력 데이타와의 유사도를 계산하며, 유사도는 다음의 식에 의하여 간단히 구해진다.

D_j=[MIN(I_i,C^j _k)] … (식1)(여기서 MIN은 I_i,C^j _k퓨처 백터간의 거리가 모든 k에 대하여 가장 적은 값을 의미한다)

여기서 L은 입력패턴의 프레임수, I_i는 i번째 프레임의 퓨처 벡터를, C^j _k는 j기준패턴의 k번째 코드북 벡터를, D_j는 입력(I)과 j기준패턴과의 유사도를 측정하는 값으로 이 값이 작으면 유사도는 크게된다.

따라서 모든 기준패턴에 대하여 D_j를 구하고, 여기서 가장 작은값을 나타내는 J_n을 찾으면 이때 j_n이 인식된 단위가된다.

이와같은 VQ 시스템을 이용할 경우 계산시간은 단축되지만 시간축 정렬을 하지 않아 인식률이 떨어지게 되는데, 예를들어 기준패턴이 R'이고, 입력이 I라하며, R'=C₁C₂C₃C₄C₅I=I₁I₂I₃I₄I₅라 할때, R'와 I가 상기와 같이 5프레임으로 구성되어지고, I₁과 거리가 가장작은 R'의 벡터 C₅, I₂에 대해서는 C₄, I₃에 대해서는 C₂,I₄에 대해서는 C₂, I₅에 대해서는 C₁이라고 하면, 상기 (식1)의 D는 매우 작게되지만 시간적 배열은 완전히 반대로 되고, 이때 D만으로 인식하면 이러한 시간적 불일치 배열에 의해 오인식이 발생된다.

이와같이 VQ방법은 DWP에서 가장 오랜 계산시간을 요하는 시간축 정렬을 하지않고, 단순히 VQ 코드북 벡터와 입력을 비교하여 계산시간은 감소시킬 수 있게 되나 인식률이 떨어지게되는 결함이 있었다.

본 발명은 종래에서 시간적 검열을 하지않아 발생되는 결함을 해결하기 위하여 코드북 벡터의 통계적 특성을 이용해서 시간적 정보를 추가하여 인식오류를 감소시킬 수 있게 창안한 것으로 이를 첨부한 도면에 의하여 상세히 설명한다.

제1도는 본 발명의 격리단어 인식방법이 적용되는 음성인식 블록도로서 이에 도시한 바와같이, 마이크(MIC)를 통해 입력되는 음성신호중에서 원하는 주파수대의 음성신호만을 선별적으로 통과시키는 인터페이스부(1)와, 상기 인터페이스부(1)로부터 공급되는 아날로그신호를 디지탈 신호로 변환하는 아날로그(A)/디지탈(D) 변환기(2)와, 상기 A/D변환기(2)의 출력신호를 공급받아 음성부분에 대한 특징을 추출하는 디에스피 집적소자(3)와, 상기 디에스피 집적소자(3)에 출력되는 어드레스를 디코딩하는 어드레스 디코더(4)와, 기준 벡터를 저장하는 기준패턴 롬(6)과, 입력 특징벡터 및 중간과정에서 획득된 결과 정보를 저장하는 기준패턴 램(7)과, 격리단어 인식 프로그램이 내장된 프로그램 롬(8)을 비롯하여 본 시스템에 의하여 인식된 정보를 이용하기 위한 I/O 디코더(9) 및 음성인식 정보 이용 장치(10)로 구성한 것으로, 이와같이 구성한 본 발명을 본 발명의 신호 흐름도인 제2도를 참조하여 상세히 설명하면 다음과 같다.

기준벡터 R'는 코드북 벡터(Code Book Vector)의 열로서 구성되고, 기준패턴 R'의 시간적 정보는 P(C_k, n/N)로 나타내는데, 여기서 P(C_k, n/N)는 코드북 벡터 C_k가 전체 길이 N에서 n번째 나타날 확률을 뜻하며, 이 확률값을 이용하여 계산시간도 감축하면서 시간축상의 정보도 포함시킬 수 있다.

즉, 기준패턴 R'과 입력 I와의 거리 D는 다음과 같이 구한다.

D=[MIN(I_i,C^j _k)]+α(log P(Cn,i/L)

여기서, Cn은 MIN(I_i, C_k)에 되게 하는 C_k이며, α는 비례상수로서 이는 실험결과로 구할 수 있다. j기준 패턴과 입력과의 거리를 유사도 측정값 D_j라 할때 인식결과는 j_n이 되며, 그 j_n=arg MIN [D_j]로 표현되고, 여기서 arg MIN은 D_j가 최소가 되는값을 뜻한다.

마이크(MIC)를 통해 공급되는 음성신호는 인터페이스부(1) 및 A/D변환기(2)를 통하면서 소정의 차단주파수(4.7㎑)를 갖는 필터에 의해 일정 주파수(10㎑)로 샘플링됨과 아울러 디지탈신호로 변환된후, 디에스 피 집적소자(3)에 공급되어 음성인식이 처리되는데, 이하 이 과정을 설명한다.

먼저, 입력데이타는 음성과 묵음으로 분류한다음 음성부분에 대해서만 특징을 추출하게 되며, 이렇게 추출된 특징 벡터와 기준벡터 롬(6)에 내장된 음성기준 패턴으로부터 유사도 측정값 D_j를 계산하게 된다.

유사도 측정값 D_j를 모든 j에 대해서 구하되, 최소가되는 값과 그대의 j값을 구하고, 이렇게 D_j를 최소로 하는 j값을 음성을 이용하는 디바이스(10)에 전달한다.

이상에서 상세히 설명한 바와 같이 본 발명은 코드북 벡터의 통계적 특성을 이용해서 시간적 정보를 추가하여 시간적 불일치된 배여로 인한 인식오류를 감소시킬 수 있는 잇점이 있다.

Claims

마이크(MIC)를 통해 입력된 음성신호를 필터 및 A/D변환기(2)를 통해 샘플링한후, 음성과 묵음중에서 음성부분에 대하여 특징 벡터를 추출하고, 상기 특징벡터와 기 설정된 기준벡터로부터 기준패턴수(j) 만큼의 유사도 측정값(D_j)을 구하여 이중에서 최소가 되는값과 그때의 기준패턴수를 구하여 코드북 데이타의 통계적 특성을 구하는 것을 특징으로 하는 격리단어 인식방법.
제1항에 있어서,로 유사도 측정값(D_j)을 구하는 것을 특징으로 하는 격리단어 인식방법.