KR940005045B1

KR940005045B1 - 음성 인식방법

Info

Publication number: KR940005045B1
Application number: KR1019910024890A
Authority: KR
Inventors: 김민성
Original assignee: 주식회사 금성사; 이헌조
Priority date: 1991-12-28
Filing date: 1991-12-28
Publication date: 1994-06-10
Also published as: KR930014266A

Abstract

내용 없음.

Description

음성 인식방법

제1도는 본 발명의 DTW 좌표도.

제2도는 본 발명의 경로 정규화 좌표도.

제3도는 본 발명의 음성 인식 알고리즘 흐름도.

제4도는 본 발명이 적용되는 음성 인식 장치 블럭구성도.

* 도면의 주요부분에 대한 부호의 설명

3 : 디지탈/아날로그 변환부 4 : 디지탈 신호 처리부

7, 8 : 제1, 제2 기준패턴램 9 : 프로그램롬

본 발명은 음성 인식방법에 관한 것으로, 특히 부정확한 음성검출로 인한 오류를 개선하는 음성 인식방법에 관한 것이다.

일반적으로 음성 인식 시스템은 입력된 신호로부터 음성과 비음성영역을 구분한 후 추출된 음성구간에 대해서 기준패턴과 비교하여 유사도가 가장 큰 기준패턴으로 인식하게 된다.

상기 입력신호로부터 음성과 비음성영역으로 구분하는 방법은 주로 일정한 해석구간에서의 에너지로 판별하게 된다.

음성은 비음성영역에 비해 에너지가 크기 때문에 적절한 기준차를 두어 이 기준치보다 크면 음성영역으로 간주한다.

그러나, 이와 같은 에너지 파형에 의해 음성을 판별하는 수단은 적절한 기준치를 선택하기 어려울 뿐만아니라 주위에 잡음이 존재하는 경우 음성영역을 부정확하게 추출하여 인식과정에서 오류를 발생하는 문제가 있다.

따라서, 본 발명은 상기한 종래의 문제점을 해결하기 위하여 창안한 것으로, 본 발명의 목적은 음성검출부의 오류로 인한 인식률의 저하를 개선시킨 음성 인식방법을 제공함에 있다.

제4도는 본 발명이 적용되는 음성 인식장치 블럭구성도로서, 마이크(1)를 통한 음성신호를 인터페이스하기 위한 마이크 인터페이스부(2)와, 상기 마이크 인터페이스부(2)로부터 인터페이스된 아날로그 음성신호를 다지탈 음성신호로 변환하는 디지탈/아날로그 변환부(3)와, 상기 아날로그/디지탈 변환부(3)로부터 얻어진 디지탈 음성데이타(DATA) 및 인터럽트신호(INT)에 따라 디지탈 음성신호를 처리하는 디지탈 신호 처리부(4)와, 상기 디지탈 신호 처리부(4)로부터 얻어진 어드레스를 디코딩하여 출력하는 어드레스 디코더(5)와, 상기 디지탈 신호 처리부(4)로부터 처리되어 출력되는 음성데이타를 기준패턴으로 저장하여 음성을 인식할 수 있도록 하는 제1, 제2 기준패턴램(7)(8)과, 음성 인식에 관한 프로그램이 저장된 프로그램롬(9)과 인식된 단어를 주변기기(1)에 출력하기 위한 입/출력 디코딩부(10)로 구성되었다.

이와 같이 구성된 본 발명이 적용되는 음성 인식장치를 참조하여 본 발명 음성 인식방법의 작용 및 효과를 상세히 설명하면 다음과 같다.

먼저 마이크(1)를 통해 음성 신호가 입력되면 마이크 인터페이스(2), 아날로그/디지탈 변환부(3)를 거쳐 디지탈 신호 처리부(4)로 인터럽트신호(INT)를 출력하게 된다.

이때 디지탈 신호 처리부(4)는 인터럽트를 수신했다는 인터럽트 인지신호(IACK)를 아날로그/디지탈 변환부(3)에 보낸다.

디지탈 신호 처리부(4)로부터 인터럽트인지 신호가 오면, 아날로그/디지탈 변환부(3)는 디지탈로 변환된 데이타를 디지탈 신호 처리부(4)로 전송한다.

디지탈 신호 처리부(4)는 이 디지탈 데이타를 인식과정(인식과정 흐름도)의 프로그램이 들어있는 프로그램롬(9)으로부터 프로그램을 읽어 들여 처리함으로서 인식 알고리즘 과정을 순차적으로 처리한다.

인식 알고리즘 수행이 끝나면, 인식된 단어를 주변기기(11)에 입/출력 디코딩부(10)를 통해 출력한다. 인식 과정 흐름도로서 기준패턴은 제1, 제2 기준패턴램(7,8)에 저장된다.

이하 본 발명 음성 인식방법을 첨부한 도면 제1도 내지 제3도를 참조하여 상세하게 설명하면 다음과 같다.

본 발명에서는 부정확한 음성검출로 인한 오류를 줄이기 위해 음성추출부에서 구해진 음성구간 전후를 더 탐색하여 음성추출부에서 생긴 오류를 보정한다.

일예로 상기 음성추출부에서 구해진 음성구간의 시작점을 A라고 하고, 끝점을 B라고 하면 음성보정구간은 (A-ε), (B+ε) 구간이 된다.

여기에서 ε는 보정가능한 구간을 나타낸다.

상기 구간(A-ε), (B+ε)에서 각각의 기준패턴 i에 대해 가장 잘 정합되는 구간 ai와 bi를 찾고, 그 구간에서의 기준패턴과의 정합 거리 lk를 구한다.

여기에서 각 기준패턴의 lk중 최소인 lk를 갖는 기준패턴을 인식 결과로 한다.

이와 같은 음성보정구간(A-ε), (B+ε)에서 기준패턴과의 정합에 의해 최적 구간 ai, bi를 결정하고 그때의 정합거리 lk를 구하는 방법은 DTW(Dynamic Time Warping)에 의해서 하게 된다.

통상적인 DTW(Dynamic Time Warping) 방법은 (i, j) 한점에서 누적거리가

로 결정되는데 이 방법을 그대로 적용하면 계산시간이 많이 소요되므로 본 발명에서는 수정된 DTW 방법을 사용한다.

즉, 여기서는 음성의 시작점이 결정되지 않았기 때문에 다음식을 이용하여 경로길이로 정규화된 거리 및 시작점을 구하게 된다.

여기에서 bk(i, j-1)은 (i, j-1)포인트까지 경로의 시작점이 된다.

즉, 상기 식에서 g(i, j)는 경로길이로 정규화된 거리(Distance)가 된다.

상기 bk(i, j)는 상기 세 경로중 최소인 경로의 bk값이 전달된다.

즉, 상기 식 ①이 최소값이면 시작점 bk(i, j)=bk(i, j-1)이 되고, 식 ②가 최소값이면 bk(i, j)=bk(i-1, j-1)이 되고, 식 ③이 최소값이면 bk(i, j)=bk(i-1, j)가 된다.

상기 과정은 모든 좌표(i, j)에 대해서 구하면 다음과 같이 bk를 구할 수 있다.

여기에서 lk는 k번째 기준패턴의 길이가 된다.

이와 같이 인식된 단어는 각각의 lk중 최소가 되는 lk가 기준패턴으로 인식한다.

제1도는 상기 DTW 방법을 도시한 그래프이다.

제2도는 경로 정규화 방법으로서 경로 A는 시작점의 e1이고, 경로 B는 시작점의 e2가 되는데 (i, j)점에서 A경로의 선택은 bk(i, j)=e1이 된다.

상기한 과정의 알고리즘은 제 3 도에 도시되어 있다.

상기 제3도에서 음성 인식이 시작(101)되면 변수 k=1로 설정(102)한다.

다음, bk(0, j)=j로 설정하고 g(0, j)=0로 설정(103)한다.

그리고 상기한 ①②③식을 계산하여 최소값이 ①이면 bk(i, j)=bk(i, j-1)로 ②이면 bk(i, j)=bk(i-1, j-1)로 ③이면 bk(i, j)=bk(i-1, j-1)로 각각 설정한 후(104) 모든 i, j에 대해 g(i, j)와 bk(i, j)를 구한다.

그리고 lk=min g(lk, i)를 구한 다음(105) 모든 기준패턴에 대해 lk가 구해졌는지 판단(106)하여 아직 구해지지 않았으면 상기 변수 k를 증가(k=k+1)(107)시키고 상기 단계(103)를 반복 수행하며, 상기 기준 패턴에 대해 lk가 구해졌으면 R=arg min{lk}(108) 단계를 처리하여 인식된 단어 R을 최소의 li기준패턴으로 인식하고 동작을 종료한다(109).

이와 같이 음성검출부에 의한 오류를 보정함으로써 인식률을 증가시키는 효과가 있다.

Claims

인식 대상 음성을 입력하는 단계와, 상기 입력된 신호로부터 음성영역만을 추출하는 끝점검출단계와, 상기 검출된 음성영역에서 음성의 특징을 추출하는 단계와, 상기 검출된 음성영역의 전후에 음성보정구간을 추가하는 단계와, 상기 보정된 음성구간에서 각각의 기준패턴에 대해 가장 잘 정합되는 최적구간을 설정하고 이때의 정합거리(lk)를 구하는 인식단계와, 상기 정합거리중 최소거리를 갖는 기준패턴에 해당하는 값을 인식결과로 출력하는 단계로 이루어짐을 특징으로 하는 음성 인식방법.
제1항에 있어서, 상기 인식단계의 정합방법은 상기 최적구간의 시작점을 정합경로를 따라 저장하고, 정합길이를 경로의 길이로 정규화하기 위해 한점에서 누적거리 g(i, j)와 시작점 bk(i, j)를

에 의해 구하는 단계와, 모든 (i, j)에 대해 상기 g(i, j)와 bk(i, j)를 구한후 lk=min(Ik,j)에 의해 정합길이 lk를 구하는 단계로 이루어짐을 특징으로 하는 음성 인식방법.