KR100232788B1

KR100232788B1 - 음성인식 시스템의 음성 인식 방법

Info

Publication number: KR100232788B1
Application number: KR1019920009186A
Authority: KR
Inventors: 김홍국
Original assignee: 윤종용; 삼성전자주식회사
Priority date: 1992-05-28
Filing date: 1992-05-28
Publication date: 1999-12-01
Also published as: KR930023909A

Abstract

본 발명은 음성 인식 시스템에 있어서의 음성인식 방법에 관한 것으로 특히, 신경회로망 기법에 따른 퍼지(fuzzy) 개념의 적용을 통해 서로 다른 음성의 입력 패턴 구별을 용이하게 하여 음성의 인실률을 향상시키도록 하는 학습과정을 구비하는 음성 인식 방법에 관한 것이다. 이러한 본 발명은, 음성 인식 시스템의 음성인식 방법에 있어서, 백터 양자화의 적용이 아니라 Kohonen의 특징 맵 알고리즘에 따른 퍼지 개념을 도입함으로써 기준 패턴에 대한 분류를 퍼지 함수를 사용하여 자동적으로 결정하도록 하는 학습과정을 통해 특징맵을 생성하고 이를 통해 음성인식에 있어 인식률 향상과 수행 시간을 줄여 주는 음성 인식 방법을 특징으로 한다.

Description

음성인식 시스템의 음성 인식 방법

제1도는 통상적인 음성인식 시스템의 구성도.

제2도는 종래 기술에 따른 음성인식 시스템에 있어서의 음성인식 흐름도.

제3도는 본 발명의 실시에 다른 음성인식 시스템의 음성인식 흐름도.

본 발명은 음성 인식 시스템에 있어서의 음성 인식 방법에 관한 것으로 특히, 신경회로망 기법에 따른 퍼지(fuzzy) 개념의 적용을 통해 서로 다른 음성의 입력 패턴 구별을 용이하게 하여 음성이 인식률을 향상시키도록 하는 학습과정을 구비하는 음성 인식 방법에 관한 것이다.

통상적으로 음성 인식을 수행하는 음성 인식 시스템의 기본적인 내부 구성은 첨부된 제1도에 도시된 구성 상태를 가지게 된다. 이를 살펴보면, 먼저 음성 인식을 행함에 있어 이루어지는 동작은 입력되는 음성데이터의 학습과정과 학습결과를 통한 입력되는 음성 데이터의 인식 과정으로 크게 구분된다. 상기 학습과정은 입력되는 음성신호가 잡음으로부터 분리됨에 있어서 음성의 에너지와 영교차율을 이용 끝점 검출이 이루어진 후 상기 검출된 끝점을 통해 LPC계수의 추출을 이룬 후 추출된 LPC계수로서 특징 벡터를 삼아 이러한 특징 벡터로부터 특징 맵을 생성하는 과정으로서 이루어진다. 상기 인식 과정과 DTW(Dynamic Time Warping)나 유클리드 거리를 계산한 후 그 결과를 통해 가장 적절한 단어를 선정하는 과정으로서 이루어지게 된다. 상기 학습 및 인식 과정에 따른 음성 인식 동작의 수행이 이루어지는 음성 인식 시스템의 구성은 첨부된 제1도에 있어 도시된 구성을 갖게 된다. 상기 제1도의 구성을 통해 음성인식 동작을 살펴보면, 끝점 검출이 이루어진 후 그로부터 특징 검출이 이루어지고, 그 결과로서 학습과정의 경우 특징맵의 생성을 이루며, 인식과정의 경우는 상기 생성된 특징맵과의 거리계산을 통해 결정 논리를 수행한 후 입력된 음성의 인식을 이루게 된다.

한편, 상기한 음성 인식 시스템에 있어서의 음성 인식 방법의 경우, 특징맵의 생성이 벡터 양자화(vector quantization)를 통해 이루어지는 것이 통상의 음성인식 방법에 있어서의 학습과정이 되는데, 이는 처리되는 데이타량의 감소와 음성 인식 시간의 절감 측면에 있어서 많은 효과를 가져다 주게 된다. 그러나 벡터 양자화를 통한 음성인식의 경우 상기한 바와 같은 데이터량 및 시간 절감의 효과 발생에 따른 이점이 있으나, 반면으로 벡터 양자화에 따른 양자화 오차를 발생하여 인식률이 저하되는 문제를 필연적으로 가지게 된다. 결국, 벡터 양자화에 따른 음성 인식의 경우 발생되는 양자화 오차로 인하여 음성 인식의 정확도 즉, 인식률이 일정정도 저하되는 문제를 가질 수밖에 없었다. 첨부된 제2도에 도시된 동작 흐름은 바로 상기한 바와 같은 벡터 양자화를 통한 음성인식 방법의 실예를 보여주는 종래 기술을 나타낸 도면이다.

상기 제2도를 참조하여 종래 기술에 따른 음성 인식 과정을 설명하면,

입력데이타을로 무리짓는 클러스터링(Clustering)방법은 다음 절차를 따른다.

제1단계 : 초기화 m_i(t)=m_i(0), 1≤i≤L

여기서 m_i(0)는 랜덤 벡터(random vector)이고 L은 특징 맵의 차수이다.

제2단계 : 최소거리를 갖는 출력 노드를 찾는다.

∥X_j(i)-m(t)∥ = min_i∥X_j(t)-m(t)∥

제3단계 : 출력노드 i가 Nc(Neighbor function)에 속하는지를 판단하여 속하면 가중치(Weight)를 갱신한다.

m_i(t+1)=m_i(t)+α(t)[X_j(t)-m_i(t)]

제4단계 : 종료 조건으로 모든 입력에 대해 디스토션(Distortion)D(t)을 구한다.

의 변화량이 임계치보다 작으면 종료한다.

따라서, 본 발명의 목적은 종래 음성인식 방법에 있어 적용된 벡터 양자화 기법이 발생시킨 양자화 오차에 의한 음성의 인식률 저하 문제를 해소하는 음성인식 방법을 제공함에 있다.

또한, 본 발명의 목적은 보다 향상된 음성 인식률을 가지며 아울러 음성인식 시간의 절감을 가져올 수 있는 음성 인식 방법을 구현함에 있어 신경호로망 기법의 적용을 통해 그러한 음성 인식 방법을 구현하고자 하며, 특히 기준 패턴에 대한 분류를 자동적으로 결정해주도록 하기 위해 퍼지(Fuzzy) 개념의 적용을 통해 그러한 음성 인식 방법을 구현함에 있다.

결국, 본 발명의 목적은 음성 인식에 있어 보다 향상된 인식률과 인식 시간을 가질 수 있도록 종래에 있어 적용되는 벡터 양자화 대신 퍼지 개념이 도입된 신경회로망 기법의 적용에 의한 음성 인식 방법의 구현에 있는 것이다.

이러한 목적들의 달성을 위해 본 발명에서는 음성 인식 시스템의 음성 인식 방법에 있어서, 음성 인식 시스템의 음성 인식 방법에 있어서, 벡터 양자화의 적용이 아니라 Kohonen의 특징 맵 알고리즘에 따른 퍼지 개념을 도입함으로써 기준 패턴에 대한 분류를 퍼지 함수를 사용하여 자동적으로 결정하도록 하는 학습과정을 통해 특징맵을 생성하고 이를 통해 음성인식에 있어 인실률 향상과 수행 시간을 줄여 주는 음성 인식 방법을 제안한다.

보다 구체적으로는 상기한 본 발명의 목적들을 달성함에 있어서 제안되는 음성인식 방법은 가중치를 초기화하는 과정과 퍼지일원함수을 구하는 과정과 상기 퍼지 일원함수중 최소의을 갖는 출력노드를 찾는 과정과, Nc(t)를에 의해 검출하는 제4과정, 노드 i가 상기 Nc(t)에 속하면 가중치 m_i(t+1)를 m_i(t)+α(t)(X_j(t)-m_i(t))로 하고 그렇지 않으면 m_i(t)로 설정하는 과정과 전체 왜곡 D(t)는,

을 만족하고 상기 D(t)의 변화량이 소정의 임계치보다 작으면 학습을 종료하는 과정으로 이루어짐을 특징으로 한다.

이하 본 발명을 첨부한 제3도를 참조하여 본 발명에 따른 음성 인식 방법을 상세히 설명한다.

무리짓 하고자 하는, 즉 클러스터링 하고자 하는 중심(centroid)의 수를 L개 입력 데이타 세트를이라 하고, 새로이 퍼지 일원함수 U_ij∈[0, 1]을 도입한다.

여기서 상기 U_ij은 X_i(t)가 무리(cluster) i에 속할 정도를 표시하며 이를 행렬 형태로 표현하면,

U=[U_ij]_{i=1~L. j=1~N}이 된다. 이때 상기 U_ij에 대한 제약식은 다음과 같게 된다.

이 된다

기존의 특징 맵 알고리즘의 전체 왜곡 D(t)는

이 되며, 여기서 w(X_i(t))는 X_i(t)의 가중(Weight)함수이고 본 발명에서는 g[w(X_i(t)), U_ij]=U² _ij이 된다.

여기서

이므로, 따라서,

와 같이 되고 이 값은 이후 상기 제3도를 참조로서 설명되는 본 발명에 따른 음성인식 방법에 있어 제6단계에서 학습의 종료 혹은 반복 판정의 근거가 된다.

상기 제3도의 참조로서 본 발명에 따른 음성 인식 방법을 다음과 단계로서 설명한다.

제1단계 : 모델 초기화를 행한다.

제2단계 : 퍼지 일원함수 U² _ij을 구한다.

U² _ij은 상기 식(4)와 같다.

제3단계 : 최소의 U² _ij을 갖는 출력노드 C를 찾는다.

C = min_iU² _ij

제4단계 : α(t) = dU² _ij로 하면 α는 상수이다.

또한,로 구해진다.

제5단계 : 노드가 i가 Nc(t)에 속하면 가중치(Weight)는

m_i(t+1)=m_i(t)+α(t)(X_j(t)-m_i(t))가 되고,

속하지 않으면,

m_i(t+1)=m_i(t)가 된다.

제6단계 : 종료 조건 테스트를 행한다.

전체 왜곡 D(t)는 전술한 식(5)로 주어지며 D(t)의 변화량이 어느 임계치보다 작은면 학습이 종료되고 그렇지 않으면 학습이 반복된다.

정리하면, 본 발명은 음성인식 방법에 있어 벡터 양자화 개념에 따라 특징맵 생성을 이루는 종래의 음성인식 방법을 대신하여 신경회로망 기법에 있어서의 퍼지 개념인 Kohonen의 특징 맵 알고리즘의 적용을 통해 기준 패턴에 대한 분류를 자동적으로 결정하도록 하여 특징맵을 생성하는 음성인식 방법을 구현하는 것이다.

한편, 상기 Kohonen의 특징맵 알고리즘의 상세한 내용은 참고문헌 “T.Kohonen, Self-Orgonization and Associative Memory, Springer-Ver lag”에 기술되어 있으면 이의 참조가 이루어졌다. 그리고 본 발명이 실시에 있어 제안된 음성인식에 있어서의 클러스터링 방법의 참조는 참고문헌 “J.G.Loilpon, L.R,Rabiner, A Modified K-means Clustering Algorithm for usein lsolated Word Recognition, IEEE Trans on ASSP, Vol, 33, No4, 1985”의 참조를 통해 이루어 졌다.

결국 상술한 바와 같은 본 발명의 실시에 따라 제안된 음성 인식 방법은 향상된 음성 인식률의 달성과 동시에 음성 인식 시간의 절감을 이루는 이점을 가져다 준다. 즉, 본 발명의 실시는 종래 기술에 있어서의 특징 맵 생성시 발생되었던 양자화 오차에 따른 인식률 저하 문제를 해소하는 효과를 가지게 되는 것이다.

Claims

학습과정을 통해 특징맵을 생성하고 상기 생성된 특징맵의 이용을 통해 음성 인식을 수행하는 음성인식 시스템의 음성인식 방법에 있어서, 가중치를 초기화하는 제1과정과 퍼지 일원함수 U² _ij을 구하는 제2과정과 상기 퍼지 일원함수 U² _ij중 최소의 U² _ij을 갖는 출력노드를 찾는 제3과정과에 의해 검출하는 제4과정과 노드 i가 상기 Nc(t)에 속하면 가중치 m_i(t+1)를 m_i(t)+α(t)(X_j(t)-m_i(t))로 갱신하고 속하지 않으면 m_i(t)로 설정하는 제5과정과 전체 왜곡을 만족하고 그에 따른 결과로서의 전체왜곡 D(t)의 변화량이 일정 임계치 보다 작으면 학습을 종료하고 그렇지 않을 시는 학습을 반복하는 제6과정으로 이루어지는 학습과정으로서 특징맵을 생성함을 특징으로 하는 음성인식 시스템의 음성인식 방법.
제1항에 있어서, 상기 제2과정에 따라 구해지는 퍼지일원함수 U² _ij는,로서 구해짐을 특징으로 하는 음성인식 시스템의 음성인식 방법.