KR100346736B1

KR100346736B1 - 음성인식방법

Info

Publication number: KR100346736B1
Application number: KR1019950019063A
Authority: KR
Inventors: 김경선; 공병구
Original assignee: 삼성전자 주식회사
Priority date: 1995-06-30
Filing date: 1995-06-30
Publication date: 2002-10-25
Also published as: KR970002854A

Abstract

음성인식에서의 인식률향상에 관련된 것으로서 음성의 공통특징을 추출하여 음성인식에 적용하는 방법이 개시된다.

본 발명에 따른 음성인식방법은 학습용 음성패턴으로부터 평균참조패턴및 발생/천이확률을 구하는 과정; 학습용 음성패턴이 공통으로 갖는 공통특징패턴을 추출하고, 이에 의해 상기 평균참조패턴을 갱신하는 과정; 상기 갱신된 평균참조패턴에 의해 입력되는 음성을 인식하는 과정;및 상기 인식과정의 결과에 의해 상기 발생/천이확률을 갱신하는 과정을 포함함을 특징으로 한다.

본 발명에 따른 음성인식방법은 학습어휘중의 공통특징패턴을 추가적으로 사용함으로써 인식률을 제고시키는 효과를 갖는다.

Description

음성인식방법

본 발명은 음성인식에서의 인식률향상에 관련된 것으로서 음성의 공통특징을 추출하여 음성인식에 적용하는 방법에 관한 것이다.

다수의 학습용 음성패텅에서 평균참조패턴을 추출하여 인식에 이용하는 방법이 많이 연구되어져 왔다. 예를 들면 DP(Dynamic Programming)매칭을 이용하는 방법과 HMM(Hidden Markov Modeling)방법이 대표적으로 사용된다.

이러한 방법을 이용한 음성인식장치에서는 입력환경이 바뀌어 입력되는 음성신호에 왜곡이 발생하는 경우에도 높은 인식률을 얻기 위해서는 입력환경에 적응하도록 참조패턴의 적응과정이 필요하다.

그러나, 인식대상어휘가 많을 때에는 모든 입력환경을 고려하여 참조패턴을 구하는 것은 많은 시간과 노력을 요구하는 것이다.

이러한, 작업을 회피하기 위하여 화자적응에 관한 많은 연구가 수행되어졌지만 아직도 입력환경의 변화에 의한 인식률감소의 문제를 해결하기에는 미흡하다.

본 발명은 상기의 문제점을 해결하기 위하여 창출된 것으로서 노이즈첨가, 음색의 변화 등의 입력환경의 변화에 적응하여 인식률을 향상시키는 음성인식방법을 제공하는 것을 목적으로 한다.

상기의 목적을 달성하는 본 발명에 따른 음성인식방법은

학습용 음성패턴으로부터 평균참조패턴및 발생/천이확률을 구하는 과정;

학습용 음성패턴이 공통으로 갖는 공통특징패턴을 추출하고, 이에 의해 상기 평균참조패턴을 갱신하는 과정;

상기 갱신된 평균참조패턴에 의해 입력되는 음성을 인식하는 과정;및

상기 인식과정의 결과에 의해 상기 발생/천이확률을 갱신하는 과정을 포함함을 특징으로 한다.

본 발명에 따른 음성인식방법은 다음과 같은 과정을 따라 수행된다.

1) 학습용 음성패턴으로부터 평균참조패턴및 발생/천이확률을 구한다.

음성인식기의 학습은 제1도에 도시되는 바와 같이 목표가 되는 음소에 대하여 복수의 학습패턴들이 주어지고, 목표클래스와 시간지연 신경망에서 인식한 결과로서 출력된 음소와의 차이를 구하고, 이를 피드백시켜 최적의 음소인식을 수행하는 가중치를 계산한다.

가중치는 20ms의 크기를 갖는 프레임을 순차적으로 처리해가면서 최적의 값을 갖도록 조정된다.

발생/천이확률은 인식대상어휘의 음소분포를 확률적으로 표시한 것을 말하며, 발생확률은 현상태에서의 음소발생을 예측하는 것이고, 천이확률은 현상태에서 어떤 음소가 주어졌을 때 다음상태의 음소를 예측하는 것이다.

2) 학습용 음성패턴이 공통으로 갖는 공통특징패턴을 추출하고, 이에 의해 상기 평균참조패턴을 갱신한다.

공통특징패턴은 자율신경만을 이용하여 중심벡터와 유클리디안 거리정보를 이용하여 학습패턴을 특징별로 분류한다.

구체적으로는 하나의 음소에 대한 공통특징패턴은 대상음소를 포함하는 M개의 단어마다 N개의 샘플을 설정하고, 설정된 N개의 샘플에서 공통되는 특징을 구하고, 구해진 M개의 공통되는 특징을 발생빈도수에 따른 가중평균에 의하여 구해진다.

예를 들면 제2도에 도시되는 바와 같이 /아/라는 음소에 대하여, 이를 포함하는 "아-ㄴ 녕하십니까", "아버지", 등등의 M개의 단어를 설정한다. 그리고, 자율신경망을 통하여 설정된 각각의 단어를 N회 반복발성하여 얻어진 N개의 음성신호에서 공통되는 패턴을 추출한다.

M개의 단어마다 공통되는 패턴을 추출하면 총 M개의 공통패턴이 추출된다. 이를 다시 가중평균하여 공통특징패턴을 얻는다.

이렇게 얻어진 공통특징패턴과 1)과정에서 얻어진 평균참조패턴을 가중평균하여 얻어진 패턴으로 평균참조패턴을 갱신한다.

3) 갱신된 평균참조패턴에 의해 입력되는 음성을 인식한다.

여기서, 입력되는 음성신호의 전체 음소들을 제3도에 도시되는 바와 같이 공통특징패턴을 포함하는 음소와 그렇지 않은 음소로 분리하고, 각각에 대하여 별도의 음성인식처리를 행한다.

학습패턴에 있던 공통특징패턴과 우사한 부분을 검출하여 그 부분의 음소를 미리 알아내어 인식해야 할 패턴수를 줄임으로써 인식률을 제고시킬 수 있다.

또한, 음력음성의 공통특징구간을 재학습시키면 현재 입력음성과 학습음성 간의 적응과정을 수행시키는 결과를 얻을 수 있다. 따라서, 입력환경의 변화 예를 들면, 노이즈가 가변되는 자동차 안이나 공장 등에서의 인식률을 향상시킬 수 있다.

4) 인식과정의 결과에 의해 발생/천이확률을 갱신한다.

최근에 사용된 음소들에 의해 발생/천이확률이 갱신됨으로써 자주 사용되는 어휘에 대해 가중치가 높아져서 인식률이 향상된다.

상술한 바와 같이 본 발명에 따른 음성인식방법은 학습어휘중의 공통특징패턴을 추가적으로 사용함으로써 인식률을 제고시키는 효과를 갖는다.

더우기, 입력환경의 변화에 대응하여 공통특징패턴을 재학습시킴에 의해 간단하게 화자적응을 달성할 수 있다.

제1도는 평균참조패턴을 학습하는 것을 보이는 도면이다.

제2도는 본 발명에 따른 음성인식방법에 있어서 공통특징패턴을 구하는 방법을 보이기 위한 도면이다.

제3도는 전체 입력음성에 있어서 공통특성패턴의 분포를 보이기 위한 도면이다.

Claims

학습된 참조패턴을 참조하여 음성을 인식하는 방법에 있어서,

학습용 음성패턴으로부터 평균참조패턴및 발생/천이확률을 구하는 과정;

학습용 음성패턴이 공통으로 갖는 공통특징패턴을 추출하고, 이에 의해 상기 평균참조패턴을 갱신하는 과정;

상기 갱신된 평균참조패턴에 의해 입력되는 음성을 인식하는 과정; 및

상기 인식과정의 결과에 의해 상기 발생/천이확률을 갱신하는 과정을 포함하는 음성인식방법.