KR0169592B1

KR0169592B1 - 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법

Info

Publication number: KR0169592B1
Application number: KR1019960038319A
Authority: KR
Inventors: 안영목
Original assignee: 양승택; 한국전자통신연구원
Priority date: 1996-09-05
Filing date: 1996-09-05
Publication date: 1999-03-20
Also published as: KR19980020011A

Abstract

본 발명은 음성 인식에 사용되는 음성 특징 벡터에 관한 것이다. 음성 특징 벡터는 음성 명령어 입력신호를 A/D 변환한 후에 음성 특징 추출기에서 추출되는 것으로써 기준 패턴 비교기의 압력으로 사용된다. 이 음성 특징 벡터는 동일한 단어를 발성한다고 해도 음성 인식기가 어디에서 사용되느냐에 따라서 달라지며, 또한 사용자의 발성 패턴의 변화 및 입력 수단의 변경에 의해서도 달라진다. 따라서 이러한 변화는 기준 패턴 비교기에서 사용되는 기준 모델 생성시 사용하였던 음성 특징 벡터와 차이를 발생시키고, 이 차이에 의해 음성 인식기의 성능은 저하된다. 따라서 음성 특징 벡터가 기준 패턴 비교기에 입력되기 전에 음성 특징 벡터를 기준 모델에 적합하도록 처리해 줌으로써 음성 인식기의 성능 저하를 막을 수 있다. 본 발명은 이러한 처리 단계에 필요한 적응 음성 특징 벡터의 생성 방법 및 그 구현 절차에 관한 것이다.

Description

음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법

본 발명은 사람과 컴퓨터 사이의 인터페이스에서 음성 인식 방법을 사용할 때 음성 인식에 사용되는 음성 특징을 사용하는 환경에 따라서 적응 시킴으로써 음성 인식의 성능을 개선 시키기 위한 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법에 관한 것이다.

종래의 음성 인식 시스템에서 사용되는 음성 특징은 구현된 프로그램 및 하드웨어 장치에 의해서 입력되는 음성의 특징을 매 구간마다 구하여 사용 환경에 따른 특별한 변환 및 적응의 단계가 없이 바로 비교기로 넘겨준다. 따라서, 음성 인식기의 사용 환경이 바뀌게 되면 저장되어 있는 기준 패턴들의 각 모델들은 새로운 환경과 차리가 발생된다. 이러한 차이는 음성 인식기의 성능을 저하시키는 한 원인이 된다. 또한 화자의 건강 상태 및 감정에 의해서 목소리가 바뀔 수 있다. 이러한 경우에 그 화자가 처음에 음성 인식기를 훈련시킬 때와는 다른 음성 특징이 추출된다. 즉, 화자가 처음 등록할 때 생성한 각 기준 패턴들의 각 모델들과 현재 발성에 의해서 만들어 지는 각 기준 패턴들의 각 모델들 사이에는 차이가 발생된다. 이러한 변화는 화자가 바뀔 경우에도 발생될 수 있으며, 음성 입력 장치에 의해서 바뀔 수 있다.

상술한 바와 같이 최초의 모델 생성시의 환경과 달라진 이러한 변화들은 음성 인식기의 성능을 저하시키므로 변화에 적응할 수 있는 처리 단계가 필요하다.

따라서, 본 발명은 음성 특징을 비교부로 넘겨주는 단계에서 바뀐 환경에 적응된 음성 특징을 넘겨줌으로써 음성 인식기의 성능이 환경 및 화자의 변화에 대해서 적응력을 갖도록 하는데 그 목적이 있다.

상기의 목적을 달성하기 위한 본 발명은 음성 명령어 입력신호를 A/D 변환 하고, 이로부터 음성 특징 벡터를 추출하는 단계와, 추출된 상기 음성 특징 벡터을 입력으로하여 적응 음성 특징 벡터를 추출하는 단계와, 컴퓨터 내에 미리 시스템 제작자나 사용자가 정의하고 등록해 놓은 어휘 목록 및 이의 음소 단위 발음 사전인 등록 단어 발음 사전과 각 음소의 모델 성분을 조합하여 각 등록된 단어의 단어 모델들을 생성하는 단계와, 생성된 상기 단어 모델들과 상기 적응 음성 특징 벡터를 기준 패턴 비교하는 단계와, 상기 기준 패턴 비교에 따라 가장 거리가 가까운 단어를 인식 결과로 출력하는 단계로 이루어진 것을 특징으로 한다. 적응 음성 추출 단계는 음성 인식기를 새로운 환경에 적응시킴에 있어서, 가중치를 선택하는 단계와, 상기 가중치를 선택하는 단계에서 결정된 가중치를 현재 음성 특징 벡터와 이전 음성 특징 벡터에 반영한 결과를 바탕으로 하여 현재 음성 특징 벡터를 구하는 적응 음성 벡터 생성 단계와, 상기 적응 음성 벡터 생성 단계에서 추출된 적응 음성 특징 벡터를 기준 패턴과 비교 하여 해당 모델에 대한 발생 확률 값을 구하는 발생 확률 값 계산 단계와, 상기 발생 확률 값 계산 단계에서 얻어진 발생 확률 값을 이용하여 최적의 가중치가 얻어 졌는지를 판단하여 최적 가중치 판단 단계로 이루어진 것을 특징으로 한다.

제1도는 본 발명이 적용되는 하드웨어의 구성도.

제2도는 종래의 음성 인식기의 처리 흐름도.

제3도는 본 발명에 따른 음성 인식기의 처리 흐름도.

제4도는 본 발명에 따른 음성 특징의 환경 적응에 대한 흐름도.

* 도면의 주요부분에 대한 부호의 설명

11 : 음성 입력 장치 12 : A/D 변환 장치

13 : 기억 장치 14 : 중앙 처리 장치

15 : 인식 결과 출력 장치

이하 첨부된 도면을 참조하여 본 발명에 따른 일실시 예를 상세히 설명한다.

제1도는 본 발명이 적용되는 하드웨어의 구성도이다. 컴퓨터에 음성 명령어를 발성하면 음성 입력 장치(11)와 컴퓨터 내의 A/D 변환 장치(12)를 거쳐 디지털로 변환 된다. 중앙 처리 장치(14)는 이 디지털 음성 데이터로부터 음성 특징 벡터를 추출하고, 이 특징 벡터와, 기억 장치(13) 내에 저장되어 있던 인식 대상 단어의 단어 모델과 비교하여 가장 거리가 가까운 단어를 출력 장치(15)를 통해 인식 결과로 출력 시킨다.

제2도는 종래의 음성 인식기의 처리 흐름도이다. 먼저, 음성 명령어가 입력(21)되면, 이를 A/D 변환(22)하고, 이로부터 음성 특징 벡터 추출기(23)에서 음성 특징벡터를 추출한다. 추출된 음성 특징 벡터와 비교할 모델을 구성하는 방법은, 컴퓨터 내에 미리 시스템 제작자나 사용자가 정의하고 등록해 놓은 어휘 목록 및 이의 음소 단위 발음 사전인 등록 단어 발음 사전(25)과 각 음소의 모델 성분(27)을 조합하여 각 등록된 단어의 단어 모델을 생성(26)시킨다. 생성된 단어 모델들과 앞서 추출해 놓은 음성 특징 벡터 열을 기준 패턴 비교기(24)에서 비교하여 가장 거리가 가까운 단어를 인식 결과로 출력(28)한다.

제3도는 본 발명에 따른 음성 특징 적응기가 포함된 처리 흐름도이다. 음성 명령어가 입력(21)되면, 이를 A/D 변환(22)하고, 이로부터 음성 특징 벡터 추출기(23)에서 음성 특징 벡터를 추출 한다. 이후, 추출된 음성 특징 벡터를 입력으로하는 적응 음성 특징 벡터 추출기(29)에서 적응 음성 특징 벡터를 추출(29)한다. 추출된 적응 음성 특징 벡터와 비교할 모델을 구성하는 방법은, 컴퓨터 내에 미리 시스템 제작자나 사용자가 정의하고 등록해 놓은 어휘 목록 및 이의 음소 단위 발음 사전인 등록 단어 발음 사전(28)과 각 음소의 모델 성분(27)을 조합하여 각 등록된 단어의 단어 모델을 생성(26)시킨다. 생성된 단어 모델들과 앞서 추출해 놓은 음성 특징 벡터 열을 기준 패턴 비교기(24)에서 비교하여 가장 거리가 가까운 단어를 인식 결과로 출력(28)한다.

제4도는 적응 음성 특징 추출기의 처리 흐름도이다. 가중치 선택기(31)에는 제3도의 음성 특징 추출기(23)의 출력인 음성 특징 벡터가 입력된다. 최초로 음성 특징 벡터가 입력되는 경우에 현재 음성 특징 벡터는 현재 음성 특징 벡터만을 이용한다. 다시 말하면 이전 음성 특징 벡터의 반영 비율은 0 %이고, 현재 음성 특징 벡터는 100 %이다. 이 반영 비율 즉, 가중치는 적응 음성 벡터 생성기(32)에 전해지고 이 가중치를 사용하여 적응 음성 벡터가 생성 된다. 따라서, 최초로 구해지는 적응 음성 벡터는 원래 음성 특징 벡터 즉 음성 특징 추출기(23)에서 전해지는 것과 동일하다. 이 적응 음성 벡터는 발생 학률 값계산기(33)에서 해당 모델과 음성 특징 벡터를 비교하여 발생 확률 값이 구해진다. 이 발생 확률 값은 최적 가중치 판단기(34)로 전해진다. 최적 가중치 판단기(34)에서는 넘겨 받은 발생 확률 값을 이전 발생 확률 값과 비교하여 최적의 가중치가 발생되었는가를 판단하여 음성 특징 적응기의 작업을 계속할 것인지 끝낼 것인지를 판단한다. 최적 가중치 판단기(34)에서는 전체적으로 세 가지의 상황이 발생된다. 첫째의 경우는 최초로 최적 가중치 판단기(34)가 동작하였을 경우이다. 즉 발생 확률 값 계산이 처음으로 이루어진 경우를 말한다. 이런 경우에는 다음 작업이 바로 가중치 선택기(31)로 넘어간다. 둘째의 경우는 이전의 발생 확률 값과 현재의 발생 확률 값을 비교한 결과 그 발생 확률값이 감소한 경우이다. 이러한 경우에는 이전의 가중치를 고정 시키는 신호를 가중치 선택기(31)에 전달한다. 셋째의 경우에는 이전의 발생 확률 값과 현재의 발생 확률 값을 비교한 결과 그 발생 확률 값이 증가한 경우이다. 이러한 경우에는 가중치 선택기(31)에 가중치를 계속적으로 변화시키라는 신호를 보낸다. 가중치 선택기(31)에서는 최적 가중치 판단기(34)의 신호를 바탕으로 가중치를 변경시켜서 적응 음성 벡터 생성기(32)로 전달한다.

상기와 같이 구성되어 동작하는 본 발명은 다음과 같은 효과가 있다.

첫 번째의 효과는 음성 특징 벡터가 변화된 발성 환경에 따라서 기준 패턴에 적합하도록 적응됨으로써 음성 인식기가 발성 환경에 덜 민감하게 된다.

두 번째의 효과는 화자의 변화 즉, 건강 상태, 감정 등에 의해서 발성 패턴은 변화하게 되는데 이러한 경우에 음성 특징 벡터가 새로운 발성에 적응함으로써 음성 인식기의 성능이 유지된다.

세 번째의 효과는 음성 입력 장치가 바뀔 경우 원래의 기준 패턴과 입력되는 음성 특징은 다소 차리가 발생된다. 이러한 경우 적응 음성 벡터 생성기는 음성 특징을 변환하여 음성 입력 장치의 특성에 의한 기준 패턴과의 차이를 감소시킨다.

Claims

음성 명령어 입력신호를 A/D 변환 하고, 이로부터 음성 특징 벡터를 추출하는 단계와, 추출된 상기 음성 특징 벡터에 따라 적응 음성 특징 벡터를 추출하는 단계와, 컴퓨터 내에 미리 시스템 제작자나 사용자가 정의하고 등록해 놓은 어휘 목록 및 이의 음소 단위 발음 사전인 등록 단어 발음 사전과 각 음소의 모델 성분을 조합하여 각 등록된 단어의 단어 모델들을 생성하는 단계와, 생성된 상기 단어 모델들과 상기 적응 음성 특징 벡터를 기준 패턴 비교하는 단계와, 상기 기준 패턴 비교에 따라 가장 거리가 가까운 단어를 인식 결과로 출력하는 단계로 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
제1항에 있어서, 상기 적응 음성 추출 단계는 음성 인식기를 새로운 환경에 적응시킴에 있어서 가중치 선택 단계와, 상기 가중치 선택 단계에서 결정된 가중치를 현재 음성 특징 벡터와 이전 음성 특징 벡터에 반영한 결과를 바탕으로 하여 현재 음성 특징 벡터를 구하는 적응 음성 벡터 생성 단계와, 상기 적응 음성 벡터 생성 단계에서 추출된 적응 음성 특징 벡터를 기준 패턴과 비교 하여 해당 모델에 대한 발생 확률 값을 구하는 발생 확률 값 계산 단계와, 상기 발생 확률 값 계산 단계에서 얻어진 발생 확률 값을 이용하여 최적의 가중치가 얻어 졌는지를 판단하는 최적 가중치 판단 단계로 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
제2항에 있어서, 상기 최적 가중치 판단 단계는 최초로 최적 가중치 판단기가 동작하였을 경우에는 다음 작업이 바로 가중치 선택기로 넘어가도록 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
제2항에 있어서, 상기 최적 가중치 판단 단계는 이전의 발생 확률 값과 현재의 발생 확률 값을 비교한 결과 그 발생 확률 값이 감소한 경우에는 이전의 가중치를 고정시키는 신호가 가중치 선택기로 넘어가도록 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
제2항에 있어서, 상기 최적 가중치 판단 단계는 이전의 발생 확률 값과 현재의 발생 확률 값을 비교한 결과 그 발생 확률 값이 증가한 경우에는 가중치 선택기에 가중치를 계속적으로 변화시키라는 신호를 보내도록 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.
제2항에 있어서, 상기 가중치 선택 단계는 최적 가중치 판단기의 신호를 바탕으로 가중치를 변경시켜서 적응 음성 벡터 생성기로 전달하도록 이루어진 것을 특징으로 하는 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법.