KR920701942A

KR920701942A - 음성 인식의 잡음강도를 개선하기 위한 스펙트랄 추정방법

Info

Publication number: KR920701942A
Application number: KR1019910701482A
Authority: KR
Inventors: 에렐 아도람; 와인트라우브 미첼
Original assignee: 리챠드 피. 란제; 에스알아이 인터내셔널
Priority date: 1990-02-28
Filing date: 1991-02-25
Publication date: 1992-08-12
Also published as: AU7487591A; WO1991013430A1; CA2051386A1; JP3154487B2; DE69121145D1; EP0470245A1; DE69121145T2; AU649029B2; KR100192854B1; EP0470245B1; JPH04505670A

Abstract

내용 없음

Description

음성 인식의 잡음강도를 개선하기 위한 스펙트랄 추정방법

본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음

제1도는 본 발명에 따른 방법을 채용한 전처리기를 채용한 음성인 식 시스템의 블럭도이다. 제2도는 본 발명에 따른 제1방법에 따라 혼합 모델을 사용하는 단일 프레임 MMLSD추정기의 블럭도이다. 제3도는 본 발명과 관련하여 사용되는 가우스 모델(Gaussians model)의 혼합의 계산을 도시한 플로우 챠트이다.

Claims

디지탈화된 음성을 나타내는 신호들에 응답하기 위한 음성인식 시스템에서 노이즈 존재하의 음성을 전처리하는 방법에 있어서, 디지탈화된 음성과 노이즈를 음성 벡터의 각 시간-불변 세그멘트와 노이즈 존재하의 음성정보의 한 주파수 채널을 나타내는 노이즈 음성 벡터의 각 엘레멘트로 분류하고, 상기한 노이즈는 주파수 정의역에 무관하고 시간 불변하게 부가되어지는 것으로 가정되는 노이지이며; 1)깨긋한 음성의 확률분포가 혼합 모델로서 콤포넌트 혼합에 의하여 모델화 되어질 수 있고, 각 콤포넌트 서로다른 주파수 채널들이 2)항을 근거로하여 각 클래스내에서 상호 관련이 없다고 가정하는 서로다른 음성클래스를 나타낸다는 가정 및 2)추정된 깨끗한 음성 벡터를 획득하기 위하여 서로다른 주파수 채널들이 상호 관련이 없다는 가정을 기본으로하는 깨끗한 음성 벡터 어라운드 노이즈 음성 벡터의 조건확률 함수를 근거로하여 노이즈 음성 벡터로부터 상기한 각 엘리멘트에 대하여 음성값을 추정하는 단계를 포함하는 음성 인식기의 전처리 방법.
제1항에 있어서,

여기서 인덱스 n은 클래스이고, S_k어라운드 n의 추정은 다음과 같이 주어진 n^th클래스-조건화된 MMSE추정량이고,

여기서

인 함수에 따라 다중-주사푸 채널 함수에 관하여 필터 로그 스텍터랄 에너지를 추정하는 단계를 포함하는 음성인식기의 전처리 방법.
제2항에 있어서, 상기한 추정단계에 유클리드 거리의 추정을 획득하기 위하여 노이즈 음성의 벡터에 최소평균-로그-스펙트랄-거리 추정을 적용하는 단계가 포함된 음성인식기의 전처리 방법.
제1항에 있어서, 깨끗한 음성 벡터 어라운드 노이즈 음성 벡터의 조건확률 P(S'_k｜S_k)은 다음과 같이 모델화 되어진다: 1)추정되어지는 음성과 연관된 노이즈는 각 시간 프레임에서 상기 한 노이즈에 대하여 이산푸리에 변형(DFT)의 계수가 상호 무관한 복소 가우스 임의 변수가 되도록 정상적이고 자동복귀 이동평균 확률론적 처리로 가정된다; 2)필터 출력 에너지는 M계수들의 합에 의해 접근 되는 것으로 가정한다; 3)노이즈 스펙트랄 파워는 필터들의 통과대역 범위내에서 균일하게 되도록 가정된다; 노이즈만 있는 경우, 합은 가우스인 임의의 2M변수, 제로평균 및 편차의 합 이상으로 연장된다;

a²= (N_k)/(2M)

여기서 N_k는 노이즈 필터 에너지의 기대값이고, 분산-정규화 필터 에너지는 2M등급의 자유를 가진 카이제곱 확률분포(PD)를 따른다.

그리고 노이즈 및 음성이 존재하는 경우, 필터 에너지는 다음과 같이 주어진다.

여기서 DFT_S는 음성계수이고, DFT_n은 노이즈계수이고, 분산정규화 필터 에너지는 2M 등급자유를 가진 비집중카이제곱 및 비집중변수의 확률분포를 따른다; 필터 에너지의 조건확률이 다음과 같이 주어지려면;

정규화 로그-에너지 변수는 다음과 같이 정의되고 :에 대한 조건확률이인 음성인식기의 전처리 방법.
제1항에 있어서, 혼합 모델은 클래스들이 음향공간의 구체적 경계 구획들과 동일시하고, 구획들은 벡터양자화에 의해 생성되는 벡터 양자와 혼합 모델로서 실행되는 음성인식기의 전처리 방법.
제1항에 있어서, 혼합 모델은 확률 P_n(S_k)이 가우스 분포이고, 이들 가우스값들의 평균 및 표준편차들은 혼합 모델로 주어진 음성 데이타의 가능성을 최대화하도록 조정된다는 가정을 가지고 가우스 혼합 모델의 혼합으로서 실행되는 음성인식기의 전처리 방법.
제2항에 있어서, 혼합 모델의 백터 S'는 벡터 R'와 교체되고, 여기서 벡터 R'는 주파수 광대역에서의 로그 스펙트랄 에너지의 보다 낮은 차원의 벡터이고, S'에 따라 달라지는 클래스 n의 확률은 새로운 클래스 n콤포넌트들이 벡터 R에 대해 혼합 모델의 클래들로 참고하도록 R'에 관하여 달라지는 새로운 클래스의 n의 확률로 교체되는 음성인식기의 전처리 방법.
제7항에 있어서, 벡터 R에 대한 혼합 모델이 벡터 양자와 혼합 모델로서 실행되고, 여기서 클래스들은 음향공간의 구체적 경계 구획들과 동일시되고, 구획들은 벡터 양자화에 의해 생성되고,가 깨끗한 음성에 대한 추정량의 표현식에서

로 되어, 새로운 클래스 n에 대해 필요조건이 되는 음성인식기의 전처리 방법.
제7항에 있어서, 벡터 R에 대한 혼합 모델은 확률들 P_n(R_J)이 가우스 분포들이고, 가우스 평균 및 표준편차들이 혼합 모델로 주어진 음성 데이타의 유사성을 최대화하도록 조정된다는 가정하에 가우스 혼합 모델의 혼합으로서 실행되고, 깨끗한 음성에 대한 추정량에 대한 표현식에서 S_K는

되어 새로운 클래스 n에 대해 필요조건이 되는 음성인식기의 전처리 방법.
디지탈화된 음성을 나타내는 신호들에 응답하기 위한 음성인식 시스템에서 노이즈 존재하의 음성을 전처리하는 방법에 있어서, 디지탈화된 음성과 노이즈를 음설벡터의각 시간-불변 세그멘트와, 노이즈 존재하의 음성정보의 한 채널을 나타내는 노이즈 음성벡터의 각 엘리멘트로 분류하고, 상기한 노이즈 주파수에 독립하고 시간에 불변한 것으로 가정되는 노이즈이며; 1)깨끗한 음성의 확률분포가 마르코프 모델로서 모델화될 수 있고, 미르코프 모델의 각 상태는 다음 2)항을 근거로 각 클래스내에서 서로다른 주파수 채널은 상호 관련이 없다고 가정하는 서로 다른 음성 클래스를 나타내고 2)추정된 깨끗한 음성 벡터를 획득하기 위하여 서로다른 주파수 채널들이 상호 관련이 없다는 가정을 기본으로 하는 깨끗한 음성 벡터 어라운드 노이즈 음성 벡터의 조건확률 함수.

이상의 2가지 사항을 근거하여 일련의 노이즈 음성 벡터들 S'_O에서부터 S'_T까지 상기한 각 엘리멘트에 대하여 음성값을 추정하는 단계를 포함하는 음성인식기의 전처리 방법.
제10항에 있어서,

에 따르는 다중-주파수 채널확률에 관해 필터 로그 스펙트랄 에너지들을 추정하는 단계를 포함하고, 여기서 인덱스 n은 상태이고 S_K어라운드 n의 추정은 다음식으로 주어진 n^thMMSE추정량이고;

여기서

여기서 히든 마르코프 모델은 음성에 대하여 가정되고, 히든 마르코프 상태 출력 확률은 다음과 같고;

여기서 순방향-역방향 알고리즘이 P(n｜S'_O,...S'_t...S'_T)를 계산하기 위해 적용되는 음성인식기의 전처리 방법.
제10항에 있어서, 깨끗한 음성 벡터 어라운드 노이즈 음성 벡터의 조건 확룔 P(S'_k｜S_k)은 다음과 같이 모델화되어진다; 1)추정되어지는 음성과 연관된 노이즈는 각 시간 프레임에서 상기 한 노이즈에 대하여 이산푸리에 변형 (DFT)의 계수가 상호무관한 복소 가우스 임의 변수가 되도록 정상적이고 자동 복귀 이동 평균 확률론적 처리로 가정된다; 2)필터 출력 에너지는 M계수들의 합에 의해 접근되는 것으로 가정한다; 3)노이즈스펙트랄 파워는 필터들의 통과대역 범위내에서 균일하게 되도록 가정된다; 노이즈가 없는 경우, 합은 가우스인 임의의 2M변수, 제로평균 및 편차의 합을 넘어 연장된다;

여기서 N_K는 노이즈 필터 에너지의 기대값이고 분산-정규화 필터 에너지는 2M등급자유를 가진 카이제곱확률 분포(PD)를 따른다.

그리고, 노이즈 및 음성이 존재하는 경우, 필터 에너지는 다음과 같이 주어진다;

여기서 DFT_s는 음성계수이고, DFT_n은 노이즈계수이고, 분산정규화 필터 에너지는 2M등급자유를 가진 비집중 카이제곱 및 비집중변수의 확률분포를 따른다; 필터 에너지의 조건확률이 다음과 같이 주어지도록;

정규화 로그-에너지 변수는 다음과 같이 정의되고 :에 대한 조건확륭이인 음성인식기의 전처리 방법.
제10항에 있어서, 마르코프 모델이 벡터 양자화 마르코프 모델로서 실행되고 상태들은 음향공간의 견고한 경계구획과 동일하게 되고, 구획들은 벡터 양자화에 의해 생성되는 음성 인식기의 전처리 방법.
제11항에 있어서, 혼합 모델의 벡터 S'는 벡터 R'에 의해 교체되고 여기서, 벡터 R'는 주파수광대역에서 로그 스펙트랄 에너지들의 더욱 낮은 차원의 벡터이고, t가 제로에서 T 인 S'(t)의 순서에 따라 맞춰진 상태 n의 확률은 새로운 상태 n 콤포넌트가 벡 R을 위한 마르코프 모델에서 상태들은 언급하도록 t가 제로에서 T인 R'(t)의 순서에 관해 맞춰진 새로운 상태 n의 확률로 교체되는 음성인식기의 전처리 방법.
제14항에 있어서, 벡터 R에 대한 혼합 모델은 벡터 양자화 마르코프 모델로서 실행되고, 상태들은 음향공간의 견고한 경계구획들과 동일시되고, 구획들은 벡터 양자화에 의해 생성되고,는 새로운 상태 n에 따라 좌우되는 음성인식기의 전처리 방법.

※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.