KR100408524B1

KR100408524B1 - 음성인식방법 및 그 장치

Info

Publication number: KR100408524B1
Application number: KR10-2001-0050749A
Authority: KR
Inventors: 최승호; 김상룡; 최창규
Original assignee: 삼성전자주식회사
Priority date: 2001-08-22
Filing date: 2001-08-22
Publication date: 2003-12-06
Also published as: KR20030017750A

Abstract

본 발명에 따른 음성인식방법은, 입력된 음성신호로부터 음성특징벡터를 추출하는 단계와, 상기 음성특징벡터로부터 M(<N)차의 독립성분분석 베이시스 벡터들을 구하는 단계와, N 차의 학습용 특징벡터를 상기 독립성분분석 베이시스 벡터들을 이용하여 M차의 음성인식용 모델을 구성하는 단계와, N차의 인식용 특징벡터를 상기 독립성분분석 베이시스 벡터를 이용하여 M차의 특징벡터로 변환하는 단계와, 상기 M차의 특징벡터를 상기 M차의 음성인식용 모델을 이용하여 디코딩하는 단계를 포함한다. 이와 같은 본 발명에 의하면 독립성분분석방법을 이용하여 차수간에 상호 독립적이며 원 특징벡터보다 저차원인 특징벡터를 사용함으로써 음성인식에 필요한 계산량이 감소되고 메모리양도 절약할 수 있게 된다.

Description

음성인식방법 및 그 장치{Speech recognition method and the apparatus thereof}

본 발명은 독립성분분석 방법을 이용한 음성인식방법 및 그 장치에 관한 것으로, 좀더 구체적으로는 독립성분분석 방법을 이용하여 특징벡터의 차수를 감소시키는 음성인식방법 및 그 장치에 관한 것이다.

음성인식을 위해서는 입력되는 음성신호를 벡터의 형태를 가지게 되는 특징 파라미터로 변환한다. 이는 음성인식에 적합한 특징을 추출하고 실제 음성인식부에 입력되는 데이터의 양을 감소시키기 위함이다.

일반적으로 N차의 특징벡터를 구한 후, 그 차수를 감소시키기 위한 방법으로서 주성분분석 방법(Principal Component Analysis)이 많이 사용되어 왔다. 그러나, 이러한 주성분분석 방법은 2차 통계치만을 고려하며 그 베이시스 벡터는 서로 직교(orthogonal)해야 한다는 제약을 가지며, 주성분분석 방법에 의한 출력 벡터는 차수간 서로 상호종속된(dependent) 특성을 지니는 단점이 있다.

본 발명은 상기와 같은 문제점을 해결하여 음성인식방법에 독립성분분석방법을 이용하여 특징벡터의 차원을 감소시키고, 또한 차수간 서로 독립적인 특징벡터를 얻어서 음성인식시스템의 기억장치 및 계산비용을 감소시키기 위함이다.

도 1은 본 발명에 따른 음성인식장치의 일예의 개략적인 블럭도.

도 2는 본 발명에 따른 음성인식방법에 사용되는 변환행렬 W를 나타내는 도면.

도 3은 도 1에 도시된 음성인식장치에서 음성인식에 관계되는 부분의 데이터 입출력관계를 도시하는 도면.

이상과 같은 과제를 해결하기 위한 본 발명의 하나의 특징은, 독립성분분석 베이시스 행렬을 생성하는 방법에 있어서, 입력된 음성신호로부터 음성특징벡터를 추출하는 단계와, 상기 추출된 음성특징벡터로부터 독립성분분석 학습방법을 사용하여 N개의 베이시스 벡터를 구하는 단계와, 상기 N개의 베이시스 벡터들을 열벡터로 하여 변환행렬을 구성하는 단계와, 상기 변환행렬의 N개의 베이시스 벡터들중에서 베이시스 벡터의 2차 놈(norm) 값이 큰 것부터 M(<N)개의 베이시스 벡터를 선택하는 단계와, 상기 선택된 M개의 베이시스 벡터들을 이용하여 독립성분분석 베이시스 행렬을 구성하는 단계를 포함하는 것이다.

본 발명의 다른 특징은, 음성인식방법이, 입력된 음성신호로부터 음성특징벡터를 추출하는 단계와, 상기 음성특징벡터로부터 M(<N)차의 독립성분분석 베이시스 벡터들을 구하는 단계와, N 차의 학습용 특징벡터를 상기 독립성분분석 베이시스벡터들을 이용하여 M차의 음성인식용 모델을 구성하는 단계와, N차의 인식용 특징벡터를 상기 독립성분분석 베이시스 벡터를 이용하여 M차의 특징벡터로 변환하는 단계와, 상기 M차의 특징벡터를 상기 M차의 음성인식용 모델을 이용하여 디코딩하는 단계를 포함하는 것이다.

바람직하게는, 상기 음성특징벡터 집합으로부터 상기 M차의 독립성분분석 베이시스 벡터들을 구하는 단계가, 독립성분분석 학습방법을 사용하여 상기 음성특징벡터 집합으로부터 N개의 베이시스 벡터들을 구하는 단계와, 상기 N개의 베이시스 벡터들을 열벡터로 하여 상기 N개의 베이시스 벡터들중 베이시스 벡터의 2차 놈(norm) 값이 큰 것부터 M개를 선택하는 단계를 포함한다.

본 발명의 또다른 특징은, 음성인식방법이, 음성신호로부터 N차의 음성특징벡터 x를 추출하는 단계와, 상기 N차의 음성특징벡터 x를 M×N 차 독립성분분석 베이시스 행렬 W에 의해 M차의 벡터 y(=W·x)로 변환하는 단계와, 상기 변환된 벡터 y를 상기 독립성분분석 베이시스 행렬 W를 이용하여 생성된 인식모델로 인식하는 단계를 포함하는 것이다.

본 발명의 또다른 특징은, 음성인식장치가, 음성특징벡터 집합으로부터 구해진 M(<N)차의 독립성분분석 베이시스 벡터들을 저장하는 독립성분분석 베이시스 벡터 저장부와, N 차의 학습용 특징벡터를 상기 저장부에 저장된 독립성분분석 베이시스 벡터들을 이용하여 M차의 음성인식용 모델로 구성하는 모델링부와, N차의 인식용 특징벡터를 상기 저장부에 저장된 독립성분분석 베이시스 벡터들을 이용하여 M차의 특징벡터로 변환하는 특징변환부와, 상기 특징변환부에 의해 변환된 M차의특징벡터를 상기 모델링부에 의해 구성된 M차의 음성인식용 모델을 이용하여 디코딩하는 인식부를 포함하는 것이다.

바람직하게는, 상기 M차의 독립성분분석 베이시스 벡터들은, 독립성분분석 학습방법을 사용하여 상기 음성특징벡터 집합으로부터 N개의 베이시스 벡터들을 구하고, 상기 N개의 베이시스 벡터들을 열벡터로 하여 상기 N개의 베이시스 벡터들중 베이시스 벡터의 2차 놈(norm) 값이 큰 것부터 M개를 선택하는 것에 의해 얻어진다.

이하에서는 도 1 내지 3을 참조하여 본 발명을 상세히 설명한다.

도 1에 본 발명에 따른 음성인식장치의 일예의 개략적인 블럭도가 도시되어 있다. 도 1에 도시된 음성인식장치(100)는 음성 DB(105)와, 독립성분분석 베이시스 행렬 저장부(115)와, 인식모델 저장부(125)와, 특징추출부(110,130,160)와, 독립성분분석 베이시스 학습부(120)와, 특징변환부(140,170)와, 모델링부(150)와, 인식부(180)를 포함한다.

도 1에 도시된 음성인식장치(100)에 의해 음성인식을 행하는 전체적인 과정을 설명하면, 음성특징벡터 집합으로부터 독립성분분석 베이시스 행렬을 생성하고, 상기 생성된 독립성분분석 베이시스 행렬을 이용하여 음성인식모델을 구성하고, 상기 독립성분분석 베이시스 행렬 및 상기 음성인식모델을 이용하여 음성신호를 인식한다.

이하에서 구체적으로 설명한다.

먼저, 음성 DB(105)에 저장된 음성신호는 특징추출부(110)에 의해 음성특징벡터가 추출된다. 독립성분분석 베이시스 학습부(120)는 상기 특징추출부(110)로부터 입력된 음성특징벡터를 이용하여 독립성분분석 베이시스 행렬을 생성한다. 즉, 도 2에 도시된 바와 같이 음성특징벡터 집합으로부터 독립성분분석 학습방법을 이용하여 N개의 독립성분분석 베이시스 행렬을 구하고, 이들 베이시스 벡터를 열(row)벡터로 하여 변환행렬 W(N×N)를 구성한다. 그리고, 총 N개의 베이시스 벡터들중에서 M(<N)개를 선택하는데, 이때 베이시스 벡터의 2차 놈(norm) 값이 큰 것부터 선택한다. 독립성분분석방법에 의한 베이시스 벡터는 서로 독립적이고, 또한 이와 같이 베이시스 벡터의 2차 놈값이 큰 것부터 선택하여 베이시스 벡터의 양을 감소시키기 때문에 음성을 대표하는 특징은 유지시키면서 인식에 필요한 계산의 양을 감소시킬 수 있다.

이와 같이 차수가 감소된 M×N 변환행렬 W은 학습용 특징벡터의 특징변환시와 인식용 특징벡터의 특징변환시에 이용된다. 즉, 특징추출부(130)에 의해 추출된 N차의 학습용 특징벡터는 특징변환부(140)로 입력되고, 특징추출부(160)에 의해 추출된 N차의 인식용 특징벡터는 특징변환부(170)로 입력된다.

도 3을 참조하여, 특징변환부(170)을 중심으로 설명하면, 특징변환부에 입력된 N차의 인식용 특징벡터 x와 독립성분분석 베이시스 행렬 저장부로부터 출력된 베이시스 행렬 W는 다음과 같은 식에 의해 M차의 벡터 y로 변환된다.

y(M×1) = W(M×N)·x(N×1)

학습용 특징벡터가 입력되는 특징변환부(140)에서도 마찬가지이다.

모델링부(150)는 특징변환부(140)로부터 출력된 M차의 특징벡터를 사용하여 음성인식을 위한 모델을 구성하고, 이와 같이 구성된 음성인식모델을 인식모델저장부(125)에 저장한다. 특징변환부(170)로부터 출력된 M차의 인식용 특징벡터는 인식부(180)로 입력되고, 인식부(180)는 입력도니 M차의 인식용 특징벡터를 음성인식모델을 이용하여 디코딩하여 인식결과를 출력한다.

상기와 같은 본 발명에 의하면, 독립성분분석방법을 이용하여 차수가 더 작은 특징벡터로 변환함으로써, 차수간에 상호 독립적이며 원 특징벡터보다 저차원이므로 음성인식에 필요한 계산량이 감소되고 메모리양도 절약할 수 있게 된다. 또한, 차수가 더 작은 특징벡터 변환시 베이시스 벡터의 2차 놈값이 큰 것부터 선택함으로, 실질적으로 음성을 대표하는 특징은 유지할 수 있다.

Claims

독립성분분석 베이시스 행렬을 생성하는 방법에 있어서,

입력된 음성신호로부터 음성특징벡터를 추출하는 단계와,

상기 추출된 음성특징벡터로부터 독립성분분석 학습방법을 사용하여 N개의 베이시스 벡터를 구하는 단계와,

상기 N개의 베이시스 벡터들을 열벡터로 하여 변환행렬을 구성하는 단계와,

상기 변환행렬의 N개의 베이시스 벡터들중에서 베이시스 벡터의 2차 놈(norm) 값이 큰 것부터 M(<N)개의 베이시스 벡터를 선택하는 단계와,

상기 선택된 M개의 베이시스 벡터들을 이용하여 독립성분분석 베이시스 행렬을 구성하는 단계를 포함하는 독립성분분석 베이시스 행렬을 생성하는 방법.
음성인식방법에 있어서,

입력된 음성신호로부터 음성특징벡터를 추출하는 단계와,

상기 음성특징벡터로부터 M(<N)차의 독립성분분석 베이시스 벡터들을 구하는 단계와,

N 차의 학습용 특징벡터를 상기 독립성분분석 베이시스 벡터들을 이용하여 M차의 음성인식용 모델을 구성하는 단계와,

N차의 인식용 특징벡터를 상기 독립성분분석 베이시스 벡터를 이용하여 M차의 특징벡터로 변환하는 단계와,

상기 M차의 특징벡터를 상기 M차의 음성인식용 모델을 이용하여 디코딩하는 단계를 포함하는 음성인식방법.
제1항에 있어서,

상기 음성특징벡터 집합으로부터 상기 M차의 독립성분분석 베이시스 벡터들을 구하는 단계는,

독립성분분석 학습방법을 사용하여 상기 음성특징벡터 집합으로부터 N개의 베이시스 벡터들을 구하는 단계와,

상기 N개의 베이시스 벡터들을 열벡터로 하여 상기 N개의 베이시스 벡터들중베이시스 벡터의 2차 놈(norm) 값이 큰 것부터 M개를 선택하는 단계를 포함하는, 음성인식방법.
음성인식방법에 있어서,

음성신호로부터 N차의 음성특징벡터 x를 추출하는 단계와,

상기 N차의 음성특징벡터 x를 M×N 차 독립성분분석 베이시스 행렬 W에 의해 M차의 벡터 y(=W·x)로 변환하는 단계와,

상기 변환된 벡터 y를 상기 독립성분분석 베이시스 행렬 W를 이용하여 생성된 인식모델로 인식하는 단계를 포함하는 음성인식방법.
음성인식장치에 있어서,

음성특징벡터 집합으로부터 구해진 M(<N)차의 독립성분분석 베이시스 벡터들을 저장하는 독립성분분석 베이시스 벡터 저장부와,

N 차의 학습용 특징벡터를 상기 저장부에 저장된 독립성분분석 베이시스 벡터들을 이용하여 M차의 음성인식용 모델로 구성하는 모델링부와,

N차의 인식용 특징벡터를 상기 저장부에 저장된 독립성분분석 베이시스 벡터들을 이용하여 M차의 특징벡터로 변환하는 특징변환부와,

상기 특징변환부에 의해 변환된 M차의 특징벡터를 상기 모델링부에 의해 구성된 M차의 음성인식용 모델을 이용하여 디코딩하는 인식부를 포함하는 음성인식장치.
제5항에 있어서,

상기 M차의 독립성분분석 베이시스 벡터들은, 독립성분분석 학습방법을 사용하여 상기 음성특징벡터 집합으로부터 N개의 베이시스 벡터들을 구하고, 상기 N개의 베이시스 벡터들을 열벡터로 하여 상기 N개의 베이시스 벡터들중 베이시스 벡터의 2차 놈(norm) 값이 큰 것부터 M개를 선택하는 것에 의해 얻어지는, 음성인식장치.