KR100397402B1

KR100397402B1 - 음성인식방법,정보형성방법,음성인식장치및기록매체

Info

Publication number: KR100397402B1
Application number: KR1019960030282A
Authority: KR
Inventors: 가츠키 미나미모
Original assignee: 소니 가부시끼 가이샤
Priority date: 1995-07-19
Filing date: 1996-07-19
Publication date: 2003-12-24
Also published as: DE69626344T2; JP3627299B2; EP0755046B1; JPH0934486A; EP0755046A3; US5787395A; CN1151573A; EP0755046A2; KR980011007A; DE69626344D1

Abstract

본 발명은 인식율을 열화시키지 않고서도 인식 결과를 얻기 위한 인식 대상 워드 검색을 고속화하는 것이다.

각 인식 대상 워드(W₁내지 W₁₀)에 대응한 음성 데이터로부터 구해지는 스코어의 순서 부여시의 순위를 워드간의 상관값이 높은 순서대로 전체 인식 대상 워드(W₁내지 W₁₀)를 순서 부여시의 순위를 워드간의 상관값으로서 이용하여, 인식 대상 워드(W₁내지 W₁₀)를 계층 구조 또는 중복을 허용하는 구조로 구조화하고, 이러한 계층 구조에 구조화된 사전을 이용하여 미지의 입력 음성 신호에 대해 스코어를 계산한다.

Description

음성 인식 방법, 정보 형성 방법, 음성 인식 장치 및 기록 매체

본 발명은, 음성 인식 방법, 정보 형성 방법, 음성 인식 장치 및 기록 매체에 관한 것으로 입력 음성 신호에 대하여, 주어진 사전 중에서 대응하는 단어를, 하나 또는 복수 선택하는 음성 인식 방법, 장치, 및 음성 인식용의 사전이 기록된 기록 매체 및 사전을 형성하기 위한 정보 형성 방법에 관한 것이다.

입력된 음성 신호로부터 언어 정보를 취출하기 위한 음성 인식 분야에서는, 주어진 사서 중에서 입력에 대응한 워드를 선택한다는 문제가 빈번히 발생한다.

예컨대, 지명에 대한 음성 인식의 경우, 대상 후보 워드가 되는 지명 각각에대하여, 표준 패턴을 작성해 두고, 입력 음성 신호를 분석하여 얻어지는 특징량 패턴과 모든 표준 패턴과의 매칭을 취하는 것, 즉, 거리 계산을 함으로써 가장 유사한 것을 선택한다. 이것은 히든 마르코프 모델(Hidden Markov Model : HMM)이라는 확률 모델을 이용한 경우도 동일하며, 역시 각 지명에 대응한 HMM을 작성해 두고, 입력 음성 신호에 대하여, 그 발생 확률이 가장 커지는 모델을 선택하는 것이 필요해진다.

일반적으로, 음성 인식에서는 대상이 되는 워드와 입력 음성 신호의 매칭을 취하기 위해 거리 계산을 하거나, 또는 각 워드의 확률 모델을 이용하여 발생 확률을 계산하는 등으로, 모든 워드에 대하여 스코어화하고, 그 스코어를 바탕으로 하여, 가장 스코어가 높은 것을 인식 효과로서 선택한다.

예컨대, 상기 HMM(히든 마르코프 모델)에서는, 인식 대상 워드 각각에 대하여 확률 모델을 미리 작성해 두고, 미지의 입력 음성 신호를 분석하여 얻어지는 특징량으로 부터 발생 확률을 구하고, 이것에 기초하여 모든 워드에 대해 스코어화하고, 가장 스코어가 높은 것을 인식 결과로서 선택한다.

여기에서, 스코어가 높다는 것은, 거리 등의 경우는 거리가 작은 것에 대응하고, 발생 확률 등의 경우는 그 확률이 큰 것에 대응하는 등, 그 평가값에 대응시킨 표현으로서 이용하는 것으로 한다.

그러나, 소어휘의 경우에는, 모든 대상 후보에 대해 상술한 바와 같은 스코어 계산을 하여도, 그 처리량은 그다지 문제가 되지는 않는다.

그러나, 중어휘나 대어휘를 인식하는 경우, 대상이 되는 인식 사전의 모든 워드에 대하여 스코어 계산을 하는, 이른바 전체 탐색을 하는 것은, 연산량이 증가되고, 그 결과, 대응 시간의 지연을 초래하는 문제를 일으키게 된다.

이러한 문제를 해결하기 위해, 전체 워드에 대한 스코어 계산을 하기 전에, 간단한 평가식을 이용하여 예비 선택을 하고, 그 결과로부터 정밀하게 스코어 계산을 해야 할 대상 워드를 좁혀 가는 방법이 있다.

이러한 대상 워드를 좁혀가는 방법은, 예컨대, 특공평 03-69120[1991.10.30]에 개시되어 있다. 이 출원은 표준 패턴을 유효성이 높은 순서로 분할하고, 각 판정 기준에 의해 매칭을 행함으로써, 인식률의 저하를 초래하지 않고, 매칭 회소의 저감을 도모하는 것을 목적으로 하고 있다. 더욱 자세히 기술하면, 메모리에 미리 작성한 각각의 카테고리마다 다수의 표준 패턴 중 소정의 방법으로 선택되는 빈도가 높은 순위로부터 일정수의 표준 패턴을 1차 및 2차의 판정 영역에 격납하고 있다. 그리고, 1차 판정 영역을 지정하여 입력 음성 패턴과의 매칭을 행하고, 그 결과를 유지시킨다. 이 판정 결과로부터 일정수의 상휘의 카테고리를 인식 후보로서 판별하고, 그 판별 결과를 바탕으로 하여 2차 판정 영역의 각 식별 후보 카테고리의 표준 패턴을 지정하고, 입력 음성 패턴과의 매칭을 행하고, 그 결과를 유지시킨다. 그리고, 1차와 2차의 각각의 매칭 결과를 종합하여, 가장 거리가 작은 카테고리를 입력 신호의 인식 결과로서 판정하고 있다. 이와 같은 구성에 의해, 매칭 회수의 저감을 도모하고 있다.

일반적으로, 현재의 음성 인식에서는, 정밀한 스코어 계산, 예컨대, 매칭이나 확률 계산을 행하여도, 인식이 상당히 어려운 것이 현실이며, 전자의 방법과 같이, 간단한 평가에 의한 예비 선택을 한 경우, 축소 단계에서 본래 남아야 할 워드를 제외해 버리므로 인식률의 저하를 불러일으키는 문제가 생길 우려가 있다. 또한, 간단한 평가식이라고 해도, 전 워드에 대하여 행하면, 상당한 연산량이 되어버리는 결점도 있다.

이에 대하여, 일반적인 탐색 문제에서는, 대상 후보를 2진 트리(바이너리 트리; binary tree)로 구조화하고, 상기 2진 트리를 더듬어 감으로써 탐색을 한다는 2진 트리 탐색이라는 수법이 널리 이용되고 있다.

이러한 2진 트리 탐색 방법에 대해서는, 예컨대, 특개평 04-248722[1992.9.4]에 개시되어 있다. 이 출원은 벡터 양자화를 이용한 데이터 부호화 벙법에서, 입력 데이터의 코드화를 고속으로 실행하는 것을 목적으로 하고 있다. 더 자세히 말하면, 코드북에 포함된 코드 벡터를 M 종류의 카테고리로 분할하고, 그 M 종류의 카테고리에 속하는 코드 벡터를 다시 M(2) 종류의 카테고리로 분할한다. 동일하게 하여, 제 N 단계까지 코드 벡터를 분할한다. 각각의 카테고리의 특징 벡터는 그 카테고리에 속하는 코드 벡터의 중심 벡터로 한다. 코드화는, 트리 구조에 따라, 입력 벡터와 각각의 카테고리의 특징 벡터와의 거리 계산에 의해 탐색을 하고, 최적의 코드 벡터로 코드화한다. 이와 같은 구성에 의해, 입력 데이터의 고속화를 도모하고 있다.

단, 이러한 출원은 벡터 양자화에 관한 2진 트리 탐색의 방법으로, 본원이 대상으로 하는 음성 인식에 관한 것이 아니라는 것에 주의 해야한다.

그러나, 이와 같은 구조화를 이용하는 수법에서는, 미리 결정해 둔 탐색 트리에 기초하여 탐색 범위를 제한하는, 즉, 국소적인 탐색을 행하는 것이므로, 어떻게 구조화하고, 그 구조를 이용하여 어떻게 탐색하는 가가 중요하며, 전체탐색에 비해, 변형을 가능한한 증가시키지 않고, 즉 인식율을 가능한 저하시키지 않고, 연산량을 저감시키는 것이 요구된다.

그 의미에서는, 2진 트리 탐색은 연산량의 대폭적인 삭감이 얻어지는 대신에 변형을 증대시켜 버린다는 문제가 발생하기 쉬우며, 특히, 음성 인식에서, 인식률의 저하를 의미하며, 커다란 문제가 된다.

또한, 상기 HMM을 이용한 음성 인식은, 인식 대상 워드 각각에 대하여 확률모델을 미리 작성해 두고, 미지 입력 음성 신호를 분석하여 얻어지는 특징량으로부터 발생 확률을 구하고, 이에 기초하여 전체 워드에 대해 스코어화를 행하고, 가장 스코어가 높은 것을 인식 결과로서 선택한 것이다. 이러한 HMM을 이용한 음성 인식에서는 스코어 계산 과정에서, 중도 결과를 이용하여 트리 컷(tree cut)을 행하여 연산량을 삭감하는 빔 서치법이라는 연산량의 삭감 방법이 있다. 그러나, 이것도 역시 스코어의 중도 결과에서 제한을 가하기 때문에, 본래 남아야 할 워드를 제거해 버리고, 아나가서는 변형을 증대시켜 인식률의 저하를 초래해 버리는 문제를 발생시킨다.

또한, 음성 신호에 제한되지 않고, 이와 같은 탐색 문제에서는 탐색을 고속화하기 위해 필요로 하는 탐색 트리 등이 점유하는 기억 용량의 크기도 중요한 문제가 된다.

본 발명은, 이와 같은 실정을 감안하여 이루어진 것으로 연산량을 저감하면서 인식률의 열화를 방지할 수 있는 음성 인식 방법, 정보 형성 방법, 음성 인식 장치, 및 기록 매체의 제공을 목적으로 한다.

또한, 본 발명은 스코어 계산을 행하는 음성 인식 대상 워드의 수를 제한하여 연산량을 저감하고, 음성 인식의 고속화를 도모함과 동시에 필요로 하는 기억용량의 증대가 작아도 되며, 더욱이 탐색에 의한 변형의 증대나 인식률의 저하를 초래하지 않는 음성 인식 방법, 정보 형성 방법, 음성 인식 장치, 및 기록 매체의 제공을 목적으로 한다.

또한, 본 발명의 또다른 목적은 스코어 계산을 행하는 음성 인식 대상 워드를 제한하기 위한 계층 구조화에 이용되는 상관값을 음성 데이터를 사용하지 않고 계산할 수 있도록 하는 것이다.

(과제를 해결하기 위한 수단)

본 발명은, 상술한 과제를 해결하기 위해 복수의 음성 인식 대상 워드가 주어지고, 미지의 입력 음성 신호에 대해 미리 구해 놓은 파라미터를 이용하여 상기 음성 인식 대상 워드에 스코어를 부여함으로써, 대응하는 음성 인식 대상 워드를 추출할 때, 상기 각 음성 인식 대상 워드간의 상관값을 이용하여 상기 각 음성 인식 대상 워드를 미리 중복을 허용하는 트리 구조로 구조화하고, 이러한 트리 구조를 이용하여, 상기 미지의 입력 음성 신호에 대하여 스코어 계산을 행하는 음성 인식 대상 워드를 한정하는 것을 특징으로 한다.

여기에서, 상기 복수개의 음성 인식 대상 워드에 대한 확률 모델을 준비하여, 상기 미지의 입력 음성 신호에 대해, 상기 각각의 확률 모델의 발생 확률을 계산하고, 발생 확률에 따라 대응하는 음성 인식 대상 워드를 추출하여 인식하도록 하고, 상기 각 음성 인식 대상 워드에 대응하는 확률 모델의 상태 천이 확률에 기초하여 상태 천이 계열을 결정하고, 그 상태 천이에 대응하는 출력 심볼 확률에 기초하여 심볼 계열을 결정하고, 얻어진 심볼 계열의 발생 확률을 상기 각각의 음성 인식 대상 워드에 대응하는 모델에 대하여 계산하고, 이러한 발생 확률을 바탕으로 음성 인식 대상 워드간의 상관값을 이용하여 상기 각 음성 인식 대상 워드를 계층구조로 구조화해 두는 것이 바람직하다.

또한, 본 발명에 따른 정보 형성 방법은, 복수의 패턴 인식 대상이 주어지고, 미지의 입력 신호에 대해, 미리 구해 놓은 파라미터를 이용하여, 상기 패턴 인식 대상에 스코어를 부여함으로써, 대응하는 패턴 인식 대상 워드를 추출하여 인식하는 패턴 인식 방법에 이용되는 패턴 인식 대상의 정보를 형성할 때에, 상기 각 패턴 인식 대상간의 상관값에 기초하여, 서로 상관값이 작아지는 패턴 인식 대상끼지를 그룹화해하고, 각 그룹의 대표가 되는 패턴 인식 대상을 선택함으로써, 대표 패턴, 인식 대상과 그에 속한 패턴 인식 대상의 집합이라는 관계로 그룹화하는 공정과, 상기 그룹화의 과정에서, 각 그룹의 대표로 선택되지 않았던 패턴 인식 대상에 관해서는, 상기 상관값이 작으며, 어느 한 그룹의 대표가 되어 있는 패턴 인식 대상에 대해, 그 대표 패턴 인식 대상의 그룹에도 속하도록 하는 공정과, 상기 그룹화와 상기 그룹화로의 추가를 함으로써 얻어진 대표 패턴 인식 대상에 대해 새롭게 그룹화와 그룹으로의 추가를 하는 공정을 가지며, 이러한 공정을 임의의 횟수로반복함으로써, 계층 구조로 구조화하는 것을 특징으로 하고 있다.

또한, 상기 계층 구조로 구조화된 음성 인식 대상 워드 등의 패턴 인식 대상의 정보를 기록 매체에 기록해 둘 수가 있다.

또한, 상기 패턴 인식 대상으로서는, 상기 음성 인식 대상 워드 이외에, 도형 인식이나 문자 인식과 같은 화상 정보에서의 패턴 인식의 대상에도 적용할 수 있는 것이다.

이와 같이, 음성 인식 대상 워드(일반적으로 패턴 인식 대상, 이하 동일)를 미리 계층 구조 또는 중복을 허용하는 트리 구조로 구조화하고, 이러한 구조에 따라 검색함으로서 음성 인식 대상 워드 수를 제한하고 연산량을 저감한다. 또한, 새로운 워드간의 상관값의 정의와, 그 상관값에 기초한 인식 워드의 구조화 방법에 의해, 국소적인 탐색이라도, 스코어가 높아지는 것이 기대되는 워드는 탐색 범위에 포함되며, 최종적으로 변형을 거의 증대시키지 않고, 인식률의 저하를 방지할 수 있다.

또한, 워드간의 상관값을 HMM(히든 마르코프 모델)과 같은 확률 모델의 파라미터로 계산하도록 함으로써, 인식 사전에 대응하는 실제 음성 데이터를 대량으로 필요로 하는 것을 회피할 수 있다.

(발명의 실시 형태)

이하, 본 발명에 따른 바람직한 실시 형태에 대해, 도면을 참조하여 상세히 설명한다. 본 발명의 실시 형태에서는, 음성 인식을 예로 들고 있지만, 이 밖에, 영상이나 화상 또는 문자 등의 각종 패턴 인식에 본 발명을 적용하는 것도 용이하다.

A. 제 1 실시 형태

이하의 본 발명의 제 1 실시 형태의 설명에서는 우선 음성 인식에 관하여 간단히 설명하고, 그 음성 인식을 고속화하기 위한 방식으로서, 음성 인식 대상 워드(이하, 간단히 워드라고 칭함)간의 상관값의 정의, 그 상관값을 이용한 워드의 구조화 방법, 및 그 구조를 이용한 인식 수법에 관하여 설명한다. 다음으로, 상기 용량, 및 연산량을 추측한 후, 시뮬레이션 결과를 설명하고, 그 유효성을 설명한다.

<음성 인식>

음성 인식에 이용되는 장치는, 일반적으로 도 1에 도시하는 바와 같이, 입력부(11), 음향 분석부(12), 인식부(13), 파라미터 기억부(14), 출력부(15)로 구성되는 경우가 많다.

입력부(11)는, 마이크 등의 음성 신호를 입력하는 장치와 그 입력 신호를 증폭하는 앰프, 및 디지털 신호로 변환하는 AD 변환기 등으로 구성된다. 그리고, 입력 신호를, 예컨대, 12㎑에서 샘플링한 후, 음향 분석부(12)로 송신한다.

음향 분석부(12)에서는, 입력된 음성 신호로부터 인식에 필요한 특징량의 추출을 행한다. 예컨대, 단순한 신호의 에너지나 영교차(제로 크로스)수, 피치 등의 추출을 행하거나, 선형 예측 분석(LPC), 고속 푸리에 변환(FFT), 또는 대역 통과 필터(BPF), 나아가서는 Wavlet 변환 등에 의해 주파수 분석을 한다. 그리고, 예컨대, 대역 분할된 에너지 등을 요소로 하는 벡터 시계열로서, 특징량의 추출을 행하기도 한다. 또한, 그 특징량의 변화량으로서, 예컨대, 차분 데이터도 특징량의 하나로서 동시에 추출할 수도 있다. 이와 같이 얻어진 특징량에 대해, 카르넨레이브(KL) 변환이나, 뉴럴 네트워크 등의 적당한 사상을 실시함으로서, 분리도가 큰 특징량으로 다시 변환하는 경우도 있다. 또한, 벡터 양자화 등에 의해, 특징량 벡터를 압축하고, 양자화된 특징량으로 변환하는 경우도 있다.

이와 같이, 음향 분석부(12)에서는, 인식에 필요한 특징량의 시계열을 입력된 음성 신호로부터 추출하고, 이것을 인식부(13)에 송신한다.

인식부(13)에서는, 미리 학습용의 음성 데이터를 음향 분석하여 얻어진 특징량에 기초하여 작성한 파라미터 기억부(14)의 파라미터를 사용하여, 미지 음성 데이터에 대한 인식 처리를 한다. 여기에서, 인식이란, 입력된 음성 신호에 대해, 주어진 인식 사전 중에서 입력에 대응한 워드를 선택하는 것이다. 이러한 인식 수법으로서는, 주요한 것으로써, DP 매칭, 뉴럴 네트워크, HMM(히든 마르코프 모델) 등을 이용한 것이 사용된다.

DP 매칭은, 각 음성 신호를 분석하여 얻어지는 특징량으로부터 템플릿(template)이라는 표준 패턴을 미리 파라미터로서 구하고, 미지 음성 특징량과 비교하여 가장 가깝다고 판정되는 것을 찾는 방식이다. 발화(發話) 속도의 변동을 흡수하기 위해, 다이나믹 타임 워핑(dynamic time warping)이라는 수법에 의해, 템플릿과 변형을 최소화하도록 시간축의 신축을 행하는 방법이 자주 이용된다.

뉴럴 네트워크는, 인간의 뇌의 구조를 모방하는 네트워크 모델에 의해 인식하고자 하는 것으로, 학습에 의해 미리 경로의 가중 계수를 파라미터로서 결정하고, 그 네트워크에 미지 음성의 특징량을 입력하여 얻어지는 출력에 기초하여, 사전내의 각 워드와의 거리를 구하고, 인식 워드를 결정하고자 하는 것이다.

또한, HMM은 확률 모델에 의해 인식을 하고자 하는 것으로, 미리 상태 천이 모델에 대해, 그 천이 확률과 출력 심볼 확률을 학습 데이터에 기초하여 결정하고, 미지 음성의 특징량에 대한 각 모델의 발생 확률로부터 인식 워드의 결정을 하고자 하는 방식이다. 이러한 HMM에 대해, 본 발명의 제 2 실시 형태로서 뒤에 후술한다.

이상 언급한 바와 같이, 일반적으로, 인식 처리로서는, 학습 과정으로서 미리 학습용 데이터로부터 결정된 파라미터, 즉, 템플릿 또는 네트워크 모델의 가중 계수, 확률 모델의 통계적 파라미터 등을 구하고, 이것을 파라미터 기억부(14)에 기억해 둔다.

그리고, 인식 과정에서는, 입력된 미지 음성 신호를 음향 분석한 후, 주어진 사전 중의 워드 각각에 대해, 그 인식 수법에 따른 거리나 발생 확률 등의 스코어화를 행하고, 그 스코어가 가장 높은 것, 또는 상위 복수개를 인식 결과로서 선택한다. 그리고, 얻어진 인식 결과를 출력부(15)에 송신한다.

출력부(15)에서는, 송신된 인식 결과를 화면에 표시하거나, 소리로 출력하거나, 나아가서는, 그 인식 결과를 이용하여 다른 장치를 동작시키는 등의 지령을 한다.

<워드간의 상관값>

상술한 바와 같은 음성 인식의 처리에서, 인식부(13)의 스코어 계산은, 입력된 미지 음성 신호에 대해, 주어진 사전 및 음성 인식 대상 워드의 집합내의 전체워드간에서 계산된다. 소어휘의 인식이라면, 그 처리량은 그다지 문제가 되지 않는다. 그러나, 중어휘나 대어휘의 인식에서는 매우 중요한 문제가 된다.

그래서, 인식 대상 워드를 미리 계층 구조 또는 중복을 허용하는 트리 구조로 구조화하고, 그 구조를 이용함으로서, 스코어 계산을 하는 워드 수를 삭감하는 것이, 본 발명의 목적이다. 이것을 간단히 하게 나타낸 것이 도 2이다.

즉, 도 2에서, 모든 음성 인식 대상 워드의 분포 공간(20)내에서, 각 워드(W)간의 관계를 이용하여 그 분포 구조를 미리 구하면, 어느 입력(21)과 워드(W)의 분포 구조 관계로부터, 그 입력(21)에 대해, 스코어 계산을 할 필요가 있는 워드의 집합(22 ; 즉, 상위에서 스코어를 경합하는 것)과, 필요없는 워드, 즉 스코어가 높아질 것 같지 않은 것을 결정할 수 있게 된다. 그리고, 스코어 계산의 필요가 없는 워드를 삭감하는, 즉 스코어의 계산 대상에서 벗어남으로써, 인식부의 처리량 또는 연산량을 저감하고자 하는 것이다.

이와 같은 목적에 맞는 워드의 분포 구조를 결정하기 위해 워드간의 관계를 알기 위한 거리 척도와 같은 것이 필요하게 된다.

일반적으로, 음성 인식에서, 각 워드에 대응한 모델, 즉, 템플릿이나 네트워크 모델, 확률 모델 등을 작성하고, 학습 과정에서 그 모델의 파리미터를 결정하고, 인식 과정에서 그 모델을 이용한 스코어 계산, 즉 거리 계산이나 확률 계산을 하는 것이므로, 그 의미에서는 실제 음성 신호와 워드의 거리 척도는, 실제 음성 신호를 음향 분석하여 얻어지는 특징량과 워드에 대응한 모델로부터 계산되는 스코어에 의해 정의되어 있다고 생각할 수 있다.

그런데, 음성 인식에서 이용되는 스코어는, 화자의 상이나 발화 속도, 환경의 변화 등에 의해, 크게 변동하는 경향이 보여진다. 예컨대, 동일하게 발성된 2개의 음성 신호에 대하여, 같은 모델로 스코어 계산을 행할 경우, 그 스코어의 차이가 생기는 일은 드물지 않다. 또한, 동일하게 발성한 2개의 음성 신호에 대하여, 다른 2개의 모델을 이용하여 스코어 계산을 행한 경우, 한쪽의 음성 신호에 대해서는, 다른 쪽의 모델에 대한 스코어 쪽이 높고, 또 한쪽의 음성 신호에 대해서는, 또 한쪽의 모델 쪽이 스코어가 높은 현상(순서가 바뀌는 현상)도 가끔 있다.

그래서, 이러한 변동을 흡수하기 위해, 각각의 인식 수법에서 이용되는 스코어의 기대치에 의해, 워드간의 상관값을 정의하는 것을 생각한다.

우선, 인식 대상 워드를 W_i(1 < i < N)으로 표시하고, 각 워드(W_i)에 대응하는 실제 음성 신호의 집합을 Xi = {X_i ¹, X_i ², X_i ³...}으로 한다. 여기에서, N은 인식 대상 워드수, 즉 사전에 포함되는 워드수로 한다.

그리고, 어떤 음성 신호(X_j ^k)를 음향 분석하여 얻어지는 특징량과, 학습에 의해 이미 파라미터가 결정된 워드(W_i)에 대응한 모델과의 사이에서 계산되는 스코어, 예컨대, DP 매칭에서의 템플릿과의 거리나, HMM 에서의 발생 확률 등을 S(X_j ^k, W_i)로 기술하기도 한다.

단, 이러한 스코어는,

[수학식 1]

과 같이 정규화되어 있는 것으로 한다. 이러한 (1)에서, Sorg(X_j ^k, W_i)는 정규화 전의 스코어, S(X_j ^k, W_i)는 정규화된 스코어이다.

지금, 워드 W₁에 대응하는 어떤 음성 신호(X₁ ¹)를 이용하면, 각 워드에 대하여 스코어(S(X₁1, W_i))를 구할 수 있다. 마찬가지로, 음성 신호(X₁ ²)를 이용하여 스코어(S(X₁ ², W_i))가 구해진다. 이하 마찬가지로 하면, W₁에 대응하는 음성 신호의 집합(X1 = {X₁ ¹, X₁ ², X₁ ³...})을 이용하여 스코어를 각각 계산할 수 있다. 그래서, 이러한 음성 신호의 집합(X1)에 대하여 각 워드별로 구해지는 스코어의 기대치, 예컨대 평균치를 Se(X₁, W_i)로 표시한다고 하면,

[수학식 2]

와 같이 계산할 수 있다. 여기에서, K는 W_i에 대응하는 음성 신호의 데이터수이며, 충분히 큰 것으로 한다.

동일하게 하여, 워드(W_i)에 대응하는 음성 신호의 집합(X_j= {X_j ¹, X_j ², X_j ³...})과 각 모드 사이에서, 스코어의 기대치를 다음 식과 같이 구할 수 있다.

[수학식 3]

만약, 인식 성능이 어느 정도 보증된 음성 인식의 방식을 이용한다면, 워드(W₁)에 대응한 음성 신호의 집합(W₁)에 대해서는, 상기 (3)식에서 구한 스코어의 기대치 중 Se(X₁, W₁)이 가장 높아지는 것을 기대할 수 있다. 마찬가지로, 워드(W_j)에 대해, 식 (3)에서 구한 스코어의 기대치 중 Se(X_j, W_j)가 가장 높아지는 것을 기대할 수 있다. 그리고, X_j에 대하여 스코어의 기대치 Se(X_j, W_i)가 높은 W_i라는 것은 미지 음성 신호(X_j ^k)에 대해서도 스코어(S(X_j ^k, W_i))가 높아지는 것을 기대할 수 있고, 반대로 X_j에 대한 스코어의 기대치(Se(X_j, W_i))가 낮은 W_i라는 것은, 미지 음성 신호(X_j ^k)에 대해서도 스코어(S(X_jk, W_i))가 낮아지는 것을 기대할 수 있다.

그래서, 상기 (3)식에 의해 구해지는 스코어의 기대치(Se(X_j, W_i))를 워드(W_j)에 대한 워드(W_i)의 거리 척도(D(W_j, W_i))로서 파악한다.

[수학식 4]

단, 이러한 (4)식의 거리 척도(D(W_j, W_i))는, 스코어(S(X_j ^k, W_i))로서 템플릿과의 거리 등을 이용하는 경우에는 작으면 작을수록 W_j에 대하여 W_i가 가깝다는 것을 의미하고, HMM 등의 발생 확률을 이용하는 경우에는, 반대로 크면 클수록 W_j에 대하여 W_i가 가깝다는 것을 의미한다.

이 때, 거리 척도(D(W1, W_i))에 기초하여, 워드(W1)에 대하여 워드(W_i(i=1,2,...,N))를 가까운 순으로 배열할 수 있다. 동일하게 워드 W₂, W₃,...,WN에 대하여도, 워드 W_i(i = 1, 2,...,N)를 가까운 순으로 배열할 수 있다.

그래서, 그 순위, 즉 W_j에 대하여 가까운 순으로 워드(W_j)를 늘어 놓았을 때의 순위를 워드(W_j)에 대한 워드(Wi)의 상관값(R(W_j, W_i))으로 정의한다. 예컨대, 가장 가까운 것은 1, 두 번째로 가까운 것은 2, 이하 동일하게 하여, 가장 먼 것은 N으로 한다.

또한, 상기 (4)식의 거리 척도(D(W_j, W_i))가 같아지고, 순위가 같아지는 것이 있는 경우에는, 여기에 억지로 순서를 붙이지 말고, 모두 같은 상관값을 설정하는 것으로 한다. 예컨대, 3위의 것이 2개 있는 경우는, 모두 3을 설정한다.

이상과 같이 하여 정의된 상관값(R(W_j, W_i))은, 1에서 N가지의 정수값을 취하게 되고, 작을수록 상관이 높고, 클수록 상관이 낮다고 볼 수 있다. 즉, 상관이 높거나 상관값(R(W_j, W_i))이 작다는 것은, 워드(W_j)에 대응한 미지 음성 신호(X_j ^k)에 대해 워드(W_i)의 모델로부터 구해지는 스코어(S(X_j ^k, W_i))가 높아지는 것을 기대할 수 있다는 것을 의미하고, 상관이 낮거나 상관값(R(W_j, W_i)이 크다는 것은, 워드(W_j)에 대응한 미지 음성 신호(X_j ^k)에 대하여 워드(W_i)의 모델로부터 구해지는 스코어(S(X_j ^k, W_i))가 낮아지는 것을 기대할 수 있다는 것을 의미한다. 여기에서 R(W_j, W_i)와 R(W_i, W_j)는, 정의에서 알 수 있듯이, 반드시 같아진다고 한정할 수 없는 것에 주의가 필요하다.

다음으로, 이와 같은 상관값에 기초하여 목적으로 하는 음성 인식 대상워드를 구조화하는 방법에 대해서 설명한다.

<인식 대상 워드의 구조화>

음성 인식 대상 워드의 구조화 방법에 관하여 기술하기 전에, 어떻게 구조화해야 할 것인가에 대해 간단히 설명한다.

기본적으로, 음성 인식 대상 워드를 대표 워드와 거기에 속한 워드로 분리하고, 실제로 인식하는 경우에는, 입력 음성 신호에 대해 우선 대표 워드 중에서만인식 처리를 한다. 이것은 도 2에서의 전체 인식 대상 워드의 분포 공간(20)에서 어느 부근에 입력되었는지를 조사하는 것에 해당한다. 이러한 인식 처리의 결과에 따라, 다시 인식 처리를 해야 할 워드를 한정하고, 최종적으로는, 대표 워드와 어느 일부의 워드에 대한 인식 처리, 즉 국소적인 탐색만으로 인식 결과를 구하고자 하게 된다.

예컨대, 도 3에 도시하는 바와 같은 관계, 즉 대표 워드(31)로서의 예를 들면, 5개의 워드(W₁, W₅, W₇, W₁₀)와, 거기에 속하는 워드(32)로서의 예를 들면 6개의 워드(W₂, W₃, W₄, W₆, W₈, W₉) 사이의 종속 관계가 얻어졌을 경우, 우선, 대표 워드만으로 처리를 하고, 그 결과를 바탕으로 어떠한 판정 기준에 기초하여, 다음으로 인식 처리를 해야 할 워드를 선택하게 된다. 예컨대, 대표 워드(W₇)에 속하는 워드가 선택되면, 결국은, 대표 워드(31)가 되는 5개의 워드(W₁, W₅, W₇, W₁₀)와, 워드(W₇)에 속하는 워드(W₄, W₆, W₈)에 대해서만 인식 처리를 하고, 그 중에서 가장 스코어가 높은 것이 선택되게 된다.

따라서, 전체 검색에서 정해가 얻어지는, 즉, 입력 음성 신호에 대응하는 워드의 스코어가 가장 높아진다면, 대표 워드에 대응하는 입력 음성 신호에 대하여 반드시 정해가 얻어지게 된다.

이에 대하여, 대표 워드 이외의 워드에 대응하는 입력 음성 신호에 대해, 우선, 대표 워드 중에서만 인식 처리를 행할 경우, 당연히 정해는 얻어질 수 없다.그러나, 대표 워드에 대한 스코어화를 행하면, 그 중에서 높은 것, 즉 상관이 높다고 생각되는 것을 추출할 수 있다.

그래서, 정해가 되는 워드에서, 상관이 높은, 즉 상관값이 작은 워드가 대표 워드 중에 포함되어 있으며, 또한 그 대표에 속하는 워드 중에서 그 정해가 되는 정해 워드가 포함되어 있으면, 대표 워드 중에서 스코어가 높은 것을 구하고, 거기에 속하는 워드를 추출하고, 그 중에서 다시 인식 처리를 행함으로써, 최종적으로 정해가 얻어지는 것을 기대할 수 있다.

이상의 생각에 기초하여, 인식 대상 워드를 구조화하는 방법에 대해, 도 4를 참조하여 설명한다.

순서 1. 그룹화(단계 S41)

상관값(R(W_j, W_i))과 상관값(R(W_j, W_i))이 모두 작은(상관이 높음) 워드(W_i와 W_j)의 경우는, 어느 쪽의 워드에 대응한 입력 음성 신호(X)에 대해서도, 스코어(S(X, W_i), S(X, W_j))가 높아지는 것을 기대할 수 있기 때문에, 이 2개를 그룹화한다. 이 때, 어느 한쪽을 대표 워드로 하고, 다른 쪽을 거기에 속하는 워드로 한다. 또한, 그룹화되지 않은 워드에 관해서는, 자기 자신을 대표 그룹 워드로 하고, 단일 그룹으로 한다.

순서 2. 그룹으로의 추가(단계 S42)

어느 하나의 그룹에 속하여, 대표 워드가 되지 못하는 워드(W_j)에 관해서는또한, R(W_j, W_i)가 작은 W_i중에서 대표 워드로 선택된 W_i의 그룹에도 속하게 된다. 이것은 대표로 선택되지 않았던 W_j가 속하는 그룹으로서, W_j에 대하여 상관이 높은 W_i가 대표 워드로 되어 있는 것을, 가능한 많게 해 두기 위해 이루어지는 처리이다.

순서 3. 계층화

상기 그룹화 및 그룹으로의 추가를 하나의 종합 스위치로서 그룹 분할하고, 동일하게 하여, 각 그룹의 대표 워드에 대하여, 다시 그룹 분할을 행하며, 또한 그 대표 워드에 대해 그룹화를 행하는 것을 반복하고, 계층 구조의 탐색 트리를 작성한다. 즉, 상기 그룹화 및 그룹으로의 추가 처리에 의해, 어느 단계에서 상관이 있는 워드가 그룹화되고, 각 그룹에 대한 대표가 하나 선택되게 한다. 그리고, 그 대표 워드가, 그 상위 계층의 구성 요소가 되는 것이다.

도 4의 흐름도에서는, 우선, 단계 S41에서 상기 그룹화를 하고, 단계 S42에서 상기 그룹으로 추가하고, 단계 S43에서 상기 대표 워드를 선택한다. 이렇게 선택한 대표 워드에 대해, 다시 단계 S1의 그룹화와 단계 S2 그룹으로의 추가를 행하는, 이것을 반복하여, 계층 구조로 구조화해 가는 것이다.

도 5는 이와 같은 그룹 분리의 구체적인 예를 도시한다.

우선, 도 5의 A에 나타내는 주어진 음성 인식 대상 워드(W_i(i1,2...10))에 대하여, 상기 각 단계(S41, S42)에 의해 도 5의 B에 나타내는 바와 같은 그룹 분할이 이루어지고, 상기 단계 S43에 의해 대표 워드(W₁, W₅, W₇, W₁₀)가 선택된다. 다음으로, 이러한 대표 워드에 대해, 마찬가지로 상기 각각의 단계(S41, S42)의 처리를 행하고, 도 5의 C에 나타내는 바와 같은 그룹 분할이 이루어지며, 단계 S43에 의해 대표 워드(W₁, W₁₀)가 선택된다. 그리고, 최종적으로 도 6에 나타내는 바와 같은 탐색 트리가 얻어지게 된다.

다음으로 상기 구조화에 관하여, 구체적인 예를 기술한다.

《그룹화에 대하여》

순서 1. 우선, 각 워드(W_i)에 대응한 그룹(G_i)을 만들고, 그 그룹의 요소 수를 n(G_i)로 표시하기로 한다.

초기 상태는

으로 하고, 각 그룹(G_i)의 대표 워드를 Wi로 한다.

순서 2. 각 워드 W_j에 대하여, 상관값(R(W_j, W_i: 단, i = 1, 2 ... N))을 구한다.

순서 3. i=1

순서 4. j = i +1

순서 5. R(W_j, W_i) ≤ r, 또한 R(W_i, W_j)이 되는 경우, 이러한 (i, j)에 대하여 이하를 행한다. 그 이외의 경우는 다음 순서인 순서 6.으로.

(1) n(G_i) ≥ 1, n(G_j) ≤ 1인 경우, 하기의 처리(I)를 실행.

(2) n(G_i) ≤ 1, 또한 n(G_j) ≥ 1인 경우, 하기의 처리(II)를 실행.

(3) n(G_i) > 1, 또한 n(G_j) < 1인 경우,

그룹(G_i)에 포함되는 W_i이외의 요소와,

그룹(G_j)에 포함되는 W_j이외의 요소가 같으면,

하기의 처리(I ; 또는 처리(II))를 실행.

단, 처리(I), (II)는 다음과 같은 처리이다.

처리(I) : 그룹(G_i)에 워드(W_j)가 이미 속해 있으면, 아무것도 행하지 않고, 속해 있지 않으면, 그룹(G_i)에 워드(W_j)를 추가하고, n(G_i)는 1 증가하며, n(G_i) = 0으로 한다.

처리(II) : 그룹(G_i)에 워드(W_i)가 이미 속해 있으면, 아무것도 행하지 않고, 속해 있지 않으면, 그룹(G_j)에 워드(W_j)를 추가하고, n(G_j)는 1 증가하며, n(G_j) = 0으로 한다.

순서 6. j를 1 증가시켜, j ≤ N이면, 상기 순서 5.로 돌아가고, j > N이면 다음 순서7.로.

순서 7. 1을 증가시켜, i ≤ N - 1이면 상기 순서 4.로 돌아가고, j > N - 1이면 종료한다.

상기의 그룹화 방법에 관하여, 도 7의 흐름도를 참조하여 간단히 설명한다.

단계 S71에서 그룹의 초기화를 행하고, 단계 S72에서 상관값을 구하고, 단계S73에서 상기 순서 3. 내지 순서 7.에 상당하는 처리, 즉 다른 W_i,와 W_j에 대하여, 상관값에 기초하여 그룹화한다. 그 판정 기준으로서는, 상기 순서5 의 처리에서와 같은

을 이용한다. 여기에서, r은 1보다 크고, 인식 대상 워드수(N)보다(충분히) 작은 정수(예컨대, 2에서 10 정도)를 설정한다. 즉, 상관값(R(W_j, W_i)와 R(W_i, W_j))이 모두 작아지는 W_i, W_j에 대하여 그룹화하는 것이다.

그리고, 그와 같은 W_i와 W_j가 발견된 경우에는, 기본적으로 상기 순서 5.에 나타내는(1), (2)의 경우와 같이, 아직 대표 워드가 되어 있지 않은 쪽을, 이미 대표 워드가 되어 있는 쪽의 그룹에 속하도록 한다. 즉, 상기 처리(I) 또는 처리(II)를 행한다. 예컨대, G₁= {W₁, W₂}, G₃= {W₃}인 경우에, W₁과 W₃사이에서 상기 (6) 식이 성립하면, G₁= {W₁, W₂, W₃}으로 변경하고, G₃은 공집합으로 하면 좋다.

단, 어느 쪽의 그룹에도, 이미 대표 워드 이외에 속하는 요소가 존재하는 경우, 즉, 상기 순서5.의 (3)의 경우에는, 그 대표 워드 이외의 요소가 같을 때만, 상기 처리(I ; 또는 처리(II))를 실행한다. 예컨대, G₅= {W₁, W₅}, G₇= {W₂, W₇}인 경우, W₅와 W₇에 대하여 상기 (6)식이 성립해도, 그룹화는 되지 않지만, G₅= {W₁, W₂, W₅}, G₇= {W₁, W₂, W₅, W₇}으로 변경하고, G₇은 공집합으로 하게 된다. 반대로,G₅를 공집합으로 하고, G₇= {W₁, W₂, W₅, W₇}로 변경해도 좋다.

또한, n(G_i) = 1, 또한 n(G_j) = 1인 경우, W_i와 W_j에 대하여 상기 (6)식이 성립할 때에는, 상기 처리(I)와 처리(II)의 어느 쪽을 실행해도 좋다.

또한, 판정 조건의 상기 (6)식에서의 r은, 작으면 작을수록 그룹화가 이루어지는 조건이 까다로워진다. 그 의미에서는, 최초 r = 2로 설정하고, 순서 1.로부터 순서 7.의 처리를 행하고, 이어서 r = 3으로 설정하고, 상기 순서 3.으로부터 순서 7.의 처리를 행하며, 동일하게 하여 r을 1씩 증가시키면서, r ≤ ra를 만족하는 동안, 상기 순서 3.으로부터 순서 7.의 처리를 반복하도록 함으로써, 가장 상관이 있는 워드끼리 우선 그룹화되고 나서, 다음으로 상관이 있는 것 다음으로 상관이 있는 것과 같은 식으로, 차례대로 그룹화되어 감으로써, 대표로 선택되지 않은 워드에 있어서는, 보다 상관이 강한 워드가 최초 단계에서 대표 워드가 되어 준다는 점에서, 효과가 있는 구조화를 얻을 수 있게 된다. 여기에서, ra로는 2보다 크고 인식 대상 워드수(N)보다는 충분히 작은 정수(예컨대, 3으로부터 10 정도)를 설정하는 것으로 한다.

이러한 것을 도 8에 나타낸다. 도 8의 각 단계(S 81, S82, S83)은 각각 상기 7의 각 단계(S71, S72, S73)에 대응하지만, 상기 순서 3.으로부터 순서 7.의 처리에 상당하는 단계 S83에 대해서는, r을 1씩 증가시키면서, r ≤ ra를 만족하는 동안, 처리를 반복하도록 하고 있다.

그리고, 판정 조건인 상기 (6)식 대신,

와 같이, W_j에는 그것에 따른 rj를 설정하도록 하고, 예컨대,

과 같이, n(G_j)에 따라 변동시키는 방법도 생각할 수 있다. 이러한 경우, 최초는, r = 2, 즉 rj = 2로 설정하고, 상기 순서 1.로부터 순서 7.의 처리를 하고, 얻어진 각 그룹의 요소 수에 따라, r = 3으로 하여 상기 (8)식에 의해 rj를 다시 설정하고, 상기 순서 3.으로부터 순서 7.의 처리하고, 동일하게 하여, r을 1씩 증가시킴과 동시에, 그룹 요소 수에 따라 상기 (8)식에 의해 rj를 다시 설정하면서 r≤ ra를 만족하는 동안, 상기 순서 3.으로부터 순서 7.의 처리를 반복하도록 한다. 이와 같이하여, 본래 매우 상관이 있는 W_i와 W_j가 그룹화되지 않는 상황, 특히 W_j에 있어서 더욱 상관이 있는 W_k가 다수 존재하기 때문에, 상관값(R(W_j, W_i))이 조금 커지므로, W_i와 W_j가 그룹화되지 않는 상황을 완화시킬 수 있다.

예컨대, W₅에 대하여 R(W₅, W₁) = 2였다고 해도, W₁에 대하여, R(W₁, W₃) = 2, R(W₁, W₈) = 3, R(W₁, W₅) = 4인 경우, r ≥ 4로서 상기 (6)식의 판정을 하지 않으면, W₁과 W₅는 그룹화되지 않는다. 그러나, 만약 G₁= {W₁, W₃, W₈}과 같이 그룹화된 후에, r = 2로서 상기 (7)식의 판정을 하면, W₁과 W₅는 그룹화된다. 이것은 상기(8)식에 의해, r₁= 5, r₅= 3이 되기 때문이다.

따라서, 더욱 효율적으로 구조화가 이루어지게 된다. 여기에서, ra로는, 앞서와 마찬가지로, 2보다 크고 인식 대상 워드수(N)보다 충분히 작은 정수(예컨대, 3에서 10 정도)를 설정한다.

그룹으로의 추가에 대해,

순서 1. j=1

순서 2. W_j가 대표 워드가 아닌 경우, 즉 n(G_j) = 0인 경우, 이하를 행한다. 그 이외의 경우는, 다음의 순서 3.으로.

(a) i =1

(b) W_i가 대표 워드인 경우, 즉 n(G_j) > 0인 경우, 이하를 행한다. 그 이외의 경우는, (c)로.

R(W_j, W_i) ≤ rb인 경우, 하기의 처리(III)를 실행.

(c) i를 1 증가시켜, i ≤ N이면 (b)로 돌아가고, i > N이면 다음 순서 3.으로.

단, 처리(III)는, 다음과 같은 처리이다.

처리(III) : 그룹(G_i)에 워드(W_j)가 이미 속해 있으면 아무것도 하지 않고, 속해 있지 않으면, 그룹(G_i)에 워드(W_j)를 추가하고, n(G_i)을 1 증가시킨다.

순서 3. j를 1 증가시켜, j ≤ N이면 상기 순서 2.로 돌아가고, j > N이면종료.

상기 그룹으로의 추가에 관하여, 간단히 설명을 추가하면, 우선, 상기 그룹화에 의해 대표 워드와 거기에 속하는 워드로 분리되게 된다. 그리고, 인식 과정에서는, 이러한 대표 워드만으로, 먼저 인식 처리를 하고, 그 결과로부터, 다시 인식처리의 필요한 워드를 선택하는 것이 행해진다.

즉, 대표로 선택되지 않은 워드에 있어서, 상관이 강한 워드를 가능한 한 대표 워드에 포함되어 있으며, 그 대표 워드의 그룹에 속하는 것이 중요해 진다고 할 수 있다.

그래서, 상기 순서 1., 순서 2., 순서 3.의 처리를 통하여, 대표 워드로 선택되어 있지 않은 워드(W_j)에 착안하여, 대표로 선택된 W_i중에서 상관이 강한 워드, 즉

를 만족하는 W_i를 찾아내고, 대응하는 그룹(G_i)에 W_j가 아직 속해 있지 않은 경우, 그 그룹의 요소로서 W_j를 추가하는 것이다.

또한, 상기 (9)식의 rb는, 2보다 크고 인식 대상 워드수(N)보다는 작은 정수(예컨대, 3에서 20정도)를 설정하는 것으로 한다. 단, 인식 성능을 열화시키지 않기 위해, 상술한 그룹화에서의 (6)식의 r이나 (7)식의 ri, rj는 그다지 크게 하지않는 쪽이 좋은, 즉 판정 조건을 까다롭게 한 쪽이 좋은 것에 대하여, 상기 (9)식의 rb는 가능한 한 크게 설정하는 쪽이 좋다고 할 수 있다.

대표 워드로 선택되지 않은 워드에 관해서는, 인식 과정에서, 인식 처리(스코어 계산)가 행해지는 대상 워드내에 포함되지 않을 위험성이 있기 때문이다. 그 의미에는, 그룹화를 행할 때, 상관이 지나치게 크지 않은 워드끼리는 그룹화를, 즉, 한쪽 편을 대표 워드로 하고, 또 한쪽 편을 거기에 속하는 워드로 하는 것은 바람직하지 않다. 따라서, 상기 (6)식의 r이나 (7)식의 r_i, r_j는 지나치게 크지 않는 것이 좋다.

이에 대해, 일단 그룹화가 행해진 후, 대표 워드로 선택되지 않은 워드는, 가능한 한 많은 그룹에 속한 쪽이 인식 과정에서 인식 처리(스코어 계산)가 이루어지는 대상 워드 내에 포함될 확도가 높아진다. 그 의미에서는, 상기 (9)식의 rb는 가능한 한 큰 것이 좋은 것이다. 특히, 그 워드에 있어서 상관이 높은 워드가 대표로 된 그룹에 포함되는 것은 보다 효과를 기대 할 수 있다.

그러나, 상기 (9)식의 rb를 크게 하는 것은, 인식 과정에서의 탐색 범위의 확대, 즉 스코어 계산이 행해지는 워드수가 커지는 것으로 이어진다. 이 때문에, 본래의 목적인 인식 과정의 처리량(연산량)을 축소하고자 하는 의미에서는 rb를 너무 크게 해서는 안된다. 따라서, 결국 rb로서는, 상기 (6)식의 r이나 상기 (7)식의 ri, rj보다는 약간 크게 설정하는 것이 바람직하다.

《계층화에 대하여》

순서 1. 전체 인식 대상 워드{W_i: i = 1, 2,..., N}에 대하여, W_i를 W_i ⁰등으로 표기하기로 한다. 또한, N⁰= N으로 한다.

순서 2. m = 1

순서 3. 워드 {W_i ^m-1: 1, 2,...,N^m-1}에 대하여, 상술한 그룹화와 그룹으로의 추가 처리를 1 단계로 하는 그룹 분리를 행한다. 얻어진 대표 워드를 {W_i ^m: 1 = 1, 2,..., N^m}으로 표시하기로 한다. 단, N^m은 얻어진 대표 워드 수이다.

순서 4. m을 1 증가시키고, m ≤ M이라는 순서 3.으로 돌아가고, m > M이라면 종료.

상기 계층화에 관하여, 상기 도 4를 참조하여 간단히 설명한다.

우선, m = M에서의 상기 순서 3.의 처리는, 전체 인식 대상 워드에 대하여, 상술한 단계 S41에서의 그룹화와, 단계 S42에서의 그룹으로의 추가를 행하는 것에 해당하며, 최초에 행하는 단계 S41의 그룹화에 의해, 상관이 같은 것끼리 그룹화되고, 그 종속 관계가 결정되게 된다.

다음으로, m = 2로 하고, m = 1에서 얻어진 대표 워드에 대한 그룹 분리를 행하는 것이며, 역시 최초에 행하는 그룹화에 의해, 상관이 강한 것끼리 분류화되어, 그 종속 관계가 결정되게 된다.

이후, 마찬가지로, m > M이 되기까지, 동일하게 그룹화를 행하고, 도 6에 나타나난 바와 같은 계층 구조의 탐색 트리가 얻어지게 되는 것이고, 그 작성 과정을 생각하면, 어느 계층 워드에는, 상호 상관이 강한 워드가 대표 워드로서 그 위에존재하고, 패스가 연결되어 있는 것을 기대할 수 있다. 즉, 가장 아래 계층(즉, wsdlstlr 대상 워드의 집합)에 있는 워드에 있어서, 서로 상관이 강한 워드로의 패스가 상위 계층으로 연결되는 것을 기대할 수 있다.

예컨대, 도 9에 나타내는 바와 같이, 워드(W₁)와 워드(W₅)사이에 상기 식 (6) 또는 식 (7)과 같은 관계가 성립하고, W₁이 대표 워드, W₅가 W₁에 속하는 워드가 되었다고 한다. 또한, 워드(W₁)와 워드(W₉)가 모두 대표로 선택된 후, 다시 그룹화를 한 결과, W₁과 W₉사이에 상기 (6) 또는 (7) 식과 같은 관계가 성립하고, W₉가 대표 워드, W₁이 W₉에 속하는 워드가 되었다고 한다. 이 경우, 워드(W₅)와 워드(W₉)의 상관도 강하다는 것을 기대할 수 있는 것이다.

그러나, 가장 아래 계층의 워드에 있어서, 상위 계층으로의 패스를 거슬러 올라가서 얻어지는 워드간의 상관의 강도는, 상위 계층으로 가면 갈수록 약해지는 것이 예상된다. 따라서, 만약 얻어진 탐색 트리에 기초하여, 인식 처리를 해야하는 워드를 제한하는 것으로 했을 경우, 그다지 상위 계층의 워드에서 가장 아래 워드에 대한 제한을 가하는 것은, 변형의 증대, 즉 확인률의 저하를 초래하는 것이 예상되어 바람직하지 않다고 할 수 있다. 그 의미에서 보면, 상기와 같은 계층화에 의해 얻어지는 탐색목의 최상위의 계층(M)은, 그다지 크지 않는 것이 좋다.

또한, W_i ^m을 제 m 계층의 워드라고 부르기로 한다. 예컨대, 인식 대상 워드의 집합은 제 0계층의 워드이며, 거기에서 선택된 대표 워드의 집합은 제 1 계층의 워드라고 부르기도 한다.

<인식 방법>

이어서, 상기 인식 대상 워드를 상술한 바와 같이, 계층 구조로 구조화함으로써 얻어지는 탐색 트리를 이용한 인식 수법에 관하여 기술한다.

이러한 음성 인식에는, 도 1 대신에, 도 10과 같은 구성이 이용된다.

여기에서, 입력부(101), 음향 분석부(102), 파라미터 기억부(104), 출력부(105)에 관해서는, 그 동작은 상술한 도 1 의 각 부(11, 12, 14, 15)와 각각 동일하다.

즉, 입력부(101)로부터 입력된 음성 신호가, 음향 분석부(102)에서 음향 분석되고, 얻어진 특징량이 인식부(103)로 보내진다.

학습 과정에서는, 학습용의 음성 데이터에 기초하여, 인식 처리에 이용되는 파라미터가 결정되고, 그 파라미터가 파라미터 기억부(104)에 기억된다. 그리고, 새롭게, 상술한 인식 대상 워드의 구조화를 실제 음성 데이터를 이용하여 행하고, 얻어진 탐색 트리를 탐색 트리 기억부(106)에 기억한다. 즉, 각 인식 대상 워드에 대응한 실제 음성 데이터에 대하여, 확인부(103)에서의 스코어 계산을 행하고, 상술한 구조화의 방법에 기초하여 탐색 트리를 작성하고, 탐색 트리 기억부(106)에 기억시킨다.

인식 과정에서는, 입력부(101)로부터 입력된 미지 음성 신호에 대하여, 음향 분석부(102)에서 음향 분석을 행하고, 얻어진 특징량이 인식부(103)로 보내진다. 그리고, 이하와 같은 인식 처리를 한다.

순서 1. 제 M계층의 워드에 대하여 스코어 계산을 하여, 가장 스코어가 높은 것부터 상위 p개를 선택한다.

순서 2. m = M으로 한다.

순서 3. 제 m계층에서 선택된 가장 스코어가 높은 것부터 상위 p개의 워드에 대하여, 탐색 트리 기억부(106)의 탐색 트리에 기초하여, 그 워드에 속하는 제 m-1계층의 워드를 추출한다. 그리고, 그러한 워드에 대하여, 다시 스코어 계산을 하고, 가장 스코어가 높은 것부터 상위 p개를 선택한다.

순서 4. m을 1감소시켜, M > 3이면 3으로 돌아가고, m = 0이면 다음의 순서 5.로.

순서 5. 제 0단계에서 추출된 워드 중 가장 스코어가 높은 워드 또는 상위 복수개를 선택한다.

그리고, 상기 순서 5.에서 선택된 가장 스코어가 높은 워드, 또는 상위 복수개를 출력부(105)로 송신한다.

출력부(105)에서는, 송신된 인식 결과를 화면에 표시하거나 소리로서 출력하거나, 나아가서는, 그 인식 결과를 이용하여, 다른 장치를 동작시키는 등의 지령을 행한다.

상기 순서 1.의 처리를 초기 탐색이라 하고, 상기 순서2.로부터 순서 4.까지의 처리를 구조 탐색이라 한다.

여기에서, 도 11은, 상기 인식 처리의 개요를 설명하기 위한 흐름도이다.

이러한 도 11의 최초의 단계 S111에서, 초기 탐색으로서, 상기 제 M 계층의탐색을 행하고, 그 후, 처리 루틴(112)에 의해, 제 M - 1 계층의 탐색으로부터 제 0 계층의 탐색까지의 구조 탐색을 행한다. 단계 S113에서, 제 m 계층의 워드가 추출된다. 이렇게 추출된 워드에 대해, 단계 S114에서 스코어 계산이 이미 이루어져 있는지 여부가 판별된다. NO일때는 단계 S115로 진행하여 스코어 계산을 한 후, 단계 S 116으로 진행하고, YES일 때는 직접 단계 S116으로 진행한다. 단계 S116에서, 계산된 스코어가 높은 것부터 상위 p개를 선택한다.

상기 초기 탐색은, 인식 과정에서 최초로 행하는 최상위 계층의 대표 워드에 대한 스코어 계산에 해당하며, 구조 탐색은 탐색 트리에 기초하여, 하나 위의 계층의 탐색에서 선택된 p개의 대표 워드에 속하는 워드에 대하여 스코어 계산을 행하는 처리에 해당한다. 또한, 이상과 같은 구조 탐색에서는, 대표 워드로서 이미 스코어 계산을 행한 것이지만, 추출한 2개 이상의 그룹에 중복하여 포함된 것이 있기 때문에, 일단, 스코어 계산을 행한 워드에 관해서는, 그 스코어를 기억해 두고, 동일한 워드에 대한 스코어 계산의 중복을 피하도록 한다.

<기억 용량의 추측>

이상과 같은 탐색 트리를 이용한 인식 처리에서, 탐색 트리에 필요한 기억용량을 추측한다. 전체 워드수를 N이라 한다. 그룹화에 의해, 어떤 계층의 워드가 그 워드수의 약 2분의 1의 그룹으로 축소되며, 각 그룹의 평균 요소 수가 10워드로 가정하면, 계층(m)의 워드수는,

로 주어지고, 각 워드에서 하나 아래 계층의 워드로의 종속 관계로서 평균10개의 탐색 트리의 패스를 기억해야 하고, 따라서, 제 0 계층에서 제 M 계층가지의 전 워드에 대해

[수학식 5]

의 패스를 기억할 필요가 있게 된다. 여기에서, M은 탐색 트리의 최상위 계층이다. 따라서, 기억 용량으로서는, M을 충분히 크게 하였다고 해도,

[수학식 6]

의 패스 정보를 기억하면 좋게 된다.

또한 이러한 값은 인식 대상이 되는 워드의 세트에 크게 의존한 것으로, 상기 (6) 식의 r이나, 상기 (9)식의 rb에 따라 크게 변동하므로, 하나의 기준으로서 나타낸 것이다.

<연산량의 추측>

다음으로, 탐색 트리를 이용한 인식 처리에서의, 연산량의 추측을 행한다. 상술한 기억 용량에서 상정하는 것과 같은 탐색목이 얻어졌다고 한다. 즉, 전체 워드수를 N으로 하고, 각 계층에서 약 2분의 1의 그룹으로 축소되며, 각 그룹의 평균 요소 수가 10워드라고 하면, 인식에서의 초기 탐색의 워드 수는,

구조 탐색의 워드 수는

[수학식 7]

로 부여된다. 단, M은 인식시의 초기 탐색을 행하는 계층, p는 제 m계층에서 추출하는 스코어가 높은 워드수로 한다.

참고로서, 1000워드와 4000워드의 인식에서, p = 10인 경우의 스코어의 계산해야 할 워드수, 즉, 초기 탐색의 워드수와 구조 탐색의 워드 수를 추측한 것이 다음의 표 1, 표 2이다.

각각, 초기 탐색의 계층(M)에 대한 초기 탐색의 워드수와 구조 탐색의 워드수, 및 그 합계, 즉 최종적으로 스코어 계산을 행하는 워드수를 나타내고 있다. 여기에서, M = 0은, 전체 탐색에 대응하고 있는 것으로 한다. 구조화에 의한 연산량의 삭감으로서는, 표 1에 나타내는 1000워드 인식의 경우, 제 6계층을 초기 탐색의 계층으로 하면, 초기 탐색 250워드, 구조 탐색 200워드, 합계 450워드의 스코어 계산을 행하게 되고, 약 6할 삭감이 되는 것으로 생각된다. 또한, 표 2에 나타내는 4000 워드의 경우, 제 4 계층을 초기 탐색의 계층이라 하면, 초기 탐색 250워드, 구조 탐색 400워드, 합계 650워드의 스코어 계산을 하게 되며, 약 8할 삭감하게 되는 것으로 생각된다. 더욱이, 대표 워드로서 이미 스코어 계산한 것이나, 추출한 2개 이상의 그룹으로 중복하여 포함되는 것 등, 동일한 워드에 대한 스코어 계산의 중복을 피하기 때문에 연산량을 더욱 삭감할 수 있는 것을 기대할 수 있다.

또한, 이와 같은 탐색 트리를 이용한 인식 처리를 행하는 경우, 스코어 계산과 별도로, 구조 탐색에서 스코어 계산을 해야할 워드를 추출하기 위한 처리 등이 더해지지만, 이러한 연산량은, 스코어 계산에 걸리는 연산량에 비해 충분히 작은 것이 될 것으로 생각하여 고려하지 않는다.

<시뮬레이션 결과>

실제로, 938개의 단어 인식을, 전체 탐색과 본 발명의 구조화를 이용한 탐색으로 비교한 결과에 대해 기술한다. 단, 구조화의 방법으로서는 그룹화를 하기 위해 상기 (7)식을 이용하여, r을 2부터 8까지 증가시키면서, 상기 (8)식에서 rj를 변동시켜 그룹화를 행한다. 또한, 그룹으로의 추가를 행하기 위해 상기 (9)식에서rb = 20을 이용한다. 그리고, M = 2계층의 구조화를 행한다. 그 결과, 초기 탐색 워드 수가 150개가 되는 2계층의 탐색 트리에서, 각 계층의 어떤 워드로부터 그 아래 계층의 워드로의 패스로서는, 평균 12개 연결되어 있는 것이 얻어진다.

우선 전체 탐색에 의한 인식에서는, 인식률이 98.7%, 스코어 계산을 행한 워드 수가 938개였다. 이에 대하여, 각 계층에서 스코어가 높은 워드를 p = 8개 추출하는 구조화를 이용한 인식 처리를 행한 결과, 인식률은 96.6%로 약간의 열화밖에 보이지 않고, 스코어 계산을 행한 워드수는 초기 검색에 150개, 구조 검색에 평균 135개, 합계 285개(평균)가 된다. 즉, 전체 검색에 비해, 계산량을 약 7할 저감하는 것이 가능해졌다는 것을 알 수 있다.

이상 나타낸 바와 같이, 본 발명의 상술한 제 1 실시의 형태에 따르면, 인식 대상 워드를 미리 트리 구조로 구조화하고, 그 구조에 따라 검색함으로써, 인식 워드를 제한할 수 있고, 연산량을 대폭으로 저감할 수 있다. 또한, 새로운 워드간의 상관값(R(W_j, W_i))의 정의와, 그 상관값에 기초한 인식 워드의 구조화 방법에 의해, 국소적인 탐색이더라도, 스코어가 높아지는 것이 기대되는 워드는 탐색 범위에 포함되게 되고, 최종적으로, 변형을 거의 증대시키지 않는다. 즉, 인식률을 거의 열화시키지 않는다. 또한, 여분으로 필요한 기억 용량도 워드 수에 대해 약 10배 정도 패스 정보를 갖고 있으면 될뿐이며, 비교적 작은 것이 된다.

B. 제 2 실시 형태

다음으로, 본 발명의 제 2 실시 형태로서, 본 발명을 HMM(히든 마르코프 모델)을 이용한 음성 인식에 적용한 경우의 예에 대해 설명한다.

이것은, 상술한 제 1 실시 형태에서, 상관값을 계산하기 위해 음성 데이터를 이용할 필요가 있었던 점을 개량하여, 음성 데이터를 사용하지 않고, HMM의 파라미터로부터 직접 계산할 수 있도록 한 것이다. 물론, 상술한 실시 형태와 마찬가지로, 변형의 증대에 의한 확인률의 저하를 거의 초래하지 않고, 연산률을 대폭으로 저감하는 것을 가능하게 한다. 또한, 여분으로 필요하게 되는 기억 용량도 비교적 작은 것이 된다.

이하, HMM을 이용한 음성 인식에 관하여 간단히 설명하고, 그 음성 인식을 고속화하기 위한 방식으로서, 워드간의 상관값 정의, 그 상관값을 이용한 인식 워드간의 방법, 및 그 구조를 이용한 인식 수법에 관하여 기술한다.

<HMM을 이용한 음성 인식>

인식해야 할 워드를 W_l, W₂,...,W_p라 한다. 지금, 관측된 음성 신호의 특징 파라미터가 Y였을 때, Y가 워드(W_i)일 확률은, P(W_i｜Y)로 주어진다. 따라서, P(W_i｜Y; i=1,2,...,p) 중에서 최대의 확률을 부여하는 W_i를 Y가 속하는 워드, 즉 워드(W_i)가 발성된 것으로 판정하면 된다. 여기에서, 베이즈(Bayes)의 정의에 따라,

가 성립되고, 분모인 P(Y)는 W_i와는 관계가 없으므로, 분자인 P(W_i)P(Y｜W_i:i=1,2,...,p)를 최대로 하는 Wi를 구하면 된다는 것을 알 수 있다.

P(W_i)는 워드(W_i)가 발성될 사전 확률이고, P(Y｜W_i)는 워드 W_i가 발성되었을 때에 특징 파라미터(Y)가 얻어질 확률이다.

HMM법이란, (1)식을 최대로 하는 W_i를 확률 모델(HMM)에 의해 추정하는 수법이다.

HMM(Hidden Markov Midel : 히든 마르코프 모델)은, 비결정 유한 상태 오토마톤으로서 정의되며, 도 12에 나타내는 바와 같이, 몇가지 상태(S1, S2,...,S_N; 상태수 N)와 그 상태 사이의 천이를 나타내는 패스로 구성된다. 그리고, 각 상태의 천이 과정은 마르코프 과정으로 하고, 상태가 천이할 때 출력 심볼을 1개 발생하는 것으로 한다.

또한, 음성 인식에서는 도 13에 나타나는 바와 같이 자기 천이와 다음 상태로의 천이만을 허용하는 초기 상태와 최종 상태를 갖는 레프트 투 라이트(left-to-right)모델이 이용되는 경우가 많다.

HMM법 중, 이산형 HMM법에서는 음성의 특징 벡터를 예컨대, 벡터 양자화하는 것 등에 의해 얻어지는 심볼 계열(Y = y₁·y₂···y_T; T는 관측 계열의 길이)이 각 모델에서 발생활 확률(사후 확률)을 계산하고, 그 확률이 가장 큰 모델을 인식 결과로 하게 된다.

<HMM의 정식화>

여기에서, 워드(W)에 대응한 이산형 HMM은 다음과 같이 정식화된다.

S : 상태의 유한 집합(n은 상태수)

V : 출력 심볼의 집합(M은 출력 심볼수)

A : 상태 천이 확률의 집합(a_ij는 상태(S_i)로부터 상태 (S_j)로의 천이 확률)

[수학식 8]

B : 상태 천이시의 출력 확률의 집합(b_ij(v_K)는 상태(S_i)로부터 상태(S_j)로의 천이시에 심볼(v_K)을 출력할 확률)

[수학식 9]

π : 초기 상태 확률의 집합(π_i는 초기 상태가 S_i일 확률)

[수학식 10]

이렇게 하여 정의된 HMM에서, 심볼 계열 Y = y₁·y₂···y_T가 다음과 같이 발생된다.

순서 1. 초기 상태 확률(π)에 따라서, 초기 상태(x₀= S_i)를 선택한다.

순서 2. t = 0으로 한다.

순서 3. 상태 천이 확률(a_ij)에 따라서, 상태(x_t= S_i)로부터 상태(x_t+1= S_j)로의 천이를 선택한다.

순서 4. 출력 심볼 확률(b_ij(VK)에 따라, 상태(S_i)로부터 상태(S_j)로 처이할 때 출력되는 심볼(yt = vk)을 선택한다.

순서 5. t < T라면, t = t +1로 하고, 순서 3.으로 돌아간다. 그 이외는 종료.

단, 상태 천이 시각을 t= 0, 1, 2,...로 하고, 시각(t)에서 천이한 상태를 xt로 했다.

이상과 같이, HMM을 정의하기 위해, N, M의 지정, 출력 심볼의 집합, 확률 A, B, π가 필요하고, 이것을 간단하게 표기하기 위해,

로 표기하기로 한다. 즉, 워드 하나 하나에 모델이 결정된다.

<HMM의 확률계산>

음성인식 방법에서는, 앞서 언급한 바와 같이, 초기 상태와 최종 상태를 하나로 하는 레프트 투 라이트(left-to-right) 모델을 이용하는 경우가 많으며, 이하에서는 초기 상태와 최종 상태를 S_i, S_N에 한정한 모델을 생각한다.

모델(λ)이 심볼 계열(y₁·y₂···y_T)을 출력하고, 시각(t)에 상태(Si)에 도달하는 전방 예측 확률을 ai(t)로 하면, 상술한 모델의 심볼 출력의 정의로부터, 다음 점화식

[수학식 11]

에 의해 ai(t)를 계산할 수 있다. 여기에서, 상기 식의 j에 관한 서메이션은, 주어진 모델에서 상태 S_j에서 S_i로의 천이가 허용되어 있는 경우에만 파악되는 것으로 한다.

이상에 기초하여, 모델(λ)이 심볼 계열(Y = y₁·y₂···y_T)를 출력할 확률(P(Y｜λ))은,

으로 구해진다. 그리고, HMM법을 이용한 음성인식에서는, 음성으로부터 생성된 심볼 계열(Y = y₁·y₂···y_T)에 대해, 상기 식에서 계산될 확률(P(Y｜λ))을 최대로 하는 모델(λ)이 확인 결과가 된다.

또한, P(Y｜λ)를 구하는 다른 방법으로서, 비터비(Viterbi) 알고리즘을 이용한 계산 방법이라는 것이 있다. 이것을 간단하게 설명하면, 상기 (23) 식의 ai(t) 대신에,

[수학식 12]

에 의해, 시작(t)에 상태(S_i)인 확률(ai(t))을 계산한다. 여기에서, 상기 (25)식의 j에 관한 {}의 최대치는, 주어진 모델에서, 상태(S_j)로부터 상태(S_i)로의 천이가 허용되어 있는 것에 관해서만 생각하는 것으로 한다. 이와 같은 ai(t)에 기초하여,

[수학식 13]

을 구한다.

여기에서, 상기 (25)식에 의해 정해지는 상태 천이 계열로서, 최종 상태가 S_N이 되는 것은 유일하게 정해지고, 이것을 적정 패스라 부른다. 이러한 적정 패스는 비터비 알고리즘의 상기 (25)식의 계산에서, 그 때 천이해 온 이전 상태를 기억해 두도록 하고, 최종 상태까지 계산이 끝났다면, 거기에서 이전 상태를 더듬어 가면 얻을 수 있다.

또한, logP(Y｜λ)를 구하도록 하면, 승산이 가산의 연산으로 바뀌어, 계산효율이 좋아진다.

<HMM의 파라미터 추정>

다음으로, 심볼 계열(Y = y₁·y₂···y_T)에 대해, 확률(P(Y｜λ)을 최대로 하는 모델의 파라미터로서의 천이 확률(A={ai}), 출력 확률(B = {b_ij(vk)})의 출력 방법에 대해 기술한다.

또한, 최초의 추정시에서의 천이 확률(A = {aij}), 출력 확률(B = {b_ij{vk})에는, 소정의 초기치가 이용된다.

우선, 모델의 학습에서는, 학습용의 심볼 계열(Y)로부터, 상술한 전방 예측 확률(ai(t))기 구해짐과 동시에, 시각(t)에서 상태(S_i)에 존재하고, 이후, 심볼 계열(y_t=1·y_t+2···yT)을 출력하는 후방 예측 확률(β_i(t))이 다음 식에 의해 구해진다.

순서 1. t = T일 때,

순서 2. t = T - 1, T - 2, ···, 0일 때,

[수학식 14]

여기에서, 상기 (28)식의 i에 관한 서메이션은 주어진 모델에서, 상태(S_i)로부터 상태(S_j)로의 천이가 허용되어 있는 경우만 얻어지는 것으로 한다.

이 때, 출력 심볼 계열(Y = y₁·y₂···y_T)에 대해, 상태(S_i)로부터 상태(S_j)로의 천이가 시각(t)에 생길 확률을 τ_ij(t)라 하면,

[수학식 15]

로 주어지게 된다. 그리고, 다음식에 따라 모델의 파라미터로서의 천이 확률(aij), 출력 확률(bij(vk))이 갱신, 즉 학습된다.

[수학식 16]

또한, 상기 식에서 ＾를 붙인 aij, bij(v k)는 갱신 즉, 재추정한 천이 확률 또는 출력 확률을 각각 의미한다. 또한, 상기식(h)에 관한 서메이션은, 상태(S_i)로부터 상태(S_j)로의 천이가 허용되어 있는 경우에만 얻어진다. 또한, t : yt = vk에관한 서메이션은, 시각(t)에서, 파인 심볼(yt)이 발생하는 경우에만 인식된다.

상기 식에 따라 천이 확률(aij), 출력 확률(bij(vk))이 갱신, 즉, 재추정됨으로써, 각각은 국소적으로 최적인 값으로 수속된다.

또한, 상술한 바와 같이, 천이 확률(aij), 출력 확률(bij(vk))이 갱신 즉, 재추정하는 방법은, 바움-웰치(Baum-Welch)의 재측정법이라 한다.

여기에서, 상기 (30), (31)식에서 계산되는 천이 확률(aij), 출력 확률(bij(vk))은, 어떤 학습용의 심볼 계열 하나에 대해서 뿐이며, 이에 따라 학습이 이루어진 모델은, 어느 하나의 심볼 계열을 높은 확률로 출력하게 된다. 그러나, 음성에는 조음 결합이나 화자에 의한 불균일함이 있기 때문에, 단일한 심볼 계열만 높은 확률로 출력하는 모델에서는, 이러한 불균일함에 대처할 수 있다.

그래서, 몇가지 심볼 계열을 높은 확률로 출력하도록, 모델(λ)의 학습을 행할 필요가 있다. 여기에는, 예컨대, Q 종류의 심볼 계열의 q 번째의 심볼 계열을 Yq = y₁ ^q·y₂ ^q···y_T ^q로 했을 때, 각 심볼 계열(Y^q=(q = 1, 2,...,Q))이 측정될 확률(P(Y^q｜λ))의 곱이 최대가 되도록 모델(λ)의 학습을 행하면 좋다.

이것은, 상술한 바움-웰치의 재추정 방법을 다중 계열로 확장함으로써 다음과 같이 재귀적으로 구할 수 있다. 즉, Y^q에 의한 α_i(t), βi(t), γ_ij(t)를 각각 α_i ^q(t), β_i ^q(t), γ_ij ^q(t)로 하면,

[수학식 17]

과 같이 계산된다.

다음으로, 상기 (33), (34)식에서 계산되는 천이 확률(aij), 출력 확률(bij(vk))은, 모델의 학습을 개별로 하고 있는 것에 불과하다. 과거, HMM법은, 단어 인식에 적용될 때가 많고, 따라서, 단어에 대응하는 모델의 학습을 상술한 바와 같이, 개벌로 하는 것만으로 문제가 없었다.

그러나, 최근에는, 의미 있는 음성(예컨대, 단어나 문장 등)의 인식을, 음운(음소)에 대응하는 모델을 연결한 것을 이용하여 하는 것이 일반적이 되고, 이 때문에, 모델의 연결 학습을 할 필요가 생겼다.

모델의 연결 학습에서는, 예컨대, 미리 준비한 단어 사전에 등록되어 있는 단어에 기초하여, 음운 또는 음소 모델끼리 연결하고, 그것을 단어 모델로 보고, 단어의 학습용 심볼 계열로서 준비된 심볼 계열(Y^q)에 대한 학습이 이루어진다.

즉, Wro의 음운 또는 음소 모델의 학습을 개별로 한 경우에 있어서,

그 중 w번째 모델(즉, 모델 w)의 파라미터, 즉 천이확률, 출력 확률 각각을 aij^w, bij^w(vk)로 표시하고, 그 모델(w)에 음운 또는 음소 모델을 연결한 모델(즉, 연결 모델)의 상태를 Sm 또는 Sn으로 나타낸다. 또한, 연결 모델의 상태가 Sm으로부터 Sn으로 천이하는 경우에 있어서, 상태(Sm)가 모델(w)에 속하는 상태라는 것을 (m → n) ∈ w로 표시하면, 상기 식(33), (34)를 변형한 다음 식에 따라, 모델(W)의 천이 확률(aij), 출력 확률(bij(vk))이 갱신, 즉 재추정된다.

[수학식 18]

여기에서, 연결 모델(w)을 복수 사용하여 구성되어 있는 경우, 즉 연결 모델이 예컨대, 3상태(S₁, S₂, S₃)로 이루어지는 모델(w)을 2회 사용하여 구성되는 경우, 연결 모델은 S₁, S₂, S₃, S₁, S₂, S₃의 6상태를 갖게 된다. 따라서, 이러한 경우, 모델(w)의 상태(S₁, S₂, S₃) 중 예컨대, 선두의 상태(S₁)는, 연결 모델의 상태(S₁, S₂, S₃, S₁, S₂, S₃)의 선두의 상태, 및 선두에서 4번째의 상태와 동일하며, 이와 같이 연결 모델의 복수의 상태(m)가 모델(w)의 하나의 상태(S_i)와 동일할 때가 있다.

상기 (35), (36)식에 있어서, m ≡ i, m ≡ j에 관한 서메이션(총합)은, 상술한 바와 같이, 연결 모델의 상태(Sm) 또는 (Sn)이, 모델(w)의 상태(Si) 또는 (Sj)는 각각 동일한 경우에 대해 얻어진다.

또한, h : (m → h) ∈ w 에 관한 서메이션은, 연결 모델의 상태(Sm)로부터 상태(Sh)로의 천이가 허용되는 경우, 연결 모델의 상태(Sm)가 모델(w)에 속할 때만 파악된다.

또한, 상기(35), (36)식에 있어서, 모델(w)의 후속으로 모델이 연결되어 있고, 연결 모델의 상태(Sm)가 모델(w)의 최종 상태(Sm = Sn)가 된 경우, 상태(Sm)로부터의 천이처인 상태(Sn)는, 모델(w)의 직후에 연결된 모델의 초기 상태가 되는 것으로 한다.

다음으로, 이상 설명한 이산 HMM법을 이용하여 음성 인식이 이루어진 경우, 우선 학습용으로 준비된 학습 계열(Y)을 이용하여 상술한 (33), (34)식 또는 (35), (36)식에 따라 모델의 학습, 즉 연결 학습이 이루어지고, 모델(λ)의 천이 확률(aij) 및 출력 확률(bij(vk))이 구해진다. 이하의 설명에서는, 상기 (35), (36)식에서의 aij^w, bij^w(vk)는, 상기 (33), (34)식에서의 경우와 마찬가지로 각각 aij, bij(vk)로 기재한다.

그리고, 인식 시에, 음성으로부터 심볼 계열(Y)이 관측된 경우에는, 모델(λ)이 그 심볼 계열을 출력, 즉 발생할 확률(P(Y｜λ)이 상기 (23)식에 따라 계산된다.

이상의 처리가 모델( λ) 이외의 모델에 대해서도 이루어지고, 상술한 바와같이, 확률(P(Y｜λ))이 가장 큰 모델이 인식 결과가 된다.

그런데, 이산형 HMM에서는, 상술한 바와 같이, 음성의 특징 벡터를 예를 들면 벡터 양자화 처리하는 등에 의해 얻어지는 심볼이, 학습 및 인식에 이용된다. 따라서, 심볼은 양자화 오차를 포함함으로, 그 결과 음성의 인식률이 열화하는 문제가 있었다.

그래서, 이산적인 확률 분포인, 심볼(vk)에 관한 출력 확률(bij(vk))을 연속 확률 분포로 변경한 혼합 연속 HMM법이 알려져 있다.

혼합 연속 HMM법에서는, HMM이 연속 확률 밀도 분포, 즉 연속 분포를 가지며, 이산 HMM법에서의 출력 확률(bij(vk))을 Lro의 연속 분포의 혼합으로 근사하도록 되어 있다. 즉, 모델( λ)이 음성의 특성 벡터(y)를 발생하는 출력 확률(bij(vk))이 다음 식에 의해 계산된다.

[수학식 19]

단, c_ij1은 분기 확률(branch probability)에서 1( 1 = 1, 2,...,L)번째의 출현 확률을 나타내고, b_ij1(y)는 분기 밀도(branch density)에서 1번째의 확률 밀도 분포를 나타낸다. 또한, 이러한 것들은 다음과 같은 조건이 성립한다.

[수학식 20]

또한, 확률 밀도 분포(b_ij1(y))로서는, 통상적으로 가우스 분포(정규 분포)가 가정된다. 그래서, 확률 밀도 분포(b_ij1(y))가, 그 공분산 행렬∑_ij1과, 평균치(μ_ij1)를 파라미터로 하는 n 차원 정규 분포에 따른다고 가정하면, 1번째 확률 밀도 분포(b_ij1(y))는 다음 식으로 주어진다.

[수학식 21]

여기에서, 상기 (40)식에서, 우견의 T, -1은 각각 전치, 역행렬을 나타낸다. 또한, ｜∑_ij1｜는 공분산 행렬(∑_ij1)의 행렬치를 나타낸다.

이러한 경우, 상술한 바움-웰치의 재추정법에 의해, 다음 식에 따라, 출현 확률(c_ij1), 및 확률 밀도 분포(b_ij1(y))의 공분산 행렬(∑_ij1) 및 평균치(μ_ij1)를 구하며, 즉, 재추정할 수 있다. 또한, 천이 확률(aij)은 상술한 (35)식 또는 (33) 식에 따라 구할 수 있다.

[수학식 22]

여기에서, 상기 식에서 ＾를 붙인 c_ij1, ∑_ij1, μ_ij1는 갱신된 출현 확률, 공분산 행렬, 평균치를 각각 의미한다.

또한, p(Y, ht = 1｜λ)는 모델( λ)에 의해, 음성의 특징 벡터(y)의 계열(Y = y₁·y₂···y_T)이 출력되는 경우에 있어서, 시각(t)에 특징 벡터(y_t)가 1번째의 분포로부터 출력될 확률을 의미한다. ht = 1은, 특징 벡터(yt)가 1번째로 출력된다는 것을 나타내는 확률 변수이다.

이상과 같이, 출력율 b_ij(y)를 Lro의 연속 분포의 혼합으로 근사하는 혼합 연속 HMM법에 기초하여 학습이 이루어진 모델을 이용하여 음성을 인식하는 경우에는, 이산형 HMM법에서의 경우와 마찬가지로, 음성으로부터 관측(추출)된 특징 벡터 계열을 모델( λ)이 출력 또는 야기되는 확률(P(Y｜λ))이 상기 (23), (24)식 또는 (25), (26)식에 의해 계산된다. 또한 이러한 확률 P가 모델( λ)이외의 모델에 대해서도 이루어지고, 상술한 바와 같이, 확률(P)을 가장 크게 하는 모델이 인식 결과가 된다.

또한, 상술한 추정 방법 대신에, 다음과 같은 수법이 이용될 수 있다. 훈련 샘플 집합({Yq})의 각각에 대해, 비터비(Viterbi) 알고리즘에 의해 최적 상태 편이 계열을 구하고, 상태(S_i)로부터 상태(S_j)로의 천이 시의 출력 벡터 집합({y_ij})을 구한다. 이것을 클러스터링 수법에 의해 L개의 클래스로 분류하고, 각각의 클래스 벡터 집합을 표준 집단으로 보고, 가우스 분포를 추정한다. 분기 확률은 클래스 내의 벡터수를 전체에 대한 비에 의해 구한다. 이러한 조작을 파라미터가 수속하기까지 반복한다.

다음으로, 상기 HMM법을 이용한 경우의 워드간의 상관값을 설명한다.

<음성 인식>

상술한 바와 같은 HMM을 이용한 음성 인식 장치의 구성은, 상술한 도 1, 또는 도 10에 나타내는 바와 같이 되며, 구성 및 작용도 마찬가지이다.

단, 도 1의 음향 분석부(12)에서 입력된 음성 신호로부터 인식에 필요한 특징량의 추출을 하거나, 얻어진 특징량에 대하여, KL 변환이나, 뉴럴 네트워크 등의 적당한 사상을 실시함으로써, 분리도가 큰 특징량으로 다시 변환하고, 인식부(13)에 송신하는 것이며, 이산 HMM을 이용하는 경우에는, 다시 벡터 양자화를 한 후, 인식부(13)에 송신하도록 하고 있다.

또한, 인식부(13)에서는, 미리 학습용의 음성 데이터를 음향 분석하여 얻어진 특징량에 기초하여 추정해 둔 모델의 파라미터를 이용하여, 미지 음성 데이터에 대한 인식 처리를 한다. 즉, 학습 과정으로서, 미리 학습용 데이터에서 결정되는 HMM의 천이 확률(aij) 및 출력 확률(bij(vk))(단, 연속 HMM인 경우는 bij(y))를 구해 두고, 이것을 파라미터 기억부(14)에 기억해 둔다. 그리고, 인식 과정에서는 입력된 미지 음성 신호를 음향 분석하여 얻어지는 특징량에 대해, 얻어진 사전 중의 각 워드에 대응하는 모델 각각의 발생 확률을 구하고, 그 확률(스코어)이 가장 높은 것, 또는 상위 복수개를 인식 결과로서 선택한다. 그리고, 얻어진 인식 결과를 출력부(15)로 송신한다. 출력부(15)에서는, 송신된 인식 결과를 화면에 표시하거나, 소리로서 출력하거나, 나아가서는 그 인식 결과를 이용하여 다른 장치를 동작시키거나 하는 등의 지령을 한다.

이상과 같은 음성 인식의 처리 중에서, 인식부(13)의 확률(스코어) 계산은, 입력된 미지 음성 신호에 대하여, 부여된 사전 및 음성 인식 대상 워드의 집합 내의 전체 워드와의 사이에서 계산된다. 소어휘의 인식이라면, 그 처리량은 그다지 문제되지 않는다. 그러나, 중어휘나 대어휘의 인식에서는 매우 중요한 문제가 된다.

이것을 해결하기 위해, 상술한 바와 같이, 인식 대상 워드를 미리 계층 구조화하고, 그 구조를 이용함으로써, 스코어 계산을 하는 워드 수를 삭제하는 것이 본 발명의 실시 형태에서의 목적이며, 이것을 간단히 나타낸 것이 도 2이다. 이와 같이, 스코어 계산의 필요가 있는 워드를 삭제함으로써, 인식부의 처리량, 즉 연산량을 저감시키고자 하는 것이다.

이와 같은 목적에 맞는 워드의 분포 구조를 결정하기 위해, 워드간의 관계를 알기 위한 거리 척도와 같은 것이 필요해진다.

본 발명의 상기 제 1 실시 형태에서는, 실제 음성 신호로부터 구해진 각 모델의 발생 확률(스코어)의 기대치에 의해 워드간의 상관값을 정의한다. 이러한 정의된 워드간의 상관값에 기초하여, 인식 대상 워드를 구조화하는 것이며, 이러한 방법을 이용하는 경우, 상기 (4)식에서 워드간의 거리 척도를 계산하기 위해, 인식 대상 워드에 대응한 실제 음성 데이터가 필요하게 되고, 중어휘나 대어휘의 인식 시스템을 작성하는 데에는 이것이 커다란 문제가 된다.

그래서, 본 발명의 제 2 실시 형태에서는, 상기 (4)식과 관련된 새로운 워드간의 거리 척도를 도입하는 것이다.

<HMM의 모델의 파라미터를 이용한 워드간의 상관값>

상기 HMM의 정식화 항목에서 언급한 바와 같이, 모델(λ = {A, B, π})이 부여되었을 때, 그 모델의 파라미터에 따라 심볼 계열(Y = y₁·y₂···y_T)을 발생할 수 있다. 예컨대, 이산 HMM을 이용한 경우,

순서 1. 초기 상태 확률(π)에 따라, 초기 x₀= S_i를 선택한다.

순서 2. t = 0으로 한다.

순서 3. 상태 천이 확률(aij)에 따라, 상태(xt= Si)로부터 상태(xt+1 = Sj)로의 천이를 선택한다.

순서 4. 출력 심볼 확률(bij(vk))에 따라, 상태(Si)로부터 상태(S_j)로의 천이할 때 출력되는 심볼(yt = vk)을 선택한다.

순서 5. t < T라면, t = t+1로 하고, 순서 3.으로 돌아간다. 그 이외는 종료.

와 같이 하여 생성할 수 있다.

연속 HMM을 이용했을 경우, 상기 순서 4. 대신에, 상기 (37)식에서 주어지는 출력 심볼 확률(b_ij(y))에 따라, 심볼(y)을 결정하면 좋다. 단, 상태 천이의 시각을 t = 0, 1, 2,...로 하고, 시각(t)에서 천이된 상태를 xt로 한다.

특히, 상기 도 13에 나타내는 바와 같은 레프트-투-라이트(left-to-right) 모델의 경우는, 초기 상태와 최종 상태를 S_i, S_N으로 한정할 수 있다. 그래서, 천이 확률(aij)에 따라, 각 상태에서 자기 천이하는 횟수의 기대값을 구하여 상대 천이 계열(X = x₀, x₁,...,x_T)이 하나 결정된다.

여기에서, 상태(Si)에서 n회 자기 천이한 후, 상태(S_i)로 천이할 확률은,

으로 주어지므로, n의 기대값은,

[수학식 23]

을 계산하면 구해진다. 이것을 계산하면,

이 얻어진다.

이하, 이것을 설명한다. 우선,

[수학식 24]

라고 해 둔다. 이 (47)식에 a_ii를 곱하고,

[수학식 25]

상기 (47)식에서 (4)식을 빼고,

[수학식 26]

따라서, 상기 (47)식에 의해,

즉, 상기 (46)식이 구해진다.

따라서, 예를 들면, a_ii= 0.5인 경우는, 상기 E[n] = 1, a_ii= 0.8인 경우는상기 E[n] = 4 등이 구해진다. 여기에서, 상기 (46)식은, a_ii이 1에 가까우면 급격히 증대하기 때문에, E[n]에

과 같은 상한 하한을 설정하고, 예컨대,

[수학식 27]

과 같은 근사를 하는 것도 생각할 수 있다.

이상에 기초하여, 상태(S_i)에서 자기 천이하는 횟수의 기대값이 구해지고, 그것을 연결하면, 상태 천이 계열이 하나 결정된다. 그리고, 그 상태 천이를 따라, 출력 확률(bij(vk))이 가장 높은 심볼(vk)을 출력시키면, 대응하는 심볼 계열을 얻을 수 있다.

예컨대,

과 같은 천이 확률이 구해지는 경우, 상기와 같이 하여 결정되는 상태 천이 계열은, 만약 상기 (52)식을 이용한다면,

가 된다. 즉, 최초의 S₁은 초기 상태이고, 다음의 S₁은 a₁₁= 0.5에서 정해지는 1외의 자기 천이에 의한 것이다. 그리고, 다음으로 S₂로 천이하고, a₂₂= 0.8에 의해 S₂에서 3회의 자기 천이를 한다. 그 후, S₃으로 천이하는 식으로 상태 천이 계열이 결정된다.

그리고, 상기 (54)식의 상태 천이 계열에 따라서,

를 각각 최대로 하는 심볼(vk)의 계열을 얻을 수 있다. 만약, 연속 HMM을 이용하는 경우, 상기 (55)식의 bij(vk) 대신에 상기 (37)식에서 주어지는 출력 확률을 이용하여,

를 각각 최대로 하는 심볼(y)의 계열을 구하면 좋다. 특히, 분기 밀도(b_ij1(y))가 상기 (40)식과 같은 정규 분포를 따르는 경우, 분기 확률(c_ij1(y))의 가장 높은 1에 대한 분기 밀도(b_ij1(y))의 평균치(μ_ij1)를 구하는 심볼(y)로 하는 것을 생각할 수 있다.

이상과 같이 하여, 어느 워드(W_j)에 대응하는 모델(λj = {A_j, B_j, π_j})로부터 심볼 계열(Z_i)이 상기 (23), (24)식, 또는 상기 (25), (26)식에 의해 계산된다. 그리고, Z_j의 생성 방법을 생각하면, 모델( λj)에 대한 발생 확률(P(Z_j｜λ_j))은 매우 높아지는 것을 기대할 수 있다.

여기에서, 만약, HMM을 이용함으로써, 각 워드에 대응한 양호한 모델(λ_i), 즉, 대응하는 음성 신호를 음향 분석하여 얻어지는 심볼 계열의 발생 확률이 높아지는 모델이 얻어진다면, 상기와 같은 방법에 의해, 모델로부터 심볼 계열을 생성했을 경우, 대응하는 워드를 발성한 음성 신호를 음향 분석하여 얻어지는 심볼 계열과 유사한 특성을 갖는 것을 기대할 수 있다.

즉, 인식 대상 워드(W_j)에 대응하는 모델을 λ_j(1< j <p)로 했을 경우,

특성 1. 모델(λ_j)로부터 생성한 심볼 계열(Zj)에 대해, 발생 확률(P(Zj｜λ_j))이 가장 높아지는 모델(λ_i)은 λ_j이다.

특성 2. 워드(W_j)에 대응하는 실제 음성신호를 음향 분석하여 얻어진 심볼 계열(Y_j)에 대해, 발생 확률(P(Y_j｜λ_i))이 가장 높아지는 모델(λ_i)을 이용하여, λ_j로부터 상기의 방법으로 생성한 심볼 계열 Z_j의 발생 확률(P(Z_j｜λ_i))을 계산하면 마찬가지로 높아진다.

특성 3. 워드(W_j)에 대응하는 실제 음성 신호를 음향 분석하여 얻어지는 심볼 계열(Y_j)에 대해, 발생 확률(P(Y_j｜λ_i))이 낮아지는 모델(λ_i)을 이용하여, λ_j로부터 상기의 방법으로 생성한 심볼 계열(Z_j)의 발생 확률(P(Z_j｜λ_i))을 계산하면 마찬가지로 낮아지는 특성을 갖는 것을 기대할 수 있다.

그리고, 상기와 같이 하여 구해지는 심볼 계열을 이용함으로써, 상기 제 1실시 형태를 대신하는 워드간의 상관값을 정의할 수 있게 된다.

각 인식 대상 워드(W_i(1 < j < p))에 대응한 모델을 λ_j라 한다. 그리고, 그 모델로부터 상기와 같은 방법에 의해 생성되는 심볼 계열을 Z_j라 한다. 이때, λ_i로부터 구해지는 Z_j의 발생 확률을 워드(W_i)에 대한 워드(Wi)의 거리 척도(D(W_j, W_i))로서 정의한다.

단, 발생 확률(P(Z_j｜λ_i))은

[수학식 28]

와 같이 정규화하는 것으로 한다.

그리고, 이 거리 척도(D(W_j, W_i))에 기초하여, 워드간의 상관값을 상기 제 1 실시 형태로 정의한다.

즉, 워드(W1)에 대해 워드(W_i(i = 1, 2,...,p))를 가까운 순서, 즉, 거리 척도(D(W₁, W_i))가 큰 순으로 나열한다. 마찬가지로, 워드(W₂, W₃,...W_p)에 대해서도, 워드(W_i(i = 1, 2,...p))를 가까운 순으로 나열한다.

그리고, 그 순위, 즉, W_j에 대해 가까운 순으로 워드(W_i)를 나열하였을 때의순위를 워드(W_j)에 대한 워드(W_i)의 상관값(R(W_j, W_i)으로 정의한다. 즉, 예를 들면, 가장 가까운 것은 1, 두 번째로 가까운 것은 2, 이하 동일하게 하고, 가장 먼 것은 p라 한다. 그 결과, 이 상관값은 1로부터 p까지의 정수값을 취하게 되고, 작을수록 상관이 높고, 클수록 상관이 낮다고 간주할 수 있다.

여기에서, 상관이 높고, 즉 상관값(R(W_j, W_i))가 작다는 것은, 워드(W_j)에 대응한 미지 음성 신호(X_j ^k)를 음향 분석하여 얻어지는 특징량(Y_j ^k)에 대해 워드(W_i)의 모델(λ_i)로부터 구해지는 발생 확률(P(Z_j ^k｜λ_i))이 높아지는 것을 기대할 수 있다는 것을 의미하고, 상관이 낮은, 즉, 상관값(R(W_j, W_i))이 크다는 것은, 특징량(Y_j ^k)에 대해 모델(λ_i)로부터 구해지는 발생 확률(P(Y_j ^k｜λ_i))이 낮아지는 것을 기대할 수 있다는 것을 의미한다.

또한, 이상의 처리를 종합한 것이 도 14이다. 간단히 설명하면 우선 단계 S141에서, 각 워드(W_j)에 대응하는 모델(λ_i)의 천이 확률로부터 상태 천이 계열(X_j)을 결정한다. 그리고, 거기에 따라, 단계 S142에서, 출력 확률에 기초하여 심볼 계열(Z_j)을 결정한다. 다음의 단계 S143에서 각 Z_j에 대한 모델(λ_j)의 발생 확률로부터 거리 척도(D(W_j, W_i))를 구하고, 단계 S144로 진행하여, 그것을 기초로,각 W_j에 대하여, W_i(1≤ i ≤p)를 가까운 순으로 순서화한다. 그리고, 그 순위에 기초하여, 단계 S145에서 상관값(R(W_j, W_i))을 계산한다.

여기에서, 단계 S144의 순서화에서, 순위가 동일한 것이 있는 경우에는, 모두 동일한 상관값을 설정하는 것으로 한다.

또한, 상기와 같이, 단계 S141에서, 상기 (46)식, 또는 상기 (52)식을 이용하여, 상태 천이 계열을 결정하거나, 단계 S142에서, 출력 확률이 가장 큰 심볼 계열을 구하는 대신에, 난수를 발생시키고, 천이 확률과 출력 확률에 따라, 상태를 천이시키면서 심볼 계열을 생성하는 방법도 생각할 수 있다. 이러한 경우는, 모델(λ_j)로부터 몇 가지의 심볼 계열을 생성하는 것이 가능해지므로, 이것을 Z_j ¹, Z_j ², Zj³,...으로 하고, 상기 (59)식 대신에,

[수학식 29]

에 의해, 워드(W_j)에 대한 워드(W_i)의 거리 척도(D(W_j, W_i))를 정의하게 된다.

이상과 같이 하여, 워드의 상관값을 정의함으로써, 인식 대상 워드만에 대응하는 모델로부터, 상관값을 계산하는 것이 가능해지고, 인식 대상 워드에 대응하는 실제 음성 신호의 데이터를 반드시 준비할 필요가 없어진다. 특히, 음운(음소) 모델을 연결함으로써, 각 인식 대상 워드에 대응하는 모델을 구성하는 경우, 각 음소 모델을 학습하는데, 인식 대상 워드에 대응하는 실제 음성 신호 데이터를 사용하지 않는 경우에 그러한 효과를 기대할 수 있다.

<인식 대상 워드의 구조화>

상술한 바와 같은 수법으로 구해진 상관값에 기초하여, 인식 대상 워드를 구조화하는 방법은, 상술한 제 1 실시 형태와 같기 때문에, 설명은 생략한다.

단, 상술한 스코어(S(X, W_i))란, 음성 신호(X)를 음향 분석하여 얻어지는 특징량(Y)의 모델(λ_i)에 대한 발생 확률(P(Y｜λ_i))을 말한다.

또한, 인식 수법, 기억 용량의 추측, 및 연산량의 추측에 대해서도, 상술한 제 1 실시 형태와 동일하므로, 설명은 생략한다.

<시물레이션 효과>

실제로, 3265개의 단어 인식을 전체 검색과 본 발명의 구조화를 이용한 검색과 비교한 결과에 대해 기술한다. 단, 구조화의 방법으로서는, 워드간의 거리 척도에 상기 (57)식을 이용하여 상관값을 계산하고, 상기 인식 대상 워드의 구조화 항에서 언급한 구조화의 방법을 이용한다. 그 결과, 초기 탐색 워드수가 231개가 되는 4계층의 탐색 트리에서, 각 계층의 어느 워드로부터 그 아래 계층의 워드로의 패스로서는, 평균 11개 연결되어 있는 것이 얻어졌다.

이러한 탐색 트리를 이용하여, 어느 계층에서 추출하는 스코어가 높은 워드 수를 n = 15로 하여 인식 처리를 해보았다. 우선 전체 탐색에 의한 인식 처리의 경우, 인식율은, 90.2%, 스코어 계산을 한 워드 수는 3265개였다. 이에 대해, 상기와 같은 탐색 트리를 이용한 인식 처리의 경우, 인식율은 89.9%로 약간의 열화밖에 보이지 않았고, 스코어 합계를 한 워드수는 초기 탐색에 231개, 구조 탐색에 평균 276개, 합계 508개(평균)가 되었다. 즉, 전체 탐색에 비해, 계산량을 약 8할 저감하는 것이 가능하였음을 알 수 있다.

이와 같은 본 발명의 제 2 실시 형태에 따르면, 상술한 본 발명의 제 1 실시 형태와 마찬가지로, 인식 워드를 제한하여 연산량을 대폭 저감할 수 있고, 국소적인 탐색이더라도, 스코어가 높아지는 것이 기대되는 워드는 탐색 범위에 포함되며, 최종적으로 변형을 거의 증대시키지 않고, 인식률의 저하를 방지할 수 있다.

또한, 본 발명의 제 2 실시 형태에 다르면, 음성 인식 대상 워드에 대한 확률 모델로서의 HMM(히든 마르코프 모델)을 준비하고, 이 모델의 파라미터로서의 상기 천이 확률(a_ji) 및 출력 확률(b_ij(vk) ; 연속 HMM의 경우는 b_ij(y))로부터, 워드간의 상관값(W_j, W_i)을 계산할 수 있도록 함으로써, 인식 사전에 대응하는 실제 음성 데이터를 대량으로 필요로 하는 일이 없어지고, 탐색기를 효율적으로 구할 수 있게 된다.

또한, 본 발명은, 상술한 실시 형태에만 한정되는 것은 아니며, 예컨대, 음성 인식 방법이나 장치에 적용하는 것 이외에, 음성 인식용 사전의 형성 방법, 음성 인식용 사전 사전에 기록된 기록 매체 등에도 적용할 수 있다. 또한, 음성 인식 이외에, 도형 인식이나 문자 인식 등에 본 발명을 적용할 수도 있다.

도 1은 일반적인 음성 인식 시스템의 구성을 개략적으로 도시하는 블록도.

도 2는 구조화를 이용한 인식의 개념을 설명하기 위한 워드 분석을 도시하는 도면.

도 3은 대표 워드와 그 속하는 워드의 관계의 예를 도시하는 도면.

도 4는 인식 대상 워드를 계층 구조로 구조화하는 방법을 도시하는 흐름도.

도 5는 계층 구조로 구조화해 가는 과정의 개념을 도시하는 도면.

도 6은 본 발명의 구조화에 의해 얻어지는 계층 구조 및 탐색 트리의 예를 도시하는 도면.

도 7은 그룹화에 관한 기본적인 방법을 도시하는 흐름도.

도 8은 그룹화의 방법을 개량한 방법을 도시하는 흐름도.

도 9는 상관이 강한 워드 관계를 도시하는 도면.

도 10은 본 발명의 실시 형태가 적용되는 음성 인식 시스템의 구성의 일예를 도시하는 블록도.

도 11은 본 발명에 관한 실시 형태에 의해 계층 구조화된 탐색 트리를 이용하는 인식 방법을 도시하는 흐름도.

도 12는 히든 마르코프 모델(HMM)의 일반적인 상태 천이 모델을 나타내는 도면.

도 13은 HMM의 레프트 투 라이트(left-to-right) 모델을 도시하는 도면.

도 14는 워드간의 상관값의 계산 과정을 설명하기 위한 흐름도,

[부호의 설명]

1, 101 : 입력부

2, 102 : 음향 분석부

3, 103 : 인식부

4, 104 : 파라미터 기억부

5, 105 : 출력부

106 : 탐색 트리 기억부

본 발명에 따르면, 음성 인식 대상 워드를 미리 계층 구조 또는 중복을 허용하는 트리 구조로 구조화해 두고, 그 구조를 따라 탐색함으로써, 인식 워드를 제한할 수 있고, 연산량을 대폭 저감할 수 있게 된다. 또한, 새로운 워드간의 상관값의 정의와, 그 상관값에 기초한 인식 워드의 구조화 방법에 의해 국소적인 탐색이더라도 스코어가 높아지는 것이 기대되는 워드는 탐색 범위에 포함되고, 최종적으로 변형을 거의 증대시키지 않는다. 즉, 인식률을 거의 열화시키지 않는다. 또한, 여분으로 필요한 기억 용량도 워드수에 대하여 그 약 10배 정도의 패스 정보를 갖고 있으면 되어, 비교적 작은 것이 된다.

이와 같은 본 발명은, 음성인식 이외에, 도형 인식이나 문자 인식 등에도 적용할 수 있고, 이러한 경우에는, 음성 인식 대상 워드는, 일반적으로 패턴 인식 대상이 되고, 이러한 패턴 인식 대상을 계층 구조 또는 중복을 허용하는 트리 구조로 계층화해 두게 된다.

또한, 음성 인식 대상 워드 또는 패턴 인식 대상에 대한 확률 모델로서의 HMM(히든 마르코프 모델)을 준비하고, 그 모델의 파라미터로부터 워드간의 상관값을 계산할 수 있도록 한 것으로, 인식 사전에 대응하는 실제 음성 데이터와 같은 실제 데이터를 대량으로 필요로 하는 일이 없어지며, 탐색 트리를 효율적으로 구할 수 있게 된다.

Claims

복수의 음성 인식 대상 워드가 부여되고, 미지의 입력 음성 신호에 대해서, 미리 구해 놓은 파라미터를 이용하여, 상기 음성 인식 대상 워드에 스코어 부여를 함으로써, 대응하는 음성 인식 대상 워드를 추출하여 인식하는 음성 인식 방법에 있어서,

상기 각 음성 인식 대상 워드 사이의 상관값을 이용하여 상기 각 음성 인식 대상 워드를 미리 계층 구조로 구조화해 두고, 이 계층 구조로 구조화된 음성 인식 대상 워드의 사전을 이용하여, 상기 미지의 입력 음성 신호에 대하여 스코어 계산을 행하는 음성 인식 대상 워드를 한정하는 것을 특징으로 하는, 음성 인식 방법.
제 1항에 있어서,

상기 각 음성 인식 대상 워드 사이의 상관값으로서,

각 인식 대상 워드에 대응하는 음성 데이터로부터 구해지는 스코어의 기대치에 기초하는 값을 바탕으로 하여 스코어가 높은 순으로 모든 인식 대상 워드를 순서화했을 때의 순위를 이용하는 것을 특징으로 하는, 음성 인식 방법.
제 1항에 있어서,

상기 계층 구조로 구조화된 음성 인식 대상 워드의 사전을 이용하여, 미지 음성 신호에 대한 인식 처리를 할 때,

상기 계층 구조의 어떤 적당한 계층의 음성 인식 대상 워드에 대한 스코어 계산과, 그로부터 결정되는 스코어가 높은 워드에 속하는 하나 아래의 계층 워드에 대한 스코어 계산과, 다시 그로부터 결정되는 스코어가 높은 워드에 속하는 또 하나 아래 계층의 워드에 대한 스코어 계산과, 이하 동일하게 최하위의 계층에 이르기까지 워드의 추출과 스코어 계산을 행하며, 최종적으로 이러한 스코어 계산을 한 워드 중에서, 적어도 스코어가 가장 높은 것을 선택하는 것을 특징으로 하는, 음성 인식 방법.
제 3항에 있어서,

상기 스코어 계산을 일단 행한 워드에 관해서는, 그 스코어를 기억해 두고, 이후 스코어 계산이 필요한 경우, 기억된 스코어를 이용하도록 함으로써, 중복된 스코어 계산을 행하지 않도록 하는 것을 특징으로 하는, 음성 인식 방법.
제 3항에 있어서,

상기 복수의 음성 인식 대상 워드에 대한 확률 모델을 준비하고, 상기 미지의 입력 음성 신호에 대해, 상기 확률 모델의 발생 확률을 계산하고, 그 발생 확률에 따라, 대응하는 음성 인식 대상 워드를 추출하여 인식하는 음성 인식 방법으로서,

상기 각 음성 인식 대상 워드에 대응하는 확률 모델의 상태 천이 확률에 기초하여 상태 천이 계열을 결정하고, 상기 상태 천이에 대응하는 출력 심볼 확률에기초하여 심볼 계열을 결정하고, 얻어진 심볼 계열의 발생 확률을 상기 각 음성 인식 대상 워드에 대응하는 모델에 대하여 계산하고, 상기 발생 확률에 기초하는 음성 인식 대상 워드간의 상관값을 이용하여 상기 각 음성 인식 대상 워드를 계층 구조로 구조화하는 것을 특징으로 하는, 음성 인식 방법.
제 5항에 있어서,

상기 각 음성 인식 대상 워드에 대응하는 상기 확률 모델의 상태 천이 확률에 기초하여 상태 천이 계열을 복수 결정하고, 각각의 상태 천이 계열로부터, 상기 상태 천이에 대응하는 출력 심볼 확률에 기초하여 심볼 계열을 결정하고, 얻어진 복수의 심볼 계열의 발생 확률을 각 워드에 대응하는 모델에 대하여 계산하고, 상기 발생 확률을 각 워드에 대응하는 모델에 대하여 계산하고, 상기 발생 확률의 기대치가 높은 순으로 전체 음성 인식 대상 워드를 순서화하고, 상기 순위를 워드간의 상기 상관값으로서 이용하는 것을 특징으로 하는, 음성 인식 방법.
복수의 패턴 인식 대상이 주어지고, 미지의 입력 신호에 대하여, 미리 구해둔 파라미터를 이용하여, 상기 패턴 인식 대상에 스코어함으로써, 대응하는 패턴 인식 대상 워드를 추출하여 인식하는 패턴 인식 방법에 이용되는 패턴 인식 대상의 정보를 형성하는 정보 형성 방법에서,

상기 각 패턴 인식 대상간의 상관값에 기초하여, 서로 상관값이 작아지는 패턴 인식 대상끼리를 그룹화를 행하고, 각 그룹의 대표가 되는 패턴 인식 대상을 선택함으로써, 대표 패턴 인식 대상과 그에 속하는 패턴 인식 대상의 집합이라는 관계로 그룹화하는 공정과,

상기 그룹화의 과정에서, 각 그룹의 대표로 선택되지 않은 패턴 인식 대상에 관해서는, 또한 상기 상관값이 작고 어느 한 그룹의 대표가 되어 있는 패턴 인식 대상에 대하여, 그 대표 패턴 인식 대상의 그룹에도 속하도록 하는 공정과,

상기 그룹화와 상기 그룹화로의 추가를 행함으로써 얻어진 대표 패턴 인식 대상에 대하여 새로이 그룹화와 그룹으로의 추가를 하는 공정을 가지며,

이러한 공정을 임의의 횟수로 반복함으로써, 계충 구조로 구조화하는 것을 특징으로 하는, 정보 형성 방법.
제 7항에 있어서,

상기 상호로 상관값이 작아지는 패턴 인식 대상을 그룹화 할 때에, 그 상관값이 가능한 작은 것 끼리부터 그룹화를 행하는 것을 특징으로 하는, 정보 형성 방법.
제 7 항에 있어서,

상기 상관값이 작은지 여부의 판정 조건을, 상기 그룹화의 상황에 따라, 각 패턴 인식 대상마다 완화하거나 엄격하게 하는 것을 특징으로 하는, 정보 형성 방법.
제 7항에 있어서,

상기 패턴 인식은 음성 인식이고, 패턴 인식 대상은 음성 인식 대상 워드인 것을 특징으로 하는, 정보 형성 방법.
복수의 음성 인식 대상 워드가 부여되고, 미지의 입력 음성 신호에 대해, 미리 구해 놓은 파라미터를 이용하여, 상기 음성 인식 대상 워드에 스코어 부여를 함으로써, 대응하는 음성 인식 대상 워드를 추출하여 인식하는 음성 인식 장치에서,

상기 각 음성 인식 대상 워드 사이의 상관값을 이용하여 상기 각 음성 인식 대상 워드를 미리 계층 구조로 구조화하고, 이러한 계층 구조로 구조화된 음성 인식 대상 워드의 사전을 이용하여, 상기 미지의 입력 음성 신호에 대해 스코어 계산을 행하는 음성 인식 대상 워드를 한정하는 것을 특징으로 하는, 음성 인식 장치.
제 11항에 있어서,

상기 각 음성 인식 대상 워드 사이의 상관값으로서,

각 인식 대상 워드에 대응한 음성 데이터로부터 구해지는 스코어의 기대치에 기초하는 값을 바탕으로 하여 스코어가 높은 순으로 모든 인식 대상 워드를 순서화했을 때의 순위를 이용하는 것을 특징으로 하는, 음성 인식 장치.
제 11항에 있어서,

상기 계층 구조로 구조화된 음성 인식 대상 워드의 사전을 이용하여, 미지음성 신호에 대한 인식 처리를 할 때,

상기 계층 구조의 어떤 적당한 계층의 음성 인식 대상 워드에 대한 스코어 계산과, 그로부터 결정되는 스코어가 높은 워드에 속하는 하나 아래의 계층 워드에 대한 스코어 계산과, 또한 그로부터 결정되는 스코어가 높은 워드에 속하는 또 하나 아래 계층의 워드에 대한 스코어 계산과, 이하 동일하게 최하위의 계층에 이르기까지 워드의 추출과 스코어 계산을 행하여, 최종적으로 그러한 스코어 계산을 한 워드 중 적어도 스코어가 가장 높은 것을 선택하는 것을 특징으로 하는, 음성 인식 장치.
제 13항에 있어서,

상기 스코어 계산을 일단 행한 워드에 관하여 그 스코어를 기억해 두고, 이후 스코어 계산이 필요한 경우에는 기억된 스코어를 이용함으로써, 중복된 스코어 계산을 하지 않도록 하는 것을 특징으로 하는, 음성 인식 장치.
제 13항에 있어서,

상기 복수의 음성 인식 대상 워드에 대한 확률 모델을 준비하고, 상기 미지의 입력 음성 신호에 대해서, 상기 확률 모델의 발생 확률을 계산하고, 그 발생 확률에 따라, 대응하는 음성 인식 대상 워드를 추출하여 인식하는 음성 인식 장치로서,

상기 각 음성 인식 대상 워드에 대응하는 확률 모델의 상태 천이 확률에 기초하여 상태 천이 계열을 결정하고, 상기 상태 천이에 대응하는 출력 심볼 확률에 기초하여 심볼 계열을 결정하고, 얻어진 심볼 계열의 발생 확률을 상기 각 음성 인식 대상 워드에 대응하는 모델에 대해 계산하고, 상기 발생 확률에 기초한 음성 인식 대상 워드간의 상관값을 이용하여 상기 각 음성 인식 대상 워드를 계층 구조로 구조화하는 것을 특징으로 하는, 음성 인식 장치.
제 15항에 있어서,

상기 각 음성 인식 대상 워드에 대응하는 상기 확률 모델의 상태 천이 확률을 기초로 상태 천이 계열을 복수 결정하고, 각각의 상태 천이 계열로부터, 상기 상태 천이에 대응하는 출력 심볼 확률에 기초하여 심볼 계열을 결정하고, 얻어진 복수의 심볼 계열의 발생 확률을 각 워드에 대응하는 모델에 대하여 계산하고, 그러한 발생 확률을 각 워드에 대응하는 모델에 대하여 계산하고, 상기 발생 확률의 기대치가 높은 순으로 전체 음성 인식 대상 워드를 순서화하고, 그 순위를 워드간의 상기 상관값으로서 이용하는 것을 특징으로 하는, 음성 인식 장치.
복수의 패턴 인식 대상이 주어되고, 미지의 입력 신호에 대하여, 미리 구해둔 파라미터를 이용하여, 상기 패턴 인식 대상에 스코어화함으로써, 대응하는 패턴 인식 대상 워드를 추출하여 인식하는 패턴 인식 방법에 이용되는 패턴 인식 대상의 정보가 기록되는 기록 매체에서,

상기 각 패턴 인식 대상간의 상관값를 기초로, 서로 상관값이 작아지는 패턴인식 대상끼리 그룹화하고, 각 그룹의 대표가 되는 패턴 인식 대상을 선택함으로써, 대표 패턴 인식 대상과 그에 속하는 패턴 인식 대상의 집합이라는 관계로 그룹화하는 공정과,

상기 그룹화의 과정에서, 각 그룹의 대표로 선택되지 않았던 패턴 인식 대상에 관해서는, 상기 상관값이 작고, 또한 어느 한 그룹의 대표가 되어 있는 패턴 인식 대상에 관하여, 그 대표인 패턴 인식 대상의 그룹에도 속하도록 하며,

상기 그룹화와 상기 그룹으로의 추가를 행함으로써, 얻어진 대표 패턴 인식 대상에 대하여 새롭게 그룹화와 그룹으로의 추가를 행하며,

이러한 공정을 임의의 횟수로 반복함으로써, 계층 구조로 구조화된 패턴 인식 대상의 정보가 기록되는 것을 특징으로 하는, 기록 매체.
제 17항에 있어서,

상기 상호로 상관값이 작아지는 패턴 인식 대상을 그룹화 할 때, 상기 상관값이 가능한 한 작은 것 끼리부터 그룹화를 행하는 것을 특징으로 하는, 기록 매체.
제 17항에 있어서,

상기 상관값이 작은지 여부의 판정 조건을, 상기 그룹화의 상황에 따라, 각 패턴 인식 대상별로 완화하거나 엄격하게 하는 것을 특징으로 하는, 기록 매체.
제 17항에 있어서,

상기 패턴 인식은 음성 인식이고, 패턴 인식 대상은 음성 인식 대상 워드인 것을 특징으로 하는, 기록 매체.