KR20040102224A

KR20040102224A - 음성 인식 장치

Info

Publication number: KR20040102224A
Application number: KR10-2004-7018136A
Authority: KR
Inventors: 도시유끼 미야자끼
Original assignee: 아사히 가세이 가부시키가이샤
Priority date: 2002-05-10
Filing date: 2003-05-07
Publication date: 2004-12-03
Also published as: CN1653518A; US20050203737A1; JPWO2003096324A1; DE60323362D1; WO2003096324A1; AU2003235868A1; US7487091B2; KR100650473B1; EP1505573A4; CN1320520C; EP1505573A1; EP1505573B1; JP4316494B2

Abstract

불특정 화자 음성 인식을 행하는 데 필요한 메모리 용량을 저감하는 데 적합한 음성 인식 장치를 제공한다. 대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개하고, 음성 파라미터 추출부(106)에서 추출한 음성 파라미터를 RAM(112)의 음성 모델에 부여하며, 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개한다.

Description

음성 인식 장치{SPEECH RECOGNITION DEVICE}

음성 인식의 세계에서는, 일반적으로, 불특정 화자를 대상으로 하여 음성을 인식하는 기술을 불특정 화자 음성 인식이라고 칭하고, 특정 화자를 대상으로 하여 음성을 인식하는 기술을 특정 화자 음성 인식이라고 칭하고 있다.

음성 인식 방법의 하나로서는, 예를 들면, 하나의 단어를 구성하는 음운을 음성 단위로 하여, 각 음운마다 음성 파라미터에 의해 모델화한 음성 모델을 이용하여 음성을 인식한다고 하는 것이 있다. 「홋카이도」라는 단어를 예로 들면, 「h」, 「o」, 「ts」, 「k」, 「a」, 「i」, 「d」, 「o」, 「u」라는 9개의 음운을 직렬로 접속한 네트워크로 「홋카이도」의 음성 모델을 작성한다. 그 외에, 「아오모리」라든가 「아키타」라는 다른 단어를 인식하는 경우에는, 이것에 대응한 음성 모델을 각각 준비할 필요가 있다. 불특정 화자 인식의 경우에는, 이 음성 모델이, 많은 화자에게 공통되는 음성 파라미터에 의해 모델화되고 있다.

종래, 이러한 음운의 음성 모델을 이용하여 불특정 화자 음성 인식을 행하는기술로서는, 은닉 마르코프 모델(이하, 간단히 HMM(Hidden Markov Model)이라고 함)이 널리 알려져 있고, 예를 들면, 「음성·음 정보의 디지털 신호 처리」(鹿野淸宏, 中村哲, 伊勢史郎共著, (株)昭晃堂)에 상세히 설명되어 있다.

HMM에 의한 불특정 화자 음성 인식 방법을 도 7 및 도 8을 참조하면서 간단히 설명한다. 도 7은 소정 구분으로 분류한 음운 세트를 나타내는 도면이다. 도 8은 음운의 직렬 접속 네트워크에 의해 모델화한 음성 모델의 개념을 나타내는 도면이다.

HMM에 따르면, 일본어의 경우, 우선, 도 7에 도시하는 바와 같이, 모음, 마찰음, 파찰음, 파열음, 반모음 및 비음 중 어느 하나의 음운을 이용하여, 하나의 단어를, 음운을 직렬로 접속한 네트워크로 구성한다. 그리고, 이것에 대응하는 상태 천이를 작성하고, 각 상태에 대하여, 다음의 상태로 천이하는 확률을 나타내는 천이 확률, 및 다음의 상태로 천이할 때에 음성 파라미터를 출력하는 확률을 나타내는 출력 확률을 규정함으로써, 음성 모델을 작성한다. 예를 들면, 「홋카이도」라는 단어에 대한 음성 모델은 도 8의 (A)에 도시하는 바와 같이, 9개의 음운을 발성 순으로 직렬로 접속한 네트워크로 모델화할 수 있다. 도 8의 (B)에는, 각 음운의 HMM의 상태 천이가 도시되어 있다.

여기서, 도 8의 (B) 중의 a(I, J)는 상태 I로부터 상태 J로의 천이 확률을 나타내고, 예를 들면 도면 중의 a(1, 1)은 상태 1로부터 상태 1로의 천이 확률을 나타낸다. 또한, b(I, x)는 음성 파라미터 x가 얻어졌을 때의 상태 1에서의 출력 확률을 나타내고, 도면 중의 b(1, x)는 음성 파라미터 x가 얻어졌을 때의 상태 1의출력 확률을 나타낸다.

또한, 도 8의 (B) 중의 p(I)는 상태 I의 확률을 나타내고, 하기의 수학식 1에 의해 표현된다.

또, 상기의 수학식 1 중 「max」는 인수 중에서 최대값을 선택하는 함수이다.

다음에, 이러한 음성 모델을 복수개 이용하여 비교적 긴 단어 열의 음성을 인식하는 경우를 도 9를 참조하면서 상세히 설명한다. 본 예에서는, 주소 등과 같이 도도부현명이나 시읍면명을 결합한 단어 열의 음성을 인식하는 경우가 있다. 도 9는 음성 모델 네트워크(500)의 구성을 나타내는 도면이다.

음성 모델 네트워크는, 도 9에 도시하는 바와 같이, 입력 음성의 무음 성분을 검출하는 포즈(502)와, 각 도도부현명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(504)과, 도도부현 아래의 계층인 각 시명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(506)과, 시 아래의 계층인 구명 또는 동명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(508)과, 구 또는 거리 아래의 계층인 각 지구명을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(510)과, 입력 음성의 무음 성분을 검출하는 포즈(512)로 구성되어 있다.

음성 모델 그룹(504)은 각 도도부현에 대응하여 그 도도부현명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 포즈(502)에 결합하고 있다.

음성 모델 그룹(506)은 각 시에 대응하여 그 시명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(504)에 속하는 각 음성 모델과 결합하고 있다. 도 9의 예에서는, 음성 모델 그룹(504)에 속하는 음성 모델 중 가나가와현의 음성을 인식 가능한 것에, 가나가와현에 속하는 각 시명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(506)이 결합되어 있다.

음성 모델 그룹(508)은 각 구 또는 각 거리에 대응하여 그 구명 또는 동명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(506)에 속하는 각 음성 모델과 결합하고 있다. 도 9의 예에서는, 음성 모델 그룹(506)에 속하는 음성 모델 중 후지사와시의 음성을 인식 가능한 것에, 후지사와시에 속하는 각 동명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(508)이 결합되어 있다.

음성 모델 그룹(510)은 각 지구에 대응하여 그 지구명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(508)에 속하는 각 음성 모델과 결합하고 있다. 도 9의 예에서는, 음성 모델 그룹(508)에 속하는 음성 모델 중 기따구의 음성을 인식 가능한 것에, 기따구에 속하는 각 지구명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(510)이 결합되어 있다.

포즈(512)는 음성 모델 그룹(508) 또는 음성 모델 그룹(510)에 결합하고 있다.

또한, 이들 결합 관계에서는, 음성 파라미터를 부여하는 것에 수반하여, 포즈(502), 음성 모델 그룹(504), 음성 모델 그룹(506), 음성 모델 그룹(508), 음성 모델 그룹(510) 및 포즈(512)의 순으로, 또는 포즈(502), 음성 모델 그룹(504), 음성 모델 그룹(506), 음성 모델 그룹(508) 및 포즈(512)의 순으로 생기 확률의 변동이 전파되도록 되어 있다.

이와 같이, 불특정 화자 음성 인식을 행하는 데 있어서는, 복수의 음성 모델을 미리 준비해 두고, 이들 음성 모델을 RAM 등의 메모리에 배치하여 음성 인식을 행하게 되어 있다.

그러나, 이 방법으로는, 결합 단어 수가 증가하게 되면, 단어 수가 조합하여 폭발적으로 증대하여, 비터비 알고리즘 등의 음성 인식 처리에서 필요한 메모리 용량이 증대하며, 카 내비게이션과 같은 조립형 시스템에서는, 시스템을 구성하는 메모리 용량이 증대한다. 예를 들면, 지명 인식을 행하는 경우, 도도부현에 계속하여 시읍면명까지 연속하는 단어 열의 음성을 인식 가능한 음성 모델 네트워크에서는 인식할 단어 수는 3500개 정도 되지만, 도도부현, 시읍면명에 계속해서 구명, 군명 등까지 연속하는 단어 열을 인식 가능한 음성 모델 네트워크에서는 인식할 단어 수는 10만 어를 넘는다.

그래서, 본 발명은, 이러한 종래 기술이 갖는 미해결의 과제에 주목하여 이루어진 것으로, 불특정 화자 음성 인식을 행하는 데 필요한 메모리 용량을 저감하는 데 적합한 음성 인식 장치를 제공하는 것을 목적으로 하고 있다.

본 발명은 불특정 화자용의 음성 모델에 기초하여 음성 인식을 행하는 시스템에 관한 것으로, 특히 불특정 화자 음성 인식을 행하는 데 필요한 메모리 용량을 저감하는 데 적합한 음성 인식 장치에 관한 것이다.

도 1은 음성 인식 장치(100)의 구성을 나타내는 블록도.

도 2는 음운의 직렬 접속 네트워크에 의해 모델화한 음성 모델의 개념을 나타내는 도면으로, 도 2의 (A)는 음운의 직렬 접속에 의한 단어 음성 모델을 나타내는 도면이고, 도 2의 (B)는 각 음운의 HMM 상태 천이를 나타내는 도면.

도 3은 제1 음성 모델 네트워크(300)의 구성을 나타내는 도면.

도 4는 가비지 모델(350)의 구성을 나타내는 도면.

도 5는 제2 음성 모델 네트워크(400)의 구성을 나타내는 도면.

도 6은 음성 모델 네트워크의 전환 타이밍을 도시하는 타임챠트.

도 7은 소정 구분으로 분류한 음운 세트를 나타내는 도면.

도 8은 음운의 직렬 접속 네트워크에 의해 모델화한 음성 모델의 개념을 나타내는 도면으로, 도 8의 (A)는 음운의 직렬 접속 네트워크에 의한 남녀 공용 단어 음성 모델을 나타내는 도면이고, 도 8의 (B)는 각 음운의 HMM 상태 천이를 나타내는 도면.

도 9는 음성 모델 네트워크(500)의 구성을 나타내는 도면.

상기 목적을 달성하기 위해서, 본 발명에 따른 청구의 범위 제1항에 기재된음성 인식 장치는, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 구비하고, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 장치로서, 상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 구비하며, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며, 상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 그룹과 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며, 음성 인식을 행할 때는, 상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며, 입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.

이러한 구성이면, 음성 인식을 행할 때는, 비특정 음성 인식용 음성 모델 및 부모 음성 모델 그룹에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개되고, 입력 음성으로부터 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.

여기서, 부모 음성 모델 그룹 및 자식 음성 모델 그룹은 어떠한 결합 관계를 갖고 있어도 되며, 예를 들면, 부모 음성 모델 그룹의 후방에 자식 음성 모델 그룹이 결합하고 있는 경우, 또는 자식 음성 모델 그룹의 후방에 부모 음성 모델 그룹이 결합하고 있는 경우가 상정된다. 여기서, 후방이란, 생기 확률의 변동이 전파되는 방향에 대하여 후방인 것을 의미한다. 이것은, 부모 음성 모델 그룹 및 비특정 음성 인식용 음성 모델의 결합 관계, 또는 자식 음성 모델 그룹 및 비특정 음성 인식용 음성 모델의 결합 관계에 대해서도 동일하다. 이하, 청구의 범위 제12항에 기재된 음성 인식 프로그램, 및 청구의 범위 제14항에 기재된 음성 인식 방법에서 동일하다.

또한, 음성 모델은 소정의 음성 단위로 모델화한 것으로, 소정의 음성 단위로서는 음운이어도 되고, 복수의 음운의 계열이어도 된다. 이하, 청구의 범위 제2항에 기재된 음성 인식 장치, 청구의 범위 제12 및 제13항에 기재된 음성 인식 프로그램, 및 청구의 범위 제14 및 제15항에 기재된 음성 인식 방법에서 동일하다.

또한, 음성 모델 전개용 기억 수단은 음성 모델을 모든 수단에서 그리고 모든 시기에 기억하는 것으로, 음성 모델을 미리 기억하고 있는 것이어도 되고, 음성 모델을 미리 기억하지 않고, 본 장치의 동작 시에 외부로부터의 입력 등에 의해서 음성 모델을 기억하도록 되어 있어도 된다. 이하, 청구의 범위 제2항에 기재된 음성 인식 장치, 청구의 범위 제12 및 제13항에 기재된 음성 인식 프로그램, 및 청구의 범위 제14 및 제15항에 기재된 음성 인식 방법에서 동일하다.

또한, 본 발명에 따른 청구의 범위 제2항에 기재된 음성 인식 장치는, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 구비하고, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 장치로서, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹과, 상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델과, 상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단과, 상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 수단과, 상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델, 및 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 수단을 구비하고, 상기 음성 인식 수단은, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.

이러한 구성이면, 화자로부터 음성이 입력되면, 음성 파라미터 추출 수단에 의해, 음성 파라미터가 입력 음성으로부터 추출된다. 그리고, 음성 인식 수단에 의해, 제1 음성 모델 그룹에 속하는 음성 모델 및 비특정 음성 인식용 음성 모델이 음성 모델 전개용 기억 수단에 전개되고, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.

여기서, 제1 음성 모델 그룹, 제2 음성 모델 그룹 및 제3 음성 모델 그룹은 어떠한 결합 관계를 갖고 있어도 되고, 예를 들면, 제1 음성 모델 그룹의 후방에 제2 음성 모델 그룹 및 제3 음성 모델 그룹이 결합하고 있는 경우, 또는 제2 음성 모델 그룹 및 제3 음성 모델 그룹의 후방에 제1 음성 모델 그룹이 결합하고 있는 경우가 상정된다. 여기서, 후방이란, 생기 확률의 변동이 전파되는 방향에 대하여 후방인 것을 의미한다. 이것은, 제1 음성 모델 그룹 및 비특정 음성 인식용 음성 모델의 결합 관계, 또는 제2 음성 모델 그룹 및 제3 음성 모델 그룹 및 비특정 음성 인식용 음성 모델의 결합 관계에 대해서도 동일하다.

또한, 본 발명에 따른 청구의 범위 제3항에 기재된 음성 인식 장치는, 청구의 범위 제2항에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.

이러한 구성이면, 음성 인식 수단에 의해, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.

또한, 본 발명에 따른 청구의 범위 제4항에 기재된 음성 인식 장치는, 청구의 범위 제2 및 제3항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 상기 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단으로부터 삭제하고, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.

이러한 구성이면, 음성 인식 수단에 의해, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 그룹에 속하는 음성 모델 및 비특정 음성 인식용 음성 모델이 음성 모델 전개용 기억 수단으로부터 삭제되고, 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.

또한, 본 발명에 따른 청구의 범위 제5항에 기재된 음성 인식 장치는, 청구의 범위 제3 및 제4항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 비특정 음성 인식용 음성 모델은, 상기 제1 음성 모델 그룹에 속하는 음성 모델과 결합하고 있고, 상기 음성 파라미터를 부여하는 것에 수반하여, 상기 제1 음성 모델 그룹의 음성 모델 및 상기 비특정 음성 인식용 음성 모델의 순으로 상기 생기 확률의 변동이 전파되도록 되어 있다.

이러한 구성이면, 음성 인식 수단에 의해, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여, 제1 음성 모델 그룹의 음성 모델 및 비특정 음성 인식용 음성 모델의 순으로 생기 확률의 변동이 전파된다.

또한, 본 발명에 따른 청구의 범위 제6항에 기재된 음성 인식 장치는, 청구의 범위 제5항에 기재된 음성 인식 장치로서, 상기 음성 파라미터를 기억하기 위한 음성 파라미터 기억 수단을 더 구비하고, 상기 음성 파라미터 추출 수단은, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터를 상기 음성 파라미터 기억 수단에 소정 순서로 저장하도록 되어 있으며, 상기 음성 인식 수단은, 상기 음성 파라미터 기억 수단으로부터 상기 소정 순서로 상기 음성 파라미터를 판독하고, 판독한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 상기 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델전개용 기억 수단에 전개하고, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를 상기 소정 순서와 역의 순서로 소정 수 복귀하며, 그 판독 위치로부터 상기 소정 순서로 상기 음성 파라미터를 판독하고, 판독한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하게 되어 있다.

이러한 구성이면, 화자로부터 음성이 입력되면, 음성 파라미터 추출 수단에 의해, 음성 파라미터가 입력 음성으로부터 추출되고, 추출된 음성 파라미터가 음성 파라미터 기억 수단에 소정 순서로 저장된다. 그리고, 음성 인식 수단에 의해, 음성 파라미터 기억 수단으로부터 소정 순서로 음성 파라미터가 판독되고, 판독된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다. 그리고, 음성 파라미터 기억 수단에서의 음성 파라미터의 판독 위치가 소정 순서와 역의 순서로 소정 수 복귀되고, 그 판독 위치로부터 소정 순서로 음성 파라미터가 판독되며, 판독된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다.

여기서, 음성 파라미터 기억 수단은 음성 파라미터를 모든 수단으로 그리고 모든 시기에 기억하는 것으로, 음성 파라미터를 미리 기억하고 있는 것이어도 되고, 음성 파라미터를 미리 기억하지 않고, 본 장치의 동작 시에 외부로부터의 입력 등에 의해서 음성 파라미터를 기억하도록 되어 있어도 된다.

또한, 본 발명에 따른 청구의 범위 제7항에 기재된 음성 인식 장치는, 청구의 범위 제6항에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 제1 음성 모델 그룹 내에서 상기 생기 확률이 가장 높은 음성 모델을 인식 음성 모델로서 특정하고, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 상기 인식 음성 모델과 결합 관계를 갖는 것에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며, 상기 인식 음성 모델로부터 상기 비특정 음성 인식용 음성 모델에 상기 생기 확률의 변동이 전파되기까지의 소요 시간을 산출하고, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를 상기 소요 시간에 상당하는 수만큼 복귀하도록 되어 있다.

이러한 구성이면, 음성 인식 수단에 의해, 제1 음성 모델 그룹 내에서 생기 확률이 가장 높은 음성 모델이 인식 음성 모델로서 특정되고, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 인식 음성 모델과 결합 관계를 갖는 것에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다. 그리고, 인식 음성 모델로부터 비특정 음성 인식용 음성 모델에 생기 확률의 변동이 전파되기까지의 소요 시간이 산출되고, 음성 파라미터 기억 수단에서의 음성 파라미터의 판독 위치가 소요 시간에 상당하는 수만큼 복귀된다.

또한, 본 발명에 따른 청구의 범위 제8항에 기재된 음성 인식 장치는, 청구의 범위 제7항에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를, 상기 인식 음성 모델을 특정한 시점에서의 상기 판독 위치로부터 상기 소요 시간에 상당하는 수만큼복귀하게 되어 있다.

이러한 구성이면, 음성 인식 수단에 의해, 음성 파라미터 기억 수단에서의 음성 파라미터의 판독 위치가, 인식 음성 모델을 특정한 시점에서의 판독 위치로부터, 산출된 소요 시간에 상당하는 수만큼 복귀된다.

또한, 본 발명에 따른 청구의 범위 제9항에 기재된 음성 인식 장치는, 청구의 범위 제2 내지 제8항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델 대신에, 이들 음성 모델이 인식 가능한 특정 음성의 발음을 표기한 발음 표기 문자열을 상기 음성 모델 전개용 기억 수단에 기억함과 함께, 상기 발음표기 문자열에 기초하여 상기 음성 모델을 구성 가능한 음성 모델 템플릿을, 상기 제2 음성 모델 그룹에 속하는 음성 모델의 수 및 상기 제3 음성 모델 그룹에 속하는 음성 모델의 수 중 많은 쪽에 상당하는 수만큼 상기 음성 모델 전개용 기억 수단에 기억해 놓고, 상기 음성 인식 수단은, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 경우에는, 상기 음성 모델 전개용 기억 수단의 발음 표기 문자열 중 상기 음성 모델 전개용 기억 수단에 전개할 음성 모델에 대응하는 것에 기초하여, 상기 음성 모델 전개용 기억 수단의 음성 모델 템플릿으로부터 상기 음성 모델을 구성하도록 되어 있다.

이러한 구성이면, 음성 인식 수단에 의해, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하는 경우에는, 음성 모델 전개용 기억 수단의 발음 표기 문자열 중 음성 모델 전개용 기억 수단에 전개할 음성 모델에 대응하는 것에 기초하여, 음성 모델 전개용 기억 수단의 음성 모델 템플릿으로부터 음성 모델이 구성된다.

또한, 본 발명에 따른 청구의 범위 제10항에 기재된 음성 인식 장치는, 청구의 범위 제2 내지 제9항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 제1 음성 모델 그룹 내에서 상기 생기 확률이 가장 높은 음성 모델을 제1 인식 음성 모델로서 특정하고, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 상기 음성 모델 전개용 기억 수단에 전개한 것 중에서 상기 생기 확률이 가장 높은 음성 모델을 제2 인식 음성 모델로서 특정하며, 상기 제1 인식 음성 모델의 특정 음성 및 상기 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정하게 되어 있다.

이러한 구성이면, 음성 인식 수단에 의해, 제1 음성 모델 그룹 내에서 생기 확률이 가장 높은 음성 모델이 제1 인식 음성 모델로서 특정되고, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 음성 모델 전개용 기억 수단에 전개한 것 중에서 생기 확률이 가장 높은 음성 모델이 제2 인식 음성 모델로서 특정된다. 그리고, 제1 인식 음성 모델의 특정 음성 및 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정된다.

또한, 본 발명에 따른 청구의 범위 제11항에 기재된 음성 인식 장치는, 청구의 범위 제2 내지 제10항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 비특정 음성 인식용 음성 모델은 가비지 모델이다.

이러한 구성이면, 화자로부터 음성이 입력되면, 음성 파라미터 추출 수단에의해, 음성 파라미터가 입력 음성으로부터 추출된다. 그리고, 음성 인식 수단에 의해, 제1 음성 모델 그룹에 속하는 음성 모델 및 가비지 모델이 음성 모델 전개용 기억 수단에 전개되고, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 가비지 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.

한편, 상기 목적을 달성하기 위해서, 본 발명에 따른 청구의 범위 제12항에 기재된 음성 인식 프로그램은, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 프로그램으로서, 상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 구비한 컴퓨터에 대하여, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며, 상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 그룹과 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며, 음성 인식을 행할 때는, 상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 처리를 실행시키기 위한 프로그램이다.

이러한 구성이면, 컴퓨터에 의해 프로그램이 판독되고, 판독된 프로그램에 따라 컴퓨터가 처리를 실행하면, 청구의 범위 제1항에 기재된 음성 인식 장치와 동등한 작용이 얻어진다.

또한, 본 발명에 따른 청구의 범위 제13항에 기재된 음성 인식 프로그램은, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 프로그램으로서, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹과, 상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델과, 상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 이용 가능한 컴퓨터에 대하여, 상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 수단, 및 상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델, 및 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 수단으로서 실현되는 처리를 실행시키기 위한 프로그램이며, 상기 음성 인식 수단은, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.

이러한 구성이면, 컴퓨터에 의해 프로그램이 판독되고, 판독된 프로그램에따라 컴퓨터가 처리를 실행하면, 청구의 범위 제2항에 기재된 음성 인식 장치와 동등한 작용이 얻어진다.

한편, 상기 목적을 달성하기 위해서, 본 발명에 따른 청구의 범위 제14항에 기재된 음성 인식 방법은, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 방법으로서, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며, 상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 그룹과 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며, 음성 인식을 행할 때는, 상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하고, 입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개한다.

또한, 본 발명에 따른 청구의 범위 제15항에 기재된 음성 인식 방법은, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 방법으로서, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화면서, 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹을 구성하고, 상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 단계와, 상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델, 및 상기 음성 파라미터 추출 단계에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 단계를 포함하며, 상기 음성 인식 단계는, 상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 제1 음성 모델 그룹에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 단계에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개한다.

이하, 본 발명의 제1 실시 형태를 도면을 참조하면서 설명한다. 도 1 내지 도 6은 본 발명에 따른 음성 인식 장치의 제1 실시 형태를 나타내는 도면이다.

본 실시 형태는, 본 발명에 따른 음성 인식 장치를, 도 1에 도시하는 바와 같이, 복수의 음성 모델을 결합한 음성 모델 네트워크를 이용하여 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우에 대해 적용한 것이다.

우선, 음성 인식 장치(100)의 구성을 도 1을 참조하면서 설명한다. 도 1은 음성 인식 장치(100)의 구성을 나타내는 블록도이다.

음성 인식 장치(100)는, CPU, ROM, RAM 및 I/F 등을 버스 접속한 일반적인 컴퓨터와 동일 기능을 갖게 구성되어 있고, 도 1에 도시하는 바와 같이, 마이크(102)와, 마이크(102)로부터의 입력 음성을 A/D 변환하는 A/D 변환기(104)와, A/D 변환기(104)에서 변환한 음성 데이터로부터 음성 파라미터를 추출하는 음성 파라미터 추출부(106)와, 음성 파라미터 추출부(106)에서 추출한 음성 파라미터를 기억하는 링 버퍼(108)와, 음성 모델을 기억하는 음성 모델 기억부(110)와, 음성 모델 기억부(110)의 음성 모델을 전개하기 위한 RAM(112)과, 대조 처리부(114)와, 음성 파라미터 추출부(106) 및 대조 처리부(114)의 프로그램 등을 기억한 ROM(116)과, 대조 처리부(114)의 인식 결과를 출력하는 출력부(118)로 구성되어 있다.

링 버퍼(108)는 음성 파라미터를 기억하기 위한 소정의 기억 영역을 갖는다. 링 버퍼(108)에의 기입에서는, 음성 파라미터 추출부(106)에서 추출한 음성 파라미터를 기입 포인터가 지시하는 어드레스에 기입하여, 기입 포인터를 1 가산한다. 단, 기입 포인터가 기억 영역의 말미의 어드레스에 도달했을 때는, 기입 포인터를 선두의 어드레스에 설정한다. 이를 반복함으로써, 음성 파라미터는, 음성 파라미터 추출부(106)로부터 추출된 순서로 링 버퍼(108)에 순환적으로 기입되어 간다. 또, 기입 포인터는 음성 파라미터 추출부(106)에 의해 제어된다.

또한, 링 버퍼(108)로부터의 판독에서는, 판독 포인터가 지시하는 어드레스로부터 음성 파라미터를 판독하고, 판독 포인터를 1 가산한다. 단, 판독 포인터가 기억 영역의 말미의 어드레스에 도달했을 때는, 판독 포인터를 선두의 어드레스에 설정한다. 이를 반복함으로써, 음성 파라미터는, 링 버퍼(108)에 기입된 순서로 링 버퍼(108)로부터 순환적으로 판독되어 간다. 또, 판독 포인터는 대조 처리부(114)에 의해 제어되고, 기입 포인터를 추월하지 않도록 조정된다.

음성 모델 기억부(110)에는, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 생기 확률이 높게 되도록 모델화된 음성 모델이 기억되어 있다.

HMM에 의한 불특정 화자 음성 인식 방법을 도 2를 참조하면서 간단히 설명한다. 도 2는 음운의 직렬 접속 네트워크에 의해 모델화한 음성 모델의 개념을 나타내는 도면이다.

HMM에 따르면, 일본어의 경우, 우선,모음, 마찰음, 파찰음, 파열음, 반모음 및 비음 중 어느 하나의 음운을 이용하여, 하나의 단어를, 음운을 직렬로 접속한네트워크로 구성한다. 그리고, 이것에 대응하는 상태 천이를 작성하고, 각 상태에 대하여, 다음의 상태로 천이하는 확률을 나타내는 천이 확률, 및 다음의 상태로 천이할 때에 음성 파라미터를 출력하는 확률을 나타내는 출력 확률을 규정함으로써, 음성 모델을 작성한다. 예를 들면, 「홋카이도」라는 단어에 대한 음성 모델은, 도 2의 (A)에 도시하는 바와 같이, 9개의 음운을 발성 순으로 직렬로 접속한 네트워크로 모델화할 수 있다. 도 2의 (B)에는 각 음운의 HMM의 상태 천이가 도시되어 있다.

여기서, 도 2의 (B) 중의 a(I, J)는 상태 I로부터 상태 J로의 천이 확률을 나타내고, 예를 들면 도면 중의 a(1, 1)은, 상태 1로부터 상태 1로의 천이 확률을 나타낸다. 또한, b(I, x)는 음성 파라미터 x가 얻어졌을 때의 상태 I에서의 출력 확률을 나타내고, 도면 중의 b(1, x)는 음성 파라미터 x가 얻어졌을 때의 상태 1의 출력 확률을 나타낸다.

또한, 도 2의 (B) 중의 p(I)는 상태 I의 확률을 나타내고, 상기 수학식 1에 의해 표시된다.

이러한 음성 모델을 복수개 이용하여, 주소 등과 같이 도도부현명이나 시읍면명을 결합한 단어 열의 음성을 인식하는 경우에는, 복수의 음성 모델을 결합한 음성 모델 네트워크를 구축한다.

본 실시 형태에서, 음성 모델 네트워크는 RAM(112)에 전개하는 단위마다 구성되어 있고, 제1 음성 모델 네트워크(300)와, 제2 음성 모델 네트워크(400)로 이루어져 있다. 제2 음성 모델 네트워크(400)는 제1 음성 모델 네트워크(300)의 후방에 논리적으로 결합한다. 여기서, 후방이란, 생기 확률의 변동이 전파되는 방향에 대하여 후방인 것을 의미한다.

제1 음성 모델 네트워크(300)의 구성을 도 3을 참조하면서 상세히 설명한다. 도 3은 제1 음성 모델 네트워크(300)의 구성을 나타내는 도면이다.

제1 음성 모델 네트워크(300)는, 도 3에 도시하는 바와 같이, 입력 음성의 무음 성분을 검출하는 포즈(302)와, 각 도도부현명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(304)과, 도도부현 아래의 계층인 각 시명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(306)과, 시 아래의 계층인 구명 또는 동명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(308)으로 구성되어 있다.

음성 모델 그룹(304)은 각 도도부현에 대응하여 그 도도부현의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 포즈(302)에 결합하고 있다.

음성 모델 그룹(306)은 각 시에 대응하여 그 시명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(304)에 속하는 각 음성 모델과 결합하고 있다. 도 3의 예에서는, 음성 모델 그룹(304)에 속하는 음성 모델 중 가나가와현의 음성을 인식 가능한 것에, 가나가와현에 속하는 각 시명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(306)이 결합되어 있다.

음성 모델 그룹(308)은 각 구 또는 각 거리에 대응하여 그 구명 또는 동명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(306)에 속하는 각 음성 모델과 결합하고 있다. 도 3의 예에서는, 음성 모델 그룹(306)에 속하는음성 모델 중 후지사와시의 음성을 인식 가능한 것에, 후지사와시에 속하는 각 동명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(308)이 결합되어 있다.

또한, 제1 음성 모델 네트워크(300)의 후방에, 가비지 모델(350)이 결합하고 있다. 가비지 모델(350)은, 음성 모델 그룹(304), 음성 모델 그룹(306) 및 음성 모델 그룹(308)에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 생기 확률이 높게 되도록 모델화된 것으로, 음성 모델 그룹(306) 또는 음성 모델 그룹(308)에 결합하고 있다. 가비지 모델(350)은 미지 용장어에 대한 필러 모델로서, 음성 모델 네트워크 내에서, 임의의 경로 상에 있는 음성 모델의 열(이하, 라벨 계열이라고 함)에 없는 단어를 발화한 경우, 그 생기 확립(우도)이 높게 되는 성질을 갖는 모델이다. 예를 들면, 도 4에 도시되는 예는, 현명만을 인식하는 음성 모델 그룹이고, 현명 앞에「아-」라든가 「그-」라고 하는 용장어를 수반하는 발화에 대하여 현명의 인식율을 향상시키는 것이다. 가비지 모델(350)에 관한 기술에 관해서는, 종래 문헌 「H. Boulard, B.D' hoore and J. -M. Bolite, "Optimizing recognition and Rejection Performance in Wordspotting Systems", "Porc. ICASSP, Adelaide, Austria, pp.I-373-376, 1994」를 참조하길 바란다.

또한, 이들 결합 관계에 있어서는, 음성 파라미터를 부여하는 것에 수반하여, 포즈(302), 음성 모델 그룹(304), 음성 모델 그룹(306), 음성 모델 그룹(308) 및 가비지 모델(350)의 순으로, 또는 포즈(302), 음성 모델 그룹(304), 음성 모델그룹(306) 및 가비지 모델(350)의 순으로, 생기 확률의 변동이 전파되도록 되어 있다.

다음에, 제2 음성 모델 네트워크(400)의 구성을 도 5를 참조하면서 상세히 설명한다. 도 5는 제2 음성 모델 네트워크(400)의 구성을 나타내는 도면이다.

제2 음성 모델 네트워크(400)는, 도 5에 도시하는 바와 같이, 구 또는 거리 아래의 계층인 각 지구명을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(402)과, 입력 음성의 무음 성분을 검출하는 포즈(404)로 구성되어 있다.

음성 모델 그룹(402)은 각 지구에 대응하여 그 지구명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 가비지 모델(350)과 결합하고 있다. 도 5의 예에서는, 기따구에 속하는 각 지구명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(402)이 가비지 모델(350)에 결합되어 있다.

포즈(404)는 음성 모델 그룹(402)에 결합하고 있다. 다음에, 대조 처리부(114)의 구성을 설명한다.

대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 음성 모델 기억부(110)로부터 판독하고, 판독한 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개한다.

계속해서, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터를 판독하고, 판독 포인터를 1 가산한다. 단, 판독 포인터가 기억 영역의 말미의 어드레스에 도달했을 때는, 판독 포인터를 선두의 어드레스에 설정한다.

계속해서, 판독한 음성 파라미터를 RAM(112)의 음성 모델에 부여한다. 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 제1 음성 모델 네트워크(300) 내에서, 생기 확률의 적산치가 가장 높은 라벨 계열을 제1 인식 음성 모델로서 특정한다.

계속해서, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)으로부터 삭제하고, 음성 모델 그룹(402) 중 제1 인식 음성 모델의 말미에 결합할 것에 속하는 음성 모델 및 포즈(404)를 음성 모델 기억부(110)로부터 판독하며, 판독한 음성 모델 및 포즈(404)를 RAM(112)에 전개한다.

계속해서, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 소요 시간을 산출하고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를, 산출한 소요 시간에 상당하는 수만큼 복귀한다. 단, 판독 포인터가 기억 영역의 선두의 어드레스에 도달했을 때는, 판독 포인터를 말미의 어드레스에 설정한다.

그리고, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터를 판독하고, 판독한 음성 파라미터를 RAM(112)의 음성 모델에 부여한다. 이것에 수반하여 음성 모델 그룹(402) 내에서, 생기 확률의 적산치가 가장 높은 음성 모델을 제2 인식 음성 모델로서 특정하고, 제1 인식 음성 모델의 특정 음성 및 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정한다.

다음에, 본 실시 형태의 동작을 도 6을 참조하면서 설명한다. 도 6은 음성 모델 네트워크의 전환 타이밍을 도시하는 타임챠트이다.

여기서는, 카 내비게이션 등에서 이용되는 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우를 예로 들어 설명한다.

음성 인식을 행하는 데 있어서는, 대조 처리부(114)에 의해, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)이 음성 모델 기억부(110)로부터 판독되고, 판독된 음성 모델 및 가비지 모델(350)이 RAM(112)에 전개된다.

이러한 상태에서, 화자로부터의 음성이 마이크(102)로부터 입력되면, A/D 변환기(104)에 의해, 마이크(102)로부터의 입력 음성이 A/D 변환되고, 음성 파라미터 추출부(106)에 의해, A/D 변환기(104)에서 변환된 음성 데이터로부터 음성 파라미터가 추출되고, 추출된 음성 파라미터가 링 버퍼(108)에서 기입 포인터가 나타내는 어드레스에 기입된다. 이에 의해, 음성 파라미터는, 음성 파라미터 추출부(106)로부터 추출된 순서로 링 버퍼(108)에 순환적으로 기입되어 간다.

계속해서, 대조 처리부(114)에 의해, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터가 판독되고, 판독 포인터가 1 가산된다. 이 때, 판독 포인터가 기억 영역의 말미의 어드레스에 도달하면, 판독 포인터가 선두의 어드레스에 설정된다.

계속해서, 판독된 음성 파라미터가 RAM(112)의 음성 모델에 주어진다. 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 네트워크(300) 내에서, 생기 확률의 적산치가 가장 높은 라벨 계열이 제1 인식 음성 모델로서 특정된다. 도 6의 예에서는, 「가나가와현 후지사와시 미로꾸지」라는 음성이 화자로부터 입력되면, 음성 모델 그룹(304) 내에서는, 「가나가와현」이라는 특정 음성을 인식 가능한 음성 모델이, 음성 모델 그룹(306) 내에서는, 「후지사와시」라는 특정 음성을 인식 가능한 음성 모델이 제1 인식 음성 모델로서 특정된다.

계속해서, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)이 RAM(112)으로부터 삭제되고, 음성 모델 그룹(402) 중 제1 인식 음성 모델의 말미에 결합할 것에 속하는 음성 모델 및 포즈(404)가 음성 모델 기억부(110)로부터 판독되며, 판독된 음성 모델 및 포즈(404)가 RAM(112)에 전개된다. 도 6의 예에서는, 제1 인식 음성 모델의 말미에는, 후지사와시 아래의 계층인 각 지구명을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(402)이 결합되어 있기 때문에, 그와 같은 음성 모델 그룹(402)이 판독된다.

계속해서, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 소요 시간이 산출되고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터가, 산출된 소요 시간에 상당하는 수만큼 복귀된다. 이 때, 판독 포인터가 기억 영역의 선두의 어드레스에 도달하면, 판독 포인터가 말미의 어드레스에 설정된다. 판독 포인터를 복귀하는 것은, 가비지 모델(350)의 생기 확률이 소정값으로 되기까지의 지연 시간의 영향을 저감하기 위해서이다. 도 6의 예에서는, 리트레이스 프레임 수로서 판독 포인터를 1 감소시키고 있다.

그리고, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터가 판독되고, 판독된 음성 파라미터가 RAM(112)의 음성 모델에 주어진다. 이것에 수반하여 음성 모델 그룹(402) 내에서, 생기 확률의 적산치가 가장 높은 음성 모델이 제2 인식 음성 모델로서 특정된다. 도 6의 예에서는,「가나가와현 후지사와시 미로꾸지」라는 음성이 화자로부터 입력되면, 음성 모델 그룹(402) 내에서는, 「미로꾸지」라는 특정 음성을 인식 가능한 음성 모델이 제2 인식 음성 모델로서 특정된다. 제1 인식 음성 모델 및 제2 인식 음성 모델이 특정되면, 제1 인식 음성 모델의 특정 음성 및 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정된다. 즉, 「가나가와현 후지사와시 미로꾸지」라는 음성이 입력 음성에 포함되어 있다고 판정된다.

[실시예]

다음에, 본 발명의 실시예를 설명한다.

제1 음성 모델 네트워크(300)에는 약 3500 단어의 음성을 인식 가능한 음성 모델이 포함되고, 제2 음성 모델 네트워크(400)에는 최대로 약 1000 단어의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(402)이 포함되어 있는 것으로 한다.

종래와 같이, 제1 음성 모델 네트워크(300) 및 제2 음성 모델 네트워크(400)에 속하는 모든 음성 모델을 RAM(112)에 전개하여 음성 인식을 행하는 경우에는, 음성 모델을 전개하는 데 필요한 메모리 용량이 약 2O [MByte]로 되고, 비터비 알고리즘 등의 음성 인식 처리에서 필요한 메모리 용량이 약 1 [MByte]로 되어, 합계 21 [MByte]의 메모리 용량을 소비하게 된다.

이에 대하여, 본 발명과 같이, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개하여 전단의 음성 인식을 행하고, 그것을 삭제한 후에, 제2 음성 모델 네트워크(400)에 속하는 음성 모델을 RAM(112)에 전개하여 후단의 음성 인식을 행하는 경우에는, 음성 모델을 전개하는 데 필요한 메모리 용량이 약 1.4 [MByte]로 되고, 비터비 알고리즘 등의 음성 인식 처리에서 필요한 메모리 용량이 약 O.5 [MByte]로 되어, 합계 1.9 [MByte]의 메모리 용량을 소비하게 된다. 따라서, 종래에 비해, 필요한 메모리 용량을 91% 저감할 수 있었다.

이와 같이 하여, 본 실시 형태에서는, 대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개하고, 음성 파라미터 추출부(106)에서 추출한 음성 파라미터를 RAM(112)의 음성 모델에 부여하며, 이것에 수반하여 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률 및 가비지 모델(350)로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하도록 되어 있다.

이에 의해, 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에도, RAM(112)에는, 음성 모델 그룹(402)의 전부에 대하여 그 음성 모델을 전개하지 않고, 음성 모델 그룹(402) 중 어느 하나에 대하여 그 음성 모델을 전개할 뿐으로 끝나기 때문에, 종래에 비해, 음성 인식을 행하는 데 필요한 메모리 용량을 저감할 수 있다.

또한, 본 실시 형태에서는, 대조 처리부(114)는, 음성 파라미터 추출부(106)에서 추출한 음성 파라미터를 RAM(112)의 음성 모델에 부여하고, 이것에 수반하여가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)로부터 삭제하고, 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하도록 되어 있다.

이에 의해, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하는 것에 수반하여, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)이 RAM(112)으로부터 삭제되기 때문에, 음성 인식을 행하는 데 필요한 메모리 용량을 더욱 저감할 수 있다.

또한, 본 실시 형태에서는, 가비지 모델(350)은, 제1 음성 모델 네트워크(300)에 속하는 음성 모델과 결합하고 있고, 음성 파라미터를 부여하는 것에 수반하여, 제1 음성 모델 네트워크(300)의 음성 모델 및 가비지 모델(350)의 순으로 생기 확률의 변동이 전파되도록 되어 있다.

이에 의해, 제1 음성 모델 네트워크(300)를 상위 계층으로 하여 계층적인 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에, 필요한 메모리 용량을 저감할 수 있다. 예를 들면, 본 실시 형태와 같이, 카 내비게이션 등에서 이용되는 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우에 유리하다.

또한, 본 실시 형태에서는, 음성 파라미터 추출부(106)는, 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터를 링 버퍼(108)에 소정 순서로저장하도록 되고 있고, 대조 처리부(114)는, 링 버퍼(108)로부터 소정 순서로 음성 파라미터를 판독하고, 판독한 음성 파라미터를 RAM(112)의 음성 모델에 부여하며, 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를 소정 순서와 역의 순서로 소정 수 복귀하며, 그 판독 포인터로부터 소정 순서로 음성 파라미터를 판독하고, 판독한 음성 파라미터를 RAM(112)의 음성 모델에 부여하게 되어 있다.

이에 의해, 가비지 모델(350)의 생기 확률이 소정값으로 될 때까지 어느 정도의 지연 시간을 요하기 때문에, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를 복귀함으로써, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 저감하여, 비교적 정확한 음성 인식을 행하는 것이 가능하다.

또한, 본 실시 형태에서는, 대조 처리부(114)는, 제1 음성 모델 네트워크(300) 내에서 생기 확률이 가장 높은 라벨 계열을 제1 인식 음성 모델로서 특정하고, 음성 모델 그룹(402) 중 제1 인식 음성 모델과 결합 관계를 갖는 것에 속하는 음성 모델을 RAM(112)에 전개하며, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 소요 시간을 산출하고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를 소요 시간에 상당하는 수만큼 복귀하게 되어 있다.

이에 의해, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 시간에 상당하는 수만큼 음성 파라미터의 판독 포인터가 복귀되기 때문에, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 더욱 저감하여, 보다 정확한 음성 인식을 행할 수 있다.

또한, 본 실시 형태에서는, 대조 처리부(114)는, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를, 제1 인식 음성 모델을 특정한 시점에서의 판독 포인터로부터 소요 시간에 상당하는 수만큼 복귀하게 되어 있다.

이에 의해, 음성 파라미터의 판독 포인터가, 제1 인식 음성 모델을 특정한 시점에서의 판독 포인터를 기준으로 하여, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 시간에 상당하는 수만큼 복귀되기 때문에, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 더욱 저감하여, 보다 정확한 음성 인식을 행할 수 있다.

상기 제1 실시 형태에서, 음성 파라미터 추출부(106)는 청구의 범위 제2 내지 제4, 제6 또는 제13항에 기재된 음성 파라미터 추출 수단에 대응하고, 음성 파라미터 추출부(106)에 의한 추출은 청구의 범위 제15항에 기재된 음성 파라미터 추출 단계에 대응하며, 링 버퍼(108)는 청구의 범위 제6 내지 제8항에 기재된 음성 파라미터 기억 수단에 대응하고 있다. 또, RAM(112)은 청구의 범위 제1 내지 제4, 제6, 제7, 제10, 제12 내지 제15항에 기재된 음성 모델 전개용 기억 수단에 대응하고, 대조 처리부(114)는 청구의 범위 제2 내지 제4, 제6 내지 제8, 제10 또는 제13항에 기재된 음성 인식 수단에 대응하고 있다.

또한, 상기 제1 실시 형태에서, 제1 음성 모델 네트워크(300) 및 제2 음성 모델 네트워크(400)는 청구의 범위 제1, 제12 또는 제14항에 기재된 음성 모델 네트워크에 대응하고, 음성 모델 그룹(306) 또는 음성 모델 그룹(308)은 청구의 범위 제1, 제12 혹은 제14항에 기재된 부모 음성 모델 그룹, 또는 청구의 범위 제2 내지 제7, 제10, 제13 혹은 제15항에 기재된 제1 음성 모델 그룹에 대응하고 있다. 또, 가비지 모델(350)은 청구의 범위 제1 내지 제7, 제11 내지 제15항에 기재된 비특정 음성 인식용 음성 모델에 대응하고, 음성 모델 그룹(402)은 청구의 범위 제1, 제12 혹은 제14항에 기재된 자식 음성 모델 그룹, 청구의 범위 제2 내지 제4, 제6, 제7, 제10, 제13 혹은 제15항에 기재된 제2 음성 모델 그룹, 또는 청구의 범위 제2 내지 제4, 제6, 제7, 제10, 제13 혹은 제15항에 기재된 제3 음성 모델 그룹에 대응하고 있다.

다음에, 본 발명의 제2 실시 형태를 설명한다.

본 실시 형태는, 본 발명에 따른 음성 인식 장치를, 도 1에 도시하는 바와 같이, 복수의 음성 모델을 결합한 음성 모델 네트워크를 이용하여 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우에 대해 적용한 것이며, 상기 제1 실시 형태와 다른 것은 음성 모델 템플릿으로부터 음성 모델을 구성하는 점에 있다.

음성 모델 기억부(110)에는, 음성 모델 그룹(402)에 속하는 음성 모델 대신에, 이들 음성 모델이 인식 가능한 특정 음성의 발음을 표기한 가나 문자열을 기억되어 있음과 함께, 가나 문자열에 기초하여 음성 모델을 구성 가능한 음성 모델 템플릿을, 음성 모델 그룹(402)에 속하는 음성 모델의 수만큼 기억되어 있다.

대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿을 음성 모델 기억부(110)로부터 판독하고, 판독한 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿을 RAM(112)에 전개한다.

다음에, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하는 경우는, RAM(112)의 가나 문자열 중 RAM(112)에 전개할 음성 모델에 대응하는 것에 기초하여, RAM(112)의 음성 모델 템플릿으로부터 음성 모델을 구성한다.

HMM을 이용한 음성 인식을 행하는 경우, 최종적으로는, 인식시키고자 한 단어, 예를 들면 「홋카이도」를 HMM 계열로 변환하는 것이 필요하게 된다. 이 경우, 우선, 「홋카이도」를 음운 계열 「h, q, ts, k, a, i, d, o, u」로 변환한다. 그 후, 음운 계열 「h, q, ts, k, a, i, d, o, u」를 더 상세한 음운 계열로 더 분할하는 것도 있지만, 최종적으로는, 각 음운 계열에 대응한 HMM 계열을 작성한다.

도 2의 예에서는, 각각의 음운 계열에 대하여, HMM의 상태가 3개 할당되어 있다. 즉, 「홋카이도」라는 문자 데이터가, 9(음운 계열)×3(상태 수)=27의 상태로 되는 것을 의미한다. 「홋카이도」는, 반각 가나로 나타내면, 6 [Byte]의 데이터로 된다. 한편, HMM의 각 상태는, 각 2 [Byte]로 표시된다고 한다면, 27×2=54 [Byte]로 된다.

또한, 음성 모델 네트워크의 데이터에서는, 음성 모델과 음성 모델의 연결 정보(그래머 또는 룰)가 기술되어 있다. 예를 들면, 「홋카이도」라는 단어는, 「홋카이도의 시읍면명」에 연결되어 있는 정보이다. 또한, 단어가 인식된 경우에 단어의 ID로서 인식 결과를 반환하는 경우에는, 단어의 ID값 등이 포함되는 경우도 있다. 그 외에, 음성 인식에서는, 이 이상의 데이터가 음성 모델 네트워크의 데이터로서 포함되어 있다.

따라서, 음성 모델을 RAM(112)에 그대로 전개하는 경우와, 가나 문자열 및 음성 모델 템플릿을 RAM(112)에 전개해 놓고, 음성 인식에 필요한 분만큼 음성 모델을 구성하는 경우를 비교하면, 후자쪽이 필요한 메모리 용량이 적다.

다음에, 본 실시 형태의 동작을 설명한다.

음성 인식을 행하는 데 있어서는, 대조 처리부(114)에 의해, 제1 음성 모델 네트워크(300)에 속하는 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿이 음성 모델 기억부(110)로부터 판독되고, 판독된 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿이 RAM(112)에 전개된다.

이러한 상태에서, 화자로부터의 음성이 마이크(102)로부터 입력되면, A/D 변환기(104)에 의해, 마이크(102)로부터의 입력 음성이 A/D 변환되고, 음성 파라미터 추출부(106)에 의해, A/D 변환기(104)에서 변환된 음성 데이터로부터 음성 파라미터가 추출되고, 추출된 음성 파라미터가 링 버퍼(108)에서 기입 포인터가 지시하는어드레스에 기입된다. 이에 의해, 음성 파라미터는, 음성 파라미터 추출부(106)로부터 추출된 순서로 링 버퍼(108)에 순환적으로 기입되어 간다.

계속해서, 판독된 음성 파라미터가 RAM(112)의 음성 모델에 주어진다. 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 네트워크(300) 내에서, 생기 확률의 적산치가 가장 높은 라벨 계열이 제1 인식 음성 모델로서 특정된다.

계속해서, 음성 모델 그룹(402) 중 제1 인식 음성 모델의 말미에 결합할 것에 속하는 음성 모델 및 포즈(404)를 RAM(112)에 전개할 필요가 있지만, 이 경우, RAM(112)의 가나 문자열 중 RAM(112)에 전개할 음성 모델에 대응하는 것에 기초하여, RAM(112)의 음성 모델 템플릿으로부터 음성 모델이 구성된다.

계속해서, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 소요 시간이 산출되고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터가, 산출된 소요 시간에 상당하는 수만큼 복귀된다. 이 때, 판독 포인터가 기억 영역의 선두의 어드레스에 도달하면, 판독 포인터가 말미의 어드레스에 설정된다. 판독 포인터를 복귀하는 것은, 가비지 모델(350)의 생기 확률이 소정값으로 되기까지의 지연 시간의 영향을 저감하기 위해서 이다.

그리고, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터가 판독되고, 판독된 음성 파라미터가 RAM(112)의 음성 모델에 주어진다. 이것에 수반하여 음성 모델 그룹(402) 내에서, 생기 확률의 적산치가 가장 높은 음성 모델이 제2 인식 음성 모델로서 특정된다.

[실시예]

다음에, 본 발명의 실시예를 설명한다. 또, 단어 수 등의 조건은 상기 실시예와 마찬가지로 한다.

이에 대하여, 본 발명과 같이, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개하여 전단의 음성 인식을 행하고, 가나 문자열에 기초하여 음성 템플릿으로부터 음성 모델을 구성하여 후단의 음성 인식을 행하는 경우에는, 음성 모델을 전개하는 데 필요한 메모리 용량이 약 O.86 [MByte]로 되고, 비터비 알고리즘 등의 음성 인식 처리에서 필요한 메모리 용량이 약 0.5 [MByte]로 되어, 합계 1.36 [MByte]의 메모리 용량을 소비하게 된다. 따라서, 종래에 비해, 필요한 메모리 용량을 93% 저감할 수 있다.

이와 같이 하여, 본 실시 형태에서는, 대조 처리부(114)는, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하는 경우에는, RAM(112)의 가나 문자열 중 RAM(112)에 전개할 음성 모델에 대응하는 것에 기초하여, RAM(112)의 음성 모델 템플릿으로부터 음성 모델을 구성하도록 되어 있다.

이에 의해, 일반적으로 음성 모델 템플릿은 음성 모델에 비해 데이터 용량이 적기 때문에, 음성 모델을 필요한 때에 동적으로 전개함으로써, 음성 인식을 행하게 하는 데 필요한 메모리 용량을 더욱 저감할 수 있다. 또, 일련의 음성 인식을 행하게 하는 데 있어, 음성 모델 기억부(110)로부터 음성 모델의 판독이 행해지지 않기 때문에, 음성 모델의 판독에 요하는 시간을 저감할 수 있다.

상기 제2 실시 형태에서, RAM(112)은 청구의 범위 제9항에 기재된 음성 모델 전개용 기억 수단에 대응하고, 대조 처리부(114)는 청구의 범위 제9항에 기재된 음성 인식 수단에 대응하며, 음성 모델 그룹(402)은 청구의 범위 제9항에 기재된 제2 음성 모델 그룹, 또는 청구의 범위 제9항에 기재된 제3 음성 모델 그룹에 대응하고 있다. 또, 가나 문자열은 청구의 범위 제9항에 기재된 발음 표기 문자열에 대응하고 있다.

또, 상기 제2 실시 형태에서, 대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿을 음성 모델 기억부(110)로부터 판독하고, 판독한 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿을 RAM(112)에 전개하며, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하는 경우에는, RAM(112)의 가나 문자열 중 RAM(112)에 전개할 음성 모델에 대응하는 것에 기초하여, RAM(112)의 음성 모델 템플릿으로부터 음성 모델을 구성하도록 하였지만, 이것에 한하지 않고, 가나 문자열 또는 음성 모델 템플릿에 대해서는 후단의 음성 인식(제2 음성 모델 네트워크(400)에 의한 음성 인식)에 필요한 분만큼 RAM(112)에 판독하도록 구성하여도 된다.

또한, 상기 제1 및 제2 실시 형태에서는, 제1 음성 모델 네트워크(300)의 후방에 가비지 모델(350)을 결합하도록 구성하였지만, 이것에 한하지 않고, 제1 음성 모델 네트워크(300)의 전방에 가비지 모델(350)을 결합하고, 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하도록 구성하여도 된다.

또한, 상기 제1 및 제2 실시 형태에서, 가비지 모델(350)이 복수의 이력 정보를 취하는 경우에는, 음성 모델 네트워크의 전환 시에, 원하는 후보 수에 따른 음성 모델 네트워크를 구축하여, 인식 처리를 행할 수 있다. 상기 지명 인식의 예에서는, 예를 들면, 제1 음성 모델 네트워크(300)에서 얻어진 제1 후보가 라벨 계열 「가나가와현→후지사와시」이고, 제2 후보가 라벨 계열 「가나가와현→아스키시」인 경우에는, 라벨 계열 「가나가와현→후지사와시」에 결합할 음성 모델 네트워크와, 라벨 계열 「가나가와현→아스키시」에 결합할 음성 모델 네트워크를 구축하고, 한쪽 음성 모델 네트워크에서의 각각의 생기 확률과, 다른 쪽 음성 모델 네트워크에서의 각각의 생기 확률을 고려하여, 최종 인식 결과를 출력할 수 있다.

또한, 상기 제1 및 제2 실시 형태에서, 음성 파라미터 추출부(106) 및 대조처리부(114)의 기능을 실현하는 데 있어서는, 어느 것이나, ROM(116)에 미리 저장되어 있는 제어 프로그램을 실행하는 경우에 대해 설명하였지만, 이것에 한하지 않고, 이들 수순을 나타낸 프로그램이 기억된 기억 매체로부터, 그 프로그램을 RAM(112)에 판독하고 실행하도록 하여도 된다.

여기서, 기억 매체란, RAM, ROM 등의 반도체 기억 매체, FD, HD 등의 자기 기억형 기억 매체, CD, CDV, LD, DVD 등의 광학적 판독 방식 기억 매체, MO 등의 자기 기억형/광학적 판독 방식 기억 매체로서, 전자적, 자기적, 광학적 등의 판독 방법의 여하에 관계없이, 컴퓨터로 판독 가능한 기억 매체이면 모든 기억 매체를 포함한다.

또한, 상기 제1 및 제2 실시 형태에서는, 본 발명에 따른 음성 인식 장치를, 도 1에 도시하는 바와 같이, 복수의 음성 모델을 결합한 음성 모델 네트워크를 이용하여 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우에 대해 적용하였지만, 이것에 한하지 않고, 본 발명의 주지를 일탈하지 않는 범위에서 다른 경우에도 적용 가능하다.

이상 설명한 바와 같이, 본 발명에 따른 청구의 범위 제1항에 기재된 음성 인식 장치에 따르면, 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에도, 음성 모델 전개용 기억 수단에는, 모든 자식 음성 모델 그룹에 대하여 그 음성 모델을 전개하지 않고, 어느 하나의 자식 음성 모델 그룹에 대하여 그 음성 모델을 전개할 뿐으로 끝나기 때문에, 종래에 비해, 음성 인식을행하는 데 필요한 메모리 용량을 저감할 수 있다고 하는 효과가 얻어진다.

또한, 본 발명에 따른 청구의 범위 제2 내지 제11항에 기재된 음성 인식 장치에 따르면, 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에도, 음성 모델 전개용 기억 수단에는, 제2 음성 모델 그룹 및 제3 음성 모델 그룹의 양쪽에 대하여 그 음성 모델을 전개하지 않고, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 대하여 그 음성 모델을 전개할 뿐으로 끝나기때문에, 종래에 비해, 음성 인식을 행하는 데 필요한 메모리 용량을 저감할 수 있다고 하는 효과가 얻어진다.

또한, 본 발명에 따른 청구의 범위 제4항에 기재된 음성 인식 장치에 따르면, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하는 데에 수반하여, 제1 음성 모델 그룹에 속하는 음성 모델 및 비특정 음성 인식용 음성 모델이 음성 모델 전개용 기억 수단으로부터 삭제되기 때문에, 음성 인식을 행하게 하는 데 필요한 메모리 용량을 더욱 저감할 수 있다고 하는 효과도 얻어진다.

또한, 본 발명에 따른 청구의 범위 제5 내지 제8항에 기재된 음성 인식 장치에 따르면, 제1 음성 모델 그룹을 상위 계층으로 하여 계층적인 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에, 필요한 메모리 용량을 저감할 수 있다고 하는 효과도 얻어진다.

또한, 본 발명에 따른 청구의 범위 제6 내지 제8항에 기재된 음성 인식 장치에 따르면, 비특정 음성 인식용 음성 모델의 생기 확률이 소정값으로 될 때까지 어느 정도의 지연 시간을 요하기 때문에, 음성 파라미터 기억 수단에서의 음성 파라미터의 판독 위치를 복귀함으로써, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 저감하여, 비교적 정확한 음성 인식을 행할 수 있다고 하는 효과도 얻어진다.

또한, 본 발명에 따른 청구의 범위 제7 또는 제8항에 기재된 음성 인식 장치에 따르면, 인식 음성 모델로부터 비특정 음성 인식용 음성 모델에 생기 확률의 변동이 전파되기까지의 시간에 상당하는 수만큼 음성 파라미터의 판독 위치가 복귀되기 때문에, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 더욱 저감하여, 보다 정확한 음성 인식을 행할 수 있다고 하는 효과도 얻어진다.

또한, 본 발명에 따른 청구의 범위 제8항에 기재된 음성 인식 장치에 따르면, 음성 파라미터의 판독 위치가, 인식 음성 모델을 특정한 시점에서의 판독 위치를 기준으로 하여, 인식 음성 모델로부터 비특정 음성 인식용 모델에 생기 확률의 변동이 전파되기까지의 시간에 상당하는 수만큼 복귀되기 때문에, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 더욱 저감하여, 보다 정확한 음성 인식을 행할 수 있다고 하는 효과도 얻어진다.

또한, 본 발명에 따른 청구의 범위 제9항에 기재된 음성 인식 장치에 따르면, 일반적으로 음성 모델 템플릿은 음성 모델에 비해 데이터 용량이 적기 때문에,음성 모델을 필요한 때에 동적으로 전개함으로써, 음성 인식을 행하는 데 필요한 메모리 용량을 더욱 저감할 수 있다고 하는 효과도 얻어진다.

한편, 본 발명에 따른 청구의 범위 제12항에 기재된 음성 인식 프로그램에 따르면, 청구의 범위 제1항에 기재된 음성 인식 장치와 동등한 효과가 얻어진다.

또한, 본 발명에 따른 청구의 범위 제13항에 기재된 음성 인식 프로그램에 따르면, 청구의 범위 제2항에 기재된 음성 인식 장치와 동등한 효과가 얻어진다.

한편, 본 발명에 따른 청구의 범위 제14항에 기재된 음성 인식 방법에 따르면, 청구의 범위 제1항에 기재된 음성 인식 장치와 동등한 효과가 얻어진다.

또한, 본 발명에 따른 청구의 범위 제15항에 기재된 음성 인식 방법에 따르면, 청구의 범위 제2항에 기재된 음성 인식 장치와 동등한 효과가 얻어진다.

Claims

주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 구비하고, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 장치로서,

상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 구비하며,

상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며,

상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 그룹과 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며,

음성 인식을 행할 때는,

상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며,

입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 구비하고, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 장치로서,

상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과,

상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과,

상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹과,

상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델과,

상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단과,

상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 수단과,

상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델, 및 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 수단

을 구비하고,

상기 음성 인식 수단은, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
제2항에 있어서,

상기 음성 인식 수단은, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
제2항 또는 제3항에 있어서,

상기 음성 인식 수단은, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 상기 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단으로부터 삭제하고, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
제3항 또는 제4항에 있어서,

상기 비특정 음성 인식용 음성 모델은, 상기 제1 음성 모델 그룹에 속하는음성 모델과 결합하고 있고,

상기 음성 파라미터를 부여하는 데 수반하여, 상기 제1 음성 모델 그룹의 음성 모델 및 상기 비특정 음성 인식용 음성 모델의 순으로 상기 생기 확률의 변동이 전파되도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
제5항에 있어서,

상기 음성 파라미터를 기억하기 위한 음성 파라미터 기억 수단

을 더 구비하고,

상기 음성 파라미터 추출 수단은, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터를 상기 음성 파라미터 기억 수단에 소정 순서로 저장하도록 되어 있으며,

상기 음성 인식 수단은, 상기 음성 파라미터 기억 수단으로부터 상기 소정 순서로 상기 음성 파라미터를 판독하고, 판독한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 상기 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를 상기 소정 순서와 역의 순서로 소정 수 복귀하고, 그 판독 위치로부터 상기 소정 순서로 상기 음성 파라미터를 판독하며, 판독한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하게 되어 있는 것을 특징으로 하는 음성 인식 장치.
제6항에 있어서,

상기 음성 인식 수단은, 상기 제1 음성 모델 그룹 내에서 상기 생기 확률이 가장 높은 음성 모델을 인식 음성 모델로서 특정하고, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 상기 인식 음성 모델과 결합 관계를 갖는 것에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며, 상기 인식 음성 모델로부터 상기 비특정 음성 인식용 음성 모델에 상기 생기 확률의 변동이 전파되기까지의 소요 시간을 산출하고, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를 상기 소요 시간에 상당하는 수만큼 복귀하게 되어 있는 것을 특징으로 하는 음성 인식 장치.
제7항에 있어서,

상기 음성 인식 수단은, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를, 상기 인식 음성 모델을 특정한 시점에서의 상기 판독 위치로부터 상기 소요 시간에 상당하는 수만큼 복귀하게 되어 있는 것을 특징으로 하는 음성 인식 장치.
제2항 내지 제8항 중 어느 한 항에 있어서,

상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델 대신에, 이들 음성 모델이 인식 가능한 특정 음성의 발음을 표기한 발음 표기 문자열을 상기 음성 모델 전개용 기억 수단에 기억함과 함께, 상기 발음 표기 문자열에 기초하여 상기 음성 모델을 구성 가능한 음성 모델 템플릿을, 상기 제2 음성 모델 그룹에 속하는 음성 모델의 수와 상기 제3 음성 모델 그룹에 속하는 음성 모델의 수 중 많은 쪽에 상당하는 수만큼 상기 음성 모델 전개용 기억 수단에 기억해 놓고,

상기 음성 인식 수단은, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 경우에는, 상기 음성 모델 전개용 기억 수단의 발음 표기 문자열 중 상기 음성 모델 전개용 기억 수단에 전개할 음성 모델에 대응하는 것에 기초하여, 상기 음성 모델 전개용 기억 수단의 음성 모델 템플릿으로부터 상기 음성 모델을 구성하도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
제2항 내지 제9항 중 어느 한 항에 있어서,

상기 음성 인식 수단은, 상기 제1 음성 모델 그룹 내에서 상기 생기 확률이 가장 높은 음성 모델을 제1 인식 음성 모델로서 특정하고, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 상기 음성 모델 전개용 기억 수단에 전개한 것 내에서 상기 생기 확률이 가장 높은 음성 모델을 제2 인식 음성 모델로서 특정하며, 상기 제1 인식 음성 모델의 특정 음성 및 상기 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정하게 되어 있는 것을 특징으로 하는 음성 인식 장치.
제2항 내지 제10항 중 어느 한 항에 있어서,

상기 비특정 음성 인식용 음성 모델은 가비지 모델인 것을 특징으로 하는 음성 인식 장치.
주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 프로그램으로서,

상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 구비한 컴퓨터에 대하여,

상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며,

상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 네트워크와 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며,

음성 인식을 행할 때는,

상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며,

입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 처리를 실행시키기 위한 프로그램인 것을 특징으로 하는 음성 인식 프로그램.
주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 프로그램으로서,

상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과,

상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과,

상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹과,

상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델과,

상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 이용 가능한 컴퓨터에 대하여,

상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 수단과, 상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델과, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 수단으로서 실현되는 처리를 실행시키기 위한 프로그램이며,

상기 음성 인식 수단은, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있는 것을 특징으로 하는 음성 인식 프로그램.
주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 방법으로서,

상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며,

상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 그룹과 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며,

음성 인식을 행할 때는,

상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하며,

입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 것을 특징으로 하는 음성 인식 방법.
주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 방법으로서,

상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과,

상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과,

상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹을 구성하고,

상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 단계와,

상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델과, 상기 음성 파라미터 추출 단계에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 단계

를 포함하며,

상기 음성 인식 단계는, 상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 제1 음성 모델 그룹에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 단계에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 것을 특징으로 하는 음성 인식 방법.