JPS61176996A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS61176996A JPS61176996A JP60017133A JP1713385A JPS61176996A JP S61176996 A JPS61176996 A JP S61176996A JP 60017133 A JP60017133 A JP 60017133A JP 1713385 A JP1713385 A JP 1713385A JP S61176996 A JPS61176996 A JP S61176996A
- Authority
- JP
- Japan
- Prior art keywords
- time series
- trajectory
- pattern
- parameter
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
以下の順序でこの発明を説明する。
A 産業上の利用分野
B 発明の概要
C従来の技術
D 発明が解決しようとする問題点
E 問題点を解決するための手段
F 作用
G 実施例
Gl 音響分析回路の説明(第1図)02 時間正規
化拠理の説明(第1図。
化拠理の説明(第1図。
第2図、第3図)
G3 パターンマツチング処理の説明(第1図)H発明
の効果 A 産業上の利用分野 この発明は、前もって作成し記憶しである認識対象語の
標準パターンと、認識したい語の入力パターンとのパタ
ーンマツチングを行うことによりなす音声認識装置に関
する。
の効果 A 産業上の利用分野 この発明は、前もって作成し記憶しである認識対象語の
標準パターンと、認識したい語の入力パターンとのパタ
ーンマツチングを行うことによりなす音声認識装置に関
する。
B 発明の概要
この発明はパターンマツチングにより音声認識をなす装
置において、そのマツチングをとるパターンとして、入
力音声信号の音声区間で音響分析して得た音響パターン
時系列がそのパラメータ空間で描く軌跡を推定しその軌
跡を所定間隔で再サンプリングして得た新たな認識パラ
メータを用いるものであって、この認識パラメータを得
る再サンプリングの間隔を推定した執ra長に応じて変
え、ザンプル点数を軌跡長に応じて可変するようにした
もので、軌跡の変化に応じた十分な情報が得られるよう
にして認識精度を向上させるようにしたものである。
置において、そのマツチングをとるパターンとして、入
力音声信号の音声区間で音響分析して得た音響パターン
時系列がそのパラメータ空間で描く軌跡を推定しその軌
跡を所定間隔で再サンプリングして得た新たな認識パラ
メータを用いるものであって、この認識パラメータを得
る再サンプリングの間隔を推定した執ra長に応じて変
え、ザンプル点数を軌跡長に応じて可変するようにした
もので、軌跡の変化に応じた十分な情報が得られるよう
にして認識精度を向上させるようにしたものである。
C従来の技術
音声は時間軸に沿って変化する現象で、スペクトラム・
パターンが刻々と変化するように音声を発声することに
よって固有の単語や言葉が生まれる。この人間が発声す
る単語や言葉を自動認識する技術が音声認識であるが、
人間の聴覚機能に匹敵するような音声認識を実現するこ
とは現在のところ至難のことである。このため、現在実
用化されている音声認識の殆んどは、一定の使用条件の
下で、認識対象単語の標準パターンと入力パターンとの
パターンマツチングを行なうことによりなす方法である
。
パターンが刻々と変化するように音声を発声することに
よって固有の単語や言葉が生まれる。この人間が発声す
る単語や言葉を自動認識する技術が音声認識であるが、
人間の聴覚機能に匹敵するような音声認識を実現するこ
とは現在のところ至難のことである。このため、現在実
用化されている音声認識の殆んどは、一定の使用条件の
下で、認識対象単語の標準パターンと入力パターンとの
パターンマツチングを行なうことによりなす方法である
。
第4図はこの音声認識装置の概要を説明するための図で
、マイクロホン(1)よりの音声入力が音響分析回路(
2)に供給される。この音響分析回路(2)では入力音
声パターンの特徴を表わす音響パラメータが抽出される
。この音響パラメータを抽出する音響分析の方法は種々
考えられるが、例えばその−例としてバンドパスフィル
タと整流回路を1チヤンネルとし、このようなチャンネ
ルを通過帯域を変えて複数個並べ、このバンドパスフィ
ルタ群の出力としてスペクトラム・パターンの時間変化
を抽出する方法が知られている。この場合、音響パラメ
ータはその時系列Pi(n) (i = 1. 2・・
・1.1は例えばバンドパスフィルタのチャンネル数、
n=1.2・・・NUNは音声区間判定により判定され
た区間において認識に利用されるフレーム数)で表わす
ことができる。
、マイクロホン(1)よりの音声入力が音響分析回路(
2)に供給される。この音響分析回路(2)では入力音
声パターンの特徴を表わす音響パラメータが抽出される
。この音響パラメータを抽出する音響分析の方法は種々
考えられるが、例えばその−例としてバンドパスフィル
タと整流回路を1チヤンネルとし、このようなチャンネ
ルを通過帯域を変えて複数個並べ、このバンドパスフィ
ルタ群の出力としてスペクトラム・パターンの時間変化
を抽出する方法が知られている。この場合、音響パラメ
ータはその時系列Pi(n) (i = 1. 2・・
・1.1は例えばバンドパスフィルタのチャンネル数、
n=1.2・・・NUNは音声区間判定により判定され
た区間において認識に利用されるフレーム数)で表わす
ことができる。
この音響分析回路(2)よりの音響パラメータ時系列f
’1(n)は、例えばスイッチからなるモード切換回路
(3)に供給される。この回路(3)のスイッチが端子
A側に切り換えられるときは登録モード時で、音響パラ
メータ時系列pt(n)が認識パラメータとして標準パ
ターンメモリ(4)にストアされる。つまり、音声認識
に先だって話者の音声パターンが標準パターンとしてこ
のメモ1月4)に記憶される。なお、この登録時、発声
速度変動や単語長の違いにより一般に各登録標準パター
ンのフレーム数は異なっている。
’1(n)は、例えばスイッチからなるモード切換回路
(3)に供給される。この回路(3)のスイッチが端子
A側に切り換えられるときは登録モード時で、音響パラ
メータ時系列pt(n)が認識パラメータとして標準パ
ターンメモリ(4)にストアされる。つまり、音声認識
に先だって話者の音声パターンが標準パターンとしてこ
のメモ1月4)に記憶される。なお、この登録時、発声
速度変動や単語長の違いにより一般に各登録標準パター
ンのフレーム数は異なっている。
一方、このスイッチ(3)が端子B側に切り換えられる
ときは認識モード時である。そして、この認識モード時
は、音響分析回路(2)からのそのときの入力音声の音
響パラメータ時系列が入力音声パターンメモ1月5)に
供給されて一時スドアされる。そしてこの入力パターン
と標準パターンメモ1月4)から読み出された複数の認
識対象単語の標準パターンのそれぞれとの違いの大きさ
が距離算出回路(6)にて計算され、そのうち入力パタ
ーンと標準パターンとの差が最小の認識対象単語が最小
値判定回路(7)にて検出され、これにて入力された単
語が認識される。
ときは認識モード時である。そして、この認識モード時
は、音響分析回路(2)からのそのときの入力音声の音
響パラメータ時系列が入力音声パターンメモ1月5)に
供給されて一時スドアされる。そしてこの入力パターン
と標準パターンメモ1月4)から読み出された複数の認
識対象単語の標準パターンのそれぞれとの違いの大きさ
が距離算出回路(6)にて計算され、そのうち入力パタ
ーンと標準パターンとの差が最小の認識対象単語が最小
値判定回路(7)にて検出され、これにて入力された単
語が認識される。
このように、登録された標準パターンと入力パターンの
パターンマツチング処理により入力音声の認識を行なう
ものであるが、この場合に同じ単語を同じように発声し
てもそのスペクトラムパターンは時間軸方向にずれたり
伸縮したりすることを考慮しなければならない。すなわ
ち、例えば「ハイ」という単語を認識する場合、標準パ
ターンが「ハイ」で登録されているとき、入力音声が「
ハーイ」と時間軸方向に伸びてしまった場合、これは距
離が大きく違い、全く違った単語とされてしまい、正し
い認識ができない。このため、音声iy1 識のパター
ンマツチングでは、この時間軸方向のずれ、伸縮を補正
する時間正規化の処理を行なう必要があり、また、この
時間正規化は認識精度を向上させるための重要な処理で
ある。
パターンマツチング処理により入力音声の認識を行なう
ものであるが、この場合に同じ単語を同じように発声し
てもそのスペクトラムパターンは時間軸方向にずれたり
伸縮したりすることを考慮しなければならない。すなわ
ち、例えば「ハイ」という単語を認識する場合、標準パ
ターンが「ハイ」で登録されているとき、入力音声が「
ハーイ」と時間軸方向に伸びてしまった場合、これは距
離が大きく違い、全く違った単語とされてしまい、正し
い認識ができない。このため、音声iy1 識のパター
ンマツチングでは、この時間軸方向のずれ、伸縮を補正
する時間正規化の処理を行なう必要があり、また、この
時間正規化は認識精度を向上させるための重要な処理で
ある。
この時間正規化の一方法としてD P (Dynami
cProgramming )マツチングと呼ばれる手
法がある(例えば特開昭50−96104号公報参照)
。
cProgramming )マツチングと呼ばれる手
法がある(例えば特開昭50−96104号公報参照)
。
このDPマツチングの手法は次のように説明できる。
入力パターンAを次のように表現する。
A=at a2・・’aj HH・aK
(11ここでakは時刻kにおける音声の特徴を表す量
で特徴ベクトルと呼び、 ak= (akx、 ak2+ ””ak’l””a
kQ)(2)で表わされる。Qぼベクトルの次数で、音
響分析にバンドパスフィルタ群を使用したときはそのチ
ャンネル数に相等する。
(11ここでakは時刻kにおける音声の特徴を表す量
で特徴ベクトルと呼び、 ak= (akx、 ak2+ ””ak’l””a
kQ)(2)で表わされる。Qぼベクトルの次数で、音
響分析にバンドパスフィルタ群を使用したときはそのチ
ャンネル数に相等する。
同様に特定の単語の標準パターンをBとし、次のように
表わす。
表わす。
B=b、b2 ・・・・b! ・・・・b L
(31bg = (bIlt、
bn2. ・・・・bR9+ ・・・・b2α)
(4)音声パターンの時間正規化は第5図に示すように
入力パターンAと標準パターンBの時間軸にとβの間に
写像操作を行うものとみることができる。
(31bg = (bIlt、
bn2. ・・・・bR9+ ・・・・b2α)
(4)音声パターンの時間正規化は第5図に示すように
入力パターンAと標準パターンBの時間軸にとβの間に
写像操作を行うものとみることができる。
この写像を関数
1 = 1 (k) (51と表
現し、歪関数と呼ぶ。この歪関数がわかれば標準パター
ンBの時間軸をこれによって変換し、入力パターンAの
時間軸kにそろえることができる。換言すれば、この歪
関数によりパターンBは、入力パターンAの時間軸kに
そろえられたパターンB′に変換される。
現し、歪関数と呼ぶ。この歪関数がわかれば標準パター
ンBの時間軸をこれによって変換し、入力パターンAの
時間軸kにそろえることができる。換言すれば、この歪
関数によりパターンBは、入力パターンAの時間軸kに
そろえられたパターンB′に変換される。
ここで、
B’ =bI2 Iυb11(21”’°bjl[翫
)8°° b、、リ (6)である。
)8°° b、、リ (6)である。
この歪関数は未知であるが、この歪関数の最適条件から
求めることができる。すなわち、一方のパターン例えば
標準パターンを人工的に歪ませて他方のパターン(入力
パターン)に最も類似するようにする(距離を最小にす
る)と、元の歪はなくなり、最適な歪関数が求まり、写
像パターンB′が求まる。
求めることができる。すなわち、一方のパターン例えば
標準パターンを人工的に歪ませて他方のパターン(入力
パターン)に最も類似するようにする(距離を最小にす
る)と、元の歪はなくなり、最適な歪関数が求まり、写
像パターンB′が求まる。
DPマツチングは、この原理を実行するための手法であ
り、歪関数に次のような制約を与えて、写像パターンB
′を得るものである。
り、歪関数に次のような制約を与えて、写像パターンB
′を得るものである。
(i)Il(klは近似的に単調増加関数(ii)lk
)は近似的に連続関数 (iii)j!(k)はkの近傍の値をとる。
)は近似的に連続関数 (iii)j!(k)はkの近傍の値をとる。
マツチング処理の結果として必要なものは、標準パター
ンと入力パターン間の距離で、で表わされる。ここで1
111は二つのベクトルの距離を示す。この距離の最小
のものが標準パターンBと入力パターンAを最適に時間
正規化し、時間歪を除去したうえでの両パターンの差を
表ねす量D (A、 B)であり、 声認識のパターンマツチングでは、この時間軸方向のず
れ、伸縮を補正する時間正規化の処理を行なう必要があ
り、また、この時間正規化は認識精度を向上させるため
の重要な処理である。
ンと入力パターン間の距離で、で表わされる。ここで1
111は二つのベクトルの距離を示す。この距離の最小
のものが標準パターンBと入力パターンAを最適に時間
正規化し、時間歪を除去したうえでの両パターンの差を
表ねす量D (A、 B)であり、 声認識のパターンマツチングでは、この時間軸方向のず
れ、伸縮を補正する時間正規化の処理を行なう必要があ
り、また、この時間正規化は認識精度を向上させるため
の重要な処理である。
この時間正規化の一方法としてDP (Dynamic
Progranuwing )マツチングと呼ばれる手
法がある(例えば特開昭50−96104号公報参照)
。
Progranuwing )マツチングと呼ばれる手
法がある(例えば特開昭50−96104号公報参照)
。
このDPマツチングの手法は次のように説明できる。
入力パターンAを次のように表現する。
A=a1 a2 − ak −0−aH(1)ここでa
kは時刻kにおける音声の特徴を表す量で特徴ベクトル
と呼び、 ak ” (akt+ ak2+ ””akQolo
abci) (2)で表わされる。Qはベクトルの
次数で、音響分析にバンドパスフィルタ群を使用したと
きはそのチャンネル数に相等する。
kは時刻kにおける音声の特徴を表す量で特徴ベクトル
と呼び、 ak ” (akt+ ak2+ ””akQolo
abci) (2)で表わされる。Qはベクトルの
次数で、音響分析にバンドパスフィルタ群を使用したと
きはそのチャンネル数に相等する。
同様に特定の単語の標準パターンをBとし、次のように
表わす。
表わす。
B=b、b、・・・・b、・・・・b L
(3)bIl −(bal、 bg2. ・・
・・bNQ、 ・・・・b go ) (41音
声パターンの時間正規化は第5図に示すように入力パタ
ーンAと標準パターンBの時間軸にとlの間に写像操作
を行うものとみることができる。
(3)bIl −(bal、 bg2. ・・
・・bNQ、 ・・・・b go ) (41音
声パターンの時間正規化は第5図に示すように入力パタ
ーンAと標準パターンBの時間軸にとlの間に写像操作
を行うものとみることができる。
この写像を関数
1=ll(幻 (5)と表現し、歪
関数と呼ぶ。この歪関数がわかれば標準パターンBの時
間軸をこれによって変換し、入力パターンAの時間軸k
にそろえることができる。換言すれば、この歪関数によ
りパターンBは、入力パターンへの時間軸kにそろえら
れたパターンB′に変換される。
関数と呼ぶ。この歪関数がわかれば標準パターンBの時
間軸をこれによって変換し、入力パターンAの時間軸k
にそろえることができる。換言すれば、この歪関数によ
りパターンBは、入力パターンへの時間軸kにそろえら
れたパターンB′に変換される。
ここで、
B’ =bn cubtt [2)・・・’bll(
k)・・・・b Ill (X) (6]である。
k)・・・・b Ill (X) (6]である。
この歪関数は未知であるが、この歪関数の最適条件から
求めることができる。すなわち、一方のパターン例えば
標準パターンを人工的に歪ませて他方のパターン(入力
パターン)に最も類似するようにする(距離を最小にす
る)と、元の歪はなくなり、最適な歪関数が求まり、写
像パターンB′が求まる。
求めることができる。すなわち、一方のパターン例えば
標準パターンを人工的に歪ませて他方のパターン(入力
パターン)に最も類似するようにする(距離を最小にす
る)と、元の歪はなくなり、最適な歪関数が求まり、写
像パターンB′が求まる。
DPマツチングは、この原理を実行するための手法であ
り、歪関数に次のような制約を与えて、写像パターンB
′を得るものである。
り、歪関数に次のような制約を与えて、写像パターンB
′を得るものである。
(i)j!(klは近似的に単調増加関数(ii)j!
(k)は近似的に連続関数(iii ) 1 (k)は
kの近傍の値をとる。
(k)は近似的に連続関数(iii ) 1 (k)は
kの近傍の値をとる。
マツチング処理の結果として必要なものは、標準パター
ンと入力パターン間の距離で、で表わされる。ここで1
111は二つのベクトルの距離を示す。この距離の最小
のものが標準パターンBと入力パターンAを最適に時間
正規化し、時間歪を除去したうえでの両パターンの差を
表わす量D (A、B)であり、 で定義できる。
ンと入力パターン間の距離で、で表わされる。ここで1
111は二つのベクトルの距離を示す。この距離の最小
のものが標準パターンBと入力パターンAを最適に時間
正規化し、時間歪を除去したうえでの両パターンの差を
表わす量D (A、B)であり、 で定義できる。
したがって、登録された標準パターンが複数あるときは
、各標準パターンと入力パターンとの量D (A、B)
を求め、その量D (A、B)が最小になる標準パター
ンとマツチングしたと判定する。
、各標準パターンと入力パターンとの量D (A、B)
を求め、その量D (A、B)が最小になる標準パター
ンとマツチングしたと判定する。
以上のように、DPマツチングは時間軸のずれを考慮し
た多数の標準パターンを用意しておくのではなく、歪関
数によって多数の時間を正規化した標準パターンを生成
し、これと入力パターンとの距離を求め、その最小値の
ものを検知することにより、音声認識をするものである
。
た多数の標準パターンを用意しておくのではなく、歪関
数によって多数の時間を正規化した標準パターンを生成
し、これと入力パターンとの距離を求め、その最小値の
ものを検知することにより、音声認識をするものである
。
ところで、以上のようなりPマツチングの手法を用いる
場合、登録される標準パターンのフレーム数は不定であ
り、しかも全登録標準パターンと入力パターンとのDP
マツチング処理をする必要があり、語霊が多くなると演
算量が飛躍的に増加する欠点がある。
場合、登録される標準パターンのフレーム数は不定であ
り、しかも全登録標準パターンと入力パターンとのDP
マツチング処理をする必要があり、語霊が多くなると演
算量が飛躍的に増加する欠点がある。
また、DPマツチングは、定常部(スペクトラムパター
ンの時間変化のない部分)を重視したマツチング方式で
あるので部分的類似パターン間で誤認識を生じる可能性
があった。
ンの時間変化のない部分)を重視したマツチング方式で
あるので部分的類似パターン間で誤認識を生じる可能性
があった。
このような欠点を生じない時間正規化の手法を本出願人
は先に提案した(例えば特願昭59−106177号)
。
は先に提案した(例えば特願昭59−106177号)
。
すなわち、音響パラメータ時系列Pi(nlは、そのパ
ラメータ空間を考えた場合、点列を描く。例えば認識対
象単語がrT(AIJであるとき音響分析用バンドパス
フィルタの数が2個で、 Pi(n)= (Pi P2 ) であれば、入力音声の音響パラメータ時系列はその2次
元パラメータ空間には第6図に示すような点列を描く。
ラメータ空間を考えた場合、点列を描く。例えば認識対
象単語がrT(AIJであるとき音響分析用バンドパス
フィルタの数が2個で、 Pi(n)= (Pi P2 ) であれば、入力音声の音響パラメータ時系列はその2次
元パラメータ空間には第6図に示すような点列を描く。
この図から明らかなように音声の非定常部の点列は粗に
分布し、準定常部は密に分布する。このことは完全に音
声が定常であればパラメータは変化せず、その場合には
点列はパラメータ空間において一点に停留することとな
ることから明らかであろう。
分布し、準定常部は密に分布する。このことは完全に音
声が定常であればパラメータは変化せず、その場合には
点列はパラメータ空間において一点に停留することとな
ることから明らかであろう。
そして、以上のことから、音声の発声速度変動による時
間軸方向のずれは殆んどが準定常部の点列密度の違いに
起因し、非定常部の時間長の影響は少ないと考えられる
。そこで、この入力パラメータ時系列Pi(n)の点列
から第7図に示すように点列全体を近似的に通過するよ
うな連続曲線で描いた軌跡を推定すれば、この軌跡は音
声の発声速度変動に対して殆んど不変であることがわか
る。
間軸方向のずれは殆んどが準定常部の点列密度の違いに
起因し、非定常部の時間長の影響は少ないと考えられる
。そこで、この入力パラメータ時系列Pi(n)の点列
から第7図に示すように点列全体を近似的に通過するよ
うな連続曲線で描いた軌跡を推定すれば、この軌跡は音
声の発声速度変動に対して殆んど不変であることがわか
る。
このことから、出願人は、次のような時間軸正規化方法
を提案した。すなわち、先ず入力パラメータの時系列p
i(n)の始端Pi(1)から終端Pi()J)までを
連続曲線f’1(19)で描いた軌跡を推定し、この推
定した曲線f”LS)から軌跡の長さSを求める。そし
て第8図に示すようにこの軌跡に沿って所定長Tで再サ
ンプリングする。例えばM個の点に再サンプリングする
場合、 T= S/ (M−1) (9
1の長さを基準として軌跡を再サンプリングする。
を提案した。すなわち、先ず入力パラメータの時系列p
i(n)の始端Pi(1)から終端Pi()J)までを
連続曲線f’1(19)で描いた軌跡を推定し、この推
定した曲線f”LS)から軌跡の長さSを求める。そし
て第8図に示すようにこの軌跡に沿って所定長Tで再サ
ンプリングする。例えばM個の点に再サンプリングする
場合、 T= S/ (M−1) (9
1の長さを基準として軌跡を再サンプリングする。
この再サンプリングされた点列を描くパラメータ時系列
をQi(m)(i=1.2・・・ 1.m=1.2−・
・M)とすれば、このパラメータ時系列Qi((2)は
軌跡の基本情報を有しており、しかも音声の発声速度変
動に対して殆んど不変なパラメータである。
をQi(m)(i=1.2・・・ 1.m=1.2−・
・M)とすれば、このパラメータ時系列Qi((2)は
軌跡の基本情報を有しており、しかも音声の発声速度変
動に対して殆んど不変なパラメータである。
つまり、時間軸が正規化された認識パラメータ時系列で
ある。
ある。
したがって、このパラメータ時系列Qi(fll)を標
準パターンとして登録しておくとともに、人カバターン
もこのパラメータ時系列QHmとして得、このパラメー
タ時系列旧(m)により両パターン間の距離を求め、そ
の距離が最小であるものを検知して音声認識を行うよう
にすれば、時間軸方向のずれが正規化されて除去された
状態で音声認識が常になされる。
準パターンとして登録しておくとともに、人カバターン
もこのパラメータ時系列QHmとして得、このパラメー
タ時系列旧(m)により両パターン間の距離を求め、そ
の距離が最小であるものを検知して音声認識を行うよう
にすれば、時間軸方向のずれが正規化されて除去された
状態で音声認識が常になされる。
そして、この処理方法によれば、登録時の発声速度変動
や単語長の違いに関係なく認識パラメータ時系列Qif
fn)のフレーム数は常にMであり、その上認識パラメ
ータ時系列Qi(m)は時間正規化されているので、入
力パターンと登録標準パターンとの距離の演算は最も単
純なチェビシェフ距離を求める演算でも良好な効果が期
待できる。
や単語長の違いに関係なく認識パラメータ時系列Qif
fn)のフレーム数は常にMであり、その上認識パラメ
ータ時系列Qi(m)は時間正規化されているので、入
力パターンと登録標準パターンとの距離の演算は最も単
純なチェビシェフ距離を求める演算でも良好な効果が期
待できる。
また、以上の方法は音声の非定常部をより重視した時間
正規化の手法であり、DPマツチング処理のような部分
的類似パターン間の誤認識が少なくなる。
正規化の手法であり、DPマツチング処理のような部分
的類似パターン間の誤認識が少なくなる。
さらに、発声速度の変動情報は正規化パラメータ時系列
Qi(m)には含まれず、このためパラメータ空間に配
位するパラメータ遷移構造のグローバルな特徴等の扱い
が容易となり、不特定話者認識に対しても有効な各種方
法の通用が可能となる。
Qi(m)には含まれず、このためパラメータ空間に配
位するパラメータ遷移構造のグローバルな特徴等の扱い
が容易となり、不特定話者認識に対しても有効な各種方
法の通用が可能となる。
なお、以下、この時間正規化の処理をNAT(Norm
alization Along Trajector
y)処理と呼ぶ。
alization Along Trajector
y)処理と呼ぶ。
D 発明が解決しようとする問題点
以上述べたNAT処理においては、認識パラメータ口1
((2)を形成するとき、フレーム数をMで一定にする
べく、推定した軌跡の軌跡長Sをフレーム数Mで除した
値Tの間隔で再サンプルを行うようにしている。
((2)を形成するとき、フレーム数をMで一定にする
べく、推定した軌跡の軌跡長Sをフレーム数Mで除した
値Tの間隔で再サンプルを行うようにしている。
ところが、このようにフレーム数が一定で再サンプリン
グ点数が軌跡長に関係なく一定である場合には、第9図
のような例えば「あ」というような単音節の場合の単純
な軌跡に対し、第10図に示すような例えば「北海道」
というように音節数が多い場合の複雑な軌跡を考えると
、フレーム数が少ないと第9図のような単音節の軌跡を
表わすパラメータの抽出はできるが、第10図のような
多音節の軌跡を表わすパラメータとしてはフレーム数つ
まりサンプル数が少なすぎてしまい、軌跡の特徴を示す
パラメータとしては不十分である。逆に、フレーム数が
多いと、多音節の場合はよいが、単音節の場合には、不
必要にフレーム数が多くなる欠点となる。
グ点数が軌跡長に関係なく一定である場合には、第9図
のような例えば「あ」というような単音節の場合の単純
な軌跡に対し、第10図に示すような例えば「北海道」
というように音節数が多い場合の複雑な軌跡を考えると
、フレーム数が少ないと第9図のような単音節の軌跡を
表わすパラメータの抽出はできるが、第10図のような
多音節の軌跡を表わすパラメータとしてはフレーム数つ
まりサンプル数が少なすぎてしまい、軌跡の特徴を示す
パラメータとしては不十分である。逆に、フレーム数が
多いと、多音節の場合はよいが、単音節の場合には、不
必要にフレーム数が多くなる欠点となる。
E 問題点を解決するための手段
この発明は、入力音声信号の音声区間を判定する音声区
間判定手段(24)と、この音声区間判定手段(24)
にて判定された音声区間内で音響パラメータ時系列を得
る特徴抽出手段(23)と、この特徴抽出手段(23)
よりの音響パラメータ時系列がパラメータ空間で描く軌
跡を推定しこの軌跡を求める演算手段(81)と、この
演算手段により求められた軌跡長に応じたサンプル間隔
で再サンプルを行なうことにより認識パラメータ時系列
を得る処理手段(82) (83)と、認識対象語の
標準パターンの認識パラメータ時系列がストアされてい
る標準パターンメモ1月4)と、上記処理手段(82)
(83)よりの入力パターンの認識パラメータ時系列と
上記標準パターンメモリで4)からの標準パターンの認
識パラメータ時系列との差を算出する距離算出手段(6
)と、この距離算出手段(6)で、算出された値の最小
のものを検知して認識出力を得る最小値判定手段(7)
とからなる。
間判定手段(24)と、この音声区間判定手段(24)
にて判定された音声区間内で音響パラメータ時系列を得
る特徴抽出手段(23)と、この特徴抽出手段(23)
よりの音響パラメータ時系列がパラメータ空間で描く軌
跡を推定しこの軌跡を求める演算手段(81)と、この
演算手段により求められた軌跡長に応じたサンプル間隔
で再サンプルを行なうことにより認識パラメータ時系列
を得る処理手段(82) (83)と、認識対象語の
標準パターンの認識パラメータ時系列がストアされてい
る標準パターンメモ1月4)と、上記処理手段(82)
(83)よりの入力パターンの認識パラメータ時系列と
上記標準パターンメモリで4)からの標準パターンの認
識パラメータ時系列との差を算出する距離算出手段(6
)と、この距離算出手段(6)で、算出された値の最小
のものを検知して認識出力を得る最小値判定手段(7)
とからなる。
F 作用
NAT処理において、軌跡長に応じて再サンプリング間
隔が変えられる。したがって、軌跡長に応じて再サンプ
ル数が変わり、単純な軌跡、複雑な軌跡のそれぞれに対
応したサンプル数となり、情報が軌跡を再現するのに不
十分ということはなくなる。
隔が変えられる。したがって、軌跡長に応じて再サンプ
ル数が変わり、単純な軌跡、複雑な軌跡のそれぞれに対
応したサンプル数となり、情報が軌跡を再現するのに不
十分ということはなくなる。
G 実施例
第1図はこの発明による音声認識装置の一実施例で、こ
の例は音響分析にI5チャンネルのバンドパスフィルタ
群を用いた場合である。
の例は音響分析にI5チャンネルのバンドパスフィルタ
群を用いた場合である。
Gl 音響分析回路(2)の説明
すなわち、音響分析回路値)においては、マイクロホン
(1)からの音声信号がアンプ(211)及び帯域制限
用のローパスフィルタ(212)を介してA/Dコンバ
ータ(213) に供給され、例えば12.5kHzの
サンプリング周波数で12ビツトのデジタル音声信号に
変換される。このデジタル音声信号は、15チヤンネル
のバンドパスフィルタバンク(22)の各チャンネルの
デジタルバンドパスフィルタ (221o ) 、
(2211) 、 ”、 (22114)に供給
される。このデジタルバンドパスフィルタ(22i o
) 、 (221t ) 、 ”・・、 (2
2114)は例えばバターワース4次のデジタルフィル
タにて構成され、250Hzから5.5KHzまでの帯
域が対数軸上で等間隔で分割された各帯域が各フィルタ
の通過帯域となるようにされている。そして、各デジタ
ルバンドパスフィルタ(221o ) 、 (221
1) 。
(1)からの音声信号がアンプ(211)及び帯域制限
用のローパスフィルタ(212)を介してA/Dコンバ
ータ(213) に供給され、例えば12.5kHzの
サンプリング周波数で12ビツトのデジタル音声信号に
変換される。このデジタル音声信号は、15チヤンネル
のバンドパスフィルタバンク(22)の各チャンネルの
デジタルバンドパスフィルタ (221o ) 、
(2211) 、 ”、 (22114)に供給
される。このデジタルバンドパスフィルタ(22i o
) 、 (221t ) 、 ”・・、 (2
2114)は例えばバターワース4次のデジタルフィル
タにて構成され、250Hzから5.5KHzまでの帯
域が対数軸上で等間隔で分割された各帯域が各フィルタ
の通過帯域となるようにされている。そして、各デジタ
ルバンドパスフィルタ(221o ) 、 (221
1) 。
・・・・、 (22114)の出力信号はそれぞれ整
流回路(222o ) 、 (2221) 、・・・
・、 (22214)に供給され、これら整流回路(
222o ) 、’ (2221) 。
流回路(222o ) 、 (2221) 、・・・
・、 (22214)に供給され、これら整流回路(
222o ) 、’ (2221) 。
・・・・(22214)の出力はそれぞれデジタルロー
パスフィルタ(223o ) 、 (2231) 、
・・・・。
パスフィルタ(223o ) 、 (2231) 、
・・・・。
(22314)に供給される。これらデジタルローパス
フィルタ(223o ) 、 (2231) 、・・
・・。
フィルタ(223o ) 、 (2231) 、・・
・・。
(22314)は例えばカットオフ周波数52.8Hz
のFIRローパスフィルタにて構成される。
のFIRローパスフィルタにて構成される。
音響分析回路(2)の出力である各デジタルローパスフ
ィルタ(223o ) 、 (2231) 、・・・
・。
ィルタ(223o ) 、 (2231) 、・・・
・。
(22314)の出力信号は特徴抽出回路(23)を構
成するサンプラー(231’)に供給される。このサン
プラー(231)ではデジタルローパスフィルタ(22
3o ) 、(223t ) 、・・・・、 (22
314)の出力信号をフレーム周期5.12m5ec毎
にサンプリングする。したがって、これよりはサンプル
時系列へ1(nl (i = 1. 2. ”15;
nはフレーム番号でn”1+ 2. ・・・・、
N)が得られる。
成するサンプラー(231’)に供給される。このサン
プラー(231)ではデジタルローパスフィルタ(22
3o ) 、(223t ) 、・・・・、 (22
314)の出力信号をフレーム周期5.12m5ec毎
にサンプリングする。したがって、これよりはサンプル
時系列へ1(nl (i = 1. 2. ”15;
nはフレーム番号でn”1+ 2. ・・・・、
N)が得られる。
このサンプラー(231)からの出力、つまりサンプル
時系列Ai(nlは音源情報正規化回路(232”)に
供給され、これにて認識しようとする音声の話者による
声帯音源特性の違いが除去される。こうして音源特性の
違いが正規化されて除去されて音響パラメータ時系列P
i(nlがこの音源情報正規化回路(232)より得ら
れる。そして、このパラメータ時系列Pi(n)が音声
区間内パラメータメモリ (233)に供給される。こ
の音声区間内パラメータメモリ(233)では音声区間
判定回路(24)からの音声区間判定信号を受けて音源
特性の正規化されたパラメータP 1(n)が判定さた
音声区間毎にストアされる。
時系列Ai(nlは音源情報正規化回路(232”)に
供給され、これにて認識しようとする音声の話者による
声帯音源特性の違いが除去される。こうして音源特性の
違いが正規化されて除去されて音響パラメータ時系列P
i(nlがこの音源情報正規化回路(232)より得ら
れる。そして、このパラメータ時系列Pi(n)が音声
区間内パラメータメモリ (233)に供給される。こ
の音声区間内パラメータメモリ(233)では音声区間
判定回路(24)からの音声区間判定信号を受けて音源
特性の正規化されたパラメータP 1(n)が判定さた
音声区間毎にストアされる。
音声区間判定回路(24)’はゼロクロスカウンタ(2
41)とパワー算出回路(242)と音声区間決定回路
(243)とからなり、A/Dコンバータ(213)よ
りのデジタル音声信号がゼロクロスカウンタ(241)
及びパワー算出回路(242)に供給される。ゼロクロ
スカウンタ(241)ではlフレーム周期5.12m5
ec毎に、この1フレ一ム周期内の64サンプルのデジ
タル音声信号のゼロクロス数をカウントし、そのカウン
ト値が音声区間決定回路(243)の第1の入力端に供
給される。パワー算出回路(242)では1フレ一ム周
期毎にこの1フレ一ム周期内のデジタル音声信号のパワ
ー、すなわち2乗和が求められ、その出力パワー信号が
音声区間決定回路(243)の第2の入力端に供給され
る。音声区間決定回路(243)には、さらに、その第
3の入力端に音源情報正規化回路(232)よりの音源
正規化情報が供給される。そして、この音声区間決定回
路(243)においてはゼロクロス数、区間内パワー及
び音源正規化情報が複合的に処理され、無音、無声音及
び有声音の判定処理が行なわれ、音声区間が決定される
。
41)とパワー算出回路(242)と音声区間決定回路
(243)とからなり、A/Dコンバータ(213)よ
りのデジタル音声信号がゼロクロスカウンタ(241)
及びパワー算出回路(242)に供給される。ゼロクロ
スカウンタ(241)ではlフレーム周期5.12m5
ec毎に、この1フレ一ム周期内の64サンプルのデジ
タル音声信号のゼロクロス数をカウントし、そのカウン
ト値が音声区間決定回路(243)の第1の入力端に供
給される。パワー算出回路(242)では1フレ一ム周
期毎にこの1フレ一ム周期内のデジタル音声信号のパワ
ー、すなわち2乗和が求められ、その出力パワー信号が
音声区間決定回路(243)の第2の入力端に供給され
る。音声区間決定回路(243)には、さらに、その第
3の入力端に音源情報正規化回路(232)よりの音源
正規化情報が供給される。そして、この音声区間決定回
路(243)においてはゼロクロス数、区間内パワー及
び音源正規化情報が複合的に処理され、無音、無声音及
び有声音の判定処理が行なわれ、音声区間が決定される
。
この音声区間決定器(243)よりの判定された音声区
間を示す音声区間判定信号は音声区間判定回路(24)
の出力として音声区間内パラメータメモリ (233)
に供給される。
間を示す音声区間判定信号は音声区間判定回路(24)
の出力として音声区間内パラメータメモリ (233)
に供給される。
こうして、判定音声区間内においてメモリ (233”
)にストアされた音響パラメータ時系列Pi(n)は読
み出されて第1のNAT処理回路(8)に供給される。
)にストアされた音響パラメータ時系列Pi(n)は読
み出されて第1のNAT処理回路(8)に供給される。
62 時間正規化処理の説明
この第1のNAT処理回路(8)は軌跡長算出回路(8
1)と補間間隔算出回路(82)と補間点抽出回路(8
3)からなる。
1)と補間間隔算出回路(82)と補間点抽出回路(8
3)からなる。
メモリ (223)より読み出されたパラメータ時系列
Pi(n)は軌跡長算出回路(81)に供給される。
Pi(n)は軌跡長算出回路(81)に供給される。
この軌跡長算出回路(81)においては音響パラメータ
時系列Pi(nlがそのパラメータ空間において第2図
に示すように描く直線近似による軌跡の長さ、。
時系列Pi(nlがそのパラメータ空間において第2図
に示すように描く直線近似による軌跡の長さ、。
即ち軌跡長を算出する。
この場合、I次元ベクトルaL及びb【間のユークリッ
ド距離D(at、tz)は Pi(n)より、直線近似により軌跡を推定した場合の
時系列方向に隣接するパラメータ間距離S (n)は5
(nl= D (Pi (n +1 ) 、 Pi(n
))(n−1,・・・・、N) ・・・ (
11)と表わされる。そして、時系列方向における第1
番目のパラメータPi(1)から第n番目のパラメータ
Pi(nl迄の距離5L(nlは と表わされる。なお、5L(1) = Oである。
ド距離D(at、tz)は Pi(n)より、直線近似により軌跡を推定した場合の
時系列方向に隣接するパラメータ間距離S (n)は5
(nl= D (Pi (n +1 ) 、 Pi(n
))(n−1,・・・・、N) ・・・ (
11)と表わされる。そして、時系列方向における第1
番目のパラメータPi(1)から第n番目のパラメータ
Pi(nl迄の距離5L(nlは と表わされる。なお、5L(1) = Oである。
そして、全軌跡長SL1は
と表わされる。軌跡長算出回路(81)はこの(11)
式、(12)式及び(13)にて示す信号処理を行なう
。
式、(12)式及び(13)にて示す信号処理を行なう
。
この軌跡長算出回路(81)にて求められた軌跡長SL
Iを示す信号は補間間隔算出回路(82)に供給される
。この補間間隔算出回路(82)では軌跡に沿って再サ
ンプリングするときの再サンプリング間隔T1を算出す
る。
Iを示す信号は補間間隔算出回路(82)に供給される
。この補間間隔算出回路(82)では軌跡に沿って再サ
ンプリングするときの再サンプリング間隔T1を算出す
る。
この場合、このサンプリング間隔T1は軌跡長算出回路
(81)において算出された軌跡長dに応じて変えられ
る。そして、この例ではサンプリング間隔T1は次のよ
うにして定められる。
(81)において算出された軌跡長dに応じて変えられ
る。そして、この例ではサンプリング間隔T1は次のよ
うにして定められる。
すなわち、軌跡長dに対して先ず再サンプル点数pが定
められる。そして、この4値dとpとが連動して変わる
ようにされる。この値dに対するpの値は実験によって
最適な値が定められる。例えば単語長0.5秒くらいで
d = 100であるときはp=30. d =200
のときはp=45.d=50のときはp=20というよ
うに定められる。
められる。そして、この4値dとpとが連動して変わる
ようにされる。この値dに対するpの値は実験によって
最適な値が定められる。例えば単語長0.5秒くらいで
d = 100であるときはp=30. d =200
のときはp=45.d=50のときはp=20というよ
うに定められる。
そして、サンプリング間隔T1は、
TI =SLt / (pl) ・・
・ (14)として求められる。
・ (14)として求められる。
この補間間隔算出回路(82)よりのサンプリング間隔
T1を示す信号は補間点抽出回路(83)に供給される
とともにメモリ (233)よりの音響パラメータ時系
列Pi(nlも、また、この補間点抽出回路(83)に
供給される。この補間点抽出回路(83)では音響パラ
メータ時系列Pi(nlのそのパラメータ空間における
パラメータ間を直線近似した軌跡に沿って、第2図にお
いて○印にて示すようにサンプリング間隔TIで再サン
プリングがなされ、これにて得られた点列より新たな音
響パラメータ時系列Ri(ρ)が形成される。
T1を示す信号は補間点抽出回路(83)に供給される
とともにメモリ (233)よりの音響パラメータ時系
列Pi(nlも、また、この補間点抽出回路(83)に
供給される。この補間点抽出回路(83)では音響パラ
メータ時系列Pi(nlのそのパラメータ空間における
パラメータ間を直線近似した軌跡に沿って、第2図にお
いて○印にて示すようにサンプリング間隔TIで再サン
プリングがなされ、これにて得られた点列より新たな音
響パラメータ時系列Ri(ρ)が形成される。
前述もしたように、このパラメータ時系列Ri(piは
フレーム数pが軌跡長に応じて可変されたもので、軌跡
の特徴を十分に表わし得るものであり、しかも時間軸方
向の正規化もほぼなされている。
フレーム数pが軌跡長に応じて可変されたもので、軌跡
の特徴を十分に表わし得るものであり、しかも時間軸方
向の正規化もほぼなされている。
この音響パラメータ時系列Ri(ρ)を標準パターンメ
モ1月4)に登録しておくとともに、パターンマツチン
グに用いてももちろんよい。その場合には、この時系列
Ri(piをDPマツチング処理するようにしてもよい
。
モ1月4)に登録しておくとともに、パターンマツチン
グに用いてももちろんよい。その場合には、この時系列
Ri(piをDPマツチング処理するようにしてもよい
。
しかし、DPマツチング処理をしたのでは、NAT処理
の効果が半減する。そこで、この例では、この新たな音
響パラメータ時系列R4(piは第2のNAT処理回路
(9)に供給され、NAT処理の特長が生かされるよう
にされている。
の効果が半減する。そこで、この例では、この新たな音
響パラメータ時系列R4(piは第2のNAT処理回路
(9)に供給され、NAT処理の特長が生かされるよう
にされている。
すなわち、第2のNAT処理回路(9)は軌跡長算出回
路(91)と補間間隔算出回路(92)と補間点抽出回
路(93)からなり、音響パラメータ時系列Rifp)
は軌跡長算出回路(91)に供給される。この軌跡長算
出回路(91)においても回路(81)と同様にして、
音3パラメータ時系列R1(Ill)がそのパラメータ
空間において描く直線近似による軌跡の長さSL2が算
出される。
路(91)と補間間隔算出回路(92)と補間点抽出回
路(93)からなり、音響パラメータ時系列Rifp)
は軌跡長算出回路(91)に供給される。この軌跡長算
出回路(91)においても回路(81)と同様にして、
音3パラメータ時系列R1(Ill)がそのパラメータ
空間において描く直線近似による軌跡の長さSL2が算
出される。
この軌跡長算出回路(91)にて求められた軌跡長SL
2を示す信号は補間間隔算出回路(92)に供給され、
再サンプリング間隔T2が算出される。
2を示す信号は補間間隔算出回路(92)に供給され、
再サンプリング間隔T2が算出される。
この場合、この第2のNAT処理においてはフレーム数
は単語長つまり軌跡長に関係なく一定で、例えばM点に
再サンプリングするとすれば、再サンプリング間隔T2
は T2 = 51.2 / (M −1)
・・・ (I5)として求められる。
は単語長つまり軌跡長に関係なく一定で、例えばM点に
再サンプリングするとすれば、再サンプリング間隔T2
は T2 = 51.2 / (M −1)
・・・ (I5)として求められる。
この補間間隔算出回路(92)よりの再サンプリング間
隔T2を示す信号は補間点抽出回路(93)に供給され
る。また、補間点抽出回路(83)よりの音響パラメー
タ時系列Ri(+))も、また、この補間点抽出回路(
93)に供給される。この補間点抽出回路(93)は音
響パラメータ時系列R3(P)のそのパラメータ空間に
おける軌跡、例えばパラメータ間を直線近似した軌跡に
沿って再サンプリング間隔T2で再サンプリングし、こ
のサンプリングにより得た新たな点列より認識パラメー
タ時系列Qi(ホ)を形成する。
隔T2を示す信号は補間点抽出回路(93)に供給され
る。また、補間点抽出回路(83)よりの音響パラメー
タ時系列Ri(+))も、また、この補間点抽出回路(
93)に供給される。この補間点抽出回路(93)は音
響パラメータ時系列R3(P)のそのパラメータ空間に
おける軌跡、例えばパラメータ間を直線近似した軌跡に
沿って再サンプリング間隔T2で再サンプリングし、こ
のサンプリングにより得た新たな点列より認識パラメー
タ時系列Qi(ホ)を形成する。
ここで、補間点抽出回路(83)及び(93)において
は第3図に示すフローチャートに従った処理がなされ、
それぞれパラメータ時系列Ri(1)l及び旧(mlが
形成される。
は第3図に示すフローチャートに従った処理がなされ、
それぞれパラメータ時系列Ri(1)l及び旧(mlが
形成される。
第3図では音響パラメータ時系列Pi(n)から新たな
音響パラメータ時系列Ri(+))を形成する場合につ
いて説明するが、Ri(P)から認識パラメータ時系列
旧(mlを得る場合も全く同様になされる。
音響パラメータ時系列Ri(+))を形成する場合につ
いて説明するが、Ri(P)から認識パラメータ時系列
旧(mlを得る場合も全く同様になされる。
先ず、ステップ(101)にて再サンプリング点の時系
列方向における番号を示す変数Jに値lが設定されると
共に音響パラメータ時系列Pi(n)のフレーム番号を
示す変数ICに値1が設定され、イニシャライズされる
。次にステップ(102)にて変数Jがインクリメント
され、ステップ(103)にてそのときの変数Jが(P
−1)以下であるかどうかが判別されることにより、そ
のときの再サンプリング点の時系列方向における番号が
再サンプリングする必要のある最後の番号になっていな
いかどうかを判断する。最後の番号であればステップ(
104)に進み、再サンプルは終了する。
列方向における番号を示す変数Jに値lが設定されると
共に音響パラメータ時系列Pi(n)のフレーム番号を
示す変数ICに値1が設定され、イニシャライズされる
。次にステップ(102)にて変数Jがインクリメント
され、ステップ(103)にてそのときの変数Jが(P
−1)以下であるかどうかが判別されることにより、そ
のときの再サンプリング点の時系列方向における番号が
再サンプリングする必要のある最後の番号になっていな
いかどうかを判断する。最後の番号であればステップ(
104)に進み、再サンプルは終了する。
最後の番号でなければステップ(105)にて第1番目
の再サンプリング点から第3番目の再サンプリング点ま
での再サンプリング距離DLが算出される。次にステッ
プ(106)に進み変数ICがインクリメントされる。
の再サンプリング点から第3番目の再サンプリング点ま
での再サンプリング距離DLが算出される。次にステッ
プ(106)に進み変数ICがインクリメントされる。
次にステップ(107)にて再サンプル距離DLが音響
パラメータ時系列Pi(n)の第1番目のパラメータP
i(1)から第1C番目のパラメータP ioc )ま
での距離SL+Ic)よりも小さいかどうかにより、そ
のときの再サンプリング点が軌跡上においてそのときの
パラメータP r(Ic + よりも軌跡の始点側に位
置するかどうかが判断され、始点側に位置していなけれ
ばステップ(106)に戻り変数ICをインクリメント
した後再びステップ(107)にて再サンプリング点と
パラメータP ioc r との軌跡上における位置
の比較をし、再サンプリング点が軌跡上においてパラメ
ータP toe )よりも始点側に位置すると判断され
たとき、ステップ[10B)に進み認識パラメータRi
σ、が形成される。
パラメータ時系列Pi(n)の第1番目のパラメータP
i(1)から第1C番目のパラメータP ioc )ま
での距離SL+Ic)よりも小さいかどうかにより、そ
のときの再サンプリング点が軌跡上においてそのときの
パラメータP r(Ic + よりも軌跡の始点側に位
置するかどうかが判断され、始点側に位置していなけれ
ばステップ(106)に戻り変数ICをインクリメント
した後再びステップ(107)にて再サンプリング点と
パラメータP ioc r との軌跡上における位置
の比較をし、再サンプリング点が軌跡上においてパラメ
ータP toe )よりも始点側に位置すると判断され
たとき、ステップ[10B)に進み認識パラメータRi
σ、が形成される。
即ち、第5番目の再サンプリング点による再サンプリン
グ距%iDLからこの第5番目の再サンプリング点より
も始点側に位置する第(IC−1)番目のパラメータP
i++c−11による距離S L(Ic−11を減算
して第(IC−1)番目のパラメータP toe−1)
から第5番目の再ザンプリング点迄の距MSSを求める
。次に、軌跡上においてこの第5番目の再サンプリング
点の両側に位置するパラメータP i uc−o及びパ
ラメータPioc+間の距離S(n>(この距%!i
S (nlは(11)式にて示される信号処理にて得ら
れる。)にてこの距離SSを除算し、この除算結果SS
/ S oc−uに軌跡上において第5番目の再サンプ
リング点の両側に位置するパラメータP ioc )と
P 1(Ic−11との差を掛算して、軌跡上において
第5番目の再サンプリング点のこの再サンプリング点よ
りも始点側に隣接して位置する第(IC−1)番目のパ
ラメータP i (IG −4+からの補間量を算出し
、この補間量と第5番目の再サンプリング点よりも始点
側に隣接して位置する第NC−1)番目のパラメータP
ioc −u ’とを加算して、軌跡に沿う新たな音
響パラメータRi+y+が形成される。
グ距%iDLからこの第5番目の再サンプリング点より
も始点側に位置する第(IC−1)番目のパラメータP
i++c−11による距離S L(Ic−11を減算
して第(IC−1)番目のパラメータP toe−1)
から第5番目の再ザンプリング点迄の距MSSを求める
。次に、軌跡上においてこの第5番目の再サンプリング
点の両側に位置するパラメータP i uc−o及びパ
ラメータPioc+間の距離S(n>(この距%!i
S (nlは(11)式にて示される信号処理にて得ら
れる。)にてこの距離SSを除算し、この除算結果SS
/ S oc−uに軌跡上において第5番目の再サンプ
リング点の両側に位置するパラメータP ioc )と
P 1(Ic−11との差を掛算して、軌跡上において
第5番目の再サンプリング点のこの再サンプリング点よ
りも始点側に隣接して位置する第(IC−1)番目のパ
ラメータP i (IG −4+からの補間量を算出し
、この補間量と第5番目の再サンプリング点よりも始点
側に隣接して位置する第NC−1)番目のパラメータP
ioc −u ’とを加算して、軌跡に沿う新たな音
響パラメータRi+y+が形成される。
このようにして始点及び終点(これらはRi(ll=f
Q(01= O、Rt(pi = f’i(s+である
。)を除< (P−2)点の再サンプリングにより認
識パラメータ字形列Ri(Illが形成される。
Q(01= O、Rt(pi = f’i(s+である
。)を除< (P−2)点の再サンプリングにより認
識パラメータ字形列Ri(Illが形成される。
なお、軌跡の推定及び再サンプリングをするときに、必
ず無音から開始するようにすれば、音声区間判定回路(
24)での判定区間にずれがあってもそのずれの軌跡及
び再サンプリングへの影響はほとんどなくなる。この場
合に、軌跡の終点及び再サンプリングの終点も無音部に
なるようにしてもよい。
ず無音から開始するようにすれば、音声区間判定回路(
24)での判定区間にずれがあってもそのずれの軌跡及
び再サンプリングへの影響はほとんどなくなる。この場
合に、軌跡の終点及び再サンプリングの終点も無音部に
なるようにしてもよい。
G3 パターンマツチング処理の説明
この第2のSAT処理回路(9)よりの認識パラメータ
時系列Qi(ホ)はモード切換スイッチ(3)により、
登録モードにおいては認識対象語毎に標準パターンメモ
リ(4)にストアされる。また、認識モードにおいては
距離算出回路(6)に供給され、標準パターンメモ1月
4)よりの標準パターンのパラメータ時系列との距離の
算出がなされる。この場合の距離は例えば簡易的なチェ
ビシェフ距離として算出される。この距離算出回路(6
)よりの各標準パターンと入力パターンとの距離の算出
出力は最小値判定回路(7)に供給され、距離算出値が
最小となる標準パターンが判定され、この判定結果によ
り入力音声の認識結果が出力端(70)に得られる。
時系列Qi(ホ)はモード切換スイッチ(3)により、
登録モードにおいては認識対象語毎に標準パターンメモ
リ(4)にストアされる。また、認識モードにおいては
距離算出回路(6)に供給され、標準パターンメモ1月
4)よりの標準パターンのパラメータ時系列との距離の
算出がなされる。この場合の距離は例えば簡易的なチェ
ビシェフ距離として算出される。この距離算出回路(6
)よりの各標準パターンと入力パターンとの距離の算出
出力は最小値判定回路(7)に供給され、距離算出値が
最小となる標準パターンが判定され、この判定結果によ
り入力音声の認識結果が出力端(70)に得られる。
H発明の効果
この・発明においてはNAT処理において、再サンプリ
ングのサンプル間隔を音響パラメータ時系列が描く軌跡
の軌跡長に応じて変えるようにしたので、単語長の長短
、つまり音節数の多少の違いによる認識率の劣化を防止
することができる。
ングのサンプル間隔を音響パラメータ時系列が描く軌跡
の軌跡長に応じて変えるようにしたので、単語長の長短
、つまり音節数の多少の違いによる認識率の劣化を防止
することができる。
第1図はこの発明装置の一実施例のブロック図、第2図
はその説明のための図、第3図はその要部の動作の説明
のためのフローチャートを示す図、第4図は音声認識装
置の基本構成を示すブロック図、第5図はDPマツチン
グを説明するための図、第6図〜第8図はNAT処理を
説明するための図、第9図及び第1O図はそれぞれ単音
節及び多音節の場合にパラメータ時系列が描く軌跡の例
を示す図である。 (2)は音響分析回路、(4)は標準パターンメモリ、
(6)は標準パターンと入力パターンとの距離算出回路
、(7)は最小値判定回路、(8)は第1のNAT処理
回路、(9)は第2のNAT処理回路である。 第4図 歪量か:1(A)によ3鋳藺正蟻化勇設哨団第5図 第7図 第8図 単者酔の軌跡の8−11ホ1閏 第9図 第10図
はその説明のための図、第3図はその要部の動作の説明
のためのフローチャートを示す図、第4図は音声認識装
置の基本構成を示すブロック図、第5図はDPマツチン
グを説明するための図、第6図〜第8図はNAT処理を
説明するための図、第9図及び第1O図はそれぞれ単音
節及び多音節の場合にパラメータ時系列が描く軌跡の例
を示す図である。 (2)は音響分析回路、(4)は標準パターンメモリ、
(6)は標準パターンと入力パターンとの距離算出回路
、(7)は最小値判定回路、(8)は第1のNAT処理
回路、(9)は第2のNAT処理回路である。 第4図 歪量か:1(A)によ3鋳藺正蟻化勇設哨団第5図 第7図 第8図 単者酔の軌跡の8−11ホ1閏 第9図 第10図
Claims (1)
- 【特許請求の範囲】 (a)入力音声信号の音声区間を判定する音声区間判定
手段と、 (b)この音声区間判定手段にて判定された音声区間内
で音響パラメータ時系列を得る特徴抽出手段と、 (c)この特徴抽出手段よりの音響パラメータ時系列が
パラメータ空間で描く軌跡を推定しこの軌跡を求める演
算手段と、 (d)この演算手段により求められた軌跡長に応じたサ
ンプル間隔で再サンプルを行なうことにより認識パラメ
ータ時系列を得る処理手段と、 (e)認識対象語の標準パターンの認識パラメータ時系
列がストアされている標準パターンメモリと、(f)上
記処理手段よりの入力パターンの認識パラメータ時系列
と上記標準パターンメモリからの標準パターンの認識パ
ラメータ時系列との差を算出する距離算出手段と、 (g)この距離算出手段で、算出された値の最小のもの
を検知して認識出力を得る最小値判定手段とからなる音
声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60017133A JPH0632009B2 (ja) | 1985-01-31 | 1985-01-31 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60017133A JPH0632009B2 (ja) | 1985-01-31 | 1985-01-31 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS61176996A true JPS61176996A (ja) | 1986-08-08 |
JPH0632009B2 JPH0632009B2 (ja) | 1994-04-27 |
Family
ID=11935528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60017133A Expired - Fee Related JPH0632009B2 (ja) | 1985-01-31 | 1985-01-31 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0632009B2 (ja) |
-
1985
- 1985-01-31 JP JP60017133A patent/JPH0632009B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0632009B2 (ja) | 1994-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS58130393A (ja) | 音声認識装置 | |
JPH0561496A (ja) | 音声認識装置 | |
JPS61176996A (ja) | 音声認識装置 | |
JPS61176997A (ja) | 音声認識装置 | |
Niederjohn et al. | Computer recognition of the continuant phonemes in connected English speech | |
JPS61208097A (ja) | 音声認識装置 | |
JP2658104B2 (ja) | 音声認識装置 | |
JPS61267098A (ja) | 音声認識装置 | |
JPH0632008B2 (ja) | 音声認識装置 | |
JPS62136700A (ja) | 音声認識装置 | |
JP2891259B2 (ja) | 音声区間検出装置 | |
JPS613200A (ja) | 音声認識装置 | |
JPS61275799A (ja) | 音声認識装置 | |
JPS61252595A (ja) | 音声認識処理方式 | |
JPS62289896A (ja) | 単語音声認識方式 | |
JPH0316038B2 (ja) | ||
JPS6312000A (ja) | 音声認識装置 | |
JPH0567036B2 (ja) | ||
JPH03145167A (ja) | 音声認識方式 | |
JPS58139199A (ja) | 音声自動認識装置 | |
JPS6147439B2 (ja) | ||
JPS63257797A (ja) | 音声始端検出装置 | |
JPH07104675B2 (ja) | 音声認識方法 | |
JPS63235999A (ja) | 音声始端検出装置 | |
JPS6068398A (ja) | 連続音声認識における表現形態の識別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |