JPS61177494A

JPS61177494A - 音声認識装置

Info

Publication number: JPS61177494A
Application number: JP61013964A
Authority: JP
Inventors: マシユー・レニツグ; ポール・マーメルスタイン; ビシユワ・ナソ・グプタ
Original assignee: Northern Telecom Ltd
Current assignee: Nortel Networks Ltd
Priority date: 1985-01-30
Filing date: 1986-01-27
Publication date: 1986-08-09
Anticipated expiration: 2010-10-18
Also published as: KR940002437B1; KR860006083A; ATE51457T1; EP0192898A1; CA1232686A; CN1009320B; EP0192898B1; CN86100298A; JPH0797279B2; DE3576868D1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識に関する。

従来の技術及び発明が解決使用とする問題点公知の音声
ｉ！識表装置は、パルス符号変１１（ＰＣＭ）型式に符
号化された音声は前もっで処理されて、それを人間の聴
覚システムが音声を知覚する方法により密接に関連した
形状にする１例えば、音声はフィルタパンクエネルギー
（ｆｉｌｔｅｒ　　ｂａｎｋｅｎｅｒ＠ｉｅ）、ケプス
トフ（ｃｅｐｓｔｒａ）、メルφ周波数テプストラ、又
は線形予測係数（ｌｉｎｅａｒ　　ｐｒｅｄｉｃｔｉｏ
ｎ　　ｃｏｅｆｆｉｃｉｅｎｔｓ）を与えるために処理
されることができる。その後認識ユニット、例えば語、
又はシラブルは有効な（ｖａｌｉｄ）ユニットを表わし
ている一連の基準テンプレートの各々と比較される。′
Ｒもぴったり適合しているテンプレートが未知のユニッ
トであると見なされ、そしてテンプレートに対応するユ
ニットのラベルが出力に提供される。

このような認識装置はある適用には適合しているが、こ
れ等の認識装置は、特にスピーカー・独立（ｓｐｅａｋ
ｅｒ−１ｎｄｅｐｅｎｄｅｎｔ）の、電話を基礎にした
、又は多い用語の適用のいくつかの適用において受は入
れられない誤り率を与えるので、これ等の認識装置は完
全に満足すべ終ものではない、これは通常の表示（ｒｅ
ｐｒｅｓｅｎｔａｔ　ｉｏｎ　）が人間の聴覚システム
の応答に充分合わせて作られていないためと考えられる
。

問題点を解決するための手段本発明によれば、音声をＩＩ識する装置は；（ｉ）　　
各々のパラメータフレームが音声（ｕｔｔｅｒａｎｅｅ
）の対応する時間フレームを表わす一連のパラメータフ
レームとして未知の音声発声を表わす手段と、（ｉｉ）複数の基準テンプレートを・設け、各々が最初
に述べたバフメータと同じ種類のパラメータで表わされ
た一連のパラメータフレームを含む手段と、但し、最初に述べた（未知）シーケンス及び第２に述べ
た（基準）シーケンスの各々のパラメータフレームはセ
ットの一次パラメータと、セットの二次パラメータとを
具備し、各々の二次パラメータが異なる時間フレームに
対して得られた、それぞれのパラメータフレームにおけ
る対応する一次パラメータ間の符号化した（ｓｉｇｎｅ
ｄ）差を表わす。

（至）未知の発声のパラメータフレームのシーケンスを
各々の基準テンプレートと比較し、そして基準テンプレ
ート中のどれが最も近くそれに類似しているかを決定す
る手段とを具備しでいる。

各々のパラメータフレームは、例えばフィルタバンクエ
ネルギー、ケプストフ、メルを基礎にしだケプストフ又
は線形予測係数を、使用した表示の形式によって選択さ
れたセットのパラメータを含む。

好ましくは、前記系なる時間フレームの中心間の時間差
は２０ミリ秒から３０ミリ秒、好ましくは５０ミリ秒で
ある。二次バフメータは先行の、且つ次の一次パラメー
タ、例えば±２５ミリ秒又は±２フレームから得られる
のが好都合である。

また未知の発声及び基準テンプレートの双方に対して二
次パラメータとして振幅の変化又は知覚音量（ｐｅｒｃ
ｅｐｔｕａｌ　　１ｏｕｄｎｅｓｓ）の変化を表わす成
分を含むのが好ましい、このような音量成分は、絶対振
幅又は絶対音量が語を区別する場合に有効でないので一
次パラメータに通常使用されない。

従って、一般的に、新方法は短時間間隔（例えば２０乃
至２００ミリ秒）に亘り一次パラメータの各々の変化を
表わすセットの動的（ｄｙｎａ霞ｉｓ）二次パラメータ
と共に音声認識のために標準的に使用されるセットの一
次短時間静的（ｓｔａ＋ｔｉｃ）パラメータを増加する
ことより虞っている。−次パラメータに加えて動的パラ
メータの使用は、他の、無関係な、音響の差に対立する
ものとして重要な音素の差により鋭敏な音声音を区別す
るのに使用される距離測定又は確条密度関数を与える。

いかなる種類の短時間スペクトル表示（ｒｅｐｒｅｓｓ
ｎｔ＋ａｔｉｏｎ）も−次パフメータのセットとして使
用されることができる。このような表示の実例はフィル
タパンクエネルギー、ケプストラム（ｃｅｐｓｔｒｕ論
）、メル・周波数ケプストラム、線形予測係数（目ｎｅ
ａｒｐｒｅｄｉｃｔｉｏｎ　　ｃｏｅｆｆｉｃｉｅｎｔ
ｓ）等を含む、これ等の表示の各々は小数のパラメータ
（典型的に３と８０との間）によってタイムフレーム（
典型的に２ミリ秒と５０ミリ秒との閏）に亘って振幅（
謙ａｇｎｉｔｕｄｅ）又はパワースペクトルを推定する
。

Ｐｔが時間ｔにおいて計算された一次パラメータのベク
トルであれば、タイムオフセット（ｔｉｍｅ　　。

ｆｆ５ｅｔｓ）ａ及びｂは下記のように選択される；−
２０ミリ秒≦ａ＋ｂ≦２００ミリ秒動的パラメータベクトルΔＰ、は下記のベクトル差と定
覇づけされる ΔＰｔ　”Ｐｔ＋ａ　−Ｐｔ＋ｂ本発明は時間ｔの近くの音声信号を表わすためにΔＰ、
と一緒にパラメータＰ、の集合を使用することより成っ
ている。確鬼密度関数及び距離は従って静的（−次）及
び動的（二次）パラメータの双方より戒っているこの増
大したパラメータセットによって規定される。

あるいはまた、上記の誘導（ｄｅｒｉｖａｔｉｏｎ）は
フレーム数によって表わされることができる。Δ１＝隣
接する７レ一ム間の時間差、そしてＰｉ＝７ミニフレー
ムｉる一次パラメータベクトルであれば、動的パラメー
タベクトルΔＰ・は下記のベクトル差として定義づけら
れる。

好ましくはパラメータはノル（ｍｅｌ）を基礎としたケ
プス）ラル（６ｅｐｓｔｒａｌ）係数であり、この場合
には一次係数Ｃ１ｆ・・・・・、Ｃはスペクトル形状を
表わし１．そして二次パラメータΔＣ０・・・・・ΔＣ
は特定した時間間隔中のスペクトル形状変化を表わす、
更に、ΔＣは音ｊｌ　（ｌｏｕｄｎｅｓｓ）又は振幅の
変化を表わすために二次パラメータのセット内に含まれ
ることができる。

本発明の実施態様を実施例のみにより、且つ添付図面を
参照して説明する。

実施例＃ｓ１図に例示された音声認識システムでは、信号Ｓｎ
は線形パルス待号変調（ＰＣＭ）された音声信号を表わ
しており、これは認識されるべき未知の又は「入力」の
発声である。信号Ｓｎはウィンドウ手Ｒ１０に印加され
る。ウィンドウ手段１０では、信号Ｓｎは各々が２５．
６　ミリ秒又は２０４サンプル持続時間の時間フレーム
に分割される０作動において、各々のフレームは１２．
８ミリ秒又は１０２サンプルだけ進められ、従って連続
フレームは５０パーセントだけオーバーラツプする。

それから各々の時間フレームは巡点的にかさ上げ余弦（
ｒａｉｓｅｄ　　ｃｏｓｉｎｅ　　ｐｕｌｓｅ）Ｉｌｌ
数に乗ぜられ、そしてフィルタ手８．１２に印加される
。このハミングウィンドウはスペクトルサイドクープ（
ｓｉｄｅｌｏｂｅｓ）を減衰する。

２５６点高遠７−リエ変換が各々の時間アレーム上で行
なわれ、そして１２８．Ｅ（実パワースペクトルＦ、・
・・・・ＦＮ、となる、この場合Ｎ＝２８である。

フィルタ一手段１２は２０の三角形（ｔｒｉａｎｇｕｌ
ａｒ）フィルタのフィルタパンクを具備しでおり、これ
等が８ｋＨｚのＰＣＭサンプリングレートｆ　に＄対して約１００Ｈｚから約４００　ＨｚまでのＩＩ囲に
わたり２４チヤンネルの対応するセット内の二ネルイー
を決定する。９２図に例示された如く、チャンネルはチ
ャンネル中間周波数が１００Ｈｚ間隔で１００Ｈｚから
１０００Ｈｚに、且つ対数関数的に１１００Ｈｚから４
０００　Ｈｚに線形に間隔をへだでちれるようにしてノ
ル間隔でへだてられている。

各々の時間フレームに対して、各々のフィルタチャンネ
ルの出力は下式に従って得られる重みづけられた（ｗｅ
ｉｇｈｔｅｄ）　Ｂ　　である：Ｂ、＝下　　Ｗ、・　
Ｆ。

１＝ｌ　　　ＩＪ　　　ｌこの場合、Ｂ・は１番目のノル・周波数チャンネルエネ
ルギー出力、Ｆ、は高速７−リエ変換か置らのＮスペクトル振幅１≦ｉ≦Ｎであり、そしてＷ８．
は下記の如く定義づけされた重みである。

ＩＪ但し、１≦ｉ≦Ｎ及び１≦ｊ≦２０Ｎそしてこの場合１　、　、に、　、ｈ・但し、１≦ｊ≦
」」」２０は第１表に与えられた、各フィルタチャンネルのそ
れぞれ低域、中心及び高域周波数である。

信号Ｂ、の２０の対数チャンネルエネルギーは下記に従
って手段１４において計算される：Ｌ、＝１０ｇＩｌｌ
Ｂ、但し、１≦ｊ≦２０゜」　　　　　　　　　　　」フィルタ手段及び手段１４の出力は、それぞれ知党音ｆ
ｉＣｏ、及び第１の７つのエルを基礎にした（ｅｅｌ　
　ｂａｓｅｄ）ケプストラル（ｃｅｐｓｔｒａｌ）係数
ＣｌｌＣａ１・・・・・Ｃｔ）を計算するために手段１
６に印加される。

知覚前ｆｉｃ　　はこのようにして得られたチャンネル
エネルギーＢ、の知覚的な加重（ｐｅｒｅｅｐｔｕａｌ
ｌｙ」ｗｅｉｇｈｔｅｄ）合計の対数である：Ｃ＝６００１ｏ
ｇ、、Σ　Ｖ、Ｂ。

０　　　　　　　ｊ＝Ｉ　Ｊ　Ｊこの場合Ｖ・≧０は知覚的重要性に対応して選」択された。■・に対する適切な値が以下の第１表」に例示されている。

第１表１、　　　　Ｏ，、１００，、２０Ｇ、、　　、００１
６２、　　１００．、　２００．、　　３００．　　．
０２５６３、　　２００．、　３００．、　　４００．
　　．１２９６４、　　３００．、　４０Ｇ、、　　５
００．　　．４０９６５、　　４００．、　５０Ｇ、、
　　６００．　１゜６、　　　５００＠、　　　　６０
０．、　　　７０Ｇ、　　　１゜７、　　　６００．、
　　　７００．、　　　８００．　　１゜８、　　　　
　フ００．．　　　　８００．、　　　　９００．　　
　１゜９、　　　　８００．、　　　９０Ｇ、、　　　
１００Ｇ、　　　１゜１０、　　　　９００．、　　１
０００．、　　１１５０．　　１゜１１、　　　１００
Ｇ、、　　　１１５０．、　　１３２０．　　１゜１２
、　　　１１５０．、　　１３２Ｇ、、　　　１５２０
．　　１゜１３、　　　１３２０．、　　１５２Ｇ、、
　　　１７５０．　　１゜１４、　　　　１５２０．、
　　　１フ５０．、　　　２００Ｇ、　　　ｌ。

１５、　　　１７５Ｇ、、　　　２０００．、　　２３
００．　　１゜１６、　　　２００Ｇ、、　　　２３０
０．、　　２６４０．　　１゜１７、　　　２３００．
、　　２６４Ｇ、、　　　３０４０．　　１゜１８、　
　　２６４Ｇ、、　　　３０４０．、　　３５０Ｇ、　
　　１゜１９、　　　３０４Ｇ、、　　　３５００．、
　　４０００．　１゜２０、　　　３５００．、　　４
００Ｇ、、　　　４８０Ｇ、　　　１゜ケプストラル係
数Ｃ０を得るための手段１６は対数エネルギーの余弦変
換をとることによって機能する。

この場合１≦ｉ≦７゜係数計算に関する更に他の情報のために、リーグ（ｒｅ
ａｄｅｒ）は音響及び信号処理に関する１９８０年８月
発行のＩＥＥＥ会報、第ＡＳＳＰ２８版、第４号、第３
５７−３６６頁、［連続的に話した文における単音節語
認識のためのパラメトリック表示の比較（Ｃｏｍｐａｒ
ｉｓｏｎ　　ｏｆ　　Ｐａｒａｍｅｔｒｉｅ　　Ｒｅｐ
ｒｅｓｅｎｔａｔｉｏｎｓ　　ｆｏｒ　　Ｍｏｎｏｓｙ
ｌｌａｂｉｅ　　ＷｏｒｄｓｓＲｅｃｏｇｎｉｔｉｏｎ
　　ｉｎ　　Ｃｏｎｔｉｎｕｏｕｓｌｙ　　５ｐｏｋｅ
ｎ　　５ｅｎｔｅｎｃｅｓ）Ｊと題するニス・ビー・グ
ビス（Ｓ、Ｂ。

Ｄ　ａｖｉｓ）及びピー・メーノルシュタイン（Ｐ、Ｍ
ａｒｍｅｌｓｔｅｉｎ）による論文に向けられて、いる
。

−次パラメータＣａｔ・・・・・ＩＣ？のセットと、知
覚的加重音量パラメータＣｏと含んでいる手段１６の出
力が１２．８ミリ秒毎に発声（ｕｔｔｅｒａｎｃｅ）終
点検出器１８に送られる０語の終点は、時間フレームナ
ンバーの関数として知覚音量Ｇｏにおける充分な持続期
間及び深さの最小を捜すことによって検出される。終点
検出は、例えば音響、音声及び信号処理に関する１９８
１年８月発行、ＩＥＥＥ会報、第ＡＳＳＰ−２９版、第
４号、第７７７貫乃至第７８５頁に［隔離語認識のため
の改良された終点検出器（Ａ　ｎ　　Ｉｍｐｒｏｖｅｄ
　　Ｅ　ｎｄｐｏｉｎｔＤｅｔｅｃｔｏｒ　　ｆｏｒ　
　ｌ５ｏｌａｔｅｄ　　Ｗｏｒｄ　　Ｒｅｃｏｇｎｉｔ
ｉ。

ｎ）Ｊと題し、エル・エフ争うノル（Ｌ、Ｆ、Ｌａ５ｅ
ｌ）、エル・アール・ラビナー（Ｌ、　Ｒ，Ｒａｂｉｎ
ｅｒ）、ニー・イー・ローゼンベルク（Ａ、　Ｅ、　Ｒ
ｏｓｅｎｂｅｒｇ）及びシエイ・シー・ウィルボン（Ｊ
、　Ｇ、　Ｗｉｌｐｏｎ）により開示された如き種々の
公知の方法の１つによって行なわれることができる。

その後語間又は沈黙が除かれる、即ち干渉発声（ｉｎｔ
ｅｒｖｅｎｉｎｇ　　ｕｔｔｅｒａｎｃｅ）のみが伝え
られる番任意に発声当りのパラメータフレーム数Ｍは線
形空間フレーム（Ｉｉｎｅａｒｌｙ　　５ｐａｃｅｄ　
　ｆｒａｍｅ）の抹消又は繰返しによって、例えばＭ＝
３２に標準化されることができる。

終点検出器１８の出力は一連のＭエルを基礎にした（ｅ
ｅｌ−ｂａｓｅｄ）ケプストラであり、そして次のマト
リクスによって表わされる；− Ｕ＝　　会。

この出力信号、又は認識ユニット表示、Ｕは下記の如き
動的（ｄｙｎａｍｉｃ）パラメータを計算する動的パラ
メータ計算手段に印加される；−ΔＣ，，＝Ｃ，、−Ｃ
，。

１、Ｊ　　　　　　　　１十ｅ＊Ｊ　　　　　　＋−ｃ
Ｌ　Ｊ但し、ｄ＋１≦ｉ≦Ｍ−ＣＩ　Ｏ≦ｊ≦７゜この
場合ｃは先のフレームセパレーションであり、ｄは遅れ
フレームセパレーシヨンである。特定の場合に、ｃ＝ｄ
＝２　。

１≦ｉ＜ｄ＋１に対して Δ”　’　＝Ｃｉ＋ｃ＊ｊ−Ｃ１ｔＪ”そして１豐ＪＭ　−ｃ　＜　ｉ≦Ｍに対して４０°　”０Ｍ＊ｊ−０１ｄ＊ｊ１１」これ等の動的パラメータは入って未る剰戟の変化を知覚
するための人間の聴覚系統の性質を考慮しでいる。

ＭパラメータフレームシーケンスＵ′は、マトリクスに
よって表わされた一次（静的）及び二次（動的）パラメ
ータを含んでいるニーＣｌ　ｆ　ｌ　ｆ　ｍ　ｍ　ｍ　Ｉ　Ｃｌ　ｔ　１　ｆ
　　ΔＣ１ｌｌｌｔｓｓｓｔΔＣ１ｌ？は動的計算手１
３ｊ２０から動的時間歪み（ｗａｒｐｉｎｇ）手段２２
に印加される。

静的音量に対するＣ　ベクトルが使用されないことに注
目すべきである。

動的パラメータ及び動的音量成分ΔＴ、、。を倉んでい
る対応するセットのテンブレー）　（ｔｅｓ＋ｐｌｉｔ
ｅｓ）は下記の形の手段２４によって得られる。

Ｔ　ｌ　ｆ　ｌ　ｔ　ｍ　ｅ　＊　ｔ　Ｔ　Ｉ　＊　？
　ｆ　　　　ΔＴＩＴ。ｔｏａｓｔΔＴｌｆ？Ｔｓ＊ｅ
＋ｖａｍ＊Ｔｓｔｔｔ＊　　　　ΔＴ３１＠６ｓａ＋＋
＃ΔＬｔ＊ｔテンプレートに対するパラメータのシーケ
ンスがまた動的時間歪み手段２２に印加される。

「未知」のパラメータの表示Ｕ′は更に各々の基準テン
プレートＴ′及び各々の場合に計算された時間歪み距離
と比較される。未知の発声は最小歪み距離を有している
テンプレートに対応する基準発声であると見なされる。

動的時間歪み計算はタイムウオープス、ストリングエデ
イツ及び高分子（Ｔｉｍｅ　　Ｗａｒｐｓ、Ｓｔｒｉｎ
ｇ。

Ｅｄｉｔｓｅａｎｄ　　Ｍａｅｒｏｍｏｌｅｅｕｌｅｓ
）に「シラブルを基礎にした連続音声認識システムにお
ける動的プログラミングの使用（Ｕ　ｓｅ　　ｏｆ　　
Ｄ　ｙｎａｍｉｅ　　Ｐ　ｒｏｇｒａｍｍｉｒｉｇ’ｉ
ｎ　　　ａ　　　５ｙｌｌａｂｌｅ−Ｂａｓｅｄ　　　
ＣｏｎｔｉｎｕｏｕｓＳ　ｐｅａｃｈ　　Ｒｅｃｏｇｎ
ｉｔｉｏｎ　　’Ｓ　ｙｓｔｅ−）Ｊと題する章にハン
ト（Ｈｕｎｔ）、レニグ（Ｌｅｎｎｉｇ）及びマーノル
シエタイン（Ｍｅｒｅｅｌｓｔｅｉｎ）によって、記述
されでいる如くであることができる二発行所、７デイソ
ン・ウェスレイ（Ａｄｄｉｓｏｎ−Ｗｅｓｌｅｙ）（リ
ーディング（Ｒｅａｄｉｎｇ）ＭＡ）、１９８３年のデ
ィ・サンコア及びクエイ・ビークルスカＡ／（Ｄ、　５
ａｎｋｏｆｆ　　ａｎｄ　　Ｊ、　Ｂ、　Ｋｒｕｓｋａ
ｌ）のシーケンス比較の理論と実際（Ｔｈｅ　　Ｔｈｅ
ｏｒｙ　　ａｎｄ　　Ｐｒｏｃｔｉａｅ　　ｏｆ　　５
ｅｑｕｅｎｃｅ　　Ｃｏ■ｐａｒｉｓｏｎ）の５１ｉ１
６３頁乃至第１８７頁に記載されている。

認識精度における有意な改良がパラメータ表示において
動的パラメータを含むことによって得られることが発見
された。＊た動的パラメータが約５０ミリ秒だけ間隔を
へだでた時間フレーム間に音声信号の変化を表わすとき
、特によい結果が得られることが発見された。

孤立した（ｉｓｏｌａｔｅｄ）！ｉの認識装置に適用す
る如く記述したが、本発明はまた連続した（ｃｏｎｎｅ
ｃｔｅｄ）語の認識装置に適用可能であり、且つまた認
識装置はスピーカー・連続（ｓｐｅａｋｅｒ　−ｔｒａ
ｉｎｅｄ）であるかスピーカー争独立（Ｓ　ｐｅａｋｅ
ｒ　−１ｎｄｅｐｅｎｄｅｎｔ）であるかが有用である
。

一次バフメータが第１の７つのノル・周波数ケプストラ
ル係数であった上記の如き動的パラメータと共に増加し
たパラメータセットを使用する実験結果は公衆切換電話
回路網に亘リスビーカー・独立に接続したデイツプ）　
（ｄｉｇｉｔ）１！識においで認識誤りの約２０％減少
となった。第１の７つのノルを基礎にしだケプストラル
係数に対応する動的パラメータの使用に加えて、全音量
の変化に対応する第８の動的パラメータは更に誤りを約
１０％まで減少した。

【図面の簡単な説明】

ｌｉ図は音声認識装置の一般化されたブロック線図であ
る、第２図は音声認識装置のフィルタ手段の特性を表わして
いる線図である。１０・・・ハミング窓１２−・・フィルタ１４・・・対数計算手段２０・・・グイナミクスを計算する手段ＦＩＧ、　　１

Claims

【特許請求の範囲】１、未知の音声発声を認識する方法において、（ｉ）該
未知の音声発声を、各々のパラメータフレームが該発声
の対応する時間フレームを表わしている一連のパラメー
タフレームとして表わすこと；（ｉｉ）各々が最初に述べたパラメータフレームと同じ
種類のパラメータで表わされた一連のパラメータフレー
ムを含んでいる複数の基準テンプレートを提供すること
、但し、該最初に述べたパラメータのシーケンス及び第２
に述べたパラメータのシーケンスの各々のパラメータフ
レームが１セットの一次パラメータ及び１セットの二次
パラメータを含み、各々の二次パラメータが異なる時間
フレームに対して、得られたそれぞれのパラメータフレ
ームにおける対応する一次パラメータ間の符号化した差
を表している；そして（ｉｉｉ）該未知の発声のパラメータフレームのシーケ
ンスを各々の基準テンプレートと比較し、そして該基準
テンプレートの中のどれが該未知の発声に最もぴったり
類似しているかを決定することのステップを含むことを
特徴とする方法。２、異なる時間フレームの中心間の時間が２０ミリ秒乃
至２００ミリ秒の範囲である特許請求の範囲第１項記載
の方法。３、該時間が約５０ミリ秒である特許請求の範囲第２項
記載の方法。４、二次パラメータとして動的音量成分を計算するステ
ップと、該パラメータフレームの各々における対応する
動的音量成分を提供するステップとを含む特許請求の範
囲第１〜３項のいづれか１つの項に記載の方法。５、音声信号における未知の音声発声を認識する装置に
おいて、（ｉ）各々のパラメータフレームが該発声の対応する時
間フレームを表わしている一連のパラメータフレームと
して未知の音声発声を表わすための手段と；（ｉｉ）各々が最初に述べたパラメータフレームと同じ
種類のパラメータで表わされた一連のパラメータフレー
ムを含んでいる複数の基準テンプレートを提供する手段
と、但し、最初に述べたシーケンスのパラメータフレーム及
び第２に述べたシーケンスのパラメータフレームの各々
のパラメータフレームがセットの一次パラメータ及びセ
ットの二次パラメータを含んでおり、各々の二次パラメ
ータが異なる時間フレームに対して得られたそれぞれの
パラメータフレームにおける対応する一次パラメータ間
の符号化した差を表わしている；そして（ｉｉｉ）該発声のシーケンスパラメータフレームを各
々の基準テンプレートと比較し、且つ該基準テンプレー
トの中のどれが該未知の発声に最も近く類似しているか
を決定する手段とを具備していることを特徴とする装置。６、２０ミリ秒乃至２００ミリ秒の範囲の時間間隔によ
って間隔をへだてられている時間フレームに対して得ら
れたそれぞれのパラメータフレームにおける一次パラメ
ータ間の符号化した差を表わすために、該提供手段が各
々、該第２のパラメータを提供する特許請求の範囲第５
項記載の装置。７、該時間フレームが中心対中心で約５０ミリ秒だけ間
隔をへだてられている特許請求の範囲第６項記載の装置
。８、該未知の発声シーケンス及び該テンプレートシーケ
ンスの双方に対してセットの二次パラメータの成分とし
て動的音量成分を計算する手段を具備している特許請求
の範囲第５〜７項のいづれか１つの項に記載の装置。９、該提供手段が、 ΔＣ＿ｉ＿、＿ｊ＝Ｃ＿ｉ＿＋＿ｃ＿、＿ｊ−Ｃ＿ｉ＿
−＿ｄ＿、＿ｊ但し、ｄ＋１≦ｉ≦Ｍ−ｃ、０≦ｊ≦７この場合ｃは先のフレームセパレーシヨン、そしてｄは
遅れフレームセパレーシヨンであり、双方とも動的パラ
メータが決定されるフレームに関連している、上記の式に従つて二次パラメータΔＣ＿ｉ＿、＿ｊを計
算する手段を含む特許請求の範囲第５項記載の装置。１０、該二次パラメータが ΔＣ＿ｉ＿、＿ｊ＝Ｃ＿ｉ＿＋＿ｃ＿、＿ｊ−Ｃ＿ｉ＿
−＿ｄ＿、＿ｊ但し、ｄ＋１≦ｉ≦Ｍ−ｃ、０≦ｊ≦７この場合ｃは先のフレームセパレーシヨン、そしてｄは
遅れフレームセパレーシヨンであり、双方とも動的パラ
メータが決定されるフレームに関連している、上記の式に従つて計算される特許請求の範囲第１項記載
の方法。１１、該二次パラメータを計算する該手段が式ΔＣ＿ｉ
＿、＿ｊ＝Ｃ＿ｉ＿＋＿ｃ＿、＿ｊ−Ｃ＿１＿、＿ｊ但
し、１≦ｉ＜ｄ＋１に従つて、且つ式 ΔＣ＿ｉ＿、＿ｊ＝Ｃ＿Ｍ＿、＿ｊ−Ｃ＿ｉ＿−＿ｄ＿
、＿ｊ但し、Ｍ−ｃ＜ｉ≦Ｍに従つて計算する特許請求の範囲第９項記載の装置。１２、該二次パラメータが式 ΔＣ＿ｉ＿、＿ｊ＝Ｃ＿ｉ＿＋＿ｃ＿、＿ｊ−Ｃ＿１＿
、＿ｊ但し、１≦ｉ＜ｄ＋１に従つて、且つ式Ｃ＿ｉ＿、＿ｊ＝Ｃ＿Ｍ＿、＿ｊ−Ｃ＿ｉ＿−＿ｄ＿、
＿ｊ但し、Ｍ−ｃ＜ｉ≦Ｍに従つて計算される特許請求の範囲第１０項記載の方法
。