JPS6336676B2

JPS6336676B2 -

Info

Publication number: JPS6336676B2
Application number: JP58102023A
Authority: JP
Inventors: Katsuyuki Futayada; Satoshi Fujii; Hideji Morii; Ikuo Inoe
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-06-07
Filing date: 1983-06-07
Publication date: 1988-07-21
Also published as: EP0128755B1; JPS59226400A; US4736429A; DE3473666D1; EP0128755A1

Description

【発明の詳細な説明】産業上の利用分野本発明は音素を基本単位とする音声認識装置に
関するものである。

従来例の構成とその問題点第１図によつて従来例の構成を説明する。図に
おいて１はスペクトル分析部であり、29チヤンネ
ルの帯域フイルタ群で構成されている。各々のフ
イルタの出力を１フレーム（10ｍsec）ごとにパ
ワー値に変換し、29チヤンネルの帯域パワーを得
る。２は帯域パワーからローカルピークを抽出す
るローカルピーク抽出部であり、１フレームごと
に周波数の低い順に３個（p₁、p₂、p₃とする）、
またパワーの大きい順に３個（p_e1、p_e2、p_e3）ず
つ求める。一方、３はセグメンテーシヨン用のパ
ラメータを抽出するセグメンテーシヨンパラメー
タ抽出部であり、帯域パワー情報を使用して、全
域パワー、スペクトルの傾き、低域、中域モーメ
ントがフレームごとに抽出される。セグメンテー
シヨン部４では、セグメンテーシヨンパラメータ
抽出部３で得られたパラメータの時間的な動きに
よつて、母音区間、子音区間、半母音区間を決定
する。音素判別部５では、セグメンテーシヨン部
４で決定された各区間に対して、ローカルピーク
抽出部２で得られたローカルピークによつて音素
の判別を行なう。音素の判別は判別図格納部６に
格納されている判別図にローカルピークの位置を
当てはめることによつて行なう。判別図は、母
音、子音、半母音の各々に対して別々に用意され
ており、セグメンテーシヨン部４によつて選択さ
れる。また、母音、半母音に対してはp₁、p₂、
p₃、を、子音に対してはp_e1、p_e2、p_e3を用いる。

音素系列作成部７では、音素判別部５によつて
得られたフレームごとの音素判別結果を、セグメ
ンテーシヨン部４で得られた各セグメンテーシヨ
ン区間ごとにまとめ、各区間に対して音素記号を
割り当てる。セグメンテーシヨン部４でセグメン
テーシヨンができない／ao／、／iu／などの母音
連続に対しては、フレームごとの音素判別結果の
時間的な連続性によつてセグメンテーシヨンを行
なう。このようにして入力音声を音素系列に変換
する。

単語マツチング部８では、音素系列作成部７で
得られた入力音素系列と単語辞書９に蓄積されて
いる単語辞書の各項目を時間軸伸縮マツチング法
によつて比較し、入力音素系列に最も近い辞書項
目の内容を認識結果として出力する。

このような構成の音声認識装置は以下のような
問題点を有する。

すなわちセグメンテーシヨンパラメータ抽出部
３で抽出されるセグメンテーシヨン用のパラメー
タでは検出できにくい音素がある。（特に鼻音／
ｒ／、半母音）。これらの音素は母音との類似性
が大きく、パラメータのみで検出するには限界が
ある。

さらに他の欠点としてフレームごとの音素判別
率が低い。従来例では特徴パラメータとしてロー
カルピークの位置を使用し、これを判別図に適用
することによつて音素の判別を行なつている。こ
の方法は母音や一部の半母音に対しては、かなり
の判別率が期待できるが、その他の子音の判別を
行なうには限界がある。

発明の日的本発明は、従来例における上記の問題点を解決
し、高い音声認識率を得ることを目的としたもの
である。

発明の構成本発明は上記目的を達成するもので入力音声を
線形予測分析法で分析してLPCケプストラム係
数を抽出するLPC分析部と、前記LPC分析部の
結果と標準パターン格納部からの母音性音素の標
準パターンとの類似度を、線形判別関数、マハラ
ノビス距離、ベイズ判定などの統計的距離尺度に
よつて計算して母音性音素に対する入力音声の尤
度を求める第１の尤度計算部と、前記第１の尤度
計算部の結果によりその時間的継続性を利用して
セグメンテーシヨンと認識を行う第１の認識部
と、入力音声またはその分析結果に基づき有声と
無声を判別する有声・無声判定部と、入力音声の
低域パワー情報と高域パワー情報を求めるセグメ
ンテーシヨン用パラメータ抽出部と、前記結果よ
り求められた前記パワー情報の時間的変動と前記
第１の尤度計算部の結果と前記有声・無声判定部
の結果とから子音性音素のセグメンテーシヨンを
行う子音性音素セグメンテーシヨン部と、前記子
音性音素セグメンテーシヨン部で得られた区間に
対し、LPC分析部からの係数と標準パターン格
納部からの子音性音素の標準パターンとの類似度
を計算する第２の尤度計算部と、前記第２の尤度
計算部の結果に基づき子音性音素を認識する第２
の認識部と、前記第１の認識部の結果と第２の認
識部の結果とにより音素系列を作成する音素系列
作成部と、前記音素系列作成部の結果と単語辞書
部に含まれている辞書項目との間でマツチングを
行うマツチング部とを備え、前記マツチング部よ
り音素系列に最も良く類似した辞書項目を出力す
ることを特徴とする音声認識装置を提供するもの
である。

実施例の説明本発明における実施例を図によつて説明する。
第２図は実施例における方法を説明するためのブ
ロツク図である。１０はLPC分析部であり、入
力音声に対して、20ｍsecのハミング窓を施し、
線形予測分析（LPC分析）を行なつて、15次の
線形予測係数を求め、それらを15次のLPCケプ
ストラム係数C_o（ｎ＝１、２………15）を求め
る。LPCケプストラム係数は１フレーム（10ｍ
sec）ごとに求められ、入力バツフア１１および
母音尤度計算部１２へ送られる。母音尤度計算部
１２は入力パラメータC_oと、母音・鼻音標準パ
ターン格納部１３に格納されている５母音と鼻音
の標準パターン各々との間の類似度を統計的距離
尺度で求め、類似度の高い順に並べかえ、その判
別結果をフレームごとに尤度バツフア１４へ送出
する。標準パターンは各母音および鼻音（／
ｍ／、／ｎ／、はつ音）に対して、多くのデータ
によつて平均値および共分散行列をあらかじめ求
めておく。

統計的距離尺度には、ベイズ判定、マハラノビ
ス距離、線形判別関数などがあり、それらのいず
れを使用しても、ほぼ同様に良好な結果が得られ
る。

次に各距離尺度について簡単に説明する。

音素ｐの平均値ベクトルをμ_p、共分散行列をΣ_p
とすると、入力〓＝（C₁、C₂………C_d）、ｄ＝15
に対する確率密度P_pは次式で与えられる。

P_p＝１／（2π）^d/2｜Σ_p｜^1/2・ｅ×ｐ｛−１／２（〓 −〓_p）^TΣ^-1 _p（〓−〓_p）｝ ……(1) ただし、｜Σ_p｜は行列式の値を表わし添字Ｔは
転置を表わす。上記の対数をとつて、対数尤度
L_pを求める。

L_p＝−１／２（〓−〓_p）^T・Σ^-1 _p・（〓−〓_p）−A_p ……(2) ただし、 A_p＝log｛（2π）^d/2・｜Σ_p｜^1/2｝ ……(3) またマハラノビス距離は式(4)で定義される。

M_p＝（〓−〓_p）Σ^-1 _p（〓−〓_p） ……(4) この場合式(4)でΣ_pを各音素に共通としてI_p＝Ｉ
として簡略化を図つてもよい。

次にΣ_p＝Σ_p′とし、音素ｐとp′を判別する線形
判別関数は D²＝M_p−M_p′＝a^T〓＋ｂ ……(5) 但しａは線形判別係数、ｂは定数である。

式(2)、式(4)または式(5)で５母音と鼻音に対し音
素ごとに尤度を計算し、大きさの比較を行なうの
が、母音尤度計算部１２の機能である。

また母音・鼻音標準パターン格納部１３には有
声および無声の標準パターンが格納されており、
母音・鼻音と同様な方法で母音尤度計算部１２に
よつて尤度が計算され、入力フレームに対する有
声・無声判定が行なわれ、その結果が尤度バツフ
ア１４へ送出される。

一方、入力音声はセグメンテーシヨン用パラメ
ータ抽出部１５に送られる。この部分では、低域
フイルタ、高域フイルタによつて、低域パワー情
報（p_L）と高域パワー情報（p_H）がフレームごと
に求められる。また全域パワーも同時に求められ
る。これらのパワー情報は平滑化されて、パワー
情報バツフア１６へ送出される。

次に子音セグメンテーシヨン部１７の機能につ
いて説明する。

第３図は低域または高域パワー情報からデイツ
プを抽出する方法を示している。ａはフイルタの
整流出力を時系列でプロツトしたものであり、子
音区間の大きなデイツプの他に細かいデイツプが
数多く左右する。後者は不要なデイツプであるの
で平滑化を行なつて取除く（第３図ｂ）。次にｂ
の信号を微分することによつてｃの信号を得る。
そしてｃの信号から最大値と最小値間の大きさｐ
と、最小値から最大値までの時間長（フレーム
数）Ｌを求める。ｐ＞p_nio、Ｌ＜L_naxの条件を適
用し、条件を満足するデイツプに対し、ｃで最小
値から最大値までの区間Ｌをデイツプ区間（子音
候補）とする。

この方法はパワーデイツプの大きさの計算をパ
ワーの変化速度の検出に置きかえ、その最大値、
最小値を計算することによつて簡易にしかも高い
精度でデイツプ区間を検出することができる。

次に低域パワーデイツプ、高域パワーデイツプ
の一方または両方によつて検出された子音候補の
うちから、子音区間を特定する方法を述べる。低
域パワー情報から得られた前述の方法によるデイ
ツプの大きさをp_l、高域パワー情報から得られた
それをp_hとする。低域情報による子音候補区間と
高域情報による子音候補区間が重畳している場
合、２次元座標（p_l、p_h）を第４図に示す判別図
に適用する。（p_l、p_h）が判別図上で付加区間
（斜線の内側）に位置した場合、その子音候補は
棄却する。（p_l、p_h）が子音区間に位置した場合、
低域パワーデイツプ区間と高域パワーデイツプ区
間の論理和に相当する部分を子音として特定す
る。低域と高域情報による子音候補区間に重畳が
ない場合、一方をｏ（たとえば（p_l、ｏ））として
判別図に適用する。

このように相補的な性質を持つた低域パワー情
報と高域パワー情報をパラメータとし、その各々
によつて子音候補区間を探し、さらにそれを判別
図に適用することによつて子音区間を決定する方
法は、従来の方法に比較して、有声から無声まで
広い範囲の子音に有効であり、高い精度で子音区
間を検出することができる。特に有声子音の／
ｂ／、／ａ／、／η／、／ｒ／、無声子音／
ｈ／、有声無声両方の性質を示す／ｚ／に対して
有効である。

しかし、上に述べたデイツプ情報を利用したセ
グメンテーシヨン法は鼻音区間についてはその検
出率が73％程度であり、他の有声子音に比べて検
出率が充分とはいえない。また撥音は持続時間が
長すぎるため、デイツプ情報は利用できないとい
う弱点がある。本実施例では前に述べた母音尤度
計算部１２において鼻音と判定されたフレームの
連続性を利用することによる第２の子音区間検出
方法によつて上記弱点を解消している。すなわち
全てのフレームに５母音と鼻音のパターンを適用
すると、鼻音／ｍ／、／ｎ／、撥音に相当する区
間の各フレームは鼻音（以後／Ｎ／と表わす）と
して認識され、その他スペクトルパターンが鼻音
に類似している音素（／ｂ／、／ｄ／、／
η／、／ｒ／）も／Ｎ／として認識される確率が
高い。したがつて／Ｎ／として認識される区間を
参照すれば、デイツプが存在しない区間において
も、有声子音の検出を行なうことができる。本実
施例では／Ｎ／と認識されたフレームが、尤度第
２位のフレームも含めて５フレーム以上連続する
区間を子音区間としている。

以上述べた鼻音として認識されたフレームの連
続性を見ることによるセグメンテーシヨン法
は、／ｍ／、／ｎ／、撥音、／ｂ／、／ｄ／、／
η／に対し有効である。

次に有声・無声判定結果を利用した第３の子音
区間検出方法について述べる。持続時間が長い無
声子音／ｓ／、／ｃ／、／ｈ／や／ｚ／は持続時
間がL_nax以上となり、デイツプが検出できない場
合がある。この場合、フレームごとの有声・無声
判定結果の時間的連続性によつてセグメンテーシ
ヨンを行なうことができる。

有声・無声判定の方法は零交差波、スペクトル
の傾き、第１次の自己相関係数の値などを利用す
る方法があり、どの方法でもよい。

本実施例ではLPCケプストラム係数c₁〜c₅を使
用し、有声・無声の標準パターンとの間の距離を
式(4)のマハラノビス距離を適用して計算し、判別
した場合、96.4％のフレーム認識率を得ている。

本実施例においては、無声区間が連続して７フ
レーム以上続く区間は子音区間としてセグメンテ
ーシヨンを行なう。

次に上述した第１〜第３の子音区間の検出法の
適用例について述べる。

第１〜第３の子音区間の検出法の組合わせとし
ては種々可能であるが、低域、高域パワー情報を
利用した第１の子音区間検出法に、フレームごと
の音素認識結果を利用した第２の子音区間検出法
と有声無声判定結果を利用した第３の子音区間検
出法のうちのいずれか一方又は両方を組合わせる
のが望ましい。

ここでは第３、第１、第２の子音区間検出法を
この順に適用した例を示す。

(i) 音声区間に対し、先ず第３のルール（と記
す）を適用し、無声区間が７フレーム以上連続
する区間を子音区間とする。

(ii) (i)の区間を除去した区間に第１のルール（
と記す）を適用し、デイツプによる子音区間を
求める。

(iii) 有声区間に対して第２のルール（と記す）
を適用し、／Ｎ／と認識された区間が５フレー
ム以上連続する区間を子音区間とする。

(iv) 上記(i)〜(iii)で求められた全区間を子音区間と
する。ただし、(i)と(ii)または(ii)と(iii)のルールに
よつて区間が重畳して求められた場合、原則と
してデイツプによつて求められた区間を優先す
る。

なお上記実施例では、第１の子音区間検出法に
第２又は第３の子音区間検出法のいずれか一方又
は両方を組み合わせる場合について述べたが、第
１の子音区間検出法のみであつても実用上は問題
とならない。

以上は語中子音のセグメンテーシヨン法につい
ての説明であつたが、次に各語頭子音検出法につ
いて詳細に説明する。

まず、低域、高域パワー情報を利用する第１の
語頭子音検出法について述べる。

第６図には、低域または高域パワーの語頭にお
ける時間的変化の例を示している。

語頭が主に破裂性の子音で始まる時、パワー値
の時間的変化をプロツトすると第６図のａ，ｃの
ようになる。これは破裂性のためにパワーが急激
に立上がり、後続の母音との渡りの部分において
ａのように凹状になつたり、ｃのように１度なだ
らかになつてから再び立上がるからである。

ｂ，ｄはａ，ｃのパワーの時間的変化の値をそ
れぞれ微分したものである。P₁〜P₃、P₁′〜P₃′は
ａ，ｃの変曲点のフレーム番号を示している。こ
こでは音声区間の始まるフレーム番号を１にして
いる。ここで、ａ，ｂのようにP₁、P₃の微分値
が正、P₂の微分値が負、かつP₃＜ｍ（ｍはフレー
ム番号を示すいき値）を満足する時、語頭から
P₃までを語頭子音区間として判定する。

つぎにｃ，ｄのようにP₁′〜P₃′の微分値が正の
場合P₃′における微分値をαとすると、α＞ａ（ａ
はあるいき値）、かつP₃′＜ｎ（ｎはフレーム番号
を示すいき値）を満足する時、語頭からP₃′まで
を語頭子音区間として判定する。

以上の方法を低域パワー、高域パワーに対して
適用し、いずれか一方にａ又はｃの傾向が表われ
れば、その区間を子音と判定する。この方法は、
無声破裂音は低域パワーに、又有声破裂音は高域
パワーに特徴が現われやすいため、破裂音全体に
対して有効である。

次に、フレーム毎の音素認識の結果を利用する
第２の語頭子音検出法について述べる。本実施例
の音素認識は、各フレーム（例えば１フレームは
10ｍsecとする）毎に行なう。フレーム毎の音素
認識は本実施例ではLPCケプストラム係数を用
いて、あらかじめ用意してある各音素の標準パタ
ーンとの比較によつて行なう。標準パターンとし
ては５母音（／ａ／、／ｉ／、／ｕ／、／
ｅ／、／ｏ／）、鼻音（／Ｎ／で表わす）と無声
子音（／ｓ／で表わす）を用いた。このようにし
て、各フレーム毎に類似度の最も大きい音素（第
１候補音素）と２番目に類似度の大きい音素（第
２候補音素）を求める。フレーム毎の第１候補音
素と第２候補音素をそれぞれフレーム番号の順に
並べた系例を第１候補音素および第２候補音素時
系列とする。

このようにして求めたフレーム毎の音素時系列
を使用する第２の方法は、以下に述べるような２
つの場合に分ける。

まず最初は、上記音素系列を語頭から順に見た
時／Ｎ／が第１候補または第２候補音素系列を含
めてあるフレーム数以上（例えば４フレーム以
上）連続した時この区間を子音区間であると判定
する。例えば／ma／をフレーム毎に音素認識し
た時、音素認識の結果が第７図にようになつたと
すると／Ｎ／が第１、２候補を含めて５つフレー
ム連続しているので、１〜５フレームまでを語頭
子音区間とする。

この方法は、特に／ｍ／、／ｎ／、／ｂ／、／
ｄ／、／ｇ／等に対して有効である。

次に、第１候補音素系列を語頭から順に見た時
に、持続時間の比較的短い語頭子音が存在する場
合、語頭付近のスペクトル変化が激しいために認
識されたフレーム毎の音素系列が不安定になる傾
向がある。そこで、語頭から同一母音が連続して
現われるまでの不安定な区間が一定フレーム数以
上（例えば３フレーム以上）の時、この区間を語
頭子音とする。例えば／ga／をフレーム毎に音
素認識を行ない第１候補音素系列が／
AIIAAAA／となつた場合、母音／Ａ／が安定し
て出現するまでの区間／AII／を子音区間とす
る。

以上述べた２つの条件のうちどちらか一方を満
足すればその区間を子音と判定する。

次に、有声・無声判定を利用する第３の語頭子
音検出法について述べる。

語頭の無声子音のセグメンテーシヨンは、各フ
レーム毎に行なう有声・無声判定を利用すること
によつて、正確に行なうことが出来る。

有声・無声判定の方法は零交差波、スペクトル
の傾き、第１次の自己相関係数の値等を利用する
方法があるが、どの方法を用いてもよい。本実施
例では、有声・無声判定の標準パターンと比較す
ることによつて判定している。

ここで、語頭から無声の判定があるフレーム数
以上連続する時（例えば４フレーム以上）この区
間を子音区間を判定する。この方法は、すべての
無声子音に対して有効である。

次に／ｚ／のように、音素の前半部分は有声性
をもち、後半の部分は無声性をもつ音素があるの
で、語頭からある時間長以下有声フレームの後、
無声フレームが続く時この区間を子音とする。例
えば／ZU／をフレーム毎に判定を行ない／
VVVVUUUVVVV／（ただし／Ｖ／は有
声、／Ｕ／は無声を表わす）となつた時、無声フ
レームが終わるところまでを語頭子音とする本実施例は上記第１〜第３の語頭子音検出法を
次のような順番で適用する。

●フレーム毎の有声・無声判定を使用して検出す
る第２の方法 ●音声スペクトルの低域、高域パワーの時間的変
動の特徴を使用して検出する第１の方法 ●フレーム毎に５母音、鼻音と無声子音を対象と
して音素認識を行ないその結果を使用して検出
する第３の方法以上述べた順番で適用して、子音が検出された
場合は最初に検出された方法でセグメンテーシヨ
ンを行ない、それ以後の方法は適用しない。

なお本実施例では第１〜第３の語頭子音検出法
をある順に併用する場合について述べたが本発明
はこれに限定されるものではなく、第１〜第３の
語頭子音検出法の適用順は任意に選べるものであ
り、また第１〜第３の語頭子音検出法のうち少な
くとも１方法を使用することによつて充分効果を
発揮するものである。

以上説明した部分について、第８図、第９図の
具体例で説明する。第８図は／da eki／（打撃）
と発声した場合、第９図は／nohara／（野原）
と発声した場合である。図において３０および４
０は母音・鼻音判別結果の第１位の尤度を持つ音
素記号を時系列で表わしたものである。同様に３
１，４１は第２位の音素の時系列である。３２，
４２は有声・無声判別結果の時系列でありＶは、
そのフレームが有声と判別されたこと、ｕは無声
と判別されたことを示す。３０〜３２、または４
０〜４２の結果は尤度バツフア１４に蓄積されて
いる情報と等価である。

３３，４３は低域パワー情報の時間的な動き
を、そして、３４，４４は高域パワー情報の時間
的な動きを表わしたものである。これらは、パワ
ー情報バツフア１６に蓄積されている情報と等価
である。

先ず第８図において、／ｄ／は３５に示すよう
に音素判別結果の第１位の尤度を持つ音素の時系
列が鼻音（Ｎ）であるので子音としてセグメンテ
ーシヨンされる。またこの部分は高域パワー情報
３４が低下していることによつても検出でき
る。／／は３６に示すように高域パワー情報３
４に明らかなパワーデイツプが存在することで検
出できる。

この部分は尤度第１位の音素の時系列３０、尤
度第２位の音素の時系列３１、低域パワー情報３
３では検出できない。／ｋ／の前に生じる無声区
間／Ｑ／は低域パワー情報３３、高域パワー情報
３４のパワーが低下してデイツプを形成している
ことで検出できる。／ｋ／はこのパワーデイツプ
の外に、有声・無声判定結果の時系列３２が、３
８に示すように無声（ｕで示す）になつているこ
とで検出できる。

次に第９図において、語頭子音／ｎ／は、低域
パワー情報４３、高域パワー情報４４では顕著な
特徴を見出せないが、音素判別結果の尤度第１位
の音素の時系列４０において４５に示すように鼻
音フレームが連続していることで検出できる。／
ｈ／は４６に示すように低域パワー情報４３、高
域パワー情報４４のパワーデイツプで検出でき
る。また／ｒ／は、高域パワー情報４４のデイツ
プ４７によつて検出できる。

以上、例によつて示したように、低域パワー、
高域パワーの時間変化、母音・鼻音判別結果の時
間的連続性および有声・無声判別結果を併用する
ことによつて、精度の高い子音セグメンテーシヨ
ンを行なうことが可能となつた。

第２図の子音尤度計算部１８は、子音セグメン
テーシヨン部１７で検出された子音区間に対し
て、入力バツフア１１から送出されてくる入力パ
ラメータと、子音標準パターン格納部１９の各々
の子音標準パターンとの間で尤度計算を行ない、
尤度の高い音素から順に並べる。子音認識部２０
は、子音尤度計算部１８から送出されてくる結果
と、時間的な持続性（フレーム数）などを考慮し
て、その区間の子音を決定する。

次に母音認識部２１の機能を第１０図によつて
説明する。第１０図は第８図、第９図と同様な形
式である。（ただし、有声・無声判別結果は省略
してある。）第１０図において、語頭の／ｏ／は
音素判別結果の尤度第１位の音素の時系列５０の
連続性で認識される。半母音／ｊ／の部分は５５
に示されるように尤度第１位の音素の時系列５０
の結果からわかるようにＩからＥに変化している
が、各々の持続時間が短く、しかもＩからＥに変
化するパターンは、典型的な／ｊ／のパターンで
あるので、この部分を／ｊ／として認識する。／
ａ／の部分は５６に示されるように音素判別結果
の尤度第１位の音素の時系列５０の連続性より認
識される。／ｕ／の部分は尤度第１位の音素の時
系列５０と尤度第２位の音素の時系列５１を用
い、５７に示すようにｏとＵが混在しているがＵ
の方が優勢であるので／ｕ／として認識する。語
尾の撥音／Ｎ／も５８に示すように尤度第１位の
音素の時系列５０より、前記と同様に認識される
（撥音は母音に含める）。

次に前記のうち半母音の認識についてさらに詳
しく説明する。半母音（拗音も含む）を認識する
場合、母音認識部２１の一部に設けられた半母音
候補検出用母音時系列パターン格納部に、予め、
多数の話者の発声した単語音声データを基に作成
された母音時系列から、半母音区間付近に共通し
て現われる母音の時系列の変化（これを母音時系
列パターンと呼ぶ）のうち出現頻度の特に多いも
のをいくつか抽出し、格納しておく。半母音の判
定には、尤度バツフア１４から送出される母音時
系列と、半母音候補検出用母音時系列パターン格
納部に格納されている半母音候補検出のための母
音時系列パターンとが逐次比較照合され、一致し
たものについて、更にパターンの持続時間、音素
結合規則、有声無声無音判定結果を考慮して半母
音の判定及びセグメンテーシヨンが行なわれる。
ここで、実際に、半母音／ｊ／及び／ｗ／を認識
した例を図を用いて説明する。第１１図は、本実
施例による半母音の認識例である。先ず、ａは／
tesuurjoo／（手数料）という発声から／rjo／の
部分を例として抜き出して示したものである。ａ
において２３は予め、分析区間毎につけられた音
素ラベルであり、２４は子音の認識結果である。
この例で、入力音声を母音時系列に変換した結果
２５から、半母音候補検出用母音時系列パターン
の１つである“IEUO”によつて半母音／ｊ／の
候補区間が検出される。この例ではパターンの
“IEU”の区間が半母音候補区間、“Ｏ”の区間が
後続母音区間である。後続母音区間が閾値以上あ
りまた、半母音候補区間が閾値以下であること、
および、子音あるいは無声・無音区間と半母音候
補区間との位置関係が考慮され最終的に、２６の
半母音／ｊ／の認識結果が得られる。

次に、ｂは／awa／（泡）という発声を例とし
て示したもので、２７は予め、分析区間毎につけ
られた音素ラベルであり２８は子音の認識結果で
ある。ここで、入力音声を母音時系列に変換した
結果２９から、半母音候補検出用母音時系列パタ
ーンの１つである“AOA”によつて半母音／
ｗ／候補区間が検出される。この例では、パター
ン“Ｏ”の区間が半母音候補区間、“Ａ”の区間
がそれぞれ先行母音区間、後続母音区間となる。
先行母音区間、後続母音区間がそれぞれ閾値以上
あり、半母音候補区間が閾値以下であることか
ら、例えば／aoao／（青々）という発声の／
aoa／の部分と区別され、半母音／ｗ／が存在す
ると判断される。更に、半母音候補区間に子音が
認識されている場合、鼻音性をもたない子音の場
合には、子音区間も含めて半母音候補区間とし、
その区間が閾値以内であり、しかも無声・無音区
間ではない場合には、半母音を優先して、３０の
半母音／ｗ／の認識結果が得られる。

音素系列作成部２２は、子音認識部２０から送
出される子音認識結果と、母音認識部２１から送
出される母音認識結果を総合して、音素系列を生
成する部分である。この部分では日本語の音形規
則、例えば、撥音以外の子音が２つ以上連続する
場合は、その間に母音／ｉ／または／ｕ／が存在
する、とか、母音／ｉ／や／ｕ／は無声化しやす
い………などの規則によつて、音素の判別結果を
修正する機能も有する。

このようにして作成された音素系列は、単語マ
ツチング部８において、単語辞書９の内容と１つ
ずつ比較され、最す類似度の高い単語が認識結果
として出力される。

第１２図は認識処理の高速化を目的とした本発
明の他の実施例で、より実用的なブロツク構成で
ある。第２図では、子音部に対する距離計算は、
子音セグメンテーシヨンの後であるため、時間的
な遅れが生じ、このため入力バツフア１１が必要
であつた。第１２図はこの部分を改良し、高速化
を行なつたものである。第１２図で第２図と同じ
番号のブロツクは、同一の機能を有する。第１２
図の標準パターン格納部６０は、第２図における
母音・鼻音標準パターン格納部１３と子音標準パ
ターン格納部１９の両方を含んでいる。尤度計算
部６１は母音・鼻音および子音に対する尤度をい
つしよに計算し、それらを別々に尤度バツフア６
２に蓄積しておく。子音認識部２０では尤度バツ
フア６２の子音尤度の中で、子音セグメンテーシ
ヨン部１７で子音区間と決定された部分の情報の
みを使用して子音の認識を行なう。このような構
成にすると、不要な部分の尤度まで計算すること
になるが、子音認識の時間遅れがなく、余分の入
力バツフアが不要となる。そして複雑な尤度計算
部の１部が共用できるので回路構成が簡単になる
利点がある。その他の部分は第２図と同様であ
る。

上記実施例は従来例に比し以下のような利点を
有する。

(1) 従来例では、音声信号を帯域フイルタで分析
し、ローカルピークを抽出してそれを特徴パラ
メータとしていたが、本実施例ではLPC分析
によつてLPCケプストラム係数を抽出し、特
徴パラメータとした。LPC分析では音声波形
から個人性を多く含む声帯音源情報を除去でき
るため、不特定話者の発声に対して強いシステ
ムとすることができた。しかも声帯音源情報の
除去によつて相対的に音韻性が強調されるた
め、フレームごとの音素判別率を高くできた。

またローカルピークが主に音声のフオルマン
トを表わすパラメータであるのに対し、LPC
ケプストラム係数はフオルマントを含んだ周波
数スペクトル概形全体を表わすパラメータであ
るため、後者の方が情報量が多く、認識率の向
上に役立つた。特にフオルマント構造がはつき
りしない無声子音間の判別には効果が高い。

(2) 従来例においては、フレームごとの音素判別
のために、ローカルピークを判別図に当てはめ
る方法であつたが、本実施例ではマハラノビス
距離、ベイズ判定、線形判別関数などの統計的
距離尺度によつて入力LPCケプストラム係数
と標準パターンとの間でパターンマツチングを
行なう方法を採用した。フレームごとの平均母
音認識率が従来例では78.4％であつたが、本発
明では85.2％に向上した。

(3) 従来例では、セグメンテーシヨンパラメータ
のみで子音の存在を検出していたが、鼻音や／
ｒ／などの有声子音は検出できない場合が多か
つた。本実施例では、セグメンテーシヨンパラ
メータの他に、５母音と鼻音（／ｍ／、／
ｎ／、はつ音）を対象とした前記フレームごと
の音素認識結果、およびフレームごとの有声・
無声判別結果を併用した。すなわち、音素認識
結果で鼻音フレームが連続する場合は有声子音
区間とし、有声・無声判別結果で無声フレーム
が連続する場合はその区間を無声子音区間とし
た。これによつて子音のセグメンテーシヨン脱
落率を大きく減少することができた。

(4) セグメンテーシヨン用のパラメータとして、
低域パワーおよび高域パワー情報を導入した。
これらのパラメータによつて全域パワーとスペ
クトルの傾きを用いる従来例よりも、セグメン
テーシヨンをより確実に行なうことができるよ
うになつた。

(5) 男女計40名が発声した200都市名単語を対象
とした不特定話者単語認識実験において、従来
例による平均認識率が88％であつたのに対し、
本実施例によると95％という良好な結果を得る
ことができた。また、本実施例では、従来例よ
りも個人差による認識率のばらつきが小さく、
不特定話者認識により適していることが証明さ
れた。

上記の結果は主に、特徴パラメータとして
LPCケプストラム係数を使用し、統計的距離尺
度で尤度計算を行なうようにしたこと、セグメン
テーシヨン精度を向上させたことに依つている。

発明の効果以上のように本発明は入力音声を線形予測分析
法で分析してLPCケプストラム係数を抽出する
LPC分析部と、前記LPC分析部の結果と標準パ
ターン格納部からの母音性音素の標準パターンと
の類似度を、線形判別関数、マハラノビス距離、
ベイズ判定などの統計的距離尺度によつて計算し
て母音性音素に対する入力音声の尤度を求める第
１の尤度計算部と、前記第１の尤度計算部の結果
によりその時間時継続性を利用してセグメンテー
シヨンと認識を行う第１の認識部と、入力音声ま
たはその分析結果に基づき有声と無声を判別する
有声・無声判定部と、入力音声の低域パワー情報
と高域パワー情報を求めるセグメンテーシヨン用
パラメータ抽出部と、前記結果より求められた前
記パワー情報の時間的変動と前記第１の尤度計算
部の結果と前記有声・無声判定部の結果とから子
音性音素のセグメンテーシヨンを行う子音性音素
セグメンテーシヨン部と、前記子音性音素セグメ
ンテーシヨン部で得られた区間に対し、LPC分
析部からの係数と標準パターン格納部からの子音
性音素の標準パターンとの類似度を計算する第２
の尤度計算部と、前記第２の尤度計算部の結果に
基づき子音性音素を認識する第２の認識部と、前
記第１の認識部の結果と第２の認識部の結果とに
より音素系列を作成する音素系列作成部と、前記
音素系列作成部の結果と単語辞書部に含まれてい
る辞書項目との間でマツチングを行うマツチング
部とを備え、前記マツチング部より音素系列に最
も良く類似した辞書項目を出力することを特徴と
する音声認識装置を提供するもので、フレームご
との音素判別率の向上、平均母音認識率の向上、
子音セグメンテーシヨン脱落率の減少、セグメン
テーシヨンの確度の向上をはかることができ、不
特定話者に対しても高速で高い認識率を得ること
ができる利点を有する。

【図面の簡単な説明】

第１図は従来の音声認識装置の構成を示すブロ
ツク図、第２図は本発明の一実施例である音声認
識装置の構成を示すブロツク図、第３図ａ〜ｃは
本発明の低域パワー情報または高域パワー情報か
らパワーデイツプを検出する方法を説明する図、
第４図は低域パワーデイツプ、高域パワーデイツ
プの大きさによつて、子音区間と子音の付加を判
加するための判別図、第５図は母音または鼻音と
して全てのフレームを認識し、この結果から子音
区間を検出する方法を説明する図、第６図ａ〜ｄ
は本発明の語頭子音のセグメンテーシヨン法を説
明するパワーによる子音検出を示す図、第７図は
本発明に係る音素認識結果による子音検出法の例
を示す図、第８図及び第９図は本発明のセグメン
テーシヨンの方法を具体例に基づいて説明する
図、第１０図は本発明の母音の認識方法を具体例
に基づいて説明する図、第１１図ａは本発明によ
る半母音／ｊ／の検出例を示す図、第１１図ｂは
本発明による半母音／ｗ／の検出例を示す図、第
１２図は他の実施例のブロツク図である。１０……LPC分析部、１１……入力バツフア、
１２……母音尤度計算部、１３……母音・鼻音標
準パターン格納部、１４……尤度バツフア、１５
……セグメンテーシヨン用パラメータ抽出部、１
６……パワー情報バツフア、１７……子音セグメ
ンテーシヨン部、１８……子音尤度計算部、１９
……子音標準パターン格納部、２０……子音認識
部、２１……母音認識部、２２……音素系列作成
部、６０……標準パターン格納部、６１……尤度
計算部、６２……尤度バツフア。

Claims

【特許請求の範囲】１入力音声を線形予測分析法で分析してLPC
ケプストラム係数を抽出するLPC分析部と、前
記LPC分析部の結果と標準パターン格納部から
の母音性音素の標準パターンとの類似度を、線形
判別関数、マハラノビス距離、ベイズ判定などの
統計的距離尺度によつて計算して母音性音素に対
する入力音声の尤度を求める第１の尤度計算部
と、前記第１の尤度計算部の結果によりその時間
的継続性を利用してセグメンテーシヨンと認識を
行う第１の認識部と、入力音声またはその分析結
果に基づき有声と無声を判別する有声・無声判定
部と、入力音声の低域パワー情報と高域パワー情
報を求めるセグメンテーシヨン用パラメータ抽出
部と、前記結果より求められた前記パワー情報の
時間的変動と前記第１の尤度計算部の結果と前記
有声・無声判定部の結果とから子音性音素のセグ
メンテーシヨンを行う子音性音素セグメンテーシ
ヨン部と、前記子音性音素セグメンテーシヨン部
で得られた区間に対し、LPC分析部からの係数
と標準パターン格納部からの子音性音素の標準パ
ターンとの類似度を計算する第２の尤度計算部
と、前記第２の尤度計算部の結果に基づき子音性
音素を認識する第２の認識部と、前記第１の認識
部の結果と第２の認識部の結果とにより音素系列
を作成する音素系列作成部と、前記音素系列作成
部の結果と単語辞書部に含まれている辞書項目と
の間でマツチングを行うマツチング部とを備え、
前記マツチング部より音素系列に最も良く類似し
た辞書項目を出力することを特徴とする音声認識
装置。２第１及び第２の尤度計算部が互いに一部を共
用して構成されていることを特徴とする特許請求
の範囲第１項記載の音声認識装置。