JPS63201699A

JPS63201699A - 音声認識装置

Info

Publication number: JPS63201699A
Application number: JP62033261A
Authority: JP
Inventors: 天野　明雄; 畑岡　信夫; 矢島　俊一; 市川　熹
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1987-02-18
Filing date: 1987-02-18
Publication date: 1988-08-19

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声タイプライタ等音声認識装置の音韻認識方
式に係り、特に類似音声の識別に好適で、か・つ誤認識
を起こしたときにも原因究明が容易で、性能改善を系統
的に行なうのに好適な音声認識装置に関する。

［従来の技術〕従来の音声認識装置では、アイ・イー・イー・イー、１
〜ランザクジヨン　オン　アコーステイクス　スピーチ
　アンド　シグナルプロセシングニー　ニス　ニス　ピ
ー　２３　１　（１９７５年）第６７頁から第７２頁（
Ｉ　Ｅ　Ｅ　Ｅ　ｅ　Ｔｒａｎｓ、　ｏｎＡＳＳＰ−２
３，恥１　０９７５）ｐｐ６７−７２）において論じら
れているように、認識対象となる音声の全てのカテゴリ
ーについて予じめ標準パターンを用意しておき、入カバ
ターンをこの各標準パターンと照合し最も類似度の高い
ものを認識結果とする方式をとっていた。また、このよ
うな方式において、照合で一分な類似度が得られない場
合の対処として、特開昭５５−３６８２４号に？ｉｉ！
載のように、音声の部分的な特徴を保持したパターンを
部分標準パターンとして記憶しておき、入カバターンの
特定の部分と−１−記部分ｉｎ準パターンとを照合し、
この照合結果に基づいて最終的な認識結果を求めるよう
な方式がとられていた。

〔発明が解決しようとする問題点〕

上記従来技術では、認識の基準となる情報が標準パター
ンという形で保持されている。認識の動作は標準パター
ンとの照合が基本となるが、音声の特徴が暗黙的に標準
パターンの中に取り込まれているために、＊識動作の途
中経過についてもその正否を人間が判断することができ
なかった。すなわち、誤１１２識を生じた場合、その原
因は主に標準パターンが不良という形で判定すること１
ノかできなかった。これにより、認識装置の性能改ｉキ
が試行錯誤的になり、知識が積み上がらず、性能向上が
望めないという問題と、認識系の内部状況をモニタ表示
できず、系統的性能改善を行なえないという問題があっ
た６本発明の目的はｎ「記従来技術の問題点を解決し。

認識装置の性能改善のプロセスを系統的に行なうことが
でき知識の蓄積が可能で、また、誤認識を生じた時にそ
の原因を認識装置自体が説明する機能を持った音声認識
方式を提供することにある。

〔問題点を解決するための手段〕

上記目的は、音素特有の特徴が特徴パターンの時系列の
中に存在するか否かを調べる処理の名称と手順を各音素
特有の特徴毎に保持する手段と、認識対象の音声の全カ
テゴリーの２つの組合せ毎にその２つを識別するために
行なう前記処理の名称および処理結果の解釈の仕方を記
述したテーブルとを設け、本テーブルの記述に従って対
判定によって認識処理を行なうことにより達成される。

〔作用〕

本発明では、候補選択部で選択されたｎ個の認識候補に
ついて全ての２つの組合せｎ０２個を求め、この全ての
２つの組合せについて対判定を行ない各候補対毎にいず
れか識別結果として適切かを判定する。この対判定は前
記テーブルの記述にＪ＆づいて行なうようにする以上の構成により性能改善のプロセスが系統的に行なえ
ることを以下に説明する。

誤認識が生じたときに原因を究明するには上記ｎＣｚ個
の対判定のうち判定を誤ったものを求める必要があるが
、これはｎＣｚ個の対判定結果が保持されているのでこ
れを参照すればよい。

次に判定を誤った対については前記テーブルを参照する
ことにより、どの音素特有の特徴の存在を調査する処理
において誤りが生じたかがわかる。

したがって、認識系の内部状況をモニタ表示できる。

認識性能の改善では、判定を誤った音素特有の特徴の存
在を調査する処理が上記のごとくにわかるのでこの処理
を改良すればよい。また、前記テーブルには処理結果の
解釈の仕方の記述もあるのでこれを参照することにより
、どのような改善を施せばよいかもわかり、したがって
系統的な改善の実施が容易になる。

また、本発明では、認識対象となる音声のカテゴリーの
全ての２つの組合せ毎に独立にその２つの識別するため
の手順を保持しており、特定の対について改善を行なっ
たとき、関与するのはその対に含まれる２つのカテゴリ
ーのみであり、他のカテゴリーには関与しないので一部
の改善が他部へ悪影響を及ぼすことがない。

〔実施例〕

以下１本発明の一実施例を第１図により説明する。

入力部１から入力された入力音声９は特徴抽出部２にお
いて所定時間毎に音声の特徴を表わす特徴パターンに変
換され特徴パターンの時系列】Ｏとして出力される。候
補選択部３では特徴パターンの時系列１０を入力とし、
この入力の中に存在すると考えられる音声のカテゴリー
の上位候補ｎ個（例えばｎ＝５）が出力される。候補選
択部３で選択されたｎ個の候補は対生成部４へ送られ、
ここで対判定を行なう対象となる対ｎ０２個（ｎ＝５の
とき、ｎｃｚ＝１０）を生成し対判定部５へ送る。対判
定部５では対生成部４から送られたｎＣｚ個の対のそれ
ぞれについて対判定を行なうが、ここでは１つの対につ
いての動作のみを説明する。いま与えられた音声のカテ
ゴリーがａ、ｂの２つであったとすると、対判定部５で
はａとｂを識別するだめの手掛りとなる音素特有の特徴
（例えば、破裂性９摩擦性、バスバ等）が入力された特
徴パターンの時系列中に存在するか否かを調査する処理
を行なう。

この処理に関しては、各音素特有の特徴のそれぞれにつ
いて、その名称と処理の手順を与しめ第】の格納部６に
格納しておく、また各カテゴリーの対毎にその対の識別
のために行なう前記処理の名称と、その処理結果の解釈
のしかたを第２の格納部７の中に格納しておく。

ａ、ｂの対が与えられると、まず、第２の格納部７の内
容を参照し、ａ、ｂの対の識別のためには特徴パターン
の時系列に対して何という名称の処理を施せばよいのか
を、調べる。ここで求められた名称の処理の手順は第１
の格納部６に格納されているので、これを参照して処理
を実行する。処理結果に基づいて入力音声がａであるか
、ｂであるかの判定を下さねばならないが、この判定は
第２の格納部７に予じめ格納されている処理結果の解釈
の仕方に基づいて行なう。以上によりａ、ｂの対に関す
る対判定が完了するが、残りの全ての対に関しても同様
の手順で対判定を行なう。かくして、ｎＣ２個の対判定
結果が対判定部５から得られ、この結果が結果集計部８
で集計され、この集計に基づいてｎ個の候補の順位付け
が行なわれ、最終結果として出力される。順位付けは例
えば各候補毎に、対判定でその候補と判定された回数を
求め、これの多い順にするといった方法をとればよい。

次に、第１，２の格納部に格納されている情報を用いて
対判定を行なう手順を詳細に説明する。

まず、第１の格納部について第２図を用いて説明する。

第１の格納部には各音素特有の特徴毎に、その特徴を検
出するための処理の名称と、その手順とが格納される。

ここでは、音素特有の特徴として第２図（ａ）に示す８
種類を考える。各特徴毎にその検出処理がどのような内
容であるかは第２図（ａ）の処理の欄に示した。第１の
格納部には処理の名称と手順とが格納されるが、具体的
には第２図（ｂ）に示すようなテーブルの形式で処理の
名称と処理の手順が格納されている場所へのポインタの
対応関係を保持し、処理の手順はそれぞれ個別に保持す
る。第２図（ｂ）の中で矢印（→）はポインタを表わす
が、具体的には上記処理が格納されている格納部中の番
地を表す数字が保持され、この番地に従って処理内容が
参照される。処理の手順の具体例を第２図（ａ）中のＣ
ＭＰＣＴについて説明する。ＣＭＰＣＴという名称の処
理は、特徴パターン時系列の中の各時点での特徴バトー
ナ（ここでは特徴パターンとして　　□周波数スペクｌ
−ルを考える）について、特定の周波数帯域にエネルギ
が集中していること（これをコンパクト性と呼ぶ）を検
出する処理である。第３図（ａ）に示すのは、本処理の
フローを示すフローチャートである。

各時点の特徴パターン（スペク１−ル）について、まず
その最小２乗直線を求める。スペクトルおよび最小２乗
直線の例を第３図（ｂ）に示す。次にスペクトルから最
小２乗直線を差しひく、ただし、負の値になる場合には
強制的に０とする。差し引いた後の例を第３図（Ｑ）に
示す１次にこの差し引いた後のパターンに対してピーク
を検出する。

第３図（ｃ）の例では２つのピーク３１．３２があるが
その大きい方の３１が選択される０次にこのピークのま
わりのエネルギを集計するが具体的には第３図（Ｑ）の
３１のピークの下の斜線部の面積を求める。この値がコ
ンパクト性の値とされ。

次にこの値に対して予しめ設定した閾値を用いて閾値判
定を行ないこの結果によりコンパクト性の有無の結果と
する。

次に第２の格納部について説明する。第２の格納部には
認識対象となる音声のカテゴリーの全ての２つの組合せ
毎に、その２つを識別するためには特徴パターン時系列
に対して何としい名称の処理を施せばよいか、また、そ
の結果をどう解釈すればよいかが保持される。ここでは
、認識対象として単音節を考え、全ての単音節の２つの
組合せ毎に保持するものとする。また、ここでは候補選
択部にて後続母音が同一の単音節のみが選択されるもの
とし、対判定は後続母音が同一の単音節の間でのみ行な
うものとする。

第４図に第２の格納部に格納されている内容の一部を模
式的に示す０図に示すように格音節の対毎にその対を識
別するのに行なう処理の名称が記述され、させにその右
の欄にこれに対応づけて処理結果に応じて、いずれの音
節と判定すべきかの記述がある０例えば第４図の３段目
の／　ｋ　ａ　／・／＋ａ／の識別にはｃＭｐｃ：とい
う名称の処理を実行し、特徴パターン系列上にコンパク
ト（スペクトルの特定帯域にエネルギが集中しているこ
と）な特徴が現われているか否かを調べればよい／ｋａ
／、検出されなかった場合には／＋ａ／と判定し、また
、結果が中間的だった場合にはどちらとも判定しない（
両者の可能性を残す）ようにすればよいことがわかる。

以上、本実施例の説明では、特徴抽出部２．候補選択部
３．対生成部４、対判定部５、結果集計部８について具
体的実施方法を省略したが、二二で簡単に説明しておく
。

特徴抽出部としては、フィルタバンク分析、線形予測分
析（ＬＰＧ）等が考えられるが、本実施例ではフィルタ
パンク分析を用いることとし、第５図にその具体的実施
例を示す、入力音声ｘｌｌは中心周波数と帯域幅の違う
複数個のＢＰＦ群２１と２２に入力される０本実施例で
は周波数分解能を上げるために２段のＢＰＦ構成として
いる。

ＢＰＦ２１，２２は２次のバターワース型フィルタとな
っており、加算器２個、乗算器４個と遅延器２個から構
成されている。ＢＰＦ結果の波形は絶対値変換器（ＡＢ
Ｓ）２３にて整流され、ＬＰＦ２４．サンプリング器２
５．さらにＬＰＦ２６にて高域周波数成分をカットされ
ながら出力値バタンＸｉが求められる。ＬＰＦはＢＰＦ
同様に周波数分解能をあげるために２段構成となってお
り、ＬＰＦ２４，２６はＢＰＦ同様の処理規模のバター
ワース型となっている。尚、ＬＰＦの構成については特
願昭５５−１３５９８１　ｒディジタル低域通過濾波回
路」に詳細に説明されている。

候補選択部としては、いくつかの方法が考えられるが、
本実施例では従来から用いられているテンプレートマツ
チングを用いることとし、テンプレートマツチングで得
られた上位候補（距離値の小さい方からｎ個の候補）を
出力することとする。

テンプレートマツチングの具体的実現には文献「音声認
識に適用した最小予測誤差原理（Ｍｉｎｉｓ＋ｕｍＰｒ
ｅｄｉｃｔｉｏｎ　Ｒｅ５ｉｄｕａｌ　Ｐｒ１ｎｃｉｐ
ｌｅ　Ａｐｐｌｉｅｄ　ｔ。

５ｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）Ｊ　ｂｙ　Ｆ
、ＩｔａＫｕｒａ　ｅｔ　ａｌ、ＩＥＨＥＴｒａｎｓ　
ｏｎ　Ａｃｏｕｓｔｉｃｓ、５ｐｅｅｃｈ　ａｎｄ　Ｓ
ｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、ｖｏｌ、Ａｓ５Ｐ−
２３、ｐ、ｐ　、　５７〜７２ｔＦｅｂ、’　７５に記
載の方法を用いればよい。ただし、本文献では躍層尺度
として尤度比を用いているが、本実施例では距離尺度を
特徴パターン（スペクトル）間のニーグリッド距離とす
ればよい。

対生成部４は候補選択部３から得られたｎ個の候補につ
いて考え得る全ての２つの組合せｎｃｚ個を生成する。

これは単純な組合せ演算でありソフトウェアで簡単に実
現できる。第６図にその具体的フローを示す。図では候
補として挙げられたｎ個の音声のカテゴリーをＣ１ｔ　
Ｃｚ　＊・・・Ｃｎと表わしている０本フローに従って
、音声のカテゴリーの対が（Ｃｘｔ　Ｃｚ）　ｔ　　（
Ｃｘｔ　Ｃｓ）　　ｖ　・−１ｃ１゜Ｃｎ）＋　（Ｃａ
、Ｃｓ）　・・・（Ｃｎ−１＋Ｃｎ）という順で計ｎＣ
２個生成される。

次に対判定部５の具体的構成を第７図で説明する。対判
定部は第１．第２の格納部に格納された情報に基づいて
対判定の制御を行なう、まず、入力として音声カテゴリ
ーの対（Ｃｄ、　ｃｍ）　　が与えられると対判定ルー
ル解続部５１にて第２の格納部に格納されている対（Ｃ
１，（、Ｊ）に関する情報を解索する。第２の格納部は
既に第４図で説明したようなテーブル形式となっている
ので本検索は簡単なテーブル引きで実現できる。ここで
読み出、・される情報は（ｃｉ、　ＣＪ）の対判定のた
めに行なう処理の名称と、その処理結果の解釈の仕方の
２種である。まず、処理の名称は音素特徴検出処理起動
部５２に送られ、ここでこの名称に一致する処理の手順
を第１の格納部から参照しこの処理を起動する。一方、
処理結果の解釈の仕方は結果帛釈部５３に送られる。結
果解釈部５３では音素特徴検出処理起動部から得られた
処理結果を前記解釈の仕方に基づいて解釈し、対判定の
結果として下す、処理結果の解釈の仕方は既に第４図で
説明したように３つの欄からなる表形式になっており、
したがって音素特有の特徴を検出する各処理を３値の出
力（明らかに特徴が存在、明らかに特徴が存在しない、
中間の状態）として、この出力に従って表を引くことに
より解釈は実行できる。

最後に結果集計部８であるが、ここでは第８図に示すよ
うな集計表を用意し、この各枡（あるいは欄）に対判定
結果を記入していく０本図は候補の数が５個で／ｋａ／
、　／ｌ　ａ／ｅ　／ｊ　ａ／ｌ／　ｐ　ａ　／　ｐ　
／　ｇ　ａ　／であった場合を示している。

第１列、第５行の枡には音声カテゴリー（Ｃ１゜ＣＪ）
の対の対判定結果を記入するが、Ｃｔと判定されたとき
にＯをＣａ　と判定されたときに×を記入し、各Ｃｉ　
＠にＱ、Ｘの数を横方向に集計しこれを右の欄に記入す
る。対判定部では２つの音声カテゴリーＣ１，ＣＪのう
ちどちらとも言えないという中間的な結果が出る場合も
ある。このような場合、結果集計でどう扱゛うかにはい
くつか考え方があるが、本実施例では候補選択部で得ら
れる順位に基づいて強制的に０あるいは×の判定を下す
ようにしている。このようにして対判定結果の集計が完
了し０の数の多い順に候補に順位づけをし出力する０図
の例では、音１／ｋａ／が正解となる。

本実施例を用いて男性３名の発声した計２３６０音節の
認識実験を行なった結果を第９図（ａ）に示す。本実験
では第１の格納部には前記第２図（ａ）に示した８種類
の処理を準備し、第２の格納部には第６図（ｂ）に示す
１４対の音節対に関してのみ、情報をａｌ！備した６本
実験では候補選択部３に標準パターンとのテンプレート
マツチングを用いており、従って、候補選択部３により
候補について贋に準位付けがなされる。ｆｊｓ２の格納
部７に情報のない音節対に関しては対判定処理を行なわ
ず。

候補選択部３で得られた順位に基づいて判定し、第２の
格納部７に情報の存在する対についてのみ対判定を行な
う。

第９図（ａ）の第２番目の欄は候補選択部３から得られ
た順位をそのまま認識結果とした場合の結果であり、第
３番目の欄がさらに対判定を適用して得られた正解数で
ある。したがって、この２つの数字の差が本発明の効果
を表わすが、１４対というわずかの情報の利用のみでも
、相当の効果のあることがわかる。

〔発明の効果〕

本発明によれば認識対象となる音声のカテゴリーの対価
にきめ細かい処理が行なえるので、類似音声の識別性能
を向上することができる。

さらに処理の手順が全て明示的な形で保持されるので、
エラーが生じた時にも原因か所の特定が容易になり性能
改善のプロセスも系統化されまた知識の積上が可能とな
る。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
第１の格納部の構成を説明する図、第３図は音素特有の
特徴を検出する処理フローを説明する図、第４図は第２
の格納部の構成を説明する図、第５図は本実施例におけ
る特徴抽出部２の実現方法を示す図、第６図は対生成部
４の実現方法を示す図、第７図は対判定部５の具体的構
成を示す図、第８図は結果集計部８の処理を説明するた
めの図、第９図は本実施例を用いて行なった認識実験の
結果を示す図である。】・・・入力部、２・・・特徴抽出部、３・・・候補選
択部。４・・・対生成部、５・・・対判定部、６・・・第１の
格納部。７・・・第２の格納部、８・・・結果集計部、５１・・
・対判定ルール解続部、５２・・・音素特徴検出処理起
動部、■　Ｚ　図（久）第　３　図（入り百４図 ■　５　口邂 ′＝４ト− Ｚ　７　　回Ｌ−−−−−−−一〜−Ｊ

Claims

【特許請求の範囲】１、音声を入力する手段と、入力音声から所定時間毎に
特徴パターンを抽出し特徴パターンの時系列として求め
る特徴抽出手段と、認識対象となる音声の全カテゴリー
の中からその一部または全部を候補として選択する候補
選択手段と、該候補選択手段により選択されたｎ個の候
補から全ての２つの組合せｎＣ＿２通りを生成する手段
とを有し、該全ての候補の組合せ毎に前記特徴パターン
時系列から得られる情報を用いて対判定を行ない、該対
判定の結果を集計して前記ｎ個の候補の順位づけを行な
うような音声認識装置であつて、特徴パターン時系列か
ら音素特有の特徴を検出する処理の手順を各音素特有の
特徴毎に格納する第１の格納部と、認識対象の音声の全
カテゴリーの２つの組合せ毎にその２つを識別するため
に行なう前記処理の名称および処理結果の解釈の仕方を
格納する第２の格納部とを有し、前記対判定は該第１、
第２の格納、部に格納された情報に基づいて行なうこと
を特徴とした音声認識装置。２、特許請求の範囲第１項記載の音声認識装置において
、上記第１の格納部に格納された音素特有の特徴を検出
する処理の手順は、各音素特有の特徴毎にその処理手順
の中に可変なパラメータを持つことを特徴とする音声認
識装置。３、特許請求第２項記載の音声認識装置において、上記
第２の格納部には、認識対象の音声の全カテゴリーの２
つの組合せ毎にその２つを識別するために行なう処理の
名称と処理結果の解釈の仕方に加え、前記処理を行なう
際に設定すべき前記可変なパラメータの特定の値を格納
することを特徴とする音声認識装置。