JPS63161498A

JPS63161498A - 音声情報入力装置

Info

Publication number: JPS63161498A
Application number: JP61307635A
Authority: JP
Inventors: 金沢　博史; 宏之坪井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1986-12-25
Filing date: 1986-12-25
Publication date: 1988-07-05
Anticipated expiration: 2010-06-28
Also published as: JPH0760317B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的コ（産業上の利用分野）本発明は、認識辞書の学習に用いられる音声情報を入力
する音声情報入力装置に係わり、特に認識辞書を効率良
く作成できるようにした音声情報入力装置に関する。

（従来の技術）音声認識装置で使用される認識辞書は、予め発声者の音
声情報を収集、学習しておくことにより作成される。こ
の学習時に、必要な音声情報を収集する従来の音声情報
入力装置では、予め指定された発声文字列を繰返し発声
入力することにより、データの収集を行なうものであっ
た。しかしながら、このように発声文字列が予め定めら
れている収集方法であると、認識率の高いカテゴリであ
っても、また認識率の低いカテゴリであっても同様の割
合いで音声情報が収集されてしまうので、認識率の高い
カテゴリについては必要量−１−の学習が行なわれるの
に対し、認識率の低いカテゴリについては十分な学習が
なされないという欠点があった。

（発明が解決しようとする問題点）このように、従来の認識辞書の学習のための音声情報入
力装置では、認識率の高低に拘らず一様ρ学習を行なっ
ていたので、効率的な学習が行われず、特に認識率の低
いカテゴリについては満足できる認識辞書を得るための
十分な学習がなされないという問題があった。

従って、この発明では、各カテゴリの認識率に応じて認
識辞書の学習を行なうことができ、もって少ない学習回
数で、認識性能の良好な辞書を作成できる音声情報入力
装置を提供することを目的とする。

［発明の構成］（問題点を解決するための手段）本発明は、１〕記目的を達成するため、予め分っている
入力カテゴリからなる入力音声パターンと認識辞書とを
照合して該入力音声パターンを認識処理する認識手段と
、この認識手段における認識結果が良好でない入力カテ
ゴリに基づいて学習に用いる発声文字列を生成する発声
文字列生成手段と、この発声文字列生成手段で生成され
た発声文字列を次の学習に使用するため表示する発声文
字列表示手段とを具備したことを特徴としている。

（作用）本発明によれば、発声文字列生成手段は、認識手段にお
ける認議結果が良好でない入力カテゴリを用いて発声文
字列を組立て、この組立てられた発声文字列を次に学習
するために表示するようにしているので、認識結果の良
好でない、本来学習すべきカテゴリのみを集中的に学習
することが可能となる。したがって本発明によれば、認
識辞書の学習を効率良く行なえるので、全体的には少な
い学習回数でも、全てのカテゴリについて認識性能の良
好な認識辞書を作成することができる。

（実施例）以下、本発明の一実施例につき説明する。第１図は本実
施例に係る音声情報入力装置の構成を示す図である。

音声入力部１は、マイクロホンや増幅器がらなり、入力
音声を電気信号に変換するものである。

この入力部１を介して入力された音声信号は、例えば８
チヤンネルのフィルタバンク等からなる特徴抽出部２に
与えられ、ここで周波数分解されて例えば各周波数成分
を時間軸方向に８点りサンプルし８×８次元の特徴ベク
トルの入力音声パターンに変換される。尚、特徴抽出は
上述したフィルタ分、折に代えて高速フーリエ変換によ
る分析やケプストラム分析等によって行なうことも可能
である。

認識部３は上記入力音点の特徴ベクトルｆと、認識辞書
メモリ５に登録されたカテゴリｌの辞書〔ｉ）偏度Ｓ　　［ｆｌを、なる造合類似度計算により求めるものである。こ（７）
　　　Ｕ！＞こて、λ　、φ　は、各認識対象カテゴリについｎて予め多くのサンプルパターンから得られた共分散行列
にの第ｎ固有値と、固有ベクトルとをそれぞれ示してい
る。これらは認識辞書記憶部４に格納されている。尚、
このような類似度Ｓを用いる代わりに、マハラノビスの
汎距離やユークリッド距離等を用いることも可能である
。

このようにして求められた入カバターンの認識結果は、
認識結果記憶部５に格納される。この認識結果記憶部５
には、入力カテゴリ名、認識結果のカテゴリ名、特徴ベ
クトル、類似度、入カバターンに対するカテゴリの順位
、各カテゴリについての正解、不正解を示すコンフユー
ジヨンマトリクス等を保持している。例えば、単音節の
認識で、「か」という入力カテゴリが「た」と誤認識さ
れた場合、認識結果記憶部５には、入力カテゴリ名「か
」、認識結果のカテゴリ名「た」、それぞれのカテゴリ
の類似度、各カテゴリの類似度の順位等が記憶される。

発声文字列生成部６は、上記認識結果記憶部５に格納さ
れたデータに基づいて、図示しない内部の日本語辞書を
参照して学習に用いるべき文字列を自動生成する。例え
ば、入力カテゴリ「か」が「た」に、また入力カテゴリ
「シ」が「ち」にそれぞれ誤認識されたとすると１９発
声文字列生成部６は音声認識辞書のカテゴリ「か」、「
た」、「ち」、「シ」について学習する必要があると判
断し、日本語辞書を参照しつつ、これらカテゴリを並べ
替え、日本語の意味のある単語或は文節等の形で出力す
る。例えば、上記の例では、「か」、「た」、「ち」、
「シ」から作られる「かたち（形）」゛、「たか（鷹）
」、「しか（鹿）」、「ちかしく近し）」等の文字列が
発声文字列として生成される。なお、単語、文節等に変
換できない場合や変換する必要のない場合には、単音節
の並びのままで発声文字列が生成される。

このように発声文字列生成部７で生成された発声文字列
は、発声文字列記憶部７に格納される。

そして、学習を行なうためのデータ収集の際に発声文字
列記憶部７に格納された発声文字列は、発声文字列表示
部８に出力されて表示される。

この時、発声文字列が日本語として意味のある語句であ
る場合には、カナ漢字変換部９は、上記発声文字列をカ
ナ漢字変換して発声文字列表示部８に出力する。また、
この時、発声文字列記憶部７から発声文字列表示部８に
は、カナ漢字変換される前の上記発声文字列が直接出力
される。発声文字列表示部８は、例えば第２図に示すよ
うに、これらカナ漢字変換前後の発声文字列を対応付け
て同時に表示する。このように表示すると、ひらがなの
みの表示に比べて発声者が発声すべき文字列を認識し易
く、発声者の対話入力時の負担を軽減できるともに誤入
力を防止できる。なお、この第２図に示すように、現在
発声すべき発声文字列については、カーソルにより他の
発声文字列から区別される。この区別の方法としては反
転文字や音声による指示等も考えられる。

また、発声文字列表示部８を用いて、発声者が対話操作
によってデータを入力できるように、発声文字列記憶部
７には例えばキーボードやマウスなどの発声文字列入力
部１０が接続されている。

この発声文字列入力部１０では、発声カテゴリの形（単
語、単音節、文節等）の指定、発声する必要の無いカテ
ゴリをスキップするための指示等を与えることができる
。

発声文字列表示部８に学習すべき発声文字列が表示され
、発声者がこの表示に従って発声を行なうと、表示され
た文字列と対応付けられた音声データが音声入力部１を
介して入力される。そして、入力された音声データは、
特徴抽出部２で周波数分解されて、学習用パターンとし
て学習パターン記憶部１１に格納される。

一方、学習部１２は、前記特徴抽出部２を介して求めら
れた入力音声パターン及び上記学習パターン記憶部１１
に収集保存された学習用パターンを用い、前記認識辞書
記憶部４に格納された辞書パターンを各認識対象カテゴ
リ毎に学習する。この学習部１２における辞書パターン
の学習は、例えば共分散行列の繰返し更新処理と、その
共分散行列のＫＬ展開とによって行われる。

更新する。但し、■は学習パターンであり、例えば６４
次元のベクトルとして与えられる。またに′は学習後の
共分散行列である。そして、Ｗは正負の値をとる重み係
数であり、正の場合には上記共分散行列の特性核の人カ
バターンに対する類似度を大きくする作用を呈し、負な
らばその類似度を小さくする作用を呈する。

このような共分散行列の学習が、各認識対象カテゴリ毎
に段数のサンプルパターンを用いて複数回繰返して行わ
れる。その学習結果として求められた共分散行列ベクト
ルに′をＫＬ展開してその固有値と固有ベクトルが計算
され、その固有値と固有ベクトルとが各認識対象カテゴ
リの認識辞書（標準パターン）として前記認識辞書記憶
部４に登録される。

尚、第１図において、制御部１３は上述したパターン認
識処理及び認識辞書の学習処理をそれぞれ制御するもの
である。

以上のように構成された本実施例に係る装置の動作フロ
ーを第３図に示す。

この図に示すように、この装置では、入力カテゴリの分
っている音声パターンを入力しくステップａ）、特徴抽
出処理（ステップｂ）、認識処理（ステップＣ）を行な
った後、入力カテゴリと認識結果のカテゴリとが一致し
ない入力カテゴリを発声文字列生成部６に格納しくステ
ップｄ）、これらカテゴリを用いて７１１語、文節を生
成する（ステップｅ）。そして、得られた文字列をカナ
漢字変換（ステップｆ）した後、カナ漢字変換が成功し
たならカナ漢字変換前後の発声文字列を併記して表示し
くステップｇ、ｈ）、カナ漢字変換番：、、成功しなか
った場合及びする必要のなかった場合には、表示モード
、例えばひらがな、カタカナ等のモードを上記発声文字
列とともに表示する（ステップｇ＋）”＋１）ものであ
る。

したがって、この装置によれば、認識辞書を学習するた
めの学習パターンの収集を、認識結果に応じて自動生成
される発声文字列、つまり学習すべき学習パターンを含
む発声文字列を用いて行なうようにしているので、学習
する必要のないカテゴリについては発声しなくても済み
、発声者の負担を大幅に軽減できる。

なお、上記の実施例では、入力カテゴリを学習すべきか
どうかを、入力カテゴリと認識結果のカテゴリとの一致
・不一致により′判断しているが、例えば類似度の大小
によって判断しても良い。即ち、例えば認識結果が正解
の場合でも、その類似度が予め設定したしきい値よりも
低い場合には、その入力カテゴリを学習させるようにす
ることも可能である。さらに、入力音声パターンの入力
カテゴリに対する類似度の値と、他のカテゴリに対する
類似度の値との差が小さい場合には、それぞれのカテゴ
リを発声文字列に組込むようにしても良い。

［発明の効果］以上のべたように、本発明によれば、認識結果の良好で
ない入力カテゴリのみを用いて学習に供される発声文字
列を自動生成しているので、本来、学習すべきカテゴリ
を効率良く集中的に学習することができ、認識性能の高
い認識辞書を短時間に作成することができるという効果
を奏する。

【図面の簡単な説明】

第１図は本発明の一実施例に係る音声情報入力装置の構
成を示すブロック図、第２図は同装置における発声文字
列表示部の表示例を示す図、第３図は同装置の動作を説
明するための流れ図である。１・・・音声入力部、２・・・特徴抽出部、３・・・認
識部、４・・・認識辞書記憶部、５・・・認識結果記憶
部、６・・・発声文字列生成部、７・・・発声文字列記
憶部、８・・・発声文字列表示部、９・・・カナ漢字変
換部、１０・・・発声文字列入力部、１１・・・学習パ
ターン記憶部、１２・・・学習部、１３・・・制御部。出願人代理人　弁理士　鈴江武彦第２図

Claims

【特許請求の範囲】

（１）予め分っている入力カテゴリからなる入力音声パ
ターンと認識辞書とを照合して上記入力音声パターンを
認識処理する認識手段と、この認識手段における認識結
果が良好でない入力カテゴリに基づいて学習に用いる発
声文字列を生成する発声文字列生成手段と、この発声文
字列生成手段で生成された発声文字列を次の学習に使用
するため表示する発声文字列表示手段とを具備したこと
を特徴とする音声情報入力装置。
（２）前記発声文字列生成手段は、前記収集された入力
カテゴリを組合わせて所定の単語、文節等を生成するも
のであることを特徴とする特許請求の範囲第１項記載の
音声情報入力装置。
（３）前記発声文字列生成手段は、生成された単語、文
節等をカナ漢字変換したものを出力するものであること
を特徴とする特許請求の範囲第２項記載の音声情報入力
装置。
（４）前記発声文字列表示手段は、発声文字列をひらが
な、カタカナ、漢字、かな混じり漢字等の複数種類の形
で表示するとともに、入力すべき発声文字列を明示する
ものであることを特徴とする特許請求の範囲第３項記載
の音声情報入力装置。
（５）前記認識手段は、入力カテゴリ、及び出力カテゴ
リについて、そのカテゴリ名、カテゴリの最大類似度、
そのフレーム番号、全カテゴリに対する該カテゴリの類
似度の順位及び各カテゴリの正解・不正解を示すコンフ
ュージョンマトリクスを出力するものであることを特徴
とする特許請求の範囲第１項記載の音声情報入力装置。
（６）前記発声文字列生成手段は、前記認識部で不正解
となった入力カテゴリに基づいて前記発声文字列を生成
するものであることを特徴とする特許請求の範囲第１項
記載の音声情報入力装置。
（７）前記発声文字列生成手段は、前記認識部で正解と
なった入力カテゴリについても、その類似度等により判
断して上記発声文字列に組込むものであることを特徴と
する特許請求の範囲第１項記載の音声情報入力装置。
（８）前記発声文字列生成手段は、前記認識部において
正解及び不正解となった各入力カテゴリについて、その
類似度値、類似度の順位、コンフュージョンマトリクス
を参照し、これらに基づいて学習すべきかどうかを判断
することを特徴とする特許請求の範囲第１項記載の音声
情報入力装置。