JPS63155195A

JPS63155195A - 音声認識装置

Info

Publication number: JPS63155195A
Application number: JP61304330A
Authority: JP
Inventors: 別所　由実
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1986-12-19
Filing date: 1986-12-19
Publication date: 1988-06-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、各単語もしくは音節、音韻につき、単数また
は複数個の標準パターンテンプレートを持つ音声認識装
置に関するものである。

従来の技術不特定話者に対応させるために、各単語もしくは音節、
音韻につき、複数個の標準パターンを用いる方法は有効
な方法である。上記方法では、より多くの話者に対応す
るために、標準パターンの個数を増加することが考えら
れるが、逆に個数の多さのために異なる単語もしくは音
節、音韻間の標準パターンの重複が多くなり誤認識の原
因となることと、入力パターンとのマツチングに必要な
処理時間が長くなるという不都合とがある。

従来の音声認識装置では、上記問題点を解決するため、
学習の際に、話者ごとに複数回音声を入力することによ
り用いるべき標準パターンを選択されたパターンをセン
ト化しておき、認識の際には、学習の際よりも少ない音
声入力でセット化された標準パターンを選択し、選択さ
れた標準パターンを対象に認識を行うという方法がとら
れた。

以上の方法により、話者に適応した標準パターンのみを
使用することで、マツチングに必要な処理時間が短くな
り、標準パターンを増加させずに前記話者に対する認識
率を向上させることが可能となる。（たとえば特願昭５
８−６７３２１号）以下、図面を参照しながら、上述し
たような従来の音声認識装置について説明を行う。第３
図は、従来の音声認識装置のブロック図である。１は音
声入力端子、２は特徴抽出部、６は標準パターンテンプ
レート、８はパターン照合部、９はスイッチ、１０は認
識結果出力端子、１１はセント選択部、１２はセント作
成部、１３はセット情報テーブルである。以上のように
構成された音声認識装置について、その動作を説明する
。

まず、話者が最初に使用する際には、音声入力端子１よ
り入力された学習用音声信号を特徴抽出部２で分析し、
特徴パラメータを抽出する。学習用音声信号としては、
標準パターンテンプレート６に含まれている単語音声信
号を用いる。また、分析方法には、たとえばＬＰＧケプ
ストラム法を用いれば、単位時間ごとに所定の個数のケ
ダストラム係数が算出される。

標準パターンテンプレート６には、音声区間分のケプヌ
トラム係数を１単語分とする標準パターンが各単語につ
き複数個含まれており、パターン照合部８で標準パター
ンを入力し、特徴抽出部２で分析された学習音声パター
ンと標準パターンとの距離を算出し、最短距離の標準パ
ターンを選ぶ。

学習用音声信号を入力してから後の以上の過程を標準パ
ターンテンプレート６に含まれる全単語について複数回
繰り返し、セント作成部１２で、単語ごとに、最も選ば
れた回数の多い標準パターンを１セントとして、セント
内の標準パターン番号をセット情報テーブル１３に記録
する。この場合、セット内の標準パターン番号が、以前
に作成されたセント内のパターン番号と半数以上同じで
あれば、新たにセントを作成せずに、以前のセットに残
りの異なるパターン番号だけを追加記録する。

次に認識時には、最初に、話者に適応するセットを選択
するために、選択用音声信号を音声入力端子１より入力
し、信号を特徴抽出部２で分析し、特徴パラメータを抽
出する。選択用音声信号の種類１分析条件は初期学習時
と同様である。

次に、パターン照合部８で、標準パターンテンプレート
６より、標準パターンを入力し、選択用音声パターンの
市街値距離を算出し、最短距離の標準パターン番号とセ
ント情報テーブル１３に記録されている標準パターン番
号を照合し、最短距離の標準パターン番号を含むセント
の使用回数を記録する。選択用音声信号を入力してから
後の過程を全単語につき複数回繰り返し、セント選択部
１１で最も使用回数の多いセントを選択する。この際、
学習時と同数の単語を入力する必要はなく、極端な場合
、各単語につき１回ずつ入力し、セントラ選択しても良
い。また、入力単語の増加に伴って、選択するセット数
を制限しても良い。

次に、認識すべき音声信号を音声入力端子１より入力し
、信号を特徴抽出部２で分析し、特徴パラメータを抽出
する。パターン照合部８で、上記の処理にて選択された
セット内の標準パターンと入力パターンの市街値距離を
算出し、出力端子１ｏより認識結果を出力する。

なお、スイッチ９は、セントを作成する場合にはセット
作成部１２へ、セットを選択する場合にはセント選択部
１１へ、認識する場合には、出力端子１０へ照合結果を
出力するように動作する。

発明が解決しようとする問題点しかしながら、上記のような構成では、学習回数が多く
なると共にセットに含まれる標準パターン数が増加する
可能性が多く、マツチングに時間がかかり、セット化す
る利点がなくなってしまう。

また認識する前に、セントを選択するための選択用音声
を必ず入力しなければならないために、使用時に話者に
負担がかかるという問題点を有していた。

本発明は、上記問題点に鑑み、照合結果の上位Ｎ候補ま
での単語もしくは音節、音韻の出現回数を第１候補の単
語もしくは音節、音韻別に分けてテーブルに記録し、照
合結果の上位Ｎ候補と現在までに出現頻度の多かった単
語もしくは音節、音韻とを比較し、上位Ｎ候補とＭ単語
もしくは音節。

音韻のグループとして記録されている単語もしくは音節
、音韻とが最も多く一致している場合、Ｍ単語もしくは
音節、音韻を認識結果として出力することで、学習回数
の増加に伴って処理時間が増大する、使用時に話者に負
担をかけるという従来装置の問題点を解決し、しかも、
パターンを増加させることなく少数の標準パターンで効
率良く話者の認識率を向上させることができる音声認識
装置を提供するものである。

問題点を解決するための手段この目的を達成するために本発明の音声認識装置は、各
単語もしくは音節、音韻についての複数個の標準パター
ンを有する標準パターンテンプレートと、上記標準パタ
ーンと入力パターンの照合を行い、照合した結果距離の
近かった上位Ｎ４個（以下上位Ｎ、候補と呼ぶ。）の各
標準パターンの出現頻度をテーブルに記録するパターン
照合部と、上記出現頻度を保管しておく出現頻度テーブ
ルと、上記出現頻度情報より認識結果を決定する認識結
果決定部とから構成されている。

作用この構成によって、パターン照合部で、照合結果の上位
Ｎ、候補までの単語もしくは音節、音韻の出現頻度を第
１候補の単語もしくは音節、音韻別にグループ化して出
現頻度テーブルに記録し、認識決定部で、照合結果の上
位Ｎ候補と現在までに出現頻度の多かった単語もしくけ
音節、音韻とを比較し、上位Ｎ候補とＭ単語もしくは音
節、音韻のグループとして記録されている単語もしくは
音節、音韻とが最も多く一致している場合、Ｍ単語もし
くは音節、音韻を認識結果として出力する。

実施例以下、本発明の単語音声認識における実施例について第
１図を参照しながら説明する。第１図において、１は音
声入力端子、２は特徴抽出部、３はパターン照合部、４
は認識結果決定部、５は認識結果出力端子、６は標準パ
ターンテンプレート、７は出現頻度テーブルであり、従
来例と同じものは同一の番号を付与している。

以上のように構成された音声認識装置について以下その
動作について第１図、第２図を用いて説明する。

まず、話者が最初に使用する際には、音声入力端子１よ
り入力（処理２１）された学習用音声信号を特徴抽出部
２で分析しく処理２２）、特徴パラメータを抽出する。

学習用音声信号としては、標準パターンテンプレート６
に含まれている単語音声信号を用いる。また、分析方法
には、たとえばＬＰＧケプストラム法を用いれば、単位
時間ごとに所定の個数のケプストラム係数が算出される
０標準パターンテンプレート６には、音声区間分のケプ
ストラム係数を１単語分とする標準パターンが各単語に
つき単数または複数個含まれており、パターン照合部３
で標準パターンを入力し、特徴抽出部２で分析された学
習音声パターンと標準パターンとの距離を算出し、距離
の近い上位Ｎ、候補の単語番号を、第１候補の単語番号
別に出現頻度テーブル７に記録する（処理２６）ｏ（以
下、上記処理によりグループ化された各々の単語の集ま
りを単語グループと呼ぶ。）学習用音声信号を入力してから後の以上の課稈を、標準
パターンテンプレートに含まれる全単語について複数大
分で複数回繰り返す。

次に認識時には、認識すべき音声信号を音声入力端子１
より入力しく処理２１）、信号を特徴抽出部２で分析し
、特徴パラメータを抽出しく処理２２）、パターン照合
部３で、標準パターンと入力パターンの距離を算出する
（処理２３）。認識結果決定部４で、照合した結果の第
１候補単語距離と第２候補単語距離を比較しく処理２６
）、距離差が一定値以上であれば、従来通り第１候補単
語を認識結果として認識結果出力端子５より出力する（
処理３２．処理３６）。

しかしながら、距離差が一定値以下であれば、まず第１
候補単語の単語グループの中から、出現頻度の多い単語
を複数個選出しく処理２８）、選出された単語と第Ｎ候
補までの単語を比較し、同単語の個数を数える（処理２
９）。同単語の個数が一定値以上であれば第１候補の単
語を認識結果として出力端子５より出力しく処理３４）
（処理３６）、一定値以下であれば第２候補の単語グル
ープについて上記処理（処理２８．処理２９．処理３４
）を繰り返し、同単語の個数が一定値以下であれば、第
３候補の単語グループと比較する。

上記処理を第Ｎ候補まで繰り返した結果、常に同単語の
個数が一定値以下であれば相当する標準パターンは存在
しないとみなして、認識不可能という結果を出力端子５
より出力する（処理３３゜処理３５）。

以上のように本実施例によれば、話者が最初に使用する
際に、パターン照合部３で照合結果の上位Ｎ候補までの
単語の出現頻度を第１候補の単語別にテーブルに記録し
、認識時に認識決定部４で照合結果の上位Ｎ候補単語と
上位Ｎ候補の単語グループ中で出現頻度が多かった単語
を比較し、上位Ｎ候補と同単語を単語グループ中に一定
個数以上含んでいる単語を認識結果として出力すること
により、学習回数の増加に伴って処理時間が増大する、
使用時に話者に負担をかけるという従来装置の問題点を
解決し、しかも、パターンを増加させることなく少数の
標準パターンで効率良く話者の認識率を向上させること
ができる。

発明の効果本発明は、話者が最初に使用する際に、パターン照合部
で、照合結果の上位Ｎ、候補までの単語もしくは音節、
音韻の出現頻度を第１候補の単語もしくは音節、音韻別
にグループ化して出現頻度テーブルに記録し、認識決定
部で、照合結果の上位Ｎ候補と現在までに出現頻度の多
かった単語もしくは音節、音韻とを比較し、上位Ｎ候補
とＭ単語もしくは音節、音韻のグループとして記録され
ている単語もしくは音節、音韻とが最も多く一致してい
る場合、Ｍ単語もしくは音節、音韻を認識結果として出
力することにより、学習回数の増加に伴って処理時間が
増大する、使用時に話者に負担をかけるという従来装置
の問題点を解決し、しかも、パターンを増加させること
なく少数の標準パターンで効率良く話者の認識率を向上
させることができる。さらに、認識決定部で、第１候補
と第２候補の距離が一定値以上の場合は第１候補を認識
結果として出力し、一定値以下の場合のみ上位Ｎ候補と
テーブル内の単語もしくは音節、音韻との比較結果を認
識結果として出力することにより、少数の標準パターン
においてもより確実に効率良く認識率を向上させること
ができる優れた音声認識装置を実現するものである。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識装置のブロ
ック図、第２図は本発明の一実施例における音声認識処
理のフローチャート、第３図は従来例における音声認識
装置のブロック図である。１・・・・・・音声入力端子、２・・・・・・特徴抽出
部、３・・・・・・パターン照合部、４・・・・・・認
識決定部、５・・・・・・認識結果出力端子、６・・・
・・・標準パターンテンプレート、７・・・・・・出現
頻度テーブル。代理人の氏名　弁理士　中　尾　敏　男　ほか１名第１
図第　２　図

Claims

【特許請求の範囲】

（１）各単語もしくは音節、音韻についての単数または
複数個の標準パターンを有する標準パターンテンプレー
トと、上記標準パターンと入力パターンの照合を行い、
照合した結果、音響距離の近かつた上位Ｎ＿１個（以下
上位Ｎ＿１候補と呼ぶ）の標準パターンの出現頻度をテ
ーブルに記録するパターン照合部と、上記出現頻度を保
管しておく出現頻度テーブルと、上記出現頻度情報より
認識結果を決定する認識結果決定部とを具備し、前記パ
ターン照合部で、照合結果の上位Ｎ＿１候補までの単語
もしくは音節、音韻の出現頻度を第１候補の単語もしく
は音節、音韻別にグループ化して出現頻度テーブルに記
録し、前記認識決定部で、照合結果の上位Ｎ候補と現在
までに出現頻度の多かった単語もしくは音節、音韻とを
比較し、上位Ｎ候補とＭ単語もしくは音節、音韻のグル
ープとして記録されている単語もしくは音節、音韻とが
最も多く一致している場合、Ｍ単語もしくは音節、音韻
を認識結果として出力することを特徴とする音声認識装
置。
（２）認識決定部で、第１候補と第２候補の音響距離が
一定値以上の場合は第１候補を認識結果として出力し、
一定値以下の場合のみ上位Ｎ候補とテーブル内の単語も
しくは音節、音韻との比較結果を認識結果として出力す
ることを特徴とする特許請求の範囲第１項記載の音声認
識装置。