JPS63218999A

JPS63218999A - 音声認識装置

Info

Publication number: JPS63218999A
Application number: JP5251787A
Authority: JP
Inventors: 別所　由実; 博之直野
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1987-03-06
Filing date: 1987-03-06
Publication date: 1988-09-12

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、各単語もしくは音節、音韻につき、単数また
は複数個の標準パターンテンプレートを持つ音声認識装
置に関するものである。

従来の技術不特定話者に対応させるために、各単語もしくは音節、
音韻につき、複数個の標準パターンを用いる方法は有効
な方法である。上記方法では、より多くの話者に対応し
たり、同話者であっても話者の発声状態が時間の経過と
共に変化した場合に対応するために、初期標準パターン
に、より最適なパターンを追加することが考えられる。

しかしながら、追加した結果、パターン数が増加し、逆
に異なる単語もしくは音節、音韻間の標準パターンの重
複が多くなり誤認識の原因となることと、入力とのマツ
チングに必要な処理時間が長くなるという不都合とがあ
る。従来の音声認識装置では、上記問題点を解決するた
め、学習の際に、話者ごとに複数回音声を入力すること
により用いるべき標準パターンを選択し選択されたパタ
ーンをセット化しておき、認識の際には、学習の際より
も少ない音声入力でセット化された標準パターンを選択
し、選択された標準パターンを対象に認識を行うという
方法がとられた。以上の方法により、話者に適応した標
準パターンのみを使用することで、マツチングに必要な
処理時間が短くなシ、標準パターンを増加させずに前記
話者に対する認識率を向上させることが可能となる（た
とえば、特願昭５８−６７３２１）。

以下、図面を参照しながら、上述したような従来の音声
認識装置について説明を行う。第３図は、従来の音声認
識装置のブロック図である。第３図において、１は音声
入力端子、２は特徴抽出部、１１はパターン照合部、１
６は認識結果出力端子、１３はセット選択部、１４はセ
ット作成部、９は標準パターンテンプレート、１６はセ
ット情報テーブル、１２はスイッチである。以上のよう
に構成された音声認識装置について、その動作を説明す
る。

まず、話者が最初に使用する際には、音声入力端子１よ
シ入力された学習用音声信号を特徴抽出部２で分析し、
特徴パラメータを抽出する。学習用音声信号としては、
標準パターンテンプレート９に含まれている単語音声信
号を用いる。また、分析方法には、たとえばＬＰＣケプ
ストラム法を用いれば、単位時間ごとに所定の個数のケ
プストラム係数が算出される。

標準パターンテンプレート９には、音声区間分のケプス
トラム係数を１単語分とする標準ノくターンが各単語に
つき複数個含まれており、ノ（ターン照合部１１で標準
パターンを入力し、特徴抽出部２で分析された学習音声
パターンと標準）（ターンとの距離を算出し、最短距離
の標準、Ｓターンを選ぶ。学習用音声信号を入力してか
ら後の以上の過程を標準パターンテンプレート９に含ま
れる全単語について複数回繰り返し、セット作成部１４
で、単語ごとに、最も選ばれた回数の多い標準）くター
ンを１セツトとして、セット内の標準ノくターン番号を
セット情報テーブル１６に記録する。この場合、セット
内の標準パターン番号が、以前に作成されたセット内の
パターン番号と半数以上同じであれば、新たにセットを
作成せずに、以前のセットに残りの異なるパターン番号
だけを追加記録する。

次に認識時には、最初に、話者に適応するセットを選択
するために、選択用音声信号を音声入力端子１より入力
し、信号を特徴抽出部２で分析し、特徴パラメータを抽
出する。選択用音声信号の種類２分析条件は初期学習時
と同様である。

次に、パターン照合部１１で、標準パターンテンプレー
ト９より、標準パターンを入力し、選択用音声パターン
の市街値距離を算出し、最短距離の標準パターン番号と
セット情報テーブル１６に記録されている標準パターン
番号を照合し、最短距離の標準パターン番号を含むセッ
トの使用回数を記録する。選択用音声信号を入力してか
ら後の過程を全単語につき複数回繰り返し、セット選択
部１３で最も使用回数の多いセットを選択する。

この際、学習時と同数の単語を入力する必要はなく、極
端な場合、各単語につき１回ずつ入力し、セットを選択
しても良い。また、入力単語の増加に伴って、選択する
セット数を制限しても良い。

次に、認識すべき音声信号を音声入力端子１より入力し
、信号を特徴抽出部２で分析し、特徴ノくラメータを抽
出する。パターン照合部１１で、上記の処理にて選択さ
れたセット内の標準ノくターンと入力パターンの市街値
距離を算出し、出力端子１６より認識結果を出力する。

なお、スイッチ１２は、セットを作成する場合にはセッ
ト作成部１４へ、セットを選択する場合にはセット選択
部１３へ、認識する場合には、出力端子１５へ照合結果
を出力するように動作する。

発明が解決しようとする問題点しかしながら、上記のような構成では、学習回数が多く
なると共にセットに含まれる標準ノくターン数が増加す
る可能性が多く、マツチングに時間がかかり、セット化
する利点がなくなってしまう。

また認識する前に、セットを選択するための選択用音声
を必ず入力しなければならないために、使用時に話者に
負担がかかるという問題点を有していた。

本発明は、上記問題点に鑑み、照合結果の全標準パター
ンとの距離値をテーブルに保管し、パターン照合結果の
距離値と現在までにテーブルに保管された距離値との照
合を行い、距離値照合結果より認識結果を決定すること
により、学習回数の増加に伴って処理時間が増大する、
使用時に話者に負担をかけるという従来装置の問題点を
解決し、しかも、パターンを増加させることなく少数の
標準パターンで効率良く話者の認識率を向上させること
ができる音声認識装置を提供するものである。

問題点を解決するだめの手段この目的を達成するために、本発明の音声認識装置は、
各単語もしくは音節、音韻についての単数または複数個
の標準パターンを有する標準パターンテンプレートと、
上記標準パターンと入力パターンの照合を行い、照合結
果の距離値をテーブルに記録するパターン照合部と、上
記距離値を記録しておく距離テーブルと、上記距離テー
ブル内の距離値と上記パターン照合結果の距離値の照合
を行う距離値照合部と、距離値照合結果より認識結果を
決定する認識結果決定部とから構成されている。

作　　用この構成によって、パターン照合部で、照合した後入力
パターンと全標準パターンとの距離値を、照合した結果
量も距離の近かった単語もしくは音節、音韻（以下第１
候補と呼ぶ。）別に距離テーブルに記録し、距離値照合
部で、パターン照合結果の距離値の一部もしくは全部と
現在までに上記方法にて記録された距離テーブル内の距
離値の一部もしくは全部との照合を行い、認識決定部で
、距離値間の距離が最も小さい単語もしくは音節。

音韻を認識結果を決定し出力する。

実施例以下、本発明の単語音声認識における実施例について第
１図を参照しながら説明する。第１図において、１は音
声入力端子、２は特徴抽出部、３はパターン照合部、４
はテーブル信頼度判定部、５はスイッチ、６は距離値照
合部、７は認識結果決定部、８は認識結果出力端子、９
は標準パターンテンプレート、１０は距離テーブルであ
り、従来例と同じものは同一の番号を付与している。

以上のように構成された音声認識装置について以下その
動作について説明する。

認識時に、まず、音声入力端子１より入力（処理２１）
された音声信号を特徴抽出部２で分析しく処理２２）、
特徴パラメータを抽出する。音声信号としては、標準パ
ターンテンプレート９に含まれている単語音声信号を用
いる。また、分析方法には、たとえばＬＰＣケプストラ
ム法を用いれば、単位時間ごとに所定の個数のケプヌト
ラム係数が算出される。標準パターンテンプレート９に
は、音声区間分のケプヌトラム係数を１単語分とする標
準パターンが各単語につき単数または複数個含まれてお
り、パターン照合部３で標準パターンを入力し、特徴抽
出部２で分析された音声パターンと標準パターンとの距
離を算出する（処理２３）。

入力された音声が、初めて入力された単語である場合は
、算出された全距離値を第１候補の単語番号別に距離テ
ーブル１ｏに記録しく処理２６）、２回目以上の場合に
は、算出された全距離値と過去に上記処理にてテーブル
に記録された距離値との平均距離値を算出しく処理２６
）、距離テーブル１０内の距離値を上記平均距離値に書
き換える（処理２６）。この際に、現在までに距離テー
ブルに記録した回数を単語別に数え、記録回数も距離テ
ーブル１０に記録しておく。

次にテーブル信頼度判定部４で、距離テーブル１ｏへの
記録回数が、全単語において一定値以上であるかどうか
を調べ（処理２７）、一定値以下の単語が存在する場合
は、距離値データネ足とみなし、゛距離値間の照合を行
わずに、パターン照合結果の第１候補を認識結果として
出力する。

全単語において一定値以上の場合には、距離値照合部６
で、パターン照合部３にて算出された全距離値と距離テ
ーブル１０内の距離値との照合を単語別に行う（処理２
８）。照合はたとえば距離値開の市街地距離を算出する
場合には次の方法で行う。

距離値テーブル１０内の距離値データを次式で表し、Ｘ１＝（ｘｌｉ、ｘ２ｉ　　−−・　ｚｎｉ）（但し、
ｉｗｌ、２　　・・・　ｍ）ｘｉ：単語ｉの各標準パターンとの距離値ｘｉＬ　：単
語１と標準パターンｊとの距離値ｍ：全単語数ｎ：全標準パターン数一方、照合結果の、入力パターンと標準パターンの距離
値Ｙを次式で表すと、Ｙ−（ｙｌ　、ｙ２．・・・　ｙｎ　）単語ｉとの距離
値間の市街地距離Ｄｉは次式で表され、全単語分ｍ個の市街地距離が算出される。

次に、認識結果決定部７で、全単語分の距離値間の市街
地距離の中で最短距離の単語を認識結果と決定する（処
理２９）。つまシ、Ｄｉ＝ｍｉｎ（Ｄｏ、ＤＩ、Ｄ２．　・−Ｄｍ）ｉ：認
識単語となシ、結果を出力端子８よシ出力する（処理３０）。

またスイッチ５は、距離値照合を行わない場合には結果
を出力端子８に、距離値照合を行う場合には距離値照合
部６に結果を出力するように動作する。

以上のように、本実施例によれば、パターン照合部で照
合した後、入力パターンと全標準パターンとの距離値を
、第１候補単語別に距離テーブルに記録し、距離テーブ
ルに一定回数以上のデータが記録されると、距離値照合
部で、パターン照合結果の距離値の一部もしくは全部と
現在までに上記方法にて保管された距離テーブル内の距
離値の一部もしくは全部との照合を単語ごとに行い、認
識決定部で、距離値間の距離が最も小さい単語を認識結
果を決定し出力することによシ、学習回数の増加に伴っ
て処理時間が増大する、使用時に話者に負担をかけると
いう従来装置の問題点を解決し、しかも、パターンを増
加させることなく少数の標準パターンで効率良く話者の
認識率を向上させることができる。

発明の効果本発明は、パターン照合部で、照合した後入力パターン
と全標準パターンとの距離値を、第１候補の単語もしく
は音節、音韻別に距離テーブルに保管し、距離値照合部
で、パターン照合結果の距離値の一部もしくは全部と現
在までに上記方法にて保管された距離テーブル内の距離
値の一部もしくは全部との照合を行い、認識決定部で、
距離値間の距離が最も小さｂ単語もしくは音節、音韻を
認識結果を決定し出力することによシ、学習回数の増加
に伴って処理時間が増大する、使用時に話者に負担をか
けるという従来装置の問題点を解決し、しかも、パター
ンを増加させることなく少数の標準パターンで効率良く
話者の認識率を向上させることが可能となる優れた音声
認識装置を実現するものである。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識装置のブロ
ック図、第２図は本発明の一実施例における音声認識処
理のフローチャート、第３図は従来例における音声認識
装置のブロック図である。１・・・・・・音声入力端子、２・・・・・・特徴抽出
部、３・・・・・・パターン照合部、４・・・・・・テ
ーブル信頼度判定部、６・・・・・・スイッチ、６・・
・・・・距離値照合部、７・・・・・・認識結果決定部
、８・・・・・・認識結果出力端子、９・・・・・・標
準パターンテンプレート、１０・・・・・・距離テーブ
ル０代理人の氏名　弁理士　中　尾　敏　男　ほか１名第１
図第２図

Claims

【特許請求の範囲】

各単語もしくは音節、音韻についての単数または複数個
の標準パターンを有する標準パターンテンプレートと、
上記標準パターンと入力パターンの照合を行い、照合結
果の距離値をテーブルに記録するパターン照合部と、上
記距離値を記録しておく距離テーブルと、上記距離テー
ブル内の距離値と上記パターン照合結果の距離値の照合
を行う距離値照合部と、距離値照合結果より認識結果を
決定する認識結果決定部とを具備し、上記パターン照合
部で照合した後、入力パターンと全標準パターンとの距
離値を距離テーブルに記録し、距離値照合部で、パター
ン照合結果の距離値の一部もしくは全部と現在までに上
記方法にて記録された距離テーブル内の距離値の一部も
しくは全部との照合を行い、認識決定部で、距離値照合
結果より認識結果を決定することを特徴とする音声認識
装置。