JPS6383800A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6383800A
JPS6383800A JP61230342A JP23034286A JPS6383800A JP S6383800 A JPS6383800 A JP S6383800A JP 61230342 A JP61230342 A JP 61230342A JP 23034286 A JP23034286 A JP 23034286A JP S6383800 A JPS6383800 A JP S6383800A
Authority
JP
Japan
Prior art keywords
pattern
speech
standard
matching
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61230342A
Other languages
English (en)
Inventor
武志 則松
別所 由実
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP61230342A priority Critical patent/JPS6383800A/ja
Publication of JPS6383800A publication Critical patent/JPS6383800A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、標準パターンと入力音声パターンとのパター
ンマツチングにより認識結果を導き出す音声認識装置に
関するものである。
従来の技術 一般に、音声認識装置では、入力音声パターンと辞書に
蓄えられた各標準パターンとの類似度をそれぞれ計算し
、類似度の最大となる標準パターン全認識結果とする方
法が行なわれている。二つの音声パターンの類似度を計
算するためには動的計画法(ダイナミック プログラミ
ング法)を用いて、二つのパターンの時間軸ヲ非線形に
伸縮するパターンマツチング(以下、DPマッチンクト
記す。)が使用されている。特に、単語音声認識装置で
は、このDPマツチング法により高い認識率2得ている
(例えば、「ダイナミック プログラミング オプティ
ミゼイション フォ スポークン ワード レコダ= 
シ、 :y J (H,5akoa ands、chi
ba、”Dynamic progr&mmm1n o
ptimizationfor 5porkan vr
ord recognition”、 IEICEtr
ans、Acoustic、5peech、Signa
l Processing。
マo1.ASSP−27pp、336−349.197
9))。
発明が解決しようとする問題点 しかしながら上記の音声認識装置では、スペクトルの形
状のみによるパターンマツチングを行うため、異なった
音声パターン間のDPマツチングにおいても、極端な時
間軸の非線形伸縮のため両者の距離が小さくなる場合が
あり、誤認識を生じる原因となっていた。例えば、「大
阪]と「大分」とはエネルギー系列で見ると、前者は三
つ、後者は二つのエネルギーの山があり明らかに異なっ
た二つのパターンであるが、音韻的には似通っているた
めDPマツチングによシ距離が小さくなってしまう。
また、類似した音声パターン間のDPマツチングでは、
音声パターン全体に渡ってDPマツチングを行なうため
、両者間の違いが埋もれてしまい、その結果、パターン
間の距離が小さくなり誤認識を生じやすいという問題点
を有していた。
また、認識対象外単語が入力された時にも標準パターン
の一つにマツチングしてしまい、対象外単語のりジェク
ト性能には限界があった。
本発明は上記問題点に鑑み、類似音声パターン間での誤
認識および極端なりPマツチングによる誤認識全極力抑
え、さらに認識対象外単語が入力された時のりジェクト
性能を高めることのできる音声認識装置を提供するもの
である。
問題点を解決するための手段 上記問題点を解決するために本発明の音声認識装置は、
入力音声からエネルギー系列を含む特徴ベクトルの時系
列を出力する音声分析部と、前記特徴ベクトルの時系列
をあらかじめ標準パターンとして記憶しておくパターン
記憶手段と、前記音声分析部から出力されるエネルギー
系列から、音声パターン中の音声部分と無音声部分を判
別し、無音声区間の個数およびそのフレーム位置を検出
する無音声区間検出手段と、音声パターンの語頭部ある
いは語尾部が欠落する標準パターンに関して、欠落のな
いパターンを代表パターンとし、欠落のあるパターンの
標準パターンは代表パターンの一部として管理するパタ
ーン管理手段と、統計的性質から得られる標準パターン
各々の無音声区間の最も確かな順位付けを、あらかじめ
無音声区間の優先順位テーブルとして記憶する無音声情
報記憶手段と、無音声区間点の優先順位に従って無音声
区間のフレーム位置の交点をマツチングバスが必ず通過
するように制限を加えたパターンマツチングを行ない、
両者間の距離を算出する分割マツチング手段と、無音声
区間点の優先順位を決定できない標準パターンと入力音
声パターンとの間では入力音声との間でパターン全体に
渡ったパターンマツチングを行い距離を算出するパター
ンマツチング手段とを備えたものである。
作用 本発明は上記した構成によって、あらかじめ語頭9語尾
の欠落する可能性のあるパターンを標準パターンの一部
として管理し、各標準パターン中の無音声区間を検出し
最も確実な無音声区間点から順位すけをしたテーブルを
一つ或は複数個ずつ持ち、入力音声パターンと標準パタ
ーンとの間で無音声区間のフレーム位置を合わせて必ず
その交点をマツチングパスが通過するように制限をした
パターンマツチングを行ない、また無音声区間点の検出
が不安定な標準パターンとの間では両パターンの始点同
志、終点同志のみを合わせたパターンマツチングを行い
認識結果を導き出す事により、類似パターン間の誤認識
および極端なマツチングによる誤認識を極力抑えること
ができ、さらに認識対象外単語が入力された時には極力
リジェクトすることができる。
実施例 以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。
第1図は本発明の一実施例における音声認識装置のブロ
ック図である。第1図において、1は音声入力部で、話
者の音声がマイクロホン、電話機のハンドセット等を通
して入力される。2は音声分析部で、入力された音声信
号から特徴ベクトルの時系列を抽出する。3id無音声
区間検出手段で、音声のエネルギー系列から無音声区間
部分を検出する。4は無音声情報記憶手段で、各標準パ
ターンの無音声区間を多数の音声データより統計的手段
等で一つ或は複数個の順位すけを行ない無音声区間の優
先順位テーブルとして記憶する。6は標準パターンの特
徴ベクトルの時系列を記憶するパターン記憶手段、6は
パターン記憶手段5で記憶された各標準パターンを管理
するパターン管理手段、7は入力パターンと各標準パタ
ーンとの間で経路制限をしたパターンマツチングを行う
分割マツチング手段、8は無音声区間点の優先順位を決
定できない標準パターンと入力パターンの間でパターン
マツチング全行うパターンマツチング手段、9は認識候
補音声をLED等に表示、あるいは合成音声で結果を知
らせる認識結果出力部である。
第2図は本実施例の構成を示す回路図で、上記の無音声
区間検出手段3.無音声情報記憶手段4゜パターン記憶
手段6.パターン管理手段69分割マツチング手段了、
パターンマツチング手段8をマイクロコンピュータ2o
で実現したものである。
第2図において、10は音声の入力を行なうマイクロホ
ン、11はマイクロホン10から入力された音声信号を
アナログ−ディジタル変換するアナログ/ディジタル変
換器(以下ム/D変換器という)である。12は音声の
特徴ベクトルの抽出、および無音声区間の検出を行う特
徴抽出部、13は入力音声の特徴ベクトルの時系列を記
憶する入力パターンメモリ、14は標準パターン音声の
特徴ベクトルの時系列を記憶する標準パターンメモリ、
15は各標準パターンを管理する標準パターン管理テー
ブル、16は各標準パターンと入力パターンとの類似度
を計算するマツチング計算部。
1了は認識候補音声の合成音声を作り出す音声合成回路
、18は音声合成出力を増幅する増幅器、19はスピー
カである。
第3図は本実施例のマイクロコンピュータの動作を説明
するための要部フローチャートである。
以上の構成による本実施例の動作を、第3図のフローチ
ャートに溢って詳細に説明する。
まず、マイクロホン10から音声を入力し、ム/D変換
器11で音声信号をアナログ−ディジタル変換したあと
、特徴抽出部12で音声パターンの特徴ベクトル(例え
ば、10次元の線形予測係数)の時系列とエネルギー系
列を求め、入力パターンメモリ13に記憶する。
次に、ステップ21で入力パターンメモリ13に記憶さ
れたエネルギー系列からエネルギー値がしきい値を下回
る区間が一定時間で。を超える区間を無音声区間として
検出し、無音声区間の個数と各無音声区間の最終フレー
ム位置を記憶する。
なお、あらかじめ各標準パターンの特徴ベクトルの時系
列が標準パターン管理テーブル15に、各標準ハターン
のメモリ配置、フレームの長す、各標準パターンに対応
した無音声区間の個数とフレーム位置及び、その優先順
位が蓄えられているものとする。また、標準パターン管
理テーブル16の中では、発音により語頭9語尾の不安
定な標準パターンについては欠落のない標準パターンを
代表パターンとし、その部分パターンを欠落の生じた標
準パターンとして別に管理している。そのたメ、標準パ
ターンメモリ14には代表パターンタけが登録されてい
る。
ステップ22では、標準パターン管理テーブル15に従
って標準パターンをマツチング計算部16に出力する。
次にステップ23で出力された標準パターンに優先順位
の確定した無音声区間点が存在するかを調べ、存在する
場合にはステップ24に進む。
ステップ24では入力パターンの無音区間数1、と標準
パターンの無音区間数JMとを比較する。工、65Mの
時は、ステップ26に進み、入力音声の無音声区間のフ
レーム位置を標準パターン管理テーブル15の優先順位
に従って標準パターンの無音声区間のフレーム位置とを
一致させる。
ここでは入力パターンに一つ、標準パターンに三つ最も
確からしい無音声区間が存在する場合について説明する
入力パターンのフレーム長を工、その無音声区間の最終
フレーム位置ix、、標準パターンのフレーム長をJ、
その各無音声区間の最終フレーム位置kJ1sJ2aJ
3とする。ここで優先順位の最も高いフレームを51 
とすると、入力パターンの工、フレームと標準ハターン
の31 フレームとを対応ずければよい。
そこで、ステップ2eでは、 o (i (工  かつ J、<コ≦Jまたは 工、<i≦工 かつ O<j<J。
の条件を満たす入力パターンの第1フレームと標準ハタ
ーンの第1フレームとの特徴ベクトル間の距離を無限大
にセットする。ステップ26の設定が終ると、ステップ
25により入力パターンと標準パターン間でDPマツチ
ングを行ない、両者間の距離を算出する。ここで得られ
る距離は、入力パターンの第工、フレームと標準パター
ンの第51 フレームの交点をマツチングバスが必ず通
過するように制限を加えたDPマツチングを行なった時
に得られる結果である。ここで、入力パターンの第工、
フレームと標準パターンの第1フレームの交点が整合窓
の範囲を磐える場合は両者のDPマツチングは不可能で
あるため、この標準パターンは認識候補からはずす。こ
の後、ステップ26で標準パターン管理テーブル15よ
り他の優先順位が存在するかを調べ、存在するときはそ
の優先順位に従ってステップ23からの処理を続ける。
存在しないときは別の標準パターンとのマツチング行な
うため、ステップ29で標準パターンが最終かどうかを
判定し、最終でなければステップ22に戻り、他の標準
パターンについて同様の処理を続ける。
ステップ23で、マツチング計算部16にロードされた
標準パターンに無音声区間が存在しない、部ち無音声区
間の出現の仕方が不安定であり、優先順位を決定するこ
とができない場合には、入力音声バタニンの無音声区間
の個数にかかわらず、まずステップ31に進み、入力音
声パターンと標準パターンの始点同志及び終点同志のみ
を合わせる。その後ステップ32に進み、DPマツチン
グを実行し両者間の距離を算出しステップ29に進む。
ステップ29の条件を満足すると、ステップ3oでステ
ップ27.ステップ32で得られた距離値のうち最小値
を与える標準パターンを認識候補音声と判定し、認識候
補音声に対応した合成音声を音声合成回路17により作
り出し、増幅器18、スピーカ19を介して出力する。
なお、本実施例では、入力パターンの無音声区間の個数
が1個の場合について説明したが、無音声区間が2個以
上存在する場合にも、エラ≦JMであれば無音声区間テ
ーブルに従って同様の処理を行なうことができる。例え
ば、標準パターン。
入力音声パターンの無音声区間の個数が各々3゜2の場
合、無音声区間テーブルの順位に従った上位2個に一致
させる。また、入力音声について無音声区間の順位ずけ
が多段に設定されたしきい値等に依って順位ずけられる
場合、前後の順位には関係なく無音声区間テーブル、及
び入力音声から得られる入力音声の無音声区間の順位ず
けをされた無音声区間候補の上位からDPパス上の交点
2決め、あるいは第1番目の候補からの交点を決め、次
に時間的順序に従って他の交点を決める事も可能である
以上のように本実施例によれば、音声パターン中の無音
声区間を検出する無音声区間検出手段と標準パターン管
理手段を持ち、無音声区間点の出現の仕方が安定してお
シ優先順位が決定できる標準パターンについては、各標
準パターンにつイテ決定した一つ或は複数個の優先順位
に従って入力パターント標準ハターンの無音声区間のフ
レーム位置の交点を通過するように制限を加えたDPマ
ツチングを行なうことにより、入力パターンの語頭2語
尾が欠落した場合や無音区間の検出の一部を誤った場合
でも最適なマツチングを行うことができ、極端なマツチ
ングによる誤認識、および音韻的に類似したパターン間
の誤認識を減少させることができる。
また、無音声区間点の出現の仕方が不安定で優先順位を
決定できない標準パターンについては、パターン全体に
渡ったDPマツチングを行うことにより誤認識を防止す
ることができる。
発明の効果 以上のように本発明は、音声パターン中の無音声区間の
個数とそのフレーム位置を検出する無音声区間検出手段
と、語頭1語尾が欠落する可能性のある標準パターンを
代表パターン−つで管理するパターン管理手段と、無音
声区間の出現の仕方が安定しておりその優先順位を決め
ることの出来る標準パターンについて、標準パターンご
とに無音声区間の優先順位を一つ或は複数個定め管理す
る無音声情報記憶手段とを持ち、無音声区間の優先順位
に従って入力パターンと標準パターンで無音声区間のフ
レーム位置を合わせ、その交点をマツチングパスが必ず
通過するように制限したDPマツチングを行ない、また
、無音声区間の出現の仕方が不安定で優先順位の決定で
きない標準パターンについては、入力音声パターンと標
準パターンとの始点同志、終点同志のみを合わせたパタ
ーンマツチングを行い距離の最小となる標準パターンを
認識結果として導き出すことにより、同単語間では二つ
のパターンを最適にマツチングパス、異単語間では極端
なマツチング音生じさせることになり、音韻の類似した
パターン間での誤認識、および極端なマツチングによる
誤認識を極力抑えることのでき、また認識対象外単語が
入力された時には極力リジェクトすることのできる音声
認識装置を提供することができる。また無音声区間の優
先順位を一義的に決定できないパターンや、発f の仕
方によって無音区間数の異なるパターンについても精度
良く認識する事ができる。さらに、無音声区間の出現の
仕方の不安定な標準パターンについては、パターン全体
に渡ったDPマツチングを行うことによシ誤った無音声
区間点を対応ずけたときにおこる誤認識を防止すること
ができる。
【図面の簡単な説明】
第1図は本発明の一実施例における音声認識装置の構成
を示すブロック図、第2図は同装置の構成を示す回路図
、第3図は同装置の動作説明のための要部フローチャー
トである。 3・・・・・・無音声区間検出手段、4・・・・・・無
音声情報記憶手段、5・・・・・・パターン記憶手段、
6・・・・・・パターン管理手段、7・・・・・・分割
マツチング手段、8・・・・・・パターンマツチング手
段、10・・・・・・マイクロポン、13・・・・・・
入力パターンメモリ、14・・川・標準パターンメモリ
、16・・・・・・標準パターン管理テーブル、16・
・・・・・マツチング計算部、1了・川・・音声合成回
K、20・・・・・・マイクロコンピュータ。

Claims (1)

    【特許請求の範囲】
  1. 入力音声からエネルギー系列を含む特徴ベクトルの時系
    列を出力する音声分析部と、前記音声分析部から出力さ
    れるエネルギー系列から音声パターン中の音声部分と無
    音声部分を判別し、無音声区間の個数およびそのフレー
    ム位置を検出する無音声区間検出手段と、前記音声分析
    部から得られる特徴ベクトルの時系列をあらかじめ標準
    パターンとして記憶しておくパターン記憶手段と、音声
    パターンの語頭部あるいは語尾部が欠落する標準パター
    ンに関して、欠落のないパターンを代表パターンとし、
    欠落のあるパターンの標準パターンは代表パターンの一
    部分として管理するパターン管理手段と、前記パターン
    記憶手段と前記パターン管理手段により記憶、管理され
    た各標準パターンについて前記無音声区間検出手段より
    得られる無音声区間のフレーム位置を、音声認識対象単
    語各々の多数の音声データの統計的性質から得られる最
    も確実な無音声区間点から順位付けを行い、また一義的
    に順位付けを決定できない標準パターンに対しては可能
    な複数種類の順位付けを行い、あらかじめ無音声区間の
    優先順位テーブルとして記憶する無音声情報記憶手段と
    、前記パターン記憶手段により蓄えられた無音声区間の
    優先順位の確定している各標準パターンと入力パターン
    との間で、前記無音声情報記憶手段に記憶された各標準
    パターンの最も確実な無音声区間点から順に入力パター
    ンの最も確実な無音声区間点とそのフレーム位置を一致
    させパターンマッチングを行い両者間の距離を算出する
    分割マッチング手段と、前記無音声情報記憶手段で無音
    声区間点の順位付けを決定することができない標準パタ
    ーンに対しては、入力音声との間でパターン全体に渡っ
    たパターンマッチングを行い両者の距離を算出するパタ
    ーンマッチング手段とを備えたことを特徴とする音声認
    識装置。
JP61230342A 1986-09-29 1986-09-29 音声認識装置 Pending JPS6383800A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61230342A JPS6383800A (ja) 1986-09-29 1986-09-29 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61230342A JPS6383800A (ja) 1986-09-29 1986-09-29 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6383800A true JPS6383800A (ja) 1988-04-14

Family

ID=16906345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61230342A Pending JPS6383800A (ja) 1986-09-29 1986-09-29 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6383800A (ja)

Similar Documents

Publication Publication Date Title
US7272561B2 (en) Speech recognition device and speech recognition method
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
US4513436A (en) Speech recognition system
US5159637A (en) Speech word recognizing apparatus using information indicative of the relative significance of speech features
JPS6383800A (ja) 音声認識装置
JPH04369698A (ja) 音声認識方式
JPS62111295A (ja) 音声認識装置
JPS6129897A (ja) パタ−ン比較装置
JPH0228160B2 (ja)
JPS6247100A (ja) 音声認識装置
JPH06100920B2 (ja) 音声認識装置
JPS6312000A (ja) 音声認識装置
JPH0534679B2 (ja)
JPS59224900A (ja) 音声認識方法
JPH0316038B2 (ja)
JPH0335297A (ja) 有音・無音検出方式
JPS61138298A (ja) 音声認識装置
JPS63259689A (ja) 音声認識応答装置
JPH0449719B2 (ja)
JPS5977500A (ja) 単語音声認識方式
JPS61277999A (ja) 音声認識装置
JPH0449954B2 (ja)
JPS63173100A (ja) キ−ワ−ド抽出装置
JPS62118398A (ja) 単語認識装置
JPH01321498A (ja) 音声認識装置