JPS62111295A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS62111295A
JPS62111295A JP60251279A JP25127985A JPS62111295A JP S62111295 A JPS62111295 A JP S62111295A JP 60251279 A JP60251279 A JP 60251279A JP 25127985 A JP25127985 A JP 25127985A JP S62111295 A JPS62111295 A JP S62111295A
Authority
JP
Japan
Prior art keywords
speech
pattern
standard
matching
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60251279A
Other languages
English (en)
Other versions
JPH0632006B2 (ja
Inventor
武志 則松
正宏 浜田
明寿 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP60251279A priority Critical patent/JPH0632006B2/ja
Publication of JPS62111295A publication Critical patent/JPS62111295A/ja
Publication of JPH0632006B2 publication Critical patent/JPH0632006B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、標準パターンと入力音声パターンとのパター
ンマツチングにより認識結果を導き出す音声認識装置に
関するものである。
従来の技術 一般に、音声認識装置では、入力音声ノくターンと辞書
に蓄えられた各標準ノくターンとの類似度を計算し、類
似度の最大となる標準ノ(ターンを認識結果とする方法
が行なわnている。二つの音声)くターンの類似度を計
算するためには動的計画法(ダイナミック プログラミ
ング法)を用いて、二つのパターンの時間軸を非線形に
伸縮するノ(ターンマツチング(以下、DPマツチング
と記す。)が使用されている。特に、単語音声認識装置
では、このDPマツチング法により高い認識率を得てい
る。(例えば、[ダイナミック プログラミングオプテ
ィミゼインヨン フオ スポークン ワード レコダ=
7. yJ  (H,5akoa  and S、Ch
iba。
”Dynamic programming opti
mizationfor 5porken word 
recognition” 。
IEEE  tranS、ムcoustic、  5p
eech、  SignalProcessing、 
Vol、ム5SP−27pp、336−349、 19
79)) 発明が解決しようとする問題点 しかしながら上記の音声認識装置では、スペクトルの形
状のみによるパターンマツチングを行うため、異なった
音声パターン間のDPマツチングにおいても、極端な時
間軸の非線形伸縮のため両者の距離が小さくなる場合が
あり、認識論を生じる原因となっていた。例えば、1−
大阪」と「大分」とはエネルギー系列で見ると、前者は
三つ、後者は二つのエネルギーの山があり明らかに異な
った二つのパターンであるが、音韻的には似通っている
ためDPマツチングにより距離が小さくなってしまう。
また、類似した音声パターン間のDPマツチングでは、
音声パターン全体に渡ってDPマツチングを行なうため
、両者間の違いが埋もれてしまい、その結果、パターン
間の距離が小さくなり誤認識を生じやすいという問題点
を有していた。
また、認識対象外単語が入力された時にも標準パターン
の一つにマツチングしてしまい、対象外単語のりジエク
ト性能には限界があった。
本発明は上記問題点に鑑み、類似音声パターン間での誤
認識および極端なりPマツチングによる誤認識を極力抑
え、さらに認識対象外単語が入力された時のりジエクト
性能を高め、標準パターンの増加を防止することのでき
る音声認識装置を提供するものである。
問題点を解決するだめの手段 上記問題点を解決するために本発明の音声認識装置は入
力音声からエネルギー系列を含む特徴ベクトルの時系列
を出力する音声分析手段と、前記音声分析手段から出力
されるエネルギー系列から、音声パターン中の音声部分
と無音声部分を判別し、無音声区間の個数およびそのフ
レーム位置を検出する無音声区間検出手段と、発声の仕
方1個人差により欠落の生じるパターンを欠落のない標
準パターンの一部として管理するパターン管理手段と、
標準パターン各々の無音声区間の最も確かな順位を統計
的手段や、同一人の複数回発声により決定し記憶する無
音声情報記憶手段と、無音声区間点の優先順位に従って
無音声区間のフレーム位置の交点をマツチングパスが必
ず通過するように制限を加えたパターンマツチングを行
ない、両者間の距離を算出し、距離の最小となる標準パ
ターンを認識結果とするパターンマツチング手段を備え
たものである。
作用 本発明は上記に述べた構成によって、あらかじめ語頭1
語尾の欠落する可能性のあるパターンを標準パターンの
一部として管理し、各標準パターン中の無音声区間を検
出しておき最も確実な無音声区間点から順位ずけをした
テーブルを一つ或は複数個ずつ持ち、入力音声パターン
と標準パターンとの間で無音声区間のフレーム位置を合
わせて必ずその交点をマツチングパスが通過するように
制限をしたパターンマツチングを行ない認識結果を導き
出す事により、類似パターン間の誤認識および極端なマ
ツチングによる誤認識を極力抑えることができ、さらに
認識対象外単語が入力された時には極力リジェクトする
ことができろう実施例 以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。
第1図は本発明の一実施例における音声認識装置のブロ
ック図である。第1図において、1は音声入力部で、話
者の音声がマイクロホン等を通して入力される。2は音
声分析手段で、入力された音声信号から特徴ベクトルの
時系列を抽出する。
3は無音声区間検出手段で、音声のエネルギー系列から
無音声区間部分を検出する。4は無音声情報記憶手段で
、各標準パターンの無音声区間を多数の音声データより
統計的手段等で一つ或は複数個の順位ずけを行ない無音
声区間の優先順位テーブルとして記憶する。6は標準パ
ターンの特徴ベクトルの時系列を記憶するパターン記憶
手段、6はパターン記憶手段5で記憶された各標準パタ
ーンを管理するパターン管理手段、7は入力パターンと
各標準パターンとの間でパターンマツチングを行うパタ
ーンマツチング手段、8はパターンマツチング手段7の
結果から導き出した認識候補音声をLED等に表示する
第2図は本実施例の構成を示す回路図で、上記の無音声
区間検出手段3、無音声情報記憶手段4、パターン記憶
手段6、パターン管理手段6、パターンマツチング手段
7をマイクロコンピュータ17で実現したものである。
10は音声の入力を行なうマイクロホン、11はマイク
ロホ710から入力された音声信号をアナログ−ディジ
タル変換するアナログ/ディジタル変換器(以下人/D
変換器という。)である。13は入力音声の特徴ベクト
ルの時系列を記憶する入力パターンメモリ、16は標準
パターン音声の特徴ベクトルの時系列を記憶する標準パ
ターンメモリ、14は各標準パターンを管理する標準パ
ターン管理テーブノペ16は各標準パターンの無音声区
間の個数、フレーム位置及び優先順位を記憶する無音声
区間テーブル、18は認識候補音声を出力する認識結果
出力器である。
第3図は本実施例のマイクロコンピュータの動作を説明
するための要部フローチャートであり、第4図は第3図
のフローチャートを説明するための図である。以上の構
成による本実施例の動作を、第3図のフローチャートに
沿って詳細に説明する。
まず、マイクロホン1oから音声を入力し、ム/D変換
器11で音声信号をアナログ−ディジタル変換したあと
、音声分析部12で音声パターンの特徴ベクトル(例え
ば、10次元の線形予測係数)の時系列とエネルギー系
列を求め、入力パターンメモリ13に記憶する。次に、
ステップ20で入力パターンメモリ13に記憶されたエ
ネルギー系列からエネルギー値が閾値を下回る区間が一
定時間Toを超える区間を無音声区間として検出し、無
音声区間の個数と各無音声区間の最終フレーム位置を記
憶部17bに記憶する。なお、あらかじめ各標準パター
ンの特徴ベクトルの時系列が標準パターンメモリ16に
、各標準パターンのメモリ配置、フレームの長さが標準
パターン管理テーブル14に、各標準パターンに対応し
た無音声区間の個数とフレーム位置及び、その優先順位
が無音声区間テーブル16に蓄えられているものとする
。また、標準パターン管理テーブル14の中では、発音
により語頭1語尾の不安定な標準パターンについては欠
落のない標準パターンを代表パターンとし、その部分パ
ターンを欠落の生じた標準パターンとして別に管理して
いる。そのため、標準パターンメモリ15には代表パタ
ーンだけが登録されている。
ステップ21では、標準パターン管理テーブル14に従
って標準パターンを記憶部17bにセットする。次にス
テップ22で入力パターンの無音区間数工、と標準パタ
ーンの無音区間数JMとを比較する。IM≦J、の時は
、ステップ23に進み入力音声の無音声区間のフレーム
位置を無音声区間テーブル16の優先順位に従って標準
パターン  ′の無音声区間のフレーム位置と一致させ
る。ここでは入力パターンに一つ、標準パターンに三つ
最も確からしい無音声区間が存在する場合について説明
する。
入力パターンのフレーム長を11その無音声区間の最終
フレーム位置を工4、標準パターンのフレーム長をJ、
その各無音声区間の最終フレーム位置をJl、J2.J
、とする。ここで優先順位の最も高いフレームをJl 
 とすると、入力パターンの工、フレームと標準パター
ンのJ1フレームとを対応ずければよい。
そこで、ステップ24では、 0〈l<I、かつJl〈j≦J 寸たけ I、〈i≦工かつ0くj<J。
の条件を満たす入力パターンの第1フレームと標準パタ
ーンの第1フレームとの特徴ベクトル間の距離を無限大
にセットする。この設定は第4図において、斜線の部分
に対応する各ベクトル間距離を無限大に設定することで
あり、すなわちマツチングパスが斜線の部分を絶対に通
過しないように制限を加えたことと等価である。
ステップ24の設定が終ると、ステップ25により入力
パターンと標準パターン間でDPマツチングを行ない、
両者間の距離を算出し記憶部17bに記憶する。ここで
得られる距離は、入力パターンの第1フレームと標準パ
ターンの第J、フレームの交点をマツチングバスが必ず
通過するように制限を加えたDPマツチングを行なった
時に得られる結果である。ここで、入力パターンの第I
フレームと標準パターンの第J、フレームの交点が整合
窓の範囲を超える場合は両者のDPマツチングは不可能
であるためこの標準パターンは認識候補からはずす。こ
の後、ステップ26で無音声区間テーブル16より他の
優先順位が存在するかを調べ、存在するときはその優先
順位に従ってステップ23からの処理を続ける。存在し
ないときは別の標準パターンとのマツチングを行なうた
め、ステップ27で標準パターンが最終かどうかを判定
し、最終でなければステップ21に戻り、他の標準パタ
ーンについて同様の処理を続ける。ステップ27の条件
が満足すると、ステップ28では、ステップ26で得ら
れた距離値のうち最小値を与える標準パターンを認識候
補音声と判定し、認識結果出力器18に認識候補音声を
出力する。
なお、本実施例では、入力パターンの無音声区間の個数
が1個の場合について説明したが、無音声区間が2個以
上存在する場合にもIM≦JM であnば無音声区間テ
ーブルに従って同様の処理を行なうことができる。
例えば、標準パターン、入力音声パターンの無音声区間
の個数が各々3.2の場合、無音声区間テーブルの順位
に従った上位2個に一致させる。
また、入力音声について無音声区間の順位ずけが多段に
設定された閾値等に依って順位ずけられる場合、前後の
順位には関係なく無音声区間テーブル、及び入力音声か
ら得°られる入力音声の無音声区間の順位ずけをされた
無音声区間候補の上位からDPババス上交点を決め、あ
るいは第1番目の候補からの交点を決め、次に時間的順
序に従って他の交点を決める事も可能である。
以上のように本実施例によれば、音声パターン中の無音
声区間を検出する無音声区間検出手段と標準パターン管
理手段を持ち、各標準パターンに一つ或は複数個の優先
順位を決定した無音声区間テーブルの順位に従って入力
パターンと標準パターンの無音声区間のフレーム位置の
交点を通過するように制限を加えたDPマツチングを行
なうことにより、入力パターンの語頭9語尾が欠落した
場合や無音区間の検出の一部を誤った場合でも最適なマ
ツチングを行うことができ、極端なマツチングによる誤
認識、および音韻的に類似したパターン間の誤認識を減
少させることができる。
また語頭1語尾の不安定な標準パターンについては欠落
のない代表パターン一つで管理できるのでテンプレート
を増やす必要がない。
また整合窓の幅を最適に選べば、認識対象外単語入力時
のりジエクトに大きな効果がある。
発明の効果 以上のように本発明は、音声パターン中の無音声区間の
個数とそのフレーム位置を検出する無音声区間検出手段
と1語頭1語尾が欠落する可能性のある標準パターンを
代表パターン一つで管理するパターン管理手段と、各標
準パターンに無音声区間の優先順位を一つ或は複数個定
め管理する無音声情報記憶手段とを持ち、入力音声を分
析して得られる無音声区間について、無音声区間の優先
順位に従って入力パターンと標準パターンで無音声区間
のフレーム位置を合わせ、その交点をマツチングバスが
必ず通過するように制限したDPマツチングを行ない、
距離の最小となる標準パターンを認識結果として導き出
すことにより、同単語間では二つのパターンを最適にマ
ツチングさせ、異単語間では極端なマツチングを生じさ
せることになり、音韻の類似したパターン間での誤認識
および極端なマツチングによる誤認識を極力抑えること
のでき、また認識対象外単語が入力された時には極力リ
ジェクトすることのできる音声認識装置を提供すること
ができる。また無音声区間の優先順位を一義的に決定で
きないパターンや発音の仕方によって無音声区間数の異
なるパターンについてもテンプレート数を増やさずに精
度良く認識する事ができる音声認識装置を提供できる。
【図面の簡単な説明】
第1図は本発明の一実施例における音声認識装めの要部
フローチャート、第4図は第3図のフローチャート説明
のだめの特性図である。 2・・・・・音声分析手段、3・・・・・・無音声区間
検出手段、4・・・・・・無音声情報記憶手段、5・−
・・・・パターン記憶手段、6・・・・・・パターン管
理手段、7・・・・・パターンマツチング手段、1o・
・・・・マイクロホン、13・・・・・・入力パターン
メモリ、14・・・・・・標準パターン管理テーブル、
16・・・・・・標準パターンメモリ、16・・・・・
・無音声区間テーブル、17・・・・・・マイクロコン
ピュータ。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名@1
図 第 3 図 第 4 図

Claims (1)

    【特許請求の範囲】
  1. 入力音声からエネルギー系列を含む特徴ベクトルの時系
    列を出力する音声分析手段と、前記音声分析手段から出
    力されるエネルギー系列から、音声パターン中の音声部
    分と無音声部分を判別し、無音声区間の個数およびその
    フレーム位置を検出する無音声区間検出手段と、前記音
    声分析手段から得られる特徴ベクトルの時系列をあらか
    じめ標準パターンとして記憶しておくパターン記憶手段
    と、発声の仕方、個人差によって音声パターンの語頭部
    あるいは語尾部が欠落する標準パターンに関して、欠落
    のないパターンを代表パターンとして、欠落のあるパタ
    ーンの標準パターンは代表パターンの一部分として管理
    するパターン管理手段と、前記パターン記憶手段と前記
    パターン管理手段により記憶、管理された各標準パター
    ンについて前記無音声区間検出手段より得られる無音声
    区間のフレーム位置を、音声認識対象単語各々の多数の
    音声データの統計的性質から得られる最も確実な無音声
    区間点から順位付けを行ない、また一義的に順位付けを
    決定できない標準パターンに対しては可能な複数種類の
    順位付けを行い、あらかじめ無音声区間の優先順位テー
    ブルとして記憶する無音声情報記憶手段と、前記パター
    ン記憶手段により蓄えられた各標準パターンと入力パタ
    ーンとの間で、前記無音声情報記憶手段に記憶された各
    標準パターンの最も確実な無音声区間点から順に入力パ
    ターンの最も確実な無音声区間点とそのフレーム位置を
    一致させパターンマッチングを行い両者間の距離を算出
    し、得られた各々の累積距離のうち最小となる標準パタ
    ーンを認識結果とするパターンマッチング手段とを備え
    たことを特徴とする音声認識装置。
JP60251279A 1985-11-08 1985-11-08 音声認識装置 Expired - Lifetime JPH0632006B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60251279A JPH0632006B2 (ja) 1985-11-08 1985-11-08 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60251279A JPH0632006B2 (ja) 1985-11-08 1985-11-08 音声認識装置

Publications (2)

Publication Number Publication Date
JPS62111295A true JPS62111295A (ja) 1987-05-22
JPH0632006B2 JPH0632006B2 (ja) 1994-04-27

Family

ID=17220432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60251279A Expired - Lifetime JPH0632006B2 (ja) 1985-11-08 1985-11-08 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0632006B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62217298A (ja) * 1986-03-19 1987-09-24 株式会社リコー 音声認識装置
JPH01156876A (ja) * 1987-12-14 1989-06-20 Toshiba Corp パターン認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62217298A (ja) * 1986-03-19 1987-09-24 株式会社リコー 音声認識装置
JPH01156876A (ja) * 1987-12-14 1989-06-20 Toshiba Corp パターン認識装置

Also Published As

Publication number Publication date
JPH0632006B2 (ja) 1994-04-27

Similar Documents

Publication Publication Date Title
Loizou et al. High-performance alphabet recognition
US20220343895A1 (en) User-defined keyword spotting
EP1355295A2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JPS62217295A (ja) 音声認識方式
US4910782A (en) Speaker verification system
JP3066920B2 (ja) 音声認識方法及び装置
Bocchieri et al. Discriminative feature selection for speech recognition
Paliwal Lexicon-building methods for an acoustic sub-word based speech recognizer
JP2955297B2 (ja) 音声認識システム
JPH0247760B2 (ja)
KR100504982B1 (ko) 환경 적응형 다중 음성인식 장치 및 음성인식 방법
JPS62111295A (ja) 音声認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JPS6147999A (ja) 音声認識装置
JPS60147797A (ja) 音声認識装置
JPH01185599A (ja) 音声認識装置
JPS58209800A (ja) 音素判別方法
JPS6312000A (ja) 音声認識装置
JPS6247100A (ja) 音声認識装置
JPS6383800A (ja) 音声認識装置
JPS5977500A (ja) 単語音声認識方式
JPH0455518B2 (ja)
JP3033132B2 (ja) 言語処理装置
JPH06100920B2 (ja) 音声認識装置
JP2000137495A (ja) 音声認識装置および音声認識方法

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term