JPS6332396B2 - - Google Patents
Info
- Publication number
- JPS6332396B2 JPS6332396B2 JP56124908A JP12490881A JPS6332396B2 JP S6332396 B2 JPS6332396 B2 JP S6332396B2 JP 56124908 A JP56124908 A JP 56124908A JP 12490881 A JP12490881 A JP 12490881A JP S6332396 B2 JPS6332396 B2 JP S6332396B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- voice
- distance
- input
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000006835 compression Effects 0.000 claims description 9
- 238000007906 compression Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 2
- 238000000034 method Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008602 contraction Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Description
【発明の詳細な説明】
この発明は音声パターンの非線形時間軸伸縮に
対処し、効果的なマツチング操作を実現する音声
認識装置に関するものである。
対処し、効果的なマツチング操作を実現する音声
認識装置に関するものである。
第1図は音声認識装置の一般的な構成例を示す
ものである。マイクロホン1で拾われた音声波形
2は音声パターン圧縮部3に導びかれる。この音
声パターン圧縮部3では入力音声の特徴量が抽出
され、振幅軸及び時間軸の正規化操作が行なわれ
る。即ち発声レベルの大小が補正され、又発声時
間の長短にかかわらず、一定長の圧縮パターン4
が出力される。切替えスイツチ5は学習/認識モ
ードを切替えるもので、学習(登録)動作時には
実線側、認識(入力)動作時には破線側に倒され
る。
ものである。マイクロホン1で拾われた音声波形
2は音声パターン圧縮部3に導びかれる。この音
声パターン圧縮部3では入力音声の特徴量が抽出
され、振幅軸及び時間軸の正規化操作が行なわれ
る。即ち発声レベルの大小が補正され、又発声時
間の長短にかかわらず、一定長の圧縮パターン4
が出力される。切替えスイツチ5は学習/認識モ
ードを切替えるもので、学習(登録)動作時には
実線側、認識(入力)動作時には破線側に倒され
る。
従つて学習時には、圧縮パターン4がスイツチ
5の実線側を通り、登録パターンメモリ7に順次
書き込まれる。例えば第1図に示すように、数字
音声/イチ/、/ニー/、/サン/、/ヨ
ン/、/ゴー/の如くにである。一通りの使用音
声登録が終了すると、切替えスイツチ5は点線側
に倒され、認識モードに入る。
5の実線側を通り、登録パターンメモリ7に順次
書き込まれる。例えば第1図に示すように、数字
音声/イチ/、/ニー/、/サン/、/ヨ
ン/、/ゴー/の如くにである。一通りの使用音
声登録が終了すると、切替えスイツチ5は点線側
に倒され、認識モードに入る。
認識時には圧縮パターン4はスイツチ5の点線
側を通り、入力パターンメモリ6に一時貯えられ
る。このメモリ6は発声の都度更新され、書き替
えられる。ところで入力パターン8及び登録パタ
ーン9は認識処理部10に導びかれており、ここ
で両パターン間の照合比較動作が実行される。そ
して入力パターン8と最も距離の近い、もしくは
尤度の大きい登録パターン9の1つが選択され、
当該入力音声と判別されて認識結果11が出力さ
れる。
側を通り、入力パターンメモリ6に一時貯えられ
る。このメモリ6は発声の都度更新され、書き替
えられる。ところで入力パターン8及び登録パタ
ーン9は認識処理部10に導びかれており、ここ
で両パターン間の照合比較動作が実行される。そ
して入力パターン8と最も距離の近い、もしくは
尤度の大きい登録パターン9の1つが選択され、
当該入力音声と判別されて認識結果11が出力さ
れる。
第2図は従来及び本発明装置の音声パターン圧
縮・比較動作を対比して示す説明図であるが、同
図a〜eは従来方式に関する部分で、図中第1の
入力12aは/イチ/と普通に、第2の入力13
aは/イーチ/と長めに発声した時の音声パター
ン特徴量の時間変化例を示すものである。これら
のパターンは始端と終端間を均等分割(本例では
8等分)する形で、線形圧縮される。そこで入力
パターン12aは圧縮パターン12bの如く、同
様に入力パターン13aは圧縮パターン13bの
如く変換され、一定長パターンに凝縮される。
縮・比較動作を対比して示す説明図であるが、同
図a〜eは従来方式に関する部分で、図中第1の
入力12aは/イチ/と普通に、第2の入力13
aは/イーチ/と長めに発声した時の音声パター
ン特徴量の時間変化例を示すものである。これら
のパターンは始端と終端間を均等分割(本例では
8等分)する形で、線形圧縮される。そこで入力
パターン12aは圧縮パターン12bの如く、同
様に入力パターン13aは圧縮パターン13bの
如く変換され、一定長パターンに凝縮される。
ここで圧縮パターン12bを登録(基準)パタ
ーン、圧縮パターン13bを入力(試験)パター
ンと仮定する。従来の音声認識装置におけるパタ
ーン照合方式では、同一サンプル番号同志の距離
(例えば2つの特徴量の差の絶対値)が逐次計算
され、第2図eに示す様な部分距離パターン14
aが求められる。両パターン間の距離は各部分距
離の総和(本例では9サンプル分)で与えられ
る。
ーン、圧縮パターン13bを入力(試験)パター
ンと仮定する。従来の音声認識装置におけるパタ
ーン照合方式では、同一サンプル番号同志の距離
(例えば2つの特徴量の差の絶対値)が逐次計算
され、第2図eに示す様な部分距離パターン14
aが求められる。両パターン間の距離は各部分距
離の総和(本例では9サンプル分)で与えられ
る。
従来の音声認識装置は以上のように構成されて
いるので、音声パターンの発生毎の非線形時間軸
伸縮は避けられず、本例に示す如く、/イ
チ/、/イーチ/間ではかなり距離が開く。これ
は棄却(リジエクト)ないしは誤認識を誘発する
原因となり、システムの認識性能を著しく損なう
結果となつていた。
いるので、音声パターンの発生毎の非線形時間軸
伸縮は避けられず、本例に示す如く、/イ
チ/、/イーチ/間ではかなり距離が開く。これ
は棄却(リジエクト)ないしは誤認識を誘発する
原因となり、システムの認識性能を著しく損なう
結果となつていた。
本発明は上記のような従来のもののもつ本質的
な欠点を除去するためになされたもので、上記部
分距離パターンの各距離の総和である入力パター
ンと登録パターンの距離が所定の閾値を越えると
きは、各サンプルの対応付けを変化させて最小距
離を探索し、該最小距離による認識結果を出力す
ることにより、従来頻発していた入力音声のリジ
エクトや誤認識を大幅に救済することのできる音
声認識装置を提供することを目的としている。
な欠点を除去するためになされたもので、上記部
分距離パターンの各距離の総和である入力パター
ンと登録パターンの距離が所定の閾値を越えると
きは、各サンプルの対応付けを変化させて最小距
離を探索し、該最小距離による認識結果を出力す
ることにより、従来頻発していた入力音声のリジ
エクトや誤認識を大幅に救済することのできる音
声認識装置を提供することを目的としている。
以下本発明の一実施例を図について説明する。
本発明の音声認識装置におけるパターン照合方
式は、従来方式の延長線上で極めて容易に実施す
る事ができる。第2図に示した部分距離パターン
14aに先ず着目する。始端及び終端(サンプル
番号0及び8)ではその距離は零に近い。但し途
中のサンプル点では不規則な増減変化が見られ
る。このパターンは通常新たな発声毎に変動する
ものである。
式は、従来方式の延長線上で極めて容易に実施す
る事ができる。第2図に示した部分距離パターン
14aに先ず着目する。始端及び終端(サンプル
番号0及び8)ではその距離は零に近い。但し途
中のサンプル点では不規則な増減変化が見られ
る。このパターンは通常新たな発声毎に変動する
ものである。
そこで部分距離パターン14aのうち、最大値
点A及び次点Bを探索する。これらの点は時間軸
上の不整合(ずれ)が、大きな点であると見なす
ことができる。次に2つの圧縮パターン、即ち基
準パターン12bと入力パターン13bとの対応
付けを部分的に前後にシフトして実施する。本例
では入力パターン13bの5サンプル目を基準パ
ターン12bの4及び6サンプル目と比較照合
し、部分距離が最小となる4サンプル目との対応
付けを行なう。同様に次点Bについても入力パタ
ーン13bの3サンプル目を基準パターン12b
の2及び4サンプル目と比較照合し、部分距離最
小となる2サンプル目と対応付ける。この様にし
て第2図fに示す修正された部分距離パターン1
4bを得る事ができる。このパターン14bは従
来方式によるパターン14aに比べて大幅な距離
減小効果が見られる。この時点でもし部分距離の
総和が所定の閾値以下となれば、距離計算(パタ
ーン照合操作)を打ち切ればよい。
点A及び次点Bを探索する。これらの点は時間軸
上の不整合(ずれ)が、大きな点であると見なす
ことができる。次に2つの圧縮パターン、即ち基
準パターン12bと入力パターン13bとの対応
付けを部分的に前後にシフトして実施する。本例
では入力パターン13bの5サンプル目を基準パ
ターン12bの4及び6サンプル目と比較照合
し、部分距離が最小となる4サンプル目との対応
付けを行なう。同様に次点Bについても入力パタ
ーン13bの3サンプル目を基準パターン12b
の2及び4サンプル目と比較照合し、部分距離最
小となる2サンプル目と対応付ける。この様にし
て第2図fに示す修正された部分距離パターン1
4bを得る事ができる。このパターン14bは従
来方式によるパターン14aに比べて大幅な距離
減小効果が見られる。この時点でもし部分距離の
総和が所定の閾値以下となれば、距離計算(パタ
ーン照合操作)を打ち切ればよい。
本例では更に、部分距離パターン14b中のC
点及びD点に着目し前記と同様の部分シフトマツ
チング操作を実行する。そして入力パターン13
bの7サンプル目を基準パターン12bの6サン
プル目に、入力パターン13bの2サンプル目を
基準パターン12bの1サンプル目にそれぞれに
対応付け、更に修正された第2図gの部分距離パ
ターン14cを得る。パターン14aと14cと
を比較すれば、その改善効果は一目瞭然であろ
う。
点及びD点に着目し前記と同様の部分シフトマツ
チング操作を実行する。そして入力パターン13
bの7サンプル目を基準パターン12bの6サン
プル目に、入力パターン13bの2サンプル目を
基準パターン12bの1サンプル目にそれぞれに
対応付け、更に修正された第2図gの部分距離パ
ターン14cを得る。パターン14aと14cと
を比較すれば、その改善効果は一目瞭然であろ
う。
このような本発明によるパターン照合操作によ
り、従来多発していたリジエクト及び誤認識を大
幅に救済し、認識率を例えばある装置では従来の
86%から92%に向上することができた。
り、従来多発していたリジエクト及び誤認識を大
幅に救済し、認識率を例えばある装置では従来の
86%から92%に向上することができた。
なお上記実施例では前後に1サンプル分シフト
して対応付けを行なう例を示したが、2サンプル
以上シフトする事もできる。ただしその場合は時
間軸上のサンプル配列の逆転を避けるため、隣接
サンプルも適当にシフトさせる必要がある。又部
分距離パターンが数サンプルにわたり集中して増
大する様な場合には、数サンプル分一括して前後
シフトし対応付けを行なう事も可能である。また
本発明は音声以外の他の音響信号や画像信号等の
パターン認識方式あるいは装置にも容易に拡張し
適用することができる。
して対応付けを行なう例を示したが、2サンプル
以上シフトする事もできる。ただしその場合は時
間軸上のサンプル配列の逆転を避けるため、隣接
サンプルも適当にシフトさせる必要がある。又部
分距離パターンが数サンプルにわたり集中して増
大する様な場合には、数サンプル分一括して前後
シフトし対応付けを行なう事も可能である。また
本発明は音声以外の他の音響信号や画像信号等の
パターン認識方式あるいは装置にも容易に拡張し
適用することができる。
以上説明した如く、本発明による音声認識装置
は登録パターンと入力パターンの距離が所定の閾
値を越える場合上記サンプルの対応付けを変化さ
せて最小距離を探索し認識処理を行なうようにし
たものであるので、従来装置とほとんど同様の構
成で極めて容易に実現できる利点がある。又従来
頻発していた入力音声のリジエクトや誤認識を大
幅に救済することが可能で、システムの認識性能
を著しく高める事ができる。
は登録パターンと入力パターンの距離が所定の閾
値を越える場合上記サンプルの対応付けを変化さ
せて最小距離を探索し認識処理を行なうようにし
たものであるので、従来装置とほとんど同様の構
成で極めて容易に実現できる利点がある。又従来
頻発していた入力音声のリジエクトや誤認識を大
幅に救済することが可能で、システムの認識性能
を著しく高める事ができる。
また従来、ダイナミツクプログラミング手法に
より2つの不等長パターン間の非線形時間軸整合
をとる方式が考えられているが、この方式は多大
のメモリ、処理時間、高価で消費電力を喰う専用
プロセツサを要し、認識システムの経済性を著し
く損なつていたのに対し、本発明におけるパター
ン照合方式は簡単なハードウエアないしは近年と
みに安価となつた汎用マイクロプロセツサで充分
処理可能であり、システムのコスト/パフオーマ
ンスを大幅に向上させることが可能である。
より2つの不等長パターン間の非線形時間軸整合
をとる方式が考えられているが、この方式は多大
のメモリ、処理時間、高価で消費電力を喰う専用
プロセツサを要し、認識システムの経済性を著し
く損なつていたのに対し、本発明におけるパター
ン照合方式は簡単なハードウエアないしは近年と
みに安価となつた汎用マイクロプロセツサで充分
処理可能であり、システムのコスト/パフオーマ
ンスを大幅に向上させることが可能である。
第1図は音声認識装置の一般的な構成図、第2
図は従来及び本発明による音声パターン圧縮・比
較動作を対比して示す説明図である。 3…音声パターン圧縮部、6…入力パターンメ
モリ、7…登録パターンメモリ、8…入力パター
ン、9…登録パターン、10…認識処理部、14
…部分距離パターン。なお図中、同一符号は同一
又は相当部分を示す。
図は従来及び本発明による音声パターン圧縮・比
較動作を対比して示す説明図である。 3…音声パターン圧縮部、6…入力パターンメ
モリ、7…登録パターンメモリ、8…入力パター
ン、9…登録パターン、10…認識処理部、14
…部分距離パターン。なお図中、同一符号は同一
又は相当部分を示す。
Claims (1)
- 【特許請求の範囲】 1 入力音声の特徴量を抽出し音声パターンを等
長に圧縮する音声パターン圧縮部と、 学習動作時に該音声パターン圧縮部からの音声
パターンを記憶する登録パターンメモリと、 認識動作時に上記音声パターン圧縮部からの音
声パターンを一時記憶する入力パターンメモリ
と、 上記登録パターンと上記入力パターンの各サン
プル値の比較による部分距離パターンを求め該部
分距離の総和である距離が所定の閾値を越える場
合に、上記部分距離の最大値点および部分距離の
大きい他の数点に該当する入力パターンと登録パ
ターンとのサンプル同志の対応付けを変化させて
最小距離を探索し該最小距離による認識結果を出
力する認識処理部とを備えたことを特徴とする音
声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56124908A JPS5825699A (ja) | 1981-08-07 | 1981-08-07 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56124908A JPS5825699A (ja) | 1981-08-07 | 1981-08-07 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS5825699A JPS5825699A (ja) | 1983-02-15 |
JPS6332396B2 true JPS6332396B2 (ja) | 1988-06-29 |
Family
ID=14897082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP56124908A Granted JPS5825699A (ja) | 1981-08-07 | 1981-08-07 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS5825699A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0743782U (ja) * | 1993-04-14 | 1995-09-12 | 中部精機株式会社 | 加速度検出器 |
JP3827317B2 (ja) | 2004-06-03 | 2006-09-27 | 任天堂株式会社 | コマンド処理装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5374807A (en) * | 1976-12-15 | 1978-07-03 | Fujitsu Ltd | Voice recognition matching control system |
JPS5536825A (en) * | 1978-09-08 | 1980-03-14 | Tokyo Shibaura Electric Co | Voice discriminating device |
JPS5665198A (en) * | 1979-10-31 | 1981-06-02 | Tokyo Shibaura Electric Co | Singallsyllable identifier |
-
1981
- 1981-08-07 JP JP56124908A patent/JPS5825699A/ja active Granted
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5374807A (en) * | 1976-12-15 | 1978-07-03 | Fujitsu Ltd | Voice recognition matching control system |
JPS5536825A (en) * | 1978-09-08 | 1980-03-14 | Tokyo Shibaura Electric Co | Voice discriminating device |
JPS5665198A (en) * | 1979-10-31 | 1981-06-02 | Tokyo Shibaura Electric Co | Singallsyllable identifier |
Also Published As
Publication number | Publication date |
---|---|
JPS5825699A (ja) | 1983-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4513436A (en) | Speech recognition system | |
JPS6332396B2 (ja) | ||
JPH0247760B2 (ja) | ||
JP2997007B2 (ja) | 音声パターンマッチング方法 | |
JPH02210500A (ja) | 標準パターン登録方式 | |
JPH04163497A (ja) | 音声区間検出方法 | |
JP2577891B2 (ja) | 単語音声予備選択装置 | |
JP3011984B2 (ja) | パターン照合方法 | |
JPH0251519B2 (ja) | ||
JPH022159B2 (ja) | ||
JPH04212199A (ja) | 標準パターン登録方法 | |
JP2768938B2 (ja) | パターン比較方法 | |
JP2712586B2 (ja) | 単語音声認識装置用パターンマッチング方式 | |
JPH0228160B2 (ja) | ||
JPS6332200B2 (ja) | ||
JPH03180897A (ja) | 音声認識装置 | |
JPH04211300A (ja) | 音声パターンマッチング方法 | |
JPH0632006B2 (ja) | 音声認識装置 | |
JPS6265086A (ja) | 音声登録方式 | |
JPS59211098A (ja) | 音声認識装置 | |
JPH0449719B2 (ja) | ||
JPH0469959B2 (ja) | ||
JPS62255999A (ja) | 単語音声認識装置 | |
JPH0336439B2 (ja) | ||
JPH0316038B2 (ja) |