JPS62266600A

JPS62266600A - 単語音声認識装置

Info

Publication number: JPS62266600A
Application number: JP61109559A
Authority: JP
Inventors: 教幸藤本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1986-05-15
Filing date: 1986-05-15
Publication date: 1987-11-19
Also published as: JPH0337199B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概　要〕未知入力単語音声パターンを各単語標準パターンと照合
する単語音声認識装置において、入力単語音声パターン
と単語標準パターンのパターン長比に対応して経路制限
の変更を行って照合を行う様にする。これにより伸縮比
の範囲を狭めることなく、不自然な時間対応付けを無く
して認識率を向上させることが出来る。

〔産業上の利用分野〕

本発明は、未知入力単語音声パターンを予め登録されて
いる各単語標準パターンと照合して入力単語音声の認識
を行う単語音声認識装置、特に、照合時に不自然な時間
対応付けが行われるのを無くして認識率を向上させる様
に改良した単語音声認識装置に関する。

〔従来の技術〕

未知入力単語音声を認識する場合、認識率が良好である
ことから、未知入力単語音声から作成された入力単語音
声パターンを、予め登録されている各単語標準パターン
として照合して入力単語音声の認識を行う単語音声認識
方式が、多く用いられている。

第５図は、従来の単語標準パターンと照合する単語音声
認識方式の基本構成をブロック図で示したものである。

第５図の単語音声認識方式において、音声分析部２１０
は、入力単語音声を分析し、入力単語音声の特徴を表す
パラメタの抽出や区間検出を行って入力単語音声パター
ンを作成して単語認識部２２０に入力する。

一方、単語標準パターン部２３０には、認識対象となる
単語群の各単語を分析して作成された標準パターンが予
め登録されている。

単語認識部２２０は、入力単語音声パターンを単語標準
パターン部２３０の各単語の標準パターンと照合して単
語認識を行う。

この単語認識は、公知のＤＰ法（Ｄｙｎａｍｉｃ　ｐｒ
ｏ−ｇｒａｍｍｉｎｇ　ｍａｔｃｈｉｎｇ　）によって
行われ、入力単語、音声パターンと距離の最も小さい単
語標準パターンの単語を認識単語とする。

第６図は、単語認識部２２０において行われるＤＰマツ
チング方式を示したものである。

第６図において、横軸は入力単語音声パターンで、その
数字は、入力単語音声パターンを形成する各ベクトルの
番号である。縦軸は単語標準パターンで、その数字は、
単語標準パターンを形成する各ベクトルの番号である。

実線は、入力単語音声パターンが単語標準パターンとマ
ツチングしたときの時間伸縮関数（ＤＰババスである。

所で、実際に発声される単語音声の時間長は、話者によ
って変化し、又、同一話者でも発声するたびに時間長は
変化してしまう。ゆっくり発声されたり早口で発声され
たりするので、入力単語音声パターンは、単語標準パタ
ーンの持つ時間長に対し、伸び縮みしたものとなる。そ
こで、照合時は、入力単語音声パターンの時間方向の伸
び縮みを正規化（時間正規化）して、単語標準パターン
との照合が行われる。

この時間正規化処理時における入力単語音声パターンの
伸縮比として許される範囲は、ＤＰ法の手法によって種
々の値に設定されるが、例えば、１／２〜２倍、１／３
〜３倍等の範囲に設定されることが多い。伸縮比を１／
２〜２倍に設定すると、正規の時間長の１／２から２倍
の速さで発声された単語音声を同じ単語標準パターンを
用いて認識することが出来る。この様に、伸縮比の幅を
大きくすることにより、同じ単語標準パターンを用いて
種々の時間長を持った人力単語音声を認識することが可
能となるので、認識範囲を広げることが出来る。

伸縮比の幅を１／２〜２や１／３〜３の様に大きくする
と、前述の様に認識範囲が広くなるという利点があるが
、反面、次の様な不都合が生じる。

即ち、１つの単語を発声する場合、単語の前半を早口で
発声し、後半をゆっくり発声することは、自然な発声で
は通常起り得ないことである。然しなから、従来のＤＰ
法では、前半を２〜３倍に伸ばし、後半を１／２〜１／
３に縮めてパターンマツチングすることが許される為、
この様な状態でマツチングが行われた場合には誤認識が
生じることになる。

第６図は、入力単語音声が最初は早く発声され（フレー
ム１〜２）、次いで極めてゆっくり発声され（フレーム
３〜４）、その後は（フレーム５〜１０）平均して早く
発声されたという不自然な状態でマツチングが行われた
結果、誤認識が生じた場合を示したものである。

〔発明が解決しようとする問題点〕

従来の単語音声認識方式は、照合時の入力単語音声パタ
ーンの伸縮比の幅を大きくとっていた為、種々の時間長
くパターン長）を持った入力単語音声を認識することが
可能となって広い認識範囲が得られるという利点がある
反面、不自然な時間対応付けが許される結果、誤認識が
生じて認識率が低下するという問題があった。

本発明は、単語全体として許される伸縮比の範囲を狭め
ることなく、不自然な時間対応付けによる照合が行われ
ることを阻止してＬ’ｌｌｌ率を向上させる様にした単
語音声認識装置を提供することを目的とする。

〔問題点を解決する為の手段〕

１つの単語を発声する場合、単語を形成する各音節の一
部の発声時間が長くなったり短くなったりして変化する
ことは、自然の発声では通常起り得ないことである。即
ち、単語が自然な状態で発声された場合、普通の早さの
ときは、単語中の各音節も普通の早さでそれぞれ発声さ
れ、単語が早口で発声されたときは、その各音節も早口
でそれぞれ発声され、単語がゆっくり発声されたときは
、その各音節もそれぞれゆっくりと発声される。

従って、単語が自然な状態でゆっくり発声された場合の
マツチング時のＤＰパスは、その傾斜が平均して小さい
値のものに経路制限した方が良く、単語が自然の状態で
早口で発声された場合のマツチング時のＤＰパスは、そ
の傾斜が平均して大きい値のものに経路制限した方が良
いことになる。

本発明は、この知見に基づき、単語音声の自然の発声速
度に対応して経路制限を適宜変更することにより単語全
体として許される伸縮比の範囲を狭めることなく、不自
然な時間対応付けによる照合が行われることを阻止して
認識率を向上させる様にしたものである。

以下、従来の単語音声認識方式における前述の問題点を
解決する為に本発明が講した手段を、第１図を参照して
説明する。

第１図は、本発明の基本構成をブロック図で示したもの
である。

第１図において、１１０はパターン長比演算手段で、入
力単語音声から作成された入力単語音声パターンと各単
語標準パターンのパターン長の大小を表すパターン長比
を算出する。ここで、パターン長比は、入力単語音声パ
ターンのパターン長と単語標準パターンのパターン長の
大小を決め量で、例えば、両パターン長の差や両パター
ン長の比率で表される。又、各パターンのパターン長は
、各パターンのフレーム数や時間長等で表される。

１２０は制限経路距離演算手段で、パターン長比の大き
さに対応して照合時の経路制限の変更を行って、入力単
語音声パターンと各単語標準パターン間の距離を算出す
る。

〔作　用〕

入力単語音声から作成された人力単語音声パターンが入
力されると、パターン長比演算手段１１０は、入力単語
音声パターンと単語標準パターンのパターン長比を算出
する。この演算は、各単語標準パターンについてそれぞ
れ行われる。

制限照合距離演算手段１２０は、パターン長比演算手段
１１０より入力されたパターン長比の大きさに対応して
照合時の経路制限の変更を行って、人力単語音声パター
ンと単語標準パターン間の距離を計算する。

照合時の経路制限の変更は、例えば比率で表したパター
ン長比、即ち人力単語音声パターン長を単語標準パター
ン長で割った値が１の近傍より大きいとき（ゆっくり発
声された場合）は、１より大きい傾斜を持゛った経路を
含まない経路制限に変更され、パターン長比が１の近傍
より小さいとき（早口で発声された場合）は、■より小
さい傾斜を持った経路を含まない経路制限に変更される
。

以上の様に、入力単語の自然の発声速度に対応して経路
制限の変更を行って照合することにより、単語全体とし
て許される伸縮比の範囲を狭めることなく、不自然な時
間対応付けによる照合が行われない様にすることが可能
になり、認識率を向上させることが出来る。

〔実施例〕

本発明の実施例を、第２図〜第４図を参照して説明する
。

第２図は本発明の一実施例の構成のブロック説明図、第
３図は同実施例の経路制限の説明図、第４図は同実施例
のＤＰマツチング方式の説明図である。

（Ａ）実施例の構成第２図において、パターン長比演算手段１１０及び制限
経路距離演算手段１２０については、第１図で説明した
通りである。

１３０はマイクロホンで、話者（図示せず）の発声した
単語音声が入力される。

１４０は音声分析部で、入力された単語音声を分析し、
入力単語音声の特徴を表すパラメタの抽出や区間検出を
行って、入力単語音声パターン又単語標準パターンを作
成する。

１５０は切替え回路で、単語標準パターンの登録動作と
入力単語音声パターンの認識動作に対応した切替えを行
う。

１６０は単語標準パターン辞書で、音声分析部で作成さ
れた各単語標準パターンが登録される。

制限経路距離演算手段１２０において、１２１はベクト
ル間距離計算部で、音声分析部１４０より入力された入
力単語音声パターンの各ベクトルと単語標準パターン辞
書１６０中の各単語標準パターンの各ベクトルとのベク
トル間距離を算出する。

１２２は第１のＤＰ計算部で、第１の経路制限に基づい
て入力単語音声パターンと各単語標準パターン間の距離
を算出する。

１２３は第２のＤＰ計算部で、第２の経路制限に基づい
て入力単語音声パターンと各単語標準パターン間の距離
を算出する。

１２４は第３のＤＰ計算部で、第３の経路制限に基づい
て入力単語音声パターンと各単語標準パターン間の距離
を算出する。

なお、前記第１〜第３の各経路制限の具体的な内容につ
いては、次の「（Ｂ）実施例の動作」の項で説明する。

１２５は経路選択部で、パターン長比計算手段１１０よ
り入力されたパターン長比に基づいて、第１〜第３の各
ＤＰ計算部１２２〜１２４の１つを選択して、その算出
結果を出力する。

１７０は単語認識部で、経路選択部１２５より人力され
た入力単語音声パターンと各単語標準パターン間の制限
された経路についての各距離の中の最小値を検出し、そ
の単語標準パターンに対応する単語を認識単語とする。

（Ｂ）実施例の動作実施例の動作を、第２図〜第４図を参照し、入力単語音
声認識時の各動作に分けて説明する。

（Ｂ−１）登録動作話者の発声した単語音声に対する認識処理が行われる前
に、認識対象となる各単語の単語標準パターンの登録が
行われる。

単語標準パターンを単語標準パターン辞書１６０に登録
する場合は、切替え回路１５０を単語標準パターン辞書
１６０側に接続し、マイクロホン１３０より登録用の単
語音声を音声分析部１４０に入力する。

音声分析部１４０は、入力された単語音声を分析し、登
録用の単語音声の特徴を表すパラメタの抽出や区間検出
を行って、単語標準パターンを作成して単語標準パター
ン辞書１６０に登録する。

各単語標準パターンは、各単語標準パターンの特徴を表
すベクトルの時系列で表現される。

（Ｂ−２）人力単語音声パターン作成動作入力された単
語音声の認識を行う場合は、切替え回路１５０をベクト
ル間距離計算部１２１側に接続する。

マイクロホン１３０より認識対象となる未知の単語音声
が人力されると、前述の単語標準パターンの登録の場合
と同様にして、音声分析部１４０は、この入力単語音声
の特徴を表すパラメタの抽出や区間検出を行って入力単
語音声パターンを作成し、ベクトル間距離計算部１２１
に入力する。

作成された各入力単語音声パターンは、単語標準パター
ンと同様に、入力単語音声パターンの特徴を表すベクト
ルの時系列で表現される。

（Ｂ−３）パターン長比算出動作パターン長比演算手段１１０は、入力単語音声パターン
と単語標準パターンのパターン長比を算出する。

パターン長比は、例えば入力単語音声パターン長と単語
標準パターン長の差や両者の比率で表されるが、この実
施例では両者の比率、即ち、人力単語音声パターン長を
単語標準パターン長で割った値をパターン長比として用
いることにする。

（Ｂ−４）制限照合距離算出動作ベクトル間距離計算部１２１は、音声分析部１４０より
入力された入力単語音声パターンの各ベクトルと単語標
準パターン辞書１６０中の各単語標準パターンの各ベク
トルとのベクトル間距離を算出する。

第１〜第３の各ＤＰ計算部１２２〜１２４は、ベクトル
間距離計算部１２１で算出された各ヘクトル間距離を参
照し、第３図に示す第１〜第３の経路制限に基づいて、
入力単語音声パターンと各単語標準パターン間の距離を
公知のＤＰ法により算出する。

第３図において、Ｄ　Ｐ　＋　〜ＤＰ、は、従来の各経
路制限を示したもので、ｉ〜（ｉ−２）は人力単語音声
パターンの各ベクトル番号であり、ｊ〜（ｊ−３）は単
語標準パターンの各ベクトル番号であり、ｐ、〜ｐ、は
、ＤＰ計算を行う際の各パスである。

ＤＰａＩ””ＤＰａ４は第１の各経路制限で、図示の様
に、対応する従来の各経路制限から傾斜が１より大きく
なるパスを除くことにより、１より大きい傾斜を持った
パスを含まない構成になっている。

ＤＰｂ、〜ＤＰｂ、は第２の各経路制限で、図示の様に
、ＤＰｂ、を除き対応する従来の各経路制限と同じ構成
になっている。ＤＰｂ、は、対応する従来の経路制限Ｄ
Ｐ、から傾斜が１より小さいパス及び２より大きいパス
を除いた構成になっている。

ＤＰＣ，％ＤＰＣ，は、第３の各経路制限を示したもの
で、図示の様に、対応する従来の各経路制限から傾斜が
１より小さくなるパスを除くことにより、１より小さい
傾斜を持ったパスを含まない構成になっている。Ｄ　Ｐ
　ｃ　ａは、更に傾斜１のパスも除かれている。

第１の経路制限（ＤＰａ、　〜ＤＰａ４）は、パターン
長比が１の近傍より大きい場合、例えば、パターン長比
〉１．２の場合に選択される。これは、単語が自然な形
で普通よりもゆっくり発声された場合に当る。

第２の経路制限（ＤＰｂ、〜ＤＰｂ４）は、パターン長
比が１の近傍である場合、例えば、０．８≦パターン長
比≦１．２の場合に選択される。これは、単語が自然な
形で普通の早さで発声された場合に当る。

第３の経路制限（ＤＰｃ＋〜ＤＰＣ４）は、パターン長
比が１の近傍より小さい場合、例えば、パターン長比〈
０．８の場合に選択される。これは、単語が自然な形で
普通よりも早口で発声された場合に当る。これらのパタ
ーン長比は、最良の認識結果が得られる様、実験的に求
められる。

なお、第１〜第３の経路制限は、同じグループ（ＤＰａ
ｋ−ＤＰｃｋ）の中から選択される。例えば第１の経路
制限としてＤ　Ｐ　ａ　＋が選定された場合は、第２の
経路制限はＤＰｂ、に選定され、第３の経路制限はＤＰ
ｃ、に選定される。

第１〜第３の各ＤＰ計算部１２２〜１２４における各Ｄ
Ｐ計算は平行して行われ、１つの単語標準パターンにつ
いての第１〜第３の経路制限による入力単語パターン間
の距離が算出されると、経路選択部１２５は、パターン
長比演算手段１１０より入力されたその単語標準パター
ンに関するパターン長比に基づいて、第１〜第３の各Ｄ
Ｐ計算部１２２〜１２４の１つを選択する。例えば、パ
ターン長比が０．８よりも小さい場合は、第３の経路制
限によってＤＰ計算を行った第３のＤＰ計算部の算出距
離を選択して単語認識部１７０に入力する。

以上の経路制限によるＤＰ計算処理が単語標準パターン
辞書にある各単語標準パターンについて行われて、単語
認識部１７０にそれぞれ入力される。

（Ｂ−５）単語認識動作単語認識部１７０は、経路選択部１２５より入力された
入力単語音声パターンと各単語標準パターン間の制限さ
れた経路についての各距離の中の最小値を検出し、その
単語標準パターンに対応する単語を認識単語とする。

第４図は、本発明のＤＰマツチング方式を示したもので
、同図（ａｌは、第６図をそのまま再掲したものであり
、同図（ｂ）は、同図（ａｌの従来のケースを本発明の
ＤＰマ・ノチング方式によってマツチングさせた場合の
例を示したものである。

入力単語音声パターンのパターン長が１０フレームであ
り、マツチング時の単語標準パターンのパターン長が１
３フレームであるので、フレーム長は０．７７　（＝１
０／１３）である。従って、第３の経路制限によってＤ
Ｐ計算を行う第３のＤＰ計算部１２４の演算結果が選択
される。

この結果、第４図（８１０代りに同図（ｂｌに示す自然
な時間対応付けをもったＤＰパスによるマツチングが行
われて、正しい認識結果を得ることが出来る。

以上、本発明の一実施例について説明したが、本発明の
各構成は、この実施例の各構成に限定されるものではな
い。

例えば、経路制限の態様は第３図の態様に限定されるも
のでなく、それ以外の各種の経路制限を用いることが出
来、それに対応してＤＰ計算部の数も変更される。

又、ＤＰ計算部（１２２〜１２４）は、第２図に示す様
に並列に設ける代りに１個のＤＰ計算部により直列形式
で行わせてもよい。然しなから、第２図に示す様に複数
のＤＰ計算部により各経路制限によるＤＰ計算を並列に
行うことにより、ＤＰ計算処理を高速化することが出来
る。

〔発明の効果〕

以上説明した様に、本発明によれば、入力単語の自然の
発声速度に対応して照合時の経路制限の変更を行う様に
したので、単語全体として許される伸縮比の範囲を狭め
ることなく、不自然な時間対応付けによる照合が行われ
るのを阻止することが可能となり、認識率を向上させる
ことが出来る。

【図面の簡単な説明】

第１図・・・本発明の基本構成の説明図、第２図・・・
本発明の一実施例の構成の説明図、第３図・・・同実膳
例の経路制限の説明図、第４図・・・同実施例のＤＰマ
ツチング方式の説明図、第５図・・・従来の単語認識方式の説明図、第６図・・
・従来の単語音声認識方式のＤＰマツチング方式の説明
図。第１図及び゛第２図において、１１０・・・パターン長比演算手段、１２０・・・制限
経路距離演算手段、１３０・・・マイクロホン、１４０
・・・音声分析部、１５０・・・切替え回路、１６０・
・・単語標準パターン辞書、１７０・・・単語認識手段
。

Claims

【特許請求の範囲】

（１）未知入力単語音声パターンを各単語標準パターン
と照合して入力単語音声の認識を行う単語音声認識装置
において、（ａ）入力単語音声から作成された入力単語音声パター
ンと各単語標準パターンの各パターン長の大小を表すパ
ターン長比を算出するパターン長比演算手段（１１０）
と、（ｂ）パターン長比の大きさに対応して照合時の経路制
限の変更を行って、入力単語音声パターンと各単語標準
パターン間の距離を算出する制限経路距離演算手段（１
２０）、を備えたことを特徴とする単語音声認識装置。
（２）制限経路距離演算手段（１２０）が、入力単語音
声パターンのパターン長が単語標準パターンのパターン
長より所定量大きい場合は、１よりも大きい傾斜を持っ
た経路を含まない経路制限に変更し、入力単語音声パタ
ーンのパターン長が単語標準パターンのパターン長より
所定量小さい場合は、１よりも小さい傾斜を持った経路
を含まない経路制限に変更するものであることを特徴と
する特許請求の範囲第１項記載の単語音声認識装置。