JPS62217295A

JPS62217295A - 音声認識方式

Info

Publication number: JPS62217295A
Application number: JP61059505A
Authority: JP
Inventors: 恒雄新田; 上原　堅助; 渡辺　貞一
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1986-03-19
Filing date: 1986-03-19
Publication date: 1987-09-24
Anticipated expiration: 2009-12-21
Also published as: US4881266A; EP0237934B1; DE3775797D1; JPH06105394B2; EP0237934A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕この発明は、音声認識方式に関する。

〔発明の技術的背景とその問題点〕

音声認識の一般的な構成を第６図に示す。音声信号は帯
域通過フィルタ　（ＢＰＦ）分析、あるいは線形予測（
ＬＰＣ）分析などによ抄音響分析部（１）で分析された
後、前処理部（２）で音声区間検出あるいは、振幅の正
規化などの処理が施される。次に、音声認識では、との
入カバターンとあらかじめ登鎌されている標準パターン
（セラ）　）　（４）との類似度（もしくは距離）を計
算する方法「パターン・マツチング法」が採られ（パタ
ーン整合部３）、この結果の大小を判定部（５）で比較
した後、認識結果が出力される。

このような音声認識のための処理の中で、「境界の検出
」は、音声が時間と共に変動する信号であり、かつ多く
の背景雑音を伴なうことを考えると、重要な技術要素と
言える。このため、従来の音声認識装置の中におい−Ｃ
も、この境界噴出の精度向上には多大の努力が払われて
きた。しかし、音声には発声者自身の出す種々の雑音（
舌打ち・息づき・喉鳴り等）や周朋の雑音さらに電話音
声では回線雑音等も重畳している。このため、音声の始
端／終端を一意に決める方法を用いる限ゆ、このような
誤りは除くことができない。第７図は、事務所内で女性
が発声したｒ　ｓ　（／ｈａｔｆ　ｉ／）　」の電話音
声をＬＰＣ分析した例である。

図では右側に音声パワーの対数値（ＡｏｐＧ）をプロッ
トしている。従来技術では、背景に他の事務員達の会話
が重畳しているため、本来の「８」の終端Ｂ２’“８２
′フレーム（フレーム番号は図の左側に示す数字）では
なく、″″１１０″７１１０″７レーム終端と誤って、
検出してしまう。

また、始端／終端を一意に決める方法は他の問題点も有
している。例えば、不特定多数の話者を認識の対象とす
る電話音声認識装置などでは、あらかじめ多数の人の音
声から標準音声辞書を設計することができる。しかるに
、境界を一意に決める場合、例えば「５／？δ／〕の２
のような音声の始点に近い子音の部分は、正確にその先
頭（？の前）で始端検出されると限らないため、標準音
声辞書では、子音の先端／子音の途中／母音への渡り部
分・・・・・・といった種々の変形を含ませないと認識
性能を向上させることができなかった。また、種々の変
形を辞書に含ませざるを得ない結果、認識語素数を増す
と（類似音節列の語が出現してくるため）性能が劣化し
九り、／１０／と／δ／の区別がつかない等全般に類似
度値が大きくなり接近する結果、リジェクト能力も低下
するという問題があった。

〔発明の目的〕

この発明は、上述した従来方式の欠点を改良したもので
、背景雑音に強く、かつ正確な音声認識方式を提供する
ことを目的とする。

〔発明゛の概要〕

本発明は、音声信号を分析処理し・Ｃ特徴パラメータに
変換し、この特徴パラメータから音声の始端および終端
等の境界候補を探索し、得られた境界候補から音声（存
在）区間を尤度もしくは順番を附してパターン整合部へ
転送し、パターン整合部では、候補を含む音声区間に対
して、各々標準パターン・セットとの類似度（距離）値
を計算にはカテゴリ番号でＳＬは尤度の１番目に大きい
区間に対する類似度（距離）値を表わす）から識別判定
するようにしたものである。

〔発明の効果〕

かくして本発明によれば、第２図に示した如き雑音の重
畳した音声に対しても、正確な音声境界位置を抽出でき
、また、音声候補区間に尤度を付したことで、その上位
候補のみに対して類似度（距り）計算を行なうことで、
高速・高精度の音声認識方式を提供することができる。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例方式につき説明
する。

第１図は、不特定話者用音声認識装置の概略構成図であ
る。

認識に供される入力音声信号は、音響分析部１において
ＬＰＣ分析が行なわれる。第２図にこの処理を示す。入
力音声信号Ｘ　（ｔ）は、人／Ｄ変換部１１を介してデ
ィジタル信号（Ｘｎｌに変換されて取込まれる。

高域強請部１２は上記ディジタル信号（Ｘｎ）に対して
、ｘｎ＝　ｘｎ−βｘｎ−１（１）なる高域強調処理を行うものである。冑、係数βは、例
えば（０，９〜１．０）程度の値として選ばれる。

またパワー計算部１３は上記ディジタル信号（Ｘｎ）の
音声パワーを計算しており、そのパワーの変化から後段
の処理で入力音声の境界候補を検出している。

しかして前記高域強調されたディジタル音声信号の系列
は窓関数処理部１４に転送され、所定の窓ｆｌｉ数Ｗｎ
処理が施される。この窓関数Ｗｎは、例えばハミング窓
とし、その窓の長さをＮとして次のように与えられる。

Ｗｎ＝　０．５４−０．４６　ＣＯ８（２πｎ／Ｎ）　
　　（２）但し、ここに示したハミング窓に代えて、ハ
ミング窓やその他の窓関数を用いることも勿論可能であ
る。

しかる後、自己相関計算部１５では、上記窓の中に含ま
れる信号について次の１３）、　（４）式からＲｉ　＝
ダｉ／ｇｆｏ　　　　　　　　　　　　　　（４）各々
自己相関係数＜ｇｉ）と正規化自己相関係数（几１）を
計算し°〔いる。

またＬＰＣ分析部１６は上記正規化自己相互関数（朗）
　から次の（５）式に示す順化式に従り′ｃ１まずその
線形予測係数（αｉ）を求める。係数（αｉ）を求める
手法については幾・りか提唱されＣいるが、例えば“Ｄ
ｕｒｂｉｎ″の繰返し算法によれば、次のように■〜■
の処理を繰返すことにょっ゛Ｃ係数（αｉ）を順次ｉ＝
０〜Ｐ個まで求めることができる。

次に、ＬＰＧ分析部１６では線形予測係数（α１からＬ
ＰＧメルクプストラム係数（ＣＭｉ］を計算する。この
計算は次のようにして行なう。

■　（αｉ）からパワースペクトル（ｐｓ　１　）を求
める。このとき周波数軸をメル尺度（聴覚に対応した尺
度）に変換する。

第７図の音声分析例は、「８（／ｈａｔｆｉ／）」と発
声した際のこの（ＰＳｔ）をａｉ淡図形（ツナグラム）
で示したものである。

■　（Ｐｉ）かもＬＰＣメルヶプストラム（ＣＭｔ）を
求める０、　　ｔ　＝Ｏ，Ｌ　２ｐ・・・・・・Ｍ＊但し、ＰＫ
の侵）＋１〜（Ｎ−１）の各位は、０〜慢）−１までの
各位を折返したもの。

＊Ｍの値は４〜１６以上述べた如く、第１図の音響処理部１では、音声のパ
ワー列（Ｐ、）およびＬＰＣメルケプストラム系列（Ｃ
Ｍ　ｉ　１　）が出力される０次に、前処理部（単語境
界候補探索部）２について、第３図以下を参照して説明
する。境界の探索は大きく■第一段境界探索部２１＠ノ
イズ・レベル計算部２２θ第二段境界候補探索部２３の
三つから構成されている。

■第一段境界探索部２１：この動作を第４図を参照して
説明する。

音声の始端は、一定の閾値ＰＴｏを越え（Ｆｏ点）、か
つそのま＼一定の時間以上継続して越えたときの２０点
とし°Ｃ抽出される。また終端は、同様にＰｒｏ以下と
なった時刻（Ｂｏ）で、その後、閾値を一定フレーム以
上越えないときの８０点として抽出される。閾値ＰＴｏ
は、通常、固定値よりは、無音区間におけるノイズレベ
ルの測定値の２〜５倍の値として決めることが好ましい
。

また、この一連の処理は、時間方向に（Ｐ＞）を１回走
査しながら行なわれるが、途中、パワーの最大値Ｐｘａ
ａｘとその位置Ｆ、が抽出される。

＠ノイズレベル計算部３２：ここでは、■で求められた
始端／終端の一次候補（Ｆｏ、　Ｂｏ）の前後の複数フ
レーム区間例えば（Ｆ−９〜Ｆｏ−１）。

（Ｂｏ＋１〜８０＋９）で平均的なノイズレベルを計算
し、この値を各々ＮＦ＋　ＮＢとする。

θ第二段境界候補探査部３３：二次の探索は、パワーが
最大値Ｐｍａｘをとる位置Ｆ８を起点として（４□＋　
ＮＦ　＋　ＮＢ　）から決定される２つの閾値を用いて
前後に境界候補を求める。

第５図を参照して、始端候補を探索した際の動作を説明
する。

まず、閾値ＰＴＸおよびＰｖを次のように決定する。Ｐ
Ｔｘは、ＮＦが小さいときあらかじめ決められ九一定の
レベル（１００〜５００）が与えられる。またＮ、が大
きいときは、ＰＴＸ＝ＮＦ×２〜３と与えるＯＰｖは、
確実な音声区間とし゛Ｃ認定するための閾値で、Ｐｖ＝
ａｉ＊　（Ｆ’ｖ０．　Ｐ、、、−’Ｄ）と与えられる
。但し、Ｐｖｏは５０００〜１００００．　Ｄ　＝５〜
２０である。

Ｐｍａｘを与える点Ｆｘを出発して、フレーム番号が小
さくなる方向に探索を行ない最初にＰＴｘ以下となる点
ｒかまず境界候補とされる。

しかし、この点Ｆ′は、その後、十分音声区間と１は定
される区間Ｆｖ　（この区間はＰｖを越えた区間で、こ
のフレーム数が一定の値（８〜１２）以上のとき音声区
間と認定する）があるため、棄却される。次にＰＴｘ以
下となる点Ｆ１が境界候補とされる。さらに先へ進み、
パワーは、Ｐ・Ｆ８を−ＨＦｃフレームだけ越えた後、
再びＦ２点で１壇以下となり、引き続き一定フレーム（
２０〜２５）その状態が継続した時点で探索を終える。

ＦｌとＦ２の尤度は　ｌ？Ｉｃフレームの区間長とこの
区間のレベルから決定される。

ここではこのレベルが平均的ノイズレベルに応じて定ま
る閾値ＰＴＶ＝２ＸＰＴｘを４〜８フレーム以上越えた
場合に尤度＝１を与え、これ以下で２〜３フレ一ム以上
のとき尤度＝ｈ。

これ以下のフレーム数で尤度＝Ｏとした。また最初に探
索された境界候補点は常に尤度＝弓とする。尤度Ｏのと
きは、その区間は、無視され、処理を続行される。

同様の処理は、後方の境界候補探索にも適用され、１又
は複数個の境界値が抽出される。

第７図の例では、Ｂ１で尤度＝帰、Ｂ２で尤度＝−とな
る。

順位計算部２４では、これらの値から単語区間を検証し
、尤度順にこの値をパターン整合部３へ送る。例えば、
終端候補として８１（し）　＝　Ｂｌ　（”／ｌ）　、
（に）内は尤度）、また始端候補としてＦｘ（Ｊ）が探
索された場合、区間（Ｆｌ。

’−＋Ｌ＝ｏ、ｒｓの二つの区間が抽出されるが、これ
らの区間は、一定のフレーム数（８〜１５）以上のもの
のみが音声区間と検定され、（Ｆｌ。

Ｂｌ）、（Ｆｌ、Ｂ２）の順に一定の順位までの候補区
間が転送される。また、尤度（の和）が等しい場合は、
始端の尤度が犬な方を優先する。

パターン整合部３では、まずＬＰＧメルケプストラム系
列（ＣＭｉｄに対するリサンプル処理が行々われる。具
体的には、　　（Ｃｙｉ７　）の時系列から（Ｆｌ、Ｂ
ｔ）に対応する区間を等分割（ここでは１５等分）して
、１６点を抽出する＜（ＣｘＬハ・ｉ　−１，１６，／
＝　１．１６　＞。例えば第７図の０点とする。次に同
様にして（Ｆｌ、Ｂ２）に対応する特徴パラメータを抽
出する（（Ｃハハ、ｉ＝ｕ、ｔｓ。

）＝１．１６）。例えば第７図の０点とする。以下、転
送された候補区間に対応する特徴パラメータが同様に処
理される。

次に、（Ｃｘｊ７１と予め登録された各カテゴリの標準
パターン・セットとの複合類似度が次式で計算され、そ
の値（ＳＦ’）が判定部５へ送られる。

ここで、Ｃ！＝　（Ｃ五り）、　ｉ＝ｌ、１５．．４＝
１．１５ｗ、、　＝＝λヨ／λｅ λ。、〆１は各々カテゴリにの共分散行列をＫＬ展開し
て求めた固有値、固有ベクトルで、Ｌはその個数、同様にして、（Ｃｇｉｄが存在する場合は、複合類似度
が上式でＣ工→Ｃ，として計算され、結果（Ｓ：ｏ）が
判定部５へ送られる。以下同様な処理により、Ｂ３　＋
　Ｂ４　Ｈ・・・が判定部５へ送られる。

判定部５では、（８１″ｒ　８２”ｒ・・・ｌの類似度
値からカテゴリ毎に最大値（Ｓ　）を決定した後、これ
を大金い順にノートして、必要な順位まで（例えば３位
まで）の結果を（認識結果として）出力する。

このような一連の処理を行なうことにより℃、これまで
単語境界検出誤まりとして、誤認識されていた音声が、
正しく認識されるようになった。表１は、１ｏｏｏサン
プルの音声（数字を含む電話音声）を、本発明による単
語境界候補探索によって第１位及び第２位までに入る率
を示したものである。始端・終端は各２個まで候補を許
し、最大４通りの区間が抽出されるが、８５チの音声で
１通りしか区間が抽出されず、残りの殆んどで２通りの
区間が抽出され、また４通り抽出された場合でも、尤度
をつけたことで２位以内に入る例が多かりた。

表　　１表から第２位の尤度までの候補区間を採用することで、
境界の誤判定は０．５％に減っている。

同じデータを、従来の単語境界を一意に決定する方法を
用い゛Ｃ単語区間を切り出した所、２．７チが誤まりで
あった。一般に、単語の終りは無声化するものが多く、
背景雑音の影響を受けやすい。そこで特に終端候補を複
数許容することにより正確な認識結果が得られる。

このように本方式によれば、背景雑音等のためにこれま
で救出不可能な単語境界誤まりによる認識エラーを大幅
に救うことができる。

また、尤度（これは項番でもよい）を付したことで、２
位（所定数）以内の候補のみ類似度計算をすることで演
算の低減が可能となり高速・高性能な単語認識方式を形
成できる。

閘、本発明は上述した実施例に限定されるものではない
。実施例では単語音声の認識について説明したが、音素
、音節あるいは文節９文単位の音声認識にも七れらの境
界検出誤まりの低減に適用可能なことは云うまでもない
。

その他、音響分析方式、境界検出方法など本発明はその
要旨を逸脱しない範囲で種々変形して実施することがで
きる。

【図面の簡単な説明】

第１図は本発明の一実施例の全体ブロック図。第２図は本発明の一実施例の音響分析部を示すブロック
図。第３図は本発明の一実施例の前処理部を示すブロック図
。第４図及び第５図は前処理部による境界検索法を説明す
るための図。第６図は従来技術を説明するための図。第７図は女性が発声した「８」の電話音声をＬＰＣ分析
し九例を示す図である。１・・・音響分析部２・・・前処理部３・・・パターン整合部４・・・標準パターンセット５・・・判定部２１・・・第１段境界探索部２２・・・前方及び後方ノイズレベル計算部２３・・・
第２段境界候補探索部２４・・・順位計算部代理人　弁理士　則　近　憲　佑同　　　　竹　花　喜久男第　　１　　図第２図

Claims

【特許請求の範囲】

音声信号を分析処理して特徴パラメータに変換する手段
と、該特徴パラメータから音声の境界候補を複数探索す
ると共に、各候補に尤度もしくは順位を付し、音声区間
が複数個抽出されたとき該音声区間候補に順位を付す手
段と、得られた音声候補区間のうち一定の順位までの区
間に対して、予め作成された標準パターンとの類似度も
しくは距離値を計算する手段と、得られた複数候補区間
に対する類似度もしくは距離値から音声を識別判定する
手段を有することを特徴とする音声認識方式。