JPS62275300A

JPS62275300A - 連続音声認識方法

Info

Publication number: JPS62275300A
Application number: JP61110889A
Authority: JP
Inventors: 広田　敦子; 三木　敬
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1986-05-16
Filing date: 1986-05-16
Publication date: 1987-11-30

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】３、発明の詳細な説明（産業上の利用分野）本発明は音声認識方法、特に連続音声認識方法に関する
。

（従来の技術）従来、連続音声の認識は第２図のブロック図で示すよう
な認識装置を用いて行っていた。先ず、入力端子１０に
入力された連続発声音声入力に対して前処理部２Ｑにお
いて周波数分析、対数変換等の処理を行って対数ス啄り
トル情報及び全域・ｔワー情報（これら２つの情報を入
力パタンとする）を得た後、これらの画情報を音声区間
検出部３０に送り、そこで音声区間を検出し、続いて検
出された音声区間の入力パタン及び対数ス被りトル情報
を認識部４０に送り、この認識部４０において主として
この音声区間及び対数スペクトル情報に基づいて認識処
理を行ってその結果を出力端子５０に出力させている。

連続音声を認識する方法としては、従来提案されている
方法として例えば文献Ｉ（日本音響学会音声研究会資料
資料番号３７８−２０　　（１９７８年６月２４日））
に開示されている連続動的計画（以下、ＤＰという）マ
ツチングを用いて行う方法、或いは、例えば文献１１（
日本音響学会音声研究会委員会資料番号Ｓ　７５−２８
　（１９７５年１１月２２日））に開示されている２段
ＤＰマツチングを用いて行う方法がある。

この２段ＤＰマツチング手法は連続音声の認識時に適用
される方法であり、単語単位の標準的なス啄りトル情報
（標準・ンタンと称する）を用いている。

以下、この発明の説明に先立ちこの２段ＤＰマツチング
手法の基本的なアルゴリズムにつき簡単に説明する。

先ず、初めに部分マツチングを行う。始端をｔとし、終
端をｍとした部分・々タンＣ（Ａ、ｍ）を予め容易され
た標準パタンＢｎとの間でＤＰマツチングを実行し、ｔ
　（ｍなる全ての（ｔ、ｍ）に対して部分類似度Ａ　（
ｔ、・）及び部分判定結果Ｑ　（ｔ、・）をそれぞれ計
算し、テーブルに記憶しておく。°これら部分類似度を
次式（１）に示し及び部分判定結果の計算式を次式（２
）で示す。

△ Ｓ（ｔ、ｍ）＝　　　［５（Ｃ（ｔ、ｍ）、Ｂｎ））　
　　（１Ｇ（ｊ、、ｍ）＝ａｒｇＴｎａｘ［５（Ｃ（ｔ
、ｍ）、Ｂ”）］　　（２）ココア、ａｒｇｒＴｌａｘ
〔〕ノ記号ハ〔〕内ノ汲犬を与える変数ｎを与えること
を意味する。

次に、全体マツチングを行う。この場合、部分類似度の
テーブルを基にして、以下に与える第（３）式に従って
最大値問題を計算し、最適な分割数変数に＝小と、分割
位装置変数ｔ（Ｘ）＝少（Ｘ）（Ｘ＝１．。

△ ２、・・・、Ｋ）　　を求める。

この最大化はＤＰマツチングによって実行できる。

最後に判定処理を行う。部分判定の結果のテーブルを参
照して、認識結果を次に示す第（４）式により求める。

ｎ（ｘ）＝介１（Ｘ−１＞　、Ａ（Ｘ））　　　　　（
４）但し、（Ｘ＝１１’２　、・・・、小）以上説明し
だアルゴリズムでは、部分マツチング処理で５（Ｃ（ｔ
、ｍ）、Ｂｎ）を計算するだめの第１段目のＤＰマツチ
ングを実行し、また全体マツチング処理で第（３）式の
最大化を計算するために第２段目のＤＰマツチングが実
行されるので、このアルゴリズムに基づく認識法を２段
ＤＰマツチング法と称している。

（発明が解決しようとする問題点）しかしながら、連続発声された音声・２タンを解析して
いくと、連続発声中の単語においては、前後に発声した
単語に影響され、音声パタンの抽出すべき部分の形がく
ずれたり、音素の湧き出したり、脱落等の影響で抽出が
困難な単語が多く存在する。これらの単語に対して、従
来の２段ＤＰマツチング手法を用いると、単語単位の標
準パタンを用いているために、同一カテゴリであっても
単語間距離が大きくなることが度々起る。従って、この
結果を用いて第２段目のＤＰマツチングを行っても認識
確度は上らないという問題点があった。

さらにまた、連続的な時間軸上でＤＰマツチングを行う
と、総当り法となり、計算量が膨大となり、従って、装
置化を行ったときにマツチング部等が非常に大規模な装
置となり、経済性の点においても著しく比現実的かつ非
効率的なものとなる。

他方、計算量が比較的小さいものとしてワードスポツテ
ィング法を用いた認識も、例えば文献■（電子通信学会
論文誌、Ｖｏｌ、　Ｊ　６９−　Ａ　Ａ　２１９８６，
２Ｐ　Ｐ２６１−２７０）で知られている。

本発明は、文献■のワードスポツティング的な手法を前
段として用い、階層的な手法で認識処理を簡素化しよう
とするものである。

そして、ワードスポツティング段階における検証として
・々ワーティノプ個数による検証を採用し、認識率を高
めようとするものである。

（問題点を解決するための手段）本発明は、ワードスポツティング手法を用い、カテゴリ
名及びその位置決めを行い、ワードスボッティング手法
により抽出されたカテゴリに対してノ２ワーディノプ検
証部にて・ぐワーディップの個数（有無を含む）情報に
より検証し、安定に抽出することが困難で標準・ぞタン
との単語の同定が行えない部分・ぐターンに対して２段
ＤＰマツチング手法を用いてカテゴリ及びその位置決め
を行い、さらに、パワーディップ情報をワードスポツテ
ィング結果に用いて検証再決定することによシ、精度よ
く行うようにしたものである。

（作用）このように構成すれば、連続発声した音声の抽出の難易
度に対応した階層的な認識処理を行えるから、認識精度
が向上し、かつ、認識処理に要する演算量が低減する。

（実施例）以下、図面を参照して本発明の連続音声認識方法の実施
例につき説明する。

第１図は本発明の実施例を示したブロック図であり連続
数字音声を対象としだものである。第１図においてｌＯ
θは入力端子、２００は前処理部、３００は音声区間検
出部、４０θはワードスポツティング部、５００はパワ
ーディップ検出部、６００はパワーディップ個数辞書、
７００は／やワーディノプ検証部、８００はＤＰマツチ
ング部、９００は統合処理部、１θ００は出力端子であ
る。

このような構成において入力端子１００から入力される
入力音声信号は前処理部２００に入力される。

前処理部２００では、まず複数の周波数帯域に対応した
量子化信号として周波数分析された後、対数変換により
、対数ス被りトル情報及び全域・ぐワー情報を得る。（
以下、この２つの情報を入力パタンとする）。

音声区間検出部３００へは、対数スペクトル情報及び全
域・マワー情報が送られ、連続音声の始端フレーム及び
終端フレーム情報は前処理部２００であらかじめ求めて
いる対数スペクトル情報と同時に、ワードスポツティン
グ部４００及Ｕ”ワーディソプ検出部５００へ送られる
。

ワードスポツティング部４θ０では、あらかじめ算出し
ておいた認識対象となるカテゴリの標準ス硬りトル情報
（以下この情報を標準・やタンとする）と前処理部２０
０で既に求められている入力／Ｆメタンを照合すること
により、ワードスポッティングを行う。ワードスポツテ
ィングは前記文献■によってもよいが、音韻認識による
線形シフトマツチングによっている。

第３図を参照して説明すると、音声区間の入力パタンに
対し、音韻系列を識別し、その音韻識別結果をスムーノ
ングし、音韻・・母ワーディノプ個数辞書のラベル部の
音韻系列と照合して、単語のカテゴリ名とカテゴリ位置
とを決定する。

なお、第３図のカテゴリは、−通りのみ示しているが、
音韻のシフトマツチングを行なっているので入力パタン
によっては幾通りか決定される。

前述した方法により、ワードスポツティング部４００に
て検出された単語のカテコ゛り名及びその位置（区間）
すなわちワードスポツティング結果はノ’？ワーディノ
プ検証部７００へ送られる。

同時にパワーディップ検出部５θ０では、ワードスポツ
ティング部と同様に音声区間検出部３００から送られた
情報である連続音声の始端、終端フレーム情報及び対数
ス４クトル情報をもって、・ｅワーディ７プの検出を行
う。

ｉＥワーディノプ検出は、特開６０−２５４０９９「音
声認識方法」に開示されるＡワーディノプ検出方法を用
いている。そして、検出された・ぐワーディノプは、パ
ワーディップ検証部７００へ送られる。

さて、ｉＥワーディソプ検証部７００では、ワードスポ
ツティング部４００から送られたスポツティング結果及
び・２ワ一デイノプ検出部から送られた・ぐワーディノ
プ情報をもって音韻・・ぐワーディノプ個数辞書６００
内に格納されているパワーディップ情報との照合をおこ
なう。

第３図に示すように、音韻・・モワーディノプ個数辞書
にはカテゴリ毎のノクワーディノプの有無の情報及びノ
４ワーディノプの有るカテゴリについてはその個数の情
報が格納されている。またディップの有無はフラグの１
又はＯで示され、フラグが１は有、０は無である。なお
、第３図のノ２ワーパタンの例ばｒ１２：３４（イチニ
サンヨン）」と発声した時に得られたものである。

／４’ワーディップ検証部５００では、このようなワー
ドスポツティング結果の持つパワーディップ情報がパワ
ーディップ個数辞書と一致しているかどうかの確認をし
、一致したものをワードスポツティング結果として再決
定して、統合処理部９００へ送る。一方ＤＰマツチング
部８００では、ワードスポツティング部４００では検出
されなかった区間の始まるフレームから終るフレームま
でを音声の始端及び終端フレームと仮定し、すなわち残
りの部分・ぐターンに対して、文献■に開示される公知
の技術である２段ＤＰマツチング手法を用いて行う。

そして、ワードスポッティング部４００にてワードスポ
ツティングを行った結果単語として検出されたカテゴリ
とその区間の始端、後端の値及びＤＰマンチング部８０
０にて前述した２段ＤＰ手法を行った結果単語として検
出されたカテがすとその区間の始端、終端の値は、各々
統合処理部９００へ送られる。

統合処理部９００では、入力音声の始端から終端に至る
までのツリーサーチによる累積評価の結果、その評価値
が最も犬となるカテゴリの組合せについて、終端より接
続関係をパンクトレースすることにより、その最適接続
関係をとなるカテゴリの並びを認識結果として出力端子
１０００へ送る。

（発明の効果）　・以上説明したように、本発明によれば任意の連続音声を
認識する際に、音声の抽出の難易度に対応した認識処理
、すなわち語中の変化を受けている部分と受けていない
部分を分け、一段目の確実な結果のみを２段目に使用す
ることにより認識精度を上げることが期待できる。更に
従来のような総当り的な演算ではなく、階層的な手法に
より演算量を軽減することが可能であり、認識処理を簡
素化することが可能である。

換言すれば、これらの認識処理に加え、各カテゴリのパ
ワーディップの有無と、パワーディップが有る場合は個
数の情報をマツチング距離に換算して取り込むことによ
って、ノＰワーディップを持つカテゴリ、例えば「二」
、「ヨン」、「ゴ」間のマツチング時の誤認識を減少さ
せることが可能であり、したがって単語間の識別を、よ
シ精度良く行うことが出来、認識性能を向上するのに効
果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
従来技術の説明図、第３図は第１図での動作の説明図で
ある。１００・・・入力端子、２００・・・前処理部、３００
・・・音声区間検出部、４θ０・・ワードス２ノティン
グ部、５００・・・ノ？ワーディノプ検出部、６００・
・辞書、７００・・・Ａワーディノプ検証部、８θＯ・
・ＤＰマツチング部、９００・・総合処理部、１０００
・・・出力端子。手続補正書輸発）１．事件の表示昭和６１年　　特　許　願第１１０８８９号２、発明の
名称連続音声認識方法３、補正をする者事件との関係　　　　　　　　特許用　願　人住　所（
〒１０５）　　東京都港区虎ノ門１丁目７番１２号名称
（０２９）　　　沖電気工業株式会社代表者　　　　胡
継漫橋本南海男４、代理人住　所（〒１０５）　　東京都港区虎ノ門１丁目７番１
２号５、補正の対象６補正の内容（１）明細書第５戸第１５行目に「音素の湧き出した」
とあるのを「音素が湧き出した」と補正する。（２）同書第７頁第１２行目から第１３行目に「行える
から、」とあるのを「行えるので、Ｊと補正する。

Claims

【特許請求の範囲】比較的計算量が少ない方法によって、音声区間の入力パ
タンの部分パタン対応で単語のカテゴリ名とそのカテゴ
リ位置とを、決定するワードスポッティング処理と、当該ワードスポッティング処理で決定されたカテゴリに
対応する前記部分パターンのパワーディップの個数を求
め、予め用意されたパワーディップ辞書から読み出した
個数とを比較し、両方の個数が一致することを条件にし
て前記ワードスポット処理の結果から単語のカテゴリ名
とカテゴリ位置とを再決定する検証処理と、検証処理で決定されたものの残りに対応した入力パタン
の部分パターンに対し、動的計画法によって単語のカテ
ゴリ名とカテゴリ位置とを決定する処理と、を備えていることを特徴とした連続音声認識方法。