JPS61143795A

JPS61143795A - 音声認識装置

Info

Publication number: JPS61143795A
Application number: JP59265291A
Authority: JP
Inventors: 浮田　輝彦; 篠田　英範
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1984-12-18
Filing date: 1984-12-18
Publication date: 1986-07-01

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は雑音環境下で発声された入力音声を精度良く、
認識することの出来る音声認識装置に関する。

〔発明の技術的背景とその問題点〕

音声を情報入力手段とする日本語ワードプロセッサ等の
ＯＡ分野や工場でのＦＡ分野で音声認識装置が利用され
始め、その媒体としての有効性が示されている。しかし
、現存する音声認識装置は、環境雑音に対してなんら積
極的な処理を行なっていないため、装置を使用する環境
に少しでも雑音が入ってくると、認識Ｍ度の低下を招き
、音声の情報入力媒体としての高速性などの有効性を失
う事が多く、実用性に乏しかりた。

これにたいして、定常的な一定の雑音については、その
雑音スペクトルを推定し、それを入力のデータから減算
することにより、雑音の形番を軽減する方法も試みられ
ているが、パルス性のものに対しては無力である。ある
いは、Ｓ著なｌｓ音パターンを認識すべき単語と同等の
カテゴリーとして登録する方法なども検討されているが
、音声に重畳した雑音の影響は除去できない。これらに
対しては、認識機構中に雑音の影響による音声パターン
の変形を吸収する手段を持たないかぎり、時間的に変化
し、音声に重畳する雑音中のパターンを高精度に認識す
る事は不可能と言える。

〔発明の目的〕

本発明はこの様な事情を考慮してなされたちので、その
目的とするところは、雑音が重畳した入力音声でも高精
度に認識することのできる実用性の高い連続音声認識装
置を提供することにある。

〔発明の概要〕

本発明では、外部から指定される時間区間に置いて音声
の全く存在しない入力データから認識処理時に問題とな
る雑音パターンをクラスタリングの手法により、準備す
る。そして、その結果得られる雑音代表パターンに基づ
き音声認識部の標準パターンを操作する。これにより、
雑音が重畳しいてるかもしれない、入力データを高精度
にｉｔ別する。

〔発明の効果〕

本発明では、入力音声の発生時に重畳するかもしれない
雑音データを準備する。そして、その代表的なパターン
を１つ以上決定し、それらを用いて、音声認識の認識単
位の標準パターンあるいは。

認識すべき入カバターンを操作する。従って、入力時に
雑音が重畳しているか否かの判断が出来なくとも、可能
性のある雑音の代表パターンに対処できるため、今まで
対処することが出来なかったパルス性の雑音や時間的に
変化が激しい環境雑音に有効出来る。

〔発明の実施例〕

以下、図面を参照して本発明の実施例につき説明する。

まず、ここでは単語音声の認識として説明するが、この
単語は言語学的な意味で用いるのではなく、音声認識処
理における認識の基本単位として定義されるもので、例
えば音節や母音−子音−母音の音韻連鎖またはこれらに
類するものでもよい。

さて、第１図は実施例装置の概略構成図である。

入力音声は音響分析部１に入力されて一定の分析時間毎
に分析されて、その特徴パラメータが求められる。この
分析時間をフレーム周期と呼ぶ。この音響分析部１は、
帯域通過フィルターを利用したフィルターバンク番こよ
り構成され、例えば音声帯域を８〜３０程度の帯域に分
割して、スペクトル分析を行ない、その特徴パラメータ
を求める。

この特徴パラメータはある所定の時間間隔（フレーム周
期）毎にサンプリングされる。この時間間隔は音声の音
韻的特徴を十分に反映するため、典型的には数ｍ　ｓｅ
ｃ　〜１０　ｍ　ｓｅｃ　、長くても２０ｍ５ｅｃまで
設定される必要がある。

雑音代表パターン決定部２では、外部から指定される時
間区間で音声が含まれない間の入力データを取りこみ、
認識単位のパターン表現と同じものを時間開始時刻及び
終了時刻を適切に変化させながら、作成する。次にこの
ようにして得られる多数のパターンを単語類似度計算部
３を利用しながらパターン間の類似度を計算し、その類
似度にもとづきクラスタリングを行うことにより、１つ
以上の代表パターンを求める。

まず、雑音パターンの表現法を示す。後出のように単語
認識の方法として複合類似度法などを適用する場合には
、雑音パターンを一定次元のベクトルとして表現する。

すなわち周波数軸方向にフィルターバンクのチャンネル
数、時間軸方向には、ある一定数の点を覗り出す。この
時間軸方向の取り出し方は、単語標準パターンの構成と
同様に、単語継続時間長の上下限値の範囲から線形に再
サンプルして覗り出せばよい。第２図にその原理を示す
。すなわち入力単語データに重畳する可能性のある雑音
パターンを形成するために単語が存在しえる長さに対し
て、図の例では５点のサンプル点を決定している。

このような雑音パターンを指示される時間の間、種々の
始端及び終端の時刻から抽出し、クラスタリングを行う
。クラスタリングの手法にはｌ５ＯＤＡＴ入やＫ　−ｍ
ｅａｎｓ法などと呼ばれる方法がある。まずｌ５ＯＤＡ
ＴＡ法による方法を示す。第３図に処理手順を示す。

まず準備された雑音パターンをＡ個のクラスター（Ｗ１
〜ＷＡ）に分割する。その方法は適当でよく、得られた
順に全雑音パターンをＡ個に分割すればよい。次に各ク
ラスターＷｉの”分散”σｉを計算する。“分散”とし
てはクラスターＷ　ｉ　ｌ；ｊ’３の全パターン間の距
離を計算し、その最大距離を”分散”として定めればよ
い。この１分散”がある決められた閾値θＳより大きい
ときはそのクラスターＷｔを分割する。分割方法は前記
の最大距離を与える２つのパターンを中−心として、２
分割すればよい。次に各クラスターの中心Ｃｉを、平均
ベクトルとして求め、続いて、カテゴリー間の距離δ１
ｊを求める。ここでδｉｊが閾値θＭより小さい場合は
ＷｉとＷｊを併合して１つのクラスターとする。

これらの手順を分割・併合が起らなくなるか。

あるいは決められた回数θにだけ繰り返す。これにより
、１つのクラスター内の分散がＱｓ未満で、クラスター
間距離が０Ｍ以上のクラスター（Ｗｌ。

・−・ＷＢ）が得られる。これらのＢ個のクラスターの
中心Ｃ１（１＝１〜Ｂ）は、音声認識装置が動作する時
に音声データに重畳する可能性のある代表的なり個の雑
音パターンを表現することになる。

次にＫ　−ｍｅａｎｓ法を利用する例を示す。まずＡ個
のクラスター中心を決める。これは、抽出された雑音パ
ターンを抽出順に前からＡ個を取り出し、それぞれをク
ラスター中心Ｃｉとする。次Ｅこすべでの雑音パターン
とＣ４との距離を求め、各雑音パターンを一番近いクラ
スターに属すると決める。

続いてクラスター中心ＣＩの再設定を行う。これは当該
クラスター間距離の全サンプル中のサンプルに対して最
大距離を与えるサンプルをＣｔとして再設定する。これ
が前のステップと同じものが選ばれれば終了し、そうで
なければ再度全雑音パターンを各クラスターに配布しな
おす（一般には収束性は保証されていないので、繰り返
し回数に上限を設けておく）。この方法ではＡ個のクラ
スターが求められることになる。またクラスタリング時
のデータの提示順序に依存するので、　Ｉ　５ＯＤＡ’
ｒＡ法の方が良好な結果が得られる場合が多い。

なお、上記の距離尺度としては、ユークリッド距離や市
街地距離を用いることができる。またベクトルのノルム
を正規化しておく場合には、ユークリッド距離の代りに
相関値を類似度として用いても等価である（大小関係は
逆になる）。

一方、認識処理では入力された音声データに対し、雑音
パターンを正規比して認識される。すなわち、第１図の
入カバターン正規比部３において、入力データのパター
ンから上記の処理番こより準寓された代表雑音パターン
を減暉することにより雑音を正規「ヒした上で、それら
に対して単語類似度を計算する。

単語類似度計算部４の一構成例を示す。類似度計算の方
法はパターンの変形を吸収する能力が高い複合類似度法
を用いる。すなわち、各単語のクラス毎に数種の互いに
直交したベクトルを用意して、入力のパターンとの内積
を計算する。この数種のベクトルは単語辞讐記厖部５に
記１されている。入力データに対して一定次元のパター
ンベクトルを発生する。このベクトルの次元数は上記の
雑音パターンの表現とおなしものである。類似度計算部
４では各単語と発生された入力のパターンベクトル間の
類似度を演算する。そして、そのときの最大の類似度を
与える単語名とその類似度が、出力され・る。

類似間演算の方法を更に説明する。今人カバターンを（
Ｘｉ）（ｉ−１〜Ｎ）とする時、これは周波数方向Ｆ点
（バンドパスフィルターのチャネル数に対応）、時間軸
方向Ｔ点の計ＦｘＴ（−Ｎ）次元のベクトルとして表現
される。時間軸方向Ｔ点の決定方法は、部分区間を１等
分する位置の最近傍フレームを吹出せば十分である。こ
の各フレームの現フレームからの相対位置は、区間長を
変数とする関数の形で与えられ、テーブル比して予め準
備しておく。

？’ＫＧＣｌ　（１＝　１〜Ｌ　）　番目（７）雑音パ
ターンＺ！”’に対して、　（１）　　　　　　、　（１）Ｙｌ　冨Ｘ１−Ｚ監を計算する。モしてＹｉにたいする単語の類似度を計算
する。

単語ｃ（ｃｍｌ〜Ｃ）の辞嚇パターンをＲｃｍｉ（ｉｗ
ｌ　〜Ｎ）とする。ただしｍ（ｍ−１〜Ｍ）は単語Ｃに
対して用意される直交ベクトルの数である。すなわちである。またλｃｍを係数とする（これらは単語力＜１
）に対する類似度５ｃ（Ｙｉ　　）は、として計算される。次に全単語クラスに対する類似度の
中から最大のものを選択する。これにより、第１番の雑
音パターンに対する類似度計算が終了する。

以上の処理により種々の雑音パターンを正規比したパタ
ーンに対し、単語類似度を計算する。第１図の判定部６
では、これらの複数の雑音代表パターンを正規化した場
合の結果を記燻し、これらの中から最大値を与えるもの
を判定する。

これにより、入力データに重畳して入力される可能性の
ある雑音パターンに対して有効に対処できる。しかも、
簡単にモデル化できない時間的に変化する環境雑誉に対
しても装置が自動的に適応する能力を持つため、利用す
る場所・時の状況が大きく変ｆヒするような応用に対し
ても有効に対処でき、高精度の■識性能が保証できる。

なお、上記の実施例においては、入力データから雑音代
表パターンを減算する事により正規比したが、これに対
して雑音代表パターンを単語辞書に対して正規比する方
法も考えられる。第４図にその構成例を示す。この場合
は各−ｉパターンのクラスターの共分散行列を計厚し、
別に初期単語辞書データとして用意されている各単語カ
テゴリの共分散行列との和の行列を求め、それをに−Ｌ
展開し、その固有値・固有ベクトルとして単語辞書を用
意すればよい。この場合、識別ずべきカテゴリ数はｃｘ
ｒ、となる。

上記実施列では単語認識を例として示した。し−１２１
１０９に示される方法では、単語マツチングを行う部分
区間毎に上記実施例に示される方法を適用すればよいこ
とは明らかである。

尚、本−Ａ明は上記実施例に限定されるものではない。

列えば認識単位を音ｔΔや母音−子音−母音の音韻連鎖
とすることも可能であり、要するに本発明はその要旨を
逸脱しない範囲で種々変形して実施することが出来る。

【図面の簡単な説明】

第１図は一実施例装置の概略構成図、第２図は雑音パタ
ーンの時間サンプル点の決定の原理図。第３図は雑音代表パターンを決定する方式の原理を示す
図、第４図は本発明の他の実施例装置の概略構成図であ
る。１・・・音響分析部、２・・・雑音代表パターン決定部
、３・・・入カバターン正規比部、４・・・単語頑似度
計算部、５・・・単語辞書記憶部、６・・・評価部、１
１・・・音響分析部、１２・・・雑音代表パターン決定
部、１３・・・単語辞書作成部、１４・・・初期単語辞
書データ記憶部、１５・・・単語辞書記１部、１６・・
・単語類似度計算判定部。

Claims

【特許請求の範囲】

（１）入力信号の特徴パラメータを一定分析時間毎に求
める手段と、別に指示される時間の間に外部雑音データ
を入力し複数の代表パターンを求める手段と、認識単位
の辞書を持ち入力音声データに対する認識単位との類似
度を計算する手段と、それにより得られる類似度に基づ
いて入力音声の内容を判定する手段から構成される音声
認識装置において、類似度計算の際に雑音代表パターン
を順次正規化し、それらの類似度の最大のものを判定す
ることにより認識処理を行なうことを特徴とする音声認
識装置。
（２）上記雑音代表パターンの決定手段において、クラ
スタリングの手法を用いることを特徴とする特許請求の
範囲第１項記載の音声認識装置。
（３）雑音の正規化手段として、入力音声データのパタ
ーンから雑音代表パターンを減算することを特徴とする
特許請求の範囲第１項記載の音声認識装置。
（４）雑音の正規化手段として、雑音代表パターンを表
すデータと別に用意される初期単語辞書データから単語
辞書を構成することを特徴とする特許請求の範囲第１項
記載の音声認識装置。