JPS6227798A

JPS6227798A - 音声認識装置

Info

Publication number: JPS6227798A
Application number: JP60165794A
Authority: JP
Inventors: 一広山畳; 利一安江; 吉明北爪; 利之井関; 俊夫上村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1985-07-29
Filing date: 1985-07-29
Publication date: 1987-02-05
Anticipated expiration: 2010-06-05
Also published as: JPH0752355B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、標準パターンを記憶しておき、入力音声パタ
ーンを該標準パターンと照合することによυ、該入力音
声の認識を行なう音声認識装置に係り、特に、話者の発
声変動や突発的な雑音の影響を排除した標準パターンを
作成し安定な認識を行なう音声認識装置に関する。

〔発明の背景〕

音声認識装置は、認識対象とする各音声に対して標準パ
ターンが用意されており、入力音声パターンを上記各標
準パターンと比較照合、即ちマツチングを行って最も良
好な一致が得られる標準パターンを決定することによっ
て入力音声パターンが、該標準パターンと同一音声であ
ると判定される。

上記標準パターンを登録する方法として、入力音声をそ
のままメモリに記憶させる方法は、例えば、単語認識装
置では、１つの単語に対しその入カバターン長に比例す
るメモリを必要とし、更に単語数分のメモリが必要とな
り、そのメモリ量は膨大なものとなる。

一方、音声には、母音部等継続時間が１　ｏｏｍｓｅｃ
程度の定常部分がかなりの割合で存在する。たとえば従
来の装置では、特開昭５８−１３７８９９に記載のよう
にこのような定常部分を検出し、その区間の中央位置の
情報をその区間の代表値とすることによって情報量の圧
縮を行っていた。また、この圧縮した標準パターンを用
いて突発的な雑音や、話者の発声変動が入ることを排除
するためには、話者に同じ語を複数回発声させて、１回
目の発声データから標準パターンを作成し、２回目以降
の発声データを、入カバターンとし、１回目で作成した
標準パターンとのマツチングを行ない、その距離が、あ
る閾値より小さければ前記標準パターンは、有効である
とすればよい。逆に、距離が閾値を超えた場合には、１
回目の発声データで作成した標準パターンは無効とし、
２回目の発声データから作成した標準パターンと入れか
える。その検定に３回目以降の発声データを使用すれば
よい。

しかしこのような方法では標準パターンは、過去に発声
されたデータの１回分であるにすぎず、そのときに偶然
入った雑音等の不要な情報まで標準パターンの中に含ま
れておシ、これが認識率低下の原因となっていた。この
ような不要情報の影響を少なくするには、話者が複数回
発声したデータの平均値を用いて標準パターンを作成す
れば良い。しかし、話者の発声時間は、毎回異なるため
、そのパターン長も異なり、単純に平均化することは、
不可能であった。

〔発明の目的〕

本発明の目的は、話者の発声変動や、突発的雑音等の不
要情報を排除した安定で学習可能な圧縮標準パターンを
作成するようにし、かつ、認識時には、該標準パターン
と、圧縮しない入カバターンとの高精度なマツチングを
行なうことのできる音声認識装置を提供することにある
。

〔発明の概要〕

この目的を達成するため、本発明では、標準パターン作
成時には、入力音声の発声時間の変化に関係なく入力音
声情報を一定数のセグメントにグループ化し、各セグメ
ントに含まれるデータの平均値をそのセグメントの代表
値として、圧縮標準パターンを作成する。２回目以降の
発声データに関しても、同様の情報圧縮を行ない、既に
作成されている標準パターンの各セグメントのデータと
の間で平均値を求めれば、標準パターンの平均化を行な
うことが、できる。

更に、標準パターン作成時に、各セグメントに含まれる
フレーム数に関する情報を復元用制御データとして記憶
しておき、マツチング処理時には、前記標準パターンと
復元用制御データを用いて、圧縮処理を行なわない入力
音声データとのマツチング処理を行なう。

〔発明の実施例〕

以下、本発明を実施例によシ説明する。第１図は本発明
の一実施例としての特定話者の音声認識装置を示すブロ
ック図である。

同図において、最初に、話者の音声を記憶部５に登録す
る。まず、マイク等からの入力音声信号が分析部１に取
込まれると、分析部１は、周波数スペクトル分解して認
識の基になる特徴パラメータと、音声検出パラメータを
出力する。

さらに詳細には、分析部１では、入力音声信号の中から
音声帯域の信号だけを取出すために５．６ＫＨｚの低域
通過フィルタを通しその後８　Ｋ　Ｈｚでサンプリング
し、アナログディジタル変換によって１２ビツトのディ
ジタル音声信号にする。更にこれを１６個の帯域通過フ
ィルタにより周波数スペクトル分解し、低域通過フィル
タで平滑化した後５２０　ｍ５ｅｃ間隔でサンプリング
して１６個の特徴パラメータを出力する。また、２０　
ｍ５ｅｃの区間の短区間エネルギを計算し、対数変換し
た後、音声検化パラメータとして出力する。この２０　
ｍ５ｅｃの時間単位は、特徴パラメータ、音声検出パラ
メータが分析部１から出力されるタイミングであり、ま
た分析の基本単位でもちシフレームと呼ぶ。

音声検出部２は、分析部から入力した音声検出パラメー
タを用いてそのフレームの音声が有音か無音かを判定す
る。有音／無音の判別のために、音声検出閾値を設定し
この値を超えるかどうかで有音／無音の判定を行なう。

そしてこの情報を用いて音声区間を検出する。それは、
過去の有音継続時間を調べ、現在まで有音区間が、所定
時間以上続いたときそれを音声とみなす。更に、無音区
間が所定時間以上続いたときに音声が終了したとして、
その直前の有音区間を音声区間として、照合部３および
圧縮処理部４に出力する。

圧縮処理部４では、音声検出部２からの音声区間情報に
基づいて音声情報を圧縮する。圧縮処理部４には、入力
音声の時間長に比例した長さの特徴パラメータが分析部
１の周波数帯域別に得られる。

第２図は、同じ単語を２回発声した時のある周波数帯ｆ
ｎチャンネルのデータを表したものである。

このように、同じ話者が同じ単語を発声しても、その発
声時間は毎回具なる。それに伴って特徴パラメータの情
報量も変化する。

このように、入力音声の時間長に応じて情報量の変化す
る特徴パラメータを、入力音声の時間長に関係なく正規
化するため全体を一定数のセグメント、例えば８コのセ
グメントＳ、〜Ｓ６にグループ化する。そして各セグメ
ント内のサンプル値を平均して、そのセグメントの値と
する。

第３図においてｔ、〜ｔ、は、サンプリングフレームの
番号、ｆ、〜ｆ’＋６は分析部１におけるフィルタチャ
ンネル、１３１，１１８．・・・の数字は、特徴パラメ
ータを表わしている。

この場合、入力音声のサンプリング間隔は、２０ｍ８８
Ｇであるが、短い話や単音節の場合には、発声時間は２
００　ｍ５ｅｃ程度であり、また、単語の場合は、約Ｉ
　Ｓｅｅ程度の発声時間となるため、１０〜５０　フレ
ーム程度の特徴パラメータが得られる。

また、グループ化するセグメント数は、認識精度によっ
て決定されるが、語の長さには関係なく一定数とする。

各セグメントに含まれるフレームは、セグメント数をＮ
、Ｎセグメントにグループ化する前の入力フレーム数を
ｍとしたとき、第ｉセグメントめには、フレームのデータが含まれる。ここで、゛関数Ｆ（ｘ）
は、Ｘの小数点以下の切捨てを行なう関数である。

セグメントＳ、〜Ｓ８におけるフィルタチャンネルｆ１
〜ｆ１６のサンプル値の平均値を求め、その代表値を求
めた結果は、第４図のようになる。

更にこのとき、各セグメントに含まれるフレーム数を、
フレーム制御情報としてｎ１〜ｎ８にセットする。

以上により特徴パラメータの時間軸上での正規化が行な
われたことになる。

この圧縮されたデータは、記憶部５に送られ、他のデー
タと区別するためのラベルをつけて登録される。

このようにして、あらかじめ決められた音声を登録した
あと認識フェーズに入る。認識時には、入力音声信号を
分析部１で分析し、更に登録時と同様に音声検出部２で
音声検出を行なう。照合部５では、入力音声信号を分析
した特徴パラメータと音声区間情報を取込み、有効な音
声区間の特徴パラメータを照合対象とする。そして記憶
部５に登録されている圧縮された特徴パラメータを、復
元部６で、復元し照合部３で照合処理を行なう。

復元時には、記憶部５に音声データのラベルが入力され
ると、そこから圧縮されたデータとフレーム制御情報が
復元部６に出力される。

第５図は復元のモデル例で、横軸がフレーム。

縦軸があるチャネルの成分量を表わしておシ、上に圧縮
されたデータを、下にその復元データを示している。圧
縮されたデータＳ、は、フレーム制御情報より３フレ一
ム分の代表値であるので、復元情報のＴ１〜Ｔ、フレー
ムの値はＳ、となる。又、次のＴ４．Ｔ５フレームの値
はＳ２となる。このようにして復元部では、圧縮データ
を復元して照合部３に出力する。照合部６では、入力音
声との比較照合により最良の標準音声の名称を認識結果
として出力する。以上が認識の流れである。

次に、圧縮された標準パターンに含まれる突発的雑音等
の不要情報を取シ除くための学習処理について述べる。

第６図に、学習処理の処理フローを示す。

まず、話者に、同じ単語をもう１度発声させて２回目の
音声信号を入力する。この信号を、登録。

認識時と同様に分析、音声検出を行ない、この信号と、
前記標準パターンの間で、照合処理を行なう。その結果
は学習処理部７へ送られる。学習処理部７では、その照
合結果から、前記標準パターンと入力音声が著しく異っ
た語であると判定される場合は、学習処理は行なわない
。しかし、判定の結果、ちる程度の類似度が確認された
場合には、学習処理を行なう。

学習処理は、２回目の入力音声信号に対して、登録時と
同様の圧縮処理を行ない、前記標準パターンとセグメン
ト数の同じ圧縮パターンを作る。

標準パターンと新たに作った圧縮パターンは、時間軸上
での正規化が行なわれているので、単純に各セグメント
間の加算平均により学習が可能である。よって、この新
たに作ったパターンと、標準パターンの各セグメントＳ
１〜Ｓ８の各フィルタチャンネルｆ、〜ｆ、６ごとに平
均値を求めてその代表値とする。更にフレーム制御情報
も、各セグメントごとに平均値を求める。

このような学習処理を何度かくり返せば、標準パターン
が平均化されるため突発的に入力音声信号に入りこんだ
雑音等の影響は減少していく。

なお本発明は、上記実施例に限定されるものではない。

本実施例では、音声検出パラメータに短区間音声エネル
ギの対数値を用いたが、エネルギをそのまま用いても良
く、また音声パワーの他に高域成分と低域成分の比率を
表した高域／低域パワー比とを組合せることもでき、こ
の場合、エネルギの小さい無声音声も容易に検出できる
ようになる。更に圧縮処理において、各セグメントに含
まれるフレームを決定する際に、本実施例では、小数点
以下を切捨てたが、切捨てを行なわずに、各セグメント
の先頭フレームと最終フレームは、そのセグメントに含
まれる比率に応じた量だけを加えるようにすれば、よシ
正確なセグメント分割が可能となる。

〔発明の効果〕

本発明によれば、標準パター／作成時の入力音声信号に
含まれる突発的な雑音や、話者の発声変動等の不要情報
の影響の少ないより標準的な標準パターンが作成でき、
かつ、認識時には、入力音声信号に含まれる情報を失な
うことなくマツチングを行なうことが可能となり、認識
率の向上と、標準パターンエリアの縮少に効果がある。

【図面の簡単な説明】

第１図は、本発明の一実施例を示すブロック図、第２図
は、同じ単語を２回発声したときの成る周波数帯チキン
ネルのデータを比較して示した説明図、第３図、第４図
はそれぞれ標準パターン作成時のセグメント分割の説明
図、第５図は、標準パターン復元の説明図、第６図は、
学習処理の処理７０−を示すチャートである。符号の説明１・・・・・・分析部２・・・・・・音声検出部３・・・・・・照合部４・・・・・・圧縮処理部５・・・・・・記憶部６・・・・・・復元部７・・・・・・学習処理部ｔ１〜ｔ、　、　ｔ’１〜を−・・・・・・入力フレー
ムＳ、〜ｓ８．　ｓ’、〜Ｓ′６・・・・・・セグメン
トｆ１〜ｆ＋６・・・・・・周波数フィルタチャンネル
ｎ１〜ｎ８　　・・・・・・フレーム制御情報Ｔ１〜Ｔ
１　・・・・・・復元したフレーム。

Claims

【特許請求の範囲】１）標準パターンを記憶し、記憶された前記標準パター
ンと入力音声パターンを照合することにより、該入力音
声の認識を行なう音声認識装置において、前記標準パタ
ーンを記憶する際に、各周波数帯域の入力音声のサンプ
ル情報を入力音声の語、句、音韻の長さおよび発声の時
間変化に関係なく幾つかまとめて圧縮することにより一
定長の標準パターンとして記憶するとともに、圧縮され
たサンプル情報の数に関する情報を制御データとして記
憶しておき、照合時に、前記標準パターンと前記制御デ
ータを用いて前記入力音声パターンとの照合を行なうこ
とを特徴とする音声認識装置。２）特許請求の範囲第１項記載の音声認識装置において
、入力音声のサンプル情報の圧縮の際、時間軸方向に等
間隔のセグメントに分けてグループ化した上、各セグメ
ントをその中に含まれる周波数帯域別サンプル情報の平
均値で表わすことにより、入力音声のサンプル情報を時
間軸方向に正規化、圧縮して標準パターンを作成し、必
要に応じて複数のかかる標準パターンを加算平均するこ
とにより、パターンを安定化させる学習機能を設けたこ
とを特徴とする特許請求の範囲第１項記載の音声認識装
置。