JPS61252594A

JPS61252594A - 音声パタ−ン照合方式

Info

Publication number: JPS61252594A
Application number: JP60094143A
Authority: JP
Inventors: 潤一郎藤本
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1985-05-01
Filing date: 1985-05-01
Publication date: 1986-11-10
Also published as: US4776017A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】肢血分■ 本発明は、音声認識装置におけるパターン照合方式に関
する。

従米伎血音声認識装置では速い応答が望まれているが、音声の入
力が終わってから認識のための演算を開始したのでは結
果が得られるまでに時間がかかるので音声がある程度入
力された時点で演算をスタートする方式が考えられてい
る（特願昭５９−４８３３３号）。しかし、上記方式は
音声の冒頭の一定長が入力された時点でそこまでのデー
タで類僚の標準パターンを限定しておき、音声が入力し
終わると限定された標準パターンとのみ全体での照合を
行うことにより演算量を減らして結果を得るまでの時間
を短縮しようというものである。ところが標準パターン
の数が多くなると標準パターンの限定に時間がかかり、
音声が入力し終わっているのに未だ標準パターンの限定
演算をやっているということになってしまう。音声の入
力が終わると音声長による標準パターンの限定などもつ
と演算量の少ない方法があり上記の方法では音声の入力
中に実行し終わらないと効果が少ない。

胚本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声パターン照合の演算時間を短くすることを目
的としてなされたものである。

１底本発明は、上記目的を達成するため、音声のパターンの
冒頭の一定時間長のデータを加え合わせて１フレームの
標準パターンを作成しておき、未知の音声が入力された
時、これを特徴パターンに変換して冒頭の標準パターン
作成時と同じフレーム数を加え合わせて作成した１フレ
ームのパターンと上記の各標準パターン間の類似性を求
め、類似性の高いパターンのみを再照合すること、或い
は、音声のパターンの冒頭の一定時間長のデータを加え
合わせて１フレームのパターンにした後、その中のピー
クが一定になるように正規化し、未知の音声が入力され
た時、これを特徴パターンに変換して冒頭の標準パター
ン作成時と同じフレーム数を加え合わせて作成した１フ
レームのパターンと上記各標準パターンとの間の類似性
を求め、類似性の高いパターンのみを再照合すること、
或いは、音声のパターンの冒頭の一定時間長のデータを
加え合わせて１フレームのパターンを作成し、そのパタ
ーンを何種類かのタイプに分類しておき、未知の音声が
入力された時、これを特徴パターンに変換して冒頭の標
準パターン作成時と同じフレーム数を加え合わせて１フ
レームのパターンにして同様のパターンのタイプ分類し
、同じタイプの標準パターンのみを再照合することを特
徴としたちのでる。以下、本発明の実施例に基づいて説
明する。

第１図は、本発明の一実施例を説明するための電気回路
図で、この実施例は、音声の冒頭の一定長を一つのデー
タにして演算量を減らすという立場から、第１に、音声
パターンの冒頭の一定時間長のデータを加え合わせて１
フレームの標準パターンを作成しておき、未知の音声が
入力された時、これを特徴パターンに変換して冒頭の標
準パターン作成時と同じフレーム数を加え合わせて作成
した１フレームのパターンと上記の各標準パターン間の
類似性を求め、類似性の高いパターンのみを再照合する
ようにしたものである。

第１図において、ｌはマイク、２は音声区間検出部、３
は特徴量変換部、４はレジスタ、５は冒頭一定フレーム
加算部、６．７は標準パターン部。

８は加算部、９．１０は照合部、１１は結果出力部で、
二重線部分は標準パターン作成特有の経路。

実線細線部分は認識時の経路、実線太線部は共通経路を
示している。まず、マイクから登録すべき各単語を入力
し、その音声に関する部分だけをとり出して特徴量に変
換する。ここでの例として、特徴量として周波数変換し
たローカルピークを考えるが、これ以外のどのようなも
のでも良い。それを１０ｍ秒程度に１回ずつサンプリン
グしてレジスタに格納しておく、このパターンはそのま
ま標準パターン部７に登録され、同じパターンの冒頭の
一定時間、例えば１００ｍ秒程度が加算されて標準パタ
ーン部６に登録される。

第４図は、周波数方向へ８個のサンプルをとったパター
ン例を示し、レジスタに格納されているパターンの冒頭
の部分が第４図（ａ）である０周波数方向へ８個のサン
プル分、つまり１時間サンプル分のデータを１フレーム
のデータと呼ぶ習慣に従うと、冒頭のｌＯフレーム分を
加算したパターンが第４図（ｂ）であり、標準パターン
部６に格納されるパターンである。こうして登録すべき
−通りの単語を発声して標準パターンを作成した後認識
に入る。未知の音声が入力されると音声区間検出部で音
の立ち上がりをとらえ、そこから１フレ一ム分のデータ
が入力される毎に加算され、これが１０回くり返され、
入力音声の第４図（ｂ）のようなパ°ターンを作る。入
力音声はつづきがとり込まれレジスタに格納されながら
加算パターンと標準パターン６内の各単語の加算パター
ンと照合され類似度が求められる。類似度は市街地距離
で求められても良い。いずれにせよ、入力、標準パター
ン共に１フレームしかないため計算量は極端に少ない、
こうして、類似度がある値以上、又は距離がある値以下
の登録語を選んでおき、入力音声が終了するのを待って
選ばれた単語だけ、標準パターンとレジスタに格納され
た全体のパターンを照合して類似度を求め最大顕像を得
たものを認識結果とする。この時の照合方法は本発明で
は限定しない。これによって最終候補の限定が高速に行
える。又、照合部９では類似度の大きい一定数の登録語
を選んでおいても良い。

第２図は、本発明の他の実施例を示す電気回路図で、図
中、１２．１３は２ビツト正規化部で、その信書１図と
同様の作用をする部分には第１図の場合と同一の参照番
号が付しである。而して、この実施例は、音声のパター
ンの冒頭の一定時間長のデータを加え合わせて１フレー
ムのパターンにした後、その中のピークが一定になるよ
う正規化し、未知の音声が入力された時、これを特徴パ
ターンに変換して冒頭の標準パターン作成時と同じフレ
ーム数を加え合わせて作成した１フレームのパターンと
上記各標準パターンとの間の類似性を求め、類似性の高
いパターンのみを再照合するようにしたものである。こ
の実施例によると、標準パターン６の容量を減らすこと
ができる。つまり先の例で得た第４図（ｂ）のようなパ
ターンは各要素が１〜１０まで値をとり得るが、この実
施例ではこれを２ビツトで表わすようにする。つまり最
大値１０が３になるように変換する。ここでは第４図（
ｂ）のパターンのＯ〜１→０．２〜４今１．５〜７→２
，８〜１０→３のように変換した。

その結果が第４図（Ｃ）であり、容量は半分程度になる
。なお、第２図に示した実施例では、１フレームの加算
パターン間の距離を求めるため入カバターンにも２ビツ
ト正規化をしているが、両フレーム間の対応要素間の積
をとり、それらの値の会社で表されるような類似度を用
いる場合には入力の正規化は不要である。

第３図は、本発明の他の実施例を示す電気回路図で、図
中、１４．１５は分類部で、この実施例は、音声パター
ンの冒頭の一定時間長のデータを加え合わせて１フレー
ムのパターンを作成し、そのパターンを何種類かのタイ
プに分類しておき、未知の音声が入力された時、これを
特徴パターンに変換して冒頭の標準パターン作成時と同
じフレーム数を加え合わせてｌフレームのパターンにし
同様にパターンのタイプ分類し、同じタイプの標準パタ
ーンのみを再照合するようにしたものである。この実施
例では更に距離や類似度の計算を減らすために冒頭の加
算パターンをいくつかの種類に分類しておき、入力の冒
頭の加算パターンと同じ種類に分類される標準パターン
のみ照合するものである。第４図の例で分類の一例を説
明する。

今、周波数の８個のサンプルを低い方から１〜８チヤン
ネルと呼ぶことにすると、２チャンネル分ずつ４分割し
、どの分割部分の値が最大かによって４種類に分類され
、これによって類似度、距離の演算が不要でしかも照合
すべき標準パターンを限定することができる。

立来以上の説明から明らかなように、本発明によると音声パ
ターン照合の演算時間を短縮することができ、高速の音
声認識装置を提供することができる。

【図面の簡単な説明】

第１図乃至第３図は、それぞれ本発明の詳細な説明する
ための電気回路図、第４図は、本発明の動作説明をする
ためのパターン例を示す図である。工・・・マイク、２・・・音声区間検出部、３・・・特
徴量変換部、４・・・レジスタ、５・・・冒頭一定フレ
ーム加算部、６．７・・・標準パターン部、８・・・加
算部、９゜１０・・・照合部、１１・・・結果出力部、
１２．１３２ビット正規化部、１４．１５・・・分類部
。

Claims

【特許請求の範囲】

（１）、音声のパターンの冒頭の一定時間長のデータを
加え合わせて１フレームの標準パターンを作成しておき
、未知の音声が入力された時、これを特徴パターンに変
換して冒頭の標準パターン作成時と同じフレーム数を加
え合わせて作成した１フレームのパターンと上記の各標
準パターン間の類似性を求め、類似性の高いパターンの
みを再照合することを特徴とする音声パターン照合方式
。
（２）、音声のパターンの冒頭の一定時間長のデータを
加え合わせて１フレームのパターンにした後、その中の
ピークが一定になるように正規化し、未知の音声が入力
された時、これを特徴パターンに変換して冒頭の標準パ
ターン作成時と同じフレーム数を加え合わせて作成した
１フレームのパターンと上記各標準パターンとの間の類
似性を求め、類似性の高いパターンのみを再照合するこ
とを特徴とする音声パターン照合方式。
（３）、音声のパターンの冒頭の一定時間長のデータを
加え合わせて１フレームのパターンを作成し、そのパタ
ーンを何種類かのタイプに分類しておき、未知の音声が
入力された時、これを特徴パターンに変換して冒頭の標
準パターン作成時と同じフレーム数を加え合わせて１フ
レームのパターンにして同様のパターンのタイプ分類し
、同じタイプの標準パターンのみを再照合することを特
徴とする音声パターン照合方式。