JPS62100800A

JPS62100800A - 音声認識方法

Info

Publication number: JPS62100800A
Application number: JP60241942A
Authority: JP
Inventors: 二矢田　勝行; 泰助渡辺
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1985-10-29
Filing date: 1985-10-29
Publication date: 1987-05-11
Also published as: JPH054679B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は人間の声を機械に認識させる音声認識方法に関
するものである。

従来の技術近年音声認識技術の開発が活発に行なわれ、商品化され
ているが、これらのほとんどは声を登録した人のみを認
識対象とする特定話者用である。

特定話者用の装置は認識すべき言葉をあらかじめ装置に
登録する手間を要するため、連続的に長時間使用する場
合を除けば、使用者にとって大きな負担となる。これに
対し、声の登録を必要とせず、使い勝手のよい不特定話
者用の認識技術の研究が最近では精力的に行なわれるよ
うになった。

音声認識方法を一般的に言うと、入力音声と辞書中に格
納しである標準的な音声（これらはパラメータ化しであ
る）のパターンマツチングを行なって、類似度が最も高
い辞書中の音声を認識結果として出力するということで
ある。この場合、入力音声と辞書中の音声が物理的に全
く同じものならば問題はないわけであるが、一般には同
一音声であっても、人が違ったり、言い方が違っている
ため、全く同じにはならない。

人の違い、言い方の違いなどは、物理的にはスペクトル
の特徴の違いと時間的な特徴の違いとして表現される。

すなわち、調音器官（口、舌、のどなど）の形状は人ご
とに異なっているので、人が違えば同じ言葉でもスペク
トル形状は異なる。

また早口で発声するか、ゆっくり発声するかによって時
間的な特徴は異なる。

不特定話者用の認識技術では、このようなスペクトルお
よびその時間的変動を正規化して、標準パターンと比較
する必要がある。

音声認識装置の実用化に対するもう１つの課題は、環境
騒音に対して、どのように対処するかということである
。事務所などで音声認識装置を使用すると仮定すると、
７０ｄＢＡ程度の騒音に耐える必要がある。

音声信号に対するノイズの混入は、音声区間の検出精度
に対して顕著な影響を与える。すなわち、発話の前後に
ノイズが付加すると、発話している区間を正確に決める
ことができなくなり、認識結果に誤まりを生ずることに
なる。

使い易い音声認識装置を実現するためには、不特定話者
を対象とすることができ、しかも多少の騒音環境でも高
い認識率で作動できる方法を確立することが必要である
。

このような観点から、本出願人は音声区間が正確に決め
られない場合にも高い認識率が確保できる、不特定話者
向きの認識方法を提案した。以下、この方法を従来例と
して取りあげ説明する。

第３図は本出願人が以前に提案した音声認識方法の機能
ブロック図である。

図においてば１は入力音声をディジタル信号に変換する
ＡＤ変換部、２は音声を分析区間（フレーム）毎に分析
しスペクトル情報を求める音響分析部、３は特徴パラメ
ータを求める特徴パラメータ抽出部、４は音声の始端、
終端の候補区間を決める音声区間候補検出部、５は各音
声区間について始端と終端及び音声長を求める音声区間
設定部、６は単語長の伸縮を行う時間軸正規化部、７は
入カバターンと標準パターンとの類似度を計算する距、
雅計算部、８は予め作成された標準パターンを格納する
標準パターン格納部、９は距離計算部７で得られた類似
度または距離の中から類似度最大または距離最小のもの
を求める類似度比較部である。

次にその動作について説明する。

入力音声をＡＤ変換部１によって１２ビツトのディジタ
ル信号に変換する。標本化周波数は８ＫＨｚである。音
響分析部２では、１フレーム（ｌ　０ｍ５ｅｃ）ごとに
自己相関法によるＬＰＣ分析を行なう。分析の次数は１
０次とし、線形予測係数α１、α１、α２・・・・・・
α１ｏを求める。またここではフレームごとの音声パワ
ーＷｏ　　も求めておく。特徴パラメータ抽出部３では
線形予測係数を用いて、ＬＰＣケプストラム係数Ｃ１〜
Ｃｄ（ｄは打切り次数）および正規化対数残差パワーｃ
ｏを求める。なお、ＬＰＣ分析ＺＬＰＣケプストラム係
数の抽出法に関しては、例えばＴ、Ｄ、マーケル、Ａ、
Ｈ−グレソ著鈴木久喜訳「音声の線形予測」に詳しく記
述しであるので、ここでは説明を省略する。また特徴パ
ラメータ抽出部３では対数パワーＬＷｏを次式で求める
。

Ｌ　Ｗ、　＝　１０１０ｇ、。％　　　　　　（式ｌ）
音声区間候補検出部４では（式１）で求めたＬＷｏを用
いて音声の始端、終端の候補区間を決める。音声区間は
一意に形めることか望ましいが、環境騒音などのノイズ
が混入すると、−意に決めることが難しい場合や、−意
に決めると誤りを生する場合が多い。このような事態を
避けるために、始端、終端の候補区間を求め、候補区間
内には正確な始端、終端が含まれるようにする。このよ
うにすると、音声区間はあいまいにしか求められないが
、全く外れてしまう確率はずっと低くなる。

次に音声区間候補検出部４の機能の一例を説明する。始
端検出のための閾値θ８、θ１（θ３〉θ１）および終
端検出のため閾値θ：、θｉ（θ工〉θｉ）をあらかじ
め定めておく。ここでθｔ１θｌｅは、音声以外の区間
を含まないように高めに設定し、θ（θＪ　は逆に音声
の区間を外さないように低めに設定する。第４図に示す
ように、これらの閾値を入力音声の対数パワー値（ＬＷ
。）に対して適用し、θ１　を超える最初のフレームを
Ｓｏ、θｌｌを超える最初のフレームをＳｌ、そしてθ
８より小さくなる最後のフレームｋｅｙ、θＪよりも低
くなる最後のフレームをｅ２とする。そうすると正確な
始端Ｆ。

はＳ、≦Ｆｌｌ≦Ｓ２、正確な終端Ｆ。はｅ１≦Ｆｅ　
＜　ｅ　ｔとなる。

実際にはＬＷ、の値の連続性を見て、規則によってＳ、
　、Ｓ２、ｅｌ　、ｅ２の位蓋を修正している。

このようにして始端候補区間、終端候補区間を求めると
、始端候補区間フレームに、　＝８２−　Ｓ、＋１、終
端候補区間に２＝ｅ、−ｅ、＋１フレームとなり、音声
区間の組合わせはＬ：に、Ｘｋ２とおりとなる。音声区
間設定部５は、Ｌとおりの音声区間の１つ１つに対して
、始端Ｓと終端ｅおよび音声長Ｉ＝ｅ−８＋１を決め、
遂次、時間軸正規化部６へと送出する。

時間軸正規化部６では音声長Ｉフレームｆ：Ｊフレーム
の長さに線形に伸縮して時間長の正規化を行なう。伸縮
後の第ｊフレームと入力の第ｉフレームは（式２）の関
係を持つ。

、　　　Ｊ−Ｉ　　　Ｉ−ＪＪ　＝（−ｉ＋　−＋０．５　’）　　　　（式２）％
式％ただし［ａ）はａを超えない最大の整数を表わす。

例ではＪ＝１６フレームとしている。

次に伸縮後の特徴パラメータを時系列に並べ、入力の時
系列ベクトルＸを作成する。いま第ｊフレームの特徴パ
ラメータ（ＬＰＣケプストラム係数）をＣｊ、　ｋ（ｋ
＝０　、１．２−ｐ　：ｄ個）とするとＸは次式となる
。

””　（ＣＩ＋０　、Ｃ＋　＋　Ｉ　、Ｃ＋　＋２”・
ＣＩ　＋　１）＋　”・ＣＪｉ。

Ｃｊ　＋ｏ”’ＣＪ　、ａｓ　ＣＪ、Ｉ　”・ＣＪ、ｐ
）（式３）ここではｐはパラメータの打切り次数であり
、例ではｐ＝５としている。

に、ばＪ・（ｐ＋１　）次元すなわちＪ−ｄ次元のベク
トルとなる。（ｄは１フレームあたりのパラメータ数）
Ｌとおりの音声区間のうち、第ｅ番目の音声区間に対応
する入力ベクトルｅｆｘｌと表現する。

距離計算部７では、／と、標準パターン格納部８に格納
されている各単語（単語ナンバーをｎとする）の標準パ
ターンとの距４Ｄ。を（式４）で計算する。

Ｄｎｔ＝　Ｂ、　−Ａ、！、　−ｘ’　　　　　　　　
Ｃ式４　）ここで／Ａ、、Ｂｎは単語ｎ（ｎ＝１．２．
・・・Ｎ：Ｎは単語数）の標準パターンであり、ＡはＪ
−ｄ次元のベクトル、Ｂはスカラーである。

７Ａｎ＝２　（／ｌＬ、−ｍｘ）　’　−Ｗ−”　　　
　　（式５）％式％（６）ただし、μ。は単語ｎの平均値、広、は全単語およびそ
の周囲情報を用いて作成した平均値ベクトルである。ま
た、単語ｎの共分散行列をＷ（１ｓ全単語およびその周
囲情報で作成した共分散行列をＷｘとすると、Ｗ＝ｉ（”Ｗ、＋Ｗ、＋・　＋Ｗ、、ｘｗ、）（式７）
である。これらの標準パターンは、多数の話者の発声に
よる多くのデータサンプルを用いて作成する。

（式４）をすべての音声区間（ｅ＝１．２．・・・Ｌ）
における全ての音声（ロー１，２．・・・Ｎ）について
計算し、ＬＸＮ個の類似度Ｄｎを求める。

類似度比較部９はＬ×Ｎ個の中から類似度最大（距難り
。が最少）となるものを求め、それをｄとする。認識結
果は単語ナンバｎ′に対応する音声（単語）を出力する
。

発明が解決しようとする問題点しかしながらこのような方法の問題点は計算回数が多い
ことである。全ての類似点を求めるためには（式４）の
計算をＬＸＮ回行なう必要がある。

いま具体例として、１フレームあたりのパラメータ数ｄ
−６．正規化フレーム長Ｊ二１６．始端・終端候補に、
＝に２＝ＩＯ（すなわち音声区間数Ｌ−１００）、単語
数Ｎ＝１０とすると、類似度の計算にはｄ−Ｊ−Ｌ−Ｎ
回（９６０００回）の乗算と加算、およびＬ−Ｎ回（１
０００回）の減算が必要となる。

このうち、特に問題なのは乗算回数が多いことであり、
これだけの乗算回数を実時間に近い時間で行なうには高
速の回、路を必要とし、実用的でない。

本発明は上記問題点を解決するもので、類似点または距
離の計算における乗算の回数を大きく減少させ、処理の
高速化をはかることを目的とするものである。

問題点を解決するための手段本発明は上記目的を達成するもので、本発明は入力音声
の始端候補区間（ｋ、　　フレームとする）、終端候補
区間（ｋ、フレームとする）を決め、前記候補区間にお
ける始端、終端の全ての組合わせによってに、　Ｘｋｌ
Ｌとおりの音声区間を設定し、各々の音声区間に対する
データを一定時間長に正規化して各標準パターンとの類
似度または距離を求め、これを繰り返して全音声区間に
おける全単語の標準パターンとの類似度または距離を計
算し、全ての類似度または距離を比較して、類似後を最
大または距離を最小とした標準パターンに対応する単語
を結果として出力する方法であって、類似度または距離
を計算するときの乗算を、標準パターンの各フレームに
対応する全ての入力フレームとの間で先に計算しておき
、類似度またけ距離を求める段階でこの中から必要なも
のを選択して加算することによって、乗算の重複を防ぎ
、類似度または距離の計算に要する計算量を削減するも
のであ７−１゜作用本発明は上述のように類似度または距離の計算式の乗算
を先に計算しておき、類似度または距離を求める際にこ
の中から必要なものを選択して加算するようにしている
ため、音声区間の始端、終端候補が正確に求められず、
多くの類似度の計算を要する場合においても、計算量を
少なくすることができ、複雑、高速のローを必要とせず
リアルタイムに近い処理を行なうことができるので、騒
音に強い不特定話者用の小型低価格の音声認識装置を作
成することが可能となる。

実施例以下に本発明の実施例を図面を用いて説明する。

第１図は本発明の一実施例における音声認識方法を具現
化する機能ブロック図である。図において第３図と同じ
番号のブロックは同じ機能を有する。以後、図の構成に
おいて方法を説明する。

ＡＤ変換部１、音響分析部２、特徴パラメータ抽出部３
および音声区間候補検出部４の機能は従来例と全く同じ
であるので説明を省略する。

音声区間候補検出部４によって、未知入力音声の始端候
補として（Ｓ＋〜Ｓ、　ｌ、終端候補（ｅ、〜ｅ２１　
　が求められる。標準パターンの時間長′５Ｉ：Ｊとす
ると、未知入力と標準パターンのマッチングにおける、
時間的な対応は第２図のようになる。

第２図では、横軸に未知入力に対する時間軸、たて軸に
標準パターンに対する時間軸を取っである。

原点はＳ、と標準パターンの始端となっている。

未知入力における音声区間は、ｋ、　＝Ｓ、　−３，＋
１、ｋ２＝：ｅ、　−ｅｌ　＋１とすると、ｋ、Ｘｋ２
とおりあるが、これら全ての音声区間標準パターンの時
間的対応関係（マツチングルート）は全て、第２図で斜
線をほどこした四辺形内に納まる。したがって、（式４
）の類似度計算は、すべてこの四辺形内で行なわれるこ
とになるので、（式４）における未知人力と標準パター
ンの対応するフレームの部分積を、四辺形の内部で予め
計算しておき、後で時間軸の伸縮を行なう際に必要なも
のだけを選択して加え合わせる方法を採ることができる
。

（ロ）Ｌ　　＝（ａ　３　、ＯＸ　ａ　Ｊ　、　Ｉ　Ｘ　ａ　
ｊ、　ｔ　”’　ａｊ、　ｐ　）（式８）（式３）で表わされる未知人力Ｘの第ｉフレームに相当
する部分ベクトルをＥｉとする。

ａ−＋＝＝（Ｃｉ、ｏ　、Ｃｉｓ　Ｉ　、Ｃｉｓ　２　
、、、＋＋＋Ｃ１，ｐ）（式９）第２図に示すように、標準パターンの第ｊフレームとの
類似度計算の対象になる未知入力のフレームは、ＩＩ≦
ｉ≦１２の範囲にある。傾きの制限より、　　　ｉ＋　
＝Ｃｅ＋　／Ｊ＋０．５　）　　　　　　　　（式１０
）ｉ２　＝Ｃ（ｅ＝　−８２）　・ｊ／Ｊ＋ｓ、　＋０
．５１　（式１１）格子点（ｉ、ｊ）における単語口と
の類似度の部（ロ）公債をｑｉ、ｊとすると、（式４より）ｑ（７）、ｊ＝
　、ｒ：　、　ｊＬｎ、）　　　　　　　　　（式１２
）添字ｔは転置ベクトルであることを示す。

第１図の乗算演算部１０は、特徴パラメータ抽出部３で
抽出された未知入力と標準パターン格納部１３に格納さ
れている標準パターンとの部分積（ｎ）ｑＨ，ＪをｉＩ≦ｉ≦ｉ、の範囲で、各単語に対して計
算し、一時的に記憶しておく部分である。

音声区間設定部５は、音声区間候補検出部４で検出され
た始端、終端を組合わせてＬ＝に、　Ｘ　ｋ、とおりの
音声区間を設定する。音声区間の番号をｇＣｅ＝１．２
．・・・Ｌ）とする。時間軸伸縮部１１は第１番目の音
声区間の長さＩｅを、次式によって標準パターン長Ｊに
伸縮する。（式２）より求められているはずである。距
離累積部１２は、各音声区間１１Ｖｃ対１−て、各標準
パターンと未知人乗算演算部１０、時間軸伸縮部ＩＩ、
距離累積（ｎ）ｔ　　ｅができる。Ｑ　、　Ｃｌ）は（式４）における八。・Ｘ
　と同じものである。したがって、標準パターン格納部
１３に格納し７であるＢ。を用いて、第ｇ番目の音声区
間における未知人力に　と、標準パターン　　−ｎとの
距離Ｄｎを次のようにして求めることかできる。

ｅ　　　　　（ｎ）Ｄｏ＝Ｂｎ−Ｑ、’（ｅ）　　　　　　　　（式１５）
類似度比較部９は、全ての音声区間ｅ　＝　ｌ−Ｌ。

の比較を行ない、類似度最大（距離り。が最小）となる
標準パターンに対応する音声を認識結果として出力する
。

次に本実施例の効果について述べる。今までの説明から
明らかなように、本発明の目的は処理の高速化であり、
乗算の回数を削減することで目的を達している。

従来例においては前に述べたように、１フレームあたり
のパラメータ数ｄ１正規化フレーム長Ｊ音声区間数Ｌ１
単語；・攻Ｎの積であるｄ−Ｊ−Ｌ−Ｎ回（９６，００
０回）の乗算が必要であった。これに対し、本実施例に
おける乗算回数ばｄ−Ｊ−Ｎ・（ｋ、＋に２）／２回で
あり、同じ１直を代入すると、９，６００回である。こ
れは従来例の１／ｌＯである。加算、減算の回数は従来
例にほぼ同じである。マイクロコンピュータなどを用い
て装置を構築する場合、加減算に比べて、乗算に要する
時間が格段に多いこ′と、および乗算を高速に実行する
には複雑な回路を要することを考慮すると、本実施例の
効果は明らかである。

なお本発明の特徴パラメータとしてはＬＰＣケプストラ
ム係数、自己相関係数、帯域通過フィルタの出力のいず
れであっても良いことはもちろんである。

発明の効果以上要するに本発明は、入力音声から正確な始端、終端
を含む始端候補区間、終端候補区間を検出し、これらの
区間で規定される区間に対して音声標準パターンの各フ
レームの部分ベクトルと未知入力の部分入力の部分積を
始端候補区間と終端候補区間で規定される区間に対して
全て求めておき、さらに各音声区間に対して対応する部
分積を選択して標準パターンのフレーム数だけ累積する
ことにより入力ベクトルと音声標準パターンとの類似度
又は距離を求めるようにしているので、乗算の回数を大
幅に減少させることができ、処理の高速化がはかれる利
点を有する。

【図面の簡単な説明】第１図は本発明の一実施例における音声認識方法を具現
化する機能ブロック図、第２図は本実施例の未知入力と
標準パターンの時間的な対応関係を示す関係図、第３図
は従来例の音声認識装置を示す機能ブロック図、第４図
は音声区間候補区間の求め方の例を示す音声区間図であ
る。工・・・ＡＤ変換部、２・・・音響分析部、３・・・特
徴パラメータ抽出部、４・・・音声区間候補検出部、５
・・・音声区間設定部、９・・・類似度比較部、ＩＯ・
・・乗算波′σ部、１１・・・時間軸伸縮部、１２・・
・距離累積部、１３・・・標準パターン格納部。代理人の氏名　弁理士　中　尾　敏　男　ほか工名第２
図

Claims

【特許請求の範囲】

（１）予め、認識対象とするＮ種の音声の各々の標準パ
ターンを、各々の音声に属するデータと認識対象とする
全音声のデータおよび全音声のデータの周囲情報を用い
て作成しておき、一方、入力音声から始端候補区間ｋ＿
１フレーム、終端候補区間ｋ＿２フレームを検出し、始
端候補区間と終端候補区間を組合わせてＫ＝ｋ＿１×ｋ
＿２とおりの音声区間を設定し、これらの音声区間の全
部または１部（ｋ＿１とおり）を対象として、各々始端
と終端の間をＪフレームに分割し、各フレームごとにｄ
個の特徴パラメータを抽出して時間的順序に並べてｄ×
Ｊ次元の入力ベクトルを作成し、これと前記の各々の音
声標準パターンとの類似度または距離を、まず音声標準
パターンの各フレームのｄ次元部分ベクトルと未知入力
のｄ次元部分ベクトルとの部分積を始端候補区間と終端
候補区間で規定される区間に対して全て求めておき、さ
らに各音声区間に対して対応する部分積を選択して標準
パターンのフレーム数Ｊだけ累積することによって求め
、これを繰り返してＫ＿１とおりの音声区間に対する各
々の音声標準パターンの類似度または距離を求め、Ｎ×
Ｋ＿１種の類似度または距離を比較して、類似度が最大
または距離が最小となる結果に対応する音声標準パター
ンが属する音声を認識結果とすることを特徴とする音声
認識方法。
（２）先に求めておいた部分積を選択して累積するに際
し、未知入力の音声区間長を標準パターン長（Ｊフレー
ム）に線形に伸縮することによって決まる未知入力のフ
レームに対応する部分積を選択して累積することを特徴
とする特許請求の範囲第１項記載の音声認識方法。
（３）類似度または距離の計算を、事後確率を基本とし
た尺度を用いて行なうことを特徴とする特許請求の範囲
第１項記載の音声認識方法。
（４）特徴パラメータがＬＰＣケプストラム係数、自己
相関係数、帯域通過フィルタの出力のいずれかであるこ
とを特徴とする特許請求の範囲第１項記載の音声認識方
法。
（５）周囲情報を正確な始端付近ｌ＿１フレームと正確
な終端付近ｌ＿２フレームを組合わせて定まる音声区間
を用い、全対象単語に属する多くのデータサンプルから
統計的に作成することを特徴とする特許請求の範囲第１
項記載の音声認識方法。
（６）ある音声ｎの標準パターンを、ｎに属するデータ
を用いて統計的に求めた標準パターンから周囲情報を除
去した形で求めることを特徴とする特許請求の範囲第１
項記載の音声認識方法。
（７）類似度を計算する式が１次判別関数であることを
特徴とする特許請求の範囲第１項記載の音声認識方法。