JPS62111293A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS62111293A
JPS62111293A JP60251360A JP25136085A JPS62111293A JP S62111293 A JPS62111293 A JP S62111293A JP 60251360 A JP60251360 A JP 60251360A JP 25136085 A JP25136085 A JP 25136085A JP S62111293 A JPS62111293 A JP S62111293A
Authority
JP
Japan
Prior art keywords
similarity
voice
speech
section
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60251360A
Other languages
English (en)
Other versions
JPH0451037B2 (ja
Inventor
二矢田 勝行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP60251360A priority Critical patent/JPS62111293A/ja
Publication of JPS62111293A publication Critical patent/JPS62111293A/ja
Priority to US07/628,987 priority patent/US5241649A/en
Publication of JPH0451037B2 publication Critical patent/JPH0451037B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は人間の声を機械に認識させる音声認識方法に関
するものである。
従来の技術 近年音声認識技術の開発が活発に行なわれ、商品化され
ているが、これらのほとんどは声を登録した人のみを認
識対象とする特定話者用である。
特定話者用の装置は認識すべき言葉をあらかじめ装置に
登録する手間を要するため、連続的に長時間使用する場
合を除けば、使用者にとって大きな負担となる。これに
対し、声の登録を必要とせず、使い勝手のよい不特定話
者用の認識技術の研究が最近では精力的に行なわれるよ
うになった。
音声認識方法を一般的に言うと、入力音声と辞書中に格
納しである標準的な音声(これらはパラメータ化しであ
る)のパターンマツチングを行なって、類似度が最も高
い辞書中の音声を認識結果として出力するということで
ある。この場合、入力音声と辞書中の音声が物理的に全
く同じものならば問題はないわけであるが、一般には同
一音声であっても、人が違ったり、言い方が違っている
ため、全く同じにはならない。
人の違い、言い方の違いなどは、物理的にはスペクトル
の特徴の違いと時間的な特徴の違いとして表現される。
すなわち、調音器官C口、舌、のどなど)の形状は人ご
とに異なっているので、人が違えば同じ言葉でもスペク
トル形状は異なる。
また早口で発声するか、ゆっくり発声するかによって時
間的な特徴は異なる。
不特定話者用の認識技術では、このようなスペクトルお
よびその時間的変動を正規化して、標準パターンと比較
する必要がある。
不特定話者の音声認識に有効な方法として、本出願人は
既にパラメータの時系列情報と統計的距離尺度を併用す
る方法に関して特許を出願している(特願昭60−29
547号)ので、その方法を以下に説明する。
第10図は本願出願人が以前に提案した音声認識方法の
具現化を示す機能ブロック図である。
図において、1は入力音声をディジタル信号に変換する
AD変換部、2は音声を分析区間(フレーム)毎に分析
しスペクトル情報を求める音響分析部、3は特徴パラメ
ータを求める特徴パラメータ抽出部、4は始端フレーム
と終端フレームを検出する音声区間検出部、5は単語長
の伸縮を行う時間軸正規化部、6は入カバターンと標準
パターンとの類似度を計算する距離計算部、7は予め作
成された標準パターンを格納する標準パターン格納部で
ある。上記構成において以下その動作を説明する。
入力音声をAD変換部1によって12ビツトのディジタ
ル信号に変換する。標本化周波数はeKHzである。音
響分析部2では、1フレーム(10msec)ごとに自
己相関法によるLPC分析を行なう。分析の次数は10
次とし、線形予測係数αolα1.α2・・・α1oを
求める。またここではフレームごとの音声パワーW0も
求めておく。特徴パラメータ抽出部3では線形予測係数
を用いて、LPCケプストラム係数01〜CP(pは打
切り次数)および正規化対数残差パワー00を求める。
なお、LPC分析とLPCケプストラム係数の抽出法に
関しては、例えば、J、D、マーケル、A、 H。
グレイ著、鈴木久喜訳「音声の線形予測」に詳しく記述
しであるので、ここでは説明を省略する。
また特徴パラメータ抽出部3では対数パワーLW0を次
式で求める。
LW0=1010g10W0(式1) 音声区間検出部4は(式1)で求めたLWoを閾値θ、
と比較し、LWo〉0sのフレームがe88フレーム上
持続する場合、その最初のフレームを音声区間の始端フ
レームF8とする。またF8の後において、LWoと閾
値θ。を比較し、LWo<θ。とな、るフレームがe。
フレーム以と連続するとき、その最初のフレームを音声
区間の終端フレームF0とする。このようにしてF3か
らFoまでを音声区間トする。いま説明を簡単にするた
めに、改めてF8 を第1フレームと考え、フレームナ
ンバーを(1,2,・・・j、・・・I)とする。ただ
し、1=F。
−F、 + 1  である。
時間軸正規化部5では、単語長を!フレームの長さに分
割することにより線形に伸縮をする。伸縮後の第1フレ
ームと入力音声の第iフレームは(式2)の関係を持つ
ただし〔〕は、その数を超えない最大の整数を表す。例
ではI=16としている。
次に伸縮後の特徴パラメータを時系列に並べ、時系列パ
ターンC,cを作成する。いま第iフレームの特徴パラ
メータ(LPCケプストラム係数)(転) をCi、k(k=0.1.2.−P:d個)とするとC
xは次式となる。
に)  (勾  体)  に) Cx ” (C1,O+ cl、 L Ck2”’CL
p ”””Ci+O。
(転)  に)  (転) Cx * 1°””””C1,OC1,1°°CI、p
) (式3)すなわちC8は、■・(P+1 )すなわ
ち!・D次元のベクトルとなる(Dは1フレームあたり
のパラメータ数)。
距離計算部6は入カバターンcxと標準パターン格納部
7に格納されている各音声の標準パターンとの類似度を
統計的な距離尺度を用いて計算し、最も距離が小さくな
る音声を認識結果として出力する。標準パターン格納部
7に格納されている第に番目の音声に対応する標準パタ
ーンをCk<平均値)、対象とする全音声に共通な共分
散行列をヅとすると、入カバターンCxと第に番目の標
準パターンとのマハラノビス距離Skは次式で計算され
る。
Sic=(Cx−ck)t−w−’(c!−ck) (
式4)添字tは転置を、また−1は逆行列であることを
表す。(式4)を展開すると Bit=Cx”91  ”Cx 2C]c”w−”Cz
+ ci−y−1・Ck(式5) (式5)の第1項はnに無関係なので大小比較をすると
きは考慮しなくてもよい。したがって第1項を取除いて
、SkをDkに置きかえると、Dkは次のようになる。
Ck=bk  ak”x      (式6)ただし 
  ak=2W −Ck   (式7)bk=CA−W
−’・Ck(式8) Dkを全てのk(k=1.2・・・N)について計算し
、Dkを最小とする音声を認識結果とする。ここでKは
標準パターン格納部7に格納されている音声標準パター
ンの数である。実際には標準パターンはakとbkが1
対として、音声の数(K種類)だけ格納されている。
(式6)に要する計算量は積和演算が!・(P+1)回
、減算が1回であり、非常に計算量が少ないのが特長で
ある。実用的にはI=16.P=4とすれば十分なので
、積和演算回数は1単語あたり80回である。
次に標準パターン(Cc、 W (実際にはak、bk
に1変換される)の作成方法について説明する。
標準パターンは、各音声ごとに多くのデータサンプルを
用いて作成する。各音声に対して、用いるサンプルの数
をMとする。各サンプルに対して(式2)を適用して、
フレーム数を■に揃える。
音声kに対して平均値ベクトルを求める。
釦   ω   ω (Ck=(C1,O,cl、 1. C1,2,”’C
I、p”曲Ci、O。
C’P、 1 ”””””¥、 O,C叩、 1 、−
 C¥、 p )  (式9)i=1.2.・・・I:
エフレーム) (。=。、 1.2. 、P : d個ここでCiyユ
、mは音声にの第m番目のサンプルで、第iフレームの
第3次のケプストラム係数を示す。平均値ベクトルと同
様な手順で音声にの共υ 分散行列W を求める。全音声に共通な共分散行列Wは
次式で求める。
w =−!−(JQ−?’+・・・十−+・・・・・・
十−)(式11)Ck、Wを(式7)(式8 ) ニ!
: ッテak、bkニ変換し、標準パターン格納部7に
あらかじめ格納しておく。
発明が解決しようとする問題点 かかる方法における問題点は、パターンマツチングを行
なう以前に音声区間が一意に確実に決められていると仮
定している点にある。現実の音声データは種々のノイズ
を含んでいたり、語頭や語尾における発声が不明瞭であ
るため、音声区間を正確に決められない場合や、音声以
外の区間を誤まって検出する場合が多々ある。誤まった
音声区間に対して従来例の方法を適用すると、当然のこ
とながら、認識率が大きく低下してしまう。
本発明の目的はと記問題点を解決するもので、音声区間
の検出という操作を必要としないで、入力信号中から音
声を自動的に抽出して認識できる、高い認識率を有する
音声認識方法を提供するものである。
問題点を解決するための手段 本発明はJ:ad目的を達成するもので、認識すべき音
声とその前後の騒音を含む十分長い区間を入力信号区間
とし、この入力信号区間に、ある時間的な基準点を設け
、基準点を端点としてそれからN1フレームの区間とN
2フレームの区間(N1くN2)の2区間を設定して、
これらを音声区間のそれぞれ最小値と最大値と考えて、
N2−N1+1とおりの音声区間候補のそれぞれに対し
て、音声区間長を一定時間長に伸縮しながら各単語の標
準パターンとのマツチングを行なって各単語の類似度ま
たは距離を求め、この操作を基準点を全入力信号区間の
始めから終りまで走査して行ない、全ての基準点位置の
全ての音声区間候補に対する類似度または距離を各単語
について比較し、類似度を最大または距離を最小とする
単語を認識結果として出力するものである。
作  用 本発明は、全入力信号区間を対象として1フレームずつ
ずらせながら線形伸縮した入力と標準パターンとの間の
パターンマツチングを行ない、類似度最大または距離最
小となる音声とその区間とを自動的に求めるので音声区
間の検出が必要でなくなり、騒音環境下で発声した音声
を高い確率で認識することができる。
実施例 以下に本発明の実施例を図面を用いて詳細に説明する。
第1図は本発明の一実施例における音声認識方法の具現
化を示す機能ブロック図である。
まず本実施例の考え方を第2図〜第4図を用いて説明す
る。同じ言葉を発声しても、発声の時間的な長さく音声
長)は発声方法によっても異なるし、人の違いによって
も異なる。パターンマツチングによる音声認識方法では
入力音声の長さを、標準的な音声長に正規化したうえで
類似度計算を行なって音声の認識を行なう。第2図は音
声長の正規化の様子を示したものである。入力音声の長
さの最小長をN1、最大長をN2とし、音声の標準的な
長さく標準パターン長)をIとすると、第2図に示すよ
うに、長さN(Nl≦N≦N2)の音声長を伸縮して長
さIに正規化することになる。第2図では音声の終端を
一致させて、伸縮するようになっている。伸縮には(式
2)と同様に、線形伸縮式を用いる。
未知入力と標準パターンの類似度を計算する場合、未知
入力の音声長Nを(式12)によって標準パターン長に
伸縮することになるが、この様子を図示したのが第3図
である。よこ軸に入力長、たて軸に標準パターン長をと
り、終端を一致させると、入力音声長はN1〜N2の範
囲であるから、入力と標準パターンとのマツチングルー
トは、入力軸のN1≦N≦N2内の1点を始点とし、P
を終端とする直線となる。したがって、類似度計算は全
て三角形の内側で行なわれることになる。
いま、時間長NUの未知入力があり、その内容が音声に
であったとする。ただし、未知入力の終端は既知である
が始端は未知である(したがって、NUも未知である)
とする。この未知入力と単語にの標準パターンSkの照
合を行なう場合、NをN1からN2まで、1フレームず
つずらせながら、各フレームに対して(式12)を用い
て時間長を1に伸縮し、未知入力パラメータと標準パタ
ーンとの類似度を求める。このとき標準パターンはSk
であるので、発声が正確ならば、N=NIJにおいて類
似度は最大となるはずである。また他の任意の標準パタ
ーンSk′に対するよりも、Skに対して類似度が大き
くなるはずである。このようにして、未知入力の始端が
決められる(したがって音声長が決められる)と同時に
音声kが認識できる。
さて、第3図においては終端が既知として説明を行なっ
たが、両端が未知の場合(すなわち音声区間が不明であ
る場合)にも、この方法を拡張できる。第4図はその説
明図である。図において終端点の横軸(入力の時間軸)
座標をiとする。ここでもしjの位置が入力音声の終端
に一致していれば第3図の場合と同じであるが、今度は
両端点が未知という仮定であるので、必ずしもiが音声
の終了点と一致するとは限らない。しかしながら、jを
音声区間が十分に入る広い範囲11≦1≦12でスキャ
ンすれば、1が音声の終端と一致する時点)=jOが必
ず存在する。その場合、始端点はjo−N2〜jo−N
tの範囲内の点jo  NUに存在するはずである。そ
して、このようにスキャンした場合においても、発声し
た言葉と標準パターンが一致していれば、始端力J□−
Nυ、終端が10のときの類似度が、他のどのようなj
およびNの組合せよりも大きくなる。しかも、この類似
度は他の標準パターンに対する類似度よりも大きい。
したがって、認識結果が求められると同時に、音声の始
端点、終端点が定まる。
このように第4図に示した方法は、騒音と音声が混在し
た信号から、標準パターンに最も類似した部分を切り出
して認識することができる。したかって、一般に用いら
れているような複雑な音声区間検出の手続きを必要とせ
ず、音声区間は認識された音声とともに結果として出力
される。
類似度の計算は以下に述べるように、特徴パラメータの
時系列パターンを用い、統計的距離尺度(事後確率に基
く距離)によって計算する。
1フレームあたりの特徴パラメータの個数をDとすると
、■フレームの時系列パターンはり、1次元のベクトル
となる。いま、未知入力の第iフレームのパラメータを
ocl、単語にの標準パターに ンの第iフレームの成分を―、とすると、” 1 =(
”L l+ ”2.1+ ・・”4 k+・・・XD、
 、 ) (式13)l1=(aLL a2+i+ ”
’ad、t+”’aD、t) (式14)時系列パター
ンをそれぞれX、Ak とすると!=(acl、区2.
−.aci、−,gl)     (式15)/Ak=
(孕1. ig m 拳i、 ・+、 !り   (式
16)である。単語kに対する類似度をLkとすると、
Lk=Bk−Ak−x        (式17)ここ
でAk、Bkは単語にの標準パターンである。
A k ” 2 W a (11’ k  I’ s 
)      (式20 )%式% Bk=11に−W、 ・#k  11”e’s’l’@
 ・J’s (式21)ただし、1ttkは単語にの平
均値ベクトル、l。
は全ての単語の周囲情報の平均値ベクトルである。
またwaは共分散行列であり、各単語の共分散行列Wk
と周囲情報の共分散行列W。を用いて作成できる。
Kは単語の種類である。
#e、Weは各単語に属する多くのサンプルを用いて、
次のように作成する。第5図に示すように、音声とその
周囲の区間に対して、1フレームずつずらせながら複数
の区間(区間長は!フレーム)を設定する。このような
操作を各単語の多くのサンプルに対して行ない、それら
の区間のパラメータの平均値ベクトル族。と共分散行列
W。を作成する。
(式17)は(式6)と同じ形であるので、類似度計算
に要する演算量は従来例と変わらない。
標準パターン作成の式((式7)、(式8)と(式20
)、(式21・))のみが異なっている。
□ 周囲情報を〃。、Woとして標準パターンに取り込
んでいるのが本発明の特徴である。このようにすると、
(式17)は擬似的な事後確率に基く距離となる。
第1図において10は入力信号をディジタル信号に変換
するAD変換部、11は音声分析区間(フレーム)ごと
に分析する音響分析部、12は特徴パラメータ抽出部で
あり、低次の6つのLPCケプストラム係数(CQ−c
5)をフレーム(10msec)ごとに出力する。特徴
パラメータ抽出部12の出力が(式13)の区に相当す
る(したがってD=6である)。なおブロック10〜1
2の機能は第10図のブロック1〜3の機能と同じであ
る。特徴パラメータはLPCケプストラム係数の他に、
自己相関係数、PARCOR係数、帯域通過フィルタの
出力などがある。
以下、各ブロックの機能を第6図のフローチャートを参
照しながら説明する。フレーム同期信号発生部13は、
1フレームごとに同期信号を発生する。フレーム番号を
1とし、入力音声を含む十分広い区間自≦i≦12で類
似度の計算を行なうものとする。1フレームの期間で次
の操作°を行なう。
標準パターン選択部18は、認識対象とする音声(ここ
では単語)の1つ1つを選択する(単語数をKとする)
。選択された標準パターンに対して、区間候補設定部1
5では、各単語の最小音声区間長N1(k)と最大音声
区間長N2(k)を設定する。
そして、区間長N(N1(k)≦N < N2(k) 
)に対して、特徴パラメータ抽出部12で得られた未知
入力パラメータを1N=iフレームの時間分だけ並べて
、入力パラメータの時系列を作り、時間軸正規化部14
において、時系列パラメータの時間を(式l 2 )を
用いて!フレームに伸縮し、(式15)に相当するパラ
メータ系列を得る。類似度計算部16はこのパラメータ
系列と、標準パターン選択部18で選ばれた標準パター
ン格納部17中の標準パターンAk、Bkとの間で、(
式17)を用いて類似度LkllJを計算する。類似度
比較部20では、L k N)と1次記憶19に蓄積さ
れているこの時点までの最大類似度値(距離の最小値L
min)を比較し、LkeJ)<LminならばLmi
nをLSJ)に置きかえてその時のkを9として1次記
憶19を更新し、Lkl[≧Lmin  ならば1次記
憶19の内容は更新しない。
このような一連の操作を、1つの標準パターンに対して
N 2(k)−N l (k) + 1回ずつ、1フレ
ームの間にに個の標準パターンに対して行なう。そして
更に、それを1〜12フレームの期間に対して行なう。
認識結果は、12フレームまで到達した時点におけるk
であり、その時の類似度値はLminである。また最大
類似度を得た時点のフレーム1とその時の区間長介を1
次記憶19に蓄積しておけば、これらを用いて音声区間
を結果として求めることができる。
以上述べたように、本実施例はh〜12の区間を、音声
がその中に十分に入るように広く取っておきさえすれば
、音声区間検出という操作を必要とせずに音声を認識す
ることができる。第1図で示した第1の実施例は、解り
やすいので、方法の説明には有用であり、このとおりに
実現することはもちろん可能である。しかし、リアルタ
イム化を図ろうとした場合、計算量が多すぎるという難
点がある。その原因は、区間候補設定部15で設定しt
こ全での区間について、まともに(式17)を計算して
いる点にある。
次に述べる第2の実施例は、計算量を削減した、より実
用的な方法である。まず原理的な説明を行なう。
認識結果を得るには類似度計算式(18)において、L
kを最小とするに=’Qを求めればよい。すに =BkmaxM 輛(式25) %式% ここで l、輛=(*4)・区i    (式26)は
、マツチングルートNに従って時間伸縮された後の第i
フレームの入力IEiと標準パターンにの部分類似度で
ある。次に時間伸縮の意味するところを考えてみる。時
間伸縮をされる前の未知入力ベクトルを7とすると、 Y = (vt、 92.−vn、 −vN)    
(式27)と表わされる。nと1は両方とも整数であり
、(式12)で関係づけられている。したがって(式1
5)のベクトルXは(式27)の未知入力ベクトルYの
中から、(式12)で関係づけられるフレームをIフレ
ーム分だけ選択して時間的順序で並べたものである。マ
ツチングルートに従って選択するという操作を便宜上、
次式で表わす。
oct=(vi)N         <式28)そう
すると部分類似度(式26)は t 1、■= (p i)”〔マt;)N    (式29
)また部分類似度の和−剃は (式30) すなわち(式17)は、部分類似度1teJ)が先に求
められていれば、それらを(式12)の関係に従ってI
フレーム分だけ加えるという操作に置きかえられる。(
式12)はNを与えれば一意にiとnの関係が求まるの
で、N1≦N<N2の範囲であらかじめ計算して、テー
ブルなどに蓄積しておくことができる。
次に第7図を参照してe′F(N)の求め方について考
えてみる。図において、点Pを標準パターンと未知入力
の終端点とし、未知入力の終端点の座標をNQとする。
N1.N2 は以前と同様に、音声の最小長と最大長で
ある。いま、未知入力の始端点がNの場合の類似度を求
めるものとすると、マツチングルートは直線PNである
。PNhで(式12)を満足する、任意の一点(n’、
i)における部分類似度7?i智は、入力のn′フレー
ムのペクト” トl1f4 準ハターンのiフレーム成
分のベクトル−1の積である。(n’、i)点は、現時
点ではPNhに位置しているが、P点は時間とともにシ
フトするので、ユ′フレーム以前にはP’N’Q上に存
在していたはずである。したがって、P′点の時点で(
n′。
i)の部分類似度を求めてそれを蓄積しておき、P点の
時点で使用することができる。(n’、i)は△PN2
N1上の任意の点であるから、他の点についても同様の
ことが言える。このように考えると、各フレームにおけ
る計算は次のように2つに分けることができる。
■ PN□上での部分類似度を計算して、バッファに蓄
積する。(積和演算) ■ (式30)によって計算する部分類似変相にに 用いる41輛は、それ以前のフレームで計算してバッフ
ァに蓄積されていたものを取り出して用いる。(加算演
算) 第8図はフレームあたりの計算方法をブロック図で示し
たものである。図において、30はgt(No)を計算
する積和器であり、標準パターンのフレーム数(I)だ
け用意されている。各積和器の下部からは第iフレーム
の入力ベクトルac(i)が入力され、左側から標準パ
ターンが入力される。
そして(式29)に相当する計算を行ない、14(No
)を出力する。遅延バッファ31は、積和器の計算結果
を1フレームの期間保存して、次段へ伝播する。遅延バ
ッファの数は、1単語あたり、第7図の△PN2N□内
の点の数だけ用意されている。32は加算器であり、(
式30)に相当する計算を行なって類似変相を求める。
加算器a2は1個の入力端を持ち、その各々は(式12
)で規定されるマツチングルートに従って、遅延バッフ
ァの出力端に接続されている。33は比咬器であリ、m
axMk■ を求める。34は減算器であり、(式25
)の計算を行なって、単語kに対する最小値を求めろ。
以と、第2の実施例における方法の説明を行なっな。第
9図は第2の実施例における音声認識装置の具現化を示
す機能ブロック図である。第9図において、第1図と同
じ番号を有するブロックは同一機能を有するので、説明
を省略または簡略化する。
第9図において、AD変換部10、音響分析部11、特
徴パラメータ抽出部12で入力音声をディジタル化して
LP−C分析を行ない、特徴パラメータ(LPCケプス
トラム係数)をフレームごとに求める。1フレームの期
間内に以下の操作を行なう。
標準パターン選択部18は、標準パターン格納部17に
格納されているに個の標準パターンを、1つずつ選択す
る。部分類似度計算部21は、入力特徴パラメータと選
択された標準パターンとのに 間で(式29)の計算を行ない(l i (N□ )を
求め、類似度バッファ22へ蓄積する。類似度バッフ7
は、1単語あたり第7図の△PN2N□内の類似度を蓄
積できる容量を持っており、時間伸縮テーブル24で指
定されたアドレスの内容を読み出ス。
時間伸縮テーブルには入力長N(N1≦N≦N2)の各
々に対して(式12)で規定されるnとiの関係が記述
されている。N1. N2は単語ごとに異なり、区間候
補設定部15によって設定される。
類似度加算部23は、マツチングルートN1〜N2の各
々に対して、時間伸縮テーブル24で指定されたアドレ
スで読出される類似度バッファ22の出力を加算して(
式30)の計算を行ない、類似に 変相M(N)を求める。類似度比較部201.tMk(
IJと1次記憶19の内容を比較し、M(fiの方が大
きい場合のみ、1次記憶の内容をMkHに置きか。
える。N=N2まで計算し終えると(式18)によって
Lkを求め、1次記憶19に蓄積されている、それ以前
の最小値と比較し、Lkが小さい場合のみ1次記憶19
の内容を更新する。そして、標準パターン選択部18は
次の単語を選択して同様の操作を行なう。さらに全単語
を終了するとフレームを進める。
対象とする全区間(i=自〜i2)  に対してこのよ
うな操作を行なうと、+=f2フレームを終了した時点
では、類似度の最小値Lkとその時の単語名tを認識結
果として求めることができる。
第2の実施例では、第1の実施例に比べて、類似度を求
めるための積和演算の回数が非常に少なくなっている。
いま、単語数に=10.標準パターン長I =16.平
均最小時間長N1=21.平均最大時間長N2=40.
1フレームあたりのパラメータ数D=6とすると、第1
の実施例における積和演算量は19800回に対し、第
2の実施例では960回である。
本実施例の方法を用いて、成人男女計330名が電話機
を通して発声した10数字単語を評価した結果、平均認
識率93.75%を得た。高騒音下の発声であることを
考慮すれば、この値は低いとは言えない。また本実施例
による認識誤まりの原因を分析した結果、誤まりのほと
んどはある単語の一部を他の単語として認識してしまう
ために生ずることがわかった。たとえば/Zero/の
/ro/の部分を/go /と誤認識するのがその1例
である。
このため、第2候補までを正解とすると97%以上の認
識率を得る。したがって、他の方法を少し併用すれば、
第1候補としてさらに高い認識率が得られることが容易
に推察される。
発明の効果 以七要するに本発明は、認識すべき音声とその前後の騒
音を含む入力信号区間に、ある時間的な基準点を設け、
基準点を端点としてそれからN1フレームの区間とN2
フレームの区間(N1 <N2 )の2区間を設定して
、これらを音声区間のそれぞれ最小値と最大値と考えて
、N2−N1+1とおりの音声区間候補のそれぞれに対
して、音声区間長を一定時間長に伸縮しながら各単語の
標準パターンとのマツチングを行なって各単語の類似度
または距離を求め、この操作を基準点を全入力信号区間
の始めから終りまで走査して行ない、全ての基準点位置
の全ての音声区間候補に対する類似度または距離を各単
語について比較し、類似度を最大または距離を最小とす
る単語を認識結果として出力するもので、音声区間の検
出を必要とせず、騒音と音声が混在した信号から音声に
相当する部分のみを切出して認識でき、従来は複雑なル
ールを用いて音声区間の検出を行なっていたが、それで
も騒音レベルが高い場合や非定常的なノイズが混入する
場合には音声区間の検出を誤まり、したがって誤認識を
していたが、本発明は複雑な音声区間検出アルゴリズム
を除去することによって、システムを簡略化し、また高
騒音入力に対して安定した認識率を確保することができ
、その効果は大きい。
【図面の簡単な説明】
第1図は本発明の第1の実施例における音声認識方法を
具現化する機能ブロック図、第2図乃至第4図は同実施
例の音声区間長の伸縮を説明する概念図、第5図は同実
施例の音声の標準パターン作成時の、周囲情報の標準パ
ターン作成法を説明する概念図、第6図は同実施例の処
理手順を説明するフローチャート、第7図は本発明の第
2の実施例における音声認識方法の部分類似度の求め方
を示す概念図、第8図は同実施例のフレームあたりの計
算方法を示すブロック図、第9図は同実施例における音
声認識方法を具現化する機能ブロック図、第10図は従
来の音声認識方法を示す機能ブロック図である。 10・・・・・・AD変換部、11・旧・・音響分析部
、12・・・・・・特徴パラメータ抽出部、13・・・
・・・フレーム同期信号発生部、14・・団・時間軸正
規化部、15・・・・・・区間候補設定部、16・・・
・・・類似度計算部、17・・・・・・標準パターン格
納部、18・・・・・・標準パターン選択部、19・・
・・・・1次記憶、2o・・・・・・類似度比較部。 代理人の氏名 弁理士 中 尾 敏 男 はが1名第 
2 口 第4図 S−鮨塙臼罰* 第5図 第6図 本カ ス L騨 第7図 第8図

Claims (7)

    【特許請求の範囲】
  1. (1)予め、認識対象とする音声の各々の標準パターン
    を、各々の音声に属するデータと認識対象とする全音声
    のデータおよび全音声のデータの周囲情報を用いて作成
    しておき、一方、認識すべき音声とその周囲の情報を含
    む未知入力内に時間的な基準点を設け、基準点を端点と
    してそれから時間長N_1およびN_2(N_1<N_
    2)の2つの区間を設定して、基準点とN_1の間の区
    間を音声区間の最小値そして基準点とN_2の間の区間
    を音声区間の最大値と考えて、最小音声区間と最大音声
    区間の間に複数の音声区間を仮定し、仮定したそれぞれ
    の音声区間長を一定時間長に伸縮しながら前記各音声の
    標準パターンとの照合を行なって各音声に対する類似度
    または距離を求め、仮定した全音声区間の全標準パター
    ンに対する最大類似度または最小距離とその場合の標準
    パターン名を記憶し、次に未知入力内の基準点を単位区
    間シフトさせて、同様にして新たに最大類似度または最
    小距離を求め、記憶されている以前の最大類似度または
    最小距離と新たな最大類似度または最小距離を比較して
    大きい方の類似度または小さい方の距離とそのときの標
    準パターン名を記憶し、このような操作を、基準点を単
    位時間ずつシフトさせながら、未知入力の十分広い区間
    に対して行ない、基準点が最終点に到達したときに記憶
    されている標準パターン名に対応する音声を認識結果と
    することを特徴とする音声認識方法。
  2. (2)予め、音声区間長と、その音声区間長を一定時間
    長に伸縮した時の標準パターンの時間的な位置との対応
    関係を求めておき、一方、類似度または距離の計算にお
    いては未知入力と標準パターンの部分類似度または距離
    を先に求め、仮定した音声区間長の未知入力と標準パタ
    ーンの類似度または距離を、前記対応関係を参照しなが
    ら部分類似度を加算することを特徴とする特許請求の範
    囲第1項記載の音声認識方法。
  3. (3)類似度または距離の計算を、事後確率を基本とし
    た尺度を用いて行なったことを特徴とする特許請求の範
    囲第1項記載の音声認識方法。
  4. (4)特徴パラメータがLPCケプストラム係数、自己
    相関係数、帯域通過フィルタの出力のいずれかであるこ
    とを特徴とする特許請求の範囲第1項記載の音声認識方
    法。
  5. (5)周囲情報を正確な始端付近l_1フレームと正確
    な終端付近l_2フレームを組合わせて定まる音声区間
    を用い、全対象単語に属する多くのデータサンプルから
    統計的に作成することを特徴とする特許請求の範囲第1
    項記載の音声認識方法。
  6. (6)ある音声nの標準パターンを、nに属するデータ
    を用いて統計的に求めた標準パターンから周囲情報を除
    去した形で求めることを特徴とする特許請求の範囲第1
    項記載の音声認識方法。
  7. (7)類似度を計算する式が1次判別関数であることを
    特徴とする特許請求の範囲第1項記載の音声認識方法。
JP60251360A 1985-02-18 1985-11-08 音声認識方法 Granted JPS62111293A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP60251360A JPS62111293A (ja) 1985-11-08 1985-11-08 音声認識方法
US07/628,987 US5241649A (en) 1985-02-18 1990-12-17 Voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60251360A JPS62111293A (ja) 1985-11-08 1985-11-08 音声認識方法

Publications (2)

Publication Number Publication Date
JPS62111293A true JPS62111293A (ja) 1987-05-22
JPH0451037B2 JPH0451037B2 (ja) 1992-08-17

Family

ID=17221667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60251360A Granted JPS62111293A (ja) 1985-02-18 1985-11-08 音声認識方法

Country Status (1)

Country Link
JP (1) JPS62111293A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62134699A (ja) * 1985-12-06 1987-06-17 松下電器産業株式会社 音声認識方法
JPH04369696A (ja) * 1991-06-19 1992-12-22 Matsushita Electric Ind Co Ltd 音声認識方法
JPH06175681A (ja) * 1992-12-11 1994-06-24 Matsushita Electric Ind Co Ltd 音声認識方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62134699A (ja) * 1985-12-06 1987-06-17 松下電器産業株式会社 音声認識方法
JPH054680B2 (ja) * 1985-12-06 1993-01-20 Matsushita Electric Ind Co Ltd
JPH04369696A (ja) * 1991-06-19 1992-12-22 Matsushita Electric Ind Co Ltd 音声認識方法
US5309547A (en) * 1991-06-19 1994-05-03 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
JPH06175681A (ja) * 1992-12-11 1994-06-24 Matsushita Electric Ind Co Ltd 音声認識方法

Also Published As

Publication number Publication date
JPH0451037B2 (ja) 1992-08-17

Similar Documents

Publication Publication Date Title
JP2011065120A (ja) すべての言語の音声識別及び音声識別を利用した単字入力の方法
JPH0743598B2 (ja) 音声認識方法
JP2003532162A (ja) 雑音に影響された音声の認識のためのロバストなパラメータ
JPS62111293A (ja) 音声認識方法
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP3250604B2 (ja) 音声認識方法および装置
JP2853418B2 (ja) 音声認識方法
JPS63165900A (ja) 会話音声認識方式
CN112967734A (zh) 基于多声部的音乐数据识别方法、装置、设备及存储介质
JP2506730B2 (ja) 音声認識方法
JP2705061B2 (ja) 音声認識方法
JP3135594B2 (ja) パターン認識装置およびパターン認識方法
JP4236502B2 (ja) 音声認識装置
JP2001083978A (ja) 音声認識装置
JP2002244697A (ja) 音声認証装置、音声認証方法、及びプログラム
JPH0777998A (ja) 連続単語音声認識装置
JPH054678B2 (ja)
JP2870268B2 (ja) 音声認識装置
JP2577891B2 (ja) 単語音声予備選択装置
JPH054679B2 (ja)
JPS62134699A (ja) 音声認識方法
JP2882088B2 (ja) 音声認識方法
JPH11288297A (ja) 音声認識装置
JPH01185599A (ja) 音声認識装置
JP3586644B2 (ja) パターン認識装置とパターン認識方法および記録媒体

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term