JPS62100799A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS62100799A
JPS62100799A JP60241054A JP24105485A JPS62100799A JP S62100799 A JPS62100799 A JP S62100799A JP 60241054 A JP60241054 A JP 60241054A JP 24105485 A JP24105485 A JP 24105485A JP S62100799 A JPS62100799 A JP S62100799A
Authority
JP
Japan
Prior art keywords
speech
voice
section
similarity
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60241054A
Other languages
English (en)
Other versions
JPH054678B2 (ja
Inventor
二矢田 勝行
泰助 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP60241054A priority Critical patent/JPS62100799A/ja
Publication of JPS62100799A publication Critical patent/JPS62100799A/ja
Publication of JPH054678B2 publication Critical patent/JPH054678B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は人間の声を機械に認識させる音声認識方法に関
するものである。
従来の技術 近年音声認識技術の開発が活発に行なわれ、商品化され
ているが、これらのほとんどは声を登録した人のみを認
識対象とする特定話者用である。
特定話者用の装置は認識すべき言葉をあらかじめ装置に
登録する手間を要するため、連続的に長時間使用する場
合を除けば、使用者にとって大きな負担となる。これに
対し、声の登録を必要とせず、使い勝手のよい不特定話
者用の認識技術の研究が最近では精力的に行なわれるよ
うになった。
音声認識方法を一般的に言うと、入力音声と辞書中に格
納しである標準的な音声(これらはパラメータ化しであ
る)のパターンマツチングを行なって、類似度が最も高
い辞書中の音声を認識結果として出力するということで
ある。この場合、入力音声と辞書中の音声が物理的に全
く同じものならば問題はないわけであるが、一般には同
一音声であっても、人が違ったり、言い方が違っている
ため、全く同じにはならない。
人の違い、言い方の違いなどは、物理的にはスペクトル
の特徴の違いと時間的な特徴の違いとして表現される。
すなわち、調音器官(口、舌、のどなど)の形状は人ご
とに異なっているので、人が違えば同じ言葉でもスペク
トル形状は異なる。
また早口で発声するか、ゆっくり発声するかによって時
間的な特徴は異なる。
不特定話者用の認識技術では、このようなスペクトルお
よびその時間的変動を正規化して、標準パターンと比較
する必要がある。
不特定話者の音声認識に有効な方法として、発明者の本
出願人は既にパラメータの時系列情報と統計的距離尺度
を併用する方法に関して特許を出願している(特願昭6
0−29547号)ので、その方法を以下に説明する。
第6図は本願出願人が以前に提案した音声認識方法の具
現化を示す機能ブロック図である。
図において、lは入力音声をディジタル信号に変換する
AD変換部、2は音声を分析区間(フレーム)毎に分析
しスペクトル情報を求める音響分析部、3は特徴パラメ
ータを求める特徴パラメータ抽出部、4は始端フレーム
と終端フレームを検出する音声区間検出部、5は単語長
の伸縮を行う時間軸正規化部、6は入カバターンと標準
パターンとの類似度を計算する距離計算部、7は予め作
成された標準パターンを格納する標準パターン格納部で
ある。上記構成において以下その動作を説明する。
入力音声をAD変換部1によって12ビツトの−1イジ
タル信号に変換する。標本化周波数はmである。音響分
析部2では、1フレーム(IQ m5ec)ごとに自己
相関法によるLPC分析を行なう。分析の次数は10次
とし、線形予測係数αO2α1.α2・・・α10を求
める。才たここではフレームごとの音声パワーWOも求
めておく。特徴パラメータ抽出部3では線形予測係数を
用いて、LPCケプストラム係数CI−Cd(dは打切
り次数)および正規化対数残差パワーCOを求める。な
お、LPC分析とLPCケプストラム係数の抽出法に関
しては、例えば、J、D、マーケル、A、H,グレイ著
、鈴木久喜訳「音声の線形予測」に詳しく記述しである
ので、ここでは説明を省略する。また特徴パラメータ抽
出部3では対数パワーLWoを次式で求める。
LWo = 10 loglo Wo        
(式1)音声区間検出部4は(式1)で求めたLWOを
閾値θSと比較し、LWO〉θSのフレームがlS フ
レーム以上持続する場合、その最初のフレームを音声区
間の始端フレームFSとする。またFsの後において、
LWoと閾値θeを比較し、LWo >θeとなるフレ
ームがleフレーム以上連続するとき、その最初のフレ
ームを音声区間の終端フレームFeとする。このように
してFsからFeまでを音声区間とする。いま説明を簡
単にするために、改めてFsを第1フレームと考え、フ
レームナンバーヲ(1゜2.・・・i 、−・I )と
する。ただし、I = Fe −Fs +1である。
時間軸正規化部5では、単語長をJフレームの長さに分
割することにより線形に伸縮をする。伸縮後の第jフレ
ームと入力音声の第1フレームは(式2)の関係を持つ
ただし〔〕は、その数を超えない最大の整数を表す。例
ではJ=16としている。
次に伸縮後の特徴パラメータを時系列に並べ、時系列パ
ターンCxを作成する。いま第jフレームの特徴パラメ
ータ(LPCケプストテム係数)をxl Ci、k (k = Q、1.2.=・P : 6個)
とするとCxは次式すなわちCxは、J・(P+1)す
なわちJ、d次元のベクトルとなる(dは1フレームあ
たりのパラメータ数)。
距離計算部6は入カバターンCxと標準パターン格納部
7に格納されている各音声の標準パターンとの類似度を
統計的な距離尺度を用いて計算し、最も距離が小さくな
る音声を認識結果として出力する。標準パターン格納部
7に格納されている第n番目の音声に対応する標準パタ
ーンをCn (平均値)、対象とする全音声に共通な共
分散行列をWとすると、入カバターンCxと第n番目の
標準パターンとのマハラノビス距離Snは次式で計算さ
れる。
t    −1 Sn=(Cx−Cn ) −W  ・(Cx−Cn) 
(式4)添字tは転置を、また−1は逆行列であること
を表す。(式4)を展開すると t   −1t   −1 Sn=Cx−W −Cx−2Cn−W  −Cx−1−
Cn−W  −Cn          (式5)(式
5)の第1項はnに無関係なので大小比較をするときは
考慮しなくてもよい。したがって第1項を取除いて、S
nをDnに置きかえると、Dnは次のようになる。
Dn=bn−”n−Cx          (弐6)
ただし   on = 2W −Cn     (式7
)%式% bn = Cn −W −(I”n     (式8)
Dnを全てのn(n−1,2・・・N)について計算し
、Dnを最小とする音声を認識結果とする。ここでNは
標準パターン格納部7に格納されている音声標準パター
ンの数である。実際には標準パターンはalとbnが1
対として、音声の数(N種類)だけ格納されている。
(式6)に要する計算量は積和演算がJ、(P−1−1
)回、減算が1回であり、非常に計算量が少ないのが特
長である。実用的にはJ=16.P=4とすれば十分な
ので、積和演算回数は1単語あたり 80回である。
次に標準パターンCn、W(実際にはan 、 bnに
変換される)の作成方法について説明する。
tフ(準パターンは、各音声ごとに多くのデータサンプ
ルを用いて作成する。各音声に対して、用いるサンプル
の数をMとする。各サンプルに対して(式2)を適用し
て、フレーム数をJに揃える。
音声nに対して平均値ベクトルを求める。
Cn = (d’;’、o 、d’;’、1.d’;’
、2.、−0dr’、p 1.=−d”;’、o 、d
γ、1−−−−−9.−d’j、o 、d’j’a 、
−0c’ff’、p )     (式9 )ただし 
Ci、に=1譬C」、W、rr+(式10)Mデ1 (j=t、2.・・・J:Jフレーム)k=0.1,2
.・・P:6個 ここでCj、に、mは音声nの第m番目のサンプルで、
第1フレームの第に次のケプストラム係数を示す。
平均値ベクトルと同様な手順で音声nの共分散行列yJ
”を求める。全音声に共通な共分散行列Wは次式で求め
る。
W== M (、、)11+、、121+・・・十W”
)+・・・・・十−) (式11)Cn、Wを(式7)
(弐8)によってan、bnに変換し、標準パターン格
納部7にあらかじめ格納しておく。
発明が解決しようとする問題点 かかる方法における問題点は、音声区間が一意に確実に
決められていると仮定している点にある。
現実の音声データは種々のノイズを含んでいたり、語頭
や語尾における発声が不明瞭であるため、音声区間を正
確に決められない場合が多々ある。誤まった音声区間に
対してこの方法を適用すると、当然のことながら、認識
率が大きく低下してしまう。
本発明の目的は上記問題点を解決するもので、音声区間
が一意に決められない場合においても、高い認識率を確
保できる音声認識方法を提供するものである。
問題点を解決するための手段 本発明は上記目的を達成するもので、予め、認識対象と
する音声の各々の標準パターンを、各々の音声に属する
データと認識対象とする全音声のデータおよび全音声の
データの周囲情報を用いて作成しておき、入力音声の始
端候補区間(klフレームとする)、終端候補区間(k
zlフレームする)を決め、前記候補区間における始端
、終端の全ての組合わせによってに1x kzとおりの
音声区間を設定し、各々の音声区間に対するデータを一
定時間長に正規化して各標準パターンとの類似度または
距離を求め、このようにして全音声区間における全単語
の標準パターンとの類似度または距離を計算し、全ての
類似度または距離を比較して、類似度を最大または距離
を最小とした標準パターンに対応する単語を結果として
出力するものである。
作    用 本発明は、正確な始端、終端の位置を含む始端、終端の
候補区間を求め、この候補区間における始端、終端の全
ての組合わせになる音声区間に対するデータについて類
似度または距離を求めるので、音声区間が一意に正確に
決められない場合においても高い認識率を確保できる。
実施例 以下に本発明の実施例を図面を用いて詳細に説明する。
第1図は本発明の一実施例における音声認識方法を具現
化するための機能ブロック図である。図において、1は
入力音声をディジタル信号に変換するAD変換部、2は
音声を分析区間(フレーム)ごとに分析する音響分析部
、3は特徴パラメータ抽出部であり、これらのブロック
の機能は第6図と同じである。10は音声の始端候補区
間および終端候補区間を求める音声区間候補検出部、1
1は始端候補フレームと終端候補フレームをいろいろと
組合わせて音声区間を設定する音声区間設定部、12は
設定された音声区間のフレーム長を伸縮して標準パター
ンのフレーム長に正規化する時間軸正規化部、13は時
間正規化された未知入力と、標準パターン格納部14に
格納されている各単語の標準パターンとの間の類似度(
距離)を計算する距離計算部、15は全音声区間、全単
語に対する類似度を比較して類似度最大(距離最小)と
なる単語名を結果として出力する類似度比較部である。
上記構成において以下その動作を説明する。
AD変換部1、音響分析部2および特徴パラメータ抽出
部3の動作は従来例と全く同じなので説明を省略する。
音声区間検出に用いるパラメータは残差パワー、帯域パ
ワーなどいろいろなものが考えられるが、ここでは(式
1)で求めた対数パワーLWoを用いて説明する。
従来例では、LWoを用いて音声の始端、終端を一意に
定めたが、現実には正確に定まらない場合があるので本
実施例では、始端、終端の候補区間を求め、候補区間内
には正確な始端、終端の位置が含まれているようにする
。このようにすると、始端、終端はあいまいにしか求め
られないが、外れる割合はずっと小さくなる。
次に音声区間候補検出部10の機能の一例を説明する。
始端検出のための閾値θS、θS(θS〉θS)および
終端検出のための閾値θ二、θ二(θδ〉θ;)をあら
かじめ定めておく。ここでθS、θeは、音声以外の区
間を含まないように高めに設定し、θS。
θeは逆に音声の区間を外さないように設定する。
第2図に示すように、これらの閾値を入力音声の対数パ
ワー値(LWo )に対して適用し、θSを超える最初
のフレームを51 、θSを超える最初のフレームをS
2.そしてθeより小さくなる最後のフレームをet 
、θeよりも低くなる最後のフレームをe2とする。そ
うすると正確な始端FsはS1≦FS≦S2、正確な終
端Feはe1≦Fe<e2 となる。実際にはLWoの
値の連続性を見て、規則によってst。
S2.el、e2の位置を修正している。
このようにして始端候補区間、終端候補区間を求めると
、始端候補区間フレームに1=sz−st+1、終端候
補区間に2=e2−ex+1フレームとなり、音声区間
の組合わせは1=klXk2とおりとなる。
音声区間設定部11は、Lとおりの音声区瀾の1つ1つ
に対して、始端Sと終端eおよび音声長I−e−5+1
を決め、遂次、時間軸正規化部12へと送出する。時間
軸正規化部12では、前記(式2)を用いて時間長をJ
フレームに伸縮し、(弐3)と全く同様にして、入力特
徴ベクトル(L’xを求める。これを第1番目の音声区
間に対する特徴ベクトルという意味で6とする。距離計
算部13はC斐と、標準パターン格納部14に格納され
ている各単語(単語ナンバーをnとする)の標準パター
ンAn 、 Bnとの距離扉を(式6)と同じ形式の(
式12)で計算する。
DH=Bn  LH−(DC(式12)An 、 Bn
および(式12)については後で説明する。
扉を全てのn(n−1,2,・・・N;Nは単語数)に
ついて計算する。そしてさらに、ブロック11゜12 
、13 、14 の操作をくり返して、全ての音声区間
1(1=1.2.・・・L)について計算すると、類似
度扉はLxN個だけ求められる。
類似度比較部15はLxN個の中から類似度最大(距離
最小)となるものを求め、それをdギとする。認識結果
は単語メンバーn′に対応する単語を出力する。
上記のように、音声区間が正確に検出できない場合の認
識方法を説明してきたが、この方法が効果を発揮するた
めには、(式12)における標準パターンAn 、 B
nの作成方法に工夫が必要である。
次に標準パターンの作成方法について説明する。
先ず、従来側番こよる標準パターン((式7)、(弐8
))を用いたときの、問題点について述べる。
話を単純にするために、語頭および語尾の位置が、正確
な始端、終端に対して±mフレーム以内の範囲でずれた
場合について考察する。すなわち、第2図においてS2
−FS=FS−st=m 、 e2−Fe=Fe−el
=mとした場合において、ずれ幅mと認識率の関係につ
いて調べる。データは110名の成人男女がそれぞれ発
声した10数字(イチ、二、サン、ヨン、ゴ、ロク、ナ
ナ、ハチ、キュウ、ゼロ)を用いる。第3図の破線は、
従来法による標準パターンを用いた場合の、ずれ幅mと
10数字の平均認識率の関係を示したものである。図か
ら明らかなように、m=±2以内、すなわち語頭候補区
間も、語尾候補区間も正確な位置から±2フレーム以内
の区間として検出された場合は認識率はあまり低下しな
いが、語頭、語尾候補区間がそれ以上広くなると、認識
率が急激に低下してしまう。このように従来法の標準パ
ターンを使用した場合は、候補区間をかなり狭く絞る必
要があり、音声区間検出が正確でない場合にも対処でき
るようにするという本発明の目的を十分に達成すること
ができない。
次に本実施例による標準パターン作成法を説明する。
(式6)の類似度計算式は、もともと(式5)において
、標準パターンに関係しない第1項を省略して、求めた
ものである。第1項は入力の特徴量のみに関係する量で
あるので、入力待微量([’xが同じならば省略しても
さしつかえない。すなわち、音声区間が1つであれば、
全ての単語に対して第1項は共通ζどなるので省略でき
る。しかし、複数の音声区間に対する類似度を相互に比
較する場合は、(式2)で抽出されるフレームが異なる
ので、Cxが同じという条件が成立しない。これが第3
図ζこおいて、mを大きくすると、認識率が大きく低下
する主な理由である。
異なる特徴量を相互に比較する場合、事後確率を求める
方法が有効である。特徴量(I’xの単語Wnに対する
事後確率をP(WnlCx)  とすると、ベイズの定
理より 対数をとると logP(Wn l Cx )=A!og P(Wn 
) + JogP(cx lWn )−il’ogP(
Cx)      (式14)どの単語も同じ確率で出
現すると考えてよいのでlog P(Wn ) = C
(定数)     (式15)(式14)の第2項は確
率密度関数の対数であるので log P((I?x 1Wn)=−”((I’x−C
n)’ JIWn” ・ここでCnは単語Wnの平均値
、Wnは共分散行列である。(式14)の第3項のP(
([”x)は、入力待微量の出現確率であり、あらゆる
音声区間を設定して求めた入力待微量の分布から求めら
れる。ここではCxの分布が正規分布に従うものと仮定
すここで#X 、 WxはそれぞれCxの平均値と共分
散行列である。これらは、全ての単語に対して種々の音
声区間を設定してそれぞれ入力待微量Cxを求め、それ
らの平均値と共分散行列を求めて作成する。具体的ζこ
は、目視によってラベル付けされたデータサンプルを用
い、第4図に示すように、始端、終端の前後にそれぞれ
Mフレームの区間を取って、始端、終端を組合わせて(
2M+1)2組の区間を考え、各々を(式2)で伸縮し
て(式3)のごとくパラメータ系列に変換し、全ての組
、全ての単語の全てのデータの平均値と共分散行列を求
める。このようlc P(Cx)は、音声区間が存在す
る周囲の情報をいろいろな状況を考慮して正規分布とし
てモデル化したものと考えることができる。
bx 、 Wxの作成方法は上記に限定されず、音声区
間の周囲情報を十分に含むことができる方法ならば、ど
のようにしてもよい。
さて(式15)〜(式19)を用いると(式14)は次
のようζどなる。
−(Cx−11x) −Wx −(Cx−4x) )−
(□□□−戦−〇)    (式20)ここで、等共分
散行列の仮定を行なう。すなわW=Wn=Wx    
         (式21)そうすると(式20)の
()内の第1項は(式4)に一致するので、 (Cx−Cn)’−%%”−((I’x−Cn)=C↓
・V’・Cx−a、!、−[’n−1−bn     
(式22) 同様に第2項は ((L’x−#x’)”・Vf’−(Cx−#x)=C
A−W−”−Cn−”c−Cx十bx     (式2
3) ただし ”x=2ttt’x−f’           (式
24)bx=pA −Vkr’−/lix      
    (式25)また勃=蛾となるので、(式22)
、(式23)を(式20)に代入すると、 =LAA−CX−’Bn+C(式26)An = ” 
n −a x           (式27)Bn=
bn−bx           (式28)(式26
)で定数Cは大小比較には無関係であるから除くことが
できる。(式26)からCを除いて両辺に−2を掛けこ
れをDnとすると Dn = Bn −An −Cx          
 (式29)(式29)は(式12)に一致している。
このように本実施例で用いる類似度計算式(式12)は
、形の上では従来例の計算式(式6)と全く同じである
が、従来例ではマハラノビス距離という考え方に基づい
ているのに対し、本実施例では(式13)で示した事後
確率という考え方に基づいている。(式13)から(式
29)を導ひく場合に、計算を簡単にするために、P(
Cx)の正規分布仮定および(式21)の等共分散仮定
を置いているので(式29)は正確な意味では事後確率
とは異なる。
従って、ここでは擬似事後確率と呼ぶことにする。
本実施例の標準パターンは(式27)、(式28)であ
るが、形式的には単語そのものの標準パターンから、周
囲情報を除去した形となっている。
以上説明した方法で標準パターンを作成する場合のブロ
ック図を第5図に示す。図において1〜3は第1図と全
く同じ機能を有する。破線で示しである目視ラベル部1
6は、特徴パラメータを参照して、目視によって正確に
音声区間を切出すことを示す。標準パターンには単語音
声の標準パターンμn 、 Wnと周囲情報の標準パタ
ーン#X 、 Wxの2種類があるが、先ず前者につい
て作成方法を説明する。
あらかじめ結果が既知(たとえば単語n)の単語音声デ
ータを第5図AD変換部1、音響分析部2、特徴パラメ
ータ抽出部3のブロックで分析して目視ラベル部16で
音声区間を求める。そして、この音声区間長(I)を(
式2)を用いて、時間軸正規化部12によってJの長さ
に正規化する。単語別標準パターン作成部18では(式
2)の関係を満足する特徴パラ、メータのみを取込む。
このような操作を単語nに属する多くの音声データサン
プルを用いて行ない、単語別標準パターン作成部18(
ζ:″1′いて、平均μnと共分散行列Wnを求めるこ
とによって、各単語音声の標準パターンを作成する。
周囲情報の標準パターンは次のようにして作成する。音
声サンプル(結果が未知であってもよい)を分析して目
視ラベル部16で音声区間を求め、区間設定部17によ
って、音声区間の始端、終端の前後にそれぞれMフレー
ムの区間を取って(2M+−1)組の区間を設定する。
時間軸正規化部12では、各組に対して時間長をIフレ
ームに正規化し、対応するフレームの特徴パラメータC
xを環境情報作成部20に送出する。すなわち、1つの
データサンプルに対して(2M+1)の環境情報が集ま
ることになる。このような操作を多くのデータサンプル
を入力して行ない、環境情報作成部20によって、平均
値#Xと共分散行列Wxを求める。標準パターン変換部
19では、単語別標準パターン作成部18で求めたgn
 、 Wn 、及び環境情報作成部20で求めたAX 
、 Wxを用いて(式7)、(弐8)(式2,4) 、
 (式25)および(式28)〜(式29)を用いて、
標準パターンAn 、 Bnを作成する。
これで標準パターン作成方法の説明を終える。
第3図の実線は本実施例による標準パターンを使用した
場合の始端、終端のずれ幅と平均認識率の関係を示した
ものである。図から明らかなように、従来法による標準
パターンを使用した場合よりも、本実施例による標準パ
ターンを使用した場合の方が、音声区間のずれに対して
格段に強い。
このように本実施例による標準パターンを第1図におけ
る標準パターン格納部14に格納しておけば、音声区間
候補検出部10において、始端、後端の候補区間が広く
検出された場合においても、認識率の低下はあまりない
発明の効果 以上述べたように、本発明は音声区間の自動検出を前提
とした実用的な方法に関するものであり、音声区間の始
端、後端のそれぞれの候補区間を求め、候補区間の組合
わせによっていくつかの音声区間を設定し、各音声区間
に対して時間軸の正規化を行なって、音声区間の環境情
報を含んだ新しい単語標準パターンとの間に類似度また
は距離の計算を行ない、このようにして全音声区間に対
する類似度または距離を求めて相互に比較を行なって、
類似度が最も大きいまたは距離が最も小さい単語を結果
として出力する音声認識方法を提供するもので、音声区
間が一意に正確に決められない場合においても高い認識
率を確保できるとともに各音素区間あたりの計算量が少
ないという利点を有する。
【図面の簡単な説明】
第1図は本発明の一実施例における音声認識方法を具現
化する装置の機能ブロック図、第2図は本発明の一実施
例における音声の始端候補と終端候補の決定方法を示す
説明図、第3図は音声区間が正確でない場合における本
実施例と従来例との平均認識率の比較図、第4図は本発
明の一実施例における標準パターン作成時の音声区間の
設定方法を示す説明図、第5図は本発明の一実施例にお
ける音声標準パターンの作成を示す機能ブロック図、第
6図は従来の音声認識装置の機能ブロック図である。 1・・・AD変換部、2・・・音響分析部、3・・・特
徴パラメータ抽出部、10・・・音声区間候補検出部、
11・・・音声区間設定部、12・・・時間軸正規化部
、13・・・距離計算部、14・・・標準パターン格納
部、15・・・類似度比較部。 代理人の氏名 弁理士 中 尾 敏 男 はか1名@ 
        *ぐ ◆( 第2図 第3図 す″1L朝h 処

Claims (6)

    【特許請求の範囲】
  1. (1)予め、認識対象とするN種の音声の各々の標準パ
    ターン、各々の音声に属するデータと認識対象とする全
    音声のデータおよび全音声のデータの周囲情報を用いて
    作成しておき、一方入力音声から始端候補区間k_1フ
    レーム、終端候補区間k_2フレームを検出し、始端候
    補区間と終端候補区間を組合わせてK=k_1×k_2
    とおりの音声区間を設定し、これらの音声区間の全部ま
    たは1部(K_1とおり)を対象として、各々始端と終
    端の間をJフレームに分割し、各フレームごとにd個の
    特徴パラメータを抽出して時間的順序に並べてd×J次
    元の入力ベクトルを作成し、これと前述の各々の音声標
    準パターンとの類似度または距離を計算し、このように
    してK_1とおりの音声区間に対する各々の音声標準パ
    ターンとの類似度または距離を求め、N×K_1種の類
    似度または距離を比較して、類似度が最大または距離が
    最小となる結果に対応する音声標準パターンが属する音
    声を認識結果とすることを特徴とする音声認識方法。
  2. (2)類似度または距離の計算を、事後確率を基本とし
    た尺度を用いて行なうことを特徴とする特許請求の範囲
    第1項記載の音声認識方法。
  3. (3)特徴パラメータがLPCケプストラム係数、自己
    相関係数、帯域通過フィルタの出力のいずれかであるこ
    とを特徴とする特許請求の範囲第1項記載の音声認識方
    法。
  4. (4)周囲情報を正確な始端付近l_1フレームと正確
    な終端付近l_2フレームを組合わせて定まる音声区間
    を用い、全対象単語に属する多くのデータサンプルから
    統計的に作成することを特徴とする特許請求の範囲第1
    項記載の音声認識方法。
  5. (5)ある音声nの標準パターンを、nに属するデータ
    を用いて統計的に求めた標準パターンから周囲情報を除
    去した形で求めることを特徴とする特許請求の範囲第1
    項記載の音声認識方法。
  6. (6)類似度を計算する式が1次判別関数であることを
    特徴とする特許請求の範囲第1項記載の音声認識方法。
JP60241054A 1985-10-28 1985-10-28 音声認識方法 Granted JPS62100799A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60241054A JPS62100799A (ja) 1985-10-28 1985-10-28 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60241054A JPS62100799A (ja) 1985-10-28 1985-10-28 音声認識方法

Publications (2)

Publication Number Publication Date
JPS62100799A true JPS62100799A (ja) 1987-05-11
JPH054678B2 JPH054678B2 (ja) 1993-01-20

Family

ID=17068621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60241054A Granted JPS62100799A (ja) 1985-10-28 1985-10-28 音声認識方法

Country Status (1)

Country Link
JP (1) JPS62100799A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63300295A (ja) * 1987-05-29 1988-12-07 日本電気株式会社 音声認識装置
JP2008216618A (ja) * 2007-03-05 2008-09-18 Fujitsu Ten Ltd 音声判別装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002023788A (ja) * 2000-07-05 2002-01-25 Nec Corp 音声認識装置及び方法並びに記録媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5852698A (ja) * 1981-09-24 1983-03-28 富士通株式会社 音声認識処理システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5852698A (ja) * 1981-09-24 1983-03-28 富士通株式会社 音声認識処理システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63300295A (ja) * 1987-05-29 1988-12-07 日本電気株式会社 音声認識装置
JP2008216618A (ja) * 2007-03-05 2008-09-18 Fujitsu Ten Ltd 音声判別装置

Also Published As

Publication number Publication date
JPH054678B2 (ja) 1993-01-20

Similar Documents

Publication Publication Date Title
CN108447490B (zh) 基于记忆性瓶颈特征的声纹识别的方法及装置
Zhan et al. Vocal tract length normalization for large vocabulary continuous speech recognition
Das et al. Recognition of isolated words using features based on LPC, MFCC, ZCR and STE, with neural network classifiers
Hidayat et al. Wavelet detail coefficient as a novel wavelet-mfcc features in text-dependent speaker recognition system
Chandra Keyword spotting system for Tamil isolated words using Multidimensional MFCC and DTW algorithm
Karjigi et al. Speech intelligibility assessment of dysarthria using Fisher vector encoding
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JPS62100799A (ja) 音声認識方法
Pandey et al. Keyword spotting in continuous speech using spectral and prosodic information fusion
Thirumuru et al. Application of non-negative frequency-weighted energy operator for vowel region detection
Nair et al. A reliable speaker verification system based on LPCC and DTW
Manor et al. Voice trigger system using fuzzy logic
Li Speech recognition of mandarin monosyllables
Sharma et al. Speaker and gender identification on Indian languages using multilingual speech
JP4236502B2 (ja) 音声認識装置
Chaudhary Short-term spectral feature extraction and their fusion in text independent speaker recognition: A review
Hassan et al. Robust Speaker Identification System Based on Variational Bayesian Inference Gaussian Mixture Model and Feature Normalization
Nidhyananthan et al. A framework for multilingual text-independent speaker identification system
TWI460718B (zh) 一個辨認所有語言句子方法
Patro et al. Statistical feature evaluation for classification of stressed speech
Singh et al. Phoneme Based Hindi Speech Recognition Using Deep Learning
JPS63213899A (ja) 話者照合方式
Sahu et al. Odia isolated word recognition using DTW
Pol et al. USE OF MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR THE IMPLEMENTATION OF A SPEAKER RECOGNITION SYSTEM
Jagtap et al. REAL-TIME SPEECH BASED SENTIMENT RECOGNITION

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term