JPS62231993A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS62231993A
JPS62231993A JP61065030A JP6503086A JPS62231993A JP S62231993 A JPS62231993 A JP S62231993A JP 61065030 A JP61065030 A JP 61065030A JP 6503086 A JP6503086 A JP 6503086A JP S62231993 A JPS62231993 A JP S62231993A
Authority
JP
Japan
Prior art keywords
frequency
labels
adaptation
sequence
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61065030A
Other languages
English (en)
Other versions
JPH0355837B2 (ja
Inventor
黒田 明裕
雅史 西村
菅原 一秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP61065030A priority Critical patent/JPS62231993A/ja
Priority to CA000528993A priority patent/CA1256562A/en
Priority to US07/025,257 priority patent/US4829577A/en
Priority to EP87302603A priority patent/EP0243009B1/en
Priority to DE8787302603T priority patent/DE3773039D1/de
Publication of JPS62231993A publication Critical patent/JPS62231993A/ja
Publication of JPH0355837B2 publication Critical patent/JPH0355837B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 A、産業上の利用分野 この発明はマルコフ・モデルを利用した音声認識方法に
関し、とくに話者適応を簡易に行えるようにしたもので
ある。
B、従来の技術 マルコフ・モデルを利用した音声認識は確率的な観点か
ら音声の認識を行おうとするものである。
たとえばそのうちの1つの手法では単語ごとにマルコフ
・モデルが設定される。通常このマルコフ・モデルには
複数の状態と、これら状態の間の遷移が規定され、これ
ら遷移にはその生起確率と、その遷移においてラベル(
シンボル)を出力する確率とが割り当てられる。未知入
力音声はラベルの系列に変換され、こののち単語マルコ
フ・モデルの各々がこのラベル系列を生成する確率を、
上述の遷移生起確率およびラベル出力確率(以下これら
をパラメータと呼ぶ)に基づいて決定し、ラベル生成確
率が最大となる単語マルコフ・モデルを求める。そして
この結果に基づいて認識を行う。
このマルコフ・モデルを利用した音声認識では、パラメ
ータを統計的に推定することができ、このため認識精度
を向上させることができる。
なお、この認識手法については以下の論文に詳細が記載
されている。
(1)  “A Maximum Likelihoo
d Approachto Continuous 5
peech Recognition ”(I EEE
  Transactions  on Patter
nAnalySis and Machine  In
telligence。
PAMI−5巻、2号、pp、179−190.198
3、La1it  RBah1%FrederickJ
elinekおよびRobert L、Mercer)
(21’ Continuous 5peech Re
cognitionby  5tatistical 
 Methods”(Proceedings of 
 the  I EEE  64巻)1976、pp、
532−556、FrederickJelinek) (3)  ” An  Introduction  
to  theApplication  of  t
he  Theory  ofProbabilist
ic Functions of a MarkovP
rocess  to  Automatic  Sp
eechRecognition”(The  Be 
11  Sys temTechnical  Jou
rnal  64巻、4号、1986.4月、S、E、
Levinson、 L、R,RabinerおよびM
、M、5ondhi) ところでマルコフ・モデルを利用した音声認識では学習
用に膨大な量の音声データが必要であり、また学習を行
うのにも多くの時間を必要とする。
しかも所定の話者の音声データで学習を行ったシステム
では他の話者の認識精度が十分ではない場合が多い。ま
た、同一話者であっても、学習時と認識時との間にかな
りの時間を置き、そのため環境が異なってしまうと、認
識精度が低下する。
C0発明が解決しようとする問題点 この発明は以上の事情を考慮してなされたものであり、
一旦学習を行ったシステムを、学習時と異なる環境に適
応化させることができ、しかもその適応化を比較的簡易
に行うことかできる音声認識方法を提供することを目的
としている。
D9問題点を解決するための手段 この発明では、以上の目的を達成するために、初期の学
習時にマルコフ・モデルのパラメータを推定するのに用
いたイベントの頻度を保持してお(。つぎに適応化用デ
ータについてマルコフ・モデルのパラメータを参照して
適応化用データのイベントの頻度を求める。そして以上
の2種類のイベントの頻度の双方を利用して新しいパラ
メータを推定するようにしている。
一例として第2図に示すトレリスを考えよう。
第2図において横軸は時間経過を示し、縦軸はマルコフ
・モデルの状態を示す。入力ラベル系列は時間軸にf3
5 w   w  ・・・Wtである。フル1嘱   
2 コツ・モデルの状態は時間の経過にともなって初期状態
Iから最終状態Fへと種々のパスに沿って変化していく
。図の破線はパスの全体を示す。この場合iからjへ状
態が遷移し、しかもこの際ラベルkを出力する頻度C*
(’% Js k )、すなわち第2図の矢印で示すパ
スを通ってkを出力する頻度をパラメータP(i、Jl
k)から求めることができる。ただしP(is  L 
k)は1からjへ遷移し、しかもkを出力する確率であ
る。他方マルコフ・モデルが状態iにある頻度S*(i
 )すなわち括弧で示す時点で状態1にある頻度はC*
(j)jxk)の和をJおよびkについて求めれば得る
ことができる。そして頻度C*(i、  j、 k)お
よびS  (i)の性質から、新たなパラメータP′(
1% j、k)を の推定式から得ることができる。
このような推定を繰り返していけば、学習データを正確
に反映したパラメータP。(fx  j%k)を得るこ
とができる。なおゼロのサフィックスは学習完了時の値
であることを示す。したがってS。、C*は学習完了時
の頻度を表わす。
この発明では適応化を行うのに、パラメータP。
(1%  J、k)を用いて適応化用音声データに関す
る頻度C*(i、j、k)およびS1*(1)を求める
。そしてつぎの式を用いて適応化後の新たなパラメータ
P1い、j、k)を得るようにする。
ただし0くλく1 すなわち推定を行うのに必要な頻度を補間により求めて
いるのである。このようにすると初期学習で得たパラメ
ータP。(i、1% k)を異なる環境下の認識に適応
化させることができる。
またこの発明ではc  *=P (l、L k)・S*
(i)Pであることを利用して Pl(1、j、k) の推定を行うようにしてもよい。この場合頻度C*(1
% js k)を保持しておく必要がなくなる。
また初期学習データと適応化用データとが大幅に異なる
場合にはP。(rs  J、k)にかえてつぎのものを
利用するとよい。
(1−μ)PO(fx js k)+μe   o≦μ
≦1ここでeは所定の小さな定数であり、実際は1/(
ラベルの数)X(分岐の数)である。
なお以下の実施例ではマルコフ・モデルの確率パラメー
タとして1の状態から1の状態に遷移するときに1のラ
ベルを出力する確率を用いる場合につき説明するが、状
態遷移生起確率と、ラベル出力確率とを個別のパラメー
タとして用いる場合にもこの発明を適用できる。
E、実施例 以下この発明を単語音声認識に適用した一実施例につい
て図面を参照しながら説明しよう。
第1図はこの実施例を全体として示すものであり、この
第1図において、入力音声データはマイクロホン1およ
び増幅器2を介してアナログ・デジタル(A/D )変
換器3に供給され、ここでデジタル・データとされる。
デジタル化された音声データは特徴l抽出装置4に供給
される。特徴l抽出装置4はたとえばフローティング亀
ポイント・システムズ社製のアレイプロセッサとするこ
とができる。この特徴量抽出装置4においては、まず音
声データが離散フーリエ変換されたのち20チャネル分
のバンド・パス・フィルタのそれぞれの出力として取り
出される。この出力は10m秒ごとに20m秒のウィン
ドウを介して次段のラベル付は装置5に送出される。ラ
ベル付は装置5はラベル・プロトタイプ辞書6を参照し
て順次ラベル付けを行っていく。なお辞書6のラベルe
プロトタイプはクラスタリングにより生成されたもので
あり、その個数は128である。
ラベル付けはたとえば第3図に示すように行われる。第
6図においてXは入力の特徴量、Y、は第1番目のプロ
トタイプの特徴量、Nはプロトタイプの個数(=128
)、dist (X、 Y、 )はXとY、とのユーク
リッド距離、mは各時点までのdist(X% Y、)
の最小値である。なおmは非常に大きな値VK最初設定
される。図から明らかなように入力の特徴量Xはプロト
タイプの特徴量の各々と順次比較されていき、最も似て
いる、すなわち距離の小さいものが観測されたラベル(
ラベル番号)Pとして出力されていく。
このようにしてラベル付は装置5からは、ラベル間の間
隔が10m秒のラベル系列が出力されていく。
ラベル付は装置5からのラベル系列は切換装置7を介し
て学習装置8、適応化装置9および認識装置10のいず
れか1つに供給される。学習装置8および適応化装置9
の動作の詳細についてはのちに第4図以降の図を参照し
て説明する。初期学習時には切換装置7が学習装置8が
わに切シ換わってラベル系列を学習装置8に供給する。
学習装置8はラベル系列を利用してマルコフ・モデルの
学習を行いパラメータ・テーブル11のパラメータ値を
決定する。適応化を行う際には切換装置7が適応化装置
9がわに切り換わり、適応化装置9がラベル系列を利用
してパラメータ・テーブル11のパラメータ値を適応化
する。認識を行う際には切換装置7が認識装置10がわ
に切り換わり、認識装置10はラベル系列とパラメータ
・テーブルとに基づいて入力音声の認識を行う。この認
識装置10はフォワード計算またはビタービφアルゴリ
ズムに基づくものとすることができる。これらアルゴリ
ズムの詳細については前述の論文(2)を参照されたい
認識装置1oの出力はワークステーション12に供給さ
れ、たとえばその表示装置に表示される。
なお第1図において破線のブロックで囲まれた部分は実
際にはホストコンピュータ上にソフトウェアとして実現
されている。ホストコンピュータ上シてはIBM社の3
083処理装置、オペレーション・ンステムとしてはC
MS、言語としてはPL/1を用いた。もちろん、ハー
ドウェアで実現してもよい。
つぎに学習装置8の動作の詳細について説明する。
第4図は初期学習の手順を示すものであシ、この図にお
いて、まず単語マルコフΦモデルの各々について規定を
行う(ステップ16)。この例では単語の個数を200
としている。単語マルコフ・モデルは第5図に示すよう
なものである。この図では黒のドツトが状態の各々を示
し、矢印が遷移の各々を示している。状態の個数は初期
状態工および最終状態Fを含めて8である。遷移の種類
としては、隣りの状態への遷移tN、1つ状態をステッ
プする遷移tSおよび同一の状態をループする遷移tL
の3つがある。単語のラベル数は約40〜50個であり
、単語のラベル系列はループやステップを加味しながら
初期状態■から最終状態Fへとマツチングさせられてい
く。
単語マルコフ・モデルの規定は第1図のパラメータ・テ
ーブルを暫定的に確立することである。
具体的には第6図に示すようなテーブル・フォーマット
を各単語ごとに割シ当て、そののちパラメータP(i、
L  k)の初期設定を行う。なおパ5J−夕P(i%
 1% k)はマルコフ・モデルにおいて状態iからJ
への遷移が起こり、かつこの遷移時にラベルkが出力さ
れる確率を表わす。また初期設定では隣りへの遷移、ル
ープ遷移およびスキップ遷移がそれぞれ0.9 : 0
.05 : 0.05で起こり、かつ各遷移でラベルは
均等にすなわち1/128の割合いで出力されるものと
して、各パラメータを設定している。
単語マルコフ・モデルの規定ののち、初期学習用データ
を入力する(ステップ14)。この初期学習用データは
認識対象語業の200個の単語をそれぞれ5回ずつ発声
して得たものである。同一の単語についての5回の発声
は1まとめにされており、かつ発声の各々はどの単語の
何番目のものかがわかるようにされている。ここでは具
体的な1つの単語の発声の集合をU=(ul、u2、・
・・、US)で表わし、発声の各々unをun=Wn1
”  n2・・・Wntnで表わすことにしよう。
なおW ・・・は観測ラベルを表わす。
初期学習用データの入力が終了すると、つぎにフォワー
ド計算およびバックワード計算を行う(ステップ15)
。以下の手順はすべて単語について行われるが、ここで
は便宜上1つの単語の発声の集合Uについてのみ考える
こととする。フォワード計算およびバックワード計算は
つぎのようなフォワード値f(+、x% n)およびバ
ックワード値b(i、x、  n)を計算するものであ
る。
f(i、x、n)ニラベル系列U に対し時刻Oで初期
状態■から始まっ て時刻Xに状態lに到る頻 度 b(!、X%  n)ニラペル系列U に対し時刻t 
で最終状態Fから始ま って時刻Xに状態iに戻る 頻度 フォワード計算およびバックワード計算はつぎのような
式により順次簡易に求めることができる。
1≦X≦t の場合 fい、x、n)=Σ(f (i −に、 x−1、n)
・に=Q Pt、(i−に、i、wnx月 ただい Pt−1はそのときパラメータ・テーブルにス
トアされているパラメータであ5.にはマルコフ・モデ
ルにより決まり、ここではに=0.1.2である。
バンクワード計算 x =t  の場合 b(i、j、n) O≦x (L  の場合 b(i、x、n) =Σ(b(i+に、 x−1−1、n)・P−(111
+に、wnx+1))k=Ot1 タタl、Eはマルコフ・モデルの状態数である。
フォワード計算およびバックワード計算が終了すると、
つぎにラベル列unのフォワード値f(i、x、n)お
よびバックワード値b(i、X1n)に基づいてラベル
列U において状態iからJに遷移して、しかもラベル
kを出力する頻度count (1,3%に%n)を求
める(ステップ16)。頻度count (i、j、に
、n )はつぎの式から求めることができる。
count(i、j、に、n) ・P t−1(5コ、”nx) 上式は第7図を参照して容易に理解することができる。
第7図はこの実施例の単語マルコフ・モデルにラベル列
u (”Wnl”n2・・・Wntn )をマツチング
させた際のトレリスを示す。時間に沿って、(W  )
も表示されている。丸で囲まn      n X れたW はw   =にすなわちδ(wk)=1nx 
     nx                  
  nx。
の場合を示す。そして矢印の付されたラベルW。Xの観
測時点Xで、状態i(第7図では状態3)からj(同4
)に遷移するバスを考えることにする。
第7図ではこのバスpの両端の格子点を黒丸で示した。
この場合バスpでマルコフ・モデルかに−W  を出力
する確率はP   (i、j、w  )nxt−1nx である。また破線fで示すように初期状態Iから状態!
、時刻(X−1)の黒丸の格子点まで到る頻度はフォワ
ード値f(i、x−1、n)で表わされ、他方破線すで
示すように最終状態Fから状態j、時刻Xの黒丸の格子
まで戻る頻度はバックワード値b(j、x、n)で表わ
される。したかってパスpでに=w  f出力する頻度
はX f(i、x−1、”)・b(js ”s n)”Pt 
1(1% j%Wnρである。count (i、j、
に、n )は丸印の付されたラベルについて頻度の和を
とったものであり(δ(w、k)の操作がこれに対応す
る)、X 上述の式で表わされることがわかる。すなわちcoun
t(i、4%に、n) ++b(j、 x、 n)*P、  、(t、 j、w
nρ)である。
ラベル系列u(n=1〜5)のそれぞれの頻度coun
t (i、j、に、n )を得たら、つぎにラベル系列
の集合Uすなわち所定単語の字書用データ全体くわたる
頻度”t(’s  4% ’k )を求める(ステップ
17)。なお、ラベル系列U はそれぞれ異なシ、ラベ
ル系列U の各々が生起する頻度(総合確率T )も異
なる。したがって頻度count (!、Jlに%n)
を総合確率T で正規化しておく必要がある。なおT 
 =f(E、t。
n               n n)である(ただしE=8)。
対象単語の学習用データにわたる頻度Ct (I、J%
k)は で求める。
つぎに頻度count (is  js k% n)に
基づいて、対象単語の学習用データにわたって状態iに
ある頻度S t (i)を、同様にして求める(ステッ
プ18) 頻度Ct(’s  4% k)およびS t (i )
からつぎのパラメータPt−H(1% 4% k)をつ
ぎのように推定する(ステップ19)。
以上の推定プロセスすなわちステップ14〜19までは
予定回数たとえば5回繰り返して対象単語の学習を終了
する(ステップ20)。他の単語についても同様の学習
が行われる。
学習が終了すると、以降の音声認識用に最終的なパラメ
ータPO(1%  J% k)がパラメータ・テーブル
(第1図)に確定され、また最終回の推定に用いた頻度
S。(i)もストアされる。この頻度S。(i)は以下
述べる適応化に用いるものである。
つぎに適応化装置9の動作について第8図を参照しなが
ら説明しよう。なお第8図において第4図と対応する箇
所には対応する符号を付してそれぞれの詳細な説明は省
略することにする。
第8図においては、まず適応化用のデータを入力する(
ステップ14A)。この適応化用データは、これから音
声を入力しようとしている話者が認識対象語粟について
1語に1回発声を行って得たものである。こののちステ
ップ15A〜18Aに示すように前述の学習時と同様の
操作を行っていく。そして最後に、推定に用いる2つの
頻度をそれぞれ補間により求め、つぎのようにして新た
なパラメータP1(1%  4% k)t−得る(ステ
ップ21)。
ただし0≦λ≦1 この例では適応化のための推定のプロセスを一度とした
が複数回行ってもよい。なお、実際にはC(i、 j、
 k)=Po(i、 j、 k)・S o (t )で
あるからp 1(r、j、k)の推定にはつぎの式を用
いる。
Pl(1%j%k) なお第8図のcount (t、j、に% a )のa
は適応化用データのラベル系列に関するものであること
を示す。
以上で適応化を終了する。こののち適応化の対象となっ
た話者の音声は高精度に認識される。
この実施例によれば少ないデータのみでしかも短かい学
習時間でシステムを異なる環境に適応化させることがで
きる。
また適応化用のデータの性質(信頼度等)に応じて補間
の内分比λを調整することにより、システムの最適化を
実現することができる。
なおマルコフ・モデルの状態数をX1分岐数をYl ラ
ベル数ftZとすると5(i)によるデータの増加量は
X個である。他方P。(Is J、k)のデータの量は
XYZである。したがってこの適応化にい。
また適応化のプロセスは初期学習のプロセスと同一の部
分が多いのでプログラムまたはハードウェアの一部を両
プロセスで共用できる利点がある。
また単語単位に適応化を行うことができるので、たとえ
ば誤認識のあった単語について再度適応化を行うように
できる。もちろん誤認識があってはじめてその単語の適
応化を行うようにしてもよい。
つぎに上述実施例の変形例について説明しよう。
この変形では初期学習用データと適応化用データの性質
が大幅に異なる場合に対処することができる。
第9図はこの変形例における適応化プロセスを示すもの
である。なお、この図において第8図と対応する箇所に
は対応する番号を付してそれぞれの詳細な説明を省略す
る。
第9図の変形例では、適応化用データで新たな頻度c1
(t、L k)および51(1)を求める際にパラメー
タP。(1% j、k)をつぎのように補間するように
している(ステップ22)。
札(+、 j%k)=c(1−μ)po(t、 js 
k)+μeすなわちパラメータP□(j、js k)と
小さな値eとを内分比μで補間したものを用いている。
適応化の際の学習プロセスでも、パラメータが実際の値
にどの程度良好に収束するかは、初期値に大きく依存す
る。初期学習時に起こることが少な)たパスが、適応化
用データでは多数起こることもあシ得る。このような場
合小さな値eをパラメータP。(iz j、k)に加算
しておけば、より好ましい収束が起こる。
F0発明の詳細 な説明したように、この発明によれば少ないデータで、
しかも短かい時間で音声認識システムの適応化を行うこ
とができる。またそのだめの記憶容量や、プログラムの
ステップ数およびハードウェア構造の増加は極めて小さ
い。また適応化のデータの性質に応じて補間の内分比を
変化させることによシシステムを最適化させることがで
きる。
【図面の簡単な説明】
第1図はこの発明の一実施例を示すブロック図、第2図
はこの発明を説明するだめの図、第5図は第1図例のラ
ベル付は装置5を説明するフローチャート、第4図は第
1図例の学習装置8の動作を説明するフローチャート、
第5図、第6図および第7図は第4図の動作の流れを説
明するための図、第8図は第1図例の適応化装置の動作
を説明するための図、第9図は第1図例の変形例を説明
するフローチャートである。 8・・・・学習装置、9・・・・適応化装置。 出願人 インタサ砿し・ビジネス・マツ−2ズ・コーポ
レーション復代理人 弁理士  澤   1)  俊 
  夫時間(1〜1) 第2に L 第5図 F  0−−−−  °−−−     、、−夕ω1
″+2            ″In第7図 、7’+、 8 :’:

Claims (3)

    【特許請求の範囲】
  1. (1)複数の状態、これら状態の1つから同一または他
    の状態の1つへの遷移およびこれら遷移の各々において
    ラベルの各々を出力する確率を有する確率モデルを、認
    識単位ごとに設定するステップと、 上記認識単位ごとに、対応する初期トレーニング用音声
    データを入力してラベルの系列を生成するステップと、 上記ラベルの系列を、対応する上記確率モデルに繰り返
    し入力して上記確率を順次更新するステップであつて、
    つぎのサブ・ステップを含むものと、 (a)上記ラベルの系列を、対応する上記確率モデルに
    入力したときに上記遷移の各々において上記ラベルの各
    々が出力される第1の頻度を求めるサブ・ステップ、 (b)上記ラベルの系列を、対応する上記確率モデルに
    入力したときに上記状態の各々がとられる第2の頻度を
    求めるサブ・ステップと、 (c)上記第1の頻度を第2の頻度で割つて新たな確率
    を得るサブ・ステップ、 上記確率を順次更新するステップで最後に得られた上記
    第1の頻度および第2の頻度を保持するステップと、 上記認識単位ごとに、対応する適応化用音声データを入
    力して第2のラベルの系列を生成するステップと、 上記第2のラベルの系列を、対応する上記確率モデルに
    入力したときに上記遷移の各々において上記ラベルの各
    々が出力される第6の頻度を求めるステップと、 上記第2のラベルの系列を、対応する上記確率モデルに
    入力したときに上記状態の各々がとられる第4の頻度を
    求めるステップと、 上記第1の頻度および第3の頻度を補間して第5の頻度
    を得るステップと、 上記第2の頻度および第3の頻度を補間して第6の頻度
    を得るステップと、 上記第5の頻度を第6の頻度で割つて適応化用音声デー
    タに適応化された確率を得るステップとを有する音声認
    識方法。
  2. (2)上記第1の頻度は上記確率および第2の頻度の積
    として間接的に保持される特許請求の範囲第1項の記載
    の音声認識方法。
  3. (3)上記適応化用音声データを入力する上記確率モデ
    ルの確率は平滑化処理が行われている特許請求の範囲第
    1項または第2項記載の音声認識方法。
JP61065030A 1986-03-25 1986-03-25 音声認識方法 Granted JPS62231993A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP61065030A JPS62231993A (ja) 1986-03-25 1986-03-25 音声認識方法
CA000528993A CA1256562A (en) 1986-03-25 1987-02-04 Speech recognition method
US07/025,257 US4829577A (en) 1986-03-25 1987-03-12 Speech recognition method
EP87302603A EP0243009B1 (en) 1986-03-25 1987-03-25 Speech recognition system using markov models
DE8787302603T DE3773039D1 (de) 1986-03-25 1987-03-25 Spracherkennungssystem unter verwendung von markov-modellen.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61065030A JPS62231993A (ja) 1986-03-25 1986-03-25 音声認識方法

Publications (2)

Publication Number Publication Date
JPS62231993A true JPS62231993A (ja) 1987-10-12
JPH0355837B2 JPH0355837B2 (ja) 1991-08-26

Family

ID=13275169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61065030A Granted JPS62231993A (ja) 1986-03-25 1986-03-25 音声認識方法

Country Status (5)

Country Link
US (1) US4829577A (ja)
EP (1) EP0243009B1 (ja)
JP (1) JPS62231993A (ja)
CA (1) CA1256562A (ja)
DE (1) DE3773039D1 (ja)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
US5072452A (en) * 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
EP0314908B1 (en) * 1987-10-30 1992-12-02 International Business Machines Corporation Automatic determination of labels and markov word models in a speech recognition system
JP2545914B2 (ja) * 1988-02-09 1996-10-23 日本電気株式会社 音声認識方法
JP2733955B2 (ja) * 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JPH067348B2 (ja) * 1989-04-13 1994-01-26 株式会社東芝 パタン認識装置
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5509104A (en) * 1989-05-17 1996-04-16 At&T Corp. Speech recognition employing key word modeling and non-key word modeling
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US5129001A (en) * 1990-04-25 1992-07-07 International Business Machines Corporation Method and apparatus for modeling words with multi-arc markov models
DE4024890A1 (de) * 1990-08-06 1992-02-13 Standard Elektrik Lorenz Ag Anpassung von referenzsprachmustern an umgebungsbedingte aussprachevarianten
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus
US5278942A (en) * 1991-12-05 1994-01-11 International Business Machines Corporation Speech coding apparatus having speaker dependent prototypes generated from nonuser reference data
US5544257A (en) * 1992-01-08 1996-08-06 International Business Machines Corporation Continuous parameter hidden Markov model approach to automatic handwriting recognition
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
WO1994015330A1 (en) * 1992-12-18 1994-07-07 Sri International Method and apparatus for automatic evaluation of pronunciation
JPH0776880B2 (ja) * 1993-01-13 1995-08-16 日本電気株式会社 パターン認識方法および装置
US5627939A (en) * 1993-09-03 1997-05-06 Microsoft Corporation Speech recognition system and method employing data compression
US5602963A (en) * 1993-10-12 1997-02-11 Voice Powered Technology International, Inc. Voice activated personal organizer
US5794197A (en) * 1994-01-21 1998-08-11 Micrsoft Corporation Senone tree representation and evaluation
KR100324988B1 (ko) * 1994-06-13 2002-08-27 마츠시타 덴끼 산교 가부시키가이샤 신호해석장치
US5805771A (en) * 1994-06-22 1998-09-08 Texas Instruments Incorporated Automatic language identification method and system
US5805772A (en) * 1994-12-30 1998-09-08 Lucent Technologies Inc. Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5806030A (en) * 1996-05-06 1998-09-08 Matsushita Electric Ind Co Ltd Low complexity, high accuracy clustering method for speech recognizer
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6349281B1 (en) * 1997-01-30 2002-02-19 Seiko Epson Corporation Voice model learning data creation method and its apparatus
US6212498B1 (en) 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6223156B1 (en) * 1998-04-07 2001-04-24 At&T Corp. Speech recognition of caller identifiers using location information
US6263309B1 (en) 1998-04-30 2001-07-17 Matsushita Electric Industrial Co., Ltd. Maximum likelihood method for finding an adapted speaker model in eigenvoice space
US6343267B1 (en) 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6233557B1 (en) * 1999-02-23 2001-05-15 Motorola, Inc. Method of selectively assigning a penalty to a probability associated with a voice recognition system
US6463413B1 (en) * 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
US6526379B1 (en) 1999-11-29 2003-02-25 Matsushita Electric Industrial Co., Ltd. Discriminative clustering methods for automatic speech recognition
US6571208B1 (en) 1999-11-29 2003-05-27 Matsushita Electric Industrial Co., Ltd. Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training
US7216077B1 (en) * 2000-09-26 2007-05-08 International Business Machines Corporation Lattice-based unsupervised maximum likelihood linear regression for speaker adaptation
US20030065505A1 (en) * 2001-08-17 2003-04-03 At&T Corp. Systems and methods for abstracting portions of information that is represented with finite-state devices
US7257575B1 (en) 2002-10-24 2007-08-14 At&T Corp. Systems and methods for generating markup-language based expressions from multi-modal and unimodal inputs
US7362892B2 (en) * 2003-07-02 2008-04-22 Lockheed Martin Corporation Self-optimizing classifier
JP4366652B2 (ja) * 2004-04-23 2009-11-18 横河電機株式会社 伝送器及びその二重化方法
JP5327054B2 (ja) * 2007-12-18 2013-10-30 日本電気株式会社 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US8473293B1 (en) * 2012-04-17 2013-06-25 Google Inc. Dictionary filtering using market data
DK2713367T3 (en) * 2012-09-28 2017-02-20 Agnitio S L Speech Recognition
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US10553218B2 (en) * 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
CA3117645C (en) 2016-09-19 2023-01-03 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4593367A (en) * 1984-01-16 1986-06-03 Itt Corporation Probabilistic learning element
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
US4748670A (en) * 1985-05-29 1988-05-31 International Business Machines Corporation Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor
US4759068A (en) * 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method

Also Published As

Publication number Publication date
EP0243009A1 (en) 1987-10-28
CA1256562A (en) 1989-06-27
US4829577A (en) 1989-05-09
DE3773039D1 (de) 1991-10-24
JPH0355837B2 (ja) 1991-08-26
EP0243009B1 (en) 1991-09-18

Similar Documents

Publication Publication Date Title
JPS62231993A (ja) 音声認識方法
US5050215A (en) Speech recognition method
JP3453456B2 (ja) 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
JP3581401B2 (ja) 音声認識方法
US5596679A (en) Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
US8515758B2 (en) Speech recognition including removal of irrelevant information
JPH02238496A (ja) 音声認識装置
JP2002268675A (ja) 音声認識装置
JPH0585916B2 (ja)
JPH0934486A (ja) 音声認識方法、情報形成方法、音声認識装置および記録媒体
JP4090755B2 (ja) 音声認識システム、学習装置、及び、最大エントロピー音声モデルのフリーパラメータの反復値計算方法
JP3541224B2 (ja) 音源の分離方法および分離装置
JPH0486899A (ja) 標準パターン適応化方式
Wolfertstetter et al. Structured Markov models for speech recognition
JPH01202798A (ja) 音声認識方法
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP3091648B2 (ja) 隠れマルコフモデルの学習方法
JP2005091504A (ja) 音声認識装置
JP2561553B2 (ja) 標準話者選択装置
JPH11212591A (ja) パターン認識方法及びパターン認識装置並びにパターン認識プログラムが記録された記録媒体
JP2004294803A (ja) 音声認識装置
Gupta et al. Noise robust acoustic signal processing using a Hybrid approach for speech recognition
JP2023004116A (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出装置プログラム
JPH10214097A (ja) 音声特徴量の適応化方法及び音声認識装置、記録媒体
Lapidot et al. Speaker Diarization in Commercial Calls