JPS62231996A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS62231996A
JPS62231996A JP62043238A JP4323887A JPS62231996A JP S62231996 A JPS62231996 A JP S62231996A JP 62043238 A JP62043238 A JP 62043238A JP 4323887 A JP4323887 A JP 4323887A JP S62231996 A JPS62231996 A JP S62231996A
Authority
JP
Japan
Prior art keywords
word
label
probability
matching
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62043238A
Other languages
English (en)
Other versions
JPH0431600B2 (ja
Inventor
ラリツト・ライ・バール
ピーター・ビンセント・デソーザ
スチーブン・ビンセント・デジエナロ
ロバート・レロイ・マーサー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPS62231996A publication Critical patent/JPS62231996A/ja
Publication of JPH0431600B2 publication Critical patent/JPH0431600B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 以下の順序で本発明を説明する。
A、産業上の利用分野 B、従来技術 C1発明が解決しようとする問題点 り1問題点を解決するための手段 E、実施例 El 音声認識装置の環境 El、1一般的説明(第1.2.3図)El、2 聴覚
モデル及びその音響プロセッサ中での応用(第4.5.
6.7.8. 9.10図) El、6 精密突合せ(第6.11図)El、4 基本
的な高速突合せ(第12.16.14図) El、5 代替高速突合せ(第15.16図)。
E 1.6  最初の5個のラベルに基づく突合せ(第
16図(b)) El、7 単音のツリー構造及び高速突合せ(第17図
) El、8 言語モデル(第18図) El、9 スタック解読装置(第19.20.21.2
2図) El、10  音標基本形の形成(第3図)El、11
  フエネーム基本形の形成(第23.24図) E112 ワード−モデルの訓練 El、13  高速突合せ方法のサンプルの流れ図(第
25.26.27.28.29. 30.61.32.35.34.3 5図) El、14  ポーリングによる語粟からの尤度の高い
ワードの選択(第36.37. 39.40図) C2複数の独立したワード・スコアからの各総ワード・
スコアの決定(第41. 42.43.44.45.46図) F9発明の効果 A、産業上の利用分野 本発明はテキストの通信に応答して単語の語粟から1つ
の単語を選択する方法に関する。特定の実施例として、
本発明は音声認識の文脈における単語の選択に関する。
B、従来技術 (1)高速近似音響一致に関連する従来及び現在の技術 代表的には、音声認識装置即ち音声認識マシンの目的は
自然の音声を成る他の形式、例えば書面形式に自動的に
変換する事である。この目的を達成するのに、多(の一
般的な試みが考えられている。一つの試みは人間の音声
翻訳方法である。他の試みは統計的な文脈として音声を
調べるものである。
統計的な試み自体の中には、いくつかの技術が考えられ
ていて、例えば1983年刊「パターン分析及び機械知
能に関するIEF、E論文集」第PAMI−5巻、第2
号、第17.9.−190頁中のバール、ジエリネツク
及びマーサー共著の論文「連続的音声認識への最大尤度
法J (Bahl、 Jelinek、and Mer
eer、”A Maximum Likelihood
Approach  to  Continuous 
 SpeechRecognition、”IEEE 
 Transactionson  Pattern 
Analysis and MachineIntel
ligence、Volume  PAMr−5、Nu
mber 2、pp179−190(1983))に開
示されている。この論文中には音声認識装置の代表的な
モデルとして、テキスト発生装置の出力に話者が追従す
るものを説明している。テキスト発生装置が言うべき事
柄を決め、話者が自然音声の波形を発生する。自然音声
の波形は音波プロセッサに導入され、これからの出力が
言語解読装置に導入される。使用する技術に依存して、
上述の素子は種々の方法で結びつけられる。上述のボー
ル(Bahl)等の論文では話者と音響プロセッサが音
波チャネルとして機能する様に組合されている。この時
話者は音声波形としてのテキストを与え、音響プロセッ
サはラベル(記号もしくはフエネーム(feneme)
とも云う)のストリングを言語解読装置に与えるデータ
圧縮装置として働く。
ラベルは多くの方法のうち任意の方法で発生出来、通常
まとめて、順次ラベルyyy  ・・・より構成される
ストリングYとして表わされている。
言語解読装置の目的は導入されるラベルのストリングに
基づいて原話者のテキストを成る予定の形式で表現する
事にある。
上述の論文では、1つの音響プロセッサ@11・IBM
センチ秒音響プロセッサ(C8AP)・Φ・は音声波形
をパラメータ・ベクトルのストリングに変換するものと
説明されている。各パラメータ・ベクトルを記憶されて
いるプロトタイプ(即ち標準ベクトル)と比較して、パ
ラメータ・ベクトルと各プロトタイプ間の距離を決定す
る。一番近いプロトタイプのラベルがその波形パラメー
タ・ベクトルに割当てられる。ラベルは種々の形式のう
ちの任意のものでよ(、現存の技術に従って種々の方法
の中から決定される。
言語解読装置の目的は導入するラベルと装置の語彙中の
単語間に一致を見出す事にある。
上述のボール(Bahl )等の論文に述べられた統計
的方法では、言語解読装置はラベルy1y2y3・・・
のストリングを発生する確率が最も高いワード・ストリ
ングWを決定する事を目的とする。数学的にこの事は次
の式で表わされる。
Max  Pr (w l Y )         
  (1)この式はYが与えられたという条件の下です
べてのワード・ストリングWにわたってWの発生確率が
最大な確率を示す。良く知られた確率論に従えば、この
式は次の様に表わせる。
Pr(WIY)=Pr(W)xPr(YIW)/Pr(
Y)   (2)ここでPr(Y)はWと独立である。
所与のワード・ストリングWの発生確率であるPr(W
)は言語解読装置中の言語モデルによって決定される。
解読過程の成る時点で、成る初期サブストリング、例え
ばyy  ・・・yTが一時的にワード・ストリングW
1W2・−・W として解読されたものと仮定する。本
発明は語彙中の他の単語と比較した場合、成る値のkに
ついて Pr(W(n+1)”1”’ °yTyT+1°” °
yT十に’W1・−−w) が相対的に大きくなる様な候補単語Wn+1の組を決定
する事を目的とする。
Pr(YIW)を決定する場合には、マルコフ・モデル
を考慮に入れる。いくつかの言語解読技術によって必要
とされる計算の回数は上記ボール(Bahl )等の論
文に、特に語儒の数が5000語以上の程度と大きい場
合にはかなり高い事が示されている。
従って言語解読の主要な問題は、過度の計算時間を要せ
ず、解読の際の正確さを犠牲にしないで語彙中のワード
・ストリングのPr(YIW)を決定する事であった。
本発明の目的はこの問題の解決にある。
(2)ポーリングに関連する従来及び現在の技術音声認
識の統計方法では、音波波形が最初音波プロセッサによ
ってラベル即ちフエネームのストリングに変換される。
各々が前影を同定するラベルは代表的には略200の異
なるラベルのアルファベットから選択される。この様な
ラベルの発生については種々の文献、例えば1976年
刊「IEEE論文集」第64巻、第532−556頁の
「統計的方法による連続的な音声認識」(”Conti
nuousSpeech  Recognition 
 by StatisticalMethods”、P
roceedings  of  I EEE。
Volume  64、pp532−556(1976
))及び特開昭61−126600号公報に説明されて
いる。
音声認識を達成するのにラベルを使用する時には、マル
コフ・モデル単音マシン(確率有限状態マシンとも呼ば
れる)を使用する。マルコフ・モデルは通常、複数の状
態及び状態間の遷移を含んでいる。さらにマルコフ・モ
デルには通常(a)発生する各遷移の確率及び(b)種
々の遷移時の各ラベルの発生確率が割当てられている。
マルコフ・モデルモしくはマルコフ源については種々の
論文、例えば1983年3月刊「パターン解析及び機械
知能に関するI EEE論文集」第P AM I−5巻
、第2号中のり、Rボール、Fジエリネツク及びR0L
マーサー著「連続的音声認識のための最大尤度法J (
”A Maximum Likelihood App
roachTo  Continuous  5pee
ch Recognition”、I  EEE   
Transactions  PatternAnal
ysis  and Machine  Intell
igence。
Volume  PAMI−5、Number 2、M
arch1986、by  L、 R,Bahl、 F
、 Jelinek。
and  R,L、Mereer)に説明がある。
ラベルノ発生トマルコフ・モデル単音マシンを使用する
1つの音声認識方法では上述の様に音響波の突合せを使
用する。音響突合せ法は中程度に効果的である。しかし
ながら、音響突合せ法は通常莫大な量の計算を必要とす
る。
従って音響突合せ法に代り、もしくはこれと−緒に使用
出来る計算上安価な方法が要望される。
ポーリングはこの目的を達成するのに、マルコフ・モデ
ル単音マシンと所与の発話台本(utteredscr
ipt)に応答して発生されるラベルを使用する技術で
ある。
(3)総スコアに関連する従来及び現在の技術有効な単
語(具体的には音声)認識装置のための市場プロジェク
トが種々の刊行物に報告されている。音声認識装置単独
で年間数1000万乃至数10億ドルにわたる販売予測
がなされている。
従って、大きな語粟、例えば5000語以上の語柔から
選択した単語を翻訳出来る効率的な音声認識装置を製造
するのにかなりな努力がなされている。
1つの通常の技術は各単語に1個当てテンプレートを形
成する事を含む。発声された音声は次にテンプレートと
突合され、どのテンプレートがその音声に最も良く当て
はまるかが決定される。ワードの発声は時間毎に変動す
るので、この様な装置は動的に時間軸にひずみを与える
手段、もしくは伸張手段及びパターンを記憶しであるテ
ンプレートに合わせる時間的調節手段を含んでいる。
テンプレート、音響突合せ、もしくは他の方法に基づく
音声認識を遂行する際の一つの主要な目的は過剰な計算
時間を必要としないで選択したワードの正確さを増大す
る事が望まれる。本発明の第6の態様はこの目的に向け
られる。
C0発明が解決しようとする問題点 本発明の目的は、比較的短い計算時間を費すだけで音声
単語を正確に認識する方法を与える事にある。
D0問題点を解決するための手段 (1)近似音響突合せ法の概要 本発明に従い、言語解読装置には語集中のどの単語が特
定のラベルのス) IJングを発生する最大の確率を有
するかを決定する手段が与えられる。
この目的を達成するのに、本発明は正確さを不轟に失わ
ないで突合せの決定を行うために、単語と多くの近似を
伴うラベルを統計的に突合せ装置及び方法を与える。さ
らに、本発明では、単語が似た夫々の音声の始まりを有
する限り、類似した音声の始まりを有する単語が同時に
導入ラベルと突合される。
本発明で具体化される近似では、各語粟の単語は一連の
単音(phone)で表される。各単音は単音マシンで
表わされる。各単音マシンは正確に(a)複数の状態、
(b)状態から状態への遷移及び各遷移に関連する確率
並びに(C)所与の遷移時に所与の単語マシンによって
所与のラベルが発生される実際の出力確率を有するもの
として特徴付けられる。各単音マシン(所定の単音に対
応)が所与の遷移時において所与のラベルが発生される
確率を決定する。これ等の特性に基づいてワードの一致
スコアを決定する事が可能であるが計算の数が多くなる
本発明に従い、各単音マシンはその中のすべての遷移に
おける各ラベルの実際のラベル(発生)確率を特定の置
換値で置換える事によって簡単にする事が好ましい。特
定の置換値は置換値を使用した時の単音の一致スコアが
実際のラベル確率を置換値で置換えない精密突合せによ
って得られる一致スコアより大きく見積った値になる様
に選択する事が好ましい。この条件を満足する1つの方
法は所与の単音マシン中の所与のラベルに対応するどの
確率もその置換値よりも太き(ない様に各置換値を選択
する事である。単音マシン中の実際のラベルの確率を対
応する置換値で置換する事によって、ワードの一致スコ
アを決定する際の計算回数が着しく減少する。さらに置
換値は太き目に見積られている事が好ましいので、結果
の一致スコアは置換なしで従来決定されていたスコアよ
りも小さくなる事はない。この様にして候補単語を見過
す事な(計算回数を減少するという目的が達成される。
他の近似は単語とラベルのストリング間の一致スコアの
決定に導入される追加の因子、即ち各特定の単音マシン
に関連するラベル長分布に関する。即ち各単音マシンに
は、ラベルの最小数Lm1n及び最大数Lmax間に含
まれる各ラベル数が発生される確率分布が存在する。本
発明に従い計算を容易にし、計算を減少するために、ラ
ベル長確率分布(ラベルの最小長と最大炎の間にある)
は一様であると考え、ラベルの各長さく LminとL
maxの間にある)の確率は同じであるとする。
他の単純化手段として、本発明は単音マシンによって調
べられるラベルの数に制限を加えて、対応するワードと
導入するラベルのストリング間の一致値を決定する。こ
の追加の特徴によって異なる長さのワードの一致スコア
を比較によって求める際の解読の遅延及び不等の減少と
いう目的が達成される。
さらに本発明に従い、基本的な高速突合せ(所与の単音
マシンの各ラベルの実際のラベル確率を夫々の置換値で
近似する)もしくは代替高速突合せ(同様に所定の単音
に対するラベル長確率を特定の値で近似する)によって
候補単語のリストを誘導し、候補単語を相続し精密突合
せ単音マシンでもしくは言語モデルで処理して単一の単
語を求めるか、必要に応じて成る確率の高い代替単語を
求める。
単語の始まりを同時に処理する目的を達成するために、
本発明は単語もしくは単語の1部をツリー(木)構造に
配列した音声の基本形として定義する。各基本形は一連
の単音として表わされ、単音の各々にはそれ自身の単音
マシンが対応している。各基本形毎に一連の単音マシン
がツリーの根から延びている。2つもしくはそれ以上の
基本形が根を始点として同じ音声の始まりを有する限り
、単音マシンの共通の枝が与えられる。従って、基本形
が同じ始まシを有する限り、同じ単音マシンを通して同
時に処理する事によって、2もしくはそれ以上の基本形
が候補ワードとして選択されるか除去される。この方法
も正確さを失う事なく計算回数を減少するという目的を
達成する。
好ましい実施例では、本発明は音波の突合せを言語解読
装置で行う。言語解読装置中で各単音マシンは(a)複
数の状態及び状態間の遷移、(b)確率T(i−+j)
を有する遷移t r (s j/ Si ) (ここで
確率T(i→j)の各々は現在の状態をSi として状態S、に遷移する確率を示し、S とSJ  
                      l  
   jは同じ状態でも異なる状態でもよいものとする
)並びに(c)実際のラベル確率(ここで各実際のラベ
ルの確率p(ykll→j)は所与の単音マシ/で1つ
の状態から次の状態への所与の遷移の時にラベルykが
発生する確率を示す。kはラベルを同定する記号である
)を有するものとして特徴付けられる。各単音マシンは
(a)上記各単音マシン中の各y に単一の特定の値p
 ’ (y k)をに 割当てる装置(b)所与の単音機械中の各遷移で各実際
の出力確率p(ybH→j)を対応するy に割当てら
れた単一の特定値p’(yk)で置に 換える装置を含む。置換値は特定の単音機械中の任意の
遷移における対応するラベルykのための最大の実際の
ラベル確率に少なくとも等しい事が好ましい。
(2)ポーリング(投票法)の概要 本発明は又正しい次の単語として認識される単語数を減
少する他の方法を与える。即ち本発明はアルファベット
中の各ラベルが語彙中の各単語に「投票」するための表
を設けたポーリング方法に関する。この投票は所与の鵬
語が所与のラベルを発生する尤度を反映している。得票
数は訓練期間中に誘導したラベルの出力確率及び遷移確
率から計算される。
本発明の一実施例に従って音波プロセッサによってラベ
ルのス) IJソング発生される時に、問題としている
単語を選択する。投票表からストリング中の各ラベルを
同定して、問題のワードに対応する各ラベルの得票を決
定する。問題にしている単語のためのラベルの得票のす
べてを累積し、組合して尤度スコアを与える。語彙中の
各単語に対して処理を繰返して各単語の尤度スコアを得
る。
尤度スコアから類似の候補単語のリストを誘導する。
第2の実施例では各ラベルが語僕中の各単語に対して対
えるペナルティ(拒否権)を含む第2の表が形成される
。所与のラベルに割当てられるペナルティは単語が所与
のラベルを発生しない尤度を示す。第2の実施例ではラ
ベルの得票とペナルティの両方を考慮に入れて、ラベル
のストリングに基づき所与の単語のための尤度スコアを
決定する。
長さを考慮に入れる時は、尤度スコアは単語の尤度スコ
アを評価する際に考慮に入れたラベルの数を基にしてス
ケール変換する事が好ましい。
さらに、発生されたラベルのストリングに沿って単語の
終り時間が決定出来ない時のために、本発明は相継ぐ時
間間隔で計算される尤度スコアを与え、問題にしている
単語がこれに関連して複数の相継ぐ尤度スコアを有する
様にする。本発明はさらに問題にしている単語の最良尤
度スコアを問題にしている単語に割当てる。この時好ま
しくは語彙中のすべての他の単語の尤度スコアに関して
比較を行う。
本発明に従い、単語の語柔から類似の単語を選択する方
法が与えられる。この方法では、各単語は少なくとも1
つの確率有限状態単音マシンの系列で表わされ、音響プ
ロセッサが話された入力に応答して音響ラベルを発生す
る。この方法は(、)アルファベット中の各ラベルが語
彙中の各単語に投票するための第1の表を形成する。各
ラベルの問題にしている単語に対する投票が、その得票
を与えるラベルを発生した単語の尤度を示す。さらにこ
の方法には(b)各ラベルに語彙中の各単語のためのペ
ナルティが割当てられている第2の表を形成する(所与
の単語の所与のラベルに割当てられたペナルティは所与
の単語のモデルに従って発生されない所与のラベルの尤
度を示す)、(C)所与のラベルのストリングに対して
、特定の単語のためのストリング中のすべてのラベルの
投票とその特定の単語のだめのストリング中にないすべ
てのラベルのペナルティを組合せて特定の単語の尤度を
決定する段階を含む事が好ましい。
さらにこの方法は特定の単語と同様にすべての単語につ
いて段階(、)、(b)及び(C)を繰返して各単語の
ための尤度スコアを与える追加の段階(d)を含む事が
好ましい。
もし必要ならば、上述の方法は既に説明した近似音響突
合せ技術と同時に使用される。
本発明のポーリング技術は語彙中のどの単語が89プロ
セツサによって発生した音響ラベルのストリングに対応
するかを示す、相対的に高い尤度を有するかを決定する
高速で、計算が簡単な、効率的技術を与える。
(3)総合的な組合せワード・スコアを発生する技術の
概要 本発明は又、複数の独立したアルゴリズムを4え、各ア
ルゴリズムに従って、ボキャプラリ中の各ワードに対し
て、別個のワード・スコアを誘導する事によって高速で
正確な音声(もしくは単語)認識を達成する事に向けら
れる。所与の単語の複数のワード・スコアを組合せて総
スコアを発生し、この総スコアを語彙中の他の単語のた
めに誘導した夫々の総スコアと比較して相対的尤度を決
定する。単一のアルゴリズムからのワード・スコアでな
く総スコアを使用すると、計算回数を著しく増大する事
なく正確さが増大する。
高速音声突合せアルゴリズムは近似値を形成して、訓練
期間中に発生したマルコフ・モデルの総計量を変更する
事を含む。近似総計量を使用する事によって、計算回数
を減少し、計算が繰返し演算によって行われる音響突合
せが遂行出来る。高速突合せアルゴリズムに従って、語
彙中の各単語には近似統計量に基づいて評価される尤度
スコアが割当てられる。相対的に高い高速突合せスコア
を有する単語が候補単語の順序リストを形成する。
候補単語は次に精密音響突合せを受け、訓練中(近似が
適用される前)に発生した統計量に基づいて計算が行わ
れる。
第2のアルゴリズム、即ち精密突合せアルゴリズムは訓
練中に決定した統計量(近似は適用されていない)に基
づいてワード・スコアを誘導する。
本発明の一つのモードでは、語彙中の各単語は精密突合
せを受け、夫々のワード・スコアを決定する。本発明の
他のモードでは、精密突合せは高速突合せアルゴリズム
に従って選択した候補ワードの様な、語彙中の成る単語
だけに適用される。
第3のアルゴリズムはポーリングを含む。ポーリングで
音声はラベル即ち記号のストリングに変換される。具体
的に説明すると、ラベルのアルファベットが決定され、
音声の各区間毎に、音声の成る予定の特性に基づいてラ
ベルが選択される。
語雲中の各単語はマルコフの「単音」モデルのシ−ケン
スとして定義される。各マルコフ「単音」モデルは複数
の遷移及び遷移の一部におけるラベルの発生確率を有す
る。各ラベルの確率は所与の単音モデルの所与の遷移の
際に所与のラベルを発生する(もしくはラベルを出力す
る)所与の単音モデルの確率を表わす。この確率は訓練
期間中に累積したデータから決定される。問題にしてい
る単語中に含まれる各単音モデル中のラベルの発生確率
に基づいて、問題の単語のための対応するラベルの得票
が決定される。さらに、各問題にしている各ラベルにペ
ナルティが割当てられる。従って各ラベルは語彙中の各
単語に対して投票及びオプションであるがペナルティを
有する。ラベルのス) IJングが未知の音声の発声に
応答して発生される時、単語のだめの各ラベルの投票及
びペナルティが組合され、単語のポーリング・スコアが
与えられる。第3のアルゴリズム従い、語彙中の単語に
はポーリング・ワード・スコアが決定される。
本発明に従えば、少なくとも2つの独立したアルゴリズ
ムから誘導した複数のワード・スコアが組合きれ、増強
された総ワード・スコアが与えられる。ここで独立した
アルゴリズムには(a)ポーリング・アルゴリズム及び
音響突合せアルゴリズム(例えば高速突合せアルゴリズ
ムもしくは精密突合せアルゴリズム)及び(b)高速突
合せアルゴリズム及び精密突合せアルゴリズムを含む。
各アルゴリズムでは異なるマルコフ・モデルの組を使用
する事が好ましい。
本発明の他の目的に従えば、総ワード・スコアの各成分
は他の成分に関して重み付けする事が好ましい。この点
に関して、総ワード・スコアは、2つの独立したワード
・スコアの組合せである事が好ましいものとして説明さ
れたが、3つ以上の独立したワード・スコアの組合せで
よい事に注意されたい。
高速突合せアルゴリズムを使用する本発明のモードでは
、高速一致ワード・スコアは2つの機能を果す。第1に
、高速一致ワード・スコアは候補ワードの短かいリスト
を作成するのに使用され、第2に、総ワード・スコアを
決定する要素とじて使用される。換言すると、本発明は
組合せ総ワード・スコアを形成する追加の目的のための
候補リス)f形成するのに使用するデータを導き出す。
テストのデータに基づくと、第1の型のマルコフ・モデ
ルから形成される基本形に基づく高速一致ワード・スコ
アと、第2の型のマルコフ拳モデルから形成した基本形
に基づく精密一致ワード・スコアを組合せる事によって
発生した総ワード・スコアを使用する事によって、高速
突合せアルゴリズムによって誘導した候補ワードに単に
精密突合せを適用する音声認識装置と比較して30%乃
至50%の誤り率の改善がみられる事がわかった。
E 実施例 El 音声認識装置の環境 El、1一般的説明 第1図に音声認識装置1000の一般的ブロック図が示
されている。装置1000はスタック解読装置1002
’!i−含み、これには音響プロセッサ(AP)100
4、高速近似音響突合せを行うアレイ・プロセッサ10
06、精密音響突合せを行うアレイ・プロセッサ100
8.言語モデル1010及びワーク・ステーション10
12が接続されている。
音響プロセッサ1004は音声波形の入力をラベルもし
くはフエネーム(feneme)に変換する様に設計さ
れている。ラベルの各々は一般的な意味で、対応する前
影を同定する。本発明の装置では、音響プロセッサ10
04は人間の耳という独特なモデルに依存し、これKつ
いては本出願人に係る特願昭61−16993号に開示
されている。
音響プロセッサ1004からのラベルもしくはフエネー
ムはスタック解読装置1002に導入する。論理的な意
味で、スタック解読装置1002は第2図に示した装置
を含む。即ち、スタック解読装置1002は探索装置1
020を含み、装置1020はワーク・ステーション1
012と接続し、夫々のインターフェイス1022.1
024.1026及び1028を介して音響プロセッサ
(AP)1004、高速突合せ(FM)プロセッサ10
06、精密突合せ(DM)プロセッサ1008及び言語
モデル(LM)1010に接続されている。
動作について説明すると、音響プロセッサ1゜04から
のフエネームは探索装置1020によって高速突合せプ
ロセッサ1006に送られる。高速突合せ手順について
は以下に説明されるが簡単に説明すると、突合せの目的
はラベルの所与のストリングに対して最も尤度の高い単
語(単数もしくは複数)を決定する事である。
高速突合せは語彙中の単語を調べて、導入するラベルの
所与のストリングに対する候補単語の数を減少する様に
設計されている。高速突合せはマルコフ・モデルとも呼
ばれる、確率論的有限状態機械に依存する。
一度高速突合せによって、候補単語の数が減少fると、
スタック解読装置1002は言語モデル1010と通信
し、言語モデル1010は好ましくは存在する3字組に
基づぎ、高速突合せ候補リスト中の各候補単語の文脈上
の尤度を決定する。
精密突合せは言語モデル計算に基づいて、話された単語
である尤度が妥当である、高速突合せ候補リスト中の単
語を検査する事が好ましい。精密突合せは第3図に示し
た様にマルコフ・モデル単音装置によって遂行される。
精密突合せの後に、言語モデルが再び呼出され、単語の
尤度を決定する事が好ましい。
スタック解読装置1002は高速突合せ、精密突合せか
ら誘導した情報を使用して、言語モデルを適用し、発生
したラベルのストリングのための単語の最も尤度の高い
経路、もしくはシーケンスを決定する様に設計されてい
る。
最も尤度の高いワード・シーケンスを見出すための2つ
の従来の方法はビテルビ(Viterbi)解読法及び
単一スタック解読法である。これ等の技術の各々は上田
の1連続的音声認識のための最大尤度法」と題する論文
の夫々第V章及び第4章に説明さnている。
単一スタック解読技術において、長さが変化する経路が
尤度に従って単一のスタック中にリストされ、解読はこ
の単一のスタックに基づいて行われる。単一スタック解
読は尤度が一部経路の長さに依存し、従って一般に正規
化が使用される事を考えに入れなければならない。
ピテルピ技術は正規化を必要とせず、一般に小さなタス
クの場合に使用される。
代替方法として、解読は小さな語霊装置を使用し、確か
らしいワード・シーケンスとして各確からしい単語の組
合せを調べ、どの組合せが発生されたラベル・ストリン
グを発生する確率が最大であるかを決定する。この技術
のための計算回数は大きな語粟の場合は実用的でない。
スタック解読装置1002は要するに他の装置を制御す
るが多(の計算は行わない。従ってスタック解読装置1
002はVM/システム壽プロダクト入門リリース3 
(Virtual  Machine/System 
product  IntroductionRele
ase  3 )  (1983)の様な刊行物に説明
されている様にIBM  VM/370オペレーティン
グ・システムによって走行するプロセッサ4ろ41を含
む事が好ましい。大量の計算を実行するアレイ・プロセ
ッサは市販の浮動小数点装置(FPS )190Lで具
体化される。
最良ワード・シーケンスもしくは経路を決定するための
多重スクッキング及び独特な決定戦略はり、 R,ボー
ル(Bahl)、Fジェリネック(Jelinek)及
びR,L、マーテ(Mereer)によって発明されて
いて、以下のEl、 10の項で説明する。
El、2 聴覚モデル及びその音響プロセッサ中での応
用 第4図に上述の音波プロセッサ1100の’1の実施例
が示されている。音響入力(例えば自然の音声)がアナ
ログ・ディジタル変換装置1102に導入され、予定の
速度でサンプルされる。代表的なサンプリング速度は5
0マイクロ秒毎に1サンプルである。ディジタル信号の
緑を整形するために時間窓発生装置1104が与えられ
る。窓1104の出力は高速フーリエ変換(FFT )
装置1106に導入され、各時間窓毎に周波数スペクト
ル出力が与えられる。
次にFFT装置1106の出力が処理されて、ラベル3
’1 )’2・・・yfの発生が準備される。
4つの装置、即ち特徴選択装置1108、クラスタ装置
1110、プロトタイプ装置1112及びラベラ111
4が協同してラベルを発生する。ラベルを発生する際に
プロトタイプは選択した特徴に基づく、空間中の点(も
しくはベクトル)として定義され、次に音声入力が同じ
選択された特徴によって特徴付けられ、空間中にプロト
タイプと比較される対応する点(もしくはベクトル)が
与えられる。
具体的に説明すると、プロトタイプを決める際には、点
の集合をクラスタ装置111oによって夫々クラスタと
して分類する。クラスタの決定方法は音声に適用される
ガウス分布の様な確率分布に基づいている。各クラスタ
の重心もしくは他の特性に関連するプロトタイプはプロ
トタイプ装置1112によって発生される。同じ基準に
よって選択された特徴によって特徴付けられる、発生さ
れたプロトタイプ及び音波入力はラベラ1114に導入
する。ラベラ1114は比較手順を遂行し、ラベルを特
定の音波入力に割当てる。
適切な特徴の選択は音響(音声)入力を表わすラベルを
誘導する際の主要因子である。現在説明している音響プ
ロセッサは改良した特徴選択装置1108を含む。本発
明の音響プロセッサに従い聴覚モデルが誘導され、音声
認識装置の音響プロセッサに適用される。第5図を参照
して、聴覚モデルを説明する。
第5図は人間の耳の内部を示す。具体的に説明すると内
部毛細胞1200はこれから液体を含む溝に延びる端部
1202を有する。内部毛細胞の上流には外部毛細胞1
206があって、これから溝1204に延びる端部12
06がある。
内部毛細胞1200及び外部毛細胞1206に関連して
情報を脳に伝える神経が存在する。具体的には、ニュー
ロンが電気化学的変化を受けて電気的インパルスを生じ
、これを神経を通して処理のために脳に伝える。電気的
化学的変化の評価は基底膜1210の機械的運動によっ
てシミュレートされる。
従来、基底膜1210は音波入力のための周波数分析器
として働き、基底膜1210に沿う部分は夫々の臨界周
波数帯に応答する事がわかっている。対応する周波数帯
に応答する基底膜の異なる部分は音波入力を知覚する際
の音の大きさにインパクトを与える。即ち、調子(トー
ン)の大きさは類似のパワーの強さの2つのトーンが同
じ周波数帯を占有する場合よりも、2つのトーンが異な
る周波数帯を占有する場合に大きく知覚される。
基底膜1210には22個程度の臨界周波数帯がある事
がわかっている。
基底膜1210の周波数応答に一致する様に本発明の好
ましい音響プロセッサ1100は音波入力を物理的に臨
界周波数帯の一部もしくはすべてに割当て、各画定した
臨界周波数帯の信号成分を別々に調べる。この機能はF
FT装置1106(第4図)からの信号を適切にフィル
タして各臨界周波数帯毎に別個の信号を特徴選択装置1
108に与える事によって達成される。
この別個の人力は又時間窓発生装置1104によって時
間フレーム(好ましくは25.6m秒)に区分される。
従って特徴選択装置1108は好ましくは22個の信号
を含み、信号の各々が時間的に継起する1つのフレーム
中での所与の周波数帯の音波強度を示す。
フィルタ操作は第6図の通常の臨界帯域フィルタ130
0によって遂行される事が好ましい。別個の信号は次に
周波数の関数として知覚された音の大きさくラウドネス
)の変動に応答する等音の大きさ変換装置1302によ
って処理される。ここで、1つの周波数の所与のdBレ
ベルの第1のトーンは、第2の周波数の同じ所与のdB
レベルの第2のトーンと知覚される音の大きさが異なる
事に注意されたい。変換装置1302は実験データによ
って種々の周波数帯中の信号を変換して、各々が同じ音
の大きさのスケールによって測定される様にする。例え
ば変換装置1302は1936年に行われたフレクチャ
(Fletcher)及びマンソン(Munson)の
研究に改良したものに基づいて音波のパワーを等しい音
の大きさに変換する事が好ましい。上述の研究の改良し
た結果を第7図に示す。第7図によれば、X印を含む等
ラウドネス曲線で示した様に40dBのレベルの1KH
zのトーンの音の大きさのレベルは60dBレベルの1
00Hzのトーンの音の大きさに略等しい事がわかる。
変換装置1302は第7図の曲線の輪郭に従って音の大
きさを調節し、周波数に無関係に等しい音の大きさにな
る様にする。
音の大きさは周波数に依存するだけでな(、第7図の1
つの周波数のところを眺めるとわかる様にパワーの変化
率と音の大きさの変化率は対応しない。即ち音の強さ、
即ち振幅の変化はすべての点で知覚した音の大きさの変
化に等しく反映されない。例えば100Hzの周波数の
ところで、約110dBの点から10dB変化した場合
の音の大きさの変化は20dBの点から10dB変化し
た場合の知覚される音の大きさの変化よりもはるかに太
きい。この差を音の大きさを圧縮する音の大きさスケー
リング装置1304に与える。音の大きさスケーリング
装置はホン(phon)を単位とする音の大きさの振幅
をソーン(sone )で置換える事によってパワーp
 t−p 1/3に圧縮する。
第8図は実験的に決定したホン対ソーンの関係を示す。
ソーンを使用する事によって、本発明のモデルは大きな
音声信号の振幅でも略正確さを保持出来る。1ホンは4
0dBにおけるIKHzのトーンの音の大きさとして定
義されている。
再び第6図を参照するに、各臨界周波数帯に関連する等
しい大きさ、大きさスケール変換済信号に操作を加える
新規な時間変動応答装置16o6が示されている。具体
的に説明すると、調べた各周波数に対して、各時間フレ
ーム毎に神経ファイアリング率fが決定される。
ファイアリング率fは本発明のプロセッサでは次の様に
定義される。
f =(So+DL )n           (1
)ここでnは神経送信器の数、Soは音波波形入力と無
関係な神経ファイアリングに関連する自発ファイアリン
グ定数、Lは音の大きさの測定量、Dは変位定数である
。(So)nは音波入力が存在するかどうかに関係なく
生ずる自発神経ファイアリング率に対応し、DLnは音
波入力によるファイアリング率に対応する。
重要な事は、nの値が本発明の音波プロセッサでは次の
式に従って時間が経つと変化する事である。
dn/dt=Ao−(So+Sh+DL)n     
(2)ここでAoは補充定数、shは自発神経送信器減
衰定数である。式(2)の新らしい関係は神経送信器が
成る割合い(Ao )で発生し、 (、)減衰率(sh
xn)(b)自発ファイアリング率(SoXn)及び(
c)音波入力による神経ファイアリングによって失われ
る事を示している。これ等のモデル化した現象の推定位
置を第5図に示す。
式(2)は又本発明の音響プロセッサは神経送信器の次
の数及び次のファイアリング率が現在の条件、少なくと
も神経送信器の条件に多面的に依存する事を反映してい
る。即ち時刻(t+Δt)における神経送信器の量は時
刻tにおけるその量にdn/dtΔtを加えたものに等
しい。即ちn(t+Δt )=n (t ) + d 
n/d t△t(3)式(1)、(2)及び(3)は時
間変動解析装置を表わし、この事は聴覚系が時間的に適
応性を示すらしい事、聴覚神経上の信号が音波入力に関
して非線形性を示す事を示唆している。従って、本発明
の音響プロセッサは神経系の見かけの時間変動によシよ
く一致する様に音声認識装置中に非線形信号処理を具体
化した第1のモデルを与える。
式(1)及び(2)中の未知数の数を減らすために、本
発明の音響プロセッサは一定の音の大きさLに適用され
る次の式(4)を使用する。
S o +’S h +D L= 1 / T    
       (4)Tは音波入力が発生した後に聴覚
の応答が最大値の37%に降下するのに要する時間であ
る。Tは音の大きさの関数であり、本発明の音響プロセ
ッサでは種々の音の大きさのレベルに対する応答の減衰
を表わす現存のグラフから導出される。即ち一定の音の
大きさのトーンが発生すると、第1の高いレベルの応答
を発生し、その後応答は時定数Tかかつて定常状態のレ
ベルに向う。音波入力がない時はT ” T oであり
、Toは50m秒の程度である。L  の大きさの場合
はT=Tmaxでa X あり、30秒程度である。Ao=1として、L=0の時
は1/(So+Sh)は5センチ秒である。 LがLm
lLxでL=20ソーンの時は次の式(5)を得る。
So+5h−)10(20)=1/30       
  (5)上述のデータ及び式から、So及びshは次
の様に式(6)及び(7)で表わせる。
So=DLm、、/(R+ (DL、、、xTOR) 
 1) (6)Sh=1/To−8o        
    (7)ここで f正常状態1はdn/dtが0である時の所与の音の大
きさにおけるファイアリング率である。
Rは音波プロセッサ中に残った唯一の変数である事に注
意されたい。従ってプロセッサのバホーマンスを変更す
るためにはRだけを変更する。即ちRはバホーマ/スを
変更するために調節される単一のパラメータであり、パ
ホーマンスの変更ハ過渡的効果に関する定常状態の効果
を最小にする事を意味する。定常状態の効果を最小にす
る事が望ましいのは一般に周波数応答の差、話者の差、
背景雑音及び音声信号の定常状態部分には影響を与える
が過渡的部分には影響を与えない歪のために、類似の音
声入力に対して出力バター/に一貫性がないからである
。Rの値は完全な音声認識装置の誤シ率を最適化する様
にセットされる事が好ましい。この様にして見出した適
切な値はR;1゜5である。So及びshの値は夫々は
0.0888及び0.111111であり、Dは0.0
0666である事がわかる。
第9図を参照するに、本発明の音響プロセッサの流れ図
が示されている。25.6 m秒の時間7レームでディ
ジタル化され、好ましくは20KHzの間隔でサンプル
された音声はノ1ニング窓1320を通過して、その出
力がディジタル・フーリエ変換(DFT)1322を好
ましくは10m秒の時間間隔で受ける。変換出力は装置
1524によってフィルタされ、少なくとも1つの周波
数帯の各々、好ましくけすべての臨界周波数帯、少なく
ともそのうち20の各々についてパワー密度が出力が与
えられる。ノζワー密度は次に対数の大きさから音の大
きさのレベルに変換される(段階1326)。この変換
は第7図の修正グラフに従って容易に遂行される。この
後のプロセスは段階1360の閾値の更新を含む。
この段階は第10図に示されている。
第10図で、感じ閾値T 及び聴覚閾値Thが各フィル
タされた周波数帯mに対して夫々120dB及びOdB
に決められる。次に段階1342で音声カウンタ、総フ
レーム・レジスタ及びヒストグラム・レジスタをリセッ
トする。各ヒストグラムは柱(ピン)を含み、柱の各々
は所与の周波数帯毎にパワーもしくは成る類似の測定量
の夫々の範囲にあるサンプル数もしくはカウントを含む
現在の実施例のヒストグラムでは各所与の周波数帯に対
してセンチ秒単位の数を含む。この数は音の大きさが複
数の音の大きさの範囲の各々の中にある時間を示す。例
えば第3の周波数帯ではパワーが10dBと20dBの
間に20センチ秒を含む。同じ様に20番目の周波数帯
ではパワーの50dB及び60 dB の間に総計10
00センチ秒のうち150センチ秒を含む。サンプル(
即ちセンチ秒)の総数と在中に含まれるカウントから、
百分率が誘導される。
夫々の周波数帯のフィルタ出力のフレームを段階134
4で調べて、フィルタ毎に1つずつ存在する適切なヒス
トグラム中の柱を段階1346でインクレメントする。
次の段階1348で各フィルタ(ffllち周波数)毎
に振幅が55dBを越える柱の総数をインクレメントし
て、段階1350で音声の存在を示すフィルタの数を調
べる。もし音声の存在を示す最小数のフィルタ(例えば
20個甲乙個)がなければ、段階1644中で次のフレ
ームを調べる。段階1350で音声を示す十分な数のフ
ィルタが存在する事が発見されると、段階1352で音
声カウンタをインクレメントする。
段階1352で音声カウンタは10秒の音声が発生する
迄インクレメントされ、段階1354でこの事を判定し
て、段階1356で各フィルタ毎にTf及びThの新ら
しい値をヒストグラムから決定する。
新らしいTf及びTh値は所与のフィルタに対して次の
様にして求める。Tfの場合は1000(10秒)の柱
の上から第35番目のサンプル(即ち音声の96.5%
のところにある)を保持する注のdB値をBINHとし
て、T、を次の様に決める。
T r ” B I N H+ 40 d BThの場
合には、最低の柱から(0,1)X(総在中の音声カウ
ント)番目の値を含む柱のdB値をBINLとする。即
ちBINLは音声として分類されるサンプル数にならな
い、ヒストグラム中のサンプル数の1%のところに当る
、ヒストグラム中の柱(ビン)である。次KThをTh
=B■NL−30dBと決める。
第9図を参照するに、音声振幅は上述の様に、更新した
閾値に基づいてノーンに変換され、スケール変換される
(段階1560及び1332)。
ノーンを誘導し、スケール変換を行う代替方法は(柱を
インクレメントした後に)フィルタの振幅aを取出して
次の式に従ってdBに変換するものである。
adB=201og10(iL)  10      
(9)、 次にフィルタの振幅を0から120の間の範
囲にスケール変換して次式に従って等しい大きさにする
aeql=120(adB−Th)/(Tf−Th)(
1o)次Ka””’を大きさのレベル(ホン)からノー
ン(1kHzの場合に40dBの信号を1ソーンとする
)を単位とする大きさの近似値にする事が好ましい。
LdB= (a”q′!−30)、/4       
(11)ノーンを単位とする音の大きさは次の様に近似
される。
L (近似) = 1o (LdB)/20     
(12)次に段階1334で音の大きさくノーン)Lを
式(1)及び(2)の入力として与え、段階1335で
各周波数帯に対する出力ファイアリング率を決定する。
220周波数帯がある場合には22次元のベクトルが相
続く時間フレーム中の音声入力を特徴付ける。しかしな
がら一般には通常のメル(mell)スケール変換フィ
ルタ・バンクを使用シて20個の周波数帯を調べる。
次の時間フレームを処理する(段階1336)前に、段
階1337で式(3)に従いnの次の状態を決定する。
これ迄に説明して来た音波プロセッサは応用に際して、
ファイアリング率f及び神経受信器の数nが大きなりC
ペデスタルを有する様に改良される。即ちf及びnに関
する式の動的な範囲が重要な場合には、ペデスタルの高
さを減少するために次の式を誘導する。
定常状態で、音波入力信号がない場合(L= 0)につ
いて、式(2)を解いて定常内部状態n′を求める。
n’=A (So+Sh)            (
13)神経受信器の内部状態数、(1)は次の様に定常
状態部分と変動部分とで表わせる。
n (t)=n’+n″(t)           
(14)式(1)及び(14)を連立して、ファイアリ
ング率に関する次式を得る。
f (t )= (So+D xL ) (n’+n“
(t))    (15)項So X n’は定数であ
るが、すべての他の項はnの可変部分かDXLで表わさ
れた入力信号部分を含む。将来、処理は出力ベクトル間
の差の平方だけを含む様になり、定数項がなくなるであ
ろう。
n′に式(13)を代入して、次式を得る。
f“(t)=(So+DxL)x(n”+A/(So+
5h))  (16)式(3)を考慮に入れて、次の状
態は次の様になる。
n(t+Δt):=n’(t+Δt ) + n“(t
+Δt)    (17)=n“(t)+A  (So
+Sh+DL)X(n’+n”(t))   (18)
=n“(t)  (Shxn“(t)  (So+Ao
XLA)n“(1)−(AoXLAXD)/(So+S
h)+Ao−((SoXAo)+ (ShxAo))/
(So+Sh)       (19)この式(19)
はすべての定数項を無視して次の様に書画される。
n″(t+Δt)== n”(t)(1−3oΔt)−
’f“(t〕(20)ここで式(15)と(20)が各
10ミリ秒の時間フレーム毎に各フィルタに適用される
出力式及び状態更新方程式となる。これ等の式を適用し
た結果は各10ミリ秒毎の20要素のベクトルとなる。
ベクトルの各要素はメル・スケール変換したフィルタ・
バンク中の夫々の周波数帯のファイアリング率に対応す
る。
略200のプロトタイプ・ベクトルが前もって決定され
ている。各プロトタイプ・ベクトルの各要素は予定の値
を持つ。さらに各プロトタイプ・ベクトルは夫々のラベ
ルによって同定される。
1aミリ秒の間隔の内部を調べ、20個のファイアリン
グ率を出力ベクトルにする。この出力ベクトルを各プロ
トタイプ・ベクトルと比較する。
次に最も近いプロトタイプ・ベクトルのラベルをその時
間間隔に割当てる。ベクトルの距離を測るのては種々の
良く知られた方法が使用される。
直ぐ前に説明した実施例の場合には、f、 dn/dt
及びn (t+1 )の式をファイアリング率f及び次
の状態n(t+△t)に対する特別な場合の式を定義す
る式(11)及び(16)で置換える点を除(・て第9
図の流れ図が適用される。
種々の式中の項に与えられる値(即ちt。=5センチ秒
、tLmax=6センチ秒、Ao=1、R=1.5及び
L   =>o)は他の値にセットされ、ax 項So、Sh及びDも他の項が異なった値にセットされ
るので、好ましい値0.0888.0.11111及び
0.00666とは異なる点に注意されたい。
本発明の音波モデルはハードウェアとして浮動小数点シ
ステムFPS190L及びPL/Iプログラミング言語
を使用して実施されたが、他の種々のソフトウェア及び
ハードウェアでも実施出来る。
El、6 精密突合せ 第6図に、サンプルの精密突合せ単音マシン2000が
示されている。各精密突合せ単音マシンは(、)複数の
状態S1、(b)遷移の一部は異なる状態間で行われ、
一部は1つの状態から自分自身に戻り、各遷移には確率
が対応する複数の遷移及び(C)特定の遷移の時に発生
される各ラベルの実際のラベル確率によって特徴付けら
れる確率論的有限状態マ/ンである。
第3図では7つの状態S1乃至S7及び16の遷移t 
1乃至t、13が与えられている。第3図で単音マシン
2000は破線の経路を有する3つの遷移、即ち遷移t
r11、t、12及びtrl3を有する。これ等の3つ
の遷移の各々では単音はラベルを発生する事な(1つの
状態から他の状態に変化する。従ってこの様な遷移は空
遷移と呼ばれる。遷移trl乃至tr10の場合にはラ
ベルが発生する。特に遷移trl乃至tr10では1乃
至それ以上のラベルが区別可能な確率で発生される。各
遷移には、発生出来る各ラベルに確率が伴う事が望まし
い。即ち音波チャネルによって選択的に発生されるラベ
ルが200ある時には、各遷移(空でない)はそれに関
連して200の実際のラベル確率があり、各確率は対応
するラベルが特定の遷移で発生される確率に対応する。
遷移tr1の実際のラベル確率は記号pとこれに続く角
括弧でかこまれた数字1乃至200で表わされる。数字
が与えられたラベルを示す。種々の実際のラベル確率は
ラベル及び対応する4移に関連して記憶される。
ラベル)’I  Y2 Yz、のストリングが所与の単
音に対応する精密突合せ単音マシン2000に提示され
て突合せが行われる。精密突合せ単音マシンに関連する
手順を第11図を参照して説明する。
第11図は第3図の単音マシンのトレリス図である。単
音マシンの場合と同様に、トレリス図は状態S1から状
態S7への空遷移を示し、状態S1から状態S2への及
び状態S1から状態S4への遷移を示している。他の状
態間の遷移も示されている。トレリス図は又水平方向に
時間目盛を有する。開始時間確率q。及びqlは成る単
音が時間1=1  もしくは1=11で開始する開始時
開催率を示す。各開始時間も 及びtlでの種々の遷移
が示されている。この点に関して相継ぐ開始時間(及び
終り時間)間の間隔は長さがラベルの時間間隔に等しい
事が好ましい。
精密突合せ単音マシン2000を使用して、所与の単音
マシンが導入ストリングのラベルにどの程度近いかを決
定するため、単音の終り時間分布を求めて、単音の一致
値を決定するのに使用する。
終り時間分布に依存する記法は突合せ手順に関連して本
明細書で説明される単音マシンのすべての実施例に共通
である。終り時間分布を発生して精密突合せを遂行する
ために、精密突合せ単音マシン2000は正確で複雑な
計算を行う。
第11図のトレリス図を参照して、先ず時刻t=toの
開始時間及び終り時間を持つのに必要な計算を考える。
第6図に述べられた例示的単音マシン構造に従って今の
場合を考えると、次の確率が適用される。
P r (S 7、t” t□)=QOXT(1→7)
+Pr(S2、t = t ) X T (2→7 )
 + P r (S 3.1=1o)XT(5→7) 
            (21)ここでPrは確率を
示し、Tは2つの小括弧内に示した状態間の遷移確率を
示す。上の式は終り時間が時刻t=toで生ずる6つの
条件の夫々の確率を示している。さらに、t ”: t
 □における終り時間が現在の例では状態S7で発生す
る様に限定されている事を示す。
次に終り時間1=1  を調べると、状態S1以外の各
状態に関連する計算を行わなければならない事がわかる
状態S1は前の単音の終り時間に始まる。説明の目的の
ために、状態S4に関する計算のみを説明する。状態S
4の場合の計算は次の様に行われる。
Pr(S   t=t )==Pr(Sl、t=to)
XT(1→4)XPr(y 11”4)+Pr(S4、
t=to) x’r (4−+4)XPr(y114−
+4)(22) 換言すれば、上述の式(22)は時刻t =: t 1
において状態S4にある単音マシンの確率は次の2項(
、)時刻1=1oにおいて状態S1にある確率に、状態
S から状態S4に遷移する確率(T)を掛け、さらに
状態S から状態S4に遷移する時に所与のラベルy1
が発生される確率(Pr)を掛けだもの、(b)時刻1
=1゜に状態S4にある確率、これに状態S4から自分
自身に遷移する確率、さらにこれに状態S4から自分自
身に遷移する確率を掛けたものの和に依存する。
同じ様にして、他の状態(状態S1を除く)に関連する
計算を遂行して、単音が時刻t ” t iにおいて特
定の状態にある対応する確率を発生する。
一般に所与の時刻において問題にしている状態にある確
率を決定する際には、精密な突合せは(、)問題にして
いる状態に導く遷移を有する各画の状態及びこの様な前
の状態の各々の確率を認識し、(b)この様な各画の状
態に対して、ラベル・ストリングに従い前の状態の各々
から現在の状態間の遷移時に発生されなければならない
ラベルの確率を表わす値を認識し、(C)各画の状態の
確率と、ラベルの確率を表わす夫々の値を組合して対応
する遷移についての問題にしている状態の確率を与える
。問題にしている状態にある全体的な確率はこの状態に
導(すべての遷移について、問題の状態の確率から決定
される。状態S7のための計算には単音が状態S7に終
る時刻1=11で単音の開始及び終了を可能ならしめる
6つの空遷移に関連する項を含む事に注意されたい。
時刻1=1  及び1=11に関する確率の決定の場合
と同じ様に、他の一連の終り時間における確率の決定は
終り時間分布を形成するために発生する事が好ましい。
所与の単音に対する終り時間分布の値は所与の単音がど
の程度良く導入ラベルに一致するかの表示を与える。
どの程度良く単語が導入されるラベルのストリングと一
致するかを決定するために、単語を表わす単音が順次処
理される。各単音は確率値の終り時間分布を発生する。
単音の一致値は終り時間の確率を合計し、和の対数を取
る事によって得られる。次の単音の開始分布は例えば各
位を和で割り、各位をスケーリングしてスケール変換し
た和の合計が1になる様に、終り時間の分布を正規化す
る事によって誘導される。
所与の単語もしくはワード・ストリングについて調べる
べき単音の数りを決定するのに少なくとも2つの方法が
ある。第1の深さ優先法では基本形に沿って計算を行い
、各相継ぐ単音から移動小計を計算する。小計が基本形
に沿う所与の単音の位置に対する予定の閾値以下である
事がわかると、計算は終了する。これに代る第1の幅優
先法では各単語中の同じ単音の位置について計算する。
各単語の第1の単音、各単語の第2の単音等々について
計算を行う。
第1の幅優先法では種々の単語に対して同数の単音にわ
たる計算を同じ相対単音位置数の計算と比較する。いず
れの方法でも一致値が最大であるワードが目的のワード
である。
精密突合せは浮動小数点装置190Lのための固有アセ
ンブラであるAPAL(アレイ脅プロセッサ・アセンブ
リ言語・a * Array ProcessorAs
sembly  Language)で具体化される。
精密突合せは実際のラベル確率(即ち所与の単音が所与
の遷移で所与のラベルyを発生する確率)、各単音マシ
ンに対する遷移確率及び予定の開始時間後の所与の時刻
に所与の単音が所与の状態にある確率の各々を記憶する
のに莫大なメモリを必要とする。上述のFPS190L
は終り時間、例えば終り時間の確率の対数和である事が
好ましい和に基づく一致値、前に発生した終りの確率に
基づく開始時間、単語中の順番にならんだ単音の一致値
に基づく単語−数値のための種々の計算を行う様にセッ
トされる。さらに、精密突合せは突合せ手順中の尾部確
率を考慮に入れる事が好ましい。
尾部確率は単語に関係ない相継ぐラベルの尤度の測定量
である。単一の具体例では、所与の尾部確率は他のラベ
ルに続くラベルの尤度に対応する。
この尤度は例えば成るサンプルの音声によって発生され
るラベルのストリングから容易に決定される。
従って精密突合せは基本形、マルコフ・モデルのための
統計量及び尾部確率を記憶するのに十分な記憶装置が必
要である。各単語が略10個の単音を含む5000語の
語粱の場合には、基本形に5000X10のメモリが必
要する。70の弁別可能な単音(各単音に対してマルコ
フ・モデルが与えられる)、200の弁別可能なラベル
、任意のラベルが発生される確率を有する10の遷移が
存在する場合には、この統計量に70X10X200位
置必要とする。しかしながら、単音マシンは3つの部分
、即ち開始部分、中間部分及び終り部分に分割して、そ
の各々に統計量を対応させる事が好ましい(6つの自己
ループは後続の部分に含ませる事が好ましい)。従って
、記憶に必要な場所は70X5X200に減少する。尾
部確率に関しては、200X200の記憶位置が必要で
ある。この様な例では、50にの整数メモリ及び82に
の浮動小数点メモリで十分動作する。
精密突合せは音標的な単音よりもフエネミックな単音を
使用する事によって具体化される事に注意されたい。付
表1はフエネミック精密突合せの主要な計算上の核に対
応するプログラム・リストを示す。付表1のルーチンは
現在の単語のフエネーム基本形に対応する格子に延び、
単一の時間ステップで時間的に前進する。サブルーチン
EXTLOOPが主ルーチンである。従ってパイプライ
ンが開始して、主ループに必要な部分的計算が遂行され
る。主ループの後に、計算上のパイプライン中に残され
た部分が空になる。
El、4 基本的な高速突合せ 詳細な突合せは計算上高価になるので、基本的高速突合
せ及び正確さを中程度に犠牲にして計算の要件を減少す
る代替高速突合せが与えられる。
高速突合せは精密突合せと関連して使用する事が好まし
く、高速突合せは語粟かもの類似の候補単語をリストし
、精密な突合せは精々リスト上の候補ワードについて遂
行する事が好ましい。
高速近似音声突合せにおいては、各単音マシンは所与の
単音マシン中のすべての遷移での各ラベルのための実際
のラベル確率を特定の置換値で置換える事によって簡単
になる。特定の置換値は、置換値を使用した時の所与の
単音のための一致値が実際のラベル確率を置換値で置換
しない精密突合せによって与えられる一致値より大きく
見積られる様に選択される事が好ましい。この条件を満
足する1方法は所与の単音マシンの所与のラベルに対応
する確率がその置換値よりも犬ぎ(なる様に各置換値を
選択する方法である。単音マシンの実際のラベルの確率
を対応する置換値と置換える事によって、ワードのため
の一致スコアを決定する際に必要な計算回数が著しく減
少する。さらに、置換値は太き(見積られているので、
結果の一致スコアは置換値を使用しないで前に決定され
ていた値よυも小さくはない。
マルコフ・モデルを有する言語解読装置の音波突合せを
遂行する特定の実施例では、その中の各単音マシンは、
訓練によって(、)複数の状態及び状態間の遷移経路(
b) S i及びSjが同一状態でも異なる状態でもよ
−・とじて、現在の状態をSiとして、状態Sjへの遷
移確率を表わす確率T(i −+ j )を有する遷移
tr(SilSj)及び(C)実際のラベル確率を有す
る様になる事によって特徴付けられる。ここで各実際の
ラベル確率p(yl+;→J)はラベルykが1つの状
態からその後の状態への所与の遷移の際に所与の単音機
械によって発生される確率を示し、kはラベルを同定す
る記号である。各単音マシンは(a)各単音マシン中の
各へに単一の特定値p′(yk)を割当てる装置、及び
(b)所与の単音マシンの各遷移で各実際の(出力)ラ
ベル確率を対応する葎に割当てた単一の特定の値p’(
yk)によって置換する装置を含む。
置換値は特定の単音マシンにおける任意の遷移時におけ
る対応するラベルykの最大の実際のラベル確率程少な
(とも大きい事が好ましい。高速突合せの実施例は導入
するラベルに対応して、語集中の最も尤度の高い単語と
して選択された10乃至100の程度の候補単語のリス
トを作成するのに使用される。候補単語は言語モデルと
照合され、精密な突合せを受ける事が好ましい。精密突
合せによって考慮される単語の数を語彙中の単語の1%
の程度に削減する事によって、計算上のコストが著しく
減少され、しかも正確さが保持される。
基本的な高速突合せは所与の単音マシン中で所与のラベ
ルが発生されるすべての遷移で、所与のラベルの実際の
ラベル確率を単一の値で置換する事によって詳細な突合
せを簡単にする。即ち、ラベルが発生確率を有する、所
与の単音マシンの遷移に拘らず、確率が単一の特定の値
によって置換される。この値は所与の単音マシン中の任
意の遷移において発生したラベルの最大の確率程少なく
とも大きい、大きく見積られた値である。
ラベル確率の置換値を所与の単音マシンの所与のラベル
についての実際のラベル確率の最大値にセットする事に
よって、基本的な高速突合せによって発生する一致値は
精密突合せによって生じた一致値と少なくとも同程度に
高い事が保証される。
この様にして、基本的な高速突合せは代表的には各単音
の突合せ値を大きく見積り、従って一般により多くの単
語が候補単語として選択される。精密突合せに従い候補
と考えられる単語も基本的高速突合せに従う検査に合格
する。
第12図を参照すると、基本的高速突合せのための単音
マシン3000が示されている。ラベル(又記号及びフ
エネームとも呼ばれる)は開始時間分布と共に基本的高
速単音マシン3000に導入する。開始時間分布とラベ
ルのストリング入力は上述の精密突合せ単音マシンに導
入するものと同じである。開始時間は時によっては複数
の時間にわたる分布をなさず、例えば沈黙の間隔に続き
、単音が始まる正確な時刻であってもよい。しかしなが
ら(以下詳細に説明する様に)音声が続(時は、終り時
間分布を使用して開始時間の分布を決定する。単音マシ
ン3000は特定の単音のための終り時間分布を発生し
、発生した終り時間分布から特定の単語のための一致値
を発生する。ワードの一致値は成分の単音、ワード中の
少な(とも最初のh個の単音の一致値の和として定義さ
れる。
次に第13図を参照するに、基本的高速突合せの計算図
が示されている。基本的高速突合せの計算は単音の開始
時間の分布、単音によって発生・されるラベルの数即ち
長さ及び各ラベルykに関連する置換値p/ykだけに
関連する。所与の単音マシン中の所与のラベルのすべて
の実際のラベル確率を対応する置換値で置換し、遷移確
率を長さの分布確率で置換する事によって、基本的高速
突合せは(所与の単音マシン中の遷移毎に異なる)実際
のラベル確率及び所与の時間に所与の状態にある確率を
使用する必要をなくする。
この点に関して、長さの分布は精密突合せモデルから決
定される。具体的には、長さの分布中の各長さに対して
、各状態を個々に調べ、各状態を調べ、各状態に対して
(a)特定のラベルの長さが与えられて及び(b)遷移
に沿つ出力にかかわらず現在調べている状態が生じた種
々の遷移経路を決定する。各問題にしている状態に向う
すべての遷移経路のすべての確率を加算し、すべての問
題にしている状態の和を加えて分布の所与の長さの確率
を示す。上記の手順を各長さについて繰返す。
突合せ手順の好ましい形に従えば、これ等の計算はマル
コフ・モデルの分野で知られているトレリス図を参照し
て行なう。
トレリス構造に溢5枝を共有する遷移経路に対して計算
は各校毎に一度必要であり、共通の枝を含む各経路に対
して行う。
第13図では、例として2つの制限が含まれる。
先ず単音によって発生されるラベルの長さを011.2
もしくは3とし夫々の確率をLo、11、t2及びt3
とする。開始時間も制御されていて確率qo1q1、q
2及びq3を有する4つの開始時間のみが許されている
。これ等の制限の下に次の式が問題にしている単音の終
り分布を決定する。
’o”qo’。
Φ1”qi to +qo to +)1Φ2”Q2 
LO+q1 ti p2+qo !−2PI P2O3
”Q3 tO+q2 tl p3”q1t2 p2 P
3+q2 t51)1 p2 p3 Φ4″’13 tl p4”Q2 t2 p5 p4+
q1 t3 P2 p5 p4Φ5 ”Q3 t2 p
4 p5 +q2 t3 P3 p4 p5Φ6:q3
t3p4p5p6 上の式を調べると、Φ3は4つの開始時間の各々に対応
する項を含む。最初の項は単音が時刻t==jsで開始
しOの長さのラベルを発生する確率を示す。即ちこの場
合単音は同じ時刻に始まって終る。第2の項は単音が時
刻t=t2で開始し、ラベルの長さが1であり、この単
音によってラベル3が発生する確率を示している。第6
項は単音が時刻1=11で開始し、ラベルの長さが2(
即ちラベル2及び6)であり、この単音によってラベル
2及び6が発生する事を示している。同様に、第4項は
時刻t=toで単音が開始し、ラベルの長さが6であり
、この単音によって3つのラベノペラベル1.2、及び
3が発生される確率を示している。
基本的な高速突合せで必要な計算と精密突合せによって
必要な計算を比較すると、後者よりも前者が比較的簡単
な事は明らかである。この点に関して、p′yk値はラ
ベルの長さの確率の場合と同様にすべての式中の各出現
では同じに保持される事に注意されたい。さらに長さ及
び開始時間に制限があるので後者の終り時間の計算が簡
単になる。
例えばQ6の場合単音は時刻1=16で開始し、この終
り時間に当てはまるにはこの単音によってすべての3つ
のラベル4.5及び6が発生しなければならない。
問題にしている単音のため一致値を発生するためには、
決定した終り時間の分布に沿って終り時間の確率が合計
される。もし望まれるならば、和の対数を取って、次式
を与える。
一数値=log1o(Φ0+・・・・・・・・・・・・
+Φ6)上述の如く、単語の一致スコアは特定の単語中
の相継ぐ単音のための一致値を加算する事によって容易
に決定される。開始時間分布の発生を説明するために、
第14図を参照されたい。第14図(−)で、単語TH
E 1が繰返され、その成分の単音に分割されている。
第14図(b)に、ラベルのストリングが時間軸上に描
かれている。第14図(C)には最初の開始時間分布が
図示されている。
この第1の開始時間分布は最も近い前の単音(沈黙とい
う単語を含む前の単語中の)の終り時間分布から導かれ
る。ラベル入力及び第14図(C)の開始時間分布に基
づいて、単音DHの終り時間分布ΦDHが発生される。
次の単音UHの開始時間分布は第14図(d)中の閾値
(A)を越える前の単音の終り時間分布中の時間を認識
する事によって決定される。(A)は各終り時間の分布
に対して個々に決定される。(A)は問題にしている単
音の終り時間分布の和の関数である事が好ましい。時刻
aとbの間隔は単音UHの開始時間分布がセットされる
時間を表わす(第14図(、)を参照)。第14図(、
)中の時刻Cとdの間隔は単音DHのための終り時間分
布が閾値(A)を越える時間及び次の単音の開始時間分
布がセットされる時間に対応する。開始時間分布の値は
例えば閾値(A)を越える終り時間の和によって各終り
時間の値を割る事によって、終り時間分布を正規化する
事によって得られる。
基本的な高速突合せ単音機械6000は浮動小数点装置
190L中でAPALプログラムによって具体化される
。他のハードウェア及びソフトウェアを使用して、本発
明に従う突合せ手順の特定の形式を開発する事が出来る
E 1.5  代替高速突合せ 基本的な高速突合せは単独で或いは好ましくは精密突合
せもしくは言語モデルと関連して計算を太いに減少する
事が出来る。さらに計算の要件を減少するために、本発
明は2つの長さ、即ち最小の長さし ・ 及び最大の長
さL  の間のラベmin             
        maX  ・ル長分布を均一にする事
によって精密突合せを簡単にする事が出来る。基本的な
高速突合せでは所与の長さ、即ち匂、11、β2等の所
与の長さのラベルを発生する確率は代表的には異なる値
を有する。代替高速突合せの場合は、ラベルの各長さの
確率が単一の均一な値によって置換される。
最小の長さは原長さ分布の非0の確率を有する最小の長
さに等しくする事が好ましい。もし望まれるならば、他
の長さが選択出来る。最大の長さの選択は最小の長さの
選択よりも任意であるが、最小値より短かいそして最大
値よりも長い長さの確率が0にセットされる点で重要で
ある。長さの確率を最小の長さと最大の長さ間に存在す
るものだけに限定する事によって、均一な疑似分布を与
える事が出来る。一つの方法では、均一な確率は疑似分
布上の平均確率としてセット出来る。他の方法では、均
一な確率を長さ確率の最大のものとし、これをセットす
る。
すべてのラベル長の確率を等しいと特徴付ける効果は上
述の基本的突合せにおける終り時間分布のための式を参
照する事によって容易に明らかであろう。具体的には、
長さの確率が定数として因数分解して外に出す事が出来
る事である。
Lmin’tl”oにセットし、すべての長さの確率を
単一の定数値で置換すると、終り時間分布は次の様に特
徴付けられる。
θ。=Φm/l=qm+θmm−1p ここでlは単一の均一な置換値を示し、pmに対する値
は時刻mにおいて所与の単音において発生される所与の
ラベルのための置換値に対応する事が好ましい。
上記のθ のための式から一致値は次の様に定義される
−数値=log1(1(θ。+θ1+−−−+θm) 
+ Joglo(J)基本的高速突合せと代替高速突合
せを比較すると、代替高速突合せ単音マシンを使用する
事忙よって、加算及び乗算の回数が太いに減少する事が
わかる。
Lmin=00場合の基本的高速突合せは長さの確率を
考慮しなければならない点で40回の乗算及び20回の
加算を必要とする事がわかった。代替高速突合せでは、
θ□が帰納的に決定され、各相継ぐθ。に対して1回の
乗算及び1回の加算で十分である。
さらにどの様にして高速突合せが計算を簡単にするかを
第15図及び第16図を参照して説明する。第15図(
、)には最小の長さLmin=0に対応する単音マシン
の実施例3100を示す。最大の長さを無限大として、
長さの分布が一様であるものとする。第15図(b)に
は、単音マシン3100から生じたトレリス図が示され
ている。qn以後の開始時間が開始時間の分布の外部に
あるものと仮定すると、mくnである各相継ぐθ□のす
べての決定には1回の加算及び1回の乗算が必要である
。その後の終り時間の決定の場合には、唯一回の乗算が
必要とされ、加算は必要でない。第16図は、Lmin
”4の場合を示す。第16図(、)はそのための単音マ
シン3200の特定の実施例を示し、第16図(b)は
対応するトレリス図を示す。Lm、n=4であるため釦
、第16図(b)のトレリス図はu、v、w及び2と記
された経路に沿って0の確率を有する。θ4及びθ。間
に延びる終り時間の場合には、4回の乗算及び1回の加
算が必要な事が明らかである。n+4より大きい終り時
間の場合には一回の乗算が必要で、加算は必要でない。
この実施例はFPS 190L上のAPALコードで実
施される。
付表2に高速(近似)突合せの主な計算上の核に対応す
るプログラム・リストが与えられている。
コードはLm、n=4の場合に対応する。必要に応じて
第15図もしくは第16図の実施例には追加の状態を付
加出来る事に注意されたい。
El、6 最初の5個のラベルに基づ(突合せ基本的な
高速突合せ及び代替高速突合せをさらに改良するために
、単音マシンに導入したストリングの最初の5個のラベ
ルの突合せのみを考慮する。ラベルは音波チャネルの音
響プロセッサによって、センチ秒当り1ラベルの割合い
で発生すると仮定すると、Jにとっての理想的な値は1
00である。換言すると、音声の1秒程度に対応するラ
ベルが与えられ、単音と単音マシンに導入されるラベル
間の一致が決定される。検査されるラベルの数を制限し
て、2つの利点が得られる。第1に、解読の遅延が減少
し、第2に短い単語のスコアを長い単語°と比較する際
の問題が実質的に避けられる。Jの長さは勿論必要に応
じて変化出来る。
調べられるラベルの数を制限した効果は第16図(b)
のトレリス図を参照すると明らかである。
本発明の改良がない場合には、高速一致スコアは図の一
番下に沿う確率θ□の和である。即ちt=to(LmI
n=00場合)もしくはt= t4(Lmin=4の場
合)に始まる各時刻に状態s4にある確率がθ□として
決定され、すべてのθ□が加算される。Lm、n=4の
場合には、t4の前の任意の時刻に状態S4にある確率
は0である。改良方法の場合には、θ□の和は時刻Jに
終る。第16図(b)において、時刻Jは時刻tnや2
に対応する。
5個の時間間隔にわたる5個のラベルの検査が終了する
と、一致スコアを決定するための次の2つの確率の和が
得られる。先ず上述の様にトレリス図の一番下の行に沿
う、時刻J−1迄の行計算が存在する。時刻J−1迄の
各時刻に状態s4にある確率を合計して行スコアが形成
する。第2に、単音が時刻Jに各人々の状態S。乃至s
4にある確率の和に対応する列スコアが存在する。即ち
列スコアは 単音のための一致スコアは行スコアト列スコアを加えて
この和の対数を取る事によって得られる。
次の単音のための高速突合せを続けるために、一番下の
行に沿って、一番下の行に沿う値(好ましくは時刻Jを
含む)を使用し、次の単音の開始時刻分布を誘導する。
b個の連続する単音のための一致スコアを決定した後の
すべての単音の総計は上述の如くすべての単音のための
一致スコアの和である。
上述の基本的な高速突合せ及び代替高速突合せにおいて
終り時間の確率が発生される方法を調べる際に、列スコ
アの決定値は高速突合せの計算値と容易に一致しない事
に注意されたい。調べるラベルの数を制限する改良方法
を高速突合せ及び代替突合せにより良(適合させるため
に、本発明の突合せ技術は列スコアを追加の行スコアに
よって置換する。即ち、追加の行スコアは時刻JとJ十
にの間にある状態S4(第16図(b))にある単音に
ついて決定する。ここでKは任意の単音マシン中の状態
の最大数である。
従って単音マシンに10個の状態がある時は、本発明の
改良方法は確率を決定するトレリス図の各々の一番下の
行に沿う10個の終り時間を追加する。一番下の行に沿
う時刻J+に迄のすべての確率を加えて、所与の単音に
対する一致スコアを発生する。上述の降に、連続した単
音の一致スコアを加えてワード一致スコアにする。
この実施列はFPS190L上でAPALコードを使用
して具体化されたが、他のハードウェア上の他のコード
でも具体化される。
E 1.7  単音のツリー構造及び高速突合せ最大の
ラベル数に制限があるもしくはない基本的な高速突合せ
もしくは代替高速突合せを使用する事によって、単音一
致値を決定する際に必要な計算時間が著しく減少する。
さらに、詳細な突合せを高速突合せから誘導したワード
について遂行した時も計算の節約が出来る。
一度決定した単音一致値は第17図に示したツリー構造
の枝に沿って比較され、どの単音の経路が最も確率が高
いかが決定される。第17図において、DH及びUHl
(点4102から現われて枝4104に至る)の単音一
致値は合計した時話されたワード”the″に対しては
単音MXから分岐する単音の種々のシーケンスよりもは
るかに犬きな値にならなければならない。この点に関し
て、最初の単音MXの単音一致値は一度だけ計算され、
これから延びる各基本形に対して使用される事に注意さ
れたい(枝4104及び4106を参照)。
さらに枝の最初のシーケンスに沿って計算した総スコア
が閾値よりもはるかに低いか、枝の他のシーケンスのた
めの総スコアよりもはるかに低い事がわかると最初のシ
ーケンスから延びるすべての基本形は候補単語としては
同時に除外される。例えば4108乃至4118に関連
する基本形はMXが確からしい経路でない事が決定され
た時に同時に棄却される。
高速突合せの実施例とツリー構造を使用する事によって
、候補ワードの順序リストがかなり計算を節約して発生
される。
記憶の条件に関連して、単音のツリー構造、単音の統計
量及び尾部確率を記憶する必要がある。
ツリー構造に関連して、25000のアーク及び各アー
クを特徴付ける4つのデータワードが存在する。第1の
データワードは後継アーク即ち単音へのインデックスを
表わす。第2のデータワードは枝に沿う後継単音の数を
示す。第3のデータワードはツリー中のどのノードにア
ークが存在するかを示す。第4のデータワードは現在の
単音を示す。従ってツリー構造には、25000X4の
記憶スペースを必要とする高速突合せでは、1o。
個の弁別可能な単音及び200個の弁別可能なフエネー
ムが存在する。フエネームが単音中の任意の開所で単一
の確率を有する場合には100X200の統計量のため
のメモリが必要である。最後に、尾部確率のための20
0x200メモリ空間が必要である。高速突合せには1
00にの整数及び60にの浮動小数点メモリで十分であ
る。
El、8 言語モデル 上述の如く、3字組の様な構文のワードに関連する情報
を記憶する言語モデルが正確な単語の選択を増強するた
めに与えられる。言語モデルについての文献はすでに存
在する。
言語モデル1010は好ましくは一意的な文字を有する
事が好ましい。具体的には、改良3字組方法が使用され
る。この方法に従って、サンプル・テキストを調べて、
語彙中の単語の順序6組、順序対、単一単語の尤度を決
定する。最も尤度の高い単語の6組及び最も尤度の高い
単語対のリストが形成される。このとき、3組の尤度は
3組のリストには存在せず、対の尤度は対のリスト中に
は存在しない。
言語モデルに従い、問題の単理に2つの単語が続く時は
問題にしている単語と2つの先行単語が3組リスト上に
存在するかどうかの決定がなされる。もし存在するなら
ば、3組に割当てられて記憶されている確率が示される
。もし問題にしている単語と2つの先行単語が6組リス
トにない時は問題にしている単語と隣接先行単語が対リ
スト上にあるかどうかの決定がなされる。もし存在する
ならば、対の確率が6組リストに存在しない6組の確率
と乗算され、この積が問題の単語に割当てられる。もし
問題の単語及びその先行単語が3組リストにも、対リス
トにもない場合には、問題にしているワード単独の確率
に6組中に存在しない6組の尤度及び対リストに存在し
ない対の確率を乗算する。次にこの積を問題にして−・
る単語に割当てている。
第18図を参照するに、音響突合せに使用する単音マシ
ンの訓練方法の流れ図5000が示されている。段階5
002では、代表的には5000ワ一ド程度の単語の語
粟が定義される。次に段階5002で各単語を単音マシ
ンのシーケンスによって表わす。単音マシンは例として
音標型(phoHtic)の単音マシンとして説明する
がフエネーム型の単音のシーケンスでもよい。単語を音
標型の単音マシンのシーケンスとしてもしくはフエネー
ム型の単音マシンのシーケンスによって表わす方法を以
下に説明する。単語の単音マシンのシーケンスを単語の
基本形と呼ぶ事にする。
段階5006において、単語の基本形を以下説明する様
にツリー構造に配列する。各単語の基本形の各単音マシ
ンの統計量はFジエリネツクの論文[統計的方法による
連続音声認識J (F、 Jelinek″Conti
nuous  5peech  Recognitio
nby  5tatistical  Methods
”)中に説明されている良(知られた順方向−逆方向ア
ルゴリズムによって決定される。改良訓練手順(段階5
008)はE 1.12の項で説明する。
段階5009で、精密突合せに使用する実際のパラメー
タ値もしくは統計量に代る値を決定する1、例えば、実
際のラベル確率に代る値が決定される。
段階5010で、決定した値を記憶した実際の確率に置
換え、各単語中の基本形中の単音が近似置換値を含む様
にする。基本的高速突合せに関連するすべての近似操作
は段階5010で行われる。
次に音声突合せが増強されるべきかどうかの決定がなさ
れる・(段階5011)。もし必要がなければ基本的近
似突合せのための決定値が使用するためにセットされ、
他の近似に関連する他の推定値はセットされない(段階
5012)。もし増強が必要ならば、段階5018に従
う。段階5018では均一なス) IJング長分布が決
定される。次にさらに増強が必要かどうかの決定がなさ
れる(段階5020)。もし必要がなければ、ラベル確
率出力値及びストリング長確率値を近似してセットし音
波突合せに使用する(段階5012)。さらに増強が望
まれる時は発生したストリングの最初の5個のラベルに
制限する(段階5.022)。
増強を要したかどうかにかかわらず、決定したパラメー
タ値が段階5012でセットされ、各単語の基本形をな
す単音マシンが所望の近似筐で一]1練され、高速近似
突合せを可能にする。
E 1.10  スタック解読装置 第1図の音声認識装置に使用される好ましいスタック解
読装置は本出願人に係る特願昭61−52049号に説
明されている。好ましいスタック解読装置について次に
説明する。
第19図には相継ぐラベル間隔、即ちラベル位置に複数
個の相継ぐラベルyy  ・・・が示されている。
第20図には成る発生される単語の複数の単語経路、即
ち経路A、経路B及び経路Cが示されている。第19図
の構文”to  be  or  not  t。
be++では、経路Aは項目” to  be  or
 ”に、経路Bは’twob”に、経路Cは項目?1t
00I+に対応する。
単語のシーケンスを表わす単語経路Wの場合には最も尤
度の高い終り時間(ラベル・ストリング中では2つの単
語間の境界ラベルとして表わされる)は1980年9月
刊のIBMテクニカル・ディスクロージャー・ブレティ
ン第23巻第5号のり、Rポール、Fジエリネツク及び
R,Lマーサ共著の[高速音響突合せ計算J(”Fas
ter AcousticMatch  Comput
ation”by  L、R,BahllF、 Jel
inek、 and  R,L、Mercer  in
 theIBM  Technical  Discl
osureBulletin  volume  25
、number  4、September  198
0)と題する論文に説明されている、良(知られている
方法で見出すことが出来る。簡単に説明すると、この論
文は2つの類似の関連事項(、)単語(もしくはワー・
ド・シーケンス)によってどの程度のラベル・ストリン
グが考慮されるか(b)どのラベル間隔にラベル中スト
リングの一部に対応する部分文章が終るかを見出す方法
を論じている。
任意のワード経路に対して、ラベル・ストリングの最終
のラベルから境界ラベル迄を含む各ラベルもしくはラベ
ル間隔に関連する尤度値が存在する。所与の単語経路に
対するすべての尤度値は組合された時、所与の単語経路
の「尤度ベクトル」を表わす。従って各単語経路には、
対応する尤度ベクトルが存在する。尤度値Ltを第20
図に示す。
単語経路W1、W2、・・・WBの集りのラベル間隔t
における尤度包路線A、は数学的に次の様に定義される
Δ = max (L (W’ )、oss、L、(W
’))即ち各ラベル間隔に対して、尤度包路線はワード
経路の集り中の任意の単語経路の最大の尤度値である。
尤度包路線1040を第20図に示す。
単語経路は完全な文章に対応する限り完全であると考え
られる。完全な経路は文章の終りに来た時に話者が入力
する事、例えばボタンを押す事によって同定される事が
好ましい。導入した入力はラベル間隔と同期して文章の
終りを示す。完全な単語経路はこれに単語を付加して延
長出来ないものである。部分単語経路は不完全な文章に
対応し、延長する事が出来る。
部分経路は「生き」もしくは「死に」の2つに分類出来
る。単語経路は既に延長されているならば「死んで」い
てそうでない時は「生き」ている。
この分類によれば、すでに延長されていて1つもしくは
それ以上の延長単語経路をなす経路は後に延長が再考慮
されない。
各単語経路は又尤度包路線に関連して「良好」もしくは
「不良」として特徴付けられる。単語境界に対応するラ
ベルで、単語経路が最大尤度包路線のΔ内にある尤度値
を有する時は「良好」と呼ばれ、そうでない時は「不良
」と呼ばれる。Δは一定値であり、最大尤度包路線の各
位をこの値だけ減少させて、良好/不良の閾値レベルに
使用する事が好ましい。
各ラベルの間隔に対して、スタック要素が存在する。6
生きた単語経路にはその境界ラベル忙対応するラベル間
隔に対応してスタック要素が割当てられる。スタック要
素は0.1もしくはそれ以上の単語以上のワード経路項
目を有し、これ等の項目は尤度値の順にリストされてい
る。
第1図に示したスタック解読装置1002によって遂行
される段階について説明される。
尤度包路線を形成して、どの単語経路が良好であるかを
決定する方法を第21図の代表的な流れ図で示す。
第21図の段階505oで先ず空経路を第1のスタック
に導入する。前に決定されている完全な経路があれば、
これを含むスタック要素が与えられる(段階5052)
。スタック(完全要素)中の各完全な経路はこれに関連
して尤度ベクトルを有する。境界ラベルで最大の尤度を
有する完全な経路の尤度ベクトルが最初に最大の尤度包
路線となる。もし完全な経路がスタック(完全)要素中
になければ最大の尤度包路線は各ラベル間隔で−(2)
に初期設定される。さらに完全な経路が特定出来ない時
も、最大の尤度包路線は−(資)に初期設定される。包
路線の初期設定を段階5054及び5056に示す。
最大の尤度包路線を初期設定した後に、これから予定の
量△を引いて減少した尤度の上にΔ良好領域を、減少し
た尤度の下にΔ不良領域を形成する。△の値が探索の幅
を制御する。Δが大きい程可能な延長について考慮しな
ければならない単語経路の数が多くなる。10g10を
り、の決定に使用する時は、△に2.0の値を与えると
満足な結果が与えられる。Δの値は必ずしもそうである
必要はないが、ラベル間隔の長さに沿って一様である事
が好ましい。
もしワード経路が△良好領域中の境界ラベルに尤度を有
すると、その単語経路は良好とマークされ、そうでない
時は、単語経路は不良とマークされる。
第21図に示した様に、尤度包路線を更新し、単語経路
に良好もしくは不良をマークするためのループは最大の
未マーク単語経路を発見する事から始まる(段階505
8)。最大の単語経路長に対応するスタック中に1個以
上の未マーク単語経路がある時には、境界ラベルで最大
の尤度を有する単語経路を選択する。もし単語経路を見
出すと、もしその境界ラベルの尤度が△良好領域内にあ
る時はその単語経路に良好とマークし、そうでない時は
不良とマークする(段階5060)。単語経路が不良と
マークされた時は、他の未マークの生き経路を見出して
、マークする(段階5062)。
もし単語経路が良好とマークされた場合には、尤度包路
線を更新して、良好とマークされた経路の尤度値を含ま
せる。即ち各ラベル間隔に対して、更新尤度値を(、)
尤度包路線中の現在の尤度値と(b)良好とマークされ
た単語経路値に関連する尤度のうちの大きな方に決定す
る。この段階は段階5064及び5066に示されてい
る。包路線を更新した後、再び最長最良の未マーク生き
単語経路を見付ける(段階5058)。
次にこのループを未マークの単語経路がなくなる迄繰返
す。次に良好とマークされた最短の単語経路を選択する
。もし最短長を有する良好な経路が1つ以上ある時には
、その境界ラベルで最大の尤度を有するものを選択する
(段階5070)。
次に選択した最短の経路を延長する。即ち少なく共1つ
の尤度の高い後継ワードを上述の様に高速突合せ、言語
モデル、精密突合せ及び言語モデル手順によって決定す
る。各尤度の高い後継単語毎に、延長した単語経路を形
成する。換言すると延長単語経路は選択した最短単語経
路の終りに尤度の高い後継単語を付加する事によって形
成される。
選択した最短単語経路を延長単語経路にした後に、選択
単語経路を項目があったスタックから除去し、各延長し
た単語経路を適切なスタックに導入する。具体的には延
長した単語経路はその境界ラベルに対応するスタックの
項目となる(段階5072)。
段階5072に関する選択した経路の延長操作を第22
図に示す。段階5070で経路を発見した後、次の手続
を行って、適当な突合せにより単語経路を延長する。
段階6000で、経路を発見する。適切な音響突合せ(
もしくは成る他の技術)によって、ワード・スコアを誘
導し、各単語毎にセット中に記憶する。ここでセットは
語蕾でもよ(語貧から選択した相対的に尤度の高い単語
のリストでもよい。
セット中の各単語のワード・スコアは段階6002で記
憶する。ワード・スコアは相対尤度を示し、スコアに従
ってリストされる。次に(上述の)言語モデルを段階6
004で適用する。次にワード・スコア情報及び言語モ
デル情報をスタック解読装置に供給して、最良経路を形
成するワードを決定する。近似突合せ、精密突合せ及び
言語モデル疋よって決定した尤度の高い単語を第21図
の段階5070で発見した経路の延長に使用する。第2
2図で決定した尤度の高い単語の各々を別個に発見した
単語経路に付加して、複数の単語経路を形成する。
再び第21図を参照するに、延長経路を形成し、スタッ
クを再形成した後は、段階5052からの処理が繰返さ
れる。
従って各繰返しは最短の最良単語経路を選択してこれを
延長する事を含む。1回の繰返しで「不良」とマークさ
れた単語経路も後の繰返しで「良好」となる事がある。
従って良好もしくは不良として生きている単語の特徴付
けは各繰返毎に独立してなされる。実際に尤度包路線は
繰返し毎に大きくは変化しないので、単語経路が良好で
あるか不良であるかを決定する計算は効率的である。さ
らに、正規化は必要でない。
完全な文章を同定した時のために、段階5074を与え
る事が好ましい。即ち生きた未マークの単語経路がなく
なり、延長すべき良好な単語経路がなくなった時は、解
読が完了する。
文章の終りを同定出来ない連続した音声の場合には、経
路の延長は連続して進行するか、装置のユーザの予定の
単語数だけ進行する。
E 1.11  音標基本形の形成 基本形を形成するのに使用出来るマルコフ・モデル単音
マシンの1つの型は音標に基づくものである。即ち各単
音マシンは国際音標字母(International
Phonetic  Alphabet)に含まれてい
る様な所与の音標に対応している。
所与のワードは音標のシーケンスより成り、各音標には
夫々単音マシンが対応している。各単音マシンは多くの
状態及び状態間の多(の遷移を含む。遷移の一部はフエ
ネーム出力を発生する事が出来るが、成るもの(空遷移
と呼ばれる)は発生する事が出来ない。上述の様に各単
音マシンに関連する統計量は(、)所与の4移が発生す
る確率、(b)所与の遷移で特定のフエネームが発生す
る尤度を含む。各非空遷移には各フエネームに関連する
成る確率がある事が好ましい。第1表に示したフエネー
ム・アルファベット中には200のフエネームを含む事
が好ましい。音標基本形を形成するのに使用する単音マ
シンを第3図に示す。各ワードにはこの様な単音マシン
のシーケンスが与えられる。統計即ち確率量は既知の単
語を発声する訓練期間中に単音マシン中に導入される。
種々の音標単音マシン中における遷移確率及びフエネー
ム確率は既知の音標を少なく共1回発声する時に発生さ
れるフエネーム・ストリングに注目し、良く知られた順
方向−逆方向アルゴリズムを適用する事によって訓練中
に決定される。
単音DHとして同定される1つの単音のための統計量の
サンプルを第2表に示す。近似的に第3図の単音マシン
の遷移t1、tr2及びtr8のラベル確率出力分布を
単一の分布で表わし、遷移tr3、tr4、tr5及び
tr9を単一の分布で表わし、遷移tr6、tr7、及
びtrlOを単一の分布で表わす。この事は第2表の欄
4.5.6に割当てたアーク(即ち遷移)によって示さ
れている。第2表は各遷移の確率及び単音DHの夫々開
始、中央もしくは終りに発生されるラベル(即ちフエネ
ーム)の確率を示している。DH単音の場合、例えば状
態S1から状態S2への遷移確率は13.07245で
あり、状態S から状態S4への遷移確率は0.927
57である(最初の状態から起り得る遷移は2つしかな
いので、この和は1に等シい)。ラベル確率については
DH単音は単音の終り部分、即ち第2表の欄6でフエネ
ームAE16(第1表参照)を発生する確率が0.09
1である。又第2表には各ノード(状態)に関連するカ
ウントが示されている。ノード・カウントは訓練中にこ
の単音が各ノード(状態)にある回数を示している。第
2表に示した様な統計値は各単音マシン毎に存在する。
音標単音マシンをワード基本形のシーケンスに配列する
事は代表的には音声学者によって行われ、通常自動的に
は行われない。
E 1.12  フエネーム基本形の形成第23図はフ
エネーム単音の例を示す。フエネーム単音は2つの状態
及び3つの遷移を有する。
空遷移は破線で示され、ラベルを発生しない状態1から
状態2への経路をなしている。状態1における自己ルー
プはここで任意の数のラベルが発生される事を示してい
る。状態1と状態2間の非空遷移はラベルを発生する事
が出来る。各遷移及び遷移時の各ラベルに関連する確率
は音標型の基本形に関連して前に説明したのと同様に、
dllll開期間中定される。
フエネーム・ワード基本形はフエネーム単音の連結によ
って構成される。その方法は本出願人に係る特願昭61
〜16993号に説明されている。
フエネーム・ワード基本形は対応するワードを多数回発
生して発生する事が好ましい。その方法は本出願人に係
る特願昭61−32052号に開示されている。簡単に
説明すると、多数の発話から基本形を成長する方法は次
の段階を含む。
(al  ワード・セグメントの多重発話を夫々のフェ
ネームのストリングに変換する。
(b)フエネーム型マルコフーモデル単音マシンの組を
決める。
(c)多くのフエネーム・ストリングを形成するための
最良の単一の単音マシンP1を決定する。
(dl  多くのフエネーム・ストリングを発生するた
めの形PIP2もしくはP2P1をなす2つの最良単音
基本形を決定する。
fe)  各フエ坏−ム・ストリングに対して2つの最
良単音基本形を配列する。
if)  各フエネーム・ストリングを左部分と右部分
に分割する。
左の部分は2つの単音基本形の第1の単音マシンに対応
し、右の部分は2つの単音基本形の第2の単音マシンに
対応する。
(g)  各左部分を左部分ス) IJングとし、各右
部分を右部分ストリングとして同定する。
fh)  多重発話に対応するフエネーム・ストリング
の組と同様に左部分ストリングの組を処理する。
ただしその単一の単音基本形が最良の2つの単音基本形
よりも部分ストリングを発生する確率が高い時は部分ス
トリングがさらに分割されない様にする段階を設ける。
(1)多重発話に対応するフェネーム・ストリングの組
と同様に右部分ストリングの組を処理する。
ただしその単一の単音基本形が最良の2つの単音基本形
よりも部分ストリングを発生する確率が高い時に部分ス
11ングがさらに分割されない様にする段階を設ける。
fjl  分割されていない単一の単音を対応するフェ
ネーム部分ストリングの順番に対応した順序に連結する
モデル要素の数は代表的な場合、ワードの発話によって
得られるフエネームの数に略等しい。次に基本形モデル
を訓練する(即ち統計値を充当する)。それには既知の
言葉を音波プロセッサに向けて発声する。音波プロセッ
サはこれに応答してラベルのス) IJングを発生する
。既知の発話及び発生したラベルに基づいて、上述の順
方向−逆方向アルゴリズムによってワード参モデルの統
計量を誘導する。
第24図には、フエネーム単音に対応する格子が示され
ている。この格子は音標型精密突合せに関連する第11
図に示した格子よりも簡単である。
上述の様に、第24図の格子によって一時に1時間間隔
を処理するフエネーム精密突合せ処理方法を付表1に示
す。
El、1ろ ワード・モデルの訓練 ワード・モデルの訓練は正しい単語の確率を他の単語に
関連する確率に関して高める様に各ワード・モデルの統
計量を決定する。その戦略は発話語の正しい正本のラベ
ル出力の確率と他の(正本でない)確率間の差を最大に
する事であり、他の方法の様に所与の正本に対するラベ
ルの確率を最大にする事ではない。
この方法は、通信されたワード入力に応答して出力アル
ファベットより選択した出力から語粟の単語を解読する
。そのために語彙中の単語を少な(とも1つの確率有限
状態モデルの基本形で表わす。各確率モデルは遷移確率
の項目及び出力確率の項目を有する。少なくとも成る確
率項目の各々に対する値を記憶する装置を使用して、確
率項目の値を決定するため、既知の単語入力の通信に応
答して発生する出力の該既知の単語のための基本形によ
って発生される尤度が、少な(とも1つの他の単語のた
めの基本形によって発生される出力の尤度に関して高く
なる様に、記憶した値の少なくとも一部をバイアスする
段階を含む。
各ワード(即ち独立ワード(Iexeme)と呼ばれる
単語の弁別性のある発音)は順番に1つもしくはそれ以
上の確率有限状態マシンによって表わされる事が好まし
い。各マシンは単音の集合中の単音に対応する。各単音
は音標の要素、ラベル(もしくはフエネーム)もしくは
音声の成る予定の特徴と関連し、これ等の要素毎にマル
コフ・モデルが特定される。
訓練台本は代表的な場合、一連の既知のワードより編集
される。
この方法によって、確率項目に関連する確率値は次の様
に評価される。
各確率項目に対して、設定された推定値θ′が存在する
。推定値θ′と訓練中に発生したラベルが与えもれると
、単一カウントと呼ばれる値が決定される。単一カウン
トは一般に訓練データに基づいて発生する事象の(予測
)回数に関連する。単一カウントの1つの特定の定義は
(a)成るラベルのストリングy (b)設定された推
定値θ′及び(C)特定の時刻tが与えられた時の特定
の遷移τ1及び状態S、の確率として定義されるもので
ある。
上述の単一カウントは一般に知られている順方向−逆方
向アルゴリズムもしくはバウムーベルヒ(Baum−W
elch)アルゴリズムを適用して決定される。
上述の定義に従い、単一カウントは次式によって表わす
事が出来る。
Pr(SJ、r、IY、θ、t) 各時刻を毎に特定のS・、τ1、Y、θ′に対する単一
カウントを加算して、対応する遷移確率項目のための4
移累積カウントを決定する事が出来る。4移累積カウン
トは確率の和であるから、その値は1を越える。各遷移
確率項目毎に、夫々の4移確率項目を記憶する事が好ま
しい。所与の遷移で得られる累積カウントを状態Sjか
ら取られるすべての遷移に対する累積カウントの和で除
算する事によって、夫々の改称確率項目のための現在の
確率値が決定される。現在の確率値は記憶されて、夫々
、の遷移確率項目に関連付けられる事が好ましい。
ラベル出力確率項目についても、単一カウントが加算さ
れる。これ等の確率項目の各々に対して、加算ストリン
グ中の対応するラベルがラベル出力確率項目に対応する
ラベルであるすべてのラベル時間毎に、特定のSl、τ
1、Y、及びθ′に対する単一カウントについて加算が
なされる。この場合の和はラベル出力累積カウントであ
り、対応するラベル出力確率項目に関連して記憶する事
が好ましい。この累積カウントを特定のSl、t1τ1
Y及びθ′に対するすべてのラベル時刻に対して加えた
単一カウントの和によって除算する事により、現在の確
率値を夫々のラベル出力確率項目について決定する。
この訓練方法に従って、発話される既知の単語の訓練用
台本(script)、各確率項目のための初期確率値
及び訓練中に発音した各ワードのための候補単語のリス
トが記述される。
候補単語のリストは高速近似音響突合せの様な手順によ
って決定される。任意の発声された単語に対して、正し
い既知の単語と正しくない単語がある(正しくない単語
は既知の単語として誤って解読される、最大の尤度を有
する事が好ましい)。
確率項目の現在の確率値は先ず正しい単語基本形もしく
は正しくない単語基本形中の各確率項目に対してプラス
・カウント値及びマイナス・カウント値を計算する事に
よって決定される。プラス・カウント値は(各確率項目
に対する)対応する確率項目のための累積カウントに加
算され、マイナス・カウント値は累積カウントから減算
される。
プラス・カウント値は良(知られた順方向−逆方向アル
ゴリズムを適用し、好ましくはこれから生じた統計量を
スケール変換する事によって正しい(即ち既知の)ワー
ドの単語基本形中の各確率項目毎に計算される。プラス
・カウント値の加算はストリングYに都合のよい様にカ
ウント値(及びこれから誘導される確率項目)をバイア
スし、Yを正しいワード・モデルの相対的により尤度の
高い出力にする。
所与の確率項目のためのマイナス・カウント値は順方向
−逆方向アルゴリズムを適用して、あたかも正しくない
単語が話されて、ラベルのストリングを発生した場合の
様にして計算される。既知のワードの1回の発生から誘
導されるマイナス・カウント値は(プラス・カウント値
を加算する前後の)対応する累積カウントの最新の値か
ら減算される。この減算は正しくない単語の基本形中の
確率項目を計算するのに使用される累積カウントをスト
リングYかも離す様にバイアスする。
これ等の隣接する累積カウントに基づいて、確率項目の
ための確率値を再計算して記憶する。
上述の語彙中の各単語のための上述の段階に従って、カ
ウント及び確率値として記憶される値が調節され、解読
のための正確さが増強される。
上述の方法は他の技術によって決定されたカウント値を
改良して音声を解読して語雲中の認識済単語にする段階
を改良する。
E 1.14  高速突合せ方法のサンプルの流れ口笛
17図に示したツリーが第25図に再現されている。第
25図にはツリー中の点を同定する数が与えられている
。ツリーを記憶する1つの良(知られた技術は従来、予
備配列(preordering)と呼ばれている。予
備配列法に従えば、最左のノードば1と同定され、これ
に相継ぐノードを有する上方の枝が続く。この枝のノー
ドの番号は順に大きくなっている。ノードの番号の割当
ては上の枝に沿って、ノード1−2−3−4によって示
した様に進む。ノード4は特定の方法で発音されたワー
ドである独立ワード(lexeme)が終るノードであ
る。ノード4は「葉」として同定される。
葉に到達すると、ツリーは左方向に、まだ番号が付され
ていないノードを有する1つもしくはそれ以上の枝を有
するノードに到達する迄追跡される。
この時ツリーはノード6迄戻り、これから次の枝が続(
。複数の枝が共通のノードかも延出している時は、この
様な枝は最高の枝を最先にして相継いで追跡する事が好
ましい。ノード5はノード4の後の他の葉として同定さ
れる。再びノード3に戻り、他の葉ノード6にラベルを
付す。ノード3かものすべての枝を追跡して、ノードに
番号を付すと、ツリーはノード2に戻る様に追跡される
ノード2から予備配列手順によって、ノード7.8及び
9にラベルを付す。次にツリーをノード1迄追跡して、
ノード1からノード10を同定し、その様にラベルを付
す。
予備配列に関連して、ツリーは次の表Aに示した様に記
憶される。左欄中にノードは1乃至1゜としてす°スト
されている。次の欄中にはノードに対応する単音が記憶
される。第3の欄はツリーの主ノード、今の場合ノード
1を基準としてノードが存在するレベルを示す。例えば
ノード1はレベル1にあり、ノード2はレベル2にあり
、ノード7はレベル6にある。第4欄中のビットは当該
ノードが葉を表わすかどうかを示す。もし葉を表わす場
合には、最後の欄はその葉に対応するワード(lexe
me)を記憶する。この記憶情報は正確な枝及びこれに
沿う位置を同定する。この予備配列に従うと、単音のシ
ーケンス(lexemeに対応する)が稠密に記憶され
、容易に同定可能になる。
表A ツリー構造の重要性は第26図に示した流れ図を参照す
ると明らかであろう。第26図は項F:1゜7で説明し
たツリー構造を利用する高速突合せ方法の1つの実施例
7200を示す。
流れ図で先ず初期設定ルーチン72o2を呼起す。初期
設定ルーチンについては第27図に関連して詳細に説明
する。基本的には、初期設定段階7202は候補単語の
リストを空にし、処理をツリーのベースに戻す。
初期設定段階7202の後、段階7204でツソー中の
任意のその後のノードが調べられるかについて決定がな
される。もし存在しなければ、枝は追跡する必要がなく
、候補の独立ワードの夫々のスコアのリストが段階72
06で与えられる。
もし段階7204でさらにノードが残っている事がわか
ると、段階7208で次のノードの単音レベルが求めら
れる。予備配列に基づ(単音レベルは次の)−ドがツリ
ーのペースからどれ程距っているかを示す。次に段階7
210で、処理がバックアップ・モードもしくは延長モ
ードのいずれで行われるかの決定がなされる。ツリーに
沿う単音のスコアに基づいて、ツリーに沿う枝がふされ
しくすくすると、バックアップ・モードが呼出される。
この時は突合せ計算を遂行する事な(1時に1ノードだ
け逆方向に追跡する。バックアップはノードが除去され
ていないレベルに進む(もしあれば)。この事は段階7
212において反映され、そのレベルは休止レベルと比
較される。もしこのレベルが休止レベルに等しいか、こ
れより小さい時は、処理は段階7204に戻る。そうで
ない時には、処理は段階7214で延長モードに導入す
る。バックアップ・モードにな〜・時には、処理は延長
モードにあり、現在の枝は、段階7216で次の単音を
加える事によって延長される。
もし枝のスコアが成る閾値より小さいと、この枝は候補
として除去され(段階7218)、段階7220でモー
ドはバックアップにセットされ、休止レベルが現在のレ
ベルにセットされ、モードは再ヒバツクアップにセット
される(以下同様)。
この動作は段階7212で述べられた如きノード・レベ
ルに到達する迄行われる。単音及びレベルをセットし、
処理は段階7204に戻る。
段階7218で枝が候補の枝として残される事がわかっ
た時は、段階7224で最後の単音の出力が上述の様に
正規化され、分布が(上述の様に)予定の長さに切つめ
られる。次に段階7226で、単音がツリーの葉にあた
る(従って独立したワードを表わす)かどうかの決定が
なされる。もし葉でなければ、単音及びレベルがセット
され、処理は段階7204に戻る。もし葉であれば段階
7228で、その独立ワード及びスコアが独立ワード(
もしくはワード)候補リストに記憶され、単音及びレベ
ルを得た後に処理は段階7204に戻る。
第27図を参照すると、初期設定ルーチン7202は段
階7302で開始し、枝スコア(0レベルの)が0にさ
れる。段階7504で、閾値がツリーを通る枝に対して
セットされる。即ち、単音のシーケンス(ツリーに沿う
枝に対応する)に沿うノードに対して閾値スコアがセッ
トされる。閾値スコアはレベルの関数でもよく、もしく
はすべでのレベルに適用される一定値でもよい。上述の
様に、ツリーの(独立ワードを表わす)枝に沿う単音毎
に開始時間及び終り時間分布が決定される。
段階7306において、前の精密突合せからの分布がロ
ードされ、段階7308で処理は延長モードにセットさ
れる。段階7ろ10において、候補の独立ワード(もし
くはワード)のリストが空にされ、処理は段階7612
にツリーの根に戻り、処理を始める。
第28図は第26図の段階7216に示した現在の枝を
延長する段階の詳細を示す。具体的に説明すると、段階
7402において、上述の突合せ計算の出力和を0にセ
ットする。段階7404で、開始時間分布を(代表的に
は最新の終り時間分布から)得る。上述の様に、最大の
時間の限界は、調べるべきラベルの最大数を決定する事
によってセットされる(段階7406)。次に段階74
08で単音の突合せを遂行して、これからINCスコア
を誘導する。INCスコアは枝を延長する事によって生
ずるインクレメンタル・スコアを表わす。突合せ中に得
た出力分布(上述の式ψ)を段階7410で保管し段階
7412中で枝スコアを更新する。更新によって枝スコ
アはB、=lt−1)+INCになる。ここでiはレベ
ルを示す。
第29図は第26図の段階7408の詳細を示す。段階
7502で、単音突合せを初期設定する。
その後、開始時間分布の計算が完了したかどうかの判定
がなされる(段階7504)。この決定は開始時間の分
布が0値に達したかどうかを示す。
もし完了していれば、段階7506において共通のルー
プを実行する。完了していなければ、ラベルのストリン
グ中の他のラベルを突合せ処理に含める。この段階75
08は1時間スライスの延長と呼ばれる。次に段階75
10でTIME(時間)をインクレメントしてT IM
E=T IME+1にし、段階7504に戻る。
第30図を参照して、第26図の段階7502の単音突
合せ初期設定段階を最初の2つの時間スライスについて
詳細に説明する。段階7602において、ラベル時間0
の出力分布(0UTD I ST)を0にセットする。
段階7604において、最初のラベル時間の出力分布を
0にセットし、フエネーム確率(FENPROB )を
ラベルFEN(1)を発生した単音(PHONE)の確
率にセットし、値5TATE(状態)1をラベル時間0
の開始時間分布にフエネーム確率(FENPROB)を
乗算した値にセットし、OUTSUMを0UTD I 
S T (2)に等しくセットする。
近似高速突合せでは、フエネーム確率は上述の項E 1
.5で説明した様に近似値である。要約すると、各単音
は複数の状態を有し、状態から状態へ延びる複数の遷移
(アーク)を有する。所与のラベルを発生する各4移に
おいて、各確率は訓練期間中に誘導されたデータに基づ
いて決定される。
成る遷移の各々にはアルファベット中の各ラベルの夫々
に対してラベル確率が存在する。1つの単音中にラベル
を発生出来る10個の遷移があり、アルファベット中に
200個のラベルが存在する時は、単音には2000個
の実際のラベル確率が関連する。基本的な近似高速突合
せは単音中の任意の遷移における、問題にしているラベ
ルの最高の確率を決定して、問題にしているラベルに対
して決定された実際のラベル確率をこの最高の確率で置
換する事が好ましい。
実際のラベル確率値を近似値で置換するアルゴリズムは
第61図に示されている。第31図において、■は単音
のインデックス値、Jは遷移のインデックス値、Fはフ
エネーム(もしくはラベル)のインデックス値、A(I
、J、F)は単音Iの遷移JにおけるフエネームFの実
際の(精密突合せ)ラベル確率を表わす。B(I、F)
は単音工のためのフエネームのための近似(高速突合せ
)ラベル確率を表わす。第61図の流れ図はすべての単
音が同数(J□X)の遷移を有するものと仮定している
。しかしながらJnlaxは単音毎に変化する事が望ま
しい。
第60図の流れ図を出力分布式Φ。乃至Φ6と比較する
と、0UTDIST(T)はΦ1に対応し、FENPR
OBはp もしくはp2の様な確率に対応し、S T 
A RT (T)は開始時間分布qTに対応する事が明
らかである。ラベル長変数1.は特に第30図には示さ
れていない事に注意されたい。
しかしながら最小ラベル長は(例として)2に選択され
、4 及びIllは0であり、従ってOUTD I S
 T (0)及び0UTDIST(1)も0にセットさ
れる。段階7604は第1のラベル時間スライスで変数
をセットし、段階7606で第2のラベル時間スライス
に関連する変数をセットする。
従って、1時間スライス延長段階7’508(第29図
)はラベル時間T=3で開始しく段階7608)及び終
り時間値(ENDT IME )は開始分布の点+2に
等しくセットされる(段階7610)。
第32図に段階7508(第29図)の詳細を示す。各
時刻T毎に、出力分布は第1時間に発生されるラベルの
確率、時刻(T−1)の出力分布及び状態1で発生され
るラベルの確率の関数として示されている。OUTSU
M(出力和)は前のOUTSUM値をOU T D r
 S T (T)だけインクレメントしたものである。
第30図及び第′52図は相継ぐ0UTDIST及びO
UTSUM値を決定するのに遂行される計算の帰納的性
質を示して−・る。
第33図は共通ループ段階7506(第29図)を詳細
に示す。段階7802でTの値をENDTIME(終り
時間)+1に等しくセットする。段階7804は5TA
TE因子を含まない点を除き1時間スライス延長に対比
出来る。段階7804の後に、Tをインクレメントしく
段階7806)、段階7808でTを限界値と比較する
(T≦TIME−眼界値)。段階7804は決定段階7
808の結果として時間の限界に到達する迄繰返される
第34図は段階7412(第28図)の詳細な流れ図を
示す。段階7902で、PH0NESCORE(単音ス
コア)はOUTSUMの対数に等しくセットされる。そ
の後段階7904でBRANCH8CORE(枝スコア
)を前のレベルのBRANCH3COREに段階790
2のP HON−ESCORPを加えた値に等しくセッ
トする。
正規化段階7224(第26図)の詳細を第36図に示
す。段階7952乃至7962は出力分布の重要でない
部分を切捨てて、出力分布値を定数値、例えば1に正規
化する。具体的には、出力分布値Φiはこれが段階79
52でセットした閾値の上もしくは下のいずれにあるか
に依存して残されるか廃棄される。代表的には出力分布
値の和によって表わされる正規化スケールが段階795
4中で決定される。閾値要件を満足する最初の(時間的
な)出力分布及び最後の出力分布は夫々段階7956及
び7958で左方境界及び右方境界として指定される。
左方境界(LB)と右方墳界(RB)間の出力分布値を
段階7960で正規化スケールによってスケール変換(
例えば割算)する。段階7962で、スケール変換した
出力分布を将来の使用にそなえて保管し、次のレベルを
開始する。
E 1.15  ポーリングによる語粟かもの尤度の高
い単語の選択 第36図は第36.1図及び第36.2図の結合方法を
示す。
この第36図は流れ図8000を示す。第36゜1図に
示した様に最初単語の語粟を段階8002で記述する。
語雲はユーザに依存するが、標準のオフィスの通信文用
語もしくは技術用語に関連するものである。語彙中には
5000語もしくはそれ以上の程度の単語が存在するが
、単語の数は変化可能である。
各単語は項E 1.10もしくはE 1.11の項目で
説明したマルコフ・モデル単音マシンのシーケンスによ
って表わされる。即ち、各ワードは順次的音標型単音マ
シンで構成した基本形もしくは順次的フエネーム型単音
マシンで構成した基本形として表わされる。
次に段階8006で各ワードの各ラベルのための「投票
」が決定される。投票決定段階8006は第37図、第
58図、第39図及び第40図を参照して説明する。
第67図は所与の単音マシンP、のための音声ラベルの
分布のグラフを示す。示されたカウントは訓練中に発生
した統計量から抽出したものである。訓練中、既知の単
音シーケンスに対応する既知の言葉が発声されて、これ
に応答してラベルのストリングが発生される。既知の単
音が発声される時に各ラベルが発生される回数が訓練中
に与えられる。各単音毎に、第37図の分布が発生する
第37図に示した訓練データから情報を抽出する外に、
所与の単音のためのラベルの予定数が訓練データから誘
導される。即ち所与の単音に対応する既知の言語が発声
され、所与の単音のラベルの数が記録される。この情報
から、所与の単音に対するラベルの最も尤度の高い即ち
予想数が決定される。第38図は各単音に対する予想数
を示すグラフ表示図である。単音がフエネミツク単音に
対応する場合には単音のラベルの予想数は代表的な場合
、平均略1である。音標的単音の場合には、ラベルの数
は大きく変動する。
訓練データからのグラフの情報の抽出は「統計的方法に
よる連続的音声認識」と題する付表11に詳細に説明し
た順方向−逆方向アルゴリズムから得た情報を使用して
達成される。簡単に説明すると、順方向−逆方向アルゴ
リズムは(、)マルコフ・モデルの初期状態から状態i
迄を順方向に眺め・ て、順方向バス中で状態iに達す
る迄の統計量を求め、(b)マルコフ・モデルの最後の
状態から状態(i+1)迄を逆方向に眺める事によって
、逆方向パス中の状態(i+1 )から最後の状態迄の
統計量を決定する事によって単音中の状態lと状態(i
+1)間の各単音の遷移の確率を決定する事を含む。状
態iが与えられたとして状態iかも状態(i+1 )迄
の遷移確率及びこの遷移時のうベル出力を他の統計量と
組合せる事によって、成るラベルのストリングで発生す
る問題の遷移の確率を決定する。上記の論文の付表…に
このアルゴリズムの数学理論及び応用について詳細に述
べられているので、これ以上の説明は行わない。各単語
は表Bの単語1及び単語2で示した様な単音の予定のシ
ーケンスである事がわかっている。
表  B 単語1fP  P  P  P   P   −−−)
単語2(P  P  P  P  o・佛)各単語のた
めの単音シーケンス並びに第37図及び第38図に関し
て論ぜられ情報が与えられると、特定の問題のワードW
について、所与のラベルが何回発生されるかについての
決定がなされる。
単語1の場合には、単音P1のラベル1、単音3のラベ
ル1、単音P6のラベル等々のカウント数の和としてラ
ベル1が予想される回数が計算される。同じ様に単語1
について、単音P1のラベル2、単音P3のラベル2等
々のカウント数の和としてラベル2が予想される回数が
計算される。単語1のための各ラベルの予想回数は20
0個のラベルの各々について上述の段階を遂行する事に
よって評価される。
第69図に、特定の単語(例えば単語1)の各ラベルの
ための予想カウントが示されている。
第69図に示した所与の単語の予想ラベル・カウントか
ら、所与の単語の各ラベルの「得票」が評価される。所
与の単語W′のラベルL′の得票は単語W′がラベルL
′を発生する尤度を表す。得票は単語W′がL′を発生
する確率の対数に対応する事が好ましい。即ち得票は次
の式で表わされる事が好ましい。
得票=log1o(Pr(L′IW′))得票は表Cに
示した表中に記憶される。ワード1乃至Wの各々に対し
て、各ラベルには2重添字を有するVで表わした得票が
関連している。添字の最初の要素はラベルに対応し、第
2の要素は単語に対応している。従ってv12は単語2
のラベル1の得票を示す。
表  C 再び第36図を参照するに、ポーリング(投票)による
語粟から尤度の高い候補単語を選択する方法が未知の発
話人力に応答してラベルを発生する段階8008を含む
ものとして示されている。この動作は音響プロセッサ1
004(第1図)によって遂行される。
発生したラベルを第0表で検索して問題の単語を求める
。問題の単語のための各発生したラベルの得票を取出す
。次に得票を累積して問題の単語の総得票を求める。例
えばラベル1.6及び5が発生した場合には、得票V 
 、V  及びv51を評価して組合せる。得票が確率
の対数である時には、これ等を加算して単語1の総得票
を得る。
同じ手順を語柔中の各単語について行い、各単語のラベ
ル1.6及び5の総得票を求める。
本発明の1つの実施例に従い、各単語のための累積得票
が単語の゛ための尤度として使用される。
最高の累積得票を有するn個の単語(nは予定の整数で
ある)を候補単語として決定し、これを後に、上述の精
密突合せ及び言語モデルによって処理する。
他の実施例では、得票と同じ様に単語のペナルティを評
価する。即ち各単語に対しペナルティを決定して割当て
る(段階8012)。ペナルティは問題にしているラベ
ルが所与の単語によって発生されない尤度を示す。ペナ
ルティを決定する方法は種々存在する。フエネーム基本
形を表示する単語を決定する一つの方法は各フエ不−ム
性の単音が唯一つのラベルを発生すると仮定する方法で
ある。所与のラベル及び問題にしているフエネミツク単
音の場合に、所与のラベルのペナルティは問題にしてい
るフエネミツク単音によって任意の他のラベルが発生さ
れる確率の対数である。単音P2のためのラベル1のペ
ナルティは従って任意のラベル2乃至200が1を発生
するラベルである確率の対数である。フエネミック単音
の場合には1つのラベルの出力を仮定しているが、この
事は正確ではないが、ペナルティを評価するのに十分で
ある事が立証されている。各単音のためのラベルのペナ
ルティを一度決定すると、既知の単音のシーケンスで構
成される単語のペナルティが容易に決定出来る。
各単語毎の各ラベルのペナルティを表りに示す。
各ペナルティばPENとこれに続(2つの添字によって
示されている。添字の最初の要素はラベルを示し、第2
の要素は単語を示している。
再び第36図を参照するに、段階8008で発生したラ
ベルを調べて、ラベル・アルファベット中のどのラベル
が発生されていないかを知る。発生していない各ラベル
のペナルティを各ワード毎に評価する。所与の単語の総
ペナルティを求めるために、所与の単語の発生していな
い各ラベルのペナルティを検索して、すべてのこの様な
ペナルティを累積する(段階8014)。もし各ペナル
ティが「空」確率の対数に対応する場合には、所与の単
語のペナルティをすべてのラベルについて加算する。上
述の手順を語粟の各単語について繰返して、各単語に、
発生したラベルのストリングに対して総得票及び総ペナ
ルティを得る。
各単語について総得票及び総ペナルティが誘導されると
、尤度スコアが2つの値を組合す事によって決定される
(段階8016)。もし望まれるならば総得票に重み付
けを行って総ペナルティよりも太き(する事、もしくは
その逆の重み付けを行う事が出来る。
さらに各ワードの尤度スコアは投票されるラペルの数の
長さに基づいてスケール変換する事が好ましい(段階8
018)。具体的には、ともに確率の対数の和として表
わされる総得票と総ペナルティを互に加算した後、最後
の和を、発生された得票及びペナルティを計算する際に
含まれた音声ラベルの数で除算する。この結果がスケー
ル変換した尤度スコアである。
本発明の他の態様は、ストリング中のどのラベルが投票
及びペナルティの計算で考慮されるかを決定する事に関
する。単語の終りを同定し、これに対応するラベルを知
った時は、知られた開始時間と知られた終り時間の間で
発生したすべてのラベルを考慮する事が好ましい。しか
しながら終り時間がわからない時は(段階8020 )
、本発明は次の方法を使用する。すなわち、基準終り時
間を決めて、相継ぐ時間間隔の基準終り時間の後に繰返
し尤度スコアを評価する(第36.2図段階8022)
。例えばワードの発声の500m秒後に、各ワードの(
スケール変換した)尤度スコアを50m秒間隔で100
0m秒迄評価する。この例では各ワードは10個のくス
ケール変換)尤度スコアを有する。
10個の尤度スコアのうちどれを所与の単語に割当てる
べきかを選択するには慣用的な方法を採用する。具体的
には、所与の単語に対して得た一連の尤度スコアに対し
て、同じ時間間隔で得た他の単語の尤度スコアに関し最
大の尤度スコアを選択する(段階8024 )。次にこ
の最大の尤度スコアを各時間間隔のすべての尤度スコア
から減算する。ここで所与の時間間隔の最大の尤度スコ
アは0にセットされ、他のより尤度の低い単語は負の値
になる。所与の単語の最小の負の尤度スコアを単語のた
めの相対尤度スコアとしてこれて割当てる。
尤度スコアを各単語に割当てた時、最大の尤度スコアを
有するn個のワードがポーリングから生ずる候補単語と
して選択される(段階8026)。
本発明の一実施例では、ポーリングから生ずるn個の単
語が単語数削減リストとして与えられ、これ等のワード
が精密突合せ及び言語モデルに従つて処理される。この
実施例におけるポーリングによって得た削減リストが上
述の音声高速突合せに代り使用される。この点に関して
、音声高速突合せはツリー状の格子構造を与え、この格
子構造中に単語の基本形が順次単音として導入される。
この時同じ最初の単音を有する単語がツリー構造に沿う
共通の枝に添う。2000語の語雲の場合、ポーリング
方法はツリー状の格子構造を含む高速音声突合せよりも
2乃至3倍速い事がわかっている。
しかしながら、音波高速突合せ及びポーリングを結合し
て使用する事も出来る。即ち訓練したマルコフ・モデル
及び発生したラベルのストリングより、近似高速突合せ
が段階8028でポーリングと並列に行われる。1つの
リストは音響突合せによって、1つのリストはポーリン
グによって与えられる。慣用的な方法では、1つのリス
トの項目を他のリストの引数に使用する。最良の候補単
語の数をさらに減少したい場合には、両方のリスト中に
現われるワードだけを次の処理に保留する。
段階803002つの技術の相互作用は音声認識装置の
精度及び計算上の目的に依存する。さらに他の代替実施
例として、格子型の音響高速突合せが順次にポーリング
表に適用される。
ポーリングを遂行するための装置8100を第40図に
示す。装置8102は上述の如く訓練によって得られた
ワード・モデルを記憶している。
ワード・モデルの統計量から、得票発生装置8104が
各単語の各ラベルの得票を評価し、得票発生装置810
6中に得票を記憶する。
同じ様に、ペナルティ発生装置81o8が語彙中の各単
語の各ラベルのペナルティを評価し、この値をペナルテ
ィ表記憶装置811oに導入する。
単語尤度スコア評価装置8112は未知の音声入力に応
答して音響プロセッサ8114によって発生されたラベ
ルを受取る。単語選択装置8116によって選択された
所与の単語に対して、単語尤度スコア評価装置8112
は選択した単語の各発生したラベルの得票を、発生しな
かった各ラベルのペナルティと互に組合せる。尤度スコ
ア評価装置8112は上述の様に尤度スコアをスケール
変換する装置を含む。尤度スコア評価装置は又必ずしも
必要でないが、基準時間に続く相継ぐ時間間隔でスコア
を繰返して評価する装置を含んでいる。
尤度スコア評価装置8112はワード−スコアをワード
・リスト装置8120に与える。ワード・リスト装置は
割当てられた尤度スコアに従って単語を並べる。
ポーリングから誘導したワード・リストを近似音波突合
せによって誘導したリストと組合せる実施例の場合には
、リスト比較装置8122が与えられる。リスト比較装
置は入力として(い(つかの実施例で上述した様に)ワ
ード・リスト装置からポーリング・リストを、音響高速
突合せからはリストを受取る。
記憶及び計算に必要な手段を減少するために、いくつか
の特徴が与えられる。先ず、得票及びペナルティは0及
び255間の整数として形式化される。第2に実際のペ
ナルティをPEN=a(得票)+bとして対応する得票
から計算した近似ペナルティで置換える。ここで、a、
bは定数であり、最小2乗回帰法によって決定される。
第6に、ラベルは各クラスが少な(とも一つのラベルを
含む様な音声のクラスに分類される。ラベルのクラスへ
の割当ては音声クラスとワード間の相互情報量を最大に
する様に階層的にラベルをクラスタ化する様に決定出来
る。
さらに本発明に従い、沈黙の期間は(良(知られた方法
)で検出され、無視される事に注意されたい。
本発明はIBM  MVSシステム上のPL/Iで実施
されるが、他のシステム上の他のプログラム言語でも実
施出来る。
E2 複数の独立したワード・スコアからの各総ワード
・スコアの決定 第41図を参照するに、本発明の一般の実施例に従う情
報の流れ図9000が示されている(本発明の特定の方
法に従う制御の流れ図は第41図から容易に誘導出来る
。この点で、第41図は単一のプロセッサ・システムも
しくは複数のワード・スコアを並列に発生する多重プロ
セッサ・システムに適用出来る事に注意されたい)。段
階9002で、単語をワードの集合から選択する。単語
の集合は処理された時、どの単語が第1図の音響プロセ
ッサ1004の様な音響プロセッサによって発生される
ラベルのストリングに最も良く一致するかを評価するた
めの単語を含んでいる。ワード・スコアは(文脈中の)
ワードの尤度もしくは(文脈から)独立したワード(l
exeme)の尤度を表わす様に決定される事に注意さ
れたい。独立したワードは複数の発音の仕方があるもの
として認められている単語の1つの発音に対応している
(例えば上述のTHE 1及びTHE2はワードT H
E ”の2つの独立ワードである)。
選択した特定の単語に対して、発生されたラベルはN個
の独立したマルコフ・モデル・アルゴリズムの各々で適
用を受ける(段階9006乃至9oio)。独立したマ
ルコフ・モデルは一般にマルコフ・モデルの異なる集合
の基本形に基づくアルゴリズムとしてもしくは異なるマ
ルコフ・モデル・データが夫々のワード・スコアを発生
するのに使用されるもの、或はその両方として特徴付け
られる。
従って、以下に説明する様に、アルゴリズムは異なるマ
ルコフ・モデルに基づく基本形に基づくか、1つのアル
ゴリズムがマルコフ・モデルカラ誘導されるポーリング
・データを使用し、他のアルゴリズムが音波突合せデー
タを使用するか、もしくはこれ等の組合せである時に独
立していると呼ばれる。
夫々の独立したマルコフ・モデルφアルゴリズムについ
て、夫々のワード・スコア(WSl乃至WSN)が発生
される。これ等の種々のワード・スコアが段階9012
で組合され、例えば加算されて選択した問題にしている
総ワード・スコアTSを形成する。もしく段階9014
で判断されてわかる様に)集合中の各単語の総スコアが
求められていない場合には、段階9016でワードの集
合から他のワードを選択してその総スコアを決定する。
各単語に化スコア(TS)が割当てられた後に、化スコ
アを言語モデルと関連してスタック解読装置(項E1.
9のスタック解読装置の説明を参照)で使用される。化
スコア(TS )の使用は段階90−18に示されてい
る。具体的には高い化スコアを有し、言語モデルに基づ
き十分な尤度を有する単語が第22図で説明した段階5
070及び5072に従って発見した選択経路を延長す
るのに使用される。
次に第42図を参照するに、特定の実施例9100のた
めの情報の流れが示されている。
マルコフ・モデルの第1の型(例えば単音マルコフ・モ
デル)の単語の基本形(B1)が先ず記憶される。基本
形B1を有する、問題にしている単語を段階9104で
選択する。
問題にしている単語から、発声入力に応答して発生され
たラベルのストリングを問題にしている単語の基本形B
1に適用する事によって高速一致ワード・スコア(WS
F)を発生する。高速一致スコアは単音マルコフ・モデ
ルから構成された基本形について遂行する事が好ましい
。即ち高速問題にしている一致ワード・スコアを決定す
るのに基本的な高速突合せもしくは(上述の)代替高速
突合せの1つを使用する。高速一致ワード・スコアは語
彙中の各単語毎に決定される(段階9108及び911
0)。
語彙中のすべての単語に高速一致ワード・スコア(WS
F)が割当てられると、単語はスコアの大きさに従って
順序リストにされる(段階9112)。順序リストの上
位のい(つかの単語を候補単語として特徴付け、語彙中
の他の単語は問題にしない。基本的な近似(即ち高速)
突合せもしくはその増強実施例として上述された様に段
階9102乃至9112の結果、さらに処理する必要が
ある単語の数は5000語以上から20乃至100語に
減少する。
各語粟について、第2の型のマルコフ・モデルによって
決定される基本形B2も存在する。高速突合せに使用し
た第1の型のマルコフ・モデルが単音型のものである時
には第2の聾のマルコフ・モデルはフエ不−ム型である
事が好ましい。高速突合せの後に残った候補単語のため
の基本形を含む基本形の各々を最初に記憶する。
候補単語の1つを段階9116で選択して、段階91C
j2で発生したラベルを精密突合せ法に従って選択した
候補単語の基本形B2に適用する。
発生したラベルに基づき選択した候補単語に対して精密
一致スコア(WSD)を発生する(段階9118)。所
与の候補単語のための高速一致スコアと所与の候補単語
のための精密一致スコアから、段階9120で化スコア
(TS)を形成する。(段階9122及び段階9124
の結果として)各候補単語について化スコアが決定され
ると、化スコアがスタック解読に使用される(段階91
26)。
第43図を参照するに、1つのアルゴリズムはポーリン
グを含み、他のアルゴリズムは音響突合せを含んでいる
。この実施例9200では、単語の集合は段階9202
で決定される。この単語の集合は語粱中の単語でもよ(
、高速突合せもしくは処理すべき単語の数を減少するた
めの成る他の技法を適用する事によって誘導した縮小し
た候補単語のリストでもよい。
数階9204で、単語を単語の集合から選択し、段階9
206のマルコフ・モデル基本形に基づいてポーリング
・アルゴリズムからワード・スコアを発生する。項E 
1.14で上述したポーリング・アルゴリズムに従って
、各ラベルは語集中の各単語に対して夫々投票権を有し
、各ラベルは語彙中の各単語に対する夫々ペナルティ(
拒否権)を有する。即ち各投票は特定の単語で生ずる特
定のラベルの尤度を示す尺度である。一方各ペナルティ
はラベルが特定の単語で発生しない事を示す尤度の尺度
である。上述の様に所与の単語及びストリング中の所与
の発生ラベルに対して、所与の単語に対する、ストリン
グ中のラベルの得票を加算し、所与の単語に対する、ス
) IJング中のラベルのペナルティを加算する。段階
9208でペナルティの相と得票の和を組合して所与の
単語のポーリング・ワード・スコア(wsp)を与える
。上述のポーリング・アルゴリズムは項E 1.14で
提案した様に修正もしくは変更が出来る。さらに望まれ
るならば、ポーリング・アルゴリズムにはペナルティを
使用しないで投票だけを含ませる事が出来る。
段階9210及び9212に関連して、すべてのワード
にポーリング・ワード・スコア(wsp)が割当てられ
ると段階9220で単語が再び選択される。発生したラ
ベル及び選択した単語を表わすマルコフ・モデル(段階
9222)に基づいて、音響一致ワード・スコア(WS
M)が発生される(段階9224)。音響一致スコアは
精密一致スコアでも高速一致スコアでもよく、基本形は
音標マルコフ・モデルもしくはフエネミツク・マルコフ
・モデルでもよい。さらに段階9206及び9222の
マルコフ・モデルは本発明の原理に従い同じ型もしくは
異なる型のものでよい。段階9226及び9228に関
連して、単語の集合中の各単語にWSMスコアが割当て
られる。
集合の各単語がポーリング・スコア(wsp)及び音響
一致スコア(WSM)を持つと、単語が段階92ろ0で
選択され、段階9232で総スコア(TS)が評価され
る。各単語の総スコアはポーリング・スコアと音響一致
スコアの和であるが、各スコアは適当と見做される方法
で重み付けられる。段階9232の総スコアはTS=a
  WSP+b*WSMとして同定される。ここでWS
Pは問題にしている単語のポーリング・スコアヲWSM
は該ワードの音響一致スコアを表わしている。
a及びbは夫々2つのスコアの重み付は係数を表わして
いる。段階9234及び9236に関連して、単語の集
合中の各単語に総スコアが割当てられる。スタック解読
過程(段階9238)は高い総スコアを有する単語を使
用する。
本発明のさらに他の特定の実施例9300を情報の流れ
図として第44図に示す。段階9302において、問題
にしている単語が選択される。段階9604で、問題に
している単語に対して、フエネミソク基本形に基づく精
密突合せが遂行されスコア(WSl)が発生される。発
生されるスコアは発声入力に応答して段階9306で発
生されるラベルのストリングに基づいている。段階93
08において、第2の精密突合せが遂行されスコア(w
s2)が発生される。段階9308で発生したスコアは
段階9306で発生したラベルのストリングに基づいて
いる。段階9310で、問題にしている単語に対して総
スコアが決定される。
段階9312及び9614に関連して、単語の集合中の
各単語は問題にしている単語として処理され、各単語が
対応する総スコアを持つ様になる。
次に総スコアをスコア解読(段階9316)に使用され
る。
第45図を参照して、第42図の方法に対応する構造9
400を説明する。スタック解読装置9402は高速突
合せ過程9404及び精密突合せ過程9406を呼出し
、単語の集合例えば単語の語粟もしくはこれから選択し
た単語のリスト中の単語に対して夫々高速一致スコア及
び精密一致スコアを発生する。問題にしているワードの
高速一致スコア(WS’F)及び精密一致スコア(WS
D)が総スコア過程段階9408によって組合される(
TS二CWSF十dWSD)。
第46図を参照して、第43図の方法を具体化した構造
9500を説明する。具体的には、スタック解読装置9
502が選択した単語経路に沿う次の単語を選択し、該
次の単語の終り時間分布を知る。次にこの終り時間を後
続の次の単語のための開始時間分布として使用する。終
り時間分布は高速突合せアルゴリズム・プロセッサ95
04及びポーリング・アルゴリズム−プロセッサ950
6に送られる。ラベル発生装置9508からのラベルに
基づいて、高速一致スコアとポーリング・スコアが夫々
のプロセッサ9504によって決定される。より尤度の
高い単語の夫々のスコア(候補ワード発生装置9510
によって決定される)が夫々記憶装置9512及び95
14中に記憶される。次に総スコア・プロセッサ951
6が記憶したスコアを組合して、総スコアをスタック解
読装置9502に与え、次のワード選択処理を行う。
F1発明の効果 以上のように、本発明の方法によれば、比較的短い計算
時間で音声単語を正確に認識する事が可能になる。
−へ(イ)寸の唖へのへ ・1 Lflい= ↑ ま 寸  d 骨  ’(+へ似  トlへ沫  トIへ壇  1へ七
ロ − uLl’cJ  LJIuW  1.JWLJ  LJ
−i−I  Wl−11−I  T−’JJJ  J、
J、J  、J−−J−、J  J−一 〇+    
                   +    +
 6ムー〇−〇q 、+。
罪←− 付  表   2 FILE FMKERN APAL A2*サブルーチ
ンAPFM このプログラムはFPSアレイ・プロセッサで音波高速
突合せを行う。このプログラムは長ざの分布の明示がな
くて走行する修正高速突合せである。
サブルーf7E VA L P P このルーチンは現在の格子ノードについて実際の高速突
合せ計算を遂行する。主プログラムはこのルーチンだけ
を呼出して有効なノードだけを評価し、葉に対応する空
ノードは評価しない。
初期設定・・・現在の格子ノード番号が与えられたとし
て、対応するクリンク番号を検索し、開始時間分布の長
さ、境界スタック中の開始時間分布へのポインタ及びフ
エネームの流れへのオフセットの様な突合せパラメータ
を設定する。
最初の0の個数=4: 開始時間分布に4個の0を充填。5DLENを4だけイ
ンクレメントして開始時間分布が終った後のループ動作
を簡単にする。
出力分布(時間−1)、出力和を初期設定し、乗算器を
クリアして最初の時間スライスのフエネーム確率を0に
セットする。
出力分布(0)=0.0; 出力和    =0.0; フエネーム確率=0.0; 状態i     =o、o; 状態2     =0.0; 状態3     =0.O; 状態4     =0.0; −N ロ            ω 最初のループ;最初の0の個数=4 現在の時間の出力分布値を計算し、出力和を更新し、次
の時間スライスのだめのフエネーム確率を計算する。
時刻=1から開始時間長+4迄を実行;出力分布(時間
)=7エネーム確率×(出力分布(時刻−1)子状態1
) 出力和=出力利子出力分布(時刻) 状態1=状態2×フエネーム確率 状態2=状態6×フエネーム確率 状態6=状態4×フエネーム確率 状態4=Stアレイ(時刻) フエネーム確率=fdアレイ(局所バッファ(最初のフ
エネーム+時刻))×尾部バッファ(最初のフエネーム
+時刻) 終り。
一 第2のループ 時間は現在開始時間+最初の0の個数に等しく、開始時
間分布の計算が終シ、すべての内部状態はOK等しい。
従ってこのコードの節はすべての初期0の場合に共通で
ある。
時間制限(開切時間長+ld長−1)もしくは出力がル
ープの切断点以下に下る迄ループ動作を続ける。
時間=開始長+1+初期0+時間の限界か出力分布(時
間)≧ルーズの切断迄実行 出力分布(時間)=7エネーム確率*比出力布(時間−
1) 出力分布和=出力利子出力分布(時間)7エネーム確率
=fdアレイ(局所バッファ(最初のフエネーム十時間
))×尾部バッファ(最初のフエネーム十時間) 終シ
【図面の簡単な説明】
第1図は本発明を実施するンステムの環境の一般的プロ
ック図である。第2図は第1図のスタック解読装置を特
に詳細に示したブロック図である。 第3図は精密突合せ単音マシンを示す図である。 第4図は音響プロセッサ中の装置を示したブロック図で
ある。第5図は代表的な人間の耳及び音響モデルの対応
素子を示した断面図である。第6図は音響プロセッサの
一部を示したブロック図である。第7図は音の大きさ対
周波数のグラフ表示図である。第8図はノーンとホンの
関係を示すグラフ表示図である。第9図は第4図の音響
プロセッサに従って音波が特徴付けられる方法を示す流
れ図である。第10図は第9図で閾値が更新される方法
を示した流れ図である。第11図は精密突合せ手順のト
レリス図である。第12図は突合せを遂行するのに使用
する単音マシンのブロック図である。第13図は成る条
件が課された突合せ手順中に使用する時間の分布図であ
る。第14図(、)、(b)、(c)、(d)及び(e
)は単音、ラベルのス) IJング並びに突合せ処理中
に決定される開始及び終シ時間の相互関係を示すグラフ
表示図である。第15図(a)は最小長が0の特定の単
音マシンを示す図である。第15図(b)は第15図(
、)に対応する時間図である。第16図(a)は最小長
が4である単音マシンを示す図であシ、第16図(b)
はこれに対応する時間図である。第17図は多くの単語
を同時に処理出来る単音のツリー構造の図である。第1
8図は音響突合せを遂行するための単音マシンの訓練段
階を示す流れ図である。第19図はスタック解読段階を
示す図である。第20図は夫々の単語経路及び尤度包絡
線のための尤度ベクトルを示すグラフ表示図である。第
21図はスタック解読手順を表わす流れ図である。第2
2図は音響突合せから得た単語によって単語経路が延長
される方法を示した図である。第23図はフエネミツク
単語マシンを示した図である。第24図は複数の順次フ
エネミツク単音マシンのためのトレリス図である。第2
5図は予備配列に使用する単音ツリー構造の一部を示す
図である。第26図乃至第30図及び第62図乃至第3
5図はどの様にして音響突合せが遂行されるかを示す流
れ図である。第61図乃至第35図は精密音声突合せに
使用する実際のラベル確率を近似高速音響突合せで置換
える段階を示す流れ図である。第36図は第36.1図
及び第36.2図の結合方法を示す図であり、第36.
1図及び第36.2図は本発明のポーリング突合せ方法
を示す図である。第37図はラベルのカウント分布を示
すグラフ表示図である。第38図は訓練期間中に各単音
が発生する各ラベルの回数を示したグラフ表示図である
。第39図は各ラベル毎のワードのカウントの予想数を
示したグラフ表示図である。第40図はポーリングを遂
行する本発明の装置を示すブロック図である。第41図
は複数の独立したワード・スコアから総ワード・スコア
を示す情報の流れ図である。第42図、第43図及び第
44図は夫々複数の独立したワード・スコアから総ワー
ド・スコアを発生する特定の実施例を示すブロック図で
ある。第45図は総ワード・スコアを精密一致ワード・
スコア及び高速一致ワード・スコアから誘導する1つの
構造実施例を示すブロック図である。第46図は総ワー
ド・スコアを発生するための、高速一致ワード・スコア
発生装置及びポーリング・ワード・スコア発生装置を示
す構造ブロック図である。 1000・・・・音声認識装置、1002・・・・スタ
ック解読装置、1004・・・・音響プロセッサ、10
06・・・・高速突合せプロセッサ、1008・・・・
精密突合せプロセッサ、1012・・・・ワークステー
ション、1010・・・・言語モデル。 出願人 インターナ9タナノいビン木ス・マシーZズ・
コーポレークヨン→Q←CΔ酸モ 撚 〉 )J 第9図 特徴つ”tl 第11図 檎叡突令也のトしリス図 時f罰 単音マシン 第12図 時内分坤日 第13図 ・          耕ミ 法 第19図 久々7・・′橢写Lδ1−丁U情 才22図 第28因 フエ¥しツク単音マシシ 第24図 フ1キミソク単音マシン tl    t2    t3 ←”0 オ 36・1 口 才 37回 ボーリ〉グ231う尊i4 第40 圀 ラベルの千ぞ麦よ

Claims (1)

    【特許請求の範囲】
  1. (1)音声認識装置中で音声入力に対応する単語の尤度
    を評価するため、 (a)単語の語彙中の問題にしている単語に対して、音
    響突合せ第1のアルゴリズムに基づいて問題にしてる単
    語を表わす第1のワード・スコアを発生する段階、 (b)上記問題にしている単語に対して、上記第1のア
    ルゴリズムとは異なる第2の独立したアルゴリズムに基
    づいて第2のワード・スコアを発生する段階、 (c)少なく共上記第1のワード・スコア及び第2のワ
    ード・スコアから問題にしている単語のための総ワード
    ・スコアを形成する段階を有する、 音声入力に対応する単語の尤度評価方法。
JP62043238A 1986-03-27 1987-02-27 音声認識方法 Granted JPS62231996A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/845,155 US4718094A (en) 1984-11-19 1986-03-27 Speech recognition system
US845155 1986-03-27

Publications (2)

Publication Number Publication Date
JPS62231996A true JPS62231996A (ja) 1987-10-12
JPH0431600B2 JPH0431600B2 (ja) 1992-05-26

Family

ID=25294540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62043238A Granted JPS62231996A (ja) 1986-03-27 1987-02-27 音声認識方法

Country Status (5)

Country Link
US (1) US4718094A (ja)
EP (1) EP0239016B1 (ja)
JP (1) JPS62231996A (ja)
CA (1) CA1257697A (ja)
DE (1) DE3783154T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05216490A (ja) * 1991-10-23 1993-08-27 Internatl Business Mach Corp <Ibm> 音声コード化装置及び方法並びに音声認識装置及び方法

Families Citing this family (217)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0632012B2 (ja) * 1985-03-25 1994-04-27 株式会社東芝 音声認識装置
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
DE3676502D1 (de) * 1985-12-20 1991-02-07 Dietmar Steinpichler Verfahren zur mustererkennung.
CA1311059C (en) * 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4941178A (en) * 1986-04-01 1990-07-10 Gte Laboratories Incorporated Speech recognition using preclassification and spectral normalization
US5142593A (en) * 1986-06-16 1992-08-25 Kabushiki Kaisha Toshiba Apparatus and method for classifying feature data at a high speed
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
US4852180A (en) * 1987-04-03 1989-07-25 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition by acoustic/phonetic system and technique
DE3711342A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen zusammenhaengend gesprochener woerter
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
US5140668A (en) * 1987-11-10 1992-08-18 Nec Corporation Phoneme recognition utilizing relative positions of reference phoneme patterns and input vectors in a feature space
NZ226959A (en) * 1987-11-11 1990-07-26 Univ Melbourne Evoked response audiometer: determining locking of brain signals to audio stimulus
JPH01167898A (ja) * 1987-12-04 1989-07-03 Internatl Business Mach Corp <Ibm> 音声認識装置
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
US5220639A (en) * 1989-12-01 1993-06-15 National Science Council Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
JP2795719B2 (ja) * 1990-03-07 1998-09-10 富士通株式会社 認識距離の差に基づく最良優先探索処理方法
US5129001A (en) * 1990-04-25 1992-07-07 International Business Machines Corporation Method and apparatus for modeling words with multi-arc markov models
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
JP2662120B2 (ja) * 1991-10-01 1997-10-08 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置および音声認識用処理ユニット
EP0634042B1 (en) * 1992-03-06 2001-07-11 Dragon Systems Inc. Speech recognition system for languages with compound words
EP0590173A1 (de) * 1992-09-28 1994-04-06 International Business Machines Corporation Computersystem zur Spracherkennung
US5406633A (en) * 1992-11-03 1995-04-11 Auditory System Technologies, Inc. Hearing aid with permanently adjusted frequency response
DE4323241A1 (de) * 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
US5737490A (en) * 1993-09-30 1998-04-07 Apple Computer, Inc. Method and apparatus for constructing continuous parameter fenonic hidden markov models by replacing phonetic models with continous fenonic models
CN1063554C (zh) * 1994-03-03 2001-03-21 李琳山 中文电脑的汉语语音输入系统及其方法
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5737723A (en) * 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5640557A (en) * 1994-11-18 1997-06-17 International Business Machines Corporation Method and system for processing logic blocks in a data processing system
US5729656A (en) * 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5825977A (en) * 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5761687A (en) * 1995-10-04 1998-06-02 Apple Computer, Inc. Character-based correction arrangement with correction propagation
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US6446038B1 (en) * 1996-04-01 2002-09-03 Qwest Communications International, Inc. Method and system for objectively evaluating speech
US5870706A (en) * 1996-04-10 1999-02-09 Lucent Technologies, Inc. Method and apparatus for an improved language recognition system
US5875426A (en) * 1996-06-12 1999-02-23 International Business Machines Corporation Recognizing speech having word liaisons by adding a phoneme to reference word models
US6092044A (en) * 1997-03-28 2000-07-18 Dragon Systems, Inc. Pronunciation generation in speech recognition
JP3067683B2 (ja) * 1997-04-01 2000-07-17 日本電気株式会社 パターン認識装置および方法、情報記憶媒体
FR2769118B1 (fr) * 1997-09-29 1999-12-03 Matra Communication Procede de reconnaissance de parole
DE19754957A1 (de) * 1997-12-11 1999-06-17 Daimler Chrysler Ag Verfahren zur Spracherkennung
JP3004254B2 (ja) * 1998-06-12 2000-01-31 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
JP3803029B2 (ja) * 1998-09-09 2006-08-02 旭化成株式会社 音声認識装置
US6275801B1 (en) * 1998-11-03 2001-08-14 International Business Machines Corporation Non-leaf node penalty score assignment system and method for improving acoustic fast match speed in large vocabulary systems
US6266638B1 (en) * 1999-03-30 2001-07-24 At&T Corp Voice quality compensation system for speech synthesis based on unit-selection speech database
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7080011B2 (en) * 2000-08-04 2006-07-18 International Business Machines Corporation Speech label accelerators and techniques for using same
US7003455B1 (en) * 2000-10-16 2006-02-21 Microsoft Corporation Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
US7092883B1 (en) * 2002-03-29 2006-08-15 At&T Generating confidence scores from word lattices
US7117148B2 (en) * 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7181392B2 (en) * 2002-07-16 2007-02-20 International Business Machines Corporation Determining speech recognition accuracy
US7496498B2 (en) * 2003-03-24 2009-02-24 Microsoft Corporation Front-end architecture for a multi-lingual text-to-speech system
JP4349216B2 (ja) * 2004-06-21 2009-10-21 富士ゼロックス株式会社 分布適合度検定装置、消耗品補給タイミング判定装置、画像形成装置、分布適合度検定方法及びプログラム
US7505902B2 (en) * 2004-07-28 2009-03-17 University Of Maryland Discrimination of components of audio signals based on multiscale spectro-temporal modulations
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080129520A1 (en) * 2006-12-01 2008-06-05 Apple Computer, Inc. Electronic device with enhanced audio feedback
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) * 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
WO2009078256A1 (ja) * 2007-12-18 2009-06-25 Nec Corporation 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) * 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) * 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8200478B2 (en) * 2009-01-30 2012-06-12 Mitsubishi Electric Corporation Voice recognition device which recognizes contents of speech
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) * 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
CN104267922B (zh) * 2014-09-16 2019-05-31 联想(北京)有限公司 一种信息处理方法及电子设备
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10008201B2 (en) * 2015-09-28 2018-06-26 GM Global Technology Operations LLC Streamlined navigational speech recognition
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9761227B1 (en) 2016-05-26 2017-09-12 Nuance Communications, Inc. Method and system for hybrid decoding for enhanced end-user privacy and low latency
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10943143B2 (en) * 2018-12-28 2021-03-09 Paypal, Inc. Algorithm for scoring partial matches between words

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5752100A (en) * 1980-09-12 1982-03-27 Nippon Telegraph & Telephone Word voice recognizing system
JPS60129798A (ja) * 1983-12-16 1985-07-11 沖電気工業株式会社 音声認識方式
JPS61177493A (ja) * 1985-01-31 1986-08-09 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 音声認識方法
JPS62118397A (ja) * 1985-11-15 1987-05-29 インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション 音声認識方法
JPS62220996A (ja) * 1986-03-18 1987-09-29 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン 音声認識方法及び装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3943295A (en) * 1974-07-17 1976-03-09 Threshold Technology, Inc. Apparatus and method for recognizing words from among continuous speech
US4038503A (en) * 1975-12-29 1977-07-26 Dialog Systems, Inc. Speech recognition apparatus
GB1569450A (en) * 1976-05-27 1980-06-18 Nippon Electric Co Speech recognition system
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
US4277644A (en) * 1979-07-16 1981-07-07 Bell Telephone Laboratories, Incorporated Syntactic continuous speech recognizer
US4319085A (en) * 1980-04-08 1982-03-09 Threshold Technology Inc. Speech recognition apparatus and method
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
US4513436A (en) * 1980-09-16 1985-04-23 Oki Electric Industry, Co., Ltd. Speech recognition system
AU7529981A (en) * 1980-09-19 1982-03-25 Hitachi Limited Language analysis by pattern recognition
US4394538A (en) * 1981-03-04 1983-07-19 Threshold Technology, Inc. Speech recognition system and method
JPS57147781A (en) * 1981-03-06 1982-09-11 Nec Corp Pattern matching device
US4400788A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Continuous speech pattern recognizer
US4435617A (en) * 1981-08-13 1984-03-06 Griggs David T Speech-controlled phonetic typewriter or display device using two-tier approach
JPS5844500A (ja) * 1981-09-11 1983-03-15 シャープ株式会社 音声認識方式
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4489434A (en) * 1981-10-05 1984-12-18 Exxon Corporation Speech recognition method and apparatus
US4489435A (en) * 1981-10-05 1984-12-18 Exxon Corporation Method and apparatus for continuous word string recognition
JPS58111989A (ja) * 1981-12-25 1983-07-04 シャープ株式会社 音声認識装置
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4593367A (en) * 1984-01-16 1986-06-03 Itt Corporation Probabilistic learning element

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5752100A (en) * 1980-09-12 1982-03-27 Nippon Telegraph & Telephone Word voice recognizing system
JPS60129798A (ja) * 1983-12-16 1985-07-11 沖電気工業株式会社 音声認識方式
JPS61177493A (ja) * 1985-01-31 1986-08-09 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 音声認識方法
JPS62118397A (ja) * 1985-11-15 1987-05-29 インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション 音声認識方法
JPS62220996A (ja) * 1986-03-18 1987-09-29 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン 音声認識方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05216490A (ja) * 1991-10-23 1993-08-27 Internatl Business Mach Corp <Ibm> 音声コード化装置及び方法並びに音声認識装置及び方法

Also Published As

Publication number Publication date
EP0239016A3 (en) 1988-03-30
CA1257697A (en) 1989-07-18
DE3783154T2 (de) 1993-07-01
EP0239016A2 (en) 1987-09-30
JPH0431600B2 (ja) 1992-05-26
EP0239016B1 (en) 1992-12-23
DE3783154D1 (de) 1993-02-04
US4718094A (en) 1988-01-05

Similar Documents

Publication Publication Date Title
JPS62231996A (ja) 音声認識方法
US8019602B2 (en) Automatic speech recognition learning using user corrections
Hilger et al. Quantile based histogram equalization for noise robust large vocabulary speech recognition
CA2233179C (en) Unsupervised hmm adaptation based on speech-silence discrimination
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
US5812973A (en) Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system
JP2002500779A (ja) 識別訓練されたモデルを用いる音声認識システム
JPH05216490A (ja) 音声コード化装置及び方法並びに音声認識装置及び方法
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
CN112349289B (zh) 一种语音识别方法、装置、设备以及存储介质
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
Stuttle A Gaussian mixture model spectral representation for speech recognition
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP3628245B2 (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
Kurian et al. Connected digit speech recognition system for Malayalam language
Young Acoustic modelling for large vocabulary continuous speech recognition
JPH0895592A (ja) パターン認識方法
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
Trivedi A survey on English digit speech recognition using HMM
EP0238695A1 (en) Automatic generation of simple markov model stunted baseforms for words in a vocabulary
JPH0822296A (ja) パターン認識方法
Frikha et al. Hidden Markov models (HMMs) isolated word recognizer with the optimization of acoustical analysis and modeling techniques
EP0238696B1 (en) Method and apparatus for producing a list of candidate words likely corresponding to a spoken input
JPH02272498A (ja) 音声認識方法