JPS63259697A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS63259697A
JPS63259697A JP63078322A JP7832288A JPS63259697A JP S63259697 A JPS63259697 A JP S63259697A JP 63078322 A JP63078322 A JP 63078322A JP 7832288 A JP7832288 A JP 7832288A JP S63259697 A JPS63259697 A JP S63259697A
Authority
JP
Japan
Prior art keywords
speech
signal
sequence
likelihood
phonetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63078322A
Other languages
English (en)
Inventor
ステファン エリオット リビンソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
American Telephone and Telegraph Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by American Telephone and Telegraph Co Inc filed Critical American Telephone and Telegraph Co Inc
Publication of JPS63259697A publication Critical patent/JPS63259697A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (発明の背景) [産業上の利用分野] 本発明は音声認識システムに関し、特に、話者独立形式
のこの種の音声認識システムに関する。
[従来技術の説明コ 音声処理領域においては音声認識は3つの総括的な種類
の問題の最も困難なものであるということか一般的に認
識されている。もちろん音声の符号化は今までにおいて
最も商業的な種類の音声処理装置であり、そして、音声
合成用のなんらかの商業的な装置も存在する。
それにもかかわらず、音声認識問題ば非常に手に負えな
いものである。大部分の認識システムはその能力が相異
なる話者からの音声を認識したり、極めて焦点を絞った
、すなわち、タスク指向の環境で極めて制限されたM素
置上を認識する能力において制限されていた。連続音声
認識を可能にする音声認識システムを持つことは望まし
いことであるということも広く認識されている。
最近、数ワードを基礎とする連続音声認識システムか製
作されている0例えば、この製作された1つのシステム
はエム、アール、シュロータ、イーデー、カルガー、ペ
ースト スイッツアラント(M、R,5chroeda
r、  Ed、、Kargar、  BasedSwi
tzerland)よりの「スピーチ アンド スピー
カー レコクニション(Speech  and  5
peakar  Recognition)J、149
−96ページ、1985年、におけるニス、イー。
レビンソン(S、E、Levinson)及びエル、ア
ール、ラビナー(L、R,Rabinar)による「ア
 タスク−オリエンテッド カンパセーショナル モー
ト スピーチ アンダスタンディング システム(A 
 Ta5k−Orianted  Conversat
ional  M。
de  5peech  Understanding
  System)Jにより記載されたシステムである
。このシステム及び最近開発された他の類似のシステム
は第1にワードに基づくものである。これらのシステム
は特定の限定された方法で正確に音声を認識することは
成功したか、基本的な音響パターンとしてのワードの使
用は広い語愛にわたって多くの話者の流暢な講演を受は
入れられるように、現在の動作規制条件を緩和する可能
性を除去してしまう。
ワードベースのこの試みに対してしばしば示唆される代
替方法は短期間の比較的わずかの音声単位くすべてのワ
ードはこの単位で構成することができる)が測定可能な
音響的な特徴により規定されるいわゆる音響(acou
stic)/音声(phonetic)方法である。一
般的に言えば、この方法に基づく音声認識は3つのステ
ップで起こる。第1に、音声信号はその構成要素の音声
(phonetic)単位に分割され、この構成単位は
更にそれらの測定可能な音響的な(acoustic)
特徴に基づいて分類される。第2に、その音声単位はそ
の選択された音声単位の点ですべての語嚢のワードを記
載する辞書を部分的に使用してなんらかのベースでワー
ドを形成するように組み合される。第3に、このワード
は何らかの文法仕様にしたかって文を形成するように組
合される。
この基本的な方法論のまったく異なる具体例のいくつか
は、上記の構成要素とは若干異なっても文献で見つける
ことがてきる0例えば、1975年2月の[アイイーイ
ーイー トランズアクションズ オン アクーステイク
ス、スピーチ アンド シフナル ブロセシンク(IE
EE  Transactions  on  Aco
ustics、5peech  and  Signa
l  Processing)J、Vol、ASSP−
23、No、1.1975年2月、pp、2〜i。
においてダブリュ、エイ、ウッズ(W、A、W。
ods)による「モチベーション アント オーバービ
ュー オン スピーチリス:アン エクスベリメンタル
 プロトタイプ フォー スピーチアンタースタンディ
ング リサーチ(Motivation  and  
Overview  ofSPEECHLIS:  A
n  Experimental  Prototyp
e  for  5paech   Understa
nding   Re5earch)Jの論文を参照、
これらのシステムはすべて非常に複雑なものであって、
これらのシステム中に上に概略した基本構成要素は時く
は変形した構成で存在する。これらの全システムかすべ
ての統語論及びすべての語嚢に関して完全に取扱い可能
であるとは限らないということはそれらか使用の点で非
常に制限される(例えば、タスク指向であって、例えば
1月の石のサンプル情報の検索)ということを意味する
従って本発明の目的は、すべての文法及び辞書及びすべ
ての話者を包括する能力が強大で、容易に拡張可能とな
るように方法的に組織化されているシステムを提供する
ことである。
本発明の更に他の目的は容易に、しかも複雑ないわゆる
動的時間歪曲(time−warping)技術なしに
音声の期間的な変動を扱うようなシステムを提供するこ
とである。
(発明の概要) 本発明によれば、上記の種類の音#/音声認識方法は、
各ステップか発声の波形から得られる音声期間情報及び
音声符号候補のアレイのそれぞれのメンバーに関する尤
度信号(likslih。
ad  signal)及び候補ワードのアレイのそれ
ぞれのメンバーに関する尤度信号に正しく応答するよう
になっている。
更に、本発明の非常に重要な特徴によれば、候補ワード
の間での適切なワードを選択する能力は、候補ワードア
レイのそれぞれのメンバーを、発声の対応部分を表す音
響的な特徴信号と比較し、配列することにより改善され
る。
このワード選択プロセスの出力は各ワードごとの最良の
候補のみからなり、これらの候補は最初に述べた最終文
選択ステップに入力される。一般的に、各ワードごとの
いくつかの候補を文選択ステップに入力することは必要
である。これは、特に英語におけるワードの最終的な不
明確さか文の形成に関係する文法的な規則によってのみ
解決できるからである。やはり句及び文を形成するため
に文法の規則を適用する、従来提案された技術のどれも
かこの装置の最終部分では利用することかできる。
本発明は更なる発展、精巧さ及び拡張の為に有力なシス
テムを提供する。これは、上記の音声認識システムとは
異なり、この本発明は上記の音響的/音声的な方法のア
ウトラインに明確に且つ直接にまねているが、更に非常
に複雑な用途で実行することが可能であるからである0
本発明が直接的で簡易なのは、従来技術で使用される包
括度の劣る音韻学的規則の代りに言語の音響的/音声的
構造のモデルとして連続可変期間秘匿マルコフモデルを
使用するからである。「マルコフ」なる用語は音声信号
に潜在する蒼然的ではあるが、直接的には観測不可能な
事象に関するものである。
本発明で使用される連続可変期間秘匿マルコフモデルは
ワードを直接あわらすよりも、むしろ音声の音響的/音
声的構造を表す、音声単位は潜在的なマルコフ鎖の観測
できない状態で識別される。このシステムの他のパラメ
ータは、動的なプロクラミンクアルゴリズムが発声の音
声的な改変を得るために使用することかできるように構
成されている。
本発明の好適な実施例では、認識の辞書アクセスステッ
プは発音辞書に基づいており、各記載事項は秘匿マルコ
フ鎖の状態を表す音声符号について正射影で表現される
。この好適な実施例のいくつかの他の特徴は以下に明ら
かになる。
この認識方法は測定時に条件付けられる最大の可能性か
あり、かつ文法的に正しく形成された文章をワード格子
から回復することにより従来型の文章認識方法により容
易に完成される。この認識方法の最終部分は、本発明に
より提供される候補アレイ及び尤度信号のために更に効
率的に作用することが期待される。
[実施例の説明] (1)一般説明 第1図の実施例においては、入力音声の流れは例示的に
話者から得られるが、他の機械からの音声の流れを使用
してもよい、この音声の流れはブロック11として示し
た公知の種類の装置に流れて線形予測符号化解析(通常
LPG解析と呼ばれる)を受ける。ブロック11の装置
のための基本的な組織及び構成はアイイーイーイー ト
ランズアクションズ オン アク−スティック スピー
チ アント シグナル プロセッシング(IEEE  
Transactions  on  Acousti
c  5paech  and  SignalPro
cessing)J、Vol、ASSP−23、No、
1.1975年2月の論文ミニマムプレディクシミン 
レシジュアル プリンシプル アプライド ツー スピ
ーチ レコグニション(Minimum  Predi
ction  Re5idual  Pr1ncipl
e  Applfed  to  5peech  R
ecognition)Jにおいてエフ イタクラ[F
、Itakura)によりいくぶん詳しく開示されてい
る。また現代の大規模集積電子技術で、いくつかの他の
構成が可能であり、その例かエル、アール、ラビナー(
L、R,Rabiner)との木発明者の上記論文の第
2図である。
結果として生じる音声の特徴信号の組は次にシステム部
分12における技術の組み合せにより処理され、ある程
度の可能性を持って音声セグメントを検出したり、この
セグメントのアレイである高価な期間情報を提供する。
システム部分12における処理のためのアルゴリズムは
、いわゆる連続可変期間秘匿マルコフモデルである記憶
モデル13にアクセスする。これはコンピュータ スピ
ーチ アンド ランクエツジ(ComputerSpe
ech  and  Laungage)J、Vol、
1.pp、29〜44.アカデミツクプレス インク(
ロンドン)リミテッド(1988)(Academic
  Press  Inc。
(London)L′td、)の本発明者の論文「コン
ティニュアスリー バリアプル デュレイション ヒド
ン マルコフ モデルズ フォーオートマチイック ス
ピーチ リコグニション(Continuously 
 VariableDuration  Hidden
  MarkovModels   for   Au
tomatic   5peach  Recogni
tion)Jに記載されている。そして補足的な音声情
報を好都合に活用する調査及び分類技術をシステム部分
12で提供する(以下詳述する)6次に、音声セグメン
ト及び期間候補の場合には、システム部分14か辞書1
5(コンピュータに電子的に記憶した大記憶装置)に対
して、なるべくなら、1対の音声セグメントを用いてア
クセスし、候補ワードのアレイを得ることが望ましい。
次に整列手順が、ブロック11のLPG解析からの音響
的特徴に応答して、システム部分16で実行されて1図
示の候補ワード用の見込み信号を計算する。
装置112〜16はデジタルコンピュータにより実行さ
れる。この例は2例えば、オハイオ州アクトンのアライ
アント コンピュータ コーポレーション(Allia
nt  Computer  Corporation
)により製造されているA11iant  FX−8型
のデジタルコンビュ−タである。記憶モデル13、辞書
15及び文章認識装置17はすべて記憶装置内に記憶さ
れた所定の情報を大量に使用する。
整列装置16の出力は従来技術の文章認識装置17に供
給される。この文章認識装置17はワード候補の中で残
っている不明確さを解決して最良の文章を選択するタイ
プのものでよい。
本発明の基本的な理解は次の点を考慮することによって
得ることかできる。ここで提案された音響的/音声的実
施例の1つの基本的な点はスピーチか少数のシンボルに
基づく符号であるという仮定に基づく、これらの符号の
実体は不明であるか、これらのものの物理的な徴候は音
響信号の測定を行うことにより直接観察することかでき
る。
これらの仮定の下で、かつ、多くの以前の研究者による
実験にかんがみて、いわゆる秘匿マルコフ鎖のような現
象をモデル化することはまったく当然なことである。符
号のシンボルは離散的で、未知で直接的には観察不可能
であるので、マルコフ鎖と普通呼ばれる潜在的で観察不
可能な蓋然的な一連の事象の状態てそれらのシンボルを
識別することは合理的である。一方、音響信号は利用可
能であってそのスペクトル及び時間的特徴は符号のシン
ボルと相関関係があると考えられている。従って信号を
音響的な観察よりなる一組の統計的分散により表すと共
に、マルコフ鎖の各状態と1つの分散を関係付けること
が適切である。信号の情報の時間的符号化を説明するた
めには、状態の期間を蓋然的に特徴付ける機構を持たな
ければならない。
(2)詳細な説明 次に、連続可変期間秘匿マルコフモデルはかなり整然と
音声信号のいくつかの本質的な面を補足しているように
思われる。音声単位(すなわち、符号シンボル)は秘匿
状態(q+)+=+  により表される。秘匿マルコフ
鎖の状態遷移確率alJは音声の音声構造(すなわち、
符号自体)を説明する。シンボルの音響相関は時間指示
観察0teR’である。このスペクトル情報はin濃度
(hJ (ot )) −4の組に含まれており、そし
て、期間的情報は期間濃度(dj (t))j−+の組
に存在する。
d次元観測濃度はガウス型で、期間濃度はガンマ分散型
であるべきである。これらの仮定の下で、n状態モデル
のパラメータは状態遷移確率aB、l≦i、j≦n、観
測手段、kjh、  l≦j<n、1<k<d、観測共
分散uJm+、1<j≦n、1≦に、1.≦d、そして
、期間形状及び場所のパラメータνj及びηj1≦j≦
nである。
このパラメータ化のために、最適な組の値を計算する方
法か知られている。この1つの方法は以下に述べる。
秘匿マルコフモデルの基づくいくつかの音声認識装置で
は、各語嚢のワードは異なるモデルにより表され、その
尤度関数は与えられた入力について推定され、そして、
パイシアン(Bayes 1an)分類方法で使用する
ことができる。しかしながら、本システムにおいては、
状態シーケンスは支配的な役割りを演じる。これは、こ
の状態シーケンスか音声的な改変を生じるからである。
尤度関数も後で解るごとく、それ程重要でない目的のた
めに使用される。
本音響/音声システムにおいては、主要問題は与えられ
た音声信号に対応する状態シーケンスを如何に決定する
かである。これは、なるべくなう、期間濃度を説明する
動的プロゲラミンクアルゴリズムによって達成されるこ
とか好ましい。
αL  (j)を状sjで終る状態シーケンスの尤度で
あるとする。この尤度は状態及び観察シーケンスの共同
尤度を時間tまでにこの時間tを含めて最大にするもの
である。この量は反復的に次の式から計算することがで
きる。
この場合1≦j≦n及び1≦t≦Tである。
(式lの用語は付録Aで定義しである)。
同時に次の式を設定すれば、 β、G) = (i、τ)−argmax (cb(j
))、         (2)−丁 最終状態から次の式にもとることかでき、それにより、
所望の状態シーケンスを再構築して入力の音声改変を得
ることかできる。一連のワードとして式1〜3から得ら
れる音声改変を解釈するタスクは、不規則な挿入、削除
及び文字の交換及びワード間の空間の除去により崩壊し
た本文を読むタスクとは異なつてはいない、音声認識を
する際の本発明の方法は辞書アクセスの心理言語概念に
基づいている。
辞書アクセスの概念の基本的な前提はワードが辞書に記
憶されて音響的な特徴の点よりもむしろなんらかの音声
的な正射影でワードか表されるということである。スピ
ーチを理解する認識ステップでは、ワードは部分的な音
声情報に基づいて辞書から検索される。音声−辞書マツ
ピンクはこうして本来多一対−1であって2種類の不明
瞭さをもたらす、すなわち、まず第1に、音声シーケン
スは散ワードに共通となることかある。第2にワードは
いくつかの互いに異なる音声シーケンスに基づいて検索
することかてきる。第1の形態の不明瞭性により認識問
題は更に困難となり、後半の処理ステップで解決されな
ければならない、しかしながら、この第2の種類は利点
がある。音声的な改変は改悪となるので、一定のワード
に関する多数の手掛りが必要である。*発明で使用され
る部分的な辞書アクセス方法は補足的な音声情報を活用
する方法を好都合に提供する。
ここで使用される技術の特定形状は次の通りである0式
1〜3の推定から生じる音声改変は次の状態シーケンス
であると仮定する、 q”Q1+q21”TL’l電+l+…會(II+Pl
−川Qsψ(4)ここでqlはl≦i≦Nの場合のその
シーケンスの第1番目の状態の番号である。
ここで1≦t≦N−p(pは一定)の場合法の形態のす
べてのp+lの集合を考える。
q” q++  Q++1 山−lql+P     
                  (5)このqの
各々はパッシング関数の変数として考その値aは辞書の
アドレスである。素数Pは辞書の記録数よりも大きくな
るように選ばれている。この場合、辞書は小シーケンス
として9を含む正射影表示をa番目の記録が持つように
構成されている。辞書も第3番目の記録が9を含む他の
ワードに対しリンクを持つように構成されている。この
鎖の最後のワードはリンクを有していない、一般に、各
辞書の項目は1つ以上のp+1の集合を含んでいるので
それぞれに別のリンクを持たなければならない。これら
のリンクはすべて辞書の正射影表示から自動的に発生す
ることができ、そして、手動的に構成される必要はない
このような技術の数学的な面及びコンピュータの計算の
更なる詳細はデー、イー、ヌース(D。
1:、Knuth)による本「ザ アート オブコンピ
ュータ プログラミング(The  Artof  C
omputer  Programming)Jアディ
ソンーウェスリー(Addis。
n−Weslay)、Vol、1、pP、230〜23
1及びVol、3、pp、506〜542、特に、「探
索及び分類」に関する部分で見ることができる。
上記の辞書アクセス方法はワードの場所のだいたいの推
定1例えば、スピーチの流れの中でのそれぞれの始めと
終りを与える効果を有している。
上述のように、これらの場所は首尾一貫しない傾向があ
る。その不明確さを解決するために、本発明は音響測定
及び音声改変から更に多くの情報を抽出して、信号の最
適解釈が得られる仕方でその情報を表現する必要がある
。特に、ワー1’yか時間期間(τ0、τ、)に現れる
尤度L(ν1τ0、τ、)を計算することが望まれる。
アクセス方法により発見されたすべてのワードについて
一度計算か行われると、この情報はフード格子と呼ばれ
るグラフによって有効に表現することかできる。
まずその問題に対する理論的に最適な試みを考える。
アクセスされるワードνは正射影2I!th1、a2、
・・・、4.を有し、この正射影では音声改変に匹敵す
る小シーケンスはq=5+ 。
61+I+  ・・・、al、、であるとする、更に、
最も初期のステップで、νか時間τ。で始まり、そして
、τ、までに終ると仮定する。すると、4はその期間内
のどこかで発生したはずであり、状態QIはある時間;
、@(τ0、τ、)において終り、そして、もちろん、
1≦i<mの場合には’r il! > (1である。
L(ν1τ0、τ、)の合理的な定義は、状態遷移時間
卆。、 ヲ1、・・・、9.の制限を満足するすべての選択にわ
たってO”co、  ・・・、0)1及び亀8.4□、
・・・a、の共同尤度の最大値である。すなわち、 ここてTはすべての可能な状8遷移時間の組である、す
なわち、 T−(丸、も1.−9ζ1?oくもくモ1く・・・くζ
ニー>、   (8)(7)で定義したように、L(ν
1τ。、τ、)は次の式から計算することができる、 (9)は正しいが、この式はTの基数が、一般的には非
常に大きいので、実際には役立たずである。
しかしながら、L(ν1τ。、τ、)を計算する効率的
な方法が存在する。γt(′q+)を0τ。・・・0.
及び′qt + ’:q□・・・、’11(7)最大共
同対数光度とする0次に、γt  (′qム)はに繰り
返して計算することかできる、 最後に、 log[L(v l s、b>]−?、 ((1+11
)        (11)上記の辞書のアクセス及び
整列方法により多くの辞書の仮説が発生される。そのい
くつかは首尾一貫しない、これらすべての仮説を便利な
形で保持して後で不明瞭な点を解決し、それにより最良
の文を回復するようにしたい。
この要件を満足するデータ構造はワード格子である。こ
のワード格子の水平方向は時間を表し、そして、代替的
な辞書の仮説を垂直方向に配列して首尾一貫しない仮説
か同一の水平方向ではあるか別々の垂直位置を持つ複数
組のツロウクとして現れるようにする。このようなデー
タ構造は有向グラフとしてコンピュータの中に便宜上記
憶されており、この有向グラフの先端はワード境界であ
り、この有向グラフの縁部は時間的に常に前向きのそれ
ぞれの対数尤度により重み付けられたワードである。今
、尤度しくν1τム、τj)を持っτ1からτ、までの
期間にワードνを表す縁部を(τ蔦、シ、τJ、Lν)
によって表すことにする。もちろん、一般には、対応す
るグラフを切り離すギャップ及び重複がその格子に存在
する。この問題は、発声時間が適切な実験的に選定され
た互いの付近内にあるときはいつも2つの明確な境界を
識別することによって除去される。
次に第3′図と第4図の流れ図をみる。コンピュータの
中央処理装置の動作の第1ステツプは適切な開始条件に
中央処理レジスタのすべてをリセットすることである。
装置11からの入力データは入力レジスタに記憶される
量のアレイとして入力されるが、このアレイを流れ図で
示したようにアレイbIτとして示す。
ブロック35でのすべての処理は初期の記憶値を設定す
る。ブロック36と37は状態インデックスと時間イン
デックスを増分させる。ブロック38〜39はM察の対
数確率の和を計算する。
ブロック40〜44は最初の状態で生じる第1のt個の
観測の最大尤度を計算する。
ブロック45〜54は任意の状態シーケンスから生じる
最初のt個の観測の最大確率を計算する。
ブロック55〜59は最後の!11測が生した最も可能
性ある状態及びa測シーケンスの尤度を決定する。
ブロック30から終りまでは最適状態シーケンスを再構
成する。
上記の方法への入力データよりなる最初のアレイのため
に必要なパラメータのすべては今や計算され、そして、
プロセスは次に入力データよりなる次のアレイの処理に
向かう、第3図及び第4図の流れ図にわたって反復的な
サイクリングから生しる各組のデータは、上記の式1.
2及び3の最終計算に使用されるメモリ内の適出な場所
に記憶することができ、それにより、入力の音声改変か
最終的に各サイクルの所望の状態シーケンスから再構成
されるようにする。
上記のように、結果として生じる音声改変を解釈するタ
スクはaaのワードからなるテキストの読みに似ていて
、不規則な挿入、削除及び置換が存在する。
ここて使用される技術の1つの特定形状は第5図と第6
図に示しである。
ρ=1の特別な場合については、バッジ関数の式(6)
は第6図に示したようにHEADテーブルで置換するこ
とかできる。HEADテーブルの意味及び構成について
は、ヌース(Knuth)、Vol、3(上記)を参照
、 q”(Itqtel = 1 、 Jの場合、HE
ADテーブルrの記入行jと記入列jは9を含む辞書の
記録アドレスである。このテーブルも容易に自動的にa
成される。HEADテーブルによる方法はp=2以上に
一般化することかできるが、最終的には役立たずになる
式7の定義を使用することは必要てなく、又式10の反
復を使用することも必要ではない、これは1次の完全に
簡単で大いに有効な発見的手法か存在するためである。
ここでは単にL(ν1τ。、τ、)が0τ0 ・・・0
τ、及び4の共同尤度として定義する。この場合、状態
遷移時間は式2から計算される状態期間により決定され
る。
こうして、代りに、以前に計算された音声改変分割を使
用してTにわたり最大化なしに式(9)から容易にlo
g[L(ν1τ。τ、)コを計算することができる。
式4〜lOの最も重要な計算を達成するためのフローチ
ャートは第7図に示しである。このフローチャートは第
8図の整列図と共に、コンピュータ内の種々の大規模記
憶装置内に現在記憶された以前のステップの種々の結果
が整列ステップで如何に協力するかを示す、この最初の
アクセスはブロック73に示しである。第8図に示した
整列はブロック75〜77により示される。ブロック8
は次の式からのワードの尤度の計算及びその候補リスト
の記憶内容を示す。
注意:あるk、■については、 ブロック80はリンクされたリストか如何に使用されて
次の候補ワードにアクセスするかを示す。
ブロック81はそのリスト内の最後のリンクのための試
験である。この試験が成功すると、制御は状態カウンタ
に戻され、そして1次の状態対がHEADテーブルに送
られる。ブロック83は最後の状態対のための試験を示
す、この試験が成功すると、ブロック84に制御が移り
、そこで、最良の候補が選ばれてプロセスが終る。
この整列プロセスは評価された状態シーケンスが辞書の
記録に対していかに匹敵し得るかを示す、一般的には、
この匹敵は完全ではなく、推定の候補ワードの情報シー
ケンスに部分的に匹敵する多数の状態シーケンスか存在
する。
なお、ちなみに、動的プログラミングに基づく整列アル
ゴリズムのような他の整列アルゴリズムが可能あるが、
できるならば動的時間歪曲を避けることが本発明の目的
である。これらの他のアルゴルズムは、第1図に示した
別個の整列ステップを用いる概念を導入した本発明の特
徴に一致する。
第7図の整列手順について最終的に述べれば、原則的に
は、qのすべての対の隣接状態は整列プロセスにおける
キーとして使用されるべきである。
車認識装置17の詳細はこの発明の重要な部分ではない
ので、この車認識装置の適切な機構は1981年7月7
日発行の本出願人による米国特許第4,277.644
号に開示されたものでもよい。
上記の技術の代替として、種々の他の文認識技術を使用
することかできるということは多くの技術者に直ちに明
らかであろう。
桁0〜9を認識するためには、22状悪のモデルを第9
図に示すように構成することができる。
潜在的な存在するマルコフ釦の構造を簡単化するために
3つの状態か複製されて全部で25のモデルになる。各
セグメントに関連するベクトルは集められ、そして、平
均、共分散、期間及び期間の標準偏差の最尤推定量が計
算される。あるセグメントについて得られた値は対応す
る状態に5i2連するパラメータ値として使用される。
潜在的なマルコフ鎖の遷移確率はすべての桁が等しく起
こりそっであるという仮定で推定される。この仮定が与
えられると、各遷移か発生する回数を数えることは簡単
なことであり、この発生カウントから遷移確率が容易に
得られる。
第9図は、音声認識技術者が音声区域内に生じるこれ以
上単純化できない秘匿プロセス要素の最も生じ得る表現
又は、少なくとも、これらの要素の最も便利な表現とし
て受は入れるにいたった音声要素の種類を示す。
本発明によるシステムで要求される不変性及び能力のレ
ベル対複雑さのレベルに依存して上記の技術で作り得る
種々の変形例のことは多くの当業者に直ちに明らかであ
ろう。
付録A center;11.q、−状態j 〇 −時間tにおける特徴ベクトル t α、 −〇 〇 ・・・0 およびQL Q2・・・q
kの共同ロッグ確率Jt     12t β  −前状態と時間への指示 」t S、τ■ Σ謹1bjt−、+θ 」 δ −状態bj−最大期間−Qj時Ω、のロッグ確率d
jt=qj時の期間tのロッグ確率 a、、−q、からq、までの遷移確率 JL       I       Jπ、 −t−o
におけるq、の確率 J                 Jp−o  o
  ・・・Oおよび荊古。・・・會1の共同ロッグ確率
12     t q、−概算の状態シーケンスにおけるj番目状態」 d、−Q−の期間 」      J ■−候補ワード W −辞書への1番目登録 W−最良の候補ワード C−n番目候補ワード
【図面の簡単な説明】
第1図は新規な音W/音声認識システムの新規な構成の
略図、 第2図は上記のウッズ(Woods)の論文が代表する
従来技術の略図、 第3図は第1図の実施例に要求される、音声セグメント
及び期間を検出する最適化アルゴリズムの流れ図、 第4図は第3図のフローチャートの連続部分の図、 第5図はワード検出のための最初の辞書アクセス手順で
実施される動作のいくつかを表すブロック線図、 第6図は以下に説明される第7図のフローチャートで使
用されるいくつかの概念を説明する図、第7図は整列ス
テップに関するフローチャート。 第8図は整列ステップにおける対をなす隣接音声セグメ
ントの使用の概念を示す図、及び第9図は本明細書に開
示した辞書アクセス手順の一部として使用される桁0〜
9に関する簡単な音I#/音声モデルの実施フローチャ
ートである。 出願人:アメリカン テレホン アンドテレグラフ カ
ムバニー FIG、4 FIo、  5 詳  工 FIG、  6 FIG、 8

Claims (5)

    【特許請求の範囲】
  1. (1)言語を表わす種々の信号記憶部を有する信号記憶
    及び処理システムで実施される種類の音声認識方法にお
    いて、 発声を受けて、この発声の連続時間フレーム部分をこの
    時間フレーム部分の各々を表わす音響特徴信号に変換す
    るステップ、 一連の音声部分信号をその一連の音響特徴信号に割り当
    てるステップ、 その一連の音響特徴信号及びその割り当てられた音声部
    分信号に応答してその割り当てられた音声部分信号の各
    々ごとに第1の尤度信号を発生するステップ、 一連の割り当てられた音声部分信号に応答して辞書記憶
    部から可能性ある音声シンボルシーケンスを検出するス
    テップ、 この検出された各音声シンボルシーケンスが前記の発声
    である尤度を表わす第2の尤度信号を発生するステップ
    、及び、 その検出されたシーケンス及び尤度信号に応答して好適
    な音声シンボルシーケンスを選択するステップ、からな
    り、 前記割り当てるステップは前記の一連の音声特徴信号に
    音声期間信号を割り当て、及び、 第1の尤度信号を発生するステップ、検出するステップ
    及び第2の尤度信号を発生するステップはすべて音声期
    間信号に部分的に応答することを特徴とする音声認識方
    法。
  2. (2)第2の尤度信号を発生するステップ及び選択する
    ステップは共に、 第2の尤度信号を音声シンボルシーケンス用に改変する
    ように、各検出音声シンボルシーケンスを対応する音響
    特徴信号と整列させるステップを含むことを特徴とする
    特許請求の範囲第1項に記載の音声認識方法。
  3. (3)整列させるステップはその対応するシーケンス内
    の対をなす検出された音声シンボルと比較して、ワード
    選択を容易にするために、その各シーケンスにすべての
    対をなす隣接割り当て音声セグメントを使用することよ
    りなることを特徴とする特許請求の範囲第2項に記載の
    音声認識方法。
  4. (4)割り当てるステップは発声の言語の構造の音響/
    音声モデル(このモデルは連続可変期間秘匿マルコフモ
    デルとして知られる)を使用することよりなることを特
    徴とする特許請求の範囲第1項又は第2項のいずれかに
    記載の音声認識方法。
  5. (5)割り当てるステップは発声言語の構造の音響/音
    声モデル(このモデルは連続可変期間秘匿マルコフモデ
    ルとして知られる)を使用することよりなり、そして、 整列するステップはその対応するシーケンス内の対をな
    す検出された音声シンボルと比較してワード選択を容易
    にするためにその各シーケンスにおいてすべての対の隣
    接割り当て音声セグメントを使用することよりなること
    を特徴とする特許請求の範囲第2項に記載の音声認識方
    法。
JP63078322A 1987-04-03 1988-04-01 音声認識方法 Pending JPS63259697A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US07/034,467 US4852180A (en) 1987-04-03 1987-04-03 Speech recognition by acoustic/phonetic system and technique
SG22094A SG22094G (en) 1987-04-03 1994-02-07 Speech recognition system and technique
US034467 1998-03-04

Publications (1)

Publication Number Publication Date
JPS63259697A true JPS63259697A (ja) 1988-10-26

Family

ID=26663871

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63078322A Pending JPS63259697A (ja) 1987-04-03 1988-04-01 音声認識方法

Country Status (9)

Country Link
US (1) US4852180A (ja)
EP (1) EP0285353B1 (ja)
JP (1) JPS63259697A (ja)
AU (1) AU596510B2 (ja)
CA (1) CA1336207C (ja)
DE (1) DE3886080T2 (ja)
ES (1) ES2047029T3 (ja)
HK (1) HK107994A (ja)
SG (1) SG22094G (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0296800A (ja) * 1988-10-03 1990-04-09 Nec Corp 連続音声認識装置
US5278911A (en) * 1989-05-18 1994-01-11 Smiths Industries Public Limited Company Speech recognition using a neural net
WO1991013431A1 (en) * 1990-02-26 1991-09-05 Motorola, Inc Method and apparatus for recognizing string of word commands in a hierarchical command structure
US5222188A (en) * 1990-08-21 1993-06-22 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
US5208897A (en) * 1990-08-21 1993-05-04 Emerson & Stern Associates, Inc. Method and apparatus for speech recognition based on subsyllable spellings
EP0481107B1 (en) * 1990-10-16 1995-09-06 International Business Machines Corporation A phonetic Hidden Markov Model speech synthesizer
JP2979711B2 (ja) * 1991-04-24 1999-11-15 日本電気株式会社 パターン認識方式および標準パターン学習方式
ATE195605T1 (de) * 1993-03-12 2000-09-15 Stanford Res Inst Int Verfahren und vorrichtung für sprachunterricht mittels interaktiver sprachsteuerung
US5704004A (en) * 1993-12-01 1997-12-30 Industrial Technology Research Institute Apparatus and method for normalizing and categorizing linear prediction code vectors using Bayesian categorization technique
US5615299A (en) * 1994-06-20 1997-03-25 International Business Machines Corporation Speech recognition using dynamic features
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
GB2307582A (en) * 1994-09-07 1997-05-28 Motorola Inc System for recognizing spoken sounds from continuous speech and method of using same
US5594834A (en) * 1994-09-30 1997-01-14 Motorola, Inc. Method and system for recognizing a boundary between sounds in continuous speech
US5638486A (en) * 1994-10-26 1997-06-10 Motorola, Inc. Method and system for continuous speech recognition using voting techniques
US5596679A (en) * 1994-10-26 1997-01-21 Motorola, Inc. Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
US5687287A (en) * 1995-05-22 1997-11-11 Lucent Technologies Inc. Speaker verification method and apparatus using mixture decomposition discrimination
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US6018708A (en) * 1997-08-26 2000-01-25 Nortel Networks Corporation Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
US5983177A (en) * 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
DE19857070A1 (de) * 1998-12-10 2000-06-15 Michael Mende Verfahren und Vorrichtung zur Ermittlung einer orthographischen Wiedergabe eines Textes
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US7089184B2 (en) 2001-03-22 2006-08-08 Nurv Center Technologies, Inc. Speech recognition for recognizing speaker-independent, continuous speech
US7769592B2 (en) * 2002-02-22 2010-08-03 Nuance Communications, Inc. Automatic selection of a disambiguation data field for a speech interface
US7697700B2 (en) * 2006-05-04 2010-04-13 Sony Computer Entertainment Inc. Noise removal for electronic device with far field microphone on console
US7062436B1 (en) 2003-02-11 2006-06-13 Microsoft Corporation Word-specific acoustic models in a speech recognition system
US7076422B2 (en) * 2003-03-13 2006-07-11 Microsoft Corporation Modelling and processing filled pauses and noises in speech recognition
US7487094B1 (en) 2003-06-20 2009-02-03 Utopy, Inc. System and method of call classification with context modeling based on composite words
US7433820B2 (en) * 2004-05-12 2008-10-07 International Business Machines Corporation Asynchronous Hidden Markov Model method and system
US20050282563A1 (en) * 2004-06-17 2005-12-22 Ixi Mobile (R&D) Ltd. Message recognition and display system and method for a mobile communication device
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US8654963B2 (en) 2008-12-19 2014-02-18 Genesys Telecommunications Laboratories, Inc. Method and system for integrating an interaction management system with a business rules management system
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
US8463606B2 (en) 2009-07-13 2013-06-11 Genesys Telecommunications Laboratories, Inc. System for analyzing interactions and reporting analytic results to human-operated and system interfaces in real time
WO2013138633A1 (en) 2012-03-15 2013-09-19 Regents Of The University Of Minnesota Automated verbal fluency assessment
US9230548B2 (en) * 2012-06-06 2016-01-05 Cypress Semiconductor Corporation Hybrid hashing scheme for active HMMS
US9912816B2 (en) 2012-11-29 2018-03-06 Genesys Telecommunications Laboratories, Inc. Workload distribution with resource awareness
US9542936B2 (en) 2012-12-29 2017-01-10 Genesys Telecommunications Laboratories, Inc. Fast out-of-vocabulary search in automatic speech recognition systems
WO2018016582A1 (ja) * 2016-07-22 2018-01-25 ヤマハ株式会社 演奏解析方法、自動演奏方法および自動演奏システム
CN108022593A (zh) * 2018-01-16 2018-05-11 成都福兰特电子技术股份有限公司 一种高灵敏度语音识别系统及其控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US458670A (en) * 1891-09-01 Combined bin and sifter
JPS5991500A (ja) * 1982-10-15 1984-05-26 ウエスターン エレクトリック カムパニー,インコーポレーテッド 音声分析器
JPS61262799A (ja) * 1985-03-21 1986-11-20 アメリカン テレフオン アンド テレグラフ カムパニ− ヒドン形式マルコフモデル音声認識方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4277644A (en) * 1979-07-16 1981-07-07 Bell Telephone Laboratories, Incorporated Syntactic continuous speech recognizer
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US458670A (en) * 1891-09-01 Combined bin and sifter
JPS5991500A (ja) * 1982-10-15 1984-05-26 ウエスターン エレクトリック カムパニー,インコーポレーテッド 音声分析器
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
JPS61262799A (ja) * 1985-03-21 1986-11-20 アメリカン テレフオン アンド テレグラフ カムパニ− ヒドン形式マルコフモデル音声認識方法

Also Published As

Publication number Publication date
EP0285353A2 (en) 1988-10-05
ES2047029T3 (es) 1994-02-16
SG22094G (en) 1995-03-17
DE3886080T2 (de) 1994-05-11
HK107994A (en) 1994-10-14
AU1404288A (en) 1988-10-06
EP0285353A3 (en) 1989-08-23
DE3886080D1 (de) 1994-01-20
US4852180A (en) 1989-07-25
CA1336207C (en) 1995-07-04
AU596510B2 (en) 1990-05-03
EP0285353B1 (en) 1993-12-08

Similar Documents

Publication Publication Date Title
JPS63259697A (ja) 音声認識方法
US5218668A (en) Keyword recognition system and method using template concantenation model
Jelinek Continuous speech recognition by statistical methods
EP0715298B1 (en) Reduction of search space in speech recognition using phone boundaries and phone ranking
US5199077A (en) Wordspotting for voice editing and indexing
US5949961A (en) Word syllabification in speech synthesis system
US6985861B2 (en) Systems and methods for combining subword recognition and whole word recognition of a spoken input
EP1800293B1 (en) Spoken language identification system and methods for training and operating same
US8321218B2 (en) Searching in audio speech
US20080215328A1 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
CN112259083B (zh) 音频处理方法及装置
JP2018077440A (ja) 音声認識装置、音声認識方法およびプログラム
Alsayadi et al. Dialectal Arabic speech recognition using CNN-LSTM based on end-to-end deep learning
Kolesau et al. Voice activation systems for embedded devices: Systematic literature review
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP2002278579A (ja) 音声データ検索装置
JP3628245B2 (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
Norouzian et al. An approach for efficient open vocabulary spoken term detection
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
JPH06266386A (ja) ワードスポッティング方法
Dobrišek et al. An edit-distance model for the approximate matching of timed strings
JP2753255B2 (ja) 音声による対話型情報検索装置