JPS61177493A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPS61177493A
JPS61177493A JP60231463A JP23146385A JPS61177493A JP S61177493 A JPS61177493 A JP S61177493A JP 60231463 A JP60231463 A JP 60231463A JP 23146385 A JP23146385 A JP 23146385A JP S61177493 A JPS61177493 A JP S61177493A
Authority
JP
Japan
Prior art keywords
word
probability
label
words
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60231463A
Other languages
English (en)
Other versions
JPH0372989B2 (ja
Inventor
ラリツト・ライ・ボール
ピータ・ビンセント・デソーザ
ロバート・レロイ・マーサー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPS61177493A publication Critical patent/JPS61177493A/ja
Publication of JPH0372989B2 publication Critical patent/JPH0372989B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 以下の順序でこの発明を説明する。
A、産業上の利用分野 B、開示の概要 C0従来技術 り0発明が解決しようとする問題点 E0問題点を解決するための手段 F、実施例 fl、発明の背景技術の概要 fll、会話人力信号のラベル付け fl2.単語の統計的なモデル表示 f131本発明の原理的な操作 f2.本発明の具体例 f21.統計的なモデル及び重みづけ係数この発明は、
単語を表示するためにマルコフ・モデルを使用する音声
認識システムに関し、特に、音声認識システムの識別能
力を広めるために単語モデルに対して単音の重みを決定
し導入するための方法に関するものである。
B、開示の概要 この発明によって開示されるのは、音声認識システムに
おいて、11食における類似の単語の間の識別を改善す
るための方法である。
この方法は、所与の単語に対して1発音されたとき候補
として特徴づけられたすべての単語を集め、発音された
単語がその所与の単語に対して正しく、または誤って識
別された時期を表示し、各々の発音された単語に対して
1個々の成分がその所与の単語の対応する単音に関連づ
けられてなる確率ベクトルを形成し、(a)その各成分
に対して、正確に認識された発音された単語の確率ベク
トルの各成分と、(b)誤って認識された発音された単
語の確率ベクトルの対応する成分の間の偏差を示す重み
を決定するステップからなる。類似の発音をもつ単語を
識別する問題の解決をはかろうとする場合に、これらの
重みづけベクトルが照合で使用される計算に適用される
C0従来技術 音声認識のいくつかの知られた方法においては。
単語が、単音に基づくマルコフ・モデル及び入力された
音声によって表示され、その音声は、コード化された音
素または音ラベルに変換された後、そのラベル列を、ヴ
イテルビ(Viterbi)  ・デコーディングのよ
うな確率的アルゴリズムを使用してこれらのモデルに照
合することによりデコードされる。
米国特許第4099257号及び米国特許第43485
53号は、デコードまたは識別されるべき受信情報の整
合が、マルコフ・モデルに対応して実行されるようなシ
ステムの代表例を開示している。
音声認識システムにおける認識の誤差は、典型的には“
Concern”と“Concernad”のような類
似する発音の単語の間で生じる。このことは、類似する
単語の主要部が同一に発音され、そのため全く識別には
役立たないという事実による。そのような類似する単語
はわずかな部分しか異ならないので、識別を行うことが
臨界的である。現在知られている統計的な単語モデルを
用いた音声認識システムにおいては、モデルのすべての
単音が平等に扱われるので、実際の識別部分が認識の決
定に正当に寄与しないのである。
D0発明が解決しようとする問題点 この発明の目的は、統計的な単語モデルに基づく音声認
識システムにおいて、類似する単語を正確に識別する能
力を増大することにある。
この発明のさらなる目的は、もし通常の確率デコード・
アルゴリズムのみが使用されたならば、認識の選択の誤
りを生じかねないような音声の識別性を改善すべく、単
語モデルの単音に関連して係数を発生する方法を提供す
ることにある。
この発明のさらに別の目的は、類似する音声に対する実
際に知られた識別の決定に基づき、異なる単語をあられ
す別の発音によく類似する発音を正確に識別する機会を
改善することにある。
E0問題点を解決するための手段 本発明によれば、発音に対して大まかな単語の予備選択
が行われ、その選択が正しいか否かを示すために、トレ
ーニング・セツションにおいてマークが記される。さら
に1通常の認識処理と同様に、各発音は、その発音に対
応して予め選択された各単語と照合され、これにより1
通常の認識処理と同様に、その組み合わせに対する確率
測度が得られる。この大まかな選択が正しい、または誤
っているという結果の知識と、通常の認識処理の結果に
基づき、単語モデルの全体の単語に対して。
各単語モデルの各単音が類似の単語間の最適な識別を達
成するようにどのようにして重みづけされ、るかを決定
するために、識別解析が行なわれる。
こうして得られた重みづけ係数は、単語モデルとともに
記憶され、実際の音声認識の間に、最終的な単語選択に
対する各単音の確率的な寄与を重みづけするために使用
される。
このように、音声認識システムの効率は、正しくない単
語の選択を低減することにより高められる。このことは
、正しくない類似する単語からの選択が意図的に誘引さ
れ、その選択が正しいが否かに関連して決定がなされる
ようなトレーニング・ステップに重みの係数が基づくこ
とから可能である。
F、実施例 fl、発明の背景技術の概要 fll、音声入力信号のラベル付け この音声認識システムの予備的な機能は、音声入力信号
をコード化された表示に変換することである。このこと
は、例えば、ICASSP会報1981年、PP、11
53−1155、A、ネイダス(Nadas)他による
“プートストラップまたはクラスタによって得られた自
動的に選択された音響プロトタイプを用いた連続的音声
認識(Continuous 5peach Reco
gniton with Auto+maticall
y 5elected Acoustic Proto
types 0btainedby aither B
ootstrapping or Clusterin
g)”と題する論文に記載された手続において実行さ九
る。
このネイダスらの変換手続によれば、音声入力は100
分の1秒間隔に分割される。そして、各100分の1秒
間隔毎に、音声入力のスペクトル解析が行なわれる0次
に、その100分の1秒の音声入力が、予定の複数のス
ペクトル・パターンのうちどれに最もよく対応している
かについて判断が行われる。どのスペクトル・パターン
が音声入力に最もよく一致するかを示す“音素”が特定
の100分の1秒間隔に割り当てられる。一方、各音素
は、識別ラベルとして表示される。これにより、ラベル
(または音素)の列が、単語を形成する。連続する10
0分の1秒の音声をあられす。
ラベルの典型的な有限の組が、この明細書の末尾の表1
に示されている。この表は約200のラベルを有し、そ
の各々が音素をあられす、尚、これらの音素は、大まか
にアルファベットの母音または子音をあられす通常の“
音素”よりも短い、すなわち各音素(Phonems)
が、ラベル付けされた音素(acoustic ele
ment)の列に対応することに注意されたい。
このラベル付は技術の重要な特徴は、それが音声信号に
基づき自動的に実行し得るものであり。
すなわち音声的な解釈を必要としないという点にある。
音声入力信号から、ラベル列のかたちでコード化された
表示に変換するユニットは“音声プロセッサ”と呼ばれ
る。
fl2、単語の統計的なモデル表示 本発明が使用され得る音声認識システムの基本的な機能
について手短かに説明する。尚、そのようなシステムに
ついてのより詳しい説明は、IEEE会報、Vol、6
4.1976、PP、532−576、F、ジェリネッ
クによる″統計的方法による連続的音声認識(Cont
inuous 5peech Racognition
 by 5tatisticaL Methods) 
”と題する論文に記載されている。
そのようなシステムにおいては、認識語豐の各々の単語
が、基本形式(bageform)によってあられされ
る、この基本形式においては、認識のために単語が、単
音の構成、すなわち第1図に示すような音素に分割され
る。これらの単音は、音声的なアルファベットにおいて
一般的に使用される母音及び子音の音に概ね対応する。
実際の音声では、単語の一部が、第1図に示すように異
なる発音を有することがある。すべての枝が通過するノ
ードの間に延長された平行な枝は、韻(C1ink) 
、または従来の個別の単音と考えることもできる6本発
明の原理が適用されるような韻は、以下で説明する単音
の代用の音素と見ることができる。
一方、単音は、マルコフ・モデルによってあられされる
。第2図を参照すると、単音のサンプル・マルコフ・モ
デルが図示されている。各単音に対して、(a)複数の
状態(So・S4)と、(b)その状態の間の遷移(T
l・・・T10)と、(C)所与の遷移において単音が
特定のラベルを生成する見込みをあられすラベル確率と
により特徴づけられる対応するマルコフ・モデルが存在
する。ある実施例においては、マルコフ・モデル中の各
々の遷移は200の記憶されたラベル確率を対応づけら
れてなり、その各々の確率は、(200ラベルの組のう
ちの)個々のラベルが所与の遷移において単音によって
つくり出される確率をあられす。
異なる単音は、そのさまざまな遷移に対応づけられたラ
ベル確率の差によって、それら個々のマルコフ・モデル
中で識別される。それらの間の状態及び遷移の数は異な
るが、しかし、好ましくはこれらの要因は同一のままで
あり記憶されたラベル確率が変化する。
第2図のマルコフ・モデルにおいては、(表2から取り
出した)ラベルの列5XI−5X3−8X5−5H2が
、図示した順序で単音モデルに入っている。図示された
箇所(例えば遷移T1にうけるSX、1)遷移において
生じる各ラベルの確率は、それに対応して記憶されたラ
ベル確率に基づいて決定される。その列におけるラベル
に対して最も高いラベル確率をもつ単音モデルは、その
列を生成したであろうところの最も蓋然性の高い単音で
ある。
第2図のラベルは、遷移から遷移に沿って、ラベルから
ラベルへの連続性を示し、それにより列のラベルと遷移
の間の簡単な一対一配列を可能ならしめるけれども、第
2図のマルコフ・モデルはまた、別の配列も同様に可能
とする。すなわち。
第2図のマルコフ・モデルは、より多くのラベルまたは
より少いラベル、またはさらに異なったラベルが単音モ
デルに適用される場合ですら、単音が可能であるという
ことを決定することができる。
この観点において、1つの状態から別の状態への遷移の
他に、同一の状態に戻る遷移T5、T6、T7もある。
さらに、隣の状態をスキップする遷移T8.T9、T1
0もある。これにより、マルコフ・モデルは、単音の異
なる発音が、同一の基本的なマルコフ・モデルに組み込
まれ得ることを規定する。例えば、もし、ある音声が引
き伸ばされて(ゆっくりと話す話者)それにより゛、通
常の一度だけの音素のかわりに同一の音素が複数回あら
れれるなら、マルコフ・モデルの表示は、同一の状態に
戻る複数の遷移を可能とし、これにより同一の音素から
なる複数の表示が組み込まれる。
しかし、もし1つの単音に通常属する音素が特定の発音
中に全くあられれないなら、そのモデルの個々の遷移は
スキップされ得る。
(帰還遷移T5、T6またはT7の多重的な発生を含む
)マルコフ・モデルにおいて、初期状態から最終状態へ
の任意の可能な経路(マルコフ連鎖)は、単語(または
単音)の1つの発音、1つの音素、または各々の遷移に
対応づけられたラベルをあられす。
本発明においては、その列中のラベルをそのモデルを通
過する経路における遷移と対応づけ、(後で説明する)
以前の経験またはトレーニングによる記憶されたラベル
確率に基づいて、その対応づけられた遷移に関する各ラ
ベルの確率を決定することにより、ラベル列がマルコフ
・モデルに゛′整合”される。マルコフ・モデルの鎖の
うち最も高い確率をもつものは、出力として選択される
べき単語を識別する。
単語の基本的型式及び単音の基本的なマルコフ・モデル
は、上記引用文献に述べられているように。
さまざまな方法で得て定義することができる。モデルの
形成は、言語学者によってなされてもよいし、そのよう
なモデルは、統計的な方法を用いて自動的に得ることも
できる。しかし、モデルの準備は本発明の部分をなさな
いので、これ以上詳しくは述べないことにする。
尚、最初にマルコフ単音モデルの列により単語を表示す
るかわりに、それらは直接マルコフ単語モデルにより、
例えば単語全体に対する音素の基本列をあられす状態及
び遷移の列によって表示することもできることも述べて
おくべきであろう。
語當における単語をあられす基本的モデルを構成した後
、その語索中のすべての単語に対する統計(例えばラベ
ル確率)をそれらのモデルに与えるために、それらのモ
デルは訓練されなければならない、このため、各々の単
語は何度か発音され、各発音に対して得られるラベル列
が個々の単語モデルに対して“整列”される、すなわち
、モデルを順次通過することによってどのようにして個
々のラベル列が得られるかが決定され、その計数値は個
々の遷移毎に蓄積される。統計的なマルコフ・モデルは
各単音、すなわち単音の組み合わせとしての各単語に対
して定式化される。マルコフ・モデルからは、さまざま
な異なるラベル列が、どのような確率で1語索の所与単
語の発音により生起されたか、ということが決定されう
る。そのような統計的マルコフ・モデルを表示する記憶
テーブルは第3図に示されており、これについては後の
章でより詳しく説明する。
実際の音声認識を行うために、音声信号が音声プロセッ
サによってラベル列に変換され、そのラベル列は次に、
現存する単語モデルと“照合”される。特定の手続であ
るヴイテルビ(Viterbi)  ・アルゴリズム(
ヴイテルビ・アルゴリズムについては、上述のジェリネ
ックの論文に手短かに述べられているが、より詳細には
IEEE会報Vol。
61.1973.PP、26B−278,G、D。
フォーネイ(Forney)による“ウィテルビ・アル
ゴリズム(The Viterbi Al gorit
hm)”と題する論文に記載がある)がこのために使用
され、それによって得られるのは、その所与のラベル列
を発生させたであろう“近い”単語の数にそれぞれ対応
する確率ベクトルである。次に、実際の出力、すなわち
認識出力として選択された単語の識別が、生成された最
も高い確率ベクトルをもつことが分かった単語を選択す
ることにより決定される。
f136本発明の原理的な操作 認識処理の最終ステップでなされた決定は、もちろん、
正しくないこともあり得る。誤った選択を行う確率は、
2個またはそれ以上の単語がきわめて類似しており、そ
れらを実際に識別することのできる音素が1個または高
々数個しかないような場合に増大する。本発明は、類似
する単語の間の識別を反映するそれらの音素(または単
音)をより強調し、識別を増大させる能力を持たない音
素をあまり強調しないような方法を提示することにある
手短かに述べると、本発明は、所与の語當における単語
の単音の重みづけ機能を導入し、識別特性を改善するた
めに認識処理の最終ステップの間に重みづけ係数を導入
する。
本発明の機能は、認識処理の最終ステップで生成される
確率ベクトルの式を与えることにより最もよく示され得
るだろう。
本発明に拠らない場合、特定の単語の発音が観察された
ラベル列の原因である確率の対数は次の式で与えられる
: この式で、Nは単語モデルにおける単音の数をあられし
、P (i)はヴイテルビ経路に沿うi番目の単語に対
応づけられた確率をあられす。
本発明によれば、その確率は次の式で与えられる: この式で、W(i)はその単語モデルのi番目の単音に
対応づけられた重みづけ係数であり、W(0)はしきい
値である。
これから見てとれるように、この発明は個々の重みづけ
寄与率を単語モデルの各単音に割り付り。
以て類似する単語の識別性を改善するものである。
その結果、音声認識の誤り率が減少することになる。
重みづけ係数の生成と、認識処理の間にそれらを使用す
ることに関わる本発明の詳細については次の章で述べら
れる。
f2.本発明の具体例 f21.統計的なモデル及び重みづけ係数第4図を参照
することにより、音声認識語索における統計的な単語モ
デルの生成、特に本発明に基づく重みづけ係数の付加に
ついて説明しよう。
第4図において、語鴬生成素子11は単語モデルの語索
、すなわち認識されるべきすべての単語に対する単音表
示及び基本的マルコフ・モデルを生成する働きを行う。
この手続は、例えば、既に述べたジェリネックの論文と
、ICASSP会報19・84.PP、42.5.1−
42.5.4.。
J、M、ルカーセン(Lucassen)及びR,L、
マーサー(Mercer)による“音素基本形式の自動
的決定への情報理論的アプローチ(An Inform
ationThaoratic Approach t
o the AutomaticDeterminat
ion of Phonemic Baseforms
) ”に述べられ、ているので、ここでは詳細には説明
しない。
連続的な単音の基本形式の1つのサンプルが第1図に示
されており、基本マルコフ・モデルは第2図に示されて
いる。語當におけるすべての単語の単音に基づくマルコ
フ・モデルが、第4図の記憶素子13によって示される
ように、記憶装置中に登録される。単語の単音列モデル
は、各々の単語が、(a)コード指定または個々の単語
の特定の綴りによって識別され、(b)それに対応づけ
られた識別子を有するようなリストとして記憶される。
語當には、約50の異なる単音を用いて、5000また
はそれ以上の数の単語モデルが存在することができる。
単語モデルの長さはもちろん、異なる単語が異なる数の
単音からなるに従って変化し得る。遷移孤により連結さ
れる複数の状態からなる単音の基本マルコフ・モデルは
、記憶装置中で、例えばPL/1などのいくつかのプロ
グラム言語で利用可能である構造として個々に表示され
得る。 前に注意しておいたように、基本モデルは、実
際の音声認ra(第1の訓練フェーズ)を可能ならしめ
るための統計で訓練または″充填″されなくてはならな
い、このため、語當における各単語は複数回読まれ、音
声プロセッサ15によってラベルの列(各々が好適には
10ミリ秒の音声をあられすような所与の有限の組の音
素)に変換される。1つの発音をあられすそのような個
々のラベル列は1次に個々の単語モデル、すなわち単語
全体を表示する基本形式を形式するマルコフ・モデルに
整列される。この整列は、よく知られたヴイテルビまた
は最尤デコード手続によって実行される0次に整列され
たラベル列に基づき統計的な値が集積され、個々の音素
(ラベル)が2つの状態の間の所与の遷移上でどれだけ
の回数発生するかが示される。これらの統計的な値から
は、各々の単語モデルに対して、所与の状態を離れると
きに特定の遷移がとる確率がどのようであるかを示す確
率分布が得られる。さらに示されるのは、個々の遷移が
行なわれたなら、好適には200の音素のうちのあるも
のが、その遷移に関する出力として生成される確率であ
る。整合と統計生成の全体的な処理は、第4図のプロセ
ッサ17により表示されている。
このようにして得られた統計値は、第4図の記憶素子1
9に保持される。ある単語の所与のマルコフ・モデルに
対するそのような統計的分布テーブルの代表的な部分が
第3図に示されている。単語モデルの各単語に対応して
、テーブル中には1つのセグメントが存在し、そのセグ
メントは、それぞれが個々の単音のマルコフ・モデルの
1つの状態をあられすセクションに細分割される。一方
各々の状態に対応して、リストされたすべての可能な遷
移が存在する。各々の遷移は、その成分が。
(a)個々の遷移または孤が、その遷移が属する状態か
らの出力として取り出される確率、及び(b)この経路
が選択されたときに出力として発生する200のラベル
L001・・・L200に対応する確率である。
統計的マルコフ・モデル(または確率分布テーブル)の
モデルの生成は、上述の文献から知らされており、従っ
て本発明の一部ではない、!理的には、音声認識は、こ
れらの記憶内容に基づき実行することができるが、認識
結果を改善する本発明は、必要な重みづけ係数を生成す
るための予備的な追加ステップを要するのである。第4
図の残りの部分を参照してこれらのステップについて説
明しよう。
重みづけ係数を生成するためには、所望の語索のすべて
の単語が読まれ、単語の各々の発音が音声プロセッサ中
でラベル列に変換される。各ラベル列は、(第4図の高
速照合素子21によってあられされる)いわゆる“高速
照合”手続において、語l&19中に存在するすべての
統計的な単語モデルに照合され、これにより、比較的短
い期間内に、各発音に対して、その発音を生じさせた単
語である確率が比較的高い候補の単語のリストが得られ
る。この高速照合手続は、約5000にも昇る単語から
なる語當から詳細な照合を行うための候補の数を、数が
10〜100程度の小さい単語の群に低減する。単語“
I ysの発音に基づく高速照合動作のサンプル結果が
第2図に示されている。これから見てとれるように、(
正しい選択であるtz I uをも含む)30の候補が
選択され、これらすべては11 I”の発音に類似する
発音部分を少くとももつ。
手短かに述べると、高速照合手続は、(従来の音または
韻を含む)音素の列として各々の単語を特徴づけること
によって、音声入力に応答して発生された入力ラベルの
列を発生した確率が比較的高い単・語を少なくとも1つ
語食の中で統計的に決定するための手続に関する。この
場合、音素の統計的な表示は近似によって簡単化される
。第1近似においては、所与の音素がさまざまな状態遷
移の任意の遷移において所与のラベルを生成する実際の
確率が、その所与の音素における所与のラベルに対する
最大の実際の確率よりも好適には小さくない単一の特定
の値によって置きかえられる。
第2近似は、ラベルの最大長さとラベルの最小長さの間
の任意の長さのラベルを生成する所与の音素の確率が一
様であるということを規定する。特定の音素に対する照
合値は、最終時の確率項の和に対応し、その項の各々は
特定の音素が断起して増加する長さのラベルの任意のも
のを生成する確率の和である。第3近似は、任意の音素
に対する照合値を形成する際にラベルの最大個数のみが
検査され、好ましくは、照合値を決定する際に考慮され
る最終時の確率の数が、ラベルの最大数と、任意の音素
の状態の最大数との和に等しくあるべきことを規定する
。単語照合の得点は、連続する成分の音素に対応する照
合値の対数和をとることによって算出され、最も高い照
合得点値をもつ単語が候補の単語のリスト中に配列され
、その各々は、次に、近似ではない詳細な照合または言
語モデル照合によって照合することができる。さらに、
語零の単語は、単語が類似する音声開始部をもつ限りに
おいて複数の単語のその開始部が同時に照合されるよう
に、樹形構造に基づき照合される。
すべての単語のすべての発音に対する高速照合動作の結
果は、表2に示されているような、各発音につき1つづ
つの単語語索の複数のサブ・セットどなる。訓練の間に
どの単語が実際に話されたかについての知識に基づき1
次に高速照合の単語選択が正しいか誤っているかが決定
され、その個々の表示が選択された候補の単語識別子に
付加され保持される。第4図のリスト反転素子23によ
って示されるさらなるステップにおいては、これらのリ
ストが“反転”され、語索の各単語モデルに対応して、
高速照合手続で個々の単語が候補として選択されること
を起こさしめた発音の逆リストが作成される。そのよう
な逆リストのサンプルは第3図に示されている。このリ
ストは、発音のどれに対して高速照合(組選択)が正し
く、発音のどれに対して高速照合が正しくなかったかに
ついての表示も含んでいる。
第4図において素子25で示される次のステップにおい
ては、記憶装置に含まれているような個々の単語の統計
モデルと対照して、単語の反転リスト中で識別された各
発音のラベル列に対してヴイテルビ整列(Viterb
i alignment)手続が行なわれる。これは、
特定の単語の発音に関連して。
またはそれにより引き起こされた確率を見出すために、
認識されるべき発音に対する通常の音声認識中でも行な
われる動作である。しかし、ヴイテルビ整列手続につい
ては上述の文献に詳細に述べられているのでここでは説
明する必要はないであろう。
ヴイテルビ整列ステップにより得られるのは、各単語に
対する複数の確率ベクトルモあり、そのベクトルの各々
は訓練用の発音のうちの1つに関連づけられ1個々の高
速照合選択が正しがったが否かの表示を有している。こ
れらの確率ベクトルの各成分は、個々の単語モデルの1
つの単音に対応づけられ、関連する発音の特定の部分(
または音素のサブグループ)が個々の単語をあられす確
率を与える。第5図は、5個の類似する発音に対して高
速照合において候補として選択された1つの単語モデル
の確率ベクトルのサンプル・リストを示す図である。こ
の確率ベクトルは、個々の単語モデルにおける単音の数
として同一の個数の成分を持っている。さらに、そのよ
うな確率ベクトルの各々には1個々の高速選択が誤まっ
ていたかあるいは正しかったかについての表示が与えら
れている。このサンプルに示されているように、”Co
ncern”という単語を発音することにより実際に生
じた音声UTI及びUT4に対して、単語モデル”Co
ncern”が候補として正しく選択された。(類似の
単語“Concerned” ”Concerns”。
及びConcert”の音声によってそれぞれ生じた)
発音UT2.UT3及びUT5に対しては、高速照合に
よる予備選択は誤った選択であった。
予備の訓練段階の間に得られたこれらの訓練データ(確
率及び正しさの表示)に基づき、類似する単語の間のよ
りよい識別を達成するために重み係数を割り付けするこ
とが可能となる(第4図の識別解析素子27参照)0重
みづけ係数を生成するために、母集団の異なるクラスの
サンプルから得られ各サンプルが実際にはどのクラスに
属するかについての表示をも含むテスト・データに基づ
き、可能な最善の識別を達成するべくサンプルのクラス
への対応を決定するために使用される異なるパラメータ
がどのように重みづけされるのかを決定する“線形識別
解析″′が行なわれる。このとき適用される数学的手続
についての記述は1M。
ケンドール(Kendall)他者、第4版、マクミラ
ン著、ニューヨーク1983の″高等統計理論(The
 Aduanced Theory of 5tati
stics) e V 。
1.3”と題する文献に述べられている。
本発明のこの実施例で使用される識別解析手続について
以下で説明する。これは、重みづけ係数を得るための手
続のフローチャートをあられすものである。
先ず、Xc、Xwをそれぞれ選択された単語に対する“
正しい″及び“誤った”単音確率ベクトルであるとしよ
う、また、5C2SWをそれぞれ“正しい”及び“誤っ
た″ベクトルのサンプル共分散行列であるとし、Sを共
分散マトリクスの込み計算された不偏推定量であると定
義しよう、すなわち: Nc+Nw−2 ここでNC及びNWはそれぞれ正しい及び誤った確率ベ
クトルの個数である。単音の重み叉−のベクトルは次の
ようにして計算される:W=:S−’ (XQ−XW) また、しきい値Woは次のように計算される:W o 
= 1 / 2 W ’  (X c + X w )
この結果、各単語モデルに対応して、成分W(0)・・
・W (N)が個々の単語モデルのそれぞれの単音に使
用されるべき重みづけ係数であるようなベクトルが得ら
れる。このように1重みづけ係数の個数は単語モデルに
おける単音の数に等しい。
重みづけ係数に加えて、各重みづけ係数は、発音が単語
モデルをあられすか否かを決定するために使用しなくて
はならないしきい値W(0)をも含む。このしきい値も
また、線形識別解析手続の間に得られる。
このようにして語當のすべての単語に対応して得られた
重みづけベクトルは、すべての単語の統計的マルコフ・
モデルとともに、記憶装置(第4図の符号19A)に記
憶される。これらの重みづけベクトルとマルコフ・モデ
ルは、実際の音声認識処理において利用される(第3図
を併せて参照されたい)。
f220重みづけ係数を用いた音声認識本発明に基づく
重みづけ係数を用いた音声認識手続は第6図に図式的に
示されている。実際の認識処理を行うためには、前に説
明したように音声はラベル列29に変換される。ラベル
列は、2段階認識処理を可能ならしめるために一旦中間
的に記憶される(第6図符号31)。次に各ラベル列は
、存在する重みベクトルを使用することなく、前の章で
説明し表1に示されている高速照合手続35で語索のす
べての統計的単語モデル33に照合される。各発音に対
する高速照合の結果は、より詳しい照合選択を行うため
の最良の候補(粗い選択)である単語のサブセットの識
別である。
次のステップ37では、個々の発音の高速照合予備選択
で認識された各単語モデルと対照して。
現在の音声から得られた所与のラベル列の各々の詳細な
照合が行われる。この詳細な照合(またはヴイテルビ整
列)手続においては、この最終認識処理において重みづ
け係数によって変更される確率ベクトルが得られる。前
に書き下した数式によれば、ヴイテルビ整列において得
られた単音の確率P (i)の対数に対応する単音重み
づけ係数W(i)が掛けられ、重みづけられたすべての
単音確率対数の和が、高速照合リストの個々の単語に対
応するしきい値W(o)に加えられる。そうして、最大
の得点をもつ単語が正しい単語と見なされる。
こうして、入力音声により生起されたラベル列に応答し
て供給された。認識された単語に対応する識別子の最終
出力列は、本発明による音声認識システムに与えられた
、類似する単語の間の識別能力の増大により正確である
確率が増大する。
表1゜ 2つの文字は、大まかには音素をあられす。
2つの数字は母音に関連づけられている:第1の数字:
音のアクセント 第2の数字:現在の識別番号 1つの数字のみの場合は、子音に関連づけられている:
 単一の数字:現在の識別番号001 AAII 02
9 BI3−057 El(021487X5−176
 XXll002 AA12030 BI3−058 
EHII 149 Tl6−177 XX12003 
AA13031 BI3−059 EH12150υH
ot 178 XX13004 AA14032 BI
3−060 BO13151UHO2179XX140
05 AA15033 BI3−061 BO1415
2UHII 180 XX15006 AEll 03
4 BI7−062 BI15153 EH12181
XX16007 AE12035 BI3−126 R
XI−154EH13182XX17008 AE13
036 BI3−1275HI−155tlH1418
3XX18009 AE14037 D)11−128
5H2−156UUII 184 XX19010 A
E15038 DH2−1295XI−1570012
185XX2−011 Al11l 039 DQI−
1305X2−158 UXGI 186 XX200
12 Al12040 DQ2−1315X3−159
 UXG2187 XX21013 Al13041 
DQ3−1325X4−160 UXII 188 X
X22014ムXll 042 DQ4−1335X5
−161 DXI2189 XX23015 Al12
043 DXI−1345X6−162 DXI319
0 XX24016 Al13044 DX2−135
5X7−163 VXI−191XX3−017 Al
1404511!EOI 136 THI−164VX
2−192 XX4−018°AX15046 EEO
2137Tl2−1155 VX3−193 XX5−
019 Al16047 EHII  138 Tl3
− 166 VX4− 194 XX6−020 Al
17048 EH11139Tl4−167 wxl−
195XX7−021 BQI−049EH11140
Tl5−1681X2−196 XX8−022 BO
2−050EH11141TQI−16911X3−1
97 XX9−023 BO2−051EH11142
TQ2− 17011X4−198 ZXI−024B
O2−052EH11143Tl3−17111X5−
1992X2−0258XI−0531!817 14
4 TXl−172Tl1X6− 2002X3−02
6 BXIO054EH11145Tl2− 1731
117−027 BXII  055 EH11146
Tl3− 174 XXl−028BI12056 E
HOI  147 Tl4− 175 XXl0表  
2゜ 単語“工”の発音に対する高速照合の結果(5000語
の語索からの選択) I      I      16     hous
ing2      high    17     
aither3      highly   18 
    filing4      hiring  
 19     finally5      by 
    20     I ’ 116      v
ariety   21    1.e。
7      higher   22     di
ning8tsy        23       
 quite9          hire    
   24         I’dI Q     
 via       25       findi
ngl 1       Hyatt      26
        mightl 2       Hi
ke       27         Likel
 3       buying     28   
    trying14       type  
    29       defining15  
     howavar    30       
 why表3゜ 6個の単1! (WD)と9個の発音(VT)に対応す
る少数の訓練サンプル 、     VDI    WD2    WD3  
 1104    WD5   1106UTI   
 O+   −−00 UT2    +   −−000 UT3   0   ÷  0−−O UT4   0  0   G   +   O0UT
5   0  0  0  −  ÷  0UT6  
 0  0  −   +   OOUτ7  0 0
  ◆  −00 υT8    十  −−000 UT9     0    0    0    0 
   −     +÷=正しい選択 一=誤った選択 0=選択なし 皿四入五 L      夙 voi:     υT2/UT8 1!D2:     UTI/UT3    UT2.
UT8VD3:     UT7      UTI、
UT2.UT6.UT81104:     UT4/
UT6    UTI、UT3.UT5.UT7was
:     UT5      UT3.UT9111
06:     UT9 G0発明の効果 以上のように、この発明によれば、音声認識システムに
おいて、予備的な訓練ステップで単語モデルの各単音に
重みづけを行ない、この重みづけに基づき実際の音声認
識において、類似する単語の相違箇所を比較するように
したので、音声認識の精度を高めることができる。
【図面の簡単な説明】
第1図は、2つの単語の音声的な基本形式をあられす図
、 第2図は、単音に対するマルコフ・モデルの図式的な表
示の図 第3図は、複数の発音により訓練された統計的マルコフ
・モデルの表の一部をあられす図、第4図は、統計的単
語モデルに適用される重みづけベクトルを生成するため
の手続をあられすブロック図。 第5図は、あるサンプルの単語に対して、訓練段階で得
られた確率ベクトル及び重みづけベクトルをあられす図
式的な図、 第6図は、本発明に基づき重みづけ係数を用いる音声認
識手続のブロック図である。

Claims (1)

  1. 【特許請求の範囲】 (a)複数の発音の各ラベル列に対して、高速照合手続
    中で粗く照合した候補のサブ・セットを識別して、これ
    らの候補のうちどれが正しくどれが誤っているかを表示
    し、 (b)各単語に対応して、その単語が高速照合手続中で
    対応して選択されてなるラベル列の逆リストを生成して
    その選択が正しかったか否かを表示し、 (c)各単語に対応して、逆高速照合出力リスト中で識
    別されたラベル列を用いるとともに、個々の単語モデル
    の統計データを使用して、1つのラベル列毎に1つづつ
    確率ベクトルの組を生成し、はじめの高速照合選択が正
    しかったか否かの表示を保持し、 (d)各単語に対応して、線形識別解析手続において、
    上記確率ベクトルの組から重みづけベクトルを生成し、 (e)実際の音声認識処理の間に、対応する重みづけベ
    クトルの成分により、確率ベクトルの成分を重みづけす
    る段階を含む音声認識方法。
JP60231463A 1985-01-31 1985-10-18 音声認識方法 Granted JPS61177493A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US696976 1985-01-31
US06/696,976 US4741036A (en) 1985-01-31 1985-01-31 Determination of phone weights for markov models in a speech recognition system

Publications (2)

Publication Number Publication Date
JPS61177493A true JPS61177493A (ja) 1986-08-09
JPH0372989B2 JPH0372989B2 (ja) 1991-11-20

Family

ID=24799283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60231463A Granted JPS61177493A (ja) 1985-01-31 1985-10-18 音声認識方法

Country Status (4)

Country Link
US (1) US4741036A (ja)
EP (1) EP0191354B1 (ja)
JP (1) JPS61177493A (ja)
DE (1) DE3670166D1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61262799A (ja) * 1985-03-21 1986-11-20 アメリカン テレフオン アンド テレグラフ カムパニ− ヒドン形式マルコフモデル音声認識方法
JPS62231996A (ja) * 1986-03-27 1987-10-12 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 音声認識方法

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4860358A (en) * 1983-09-12 1989-08-22 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition arrangement with preselection
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
US5347612A (en) * 1986-07-30 1994-09-13 Ricoh Company, Ltd. Voice recognition system and method involving registered voice patterns formed from superposition of a plurality of other voice patterns
US5046100A (en) * 1987-04-03 1991-09-03 At&T Bell Laboratories Adaptive multivariate estimating apparatus
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
JPH01102599A (ja) * 1987-10-12 1989-04-20 Internatl Business Mach Corp <Ibm> 音声認識方法
US5072452A (en) * 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
US4933973A (en) * 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5040213A (en) * 1989-01-27 1991-08-13 Ricoh Company, Ltd. Method of renewing reference pattern stored in dictionary
US5144672A (en) * 1989-10-05 1992-09-01 Ricoh Company, Ltd. Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
JP3088739B2 (ja) * 1989-10-06 2000-09-18 株式会社リコー 音声認識システム
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
JP2989211B2 (ja) * 1990-03-26 1999-12-13 株式会社リコー 音声認識装置における辞書制御方式
US5345535A (en) * 1990-04-04 1994-09-06 Doddington George R Speech analysis method and apparatus
US5129001A (en) * 1990-04-25 1992-07-07 International Business Machines Corporation Method and apparatus for modeling words with multi-arc markov models
EP0475759B1 (en) * 1990-09-13 1998-01-07 Oki Electric Industry Co., Ltd. Phoneme discrimination method
US5293451A (en) * 1990-10-23 1994-03-08 International Business Machines Corporation Method and apparatus for generating models of spoken words based on a small number of utterances
US5193142A (en) * 1990-11-15 1993-03-09 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems
US5450523A (en) * 1990-11-15 1995-09-12 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture Gaussian densities for speech unit models in speech recognition systems
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
US5276766A (en) * 1991-07-16 1994-01-04 International Business Machines Corporation Fast algorithm for deriving acoustic prototypes for automatic speech recognition
DE4131387A1 (de) * 1991-09-20 1993-03-25 Siemens Ag Verfahren zur erkennung von mustern in zeitvarianten messsignalen
US5280563A (en) * 1991-12-20 1994-01-18 Kurzweil Applied Intelligence, Inc. Method of optimizing a composite speech recognition expert
US5337394A (en) * 1992-06-09 1994-08-09 Kurzweil Applied Intelligence, Inc. Speech recognizer
WO1994015330A1 (en) * 1992-12-18 1994-07-07 Sri International Method and apparatus for automatic evaluation of pronunciation
DE4323241A1 (de) * 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5572624A (en) * 1994-01-24 1996-11-05 Kurzweil Applied Intelligence, Inc. Speech recognition system accommodating different sources
JP3311460B2 (ja) * 1994-01-28 2002-08-05 富士通株式会社 音声認識装置
US5615299A (en) * 1994-06-20 1997-03-25 International Business Machines Corporation Speech recognition using dynamic features
US5793891A (en) * 1994-07-07 1998-08-11 Nippon Telegraph And Telephone Corporation Adaptive training method for pattern recognition
US5825978A (en) * 1994-07-18 1998-10-20 Sri International Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
US5729656A (en) * 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
US5717826A (en) * 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string
JP3536471B2 (ja) * 1995-09-26 2004-06-07 ソニー株式会社 識別装置および識別方法、並びに音声認識装置および音声認識方法
DE19708184A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6490555B1 (en) 1997-03-14 2002-12-03 Scansoft, Inc. Discriminatively trained mixture models in continuous speech recognition
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
US5995926A (en) * 1997-07-21 1999-11-30 Lucent Technologies Inc. Technique for effectively recognizing sequence of digits in voice dialing
EP1246164A1 (en) * 2001-03-30 2002-10-02 Sony France S.A. Sound characterisation and/or identification based on prosodic listening
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
US8818802B2 (en) * 2008-10-10 2014-08-26 Spansion Llc Real-time data pattern analysis system and method of operation thereof
WO2010042631A2 (en) * 2008-10-10 2010-04-15 Fastow Richard M Real-time data pattern analysis system and method of operation thereof
US20100138411A1 (en) * 2008-11-30 2010-06-03 Nexidia Inc. Segmented Query Word Spotting
US8645136B2 (en) 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
US8965763B1 (en) * 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9613638B2 (en) * 2014-02-28 2017-04-04 Educational Testing Service Computer-implemented systems and methods for determining an intelligibility score for speech
CN109313540B (zh) * 2016-05-13 2021-12-03 微软技术许可有限责任公司 口语对话系统的两阶段训练
JP2018013590A (ja) 2016-07-20 2018-01-25 株式会社東芝 生成装置、認識システム、有限状態トランスデューサの生成方法、および、データ
US11869494B2 (en) * 2019-01-10 2024-01-09 International Business Machines Corporation Vowel based generation of phonetically distinguishable words
US11580959B2 (en) 2020-09-28 2023-02-14 International Business Machines Corporation Improving speech recognition transcriptions

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5272504A (en) * 1975-12-15 1977-06-17 Fuji Xerox Co Ltd Device for recognizing word audio
US4099257A (en) * 1976-09-02 1978-07-04 International Business Machines Corporation Markov processor for context encoding from given characters and for character decoding from given contexts
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61262799A (ja) * 1985-03-21 1986-11-20 アメリカン テレフオン アンド テレグラフ カムパニ− ヒドン形式マルコフモデル音声認識方法
JPH0555040B2 (ja) * 1985-03-21 1993-08-16 American Telephone & Telegraph
JPS62231996A (ja) * 1986-03-27 1987-10-12 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 音声認識方法
JPH0431600B2 (ja) * 1986-03-27 1992-05-26

Also Published As

Publication number Publication date
EP0191354A1 (en) 1986-08-20
US4741036A (en) 1988-04-26
JPH0372989B2 (ja) 1991-11-20
EP0191354B1 (en) 1990-04-04
DE3670166D1 (de) 1990-05-10

Similar Documents

Publication Publication Date Title
JPS61177493A (ja) 音声認識方法
EP0984428B1 (en) Method and system for automatically determining phonetic transcriptions associated with spelled words
US5729656A (en) Reduction of search space in speech recognition using phone boundaries and phone ranking
JP3948747B2 (ja) ツリー構成確率密度に基づくパターン認識の方法及びシステム
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
EP0387602B1 (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
Lin et al. A new framework for recognition of Mandarin syllables with tones using sub-syllabic units
CN106297800B (zh) 一种自适应的语音识别的方法和设备
JPH0581918B2 (ja)
CN109979257B (zh) 一种基于英语朗读自动打分进行分拆运算精准矫正的方法
CN101785051A (zh) 语音识别装置和语音识别方法
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
CN115116428B (zh) 韵律边界标注方法、装置、设备、介质及程序产品
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
Schmid et al. Automatically generated word pronunciations from phoneme classifier output
Zheng et al. Speech emotion recognition based on acoustic segment model
Liu et al. State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
US5737490A (en) Method and apparatus for constructing continuous parameter fenonic hidden markov models by replacing phonetic models with continous fenonic models
CN111429886B (zh) 一种语音识别方法及系统
CN115424604A (zh) 一种基于对抗生成网络的语音合成模型的训练方法
JP2004177551A (ja) 音声認識用未知発話検出装置及び音声認識装置
JP2000276189A (ja) 日本語ディクテーションシステム
Hansakunbuntheung et al. Unsupervised graphoneme alignment evaluation for grapheme-to-phoneme conversion on complex asian-language orthographies
Soundarya et al. Analysis of Mispronunciation Detection and Diagnosis Based on Conventional Deep Learning Techniques