JPS62246097A - 音声認識のための単語マルコフ・モデル合成装置 - Google Patents

音声認識のための単語マルコフ・モデル合成装置

Info

Publication number
JPS62246097A
JPS62246097A JP62053232A JP5323287A JPS62246097A JP S62246097 A JPS62246097 A JP S62246097A JP 62053232 A JP62053232 A JP 62053232A JP 5323287 A JP5323287 A JP 5323287A JP S62246097 A JPS62246097 A JP S62246097A
Authority
JP
Japan
Prior art keywords
phonetic
word
model
feeneem
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62053232A
Other languages
English (en)
Other versions
JPH0372999B2 (ja
Inventor
ラリツト・ライ・バール
ピーター・ヴインセント・デソーザ
ロバート・レロイ・マーサー
マイケル・アラン・ピチエニ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPS62246097A publication Critical patent/JPS62246097A/ja
Publication of JPH0372999B2 publication Critical patent/JPH0372999B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 この発明の説明はつぎのとおり行う。
A、産業上の利用分野 B、従来技術 C1発明が解決しようとする問題点 り0問題点を解決するための手段 E、実施例 El、音声認識システムの環境 Ell、一般説明 El2.音声学的ベースフォームの構築E13.フィー
ニーム・ベースフォームの構築E14.単語モデルのト
レーニング E2.発声されない単語のベースフォームの合成F0発
明の効果 A、産業上の利用分野 本発明は、一般に音声認識に関するものであり、具体的
には、所定の単語モデルを既知の他の単語モデルから合
成することに関するものである。
B、従来技術 ある種の音声認識方法では、語常中の単語を単語モデル
で表わしている。この単語モデルを噴語のベースフォー
ムと呼ぶことがある。たとえばIBMC株)では、実験
的音声認識装置で各単語をマルコフ・モデルのシーケン
スとして表わしている。各シーケンスがそれ自体マルコ
フ・モデルであることに留意すべきである。
単語モデルを、音声入力に応答して生成された8力と一
緒に使うことにより、音声入力が語嚢中の語と突き合わ
される。
ある方法では一組のモデルが定義される。語曇中のすべ
ての単語のベースフォームが、定義済みの一組のモデル
のうちから選んだ複数のモデルから構築される。
しかし、別の方法では単語を複数のベースフォームで表
わすが、それも根拠があると思われる。
この場合、各ベースフォームをそれぞれ対応する一組の
モデルのうちから選んだモデルから構築する。すなわち
、第1のモデル群に含まれるモデルから構築されたベー
スフォームをある目的で音声認識装置に使用し、第2の
モデル群に含まれるモデルから構築されたベースフォー
ムを別の目的に使用することができる。さらに、音響の
突き合せその他の目的を実施する過程で、いくつかのベ
ースフォームを一緒に使用することもできる。
大部分の大語當(たとえば5ooo語以上)音声認識シ
ステムでは、単語のベースフォームを。
音声認識装置の各ユーザに合わせて修正する。すなわち
、各ベースフォームに関連するある種の変数の値を決定
するために、ユーザが既知の単語からなる(トレーニン
グ用)テキストを発声する。
普通、各単語ベースフォームは、トレーニング中に生成
されたデータから直接にその変数が設定される。単語を
(それぞれのモデル群に含まれるモデルから構築された
)多重ベースフォームで表わす場合、すべての単語ベー
スフォームを「トレーニング」するのに、すなわちその
変数値を設定するのに充分なデータをもたらすのに、長
いトレーニング期間が必要であった。
トレーニング期間が長くかかるのは望ましくない。した
がって、ある語食中のすべての語について多重ベースフ
ォームを構築するのに充分なデータを生成しなければな
らないことは、克服すべき問題であると考えられるよう
になった。
さらに、場合によっては、第2のモデル群に含まれるモ
デルから構築されたベースフォームが。
既に存在しているか、または第1のモデル群のモデルか
ら構築されたベースフォームと比較して容易に形成でき
るものであることがある。さらに。
音声認識体系で必要なベースフォームが、第2のモデル
群のベースフォームではなくて、第1のモデル群のうち
から選んだモデルのベースフォームであることもある。
従来は、第2群のベースフォームが知られているか否か
にかかわらず、第1のモデル群からすべてのベースフォ
ームを構築するには、そのためのトレーニング・データ
が必要であった。
C0発明が解決しようとする問題点 したがって、トレーニング期間中に発声されなかった単
語のベースフォームを合成する手法を提供することが1
本発明の目的である。
D1問題点を解決するための手段 具体的に言うと、本発明では、既知のある種の単語が、
それぞれ(a)第1のモデル群に含まれる単語モデルか
ら構築されたベースフォームと、(b)第2のモデル群
に含まれる単語モデルから構築されたベースフォームで
表わされるものと仮定する。また、既知の単語ではこの
2つのベースフォームを互いに位置合わせすることがで
きるものと仮定する。さらに、他の単語は、第2のモデ
ル群に含まれるモデルから構築されたベースフォームで
初めから表わされており、またはすぐに表わせるものと
仮定する。本発明は、トレーニング期間後にかかる他の
単語に対する(第1のモデル群のうちから選んだモデル
から構築された)ベースフォームを合成するための手法
を教示するものである。
すなわち、トレーニング中に生成されたベースフオーム
から、第1のモデル群のモデルと所与の文脈中の第2の
モデル群の所与の各モデルとの間で相関を行なう。所与
の文脈中の所与のモデルが、トレーニング中に発声され
なかった「新」単語中に現われると、それに対応する「
新」単語の切片が、第1のモデル群中の相関されたモデ
ルで現わされる。「新」単語の各切片を第1のモデル群
の相関されたモデルで表わし、「新」単語の連続する切
片に対する相関されたモデルを連結することによって、
第1のモデル群に含まれるモデルから構築されたベース
フオームが合成される。
本発明は、上記のことによって、それ以上のトレーニン
グを必要とせずに、既知のベースフオームにもとづいて
第1のモデル群に含まれるモデルから構築されたある種
のベースフオームを合成するという目的を達成する。
また1本発明は、各ベースフオームを独立にトレーニン
グせずに、同じ語に対する異なるベースフオームを生成
するという目的を達成する。
また、本発明は、場合によっては、生成または形成する
のは容易かもしれないが計算上の効率が低いと思われる
ベースフオームから、音声認識計算で使用するのが好ま
しいモデルのベースフオームを導き出すという目的をも
実現する。
さらに、語常中の単語については音声学に基づく第2の
モデル群のベースフオームが既に知られているかまたは
すぐに決定できるが、音響処理装置の出力に関係するモ
デルのベースフオームを使うと、認識の精度または速度
あるいはその両者が向上する場合、本発明は、トレーニ
ングの必要なしにある種の単語の出力に関係するモデル
のベースフオームを合成するための手法を提供する。
E、実施例 El、音声認識システムの環境 Ell、一般説明 第1図に、音声認識システム100oの一般的ブロック
図を示す。システム1000は、スタック・デコーダ1
002と、それに接続されている音響処理装置1004
.音響マツチング要素1006(好ましくはアレイ処理
装置)、および言語モデル処理装置1010を含んでい
る。言語モデル処理送置1010は、何らかの好ましく
は文派上の基準にもとづいて単語の尤度を決定する。音
響マツチング技術と言語モデルについては、様々な論文
に記載されている。たとえば、下記の論文で、音声認識
の様々な側面とモデル化法が考察されており、ここにそ
れらの論文を引用する。し、RoBahl、 F、Je
linek、 R,L、Marcerの、”conti
nuousSpeech Recognition b
y 5tatistical Methods”、Pr
oceedings of the IEEE、 Vo
l、 64、PP、 532〜556、(1976);
 “A MaximumLikelihood App
roach to Continuous Speec
hRecognition” 、 IEEE Tran
sactions on patternAnalys
is  and  Machine  Intelli
gence、   Vol、PAMI−5、No、2.
1983年3月。
音響処理袋!i!1004は、音声波形を出力ストリン
グに変換するように設計されている。音声は、処理装置
1004により1選択された諸特徴に対応するベクトル
成分をもつベクトル「空間」によって特徴づけられる。
従来、かかる特徴には、音声スペクトルの様々な周波数
におけるエネルギ振幅が含まれていた。音響処理装置1
004は、複数の原型ベクトルを記憶する。各原型ベク
トルは。
各成分毎に所定の値をもつ、音声信号入力が、音響処理
装置1004に入るが、これは継続する時間間隔に分割
する二とが好ましい、各時間間隔には、かかる間隔中の
各種の特徴の値にもとづいて出力ベクトルを割り当てる
。各時間間隔の出力ベクトルを各原型ベクトルと比較し
、各原型ベクトルについて距離測定を行なう。距離測定
は1通常のベクトル距離測定法で行なうことができる。
次に各時間間隔を、特定の原型ベクトルまたはその他の
何らかの出力に関係する関数と関連づける。
たとえば、各原型ベクトルを、ラベルまたは記号で識別
することができる。それを「フィーニーム(fenem
a) Jと呼ぶ。これはフロント・エンド・プロセッサ
(FE)で得られる微小音系に由来する名称である。か
かる場合、音響処理装置1004は、各時間間隔ごとに
フィーニームを出力する。
したがって、ある音声入力に対して、音響処理装置11
004はフィーニームのストリングを生成する。あるア
ルファベット中に200個程度の異なるフィーニーム(
またはラベル)があることが好ましい。その場合、各時
間間隔について、200個のフィーニームのうちの1つ
が選択される。
特定の種類の音響処理装置が特開昭61−126600
号公報に記載されている。この公開公報の発明では、ベ
クトル成分に対して選択された特徴が1人の耳の独自の
モデルから導き出される。
各ベクトル成分は、各周波数帯域の推定神経発火率に対
応する。
音響処理装置1004から出たフィーニームは、スタッ
ク・デコーダ1002に入る。スタック・デコーダ10
02は、1本または複数本の見込みのある単語経路を定
義し、見込みのある次の単語を使って見込みのある各単
語経路を拡張する。見込みのある単語経路と見込みのあ
る次の昨語は、部分的に、音響処理袋[!1004で生
成されるラベルにもとづいて決定される。ある新規な型
式のスタック・デコーダが、特願昭61−32049号
明細書に開示されている。
見込みのある次の単語、あるいはもっと具体的にいえば
、ある経路上で次にくる公算が比較的大きい候補語のリ
ストを決定する際、音響処理装置1004からきたフィ
ーニームが、音響マツチング要素1006に送られる。
各種の型式の音響マツチングが、特願昭60−2552
05号明細書に記載されている。
音響マツチング要素1006は、単語モデルにもとづい
て動作する。具体的にいうと、直前に引用した特許出願
に記載されているように、音響マツチングは、単語を確
率的有限状態マシンのシーケンスとして特徴づけること
によって実施される。
この有限状態マシンをマルコフ・モデルとも呼ぶ。
一般に、各マルコフ・モデルがそれぞれある音声カテゴ
リに対応しているような1組のマルコフ・モデルがある
。たとえば、各マルコフ・モデルを。
国際音声字冊のある要素に対応させることができる。音
声文字AAOはそれに対応する音声マルコフ・モデルを
もつことになり、AEO,AEIもそうであり以下ZX
まで同様に続く。
音声学的マルコフ・モデルを用いる場合、各単語は、ま
ず音声学的要素列によって定義される。
その語の音声学的要素に対応する音声学的モデルを連結
して、語の音声学的ベースフォームが構築される。
各音声学的マルコフ・モデルは、第2図に示すような構
造で表わすのが好ましい、具体的に言うと、第2図の音
声学的マルコフ・モデルは、(a)7つの状態81〜S
7;  (b)13の遷移tr1〜tr13;(c)各
遷移の確率P (tri) 〜P (tr13〕 (図
にはP(tri)だけを示しである);(d)遷移tr
i〜trioでのラベル出力確率を含んでいる。各ラベ
ル出力確率は、音声学的マルコフ・モデルの所与の遷移
で所与のラベルが生成される尤度に対応する。この尤度
はトレーニング期間中に決定される。たとえば、規定さ
れた音声学的要素列に対応する既知のテキストの発声に
もとづいて、特定の音声学的モデル(たとえばAAOの
音声モデル)に対する遷移triでラベル1が生成され
る尤度が決定され、Pi (1)として識別される。遷
移tr3でラベル200が生成される尤度も決定され、
P3 (200)として識別される。
同様にトレーニング・データにもとづいて、各音声学的
モデルについて各遷移tri〜trioでの各ラベルの
ラベル出力確率が決定され、識別される。
遷移trll〜tr13は、空遷移である。空白遷移で
はラベルは生成されない。したがって、それにはラベル
出力確率は割り当てられない。
すべての遷移tri〜tr13の遷移確率も、トレーニ
ング中に生成されたデータから、周知のフォワード・バ
ックワード・アルゴリズムを適用して導き出される。
簡単な説明として、第2図はAAOなとの音声要素を示
し、AAO音の発声が状態S1から状態S7に向って種
々の経路をとり得る様子を示す。
遷移trllに従うなら、AAO音声要素はラベルを生
成しない。その代りに、状態S1から状態S2または状
態S4に向う経路に従うこともできる。
このどちらかの経路をとる場合は、ラベルが生成される
。これらの代替経路を第3図に示す。
第3図で、水平軸はラベルが生成される時間間隔を表わ
す。実線は、ラベル間隔中にモデル内で起こり得る遷移
を示す。点線は、従うことのできる空遷移を示す。
第4図に、開始時間10から始まる連続するラベル間隔
でのマルコフ音声学的モデルを描いた格子を示す。時間
toは、音響処理袋[71004によってストリング中
の最初のラベルが生成される時間に対応する。toが状
態S1に対応するとして、例として、最終状態S7に至
る様々な経路を図示しである。ある経路では、状態S1
から状態S2に至り、そこから状jlls3に至る。す
なわち2つの非空遷移に従う、状態S3から状態S7へ
は、ラベルが生成されない経路と、非空遷移に従う経路
とがある。あるラベル列について、1つまたは複数の音
声学的モデルの遷移に沿った様々な経路があることが認
められる。
音声学的マルコフ単語モデルを第5図に示す。
第5図(a)に、” T HE ”の語を、そのある発
音にもとづいて、順に並んだ3つの音声要素として示す
。この音声要素は、DH,UHI、およびXxである。
第5図(b)では、DH,UHI、およびXXに対する
音声学的マルコフ・モデルを連結して1語” T HE
 ”の音声学的単語ベースフォームを形成する。
第4図のような格子を、ある音声久方(たとえば、単語
”THE”)に応じて生成されるすべてのラベルを含む
ように拡張することができる。拡張格子では、状態間の
遷移には確率が割り当てられ、またラベル出力確率も遷
移に割り当てられることに留意すべきである。
単語の尤度を評価する過程には、どの単語モデルが、時
間to、t1等々で(音声久方に応じて音響処理装置1
004によって)レベルが生成される尤度が最大である
かを決定することが含まれる。音響マツチング要素をど
のように使って星語の尤度を決定するかの詳細な説明は
、音響マツチング要素に関する前述の特許出願に記され
ている。
音声学的ベースフォームを構築するのに使われる音声学
的モデルの他に、音響マツチング要素にはフィーニーム
型マルコフ・モデルも使われてきた。具体的にいうと、
第2図のような比較的複雑な音声モデルの代りに、フィ
ーニームにもとづく1組のマルコフ・モデルが使われて
きた。フィーニーム型マルコフ・モデルを第6図に示す
。フィーニーム型マルコフ・モデルは、2つの状fis
1゜82と3つの遷移を含む簡単な構造であることが認
められる。1つの非空遷移はSlから82へ延び、第2
の非空遷移は状態s1から自分自身に戻る自己ループと
なっている。空遷移は状態s1がら状態S2へ延びてい
る。この3つの遷移には。
それぞれ確率が割り当てられ、2つの非空遷移それぞれ
に、トレーニング期間中に生成されたデータから導き出
されたラベル出力確率がある。フィーニーム型モデルに
もとづく格子を第7図に示す。
第8図では、単語のフィーニーム型ベースフォームを形
成する場合のように、複数のフィーニーム型マルコフ・
モデルが連結されている。
第8図の表記法について簡単に考察する。FP200は
、通常200個の異なるフィーニームを含むフィーニー
ム・アルファベット(フィーニーム集合)の20000
番目ィーニームに対応するフィーニーム型音声を指す。
同様に、FPIOはフィーニーム・アルファベットの1
0番目のフィーニームに対応する。FP200.FPI
O等々を連結すると、単語のフィーニーム型ベースフォ
ームとなる6各フイーニームは1通常0.01秒継続し
1通常の発音された語の長さはフィーニーム数でいうと
平均80〜100である。さらに、各フィーニーム型モ
デルは平均約1つのフィーニームを生成するため、通常
のフィーニーム型ベースフォームの長さはフィーニーム
型モデル的80−100個である。FP200の第2の
遷移の確率を、P (tr2     ) テ表わす。
FP200のモデルがその第2遷移でラベル1を生成す
る確率はP’ F200 (1)i?表わす。FP20
0モデルは、実際には20000番目ィーニームを生成
するようにスキューすることもできる。だが、発音の変
動のために、FP200モデルが他のフィーニームを生
成する確率もある。
下記の2節では、それぞれ音声学的マルコフ・モデルと
フィーニーム型マルコフ・モデルから単語ベースフオー
ムを構築するための方法の概要を説明する。この2種の
ベースフオームを検討すると、音声学的ベースフオーム
の方がそれに含まれる連結されたモデルの数が少ないが
、音声学的モデルで必要な計算は、フィーニーム型モデ
ルで必要な計算よりも著しく多いことが認められる。ま
た、音声学的ベースフオームは音声学者の手で規定され
るが、フィーニーム型基本形式は、E13節に引用する
特許出願に記載されているように音声学者の手を煩わさ
ずに自動的に構築されてきた。
E12.音声学的ベースフオームの構築各単語ごとに、
音声学的サウンド列があり、そのそれぞれがそれに対応
する音声学的モデル(音声学的゛′単単音ママシンも呼
ぶ)を有する。好ましくは、各非空遷移で、各フィーニ
ームの生成に何らかの確率が付随している(フィーニー
ム・アルファベットを第1表に示す)。各種の音声学的
単音マシンにおける遷移確率およびフィーニーム確率は
、トレーニング中に、既知の音声が少くとも1度発声さ
れたときに生成されるフィーニーム・ストリングを記録
し、周知のフォワード・バックワード・アルゴリズムを
適用することによって。
決定される。
第」4 001  AAII   029  BI2−  05
7  EH(002AA12  030  BI3− 
 058  EHI003  AA13  031  
BI3−  059  EHI004  AA14  
032  BI5−  060  EHI005  A
A15  033  BI6−  061  EHI0
06  AEII   034  BI7−  062
  EHI007  AE12  035  BI8−
  126  RXI008  AE13  036 
 BI9−  127 5HI009  AE14  
037  DHI−128SH;010  AF15 
 038  DH2−1295XI011  Awll
   039  DQI−1305XS012  Av
12  040  BO2−1315X3013  A
V13  041  BO3−132SX<014  
AXII   042  BO4−1335XE015
  AX12  043  DXI−1345XE01
6  AX13  044  DX2−  135  
SX’r017  AX14  045  II!E0
1  136  Tl(]018AX15046EEO
2137THコ019  AX16  047  EE
II   138  TH;020  AX17  0
48  EH11139TH71021BQI−049
EH11140Tl(3022BO2−050EH11
141TQI023  BO3−051EH11142
TQ:024  BO2−052EH11143TX;
025  BXI−053EH11144TXI026
  BXIO054EH11145TX:2  148
  TX5−  176  XXl11   149 
 TX6−   177  XX122  150  
tlHOl   178  XX133  151  
UHO2179XX144  152  [81118
0XX155  153  UH12181XX16−
  154  UH13182XX17−  155 
 LIH14183XX18−  156  UUII
   184  XX19−  157  UU12 
 185  XX2−−  158  UXGI   
186  XX20−  159  UXG2  18
7  XX2l−160υXll   188  XX
22−  161  UX12  189  XX23
−  162  UX13  190  XX24− 
 163  VXI−191XX3−−  164  
VX2−  192  XX4−−  165  VX
3−  193  XX5−−  166  VX4−
  194  XX6−−   167  WXI−1
95XX7−−    168  リX2−   19
6  XX8−−   169  WX3−   19
7  XX9−、+    170  WX4−   
198 2X1−−  171  WX5−  199
  XX2−− 172 リX6−  200  XX
3−’−173WX7− 例として、音DHの統計のサンプルを第2表に示す。近
似的に、第2図の単音マシンの遷移tri、tr2.t
r8に対するラベル出力確率分布を1つの分布で表わし
、遷移tr3、tr4.tr5.tr9を1つの分布で
表わし、遷移tr6、tr7.trloを1つの分布で
表わす。これを、弧(すなわち遷移)をそれぞれの欄4
.5.または6に割り当てる形で、第2表に示す。第2
表は各遷移の確率および、あるラベル(すなわちフィー
ニーム)が音声学的要素(すなわち「音J )DHの始
め、中間、または終りで生成される確率を示したもので
ある。たとえば音DHでは、状態S1から状態S2への
遷移の確率は0.07243とカウントされる。状態S
1から状態S4への遷移の確率は0.92757である
(この場合は、この2つだけが初期状態からの可能な遷
移であり、その合計が1となる)。ラベル出力確率につ
いては、音DHは、その終りの部分、すなわち第2表の
第611iでフィーニームAE13(第1表参照)を生
成する確率が0゜091である。また第2表では、各ノ
ード(または状態)にカウントが関連している。ノード
・カウントは、トレーニング中に音がそれに対応する状
態になった回数を示すものである。各音声学的モデル、
または音声学的単音マシンごとに第2表のような統計が
見出される。
音声学的単音マシンを単語ベースフオームのシーケンス
に配列する過程は、通常音声学者の手で実施され、通常
は自動的には行なわれない。
; I   ぐり 1デ   〇 ジーデζ) PO −o u3  ロ E13.フィーニーム・ベースフォームの構築各遷移に
関連する確率、および第6図に示したようなあるフィー
ニーム・モデルの遷移で各ラベルに関連する確率は、ト
レーニング期間中に、音声学的ベースフォームで音声学
的モデルをトレーニングする場合と類似のやり方で決定
される。
フィーニーム型単語ベースフオームは、フィーニーム型
単音を連結して構築される。その1つの方法が、198
5年2月1日出願の米国特許出願S、N、697174
号に記載されている。単語のフィーニーム・ベースフォ
ームは、当該の単語の複数回の発声から成長させること
が好ましい。
このことは、米国特許出願S、N、06/738933
号に記載されている。この開示を、本発明の充分な開示
に必要な範囲でここに引用する。簡単に言うと、複数回
の発声から語の基本形式を成長させる1つの方法は、下
記の各ステップを含むものである。
(a)単語セグメントの複数回の発声を、それぞれフィ
ーニーム・ストリングに変形する。
(b) −ffiのフィーニーム型マルコフ・モデル単
音マシンを定義する。
(c)多重フィーニーム・ストリングを生成するのに最
良の1つの単音マシンP1を決定する。
(d)多重フィーニーム・ストリングを生成するための
、PIF2またはP2P1の形の最良の二音ベースフオ
ームを決定する。
(e)各フィーニーム・ストリングに対して、最良の二
音ベースフオームを位置合せする。
(f)各フィーニーム・ストリングを、二音ベースフオ
ームの第1の単音マシンに対応する左部分と、二音ベー
スフオームの第2の単音マシンに対応スる右部分に分割
する。
(g)各左部分を左サブストリングと名づけ、各右部分
を右サブストリングと名づける。
(h)複数回の発声に対応する一組のフィーニーム・ス
トリングと同じやり方で一組の左サブストリングを処理
するが、さらに単音ベースフォームの方が最良の二音ベ
ースフオームよりも所定のサブストリングを生成する確
率が高いとき、そのサブストリングの再分割を禁止する
ステップを含む。
(j)複数回の発声に対応する一組のフィーニーム・ス
トリングと同じやり方で一組の右サブストリングを処理
するが、さらに単音ベースフオームの方が最良の二音ベ
ースフオームよりも所定のサブストリングを生成する確
率が高いとき、そのサブストリングの再分割を禁止する
ステップを含む。
(k)分割されなかった単一の単音をそれらに対応する
フィーニーム・サブストリングの順序と同じ順序で連結
する。
ベースフォーム・モデルは、既知の発声を音響処理装置
に声を出して入力することにより、さらにそこでそれに
応じたラベルのストリングを生成させることによって、
トレーニング(または統計で充填)される、既知の発声
と生成されたラベルにもとづいて、上記に引用した諸論
文で考察されているフォワード・バックワード・アルゴ
リズムによって1語モデルの統計が導き出される。
第7図に、フィーニーム型単音に対応する格子を示す。
この格子は、音声学的モデル体系に関係する第4図の格
子に比べて、ずっと簡単である。
音声学的ベースフォームとフィーニーム・ベースフォー
ムとは、どちらも音響マツチング要素中で、また他の音
声認識の目的に使用できる。
E14.単語モデルのトレーニング 良好なトレーニングの方法は、 L、R,Bahl、 
P、F。
Brown、 P、V、Desouza、およびR,L
、Mercerが発明し。
IBMC株)に譲渡された。″音声認識システムで使用
されるマルコフ・モデルのトレーニングの改良(Imp
roving the Training of Ma
rkovModels Used in a 5pee
ch Recognition System)”と題
する同時係属の米国特許出願で教示されている。この開
示をここに引用する。この開示では。
トレーニングは、他の単語に関連する確率に比べて正し
い単語の確率を向上させる形で、各単語のベースフォー
ムの統計を決定することを含んでいる。他の方法のよう
にラベルにスクリプトが与えられる確率を最大にするの
ではなく、発声された単語の正しいスクリプトにラベル
出力が与えられる確率と他の(正しくない)スクリプト
の確率との差を最大にするというのが、その考え方であ
る。
かかる方法によると、(語常中の各単語が少なくも1つ
の確率的有限状態モデルのあるベースフォー11で表わ
され、かつ各確率的有限状態モデルが遷移確率項目と出
力確率項目を有する、コミュニケートされた音声入力に
応答して出力のアルファベットのうちから選択された出
力から語常中のある単語をデコードするためのシステム
において)既知の単語のコミュニケートに応答して生成
される出力が既知の単語のベースフオームによって生成
される尤度が、生成される出力が他の少くとも1つの単
語のベースフオームによって生成されろ尤度に比べて高
くなるように、記憶済みの確率項目の値の少くとも一部
分をバイアスさせるステップを含む、確率項目の値を決
定する方法が提供される。
各単語(または語のはっきりした発音、これを“語紮素
″と呼ぶ)は、列になった1つまたは複数の確率的有限
状態マシン(またはモデル)で表わすことが好ましい。
各マシンは、−組の音声のうちのあるパ音声″に対応す
る。各音声は、音声的要素、ラベル(またはフィーニー
ム)、あるいはマルコフ・モデルまたは類似のモデルを
指定できる他の何らかの事前に定義された音声の特性と
相関する。
トレーニング・スクリプトは1通常一連の既知の語から
構成される。
ここに記載するトレーニング方法によれば、確率項目に
付随する確率値は、下記のようにして評価される。
各確率項目について、推定値0′が設定される。
推定値0′とトレーニング中に生成されたラベルが与え
られているものとすると、′単一カウント″と呼ばれる
値が決定される。“1単一カウント″は、一般に訓練デ
ータにもとづいて、ある事象が発生する(予想)回数に
関係する。゛単一カウント″のある特定の定義は、(a
)あるラベルのストリングY、(b)定義された推定値
O′、および(c)特定の時間tが与えられているもの
として、上記の単一カウントは1周知のフォワード・バ
ックワード・アルゴリズム、またはバウム・ヴエルヒ・
アルゴリズムを適用して決定する。
上記の定義によれば、単一カウントは、次式で表わすこ
とができる。
Pr(S、、t、lY、o、τ) l 各時間tで特定のS、、τ、、Y、0′に対すJす る単一カウントを合計すると、それに対応する遷移確率
項目について、′遷移累積カウント″が決定される。遷
移累積カウントは確率の和なので、その値は1を越える
こともある。各遷移確率について、それぞれの遷移確率
項目を記憶しておくことが好ましい。所与の遷移から得
られたこの累積カウントを、状態S、から取り得るすべ
ての遷移の累積カウントの和で割って、それぞれの遷移
確率項目に対する現在の確率値が決定される。現在の確
率値は、その当該の遷移確率項目に関連させて記憶して
おくことが好ましい。
ラベル出力確率項目に関して、単一カウントを再度合計
する。これらの各確率項目について、対応する生成され
たそのストリング中のラベルがラベル出力確率項目に対
応するラベルとなるすべてO′に対する単一カウントを
合計する。この場合の合計は、′ラベル出力累積カウン
ト”であり。
それに対応するラベル出力確率項目と関連させて記憶し
ておくことが好ましい、この累積カウントベてのラベル
時間にわたる単一カウントの合計で割って、それぞれの
ラベル出力確率項目に対する現在の確率値を決定する。
上記に引用した特許出願の方法によれば、発声された既
知の単語のトレーニング・スクリプト、各確率項目の初
期確率値、トレーニング中に発声された各語に対する候
補語のリストが規定される。
候補語のリストは、迅速近似音響マツチングなどの手順
によって定義される。発音された既知のどの単語につい
ても、正しい″既知の単語と″正しくない”単語がある
(正しくない単語とは、誤まって既知の単語として復号
される尤度が最高であることが好ましい)。
確率項目の現在の確率値は、まず正しい単語のベースフ
ォームまたは正しくない単語のベースフォームによる各
確率項目の″プラス・カウント値″とパマイナス・カウ
ント値″を計算して決定する。
このプラス・カウント値を(各確率項目ごとに)対応す
る確率項目の累積値に加え1次にその累積値からマイナ
ス・カウント値を差し引く。
プラス・カウント値は1周知のフォワード・バックワー
ド・アルゴリズムを適用し、好ましくはそれから得られ
る統計をスケーリングすることによって、正しい(すな
わち既知の)単語のベースフォームで各確率項目ごとに
計算する。プラス・カウント値を加えると、カウント値
(およびそれから導かれる確率項目)がストリングYに
近づく方向にバイアスされ、Yが、相対的に正しい単語
モデルである尤度がより高い出力にみえるようになる。
所与の確率項目のマイナスのカラン1−値は、正しくな
い単語が発音されてラベルのストリングを生成した場合
のように、フォワード・バックワード・アルゴリズムを
適用して計算する。既知の語の1回の発音から導かれた
マイナス・カウント値を、(プラス・カウント値と足す
前または後で)それに対応する累積カウントの最近の値
から差し引く。この減算によって、正しくない語のベー
スフォームで確率項目を計算するのに使われた累積カウ
ントが、ストリングYから離れる方向にバイアスされる
これらの調整された累積カウントにもとづいて、復号精
度が高まるように、カウントに対する確率値および確率
値がisaされる。
語當中の各単語ごとに上記のステップに従って、復号精
度が高まるように、カウントに対する記憶値および確率
値が調整される。
上記に考察した方法は、音声を語鴬中の認識された単語
に復号する際の精度を向上させるために他の方法で決定
されたカウント値を改善するのに役立つ。
E2.発声されない単語のベースフォームの合成第9図
において、本発明の一般的方法が図示されている。ステ
ップ2002で、トレーニング・テキスト中の単語が音
声学的ベースフオームで表わされる。具体的に言うと、
トレーニング期間中に発声される各単語が、通常は音声
学者の手で、国際音標文字で定義される音声学的要素の
列として特徴づけられる。各音声学的要素が、それに対
応する音声学的モデルで表わされる。したがって。
各単語について、先にE12段で説明したようなそれに
対応する音声学的モデルの列がある。この列が音声学的
ベースフォームを表わす。
先にE13段で説明したように、単語は一連のフィーニ
ーム・モデルから構築されるフィーニーム・ベースフォ
ームでも表わすことができる。ステップ20o4で、ト
レーニング・テキスト中の単語が、フィーニーム・ベー
スフォームで表わされる。
フィーニームは、′出力に関係″することが認められる
。すなわち、フィーニームは、音響処理装置、たとえば
処理装置1004によって生成される出力である。した
がって、フィーニーム型モデルは、′出力に関係するモ
デル″である。この点に関して、さらに代りに他の出力
に関係するモデルを使うこともできることに留意すべき
である。
たとえば、′出力に関係するモデル”を、簡単な出力ベ
クトル、または音響処理装置が出力としてもたらす音声
の他の選択可能な特徴的出力にもとづいて定義すること
もできる。
トレーニング・テキスト中で発生する音声学的モデルは
、様々な音声学的モデルの文脈中で発生する。現在説明
している実施例では、パ音声学的モデルの文脈”は、主
題となる音声学的モデルの直前の音声学的モデルおよび
直後の音声学的モデルによって定義される。すなわち、
ある音声の列について、位1!!piにある主題の音声
学的モデルの文脈が、位置P(i−1)とP (i+1
)にある音声学的モデルによって決定される。特定の主
題の音声学的モデルは、複数の文脈のどの中ででも発生
し得る。−組の音声学的要素(本出願での考察では、沈
黙に対応する要素を1つ含む)中に70個の音声学的要
素があるものと仮定すると。
(沈黙でない)任意の音声学的モデルの前に70個の音
声学的モデルのうちのどれでもくることができ、またそ
の後にも70個の音声学的モデルのうちのどれでもくる
ことができると考えられる。
したがって、所与の音声学的モデルに対して、70X7
0=4900の文脈が可能である。
本発明の1つの実施例によれば、各音声学的モデルに対
する多数の可能な文脈のそれぞれに、記憶装置内のある
位置が割り当てられる。
しかし、下記で考察する良好な実施例では、選択された
文脈だけが記憶装置に入る。どちらの場合でも、その−
組の音声学的モデルのうちのm番目の音声学的モデルn
mについて、複数の文脈が識別できる。記憶装置内では
、音声学的モデルとその文脈は、ステップ2006でn
m、cとして記録される。
トレーニング・テキスト中の発声されたすべての単語に
対して、フィーニーム型単語ベースフオームと音声学的
単語ベースフオームとがあることが好ましい。ステップ
2008で、周知のビタービ位置合せ手順が適用される
。すなわち所与の単語の音声学的ベースフオームによる
連続する各音声学的モデルが5所与の単語のフィーニー
ム・ベースフオームによる対応するフィーニーム型モデ
ルの列と相関される。ビタービ位置合せ手順は、上記に
引用したF、JeLinekの論文に詳細に記載されて
いる。
所与の文脈中の音声学的モデルが1回だけ発声される場
合は、それに対して1つのフィーニーム・モデルの列が
位置合せされる6しかし、本実施例で選んだように、所
与の文脈中の音声学的モデルがトレーニング期間中に何
度か発声される場合、同じ音声学的モデルに対して異な
るフィーニーム・モデルの列が位置合せされる公算があ
る。同じ文脈中の同じ音声学的モデルの発声に異なる列
が対応するのは1発音が異なるためである。すなわち、
音響処理装置(第1図の)1004によって発音が異な
るものとして解釈されて、異なるラベル出力(すなわち
フィーニーム)が生成され、したがって異なるフィーニ
ーム・ストリングが生成される。
複数回の発声から異なるフィーニーム・ストリングが生
じることを補償するため、平均または合成フィーニーム
・ベースフオームが構築される。
複数の発声から合成フィーニーム・ベースフオームを構
築する方法は、814段およびそこに引用した後の方の
特許出願をみるとすぐに理解できる。
文脈化された音声学的モデル(nrn、 c)が1回発
生されようと何度か発声されようと、それぞれのフィー
ニーム型モデルのストリングがIIm。
Cに関連づけられる。フィーニーム・ストリングをテキ
スト中の当該の音声学的モデル(rIm、c)と関連づ
ける過程は、ステップ2010で行なわれる。
上段で指摘したように、各音声学的モデルが可能なあら
ゆる文脈中で発声される場合、各音声学的モデルについ
て4900の項目が記憶されることになる。70個の音
声学的モデルでは、記憶装置中に4900X70=34
3000の項目ができることになる。下段で指摘するよ
うに、項目数がこのように多いため、トレーニングに要
する時間が増加するが、これは通常の音声認識環境では
望ましいことではない。
したがって、好ましいモードは、可能な各文脈とそれに
関連するフィーニーム型モデル・ストリングを与えるの
ではなく、可能な343000通りの組合せの一部だけ
についてフィーニーム型モデルをもたらすものである。
選択された文脈のみが訓練期間中に発声され、それに対
するフィーニーム型モデル列のみがそれと関連づけられ
る。文脈化された音声学的モデル(rIm、c)と関連
するフィーニーム型モデル・ストリングが、テーブル項
目として記憶される(ステップ2012参照)。
トレーニング期間中に発声されなかった“新″単語のフ
ィーニーム・ベースフオームを構築するには、ステップ
2014.2016.2018を実行する。ステップ2
014で、新単語が、それぞれ定義された文脈中の音声
学的モデルのストリングとして表わされる。次に、各新
単語の音声学的モデル(n’ m、c)が、文脈化され
た記憶済みの音声学的モデル(rIm、c)と相関され
る。
343000通りの文脈の組合せがすべて項目が記憶さ
れている場合、1対1の相関がある。選択された項目だ
けが記憶されている場合、ステップ2014の相関は下
段でより詳しく考察するように、密接マツチング過程で
ある。
ステップ2016で、各新単語の音声学的モデル(n’
 m、c)が相関された音声学的モデルnm、cと関連
するフィーニーム・ストリングで表わされる。
各新単語の音声学的モデル(rIm、c)ごとに上記の
手順を実施し、その結果得られた様々なフィーニーム・
ストリングがステップ2018で連結されて、その新単
語のフィーニーム・ベースフォームが与えられる。
フィーニーム・ベースフォームを(第9図の各ステップ
で必要とされるような)音声学的要素のサイズの切片に
分解する具体的な方法が、第10図に示しである。
第10図で、最初の単語(I←1)が取り上げられる(
ステップ2100)。最初の単語の音声学的ベースフオ
ームFBIが知られており、トレーニング中に、1つま
たは複数のフィーニーム・ベースフォームFBIが生成
される。最初の単語の各フィーニーム・ベースフォーム
に関して、音声学的ベースフオームに周知のビタービ位
置合せ手順が適用される(ステップ2102)。ステッ
プ2104で、最初のフィーニーム要素j←1が取り上
げられる。その単語に対して複数のフィーニーム・ベー
スフォームがある場合、ステップ2106で、j番目の
音声学的要素に対する単一の代表的なフィーニーム・ス
トリングを決定することが必要である(ステップ210
8参照)。1つのフィーニーム・ベースフォームから形
成されたものであれ複数のフィーニーム・ベースフォー
ムから形成されたものであれ、j番目の音声学的要素に
対応する単語の切片(Pj)に、フィーニーム・ストリ
ングF (Pj)が関連づけられる。F(Pj)は1、
当該のフィーニーム型モデル・ストリングに対応する数
字または他の識別子で表わすことが好ましい。これは、
ステップ211oで実行される。ステップ2112でj
の値が増分される6jが音声学的ベースフォーム中の音
声学的要素の数を上回った場合(ステップ2114)。
ステップ2116にもとづいて次の単語が選択され、ス
テップ2102から手順が再開される。jが音声学的要
素の数を越えない場合は、音声学的ベースフォーム中の
次の音声学的要素についてステップ2106〜2114
が繰り返される。
第11図に音声学的要素のストリングとして表わされた
サンプル語“CAT”を示す。これは。
標準的国際標音文字に含まれる記号をコンピュータに可
読な形で表わしたものであるや本開示では、単語” C
A T”が訓練期間中に発声されず、またCA T”の
フィーニーム・ベースフォームを探索しているものと仮
定する。下段で、単語“’CAT ITのフィーニーム
・ベースフォームが本発明にもとづいてどのように合成
されるかについて考察する。
単語“CAT”中の各音声学的要素に対して。
第2図に示した一組のモデルのような、それに対応する
音声学的モデルがある。様々な遷移およびラベル出力に
割り当てられる確率が、814段で概略を述べたように
、トレーニング期間中に生成される統計から導き出され
る。
第12図は、4欄を含む記憶テーブルの一部分を示した
ものである。最初の欄は、■mと名づけられる主題の音
声学的要素である。ただし、mは(70個の音声学的要
素のアルファベット中の)1〜70である。各音声学的
要素に対して、識別済みの文脈が複数個ある。本実施例
では1位置Piにある音声学的要素の文脈は、前の位置
P(i−1)にある音声学的要素と次の位[P(i+1
)にある音声学的要素にもとづいている。第2欄は。
主題の音声学的要素の前にある記憶済み音声学的要素で
ある。第3欄は、主題の音声学的要素の後にくる記憶済
み音声学的要素である。
“CAT”の音声学的要素AEIを例にとると。
最初の文脈はAAO−AE 1−AAOと名づけること
かできる。この場合、AElの前と後にフィーニーム・
アルファベットの最初の音声学的要素がくる。第2の文
脈は、AAO−AEl−AEOとして示される。AEI
の前に最初の音声学的要素があり、またAEIの後に第
2の音声学的要素がくる。前にくる音声学的要素として
AAOを含む様々の文脈をリストした後、後にくる音声
学的要素としてAEOを含む文脈をリストしである。
このリストは、AElを主題の(中間の)音声学的要素
とする様々な3要素の組合せを含んでいる。
AEIに対応する音声学的要素のリスト項目を検討する
と、(破線で囲んだ)ある文脈nm、cは、その前にあ
る音声学的要素がKQ、その後にくる音声的要素がTX
である。この文脈は、語” CA T ”中に見られる
文脈と一致する。トレーニング中に得られたデータにも
とづいて、KQ−AEI−TXの文脈に、fと名づけた
フィーニーム・ストリングが関連づけられる。上段で指
摘したように、ストリングfは、トレーニング中にKQ
−AEl−TX文脈が1回発声された結果であることも
何度か発声された結果であることもある。
ストリングfは、KQ−AE 1−TX文脈中で発生す
る音声学的要素AEIに対応する。
単語“CA T ”のフィーニーム・ベースフオームを
形成する際、fストリングが、単語” CA T ”の
音声学的要素AEIに対応する切片に関連づけられる。
単語” CA T ”中の他の音声学的要素に対して。
それに対応するフィーニーム・モデル・ストリングが導
き出される。すなわち、S I LENCE−KQ−A
EIに関連するフィーニーム・モデル・ストリングが記
録される。また、AElとTQに狭まれたTXに対する
フィーニーム・モデル・ストリングが記録され、以下同
様である。単語パCA T ”中の音声学的要素に対し
て導き出された様々なフィーニーム・モデル・ストリン
グが、その単語中でそれぞれの音声学的要素が発生する
順に連結される。連結されたフィーニーム・モデル・ス
トリングが、単語” CA T ”に対する合成された
フィーニーム・ベースフオームとなる。
この良好な実施例では、それに関連するフィーニーム・
モデル・ストリングが記憶されていない″新単語”の文
脈中で、ある音声学的要素が発生することがある。音声
学的モデル・ストリングと3要素の音声学的文脈の間の
省略された対応リストが使用できるようにするため、第
13図の方法を使用する。
第13図によれば、各″新″単語は音声学的要素のスト
リングとして表わされ、各音声学的要素は″新″単語の
ある切片を表わす。次に客語の切片に対応する音声学的
要素が、その文脈IT’ m、C中で識別される。ステ
ップ2400の最初の単語の切片i←1から出発して2
ステツプ2402で1位置PiにあるH’ m、cが、
関連するフィーニーム・モデル・ストリングを有する文
脈化された音声学的要素(rIm、c)に完全に対応す
るかどうか判断が下される。イエスの場合、関連するフ
ィーニーム・モデル・ストリングの全体が、ステップ2
4o4でフィーニーム・ベースフォームに含められる。
ステップ2404 (および下記の各ステップ)で使用
する表記法は、簡単な説明のためのものである。2重の
垂線は、連結演算子を表わす。その右側にある“切片”
が、以前に構築されたベースフォームのその部分にタグ
として付加される。連結演算子の右側にある“切片”は
、3つのパラメータを含んでいる。一番左のパラメータ
は、現在行なわれている判断を示す。次のパラメータは
関連するフィーニーム・ストリング中の始めのフィーニ
ーム・モデルを示す。最後のパラメータは、連結に含ま
れるべき関連するフィーニーム・モデル中の最後のフィ
ーニーム・モデルを示す、したがって“切片(gl、1
、Q(gi))”は、(ステップ2402の)g1判断
に関連する最初から最後までのフィーニーム・モデルを
指す、すなわち。
glの判断が″イエス″であれば、パ新”単語の主題の
音声学的要素n’ m、cが(同じ3要素の音声学的文
脈をもつ)記憶済みのrIm、cと一致し、かつそれに
関連する(モデル1から始まりモデルQ (gl)で終
わる)フィーニーム・モデル・ストリングがあることを
示す。ステップ2404でglの判断がイエスであれば
、そのフィーニーム・モデル・ストリングの全体が、“
新単語″の以前の切片に対して構築されたベースフォー
ムにタグとして付加される。ステップ2404の後、ス
テップ2406で次の単語の切片が検査される。
″新″単語中の音声学的要素ITm、cが、それと同じ
3要素の音声学的文脈を有する記憶済みのある音声学的
要素に写像されない場合、類似する2要素の音声学的文
脈があるかどうか判断が下される。ステップ1410で
、″新″単語の音声学的要素とその前の音声学的要素が
、判断g2で取り上げられる。類似する先行要素−主題
要素の文脈が記憶リスト中にあるいずれかの3要素の文
脈に含まれている場合、そのフィーニーム・モデル・ス
トリングが検索される。次にステップ2412でフィー
ニーム・モデル・ストリングの前半が抽出され、構築中
のフィーニーム・ベースフォーム(bsf)に連結され
る。
主題の音声学的要素とその後にくる音声学的要素が記憶
済みのそれに対応する文脈を有するかどうか判断を下す
ために、同様の検査が実施される。
これは、g4判断と呼ばれ、ステップ2414で実施さ
れる。この判断では、リスト中に、その最後の2つの音
声学的要素が、取り上げられている“新″単語の切片中
の主題の音声学的要素およびその後の音声学的要素と同
じである3要素の文脈が含まれているかどうかが示され
る。含まれている場合、フィーニーム・モデル・ストリ
ングの後半(最初の音素的モデルは省118)が、構築
中のベースフォーム(bsf)にタグとして付加される
(ステップ2416参照)。そうでない場合は、ステッ
プ2418で、ステップ2420にもとづいて決定され
たフィーニーム・ストリングの後半部分が、構築中のベ
ースフォーム(bsf)に連結される。
ステップ2420で、取り上げられている36新”単語
切片中のものと同じ音声学的要素P (i−1)Piを
有する音声学的要素の文脈が記憶されていないかどうか
判断が下される。記憶されていない場合、主題の音声学
的要素(すなわち、取り上げられている“新”単語切片
のPi位置にある音声学的要素)を含む、任意の記憶済
みの音声学的文脈が、その関連するフィーニーム・モデ
ル・ストリングとして記録される(複数のストリングが
記録されている場合、1つのストリングを任意に選択で
きる)、ステップ2422で、記録されたフィーニーム
・モデル・ストリングの半分が、構築中のベースフォー
ムに連結される。ステップ2422の次に、ステップ2
414に進む。
ステップ2404,2416で、ベースフォームの前に
構築された部分にフィーニーム・モデル・ストリングが
加えられた後、″1新新単語のすべての切片が取り上げ
られるまで、次の切片が取り上げられる。これは、ステ
ップ2406と2424で実施される。各切片について
導き出された音声学的モデルは、連結されて新”単語の
フィーニーム・モデルのベースフォームとなる。
本発明によれば、音声学的要素の文脈にもとづくフィー
ニーム型単語ベースフォームの合成が。
フィーニーム・ベースフォームをトレーニングしていな
いすべての単語またはその一部分に使用できる。(それ
ぞれ既知のフィーニーム・ベースフォームを有する)2
つの単語が結合されて単一の単語を形成する場合には、
それぞれのベースフォームが結合されてその単一の単語
の複合ベースフォームとなる。たとえば、語HOUSE
とBOATを結合して単一語HOUSEBOATを形成
すると仮定する。単一語HOUSEBOATのフィーニ
ーム・ベースフォームは、単に単IHOU SEのフィ
ーニーム・ベースフォームと単語B OATのフィーニ
ーム・ベースフォームを結合することにより形成される
。したがって、音声学的文脈法をかかる語に使ってもよ
いが、必ずしもそうする必要ではない。
本発明をその良好な実施例に関して説明してきたが1本
発明の範囲から外れることなく形状および細部に様々な
変更を加えられることは、当業者なら理解できるはずで
ある。たとえば、依拠する音声学的文脈が上記の3要素
文脈でなくてもよい。
隣接する2つの要素の代りに、最高位の文脈が任意の数
n個(1≦n)の隣接する音声学的要素を含むこともで
きる。また1文脈中の音声学的諸要素は位置が隣接して
いる必要はなく、1個または複数の音声学的要素で分離
されていてもよい。
さらに、音声学的マルコフ・モデルとフィーニーム・マ
ルコフ・モデルに関して説明してきたが。
本発明では他の型式のモデルの使用も企図されている。
すなわち1本発明は、単語を第1のモデル群に含まれる
モデルのベースフォームと第2のモデル群に含まれるモ
デルのベースフォームによって表わすことができ、その
2つのベースフォームを位置合せすることができる場合
、一般に適用されることを予定している。
さらに1本特許出願で使用する゛単語”は、広義の意味
で使用し、辞書の単語、語堂素(すなわち上記のように
辞書の単語の特定の発音)、および(音節など)認識す
べき音声を定義するのに使用できる単語の部分を指すこ
とに留意すべきである。
また、希望する場合、第13図の方法を変えることもで
きる。たとえば、フィーニーム・モデル“ストリングの
、構築中のベースフォームの事前しこ存在するフィーニ
ーム・モデルに連結される部分を、半分ではない値にし
てもよい。
さらに、フィーニーム・ベースフォームを、いくつかの
方法で音声学的要素サイズの単語切片に分割できること
に留意すべきである。上記の(合成されたベースフォー
ムで重なり合う音素列が生じてもよい)Nグラム合成法
以外に、最長最良合成も使用できる。後者の方法では、
(a)利用される切片の数が最小となり、かつ(b)使
用される最長の切片の長さが最となるように、音声シー
ケンスが分割される。
たとえば、最長最良体系では1諸量中の可能なすべての
単音声ストリング群に対応する可能なすべてのフィーニ
ーム型切片を計算することができる。次に、判定基準関
数を下記のように定義できる。
f = Q、”+ Q、”+ (132−−・・Qnま
ただし、Q□=音声列Qの長さ;Q2=音声列2つの長
さ;以下同様である。したがって、QL+Q2・・・・
・・・・・+1n=L=所期の新しい語に対応する音声
列の長さ。
次にfが最大となるような1ffiの切片を選ぶ。
これは理想的な場合1次式に対応するはずであることに
留意すること。
Q 1= L  Q z = Q 3・・・・・・、=
φこの場合には、拘束条件Q、+Q2・・・・・・+Q
n=Lのもとでfが最大になる。
本発明は、IBM3084計算機で、Nグラム合成法と
最長最良法の両者を具体化したPL/1言語で実施され
た。どちらの場合にも、有用なフィーニーム・ベースフ
ォームが合成された。
合成されたベースフォームは、認識タスクで少くともそ
れに対応する音声学的ベースフォームと同程度の性能を
もたらす。たとえば、標準タスクでの音声学的エラー発
生率が4%の場合、すべての音声学的ベースフォームを
合成されたフィーニーム・ベースフォームで置き換える
と、エラー発生率は4%より下がるはずである。
本発明は、最も頻繁に発生する2000語のベースフォ
ームを記録し、それほど頻用されない3ooO語を合成
することにより、トレーニング時間が少くとも150%
(2/3に)節約できた。
F1発明の詳細 な説明したように1本発明によれば、トレーニング期間
後に、第1のモデル群に含まれるモデルから構築された
、かかる他の単語に対するベースフォームを合成するた
めの手法が提供される。
【図面の簡単な説明】
第1図は1本発明を適用できる音声認識システムの概略
図、第2図は、音声学的マルコフ・モデルを示す概略図
、第3図は、第2図の音声学的マルコフ・モデルに対す
るラベル間隔を示す格子またはトレリス構造を示す概略
図、第4図は、音声処理装置で生成されたラベルのスト
リング中の最初のラベルから始まるいくっがのラベル出
カ間隔にわたって測定した。第3図と同様の格子または
トレリス構造を示す概略図、第5図は、単語LITHE
 ”の所定の発音の音声学的表現と、単語rtTHE 
”の音声学的ベースフオームを形成する、3つの連結さ
れた音声学的マルコフ・モデルとを示す図、第6図は、
フィーニーム・マルコフ・モデルを示す図、第7図′は
、フィーニーム・マルコフ・モデルに対応する数ラベル
出力間隔の間の格子またはトレリス構造を示す説明図、
第8図は、単語を形成するように連結されたフィーニー
ム・マルコフ・モデルを示す図、第9図は、本発明の方
法を一般的に示した構成図、第10図は、フィーニーム
・ベースフオームをどのように分割して音声学的要素の
サイズに対応する切片に分割するのかを示す流れ図、第
11図は、単i”CAT”を音声学的に表現した図、第
12図は、各フィーニーム・ストリングと所与の文脈中
のそれに対応する音声学的モデルの関連を示す記憶テー
ブルの説明図、第13図は、第12図のリストに可能な
音声学的文脈のすべてではなくてそのいくつかが示され
ている、フィーニーム・ベースフオームの合成を示す流
れ図である。 出願人  インターナショナル・ビジネス・マシーンズ
・コーポレーション 復代理人  弁理人  澤  1) 俊  夫(外1名
) シFr 閣

Claims (1)

  1. 【特許請求の範囲】 第1の組のモデルの連鎖で表わされる第1の単語ベース
    フォームを、第2の組のモデルの連鎖で表わされる第2
    の単語ベースフォームから合成する、下記の手段(a)
    〜(b)を有する音声認識のため単語ベースフォーム合
    成装置。 (a)第2の組のモデルの各々に対応する第1の組のモ
    デルの連鎖を文脈ごとに記憶する記憶手段。 (b)単語の第2の単語ベースフォームをなす第2の組
    のモデルの各々と各々の文脈とを判別する手段。 (c)判別された第2の組のモデルの種類と文脈とに基
    づいて対応する第1の組のモデルの連鎖を上記記憶手段
    から取り出す手段。 (d)取り出された第1の組のモデルの連鎖を結合して
    第1の単語ベースフォームを生成する手段。
JP62053232A 1986-04-18 1987-03-10 音声認識のための単語マルコフ・モデル合成装置 Granted JPS62246097A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US853525 1986-04-18
US06/853,525 US4882759A (en) 1986-04-18 1986-04-18 Synthesizing word baseforms used in speech recognition

Publications (2)

Publication Number Publication Date
JPS62246097A true JPS62246097A (ja) 1987-10-27
JPH0372999B2 JPH0372999B2 (ja) 1991-11-20

Family

ID=25316266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62053232A Granted JPS62246097A (ja) 1986-04-18 1987-03-10 音声認識のための単語マルコフ・モデル合成装置

Country Status (4)

Country Link
US (1) US4882759A (ja)
EP (1) EP0241768B1 (ja)
JP (1) JPS62246097A (ja)
DE (1) DE3779170D1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69022237T2 (de) * 1990-10-16 1996-05-02 Ibm Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
JP2768561B2 (ja) * 1990-12-19 1998-06-25 富士通株式会社 ネットワーク変形装置および作成装置
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5502790A (en) * 1991-12-24 1996-03-26 Oki Electric Industry Co., Ltd. Speech recognition method and system using triphones, diphones, and phonemes
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5606645A (en) * 1992-02-28 1997-02-25 Kabushiki Kaisha Toshiba Speech pattern recognition apparatus utilizing multiple independent sequences of phonetic segments
JPH0782348B2 (ja) * 1992-03-21 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識用サブワードモデル生成方法
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
EP0590173A1 (de) * 1992-09-28 1994-04-06 International Business Machines Corporation Computersystem zur Spracherkennung
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
IT1279171B1 (it) * 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo
US5835888A (en) * 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6349281B1 (en) * 1997-01-30 2002-02-19 Seiko Epson Corporation Voice model learning data creation method and its apparatus
US6041300A (en) * 1997-03-21 2000-03-21 International Business Machines Corporation System and method of using pre-enrolled speech sub-units for efficient speech synthesis
US6212498B1 (en) 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6266637B1 (en) * 1998-09-11 2001-07-24 International Business Machines Corporation Phrase splicing and variable substitution using a trainable speech synthesizer
US8392188B1 (en) 1999-11-05 2013-03-05 At&T Intellectual Property Ii, L.P. Method and system for building a phonotactic model for domain independent speech recognition
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
US7286984B1 (en) 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US7181395B1 (en) * 2000-10-27 2007-02-20 International Business Machines Corporation Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
US7206738B2 (en) * 2002-08-14 2007-04-17 International Business Machines Corporation Hybrid baseform generation
TWI224771B (en) * 2003-04-10 2004-12-01 Delta Electronics Inc Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme
US20050108013A1 (en) * 2003-11-13 2005-05-19 International Business Machines Corporation Phonetic coverage interactive tool
US7853451B1 (en) * 2003-12-18 2010-12-14 At&T Intellectual Property Ii, L.P. System and method of exploiting human-human data for spoken language understanding systems

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
US4297528A (en) * 1979-09-10 1981-10-27 Interstate Electronics Corp. Training circuit for audio signal recognition computer
US4383135A (en) * 1980-01-23 1983-05-10 Scott Instruments Corporation Method and apparatus for speech recognition
US4513436A (en) * 1980-09-16 1985-04-23 Oki Electric Industry, Co., Ltd. Speech recognition system
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4593367A (en) * 1984-01-16 1986-06-03 Itt Corporation Probabilistic learning element

Also Published As

Publication number Publication date
EP0241768A3 (en) 1988-02-10
DE3779170D1 (de) 1992-06-25
US4882759A (en) 1989-11-21
EP0241768B1 (en) 1992-05-20
EP0241768A2 (en) 1987-10-21
JPH0372999B2 (ja) 1991-11-20

Similar Documents

Publication Publication Date Title
JPS62246097A (ja) 音声認識のための単語マルコフ・モデル合成装置
Hwang et al. Predicting unseen triphones with senones
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
US5033087A (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JPS62231995A (ja) 音声認識方法
JPH0581918B2 (ja)
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
JPH1091183A (ja) 言語合成のためのランタイムアコースティックユニット選択方法及び装置
US20080059168A1 (en) Speech recognition using discriminant features
EP0453649A2 (en) Method and apparatus for modeling words with composite Markov models
US5293451A (en) Method and apparatus for generating models of spoken words based on a small number of utterances
Karanasou et al. Discriminatively trained phoneme confusion model for keyword spotting.
US20090157403A1 (en) Human speech recognition apparatus and method
Chandra et al. An overview of speech recognition and speech synthesis algorithms
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
AU2012385479B2 (en) Method and system for real-time keyword spotting for speech analytics
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
KR100259777B1 (ko) 텍스트/음성변환기에서의최적합성단위열선정방법
Wu et al. Application of simultaneous decoding algorithms to automatic transcription of known and unknown words
Scharenborg et al. Recognising'real-life'speech with SpeM: A speech-based computational model of human speech recognition
JPH05303391A (ja) 音声認識装置
Harish et al. Significance of segmentation in phoneme based Tamil speech recognition system
EP1638080B1 (en) A text-to-speech system and method
Van Bael “Using the Keyword Lexicon for speech recognition