JPS6169099A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6169099A
JPS6169099A JP59191028A JP19102884A JPS6169099A JP S6169099 A JPS6169099 A JP S6169099A JP 59191028 A JP59191028 A JP 59191028A JP 19102884 A JP19102884 A JP 19102884A JP S6169099 A JPS6169099 A JP S6169099A
Authority
JP
Japan
Prior art keywords
candidate
candidates
syllable
distance
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59191028A
Other languages
English (en)
Inventor
文雄 前原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59191028A priority Critical patent/JPS6169099A/ja
Publication of JPS6169099A publication Critical patent/JPS6169099A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識の誤り訂正に関する。
従来例の構成とその問題点 従来、音声認識装置では入力音声信号を分析することに
よって得られるn次元の特徴ベクトル系列(a 1 、
 a 2 、・・・・・・aI)に対し辞書としてあら
かじめ装置内に登録しであるP個の標準パターンベクト
ル系列(b、、b、、・・・・・・b、l・・・・・・
(bl、b2゜・・・・・・bK)の中からこれと距離
の最も近いもの、もしぐは最も類似性の大きいものをも
って認識結果としているが、このとき入力ベクトル系列
[’1+”2+の中の1要素ベクトルb4の市街距離、
もしくはユークリッド距離を計算しこれを確からしさの
尺度とし、これをもとに2つのベクトル系列の総距離d
、、を、ダイナミックプログラミングや線形伸縮などの
手法を用いて計算するものが大部分である。
但し、市街距離、ユ−クリッド距離は次式で与えられる
ai=(ail、ai2. ・−・、 ai 、N 1
bJ=(bJ   bf   ・・・・・・、b五N)
とするとm   m、1 +  m、2+ き ・・・・・(2) 以下の説明では確からしさの尺度として、上述のような
距離尺度を用いた場合を例として説明する。この場合、
距離が小さいほどより確からしいとする。
上記の原理にもとすく音声認識装置の一つとして、日本
語ワードグロセソサへの入力を目的として、仮名キー人
力の代りに、音節単位に区切って発声したもの、例えば
「ア」、「力」、「イ」、「・・」。
「す」を認識する単音節認識や、連続音声を音節単位も
しくはそれに類する単位、例えば「子音・母音・子音」
連鎖などに分割して、これらの単位毎に認識を行うもの
がある。
1        ところで上記のような音節型、もし
くはこれに類する認識装置を日本語ワードフロセッサ(
以下ワープロと略す)の入力として用いる時、ワープロ
の持つカナ漢字変換のための単語辞書や文章辞書もしく
は単語辞書と言語処理機能の組合せなどを用いて認識に
おける誤りを訂正するものが有る。
音節を認識する型の装置を例にひいてこの場合の動作に
ついて説明すると、音節認識部において、音節単位のパ
ターンとしてあらかじめ登録されているP個の標準パタ
ーンと入力パラメータベクトル列との比較に際して、最
小距離を与える標準パターン1つを選ぶ代りに、距離の
小さいもの1個(■は正の整数)を選択して、例えば入
力音声がl個(工は正の整数)の音節から成るとすると
、IxJ個の音節候補マl−IJソックスその各々につ
いての標準パターンとの総距離di、j(但し1゜jは
1≦i≦工、1≦j≦I なる整数、以下総距離di+
Jを単に距離と呼ぶ)を用いてI通りの構成可能文章の
各々について累積距離S、(1)を5r(i)=、Σd
i 、 r(i) z=1 (但しr(1)はlの関数でiの各段において1≦j≦
Iなるiのうち1つに対応する。) として計算し、このうち累積距離の小さいものからN個
の文章候補を選びだし、あらかじめ記憶されている文章
辞書(一般のカナ漢字変換に使われるものが流用可能)
を検索し、一致したものを文章認識結果とするものがあ
る。この間の動作を具体例によってさらに説明する。
第1図はI=s、J=4とした場合の例で、1つの音節
入力に対して4つの音節候補を出力する。
文章中の音節数ば5で、正しい発声は「あたらしい」と
する。第1音節(i=1)では音節候補として(あかば
た 13 52 63 □9)(下段は距離を表わす)が得
られたことを示す。I=5.J=4の時生成可能な文章
は「あだたちい」、「あだだちび」・・・・・・・・・
「たささいし」でT 1=45−1024通り存在する
。誤りの訂正には1024通りの文章中から、先に述べ
た累積距離の小さいものN個(Nは正の整数)を用い、
あらかじめ記憶されている文章辞書との比較を行う。第
1図の例では、 第1候補(あたたちい)累積距離 82第2候補(あた
たしい)  l   86第3候補(あたらちい)累積
距離 87第4候補(あたらしい)〃91 となり、辞書中に「あたらしい」という文章のみが存在
すると誤りが訂正できる。実際第1〜3候補に示される
様な文章は存在しないので、辞書中にこのような文章が
存在しないことは明らかである。
ところで、上記のような方法で、音節認識における距離
をもとに1個の音節を選んだ時、音節によっては上位1
個の中に入ることが非常に少ない、言いかえると非常に
認識しにくい音節が発生する。
例えば「ん」などのように、文章のどの位置にくるかに
よって発声が異なるものなどがある。この場合、何度言
い直しても、上位1個に候補が入らず、正しい文章が得
られないということが生じるという欠点を有する。
発明の目的 本発明は上記欠点に鑑み、複数の音韻もしくは音節、あ
るいはこれに類する音響単位の認識候補を用いて、辞書
検索により訂正を行う場合において、認識しにくい音節
に対しても訂正が容易な認識装置を提供することを目的
とする。
発明の構成 本発明は、この目的を達成するために、あらかじめ各音
響単位に対し実験的、もしくは統計的に求められた誤認
識候補を記憶している記憶手段を用い、認識された音響
単位の第一候補に関し、前記記憶手段の内容をもとに複
数個の誤認識候補を選択し、前記認識された音響単位の
各候補とともに認識を行うように構成している。
実施例の説明 以下、本発明の一実施例について図面を参照しながら説
明する。
第2図は本発明の一実施例における音声認識装置のブロ
ック図である。本実施例においては音響単位として音節
を用いる。第2図において、1はf     入力音声
をパラメータ分析してN次元の・くラメータベクトル列
(al r ”2 +・・・・・・、aI)よりなる入
カバターンに遂次変換するパラメータ分析部で、フィル
タバンク、フーリエ変換器、線形予測糸数型分析器など
により構成される。
2は標準パターン記憶部で、あらかじめパラメータ分析
された音声を音節標準パターン(b 1 、 b M。
・・・・・・、b))・・・・・・ L br 、 弓
、 、、、、・・、bM )として記憶する。
3は比較部で前記入力パラメータベクトル列(al +
a2+・・・・・・、aIlと標準パターン記憶部2に
記憶されている標準パターンとの距離を計算する。
4は判定部であり、比較部3で標準パターンと入カバタ
ーンを比較して得られた距離のうち小さいものから1個
(工は正の整数)を音節候補として選択出力する。この
1個の音節候補の各距離をdi2.とする。但し添字i
は、1≦i≦工 で第1番目に出現した音節を、また添
字iは、1≦j≦Iで距離が第j番目に小さいことを各
々示す。
5は誤り候補記憶部で、実験的もしくは統計的に求めた
各音節に対する誤認識候補とその時の平均距離を記憶し
ている。6は候補選択部で、判定部4より得られた1個
の音節候補と、との1個の音節候補のうちの第1番目の
音節候補に対応し誤り候補記憶部5を参照して得られる
M個の誤認識候補を入力とし、これらJ+M個の候補の
中から距離の小さいものL個(Lは整数)を最終音節候
補として出力する。ただし音節候補と誤認識候補で重複
のあるものはその距離の小さい方を選び最終音節候補と
する。7は文章候補生成部で、候補選択部らより与えら
れるL個の最終音節候補の中から各識別音節に与えられ
た距離d > ] J但し1≦j′≦Lをもとに、累積
距離5r(i)をΣ d。
5r(i) = 、   1. r(i)l=1 として求める。但しr(1)はiの関数でiの各段にお
いて1≦j′≦Lなるj′のうちの1つに対応づけられ
る。従って工音節より成る文章ではL 個の5r(i)
が計算される。すなわち1≦r(1)≦L である。次
に上記の計算で求められた5r(i)のうち小さいもの
からN個を選び出し、これに該当する音節の組合せを文
章候補として出力する。8は文章辞書で予め文章が記憶
されている。9は辞書マツチング部で、文章辞書8に記
憶されている文章と、文章候補生成部子で得られたN個
の文章候補のうち累積距離S、(1)の小さいものから
順次比較してゆき辞書と一致したものを認識結果として
出力する。
次に上記のように構成された装置の動作について第1図
に示した具体例を用いて説明する。
今5音節より成る文章(文節)「あたらしい」が発声さ
れたとする。パラメータ分析部1におけるパラメータ分
析、比較部3における標準パターンとの比較の後、判定
部4の出力として第1図に示す音節候補マトリックスが
順次出現したとする。
今この中から累積距離の小さい文章候補4つ(N=4)
を選択して辞書マツチングに供する場合を例にとって説
明する。判定部4で与えられる距離は、第1図中、候補
音節名工のに)内数字で示す。誤り候補記憶部5には前
もって判定部4の第1図に示されるデータを大量にとっ
ておき、すべての発生可能音節に対する誤りパターンを
集めておき、各音節毎に誤る頻度の高いものから第1〜
第4候補を誤認識候補とし、また各誤認識候補について
の複数のデータの距離の平均値を誤認識候補の距離とす
る。この時認識しにくい音節、例えば「ん」等は強制的
に誤認識候補に加えることが効果が有ることが実験的に
確かめられている。以上のようにして誤り候補記憶部5
には第3図の31に示すように、各音節に対する誤り頻
度の高い音節とその平均距離を記憶する。
介入力として「あたらしい」という文章が発声された時
、判定部4の出力として第3図の32に示す音節候補マ
トリックスが生じたとする。この時誤り候補記憶部5は
音節候補マトリックスの第一候補に対応する誤認識候補
33を候補選択部6に出力する。候補選択部6は判定部
4からの音節候補マトリックスと誤り候補記憶部5から
の誤認識候補マトリックスをもとに両者のうちの距離最
小のものから順に4候補を選択する。この時、両f  
    者に同一の音節が発生した時は距離の小さい方
を採用する。以上の動作により候補選択部6の出力とし
て第3図の34に示す最終音節候補マl−IJフックス
得る。文章候補生成部7では入力した最終音節候補マド
IJノクスの各音節候補距離をもとに式(1)より累積
距離5r(i)を1≦r(i)≦4,1≦1≦5の各組
合せについて計算し、そのうち累積距離の小さいもの4
つを文章候補として辞書マツチング部9に出力する。第
3図の34の例では文章候補としては第4図に示すよう
に(あたたちい)。
(あたたしい)、(あたらちい)、(あたらしい)とな
る。
辞書マツチング部9は入力された文章候補と、文章辞書
8内に記憶されている文章とを累積距離の小さいものか
ら順次比較し、一致したものを認識結果とする。なお辞
書と一致するもので累積距離が第2位のもの第3位のも
のを順次認識の第2゜第3候補とすることも可能である
以上のように本実施例によれば判定部4により判定され
た音節候補の第−位のものに対し、誤り候補記憶部5よ
り得られた誤認識候補による誤認識候補マトリックスを
生成し、判定部4より得られた音節候補マトリックスと
合せて候補選択部6で最終音節候補マトリックスを生成
し、これをもとに文章候補生成部7に供することにより
、誤認識に関する統計的性質をもり込んだ効率的な認識
誤り訂正を実現できる。
なお本実施例は、この出力をカナ漢字変換機能を組合わ
せて結果を漢字カナまじり文で出力することが可能であ
る。又実施例中、文章辞書8は、一般に行われているカ
ナ漢字変換の自立語辞書並びに付属語辞書及びそれらの
接続関係をチェックする言語処理機能におきかえること
が可能である。
又本実施例はこの一部もしくは全体をコンピュータに置
きかえ、プログラム的にこれを実現することができる。
さらに本実施例では、音節候補選択の尺度として距離を
用いたが、これを類似度もし発明の効果 以上のように本発明の音声認識装置は、音響単位毎の識
別の結果得られた複数組の認識候補の他に、予め実験的
にもしくは統計的に得られた誤認識候補を装置内に記憶
しておき、この両者をもとに認識候補を生成することに
より、誤りの統計的性質を考慮した候補選択を行うこと
ができ認識装置の性能を向上することができその工業的
価値は大なるものが有る。
【図面の簡単な説明】
第1図は音節候補マトリックス認識結果の一例を示す図
、第2図は本発明の一実施例における音声認識装置のブ
ロック図、第3図は本発明の実施例の動作を説明するだ
めの図、第4図は本発明の実施例における文章候補生成
の例を説明するための図である。 1・・・・・・パラメータ分析部、2・・・・・・標準
パターン記憶部、3・・・・・・比較部、4・・・・・
・判定部、6・・・・・・誤り候補記憶部、6・・・・
・・候補選択部。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第1
図 −→吟間

Claims (1)

    【特許請求の範囲】
  1. 入力音声を所定の音響単位で識別し、各音響単位毎に複
    数個の識別候補と、その識別の確からしさの値を出力す
    る識別手段と、各音響単位毎に実験的または統計的に求
    められた誤認識候補およびその確からしさの値よりなる
    誤認識候補マトリックスを記憶する誤認識マトリックス
    記憶手段とを備え、前記識別候補と誤認識候補を用いて
    音声認識を行なうことを特徴とする音声認識装置。
JP59191028A 1984-09-12 1984-09-12 音声認識装置 Pending JPS6169099A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59191028A JPS6169099A (ja) 1984-09-12 1984-09-12 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59191028A JPS6169099A (ja) 1984-09-12 1984-09-12 音声認識装置

Publications (1)

Publication Number Publication Date
JPS6169099A true JPS6169099A (ja) 1986-04-09

Family

ID=16267691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59191028A Pending JPS6169099A (ja) 1984-09-12 1984-09-12 音声認識装置

Country Status (1)

Country Link
JP (1) JPS6169099A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009237387A (ja) * 2008-03-28 2009-10-15 Mitsubishi Electric Information Systems Corp 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58152297A (ja) * 1982-03-08 1983-09-09 沖電気工業株式会社 音声認識応答装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58152297A (ja) * 1982-03-08 1983-09-09 沖電気工業株式会社 音声認識応答装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009237387A (ja) * 2008-03-28 2009-10-15 Mitsubishi Electric Information Systems Corp 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム

Similar Documents

Publication Publication Date Title
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
EP1462950B1 (en) Method for language modelling
US6208971B1 (en) Method and apparatus for command recognition using data-driven semantic inference
US6823493B2 (en) Word recognition consistency check and error correction system and method
US7412093B2 (en) Hybrid apparatus for recognizing answer type
US6347295B1 (en) Computer method and apparatus for grapheme-to-phoneme rule-set-generation
US8099281B2 (en) System and method for word-sense disambiguation by recursive partitioning
Campbell et al. Language recognition with word lattices and support vector machines
US6763331B2 (en) Sentence recognition apparatus, sentence recognition method, program, and medium
Mangu et al. Error corrective mechanisms for speech recognition
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
US20050197838A1 (en) Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously
JPH03144877A (ja) 文脈的文字または音素認識方法及びシステム
JP3794597B2 (ja) 話題抽出方法及び話題抽出プログラム記録媒体
JP2002278579A (ja) 音声データ検索装置
Cissé et al. Automatic Spell Checker and Correction for Under-represented Spoken Languages: Case Study on Wolof
Lucassen Discovering phonemic base forms automatically: an information theoretic approach
JP2009271117A (ja) 音声検索装置および音声検索方法
JPS6169099A (ja) 音声認識装置
JP2965529B2 (ja) 音声認識装置
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP2966002B2 (ja) 音声認識装置
JP2002259912A (ja) オンライン文字列認識装置及びオンライン文字列認識方法
Zhang et al. Exploring features for identifying edited regions in disfluent sentences
JP2005242181A (ja) 語彙選定方法、語彙選定装置およびプログラム