JPS62235991A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS62235991A
JPS62235991A JP61078822A JP7882286A JPS62235991A JP S62235991 A JPS62235991 A JP S62235991A JP 61078822 A JP61078822 A JP 61078822A JP 7882286 A JP7882286 A JP 7882286A JP S62235991 A JPS62235991 A JP S62235991A
Authority
JP
Japan
Prior art keywords
syllable
recognition
input
syllables
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61078822A
Other languages
English (en)
Other versions
JPH0556515B2 (ja
Inventor
外川 文雄
充宏 斗谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61078822A priority Critical patent/JPS62235991A/ja
Priority to US07/034,060 priority patent/US4908864A/en
Publication of JPS62235991A publication Critical patent/JPS62235991A/ja
Publication of JPH0556515B2 publication Critical patent/JPH0556515B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、入力されなた音声を音節単位に認識する日本
語音声入力装置などに有利に用いられる音声認識方式に
関する。
1デ 景 I支 術 入力された音声を音節単位に認識する日本語音声入力装
置などに用いられる従来がらの音声認識方式では、連続
音声を音節に分解して切り出された音節を主としてパタ
ーンマツチングによって認識する場合、発声のばらつき
や調音結合と呼ばれる前後の音の影響による変形などに
よる音f!l!認識率の低下を、各音節に複数個の特徴
標準パターンを持たせることで防いでいる。また、それ
らの特rIi標準パターンを入力された新しいパターン
で更新することにより認識率を向上させている。
発明が解決しようとする問題点 上記先行技術では、入力環境の急変、2名の生埋的要因
に基づく音質の変化、音声ピックアップ系の設定の変化
などに起因して音声信号波形の変化により同一カテゴリ
の特徴パターンの不整合が起った場合に対処することが
できず、急激に音声認識率が低下する。
本2明の目的は、上述の技術的課題を解決し、同一カテ
ゴリの特徴パターンの不整合が起った場合でも常時安定
して高い認識率を維持できるようにした音声認識方式を
提供することである。
問題、αを解決するための手段 本発明は、入力された音声を予め登録された複数種の音
節の特徴標準パターンとの類似度計算によって音節単位
に認識し、その結果を辞書との照合らしくはキーボード
などの外部指示操作によって修正して最終的な入力を得
るようにした音声認識方式において、 認識基本単位である音節についてa節別に入力毎の正解
あるいは誤りの時系列を記憶するtjS1バッファと、
音節全体の正解あるいは誤りの時系列を5己f之する第
2バッファとを備え、 入力時に入力された′tI節を用いて特徴標準パターン
を自動的に更新する場合、第1および第2バッファの内
容を読み取って入力時点からさかのぼった最近の各音節
の認識情況と音節全体の認識情況を求め、 各音節の認識情況と音節全体の3X識情況とを用いて音
節の学習の促進/抑制の制御を段階的に行うようにした
音声認識方式である。
作  用 本発明に従えば、たとえば111種の各音節についての
認識情況に加えて音節全体の認識情況を求めて、音節全
体の認識率が低下してきたときは学習を促進し、認識率
が高くなったときは学習を抑制するように音節の学習を
段階的に制御する。
これによって、入力環境の急変、話者の生理的要因に基
づ<’1ffffの変化、音声ピックアップ系の設定の
変化などに起因した急激な音声認識率の低下などの音節
認識情況の変化を、音節全体と各音節について検知して
学習を制御して、この種の変動に対して比較的認識率の
回復を早めることができ、かつ認識率が高い場合には学
習を抑制して安定して高い認識率を維持できる。
実施例 先ず本発明の概要について説明する。本発明では、音節
別に入力毎の正解あるいは誤りの時系列を記憶する第1
のリングバッフyLと、音節全体の正解あるいは誤りの
rU!f系列を記憶する!@2のリングパン7ア11 
 とを設ける。これらのリングバッファL、liは、メ
モリが当間隔に分割されて各部分が一つの認識結果を記
憶し、時系列に沿ってリング状に連なって構成されたも
ので、その部分数が11個あれば過去電1個の認識結果
の時系列を記憶できることになる。これらは入力が確定
される毎に更新される。
これC)の2種類のリングバッファL、liの内容に基
づき、リングバッファLから最近の音節全体の認a率R
を、またリングバッフ711から最近の音節1の認識率
「iを算出する。次に音節全体の認′:&IF Rを複
数のランクに別けて、各ランク毎に各rf節の認識率1
1に応した学習条件を設定する。
音fffi全体の認a率Rは第1式で示され、各音節(
音節i)の認識率は第2式で示される。
R(u)= ne/ n  −(1) ただし、n=ne+ncである。ここで11は過去+1
回の入力回数を示し、neは誤り数を示し、ICは正解
数を示す。
ri(+++)= me/ tm  −(2)ただし、
m= a+e+ meである。ここでIは過去1回の音
miの入力回数を示し、meはa節iの誤り数を示し、
晶は音節iの正解数を示す。
例えば、誤り率については、第3式、第4式およびfj
S5式のように段階的に設定する。これらの条件が満た
されたとき、その入力音節は学習される。
It(to)< 0.2  のとさ1≦ri(1)・・
・(3)0.2≦R(10)< 0.3  のとき1/
2≦ri(2)  ・= (4)0.3≦R(10) 
  のとき1/3≦ri(3)  −(5)たとえばリ
ングバッフ7Lにおける音節全体の認識結果の時系列が
第1表に示されるものであり、リングバッフ71iにお
ける音節毎の認識結果の時系列が第2表に示されるもの
であるとき、m3表に示される学習処理が行なわれる。
(以下余白) ml  表             第 2 及第 
 3  表 ここで第1の学習方式は上記第3式〜第5式に基づく音
節全体の認識情況と個々の音節の認識情況を用いたもの
であり、Pt52の学習方式は1/2<r(2)に基づ
く個々の音節の認識情況だけを用いた場合である6第3
表から明らかなようにfjSlの方式は、認a率の変動
に良く追従している。
第1図は本発明の一実施例の日本語音声入力装置1の構
成を示すブロック図であり、第2図は日本語音声人力V
cf?tlにおける自動学習の処Jjl系を示す図であ
る。この日本語音声入力装置1は、連続的に発声された
音声を音節単位に認識し、この認識結果を辞さによって
修正した後、単語などの単位で外部vc置に転送する+
fi fffiを有している。
発声され入力された音声は、マイクロホン2を介してア
ナログ入力部3に入力され、このアナログ入力部3内の
増幅器4によって増幅された後、アナログ/デジタル変
換器5によってデジタル信号に変換され、そのデジタル
信号が音声分析部6および音節セグメンテーション部7
に入力される。
次に音響処理および音節の切り出し処理T1が行なわれ
る。すなわち音声分析部6では、入力音声を16m5程
度の7レームに分はスペクトル分析を行ない、8麹S程
度の間隔で音節セグメンテーションs7に音節のセグメ
ンテーション(二必要な特徴パラメータを転送する。音
節セグメンテーション部7では、音声分析部6からの種
々の持金パラメータをリング状の特徴パターンバッフ7
8に一時記憶しながら音節を切出して各tfnの特徴を
パターン化して特徴パターンメモリ9に記憶する。特徴
パターンバッファ8は成敗の音節を記憶rることができ
るように構成されζいる。音節セグメンテーション部7
の処理は、中央処理装置(以下CPUと言う)10がら
の命令によりInE始・停止りが前御されるように構成
されている。
次に音節の認識処理T2が行なわれ、処理T3で認識結
果が選ばれる。すなわち、音節認識部11では、各音節
の特徴パターンと、特徴標準パターンメモリ12に予め
標準として記憶されているすべての特徴標準パターンと
のパターン距離計算を行ない、53′l似頻度の高い順
に候補を出す、同種のa部名を持つ候補を統合し音節認
識結果として認識結果メモリ13に記憶する。
次に処理T4で音節認識結果の誤りを修正処理し、処理
T5で音節認識結果を導き出す。すなわちtf節認n 
u 11内のイ1正処理部11aでは、言3n %埋用
辞書メモリ14に記憶した辞書を用いて音節認識結果の
誤りを自動的に修正する。あるいは揉作者自身がキーボ
ード15によって、入力音声に対する認識候補から正し
い候補を選択したり、また誤り箇所を直接修正する場合
もある。このようにして確定された正しい結果は、処P
I!T6で漢字に変換されて文字列として出力される。
犬1こ処理T7で自動学習処理が行なわれる。
すなわち音ff53X識部11内の学習処理制御部11
bでは、確定文字列により認識結果を分析して更新され
る学習情報(処J工′r8)を用いて、入力された各音
節の特徴パターンを学習 (特徴パターンを用いて特徴
標準パターンを更新することを言う)するか否かを次の
ように判定して学習の制御を行なう。
学習情報としては、■音節正誤リングバッフ716に記
憶されr:、音節毎の最近(たとえば過去3回の入力に
対しての)正/誤の時系列と、■音節全体止i 1Jン
グパツ7T17に記憶された最近(たとえば過去128
回の音節の人力に対して)の正/誤の時系列とが用いら
れる。
次1こ認識情況に基づく制御が行なわれる。すなわち最
近の正M音節平均認W&率Rに応じて、[S 1 ]、
[S 2 ]、[S 3 ]の3段階的に条件を設定し
、条件が満たされた場合学習される。
第1段階[S11は、R(128)<80%のとき過去
3回(現在の結果も含む)の人力に対し1回以上誤りが
ある音節の場合(誤’)$ri(3)≧1/3)である
第2段階[S21は、80%≦R(128)<85%の
とき、過去3回の入力に対し1回以上誤りがある場合(
誤り率ri(2)≧1/2)である。
第3段階[S31は、R(128)≧85%のとき、現
在誤った場合のみ(誤り率ri(1)≧1)である。
このような条件の下で、学習処理の更Tr部11Cでは
、学、習すると1′す定された音節について特徴標準パ
ターン12の中で最も悪いパターンすなわち認識貢献度
が最も低いパターンを検索し (処理Tl0)を、その
音節の特徴パターンで置換するかその特徴パターンを用
いて平均化の操作を(テっでその特徴標準パターンの更
新(処理T9)を終了する。
なお、音声分析部6以外は、総てCPU 10で制御さ
れている。
第3図は、1181の文章(1文章は平均6501″f
ffIiからなる)を人力したとき、各文章毎の音節の
V均認a率と、学習された入力音節の個数の推移を示し
たグラフである。ここでは2名の話者A1Bについて測
定した。ライン!1は話者へに関する音節の認識率を示
し、ラインノ2は話者Bl:関する音節の認a率を示し
ている。またラインノ3は話者Bに関するパターン学習
回数を示し、ラインノ4はフ者Aに関するパターン学習
回数を示している。認識率がAに比べて低いBの場合は
、学習した音節の個数が多い1文章を多く人力していく
と平均認識率が高くなって学習音節数ら減っており学習
の効果が現れている。また、fjIJ4文章を入力した
ときの平均認識が非常に高いが学習は抑制され、第5文
章のときは平均認識率が低下して学習が促進されている
様子が分かる。このように学習を抑制して入力の情況に
追従して高認&fl&’Fを維持していることが理解さ
れる。
効  果 以上のように本発明によれば、入力環境の急変、コ者の
生理的要因に基づく音質の変化、音声ピックアップ系の
設定の変化などに起因して音声イボ9波形の変化により
同一カテゴリの特徴パターンの不整合が起こり、3激に
音声語a率が低下する場合があっても、このような音f
fI′i認識情況の変化を音節全体と各音節について検
知して学習を制御するため、この種の変動に対して比較
的認識率の回復が早く、一方十分認識率が高い場合には
学習を抑制するため、安定して高い認識率を維持できる
【図面の簡単な説明】
第1図は本発明の一実施例の日本語音声入力装置1の構
成を示すブロック図、第2図は日本語音声入力装置1に
おける自動学習の処理系を示す図、第3図は11種の文
章(1文章は平均650音節からなる)を入力したとき
、各文章毎の音節の平均認識率と、学習された入力tf
ffliの個数の推移を示したグラフである。 1・・・日本語音声入力装置、2・・・マイクロホン、
6・・・音声分析部、7・・・音節セグメンテーション
部、8・・・特徴パターンバッフ7.9・・・g徴パタ
ーンメモリ、10−CPU111・・・音声認W&部、
lla・・・イ1正処理部、llb・・・学習制御部、
llc・・・更新部、12・・・特徴標準パターンメモ
リ、13・・・認識結果メモリ、14・・・言語処理用
辞書メモリ、15・・・キーボード、16・・・音節正
誤リングバッファ、17・・・音節全体正誤リングパン
7ア代理人  弁理士 西教 圭一部 2面の浄書(内容に変更なと) 第1図 第3図 手続補正書(方式)

Claims (1)

  1. 【特許請求の範囲】 入力された音声を予め登録された複数種の音節の特徴標
    準パターンとの類似度計算によって音節単位に認識し、
    その結果を辞書との照合もしくはキーボードなどの外部
    指示操作によって修正して最終的な入力を得るようにし
    た音声認識方式において、 認識基本単位である音節について音節別に入力毎の正解
    あるいは誤りの時系列を記憶する第1バッファと、音節
    全体の正解あるいは誤りの時系列を記憶する第2バッフ
    ァとを備え、 入力時に入力された音節を用いて特徴標準パターンを自
    動的に更新する場合、第1および第2バッファの内容を
    読み取って入力時点からさかのぼった最近の各音節の認
    識情況と音節全体の認識情況を求め、 各音節の認識情況と音節全体の認識情況とを用いて音節
    の学習の促進/抑制の制御を段階的に行うようにした音
    声認識方式。
JP61078822A 1986-04-05 1986-04-05 音声認識方式 Granted JPS62235991A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP61078822A JPS62235991A (ja) 1986-04-05 1986-04-05 音声認識方式
US07/034,060 US4908864A (en) 1986-04-05 1987-04-02 Voice recognition method and apparatus by updating reference patterns

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61078822A JPS62235991A (ja) 1986-04-05 1986-04-05 音声認識方式

Publications (2)

Publication Number Publication Date
JPS62235991A true JPS62235991A (ja) 1987-10-16
JPH0556515B2 JPH0556515B2 (ja) 1993-08-19

Family

ID=13672521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61078822A Granted JPS62235991A (ja) 1986-04-05 1986-04-05 音声認識方式

Country Status (1)

Country Link
JP (1) JPS62235991A (ja)

Also Published As

Publication number Publication date
JPH0556515B2 (ja) 1993-08-19

Similar Documents

Publication Publication Date Title
US7266495B1 (en) Method and system for learning linguistically valid word pronunciations from acoustic data
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE3778579D1 (de) Ausbildung von in einem spracherkennungssystem verwandten markov-modellen.
US20120245939A1 (en) Method and system for considering information about an expected response when performing speech recognition
JPS62239231A (ja) 口唇画像入力による音声認識方法
US7280963B1 (en) Method for learning linguistically valid word pronunciations from acoustic data
CN115148210A (zh) 语音辨识系统及语音辨识方法
JPH11149294A (ja) 音声認識装置および音声認識方法
JPS62235991A (ja) 音声認識方式
JP3112037B2 (ja) 音声認識装置
JP3353334B2 (ja) 音声認識装置
JP2003022091A (ja) 音声認識方法および音声認識装置ならびに音声認識プログラム
JP2003022093A (ja) 音声認識方法および音声認識装置ならびに音声認識プログラム
JPS62235992A (ja) 音声認識方式
JPS61138296A (ja) 音声認識装置
JP3100208B2 (ja) 音声認識装置
JPS60159899A (ja) 学習機能付音声認識装置
JPH0119596B2 (ja)
JPS60113298A (ja) 特定話者音声認識装置
JPH0415960B2 (ja)
JPS62204299A (ja) 音声認識装置
JP3322237B2 (ja) 音声認識装置
JPS59121097A (ja) 音声認識装置
JPS6073592A (ja) 特定話者用音声認識装置
JPS62111292A (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees