JPS63289685A - パタ−ン認識装置 - Google Patents

パタ−ン認識装置

Info

Publication number
JPS63289685A
JPS63289685A JP62124610A JP12461087A JPS63289685A JP S63289685 A JPS63289685 A JP S63289685A JP 62124610 A JP62124610 A JP 62124610A JP 12461087 A JP12461087 A JP 12461087A JP S63289685 A JPS63289685 A JP S63289685A
Authority
JP
Japan
Prior art keywords
input
character
pattern
recognition
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP62124610A
Other languages
English (en)
Other versions
JP2885399B2 (ja
Inventor
Hiroyuki Tsuboi
宏之 坪井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP62124610A priority Critical patent/JP2885399B2/ja
Publication of JPS63289685A publication Critical patent/JPS63289685A/ja
Application granted granted Critical
Publication of JP2885399B2 publication Critical patent/JP2885399B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明はパターン認識に用いられる認識辞書を効果的に
学習させるようにしたパターン認識装置に関する。
(従来の技術) 音声ワードプロセッサ等の音声認識装置や手書き文字の
認識処理におけるパターン認識では、その認識性能(認
識率)の向上を図るため、予め多数の認識対象パターン
を収集し、これらのパターンを用いて認識辞書の学習を
行い、認識辞書の充実化を図ることが行われている。
この認識辞書の学習は、例えば特定話者用の単語単位の
音声認識装置を例にとると、表示装置に入力すべき単語
を表示し、発声者がこの表示装置で指定された単語を発
声することによりその単語について1つの学習パターン
を収集し、認識辞書の登録が終了すると次の文字を表示
して次の学習パターンを収集するという手順を繰返すこ
とによって行われる。
ところが、この様な入力方法であると、入力すべき単語
が表示装置に表示されてから発声者がその表示された単
語を実際に発声するまでに、発声者の思考時間に相当す
る空き時間が生じる。この空き時間は、極めて多数の単
語を登録する際には、無視できない時間となり、認識辞
書の学習処理の効率化を図るうえで大きな障害となる。
また、このような障害は、学習処理の時間を短縮しよう
と努力する発声者の負担増となるばかりでなく、誤入力
を誘発する可能性にもつながる。文字認識装置において
も、オンライン的に筆者の文字を登録する際に、文字単
位、単語単位の入力指示をしているので、同様の問題を
生じる。
また、音声認識においては、単語単位の入力の他に連続
発声された音声認識の研究が進められているが、この連
続発声による音声認識においては、単語と単語との間の
いわゆるわたり部分の情報が認識処理を行なううえで重
要な情報となる。
しかしながら、従来の上述のような学習パターンの入力
方法では、表示装置による入力単語の指定から実際の単
語入力までの間の空き時間の存在によって、単語と単語
との間の連続性を損わせ、単語間のわたり部分の情報が
採取できないという問題があった。
(発明が解決しようとする問題点) このように、入力パターンの登録が終了するたびに次の
入力単語を表示することにより入力パターンを順次採取
して認識辞書の学習を行なう従来のパターン認識装置で
は、学習処理に多大な時間を必要とするうえ、入力者の
負担及び誤入力が増すという問題があった。また、特に
連続音声認識においては、単語と単語との間の変化の情
報が得られないという問題があった。
本発明は、学習処理の効率向上、並びに入力者の負担及
び誤入力の軽減を図ることができ、特に連続音声認識に
おいては、単語や文節間の変化の情報についても採取可
能なパターン認識′j<置を提供することを目的とする
[発明の構成] (問題点を解決するための手段) 本発明は、認識辞書の学習処理に際し、現在入力すべき
文字とその後に入力すべき文字とをまとめて表示すると
ともに、前記現在入力すべき文字の部分を他の表示文字
とは区別して表示する表示手段を備えたことを特徴とし
ている。そして、この表示手段で表示された前記現在入
力すべき文字について入力されたパターンを認識辞書で
認識処理し、その認識結果に基づいて前記認識辞書を更
新するようにしている。
(作用) 本発明によれば、表示手段に現在入力すべき文字のみな
らず、その後に入力すべき文字も表示される。したがっ
て、入力パターンを入力しようとする者は、現在入力す
べき文字を入力しながら、次に入力すべき文字を確認で
きるので、1つの文字を入力した後、直ちに連続的に次
の文字の入力を行なうことができるで したがって、本発明によれば、学習時間の短縮化、入力
者の負担軽減、及び誤入力の防止が図れ、連続音声認識
の場合には、単語間、文節間等の変化部分の情報の採取
も可能になる。
(実施例) 以下、図面を参照して本発明の一実施例について説明す
る。
第1図は本実施例に係る音声認識装置の概略構成図であ
る。尚、この装置は入力音声のパターン認識を行なうも
のであるが、例えば手書き文字認識等のパターン認識に
も同様に適用することができる。
音声入力部1は、マイクロホンや増幅器からなり、入力
音声を電気信号に変換する部分である。
この音声入力部1を介して入力された音声信号は、例え
ば8チヤンネルのフィルタバンク等からなる特徴抽出部
2に与えられ、ここで周波数分解されて各周波数成分を
例えば時間軸方向に8点りサンプルしてなる64 (8
X8)次元の特徴ベクトルの入力音声パターンに変換さ
れる。尚、特徴抽出は上述したフィルタ分析に代えて、
高速フーリエ変換による分析やケプストラム分析等によ
って行なうことも可能である。
認識部3は、上記入力音声の特徴ベクトルfと、認識辞
書メモリ4に登録されたカテゴリlの辞書パターン(φ
n  )の各n面のベクトル成分との類似度S” [f
 ]を、 なる複合類似度計算により求め、認識結果を決定するも
のである。ここで、λn(、f”)    <i )、
φn  は、 各認識対象カテゴリについて予め多くのサンプルパター
ンから得られた共分散行列にの第n固有値と、固有ベク
トルをそれぞれ示しており、これらは認識辞書メモリ4
に格納されている。尚、このような類似度Sを用いて認
識結果を決定する代わりに、マハラビノスの汎距離やユ
ークリッド距離、確率や尤度等を用いて認識結果を求め
ることも可能である。
学習用訓練パターン記憶部5は、学習処理の際に入力さ
れた音声データを特徴抽出部2で周波数分解して得た学
習用訓練パターンと、上記認識部3での認識結果とを対
応付けて記憶するものである。
学習部6は、前記特徴抽出部2を介して求められた入力
音声パターンと、前記学習用訓練パターン記憶部5に収
集保存された学習用訓練パターンとを入力し、前記認識
辞書メモリ4に格納された辞書パターンを各認識対象カ
テゴリ毎に学習するものである。この学習部6における
辞書パターンの学習は、例えば共分散行列にの繰返し更
新処理と、共分散行列にのKL展開とによって行われる
即ち、学習しようとするカテゴリの認識辞書の共分散行
列Kを入力し、基本的にはその共分散行列を次のように
して更新処理する。つまり、なる演算を実行して、その
共分散行列Kを更新する。但し、■は学習パターンであ
り、例えば64次元のベクトルとして与えられる。また
 K / は学習後の共分散行列である。モしてWは認
識部3での認識結果から求められる正負の値をとる重み
係数(学習パラメータの値)であり、正の場合には上記
共分散行列にの特性核の入力パターンに対する類似度を
大きくする作用を呈し、負ならばその類似度を小さくす
る作用を呈する。
表示部7は、通常の認識処理の際には、認識部3で認識
された認識結果を表示し、認識辞書の学習時には、学習
のために入力すべき文字を表示する。表示部7に表示す
る文字は、発声文字列記憶部8に格納されている。また
、下線・反転表示制御部9は、表示部7に表示された文
字列の1つのまとまりを示す単位に下線を付したり、現
在入力すべき文字を反転表示するための表示制御を行な
うものである。この下線・反転表示制御部9で指定され
た現在入力すべき文字のカテゴリは、得られた学習用訓
練パターンと対応させて学習用訓練パターン記憶部5に
格納される。
尚、第1図において制御部10は上述したパターン認識
処理および認識辞書の学習処理をそれぞれ制御するもの
である。
このように構成された本装置において、認識辞書の学習
を行なう場合には、まず、制御部10は、発声文字列記
憶部8から学習入力すべき文字列を読出し、表示部7に
表示させるとともに、下線・反転表示制御部9によって
1つのまとまりある単位に下線を付し、入力すべき文字
に反転処理を施す。このような処理によって得られる表
示部7の表示形態を第2図に示す。ここでは、「このよ
うにして〜類似度Sは、」までを1つのまとまりとして
、この文字列に下線を付し、「このようにして」が現在
入力すべき文字(文節)であることを示している。
そこで、発声者がこの表示に従って、「このようにして
」と発声すると、音声入力部1がこの音声を入力し、特
徴抽出部2がその特徴パターンを抽出する。この特徴パ
ターンは、学習用訓練パターンとして認識部3を介して
学習用訓練パターン記憶部5に格納される。認識部3で
の認識結果は、学習用訓練パターンと対応付けて上記学
習用訓練パターン記憶部5に格納される。
次に学習部6は、前述したような学習処理を行い、その
学習の結果得られた共分散行列に′をKL展開してその
固有値と固有ベクトルとを指定された認識対象カテゴリ
「このようにして」の認識辞書として前記認識辞書メモ
リ4に登録する。
認識辞書の登録が完了すると、下線・反転表示制御部9
は、次に入力すべき文節「求められた」を反転表示する
。そして、同様の学習が行われる。
第3図に、このような表示処理の手順を示す。
この図に示すように、表示部7は、まず、発声文字列記
憶部8から表示する複数の文字を読み出して表示しく1
1)、表示文字のうち、1つのまとまりを示す単位に下
線を付して(12)入力指示待ちとなる(13)。そし
て、入力可能であれば(13)、下線を付した表示文字
のうち、入力すべき文字を反転表示して(14)入力待
ちとなる(15)。指定された文字が入力されたら、次
の入力すべき文字に反転表示を移す(16)。次に入力
すべき文字がない場合には(17)、下線表示を次のま
とまりに移す(18)。次のまとまりが無い場合には(
19)、発声文字列記憶部8に表示すべき文字が残って
いるかどうかを確認しく20)、残っている場合には、
表示内容を更新する(21)。
この装置によると、発声者は「このようにして」という
最初の文節を発声した時に、次に発声する文節が「求め
られた」であることが表示部7の表示により予め分かる
ので、次の入力が要求された時に直ちに要求された文字
を発声入力することができる。したがって、入力時間の
短縮、発声者の負担軽減及び誤入力の防止が図れ、かつ
連続発声の際の文節間のいわゆるわたり部分の情報の採
取も可能である。
なお、第4図に示すように、入力単位をスラッシュなど
で区切るようにすれば、次に入力すべき文字列の長さも
事前に分るので、更に迅速かつ確実な人力が可能になる
また、上記実施例では、入力すべき文字のまとまりを下
線で示して・いる。これは、その内容全体を発声するの
を要求しているのではないが、意味のあるまとまりを使
用者に示すことにより使用者がより自然な環境で発声で
きるという効果を奏する。
第5図に単音節単位の入力、第6図に単語単位の入力の
例を示す。
第5図の例は、単語のまとまり「ぼばい」に下線を付し
、その下線を付した単語の中の現在入力すべき音節「ぼ
」を反転表示で示している。
また、第6図の例は、単語のひらがな表記と漢字表記と
をベアにして表示することにより、単語の発声誤りを防
止した例である。ここでは、ひらがな表記と漢字表記の
ペアに下線を付し、ひらがな表記部分を現在入力すべき
単語であるとして反転表示している。
なお、第5図における「あてつけ」、「つける」「きお
り」及び第6図における「とうきよう 東京」、「ゆう
らくちょう 有楽町」は、入力済みであるが、再度発声
入力し直せることを示す単語であり、これらは高輝度表
示されることにより他の単語と区別している。また、こ
のような高輝度表示や下線表示、反転表示等は、カラー
表示が可能な表示部を用いた場合には、色分けに代える
ことができる。
この他、本発明は、入力が有効であったか無効であった
かを表示する機能を付加するようにしてもよい。入力が
有効であったことは、反転表示部分が移動することによ
り、あるいは入力された文字が消去されることにより示
すことができる。
また、表示部7に、入力単位の総数と現在までに入力さ
れた入力単位数とを表示すると発声者が残りの文字入力
量を予想できるので発声者の負担はさらに軽減される。
なお、以上は音声認識装置を例にとり本発明を説明した
が、本発明は、例えば手書き文字認識等、種々の認識ア
ルボリムに従うパターン認識処理装置にそれぞれ適用す
ることができる。
[発明の効果] 以上説明したように本発明によれば、認識辞書の学習時
に、表示手段に現在入力すべき文字だけでなく、その後
に入力すべき文字をも表示するようにしているので、学
習パターンの登録処理を効率良く行なうことができ、利
用者の負担軽減及び誤人力の防止を図ることができる。
また、特に連続音声認識への適用に際しては、単語間や
文節間等の変化部分の情報を容易に収集でき、性能の優
れた認識辞書を作成できるという効果を奏する。
【図面の簡単な説明】
第1図は本発明の一実施例に係る音声認識装置の概略構
成図、第2図は同装置における表示部の表示例を示す図
、第3図は同表示部の表示手順を示す流れ図、第4図乃
至第6図は同装置の他の表示例をそれぞれ示す図である
。 1・・・音声入力部、2・・・特徴抽出部、3・・・認
識部、4・・・認識辞書メモリ、5・・・学習用訓練パ
ターン記憶部、6・・・学習部、7・・・表示部、8・
・・発声文字列記憶部、9・・・下線・反転表示制御部
、10・・・制御部。 出願人代理°人 弁理士 鈴江武彦 第2図     第4図 第3図

Claims (7)

    【特許請求の範囲】
  1. (1)学習処理によって更新される認識辞書と、この認
    識辞書を用いて入力パターンを認識する認識手段と、前
    記認識辞書の学習処理に際し、現在入力すべき文字とそ
    の後に入力すべき文字とをまとめて表示するとともに、
    前記現在入力すべき文字の部分を他の表示文字とは区別
    して表示する表示手段と、この表示手段で表示された前
    記現在入力すべき文字についての前記認識手段における
    認識結果に基づいて前記認識辞書を更新する学習手段と
    を具備したことを特徴とするパターン認識装置。
  2. (2)前記表示手段は、現在入力すべき文字を含む文字
    のまとまりを、下線を付して表示するとともに、この下
    線を付した文字のまとまりにおける現在入力すべき文字
    を反転表示することを特徴とする特許請求の範囲第1項
    記載のパターン認識装置。
  3. (3)前記表示手段は、既に入力された文字であるが、
    再度入力可能な文字を表示するものであることを特徴と
    する特許請求の範囲第1項記載のパターン認識装置。
  4. (4)前記表示手段は、再度入力可能な文字の輝度を他
    の文字の輝度よりも高めることにより再度入力可能な文
    字を表示することを特徴とする特許請求の範囲第3項記
    載のパターン認識装置。
  5. (5)前記表示手段は、入力が有効であったか無効であ
    ったかを入力文字単位で表示するものであることを特徴
    とする特許請求の範囲第1項記載のパターン認識装置。
  6. (6)前記表示手段は、入力された文字の表示を消去す
    ることによって入力が有効であったことを表示するもの
    であることを特徴とする特許請求の範囲第5項記載のパ
    ターン認識装置。
  7. (7)前記表示手段は、入力単位毎にスペース、スラッ
    シュなどの分かち書マークを挿入して入力単位を明示す
    るものであることを特徴とする特許請求の範囲第1項記
    載のパターン認識装置。
JP62124610A 1987-05-21 1987-05-21 パターン認識装置 Expired - Lifetime JP2885399B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62124610A JP2885399B2 (ja) 1987-05-21 1987-05-21 パターン認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62124610A JP2885399B2 (ja) 1987-05-21 1987-05-21 パターン認識装置

Publications (2)

Publication Number Publication Date
JPS63289685A true JPS63289685A (ja) 1988-11-28
JP2885399B2 JP2885399B2 (ja) 1999-04-19

Family

ID=14889689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62124610A Expired - Lifetime JP2885399B2 (ja) 1987-05-21 1987-05-21 パターン認識装置

Country Status (1)

Country Link
JP (1) JP2885399B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259170A (ja) * 1999-02-10 2000-09-22 Internatl Business Mach Corp <Ibm> 音声認識システムにユーザを登録する方法および装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5734046U (ja) * 1980-08-04 1982-02-23
JPS58172270U (ja) * 1982-05-11 1983-11-17 クラリオン株式会社 カラオケビデオ装置における画面構成
JPS6057898A (ja) * 1983-09-09 1985-04-03 電子計算機基本技術研究組合 音声登録方式
JPS61249182A (ja) * 1985-04-27 1986-11-06 Toshiba Corp パタ−ン認識学習装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5734046U (ja) * 1980-08-04 1982-02-23
JPS58172270U (ja) * 1982-05-11 1983-11-17 クラリオン株式会社 カラオケビデオ装置における画面構成
JPS6057898A (ja) * 1983-09-09 1985-04-03 電子計算機基本技術研究組合 音声登録方式
JPS61249182A (ja) * 1985-04-27 1986-11-06 Toshiba Corp パタ−ン認識学習装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259170A (ja) * 1999-02-10 2000-09-22 Internatl Business Mach Corp <Ibm> 音声認識システムにユーザを登録する方法および装置

Also Published As

Publication number Publication date
JP2885399B2 (ja) 1999-04-19

Similar Documents

Publication Publication Date Title
US11062699B2 (en) Speech recognition with trained GMM-HMM and LSTM models
CN112002308B (zh) 一种语音识别方法及装置
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
Mohammed et al. Quranic verses verification using speech recognition techniques
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
JP2955297B2 (ja) 音声認識システム
Zhang et al. Character-Aware Sub-Word Level Language Modeling for Uyghur and Turkish ASR
JPS63289685A (ja) パタ−ン認識装置
Hunt Speaker adaptation for word‐based speech recognition systems
JPH03148750A (ja) 音声ワープロ
CN111563379A (zh) 基于中文词向量模型的文本识别方法、装置及存储介质
JPS61249182A (ja) パタ−ン認識学習装置
JPH0338699A (ja) 音声認識装置
JPS63161498A (ja) 音声情報入力装置
JPH04232997A (ja) 音声認識装置における認識結果表示方式
JPS6325366B2 (ja)
JP3046872B2 (ja) つづり−発音記号変換処理方式と例外語辞書管理データ登録処理方式
JP2656239B2 (ja) 音声認識学習方式
JPH0654503B2 (ja) パタ−ン認識装置
JPS63292197A (ja) 音声認識装置における語彙登録支援装置
CN115809641A (zh) Asr文本纠错方法、模型、装置、电子设备、存储介质
JPH0573039B2 (ja)
Murveit et al. An architecture of an MOS‐LSI speech recognition system using dynamic programming
JPS6180298A (ja) 音声認識装置
Gillet et al. The use of syntax, semantics, and pragmatics in the KEAL speech understanding system