JPS6141199A

JPS6141199A - 日本語音声入力装置

Info

Publication number: JPS6141199A
Application number: JP16321884A
Authority: JP
Inventors: 徹上田; 充宏斗谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1984-07-31
Filing date: 1984-07-31
Publication date: 1986-02-27

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】く技術分野〉本発明は日本語の音声を予め登録された複数種類の音節
の特徴標準パターンとの類似度計算を行なって音節単位
で認識する音声入力装置に関し、特に簡単なキー操作等
の外部指示操作によ多入力音節の訂正が行なえ、かつ訂
正後の音節を標準パターンとして登録し得るように成し
たものである。

〈従来技術〉現在の技術レベルでは１００％正しい音声認識を行なう
ことは困難である。したがって、日本語音声認識装置で
はどうしても誤認識された音節を出来るだけ簡単に訂正
する手段が必要となる。

そこで、従来は認識の次候補を順次表示することによっ
て音節を訂正する方法が提案されている。

しかしながら、この方法では次候補に入力したい音節が
含まれていない場合には当該音節について再発声するか
、もしくはカナキーボードからｉ接正しい音節を入力す
る必要があシ、このため訂正操作が非常に煩雑で而もキ
ーボードのキー数も増加するという問題を有している。

〈目　的〉本発明はかかる従来の問題点に鑑みて成されたもので、
その目的とするところは、入力音節の訂正の際に、外部
指示操作により、当該音節に係る訂正用の各音節候補を
一定の順序に従って順次表示させることによって、再発
声による入力やカナキーによる訂正入力を行なうことな
く、きわめ２て簡単な操作により入力音節の訂正と標準
パターンとしての登録を行なえるようにした日本語音声
入力装置を提供することにある。

〈実施例〉以下、図面を参照して本発明を、連続的に発声された音
声を音節単位に認識し、その認識結果をキーボードで修
正した後、単語等の単位で外部装置に転送する機能を持
つ日本語音声入力装置を一例として説明する。

第１図は本発明の一実施例装置の構成を示すブロック図
である。

第１図において、発声され入力された音声はマイクロホ
ンを介してアナログ入力部ａに入力され、該入力部ａ内
の増幅器（ＡＭＰＣによって増幅された後、アナログ・
デジタル変換部（Ａ／Ｄ　’）によってデジタル信号に
変換され、そのデジタル信号が音声分析部す及び音節セ
グメンテーション部Ｃに入力される。

音声分析部すでぽ入力音声を１６ｍ５程度のフレームに
分け、スペクトル分析を行ない、８ｍｓ程度の間隔で音
節セグメンテーション部Ｃに特徴パターンと、音節のセ
グメンテーションに必要な情報（パワー、零交差数等）
を転送する。

音節セグメンテーション部Ｃでは、音声分析部すからの
種々の情報を用いて、入力音声から音節を切り出す。そ
の切シ出した部分の特徴パターンと、その区間の音声波
形を波形・特徴パターン一時メモｌＪｄにたくわえる。

そして、音節を切シ出したことをＣＰＵｅに伝達すると
共に波形・特徴パターン一時メモリｄ内のアドレノも同
時に伝達する。

波形・特徴パターン一時メモリｄは複数の音節をたくわ
えることができるように構成されている。

音節セグメンテーション部Ｃの処理はＣＰＵｅからの命
令により、開始・停止がコントロールされるように構成
されている。

ｆは単音節認識部であシ、該単音節認識部ｆでは、ＣＰ
Ｕｅからの命令によシバターンメモリａ内の特徴パター
ンメモリ１ｇと標準パターンメモＩＪ２ｇ及び３ｇとの
間で距離計算等を行ない、その結果をＣＰＵｅに戻す。

そして、ＣＰＵｅはその結果を、認識結果格納メモリｊ
にたくわえ、表示装置ｌに表示する。認識結果格納メモ
ｌＪｊは１、　複数の音節に対する認識結果をたくわえ
ることができるように構成されている。

ｈは音声出力制御部であり、該音声出力制御部りでは、
ＣＰＵｅの命令により、波形・特徴パターン一時メモリ
ｄの任意の部分に記憶された情報をアナログ出力部ｉに
送る。そしてアナログ出力部ｉでは音声のデジタル信号
をデジタルアナログ変換部（Ｄ／Ａ）及び増幅器ＡＭＰ
によって音声波形に再生し出力するように構成されてい
る。

なお、上記パターンメモリｇは三つの部分に分かれてお
り、１ｇは特徴パターンメモリであり入力された音節に
対応する特徴パターンを一側方だけ記憶できる。後の二
つの２ｇ及び３ｇは特徴標準パターン用メモリであり、
２ｇのエリアは登録モードで登録する音節の特徴パター
ン用のメモリであシ、３ｇのエリアは本特許で実現され
る認識（入力）モードで登録される音節の特徴パターン
用のメモリである。

上記音節の特徴パターン用メモリ２ｇ及び３ｇは後述す
るようにそれぞれ各音節名をコードで記憶するエリア、
登録の有無を記憶するフラグエリア及び特徴標準パター
ンデータを記憶する特徴標準パターンエリアよ多構成さ
れている。またｋはキーボード等により構成された入力
部であシ、例えば第２図に示すように登録モードキー１
ｋ、音節登録キー２に、取消キー３に、解除キー４ｋ。

転送キー５ｋ、認識モードキー６ｋ、音節次候補キー７
に、終了キー８に、実行キー９に、カーソル移動キー１
０に、ｌｌｋ及びカナキーの替わシに本発明に係る音節
選択キー１２ｋが備えられている。

なお、ｍは認識結果を外部装置に転送する際のデータの
送受信の制御を行なうＩ／Ｆ　（インターフェース）部
である。

次に、上記の如く構成された装置の動作を登録モード及
び認識モードについて説明する。

！、登録モードの説明第３図は登録モードにおけるＣＰＵｅの処理フローを示
したものである。

第３図において、装置本体が登録モードキー１にの操作
によって登録モードに設定されるとまずステップｎ１に
おいてパターンメモリｇが初期化され、標準パターンが
総て消去される。第１表は標準パターンメモリ２ｇの構
成を示したものであり、標準パターンメモリ３ｇも同様
に構成されている。

ステップｎ１における初期化の処理は標準パターンメモ
リ２ｇ及び３ｇの登録の有無のフラグエリアに「０」を
入れることで実現される。次にステップｎ２に移行して
発声すべき単音節が表示装置ｌに次のように表示される
。

「あ、」ここで添字の「１」は「あ」のパターンの中の一番目で
あることを示している。

オペレータはこの表示装置ｌの表示を見て、所定の単音
節の音声を発声して入力する。

この音声入力に応じてステップｎ８に移行して音節セグ
メンテーション部Ｃに音声の切シ出しの開始の指示を行
ない、音節セグメンション部Ｃは単音節を切り出し、そ
の区間の波形及び音声分析部すで得られた特徴パターン
を波形・特徴パターン一時メモリｄに記憶させる。

ヌテツ７’ｎ４では音節セグメンテーション部Ｃで単音
節が切り出されたかどうかのチェックを行ない、切り出
されると次のステップｎ５に移行する。

ステップｎ５では音節セグメンテーション部Ｃに切り出
し処理の停止を命令し登録の処理を継続する。

ステップｎ６では今切り出された音節に対応する音声部
分を波形・特徴パターン一時メモリｄより読み出して音
声出力制御部りを介してアナログ出力部ｉより再生出力
させる。

ステップｎ７では再生出力された音声にもとすいてオペ
レータが正確に切シ出されたかどうかを判定し、その結
果のキーボードｋによる指示に従い、再切り出しか登録
の実行かを決定する。このステップｎ７において、オペ
レータが再生出力を聞いて正確に切り出されたと判断し
た場合には実行キー９ｋを操作することになってステッ
プｎ８に移行し、オペレータが再切り出しを指示する場
合には、解除キー４にの操作に応じて、ステップｎ８に
戻ることになる。

ステップｎ８では表示装置ｌに表示されている音節に対
応する特徴標準パターンメモリ２ｇの位置に特徴標準パ
ターンを記憶させると共に対応する登録の有無を示すフ
ラグに、「１」をセットする。

ステップｎ９では全標準パターンの登録が終了されたか
どうかの判断を行々い、終了していなければステップｎ
２に戻シ、次の単音節の表示、例えば「あ２」を表示し
、同様の処理を行なう。

このようにして、登録が終了すると標準パターンメモリ
２ｇＫは総ての単音節の特徴標準パターンが数個ずつ登
録されることになる。

次に認識モードの動作を説明する。

第４図は、認識モードにおけるＣＰＵｅの処理フローを
示したものである。

まず、認識モードキー６にの操作によって装置が認識モ
ードに設定され、オペレータが認識すべき音声を発声す
ると、この入力音声に応じてステップｎｉｌでは音節セ
グメンテーション部Ｃに音節の切り出し開始の命令を与
える。そして、音節セグメンテーション部Ｃは波形・特
徴パターン一時メモリｄを初期化し、以後切り出した音
節に対応する特徴パターンと波形を先頭番地から入れて
いき、各音節の波形及び特徴パターンの始端と終端番地
の情報をＣＰＵｅに与える。

ステップｎ１２では音節が切シ出されたかどうかのチェ
ックを行い、切シ出されるとステップｎ１３に移る。

ステップｎｌＢでは、波形・特徴パターン一時メモリｄ
の特徴パターンをパターンメ／４゛すｇの特徴パターン
メモリ１ｇの領域に転送して認識を行なう。即ち単音節
認識部ｆに認識の命令を与えることによシ特徴パターン
メモリ１ｇの内容と標準パターンメモリ２ｇ・３ｇの内
容の照合によりａ識が行なわれ、その結果を認識結果格
納メモリｊに入れるとともに、表示装置ｌに表示する（
ステップｎ１４）。

例えば、入力音声として「かいもの」と発声したときの
認識結果の第１位が「かぎもも」であれば表示装置１２
にはかぎももと表示され、また認識結果格納メモリｊには、各音節に
対する複数の認識結果候補が例えば箸２表に示すように
格納される。

上記の「かいもの」といった単語の入力が終わると、オ
ペレータはキーボード入力部にの１終了」キー８ｋを入
力する。そうすると、音節セグメンテーション部Ｃに切
シ出しの停止が命令される（ステップｒ１１５．ｎ１６
）。そして、全文字列が正解であれば「転送」のキー５
ｋを入力することにより、１４部ｍを介して外部装置に
カナ文字を出力することができる（ステップｎ１８．ｎ
１９）。

また認識結果の表示を見て、はとんどの文字が間違って
いたり、言い間違いをしたときには「取消」キー３ｋを
入力することにより、ステップｎ１７の判断により、初
期状態に戻すことができる。

また、一部の認識結果が違っている場合には、ステップ
ｎ２０に示すように、オペレータがキーによる修正を行
なうことになる。

まず、修正したい位置にカーソル移動キー１０ｋ。

１１ｋ「→」「＝」を用いて、修正したい文字のところ
にカーソルを持っていく。例えば第４文字目の「も」を
修正したい場合には、カーソル移動キーｒ　−Ｊ　１１
　ｋの操作によシ表示は次のようになる。

かぎももこｊで、本発明ではキーボードにの「音節選択キー」１
２ｋを入力する。すなわち、この音節選択キー１２ｋを
入力する度毎に、カーソル部分の音節が、というように一定の順序（この例ではアイウェオ順）で
表示される。よって、カーソルキーで所望の音節を指定
したのちは、単に音節選択キー１２ｋを操作するだけで
訂正することが出来る。

なお、上記の例では音節選択キー１２ｋを操作する度毎
に順次訂正用の音節候補を表示するようにしているが、
まず音節選択キー１２ｋが操作されると、以後は自動的
に訂正用の音節候補が一定間隔で順次表示され、所望の
音節が表示されたところで今一度音節選択キー１２ｋを
操作するととで訂正できるようにしてもよい。

また、上記実施例では訂正用の音節候補をアイウェオ順
に表示しているが、音節の認識時には母音を誤る確率は
少ないのでｒ音節選択」キー１２を操作すると現在表示
されている音節と同じ母音の頭から順に表示させるとよ
り訂正の効率が上がる。

なお、第１候補が入力の音節の母音と異なっているとき
には、「音節次候補」キー７ｋによってまず認識次候補
を出して同じ母音の音節を選択してから上記の方法を行
なうようにすればよい。

上記した例によれば、カーソルマークに対応する現在の
認識結果が「も」であるため、こ＼で音というようにオ
段の音節から順次訂正することが出来る。

以上のようにして、音節を訂正したのち、たとｋ　　え
ば、上記した「の」の入力音声を標準パターンとして登
録を行なう場合には「音節登録」キー２ｋを入力するこ
とにより、ステップｎ２１の判断でステップｎ２２に移
シ、音声出力制御部ｄに再生すべき音節の波形の始端と
終端の番地が指示され、波形・特徴パターン一時メモリ
ｄより該当部分の波形が読み出されて音声出力制御部り
を介してアナログ出力部１に与えられ、該アナログ出力
部ｉから「の」に対応する音声が再生出力される。

オペレータはこの再生音声を聞くことにょシ、入力者自
身によって切シ出し位置が正確がどうかの判断を下し、
「実行」キー９にあるいは「解除」キー４ｋを入力する
ことになるが、「実行」キー９ｋが押されるとステップ
ｎ２ｇからステップｎ２４に進み、「解除」キー４ｋが
押されるとステップｎ１７に進むことになる。

ステップｎ２３からステップｎ２４に移行するとＣＰＵ
ｅは指定された音声に対応する音節特徴パターンとして
波形・特徴パターン一時メモリｄ内に記憶された該当音
節の特徴パターンをパターンメモリｇの標準パターンメ
モリ３ｇに登録する。

この時、認識結果の音節候補群以外の音節としては登録
ができないように成されている。即ち波形・特徴パター
ン一時メモリ７に記憶された各音節に対する特徴パター
ンは認識結果の各音節候補に対する特徴標準パターンと
してしか登録できないように成されている。したがって
、例えば今の例では第１音節の特徴パターンは「か」、
Ｕた」。

「が」、「は」以外の特徴標準パターンとして登録でき
ないようになされている。

第３表は標準パターンメモリ３ｇの構成例を示したもの
である。

第３表　標準パターン３ｇの構成側上記例では、入力音声を「の」として登録を行なうので
、音節者Ｕの」のエリアで登録の無いところ、すなわち
「のａ」に特徴パターンを転送し登録の有無を「１」に
する。

もし登録の有無が総て「１」の場合、例えば第３表の「
あ」の場合には、「あＣ」までが登録されているので、
一番時間的に古い「あａ」のエリアのデータを消してか
ら、その場所に登録する。

上記実施例では、標準パターンメモリを２ｇ及び３ｇに
分けて登録したが、例えば標準パターンの良否を判定す
ることにより最も悪い特徴標準パターンを消して、その
エリアに入力時の音節を登録するようになしても構わな
い。

標準パターンの良否の判定方法としては、例えば本発明
者等が先に特願昭５７−２１７２９６号「音声認識装置
」として提案した方法、即ち特徴標準パターン毎にカウ
ンタ手段を設け、入力音声の認識判定結果に応じて、そ
のカウンタ値を増減させ、このカウンタ値に応じて最も
悪い特徴標準パターンを判定する方法等がある。

以上のようにして、上記した実施例によれば、訂正すべ
き音節をカーソルマークで指定したのち、音節選択キー
の操作によって訂正用の各音節候補を一定の順序で順次
表示することにより、再発声やカナキーなどからの入力
を行なうことなく、きわめて簡単な操作で入力音節を訂
正することが出来る。

また、音節選択キーの操作で訂正することができるから
、従来のカナキーボードは全く不要となり、キーボード
にのキー数を著しく減少させることができる。

〈効　果〉以上のように、本発明によれば入力された音声を予め登
録された複数種類の音節の特徴標準パターンと照合して
音節単位に認識する日本語音声入力装置において、入力
音節の訂正の際に、外部指示操作により、当該音節に係
る訂正用の各音節候補を一定の順序に従って順次表示す
る手段を備えるように構成しているので、カナキーボー
ドを設けることなく、また再発声することなく入力音節
の訂正を行なうことが出来る等、きわめて簡単な操作で
訂正作業が行なえ而も数個から士数個程度のキーからな
るキーボードを備えた小型軽量で安価外日本語音声入力
装置を提供することができる。

【図面の簡単な説明】

第１図は本発明の一実施例装置の構成を示すグロック図
、第２図はキーボード等の入力部の一例を示す平面図、
第３図は登録モードの動作を説明するための処理フロー
図、第４図は認識モードの動作を説明するための処理フ
ロー図である。ｂ・・・音声分析部、ｄ・・・波形・特徴パターン一時
メモリ、ｅ・・・ＣＰＵ、ｆ・・・単音節認識部、ｇ・
・・パターンメモリ、１ｇ・・・特徴パターンメモリ、
２ｇ及び３ｇ・・・標準パターンメモリ、ｊ・・・認識
結果格納メモリ、ｋ・・キーボード、１ｋ・・・登録モ
ードキー、６ｋ・・・認識モードキー、１２ｋ・・・音
節選択キー〇代理人　弁理士　　福　士　愛　彦（他２名）第２−

Claims

【特許請求の範囲】１、日本語の音声を、予め登録された複数種類の音節の
特徴標準パターンとの類似度計算を行なって音節単位で
認識する音声入力装置において、入力音節の訂正の際に
、外部指示操作により、当該音節に係る訂正用の各音節
候補を一定の順序に従って順次表示する手段を備えて成
ることを特徴とする日本語音声入力装置。２、上記手段は音節登録キーの操作に応じて上記訂正後
の音節を標準パターンとして登録する手段を包含して成
ることを特徴とする特許請求の範囲第１項記載の日本語
音声入力装置。