JPS6120996A

JPS6120996A - 音声認識装置

Info

Publication number: JPS6120996A
Application number: JP59141794A
Authority: JP
Inventors: 宏樹大西; 鶴藤　真一; 正幸飯田; 正典宮武
Original assignee: Sanyo Electric Co Ltd; Sanyo Denki Co Ltd
Current assignee: Sanyo Electric Co Ltd; Sanyo Denki Co Ltd
Priority date: 1984-07-09
Filing date: 1984-07-09
Publication date: 1986-01-29
Anticipated expiration: 2009-06-01
Also published as: JPH0642154B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（イ）産業上の利用分野本発明は音声認識装置、特に不特定話者を対象とした装
置に関する。

（ロ）従　来の技　術一般に音声は、話者毎に発声器官の形状や発声７１、ア
クセント等が異なる為、同じ語を発声したとしても話者
毎に異なった特徴をもっている事が知られている。この
為、不特定多数の話者の音声を認識する場合は、話者毎
の音声の特徴に於ける差違を吸収する認識手法が必要と
されている１−１斯様な認識手法として従来の音声認識
装置に最も多く採用されてｈるものとして、同一語につ
いて、話者の相違に対応する複数の標準的な音声パター
ンをＲＯＭ（リードオンリーメモリ）に格納しておき、
同一の入力音声パターンに対して上記ＲＯＭ内の複数の
音声パターンを参照してパターン認識を行なうマルチテ
ンプレート法がある。

然るに、マルチテンプレート法に於いて用意される複数
の標準的な音声パターンは、多数話者の音声に基づいて
、話者の相違に依る代表的な音声パターンを複数個選択
したものであるが、全ての話者の音声パターンに完全に
対応できるとは限らず、特異な音質を有する話者の入力
音声に対しては認識率が低下し、誤認識が多発する惧れ
があった。

クス第６６頁乃至第６９頁には不特定話者単語の認識部
と特定話者単音節の゛認識部を備えた［音声入力の日本
語ワード・プロセッサ」についての記載がある。

しかしながら、斯様なに声認識処理に於いても、特異な
音質を有する話者に対しては、単音節音声の登録処理に
依って特定話者単音節の認識部での認識率は低下する事
はないが、不特定話者単語の認識部での認識率はやはり
低下してしまう欠点があった。

（ハ）発明が解決しようとする問題点本発明は上述の点に鑑みてなされたものであり、不特定
話者を対象とした音声認識装置に於いて、特異な音質の
話者の音声をも認識率の低下を招く事なく認識せしめよ
うとするものである。

に）問題点を解決するための手段本発明の音声認識装置は標準的な音声パターンが格納さ
れたＲＯＭ（リードオンリーメモリ）と特定の話者の音
声パターンを格納可能なＲＡＭ（ランダムアクセスメモ
リ）とからなる参照ノきターンメモリ手段を備えたもの
である。

（ホ）作　　用本発明の音声認識装置に於いては、音声の登録時には、
入力された話者の音声を分析して得た音声パターンを参
照パターンメモリ手段のＲＡＭに格納し、音声の認識時
には、入力された話者の音声を分析して得た音声パター
ンを参照パターンメモリ手段の予め標準的な音声パター
ンが格納されたＲＯＭと上記ＲＡＭとの両方の音声パタ
ーンに基づいてパターン認識が行なわる。

（へ）実　施　例第１図に本発明の音声認識装置の一実施例を示す。同図
に於いて、（１）は音声を入力するマイク。

ロフォン、（２）は該マイクロフォン（１）から得られ
る音声信号を分析して音声パターンを作成する分析回路
であり、例えばフィルターバンク方式に依る　。

音声のスペクトル値の時系列パターンからなる音声パタ
ーンが出力される。（３）は該分析回路（２）からの音
声パターンが一時的に貯えられるＲＡＭ構成の入カバタ
ーンメモリである。

（４）はＲＯＭＩＩ＞とＲＡＭ（４２とからなる参照パ
ターンメモリ手段であり、ＲＯＭ（４ｆｌには標準的な
音声パターンが格納されており、ＲＡＭ（４３には特定
の話者の音声パターンが格納され得るのである。即ち、
ＲＯＭ（４１）については第２図に示す如く、例え）−
［字音声の音声パターン「ゼロ１、「イチ」、「二」、
・・・・・・「キュー」が夫々＃０領域、＃１領域、＃
２領域、・・・＃９領域に対応せしめるのであるが、発
音、アクセント等話者個有の音質の相違が存在する例え
ば３種類の代表的な同一数字音声の音声パターンを予め
選択して各＃領域を更に５分割したＡ、Ｂ、Ｃ領域に格
納している。一方ＲＡＭ（４２１も又上記ＲＯＭ（４１
）の各＃領域と対応して＃０領域、＃１領域、＃２領域
、・・・、＃９領域が設けられており、この各＃領域に
はやはり、「ゼロ」、「イチ」、「二」、・・・「キュ
ー」なる音声パターンが必要に応じて書き込まれるので
ある。

（ＳＷ）はモード設定スイッチであり、このスイッチ（
８ｗ）をｔ側に接続する事に依って登録モードが選択さ
れ、このモード時にマイクロフォン（１）に入力された
話者の数字音声が分析（２）されて得られた入カバター
ンメモ１月３）の音声パターンを参照パターンメモリ手
段（４）のＲＡＭ（４２１の各＃領域に第２図に示す如
く順次格納せしめる。

（５）は上記モード設定スイッチ（ＳＷ　）をｒ側に接
続する事に依って認識モードを選択した時に、動作する
パターン認識回路であり、マイクロフォン（１）に入力
された話者の数字音声例えば「サンｊが分析（２）され
七得られた入カバターンメモリ（３）の音声パターンを
上記参照パターンメモリ手段（４）のＲＯＭ（４１）の
各＃領域での各Ａ、Ｂ、Ｃ領域の音声パターン及びＲＡ
　Ｍ　（４Ｂの各＃領域の音声パターン全てについて比
較参照してパターン認識が行なわれる。この時入力音声
パターン［サンＪがＲＯＭ（４υの＃５・Ａ領域、＃５
・Ｂ領域、＃３・Ｃ領域、あるいはＲＡＭ（４２の＃３
領域のいずれかの音声パターンに最も類似であると判定
された時、上記パターン認識回路は入力音声が「サン」
である事を示す＃３なるコード信号を出力する事となる
っ上述の如き構成の本発明音声認識装置に於いては、認
識しようとする話者の音声パターンが参照バタニンメモ
リ手段（４）のＲＯＭ（４１）に予め格納されている不
特定話者を対象とした標準的な音声の代表的な３種類の
音声パターンのいずれにも属さない特異なものの場合に
、これを補なうべく登録モードにてＲＡＭ（４２）にこ
の話者め必要な音声パターンを格納する事となる。従っ
て、この話者の音声認識については主にＲＡＭ（４３の
音声パターンが判定対象に供せられ、高い認識率が得ら
れるのである。父、一般的な音質の話者の音声認識につ
いては、主にＲＯＭ（４１１に予め用意された音声パタ
ーンが判定対象に供せられるのである。

斯様な音声認識装置は基本的には不特定話者を対象とし
ているので、従来実用化されている特定話者専用の装置
と異なり、認識させようとする話者１人１人全てについ
て登録処理を行なう必要がなく、特に特異な音質の音声
の持ち主のみについてだけ登録処理を行なえば良く、一
般的な音声の持ち主について（１７１この登録処理は必
要ないのである。

以上の説明に於いては、ＲＡ　Ｍ　ｆ４３に特定の話者
の１人分の音声パターンを格納する場合を例示したが、
オペレータとして不特定話者を対象としながら、例えば
３人の特定話者が主たるオペレータとなる音声入力機器
例えば音声入力ワードプロセッサの入力部を構成する音
声ｇ識装置に於いては、Ｒ，ＡＭ（４３に３人分の音声
パターンを格納できる構成とすればよい。父、この主た
るオペレータが変更された時には、新たなオペレータに
ついてのみ登録処理を行ないＲＡＭ（４２の音声パター
ンを書き換える事もできる。

（ト）発明の効果本発明音声認識装置は以上の説明から明らかな如く、入
力音声パターンを、不特定話者用の音声パターンが格納
されたＲＯＭと特定話者用の音声パターンが格納された
ＲＡＭとからなる参照パターンメモリ手段の全ての音声
パターンを比較参照の対象としてパターン認識するもの
であるので、必要に応じてＲＡＭに特異な音質の話者の
音声パターンを格納する事に依って、この特異な音質の
特定話者の音声に対しても一般的な音質の不特定゛話者
と同様に高い認識率で音声認識を行う事ができる。

【図面の簡単な説明】

ち′＜１図は本発明の音声認識装置の一実施例を示すブ
ロック図、第２図は本発明装置ＩＣ係るメモリ図である
。

Claims

【特許請求の範囲】１）標準的な音声パターンが格納されたＲＯＭと特定の
話者の音声パターンを格納可能なＲＡＭとからなる参照
パターンメモリ手段を備え、音声の登録時には、入力さ
れた話者の音声を分析して得た音声パターンを上記参照
パターンメモリ手段のＲＡＭに格納し、音声の認識時には、入力された話者の音声を分析して得
た音声パターンを上記参照パターンメモリ手段のＲＯＭ
とＲＡＭの両方の音声パターンに基づいてパターン認識
する事を特徴とした音声認識装置。