JPS61147298A

JPS61147298A - 音声認識制御方式

Info

Publication number: JPS61147298A
Application number: JP59269203A
Authority: JP
Inventors: 山口　祐嗣
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1984-12-20
Filing date: 1984-12-20
Publication date: 1986-07-04

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声認識制御方式に関するものである。

従来の不特定話者認識方式の音声認識制御装置では特定
話者の発する特定言語に対する認識率が悪く、此の改善
が強く要望されていた。

〔従来の技術〕

音声認識は専用ＬＳＩの開発が進め、実用化が活発にな
って来たが、認、識率は９５％前後が多く、実用化の上
で一つの壁になっている。

認識語の数が数十語に限られた場合は不特定話者認識が
可能であるが、数百語と多くなると誤認識が増えるので
特定話者でないと実用出来ない。

前者の例は音声ダイヤルに、後者の例には音声タイプラ
イタ等に利用されている。

第２図は従来の音声認識装置の基本構成の一例を示す図
である。

図中、１は音声入力部、２は特徴抽出部、３は照合部、
４は出力部、５はパターン発生部、６は制御部である。

尚以下全図を通じ同一記号は同一対象物を表す。

音声入力部１はマイク等でとらえた音声のレヘルの調整
を主に行う。

’ｔＶ　徴抽出部２はバンドパスフィルタ、ＡＤコンバ
ータ等から構成され、音声入力部１から送られた音声を
バンドパスフィルタにより複数個の周波数成分に分解し
、一定周期毎に各周波数成分のレベルをサンプリングし
、△Ｄコンハークによりディジタル音声データに変換す
る。

照合部３は特徴抽出部２から送られたディジクル音声デ
ータとパターン発生部５に於いて発生した標【１１°パ
ターンを比較照合し、判定基準に合格したものを出力部
４へ送り、出力部４は此れを例えばＣＲＴの画面」二に
表示したり、或いは他装置へ情報転送する等の動作を行
う。制御部６ば以」二説明した各種制御動作を行って音
声認識装置としての機能を果たしている。

特定話者認識とは前記パターン発生部５に特定の話者の
音声パターンを予め登録しておく方式で、不特定話者認
識ーンを格納しておく方式であり、装置使用に当たり話者
の音声登録４；ｌ：行ねない。

特定話者認識の場合は登録した話者に対する認識率は高
＜（９８％以上）なるが、登録してない他の話者に対す
る認識率は低下し、又予め登録すると云う煩わしさがあ
り、不特定話者認識の場合は前述した様に其の認識率は
９５％前後となるのが普通である。

〔発明が解決しようとする問題点〕

本発明の目的は上記従来方式の欠点を除去し、大多数の
語には標準パターンを使用し、装置の機能上或いは話者
の癖により認識率の低い詔には話者の音声パターンを登
録しておく特定話者認識を採用し、全体として認識率向
上を計った音声認識制御方式を提供することである。

〔問題点を解決するための手段〕

問題点を解決するだめの手段は、認識すべき音声を入力
する音声入力部、該音声波形の特徴を抽出する特徴抽出
部、該特徴の比較対象となるパターンを発生するパター
ン発生部、該パターン発生部の出力と該特徴を比較照合
する照合部、前記照合結果を外部に出力する出力部、及
び前記各部を制御する制御部から構成される音声認識装
置に於いて、前記パターン発生部を標準パターンを格納
するＲＯＭと、該標準パターンの一部を別のパターンと
直材可能となるように配置したＲＡＭにより構成し、該
特定言語の話者音声パターンを前記ＲＡＭに格納し、照
合動作時該特定言語の時にのみ前記ＲＡＭにアクセスす
ることにより達成される。

〔作用〕

本発明に依ると予め登録されている特定話者が発する特
定言語に対しては直材可能となるように配置したＲＡＭ
上に予め登録されているパターンを使用して照合するの
で認識率が大幅に向上すると云う効果が生まれる。

〔実施例〕

第１図は本発明に依るパターン発生部の一実施例を示す
図である。

図１１コ、７はＲＯＭ、８はＲＡＭである。

本発明に依るパターン発生部はＲＯＭ７とＲＡＭ８から
構成され、ＲＯＭ７には標準パターンを格納する。

第１図に於いては一例として数字の音声パターンを示す
。即ち、ＲＯＭ　７　、Ｊ−の第１ブロツクには「イチ
」、第２ブロツクには「二」、第３ブロツクには「ザン
」、第４ブロツクには「ヨン」、第５ブロツクには「ゴ
」、第６ブロソクには「ロク」、第７ブロソクには「シ
チ」、第８ブロツクには「ハチ」　・・・と格納する。

尚各ブロックは複数バイトのデータで構成される。

今数字の７を「ヒチ」と発音する話者ａがいたとすると
第７ブロソクのＲＯＭ７のデータとは一致しないので認
識不可能となる。

此の場合、ＲＯＭ７の第７ブロソクと置換可能な位置に
ＲＡＭ８を配置し、此処に「ヒチ」と云う話者ａのパタ
ーンと話者ａの登録を行う。

此の様に登録した話者が本装置を使用する場合には予め
登録話者ａであることを入力することにより、ＲＯＭ７
の第７ブロソクの照合データには置換可能なＲＡＭ８の
位置のデータを採用する様に制御部６が制御することに
よって認識率を向上させることが可能となる。

〔発明の効果〕

以」−詳細に説明した様に本発明によれば、大多数の語
には標準バクーンを使用し、装置の機能上或いは話者の
癖により認識率の低い語には話者の音声パターンを登録
しておく特定話者認識を採用し、全体として認識率向上
を計った音声認識制御方式を実現出来ると云う大きい効
果がある。

【図面の簡単な説明】

第１図は本発明に依るパターン発生部の一実施例を示す
図である。第２図は従来の音声認識装置の基本構成の一例を示す図
である。図中、１は音声入力部、２は特徴抽出部、３は照合部、
４は出力部、５はパターン発生部、６は制御部、７はＲ
ＯＭ、８ばＲＡＭである。榮　　１　図３△ ＊　　２　　図

Claims

【特許請求の範囲】

認識すべき音声を入力する音声入力部、該音声波形の特
徴を抽出する特徴抽出部、該特徴の比較対象となるパタ
ーンを発生するパターン発生部、該パターン発生部の出
力と該特徴を比較照合する照合部、前記照合結果を外部
に出力する出力部、及び前記各部を制御する制御部から
構成される音声認識装置に於いて、前記パターン発生部
を標準パターンを格納するＲＯＭと、該標準パターンの
一部を別のパターンと置替可能となるように配置したＲ
ＡＭにより構成し、該特定言語の話者音声パターンを前
記ＲＡＭに格納し、照合動作時該特定言語の時にのみ前
記ＲＡＭにアクセスすることを特徴とする音声認識制御
方式。