JPS6170594A

JPS6170594A - 不特定話者音声認識方法

Info

Publication number: JPS6170594A
Application number: JP59191714A
Authority: JP
Inventors: 俊宏木村; 高村　桂一
Original assignee: Hitachi Electronics Engineering Co Ltd
Current assignee: Hitachi High Tech Corp
Priority date: 1984-09-14
Filing date: 1984-09-14
Publication date: 1986-04-11

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は、不特定話者の音声を認識対象とした音声認
識方法に関し、特に認識率を高めるようにしたものに関
する。

〔従来の技術〕

マン・マシン・インターフェース改善の一つとして、単
語ごと（こ区切って発音した音声を認識対象とする音声
認識装置が近年実用化の域に達している。このような音
声認識装置には、特定話者の音声を認識対象とするもの
及び不特定話者の音声を認識対象とするものがある。こ
のうち特定話者の音声を認識対象とする音声認識装置で
は、あらかじめ所定の語粟に関して登録した特定者の音
声と該特定話者からの入力音声のマツチングを行うこと
により、高い認識率で音声認識を行うことが可能となっ
ている。

これに対し、不特定話者の音声を認識対象とする音声認
識装置には、所定の語粟に関し、性別、年齢等の相違に
基づく音声の特性の相違に応じて複数組の標準パターン
が具えられている。すなわち、銀行のキャッシュカード
・サービスを例にとれば、暗証番号、金額等を表わす数
字や「引出し、照合」のような申込語等に夫々対応する
音声スペクトルの標準パターンを含んだ１組の標準パタ
ーンが、女性の高い音声、男性の低い音声といったよう
に類型化された複数種類の音声の各々に対応（しＣ１″
″′ず０（すなわち合計で複数粗分）具えられているの
である。

このような不特定話者の音声を対象とする音声認識装置
は、不特定話者から音声信号が入力されると、該音声信
号をスペクトル分析してそのスペクトルデータを求め、
該スペクトルデータと所定の語禽に関する前記複数組の
標準パターンの全てとの比較演算を逐次行う。そして全
ての標準パターンの中から入力音声信号のスペクトルに
対する類似度の最も高い標準パターンを選択し、選択さ
れた標準パターンに対応する語（前述の例でいえば「６
２５７」のような暗証番号又は「照会」のような申込語
）を示すデータを音声認識データ（入力音声から認識し
た語を示すデータ）として出力する。

〔発明が解決しようとする問題点〕

しかし、成る特定の語を成る特定の種類の音声で発音し
た場合のスペクトルと他の語を他の種類の音声で発音し
た場合のスペクトルとは類似していることがあるので、
上述のように複数組の標準パターンの全てを用いて入力
音声信号のスペクトルの比較演算を行う場合には、前記
特定の語と他の語とを誤認識してしまうことがあった。

−例を示せば、女性の高い声の「ア」のスペクトルは男
性の低い声の「オＪのスペクトルと類似しているので、
高い声の持主である女性が「アリ」という音声を入力し
たときには、「ア」の音声スペクトルに対する類似度の
最も高い標準パターンとして、低い男性の音声に対応す
る１組の標準パターンの中の「オ」に対応する標準パタ
ーンが選択され、「オリ」という語を示すデータが音声
認識データとして出力されてしまう、といった具合であ
る。

このため、上述のような方法を用いては、不特定話者か
ら入力される音声を正確に認識することができないとい
う問題があった。

この発明は上述の点に鑑みてなされたもので、不特定話
者から入力される音声を正確に認識することができるよ
うにした音声認識方法に関する。

ｒ問題点を解決するための手段及び作用〕所定の多数の
語に関する複数組の第１の標準パターン群とは別途に、
成る認識率の高い特定語に関する第２の標準パターンを
、性別、年齢等の各種特性に応じた分類項目に対応して
、複数組具えている。この発明においては、まず最初に
音声入力しようとする不特定話者に対してこの特定語を
音声入力させる。そしてそのスペクトルデータを求め、
特定語に関する複数組の第２の標準パターンの中から該
スペクトルデータに対する類似度の最も高い標準パター
ンを選択し、これにより不特定話者の音声特性に最も近
い分類項目を選択する。

特定語としては、誤認識を生じないように認識率の高い
ものが選択されるので、不特定話者の音声の特性に最も
類似した分類項目の選択は、誤まりなく行うことができ
る。

次に、所定の多数の語に関する前記複数組の第１の標準
パターン群の中から、このようにして判断された不特定
話者の音声の特性に最も適合した分類項目に対応する１
組の第１の標準パターン群を選択し、その後該不特定話
者から入力される音声についてはこの１組の第１の標準
パターン群のみを用いて比較を行う。これにより、各不
特定話者に最も適合した標準パターン群を使用して入力
音声の認識を行うことができるので、複数組の標準パタ
ーン群を全て用いて比較を行う場合に生じうる前述のよ
うな誤認識を生ずるおそれがない。

〔実施例〕

以下、添付図面を参照しながらこの発明の一実施例を詳
細に説明しよう。

第１図は、この発明に係る不特定話者音声認識方法を実
施する場合に使用する音声認識装置の一実施例を示すも
ので、この音声認識装置には、音声検出部１、音声分析
特徴抽出部２、比較演算部３、判定部４、標準パターン
メモリ５及び６、分類項目選択パラメータ発生部７が含
まれている。

比較演算部３、判定部４、標準パターンメモリ５及び６
、分類項目選択パラメータ発生部７は全て１台のマイク
ロコンピュータ８に内蔵されるものである。

音声検出部１は、入力された全ての信号のなかから、例
えば一定時間（約０．３秒）以上一定しベ１　　　　　
　ル未溝の値を維持した範囲以外の範囲の信号を検出す
るものである。一般に、音声を入力する際には、話者の
周囲の騒音等の不必要なノイズが併せて入力されてしま
うのが通常である。該検出部１は、例示したような方法
により音声信号とそれ以外のノイズに対応する信号との
判別を行い、入力された全ての信号の中から音声信号の
みを検出する役割を果たす。該検出部１によって検出さ
れた音声信号は、音声分析特徴抽出部２に与えられる。

音声分析特徴抽出部２は、与えられた音声信号をスペク
トル分析等の方法により逐次分析するとともに、分析の
結果得られたスペクトルデータをサンプリングして音声
信号の特徴を抽出するものである。サンプリングされた
スペクトルデータは、マイクロコンピュータ８内の比較
演算部６に逐次与えられる。

比較演算部３は、与えられたスペクトルデータと、あら
かじめ記憶されな標準パターンとの比較演算を逐次行う
ものであるＪこの発明によれば、前記標準パターンを記憶するための
記憶手段として、標準パターンメモリ５及び６が設けら
れている。メモリ５は、所定の語を音声入力しようとす
る不特定話者に最初に音声入力してもらうべき特定語（
例えば２桁程度のなるべく認識率の高い数字）について
、男女別、老若側、方言等各種特性に応じた分類項目（
例えば約１００種類の分類項目）に対応して第２の標準
パターンを夫々記憶するものである。またメモリ６は、
所定の多数の語すなわち本来入力されるべきデータ群（
例えば列車の座席予約に用いるのであれば、日付、列車
名、駅名、グリーン車か普通車かの区別、人数等）に関
する１組の第１の標準パターン群を、前記各種分類項目
毎に複数脂分（前述の例でいえば約１００組分）記憶す
るものである。

ここで比較演算部３では、第２図に示すようなプロクラ
ムに従い、メモリ５内の複数組の第２の標準パターン、
またはメモリ６内の複数組の第１の標準パターン群の中
から選択された成る１組の標準パターン群を用いてスペ
クトルデータの比較演算を行う。比較演算の結果を示す
信号は、判定部４に与えられる。

判定部４は、与えられた前記信号に基づき、比較演算部
３において用いられた標準パターンの中から、前記スペ
クトルデータに対する類似度の最も高いものを選択する
ものである。すなわち、比較演算部３においてメモリ５
内の複数組の第２の標準パターンが用いられた場合には
、判定部４は、複数組の第２の標準パターン内の各分類
項目に対応する標準パターンの中から前記スペクトルデ
ータに対する類似度が最も高い１組の標準パターンを選
択する。また、比較演算部３においてメモリ６内の複数
組の第１の標準パターン群の中から選択された成る１組
の標準パターン群が用いられた場合には、判定部４は、
その１組の標準パターン群内の各語についての標準パタ
ーンの中から、前記スペクトルデータに対する類似度が
最も高い標準パターンを選択する。

ここで、比較演算部６においてメモリ５内の第２の標準
パターンが用いられた場合には、第２図のプログラムに
従い、選択された１組の標準パターンを示す信号は判定
部４から分類項目選択パラメータ発生部７に与えられる
。パラメータ発生部７は、該信号に基づき、判定部４に
よって選択された分類項目に対応する１組の第１の標準
パターン群を読出すためのアドレス信号をメモリ６に与
える。メモリ６からは、アドレス入力された分類項目に
対応する１組の第１の標準パターン群が読出されて比較
演算部６に与えられる。

また、比較演算部３において、メモリ６から読出した１
組の第１の標準パターン群が用いられた場合には、最も
類似度の高い標準パターンに対応する語を表わすデータ
が、音声認識データとして出力され、図示しないホスト
コンピュータに与えられる。

次に、第１図の音声認識装置を用いて実施されるこの発
明の不特定話者音声認識方法の一例を、第２図を参照し
ながら説明しよう。

成る人物が、この不特定話者音声認識装置を用いたサー
ビス（例えば列車の座席予約サービス等）を受けよう６
して、端末側（例えば電話等）か（ら″ター側（例えば
予約佇ター等）を呼出したとき、センター側は、まず成
る特定語（例えば「５７（ゴナナ）」のような２桁の数
字等）を音声入力すべき旨の指示信号を、端末側の該人
物及びこの音声認識装置のマイクロコンピュータ８に与
える。該人物がこの指示に従ったとすれば、この音声認
識装置の音声検出部１には、この音声「５７（コナナ）
」の音声信号がノイズとともに入力される。音声検出部
１は、ノイズを含んだ全ての入力信号の中からこの音声
信号を検出し、音声分析特徴抽出部２に与える。音声分
析特徴抽出部２は、この音声信号のスペクトル分析及び
サンプリングを行い、該音声信号の特徴を抽出したスペ
クトルデータをマイクロコンピュータ８に与える。

マイクロコンピュータ８は、第２図に略示するようなプ
ログラムを実行するものであり、前記指令信号がセンタ
ー側から入力されることによりステップ９においてＹＥ
Ｓと判断し、ステップ１０に進む。ステップ１０は比較
演算部３及び判定部４の機能に相当するものである。ス
テップ１ｏでは、前記スペクトルデータと前記特定語「
５７（ゴナナ）」についてメモリ５に記憶されている複
数組の第２の標準パターンとの比較演算を逐次行うさと
もに、複数組の第２の標準パターンの中から、前記スペ
クトルデータに対する類似度の最も大きい１組の標準パ
ターン（例えば年輩の男性の東北なまりのあるテノール
系の音声に対応する標準パターン）の選択を行う。ステ
ップ１０が終了するとともにステップ１１に進む。

ステップ１１は分類項目選択パラメータ発生部７の機能
に相当するものである。ステップ１１では、ステップ１
０で選択された１組の第２の標準パターンに対応する分
類項目と同一の分類項目（前述の例でいえば年輩の男性
の東北なまりのあるテノール系の音声）に対応する１組
の第１の標準パターン群を選択するためのパターン群選
択アドレス信号をメモリ６に与える。メモリ６は、複数
組の第１の標準パターン群のうち、アドレス入力された
前記分類項目ｔζ対応する１組の第１の標準パターン群
を選択的に読み出し得る状態に設定される。

上記の過程を終了すると、センター側は、必要なデータ
群（例えば日付、列車名、駅名、グリーン車か普通車か
の区別、人数等）を順次音声入力すべき旨の指示信号を
、端末側の前記人物及びマイクロコンピュータ８に与え
る。

マイクロコンピュータ８は、この指示信号を受取ると、
ステップ１２においてＹＥＳと判断し、ステップ１３に
進む。ステップ１３は、比較演算部３及び判定部４の機
能に相当するものである。

端末側の人物が指示信号に従い、成る一定のデータ群（
例えば、９月１日、あおば１７２号、盛岡。

グリーン、２人）を音声入力したとすれば、今度は該デ
ータ群に対応した各音声信号のスペクトルデータが、前
述と同様にして音声検出部１及び音声分析特徴検出部２
を経て順次マイクロコンピュータ８に与えられる。ステ
ップ１３では、メモリ６内の複数組の第１の標準パター
ン群のうち前記ステップ１１で選択された１組の標準パ
ターン群（例えば年輩の男性の東北なまりのあるテノー
ル系の音声についての１組の標準パターン群）力）ら各
標準パターンを順次読み出し、これらの標準パターンと
入力された音声信号のスペクトルデータとの比較演算を
逐次行い、これに基づき、前記ｌ組の第１の標準パター
ン群の中から、前記入力音声のスペクトルデータに対す
る類似度の最も大きい標準パターンを選択する。

続いてステップ１４では、選択した各標準パターンに夫
々対応する語（９月１日、あおば１７２号。

盛岡、グリーン、２人）を示すデータを音声認識データ
として出力し、ホストコンピュータに与える。このステ
ップ１３及び１４が、音声入力が終了するまで繰返され
る。ホストコンピュータでは、この音声認識データに基
づき、座席予約サービスに関する処理が行われる。

このように、不特定話者に最初に認識率の高い特定語を
音声入力させることによって該不特定話者の声の特性に
最も近い分類項目を選択し、その後膣不特定話者から入
力される音声信号に対しては、この最も特性の近い分類
項目に対応する標準Ａ　　　　　パターン群を用いて音
声認識が行われていく。

〔発明の効果〕

以上のとおり、この発明に係る不特定話者音声認識方法
によれば、各不特定話者の音声の特性に最も適合した標
準パターン群を使用して夫々の不特定話者から入力され
る音声の認識を行うことができるので、不特定話者の音
声認識を高い認識率で正確に行うことが可能である。

【図面の簡単な説明】

第１図は、この発明に係る不特定話者音声認識方法を実
施する場合に用いる音声認識装置の一実施例を示す概略
ブロック図、第２図は、該実施例においてマイクロコン
ビエータが実行するプロクラムを略示するフローチャー
トである。１・・音声検出部、２・・音声分析特徴抽出部、３・比
較演算部、４・・判定部、５，６・標準パターンメモリ
、７・・・分類項目選択パラメータ発生部、８　マイク
ロコンピュータ。

Claims

【特許請求の範囲】入力された音声信号と多数の語に関する標準パターンと
の比較にもとづき入力音声の内容を認識する音声認識装
置を用いて不特定話者の音声認識を行う方法であって、所定の多数の語に関する第１の標準パターン群を話者の
性別、年齢等の各種特性に応じた分類項目に対応して複
数組予め準備すること、認識率の高い特定語に関する第２の標準パターンを前記
分類項目に対応して複数組予め準備すること、音声入力しようとする不特定話者に対して最初に前記特
定語を音声入力させること、入力された前記特定語の音声信号と前記第２の標準パタ
ーンとを比較し、これにもとづき前記不特定話者の特性
に最も近い前記分類項目を選択すること、前記複数組の第１の標準パターン群の中から前記選択さ
れた分類項目に対応する１組の標準パターン群を選択し
、その後前記不特定話者によって入力される音声信号と
の比較においてこの選択された１組の標準パターン群を
用いること、から成ることを特徴とする不特定話者音声認識方法。