JPS6170594A - 不特定話者音声認識方法 - Google Patents

不特定話者音声認識方法

Info

Publication number
JPS6170594A
JPS6170594A JP59191714A JP19171484A JPS6170594A JP S6170594 A JPS6170594 A JP S6170594A JP 59191714 A JP59191714 A JP 59191714A JP 19171484 A JP19171484 A JP 19171484A JP S6170594 A JPS6170594 A JP S6170594A
Authority
JP
Japan
Prior art keywords
standard pattern
input
voice
standard
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59191714A
Other languages
English (en)
Inventor
俊宏 木村
高村 桂一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi High Tech Corp
Original Assignee
Hitachi Electronics Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Electronics Engineering Co Ltd filed Critical Hitachi Electronics Engineering Co Ltd
Priority to JP59191714A priority Critical patent/JPS6170594A/ja
Publication of JPS6170594A publication Critical patent/JPS6170594A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、不特定話者の音声を認識対象とした音声認
識方法に関し、特に認識率を高めるようにしたものに関
する。
〔従来の技術〕
マン・マシン・インターフェース改善の一つとして、単
語ごと(こ区切って発音した音声を認識対象とする音声
認識装置が近年実用化の域に達している。このような音
声認識装置には、特定話者の音声を認識対象とするもの
及び不特定話者の音声を認識対象とするものがある。こ
のうち特定話者の音声を認識対象とする音声認識装置で
は、あらかじめ所定の語粟に関して登録した特定者の音
声と該特定話者からの入力音声のマツチングを行うこと
により、高い認識率で音声認識を行うことが可能となっ
ている。
これに対し、不特定話者の音声を認識対象とする音声認
識装置には、所定の語粟に関し、性別、年齢等の相違に
基づく音声の特性の相違に応じて複数組の標準パターン
が具えられている。すなわち、銀行のキャッシュカード
・サービスを例にとれば、暗証番号、金額等を表わす数
字や「引出し、照合」のような申込語等に夫々対応する
音声スペクトルの標準パターンを含んだ1組の標準パタ
ーンが、女性の高い音声、男性の低い音声といったよう
に類型化された複数種類の音声の各々に対応(しC1″
″′ず0(すなわち合計で複数粗分)具えられているの
である。
このような不特定話者の音声を対象とする音声認識装置
は、不特定話者から音声信号が入力されると、該音声信
号をスペクトル分析してそのスペクトルデータを求め、
該スペクトルデータと所定の語禽に関する前記複数組の
標準パターンの全てとの比較演算を逐次行う。そして全
ての標準パターンの中から入力音声信号のスペクトルに
対する類似度の最も高い標準パターンを選択し、選択さ
れた標準パターンに対応する語(前述の例でいえば「6
257」のような暗証番号又は「照会」のような申込語
)を示すデータを音声認識データ(入力音声から認識し
た語を示すデータ)として出力する。
〔発明が解決しようとする問題点〕
しかし、成る特定の語を成る特定の種類の音声で発音し
た場合のスペクトルと他の語を他の種類の音声で発音し
た場合のスペクトルとは類似していることがあるので、
上述のように複数組の標準パターンの全てを用いて入力
音声信号のスペクトルの比較演算を行う場合には、前記
特定の語と他の語とを誤認識してしまうことがあった。
−例を示せば、女性の高い声の「ア」のスペクトルは男
性の低い声の「オJのスペクトルと類似しているので、
高い声の持主である女性が「アリ」という音声を入力し
たときには、「ア」の音声スペクトルに対する類似度の
最も高い標準パターンとして、低い男性の音声に対応す
る1組の標準パターンの中の「オ」に対応する標準パタ
ーンが選択され、「オリ」という語を示すデータが音声
認識データとして出力されてしまう、といった具合であ
る。
このため、上述のような方法を用いては、不特定話者か
ら入力される音声を正確に認識することができないとい
う問題があった。
この発明は上述の点に鑑みてなされたもので、不特定話
者から入力される音声を正確に認識することができるよ
うにした音声認識方法に関する。
r問題点を解決するための手段及び作用〕所定の多数の
語に関する複数組の第1の標準パターン群とは別途に、
成る認識率の高い特定語に関する第2の標準パターンを
、性別、年齢等の各種特性に応じた分類項目に対応して
、複数組具えている。この発明においては、まず最初に
音声入力しようとする不特定話者に対してこの特定語を
音声入力させる。そしてそのスペクトルデータを求め、
特定語に関する複数組の第2の標準パターンの中から該
スペクトルデータに対する類似度の最も高い標準パター
ンを選択し、これにより不特定話者の音声特性に最も近
い分類項目を選択する。
特定語としては、誤認識を生じないように認識率の高い
ものが選択されるので、不特定話者の音声の特性に最も
類似した分類項目の選択は、誤まりなく行うことができ
る。
次に、所定の多数の語に関する前記複数組の第1の標準
パターン群の中から、このようにして判断された不特定
話者の音声の特性に最も適合した分類項目に対応する1
組の第1の標準パターン群を選択し、その後該不特定話
者から入力される音声についてはこの1組の第1の標準
パターン群のみを用いて比較を行う。これにより、各不
特定話者に最も適合した標準パターン群を使用して入力
音声の認識を行うことができるので、複数組の標準パタ
ーン群を全て用いて比較を行う場合に生じうる前述のよ
うな誤認識を生ずるおそれがない。
〔実施例〕
以下、添付図面を参照しながらこの発明の一実施例を詳
細に説明しよう。
第1図は、この発明に係る不特定話者音声認識方法を実
施する場合に使用する音声認識装置の一実施例を示すも
ので、この音声認識装置には、音声検出部1、音声分析
特徴抽出部2、比較演算部3、判定部4、標準パターン
メモリ5及び6、分類項目選択パラメータ発生部7が含
まれている。
比較演算部3、判定部4、標準パターンメモリ5及び6
、分類項目選択パラメータ発生部7は全て1台のマイク
ロコンピュータ8に内蔵されるものである。
音声検出部1は、入力された全ての信号のなかから、例
えば一定時間(約0.3秒)以上一定しベ1     
 ル未溝の値を維持した範囲以外の範囲の信号を検出す
るものである。一般に、音声を入力する際には、話者の
周囲の騒音等の不必要なノイズが併せて入力されてしま
うのが通常である。該検出部1は、例示したような方法
により音声信号とそれ以外のノイズに対応する信号との
判別を行い、入力された全ての信号の中から音声信号の
みを検出する役割を果たす。該検出部1によって検出さ
れた音声信号は、音声分析特徴抽出部2に与えられる。
音声分析特徴抽出部2は、与えられた音声信号をスペク
トル分析等の方法により逐次分析するとともに、分析の
結果得られたスペクトルデータをサンプリングして音声
信号の特徴を抽出するものである。サンプリングされた
スペクトルデータは、マイクロコンピュータ8内の比較
演算部6に逐次与えられる。
比較演算部3は、与えられたスペクトルデータと、あら
かじめ記憶されな標準パターンとの比較演算を逐次行う
ものであるJ この発明によれば、前記標準パターンを記憶するための
記憶手段として、標準パターンメモリ5及び6が設けら
れている。メモリ5は、所定の語を音声入力しようとす
る不特定話者に最初に音声入力してもらうべき特定語(
例えば2桁程度のなるべく認識率の高い数字)について
、男女別、老若側、方言等各種特性に応じた分類項目(
例えば約100種類の分類項目)に対応して第2の標準
パターンを夫々記憶するものである。またメモリ6は、
所定の多数の語すなわち本来入力されるべきデータ群(
例えば列車の座席予約に用いるのであれば、日付、列車
名、駅名、グリーン車か普通車かの区別、人数等)に関
する1組の第1の標準パターン群を、前記各種分類項目
毎に複数脂分(前述の例でいえば約100組分)記憶す
るものである。
ここで比較演算部3では、第2図に示すようなプロクラ
ムに従い、メモリ5内の複数組の第2の標準パターン、
またはメモリ6内の複数組の第1の標準パターン群の中
から選択された成る1組の標準パターン群を用いてスペ
クトルデータの比較演算を行う。比較演算の結果を示す
信号は、判定部4に与えられる。
判定部4は、与えられた前記信号に基づき、比較演算部
3において用いられた標準パターンの中から、前記スペ
クトルデータに対する類似度の最も高いものを選択する
ものである。すなわち、比較演算部3においてメモリ5
内の複数組の第2の標準パターンが用いられた場合には
、判定部4は、複数組の第2の標準パターン内の各分類
項目に対応する標準パターンの中から前記スペクトルデ
ータに対する類似度が最も高い1組の標準パターンを選
択する。また、比較演算部3においてメモリ6内の複数
組の第1の標準パターン群の中から選択された成る1組
の標準パターン群が用いられた場合には、判定部4は、
その1組の標準パターン群内の各語についての標準パタ
ーンの中から、前記スペクトルデータに対する類似度が
最も高い標準パターンを選択する。
ここで、比較演算部6においてメモリ5内の第2の標準
パターンが用いられた場合には、第2図のプログラムに
従い、選択された1組の標準パターンを示す信号は判定
部4から分類項目選択パラメータ発生部7に与えられる
。パラメータ発生部7は、該信号に基づき、判定部4に
よって選択された分類項目に対応する1組の第1の標準
パターン群を読出すためのアドレス信号をメモリ6に与
える。メモリ6からは、アドレス入力された分類項目に
対応する1組の第1の標準パターン群が読出されて比較
演算部6に与えられる。
また、比較演算部3において、メモリ6から読出した1
組の第1の標準パターン群が用いられた場合には、最も
類似度の高い標準パターンに対応する語を表わすデータ
が、音声認識データとして出力され、図示しないホスト
コンピュータに与えられる。
次に、第1図の音声認識装置を用いて実施されるこの発
明の不特定話者音声認識方法の一例を、第2図を参照し
ながら説明しよう。
成る人物が、この不特定話者音声認識装置を用いたサー
ビス(例えば列車の座席予約サービス等)を受けよう6
して、端末側(例えば電話等)か(ら″ター側(例えば
予約佇ター等)を呼出したとき、センター側は、まず成
る特定語(例えば「57(ゴナナ)」のような2桁の数
字等)を音声入力すべき旨の指示信号を、端末側の該人
物及びこの音声認識装置のマイクロコンピュータ8に与
える。該人物がこの指示に従ったとすれば、この音声認
識装置の音声検出部1には、この音声「57(コナナ)
」の音声信号がノイズとともに入力される。音声検出部
1は、ノイズを含んだ全ての入力信号の中からこの音声
信号を検出し、音声分析特徴抽出部2に与える。音声分
析特徴抽出部2は、この音声信号のスペクトル分析及び
サンプリングを行い、該音声信号の特徴を抽出したスペ
クトルデータをマイクロコンピュータ8に与える。
マイクロコンピュータ8は、第2図に略示するようなプ
ログラムを実行するものであり、前記指令信号がセンタ
ー側から入力されることによりステップ9においてYE
Sと判断し、ステップ10に進む。ステップ10は比較
演算部3及び判定部4の機能に相当するものである。ス
テップ1oでは、前記スペクトルデータと前記特定語「
57(ゴナナ)」についてメモリ5に記憶されている複
数組の第2の標準パターンとの比較演算を逐次行うさと
もに、複数組の第2の標準パターンの中から、前記スペ
クトルデータに対する類似度の最も大きい1組の標準パ
ターン(例えば年輩の男性の東北なまりのあるテノール
系の音声に対応する標準パターン)の選択を行う。ステ
ップ10が終了するとともにステップ11に進む。
ステップ11は分類項目選択パラメータ発生部7の機能
に相当するものである。ステップ11では、ステップ1
0で選択された1組の第2の標準パターンに対応する分
類項目と同一の分類項目(前述の例でいえば年輩の男性
の東北なまりのあるテノール系の音声)に対応する1組
の第1の標準パターン群を選択するためのパターン群選
択アドレス信号をメモリ6に与える。メモリ6は、複数
組の第1の標準パターン群のうち、アドレス入力された
前記分類項目tζ対応する1組の第1の標準パターン群
を選択的に読み出し得る状態に設定される。
上記の過程を終了すると、センター側は、必要なデータ
群(例えば日付、列車名、駅名、グリーン車か普通車か
の区別、人数等)を順次音声入力すべき旨の指示信号を
、端末側の前記人物及びマイクロコンピュータ8に与え
る。
マイクロコンピュータ8は、この指示信号を受取ると、
ステップ12においてYESと判断し、ステップ13に
進む。ステップ13は、比較演算部3及び判定部4の機
能に相当するものである。
端末側の人物が指示信号に従い、成る一定のデータ群(
例えば、9月1日、あおば172号、盛岡。
グリーン、2人)を音声入力したとすれば、今度は該デ
ータ群に対応した各音声信号のスペクトルデータが、前
述と同様にして音声検出部1及び音声分析特徴検出部2
を経て順次マイクロコンピュータ8に与えられる。ステ
ップ13では、メモリ6内の複数組の第1の標準パター
ン群のうち前記ステップ11で選択された1組の標準パ
ターン群(例えば年輩の男性の東北なまりのあるテノー
ル系の音声についての1組の標準パターン群)力)ら各
標準パターンを順次読み出し、これらの標準パターンと
入力された音声信号のスペクトルデータとの比較演算を
逐次行い、これに基づき、前記l組の第1の標準パター
ン群の中から、前記入力音声のスペクトルデータに対す
る類似度の最も大きい標準パターンを選択する。
続いてステップ14では、選択した各標準パターンに夫
々対応する語(9月1日、あおば172号。
盛岡、グリーン、2人)を示すデータを音声認識データ
として出力し、ホストコンピュータに与える。このステ
ップ13及び14が、音声入力が終了するまで繰返され
る。ホストコンピュータでは、この音声認識データに基
づき、座席予約サービスに関する処理が行われる。
このように、不特定話者に最初に認識率の高い特定語を
音声入力させることによって該不特定話者の声の特性に
最も近い分類項目を選択し、その後膣不特定話者から入
力される音声信号に対しては、この最も特性の近い分類
項目に対応する標準A     パターン群を用いて音
声認識が行われていく。
〔発明の効果〕
以上のとおり、この発明に係る不特定話者音声認識方法
によれば、各不特定話者の音声の特性に最も適合した標
準パターン群を使用して夫々の不特定話者から入力され
る音声の認識を行うことができるので、不特定話者の音
声認識を高い認識率で正確に行うことが可能である。
【図面の簡単な説明】
第1図は、この発明に係る不特定話者音声認識方法を実
施する場合に用いる音声認識装置の一実施例を示す概略
ブロック図、第2図は、該実施例においてマイクロコン
ビエータが実行するプロクラムを略示するフローチャー
トである。 1・・音声検出部、2・・音声分析特徴抽出部、3・比
較演算部、4・・判定部、5,6・標準パターンメモリ
、7・・・分類項目選択パラメータ発生部、8 マイク
ロコンピュータ。

Claims (1)

  1. 【特許請求の範囲】 入力された音声信号と多数の語に関する標準パターンと
    の比較にもとづき入力音声の内容を認識する音声認識装
    置を用いて不特定話者の音声認識を行う方法であって、 所定の多数の語に関する第1の標準パターン群を話者の
    性別、年齢等の各種特性に応じた分類項目に対応して複
    数組予め準備すること、 認識率の高い特定語に関する第2の標準パターンを前記
    分類項目に対応して複数組予め準備すること、 音声入力しようとする不特定話者に対して最初に前記特
    定語を音声入力させること、 入力された前記特定語の音声信号と前記第2の標準パタ
    ーンとを比較し、これにもとづき前記不特定話者の特性
    に最も近い前記分類項目を選択すること、 前記複数組の第1の標準パターン群の中から前記選択さ
    れた分類項目に対応する1組の標準パターン群を選択し
    、その後前記不特定話者によって入力される音声信号と
    の比較においてこの選択された1組の標準パターン群を
    用いること、 から成ることを特徴とする不特定話者音声認識方法。
JP59191714A 1984-09-14 1984-09-14 不特定話者音声認識方法 Pending JPS6170594A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59191714A JPS6170594A (ja) 1984-09-14 1984-09-14 不特定話者音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59191714A JPS6170594A (ja) 1984-09-14 1984-09-14 不特定話者音声認識方法

Publications (1)

Publication Number Publication Date
JPS6170594A true JPS6170594A (ja) 1986-04-11

Family

ID=16279253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59191714A Pending JPS6170594A (ja) 1984-09-14 1984-09-14 不特定話者音声認識方法

Country Status (1)

Country Link
JP (1) JPS6170594A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282292A (ja) * 1993-03-26 1994-10-07 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識方式
US6446039B1 (en) 1998-09-08 2002-09-03 Seiko Epson Corporation Speech recognition method, speech recognition device, and recording medium on which is recorded a speech recognition processing program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06282292A (ja) * 1993-03-26 1994-10-07 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識方式
US6446039B1 (en) 1998-09-08 2002-09-03 Seiko Epson Corporation Speech recognition method, speech recognition device, and recording medium on which is recorded a speech recognition processing program

Similar Documents

Publication Publication Date Title
US6401063B1 (en) Method and apparatus for use in speaker verification
US7447632B2 (en) Voice authentication system
JP4672003B2 (ja) 音声認証システム
JPS5944639B2 (ja) 音声による異同認識方式における標準パタ−ン更新方法
JPH0354600A (ja) 不明人物の同一性検証方法
Sanderson et al. Noise compensation in a person verification system using face and multiple speech features
JPS6217240B2 (ja)
JPH06175680A (ja) 最も近い隣接距離を使用した発声者確認装置
JPH0345417B2 (ja)
Pandit et al. Feature selection for a DTW-based speaker verification system
JPH11507443A (ja) 話者確認システム
JPH1083194A (ja) 話し手照合システムのための2段階群選択方法
JPS62217295A (ja) 音声認識方式
US4910782A (en) Speaker verification system
GB2237135A (en) Speaker recognition
JPS6170594A (ja) 不特定話者音声認識方法
JP2002501637A (ja) 前選択と棄却クラスによる確実な識別
JP2001350494A (ja) 照合装置及び照合方法
JPS61180297A (ja) 話者照合装置
JP3514481B2 (ja) 音声認識装置
Tahir et al. Extracting accent information from Urdu speech for forensic speaker recognition
JP3808732B2 (ja) 音声認識方法及びそのシステム
Dutta et al. Improved Processing of LP-residual Information for Detection of Replay Signals
JPS63798B2 (ja)
JPS62275300A (ja) 連続音声認識方法