JPS6217240B2

JPS6217240B2 -

Info

Publication number: JPS6217240B2
Application number: JP52020394A
Authority: JP
Inventors: Gotsudofumaru Adobaani Jeraamu; Hosei Paganiini Buruuno; Joeru Heeru Uiriamu
Original assignee: NCR Corp
Current assignee: NCR Voyix Corp
Priority date: 1976-03-01
Filing date: 1977-02-28
Publication date: 1987-04-16
Also published as: US4053710A; CA1078066A; GB1532944A; DE2708569A1; FR2343292A1; JPS52106204A; FR2343292B1

Description

【発明の詳細な説明】この発明は音声認識の分野に関し、特に比較目
的のために選ばれ、計算された音声の不変モーメ
ントを利用して、予め発声し、記録されている選
ばれた音声に対して現在発声した同一話者の選ば
れた音声を比較することにより、話者の同一性を
検証又は認識するための方法と装置に関する。

金銭の前借を認めている取引、基金の転送、信
用貸の許可又は他の同様な業務上の取引は磁気的
に符号化された情報を持つクレジツト・カード又
は他の型式の証印を使用して、無人事務機械、例
えば自動金銭出納機のような端末機を顧客自身が
動作して行なう方向に指向している。その場合顧
客が実際にクレジツト・カードの正しい所有者で
あるか、又はその事務機械の使用が認められた者
であるかどうかを確証するため、使用する装置の
中に数々の安全装置が設けられている。現在使用
されている１型式のシステムは磁気的に符号化さ
れたクレジツト・カードで作動し、クレジツト・
カードに対する検証は、そのカードを発行したと
きにその顧客に割当てた秘密番号、すなわち端末
装置に入力する顧客キーによつて行なわれる。事
務装置は顧客が入力した秘密番号を、カード自身
に符号化されているが、又は中央コンピユータ・
システムに記憶されているそれに相当する数と比
較する。挿入された数と記録されている数とが一
致すると顧客は機械を動作することが許される。

他の先行するシステムは指紋の比較を利用し、
顧客が自己の指又は手をスキヤナの走査上に置
き、顧客の指紋を利用したキーの特徴を表わす信
号をスキヤナから発生させ、それと顧客が所持す
るクレジツト又はアクセス・カードに記録されて
いるキーの特長とによつてチエツクする。

特に興味ある型式のシステムとしては、顧客自
身の同一性を検証するために顧客の音声を使用す
るシステムである。先行するシステムは顧客に検
証語句を発声させ、それと予め記録されている標
準語句とを比較することによつて動作するものが
開発されている。標準語句はクレジツト・カード
又はシステムの中に記録することが可能である。

そのような方法において、検証の信頼性を確保
するために数々の方式が開発された。代表的な音
声認識システムの開示には次のようなものがあ
る。ジエイ・ダヴリユー・ジヨーンズ（J.W.
Jones）による米国特許第3509280号「アダプテ
イブ・スピーチ・パターン認識システム
（Adaptive Speech Pattern Recognition
System）」、エル・アール・ラナー（L.R.
Rabiner）他による米国特許第3649765号「改良
型ホーマツト・エクストラクタを使用したスピー
チ分析合成システム（Speech Analyzer−
Synthesizer System Employing Improved
Format Extractor）」、ジー・アール・ドデイン
グトン（G.R.Doddington）他による米国特許第
3700815号「音響パラメータの非直線性時間合わ
せによる自動音声検証（Automatic Speaker
Verification By Non−Linear Time Alignment
of Acoustic Parameters）」のほか、ブローデス
（Brodes）ほかによる米国特許第3812291号「信
号パターン符号化器と分類器（Signal Pattern
Encoder And Classifier）」及びサコエ
（Sakoe）ほかによる米国特許第3816722号「類似
コンピユータから成り、複パターン及びパターン
認識システム間の類似性を計算するコンピユータ
（Computer For Calculating The Similarity
Between Patterns And Pattern Recognition
System Comprising The Similarity
Computer）」などがある。技術の水準を表わす
興味ある刊行物としては、アメリカ音響学会誌第
40巻第５号1966年第966頁−第978頁（Journal of
the Acoustical Society of America Vol.40、No.
５、1966、PP.966−978）に掲載されたケー・ピ
ー・リー（K.P.Li）ほかによる「アダプテイブ・
システムを使用した音声検証の実験研究
（Experimental Studies In Speaker
Verification、Using An Adaptive System）」、
同じくアメリカ音響学会誌第46巻第４号（第２
部）1969年第1026頁−第1029頁に掲載されたジエ
イ・イー・ラツク（J.E.Luck）による「セプス
トラル測定を使用した自動音声検証（Automatic
Speaker Verification Using Cepstral
Measurements）」、更に同じくアメリカ音響学会
誌第35巻第３号第354頁−第358頁に掲載されたエ
ス・プルザンスキイ（S.Pruzansky）による「自
動語り手認識に使用するパターン整合方法
（Pattern Matching Procedure For Automatic
Talker Recognition）」及び情報理論のアイ・ア
ール・イー会報、1962年、第179頁−第187頁
（IRE Transactions On Information Theory、
1962、PP.179−187）に掲載されたミン・クエ
イ・ヒユー（Ming−Kuei Hu）による「不変モ
ーメントによる可視パターン認識（Visual
Pattern Recognition By Moment Invariants）」
などがある。

上記の最後に記載した論文は、位置、寸法、方
向に関係なく幾何学的パターン及びアルハベツト
文字などの可視パターンを認識するに有益な理論
を確立したものである。この発明はこの理論を最
も良く改良して話者の標準化された音声を検証し
認識するシステムに具体化したものである。

この発明に係るシステムは音声をそれに相当す
る一組の不変モーメントに変換するシステムであ
る。すなわち、同一話者による同一語句の各別個
な発声を複数回行い、それを夫々の音声ベクトル
に対応する複数組の不変モーメントの編集に使用
する。

次に、各組の算出した不変モーメントを使用し
て平均音声ベクトルを算出する。算出された平均
音声ベクトルに対し、後で検証のときに発声した
音声ベクトルを比較するようにした装置を設け、
それで話者の検証を行なうことができる。

詐称又は疑似話者を認容するエラーは疑似話者
から発生した複数組の不変モーメントを使用し
て、それと検証するべき話者の不変モーメントと
を比較することにより最少限に留めることができ
る。すなわち、検証しようとする話者の年令及び
性別などについて最も合致するものに対応する１
群の予め計算し記憶してある不変モーメントの各
組に対して検証しようとする話者の音声を重ね合
わせ比較してみて相関の程度を定め、閾値を決定
して許容レベルの設定が行われる。

この発明の主な目的は新規な声音検証システム
を提供することである。

更にこの発明の目的は、標準語句の音声から計
算された不変モーメントを利用する検証システム
を提供することである。

この発明の他の目的は、標準語句を発声した各
話者の音声を変換して記憶し比較するためのパラ
メータを選択するシステムを提供することであ
る。

次にこの発明の実施例を添付図面とともに詳細
に説明する。

第１図は顧客の音声の基準を設定するためのシ
ステムのブロツク線図である。顧客は標準語句を
マイクロホンに向つて発声する。この実施例にお
いて使用する標準語句は「ウイ・ゴ−・アウエイ
（We go away）」である。ブロツク１０には増幅
器と130Hz〜3500Hzの通過帯域を有する帯域濾波
器とが含まれ、ブロツク１０（増幅器・帯域濾波
器）の出力はマイクロホン９によつて検波された
音に比例した増幅特性を持つ電気信号である。

第２図は、ブロツク１０の出力に表われる信号
の型を表わす。ブロツク１２（サンプル又は標本
化・Ａ／Ｄ変換器）はクロツク源１６からの標本
化信号Xiを用いてブロツク１０からの電気信号
を受信する。すなわち、ブロツク１２は信号Xi
の期間で入力信号を標本化するように動作する。

第３図は第２図に表わした波形図に対して標本
化時間と振幅とを加えたその波形の拡大部分を表
わす。例えば、標本化時間はXiであり、標本化
された振幅はYiである。これらの振幅の信号は
標本化装置ブロツク１２のアナログ−デイジタル
変換器によりデイジタル信号に変換される。標本
のデイジタル等価値はYiで表わされ、語句「ウ
イ・ゴー・アウエイ」の音声は約0.8−1.2秒の時
間がかかり、更に、この実施例における標本化ク
ロツクXiの標本化速度は毎秒10000サンプルであ
るから、各発声語句ごとに約10000の振幅サンプ
ルYiが得られる。１群の不変モーメントはコン
ピユータ装置１４を使用して特に発声した語句に
ついて算出される。この発明で使用する２次元波
形（パターン）のための不変モーメントは、２次
元パターン認識では周知のＸ及びＹ方向に沿つた
波形の位置と寸法には無関係な連続形式で表現し
た波形のモーメント“∫∫_AＸ^pＹ^qdxdy”（この
式でｐとｑの値は正の整数である。）から導き出
すことができるその離散的表現である下記の（式
１）から算出される測定値である。上式は図形又
は波形の位置や大きさの変化に拘わらず同一の図
形を同一と判断することができるから図形認識に
は非常に便利であるが、パラメータの項数が多
く、又高次の項では計算がかなり複雑であるとい
う欠点を有する。

その欠点を除去するために、この発明では、上
記のような２次元波形の連続形式のモーメントの
式の代りに、下記（式１）で示す如く、その２次
元波形の不変モーメントを個別的（離散的）デイ
ジタル的な表現で表わすようにした方程式を利用
して、各発声から23個の不変モーメントを算出
し、それを音声波形の識別に使用することにし
た。

このように不変モーメントの個別的な表現形式
を利用することにより、上記の欠点を除去するほ
か、その連続形式ではなし得なかつた次のような
特徴ある有利な効果を提供することができた。

(イ) この発明で使用する不変モーメントMI_pqは
デイジタル表現であるからデイジタル・システ
ムで簡単に演算できる上、比較、エラー及び同
一性の判断などの処理を容易にすることができ
る。

(ロ) MI_pqの各成分の値は高次（この実施例で
は、ｐ＋ｑ６の23個；希望によりこれ以上で
もよい）まで簡単に演算することができるの
で、入力した波形を唯一的に他の波形から区別
しうるように特徴づけるため、識別を厳しくす
ることができ、同一性の判断で誤差又はエラー
を少くすることができる。

(ハ) 入力した波形を特徴づけるに必要なMI_pqの
成分の数（この実施例では23個）は発声語句の
サンプル数（この実施例では10000）に比較し
て相当少いので、他の方式に比べてメモリーの
数が少くてよい。

上記で説明したこの発明で利用する２次元第
（ｐ＋ｑ）次の不変モーメントは次の（式１）で
与えられ、計算される。

Ｎ＝標本数 Yi＝時間Xiにおいて標本化した入力信号の数値
化した値及びはそれぞれXi及びYiの分布の
平均値各話者の標本音声について計算し、その音声ベ
クトルを構成する第（ｐ＋ｑ）次の各不変モーメ
ントを順次算出する。ここで、ｐ及びｑの値はそ
れぞれ整数であり、この実施例では、pqで表わ
すｐ＋ｑの値を経験上から６以下（ｐ＋ｑ６）
に選ぶことにした。このpqは、例えば、１と２
に選ぶとMI12と表わされ、ｐ＋ｑは１＋２＝３
となる。

算出された不変モーメントは、例えばコンピユ
ータの記憶装置のように記憶装置１５に記憶され
る。使用可能な基準を設定するために、話者に複
数回標準語句を発声させることが必要である。話
者に10回類似する語句を発声させると、その語句
に対する不変モーメントは平均化されたときに高
度に信頼性のある標準を提供することができる。
従つて、話者は更に９回標準語句を発声すること
を要求されるから、記憶装置１５内には23個の不
変モーメント群を更に９個記憶する記憶容量を必
要とする。

第４Ａ図〜第４Ｃ図は式１を基本にして不変モ
ーメントを計算するために、コンピユータ装置１
４を使用する方法を示した流れ線図である。明細
書全体を通じて符号ｉ，ｊ，ｐ，ｑ，ｘ，ｙは小
文字で記載してあるが、図面は流れ線図の記載に
関する基準に適合させるため、ある図面ではそれ
らの符号を大文字で記載したものがある。それら
は水文字小文字の違いはあつても、当然同一符号
であるということを理解するべきである。

開始ブロツク５０はコンピユータ装置１４に記
憶されている標本yiの読取りを開始する。最初の
数個の標本は発声した音声ではなく、雑音か又は
他の無関係な信号かもしれないので、閾値レベル
は最初の標本及びそれに続く標本が実際に発声し
た音声についての真の標本であることを保証でき
るような値に選ばれる。ブロツク５１ではＮは１
に設定し、ブロツク５２で標本ｙを読取る。動作
ブロツク５３では標本ｙを選ばれた閾値レベルと
比較して、現に読取られた標本が事実最初の有効
標本Ｙ１かどうかを確認する。その比較の結果、
ノーの場合は次のｙ標本が読取られて閾値レベル
と比較される。そのように、イエスの応答がある
まで比較動作が続けられる。

読取られた最初の真の標本はｉ＝１が設定され
ることにより、ｙ１と認定され、ブロツク５４で
記憶される。ブロツク５４ではｉを１だけ加算
し、ブロツク５５に進んでｙ２で表わされる次の
標本を読取る。動作ブロツク５６では、第ｉ番目
の標本と第ｉ番目のために予め選ばれた限界とを
比較し、ブロツク５５で読取られた特定の標本yi
が希望する最後の標本かどうかを確める。答がノ
ーの場合はブロツク５７でＮを１だけ加算し、読
取られたyiを記憶する。答がイエスの場合は動作
ブロツク５６からブロツク５８に進み、不変モー
メントMI１０とMI０１をその初期状態である
「０」に設定する。ブロツク５９はｉを１に設定
し、次にブロツク６０に進んでMI１０とMF０１
の計算を開始する。ブロツク６１は現在のｉの値
を１だけ加算し、ブロツク６２で現に加算された
ｉの値を記憶中のＮの値と等しいかどうかを比較
する。答がノーであれば更にMI１０とMI０１の
計算が行なわれ、答がイエスであればブロツク６
３に示した演算動作を行いとの値が計算され
る。

ブロツク６４はp1、ｐ、ｑ及びｊの初期の値
を設定する。動作ブロツク６５はｐの値が「０」
であるかどうかを確める。もし「０」でなければ
ブロツク６７へ進み、ｐの値は１が減じられ、ｑ
の値に１を加えられる。又Ｔ、T1及びT2は
「０」に設定され、ブロツク６８に進んでｉの値
を１に設定する。ブロツク６９では、Ｔ、T1、
T2の値が計算される。ブロツク７０ではブロツ
ク６９における計算の完了後にｉに１を加算す
る。比較ブロツク７１はｉとＮの値を比較し、等
しくない場合は再びブロツク６９に戻り、加算し
たｉの値でＴ、T1及びT2の値を計算する。ｉが
Ｎに等しい場合はブロツク６９によつて要求され
るすべての計算は完了したことになる。

ブロツク７２においては、Ｔ，Ｔ１及びＴ２の
値を使用して不変モーメントMI_pqを計算し、ブ
ロツク７３においてコンピユータ装置１４に記憶
する。ブロツク７４はＪの値に１を加算する。ｊ
の値が28に等しくない場合は、プログラムは再び
ブロツク６５へ戻り、ｐの値を「０」と比較す
る。ｐの値が「０」の場合はプログラムはブロツ
ク６６へ向い、p1の値に１を加算し、ｐの値を
p1の値と等しくし、ｑの値を−１に設定する。
プログラムはその後ブロツク６６から６７へ移動
する。

ｊの計数が28に等しい場合はブロツク７５は動
作をブロツク７６へ移動することを決め、ブロツ
ク７６で終了する。

プログラムが終了すると、23個の不変モーメン
トMI_pqが記憶装置１５に記憶される。上記（式
１）の演算では、MI_pqは27個計算されることに
なるが、そのうちMI１０，MI０１，MI２０及び
MI０２の４個はすべての話者に対して定数であ
るから記憶されず、23個のみを記憶して使用す
る。

読出専用メモリーのような統計（疑似）ベクト
ル・フアイル（第１図）は年令及び性別などによ
つて分類しグループ化した標準音声から計算され
た100組又はそれ以上の不変モーメントの記憶に
使用される。これら各組の不変モーメントは“疑
似フアイル”を構成する。顧客の年令及び性別
は、分析するために使用されるべき疑似不変モー
メントの該当する組を決定する。分析装置１８は
記憶装置（音声ベクトル）１５に記憶されている
音声ベクトルと統計フアイル１７からの疑似ベク
トルとを比較する。

分析装置１８は顧客の音声ベクトルと疑似音声
ベクトルとを比較して重みベクトルを得る。特定
顧客の重みベクトルは記憶装置１９に記憶され
る。分析装置は新たな顧客「Ｋ」が標準語句をｎ
回繰返して発声したものから得られた音声ベクト
ル（各音声に対して１つ）と、顧客「Ｋ」に対す
る代表的な疑似話者と思われる人々から得られた
統計フアイル１７からの「ｍ」個の統計音声ベク
トルとを分析する。この好適実施例に使用される
「ｍ」の値は100である。すなわち、100個の疑似
音声ベクトルが計算され、統計フアイル１７に記
憶される。

分析装置１８は記憶装置１５からの顧客Ｋの音
声ベクトルのための平均不変モーメントを次の式
から計算する。

ｉ＝１〜23（ｉはpqを表わし、その数はｐ＋
ｑ６に選定したので27個であるが、実際には４
個少い使用可能な23個から成り、ｉはそのｐ＋ｑ
の各次を表わす） MI_i、_j、_kは、上記から明らかなように、顧客
Ｋが発声した各音声ベクトルについての不変モー
メントMI_pqを表わす。

エラー、すなわち、記憶装置１５に記憶されて
いる顧客Ｋの各音声ベクトルと、（式２）によつ
て計算された平均不変モーメントとの差異又は誤
差は次の式から計算されるｊ＝１〜ｎとする。特定クラスの群の統計音声
ベクトルのそれぞれと（式２）で計算された平均
不変モーメントとの間のエラー（誤差）は次式か
ら計算される。

ｌ＝１〜ｍとする。ｈは統計ベクトル・フアイ
ルを示し、式３、４においてＣ_i、_kは不変モーメ
ントの第ｉ番目成分に対する重みである。係数Ｃ
_i、_kは顧客ｋに対する重みベクトルを構成する。
係数Ｃ_i、_kはすべてのｊとｌに対してＥ_k、_jを最
小にし、Ｅ_h、_lを最大にするように決定される。

（MI_i、_j、_k−_i、_k）^２をＡ_i、_j、_kとし、（MI_i、_l、_h−_i、_k）^２をＢ_i、_l、_hで表わすと
（式３）、（式４）は次のような形に簡略化されるｊ＝１、ｎとする。

ｌ＝１、ｍとする。

すべてのｊに対するＥ_k、_jの最小化と、すべて
のｌに対するＥ_h、_lの最大化とはＥ_k、_jの各成分
（すべてのｊに対するＣ_i、_k・Ａ_i、_j、_k）を最小
にし、同時にＥ_h、_lのすべての成分（すべての１
に対するＣ_i、_k・Ｂ_i、_l、_h）を最大にすることに
よつて達成される。

Ａ_i、_j、_k（ｊ＝１、ｎ）とＢ_i、_l、_h（ｌ＝１、
ｍ）に対する第ｉ番目成分の平均値は第６図に表
わしたが次の式でも示される。

以上、説明したように、誤差Ｅ_k、_j（式５）の
ｉ番目成分_i、_kは最小とされ、差異Ｅ_h、_l（式
６）のｉ番目成分_i、_hは最大とされなければな
らないが、それは_i、_h−_i、_kが大きく、すべ
てのｊに対する点Ａ_i、_j、_kが_i、_kに接近し、す
べてのｌに対する点Ｂ_i、_l、_hが_i、_hに接近して
いる場合であるということを第６図から見ること
ができる。すなわち、第６図に表わすように、顧
客ＫのＡ_i、_j、_kとその第ｉ番目成分の平均値
_i、_k（第６図の左手に示す）とは同一人のものの
ため、接近していることが望ましく、又、顧客Ｋ
と疑似音声とを明確に区別するため、疑似音声の
Ｂ_i、_l、_hとその第ｉ番目成分の平均値_i、_h（第
６図の右手に示す）とが接近していることが望ま
しい。ということは、_i、_kと_i、_hとの差が大
きく、離れているということであつて、それは、
自己の音声はできる限り接近し、他人の音声から
は明確に区別されることが望ましいということで
ある。故に分離関数はＳ_i、_k＝Ｂ_ｉ、_ｈ−Ａ_ｉ、_ｋ／σ_ｉ、_ｈ＋σ_ｉ、_ｋ（式９） σ_i、_kとσ_i、_hとはそれぞれＡ_i、_j、_k（ｊ＝１、
ｎ）とＢ_i、_l、_h（ｌ＝１、ｍ）の標準偏差であ
り、すべてのｊに対するＥ_k、_jを最小にし、すべ
てのｌに対するＥ_h、_lを最高にするためのＣ_i、_k
に対する適切な値である。Ｓ_i、_k＝０の値は_i、
_ｈ＜_i、_kのときの場合に対して選ばれる。それ
は、ｌの数個の値に対するＥ_h、_lのｉ番目成分が
ｊの数個の値に対するＥ_k、_jの各対応する成分よ
り少いという明確な理由のためである。

_i、_h＜_i、_kに対してＳ_i、_k＝０他の場合はＳ_i、_k＝Ｂ_ｉ、_ｈ−Ａ_ｉ、_ｋ／σ_ｉ、_ｈ＋σ_ｉ、_ｋ（式10）異なるｉ、Ｓ_i、_kに対する_i、_kの相対的大き
さを計算するために更に_i、_kによつて正規化さ
れる。従つて、すべてのｊに対するＥ_k、_jの最大
化とすべてのｌに対するＥ_h、_lの最大化のために
選ばれるＣ_i、_kの値は次のように選ばれる。

_i、_h＜_i、_kに対してＣ_i、_k＝０その他の場合はＣ_i、_k＝Ｂ_ｉ、_ｈ−Ａ_ｉ、_ｋ／Ａ_ｉ、_ｋ（σ_ｉ、_ｈ＋
σ_ｉ、_ｋ）（式11）第５Ａ図〜第５Ｄ図は前述した等式の部分を計
算し記憶するために分析装置１８で利用される流
れ線図を表わす。開始ブロツク７９はブロツク８
０を動作させてｉの値を１に初期設定する。ブロ
ツク８１はＳ_i、_kの値を０に、ｊの値を１に設
定し、ブロツク８２においてＳ_i、_kの部分和を
計算する。動作ブロツク８３はｊの現在値と音声
の合計数ｎの値とが等しいかどうかを比較する。
答がノーの場合はブロツク８４でｊの値に１を加
え、ブロツク８２で次の部分和を計算する。ｊと
ｎとが等しい場合は部分和の算出は完了し、ブロ
ツク８５がブロツク８２からの完全和を使用して
_i、_kの値を計算する。動作ブロツク８６はｉの
値が23に等しいかどうかを比較する。等しくない
場合は、ブロツク８７でｉの値に１を加えて再び
ブロツク８１へ戻り、次の_i、_kの値の計算を行
なう。ｉの値が23になると、計算された各23個の
_i、_kの値はブロツク８８でメモリーに記憶され
る。

ブロツク８９はｉの初期値を１に設定する。ブ
ロツク９０はＳ_i、_kの値を０に、ｊの値を１に
設定する。

ブロツク９１ではＳ_i、_kの値とともにＡ_i、
_ｊ、_ｋの値が計算される。動作ブロツク９２はｊの
値がｎに等しいかどうかを確認し、等しくない場
合はブロツク９３でｊの値に１を加え、ブロツク
９１にＡ_i、_j、_kとＳ_i、_kの次の値を計算させ
る。ｊの値がｎに等しい場合はブロツク９１から
得られた和を利用してブロツク９４が_i、_kの値
を計算する。

ブロツク９５においては、偏差Ｓσ_i、_kが０に
設定され、ｊの値を１に等しくする。ブロツク９
６はＳσ_i、_kの部分和を計算し、動作ブロツク９
７はｊとｎの値が等しいかどうかを確認すること
によつて部分和が完成されたかどうがを決定す
る。ｊとｎとが等しくない場合はブロツク９８で
ｊの値に１を加え、加算された次の部分和を計算
するためにブロツク９６を再び動作させる。ｊの
計数とｎとが等しくなつたときに偏差σ_i、_kがブ
ロツク９９で計算される。

ブロツク１００〜１０９はＢ_i、_l、_hと_i、_hと
σ_i、_hの値を計算するためにブロツク９０〜９９
で行なわれた計算と同様な計算を繰返す。

ブロツク１１０は_i、_hの数値が_i、_kの数値
よりも少いかどうかを確認し、少い場合はブロツ
ク１１２で重み係数Ｃ_i、_kを０に設定する。ブロ
ツク１１０での比較の結果、ノーの答を出した場
合はブロツク１１１でＣ_i、_kの値の計算が行なわ
れる。比較ブロツク１１３はｉの値を数値23と比
較し、ｉの値が23より少い場合はブロツク１１５
でｉの値に１を加えてブロツク９０に戻し、それ
を動作して増加したｉの値に従い以下のブロツク
を再循環する。ｉの値が23に到達した場合は、ブ
ロツク１１３はイエスとなり、ブロツク１１４に
進んでＣ_i、_kの値を記憶装置１９に記憶する。計
算及び記憶動作が完了すると停止ブロツク１１６
で分析を終了する。

エラー閾値も又記憶装置１９に記憶され、顧客
Ｋに対してはT₁Kで示される。このシステムでは
２つの異なる型のエラーを考慮した。その１つは
「正しい仮定の拒絶」と定義される型エラーで
あり、他の１つは「拒絶されるべきであつた仮定
の許容」として定義される型エラーである。閾
値T₁Kは型エラーの発生可能性と型エラーの
発生可能性とが等しくなるように計算される。第
７図は型エラーと型エラーとの関係を表わし
たものである。

式４のエラー関数は下記の式に表わす関係を用
いてT₁Kの値から引出された閾値T₂Kと比較され
る。

T₂K＝〔型／型エラー比〕T₁K 第７図からわかるように、型／型エラー比
を小さくすると、閾値T₂Kは小さくなり（閾値が
第７図の右方に移動する）、同一性要求に対する
エラーの拒絶範囲は狭くなつて、検証の安全性が
低くなる。逆に、型／型エラー比を大きくす
ると、閾値T₂Kは大きくなり（第７図の左方に移
動する）、同一性要求に対するエラーの許容範囲
が狭くなつて、検証の安定性が高くなる。

閾値T₁Kは、音声ベクトルと同一人の他の音声
ベクトルとの比較から生じたエラーの値と、音声
ベクトルと統計フアイル・ベクトルとの比較から
生じたエラーの値との間の比率を50％に設定して
定める数値上の定数である。

記憶装置１９に記憶されている顧客Ｋの各デー
タ項目はカード書込装置２０によつてクレジツ
ト・カードに記録することができる。そのクレジ
ツト・カードは顧客に発行され、その顧客の使用
に供される。

第８図は会話検証システムの実施例の１つであ
る。

カード読取機２１は顧客のカードを読取り、そ
のデータを記憶装置２２へ供給するように設計さ
れる。そのデータは計算された顧客の不変モーメ
ント・ベクトル、重みベクトル及び計算された閾
値T₁Kの値など、３つの成分から成る。

データが読取られ、記憶装置２２へ記憶される
と、デイスプレイ２４は顧客に標準語句を話すこ
とを要求するように表示する。各構成要素９，１
０，１２及び１４は第１図に表わした同一番号の
要素と同一のものであり、同じように動作する。
このようにして顧客の標準語句はコンピユータ１
４によつて音声ベクトルに変換される。

エラー関数は記憶装置２２に記憶されている不
変モーメント・ベクトルの成分とコンピユータ装
置１４で計算された音声ベクトルとの差異からコ
ンピユータ２８で計算される。

エラー関数は次の式で表わされる。

（Ｃ_i、_kは顧客Ｋの重みベクトルの第ｉ番目の成
分である。）コンピユータ２８で計算されたエラー関数は比
較器・決定装置３１で調整可能エラー比較装置３
０からの閾値T₂Kと比較される。装置３０は記憶
されている顧客の閾値T₁Kを受信して、システム
所有者が要求するレベルに閾値T₁Kを調整する乗
算係数を供給する。

エラー関数出力は検証要求のためにT₁Kから算
出された閾値T₂Kと比較される。

比較器・決定装置３１における比較の結果、そ
の決定はデイスプレイ３２上にデイスプレイされ
る。顧客の同一性が否定されると、カードが機械
に捕獲されるか、カード読取機２１から放出され
る前に、顧客に対して再度数回の検証を試みる機
会が与えられる。

この発明の基本的な理念内の変更は可能であ
る。

【図面の簡単な説明】

第１図は、この発明に従つて音声に関する不変
モーメントを発生するためのシステムのブロツク
線図、第２図は、標準語句の音声に対応する波形
の波形図、第３図は、第２図の波形から選ばれた
期間を標本化して拡大した波形部分を表わす波形
図、第４Ａ図、第４Ｂ図、第４Ｃ図は、第１図に
表わされているシステムの１部の動作を表わす流
れ線図、第５Ａ図、第５Ｂ図、第５Ｃ図、第５Ｄ
図は、同じく第１図に表わされているシステムの
第２部分の動作を表わす流れ線図、第６図は、こ
の発明に使用され、計算される語句の分布状態を
描いた分布図、第７図は、エラーの２つの型とそ
こに適用される閾値の選択との関係とを描いた線
図、第８図は、第１図のシステムとともに使用
し、発声音の許容と拒絶とを行なうことにより話
者を検証するために有用なシステムを表わしたブ
ロツク線図である。１０……増幅器・帯域濾波器；１２……サンプ
ル・ホールド・Ａ／Ｄ変換器；１４……コンピユ
ータ装置；１５……記憶装置；１６……クロツク
源；１７……疑似ベクトル・フアイル；１８……
分析装置；１９……記憶装置；２０……カード書
込装置；２１……カード読取機；２２……記憶装
置；２４……デイスプレイ；２８……コンピユー
タ装置；３０……調整可能エラー比較装置；３１
……比較・決定装置；３２……デイスプレイ。

Claims

【特許請求の範囲】１ (イ) 登録話者の発声音の標本から音声ベクト
ルを算出し、 (ロ) 疑似発声音の標本から音声ベクトルを算出
し、 (ハ) 算出した前記話者の音声ベクトルと算出した
前記疑似発声音の音声ベクトルとを分析して両
音声間の差異を表現するための重み係数を引出
し、 (ニ) 前記話者に発行される安全カード上に前記算
出した登録話者の音声ベクトルと前記重み係数
とを記録し、 (ホ) 前記安全カードに記録されている音声ベクト
ルと被検認話者について算出された音声ベクト
ルとを比較して両者間の差異を決定し、 (ヘ) 前記工程(ホ)で決定された差異と前記記録され
ている重み係数とを用いて、前記登録話者の音
声と前記被検認話者の音声との同一性の度合を
表わす量を計算し、その結果が同一性許容範囲
内にある場合は前記登録話者と前記被検認話者
との同一性を認容し、前記計算の結果が同一性
拒絶範囲内にある場合は前記両話者の同一性を
否定するようにする各工程から成り、前記音声ベクトルは音声波形図形の大きさ、位
置及び方向に影響されない不変モーメントに基づ
いて構成することを特徴とする話者の同一性検認
方法。２ (イ) 登録話者が発声した標準語句を電気信号
に変換する信号変換手段と、 (ロ) 前記電気信号を標本化して振幅値に変換する
変換手段と、 (ハ) 前記振幅値に作用して前記振幅値の不変モー
メントを算出する演算手段と、 (ニ) 前記不変モーメントを記憶する記憶手段と、 (ホ) 疑似話者が発声した標準語句に対する複数の
不変モーメントを記憶する記憶手段と、 (ヘ) 前記各記憶手段に記憶された各前記不変モー
メントを読出し、重み係数及び閾値を計算する
分析手段と、 (ト) 前記登録話者の前記不変モーメントと前記計
算した重み係数並びに閾値を記録する記録手段
と、 (チ) 被検認話者が発声した標準語句の不変モーメ
ントから成る音声ベクトルと記録されている前
記登録話者の不変モーメントから成る音声ベク
トルとの間の重みつき差異を計算し、これを少
くとも１つの閾値と比較し、前記被検認話者の
検認情報を出力する検認手段とを含み、話者の
同一性を検認する検認装置。