JPS6217240B2 - - Google Patents

Info

Publication number
JPS6217240B2
JPS6217240B2 JP52020394A JP2039477A JPS6217240B2 JP S6217240 B2 JPS6217240 B2 JP S6217240B2 JP 52020394 A JP52020394 A JP 52020394A JP 2039477 A JP2039477 A JP 2039477A JP S6217240 B2 JPS6217240 B2 JP S6217240B2
Authority
JP
Japan
Prior art keywords
speaker
calculated
speech
block
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP52020394A
Other languages
English (en)
Other versions
JPS52106204A (en
Inventor
Gotsudofumaru Adobaani Jeraamu
Hosei Paganiini Buruuno
Joeru Heeru Uiriamu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NCR Voyix Corp
Original Assignee
NCR Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NCR Corp filed Critical NCR Corp
Publication of JPS52106204A publication Critical patent/JPS52106204A/ja
Publication of JPS6217240B2 publication Critical patent/JPS6217240B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/20Individual registration on entry or exit involving the use of a pass
    • G07C9/22Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
    • G07C9/25Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
    • G07C9/257Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition electronically

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Collating Specific Patterns (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 この発明は音声認識の分野に関し、特に比較目
的のために選ばれ、計算された音声の不変モーメ
ントを利用して、予め発声し、記録されている選
ばれた音声に対して現在発声した同一話者の選ば
れた音声を比較することにより、話者の同一性を
検証又は認識するための方法と装置に関する。
金銭の前借を認めている取引、基金の転送、信
用貸の許可又は他の同様な業務上の取引は磁気的
に符号化された情報を持つクレジツト・カード又
は他の型式の証印を使用して、無人事務機械、例
えば自動金銭出納機のような端末機を顧客自身が
動作して行なう方向に指向している。その場合顧
客が実際にクレジツト・カードの正しい所有者で
あるか、又はその事務機械の使用が認められた者
であるかどうかを確証するため、使用する装置の
中に数々の安全装置が設けられている。現在使用
されている1型式のシステムは磁気的に符号化さ
れたクレジツト・カードで作動し、クレジツト・
カードに対する検証は、そのカードを発行したと
きにその顧客に割当てた秘密番号、すなわち端末
装置に入力する顧客キーによつて行なわれる。事
務装置は顧客が入力した秘密番号を、カード自身
に符号化されているが、又は中央コンピユータ・
システムに記憶されているそれに相当する数と比
較する。挿入された数と記録されている数とが一
致すると顧客は機械を動作することが許される。
他の先行するシステムは指紋の比較を利用し、
顧客が自己の指又は手をスキヤナの走査上に置
き、顧客の指紋を利用したキーの特徴を表わす信
号をスキヤナから発生させ、それと顧客が所持す
るクレジツト又はアクセス・カードに記録されて
いるキーの特長とによつてチエツクする。
特に興味ある型式のシステムとしては、顧客自
身の同一性を検証するために顧客の音声を使用す
るシステムである。先行するシステムは顧客に検
証語句を発声させ、それと予め記録されている標
準語句とを比較することによつて動作するものが
開発されている。標準語句はクレジツト・カード
又はシステムの中に記録することが可能である。
そのような方法において、検証の信頼性を確保
するために数々の方式が開発された。代表的な音
声認識システムの開示には次のようなものがあ
る。ジエイ・ダヴリユー・ジヨーンズ(J.W.
Jones)による米国特許第3509280号「アダプテ
イブ・スピーチ・パターン認識システム
(Adaptive Speech Pattern Recognition
System)」、エル・アール・ラ ナー(L.R.
Rabiner)他による米国特許第3649765号「改良
型ホーマツト・エクストラクタを使用したスピー
チ分析合成システム(Speech Analyzer−
Synthesizer System Employing Improved
Format Extractor)」、ジー・アール・ドデイン
グトン(G.R.Doddington)他による米国特許第
3700815号「音響パラメータの非直線性時間合わ
せによる自動音声検証(Automatic Speaker
Verification By Non−Linear Time Alignment
of Acoustic Parameters)」のほか、ブローデス
(Brodes)ほかによる米国特許第3812291号「信
号パターン符号化器と分類器(Signal Pattern
Encoder And Classifier)」及びサコエ
(Sakoe)ほかによる米国特許第3816722号「類似
コンピユータから成り、複パターン及びパターン
認識システム間の類似性を計算するコンピユータ
(Computer For Calculating The Similarity
Between Patterns And Pattern Recognition
System Comprising The Similarity
Computer)」などがある。技術の水準を表わす
興味ある刊行物としては、アメリカ音響学会誌第
40巻第5号1966年第966頁−第978頁(Journal of
the Acoustical Society of America Vol.40、No.
5、1966、PP.966−978)に掲載されたケー・ピ
ー・リー(K.P.Li)ほかによる「アダプテイブ・
システムを使用した音声検証の実験研究
(Experimental Studies In Speaker
Verification、Using An Adaptive System)」、
同じくアメリカ音響学会誌第46巻第4号(第2
部)1969年第1026頁−第1029頁に掲載されたジエ
イ・イー・ラツク(J.E.Luck)による「セプス
トラル測定を使用した自動音声検証(Automatic
Speaker Verification Using Cepstral
Measurements)」、更に同じくアメリカ音響学会
誌第35巻第3号第354頁−第358頁に掲載されたエ
ス・プルザンスキイ(S.Pruzansky)による「自
動語り手認識に使用するパターン整合方法
(Pattern Matching Procedure For Automatic
Talker Recognition)」及び情報理論のアイ・ア
ール・イー会報、1962年、第179頁−第187頁
(IRE Transactions On Information Theory、
1962、PP.179−187)に掲載されたミン・クエ
イ・ヒユー(Ming−Kuei Hu)による「不変モ
ーメントによる可視パターン認識(Visual
Pattern Recognition By Moment Invariants)」
などがある。
上記の最後に記載した論文は、位置、寸法、方
向に関係なく幾何学的パターン及びアルハベツト
文字などの可視パターンを認識するに有益な理論
を確立したものである。この発明はこの理論を最
も良く改良して話者の標準化された音声を検証し
認識するシステムに具体化したものである。
この発明に係るシステムは音声をそれに相当す
る一組の不変モーメントに変換するシステムであ
る。すなわち、同一話者による同一語句の各別個
な発声を複数回行い、それを夫々の音声ベクトル
に対応する複数組の不変モーメントの編集に使用
する。
次に、各組の算出した不変モーメントを使用し
て平均音声ベクトルを算出する。算出された平均
音声ベクトルに対し、後で検証のときに発声した
音声ベクトルを比較するようにした装置を設け、
それで話者の検証を行なうことができる。
詐称又は疑似話者を認容するエラーは疑似話者
から発生した複数組の不変モーメントを使用し
て、それと検証するべき話者の不変モーメントと
を比較することにより最少限に留めることができ
る。すなわち、検証しようとする話者の年令及び
性別などについて最も合致するものに対応する1
群の予め計算し記憶してある不変モーメントの各
組に対して検証しようとする話者の音声を重ね合
わせ比較してみて相関の程度を定め、閾値を決定
して許容レベルの設定が行われる。
この発明の主な目的は新規な声音検証システム
を提供することである。
更にこの発明の目的は、標準語句の音声から計
算された不変モーメントを利用する検証システム
を提供することである。
この発明の他の目的は、標準語句を発声した各
話者の音声を変換して記憶し比較するためのパラ
メータを選択するシステムを提供することであ
る。
次にこの発明の実施例を添付図面とともに詳細
に説明する。
第1図は顧客の音声の基準を設定するためのシ
ステムのブロツク線図である。顧客は標準語句を
マイクロホンに向つて発声する。この実施例にお
いて使用する標準語句は「ウイ・ゴ−・アウエイ
(We go away)」である。ブロツク10には増幅
器と130Hz〜3500Hzの通過帯域を有する帯域濾波
器とが含まれ、ブロツク10(増幅器・帯域濾波
器)の出力はマイクロホン9によつて検波された
音に比例した増幅特性を持つ電気信号である。
第2図は、ブロツク10の出力に表われる信号
の型を表わす。ブロツク12(サンプル又は標本
化・A/D変換器)はクロツク源16からの標本
化信号Xiを用いてブロツク10からの電気信号
を受信する。すなわち、ブロツク12は信号Xi
の期間で入力信号を標本化するように動作する。
第3図は第2図に表わした波形図に対して標本
化時間と振幅とを加えたその波形の拡大部分を表
わす。例えば、標本化時間はXiであり、標本化
された振幅はYiである。これらの振幅の信号は
標本化装置ブロツク12のアナログ−デイジタル
変換器によりデイジタル信号に変換される。標本
のデイジタル等価値はYiで表わされ、語句「ウ
イ・ゴー・アウエイ」の音声は約0.8−1.2秒の時
間がかかり、更に、この実施例における標本化ク
ロツクXiの標本化速度は毎秒10000サンプルであ
るから、各発声語句ごとに約10000の振幅サンプ
ルYiが得られる。1群の不変モーメントはコン
ピユータ装置14を使用して特に発声した語句に
ついて算出される。この発明で使用する2次元波
形(パターン)のための不変モーメントは、2次
元パターン認識では周知のX及びY方向に沿つた
波形の位置と寸法には無関係な連続形式で表現し
た波形のモーメント“∫∫Apqdxdy”(この
式でpとqの値は正の整数である。)から導き出
すことができるその離散的表現である下記の(式
1)から算出される測定値である。上式は図形又
は波形の位置や大きさの変化に拘わらず同一の図
形を同一と判断することができるから図形認識に
は非常に便利であるが、パラメータの項数が多
く、又高次の項では計算がかなり複雑であるとい
う欠点を有する。
その欠点を除去するために、この発明では、上
記のような2次元波形の連続形式のモーメントの
式の代りに、下記(式1)で示す如く、その2次
元波形の不変モーメントを個別的(離散的)デイ
ジタル的な表現で表わすようにした方程式を利用
して、各発声から23個の不変モーメントを算出
し、それを音声波形の識別に使用することにし
た。
このように不変モーメントの個別的な表現形式
を利用することにより、上記の欠点を除去するほ
か、その連続形式ではなし得なかつた次のような
特徴ある有利な効果を提供することができた。
(イ) この発明で使用する不変モーメントMIpq
デイジタル表現であるからデイジタル・システ
ムで簡単に演算できる上、比較、エラー及び同
一性の判断などの処理を容易にすることができ
る。
(ロ) MIpqの各成分の値は高次(この実施例で
は、p+q6の23個;希望によりこれ以上で
もよい)まで簡単に演算することができるの
で、入力した波形を唯一的に他の波形から区別
しうるように特徴づけるため、識別を厳しくす
ることができ、同一性の判断で誤差又はエラー
を少くすることができる。
(ハ) 入力した波形を特徴づけるに必要なMIpq
成分の数(この実施例では23個)は発声語句の
サンプル数(この実施例では10000)に比較し
て相当少いので、他の方式に比べてメモリーの
数が少くてよい。
上記で説明したこの発明で利用する2次元第
(p+q)次の不変モーメントは次の(式1)で
与えられ、計算される。
N=標本数 Yi=時間Xiにおいて標本化した入力信号の数値
化した値及びはそれぞれXi及びYiの分布の
平均値 各話者の標本音声について計算し、その音声ベ
クトルを構成する第(p+q)次の各不変モーメ
ントを順次算出する。ここで、p及びqの値はそ
れぞれ整数であり、この実施例では、pqで表わ
すp+qの値を経験上から6以下(p+q6)
に選ぶことにした。このpqは、例えば、1と2
に選ぶとMI12と表わされ、p+qは1+2=3
となる。
算出された不変モーメントは、例えばコンピユ
ータの記憶装置のように記憶装置15に記憶され
る。使用可能な基準を設定するために、話者に複
数回標準語句を発声させることが必要である。話
者に10回類似する語句を発声させると、その語句
に対する不変モーメントは平均化されたときに高
度に信頼性のある標準を提供することができる。
従つて、話者は更に9回標準語句を発声すること
を要求されるから、記憶装置15内には23個の不
変モーメント群を更に9個記憶する記憶容量を必
要とする。
第4A図〜第4C図は式1を基本にして不変モ
ーメントを計算するために、コンピユータ装置1
4を使用する方法を示した流れ線図である。明細
書全体を通じて符号i,j,p,q,x,yは小
文字で記載してあるが、図面は流れ線図の記載に
関する基準に適合させるため、ある図面ではそれ
らの符号を大文字で記載したものがある。それら
は水文字小文字の違いはあつても、当然同一符号
であるということを理解するべきである。
開始ブロツク50はコンピユータ装置14に記
憶されている標本yiの読取りを開始する。最初の
数個の標本は発声した音声ではなく、雑音か又は
他の無関係な信号かもしれないので、閾値レベル
は最初の標本及びそれに続く標本が実際に発声し
た音声についての真の標本であることを保証でき
るような値に選ばれる。ブロツク51ではNは1
に設定し、ブロツク52で標本yを読取る。動作
ブロツク53では標本yを選ばれた閾値レベルと
比較して、現に読取られた標本が事実最初の有効
標本Y1かどうかを確認する。その比較の結果、
ノーの場合は次のy標本が読取られて閾値レベル
と比較される。そのように、イエスの応答がある
まで比較動作が続けられる。
読取られた最初の真の標本はi=1が設定され
ることにより、y1と認定され、ブロツク54で
記憶される。ブロツク54ではiを1だけ加算
し、ブロツク55に進んでy2で表わされる次の
標本を読取る。動作ブロツク56では、第i番目
の標本と第i番目のために予め選ばれた限界とを
比較し、ブロツク55で読取られた特定の標本yi
が希望する最後の標本かどうかを確める。答がノ
ーの場合はブロツク57でNを1だけ加算し、読
取られたyiを記憶する。答がイエスの場合は動作
ブロツク56からブロツク58に進み、不変モー
メントMI10とMI01をその初期状態である
「0」に設定する。ブロツク59はiを1に設定
し、次にブロツク60に進んでMI10とMF01
の計算を開始する。ブロツク61は現在のiの値
を1だけ加算し、ブロツク62で現に加算された
iの値を記憶中のNの値と等しいかどうかを比較
する。答がノーであれば更にMI10とMI01の
計算が行なわれ、答がイエスであればブロツク6
3に示した演算動作を行いとの値が計算され
る。
ブロツク64はp1、p、q及びjの初期の値
を設定する。動作ブロツク65はpの値が「0」
であるかどうかを確める。もし「0」でなければ
ブロツク67へ進み、pの値は1が減じられ、q
の値に1を加えられる。又T、T1及びT2は
「0」に設定され、ブロツク68に進んでiの値
を1に設定する。ブロツク69では、T、T1、
T2の値が計算される。ブロツク70ではブロツ
ク69における計算の完了後にiに1を加算す
る。比較ブロツク71はiとNの値を比較し、等
しくない場合は再びブロツク69に戻り、加算し
たiの値でT、T1及びT2の値を計算する。iが
Nに等しい場合はブロツク69によつて要求され
るすべての計算は完了したことになる。
ブロツク72においては、T,T1及びT2の
値を使用して不変モーメントMIpqを計算し、ブ
ロツク73においてコンピユータ装置14に記憶
する。ブロツク74はJの値に1を加算する。j
の値が28に等しくない場合は、プログラムは再び
ブロツク65へ戻り、pの値を「0」と比較す
る。pの値が「0」の場合はプログラムはブロツ
ク66へ向い、p1の値に1を加算し、pの値を
p1の値と等しくし、qの値を−1に設定する。
プログラムはその後ブロツク66から67へ移動
する。
jの計数が28に等しい場合はブロツク75は動
作をブロツク76へ移動することを決め、ブロツ
ク76で終了する。
プログラムが終了すると、23個の不変モーメン
トMIpqが記憶装置15に記憶される。上記(式
1)の演算では、MIpqは27個計算されることに
なるが、そのうちMI10,MI01,MI20及び
MI02の4個はすべての話者に対して定数であ
るから記憶されず、23個のみを記憶して使用す
る。
読出専用メモリーのような統計(疑似)ベクト
ル・フアイル(第1図)は年令及び性別などによ
つて分類しグループ化した標準音声から計算され
た100組又はそれ以上の不変モーメントの記憶に
使用される。これら各組の不変モーメントは“疑
似フアイル”を構成する。顧客の年令及び性別
は、分析するために使用されるべき疑似不変モー
メントの該当する組を決定する。分析装置18は
記憶装置(音声ベクトル)15に記憶されている
音声ベクトルと統計フアイル17からの疑似ベク
トルとを比較する。
分析装置18は顧客の音声ベクトルと疑似音声
ベクトルとを比較して重みベクトルを得る。特定
顧客の重みベクトルは記憶装置19に記憶され
る。分析装置は新たな顧客「K」が標準語句をn
回繰返して発声したものから得られた音声ベクト
ル(各音声に対して1つ)と、顧客「K」に対す
る代表的な疑似話者と思われる人々から得られた
統計フアイル17からの「m」個の統計音声ベク
トルとを分析する。この好適実施例に使用される
「m」の値は100である。すなわち、100個の疑似
音声ベクトルが計算され、統計フアイル17に記
憶される。
分析装置18は記憶装置15からの顧客Kの音
声ベクトルのための平均不変モーメントを次の式
から計算する。
i=1〜23(iはpqを表わし、その数はp+
q6に選定したので27個であるが、実際には4
個少い使用可能な23個から成り、iはそのp+q
の各次を表わす) MIijkは、上記から明らかなように、顧客
Kが発声した各音声ベクトルについての不変モー
メントMIpqを表わす。
エラー、すなわち、記憶装置15に記憶されて
いる顧客Kの各音声ベクトルと、(式2)によつ
て計算された平均不変モーメントとの差異又は誤
差は次の式から計算される j=1〜nとする。特定クラスの群の統計音声
ベクトルのそれぞれと(式2)で計算された平均
不変モーメントとの間のエラー(誤差)は次式か
ら計算される。
l=1〜mとする。hは統計ベクトル・フアイ
ルを示し、式3、4においてCikは不変モーメ
ントの第i番目成分に対する重みである。係数C
ikは顧客kに対する重みベクトルを構成する。
係数Cikはすべてのjとlに対してEkjを最
小にし、Ehlを最大にするように決定される。
(MIijkikをAijkとし、 (MIilhikをBilhで表わすと
(式3)、(式4)は次のような形に簡略化される j=1、nとする。
l=1、mとする。
すべてのjに対するEkjの最小化と、すべて
のlに対するEhlの最大化とはEkjの各成分
(すべてのjに対するCik・Aijk)を最小
にし、同時にEhlのすべての成分(すべての1
に対するCik・Bilh)を最大にすることに
よつて達成される。
ijk(j=1、n)とBilh(l=1、
m)に対する第i番目成分の平均値は第6図に表
わしたが次の式でも示される。
以上、説明したように、誤差Ekj(式5)の
i番目成分ikは最小とされ、差異Ehl(式
6)のi番目成分ihは最大とされなければな
らないが、それはihikが大きく、すべ
てのjに対する点Aijkikに接近し、す
べてのlに対する点Bilhihに接近して
いる場合であるということを第6図から見ること
ができる。すなわち、第6図に表わすように、顧
客KのAijkとその第i番目成分の平均値
ik(第6図の左手に示す)とは同一人のものの
ため、接近していることが望ましく、又、顧客K
と疑似音声とを明確に区別するため、疑似音声の
ilhとその第i番目成分の平均値ih(第
6図の右手に示す)とが接近していることが望ま
しい。ということは、ikihとの差が大
きく、離れているということであつて、それは、
自己の音声はできる限り接近し、他人の音声から
は明確に区別されることが望ましいということで
ある。故に分離関数は Sik=B−A/σ+σ
(式9) σikとσihとはそれぞれAijk(j=1、
n)とBilh(l=1、m)の標準偏差であ
り、すべてのjに対するEkjを最小にし、すべ
てのlに対するEhlを最高にするためのCik
に対する適切な値である。Sik=0の値はi
ikのときの場合に対して選ばれる。それ
は、lの数個の値に対するEhlのi番目成分が
jの数個の値に対するEkjの各対応する成分よ
り少いという明確な理由のためである。
ihikに対して Sik=0 他の場合は Sik=B−A/σ+σ
(式10) 異なるi、Sikに対するikの相対的大き
さを計算するために更にikによつて正規化さ
れる。従つて、すべてのjに対するEkjの最大
化とすべてのlに対するEhlの最大化のために
選ばれるCikの値は次のように選ばれる。
ihikに対して Cik=0 その他の場合は Cik=B−A/A(σ
σ)(式11) 第5A図〜第5D図は前述した等式の部分を計
算し記憶するために分析装置18で利用される流
れ線図を表わす。開始ブロツク79はブロツク8
0を動作させてiの値を1に初期設定する。ブロ
ツク81はSikの値を0に、jの値を1に設
定し、ブロツク82においてSikの部分和を
計算する。動作ブロツク83はjの現在値と音声
の合計数nの値とが等しいかどうかを比較する。
答がノーの場合はブロツク84でjの値に1を加
え、ブロツク82で次の部分和を計算する。jと
nとが等しい場合は部分和の算出は完了し、ブロ
ツク85がブロツク82からの完全和を使用して
ikの値を計算する。動作ブロツク86はiの
値が23に等しいかどうかを比較する。等しくない
場合は、ブロツク87でiの値に1を加えて再び
ブロツク81へ戻り、次のikの値の計算を行
なう。iの値が23になると、計算された各23個の
ikの値はブロツク88でメモリーに記憶され
る。
ブロツク89はiの初期値を1に設定する。ブ
ロツク90はSikの値を0に、jの値を1に
設定する。
ブロツク91ではSikの値とともにAi
の値が計算される。動作ブロツク92はjの
値がnに等しいかどうかを確認し、等しくない場
合はブロツク93でjの値に1を加え、ブロツク
91にAijkとSikの次の値を計算させ
る。jの値がnに等しい場合はブロツク91から
得られた和を利用してブロツク94がikの値
を計算する。
ブロツク95においては、偏差Sσikが0に
設定され、jの値を1に等しくする。ブロツク9
6はSσikの部分和を計算し、動作ブロツク9
7はjとnの値が等しいかどうかを確認すること
によつて部分和が完成されたかどうがを決定す
る。jとnとが等しくない場合はブロツク98で
jの値に1を加え、加算された次の部分和を計算
するためにブロツク96を再び動作させる。jの
計数とnとが等しくなつたときに偏差σikがブ
ロツク99で計算される。
ブロツク100〜109はBilhih
σihの値を計算するためにブロツク90〜99
で行なわれた計算と同様な計算を繰返す。
ブロツク110はihの数値がikの数値
よりも少いかどうかを確認し、少い場合はブロツ
ク112で重み係数Cikを0に設定する。ブロ
ツク110での比較の結果、ノーの答を出した場
合はブロツク111でCikの値の計算が行なわ
れる。比較ブロツク113はiの値を数値23と比
較し、iの値が23より少い場合はブロツク115
でiの値に1を加えてブロツク90に戻し、それ
を動作して増加したiの値に従い以下のブロツク
を再循環する。iの値が23に到達した場合は、ブ
ロツク113はイエスとなり、ブロツク114に
進んでCikの値を記憶装置19に記憶する。計
算及び記憶動作が完了すると停止ブロツク116
で分析を終了する。
エラー閾値も又記憶装置19に記憶され、顧客
Kに対してはT1Kで示される。このシステムでは
2つの異なる型のエラーを考慮した。その1つは
「正しい仮定の拒絶」と定義される型エラーで
あり、他の1つは「拒絶されるべきであつた仮定
の許容」として定義される型エラーである。閾
値T1Kは型エラーの発生可能性と型エラーの
発生可能性とが等しくなるように計算される。第
7図は型エラーと型エラーとの関係を表わし
たものである。
式4のエラー関数は下記の式に表わす関係を用
いてT1Kの値から引出された閾値T2Kと比較され
る。
T2K=〔型/型エラー比〕T1K 第7図からわかるように、型/型エラー比
を小さくすると、閾値T2Kは小さくなり(閾値が
第7図の右方に移動する)、同一性要求に対する
エラーの拒絶範囲は狭くなつて、検証の安全性が
低くなる。逆に、型/型エラー比を大きくす
ると、閾値T2Kは大きくなり(第7図の左方に移
動する)、同一性要求に対するエラーの許容範囲
が狭くなつて、検証の安定性が高くなる。
閾値T1Kは、音声ベクトルと同一人の他の音声
ベクトルとの比較から生じたエラーの値と、音声
ベクトルと統計フアイル・ベクトルとの比較から
生じたエラーの値との間の比率を50%に設定して
定める数値上の定数である。
記憶装置19に記憶されている顧客Kの各デー
タ項目はカード書込装置20によつてクレジツ
ト・カードに記録することができる。そのクレジ
ツト・カードは顧客に発行され、その顧客の使用
に供される。
第8図は会話検証システムの実施例の1つであ
る。
カード読取機21は顧客のカードを読取り、そ
のデータを記憶装置22へ供給するように設計さ
れる。そのデータは計算された顧客の不変モーメ
ント・ベクトル、重みベクトル及び計算された閾
値T1Kの値など、3つの成分から成る。
データが読取られ、記憶装置22へ記憶される
と、デイスプレイ24は顧客に標準語句を話すこ
とを要求するように表示する。各構成要素9,1
0,12及び14は第1図に表わした同一番号の
要素と同一のものであり、同じように動作する。
このようにして顧客の標準語句はコンピユータ1
4によつて音声ベクトルに変換される。
エラー関数は記憶装置22に記憶されている不
変モーメント・ベクトルの成分とコンピユータ装
置14で計算された音声ベクトルとの差異からコ
ンピユータ28で計算される。
エラー関数は次の式で表わされる。
(Cikは顧客Kの重みベクトルの第i番目の成
分である。) コンピユータ28で計算されたエラー関数は比
較器・決定装置31で調整可能エラー比較装置3
0からの閾値T2Kと比較される。装置30は記憶
されている顧客の閾値T1Kを受信して、システム
所有者が要求するレベルに閾値T1Kを調整する乗
算係数を供給する。
エラー関数出力は検証要求のためにT1Kから算
出された閾値T2Kと比較される。
比較器・決定装置31における比較の結果、そ
の決定はデイスプレイ32上にデイスプレイされ
る。顧客の同一性が否定されると、カードが機械
に捕獲されるか、カード読取機21から放出され
る前に、顧客に対して再度数回の検証を試みる機
会が与えられる。
この発明の基本的な理念内の変更は可能であ
る。
【図面の簡単な説明】
第1図は、この発明に従つて音声に関する不変
モーメントを発生するためのシステムのブロツク
線図、第2図は、標準語句の音声に対応する波形
の波形図、第3図は、第2図の波形から選ばれた
期間を標本化して拡大した波形部分を表わす波形
図、第4A図、第4B図、第4C図は、第1図に
表わされているシステムの1部の動作を表わす流
れ線図、第5A図、第5B図、第5C図、第5D
図は、同じく第1図に表わされているシステムの
第2部分の動作を表わす流れ線図、第6図は、こ
の発明に使用され、計算される語句の分布状態を
描いた分布図、第7図は、エラーの2つの型とそ
こに適用される閾値の選択との関係とを描いた線
図、第8図は、第1図のシステムとともに使用
し、発声音の許容と拒絶とを行なうことにより話
者を検証するために有用なシステムを表わしたブ
ロツク線図である。 10……増幅器・帯域濾波器;12……サンプ
ル・ホールド・A/D変換器;14……コンピユ
ータ装置;15……記憶装置;16……クロツク
源;17……疑似ベクトル・フアイル;18……
分析装置;19……記憶装置;20……カード書
込装置;21……カード読取機;22……記憶装
置;24……デイスプレイ;28……コンピユー
タ装置;30……調整可能エラー比較装置;31
……比較・決定装置;32……デイスプレイ。

Claims (1)

  1. 【特許請求の範囲】 1 (イ) 登録話者の発声音の標本から音声ベクト
    ルを算出し、 (ロ) 疑似発声音の標本から音声ベクトルを算出
    し、 (ハ) 算出した前記話者の音声ベクトルと算出した
    前記疑似発声音の音声ベクトルとを分析して両
    音声間の差異を表現するための重み係数を引出
    し、 (ニ) 前記話者に発行される安全カード上に前記算
    出した登録話者の音声ベクトルと前記重み係数
    とを記録し、 (ホ) 前記安全カードに記録されている音声ベクト
    ルと被検認話者について算出された音声ベクト
    ルとを比較して両者間の差異を決定し、 (ヘ) 前記工程(ホ)で決定された差異と前記記録され
    ている重み係数とを用いて、前記登録話者の音
    声と前記被検認話者の音声との同一性の度合を
    表わす量を計算し、その結果が同一性許容範囲
    内にある場合は前記登録話者と前記被検認話者
    との同一性を認容し、前記計算の結果が同一性
    拒絶範囲内にある場合は前記両話者の同一性を
    否定するようにする各工程から成り、 前記音声ベクトルは音声波形図形の大きさ、位
    置及び方向に影響されない不変モーメントに基づ
    いて構成することを特徴とする話者の同一性検認
    方法。 2 (イ) 登録話者が発声した標準語句を電気信号
    に変換する信号変換手段と、 (ロ) 前記電気信号を標本化して振幅値に変換する
    変換手段と、 (ハ) 前記振幅値に作用して前記振幅値の不変モー
    メントを算出する演算手段と、 (ニ) 前記不変モーメントを記憶する記憶手段と、 (ホ) 疑似話者が発声した標準語句に対する複数の
    不変モーメントを記憶する記憶手段と、 (ヘ) 前記各記憶手段に記憶された各前記不変モー
    メントを読出し、重み係数及び閾値を計算する
    分析手段と、 (ト) 前記登録話者の前記不変モーメントと前記計
    算した重み係数並びに閾値を記録する記録手段
    と、 (チ) 被検認話者が発声した標準語句の不変モーメ
    ントから成る音声ベクトルと記録されている前
    記登録話者の不変モーメントから成る音声ベク
    トルとの間の重みつき差異を計算し、これを少
    くとも1つの閾値と比較し、前記被検認話者の
    検認情報を出力する検認手段とを含み、話者の
    同一性を検認する検認装置。
JP2039477A 1976-03-01 1977-02-28 Automatic conversation inspecting system using instantaneous invariant Granted JPS52106204A (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US05/662,994 US4053710A (en) 1976-03-01 1976-03-01 Automatic speaker verification systems employing moment invariants

Publications (2)

Publication Number Publication Date
JPS52106204A JPS52106204A (en) 1977-09-06
JPS6217240B2 true JPS6217240B2 (ja) 1987-04-16

Family

ID=24660071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2039477A Granted JPS52106204A (en) 1976-03-01 1977-02-28 Automatic conversation inspecting system using instantaneous invariant

Country Status (6)

Country Link
US (1) US4053710A (ja)
JP (1) JPS52106204A (ja)
CA (1) CA1078066A (ja)
DE (1) DE2708569A1 (ja)
FR (1) FR2343292A1 (ja)
GB (1) GB1532944A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6428027U (ja) * 1987-08-08 1989-02-17

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2844156A1 (de) * 1978-10-10 1980-04-24 Philips Patentverwaltung Verfahren zum verifizieren eines sprechers
DE2845567A1 (de) * 1978-10-19 1980-04-30 Siemens Ag Personenkennkarte
JPS5876893A (ja) * 1981-10-30 1983-05-10 日本電気株式会社 音声認識装置
JPS59178587A (ja) * 1983-03-30 1984-10-09 Nec Corp 話者確認システム
GB2139389A (en) * 1983-04-29 1984-11-07 Voice Electronic Technology Li Identification apparatus
GB8607338D0 (en) * 1986-03-25 1986-04-30 Cockburn J Security system
JP2845876B2 (ja) * 1987-06-26 1999-01-13 キヤノン株式会社 音声情報処理方法
US4918731A (en) * 1987-07-17 1990-04-17 Ricoh Company, Ltd. Speech recognition method and apparatus
US4955070A (en) * 1988-06-29 1990-09-04 Viewfacts, Inc. Apparatus and method for automatically monitoring broadcast band listening habits
US5055658A (en) * 1988-07-25 1991-10-08 Cockburn John B Security system employing digitized personal physical characteristics
US5054083A (en) * 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
US5216720A (en) * 1989-05-09 1993-06-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of telephone calling card customers
US5020107A (en) * 1989-12-04 1991-05-28 Motorola, Inc. Limited vocabulary speech recognition system
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
EP0572531A4 (en) * 1991-02-22 1995-03-22 Seaway Technologies Inc ACOUSTIC METHOD AND APPARATUS FOR IDENTIFYING HUMAN SOUND SOURCES.
US5430827A (en) * 1993-04-23 1995-07-04 At&T Corp. Password verification system
US5940476A (en) 1996-06-28 1999-08-17 Distributed Software Development, Inc. System and method for identifying an unidentified caller
US6205204B1 (en) 1996-06-28 2001-03-20 Distributed Software Development, Inc. System and method for identifying an unidentified person using an ambiguity-resolution criterion
US6529881B2 (en) 1996-06-28 2003-03-04 Distributed Software Development, Inc. System and method for identifying an unidentified customer at the point of sale
US7006605B1 (en) * 1996-06-28 2006-02-28 Ochopee Big Cypress Llc Authenticating a caller before providing the caller with access to one or more secured resources
US5901203A (en) 1996-06-28 1999-05-04 Distributed Software Development, Inc. Computer-based system and method for identifying an unidentified caller
US5915001A (en) 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
DE19726265C2 (de) * 1997-06-20 2001-08-02 Deutsche Telekom Ag Verfahren zum Betreiben einer Anlage zur Nutzung einer Chipkarte
CA2809775C (en) * 1999-10-27 2017-03-21 The Nielsen Company (Us), Llc Audio signature extraction and correlation
US20020010715A1 (en) * 2001-07-26 2002-01-24 Garry Chinn System and method for browsing using a limited display device
CN1666205A (zh) * 2001-10-17 2005-09-07 Npx科技有限公司 在线接收的个人标识的验证
WO2008103738A2 (en) * 2007-02-20 2008-08-28 Nielsen Media Research, Inc. Methods and apparatus for characterizing media
EP2156583B1 (en) 2007-05-02 2018-06-06 The Nielsen Company (US), LLC Methods and apparatus for generating signatures
JP5414684B2 (ja) * 2007-11-12 2014-02-12 ザ ニールセン カンパニー (ユー エス) エルエルシー 音声透かし、透かし検出、および透かし抽出を実行する方法および装置
US8457951B2 (en) * 2008-01-29 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for performing variable black length watermarking of media
CN102982810B (zh) 2008-03-05 2016-01-13 尼尔森(美国)有限公司 生成签名的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3466394A (en) * 1966-05-02 1969-09-09 Ibm Voice verification system
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
US3705384A (en) * 1971-08-10 1972-12-05 Eric C Wahlberg Business transaction apparatus
US3919479A (en) * 1972-09-21 1975-11-11 First National Bank Of Boston Broadcast signal identification system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6428027U (ja) * 1987-08-08 1989-02-17

Also Published As

Publication number Publication date
JPS52106204A (en) 1977-09-06
FR2343292A1 (fr) 1977-09-30
FR2343292B1 (ja) 1979-05-11
CA1078066A (en) 1980-05-20
GB1532944A (en) 1978-11-22
US4053710A (en) 1977-10-11
DE2708569A1 (de) 1977-09-08

Similar Documents

Publication Publication Date Title
JPS6217240B2 (ja)
Naik Speaker verification: A tutorial
EP0744734B1 (en) Speaker verification method and apparatus using mixture decomposition discrimination
US6401063B1 (en) Method and apparatus for use in speaker verification
US5339385A (en) Speaker verifier using nearest-neighbor distance measure
US7447632B2 (en) Voice authentication system
KR100406307B1 (ko) 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
US6496800B1 (en) Speaker verification system and method using spoken continuous, random length digit string
JPS6226039B2 (ja)
AU8649691A (en) Methods and apparatus for verifying the originator of a sequence of operations
US6556969B1 (en) Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding
EP0424071A2 (en) Speaker recognition
Gomez-Alanis et al. Performance evaluation of front-and back-end techniques for ASV spoofing detection systems based on deep features
Singh et al. Linear Prediction Residual based Short-term Cepstral Features for Replay Attacks Detection.
KR101925252B1 (ko) 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치
Sukor et al. Speaker identification system using MFCC procedure and noise reduction method
Montalvao Filho et al. Multimodal biometric fusion—joint typist (keystroke) and speaker verification
Chauhan et al. A review of automatic speaker recognition system
Lee A tutorial on speaker and speech verification
Naik et al. Evaluation of a high performance speaker verification system for access control
JP4440414B2 (ja) 話者照合装置及び方法
Alam On the use of fisher vector encoding for voice spoofing detection
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Chakraborty et al. An improved approach to open set text-independent speaker identification (OSTI-SI)
JP2001350494A (ja) 照合装置及び照合方法