JPS6217240B2 - - Google Patents
Info
- Publication number
- JPS6217240B2 JPS6217240B2 JP52020394A JP2039477A JPS6217240B2 JP S6217240 B2 JPS6217240 B2 JP S6217240B2 JP 52020394 A JP52020394 A JP 52020394A JP 2039477 A JP2039477 A JP 2039477A JP S6217240 B2 JPS6217240 B2 JP S6217240B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- calculated
- speech
- block
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 239000013598 vector Substances 0.000 claims description 42
- 238000012795 verification Methods 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 6
- 238000003909 pattern recognition Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/20—Individual registration on entry or exit involving the use of a pass
- G07C9/22—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
- G07C9/25—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
- G07C9/257—Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition electronically
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Collating Specific Patterns (AREA)
- Electrically Operated Instructional Devices (AREA)
- Image Analysis (AREA)
Description
【発明の詳細な説明】
この発明は音声認識の分野に関し、特に比較目
的のために選ばれ、計算された音声の不変モーメ
ントを利用して、予め発声し、記録されている選
ばれた音声に対して現在発声した同一話者の選ば
れた音声を比較することにより、話者の同一性を
検証又は認識するための方法と装置に関する。
的のために選ばれ、計算された音声の不変モーメ
ントを利用して、予め発声し、記録されている選
ばれた音声に対して現在発声した同一話者の選ば
れた音声を比較することにより、話者の同一性を
検証又は認識するための方法と装置に関する。
金銭の前借を認めている取引、基金の転送、信
用貸の許可又は他の同様な業務上の取引は磁気的
に符号化された情報を持つクレジツト・カード又
は他の型式の証印を使用して、無人事務機械、例
えば自動金銭出納機のような端末機を顧客自身が
動作して行なう方向に指向している。その場合顧
客が実際にクレジツト・カードの正しい所有者で
あるか、又はその事務機械の使用が認められた者
であるかどうかを確証するため、使用する装置の
中に数々の安全装置が設けられている。現在使用
されている1型式のシステムは磁気的に符号化さ
れたクレジツト・カードで作動し、クレジツト・
カードに対する検証は、そのカードを発行したと
きにその顧客に割当てた秘密番号、すなわち端末
装置に入力する顧客キーによつて行なわれる。事
務装置は顧客が入力した秘密番号を、カード自身
に符号化されているが、又は中央コンピユータ・
システムに記憶されているそれに相当する数と比
較する。挿入された数と記録されている数とが一
致すると顧客は機械を動作することが許される。
用貸の許可又は他の同様な業務上の取引は磁気的
に符号化された情報を持つクレジツト・カード又
は他の型式の証印を使用して、無人事務機械、例
えば自動金銭出納機のような端末機を顧客自身が
動作して行なう方向に指向している。その場合顧
客が実際にクレジツト・カードの正しい所有者で
あるか、又はその事務機械の使用が認められた者
であるかどうかを確証するため、使用する装置の
中に数々の安全装置が設けられている。現在使用
されている1型式のシステムは磁気的に符号化さ
れたクレジツト・カードで作動し、クレジツト・
カードに対する検証は、そのカードを発行したと
きにその顧客に割当てた秘密番号、すなわち端末
装置に入力する顧客キーによつて行なわれる。事
務装置は顧客が入力した秘密番号を、カード自身
に符号化されているが、又は中央コンピユータ・
システムに記憶されているそれに相当する数と比
較する。挿入された数と記録されている数とが一
致すると顧客は機械を動作することが許される。
他の先行するシステムは指紋の比較を利用し、
顧客が自己の指又は手をスキヤナの走査上に置
き、顧客の指紋を利用したキーの特徴を表わす信
号をスキヤナから発生させ、それと顧客が所持す
るクレジツト又はアクセス・カードに記録されて
いるキーの特長とによつてチエツクする。
顧客が自己の指又は手をスキヤナの走査上に置
き、顧客の指紋を利用したキーの特徴を表わす信
号をスキヤナから発生させ、それと顧客が所持す
るクレジツト又はアクセス・カードに記録されて
いるキーの特長とによつてチエツクする。
特に興味ある型式のシステムとしては、顧客自
身の同一性を検証するために顧客の音声を使用す
るシステムである。先行するシステムは顧客に検
証語句を発声させ、それと予め記録されている標
準語句とを比較することによつて動作するものが
開発されている。標準語句はクレジツト・カード
又はシステムの中に記録することが可能である。
身の同一性を検証するために顧客の音声を使用す
るシステムである。先行するシステムは顧客に検
証語句を発声させ、それと予め記録されている標
準語句とを比較することによつて動作するものが
開発されている。標準語句はクレジツト・カード
又はシステムの中に記録することが可能である。
そのような方法において、検証の信頼性を確保
するために数々の方式が開発された。代表的な音
声認識システムの開示には次のようなものがあ
る。ジエイ・ダヴリユー・ジヨーンズ(J.W.
Jones)による米国特許第3509280号「アダプテ
イブ・スピーチ・パターン認識システム
(Adaptive Speech Pattern Recognition
System)」、エル・アール・ラ ナー(L.R.
Rabiner)他による米国特許第3649765号「改良
型ホーマツト・エクストラクタを使用したスピー
チ分析合成システム(Speech Analyzer−
Synthesizer System Employing Improved
Format Extractor)」、ジー・アール・ドデイン
グトン(G.R.Doddington)他による米国特許第
3700815号「音響パラメータの非直線性時間合わ
せによる自動音声検証(Automatic Speaker
Verification By Non−Linear Time Alignment
of Acoustic Parameters)」のほか、ブローデス
(Brodes)ほかによる米国特許第3812291号「信
号パターン符号化器と分類器(Signal Pattern
Encoder And Classifier)」及びサコエ
(Sakoe)ほかによる米国特許第3816722号「類似
コンピユータから成り、複パターン及びパターン
認識システム間の類似性を計算するコンピユータ
(Computer For Calculating The Similarity
Between Patterns And Pattern Recognition
System Comprising The Similarity
Computer)」などがある。技術の水準を表わす
興味ある刊行物としては、アメリカ音響学会誌第
40巻第5号1966年第966頁−第978頁(Journal of
the Acoustical Society of America Vol.40、No.
5、1966、PP.966−978)に掲載されたケー・ピ
ー・リー(K.P.Li)ほかによる「アダプテイブ・
システムを使用した音声検証の実験研究
(Experimental Studies In Speaker
Verification、Using An Adaptive System)」、
同じくアメリカ音響学会誌第46巻第4号(第2
部)1969年第1026頁−第1029頁に掲載されたジエ
イ・イー・ラツク(J.E.Luck)による「セプス
トラル測定を使用した自動音声検証(Automatic
Speaker Verification Using Cepstral
Measurements)」、更に同じくアメリカ音響学会
誌第35巻第3号第354頁−第358頁に掲載されたエ
ス・プルザンスキイ(S.Pruzansky)による「自
動語り手認識に使用するパターン整合方法
(Pattern Matching Procedure For Automatic
Talker Recognition)」及び情報理論のアイ・ア
ール・イー会報、1962年、第179頁−第187頁
(IRE Transactions On Information Theory、
1962、PP.179−187)に掲載されたミン・クエ
イ・ヒユー(Ming−Kuei Hu)による「不変モ
ーメントによる可視パターン認識(Visual
Pattern Recognition By Moment Invariants)」
などがある。
するために数々の方式が開発された。代表的な音
声認識システムの開示には次のようなものがあ
る。ジエイ・ダヴリユー・ジヨーンズ(J.W.
Jones)による米国特許第3509280号「アダプテ
イブ・スピーチ・パターン認識システム
(Adaptive Speech Pattern Recognition
System)」、エル・アール・ラ ナー(L.R.
Rabiner)他による米国特許第3649765号「改良
型ホーマツト・エクストラクタを使用したスピー
チ分析合成システム(Speech Analyzer−
Synthesizer System Employing Improved
Format Extractor)」、ジー・アール・ドデイン
グトン(G.R.Doddington)他による米国特許第
3700815号「音響パラメータの非直線性時間合わ
せによる自動音声検証(Automatic Speaker
Verification By Non−Linear Time Alignment
of Acoustic Parameters)」のほか、ブローデス
(Brodes)ほかによる米国特許第3812291号「信
号パターン符号化器と分類器(Signal Pattern
Encoder And Classifier)」及びサコエ
(Sakoe)ほかによる米国特許第3816722号「類似
コンピユータから成り、複パターン及びパターン
認識システム間の類似性を計算するコンピユータ
(Computer For Calculating The Similarity
Between Patterns And Pattern Recognition
System Comprising The Similarity
Computer)」などがある。技術の水準を表わす
興味ある刊行物としては、アメリカ音響学会誌第
40巻第5号1966年第966頁−第978頁(Journal of
the Acoustical Society of America Vol.40、No.
5、1966、PP.966−978)に掲載されたケー・ピ
ー・リー(K.P.Li)ほかによる「アダプテイブ・
システムを使用した音声検証の実験研究
(Experimental Studies In Speaker
Verification、Using An Adaptive System)」、
同じくアメリカ音響学会誌第46巻第4号(第2
部)1969年第1026頁−第1029頁に掲載されたジエ
イ・イー・ラツク(J.E.Luck)による「セプス
トラル測定を使用した自動音声検証(Automatic
Speaker Verification Using Cepstral
Measurements)」、更に同じくアメリカ音響学会
誌第35巻第3号第354頁−第358頁に掲載されたエ
ス・プルザンスキイ(S.Pruzansky)による「自
動語り手認識に使用するパターン整合方法
(Pattern Matching Procedure For Automatic
Talker Recognition)」及び情報理論のアイ・ア
ール・イー会報、1962年、第179頁−第187頁
(IRE Transactions On Information Theory、
1962、PP.179−187)に掲載されたミン・クエ
イ・ヒユー(Ming−Kuei Hu)による「不変モ
ーメントによる可視パターン認識(Visual
Pattern Recognition By Moment Invariants)」
などがある。
上記の最後に記載した論文は、位置、寸法、方
向に関係なく幾何学的パターン及びアルハベツト
文字などの可視パターンを認識するに有益な理論
を確立したものである。この発明はこの理論を最
も良く改良して話者の標準化された音声を検証し
認識するシステムに具体化したものである。
向に関係なく幾何学的パターン及びアルハベツト
文字などの可視パターンを認識するに有益な理論
を確立したものである。この発明はこの理論を最
も良く改良して話者の標準化された音声を検証し
認識するシステムに具体化したものである。
この発明に係るシステムは音声をそれに相当す
る一組の不変モーメントに変換するシステムであ
る。すなわち、同一話者による同一語句の各別個
な発声を複数回行い、それを夫々の音声ベクトル
に対応する複数組の不変モーメントの編集に使用
する。
る一組の不変モーメントに変換するシステムであ
る。すなわち、同一話者による同一語句の各別個
な発声を複数回行い、それを夫々の音声ベクトル
に対応する複数組の不変モーメントの編集に使用
する。
次に、各組の算出した不変モーメントを使用し
て平均音声ベクトルを算出する。算出された平均
音声ベクトルに対し、後で検証のときに発声した
音声ベクトルを比較するようにした装置を設け、
それで話者の検証を行なうことができる。
て平均音声ベクトルを算出する。算出された平均
音声ベクトルに対し、後で検証のときに発声した
音声ベクトルを比較するようにした装置を設け、
それで話者の検証を行なうことができる。
詐称又は疑似話者を認容するエラーは疑似話者
から発生した複数組の不変モーメントを使用し
て、それと検証するべき話者の不変モーメントと
を比較することにより最少限に留めることができ
る。すなわち、検証しようとする話者の年令及び
性別などについて最も合致するものに対応する1
群の予め計算し記憶してある不変モーメントの各
組に対して検証しようとする話者の音声を重ね合
わせ比較してみて相関の程度を定め、閾値を決定
して許容レベルの設定が行われる。
から発生した複数組の不変モーメントを使用し
て、それと検証するべき話者の不変モーメントと
を比較することにより最少限に留めることができ
る。すなわち、検証しようとする話者の年令及び
性別などについて最も合致するものに対応する1
群の予め計算し記憶してある不変モーメントの各
組に対して検証しようとする話者の音声を重ね合
わせ比較してみて相関の程度を定め、閾値を決定
して許容レベルの設定が行われる。
この発明の主な目的は新規な声音検証システム
を提供することである。
を提供することである。
更にこの発明の目的は、標準語句の音声から計
算された不変モーメントを利用する検証システム
を提供することである。
算された不変モーメントを利用する検証システム
を提供することである。
この発明の他の目的は、標準語句を発声した各
話者の音声を変換して記憶し比較するためのパラ
メータを選択するシステムを提供することであ
る。
話者の音声を変換して記憶し比較するためのパラ
メータを選択するシステムを提供することであ
る。
次にこの発明の実施例を添付図面とともに詳細
に説明する。
に説明する。
第1図は顧客の音声の基準を設定するためのシ
ステムのブロツク線図である。顧客は標準語句を
マイクロホンに向つて発声する。この実施例にお
いて使用する標準語句は「ウイ・ゴ−・アウエイ
(We go away)」である。ブロツク10には増幅
器と130Hz〜3500Hzの通過帯域を有する帯域濾波
器とが含まれ、ブロツク10(増幅器・帯域濾波
器)の出力はマイクロホン9によつて検波された
音に比例した増幅特性を持つ電気信号である。
ステムのブロツク線図である。顧客は標準語句を
マイクロホンに向つて発声する。この実施例にお
いて使用する標準語句は「ウイ・ゴ−・アウエイ
(We go away)」である。ブロツク10には増幅
器と130Hz〜3500Hzの通過帯域を有する帯域濾波
器とが含まれ、ブロツク10(増幅器・帯域濾波
器)の出力はマイクロホン9によつて検波された
音に比例した増幅特性を持つ電気信号である。
第2図は、ブロツク10の出力に表われる信号
の型を表わす。ブロツク12(サンプル又は標本
化・A/D変換器)はクロツク源16からの標本
化信号Xiを用いてブロツク10からの電気信号
を受信する。すなわち、ブロツク12は信号Xi
の期間で入力信号を標本化するように動作する。
の型を表わす。ブロツク12(サンプル又は標本
化・A/D変換器)はクロツク源16からの標本
化信号Xiを用いてブロツク10からの電気信号
を受信する。すなわち、ブロツク12は信号Xi
の期間で入力信号を標本化するように動作する。
第3図は第2図に表わした波形図に対して標本
化時間と振幅とを加えたその波形の拡大部分を表
わす。例えば、標本化時間はXiであり、標本化
された振幅はYiである。これらの振幅の信号は
標本化装置ブロツク12のアナログ−デイジタル
変換器によりデイジタル信号に変換される。標本
のデイジタル等価値はYiで表わされ、語句「ウ
イ・ゴー・アウエイ」の音声は約0.8−1.2秒の時
間がかかり、更に、この実施例における標本化ク
ロツクXiの標本化速度は毎秒10000サンプルであ
るから、各発声語句ごとに約10000の振幅サンプ
ルYiが得られる。1群の不変モーメントはコン
ピユータ装置14を使用して特に発声した語句に
ついて算出される。この発明で使用する2次元波
形(パターン)のための不変モーメントは、2次
元パターン認識では周知のX及びY方向に沿つた
波形の位置と寸法には無関係な連続形式で表現し
た波形のモーメント“∫∫AXpYqdxdy”(この
式でpとqの値は正の整数である。)から導き出
すことができるその離散的表現である下記の(式
1)から算出される測定値である。上式は図形又
は波形の位置や大きさの変化に拘わらず同一の図
形を同一と判断することができるから図形認識に
は非常に便利であるが、パラメータの項数が多
く、又高次の項では計算がかなり複雑であるとい
う欠点を有する。
化時間と振幅とを加えたその波形の拡大部分を表
わす。例えば、標本化時間はXiであり、標本化
された振幅はYiである。これらの振幅の信号は
標本化装置ブロツク12のアナログ−デイジタル
変換器によりデイジタル信号に変換される。標本
のデイジタル等価値はYiで表わされ、語句「ウ
イ・ゴー・アウエイ」の音声は約0.8−1.2秒の時
間がかかり、更に、この実施例における標本化ク
ロツクXiの標本化速度は毎秒10000サンプルであ
るから、各発声語句ごとに約10000の振幅サンプ
ルYiが得られる。1群の不変モーメントはコン
ピユータ装置14を使用して特に発声した語句に
ついて算出される。この発明で使用する2次元波
形(パターン)のための不変モーメントは、2次
元パターン認識では周知のX及びY方向に沿つた
波形の位置と寸法には無関係な連続形式で表現し
た波形のモーメント“∫∫AXpYqdxdy”(この
式でpとqの値は正の整数である。)から導き出
すことができるその離散的表現である下記の(式
1)から算出される測定値である。上式は図形又
は波形の位置や大きさの変化に拘わらず同一の図
形を同一と判断することができるから図形認識に
は非常に便利であるが、パラメータの項数が多
く、又高次の項では計算がかなり複雑であるとい
う欠点を有する。
その欠点を除去するために、この発明では、上
記のような2次元波形の連続形式のモーメントの
式の代りに、下記(式1)で示す如く、その2次
元波形の不変モーメントを個別的(離散的)デイ
ジタル的な表現で表わすようにした方程式を利用
して、各発声から23個の不変モーメントを算出
し、それを音声波形の識別に使用することにし
た。
記のような2次元波形の連続形式のモーメントの
式の代りに、下記(式1)で示す如く、その2次
元波形の不変モーメントを個別的(離散的)デイ
ジタル的な表現で表わすようにした方程式を利用
して、各発声から23個の不変モーメントを算出
し、それを音声波形の識別に使用することにし
た。
このように不変モーメントの個別的な表現形式
を利用することにより、上記の欠点を除去するほ
か、その連続形式ではなし得なかつた次のような
特徴ある有利な効果を提供することができた。
を利用することにより、上記の欠点を除去するほ
か、その連続形式ではなし得なかつた次のような
特徴ある有利な効果を提供することができた。
(イ) この発明で使用する不変モーメントMIpqは
デイジタル表現であるからデイジタル・システ
ムで簡単に演算できる上、比較、エラー及び同
一性の判断などの処理を容易にすることができ
る。
デイジタル表現であるからデイジタル・システ
ムで簡単に演算できる上、比較、エラー及び同
一性の判断などの処理を容易にすることができ
る。
(ロ) MIpqの各成分の値は高次(この実施例で
は、p+q6の23個;希望によりこれ以上で
もよい)まで簡単に演算することができるの
で、入力した波形を唯一的に他の波形から区別
しうるように特徴づけるため、識別を厳しくす
ることができ、同一性の判断で誤差又はエラー
を少くすることができる。
は、p+q6の23個;希望によりこれ以上で
もよい)まで簡単に演算することができるの
で、入力した波形を唯一的に他の波形から区別
しうるように特徴づけるため、識別を厳しくす
ることができ、同一性の判断で誤差又はエラー
を少くすることができる。
(ハ) 入力した波形を特徴づけるに必要なMIpqの
成分の数(この実施例では23個)は発声語句の
サンプル数(この実施例では10000)に比較し
て相当少いので、他の方式に比べてメモリーの
数が少くてよい。
成分の数(この実施例では23個)は発声語句の
サンプル数(この実施例では10000)に比較し
て相当少いので、他の方式に比べてメモリーの
数が少くてよい。
上記で説明したこの発明で利用する2次元第
(p+q)次の不変モーメントは次の(式1)で
与えられ、計算される。
(p+q)次の不変モーメントは次の(式1)で
与えられ、計算される。
N=標本数
Yi=時間Xiにおいて標本化した入力信号の数値
化した値及びはそれぞれXi及びYiの分布の
平均値 各話者の標本音声について計算し、その音声ベ
クトルを構成する第(p+q)次の各不変モーメ
ントを順次算出する。ここで、p及びqの値はそ
れぞれ整数であり、この実施例では、pqで表わ
すp+qの値を経験上から6以下(p+q6)
に選ぶことにした。このpqは、例えば、1と2
に選ぶとMI12と表わされ、p+qは1+2=3
となる。
化した値及びはそれぞれXi及びYiの分布の
平均値 各話者の標本音声について計算し、その音声ベ
クトルを構成する第(p+q)次の各不変モーメ
ントを順次算出する。ここで、p及びqの値はそ
れぞれ整数であり、この実施例では、pqで表わ
すp+qの値を経験上から6以下(p+q6)
に選ぶことにした。このpqは、例えば、1と2
に選ぶとMI12と表わされ、p+qは1+2=3
となる。
算出された不変モーメントは、例えばコンピユ
ータの記憶装置のように記憶装置15に記憶され
る。使用可能な基準を設定するために、話者に複
数回標準語句を発声させることが必要である。話
者に10回類似する語句を発声させると、その語句
に対する不変モーメントは平均化されたときに高
度に信頼性のある標準を提供することができる。
従つて、話者は更に9回標準語句を発声すること
を要求されるから、記憶装置15内には23個の不
変モーメント群を更に9個記憶する記憶容量を必
要とする。
ータの記憶装置のように記憶装置15に記憶され
る。使用可能な基準を設定するために、話者に複
数回標準語句を発声させることが必要である。話
者に10回類似する語句を発声させると、その語句
に対する不変モーメントは平均化されたときに高
度に信頼性のある標準を提供することができる。
従つて、話者は更に9回標準語句を発声すること
を要求されるから、記憶装置15内には23個の不
変モーメント群を更に9個記憶する記憶容量を必
要とする。
第4A図〜第4C図は式1を基本にして不変モ
ーメントを計算するために、コンピユータ装置1
4を使用する方法を示した流れ線図である。明細
書全体を通じて符号i,j,p,q,x,yは小
文字で記載してあるが、図面は流れ線図の記載に
関する基準に適合させるため、ある図面ではそれ
らの符号を大文字で記載したものがある。それら
は水文字小文字の違いはあつても、当然同一符号
であるということを理解するべきである。
ーメントを計算するために、コンピユータ装置1
4を使用する方法を示した流れ線図である。明細
書全体を通じて符号i,j,p,q,x,yは小
文字で記載してあるが、図面は流れ線図の記載に
関する基準に適合させるため、ある図面ではそれ
らの符号を大文字で記載したものがある。それら
は水文字小文字の違いはあつても、当然同一符号
であるということを理解するべきである。
開始ブロツク50はコンピユータ装置14に記
憶されている標本yiの読取りを開始する。最初の
数個の標本は発声した音声ではなく、雑音か又は
他の無関係な信号かもしれないので、閾値レベル
は最初の標本及びそれに続く標本が実際に発声し
た音声についての真の標本であることを保証でき
るような値に選ばれる。ブロツク51ではNは1
に設定し、ブロツク52で標本yを読取る。動作
ブロツク53では標本yを選ばれた閾値レベルと
比較して、現に読取られた標本が事実最初の有効
標本Y1かどうかを確認する。その比較の結果、
ノーの場合は次のy標本が読取られて閾値レベル
と比較される。そのように、イエスの応答がある
まで比較動作が続けられる。
憶されている標本yiの読取りを開始する。最初の
数個の標本は発声した音声ではなく、雑音か又は
他の無関係な信号かもしれないので、閾値レベル
は最初の標本及びそれに続く標本が実際に発声し
た音声についての真の標本であることを保証でき
るような値に選ばれる。ブロツク51ではNは1
に設定し、ブロツク52で標本yを読取る。動作
ブロツク53では標本yを選ばれた閾値レベルと
比較して、現に読取られた標本が事実最初の有効
標本Y1かどうかを確認する。その比較の結果、
ノーの場合は次のy標本が読取られて閾値レベル
と比較される。そのように、イエスの応答がある
まで比較動作が続けられる。
読取られた最初の真の標本はi=1が設定され
ることにより、y1と認定され、ブロツク54で
記憶される。ブロツク54ではiを1だけ加算
し、ブロツク55に進んでy2で表わされる次の
標本を読取る。動作ブロツク56では、第i番目
の標本と第i番目のために予め選ばれた限界とを
比較し、ブロツク55で読取られた特定の標本yi
が希望する最後の標本かどうかを確める。答がノ
ーの場合はブロツク57でNを1だけ加算し、読
取られたyiを記憶する。答がイエスの場合は動作
ブロツク56からブロツク58に進み、不変モー
メントMI10とMI01をその初期状態である
「0」に設定する。ブロツク59はiを1に設定
し、次にブロツク60に進んでMI10とMF01
の計算を開始する。ブロツク61は現在のiの値
を1だけ加算し、ブロツク62で現に加算された
iの値を記憶中のNの値と等しいかどうかを比較
する。答がノーであれば更にMI10とMI01の
計算が行なわれ、答がイエスであればブロツク6
3に示した演算動作を行いとの値が計算され
る。
ることにより、y1と認定され、ブロツク54で
記憶される。ブロツク54ではiを1だけ加算
し、ブロツク55に進んでy2で表わされる次の
標本を読取る。動作ブロツク56では、第i番目
の標本と第i番目のために予め選ばれた限界とを
比較し、ブロツク55で読取られた特定の標本yi
が希望する最後の標本かどうかを確める。答がノ
ーの場合はブロツク57でNを1だけ加算し、読
取られたyiを記憶する。答がイエスの場合は動作
ブロツク56からブロツク58に進み、不変モー
メントMI10とMI01をその初期状態である
「0」に設定する。ブロツク59はiを1に設定
し、次にブロツク60に進んでMI10とMF01
の計算を開始する。ブロツク61は現在のiの値
を1だけ加算し、ブロツク62で現に加算された
iの値を記憶中のNの値と等しいかどうかを比較
する。答がノーであれば更にMI10とMI01の
計算が行なわれ、答がイエスであればブロツク6
3に示した演算動作を行いとの値が計算され
る。
ブロツク64はp1、p、q及びjの初期の値
を設定する。動作ブロツク65はpの値が「0」
であるかどうかを確める。もし「0」でなければ
ブロツク67へ進み、pの値は1が減じられ、q
の値に1を加えられる。又T、T1及びT2は
「0」に設定され、ブロツク68に進んでiの値
を1に設定する。ブロツク69では、T、T1、
T2の値が計算される。ブロツク70ではブロツ
ク69における計算の完了後にiに1を加算す
る。比較ブロツク71はiとNの値を比較し、等
しくない場合は再びブロツク69に戻り、加算し
たiの値でT、T1及びT2の値を計算する。iが
Nに等しい場合はブロツク69によつて要求され
るすべての計算は完了したことになる。
を設定する。動作ブロツク65はpの値が「0」
であるかどうかを確める。もし「0」でなければ
ブロツク67へ進み、pの値は1が減じられ、q
の値に1を加えられる。又T、T1及びT2は
「0」に設定され、ブロツク68に進んでiの値
を1に設定する。ブロツク69では、T、T1、
T2の値が計算される。ブロツク70ではブロツ
ク69における計算の完了後にiに1を加算す
る。比較ブロツク71はiとNの値を比較し、等
しくない場合は再びブロツク69に戻り、加算し
たiの値でT、T1及びT2の値を計算する。iが
Nに等しい場合はブロツク69によつて要求され
るすべての計算は完了したことになる。
ブロツク72においては、T,T1及びT2の
値を使用して不変モーメントMIpqを計算し、ブ
ロツク73においてコンピユータ装置14に記憶
する。ブロツク74はJの値に1を加算する。j
の値が28に等しくない場合は、プログラムは再び
ブロツク65へ戻り、pの値を「0」と比較す
る。pの値が「0」の場合はプログラムはブロツ
ク66へ向い、p1の値に1を加算し、pの値を
p1の値と等しくし、qの値を−1に設定する。
プログラムはその後ブロツク66から67へ移動
する。
値を使用して不変モーメントMIpqを計算し、ブ
ロツク73においてコンピユータ装置14に記憶
する。ブロツク74はJの値に1を加算する。j
の値が28に等しくない場合は、プログラムは再び
ブロツク65へ戻り、pの値を「0」と比較す
る。pの値が「0」の場合はプログラムはブロツ
ク66へ向い、p1の値に1を加算し、pの値を
p1の値と等しくし、qの値を−1に設定する。
プログラムはその後ブロツク66から67へ移動
する。
jの計数が28に等しい場合はブロツク75は動
作をブロツク76へ移動することを決め、ブロツ
ク76で終了する。
作をブロツク76へ移動することを決め、ブロツ
ク76で終了する。
プログラムが終了すると、23個の不変モーメン
トMIpqが記憶装置15に記憶される。上記(式
1)の演算では、MIpqは27個計算されることに
なるが、そのうちMI10,MI01,MI20及び
MI02の4個はすべての話者に対して定数であ
るから記憶されず、23個のみを記憶して使用す
る。
トMIpqが記憶装置15に記憶される。上記(式
1)の演算では、MIpqは27個計算されることに
なるが、そのうちMI10,MI01,MI20及び
MI02の4個はすべての話者に対して定数であ
るから記憶されず、23個のみを記憶して使用す
る。
読出専用メモリーのような統計(疑似)ベクト
ル・フアイル(第1図)は年令及び性別などによ
つて分類しグループ化した標準音声から計算され
た100組又はそれ以上の不変モーメントの記憶に
使用される。これら各組の不変モーメントは“疑
似フアイル”を構成する。顧客の年令及び性別
は、分析するために使用されるべき疑似不変モー
メントの該当する組を決定する。分析装置18は
記憶装置(音声ベクトル)15に記憶されている
音声ベクトルと統計フアイル17からの疑似ベク
トルとを比較する。
ル・フアイル(第1図)は年令及び性別などによ
つて分類しグループ化した標準音声から計算され
た100組又はそれ以上の不変モーメントの記憶に
使用される。これら各組の不変モーメントは“疑
似フアイル”を構成する。顧客の年令及び性別
は、分析するために使用されるべき疑似不変モー
メントの該当する組を決定する。分析装置18は
記憶装置(音声ベクトル)15に記憶されている
音声ベクトルと統計フアイル17からの疑似ベク
トルとを比較する。
分析装置18は顧客の音声ベクトルと疑似音声
ベクトルとを比較して重みベクトルを得る。特定
顧客の重みベクトルは記憶装置19に記憶され
る。分析装置は新たな顧客「K」が標準語句をn
回繰返して発声したものから得られた音声ベクト
ル(各音声に対して1つ)と、顧客「K」に対す
る代表的な疑似話者と思われる人々から得られた
統計フアイル17からの「m」個の統計音声ベク
トルとを分析する。この好適実施例に使用される
「m」の値は100である。すなわち、100個の疑似
音声ベクトルが計算され、統計フアイル17に記
憶される。
ベクトルとを比較して重みベクトルを得る。特定
顧客の重みベクトルは記憶装置19に記憶され
る。分析装置は新たな顧客「K」が標準語句をn
回繰返して発声したものから得られた音声ベクト
ル(各音声に対して1つ)と、顧客「K」に対す
る代表的な疑似話者と思われる人々から得られた
統計フアイル17からの「m」個の統計音声ベク
トルとを分析する。この好適実施例に使用される
「m」の値は100である。すなわち、100個の疑似
音声ベクトルが計算され、統計フアイル17に記
憶される。
分析装置18は記憶装置15からの顧客Kの音
声ベクトルのための平均不変モーメントを次の式
から計算する。
声ベクトルのための平均不変モーメントを次の式
から計算する。
i=1〜23(iはpqを表わし、その数はp+
q6に選定したので27個であるが、実際には4
個少い使用可能な23個から成り、iはそのp+q
の各次を表わす) MIi、j、kは、上記から明らかなように、顧客
Kが発声した各音声ベクトルについての不変モー
メントMIpqを表わす。
q6に選定したので27個であるが、実際には4
個少い使用可能な23個から成り、iはそのp+q
の各次を表わす) MIi、j、kは、上記から明らかなように、顧客
Kが発声した各音声ベクトルについての不変モー
メントMIpqを表わす。
エラー、すなわち、記憶装置15に記憶されて
いる顧客Kの各音声ベクトルと、(式2)によつ
て計算された平均不変モーメントとの差異又は誤
差は次の式から計算される j=1〜nとする。特定クラスの群の統計音声
ベクトルのそれぞれと(式2)で計算された平均
不変モーメントとの間のエラー(誤差)は次式か
ら計算される。
いる顧客Kの各音声ベクトルと、(式2)によつ
て計算された平均不変モーメントとの差異又は誤
差は次の式から計算される j=1〜nとする。特定クラスの群の統計音声
ベクトルのそれぞれと(式2)で計算された平均
不変モーメントとの間のエラー(誤差)は次式か
ら計算される。
l=1〜mとする。hは統計ベクトル・フアイ
ルを示し、式3、4においてCi、kは不変モーメ
ントの第i番目成分に対する重みである。係数C
i、kは顧客kに対する重みベクトルを構成する。
係数Ci、kはすべてのjとlに対してEk、jを最
小にし、Eh、lを最大にするように決定される。
ルを示し、式3、4においてCi、kは不変モーメ
ントの第i番目成分に対する重みである。係数C
i、kは顧客kに対する重みベクトルを構成する。
係数Ci、kはすべてのjとlに対してEk、jを最
小にし、Eh、lを最大にするように決定される。
(MIi、j、k−i、k)2をAi、j、kとし、
(MIi、l、h−i、k)2をBi、l、hで表わすと
(式3)、(式4)は次のような形に簡略化される j=1、nとする。
(式3)、(式4)は次のような形に簡略化される j=1、nとする。
l=1、mとする。
すべてのjに対するEk、jの最小化と、すべて
のlに対するEh、lの最大化とはEk、jの各成分
(すべてのjに対するCi、k・Ai、j、k)を最小
にし、同時にEh、lのすべての成分(すべての1
に対するCi、k・Bi、l、h)を最大にすることに
よつて達成される。
のlに対するEh、lの最大化とはEk、jの各成分
(すべてのjに対するCi、k・Ai、j、k)を最小
にし、同時にEh、lのすべての成分(すべての1
に対するCi、k・Bi、l、h)を最大にすることに
よつて達成される。
Ai、j、k(j=1、n)とBi、l、h(l=1、
m)に対する第i番目成分の平均値は第6図に表
わしたが次の式でも示される。
m)に対する第i番目成分の平均値は第6図に表
わしたが次の式でも示される。
以上、説明したように、誤差Ek、j(式5)の
i番目成分i、kは最小とされ、差異Eh、l(式
6)のi番目成分i、hは最大とされなければな
らないが、それはi、h−i、kが大きく、すべ
てのjに対する点Ai、j、kがi、kに接近し、す
べてのlに対する点Bi、l、hがi、hに接近して
いる場合であるということを第6図から見ること
ができる。すなわち、第6図に表わすように、顧
客KのAi、j、kとその第i番目成分の平均値
i、k(第6図の左手に示す)とは同一人のものの
ため、接近していることが望ましく、又、顧客K
と疑似音声とを明確に区別するため、疑似音声の
Bi、l、hとその第i番目成分の平均値i、h(第
6図の右手に示す)とが接近していることが望ま
しい。ということは、i、kとi、hとの差が大
きく、離れているということであつて、それは、
自己の音声はできる限り接近し、他人の音声から
は明確に区別されることが望ましいということで
ある。故に分離関数は Si、k=Bi、h−Ai、k/σi、h+σi
、k(式9) σi、kとσi、hとはそれぞれAi、j、k(j=1、
n)とBi、l、h(l=1、m)の標準偏差であ
り、すべてのjに対するEk、jを最小にし、すべ
てのlに対するEh、lを最高にするためのCi、k
に対する適切な値である。Si、k=0の値はi、
h<i、kのときの場合に対して選ばれる。それ
は、lの数個の値に対するEh、lのi番目成分が
jの数個の値に対するEk、jの各対応する成分よ
り少いという明確な理由のためである。
i番目成分i、kは最小とされ、差異Eh、l(式
6)のi番目成分i、hは最大とされなければな
らないが、それはi、h−i、kが大きく、すべ
てのjに対する点Ai、j、kがi、kに接近し、す
べてのlに対する点Bi、l、hがi、hに接近して
いる場合であるということを第6図から見ること
ができる。すなわち、第6図に表わすように、顧
客KのAi、j、kとその第i番目成分の平均値
i、k(第6図の左手に示す)とは同一人のものの
ため、接近していることが望ましく、又、顧客K
と疑似音声とを明確に区別するため、疑似音声の
Bi、l、hとその第i番目成分の平均値i、h(第
6図の右手に示す)とが接近していることが望ま
しい。ということは、i、kとi、hとの差が大
きく、離れているということであつて、それは、
自己の音声はできる限り接近し、他人の音声から
は明確に区別されることが望ましいということで
ある。故に分離関数は Si、k=Bi、h−Ai、k/σi、h+σi
、k(式9) σi、kとσi、hとはそれぞれAi、j、k(j=1、
n)とBi、l、h(l=1、m)の標準偏差であ
り、すべてのjに対するEk、jを最小にし、すべ
てのlに対するEh、lを最高にするためのCi、k
に対する適切な値である。Si、k=0の値はi、
h<i、kのときの場合に対して選ばれる。それ
は、lの数個の値に対するEh、lのi番目成分が
jの数個の値に対するEk、jの各対応する成分よ
り少いという明確な理由のためである。
i、h<i、kに対して
Si、k=0
他の場合は
Si、k=Bi、h−Ai、k/σi、h+σi
、k(式10) 異なるi、Si、kに対するi、kの相対的大き
さを計算するために更にi、kによつて正規化さ
れる。従つて、すべてのjに対するEk、jの最大
化とすべてのlに対するEh、lの最大化のために
選ばれるCi、kの値は次のように選ばれる。
、k(式10) 異なるi、Si、kに対するi、kの相対的大き
さを計算するために更にi、kによつて正規化さ
れる。従つて、すべてのjに対するEk、jの最大
化とすべてのlに対するEh、lの最大化のために
選ばれるCi、kの値は次のように選ばれる。
i、h<i、kに対して
Ci、k=0
その他の場合は
Ci、k=Bi、h−Ai、k/Ai、k(σi、h+
σi、k)(式11) 第5A図〜第5D図は前述した等式の部分を計
算し記憶するために分析装置18で利用される流
れ線図を表わす。開始ブロツク79はブロツク8
0を動作させてiの値を1に初期設定する。ブロ
ツク81はSi、kの値を0に、jの値を1に設
定し、ブロツク82においてSi、kの部分和を
計算する。動作ブロツク83はjの現在値と音声
の合計数nの値とが等しいかどうかを比較する。
答がノーの場合はブロツク84でjの値に1を加
え、ブロツク82で次の部分和を計算する。jと
nとが等しい場合は部分和の算出は完了し、ブロ
ツク85がブロツク82からの完全和を使用して
i、kの値を計算する。動作ブロツク86はiの
値が23に等しいかどうかを比較する。等しくない
場合は、ブロツク87でiの値に1を加えて再び
ブロツク81へ戻り、次のi、kの値の計算を行
なう。iの値が23になると、計算された各23個の
i、kの値はブロツク88でメモリーに記憶され
る。
σi、k)(式11) 第5A図〜第5D図は前述した等式の部分を計
算し記憶するために分析装置18で利用される流
れ線図を表わす。開始ブロツク79はブロツク8
0を動作させてiの値を1に初期設定する。ブロ
ツク81はSi、kの値を0に、jの値を1に設
定し、ブロツク82においてSi、kの部分和を
計算する。動作ブロツク83はjの現在値と音声
の合計数nの値とが等しいかどうかを比較する。
答がノーの場合はブロツク84でjの値に1を加
え、ブロツク82で次の部分和を計算する。jと
nとが等しい場合は部分和の算出は完了し、ブロ
ツク85がブロツク82からの完全和を使用して
i、kの値を計算する。動作ブロツク86はiの
値が23に等しいかどうかを比較する。等しくない
場合は、ブロツク87でiの値に1を加えて再び
ブロツク81へ戻り、次のi、kの値の計算を行
なう。iの値が23になると、計算された各23個の
i、kの値はブロツク88でメモリーに記憶され
る。
ブロツク89はiの初期値を1に設定する。ブ
ロツク90はSi、kの値を0に、jの値を1に
設定する。
ロツク90はSi、kの値を0に、jの値を1に
設定する。
ブロツク91ではSi、kの値とともにAi、
j、kの値が計算される。動作ブロツク92はjの
値がnに等しいかどうかを確認し、等しくない場
合はブロツク93でjの値に1を加え、ブロツク
91にAi、j、kとSi、kの次の値を計算させ
る。jの値がnに等しい場合はブロツク91から
得られた和を利用してブロツク94がi、kの値
を計算する。
j、kの値が計算される。動作ブロツク92はjの
値がnに等しいかどうかを確認し、等しくない場
合はブロツク93でjの値に1を加え、ブロツク
91にAi、j、kとSi、kの次の値を計算させ
る。jの値がnに等しい場合はブロツク91から
得られた和を利用してブロツク94がi、kの値
を計算する。
ブロツク95においては、偏差Sσi、kが0に
設定され、jの値を1に等しくする。ブロツク9
6はSσi、kの部分和を計算し、動作ブロツク9
7はjとnの値が等しいかどうかを確認すること
によつて部分和が完成されたかどうがを決定す
る。jとnとが等しくない場合はブロツク98で
jの値に1を加え、加算された次の部分和を計算
するためにブロツク96を再び動作させる。jの
計数とnとが等しくなつたときに偏差σi、kがブ
ロツク99で計算される。
設定され、jの値を1に等しくする。ブロツク9
6はSσi、kの部分和を計算し、動作ブロツク9
7はjとnの値が等しいかどうかを確認すること
によつて部分和が完成されたかどうがを決定す
る。jとnとが等しくない場合はブロツク98で
jの値に1を加え、加算された次の部分和を計算
するためにブロツク96を再び動作させる。jの
計数とnとが等しくなつたときに偏差σi、kがブ
ロツク99で計算される。
ブロツク100〜109はBi、l、hとi、hと
σi、hの値を計算するためにブロツク90〜99
で行なわれた計算と同様な計算を繰返す。
σi、hの値を計算するためにブロツク90〜99
で行なわれた計算と同様な計算を繰返す。
ブロツク110はi、hの数値がi、kの数値
よりも少いかどうかを確認し、少い場合はブロツ
ク112で重み係数Ci、kを0に設定する。ブロ
ツク110での比較の結果、ノーの答を出した場
合はブロツク111でCi、kの値の計算が行なわ
れる。比較ブロツク113はiの値を数値23と比
較し、iの値が23より少い場合はブロツク115
でiの値に1を加えてブロツク90に戻し、それ
を動作して増加したiの値に従い以下のブロツク
を再循環する。iの値が23に到達した場合は、ブ
ロツク113はイエスとなり、ブロツク114に
進んでCi、kの値を記憶装置19に記憶する。計
算及び記憶動作が完了すると停止ブロツク116
で分析を終了する。
よりも少いかどうかを確認し、少い場合はブロツ
ク112で重み係数Ci、kを0に設定する。ブロ
ツク110での比較の結果、ノーの答を出した場
合はブロツク111でCi、kの値の計算が行なわ
れる。比較ブロツク113はiの値を数値23と比
較し、iの値が23より少い場合はブロツク115
でiの値に1を加えてブロツク90に戻し、それ
を動作して増加したiの値に従い以下のブロツク
を再循環する。iの値が23に到達した場合は、ブ
ロツク113はイエスとなり、ブロツク114に
進んでCi、kの値を記憶装置19に記憶する。計
算及び記憶動作が完了すると停止ブロツク116
で分析を終了する。
エラー閾値も又記憶装置19に記憶され、顧客
Kに対してはT1Kで示される。このシステムでは
2つの異なる型のエラーを考慮した。その1つは
「正しい仮定の拒絶」と定義される型エラーで
あり、他の1つは「拒絶されるべきであつた仮定
の許容」として定義される型エラーである。閾
値T1Kは型エラーの発生可能性と型エラーの
発生可能性とが等しくなるように計算される。第
7図は型エラーと型エラーとの関係を表わし
たものである。
Kに対してはT1Kで示される。このシステムでは
2つの異なる型のエラーを考慮した。その1つは
「正しい仮定の拒絶」と定義される型エラーで
あり、他の1つは「拒絶されるべきであつた仮定
の許容」として定義される型エラーである。閾
値T1Kは型エラーの発生可能性と型エラーの
発生可能性とが等しくなるように計算される。第
7図は型エラーと型エラーとの関係を表わし
たものである。
式4のエラー関数は下記の式に表わす関係を用
いてT1Kの値から引出された閾値T2Kと比較され
る。
いてT1Kの値から引出された閾値T2Kと比較され
る。
T2K=〔型/型エラー比〕T1K
第7図からわかるように、型/型エラー比
を小さくすると、閾値T2Kは小さくなり(閾値が
第7図の右方に移動する)、同一性要求に対する
エラーの拒絶範囲は狭くなつて、検証の安全性が
低くなる。逆に、型/型エラー比を大きくす
ると、閾値T2Kは大きくなり(第7図の左方に移
動する)、同一性要求に対するエラーの許容範囲
が狭くなつて、検証の安定性が高くなる。
を小さくすると、閾値T2Kは小さくなり(閾値が
第7図の右方に移動する)、同一性要求に対する
エラーの拒絶範囲は狭くなつて、検証の安全性が
低くなる。逆に、型/型エラー比を大きくす
ると、閾値T2Kは大きくなり(第7図の左方に移
動する)、同一性要求に対するエラーの許容範囲
が狭くなつて、検証の安定性が高くなる。
閾値T1Kは、音声ベクトルと同一人の他の音声
ベクトルとの比較から生じたエラーの値と、音声
ベクトルと統計フアイル・ベクトルとの比較から
生じたエラーの値との間の比率を50%に設定して
定める数値上の定数である。
ベクトルとの比較から生じたエラーの値と、音声
ベクトルと統計フアイル・ベクトルとの比較から
生じたエラーの値との間の比率を50%に設定して
定める数値上の定数である。
記憶装置19に記憶されている顧客Kの各デー
タ項目はカード書込装置20によつてクレジツ
ト・カードに記録することができる。そのクレジ
ツト・カードは顧客に発行され、その顧客の使用
に供される。
タ項目はカード書込装置20によつてクレジツ
ト・カードに記録することができる。そのクレジ
ツト・カードは顧客に発行され、その顧客の使用
に供される。
第8図は会話検証システムの実施例の1つであ
る。
る。
カード読取機21は顧客のカードを読取り、そ
のデータを記憶装置22へ供給するように設計さ
れる。そのデータは計算された顧客の不変モーメ
ント・ベクトル、重みベクトル及び計算された閾
値T1Kの値など、3つの成分から成る。
のデータを記憶装置22へ供給するように設計さ
れる。そのデータは計算された顧客の不変モーメ
ント・ベクトル、重みベクトル及び計算された閾
値T1Kの値など、3つの成分から成る。
データが読取られ、記憶装置22へ記憶される
と、デイスプレイ24は顧客に標準語句を話すこ
とを要求するように表示する。各構成要素9,1
0,12及び14は第1図に表わした同一番号の
要素と同一のものであり、同じように動作する。
このようにして顧客の標準語句はコンピユータ1
4によつて音声ベクトルに変換される。
と、デイスプレイ24は顧客に標準語句を話すこ
とを要求するように表示する。各構成要素9,1
0,12及び14は第1図に表わした同一番号の
要素と同一のものであり、同じように動作する。
このようにして顧客の標準語句はコンピユータ1
4によつて音声ベクトルに変換される。
エラー関数は記憶装置22に記憶されている不
変モーメント・ベクトルの成分とコンピユータ装
置14で計算された音声ベクトルとの差異からコ
ンピユータ28で計算される。
変モーメント・ベクトルの成分とコンピユータ装
置14で計算された音声ベクトルとの差異からコ
ンピユータ28で計算される。
エラー関数は次の式で表わされる。
(Ci、kは顧客Kの重みベクトルの第i番目の成
分である。) コンピユータ28で計算されたエラー関数は比
較器・決定装置31で調整可能エラー比較装置3
0からの閾値T2Kと比較される。装置30は記憶
されている顧客の閾値T1Kを受信して、システム
所有者が要求するレベルに閾値T1Kを調整する乗
算係数を供給する。
分である。) コンピユータ28で計算されたエラー関数は比
較器・決定装置31で調整可能エラー比較装置3
0からの閾値T2Kと比較される。装置30は記憶
されている顧客の閾値T1Kを受信して、システム
所有者が要求するレベルに閾値T1Kを調整する乗
算係数を供給する。
エラー関数出力は検証要求のためにT1Kから算
出された閾値T2Kと比較される。
出された閾値T2Kと比較される。
比較器・決定装置31における比較の結果、そ
の決定はデイスプレイ32上にデイスプレイされ
る。顧客の同一性が否定されると、カードが機械
に捕獲されるか、カード読取機21から放出され
る前に、顧客に対して再度数回の検証を試みる機
会が与えられる。
の決定はデイスプレイ32上にデイスプレイされ
る。顧客の同一性が否定されると、カードが機械
に捕獲されるか、カード読取機21から放出され
る前に、顧客に対して再度数回の検証を試みる機
会が与えられる。
この発明の基本的な理念内の変更は可能であ
る。
る。
第1図は、この発明に従つて音声に関する不変
モーメントを発生するためのシステムのブロツク
線図、第2図は、標準語句の音声に対応する波形
の波形図、第3図は、第2図の波形から選ばれた
期間を標本化して拡大した波形部分を表わす波形
図、第4A図、第4B図、第4C図は、第1図に
表わされているシステムの1部の動作を表わす流
れ線図、第5A図、第5B図、第5C図、第5D
図は、同じく第1図に表わされているシステムの
第2部分の動作を表わす流れ線図、第6図は、こ
の発明に使用され、計算される語句の分布状態を
描いた分布図、第7図は、エラーの2つの型とそ
こに適用される閾値の選択との関係とを描いた線
図、第8図は、第1図のシステムとともに使用
し、発声音の許容と拒絶とを行なうことにより話
者を検証するために有用なシステムを表わしたブ
ロツク線図である。 10……増幅器・帯域濾波器;12……サンプ
ル・ホールド・A/D変換器;14……コンピユ
ータ装置;15……記憶装置;16……クロツク
源;17……疑似ベクトル・フアイル;18……
分析装置;19……記憶装置;20……カード書
込装置;21……カード読取機;22……記憶装
置;24……デイスプレイ;28……コンピユー
タ装置;30……調整可能エラー比較装置;31
……比較・決定装置;32……デイスプレイ。
モーメントを発生するためのシステムのブロツク
線図、第2図は、標準語句の音声に対応する波形
の波形図、第3図は、第2図の波形から選ばれた
期間を標本化して拡大した波形部分を表わす波形
図、第4A図、第4B図、第4C図は、第1図に
表わされているシステムの1部の動作を表わす流
れ線図、第5A図、第5B図、第5C図、第5D
図は、同じく第1図に表わされているシステムの
第2部分の動作を表わす流れ線図、第6図は、こ
の発明に使用され、計算される語句の分布状態を
描いた分布図、第7図は、エラーの2つの型とそ
こに適用される閾値の選択との関係とを描いた線
図、第8図は、第1図のシステムとともに使用
し、発声音の許容と拒絶とを行なうことにより話
者を検証するために有用なシステムを表わしたブ
ロツク線図である。 10……増幅器・帯域濾波器;12……サンプ
ル・ホールド・A/D変換器;14……コンピユ
ータ装置;15……記憶装置;16……クロツク
源;17……疑似ベクトル・フアイル;18……
分析装置;19……記憶装置;20……カード書
込装置;21……カード読取機;22……記憶装
置;24……デイスプレイ;28……コンピユー
タ装置;30……調整可能エラー比較装置;31
……比較・決定装置;32……デイスプレイ。
Claims (1)
- 【特許請求の範囲】 1 (イ) 登録話者の発声音の標本から音声ベクト
ルを算出し、 (ロ) 疑似発声音の標本から音声ベクトルを算出
し、 (ハ) 算出した前記話者の音声ベクトルと算出した
前記疑似発声音の音声ベクトルとを分析して両
音声間の差異を表現するための重み係数を引出
し、 (ニ) 前記話者に発行される安全カード上に前記算
出した登録話者の音声ベクトルと前記重み係数
とを記録し、 (ホ) 前記安全カードに記録されている音声ベクト
ルと被検認話者について算出された音声ベクト
ルとを比較して両者間の差異を決定し、 (ヘ) 前記工程(ホ)で決定された差異と前記記録され
ている重み係数とを用いて、前記登録話者の音
声と前記被検認話者の音声との同一性の度合を
表わす量を計算し、その結果が同一性許容範囲
内にある場合は前記登録話者と前記被検認話者
との同一性を認容し、前記計算の結果が同一性
拒絶範囲内にある場合は前記両話者の同一性を
否定するようにする各工程から成り、 前記音声ベクトルは音声波形図形の大きさ、位
置及び方向に影響されない不変モーメントに基づ
いて構成することを特徴とする話者の同一性検認
方法。 2 (イ) 登録話者が発声した標準語句を電気信号
に変換する信号変換手段と、 (ロ) 前記電気信号を標本化して振幅値に変換する
変換手段と、 (ハ) 前記振幅値に作用して前記振幅値の不変モー
メントを算出する演算手段と、 (ニ) 前記不変モーメントを記憶する記憶手段と、 (ホ) 疑似話者が発声した標準語句に対する複数の
不変モーメントを記憶する記憶手段と、 (ヘ) 前記各記憶手段に記憶された各前記不変モー
メントを読出し、重み係数及び閾値を計算する
分析手段と、 (ト) 前記登録話者の前記不変モーメントと前記計
算した重み係数並びに閾値を記録する記録手段
と、 (チ) 被検認話者が発声した標準語句の不変モーメ
ントから成る音声ベクトルと記録されている前
記登録話者の不変モーメントから成る音声ベク
トルとの間の重みつき差異を計算し、これを少
くとも1つの閾値と比較し、前記被検認話者の
検認情報を出力する検認手段とを含み、話者の
同一性を検認する検認装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/662,994 US4053710A (en) | 1976-03-01 | 1976-03-01 | Automatic speaker verification systems employing moment invariants |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS52106204A JPS52106204A (en) | 1977-09-06 |
JPS6217240B2 true JPS6217240B2 (ja) | 1987-04-16 |
Family
ID=24660071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2039477A Granted JPS52106204A (en) | 1976-03-01 | 1977-02-28 | Automatic conversation inspecting system using instantaneous invariant |
Country Status (6)
Country | Link |
---|---|
US (1) | US4053710A (ja) |
JP (1) | JPS52106204A (ja) |
CA (1) | CA1078066A (ja) |
DE (1) | DE2708569A1 (ja) |
FR (1) | FR2343292A1 (ja) |
GB (1) | GB1532944A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6428027U (ja) * | 1987-08-08 | 1989-02-17 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2844156A1 (de) * | 1978-10-10 | 1980-04-24 | Philips Patentverwaltung | Verfahren zum verifizieren eines sprechers |
DE2845567A1 (de) * | 1978-10-19 | 1980-04-30 | Siemens Ag | Personenkennkarte |
JPS5876893A (ja) * | 1981-10-30 | 1983-05-10 | 日本電気株式会社 | 音声認識装置 |
JPS59178587A (ja) * | 1983-03-30 | 1984-10-09 | Nec Corp | 話者確認システム |
GB2139389A (en) * | 1983-04-29 | 1984-11-07 | Voice Electronic Technology Li | Identification apparatus |
GB8607338D0 (en) * | 1986-03-25 | 1986-04-30 | Cockburn J | Security system |
JP2845876B2 (ja) * | 1987-06-26 | 1999-01-13 | キヤノン株式会社 | 音声情報処理方法 |
US4918731A (en) * | 1987-07-17 | 1990-04-17 | Ricoh Company, Ltd. | Speech recognition method and apparatus |
US4955070A (en) * | 1988-06-29 | 1990-09-04 | Viewfacts, Inc. | Apparatus and method for automatically monitoring broadcast band listening habits |
US5055658A (en) * | 1988-07-25 | 1991-10-08 | Cockburn John B | Security system employing digitized personal physical characteristics |
US5216720A (en) * | 1989-05-09 | 1993-06-01 | Texas Instruments Incorporated | Voice verification circuit for validating the identity of telephone calling card customers |
US5054083A (en) * | 1989-05-09 | 1991-10-01 | Texas Instruments Incorporated | Voice verification circuit for validating the identity of an unknown person |
US5020107A (en) * | 1989-12-04 | 1991-05-28 | Motorola, Inc. | Limited vocabulary speech recognition system |
US5210820A (en) * | 1990-05-02 | 1993-05-11 | Broadcast Data Systems Limited Partnership | Signal recognition system and method |
CA2104393A1 (en) * | 1991-02-22 | 1992-09-03 | Jorge M. Parra | Acoustic method and apparatus for identifying human sonic sources |
US5430827A (en) * | 1993-04-23 | 1995-07-04 | At&T Corp. | Password verification system |
US5940476A (en) | 1996-06-28 | 1999-08-17 | Distributed Software Development, Inc. | System and method for identifying an unidentified caller |
US6205204B1 (en) | 1996-06-28 | 2001-03-20 | Distributed Software Development, Inc. | System and method for identifying an unidentified person using an ambiguity-resolution criterion |
US6529881B2 (en) | 1996-06-28 | 2003-03-04 | Distributed Software Development, Inc. | System and method for identifying an unidentified customer at the point of sale |
US5901203A (en) | 1996-06-28 | 1999-05-04 | Distributed Software Development, Inc. | Computer-based system and method for identifying an unidentified caller |
US7006605B1 (en) * | 1996-06-28 | 2006-02-28 | Ochopee Big Cypress Llc | Authenticating a caller before providing the caller with access to one or more secured resources |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
DE19726265C2 (de) * | 1997-06-20 | 2001-08-02 | Deutsche Telekom Ag | Verfahren zum Betreiben einer Anlage zur Nutzung einer Chipkarte |
CA2310769C (en) * | 1999-10-27 | 2013-05-28 | Nielsen Media Research, Inc. | Audio signature extraction and correlation |
US20020010715A1 (en) * | 2001-07-26 | 2002-01-24 | Garry Chinn | System and method for browsing using a limited display device |
NZ532258A (en) * | 2001-10-17 | 2006-04-28 | Npx Technologies Ltd | Verfication of a person identifier received online |
GB2460773B (en) | 2007-02-20 | 2010-10-27 | Nielsen Co | Methods and apparatus for characterizing media |
US8458737B2 (en) * | 2007-05-02 | 2013-06-04 | The Nielsen Company (Us), Llc | Methods and apparatus for generating signatures |
EP2210252B1 (en) * | 2007-11-12 | 2017-05-24 | The Nielsen Company (US), LLC | Methods and apparatus to perform audio watermarking and watermark detection and extraction |
US8457951B2 (en) * | 2008-01-29 | 2013-06-04 | The Nielsen Company (Us), Llc | Methods and apparatus for performing variable black length watermarking of media |
US8600531B2 (en) * | 2008-03-05 | 2013-12-03 | The Nielsen Company (Us), Llc | Methods and apparatus for generating signatures |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3466394A (en) * | 1966-05-02 | 1969-09-09 | Ibm | Voice verification system |
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
US3705384A (en) * | 1971-08-10 | 1972-12-05 | Eric C Wahlberg | Business transaction apparatus |
US3919479A (en) * | 1972-09-21 | 1975-11-11 | First National Bank Of Boston | Broadcast signal identification system |
-
1976
- 1976-03-01 US US05/662,994 patent/US4053710A/en not_active Expired - Lifetime
- 1976-12-20 CA CA268,274A patent/CA1078066A/en not_active Expired
-
1977
- 1977-02-21 GB GB7151/77A patent/GB1532944A/en not_active Expired
- 1977-02-28 DE DE19772708569 patent/DE2708569A1/de not_active Withdrawn
- 1977-02-28 JP JP2039477A patent/JPS52106204A/ja active Granted
- 1977-02-28 FR FR7705727A patent/FR2343292A1/fr active Granted
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6428027U (ja) * | 1987-08-08 | 1989-02-17 |
Also Published As
Publication number | Publication date |
---|---|
US4053710A (en) | 1977-10-11 |
CA1078066A (en) | 1980-05-20 |
GB1532944A (en) | 1978-11-22 |
DE2708569A1 (de) | 1977-09-08 |
FR2343292A1 (fr) | 1977-09-30 |
JPS52106204A (en) | 1977-09-06 |
FR2343292B1 (ja) | 1979-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS6217240B2 (ja) | ||
Naik | Speaker verification: A tutorial | |
EP0744734B1 (en) | Speaker verification method and apparatus using mixture decomposition discrimination | |
US6401063B1 (en) | Method and apparatus for use in speaker verification | |
US5339385A (en) | Speaker verifier using nearest-neighbor distance measure | |
US7447632B2 (en) | Voice authentication system | |
KR100406307B1 (ko) | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 | |
JP2006285205A (ja) | 対象者の登録受け入れ可否を判定する音声バイオメトリックスシステム、方法及びコンピュータプログラム | |
JPS6226039B2 (ja) | ||
AU8649691A (en) | Methods and apparatus for verifying the originator of a sequence of operations | |
US6556969B1 (en) | Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding | |
EP0424071A2 (en) | Speaker recognition | |
Karthikeyan et al. | Hybrid machine learning classification scheme for speaker identification | |
Singh et al. | Linear Prediction Residual based Short-term Cepstral Features for Replay Attacks Detection. | |
Maes et al. | Conversational speech biometrics | |
KR101925252B1 (ko) | 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치 | |
Sukor et al. | Speaker identification system using MFCC procedure and noise reduction method | |
Chauhan et al. | A review of automatic speaker recognition system | |
JP4440414B2 (ja) | 話者照合装置及び方法 | |
Naik et al. | Evaluation of a high performance speaker verification system for access Control | |
Sharma et al. | Speech recognition of Punjabi numerals using synergic HMM and DTW approach | |
Chakraborty et al. | An improved approach to open set text-independent speaker identification (OSTI-SI) | |
Al-Hassani et al. | Design a text-prompt speaker recognition system using LPC-derived features | |
Thakur et al. | Speaker Authentication Using GMM-UBM | |
EP0780830A2 (en) | Speaker verification system |