JPS63213899A - 話者照合方式 - Google Patents

話者照合方式

Info

Publication number
JPS63213899A
JPS63213899A JP62048557A JP4855787A JPS63213899A JP S63213899 A JPS63213899 A JP S63213899A JP 62048557 A JP62048557 A JP 62048557A JP 4855787 A JP4855787 A JP 4855787A JP S63213899 A JPS63213899 A JP S63213899A
Authority
JP
Japan
Prior art keywords
speaker
feature vector
feature
feature vectors
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62048557A
Other languages
English (en)
Inventor
博喜 内山
博雄 北川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP62048557A priority Critical patent/JPS63213899A/ja
Publication of JPS63213899A publication Critical patent/JPS63213899A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 滋」リド訪 本発明は、音声により話者の同定を行う話者照合方式に
関し、例えば、バンキングサービス、個人情報へのアク
セス、機密保管場所への入室管理等の音声キー(key
L玩具等の応答装置の検出等に応用可能なものである。
k末技権 音声を用いた話者照合は、音声信号が音韻情報。
個人性情報、感情情報より形成されていることに着目し
たものである。音声信号には音韻情報2個人性情報、感
情情報の順に含まれている。従来の話者照合は、音韻情
報をも含めたかたちで個人性情報を取り出し、完全に個
人性情報のみを取り出して個人性の特徴量として1話者
の照合を試みるものではなかった0例えば、長時間平均
スペクトルを特徴量とする話者照合は、音韻情報を時間
方向に平均化し1個人情報を際だたせようという主旨の
ものであり、音韻情報を削除するというものではなかっ
た。また、ケプストラムの動的、静的特徴量を用いるも
のもあるが、これらもF比(話者間/話者内分散比)の
大きなベクトルの要素を用いることで1話者の分離に大
きく貢献する特徴量を抽出し話者照合を行うものであり
、個人性情報のみを取り出して話者照合を試みるもので
はなかった。このように従来の特徴ベクトルの中には音
韻情報が多く含まれていたため個人識別を困難にしてい
た。而して話者照合においては、入力音声波と登録され
ている音声波を直接比較するのは能率的ではないので1
周波数スペクトル、線形予測係数等のいわゆる特徴パラ
メータに変換してから比較を行うのが望ましいが、従来
、この種の装置の構成では、上記の他に、基本周波数、
音声エネルギー、ホルマント周波数、パーコール係数。
対数断面積比、零交差数が用いられているが、音韻性の
情報を多く含んだ形で個人性の情報をも含んだという程
度の特徴量ベクトルを用いて話者照合を行うものであっ
た。
且−一旗 本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声信号に含まれる個人性の情報を抽出すること
により話者を同定する話者照合方式を提供することを目
的としてなされたものである。
遭−一」又 本発明は、上記目的を達成するために、登録話者によっ
て登録された音声パタンと未知話者によって入力された
音声パタンとを比較し、その類似度があるしきい値を越
えた時に上記未知話者を上記登録話者と同一であると判
断する話者照合方式において、入力音声から音声区間を
切り出す音声区間検出手段と、その音声区間内の音声信
号を特徴ベクトルの時系列パタン(X工、x2・・・X
n)に変換する手段と、その特徴ベクトルを話者ごとに
登録する手段と、未知話者の特徴ベクトルと登録された
特徴ベクトルを比較する手段とを有し、あらかじめ多数
の話者の音声を分析して平均的な特徴ベクトルを求め、
この平均化特徴ベクトルによって登録話者の特徴ベクト
ルを正規化し、これを個人性の情報量として用いること
を特徴としたものである。以下、本発明の実施例に基い
て説明する。
第1図は、本発明の一実施例を説明するための構成図、
第2図は、第1図の動作説明をするためのフローチャー
トで、図中、1はマイク、2はローパスフィルタ(LP
F)、3はアナログデジタル変換回路(A/D)、4は
音声区間検出部、5は音声波形分析部、6は時間長正規
化部、7は特徴ベクトル正規化部、8は平均化特徴ベク
トル部、9は照合部、10は登録蓄積部、12は閾値部
で。
マイクから入力された音声信号は、ローパスフィルター
(LPS)によってサンプリング周波数の1/2以上の
成分をカットされたのちA/D変換器によって離散的な
信号列に量子化される。このように離散化された音声信
号は、音声区間切り出し装置によって音声区間のみが切
り出される。この音声信号を短時間の波形毎に切り出し
てハミングウィンドウ等を剰じることで窓掛けを行い各
種の特徴量に変換する。特徴量としては、スペクトル、
ケプストラム、PARCOR等各種のパラメータが考え
られる。ここでは、特徴量をFFTスペクトルとして説
明する。上述のようにして窓掛けを行った短時間毎の波
形をFFTによって短時間スペクトルに変換する9次い
で、ハミングウィンドウの長さを例えば20I11sと
し、これを更新する周期を10m5として順次各区間ご
とに短時間スペクトルを計算して特徴ベクトル(この場
合は短時間スペクトル)の時系列パターン((X、、X
、・・・Xn))を求める。
いま、時刻iにおける特徴ベクトルXijは。
X i j =(X i、、 X i、・=X i n
)と表わされる。
次のこのようにして得られた特徴ベクトルの正規化処理
について述べる。
特徴ベクトル正規化部においては、このように抽出され
た特徴ベクトルの時系列パターンをあらかじめ多数の話
者の音声を分析して得られた平均化特徴ベクトルによっ
て正規化し、新たな特徴ベクトルに変換する。正規化の
手法としては、登録話者の特徴ベクトルと平均化特徴ベ
クトルとの減算、除算等がある。
このようにして得られた新たな特徴ベクトルの時系列パ
ターンは登録時には、WJ積部に話者のファイルネーム
を付加して標準パタンとして格納される。ここで、登録
話者の標準パタンとしては話者毎の時系列パタンをいく
つか加算平均したものを新たに標準パタンとして用いて
も良い。
照合部では、未知話者の正規化された特徴ベクトルのパ
タンと登録話者の標準パターンとのベクトル間の距離が
計算される。このとき、ベクトル間の距離としては、ユ
ークリッド距離や、マハラノビス距離などを用いる0時
間軸に対してはそのまま直接計算しても良いし、さらに
時間軸方向の変動をカバーするためにDPマツチング等
の処理を用いても良い。
判断部においては、予め各話者毎に設定されているしき
い値と上記計算によって得られた距離とを比較すること
で話者の判定が行われる。
また、このようにして得られた特徴ベクトルの時系列パ
ターンに対してその各要素毎のF比(話者間/話者内分
散比)を計算しておき、その太きいものから所定の個数
選定し、それを新めて特徴ベクトルとするという処理を
行っても良い。
第3図は、平均化特徴ベクトルの辞書を作成するための
アルゴリズムであるが、平均化特徴ベクトルを求めるた
めには、あらかじめ多数の話者の音声を分析して平均的
な特徴ベクトルを求める必要がある。まず、上記のよう
に抽出された特徴ベクトルの時系列パタンの個数は、話
者によりまた発声時間長により異っている。そこで特徴
ベクトルの平均パタンを形成するためには、特徴ベクト
ルの個数を一定に保つ必要がある。このため音声区間全
体に線形伸縮を施こし特徴ベクトルの個数に設定しする
。ここで特徴ベクトルの個数をあわせる手段としては部
分線形伸縮、DPマツチング等の処理がある。
次に、多数話者の音声を分析して得られた特徴ベクトル
を線形伸縮することで得られる固定長の特徴ベクトルを
加算平均などの手法を用いて平均化ベクトルを形成する
第4図は、本発明の他の実施例を説明するための構成図
であるが、この実施例は、第1図に示した実施例に特徴
ベクトルの変換部13を付加したところに特徴がある。
この特徴ベクトル変換部の処理は、例えば、平均化特徴
ベクトルによって正規化された個人の特徴ベクトルの時
系列パタンを時間軸方向に加算平均したものを新たな特
徴ベクトルとして設定したり、平均化特徴ベクトルによ
って正規化された個人の特徴ベクトルの時系列パタンか
ら、特徴ベクトル毎の各要素の加算平均。
あるいは2乗和等の処理によって1時間方向のベクトル
を生成し、これを新たな特徴ベクトルとし設定したりす
ることなどが考えられる。また、この様に変換した特徴
ベクトルの中から各要素毎のF比(¥8者間/話者内分
散比)が大きいものを所定の個数選定し、それを新めて
特徴ベクトルとするという処理を行っても良い。
羞−一米 以上の説明から明らかなように、本発明によると入力音
声中の個人性を示す音声特徴を精度良く抽出することが
でき、その個人照合精度を十分高くすることができる。
したがって、個人照合を必要とする先程の装置に利用す
ることでセキュリティーを十分高めることが可能となり
、実用上多大なる効果が奏せられる。
【図面の簡単な説明】
第1図は1本発明の一実施例を説明するための構成図、
第2図は、第1図の動作説明をするためのフローチャー
ト、第3図は、平均化特徴ベクトル辞書の作成方法の一
例を説明するためのアルゴリズム、第4図は、本発明の
他の実施例を説明するための構成図である。 1・・・マイク、2・・・ローパスフィルタ(LPF)
、3・・・アナログデジタル変換回路(A/D)、4・
・・音声区間検出部、5・・・音声波形分析部、6・・
・時間長正規化部、7・・・特徴ベクトル正規化部、8
・・・平均化特徴ベクトル部、9・・・照合部、10・
・・登録蓄積部。 12・・・閾値部、13・・・特徴ベクトル変換部。

Claims (8)

    【特許請求の範囲】
  1. (1)、登録話者によって登録された音声パタンと未知
    話者によって入力された音声パタンとを比較し、その類
    似度があるしきい値を越えた時に上記未知話者を上記登
    録話者と同一であると判断する話者照合方式において、
    入力音声から音声区間を切り出す音声区間検出手段と、
    その音声区間内の音声信号を特徴ベクトルの時系列パタ
    ン{X_1、X_2・・・X_n}に変換する手段と、
    その特徴ベクトルを話者ごとに登録する手段と、未知話
    者の特徴ベクトルと登録された特徴ベクトルを比較する
    手段とを有し、あらかじめ多数の話者の音声を分析して
    平均的な特徴ベクトルを求め、この平均化特徴ベクトル
    によって登録話者の特徴ベクトルを正規化し、これを個
    人性の情報量として用いることを特徴とする話者照合方
    式。
  2. (2)、前記特徴ベクトルの平均化と正規化の処理にお
    いて、音声区間全体の線形伸縮を施して特徴ベクトルの
    個数を一定に保つようにしたことを特徴とする特許請求
    範囲第(1)項記載の話者照合方式。
  3. (3)、前記特徴ベクトルの平均化と正規化の処理にお
    いて、DPマッチング処理によって時間方向の正規化を
    行い、必要に応じてマッチング時のDPパスの情報も利
    用して特徴ベクトルの個数を一定に保つようにしたこと
    を特徴とする特許請求範囲第(1)項記載の話者照合方
    式。
  4. (4)、前記特徴ベクトルの平均化と正規化の処理にお
    いて、音声区間の特徴的な境界(無声破裂音の前の無音
    区間によるものなど)を検出し、対応する位置をマッチ
    ングさせ、その内部に線形伸縮処理を施し、必要に応じ
    て境界位置の情報も利用して特徴ベクトルの個数を一定
    に保つようにしたことを特徴とする特許請求範囲第(1
    )項記載の話者照合方式。
  5. (5)、前記平均化特徴ベクトルによって正規化された
    個人の特徴ベクトルの時系列パタンを時間軸方向に加算
    平均したものを新たな特徴ベクトルとして用いることを
    特徴とする特許請求範囲第(1)項記載の話者照合方式
  6. (6)、前記平均化特徴ベクトルによって正規化された
    個人の特徴ベクトルの時系列パタンから、特徴ベクトル
    毎の各要素の加算平均あるいは2乗和等の処理によって
    、時間方向のベクトルを生成し、これを新たな特徴ベク
    トルとして用いることを特徴とする特許請求範囲第(1
    )項記載の話者照合方式。
  7. (7)、前記正規化された特徴ベクトルの各要素毎にF
    比(話者間/話者内分散比)を求め、この値の大きい方
    から所定の個数を選定し、それを新めて特徴ベクトルと
    することを特徴とする特許請求範囲第(1)項記載の話
    者照合方式。
  8. (8)、登録話者の特徴ベクトルと未知話者の特徴ベク
    トルの比較においてDPマッチング手法を用いることを
    特徴とする特許請求範囲第(1)項記載の話者照合方式
JP62048557A 1987-03-02 1987-03-02 話者照合方式 Pending JPS63213899A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62048557A JPS63213899A (ja) 1987-03-02 1987-03-02 話者照合方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62048557A JPS63213899A (ja) 1987-03-02 1987-03-02 話者照合方式

Publications (1)

Publication Number Publication Date
JPS63213899A true JPS63213899A (ja) 1988-09-06

Family

ID=12806682

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62048557A Pending JPS63213899A (ja) 1987-03-02 1987-03-02 話者照合方式

Country Status (1)

Country Link
JP (1) JPS63213899A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR980011004A (ko) * 1996-07-20 1998-04-30 구자홍 화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치
JP2002221991A (ja) * 2001-01-29 2002-08-09 Animo:Kk データ照合システム及び方法
JP2006059282A (ja) * 2004-08-24 2006-03-02 Fujitsu Ltd 生体特徴情報に基づく認証方法
JP2007033898A (ja) * 2005-07-27 2007-02-08 Toshiba Corp 話者照合装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR980011004A (ko) * 1996-07-20 1998-04-30 구자홍 화자 확인기능을 가지는 음성인식 방법 및 그에 따른 장치
JP2002221991A (ja) * 2001-01-29 2002-08-09 Animo:Kk データ照合システム及び方法
JP2006059282A (ja) * 2004-08-24 2006-03-02 Fujitsu Ltd 生体特徴情報に基づく認証方法
JP2007033898A (ja) * 2005-07-27 2007-02-08 Toshiba Corp 話者照合装置
JP4714523B2 (ja) * 2005-07-27 2011-06-29 富士通東芝モバイルコミュニケーションズ株式会社 話者照合装置

Similar Documents

Publication Publication Date Title
Tiwari MFCC and its applications in speaker recognition
CN106935248B (zh) 一种语音相似度检测方法及装置
JPH0352640B2 (ja)
US5025471A (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
JPS62217295A (ja) 音声認識方式
Gupta et al. Gender-based speaker recognition from speech signals using GMM model
US20060020458A1 (en) Similar speaker recognition method and system using nonlinear analysis
Chandra Keyword spotting system for Tamil isolated words using Multidimensional MFCC and DTW algorithm
JPS63213899A (ja) 話者照合方式
Muttaqi et al. User identification system using biometrics speaker recognition by mfcc and dtw along with signal processing package
Sas et al. Gender recognition using neural networks and ASR techniques
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Jagtap et al. Speaker verification using Gaussian mixture model
Aliyu et al. Development of a text-dependent speaker recognition system
JP2001350494A (ja) 照合装置及び照合方法
Mut et al. Improved Weighted Matching for Speaker Recognition.
Prajapati et al. SPEAKER IDENTIFICATION FOR ISOLATED GUJARATI DIGITS USING MFCC AND VQ.
Upadhyay et al. Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario
Tiong et al. ECG biometric verification system: An i-vector to overcome variability factors
JPH054678B2 (ja)
Zergat et al. Robust Support Vector Machines for Speaker Verification Task
TUN et al. Development of Feature Extraction of Speech Recognition System for Security Control of the Confidential Information Areas
JPS61180297A (ja) 話者照合装置
Oo et al. Enhancement of Speaker Identification System Based on Voice Active Detection Techniques using Machine Learning
JPS6227798A (ja) 音声認識装置