JPS63213899A

JPS63213899A - 話者照合方式

Info

Publication number: JPS63213899A
Application number: JP62048557A
Authority: JP
Inventors: 博喜内山; 博雄北川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1987-03-02
Filing date: 1987-03-02
Publication date: 1988-09-06

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】滋」リド訪本発明は、音声により話者の同定を行う話者照合方式に
関し、例えば、バンキングサービス、個人情報へのアク
セス、機密保管場所への入室管理等の音声キー（ｋｅｙ
Ｌ玩具等の応答装置の検出等に応用可能なものである。

ｋ末技権音声を用いた話者照合は、音声信号が音韻情報。

個人性情報、感情情報より形成されていることに着目し
たものである。音声信号には音韻情報２個人性情報、感
情情報の順に含まれている。従来の話者照合は、音韻情
報をも含めたかたちで個人性情報を取り出し、完全に個
人性情報のみを取り出して個人性の特徴量として１話者
の照合を試みるものではなかった０例えば、長時間平均
スペクトルを特徴量とする話者照合は、音韻情報を時間
方向に平均化し１個人情報を際だたせようという主旨の
ものであり、音韻情報を削除するというものではなかっ
た。また、ケプストラムの動的、静的特徴量を用いるも
のもあるが、これらもＦ比（話者間／話者内分散比）の
大きなベクトルの要素を用いることで１話者の分離に大
きく貢献する特徴量を抽出し話者照合を行うものであり
、個人性情報のみを取り出して話者照合を試みるもので
はなかった。このように従来の特徴ベクトルの中には音
韻情報が多く含まれていたため個人識別を困難にしてい
た。而して話者照合においては、入力音声波と登録され
ている音声波を直接比較するのは能率的ではないので１
周波数スペクトル、線形予測係数等のいわゆる特徴パラ
メータに変換してから比較を行うのが望ましいが、従来
、この種の装置の構成では、上記の他に、基本周波数、
音声エネルギー、ホルマント周波数、パーコール係数。

対数断面積比、零交差数が用いられているが、音韻性の
情報を多く含んだ形で個人性の情報をも含んだという程
度の特徴量ベクトルを用いて話者照合を行うものであっ
た。

且−一旗本発明は、上述のごとき実情に鑑みてなされたもので、
特に、音声信号に含まれる個人性の情報を抽出すること
により話者を同定する話者照合方式を提供することを目
的としてなされたものである。

遭−一」又本発明は、上記目的を達成するために、登録話者によっ
て登録された音声パタンと未知話者によって入力された
音声パタンとを比較し、その類似度があるしきい値を越
えた時に上記未知話者を上記登録話者と同一であると判
断する話者照合方式において、入力音声から音声区間を
切り出す音声区間検出手段と、その音声区間内の音声信
号を特徴ベクトルの時系列パタン（Ｘ工、ｘ２・・・Ｘ
ｎ）に変換する手段と、その特徴ベクトルを話者ごとに
登録する手段と、未知話者の特徴ベクトルと登録された
特徴ベクトルを比較する手段とを有し、あらかじめ多数
の話者の音声を分析して平均的な特徴ベクトルを求め、
この平均化特徴ベクトルによって登録話者の特徴ベクト
ルを正規化し、これを個人性の情報量として用いること
を特徴としたものである。以下、本発明の実施例に基い
て説明する。

第１図は、本発明の一実施例を説明するための構成図、
第２図は、第１図の動作説明をするためのフローチャー
トで、図中、１はマイク、２はローパスフィルタ（ＬＰ
Ｆ）、３はアナログデジタル変換回路（Ａ／Ｄ）、４は
音声区間検出部、５は音声波形分析部、６は時間長正規
化部、７は特徴ベクトル正規化部、８は平均化特徴ベク
トル部、９は照合部、１０は登録蓄積部、１２は閾値部
で。

マイクから入力された音声信号は、ローパスフィルター
（ＬＰＳ）によってサンプリング周波数の１／２以上の
成分をカットされたのちＡ／Ｄ変換器によって離散的な
信号列に量子化される。このように離散化された音声信
号は、音声区間切り出し装置によって音声区間のみが切
り出される。この音声信号を短時間の波形毎に切り出し
てハミングウィンドウ等を剰じることで窓掛けを行い各
種の特徴量に変換する。特徴量としては、スペクトル、
ケプストラム、ＰＡＲＣＯＲ等各種のパラメータが考え
られる。ここでは、特徴量をＦＦＴスペクトルとして説
明する。上述のようにして窓掛けを行った短時間毎の波
形をＦＦＴによって短時間スペクトルに変換する９次い
で、ハミングウィンドウの長さを例えば２０Ｉ１１ｓと
し、これを更新する周期を１０ｍ５として順次各区間ご
とに短時間スペクトルを計算して特徴ベクトル（この場
合は短時間スペクトル）の時系列パターン（（Ｘ、、Ｘ
、・・・Ｘｎ））を求める。

いま、時刻ｉにおける特徴ベクトルＸｉｊは。

Ｘ　ｉ　ｊ　＝（Ｘ　ｉ、、　Ｘ　ｉ、・＝Ｘ　ｉ　ｎ
）と表わされる。

次のこのようにして得られた特徴ベクトルの正規化処理
について述べる。

特徴ベクトル正規化部においては、このように抽出され
た特徴ベクトルの時系列パターンをあらかじめ多数の話
者の音声を分析して得られた平均化特徴ベクトルによっ
て正規化し、新たな特徴ベクトルに変換する。正規化の
手法としては、登録話者の特徴ベクトルと平均化特徴ベ
クトルとの減算、除算等がある。

このようにして得られた新たな特徴ベクトルの時系列パ
ターンは登録時には、ＷＪ積部に話者のファイルネーム
を付加して標準パタンとして格納される。ここで、登録
話者の標準パタンとしては話者毎の時系列パタンをいく
つか加算平均したものを新たに標準パタンとして用いて
も良い。

照合部では、未知話者の正規化された特徴ベクトルのパ
タンと登録話者の標準パターンとのベクトル間の距離が
計算される。このとき、ベクトル間の距離としては、ユ
ークリッド距離や、マハラノビス距離などを用いる０時
間軸に対してはそのまま直接計算しても良いし、さらに
時間軸方向の変動をカバーするためにＤＰマツチング等
の処理を用いても良い。

判断部においては、予め各話者毎に設定されているしき
い値と上記計算によって得られた距離とを比較すること
で話者の判定が行われる。

また、このようにして得られた特徴ベクトルの時系列パ
ターンに対してその各要素毎のＦ比（話者間／話者内分
散比）を計算しておき、その太きいものから所定の個数
選定し、それを新めて特徴ベクトルとするという処理を
行っても良い。

第３図は、平均化特徴ベクトルの辞書を作成するための
アルゴリズムであるが、平均化特徴ベクトルを求めるた
めには、あらかじめ多数の話者の音声を分析して平均的
な特徴ベクトルを求める必要がある。まず、上記のよう
に抽出された特徴ベクトルの時系列パタンの個数は、話
者によりまた発声時間長により異っている。そこで特徴
ベクトルの平均パタンを形成するためには、特徴ベクト
ルの個数を一定に保つ必要がある。このため音声区間全
体に線形伸縮を施こし特徴ベクトルの個数に設定しする
。ここで特徴ベクトルの個数をあわせる手段としては部
分線形伸縮、ＤＰマツチング等の処理がある。

次に、多数話者の音声を分析して得られた特徴ベクトル
を線形伸縮することで得られる固定長の特徴ベクトルを
加算平均などの手法を用いて平均化ベクトルを形成する
。

第４図は、本発明の他の実施例を説明するための構成図
であるが、この実施例は、第１図に示した実施例に特徴
ベクトルの変換部１３を付加したところに特徴がある。

この特徴ベクトル変換部の処理は、例えば、平均化特徴
ベクトルによって正規化された個人の特徴ベクトルの時
系列パタンを時間軸方向に加算平均したものを新たな特
徴ベクトルとして設定したり、平均化特徴ベクトルによ
って正規化された個人の特徴ベクトルの時系列パタンか
ら、特徴ベクトル毎の各要素の加算平均。

あるいは２乗和等の処理によって１時間方向のベクトル
を生成し、これを新たな特徴ベクトルとし設定したりす
ることなどが考えられる。また、この様に変換した特徴
ベクトルの中から各要素毎のＦ比（￥８者間／話者内分
散比）が大きいものを所定の個数選定し、それを新めて
特徴ベクトルとするという処理を行っても良い。

羞−一米以上の説明から明らかなように、本発明によると入力音
声中の個人性を示す音声特徴を精度良く抽出することが
でき、その個人照合精度を十分高くすることができる。

したがって、個人照合を必要とする先程の装置に利用す
ることでセキュリティーを十分高めることが可能となり
、実用上多大なる効果が奏せられる。

【図面の簡単な説明】

第１図は１本発明の一実施例を説明するための構成図、
第２図は、第１図の動作説明をするためのフローチャー
ト、第３図は、平均化特徴ベクトル辞書の作成方法の一
例を説明するためのアルゴリズム、第４図は、本発明の
他の実施例を説明するための構成図である。１・・・マイク、２・・・ローパスフィルタ（ＬＰＦ）
、３・・・アナログデジタル変換回路（Ａ／Ｄ）、４・
・・音声区間検出部、５・・・音声波形分析部、６・・
・時間長正規化部、７・・・特徴ベクトル正規化部、８
・・・平均化特徴ベクトル部、９・・・照合部、１０・
・・登録蓄積部。１２・・・閾値部、１３・・・特徴ベクトル変換部。

Claims

【特許請求の範囲】

（１）、登録話者によって登録された音声パタンと未知
話者によって入力された音声パタンとを比較し、その類
似度があるしきい値を越えた時に上記未知話者を上記登
録話者と同一であると判断する話者照合方式において、
入力音声から音声区間を切り出す音声区間検出手段と、
その音声区間内の音声信号を特徴ベクトルの時系列パタ
ン｛Ｘ＿１、Ｘ＿２・・・Ｘ＿ｎ｝に変換する手段と、
その特徴ベクトルを話者ごとに登録する手段と、未知話
者の特徴ベクトルと登録された特徴ベクトルを比較する
手段とを有し、あらかじめ多数の話者の音声を分析して
平均的な特徴ベクトルを求め、この平均化特徴ベクトル
によって登録話者の特徴ベクトルを正規化し、これを個
人性の情報量として用いることを特徴とする話者照合方
式。
（２）、前記特徴ベクトルの平均化と正規化の処理にお
いて、音声区間全体の線形伸縮を施して特徴ベクトルの
個数を一定に保つようにしたことを特徴とする特許請求
範囲第（１）項記載の話者照合方式。
（３）、前記特徴ベクトルの平均化と正規化の処理にお
いて、ＤＰマッチング処理によって時間方向の正規化を
行い、必要に応じてマッチング時のＤＰパスの情報も利
用して特徴ベクトルの個数を一定に保つようにしたこと
を特徴とする特許請求範囲第（１）項記載の話者照合方
式。
（４）、前記特徴ベクトルの平均化と正規化の処理にお
いて、音声区間の特徴的な境界（無声破裂音の前の無音
区間によるものなど）を検出し、対応する位置をマッチ
ングさせ、その内部に線形伸縮処理を施し、必要に応じ
て境界位置の情報も利用して特徴ベクトルの個数を一定
に保つようにしたことを特徴とする特許請求範囲第（１
）項記載の話者照合方式。
（５）、前記平均化特徴ベクトルによって正規化された
個人の特徴ベクトルの時系列パタンを時間軸方向に加算
平均したものを新たな特徴ベクトルとして用いることを
特徴とする特許請求範囲第（１）項記載の話者照合方式
。
（６）、前記平均化特徴ベクトルによって正規化された
個人の特徴ベクトルの時系列パタンから、特徴ベクトル
毎の各要素の加算平均あるいは２乗和等の処理によって
、時間方向のベクトルを生成し、これを新たな特徴ベク
トルとして用いることを特徴とする特許請求範囲第（１
）項記載の話者照合方式。
（７）、前記正規化された特徴ベクトルの各要素毎にＦ
比（話者間／話者内分散比）を求め、この値の大きい方
から所定の個数を選定し、それを新めて特徴ベクトルと
することを特徴とする特許請求範囲第（１）項記載の話
者照合方式。
（８）、登録話者の特徴ベクトルと未知話者の特徴ベク
トルの比較においてＤＰマッチング手法を用いることを
特徴とする特許請求範囲第（１）項記載の話者照合方式
。