WO2007000816A1

WO2007000816A1 - 音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法

Info

Publication number: WO2007000816A1
Application number: PCT/JP2005/011921
Authority: WO
Inventors: Tomonari Kakino
Original assignee: Toshiba Tec Kabushiki Kaisha
Priority date: 2005-06-29
Filing date: 2005-06-29
Publication date: 2007-01-04

Abstract

　音声特徴抽出装置は、入力音声を周波数分析し、入力音声からスペクトル成分を抽出し、抽出されたスペクトル成分を対数変換し、対数変換された対数スペクトルを多重解像度解析して特徴ベクトルを得るように構成されており、これにより、各分析窓の周波数方向の長さがケフレンシーの高さと共に縮小され、高ケフレンシーになるに従い周波数分解能が高い解析を実施することが可能となることにより、音声の周波数スペクトルから個人性を分析する際に周波数分解能が固定されない。

Description

明細書

音声特徴抽出装置、話者認識装置、プログラム及び音声特徴抽出方法技術分野

[0001] 本発明は、入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出装置、音声波に含まれる個人性情報を用いて話者を認識する話者認識装置、プログラム及び音声特徴抽出方法に関する。

背景技術

[0002] 音声波に含まれる個人性情報を用いて、誰の声であるかを自動的に判定することを話者認識 (speaker recognition)という。このような話者認識の形態は、話者識別（sp eaker identification)と話者照合（speaker verification)に分けることができる。話者識別とは、入力音声が、あら力じめ登録されている N人の内の誰の声であるかを判定するものである。話者照合とは、入力音声と同時に自分が誰であるかの IDを入力して、その音声が本当にその IDに対応する人の声であるか否かを判定するものである。話者識別の場合は、多数の登録話者の内から最も類似度 (尤度)の高い話者を選び、その話者の音声であると判断する。話者照合の場合は、 IDに基づく本人の標準バターンとの類似度 (モデルに対する尤度）力一定の閾値よりも大きければ本人の音声であると判定し、それ以外の場合は他人の音声であると判定する。

[0003] ところで、話者識別の性能は、登録話者の内の本人以外の話者が選択される誤り率で評価される。当然ながら登録話者の数が多くなればそれだけ難しくなるので、話者識別の誤り率は、登録話者の数が増えるにつれて単調に増加することになる。したがって、登録話者の数が増えた場合であっても、話者識別の誤り率の増加を低く抑えることが望まれている。

[0004] 近年、話者識別においては、個人性を表す特徴パラメータとして低次ケプストラム係数が広く用いられている。ここで、ケプストラム法による低次ケプストラム係数を抽出する手順について図 7を用いて説明する。

[0005] 図 7は、ケプストラム係数を抽出する従来型の分析処理部の各種処理部を示すプロック図である。図 7において、 501は入力される音声波（デジタル音声信号）、 502は音声波を適当な長さのフレームに切り分け、かつ、ハミング窓などの窓処理を施す時間窓処理部、 503は離散フーリエ変換処理部、 504は振幅スペクトルを対数変換する対数変換処理部、 505は逆離散フーリエ変換処理部、 506はリフタリング処理部、 507は出力されるケプストラム係数、である。

[0006] 入力された音声波 501は、時間窓処理部 502において適当な長さ（一般的には 20 〜30ms)のフレームに分割され、順次ノ、ミング窓などの窓が乗じられる。次いで、離散フーリエ変換部 503にて振幅スペクトルが抽出され、これを対数変換処理部 504 にて対数変換することにより、対数振幅スペクトルが得られる。一般的に、ここで得られた対数振幅スペクトル包絡の概形情報に個人性を示す情報が含まれていると言われている。この概形情報を抽出するために、逆離散フーリエ変換処理部 505にて逆フーリエ変換を行いケプストラムを求め、続くリフタリング処理部 506にて高次ケプストラムを除くことにより、低次ケプストラム係数が求まる (例えば、非特許文献 1参照)。

[0007] 図 8は、従来型の周波数ケフレンシ一平面上の分析窓と特徴ベクトルを示す模式図である。逆離散フーリエ変換は、ケフレンシ一に対する分析窓の周波数分解能が図 8の左図のように一定となる解析手法であって、各分析窓毎に対数振幅スペクトルを逆離散フーリエ変換し、その分析窓に対応するケプストラム係数を求める。各分析窓毎に求めたケプストラム係数の列力図 8の右図のような特徴ベクトルとなる。

[0008] 非特許文献 1 :古井貞熙著 "音声情報処理" 森北出版株式会社 P. 25 ところ力従来のケプストラム法により抽出されるケプストラム係数においては、各分析窓の周波数方向の長さが一定であるため、周波数方向の分解能が固定されてしまうという問題がある。これは、周波数方向に個人性を示す情報が偏って存在していた場合、話者の識別能に悪影響を及ぼす要因となる。

[0009] 本発明の目的は、音声の周波数スペクトルから個人性を分析する際に周波数方向の分解能を固定しな、ようにすることである。

[0010] 本発明の目的は、話者認識精度を向上させることである。

発明の開示

[0011] 本発明は、入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出装置において、窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第 1の分析手段と、この第 1の分析手段により抽出された前記スペクトル成分を対数変換する対数変換手段と、この対数変換手段により対数変換された対数スぺタトルを多重解像度解析し、特徴ベクトルを得る第 2の分析手段と、を備える。

[0012] 別の面から見た本発明は、音声波に含まれる個人性情報を用いて話者を認識する話者認識装置において、デジタル音声信号を入力する音声入力手段と、入力されたデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する前記音声特徴抽出装置と、この音声特徴抽出装置から入力された特徴ベクトルから個人性特徴モデルを作成するモデル作成手段と、このモデル作成手段で作成された個人性特徴モデルを登録する登録手段と、前記音声特徴抽出装置から出力された特徴ベクトルに基づき前記登録手段により登録されて!/、る個人性特徴モデル力最も類似度 (尤度)の高、話者を選択する話者選択手段と、を備える。

[0013] 更に別の面力見た本発明は、入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出機能を実行するコンピュータで読取可能なプログラムであって、窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第 1の分析機能と、この第 1の分析機能により抽出された前記スペクトル成分を対数変換する対数変能と、この対数変能により対数変換された対数スぺ外ルを多重解像度解析し、特徴ベクトルを得る第 2の分析機能と、を前記コンピュータに実行させる

図面の簡単な説明

[0014] [図 1]本発明の実施の一形態の話者認識装置の構成を示すブロック図である。

[図 2]特徴ベクトル生成部の各種処理部を示すブロック図である。

[図 3]周波数ケフレンシ一平面上の分析窓と特徴ベクトル (多重解像度パラメータ)を示す模式図である。

[図 4]特徴ベクトル生成部における処理により出力される特徴ベクトルの変形例を示す模式図である。

[図 5]特徴ベクトル生成部における処理により出力される特徴ベクトルの別の変形例を示す模式図である。

[図 6]ソフトウェアによって実現する場合の話者認識装置の構成例を示すブロック図である。

[図 7]ケプストラム係数を抽出する従来型の分析処理部の各種処理部を示すブロック図である。

[図 8]従来型の周波数ケフレンシ一平面上の分析窓と特徴ベクトルを示す模式図である。

発明を実施するための最良の形態

[0015] 本発明の実施の一形態を図 1ないし図 6に基づいて説明する。

[0016] 図 1は本実施の形態の話者認識装置 100の構成を示すブロック図である。図 1に示すように、話者認識装置 100は、マイク 1、低域通過フィルタ 2、 AZD変換部 3、特徴ベクトル生成部 4、話者選択部 5、話者モデル生成部 6、記憶部 7で構成されている。

[0017] マイク 1は、入力された音声を電気的アナログ信号に変換するものである。低域通過フィルタ 2は、入力されたアナログ信号力所定の周波数以上の周波数をカットし出力するものである。 AZD変換部 3は、入力されたアナログ信号を所定のサンプリング周波数、量子化ビット数でデジタル信号に変換するものである。以上、マイク 1、低域通過フィルタ 2、 AZD変換部 3により、音声を入力するための音声入力手段が構成されている。

[0018] 特徴ベクトル生成部 4は、音声特徴抽出装置として機能するものであり、入力されたデジタル信号カゝら個人性特徴情報を抽出し、順次個人性情報を含む特徴データである特徴ベクトルを出力するものである。

[0019] 話者モデル生成部 6 (モデル作成手段）は、特徴ベクトル生成部 4で生成された特徴ベクトルカゝら話者モデル (個人性特徴モデル)を作成するものであり、記憶部 7 (登録手段）は、話者モデル生成部 6で作成された話者モデル (例えば、コードブック）を登録するものである。

[0020] 話者選択部 5 (話者選択手段）は、特徴ベクトル生成部 4で生成された特徴ベクトルと予め記憶部 7に登録されてヽる話者モデル (例えば、コードブック）から最も類似度 (尤度)の高ヽ話者を選択し、選択した話者認識結果を出力するものである。

[0021] 図 2は、特徴ベクトル生成部 4の各種処理部を示すブロック図である。特徴ベクトル生成部 4の各種処理部について、図 2を参照しつつ説明する。図 2に示すように、 11 は入力される音声波（デジタル音声信号）、 12は音声波を適当な長さのフレームに切り分け、かつ、ハミング窓などの窓処理を施す時間窓処理部、 13は入力音声を周波数分析し、スペクトル成分を抽出する離散フーリエ変換処理部 (第 1の分析手段)、 14は振幅スペクトルを対数変換する対数変換処理部 (対数変換手段）、 15はゥエーブレット変換によりスペクトル成分を多重解像度解析（MRA: Multi- Resolution Analy sis)し、特徴ベクトルを得る MRA処理部（第 2の分析手段）、 16は上記の処理により出力される特徴ベクトル (多重解像度パラメータ)である。

[0022] 図 3は、周波数ケフレンシ一平面上の分析窓と特徴ベクトル (多重解像度パラメータ )を示す模式図である。特徴ベクトル生成部 4で行われる多重解像度分析は、図 3の左図に示すように、各分析窓の周波数方向の長さがケフレンシ一の高さと共に縮小されていることにより、高ケフレンシ一になるに従い周波数分解能が高い解析を実施することが可能となっている。特徴ベクトル生成部 4は、このような解析を実施することにより、図 3の右図に示すような特徴ベクトル (多重解像度パラメータ）を出力する。

[0023] 図 4は、特徴ベクトル生成部における処理により出力される特徴ベクトルの変形例を示す模式図である。別の実施の形態として、特徴ベクトル生成部 4は、図 4に示したようなケプストラム係数を抽出する従来型の分析処理部 (第 3の分析手段)も兼ね備えるようにしても良い。ケプストラム係数を抽出する従来型の分析処理部 (第 3の分析手段)も兼ね備えるようにすることで、特徴ベクトル生成部 4から出力される特徴ベクトルは、図 4に示すように低次ケプストラム係数と多重解像度パラメータとを合わせた多次元ベクトルとなる（統合手段)。

[0024] 図 5は、特徴ベクトル生成部における処理により出力される特徴ベクトルの別の実施の形態を示す模式図である。また、低次ケプストラム係数と多重解像度パラメータとを統合して特徴ベクトルを生成する際には、低次ケプストラム係数と多重解像度パラメータとを足し合わせて統合するものに限らず、図 5に示すように、ケプストラムの変数である各ケフレンシ一帯域毎に択一的に統合しても良い（統合手段)。このようにすることにより、各ケフレンシ一帯域毎に最適な分析窓を採用したことと等価の効果を得ることができ、より理想的な分析を実施することが可能となる。

[0025] 次に、本実施の形態における話者認識装置 100の登録処理の流れについて説明する。マイク 1に人力された音声は、電気的アナログ信号として出力される。アナログ信号として出力された入力音声は、低域通過フィルタ 2によりサンプリング周波数 (例えば、 12kHz)の 1Z2以上の周波数をカットされる。その後、入力音声は、 AZD変換部 3にてサンプリング周波数でサンプリングされデジタル信号に変換される。

[0026] AZD変換部 3にてデジタル信号に変換された入力音声は、特徴ベクトル生成部 4 に入力され、音声分析により抽出される個人性情報を含む特徴データが特徴べタトル (多重解像度パラメータ）として出力される。

[0027] 特徴ベクトル生成部 4から出力された特徴ベクトル (多重解像度パラメータ）は、話者モデル生成部 6に入力されて話者モデル生成部 6におヽて話者モデル (例えば、コードブック）が作成され、話者モデル生成部 6で作成された話者モデル (例えば、コードブック）が記憶部 7に登録される。

[0028] 次に、本実施の形態における話者認識装置 100の話者認識処理の流れについて説明する。マイク 1に人力された音声は、電気的アナログ信号として出力される。アナログ信号として出力された入力音声は、低域通過フィルタ 2によりサンプリング周波数 (例えば、 12kHz)の 1Z2以上の周波数をカットされる。その後、入力音声は、 A/D 変換部 3にてサンプリング周波数でサンプリングされデジタル信号に変換される。

[0029] AZD変換部 3にてデジタル信号に変換された入力音声は、特徴ベクトル生成部 4 に入力され、音声分析により抽出される個人性情報を含む特徴データが特徴べタトル (多重解像度パラメータ）として出力される。

[0030] 特徴ベクトル生成部 4から出力された特徴ベクトル (多重解像度パラメータ）は話者選択部 5に入力され、記憶部 7に予め登録されている話者モデル (例えば、コードブック)から最も類似度 (尤度)の高、話者が選択され、選択した話者認識結果が出力される。

[0031] このように本実施の形態によれば、各分析窓の周波数方向の長さがケフレンシ一の高さと共に縮小され、高ケフレンシ一になるに従い周波数分解能が高い解析を実施することが可能となることにより、音声の周波数スペクトル力個人性を分析する際に周波数分解能が固定されず、より詳細な分析を行うことができるので、話者認識精度の向上した話者認識装置 100を提供することができる。

[0032] 図 6は、ソフトウェアによって実現する場合の話者認識装置の構成例を示すブロック図である。本発明を実施する上では、上記した実施の形態に示す特定のハードゥエァ構成に限定されるものではなぐ例えば、ソフトウェアによっても実現可能である。話者認識装置 100は、この話者認識装置 100の各部を集中的に制御する CPU101 を備えており、この CPU101には、 BIOSなどを記憶した ROMや各種データを書換え可能に記憶する RAMで構成されるメモリ 102がバス接続されており、マイクロコンピュータを構成している。また、 CPU101には、 HDD (Hard Disk Drive) 103と、コンピュータ読み取り可能な記憶媒体である CD (Compact Disc) ROM104を読み取る CD— ROMドライブ 105と、話者認識装置 100とインターネット等との通信を司る通信装置 106と、キーボード 107と、 CRT、 LCDなどの表示装置 108と、マイク 1とが、図示しな!、lZOを介してバス接続されて、る。

[0033] CD— ROM104などのコンピュータ読み取り可能な記憶媒体には本発明の音声特徴抽出機能を実現するプログラムが記憶されており、このプログラムを話者認識装置 100にインストールすることにより、 CPU101に本発明の音声特徴抽出機能を実行させることができる。また、マイク 1から入力された音声は一時的に HDD103などに格納される。そして、該プログラムが起動されると、 HDD103などに一時保存された音声データが読み込まれ、音声特徴抽出処理が実行され、音声特徴抽出処理により抽出された特徴ベクトルが話者認識処理に供される。

[0034] なお、記憶媒体としては、 CD— ROM104のみならず、 DVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリ等、各種方式のメディアを用いることができる。また、インターネットなどのネットヮークからプログラムをダウンロードし、 HDD103にインストールするようにしてもよい。この場合に、送信側のサーバでプログラムを記憶している記憶装置も、この発明の記憶媒体である。なお、プログラムは、所定の OS (Operating System)上で動作するものであってもよいし、その場合に後述の各種処理の一部の実行を OSに肩代わりさせるものであってもよ、し、ワープロソフトなど所定のアプリケーションソフトや OSなどを構成する一群のプログラムファイルの一部として含まれて、るものであってもよ、。

Claims

請求の範囲

[1] 入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出装置において、窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第

1の分析手段と、

この第 1の分析手段により抽出された前記スペクトル成分を対数変換する対数変換手段と、

この対数変換手段により対数変換された対数スペクトルを多重解像度解析し、特徴ベクトルを得る第 2の分析手段と、

を備えることを特徴とする音声特徴抽出装置。

[2] 前記第 1の分析手段により抽出された前記スペクトル成分カゝらケプストラム係数を抽出し、特徴ベクトルを得る第 3の分析手段と、

前記第 2の分析手段カゝら得られた特徴ベクトルと前記第 3の分析手段カゝら得られた特徴ベクトルとを統合する統合手段と、

を備えることを特徴とする請求項 1記載の音声特徴抽出装置。

[3] ケプストラムの変数である各ケフレンシ一帯域毎に択一的にベクトルを統合する、ことを特徴とする請求項 3記載の音声特徴抽出装置。

[4] 音声波に含まれる個人性情報を用いて話者を認識する話者認識装置において、デジタル音声信号を入力する音声入力手段と、

入力されたデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する請求項 1な、し 3の、ずれか一記載の音声特徴抽出装置と、

この音声特徴抽出装置から入力された特徴ベクトルから個人性特徴モデルを作成するモデル作成手段と、

このモデル作成手段で作成された個人性特徴モデルを登録する登録手段と、前記音声特徴抽出装置から出力された特徴ベクトルに基づき前記登録手段により登録されて！、る個人性特徴モデル力最も類似度 (尤度)の高、話者を選択する話者選択手段と、を備えることを特徴とする話者認識装置。

[5] 入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出機能を実行するコンピュータに読取可能なプログラムであって、

窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第 1の分析機能と、

この第 1の分析機能により抽出された前記スペクトル成分を対数変換する対数変換機能と、

この対数変能により対数変換された対数スペクトルを多重解像度解析し、特徴ベクトルを得る第 2の分析機能と、

を前記コンピュータに実行させることを特徴とするプログラム。

[6] 前記第 1の分析機能により抽出された前記スペクトル成分カゝらケプストラム係数を抽出し、特徴ベクトルを得る第 3の分析機能と、

前記第 2の分析機能から得られた特徴ベクトルと前記第 3の分析機能から得られた特徴ベクトルとを統合する統合機能と、

を前記コンピュータに実行させることを特徴とする請求項 5記載のプログラム。

[7] ケプストラムの変数である各ケフレンシ一帯域毎に択一的にベクトルを統合する、ことを特徴とする請求項 6記載のプログラム。

[8] 入力されるデジタル音声信号を適当な長さのフレームに切り分けて窓処理を施した後、順次個人性情報を含む特徴ベクトルを出力する音声特徴抽出方法において、窓処理を施されたデジタル音声信号を周波数分析し、スペクトル成分を抽出する第

1の分析ステップと、

この第 1の分析ステップにより抽出された前記スペクトル成分を対数変換する対数変換ステップと、

この対数変換ステップにより対数変換された対数スペクトルを多重解像度解析し、特徴ベクトルを得る第 2の分析ステップと、

を備えることを特徴とする音声特徴抽出方法。

[9] 前記第 1の分析ステップにより抽出された前記スペクトル成分カゝらケプストラム係数を抽出し、特徴ベクトルを得る第 3の分析ステップと、

前記第 2の分析ステップ力得られた特徴ベクトルと前記第 3の分析ステップ力得られた特徴ベクトルとを統合する統合ステップと、

を備えることを特徴とする請求項 8記載の音声特徴抽出方法。

ケプストラムの変数である各ケフレンシ一帯域毎に択一的にベクトルを統合する、ことを特徴とする請求項 9記載の音声特徴抽出方法。