JPWO2011024572A1

JPWO2011024572A1 - 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム

Info

Publication number: JPWO2011024572A1
Application number: JP2011528703A
Authority: JP
Inventors: 治市川; 福田　隆; 隆福田; 雅史西村
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-08-28
Filing date: 2010-07-12
Publication date: 2013-01-24
Anticipated expiration: 2030-07-12
Also published as: GB2485926B; GB201202741D0; JP2013178575A; JP5315414B2; WO2011024572A1; KR101332143B1; KR20120046298A; GB2485926A; CN102483916A; DE112010003461T5; TW201123169A; US8930185B2; US20120185243A1; DE112010003461B4; JP5723923B2; US8468016B2; CN102483916B; US20120330657A1

Abstract

音声信号から雑音や残響により一層強い特徴量を抽出する技術を提供する。音声特徴量抽出装置であって、フレーム化された音声信号のスペクトルを入力して、各フレームについて、前後のフレーム間のスペクトルの差分（リニア領域の差分）をデルタスペクトルとして算出する差分算出手段と、各フレームについて、デルタスペクトルを平均スペクトルの関数で除算することにより正規化する正規化処理手段とを含み、正規化処理手段の出力をデルタ特徴量とする。

Description

本発明は、音声信号から特徴量を抽出する技術に関し、特に、残響や雑音に頑健なデルタ及びデルタデルタ特徴量を抽出する技術に関する。

音声認識装置の耐雑音性能や耐残響性能は継続的に改善されているが、厳しい条件下での認識精度は未だ不十分である。耐雑音性については、例えば、自動車における窓開け高速走行などSNが極めて低い条件下や、音楽や雑踏などの非定常な雑音環境下での認識率は大変低いことが知られている。また、耐残響性については、コンクリートの廊下やエレベータホールなど反射や残響が多い場所での認識率は、たとえ雑音がほとんどない状況であっても大変低いことが知られている。

これら問題に対して従来検討されている種々の対策は、次の４つに分類できる。（１）観測信号の前処理により、残響や雑音を除去するフロントエンド方法（例えば、特許文献１、２参照）。（２）残響や雑音を含む音声を使って音響モデルを学習するマルチスタイルトレーニング方法（例えば、特許文献３参照）。（３）観測音声と音響モデルが適合するように、特徴量又は音響モデルを変換する適応方法（例えば、特許文献４参照）。（４）残響や雑音に強い特徴量を使用する特徴抽出方法（例えば、非特許文献１）。

上記各方法は、他の方法と組み合わせることが可能である。例えば、（２）、（３）及び（４）の各手法を組み合わせて、特徴抽出としてＬＤＡを使用し、マルチスタイルトレーニングで音響モデルを作成したうえで、ＭＬＬＲによる適応を行うという組み合わせが考えられる。従って、上記いずれかの１つの方法でなく、（１）〜（４）それぞれの技術の向上を図ることが重要である。

特開２００９―５８７０８号公報特開２００４―３４７９５６号公報特開２００７―７２４８１号公報特開２００７―２７９４４４号公報

ＴａｋａｓｈｉＦｕｋｕｄａ、ＯｓａｍｕＩｃｈｉｋａｗａ、ＭａｓａｆｕｍｉＮｉｓｈｉｍｕｒａ、「Ｓｈｏｒｔ−ａｎｄＬｏｎｇ−ｔｅｒｍＤｙｎａｍｉｃＦｅａｔｕｒｅｓｆｏｒＲｏｂｕｓｔＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ」、Ｐｒｏｃｏｆ１０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐｏｋｅｎＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＩＣＳＬＰ２００８／Ｉｎｔｅｒｓｐｅｅｃｈ２００８）、ｐｐ．２２６２−２２６５、Ｓｅｐｔｅｍｂｅｒ２００８、Ｂｒｉｓｂａｎｅ、Ａｕｓｔｒａｌｉａ.

しかしながら、（４）の特徴抽出については、雑音や残響に際立って強い特徴量というのは未だに見つかっていない。特に耐残響性能に優れた特徴量はほとんど知られていない。そのため、多くの音声認識では、ＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ：メル周波数ケプストラム係数）とそのデルタ（１次変化量）及びデルタデルタ（２次変化量）の組み合わせ、またはそれらの線形変換を使用し続けているのが現状である。

なお、本出願人に係る非特許文献１の技術は、平均音素継続時間を超える長い窓幅でのＭＦＣＣのデルタを特徴量とすることにより、音声認識の精度を高めることを可能とした。しかしながら、厳しい条件での騒音や残響環境において、更なる性能の改善が求められている。

この発明は、上記の問題点を解決するためになされたものであって、音声認識の精度をより高めるために、音声信号から雑音や残響により一層強い特徴量を抽出する技術を提供することを目的とする。

本願発明者は、雑音や残響により一層強い特徴量を見つけるために研究し、ＭＦＣＣのデルタを含む従来用いられているデルタ特徴量の多くは、対数領域の差分とみなし得るところ、非自明にも対数領域の差分は、残響及び騒音環境での音声認識において好ましくない結果をもたらすことを見出した。そこで本願発明者は更に研究を進め、その結果、リニア領域の差分を利用すること、それによって新たに生ずるダイナミックレンジが広くモデル化に適さないという問題や、伝達特性の補正ができないという問題は、発話全体についてのスペクトルの平均を利用した正規化を行うことにより解決するというアイデアに想到した。

即ち、上記課題を解決するために、本発明の第１の態様においては、フレーム化された音声信号の周波数binごとのスペクトルを入力して、各フレームについて、前記周波数binごと、前後のフレーム間の前記スペクトルの差分をデルタスペクトルとして算出する第１差分算出手段と、前記各フレームについて、前記周波数binごとの前記デルタスペクトルを、該周波数binについての発話全体である全フレームについてのスペクトルの平均である平均スペクトルの関数で除算することにより正規化する第１正規化処理手段とを含み、前記第１正規化処理手段の出力をデルタ特徴量とする、音声特徴量抽出装置を提供する。

ここで前記平均スペクトルの前記関数は、前記平均スペクトルそのものであってもよい。

好ましくは、上記音声特徴量抽出装置は、前記各フレームについて、前記周波数binごとの正規化された前記デルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとの正規化されたメル・デルタスペクトルとして算出する第１メル・フィルタバンク処理手段を更に含み、前記第１メル・フィルタバンク処理手段の出力をデルタ特徴量とする。

より好ましくは、上記音声特徴量抽出装置は、前記フィルタバンクごとの正規化された前記メル・デルタスペクトルを、離散コサイン変換する第１離散コサイン変換手段を更に含み、前記第１離散コサイン変換手段の出力をデルタ特徴量とする。

また好ましくは、前記第１正規化処理手段は、前記除算に加えて対数圧縮を行うことにより前記正規化を行う。

また好ましくは、広帯域の雑音に対する耐性を高める必要がある場合、前記第１メル・フィルタバンク処理手段は、前記メル・フィルタバンクの重みの代わりに、有声音の区間では調波構造部分に重みがあり、かつ調波構造がない無声音の区間ではフラットに近いフィルタを、前記メル・フィルタバンクの重みに掛け合わせたものを使用する。

また好ましくは、上記音声特徴量抽出装置は、ＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）を算出するＭＦＣＣ算出手段を更に含み、前記ＭＦＣＣを静的特徴量とする。

なお、前記第１メル・フィルタバンク処理手段の処理を、前記第１正規化処理手段の処理の前に行ってもよい。この場合、前記第１正規化処理手段は、前記各フレームについて、前記フィルタバンクごとのメル・デルタスペクトルを、該フィルタバンクについての発話全体である全フレームについてのメルスペクトルの平均である平均メルスペクトルの関数で除算することにより正規化する。そして、前記音声特徴量抽出装置は、前記第１正規化処理手段の出力をデルタ特徴量としてもよい。

好ましくは、前記平均メルスペクトルの前記関数は、前記平均メルスペクトルのそのものである。これに代えて、任意のフレームｔ及び任意のフィルタバンクｊに対して前記平均メルスペクトルの前記関数は、フレームｔのフィルタバンクｊについてのメルスペクトルの値と、フィルタバンクｊについての前記平均メルスペクトルの値とのうち、大きい方の値又は大きい方の値に近い値を出力するものであってもよい。

また好ましくは、前記第１正規化処理手段の出力をデルタ特徴量とする上記音声特徴量抽出装置は、
前記デルタスペクトルを入力として、各フレームについて、前後のフレーム間の前記周波数binごとの前記デルタスペクトルの差分をデルタデルタスペクトルとして算出する第２差分算出手段と、前記各フレームについて、周波数binごとの前記デルタデルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタデルタスペクトルとして算出する第２メル・フィルタバンク処理手段と、前記各フレームについて、前記フィルタバンクごとの前記メル・デルタデルタスペクトルを前記平均メルスペクトルの関数で除算することにより正規化する第２正規化処理手段とを更に含み、前記第２正規化処理手段の出力をデルタデルタ特徴量とする。

また好ましくは、上記音声特徴量抽出装置は、正規化された前記フィルタバンクごとのメル・デルタスペクトルを、離散コサイン変換する第１離散コサイン変換手段を更に含み、前記第１離散コサイン変換手段の出力をデルタ特徴量とする。

更に好ましくは、前記第１離散コサイン変換手段の出力をデルタ特徴量とする上記音声特徴量抽出装置は、前記デルタスペクトルを入力として、各フレームについて、前後のフレーム間の前記周波数binごとの前記デルタスペクトルの差分をデルタデルタスペクトルとして算出する第２差分算出手段と、前記各フレームについて、周波数binごとの前記デルタデルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタデルタスペクトルとして算出する第２メル・フィルタバンク処理手段と、前記各フレームについて、前記フィルタバンクごとの前記メル・デルタデルタスペクトルを前記平均メルスペクトルの関数で除算することにより正規化する第２正規化処理手段と、正規化された前記フィルタバンクごとのメル・デルタデルタスペクトルを、離散コサイン変換する第２離散コサイン変換手段とを更に含み、前記第２離散コサイン変換手段の出力をデルタデルタ特徴量とする。

上記課題を解決するために、本発明の第２の態様においては、フレーム化された音声信号の各フレームのスペクトルに、発話全体である全フレームについてのスペクトルの平均である平均スペクトルを足した値を入力して、前記各フレームについて、前記値にメル・フィルタバンクの重みを掛けて合算するメル・フィルタバンク処理手段と、前記各フレームについて、前記メル・フィルタバンク処理手段の出力の対数を求める対数算出手段と、前記各フレームにてついて、前記対数算出手段の出力を、離散コサイン変換する離散コサイン変換手段と、前記各フレームについて、前後のフレーム間の前記離散コサイン変換手段の出力の差分を算出する第１差分算出手段とを含み、前記第１差分算出手段の出力をデルタ特徴量とする、音声特徴量抽出装置を提供する。

上記課題を解決するために、本発明の第３の態様においては、フレーム化された音声信号の各フレームのスペクトルを入力して、前記各フレームについて、前記スペクトルにメル・フィルタバンクの重みを掛けて合算することによりメルスペクトルを算出するメル・フィルタバンク処理手段と、各フレームの前記メルスペクトルを入力して、発話全体である全フレームについての前記メルスペクトルの平均である平均メルスペクトルを算出する平均算出手段と、前記各フレームについて、前記メルスペクトルに前記平均メルスペクトル加えた値の対数を求める対数算出手段と、前記各フレームについて、前記対数算出手段の出力を、離散コサイン変換する離散コサイン変換手段と、前記各フレームについて、前後のフレーム間の前記離散コサイン変換手段の出力の差分を算出する第１差分算出手段とを含み、前記第１差分算出手段の出力をデルタ特徴量とする、音声特徴量抽出装置を提供する。

好ましくは、本発明の第２又は第３態様において、上記音声特徴量抽出装置は、前記各フレームについて、前後のフレーム間の前記第１差分算出手段の出力の差分を算出する第２差分算出手段を更に含み、前記第２差分算出手段の出力をデルタデルタ特徴量とする。

以上、音声特徴量抽出装置として本発明を説明したが、本発明は、プロセッサと記憶領域を備えたコンピュータの計算処理によって上記説明した音声特徴量を抽出する音声特徴量抽出方法、及びプロセッサと記憶領域を備えたコンピュータにおいて実行される、上記説明した音声特徴量を抽出する音声特徴量抽出プログラムとして把握することもできる。なお本発明は、上述したようにフロントエンド等の残響や雑音を除去する技術と組み合わせることができることはいうまでもない。

本願発明によれば、従来の対数領域の差分の代わりにリニア領域の差分を音声のデルタ特徴量及びデルタデルタ特徴量として利用できるので、残響及び騒音により一層強い特徴量を抽出することが可能となり、結果、音声認識の精度が高まる。本発明のその他の効果については、各実施の形態の記載から理解される。

図１（ａ）は、残響のある部屋で収録した音声パワーの減衰を表す、対数軸のグラフである。図１（ｂ）は、図１（ａ）と同じ音声パワーの減衰を表す、線形軸のグラフである。図２は、残響環境で収録した音声スペクトルの一例を示す。図３は、本発明の実施の形態による音声特徴量抽出装置を実現するのに好適なコンピュータのハードウェア構成の一例を示した図である。図４は、一般的な音声認識装置の構成の一例を示す。図５は、静的特徴量算出部の機能構成の一例を示す。図６（ａ）は、本発明の第１実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。図６（ｂ）は、本発明の第１実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量抽出部の機能構成を示す。図７（ａ）は、本発明の第２実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。図７（ｂ）は、本発明の第２実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量抽出部の機能構成を示す。図８（ａ）は、本発明の第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。図８（ｂ）は、本発明の第３実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量抽出部の機能構成を示す。図９（ａ）は、本発明の第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部によるデルタ特徴量抽出処理の流れの一例を示すフローチャートである。図９（ｂ）は、本発明の第３実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部によるデルタデルタ特徴量抽出処理の流れの一例を示すフローチャートである。図１０（ａ）は、Ｍｅｌ−ＦＢＷｅｉｇｈｔの一例を示すグラフである。図１０（ｂ）は、ＬｏｃａｌＰｅａｋＷｅｉｇｈｔの一例を示すグラフである。図１０（ｃ）は、ＬＰＷ−Ｍｅｌ−ＦＢＷｅｉｇｈｔの一例を示すグラフである。図１１は、ＬｏｃａｌＰｅａｋＷｅｉｇｈｔの作成処理の流れの一例を示すフローチャートである。図１２（ａ）は、本発明の第４実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。図１２（ｂ）は、本発明の第５実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。図１３（ａ）は、本発明の第４実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部によるデルタ特徴量抽出処理の流れの一例を示すフローチャートである。図１３（ｂ）は、本発明の第５実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部によるデルタ特徴量抽出処理の流れの一例を示すフローチャートである。図１４は、本発明の第４又は第５実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量抽出部の機能構成を示す。図１５は、本発明の第４又は第５実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量抽出部によるデルタデルタ特徴量抽出処理の流れの一例を示すフローチャートである。図１６は、残響環境における本発明の第１の評価実験結果の一例を示す表である。図１７は、残響環境における本発明の第２の評価実験結果の一例を示す表である。図１８は、雑音環境における本発明の評価実験結果の一例を示す表である。

以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。なお、実施の形態の説明の全体を通じて同じ要素には同じ番号を付している。

まず本発明の構成や動作の説明をする前に、図１及び図２を参照して、従来の対数領域の差分を用いるデルタ特徴量が、残響及び騒音環境での音声認識において好ましくない結果をもたらすことを説明する。そしてそれぞれの環境について、本願発明者が提案するスペクトルの平均を利用して正規化を行ったリニア領域の差分が、従来に比して雑音や残響により一層強いことを示す。

（残響環境）図１は、残響のある部屋で収録した音声パワーの減衰の様子を示し、同じ観測データを、図１（ａ）は対数軸で表し、図（ｂ）は線形軸で表している。横軸はいずれも区間番号を示し、時間の経過に相当する。図１を見ると分るように、音声の再生は９番区間辺りで終了し、後続の区間は残響区間となっている。残響は、指数関数的にそのパワーが減衰することが知られており、対数軸表示の図１（ａ）では、長くかつ傾きが一定のスロープ１０が形成されている。一方、線形軸表示の図１（ｂ）では、急で短いスロープ２０が形成されている。

従来、デルタ特徴量として前後のフレーム間のＭＦＣＣの差分がよく用いられている。ＭＦＣＣは、メルスケールフィルタバンク（Ｍｅｌ−ＦＢ）ごとの対数スペクトルを離散コサイン変換したものであるため、そのデルタ特徴量は対数領域の差分と見なされる。特徴量としてＭＦＣＣを使用しない音声認識装置であっても、多くは対数スペクトルまたはその線形変換を特徴量とするため、それらのデルタ特徴量はやはり対数領域の差分と見なされる。

このように対数領域の差分をデルタ特徴量として利用する従来の手法は、図１（ａ）のスロープ１０の傾きをデルタ特徴量として利用することに相当し、音声が終了しても長い間、一定の特徴量を出力し続ける。一方、線形、即ちリニア領域の差分をデルタ特徴量として利用することを考えると、これは図１（ｂ）のスロープ２０の傾きをデルタ特徴量とすることに相当し、この場合デルタ特徴量は残響区間で速やかに減衰すると考えられる。

デルタ特徴量が速やかに減衰することの重要性は、音素が連続したケースでより明確になる。図２は、残響環境で収録した音声スペクトルの一例を示し、横軸は図１と同様に区間番号を示し、縦軸は周波数を示す。また、音声スペクトルの強度は色の濃淡で表され、薄いほど強度が高いことを示す。図２に示すように、音素１と音素２とが連続している場合、Ａの領域は音素２に属するが、先行音素１の残響の影響を受ける。領域Ａの部分のスペクトル強度は十分弱いので、デルタではない、即ち静的特徴量のみを想定すれば、先行音素の影響は大きくない。しかしながら、対数スペクトルを用いたデルタ特徴量等、動的特徴量をも考慮すると、領域Ａの部分は、先行音素１の残響である長いスロープの裾野に当たるため、見かけ以上に先行音素１の影響を受ける。従って、残響環境では、速やかに減衰するリニア領域のデルタ特徴量が好ましい。

しかしながら、リニア領域の差分をそのままデルタ特徴量とすることはできない。なぜならば、リニア領域のデルタのままでは、ダイナミックレンジが広くモデル化に適さないからである。なお、ダイナミックレンジを圧縮するために、リニア領域のデルタを算出した後に対数をとることも考えられる。しかしデルタの値は正にも負にもなり得るので、単純に対数をとることはできない。また、音声認識では伝達特性の補正のためにＣＭＮ（ＣｅｐｓｔｒｕｍＭｅａｎＮｏｍａｌｉｚａｔｉｏｎ）を併用することが多いが、リニア領域のデルタのままでは、そのような補正を行うことができない。

そこで本願発明者は、上記問題を、リニア領域のスペクトルのデルタに対して発話全体についてのスペクトルの平均を利用した正規化を行うことにより解決した。ここで観測音声のｔフレーム目のリニア領域のスペクトルのデルタをΔｓ_ｔ、発話全体である全フレームについてのスペクトルの平均（以下、単に平均スペクトルとも言う）をｓバーとすると、本願発明者が提案する最もシンプルなデルタ特徴量は次式により表わされる。なお、本願発明者が提案する他のデルタ特徴量のバリエーションについては後述する。

ここで比較のため、従来の観測音声のｔフレーム目の対数領域のスペクトルのデルタを次式のように近似する。

式１と式２を比較すると、本願発明者が提案するデルタ特徴量は、従来のデルタ特徴量の分母のスペクトルｓ_ｔを発話全体の平均スペクトルのｓバーで置き換えたものと理解することができる。従って本願発明者が提案するデルタ特徴量は、ｔフレーム目が発話全体に比べ小さなパワーを持っているときには、従来のデルタ特徴よりも小さなデルタ特徴量を与える。なお上記両式が類似していることから、式１は式２と同程度のダイナミックレンジに収まっているといえる。更に、式１のデルタ特徴量は、ｓバーで除されていることから、伝達特性の補正の効果も入っている。

（騒音環境）次に式１を例に、本願発明者が提案するデルタ特徴量が騒音環境にも有効であることを説明する。今、音響モデルの学習時において雑音がなく、式１及び式２のデルタ特徴量をそれぞれ用いて学習が行われたとする。音声認識実行時において雑音Ｎが付加される状況では、式１のデルタ特徴量は次式のように観測される。

同様に式２のデルタ特徴量は次式のように観測される。

ここで雑音Ｎが加わったことによる変化の度合いを調べるため、式１と式３、式２と式４の比をとり、それぞれ式５及び式６に示す。

式５と式６を比較すると分るように、局所的なＳＮＲが低いフレーム、即ち、ｓ_ｔが雑音Ｎや平均スペクトルｓバーよりもかなり小さくなるような区間では、雑音Ｎが付加されたことによるデルタ特徴量の変化の度合いは、式６の方が大きい。このことは、一般に誤認識が起こりやすいとされる低ＳＮＲ区間において発生するモデルからのずれは、従来の対数領域のデルタを利用するほうが、本願発明者が提案するデルタ特徴量を利用するよりも、非常に大きいことを意味する。このように、本願発明者が提案するデルタ特徴量は騒音環境においても有効である。

図３は、本発明を実施するためのコンピュータ３００の例示的なハードウェア構成を示す。図３においてマイク３０５付近で発生した音は、マイク３０５によってアナログ信号としてＡ／Ｄ変換器３１０に入力され、そこでＣＰＵ３２５が処理可能なディジタル信号に変換される。

マイク３０５が拾う音は、例えばカーナビの場合、運転者の話声、同乗者の話声だけでなく、エアコンの送風音、カーオーディオから出力される音、エンジン音、クラクションの音などが含まれる。更に車の窓が開いている場合には、対向車からの騒音、通行人の話声なども含まれる。

外部記憶装置３１５やＲＯＭ３２０は、オペレーティング・システムと協働してＣＰＵ３２５に命令を与え、本発明を実施するための音声特徴量抽出プログラム・モジュールを含む複数のコンピュータ・プログラムのコードや各種データを記録することができる。そして外部記憶装置３１５やＲＯＭ３２０に格納された複数のコンピュータ・プログラムは各々ＲＡＭ３３０にロードされることによってＣＰＵ３２５により実行される。なお、外部記憶装置３１５は、ＳＣＳＩコントローラなどのコントローラ（図示しない）を経由してバス３４５へ接続されている。

コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。なお、ＣＰＵ３２５が、Ａ／Ｄ変換器３１０から渡されるディジタル信号に対して、音声特徴量抽出プログラムにより行う処理の詳細は後述する。

コンピュータ３００はまた、視覚データをユーザに提示するための表示装置３３５を含む。表示装置３３５は、グラフィックスコントローラ（図示しない）を経由してバス３４５へ接続されている。コンピュータ３００は、通信インタフェース３４０を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。

なお、上記説明した構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。同様に本発明を実施するためのコンピュータ３００は、キーボードやマウスのような入力デバイス、スピーカー等の他の構成要素を含むことも可能であることは言うまでもない。

図４は、一般的な音声認識装置４００の構成を示す。離散フーリエ変換部４０５は、ディジタル信号に変換された音声信号を入力し、これをハニング窓、ハミング窓などの適当な方法でフレーム化した後、離散フーリエ変換して音声信号のスペクトルを出力する。ノイズ・リダクション部４１０は、離散フーリエ変換部４０５の出力であるスペクトルを入力し、スペクトルサブトラクション法等によりスペクトルから雑音を除去する。但しノイズ・リダクション部４１０はオプションであってなくてもよい。

特徴量抽出部４１５は、音声信号のスペクトル（ノイズ・リダクション部４１０が存在する場合は雑音が除去された後の音声信号のスペクトル）を入力し、静的特徴量や動的特徴量を抽出して出力する。上述したように、従来はＭＦＣＣとそのデルタ（１次変化量）及びデルタデルタ（２次変化量）の組み合わせ、またはそれらの線形変換が利用されることが多く、これらがそれぞれ静的特徴量、動的特徴量として抽出されていた。

スイッチ４２０は、学習時においては学習部４３０側へ倒され、学習部４３０は、学習データとしての音声信号から特徴量抽出部４１５が抽出した特徴量と、学習データとしての音声信号に対応する入力テキストとを入力し、これらデータから音響モデル４２５を構築する。なお、学習処理自体は本発明の要旨ではないので、これ以上の説明は省略する。

またスイッチ４２０は、認識時においては音声認識部４４０側へ倒され、音声認識部４４０は、認識データとしての音声信号から特徴量抽出部４１５が抽出した特徴量と、音響モデル４２５及び言語モデル４３５からのデータとを入力し、これらデータから音声信号を認識して認識結果のテキストを出力する。なお、音声認識処理自体は本発明の要旨ではないので、これ以上の説明は省略する。

このように音声認識装置４００は、学習時には、音声信号と入力テキストから音響モデル４２０を構築し、認識時には、入力信号と、音響モデルと、言語モデルとから認識結果のテキストを出力する。本発明は、図４に示す従来の特徴量抽出部４１５を改良するものであり、具体的には、動的特徴量であるデルタ特徴量及びデルタデルタ特徴量の算出方法を改善する。

本発明により改良される特徴量抽出部４１５は、従来の多くの特徴量抽出部４１５と同様、静的特徴量と動的特徴量を組み合わせた多次元の特徴量を出力するが、必要に応じて、静的特徴量なしや、デルタデルタ特徴量なしなどのように簡略構成とすることが可能であることは言うまでもない。以下では、本発明に係る特徴量抽出部４１５を、静的特徴量算出部、デルタ特徴量算出部、及びデルタデルタ特徴量算出部を含む音声特徴量抽出装置として説明する。

図５は、静的特徴量算出部の機能構成の一例を示す。本実施例では、静的特徴量としてＭＦＣＣ特徴量を使用する。なお、後述する第１乃至第５実施形態に係る音声特徴量抽出装置の全てについて、静的特徴量算出部は共通である。図５において、メル・フィルタバンク処理部５００は、図４に関連して説明した離散フーリエ変換部４０５又はノイズ・リダクション部４１０から、フレーム化された音声信号の周波数binごとのスペクトルｓ_ｔを入力し、各フレームについて、その機能により、周波数binごとのスペクトルｓ_ｔを、メル・フィルタバンクの重みを使用してフィルタバンクごとのスペクトル（以下、メルスペクトルＳ_ｔという）に変換して、メルスペクトルＳ_ｔを出力する。

ここでｔをフレーム番号、ｉを周波数bin番号、ｊをフィルタバンク番号、Ｍｅｌ＿ＦＢ＿Ｗｅｉｇｈｔをメル・フィルタバンクの重みとすると、メル・フィルタバンク処理部５００による変換は次式より表される。

対数算出部５０５は、メルスペクトルＳ_ｔを入力し、各フレームについて、その機能により、フィルタバンクごとのメルスペクトルＳ_ｔの対数を次式より求め、対数メルスペクトルＳ_ｔ´を出力する。

離散コサイン変換部５１０は、対数メルスペクトルＳ_ｔ´を入力し、各フレームについて、その機能により、対数メルスペクトルＳ_ｔ´を離散コサイン変換してＭＦＣＣ、即ちメルケプストラムＣ_ｔを算出し、出力する。なお離散コサイン変換部５１０は、離散コサイン変換行列をＤ（ｈ、ｊ）とすると次式より対数メルスペクトルＳ_ｔ´の離散コサイン変換を行う。

このようにして静的特徴量算出部は、スペクトルｓ_ｔを入力として、最終的にメルケプストラムＣ_ｔを静的特徴量として出力する。

（第１実施形態）図６（ａ）は、本発明の第１実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。第１差分算出部６００は、図４に関連して説明した離散フーリエ変換部４０５又はノイズ・リダクション部４１０から、フレーム化された音声信号の周波数binごとのスペクトルｓ_ｔを入力し、各フレームについて、その機能により、周波数binごと、前後のフレーム間のスペクトルｓ_ｔの差分（以下、デルタスペクトルΔｓ_ｔともいう）を算出し、周波数binごとのデルタスペクトルΔｓ_ｔとして出力する。第１差分算出部６００による差分処理は、次式により行われる。

式１０では、周波数bin番号ｉは省略している。

第１正規化処理部６０５は、周波数binごとのデルタスペクトルΔｓ_ｔを入力し、各フレームについて、その機能により、周波数binごとのデルタスペクトルΔｓ_ｔを、該周波数binについての発話全体である全フレームについてのスペクトルの平均である平均スペクトルの関数Ｆで除算することにより正規化する。本実施例では、平均スペクトルの関数Ｆは平均スペクトルそのもの、即ち周波数binごとの平均スペクトルｓバーとする。この場合、第１正規化処理部６０５の出力は次式により表される。

式１１では、周波数bin番号ｉは省略している。第１実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、第１正規化処理部６０５の出力をデルタ特徴量とする。

図６（ｂ）は、本発明の第１実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部の機能構成を示す。本発明の第１実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、第２差分算出部６１０及び第２正規化処理部６１５を含む。これらは入力及び出力を異にするだけで、その機能は各々本発明の第１実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の対応する構成要素と同じである。

即ち、第２差分算出部６１０は、図６（ａ）に示す第１差分算出部６００からデルタスペクトルΔｓ_ｔを入力し、各フレームについて、周波数binごと、前後のフレーム間のデルタスペクトルΔｓ_ｔの差分をデルタデルタスペクトルΔΔｓ_ｔとして算出する。第２差分算出部６１０の出力、デルタデルタスペクトルΔΔｓ_ｔは次式により表される。

式１２では、周波数bin番号ｉは省略している。

また第２正規化処理部６１５は、デルタデルタスペクトルΔΔｓ_ｔを入力し、各フレームについて、周波数binごと、デルタデルタスペクトルΔΔｓ_ｔを平均スペクトルの関数で除算することにより正規化する。本実施例では、平均スペクトルの関数Ｆは平均スペクトルそのもの、即ち周波数binごとの平均スペクトルｓバーとする。この場合、第２正規化処理部６１５の出力は次式により表される。

式１３では、周波数bin番号ｉは省略している。第１実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、第２正規化処理部６１５の出力をデルタデルタ特徴量とする。

（第２実施形態）図７（ａ）は、本発明の第２実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。第２実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、第１実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部に第１メル・フィルタバンク処理部７０５を追加したものである。新たに追加される第１メル・フィルタバンク処理部７０５は、その処理の順序が、第１差分算出部７００の後であって、かつ第１正規化処理部７１０よりも前又は後となるような位置に配置される。

ここで第１差分算出部７００は、第１実施形態に係る音声特徴量抽出装置の第１差分算出部６００と全く同じものであるため、ここでは繰り返しを避けるため説明は省略する。第１メル・フィルタバンク処理部７０５は、入力及び出力を異にするだけで、その機能は図５に関して説明したメル・フィルタバンク処理部５００と同じである。

即ち、第１メル・フィルタバンク処理部７０５の処理が第１正規化処理部７１０の処理よりも先である場合を例に説明すると、第１メル・フィルタバンク処理部７０５は、第１差分算出部７００からデルタスペクトルΔｓ_ｔを入力し、各フレームについて、周波数binごとのデルタスペクトルΔｓ_ｔに、式７の右辺と同様にメル・フィルタバンクの重みを掛けて合算し、合算した値をフィルタバンクごとのメル・デルタスペクトルΔＳ_ｔとして算出する。

第１正規化処理部７１０もまた、入力及び出力を異にするだけで、その機能は第１実施形態に係る音声特徴量抽出装置の第１正規化処理部６０５と同じである。そこで繰り返しを避けるためここでは説明を省略する。但し、第１メル・フィルタバンク処理部７０５の処理が第１正規化処理部７１０の処理よりも前となる場合は、第１正規化処理部７１０が正規化のために用いる発話全体である全フレームについての平均スペクトルは、周波数binごとのスペクトルの平均である平均スペクトルｓバーではなく、フィルタバンクごとのメルスペクトルの平均である平均メルスペクトルＳバーであることに留意されたい。

即ち、平均スペクトルの関数Ｆを平均スペクトルそのものとすると、この場合、第１正規化処理部７１０は、第１メル・フィルタバンク処理部７０５からフィルタバンクごとのメル・デルタスペクトルΔＳ_ｔ入力し、各フレームについて、フィルタバンクごとのメル・デルタスペクトルΔＳ_ｔを、該フィルタバンクについての全フレームについての平均メルスペクトルＳバーで除算することにより正規化を行う。第１正規化処理部７１０の出力は次式により表される。

式１４では、フィルタバンク番号ｊは省略している。また式１４の右辺の分母は、フィルタバンクごとの平均メルスペクトルＳバーである。第２実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、その処理が最後となる第１メル・フィルタバンク処理部７０５又は第１正規化処理部７１０の出力をデルタ特徴量とする。

図７（ｂ）は、本発明の第２実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部の機能構成を示す。本発明の第２実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、第２差分算出部７１５、第２メル・フィルタバンク処理部７２０及び第２正規化処理部７２５を含む。第２メル・フィルタバンク処理部７２０の処理と第２正規化処理部７２５の処理はいずれが先に行われてもよい。第２差分算出部７１５は、第１実施形態に係る音声特徴量抽出装置の第２差分算出部６１０と全く同じものであるため、ここでは繰り返しを避けるため説明を省略する。第２メル・フィルタバンク処理部７２０は、入力及び出力を異にするだけで、その機能は図５に関して説明したメル・フィルタバンク処理部５００と同じである。

即ち、第２メル・フィルタバンク処理部７２０の処理が第２正規化処理部７２５の処理よりも先である場合を例に説明すると、第２メル・フィルタバンク処理部７２０は、第２差分算出部７１５からデルタデルタスペクトルΔΔｓ_ｔを入力し、各フレームについて、周波数binごとのデルタデルタスペクトルΔΔｓ_ｔに、式７の右辺と同様にメル・フィルタバンクの重みを掛けて合算し、合算した値をフィルタバンクごとのメル・デルタデルタスペクトルΔΔＳ_ｔとして算出する。

第２正規化処理部７２５もまた、入力及び出力を異にするだけで、その機能は第１実施形態に係る音声特徴量抽出装置の第２正規化処理部６１５と同じである。そこで繰り返しを避けるためここでは説明を省略する。但し、第２メル・フィルタバンク処理部７２０の処理が第２正規化処理部７２５の処理よりも前となる場合は、第２正規化処理部７２５が正規化のために用いる発話全体である全フレームについての平均スペクトルは、周波数binごとのスペクトルの平均である平均スペクトルｓバーではなく、フィルタバンクごとのメルスペクトルの平均である平均メルスペクトルＳバーであることに留意されたい。

即ち、平均スペクトルの関数Ｆを平均スペクトルそのものとすると、この場合、第２正規化処理部７２５は、第２メル・フィルタバンク処理部７２０からフィルタバンクごとのメル・デルタデルタスペクトルΔΔＳ_ｔ入力し、各フレームについて、フィルタバンクごとのメル・デルタデルタスペクトルΔΔＳ_ｔを、該フィルタバンクについての平均メルスペクトルＳバーで除算することにより正規化を行う。第２正規化処理部７２５の出力は次式により表される。

式１５では、フィルタバンク番号ｊは省略している。また式１５の右辺の分母は、フィルタバンクごとの平均メルスペクトルＳバーである。第２実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、その処理が最後となる第２メル・フィルタバンク処理部７２０又は第２正規化処理部７２５の出力をデルタデルタ特徴量とする。

（第３実施形態）図８（ａ）は、本発明の第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、第２実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部に第１離散コサイン変換部８１５を新たに追加したものである。従って、第１差分算出部８００、第１メル・フィルタバンク処理部８０５、及び第１正規化処理部８１０の説明は、繰り返しを避けるためここでは省略する。なお、新たに追加される第１離散コサイン変換部８１５は、その処理順序が最後になるような位置に配置される。

第１離散コサイン変換部８１５は、入力及び出力を異にするだけで、その機能は図５に関して説明した離散コサイン変換部５１０と同じである。即ち、第１離散コサイン変換部８１５は、正規化されたフィルタバンクごとのメル・デルタスペクトルΔＳ_ｔを入力し、これを離散コサイン変換する。第１離散コサイン変換部８１５の出力は次式により表される。

式１６において、記号ＤＣＴは式９の離散コサイン変換行列Ｄ（ｈ、ｊ）による変換を表す。第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、第１離散コサイン変換部８１５の出力をデルタ特徴量とする。

図８（ｂ）は、本発明の第３実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部の機能構成を示す。本発明の第３実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、第２実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部に第２離散コサイン変換部８３５を新たに追加したものである。従って、第２差分算出部８２０、第２メル・フィルタバンク処理部８２５、及び第２正規化処理部８３０の説明は、繰り返しを避けるためここでは省略する。なお、新たに追加される第２離散コサイン変換部８３５は、その処理順序が最後になるような位置に配置される。

第２離散コサイン変換部８３５は、入力及び出力を異にするだけで、その機能は図５に関して説明した離散コサイン変換部５１０と同じである。即ち、第２離散コサイン変換部８３５は、正規化されたフィルタバンクごとのメル・デルタデルタスペクトルΔΔＳ_ｔを入力し、これを離散コサイン変換する。第２離散コサイン変換部８３５の出力は次式により表される。

式１７において、記号ＤＣＴは式９の離散コサイン変換行列Ｄ（ｈ、ｊ）による変換を表す。第３実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、第２離散コサイン変換部８３５の出力をデルタデルタ特徴量とする。

なお、第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部及びデルタデルタ特徴量算出部では、第１正規化処理部８１０及び第２正規化処理部８３０による正規化の方法を次のように変更してもよい。即ち、第１正規化処理部８１０及び第２正規化処理部８３０は、平均スペクトルｓバーや平均メルスペクトルＳバーによる除算に加えて対数圧縮を行うことにより正規化を行ってよい。この場合、例えば第１メル・フィルタバンク処理部８０５による処理の後に第１正規化処理部８１０による処理が行われるとすると、第１正規化処理部８１０による正規化は次式により行われる。

即ち、メル・デルタスペクトルΔＳ_ｔが０以上である場合、第１正規化処理部８１０は、フィルタバンクごとのメル・デルタスペクトルΔＳ_ｔを、該フィルタバンクについての平均メルスペクトルＳバーで除算して１を加え、その結果の対数を求めることにより正規化を行う。一方、メル・デルタスペクトルΔＳ_ｔが０より小さい場合、第１正規化処理部８１０は、フィルタバンクごとのメル・デルタスペクトルΔＳ_ｔを、該フィルタバンクについての平均メルスペクトルＳバーで除算してマイナス１を掛けたものに１を加え、その結果の対数にマイナス１を掛けることにより正規化を行う。同様にして、第２メル・フィルタバンク処理部８２５による処理の後に第２正規化処理部８３０による処理が行われるとすると、第２正規化処理部８３０は式１９により正規化を行ってもよい。

これに代えて、第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部及びデルタデルタ特徴量算出部では、平均メルスペクトルＳバーの関数Ｆを、平均メルスペクトルＳバーそのものではなく、次のような平均メルスペクトルＳバーとメルスペクトルＳとの関数Ｆとしてよい。即ち、任意のフレームｔ及び任意のフィルタバンクｊに対して平均メルスペクトルＳバーの関数Ｆは、フレームｔのフィルタバンクｊについてのメルスペクトルＳの値と、フィルタバンクｊについての全フレームについての平均メルスペクトルＳバーの値とのうち、大きい方の値又は大きい方の値に近い値を出力する。このような関数Ｆの一例を式２０及び２１に示す。

式２０及び式２１では、フィルタバンク番号ｊは省略している。

そして第１正規化処理部８１０は、フィルタバンクごとのメル・デルタスペクトルΔＳ_ｔを入力し、各フレームについて、フィルタバンクごとのメル・デルタスペクトルΔＳ_ｔを、該フィルタバンクについての上記式２０又は式２１により表される関数Ｆで除算することにより正規化する。第２正規化処理部８３０についても同様である。このような平均メルスペクトルＳバーとメルスペクトルＳとの関数Ｆを用いた正規化は、性能の観点から、平均メルスペクトルＳバーで除算する正規化よりも好ましい。

図９（ａ）は、本発明の第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部による音声のデルタ特徴量抽出処理の流れの一例を示すフローチャートである。処理はステップ９００から開始し、第１差分算出部８００は、フレーム化された音声信号の周波数binごとのスペクトルを入力して、各フレームについて、周波数binごと、前後のフレーム間のスペクトルの差分をデルタスペクトルΔｓ_ｔとして算出し、図３に示すＲＡＭ３３０等の記憶領域に記憶する。

第１メル・フィルタバンク処理部８０５は、記憶領域からデルタスペクトルΔｓ_ｔを読み出し、各フレームについて、周波数binごとのデルタスペクトルΔｓ_ｔにメル・フィルタバンクの重みを掛けて合算し、これをフィルタバンクごとのメル・デルタスペクトルΔＳ_ｔとして記憶領域に記憶する（ステップ９０５）。第１正規化処理部８１０は、記憶領域からメル・デルタスペクトルΔＳ_ｔを読み出し、各フレームについて、フィルタバンクごとのメル・デルタスペクトルΔＳ_ｔを、該フィルタバンクについての平均メルスペクトルＳバーの関数Ｆで除算することにより正規化し、記憶領域に記憶する（ステップ９１０）。

なお、点線９２０で囲った、第１メル・フィルタバンク処理部８０５の処理と第１正規化処理部８１０の処理は、順序を入れ替えてよい。但し、第１メル・フィルタバンク処理部８０５の処理が第１正規化処理部８１０の処理よりも後となる場合、第１正規化処理部８１０が正規化のために用いる関数Ｆは、周波数binごとの平均スペクトルｓバーの関数Ｆである。また上述したように、関数Ｆは、平均スペクトルｓバーや平均メルスペクトルＳバーそのものでもよく、式２０や式２１で表すものでもよい。或いは平均スペクトルｓバーや平均メルスペクトルＳバーによる除算に加えて対数圧縮を行うことにより正規化を行ってもよい。

続いて第１離散コサイン変換部８１５は、記憶領域から正規化されたフィルタバンクごとのメル・デルタスペクトルを読み出して離散コサイン変換し、その結果をデルタ特徴量として出力する（ステップ９１５）。そして処理は終了する。なお、第１及び第２実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部によるデルタ特徴量抽出処理は、図９（ａ）において、ステップ９０５とステップ９１５の処理、又はステップ９１５の処理を省略した場合にそれぞれ該当する。

図９（ｂ）は、本発明の第３実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部によるデルタデルタ特徴量抽出処理の流れの一例を示すフローチャートである。処理はステップ９２０から開始し、第２差分算出部８２０は、第１差分算出部８００からデルタスペクトルΔｓ_ｔを入力して、各フレームについて、前後のフレーム間の周波数binごとのデルタスペクトルΔｓ_ｔの差分をデルタデルタスペクトルΔΔｓ_ｔとして算出し、図３に示すＲＡＭ３３０等の記憶領域に記憶する。

第２メル・フィルタバンク処理部８２５は、記憶領域からデルタデルタスペクトルΔΔｓ_ｔを読み出し、各フレームについて、周波数binごとのデルタデルタスペクトルΔΔｓ_ｔにメル・フィルタバンクの重みを掛けて合算し、これをフィルタバンクごとのメル・デルタデルタスペクトルΔΔＳ_ｔとして記憶領域に記憶する（ステップ９２５）。第２正規化処理部８３０は、記憶領域からメル・デルタデルタスペクトルΔΔＳ_ｔを読み出し、各フレームについて、フィルタバンクごとのメル・デルタデルタスペクトルΔΔＳ_ｔを、該フィルタバンクについての平均メルスペクトルＳバーの関数Ｆで除算することにより正規化し、記憶領域に記憶する（ステップ９３０）。

なお、点線９４０で囲った、第２メル・フィルタバンク処理部８２５の処理と第２正規化処理部８３０の処理は、順序を入れ替えてよい。但し、第２メル・フィルタバンク処理部８２５の処理が第２正規化処理部８３０の処理よりも後となる場合、第２正規化処理部８３０が正規化のために用いる関数Ｆは、周波数binごとの平均スペクトルｓバーの関数Ｆである。また上述したように、関数Ｆは、平均スペクトルｓバーや平均メルスペクトルＳバーそのものでもよく、式２０や式２１で表すものでもよい。或いは平均スペクトルｓバーや平均メルスペクトルＳバーによる除算に加えて対数圧縮を行うことにより正規化を行ってもよい。

続いて第２離散コサイン変換部８３５は、記憶領域から正規化されたフィルタバンクごとのメル・デルタデルタスペクトルを読み出して離散コサイン変換し、その結果をデルタデルタ特徴量として出力する（ステップ９３５）。そして処理は終了する。なお、第１及び第２実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部によるデルタデルタ特徴量抽出処理は、図９（ｂ）において、ステップ９２５とステップ９３５の処理、又はステップ９３５の処理を省略した場合にそれぞれ該当する。

ところで第２及び第３実施形態では、第１メル・フィルタバンク処理部７０５、８０５及び第２メル・フィルタバンク処理部７２０、８２５が使用するメル・フィルタバンクの重みの代わりに、有声音の区間では調波構造部分に重みがあり、かつ調波構造がない無声音の区間ではフラットに近いフィルタ（以下、ＬｏｃａｌＰｅａｋＷｅｉｇｈｔという）を、メル・フィルタバンクの重みに掛け合わせたものを使用してもよい。このようにして作成される新たな重みを、図１０及び図１１を参照して以下に説明する。

図１０（ａ）は、メル・フィルタバンクの重みの一例を示すグラフである。上述したように、第１メル・フィルタバンク処理部７０５、８０５及び第２メル・フィルタバンク処理部７２０、８２５は、周波数方向に等間隔に設定された周波数binごとのスペクトルを、それぞれにメル・フィルタバンクの重みを掛けて合算することにより、フィルタバンクというより大きなかたまりごとのスペクトルに変換する。

フィルタバンクは、人間の聴覚特性に適合するメル周波数上で等間隔になるように配置され、図１０（ａ）に示すように三角形状の重み１０００として構成される。そして、式７の右辺に示したように、周波数binごとのフィルタバンクへの寄与度を重みとして、メル・フィルタバンクの重みＭｅｌ＿ＦＢ＿Ｗｅｉｇｈｔ（ｊ、ｉ）が定義される。

ところで、人間の発音は母音において、調波構造を持つ。即ち、全ての周波数binに満遍なくエネルギーが込められているのではなく、女性や子供のように基本周波数が高い発声の場合は、声のエネルギーはとびとびの周波数binに存在する。従って上述したメル・フィルタバンクのように、声のエネルギーのない周波数binにも等しく重みを割り当てると、それだけ雑音を拾い易くなる。従って、調波構造に対応するピークの部分にはより大きな重みを割り当て、谷の部分にはより小さな重みを割り当て、かつ、ピークが観測されないときには通常のＭｅｌ−ＦＢＷｅｉｇｈｔに漸近するような、新たな重みを利用することが好ましい。

そのためにまず、スペクトルの調波構造に対応する山と谷の情報を、図１０（ｂ）に示すようなＬｏｃａｌＰｅａｋＷｅｉｇｈｔ（ＬＰＷ）として、入力スペクトルを基にフレームごと算出する。ＬＰＷの算出方法は後述する。そして次式に示すように、Ｍｅｌ−ＦＢＷｅｉｇｈｔとＬＰＷの積をとって新たな重みとし、そのフィルタバンクごとの合計で除することにより正規化したものを、ＬＰＷ−Ｍｅｌ−ＦＢＷｅｉｇｈｔとする。

図１０（ｃ）は、このようにして求められたＬＰＷ−Ｍｅｌ−ＦＢＷｅｉｇｈｔを示すグラフである。第２及び第３実施形態において第１メル・フィルタバンク処理部７０５、８０５及び第２メル・フィルタバンク処理部７２０、８２５は、それぞれ次式に示すように、Ｍｅｌ−ＦＢＷｅｉｇｈｔの代わりにＬＰＷ−Ｍｅｌ−ＦＢＷｅｉｇｈｔを用いて変換処理を行ってよい。

なお、ＬＰＷ−Ｍｅｌ−ＦＢＷｅｉｇｈｔを使用するのは、広帯域の雑音に対する耐性を高めるためであり、雑音が音楽や他者の発声である場合や、雑音がなく残響のみがある場合は、ＬＰＷ−Ｍｅｌ−ＦＢＷｅｉｇｈｔを使用する必要はない。

次に図１１を参照して、ＬＰＷの作成方法を説明する。なおＬＰＷの作成方法は、基本的には本願発明者による発明を開示する引用文献１に記載される、観測音声を強調する強調フィルタの作成方法と同じである。処理はステップ１１００から開始し、まず観測音声のｔフレーム目のスペクトルをｓ_ｔの対数パワースペクトルＹ_ｔを次式により求める。

続いて、次式より対数パワースペクトルＹ_ｔを離散コサイン変換し、ケプストラムＲｔを求める（ステップ１１０５）。

式２６において記号ＤＣＴは、式９の離散コサイン変換行列Ｄ（ｈ、ｊ）による変換を表す。続いて、ケプストラムＲｔは、対数スペクトルの外形の特徴を抽出した係数であるので、次式より、人間の発声の調波構造に対応した領域の項のみ残し、それ以外の項をカットする（ステップ１１１０）。

式２７において、εは０又は非常に小さい定数である。また、ｌｏｗｅｒ＿ｃｅｐ＿ｎｕｍとｕｐｐｅｒ＿ｃｅｐ＿ｎｕｍは、調波構造として有り得る範囲に対応する。後述する評価実験では、人間の発声の基本周波数は１００Ｈｚから４００Ｈｚの間にあると仮定し、ｌｏｗｅｒ＿ｃｅｐ＿ｎｕｍ＝４０、ｕｐｐｅｒ＿ｃｅｐ＿ｎｕｍ＝１６０と設定した。但し、これはサンプリング周波数１６ｋＨｚ、ＦＦＴ幅５１２点とした場合の設定値例である。

続いて、次式に示すように逆離散コサイン変換をかけて、加工されたケプストラムＲｔを対数スペクトル領域に戻す（ステップ１１１５）。

式２２において記号ＤＣＴ^−１は、式９の離散コサイン変換行列Ｄ（ｈ、ｊ）の逆行列による変換を表す。

最後のステップ１１２０では、まず式２９により、逆離散コサイン変換した結果を、対数スペクトル領域からパワースペクトル領域に戻す。続いて式３０により、平均値が１になるよう正規化を行い、最終的にＬＰＷを作成する。そして処理は終了する。

式３０において、Ｎｕｍ＿ｂｉｎは周波数binの総数である。

（第４実施形態）図１２（ａ）は、本発明の第４実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。第４実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、図５に関連して説明した静的特徴量算出部の構成要素に、第１差分算出部１２１５を追加したものである。第１差分算出部１２１５は、図１２（ａ）に示すように、他の全構成要素の処理の後にその処理が行われるような位置に配置される。

図１２（ａ）に示す、メル・フィルタバンク処理部１２００、対数算出部１２０５、及び離散コサイン変換部１２１０はそれぞれ、入力及び出力を異にするだけで、その機能は図５に関して説明した静的特徴量算出部の対応する構成要素と同じである。図１２（ａ）に示す第１差分算出部１２１５もまた、入力及び出力を異にするだけで、その機能は第１実施形態に係る音声特徴量抽出装置の第１差分算出部６００と同じである。そこで繰り返しを避けるため、ここでは各構成要素の機能の説明は省略する。

但し上述したように、図１２（ａ）に示すメル・フィルタバンク処理部１２００に入力される値は、図５に示すメル・フィルタバンク処理部５００のそれと異なり、フレーム化された音声信号の周波数binごとのスペクトルｓ_ｔに、該周波数binについての平均スペクトルｓバーを足し合わせた値である。このような値をデルタ特徴量算出部の入力とすることにより、デルタ特徴量として最終的に得られる値、即ち、第１差分算出部１２１５の出力は、式２１により表される関数Ｆを用いて正規化を行う第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部により出力されるデルタ特徴量とほぼ等価となる。しかし第４実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、既存の静的特徴量抽出部をわずかに変更するだけで構成できることから、上記第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部よりも好ましいといえる。

なお、デルタ特徴量として最終的に得られる第１差分算出部１２１５の出力は、次式により表される。

式３１では、フィルタバンク番号ｊは省略している。

（第５実施形態）図１２（ｂ）は、本発明の第５実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。第５実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、平均スペクトルｓバーを足し合わせるタイミングを、メル・フィルタバンク処理部１２２０による処理の前ではなく処理の後とする点を除いては、基本的に第４実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の構成と同じである。但し、上記タイミングで平均スペクトルｓバーを足し合わせる必要があることから、第５実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、第４実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の構成要素に、新たに平均算出部１２２５を追加する。

図１２（ｂ）において、平均算出部１２２５は、メル・フィルタバンク処理部１２２０からメルスペクトルＳ_ｔを入力し、フィルタバンクごと、全フレームについてのメルスペクトルＳ_ｔの平均である平均メルスペクトルＳバーを求め、対数算出部１２３０に出力する。対数算出部１２３０は、メル・フィルタバンク処理部１２２０からメルスペクトルＳ_ｔを、また、平均算出部１２２５から平均メルスペクトルＳバーを入力し、メルスペクトルＳ_ｔに平均メルスペクトルＳバーを足し合わせた値の対数を求め、離散コサイン変換部１２３５に出力する。

図１２（ｂ）に示すその他の構成要素、即ち、メル・フィルタバンク処理部１２２０、離散コサイン変換部１２３５、及び第１差分算出部１２４０はそれぞれ、入力及び出力を異にするだけで、その機能は第４実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の対応する構成要素と同じである。そのためその他の構成要素の説明は省略する。

なお、第５実施形態に係るデルタ特徴量算出部においても、デルタ特徴量として最終的に得られる値、即ち、第１差分算出部１２４０の出力は、式２１により表される関数Ｆを用いて正規化を行う第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部により出力されるデルタ特徴量とほぼ等価となる。しかし、第５実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、既存の静的特徴量抽出部をわずかに変更するだけで構成されることから、上記第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部よりも好ましいといえる。

なお、デルタ特徴量として最終的に得られる第１差分算出部１２４０の出力は、次式により表される。

式３２では、フィルタバンク番号ｊは省略している。

図１３（ａ）は、本発明の第４実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部による音声のデルタ特徴量抽出処理の流れの一例を示すフローチャートである。処理はステップ１３００から開始し、メル・フィルタバンク処理部１２００は、フレーム化された音声信号の各フレームの周波数binごとのスペクトルｓ_ｔの各々に、発話全体である全フレームについての平均スペクトルｓバーを足した値を入力して、各フレームについて、周波数binごとの上記値にメル・フィルタバンクの重みを掛けて合算し、その出力Ｓ１_ｔを図３に示すＲＡＭ３３０等の記憶領域に記憶する。

続いて対数算出部１２０５は、記憶領域からＳ１_ｔを読み出し、各フレームについて、フィルタバンクごとＳ１_ｔの対数を求め、その出力Ｓ１_ｔ´を記憶領域に記憶する（ステップ１３０５）。離散コサイン変換部１２１０は記憶領域からＳ１_ｔ´を読み出し、各フレームについて、フィルタバンクごとのＳ１´_ｔを離散コサイン変換し、その出力Ｃ１_ｔを記憶領域に記憶する（ステップ１３１０）。

最後に第１差分算出部１２１５は、記憶領域からＣ１_ｔを読み出し、各フレームについて、フィルタバンクごと、前後のフレーム間のＣ１_ｔの差分ΔＣ１_ｔをデルタ特徴量として算出する（ステップ１３１５）。そして処理は終了する。

図１３（ｂ）は、本発明の第５実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部による音声のデルタ特徴量抽出処理の流れの一例を示すフローチャートである。処理はステップ１３２０から開始し、メル・フィルタバンク処理部１２２０は、フレーム化された音声信号の各フレームの周波数binごとのスペクトルを入力して、各フレームについて、周波数binごとのスペクトルにメル・フィルタバンクの重みを掛けて合算することにより、フィルタバンクごとのメルスペクトルＳを算出し、図３に示すＲＡＭ３３０等の記憶領域に記憶する。

続いて平均算出部１２２５は、記憶領域から各フレームのフィルタバンクごとのメルスペクトルＳを読み出し、フィルタバンクごと、発話全体である全フレームについての平均メルスペクトルＳバーを算出して、記憶領域に記憶する。（ステップ１３２５）。続いて、対数算出部１２３０は、記憶領域から各フレームのフィルタバンクごとのメルスペクトルＳとフィルタバンクごとの平均メルスペクトルＳバーとを読み出し、フィルタバンクごとのメルスペクトルＳに、該フィルタバンクの平均メルスペクトルＳバーを加えた値Ｓ２_ｔの対数を求め、その出力Ｓ２_ｔ´を記憶領域に記憶する。（ステップ１３３０）。

続いて離散コサイン変換部１２３５は、記憶領域からＳ２_ｔ´を読み出し、各フレームについて、フィルタバンクごとのＳ２_ｔ´を離散コサイン変換して、その出力Ｃ２_ｔを記憶領域に記憶する（ステップ１３３５）。最後に第１差分算出部１２４０は、記憶領域からＣ２_ｔを読み出し、各フレームについて、フィルタバンクごと、前後のフレーム間のＣ２_ｔの差分ΔＣ２_ｔをデルタ特徴量として算出する（ステップ１３４０）。そして処理は終了する。

図１４は、本発明の第４及び第５実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部の機能構成を示す。第４及び第５実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、第２差分算出部１４００を含む。第２差分算出部１４００は、入力及び出力を異にするだけで、その機能は第４及び第５実施形態に係る音声特徴量抽出装置の第１差分算出部１２１５又は第１差分算出部１２４０と同じである。

即ち、第２差分算出部１４００は、第１差分算出部１２１５又は第１差分算出部１２４０からの出力、即ち式３１又は式３２により表されるデルタメルケプストラムΔＣ１_ｔ又はΔＣ２_ｔを入力し、各フレームについて、フィルタバンクごと、前後のフレーム間のデルタメルケプストラムΔＣ１_ｔ又はΔＣ２_ｔの差分デルタデルタメルケプストラムΔΔＣ１_ｔ又はΔΔＣ２_ｔをデルタデルタ特徴量として算出する。第２差分算出部１３００の出力は次式により表される。

式３２では、フィルタバンク番号ｊは省略している。

図１５は、本発明の第４及び第５実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部によるデルタデルタ特徴量抽出処理の流れの一例を示すフローチャートである。処理はステップ１５００から開始し、第２差分算出部１３００は、第１差分算出部１２１５又は第１差分算出部１２４０からの出力、即ち式３１又は式３２により表されるデルタメルケプストラムΔＣ１_ｔ又はΔＣ２_ｔを入力し、各フレームについて、フィルタバンクごと、前後のフレーム間のデルタメルケプストラムΔＣ１_ｔ又はΔＣ２_ｔの差分デルタデルタメルケプストラムΔΔＣ１_ｔ又はΔΔＣ２_ｔをデルタデルタ特徴量として算出する。そして処理は終了する。

次に図１６乃至図１８を参照して、本発明が提案する特徴量を利用した音声認識の評価実験について述べる。図１６及び図１７を参照して説明する評価実験には、情報処理学会（ＩＰＳＪ）ＳＩＧ−ＳＬＰ雑音下音声認識評価ワーキンググループの、残響環境の評価用データベースＣＥＮＳＲＥＣ−４（ＣｏｒｐｕｓａｎｄＥｎｖｉｒｏｎｍｅｎｔｆｏｒＮｏｉｓｙＳｐｅｅｃｈＲＥＣｏｇｎｉｓｈｏｎ）を使用した。

ＣＥＮＳＲＥＣ−４は、残響や雑音のない収録音声であるドライソースに、様々な残響環境のインパルス応答を畳み込むことで残響環境をシミュレートする。ＣＥＮＳＲＥＣ−４には、ＣｌｅａｎＣｏｎｄｉｔｉｏｎとＭｕｌｔｉ−Ｃｏｎｄｉｔｉｏｎの２つの条件下での評価がある。ＣｌｅａｎＣｏｎｄｉｔｉｏｎでは、残響のない音声で学習した音響モデルを使用して音声認識を実行する。一方Ｍｕｌｔｉ−Ｃｏｎｄｉｔｉｏｎでは、残響のある音声で学習した音響モデルを使用して音声認識を実行する。いずれの条件下での評価も、音声認識実行時、即ちテスト時には残響ありの音声データを使用する。

ＣＥＮＳＲＥＣ−４のテストセットは２つのテストセット（Ａ、Ｂ）に分かれており、Ｍｕｌｔｉ−Ｃｏｎｄｉｔｉｏｎの音響モデルの学習と同じ残響環境でのテストをテストセットＡとし、異なる残響環境でのテストセットをＢとする。またテストセットＡ、Ｂは、図１６、１７に示すように、それぞれ異なる４つの環境についてのテストを含む。

ＣＥＮＳＲＥＣ−４がベースラインとして規定する特徴量は、静的特徴量としてＭＦＣＣ１２次元、デルタ特徴量としてデルタＭＦＣＣ１２次元、デルタデルタ特徴量としてデルタデルタＭＦＣＣ１２次元、更に音声の対数パワーとそのデルタ及びデルタデルタの３次元を合わせた、合計３９次元のベクトルである。即ち、ＣＥＮＳＲＥＣ−４は上記３９次元のベクトルの特徴量を使用して、ＣｌｅａｎＣｏｎｄｉｔｉｏｎとＭｕｌｔｉ−Ｃｏｎｄｉｔｉｏｎのそれぞれにおいて、音響モデルを構築している。

そこで本願発明者は次の２つの評価実験を行った。
評価実験１：静的特徴量ＭＦＣＣ１２次元のみを使用した場合と、それにデルタ特徴量１２次元を追加した２４次元を使用した場合の文字列認識率の比較を行った。その際デルタ特徴量としては、デルタＭＦＣＣ１２次元と、上述した第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部により算出される線形のデルタ特徴量１２次元の２種類を評価した。

評価実験２：上記ベースラインの３９次元において、デルタ特徴量及びデルタデルタ特徴量をそれぞれ
上述した本発明の線形のデルタ特徴量と線形のデルタデルタ特徴量とで置き換えた場合（図１７の表の「linearΔ」の欄を参照）と、ベースラインの３９次元をそのまま維持した場合（図１７の表の「ベースライン」の欄を参照）の文字列認識率を比較した。なお、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量としては、上述した第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部とデルタデルタ特徴量算出部によりそれぞれにより算出されるものを使用した。

図１６に、評価実験１の結果を示す。評価実験１の結果から次のことが分かる。即ち、静的特徴量ＭＦＣＣ１２次元のみを使用したときに比べ、デルタ特徴量１２次元を併用することで音声認識率は改善される。また、デルタ特徴量として従来よく用いられるデルタＭＦＣＣの代わりに、本発明の線形のデルタ特徴量を使用することで、音声認識率が更に改善される。例えばＣｌｅａｎＣｏｎｄｉｔｉｏｎでは、テストセットＡ、Ｂの平均音声認識率は、デルタＭＦＣＣを使用した場合の３５．３％から５９．２％に飛躍的に改善している。Ｍｕｌｔｉ−Ｃｏｎｄｉｔｉｏｎにおいても、テストセットＡ、Ｂの平均音声認識率は、デルタＭＦＣＣを使用した場合の７１．９％から８１．５％に改善している。

また図１７に、評価実験２の結果を示す。評価実験２においても、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量を使用することで音声認識率が更に改善されている。例えばＣｌｅａｎＣｏｎｄｉｔｉｏｎでは、テストセットＡ、Ｂの平均音声認識率は、従来のベースラインの６５．２％から７３．１％に改善している。Ｍｕｌｔｉ−Ｃｏｎｄｉｔｉｏｎにおいても、テストセットＡ、Ｂの平均認識率は、従来のベースラインの７５．２％から８２．７％に改善している。

このように、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量は、残響環境における音声認識率を大幅に改善し、評価実験１及び２によりその残響環境における特徴量としての有効性が示された。

図１８を参照して説明する評価実験には、情報処理学会（ＩＰＳＪ）ＳＩＧ−ＳＬＰ雑音下音声認識評価ワーキンググループの、騒音環境の評価用データベースＣＥＮＳＲＥＣ−３（ＣｏｒｐｕｓａｎｄＥｎｖｉｒｏｎｍｅｎｔｆｏｒＮｏｉｓｙＳｐｅｅｃｈＲＥＣｏｇｎｉｓｈｏｎ）を使用した。

ＣＥＮＳＲＥＣ−３は、自動車内の様々な騒音環境で発声した音声を収録しており、停止・市街地走行・高速走行などの走行条件や、エアコンのファン、窓明け、音楽再生などの状況ごとの音声認識率を算出することができる。ＣＥＮＳＲＥＣ−３がベースラインとして規定する特徴量は、前述のＣＥＮＳＲＥＣ−４と同じ３９次元である。そこで、ＣＥＮＳＲＥＣ−３を使用して本願発明者は次の評価実験を行った。

即ち、ベースラインの３９次元を維持した場合（図１８の表の「ベースライン」の欄を参照）と、ベースラインの３９次元においてＭＦＣＣ、デルタＭＦＣＣ、及びデルタデルタＭＦＣＣを、Ｍｅｌ−ＦＢＷｅｉｇｈｔの代わりにＬＰＷ−Ｍｅｌ−ＦＢＷｅｉｇｈｔを使用して求めたもので置き換えた場合（図１８の表の「ＬＰＷ−Ｍｅｌ」の欄を参照）との単語認識率（正確度％）を比較した。

また、ベースラインの３９次元において、デルタ特徴量及びデルタデルタ特徴量をそれぞれ上述した本発明の線形のデルタ特徴量と線形のデルタデルタ特徴量とで置き換えた場合（図１８の表の「linearΔ」の欄を参照）の単語認識率（正確度％）とも比較した。なお、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量としては、上述した第３実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部とデルタデルタ特徴量算出部によりそれぞれにより算出されるものを使用した。

更に、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量として、上述した第３実施形態に係る音声特徴量抽出装置において、Ｍｅｌ−ＦＢＷｅｉｇｈｔの代わりにＬＰＷ−Ｍｅｌ−ＦＢＷｅｉｇｈｔを使用するデルタ特徴量算出部とデルタデルタ特徴量算出部によりそれぞれにより算出されるものを使用する場合（図１８の表の「ＬＰＷ−Ｍｅｌ＋linearΔ」の欄を参照）の単語認識率（正確度％）も比較した。

図１８に、評価実験２の結果を示す。「ベースライン」と「linearΔ」を比較すると、総合では単語認識率（正確度％）は、「ベースライン」が７８．９％であるのに対し、「linearΔ」は８３．３％であり、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量を使用することで単語認識率が改善されることが分かる。特に高速走行時の窓開けやファン最大時における改善が顕著であるが、音楽雑音に対しても改善が見られ、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量が広い範囲で有効であることが分かる。

また、「ベースライン」と「ＬＰＷ−Ｍｅｌ」を比較すると、「ＬＰＷ−Ｍｅｌ」は音楽雑音以外でその単語認識率（正確度％）が「ベースライン」より高く、改善が見られる。特に、高速走行時の窓開けやファン最大時における改善が顕著である。更に、「ベースライン」と「ＬＰＷ−Ｍｅｌ＋linearΔ」とを比較すると、高速走行時の窓開けの単語認識率（正確度％）は、「ベースライン」が２２．２％であるのに対し、「ＬＰＷ−Ｍｅｌ＋linearΔ」は４６．６％である。また、高速走行時のファン最大の単語認識率（正確度％）は、「ベースライン」が５８．２％であるのに対し、「ＬＰＷ−Ｍｅｌ＋linearΔ」は７４．９％である。従って、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量とＬＰＷ−Ｍｅｌ―ＦＢとを組み合わせることで、大幅な改善が得られることが分かる。

以上、実施形態を用いて本発明の説明をしたが、本発明の技術範囲は上記実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更または改良を加えることが可能であることが当業者に明らかである。従って、そのような変更または改良を加えた形態も当然に本発明の技術的範囲に含まれる。

Claims

音声特徴量抽出装置であって、
フレーム化された音声信号の周波数binごとのスペクトルを入力して、各フレームについて、前記周波数binごと、前後のフレーム間の前記スペクトルの差分をデルタスペクトルとして算出する第１差分算出手段と、
前記各フレームについて、前記周波数binごとの前記デルタスペクトルを、該周波数binについての発話全体である全フレームについてのスペクトルの平均である平均スペクトルの関数で除算することにより正規化する第１正規化処理手段とを含み、
前記第１正規化処理手段の出力をデルタ特徴量とする、音声特徴量抽出装置。
前記平均スペクトルの前記関数は、前記平均スペクトルそのものである、請求項１に記載の音声特徴量抽出装置。
前記各フレームについて、前記周波数binごとの正規化された前記デルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとの正規化されたメル・デルタスペクトルとして算出する第１メル・フィルタバンク処理手段を更に含み、
前記第１メル・フィルタバンク処理手段の出力をデルタ特徴量とする、請求項１に記載の音声特徴量抽出装置。
前記フィルタバンクごとの正規化されたメル・デルタスペクトルを、離散コサイン変換する第１離散コサイン変換手段を更に含み、
前記第１離散コサイン変換手段の出力をデルタ特徴量とする、請求項３に記載の音声特徴量抽出装置。
音声特徴量抽出装置であって、
フレーム化された音声信号の周波数binごとのスペクトルを入力して、各フレームについて、前記周波数binごと、前後のフレーム間の前記スペクトルの差分をデルタスペクトルとして算出する第１差分算出手段と、
前記各フレームについて、前記周波数binごとの前記デルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタスペクトルとして算出する第１メル・フィルタバンク処理手段と、
前記各フレームについて、前記フィルタバンクごとのメル・デルタスペクトルを、該フィルタバンクについての発話全体である全フレームについてのメルスペクトルの平均である平均メルスペクトル
の関数で除算することにより正規化する第１正規化処理手段とを含み、
前記第１正規化処理手段の出力をデルタ特徴量とする、音声特徴量抽出装置。
前記平均メルスペクトルの前記関数は、前記平均メルスペクトルのそのものである、請求項５に記載の音声特徴量抽出装置。
正規化された前記フィルタバンクごとの前記メル・デルタスペクトルを、離散コサイン変換する第１離散コサイン変換手段を更に含み、
前記第１離散コサイン変換手段の出力をデルタ特徴量とする、請求項５に記載の音声特徴量抽出装置。
任意のフレームｔ及び任意のフィルタバンクｊに対して前記平均メルスペクトルの前記関数は、フレームｔのフィルタバンクｊについてのメルスペクトルの値と、フィルタバンクｊについての前記平均メルスペクトルの値とのうち、大きい方の値又は大きい方の値に近い値を出力する、請求項７に記載の音声特徴量抽出装置。
前記第１正規化処理手段は、前記除算に加えて対数圧縮を行うことにより前記正規化を行う、請求項４又は７に記載の音声特徴量抽出装置。
前記第１メル・フィルタバンク処理手段は、前記メル・フィルタバンクの重みに代えて、有声音の区間では調波構造部分に重みがあり、かつ調波構造がない無声音の区間ではフラットに近いフィルタを前記メル・フィルタバンクの重みに掛け合わせたものを使用する、請求項４又は７に記載の音声特徴量抽出装置。
ＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）を算出するＭＦＣＣ算出手段を更に含み、前記ＭＦＣＣを静的特徴量とする、請求項４又は７に記載の音声特徴量抽出装置。
前記デルタスペクトルを入力として、各フレームについて、前記周波数binごと、前後のフレーム間の前記デルタスペクトルの差分をデルタデルタスペクトルとして算出する第２差分算出手段と、
前記各フレームについて、周波数binごとの前記デルタデルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタデルタスペクトルとして算出する第２メル・フィルタバンク処理手段と、
前記各フレームについて、前記フィルタバンクごとの前記メル・デルタデルタスペクトルを前記平均メルスペクトルの関数で除算することにより正規化する第２正規化処理手段とを更に、含み、
前記第２正規化処理手段の出力をデルタデルタ特徴量とする、請求項５に記載の音声特徴量抽出装置。
前記デルタスペクトルを入力として、各フレームについて、前後のフレーム間の前記周波数binごとの前記デルタスペクトルの差分をデルタデルタスペクトルとして算出する第２差分算出手段と、
前記各フレームについて、周波数binごとの前記デルタデルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタデルタスペクトルとして算出する第２メル・フィルタバンク処理手段と、
前記各フレームについて、前記フィルタバンクごとの前記メル・デルタデルタスペクトルを該フィルタバンクについての前記平均メルスペクトルの関数で除算することにより正規化する第２正規化処理手段と、
正規化された前記フィルタバンクごとのメル・デルタデルタスペクトルを、離散コサイン変換する第２離散コサイン変換手段とを更に含み、
前記第２離散コサイン変換手段の出力をデルタデルタ特徴量とする、請求項７に記載の音声特徴量抽出装置。
音声特徴量抽出装置であって、
フレーム化された音声信号の各フレームのスペクトルに、発話全体である全フレームについてのスペクトルの平均である平均スペクトルを足した値を入力して、前記各フレームについて、前記値にメル・フィルタバンクの重みを掛けて合算するメル・フィルタバンク処理手段と、
前記各フレームについて、前記メル・フィルタバンク処理手段の出力の対数を求める対数算出手段と、
前記各フレームにてついて、前記対数算出手段の出力を、離散コサイン変換する離散コサイン変換手段と、
前記各フレームについて、前後のフレーム間の前記離散コサイン変換手段の出力の差分を算出する第１差分算出手段とを含み、
前記第１差分算出手段の出力をデルタ特徴量とする、音声特徴量抽出装置。
音声特徴量抽出装置であって、
フレーム化された音声信号の各フレームのスペクトルを入力して、前記各フレームについて、前記スペクトルにメル・フィルタバンクの重みを掛けて合算することによりメルスペクトルを算出するメル・フィルタバンク処理手段と、
各フレームの前記メルスペクトルを入力して、発話全体である全フレームについての前記メルスペクトルの平均である平均メルスペクトルを算出する平均算出手段と、
前記各フレームについて、前記メルスペクトルに前記平均メルスペクトルを加えた値の対数を求める対数算出手段と、
前記各フレームについて、前記対数算出手段の出力を、離散コサイン変換する離散コサイン変換手段と、
前記各フレームについて、前後のフレーム間の前記離散コサイン変換手段の出力の差分を算出する第１差分算出手段とを含み、
前記第１差分算出手段の出力をデルタ特徴量とする、音声特徴量抽出装置。
前記各フレームについて、前後のフレーム間の前記第１差分算出手段の出力の差分を算出する第２差分算出手段を更に含み、前記２差分算出手段の出力をデルタデルタ特徴量とする、請求項１４又は１５に記載の音声特徴量抽出装置。
プロセッサと記憶領域を備えたコンピュータにおいて実行される、音声特徴量を抽出する音声特徴量抽出プログラムであって、該音声特徴量抽出プログラムは、前記コンピュータに、
前記プロセッサが、フレーム化された音声信号の周波数binごとのスペクトルを入力して、各フレームについて、前記周波数binごと、前後のフレーム間の前記スペクトルの差分をデルタスペクトルとして算出し、前記記憶領域に記憶するステップと、
前記プロセッサが、前記各フレームについて、前記周波数binごとの前記デルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタスペクトルとして算出し、前記記憶領域に記憶するステップと、
前記プロセッサが、前記各フレームについて、前記フィルタバンクごとのメル・デルタスペクトルを、該フィルタバンクについての発話全体である全フレームについてのメルスペクトルの平均である平均メルスペクトルの関数で除算することにより正規化し、前記記憶領域に記憶するステップと、
前記プロセッサが、前記記憶領域から正規化された前記フィルタバンクごとのメル・デルタスペクトルを読み出し、離散コサイン変換するステップとを実行させ、
前記離散コサイン変換後の値をデルタ特徴量とする、音声特徴量抽出プログラム。
任意のフレームｔ及び任意のフィルタバンクｊに対して前記平均メルスペクトルの前記関数は、フレームｔのフィルタバンクｊについてのメルスペクトルの値と、フィルタバンクｊについての前記平均メルスペクトルの値とのうち、大きい方の値又は大きい方の値に近い値を出力する、請求項１７に記載の音声特徴量抽出プログラム。
前記平均メルスペクトルの前記関数は、前記平均メルスペクトルのそのものである、請求項１７に記載の音声特徴量抽出プログラム。
前記メル・フィルタバンクの重みに代えて、有声音の区間では調波構造部分に重みがあり、かつ調波構造がない無声音の区間ではフラットに近いフィルタを前記メル・フィルタバンクの重みに掛け合わせたものが使用される、請求項１７に記載の音声特徴量抽出プログラム。
プロセッサと記憶領域を備えたコンピュータにおいて実行される、音声特徴量を抽出する音声特徴量抽出方法であって、前記音声特徴量抽出方法は、
フレーム化された音声信号の周波数binごとのスペクトルを入力して、各フレームについて、前記周波数binごと、前後のフレーム間の前記スペクトルの差分をデルタスペクトルとして算出し、前記記憶領域に記憶するステップと、
前記各フレームについて、前記周波数binごとの前記デルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタスペクトルとして算出し、前記記憶領域に記憶するステップと、
前記各フレームについて、前記フィルタバンクごとのメル・デルタスペクトルを、該フィルタバンクについての発話全体である全フレームについてのメルスペクトルの平均である平均メルスペクトルの関数で除算することにより正規化し、前記記憶領域に記憶するステップと、
前記記憶領域から正規化された前記フィルタバンクごとのメル・デルタスペクトルを読み出し、離散コサイン変換するステップとを含み、
前記離散コサイン変換後の値をデルタ特徴量とする、音声特徴量抽出方法。