JPWO2011024572A1 - 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム - Google Patents

音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム Download PDF

Info

Publication number
JPWO2011024572A1
JPWO2011024572A1 JP2011528703A JP2011528703A JPWO2011024572A1 JP WO2011024572 A1 JPWO2011024572 A1 JP WO2011024572A1 JP 2011528703 A JP2011528703 A JP 2011528703A JP 2011528703 A JP2011528703 A JP 2011528703A JP WO2011024572 A1 JPWO2011024572 A1 JP WO2011024572A1
Authority
JP
Japan
Prior art keywords
delta
spectrum
mel
filter bank
feature quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011528703A
Other languages
English (en)
Other versions
JP5315414B2 (ja
Inventor
治 市川
治 市川
福田 隆
隆 福田
雅史 西村
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2011528703A priority Critical patent/JP5315414B2/ja
Publication of JPWO2011024572A1 publication Critical patent/JPWO2011024572A1/ja
Application granted granted Critical
Publication of JP5315414B2 publication Critical patent/JP5315414B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

音声信号から雑音や残響により一層強い特徴量を抽出する技術を提供する。音声特徴量抽出装置であって、フレーム化された音声信号のスペクトルを入力して、各フレームについて、前後のフレーム間のスペクトルの差分(リニア領域の差分)をデルタスペクトルとして算出する差分算出手段と、各フレームについて、デルタスペクトルを平均スペクトルの関数で除算することにより正規化する正規化処理手段とを含み、正規化処理手段の出力をデルタ特徴量とする。

Description

本発明は、音声信号から特徴量を抽出する技術に関し、特に、残響や雑音に頑健なデルタ及びデルタデルタ特徴量を抽出する技術に関する。
音声認識装置の耐雑音性能や耐残響性能は継続的に改善されているが、厳しい条件下での認識精度は未だ不十分である。耐雑音性については、例えば、自動車における窓開け高速走行などSNが極めて低い条件下や、音楽や雑踏などの非定常な雑音環境下での認識率は大変低いことが知られている。また、耐残響性については、コンクリートの廊下やエレベータホールなど反射や残響が多い場所での認識率は、たとえ雑音がほとんどない状況であっても大変低いことが知られている。
これら問題に対して従来検討されている種々の対策は、次の4つに分類できる。(1)観測信号の前処理により、残響や雑音を除去するフロントエンド方法(例えば、特許文献1、2参照)。(2)残響や雑音を含む音声を使って音響モデルを学習するマルチスタイルトレーニング方法(例えば、特許文献3参照)。(3)観測音声と音響モデルが適合するように、特徴量又は音響モデルを変換する適応方法(例えば、特許文献4参照)。(4)残響や雑音に強い特徴量を使用する特徴抽出方法(例えば、非特許文献1)。
上記各方法は、他の方法と組み合わせることが可能である。例えば、(2)、(3)及び(4)の各手法を組み合わせて、特徴抽出としてLDAを使用し、マルチスタイルトレーニングで音響モデルを作成したうえで、MLLRによる適応を行うという組み合わせが考えられる。従って、上記いずれかの1つの方法でなく、(1)〜(4)それぞれの技術の向上を図ることが重要である。
特開2009―58708号公報 特開2004―347956号公報 特開2007―72481号公報 特開2007―279444号公報
Takashi Fukuda、Osamu Ichikawa、Masafumi Nishimura、「Short−andLong−termDynamic Features for Robust Speech Recognition」、 Proc of 10th International Conference on Spoken Language Processing (ICSLP 2008 /Interspeech 2008)、pp.2262−2265、September 2008、Brisbane、Australia.
しかしながら、(4)の特徴抽出については、雑音や残響に際立って強い特徴量というのは未だに見つかっていない。特に耐残響性能に優れた特徴量はほとんど知られていない。そのため、多くの音声認識では、MFCC(Mel−Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)とそのデルタ(1次変化量)及びデルタデルタ(2次変化量)の組み合わせ、またはそれらの線形変換を使用し続けているのが現状である。
なお、本出願人に係る非特許文献1の技術は、平均音素継続時間を超える長い窓幅でのMFCCのデルタを特徴量とすることにより、音声認識の精度を高めることを可能とした。しかしながら、厳しい条件での騒音や残響環境において、更なる性能の改善が求められている。
この発明は、上記の問題点を解決するためになされたものであって、音声認識の精度をより高めるために、音声信号から雑音や残響により一層強い特徴量を抽出する技術を提供することを目的とする。
本願発明者は、雑音や残響により一層強い特徴量を見つけるために研究し、MFCCのデルタを含む従来用いられているデルタ特徴量の多くは、対数領域の差分とみなし得るところ、非自明にも対数領域の差分は、残響及び騒音環境での音声認識において好ましくない結果をもたらすことを見出した。そこで本願発明者は更に研究を進め、その結果、リニア領域の差分を利用すること、それによって新たに生ずるダイナミックレンジが広くモデル化に適さないという問題や、伝達特性の補正ができないという問題は、発話全体についてのスペクトルの平均を利用した正規化を行うことにより解決するというアイデアに想到した。
即ち、上記課題を解決するために、本発明の第1の態様においては、フレーム化された音声信号の周波数binごとのスペクトルを入力して、各フレームについて、前記周波数binごと、前後のフレーム間の前記スペクトルの差分をデルタスペクトルとして算出する第1差分算出手段と、前記各フレームについて、前記周波数binごとの前記デルタスペクトルを、該周波数binについての発話全体である全フレームについてのスペクトルの平均である平均スペクトルの関数で除算することにより正規化する第1正規化処理手段とを含み、前記第1正規化処理手段の出力をデルタ特徴量とする、音声特徴量抽出装置を提供する。
ここで前記平均スペクトルの前記関数は、前記平均スペクトルそのものであってもよい。
好ましくは、上記音声特徴量抽出装置は、前記各フレームについて、前記周波数binごとの正規化された前記デルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとの正規化されたメル・デルタスペクトルとして算出する第1メル・フィルタバンク処理手段を更に含み、前記第1メル・フィルタバンク処理手段の出力をデルタ特徴量とする。
より好ましくは、上記音声特徴量抽出装置は、前記フィルタバンクごとの正規化された前記メル・デルタスペクトルを、離散コサイン変換する第1離散コサイン変換手段を更に含み、前記第1離散コサイン変換手段の出力をデルタ特徴量とする。
また好ましくは、前記第1正規化処理手段は、前記除算に加えて対数圧縮を行うことにより前記正規化を行う。
また好ましくは、広帯域の雑音に対する耐性を高める必要がある場合、前記第1メル・フィルタバンク処理手段は、前記メル・フィルタバンクの重みの代わりに、有声音の区間では調波構造部分に重みがあり、かつ調波構造がない無声音の区間ではフラットに近いフィルタを、前記メル・フィルタバンクの重みに掛け合わせたものを使用する。
また好ましくは、上記音声特徴量抽出装置は、MFCC(Mel−Frequency Cepstrum Coefficient)を算出するMFCC算出手段を更に含み、前記MFCCを静的特徴量とする。
なお、前記第1メル・フィルタバンク処理手段の処理を、前記第1正規化処理手段の処理の前に行ってもよい。この場合、前記第1正規化処理手段は、前記各フレームについて、前記フィルタバンクごとのメル・デルタスペクトルを、該フィルタバンクについての発話全体である全フレームについてのメルスペクトルの平均である平均メルスペクトルの関数で除算することにより正規化する。そして、前記音声特徴量抽出装置は、前記第1正規化処理手段の出力をデルタ特徴量としてもよい。
好ましくは、前記平均メルスペクトルの前記関数は、前記平均メルスペクトルのそのものである。これに代えて、任意のフレームt及び任意のフィルタバンクjに対して前記平均メルスペクトルの前記関数は、フレームtのフィルタバンクjについてのメルスペクトルの値と、フィルタバンクjについての前記平均メルスペクトルの値とのうち、大きい方の値又は大きい方の値に近い値を出力するものであってもよい。
また好ましくは、前記第1正規化処理手段の出力をデルタ特徴量とする上記音声特徴量抽出装置は、
前記デルタスペクトルを入力として、各フレームについて、前後のフレーム間の前記周波数binごとの前記デルタスペクトルの差分をデルタデルタスペクトルとして算出する第2差分算出手段と、前記各フレームについて、周波数binごとの前記デルタデルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタデルタスペクトルとして算出する第2メル・フィルタバンク処理手段と、前記各フレームについて、前記フィルタバンクごとの前記メル・デルタデルタスペクトルを前記平均メルスペクトルの関数で除算することにより正規化する第2正規化処理手段とを更に含み、前記第2正規化処理手段の出力をデルタデルタ特徴量とする。
また好ましくは、上記音声特徴量抽出装置は、正規化された前記フィルタバンクごとのメル・デルタスペクトルを、離散コサイン変換する第1離散コサイン変換手段を更に含み、前記第1離散コサイン変換手段の出力をデルタ特徴量とする。
更に好ましくは、前記第1離散コサイン変換手段の出力をデルタ特徴量とする上記音声特徴量抽出装置は、前記デルタスペクトルを入力として、各フレームについて、前後のフレーム間の前記周波数binごとの前記デルタスペクトルの差分をデルタデルタスペクトルとして算出する第2差分算出手段と、前記各フレームについて、周波数binごとの前記デルタデルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタデルタスペクトルとして算出する第2メル・フィルタバンク処理手段と、前記各フレームについて、前記フィルタバンクごとの前記メル・デルタデルタスペクトルを前記平均メルスペクトルの関数で除算することにより正規化する第2正規化処理手段と、正規化された前記フィルタバンクごとのメル・デルタデルタスペクトルを、離散コサイン変換する第2離散コサイン変換手段とを更に含み、前記第2離散コサイン変換手段の出力をデルタデルタ特徴量とする。
上記課題を解決するために、本発明の第2の態様においては、フレーム化された音声信号の各フレームのスペクトルに、発話全体である全フレームについてのスペクトルの平均である平均スペクトルを足した値を入力して、前記各フレームについて、前記値にメル・フィルタバンクの重みを掛けて合算するメル・フィルタバンク処理手段と、前記各フレームについて、前記メル・フィルタバンク処理手段の出力の対数を求める対数算出手段と、前記各フレームにてついて、前記対数算出手段の出力を、離散コサイン変換する離散コサイン変換手段と、前記各フレームについて、前後のフレーム間の前記離散コサイン変換手段の出力の差分を算出する第1差分算出手段とを含み、前記第1差分算出手段の出力をデルタ特徴量とする、音声特徴量抽出装置を提供する。
上記課題を解決するために、本発明の第3の態様においては、フレーム化された音声信号の各フレームのスペクトルを入力して、前記各フレームについて、前記スペクトルにメル・フィルタバンクの重みを掛けて合算することによりメルスペクトルを算出するメル・フィルタバンク処理手段と、各フレームの前記メルスペクトルを入力して、発話全体である全フレームについての前記メルスペクトルの平均である平均メルスペクトルを算出する平均算出手段と、前記各フレームについて、前記メルスペクトルに前記平均メルスペクトル加えた値の対数を求める対数算出手段と、前記各フレームについて、前記対数算出手段の出力を、離散コサイン変換する離散コサイン変換手段と、前記各フレームについて、前後のフレーム間の前記離散コサイン変換手段の出力の差分を算出する第1差分算出手段とを含み、前記第1差分算出手段の出力をデルタ特徴量とする、音声特徴量抽出装置を提供する。
好ましくは、本発明の第2又は第3態様において、上記音声特徴量抽出装置は、前記各フレームについて、前後のフレーム間の前記第1差分算出手段の出力の差分を算出する第2差分算出手段を更に含み、前記第2差分算出手段の出力をデルタデルタ特徴量とする。
以上、音声特徴量抽出装置として本発明を説明したが、本発明は、プロセッサと記憶領域を備えたコンピュータの計算処理によって上記説明した音声特徴量を抽出する音声特徴量抽出方法、及びプロセッサと記憶領域を備えたコンピュータにおいて実行される、上記説明した音声特徴量を抽出する音声特徴量抽出プログラムとして把握することもできる。なお本発明は、上述したようにフロントエンド等の残響や雑音を除去する技術と組み合わせることができることはいうまでもない。
本願発明によれば、従来の対数領域の差分の代わりにリニア領域の差分を音声のデルタ特徴量及びデルタデルタ特徴量として利用できるので、残響及び騒音により一層強い特徴量を抽出することが可能となり、結果、音声認識の精度が高まる。本発明のその他の効果については、各実施の形態の記載から理解される。
図1(a)は、残響のある部屋で収録した音声パワーの減衰を表す、対数軸のグラフである。図1(b)は、図1(a)と同じ音声パワーの減衰を表す、線形軸のグラフである。 図2は、残響環境で収録した音声スペクトルの一例を示す。 図3は、本発明の実施の形態による音声特徴量抽出装置を実現するのに好適なコンピュータのハードウェア構成の一例を示した図である。 図4は、一般的な音声認識装置の構成の一例を示す。 図5は、静的特徴量算出部の機能構成の一例を示す。 図6(a)は、本発明の第1実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。図6(b)は、本発明の第1実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量抽出部の機能構成を示す。 図7(a)は、本発明の第2実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。図7(b)は、本発明の第2実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量抽出部の機能構成を示す。 図8(a)は、本発明の第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。図8(b)は、本発明の第3実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量抽出部の機能構成を示す。 図9(a)は、本発明の第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部によるデルタ特徴量抽出処理の流れの一例を示すフローチャートである。図9(b)は、本発明の第3実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部によるデルタデルタ特徴量抽出処理の流れの一例を示すフローチャートである。 図10(a)は、Mel−FB Weightの一例を示すグラフである。図10(b)は、Local Peak Weightの一例を示すグラフである。図10(c)は、LPW−Mel−FB Weightの一例を示すグラフである。 図11は、Local Peak Weightの作成処理の流れの一例を示すフローチャートである。 図12(a)は、本発明の第4実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。図12(b)は、本発明の第5実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。 図13(a)は、本発明の第4実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部によるデルタ特徴量抽出処理の流れの一例を示すフローチャートである。図13(b)は、本発明の第5実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部によるデルタ特徴量抽出処理の流れの一例を示すフローチャートである。 図14は、本発明の第4又は第5実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量抽出部の機能構成を示す。 図15は、本発明の第4又は第5実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量抽出部によるデルタデルタ特徴量抽出処理の流れの一例を示すフローチャートである。 図16は、残響環境における本発明の第1の評価実験結果の一例を示す表である。 図17は、残響環境における本発明の第2の評価実験結果の一例を示す表である。 図18は、雑音環境における本発明の評価実験結果の一例を示す表である。
以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。なお、実施の形態の説明の全体を通じて同じ要素には同じ番号を付している。
まず本発明の構成や動作の説明をする前に、図1及び図2を参照して、従来の対数領域の差分を用いるデルタ特徴量が、残響及び騒音環境での音声認識において好ましくない結果をもたらすことを説明する。そしてそれぞれの環境について、本願発明者が提案するスペクトルの平均を利用して正規化を行ったリニア領域の差分が、従来に比して雑音や残響により一層強いことを示す。
(残響環境)図1は、残響のある部屋で収録した音声パワーの減衰の様子を示し、同じ観測データを、図1(a)は対数軸で表し、図(b)は線形軸で表している。横軸はいずれも区間番号を示し、時間の経過に相当する。図1を見ると分るように、音声の再生は9番区間辺りで終了し、後続の区間は残響区間となっている。残響は、指数関数的にそのパワーが減衰することが知られており、対数軸表示の図1(a)では、長くかつ傾きが一定のスロープ10が形成されている。一方、線形軸表示の図1(b)では、急で短いスロープ20が形成されている。
従来、デルタ特徴量として前後のフレーム間のMFCCの差分がよく用いられている。MFCCは、メルスケールフィルタバンク(Mel−FB)ごとの対数スペクトルを離散コサイン変換したものであるため、そのデルタ特徴量は対数領域の差分と見なされる。特徴量としてMFCCを使用しない音声認識装置であっても、多くは対数スペクトルまたはその線形変換を特徴量とするため、それらのデルタ特徴量はやはり対数領域の差分と見なされる。
このように対数領域の差分をデルタ特徴量として利用する従来の手法は、図1(a)のスロープ10の傾きをデルタ特徴量として利用することに相当し、音声が終了しても長い間、一定の特徴量を出力し続ける。一方、線形、即ちリニア領域の差分をデルタ特徴量として利用することを考えると、これは図1(b)のスロープ20の傾きをデルタ特徴量とすることに相当し、この場合デルタ特徴量は残響区間で速やかに減衰すると考えられる。
デルタ特徴量が速やかに減衰することの重要性は、音素が連続したケースでより明確になる。図2は、残響環境で収録した音声スペクトルの一例を示し、横軸は図1と同様に区間番号を示し、縦軸は周波数を示す。また、音声スペクトルの強度は色の濃淡で表され、薄いほど強度が高いことを示す。図2に示すように、音素1と音素2とが連続している場合、Aの領域は音素2に属するが、先行音素1の残響の影響を受ける。領域Aの部分のスペクトル強度は十分弱いので、デルタではない、即ち静的特徴量のみを想定すれば、先行音素の影響は大きくない。しかしながら、対数スペクトルを用いたデルタ特徴量等、動的特徴量をも考慮すると、領域Aの部分は、先行音素1の残響である長いスロープの裾野に当たるため、見かけ以上に先行音素1の影響を受ける。従って、残響環境では、速やかに減衰するリニア領域のデルタ特徴量が好ましい。
しかしながら、リニア領域の差分をそのままデルタ特徴量とすることはできない。なぜならば、リニア領域のデルタのままでは、ダイナミックレンジが広くモデル化に適さないからである。なお、ダイナミックレンジを圧縮するために、リニア領域のデルタを算出した後に対数をとることも考えられる。しかしデルタの値は正にも負にもなり得るので、単純に対数をとることはできない。また、音声認識では伝達特性の補正のためにCMN(Cepstrum Mean Nomalization)を併用することが多いが、リニア領域のデルタのままでは、そのような補正を行うことができない。
そこで本願発明者は、上記問題を、リニア領域のスペクトルのデルタに対して発話全体についてのスペクトルの平均を利用した正規化を行うことにより解決した。ここで観測音声のtフレーム目のリニア領域のスペクトルのデルタをΔs、発話全体である全フレームについてのスペクトルの平均(以下、単に平均スペクトルとも言う)をsバーとすると、本願発明者が提案する最もシンプルなデルタ特徴量は次式により表わされる。なお、本願発明者が提案する他のデルタ特徴量のバリエーションについては後述する。
Figure 2011024572


ここで比較のため、従来の観測音声のtフレーム目の対数領域のスペクトルのデルタを次式のように近似する。
Figure 2011024572



式1と式2を比較すると、本願発明者が提案するデルタ特徴量は、従来のデルタ特徴量の分母のスペクトルsを発話全体の平均スペクトルのsバーで置き換えたものと理解することができる。従って本願発明者が提案するデルタ特徴量は、tフレーム目が発話全体に比べ小さなパワーを持っているときには、従来のデルタ特徴よりも小さなデルタ特徴量を与える。なお上記両式が類似していることから、式1は式2と同程度のダイナミックレンジに収まっているといえる。更に、式1のデルタ特徴量は、sバーで除されていることから、伝達特性の補正の効果も入っている。
(騒音環境)次に式1を例に、本願発明者が提案するデルタ特徴量が騒音環境にも有効であることを説明する。今、音響モデルの学習時において雑音がなく、式1及び式2のデルタ特徴量をそれぞれ用いて学習が行われたとする。音声認識実行時において雑音Nが付加される状況では、式1のデルタ特徴量は次式のように観測される。
Figure 2011024572



同様に式2のデルタ特徴量は次式のように観測される。
Figure 2011024572

ここで雑音Nが加わったことによる変化の度合いを調べるため、式1と式3、式2と式4の比をとり、それぞれ式5及び式6に示す。
Figure 2011024572



Figure 2011024572

式5と式6を比較すると分るように、局所的なSNRが低いフレーム、即ち、sが雑音Nや平均スペクトルsバーよりもかなり小さくなるような区間では、雑音Nが付加されたことによるデルタ特徴量の変化の度合いは、式6の方が大きい。このことは、一般に誤認識が起こりやすいとされる低SNR区間において発生するモデルからのずれは、従来の対数領域のデルタを利用するほうが、本願発明者が提案するデルタ特徴量を利用するよりも、非常に大きいことを意味する。このように、本願発明者が提案するデルタ特徴量は騒音環境においても有効である。
図3は、本発明を実施するためのコンピュータ300の例示的なハードウェア構成を示す。図3においてマイク305付近で発生した音は、マイク305によってアナログ信号としてA/D変換器310に入力され、そこでCPU325が処理可能なディジタル信号に変換される。
マイク305が拾う音は、例えばカーナビの場合、運転者の話声、同乗者の話声だけでなく、エアコンの送風音、カーオーディオから出力される音、エンジン音、クラクションの音などが含まれる。更に車の窓が開いている場合には、対向車からの騒音、通行人の話声なども含まれる。
外部記憶装置315やROM320は、オペレーティング・システムと協働してCPU325に命令を与え、本発明を実施するための音声特徴量抽出プログラム・モジュールを含む複数のコンピュータ・プログラムのコードや各種データを記録することができる。そして外部記憶装置315やROM320に格納された複数のコンピュータ・プログラムは各々RAM330にロードされることによってCPU325により実行される。なお、外部記憶装置315は、SCSIコントローラなどのコントローラ(図示しない)を経由してバス345へ接続されている。
コンピュータ・プログラムは圧縮し、また複数に分割して複数の媒体に記録することもできる。なお、CPU325が、A/D変換器310から渡されるディジタル信号に対して、音声特徴量抽出プログラムにより行う処理の詳細は後述する。
コンピュータ300はまた、視覚データをユーザに提示するための表示装置335を含む。表示装置335は、グラフィックスコントローラ(図示しない)を経由してバス345へ接続されている。コンピュータ300は、通信インタフェース340を介してネットワークに接続し、他のコンピュータ等と通信を行うことが可能である。
なお、上記説明した構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。同様に本発明を実施するためのコンピュータ300は、キーボードやマウスのような入力デバイス、スピーカー等の他の構成要素を含むことも可能であることは言うまでもない。
図4は、一般的な音声認識装置400の構成を示す。離散フーリエ変換部405は、ディジタル信号に変換された音声信号を入力し、これをハニング窓、ハミング窓などの適当な方法でフレーム化した後、離散フーリエ変換して音声信号のスペクトルを出力する。ノイズ・リダクション部410は、離散フーリエ変換部405の出力であるスペクトルを入力し、スペクトルサブトラクション法等によりスペクトルから雑音を除去する。但しノイズ・リダクション部410はオプションであってなくてもよい。
特徴量抽出部415は、音声信号のスペクトル(ノイズ・リダクション部410が存在する場合は雑音が除去された後の音声信号のスペクトル)を入力し、静的特徴量や動的特徴量を抽出して出力する。上述したように、従来はMFCCとそのデルタ(1次変化量)及びデルタデルタ(2次変化量)の組み合わせ、またはそれらの線形変換が利用されることが多く、これらがそれぞれ静的特徴量、動的特徴量として抽出されていた。
スイッチ420は、学習時においては学習部430側へ倒され、学習部430は、学習データとしての音声信号から特徴量抽出部415が抽出した特徴量と、学習データとしての音声信号に対応する入力テキストとを入力し、これらデータから音響モデル425を構築する。なお、学習処理自体は本発明の要旨ではないので、これ以上の説明は省略する。
またスイッチ420は、認識時においては音声認識部440側へ倒され、音声認識部440は、認識データとしての音声信号から特徴量抽出部415が抽出した特徴量と、音響モデル425及び言語モデル435からのデータとを入力し、これらデータから音声信号を認識して認識結果のテキストを出力する。なお、音声認識処理自体は本発明の要旨ではないので、これ以上の説明は省略する。
このように音声認識装置400は、学習時には、音声信号と入力テキストから音響モデル420を構築し、認識時には、入力信号と、音響モデルと、言語モデルとから認識結果のテキストを出力する。本発明は、図4に示す従来の特徴量抽出部415を改良するものであり、具体的には、動的特徴量であるデルタ特徴量及びデルタデルタ特徴量の算出方法を改善する。
本発明により改良される特徴量抽出部415は、従来の多くの特徴量抽出部415と同様、静的特徴量と動的特徴量を組み合わせた多次元の特徴量を出力するが、必要に応じて、静的特徴量なしや、デルタデルタ特徴量なしなどのように簡略構成とすることが可能であることは言うまでもない。以下では、本発明に係る特徴量抽出部415を、静的特徴量算出部、デルタ特徴量算出部、及びデルタデルタ特徴量算出部を含む音声特徴量抽出装置として説明する。
図5は、静的特徴量算出部の機能構成の一例を示す。本実施例では、静的特徴量としてMFCC特徴量を使用する。なお、後述する第1乃至第5実施形態に係る音声特徴量抽出装置の全てについて、静的特徴量算出部は共通である。図5において、メル・フィルタバンク処理部500は、図4に関連して説明した離散フーリエ変換部405又はノイズ・リダクション部410から、フレーム化された音声信号の周波数binごとのスペクトルsを入力し、各フレームについて、その機能により、周波数binごとのスペクトルsを、メル・フィルタバンクの重みを使用してフィルタバンクごとのスペクトル(以下、メルスペクトルSという)に変換して、メルスペクトルSを出力する。
ここでtをフレーム番号、iを周波数bin番号、jをフィルタバンク番号、Mel_FB_Weightをメル・フィルタバンクの重みとすると、メル・フィルタバンク処理部500による変換は次式より表される。
Figure 2011024572

対数算出部505は、メルスペクトルSを入力し、各フレームについて、その機能により、フィルタバンクごとのメルスペクトルSの対数を次式より求め、対数メルスペクトルS´を出力する。
Figure 2011024572

離散コサイン変換部510は、対数メルスペクトルS´を入力し、各フレームについて、その機能により、対数メルスペクトルS´を離散コサイン変換してMFCC、即ちメルケプストラムCを算出し、出力する。なお離散コサイン変換部510は、離散コサイン変換行列をD(h、j)とすると次式より対数メルスペクトルS´の離散コサイン変換を行う。
Figure 2011024572



このようにして静的特徴量算出部は、スペクトルsを入力として、最終的にメルケプストラムCを静的特徴量として出力する。
(第1実施形態)図6(a)は、本発明の第1実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。第1差分算出部600は、図4に関連して説明した離散フーリエ変換部405又はノイズ・リダクション部410から、フレーム化された音声信号の周波数binごとのスペクトルsを入力し、各フレームについて、その機能により、周波数binごと、前後のフレーム間のスペクトルsの差分(以下、デルタスペクトルΔsともいう)を算出し、周波数binごとのデルタスペクトルΔsとして出力する。第1差分算出部600による差分処理は、次式により行われる。
Figure 2011024572



式10では、周波数bin番号iは省略している。
第1正規化処理部605は、周波数binごとのデルタスペクトルΔsを入力し、各フレームについて、その機能により、周波数binごとのデルタスペクトルΔsを、該周波数binについての発話全体である全フレームについてのスペクトルの平均である平均スペクトルの関数Fで除算することにより正規化する。本実施例では、平均スペクトルの関数Fは平均スペクトルそのもの、即ち周波数binごとの平均スペクトルsバーとする。この場合、第1正規化処理部605の出力は次式により表される。
Figure 2011024572



式11では、周波数bin番号iは省略している。第1実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、第1正規化処理部605の出力をデルタ特徴量とする。
図6(b)は、本発明の第1実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部の機能構成を示す。本発明の第1実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、第2差分算出部610及び第2正規化処理部615を含む。これらは入力及び出力を異にするだけで、その機能は各々本発明の第1実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の対応する構成要素と同じである。
即ち、第2差分算出部610は、図6(a)に示す第1差分算出部600からデルタスペクトルΔsを入力し、各フレームについて、周波数binごと、前後のフレーム間のデルタスペクトルΔsの差分をデルタデルタスペクトルΔΔsとして算出する。第2差分算出部610の出力、デルタデルタスペクトルΔΔsは次式により表される。
Figure 2011024572



式12では、周波数bin番号iは省略している。
また第2正規化処理部615は、デルタデルタスペクトルΔΔsを入力し、各フレームについて、周波数binごと、デルタデルタスペクトルΔΔsを平均スペクトルの関数で除算することにより正規化する。本実施例では、平均スペクトルの関数Fは平均スペクトルそのもの、即ち周波数binごとの平均スペクトルsバーとする。この場合、第2正規化処理部615の出力は次式により表される。
Figure 2011024572



式13では、周波数bin番号iは省略している。第1実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、第2正規化処理部615の出力をデルタデルタ特徴量とする。
(第2実施形態)図7(a)は、本発明の第2実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。第2実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、第1実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部に第1メル・フィルタバンク処理部705を追加したものである。新たに追加される第1メル・フィルタバンク処理部705は、その処理の順序が、第1差分算出部700の後であって、かつ第1正規化処理部710よりも前又は後となるような位置に配置される。
ここで第1差分算出部700は、第1実施形態に係る音声特徴量抽出装置の第1差分算出部600と全く同じものであるため、ここでは繰り返しを避けるため説明は省略する。第1メル・フィルタバンク処理部705は、入力及び出力を異にするだけで、その機能は図5に関して説明したメル・フィルタバンク処理部500と同じである。
即ち、第1メル・フィルタバンク処理部705の処理が第1正規化処理部710の処理よりも先である場合を例に説明すると、第1メル・フィルタバンク処理部705は、第1差分算出部700からデルタスペクトルΔsを入力し、各フレームについて、周波数binごとのデルタスペクトルΔsに、式7の右辺と同様にメル・フィルタバンクの重みを掛けて合算し、合算した値をフィルタバンクごとのメル・デルタスペクトルΔSとして算出する。
第1正規化処理部710もまた、入力及び出力を異にするだけで、その機能は第1実施形態に係る音声特徴量抽出装置の第1正規化処理部605と同じである。そこで繰り返しを避けるためここでは説明を省略する。但し、第1メル・フィルタバンク処理部705の処理が第1正規化処理部710の処理よりも前となる場合は、第1正規化処理部710が正規化のために用いる発話全体である全フレームについての平均スペクトルは、周波数binごとのスペクトルの平均である平均スペクトルsバーではなく、フィルタバンクごとのメルスペクトルの平均である平均メルスペクトルSバーであることに留意されたい。
即ち、平均スペクトルの関数Fを平均スペクトルそのものとすると、この場合、第1正規化処理部710は、第1メル・フィルタバンク処理部705からフィルタバンクごとのメル・デルタスペクトルΔS入力し、各フレームについて、フィルタバンクごとのメル・デルタスペクトルΔSを、該フィルタバンクについての全フレームについての平均メルスペクトルSバーで除算することにより正規化を行う。第1正規化処理部710の出力は次式により表される。
Figure 2011024572



式14では、フィルタバンク番号jは省略している。また式14の右辺の分母は、フィルタバンクごとの平均メルスペクトルSバーである。第2実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、その処理が最後となる第1メル・フィルタバンク処理部705又は第1正規化処理部710の出力をデルタ特徴量とする。
図7(b)は、本発明の第2実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部の機能構成を示す。本発明の第2実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、第2差分算出部715、第2メル・フィルタバンク処理部720及び第2正規化処理部725を含む。第2メル・フィルタバンク処理部720の処理と第2正規化処理部725の処理はいずれが先に行われてもよい。第2差分算出部715は、第1実施形態に係る音声特徴量抽出装置の第2差分算出部610と全く同じものであるため、ここでは繰り返しを避けるため説明を省略する。第2メル・フィルタバンク処理部720は、入力及び出力を異にするだけで、その機能は図5に関して説明したメル・フィルタバンク処理部500と同じである。
即ち、第2メル・フィルタバンク処理部720の処理が第2正規化処理部725の処理よりも先である場合を例に説明すると、第2メル・フィルタバンク処理部720は、第2差分算出部715からデルタデルタスペクトルΔΔsを入力し、各フレームについて、周波数binごとのデルタデルタスペクトルΔΔsに、式7の右辺と同様にメル・フィルタバンクの重みを掛けて合算し、合算した値をフィルタバンクごとのメル・デルタデルタスペクトルΔΔSとして算出する。
第2正規化処理部725もまた、入力及び出力を異にするだけで、その機能は第1実施形態に係る音声特徴量抽出装置の第2正規化処理部615と同じである。そこで繰り返しを避けるためここでは説明を省略する。但し、第2メル・フィルタバンク処理部720の処理が第2正規化処理部725の処理よりも前となる場合は、第2正規化処理部725が正規化のために用いる発話全体である全フレームについての平均スペクトルは、周波数binごとのスペクトルの平均である平均スペクトルsバーではなく、フィルタバンクごとのメルスペクトルの平均である平均メルスペクトルSバーであることに留意されたい。
即ち、平均スペクトルの関数Fを平均スペクトルそのものとすると、この場合、第2正規化処理部725は、第2メル・フィルタバンク処理部720からフィルタバンクごとのメル・デルタデルタスペクトルΔΔS入力し、各フレームについて、フィルタバンクごとのメル・デルタデルタスペクトルΔΔSを、該フィルタバンクについての平均メルスペクトルSバーで除算することにより正規化を行う。第2正規化処理部725の出力は次式により表される。
Figure 2011024572



式15では、フィルタバンク番号jは省略している。また式15の右辺の分母は、フィルタバンクごとの平均メルスペクトルSバーである。第2実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、その処理が最後となる第2メル・フィルタバンク処理部720又は第2正規化処理部725の出力をデルタデルタ特徴量とする。
(第3実施形態)図8(a)は、本発明の第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、第2実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部に第1離散コサイン変換部815を新たに追加したものである。従って、第1差分算出部800、第1メル・フィルタバンク処理部805、及び第1正規化処理部810の説明は、繰り返しを避けるためここでは省略する。なお、新たに追加される第1離散コサイン変換部815は、その処理順序が最後になるような位置に配置される。
第1離散コサイン変換部815は、入力及び出力を異にするだけで、その機能は図5に関して説明した離散コサイン変換部510と同じである。即ち、第1離散コサイン変換部815は、正規化されたフィルタバンクごとのメル・デルタスペクトルΔSを入力し、これを離散コサイン変換する。第1離散コサイン変換部815の出力は次式により表される。
Figure 2011024572



式16において、記号DCTは式9の離散コサイン変換行列D(h、j)による変換を表す。第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、第1離散コサイン変換部815の出力をデルタ特徴量とする。
図8(b)は、本発明の第3実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部の機能構成を示す。本発明の第3実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、第2実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部に第2離散コサイン変換部835を新たに追加したものである。従って、第2差分算出部820、第2メル・フィルタバンク処理部825、及び第2正規化処理部830の説明は、繰り返しを避けるためここでは省略する。なお、新たに追加される第2離散コサイン変換部835は、その処理順序が最後になるような位置に配置される。
第2離散コサイン変換部835は、入力及び出力を異にするだけで、その機能は図5に関して説明した離散コサイン変換部510と同じである。即ち、第2離散コサイン変換部835は、正規化されたフィルタバンクごとのメル・デルタデルタスペクトルΔΔSを入力し、これを離散コサイン変換する。第2離散コサイン変換部835の出力は次式により表される。
Figure 2011024572



式17において、記号DCTは式9の離散コサイン変換行列D(h、j)による変換を表す。第3実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、第2離散コサイン変換部835の出力をデルタデルタ特徴量とする。
なお、第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部及びデルタデルタ特徴量算出部では、第1正規化処理部810及び第2正規化処理部830による正規化の方法を次のように変更してもよい。即ち、第1正規化処理部810及び第2正規化処理部830は、平均スペクトルsバーや平均メルスペクトルSバーによる除算に加えて対数圧縮を行うことにより正規化を行ってよい。この場合、例えば第1メル・フィルタバンク処理部805による処理の後に第1正規化処理部810による処理が行われるとすると、第1正規化処理部810による正規化は次式により行われる。
Figure 2011024572


即ち、メル・デルタスペクトルΔSが0以上である場合、第1正規化処理部810は、フィルタバンクごとのメル・デルタスペクトルΔSを、該フィルタバンクについての平均メルスペクトルSバーで除算して1を加え、その結果の対数を求めることにより正規化を行う。一方、メル・デルタスペクトルΔSが0より小さい場合、第1正規化処理部810は、フィルタバンクごとのメル・デルタスペクトルΔSを、該フィルタバンクについての平均メルスペクトルSバーで除算してマイナス1を掛けたものに1を加え、その結果の対数にマイナス1を掛けることにより正規化を行う。同様にして、第2メル・フィルタバンク処理部825による処理の後に第2正規化処理部830による処理が行われるとすると、第2正規化処理部830は式19により正規化を行ってもよい。
Figure 2011024572

これに代えて、第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部及びデルタデルタ特徴量算出部では、平均メルスペクトルSバーの関数Fを、平均メルスペクトルSバーそのものではなく、次のような平均メルスペクトルSバーとメルスペクトルSとの関数Fとしてよい。即ち、任意のフレームt及び任意のフィルタバンクjに対して平均メルスペクトルSバーの関数Fは、フレームtのフィルタバンクjについてのメルスペクトルSの値と、フィルタバンクjについての全フレームについての平均メルスペクトルSバーの値とのうち、大きい方の値又は大きい方の値に近い値を出力する。このような関数Fの一例を式20及び21に示す。
Figure 2011024572



Figure 2011024572



式20及び式21では、フィルタバンク番号jは省略している。
そして第1正規化処理部810は、フィルタバンクごとのメル・デルタスペクトルΔSを入力し、各フレームについて、フィルタバンクごとのメル・デルタスペクトルΔSを、該フィルタバンクについての上記式20又は式21により表される関数Fで除算することにより正規化する。第2正規化処理部830についても同様である。このような平均メルスペクトルSバーとメルスペクトルSとの関数Fを用いた正規化は、性能の観点から、平均メルスペクトルSバーで除算する正規化よりも好ましい。
図9(a)は、本発明の第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部による音声のデルタ特徴量抽出処理の流れの一例を示すフローチャートである。処理はステップ900から開始し、第1差分算出部800は、フレーム化された音声信号の周波数binごとのスペクトルを入力して、各フレームについて、周波数binごと、前後のフレーム間のスペクトルの差分をデルタスペクトルΔsとして算出し、図3に示すRAM330等の記憶領域に記憶する。
第1メル・フィルタバンク処理部805は、記憶領域からデルタスペクトルΔsを読み出し、各フレームについて、周波数binごとのデルタスペクトルΔsにメル・フィルタバンクの重みを掛けて合算し、これをフィルタバンクごとのメル・デルタスペクトルΔSとして記憶領域に記憶する(ステップ905)。第1正規化処理部810は、記憶領域からメル・デルタスペクトルΔSを読み出し、各フレームについて、フィルタバンクごとのメル・デルタスペクトルΔSを、該フィルタバンクについての平均メルスペクトルSバーの関数Fで除算することにより正規化し、記憶領域に記憶する(ステップ910)。
なお、点線920で囲った、第1メル・フィルタバンク処理部805の処理と第1正規化処理部810の処理は、順序を入れ替えてよい。但し、第1メル・フィルタバンク処理部805の処理が第1正規化処理部810の処理よりも後となる場合、第1正規化処理部810が正規化のために用いる関数Fは、周波数binごとの平均スペクトルsバーの関数Fである。また上述したように、関数Fは、平均スペクトルsバーや平均メルスペクトルSバーそのものでもよく、式20や式21で表すものでもよい。或いは平均スペクトルsバーや平均メルスペクトルSバーによる除算に加えて対数圧縮を行うことにより正規化を行ってもよい。
続いて第1離散コサイン変換部815は、記憶領域から正規化されたフィルタバンクごとのメル・デルタスペクトルを読み出して離散コサイン変換し、その結果をデルタ特徴量として出力する(ステップ915)。そして処理は終了する。なお、第1及び第2実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部によるデルタ特徴量抽出処理は、図9(a)において、ステップ905とステップ915の処理、又はステップ915の処理を省略した場合にそれぞれ該当する。
図9(b)は、本発明の第3実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部によるデルタデルタ特徴量抽出処理の流れの一例を示すフローチャートである。処理はステップ920から開始し、第2差分算出部820は、第1差分算出部800からデルタスペクトルΔsを入力して、各フレームについて、前後のフレーム間の周波数binごとのデルタスペクトルΔsの差分をデルタデルタスペクトルΔΔsとして算出し、図3に示すRAM330等の記憶領域に記憶する。
第2メル・フィルタバンク処理部825は、記憶領域からデルタデルタスペクトルΔΔsを読み出し、各フレームについて、周波数binごとのデルタデルタスペクトルΔΔsにメル・フィルタバンクの重みを掛けて合算し、これをフィルタバンクごとのメル・デルタデルタスペクトルΔΔSとして記憶領域に記憶する(ステップ925)。第2正規化処理部830は、記憶領域からメル・デルタデルタスペクトルΔΔSを読み出し、各フレームについて、フィルタバンクごとのメル・デルタデルタスペクトルΔΔSを、該フィルタバンクについての平均メルスペクトルSバーの関数Fで除算することにより正規化し、記憶領域に記憶する(ステップ930)。
なお、点線940で囲った、第2メル・フィルタバンク処理部825の処理と第2正規化処理部830の処理は、順序を入れ替えてよい。但し、第2メル・フィルタバンク処理部825の処理が第2正規化処理部830の処理よりも後となる場合、第2正規化処理部830が正規化のために用いる関数Fは、周波数binごとの平均スペクトルsバーの関数Fである。また上述したように、関数Fは、平均スペクトルsバーや平均メルスペクトルSバーそのものでもよく、式20や式21で表すものでもよい。或いは平均スペクトルsバーや平均メルスペクトルSバーによる除算に加えて対数圧縮を行うことにより正規化を行ってもよい。
続いて第2離散コサイン変換部835は、記憶領域から正規化されたフィルタバンクごとのメル・デルタデルタスペクトルを読み出して離散コサイン変換し、その結果をデルタデルタ特徴量として出力する(ステップ935)。そして処理は終了する。なお、第1及び第2実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部によるデルタデルタ特徴量抽出処理は、図9(b)において、ステップ925とステップ935の処理、又はステップ935の処理を省略した場合にそれぞれ該当する。
ところで第2及び第3実施形態では、第1メル・フィルタバンク処理部705、805及び第2メル・フィルタバンク処理部720、825が使用するメル・フィルタバンクの重みの代わりに、有声音の区間では調波構造部分に重みがあり、かつ調波構造がない無声音の区間ではフラットに近いフィルタ(以下、Local Peak Weightという)を、メル・フィルタバンクの重みに掛け合わせたものを使用してもよい。このようにして作成される新たな重みを、図10及び図11を参照して以下に説明する。
図10(a)は、メル・フィルタバンクの重みの一例を示すグラフである。上述したように、第1メル・フィルタバンク処理部705、805及び第2メル・フィルタバンク処理部720、825は、周波数方向に等間隔に設定された周波数binごとのスペクトルを、それぞれにメル・フィルタバンクの重みを掛けて合算することにより、フィルタバンクというより大きなかたまりごとのスペクトルに変換する。
フィルタバンクは、人間の聴覚特性に適合するメル周波数上で等間隔になるように配置され、図10(a)に示すように三角形状の重み1000として構成される。そして、式7の右辺に示したように、周波数binごとのフィルタバンクへの寄与度を重みとして、メル・フィルタバンクの重みMel_FB_Weight(j、i)が定義される。
ところで、人間の発音は母音において、調波構造を持つ。即ち、全ての周波数binに満遍なくエネルギーが込められているのではなく、女性や子供のように基本周波数が高い発声の場合は、声のエネルギーはとびとびの周波数binに存在する。従って上述したメル・フィルタバンクのように、声のエネルギーのない周波数binにも等しく重みを割り当てると、それだけ雑音を拾い易くなる。従って、調波構造に対応するピークの部分にはより大きな重みを割り当て、谷の部分にはより小さな重みを割り当て、かつ、ピークが観測されないときには通常のMel−FB Weightに漸近するような、新たな重みを利用することが好ましい。
そのためにまず、スペクトルの調波構造に対応する山と谷の情報を、図10(b)に示すようなLocal Peak Weight(LPW)として、入力スペクトルを基にフレームごと算出する。LPWの算出方法は後述する。そして次式に示すように、Mel−FB WeightとLPWの積をとって新たな重みとし、そのフィルタバンクごとの合計で除することにより正規化したものを、LPW−Mel−FB Weightとする。
Figure 2011024572

図10(c)は、このようにして求められたLPW−Mel−FB Weightを示すグラフである。第2及び第3実施形態において第1メル・フィルタバンク処理部705、805及び第2メル・フィルタバンク処理部720、825は、それぞれ次式に示すように、Mel−FB Weightの代わりにLPW−Mel−FB Weightを用いて変換処理を行ってよい。
Figure 2011024572



Figure 2011024572



なお、LPW−Mel−FB Weightを使用するのは、広帯域の雑音に対する耐性を高めるためであり、雑音が音楽や他者の発声である場合や、雑音がなく残響のみがある場合は、LPW−Mel−FB Weightを使用する必要はない。
次に図11を参照して、LPWの作成方法を説明する。なおLPWの作成方法は、基本的には本願発明者による発明を開示する引用文献1に記載される、観測音声を強調する強調フィルタの作成方法と同じである。処理はステップ1100から開始し、まず観測音声のtフレーム目のスペクトルをsの対数パワースペクトルYを次式により求める。
Figure 2011024572

続いて、次式より対数パワースペクトルYを離散コサイン変換し、ケプストラムRtを求める(ステップ1105)。
Figure 2011024572



式26において記号DCTは、式9の離散コサイン変換行列D(h、j)による変換を表す。続いて、ケプストラムRtは、対数スペクトルの外形の特徴を抽出した係数であるので、次式より、人間の発声の調波構造に対応した領域の項のみ残し、それ以外の項をカットする(ステップ1110)。
Figure 2011024572

式27において、εは0又は非常に小さい定数である。また、lower_cep_numとupper_cep_numは、調波構造として有り得る範囲に対応する。後述する評価実験では、人間の発声の基本周波数は100Hzから400Hzの間にあると仮定し、lower_cep_num=40、upper_cep_num=160と設定した。但し、これはサンプリング周波数16kHz、FFT幅512点とした場合の設定値例である。
続いて、次式に示すように逆離散コサイン変換をかけて、加工されたケプストラムRtを対数スペクトル領域に戻す(ステップ1115)。
Figure 2011024572



式22において記号DCT−1は、式9の離散コサイン変換行列D(h、j)の逆行列による変換を表す。
最後のステップ1120では、まず式29により、逆離散コサイン変換した結果を、対数スペクトル領域からパワースペクトル領域に戻す。続いて式30により、平均値が1になるよう正規化を行い、最終的にLPWを作成する。そして処理は終了する。
Figure 2011024572



Figure 2011024572



式30において、Num_binは周波数binの総数である。
(第4実施形態)図12(a)は、本発明の第4実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。第4実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、図5に関連して説明した静的特徴量算出部の構成要素に、第1差分算出部1215を追加したものである。第1差分算出部1215は、図12(a)に示すように、他の全構成要素の処理の後にその処理が行われるような位置に配置される。
図12(a)に示す、メル・フィルタバンク処理部1200、対数算出部1205、及び離散コサイン変換部1210はそれぞれ、入力及び出力を異にするだけで、その機能は図5に関して説明した静的特徴量算出部の対応する構成要素と同じである。図12(a)に示す第1差分算出部1215もまた、入力及び出力を異にするだけで、その機能は第1実施形態に係る音声特徴量抽出装置の第1差分算出部600と同じである。そこで繰り返しを避けるため、ここでは各構成要素の機能の説明は省略する。
但し上述したように、図12(a)に示すメル・フィルタバンク処理部1200に入力される値は、図5に示すメル・フィルタバンク処理部500のそれと異なり、フレーム化された音声信号の周波数binごとのスペクトルsに、該周波数binについての平均スペクトルsバーを足し合わせた値である。このような値をデルタ特徴量算出部の入力とすることにより、デルタ特徴量として最終的に得られる値、即ち、第1差分算出部1215の出力は、式21により表される関数Fを用いて正規化を行う第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部により出力されるデルタ特徴量とほぼ等価となる。しかし第4実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、既存の静的特徴量抽出部をわずかに変更するだけで構成できることから、上記第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部よりも好ましいといえる。
なお、デルタ特徴量として最終的に得られる第1差分算出部1215の出力は、次式により表される。
Figure 2011024572



式31では、フィルタバンク番号jは省略している。
(第5実施形態)図12(b)は、本発明の第5実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の機能構成を示す。第5実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、平均スペクトルsバーを足し合わせるタイミングを、メル・フィルタバンク処理部1220による処理の前ではなく処理の後とする点を除いては、基本的に第4実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の構成と同じである。但し、上記タイミングで平均スペクトルsバーを足し合わせる必要があることから、第5実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、第4実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の構成要素に、新たに平均算出部1225を追加する。
図12(b)において、平均算出部1225は、メル・フィルタバンク処理部1220からメルスペクトルSを入力し、フィルタバンクごと、全フレームについてのメルスペクトルSの平均である平均メルスペクトルSバーを求め、対数算出部1230に出力する。対数算出部1230は、メル・フィルタバンク処理部1220からメルスペクトルSを、また、平均算出部1225から平均メルスペクトルSバーを入力し、メルスペクトルSに平均メルスペクトルSバーを足し合わせた値の対数を求め、離散コサイン変換部1235に出力する。
図12(b)に示すその他の構成要素、即ち、メル・フィルタバンク処理部1220、離散コサイン変換部1235、及び第1差分算出部1240はそれぞれ、入力及び出力を異にするだけで、その機能は第4実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部の対応する構成要素と同じである。そのためその他の構成要素の説明は省略する。
なお、第5実施形態に係るデルタ特徴量算出部においても、デルタ特徴量として最終的に得られる値、即ち、第1差分算出部1240の出力は、式21により表される関数Fを用いて正規化を行う第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部により出力されるデルタ特徴量とほぼ等価となる。しかし、第5実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部は、既存の静的特徴量抽出部をわずかに変更するだけで構成されることから、上記第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部よりも好ましいといえる。
なお、デルタ特徴量として最終的に得られる第1差分算出部1240の出力は、次式により表される。
Figure 2011024572



式32では、フィルタバンク番号jは省略している。
図13(a)は、本発明の第4実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部による音声のデルタ特徴量抽出処理の流れの一例を示すフローチャートである。処理はステップ1300から開始し、メル・フィルタバンク処理部1200は、フレーム化された音声信号の各フレームの周波数binごとのスペクトルsの各々に、発話全体である全フレームについての平均スペクトルsバーを足した値を入力して、各フレームについて、周波数binごとの上記値にメル・フィルタバンクの重みを掛けて合算し、その出力S1を図3に示すRAM330等の記憶領域に記憶する。
続いて対数算出部1205は、記憶領域からS1を読み出し、各フレームについて、フィルタバンクごとS1の対数を求め、その出力S1´を記憶領域に記憶する(ステップ1305)。離散コサイン変換部1210は記憶領域からS1´を読み出し、各フレームについて、フィルタバンクごとのS1´を離散コサイン変換し、その出力C1を記憶領域に記憶する(ステップ1310)。
最後に第1差分算出部1215は、記憶領域からC1を読み出し、各フレームについて、フィルタバンクごと、前後のフレーム間のC1の差分ΔC1をデルタ特徴量として算出する(ステップ1315)。そして処理は終了する。
図13(b)は、本発明の第5実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部による音声のデルタ特徴量抽出処理の流れの一例を示すフローチャートである。処理はステップ1320から開始し、メル・フィルタバンク処理部1220は、フレーム化された音声信号の各フレームの周波数binごとのスペクトルを入力して、各フレームについて、周波数binごとのスペクトルにメル・フィルタバンクの重みを掛けて合算することにより、フィルタバンクごとのメルスペクトルSを算出し、図3に示すRAM330等の記憶領域に記憶する。
続いて平均算出部1225は、記憶領域から各フレームのフィルタバンクごとのメルスペクトルSを読み出し、フィルタバンクごと、発話全体である全フレームについての平均メルスペクトルSバーを算出して、記憶領域に記憶する。(ステップ1325)。続いて、対数算出部1230は、記憶領域から各フレームのフィルタバンクごとのメルスペクトルSとフィルタバンクごとの平均メルスペクトルSバーとを読み出し、フィルタバンクごとのメルスペクトルSに、該フィルタバンクの平均メルスペクトルSバーを加えた値S2の対数を求め、その出力S2´を記憶領域に記憶する。(ステップ1330)。
続いて離散コサイン変換部1235は、記憶領域からS2´を読み出し、各フレームについて、フィルタバンクごとのS2´を離散コサイン変換して、その出力C2を記憶領域に記憶する(ステップ1335)。最後に第1差分算出部1240は、記憶領域からC2を読み出し、各フレームについて、フィルタバンクごと、前後のフレーム間のC2の差分ΔC2をデルタ特徴量として算出する(ステップ1340)。そして処理は終了する。
図14は、本発明の第4及び第5実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部の機能構成を示す。第4及び第5実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部は、第2差分算出部1400を含む。第2差分算出部1400は、入力及び出力を異にするだけで、その機能は第4及び第5実施形態に係る音声特徴量抽出装置の第1差分算出部1215又は第1差分算出部1240と同じである。
即ち、第2差分算出部1400は、第1差分算出部1215又は第1差分算出部1240からの出力、即ち式31又は式32により表されるデルタメルケプストラムΔC1又はΔC2を入力し、各フレームについて、フィルタバンクごと、前後のフレーム間のデルタメルケプストラムΔC1又はΔC2の差分デルタデルタメルケプストラムΔΔC1又はΔΔC2をデルタデルタ特徴量として算出する。第2差分算出部1300の出力は次式により表される。
Figure 2011024572



式32では、フィルタバンク番号jは省略している。
図15は、本発明の第4及び第5実施形態に係る音声特徴量抽出装置のデルタデルタ特徴量算出部によるデルタデルタ特徴量抽出処理の流れの一例を示すフローチャートである。処理はステップ1500から開始し、第2差分算出部1300は、第1差分算出部1215又は第1差分算出部1240からの出力、即ち式31又は式32により表されるデルタメルケプストラムΔC1又はΔC2を入力し、各フレームについて、フィルタバンクごと、前後のフレーム間のデルタメルケプストラムΔC1又はΔC2の差分デルタデルタメルケプストラムΔΔC1又はΔΔC2をデルタデルタ特徴量として算出する。そして処理は終了する。
次に図16乃至図18を参照して、本発明が提案する特徴量を利用した音声認識の評価実験について述べる。図16及び図17を参照して説明する評価実験には、情報処理学会(IPSJ)SIG−SLP雑音下音声認識評価ワーキンググループの、残響環境の評価用データベースCENSREC−4(Corpus and Environment for Noisy Speech RECognishon)を使用した。
CENSREC−4は、残響や雑音のない収録音声であるドライソースに、様々な残響環境のインパルス応答を畳み込むことで残響環境をシミュレートする。CENSREC−4には、Clean ConditionとMulti−Conditionの2つの条件下での評価がある。Clean Conditionでは、残響のない音声で学習した音響モデルを使用して音声認識を実行する。一方Multi−Conditionでは、残響のある音声で学習した音響モデルを使用して音声認識を実行する。いずれの条件下での評価も、音声認識実行時、即ちテスト時には残響ありの音声データを使用する。
CENSREC−4のテストセットは2つのテストセット(A、B)に分かれており、Multi−Conditionの音響モデルの学習と同じ残響環境でのテストをテストセットAとし、異なる残響環境でのテストセットをBとする。またテストセットA、Bは、図16、17に示すように、それぞれ異なる4つの環境についてのテストを含む。
CENSREC−4がベースラインとして規定する特徴量は、静的特徴量としてMFCC12次元、デルタ特徴量としてデルタMFCC12次元、デルタデルタ特徴量としてデルタデルタMFCC12次元、更に音声の対数パワーとそのデルタ及びデルタデルタの3次元を合わせた、合計39次元のベクトルである。即ち、CENSREC−4は上記39次元のベクトルの特徴量を使用して、Clean ConditionとMulti−Conditionのそれぞれにおいて、音響モデルを構築している。
そこで本願発明者は次の2つの評価実験を行った。
評価実験1:静的特徴量MFCC12次元のみを使用した場合と、それにデルタ特徴量12次元を追加した24次元を使用した場合の文字列認識率の比較を行った。その際デルタ特徴量としては、デルタMFCC12次元と、上述した第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部により算出される線形のデルタ特徴量12次元の2種類を評価した。
評価実験2:上記ベースラインの39次元において、デルタ特徴量及びデルタデルタ特徴量をそれぞれ
上述した本発明の線形のデルタ特徴量と線形のデルタデルタ特徴量とで置き換えた場合(図17の表の「linearΔ」の欄を参照)と、ベースラインの39次元をそのまま維持した場合(図17の表の「ベースライン」の欄を参照)の文字列認識率を比較した。なお、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量としては、上述した第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部とデルタデルタ特徴量算出部によりそれぞれにより算出されるものを使用した。
図16に、評価実験1の結果を示す。評価実験1の結果から次のことが分かる。即ち、静的特徴量MFCC12次元のみを使用したときに比べ、デルタ特徴量12次元を併用することで音声認識率は改善される。また、デルタ特徴量として従来よく用いられるデルタMFCCの代わりに、本発明の線形のデルタ特徴量を使用することで、音声認識率が更に改善される。例えばCleanConditionでは、テストセットA、Bの平均音声認識率は、デルタMFCCを使用した場合の35.3%から59.2%に飛躍的に改善している。Multi−Conditionにおいても、テストセットA、Bの平均音声認識率は、デルタMFCCを使用した場合の71.9%から81.5%に改善している。
また図17に、評価実験2の結果を示す。評価実験2においても、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量を使用することで音声認識率が更に改善されている。例えばCleanConditionでは、テストセットA、Bの平均音声認識率は、従来のベースラインの65.2%から73.1%に改善している。Multi−Conditionにおいても、テストセットA、B の平均認識率は、従来のベースラインの75.2%から82.7%に改善している。
このように、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量は、残響環境における音声認識率を大幅に改善し、評価実験1及び2によりその残響環境における特徴量としての有効性が示された。
図18を参照して説明する評価実験には、情報処理学会(IPSJ)SIG−SLP雑音下音声認識評価ワーキンググループの、騒音環境の評価用データベースCENSREC−3(Corpus and Environment for Noisy Speech RECognishon)を使用した。
CENSREC−3は、自動車内の様々な騒音環境で発声した音声を収録しており、停止・市街地走行・高速走行などの走行条件や、エアコンのファン、窓明け、音楽再生などの状況ごとの音声認識率を算出することができる。CENSREC−3がベースラインとして規定する特徴量は、前述のCENSREC−4と同じ39次元である。そこで、CENSREC−3を使用して本願発明者は次の評価実験を行った。
即ち、ベースラインの39次元を維持した場合(図18の表の「ベースライン」の欄を参照)と、ベースラインの39次元においてMFCC、デルタMFCC、及びデルタデルタMFCCを、Mel−FB Weightの代わりにLPW−Mel−FB Weightを使用して求めたもので置き換えた場合(図18の表の「LPW−Mel」の欄を参照)との単語認識率(正確度%)を比較した。
また、ベースラインの39次元において、デルタ特徴量及びデルタデルタ特徴量をそれぞれ上述した本発明の線形のデルタ特徴量と線形のデルタデルタ特徴量とで置き換えた場合(図18の表の「linearΔ」の欄を参照)の単語認識率(正確度%)とも比較した。なお、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量としては、上述した第3実施形態に係る音声特徴量抽出装置のデルタ特徴量算出部とデルタデルタ特徴量算出部によりそれぞれにより算出されるものを使用した。
更に、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量として、上述した第3実施形態に係る音声特徴量抽出装置において、Mel−FB Weightの代わりにLPW−Mel−FB Weightを使用するデルタ特徴量算出部とデルタデルタ特徴量算出部によりそれぞれにより算出されるものを使用する場合(図18の表の「LPW−Mel+linearΔ」の欄を参照)の単語認識率(正確度%)も比較した。
図18に、評価実験2の結果を示す。「ベースライン」と「linearΔ」を比較すると、総合では単語認識率(正確度%)は、「ベースライン」が78.9%であるのに対し、「linearΔ」は83.3%であり、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量を使用することで単語認識率が改善されることが分かる。特に高速走行時の窓開けやファン最大時における改善が顕著であるが、音楽雑音に対しても改善が見られ、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量が広い範囲で有効であることが分かる。
また、「ベースライン」と「LPW−Mel」を比較すると、「LPW−Mel」は音楽雑音以外でその単語認識率(正確度%)が「ベースライン」より高く、改善が見られる。特に、高速走行時の窓開けやファン最大時における改善が顕著である。更に、「ベースライン」と「LPW−Mel+linearΔ」とを比較すると、高速走行時の窓開けの単語認識率(正確度%)は、「ベースライン」が22.2%であるのに対し、「LPW−Mel+linearΔ」は46.6%である。また、高速走行時のファン最大の単語認識率(正確度%)は、「ベースライン」が58.2%であるのに対し、「LPW−Mel+linearΔ」は74.9%である。従って、本発明の線形のデルタ特徴量及び線形のデルタデルタ特徴量とLPW−Mel―FBとを組み合わせることで、大幅な改善が得られることが分かる。
以上、実施形態を用いて本発明の説明をしたが、本発明の技術範囲は上記実施形態に記載の範囲には限定されない。上記の実施形態に、種々の変更または改良を加えることが可能であることが当業者に明らかである。従って、そのような変更または改良を加えた形態も当然に本発明の技術的範囲に含まれる。

Claims (21)

  1. 音声特徴量抽出装置であって、
    フレーム化された音声信号の周波数binごとのスペクトルを入力して、各フレームについて、前記周波数binごと、前後のフレーム間の前記スペクトルの差分をデルタスペクトルとして算出する第1差分算出手段と、
    前記各フレームについて、前記周波数binごとの前記デルタスペクトルを、該周波数binについての発話全体である全フレームについてのスペクトルの平均である平均スペクトルの関数で除算することにより正規化する第1正規化処理手段とを含み、
    前記第1正規化処理手段の出力をデルタ特徴量とする、音声特徴量抽出装置。
  2. 前記平均スペクトルの前記関数は、前記平均スペクトルそのものである、請求項1に記載の音声特徴量抽出装置。
  3. 前記各フレームについて、前記周波数binごとの正規化された前記デルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとの正規化されたメル・デルタスペクトルとして算出する第1メル・フィルタバンク処理手段を更に含み、
    前記第1メル・フィルタバンク処理手段の出力をデルタ特徴量とする、請求項1に記載の音声特徴量抽出装置。
  4. 前記フィルタバンクごとの正規化されたメル・デルタスペクトルを、離散コサイン変換する第1離散コサイン変換手段を更に含み、
    前記第1離散コサイン変換手段の出力をデルタ特徴量とする、請求項3に記載の音声特徴量抽出装置。
  5. 音声特徴量抽出装置であって、
    フレーム化された音声信号の周波数binごとのスペクトルを入力して、各フレームについて、前記周波数binごと、前後のフレーム間の前記スペクトルの差分をデルタスペクトルとして算出する第1差分算出手段と、
    前記各フレームについて、前記周波数binごとの前記デルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタスペクトルとして算出する第1メル・フィルタバンク処理手段と、
    前記各フレームについて、前記フィルタバンクごとのメル・デルタスペクトルを、該フィルタバンクについての発話全体である全フレームについてのメルスペクトルの平均である平均メルスペクトル
    の関数で除算することにより正規化する第1正規化処理手段とを含み、
    前記第1正規化処理手段の出力をデルタ特徴量とする、音声特徴量抽出装置。
  6. 前記平均メルスペクトルの前記関数は、前記平均メルスペクトルのそのものである、請求項5に記載の音声特徴量抽出装置。
  7. 正規化された前記フィルタバンクごとの前記メル・デルタスペクトルを、離散コサイン変換する第1離散コサイン変換手段を更に含み、
    前記第1離散コサイン変換手段の出力をデルタ特徴量とする、請求項5に記載の音声特徴量抽出装置。
  8. 任意のフレームt及び任意のフィルタバンクjに対して前記平均メルスペクトルの前記関数は、フレームtのフィルタバンクjについてのメルスペクトルの値と、フィルタバンクjについての前記平均メルスペクトルの値とのうち、大きい方の値又は大きい方の値に近い値を出力する、請求項7に記載の音声特徴量抽出装置。
  9. 前記第1正規化処理手段は、前記除算に加えて対数圧縮を行うことにより前記正規化を行う、請求項4又は7に記載の音声特徴量抽出装置。
  10. 前記第1メル・フィルタバンク処理手段は、前記メル・フィルタバンクの重みに代えて、有声音の区間では調波構造部分に重みがあり、かつ調波構造がない無声音の区間ではフラットに近いフィルタを前記メル・フィルタバンクの重みに掛け合わせたものを使用する、請求項4又は7に記載の音声特徴量抽出装置。
  11. MFCC(Mel−Frequency Cepstrum Coefficient)を算出するMFCC算出手段を更に含み、前記MFCCを静的特徴量とする、請求項4又は7に記載の音声特徴量抽出装置。
  12. 前記デルタスペクトルを入力として、各フレームについて、前記周波数binごと、前後のフレーム間の前記デルタスペクトルの差分をデルタデルタスペクトルとして算出する第2差分算出手段と、
    前記各フレームについて、周波数binごとの前記デルタデルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタデルタスペクトルとして算出する第2メル・フィルタバンク処理手段と、
    前記各フレームについて、前記フィルタバンクごとの前記メル・デルタデルタスペクトルを前記平均メルスペクトルの関数で除算することにより正規化する第2正規化処理手段とを更に、含み、
    前記第2正規化処理手段の出力をデルタデルタ特徴量とする、請求項5に記載の音声特徴量抽出装置。
  13. 前記デルタスペクトルを入力として、各フレームについて、前後のフレーム間の前記周波数binごとの前記デルタスペクトルの差分をデルタデルタスペクトルとして算出する第2差分算出手段と、
    前記各フレームについて、周波数binごとの前記デルタデルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタデルタスペクトルとして算出する第2メル・フィルタバンク処理手段と、
    前記各フレームについて、前記フィルタバンクごとの前記メル・デルタデルタスペクトルを該フィルタバンクについての前記平均メルスペクトルの関数で除算することにより正規化する第2正規化処理手段と、
    正規化された前記フィルタバンクごとのメル・デルタデルタスペクトルを、離散コサイン変換する第2離散コサイン変換手段とを更に含み、
    前記第2離散コサイン変換手段の出力をデルタデルタ特徴量とする、請求項7に記載の音声特徴量抽出装置。
  14. 音声特徴量抽出装置であって、
    フレーム化された音声信号の各フレームのスペクトルに、発話全体である全フレームについてのスペクトルの平均である平均スペクトルを足した値を入力して、前記各フレームについて、前記値にメル・フィルタバンクの重みを掛けて合算するメル・フィルタバンク処理手段と、
    前記各フレームについて、前記メル・フィルタバンク処理手段の出力の対数を求める対数算出手段と、
    前記各フレームにてついて、前記対数算出手段の出力を、離散コサイン変換する離散コサイン変換手段と、
    前記各フレームについて、前後のフレーム間の前記離散コサイン変換手段の出力の差分を算出する第1差分算出手段とを含み、
    前記第1差分算出手段の出力をデルタ特徴量とする、音声特徴量抽出装置。
  15. 音声特徴量抽出装置であって、
    フレーム化された音声信号の各フレームのスペクトルを入力して、前記各フレームについて、前記スペクトルにメル・フィルタバンクの重みを掛けて合算することによりメルスペクトルを算出するメル・フィルタバンク処理手段と、
    各フレームの前記メルスペクトルを入力して、発話全体である全フレームについての前記メルスペクトルの平均である平均メルスペクトルを算出する平均算出手段と、
    前記各フレームについて、前記メルスペクトルに前記平均メルスペクトルを加えた値の対数を求める対数算出手段と、
    前記各フレームについて、前記対数算出手段の出力を、離散コサイン変換する離散コサイン変換手段と、
    前記各フレームについて、前後のフレーム間の前記離散コサイン変換手段の出力の差分を算出する第1差分算出手段とを含み、
    前記第1差分算出手段の出力をデルタ特徴量とする、音声特徴量抽出装置。
  16. 前記各フレームについて、前後のフレーム間の前記第1差分算出手段の出力の差分を算出する第2差分算出手段を更に含み、前記2差分算出手段の出力をデルタデルタ特徴量とする、請求項14又は15に記載の音声特徴量抽出装置。
  17. プロセッサと記憶領域を備えたコンピュータにおいて実行される、音声特徴量を抽出する音声特徴量抽出プログラムであって、該音声特徴量抽出プログラムは、前記コンピュータに、
    前記プロセッサが、フレーム化された音声信号の周波数binごとのスペクトルを入力して、各フレームについて、前記周波数binごと、前後のフレーム間の前記スペクトルの差分をデルタスペクトルとして算出し、前記記憶領域に記憶するステップと、
    前記プロセッサが、前記各フレームについて、前記周波数binごとの前記デルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタスペクトルとして算出し、前記記憶領域に記憶するステップと、
    前記プロセッサが、前記各フレームについて、前記フィルタバンクごとのメル・デルタスペクトルを、該フィルタバンクについての発話全体である全フレームについてのメルスペクトルの平均である平均メルスペクトルの関数で除算することにより正規化し、前記記憶領域に記憶するステップと、
    前記プロセッサが、前記記憶領域から正規化された前記フィルタバンクごとのメル・デルタスペクトルを読み出し、離散コサイン変換するステップとを実行させ、
    前記離散コサイン変換後の値をデルタ特徴量とする、音声特徴量抽出プログラム。
  18. 任意のフレームt及び任意のフィルタバンクjに対して前記平均メルスペクトルの前記関数は、フレームtのフィルタバンクjについてのメルスペクトルの値と、フィルタバンクjについての前記平均メルスペクトルの値とのうち、大きい方の値又は大きい方の値に近い値を出力する、請求項17に記載の音声特徴量抽出プログラム。
  19. 前記平均メルスペクトルの前記関数は、前記平均メルスペクトルのそのものである、請求項17に記載の音声特徴量抽出プログラム。
  20. 前記メル・フィルタバンクの重みに代えて、有声音の区間では調波構造部分に重みがあり、かつ調波構造がない無声音の区間ではフラットに近いフィルタを前記メル・フィルタバンクの重みに掛け合わせたものが使用される、請求項17に記載の音声特徴量抽出プログラム。
  21. プロセッサと記憶領域を備えたコンピュータにおいて実行される、音声特徴量を抽出する音声特徴量抽出方法であって、前記音声特徴量抽出方法は、
    フレーム化された音声信号の周波数binごとのスペクトルを入力して、各フレームについて、前記周波数binごと、前後のフレーム間の前記スペクトルの差分をデルタスペクトルとして算出し、前記記憶領域に記憶するステップと、
    前記各フレームについて、前記周波数binごとの前記デルタスペクトルにメル・フィルタバンクの重みを掛けて合算したものを、フィルタバンクごとのメル・デルタスペクトルとして算出し、前記記憶領域に記憶するステップと、
    前記各フレームについて、前記フィルタバンクごとのメル・デルタスペクトルを、該フィルタバンクについての発話全体である全フレームについてのメルスペクトルの平均である平均メルスペクトルの関数で除算することにより正規化し、前記記憶領域に記憶するステップと、
    前記記憶領域から正規化された前記フィルタバンクごとのメル・デルタスペクトルを読み出し、離散コサイン変換するステップとを含み、
    前記離散コサイン変換後の値をデルタ特徴量とする、音声特徴量抽出方法。
JP2011528703A 2009-08-28 2010-07-12 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム Expired - Fee Related JP5315414B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011528703A JP5315414B2 (ja) 2009-08-28 2010-07-12 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009197853 2009-08-28
JP2009197853 2009-08-28
PCT/JP2010/061800 WO2011024572A1 (ja) 2009-08-28 2010-07-12 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
JP2011528703A JP5315414B2 (ja) 2009-08-28 2010-07-12 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013109608A Division JP5723923B2 (ja) 2009-08-28 2013-05-24 音声特徴量抽出装置、及び音声特徴量抽出プログラム

Publications (2)

Publication Number Publication Date
JPWO2011024572A1 true JPWO2011024572A1 (ja) 2013-01-24
JP5315414B2 JP5315414B2 (ja) 2013-10-16

Family

ID=43627683

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011528703A Expired - Fee Related JP5315414B2 (ja) 2009-08-28 2010-07-12 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
JP2013109608A Active JP5723923B2 (ja) 2009-08-28 2013-05-24 音声特徴量抽出装置、及び音声特徴量抽出プログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2013109608A Active JP5723923B2 (ja) 2009-08-28 2013-05-24 音声特徴量抽出装置、及び音声特徴量抽出プログラム

Country Status (8)

Country Link
US (2) US8930185B2 (ja)
JP (2) JP5315414B2 (ja)
KR (1) KR101332143B1 (ja)
CN (1) CN102483916B (ja)
DE (1) DE112010003461B4 (ja)
GB (1) GB2485926B (ja)
TW (1) TW201123169A (ja)
WO (1) WO2011024572A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2795884A4 (en) * 2011-12-20 2015-07-29 Nokia Corp AUDIOCONFERENCING
JP5875414B2 (ja) * 2012-03-07 2016-03-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 雑音抑制方法、プログラム及び装置
TWI463487B (zh) * 2012-05-18 2014-12-01 Nyquest Corp Ltd 修音處理裝置、修音處理方法及其驗證裝置
WO2013183271A1 (ja) * 2012-06-05 2013-12-12 パナソニック株式会社 信号処理装置
JP6152639B2 (ja) * 2012-11-27 2017-06-28 沖電気工業株式会社 音声帯域拡張装置及びプログラム、並びに、音声特徴量算出装置及びプログラム
US20140278415A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Voice Recognition Configuration Selector and Method of Operation Therefor
CN104063155B (zh) * 2013-03-20 2017-12-19 腾讯科技(深圳)有限公司 内容分享方法、装置及电子设备
KR101756287B1 (ko) * 2013-07-03 2017-07-26 한국전자통신연구원 음성인식을 위한 특징 추출 장치 및 방법
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US9659578B2 (en) * 2014-11-27 2017-05-23 Tata Consultancy Services Ltd. Computer implemented system and method for identifying significant speech frames within speech signals
CN107203539B (zh) * 2016-03-17 2020-07-14 曾雅梅 复数字词学习机的语音评测装置及其评测与连续语音图像化方法
CN106683687B (zh) * 2016-12-30 2020-02-14 杭州华为数字技术有限公司 异常声音的分类方法和装置
CN110268471B (zh) * 2017-01-26 2023-05-02 赛伦斯运营公司 具有嵌入式降噪的asr的方法和设备
US10062378B1 (en) * 2017-02-24 2018-08-28 International Business Machines Corporation Sound identification utilizing periodic indications
CN108449323B (zh) * 2018-02-14 2021-05-25 深圳市声扬科技有限公司 登录认证方法、装置、计算机设备和存储介质
US11170799B2 (en) * 2019-02-13 2021-11-09 Harman International Industries, Incorporated Nonlinear noise reduction system
CN110412366B (zh) * 2019-06-04 2021-06-22 广西电网有限责任公司电力科学研究院 一种基于动态时间算法的变压器带电检测方法
CN113160797B (zh) * 2021-04-25 2023-06-02 北京华捷艾米科技有限公司 音频特征处理方法及装置、存储介质及电子设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1013525B (zh) * 1988-11-16 1991-08-14 中国科学院声学研究所 认人与不认人实时语音识别的方法和装置
US6324505B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Amplitude quantization scheme for low-bit-rate speech coders
GB2355834A (en) * 1999-10-29 2001-05-02 Nokia Mobile Phones Ltd Speech recognition
US20030055634A1 (en) 2001-08-08 2003-03-20 Nippon Telegraph And Telephone Corporation Speech processing method and apparatus and program therefor
JP3803302B2 (ja) 2002-03-06 2006-08-02 日本電信電話株式会社 映像要約装置
JP2003255983A (ja) * 2002-03-05 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム
JP3907194B2 (ja) 2003-05-23 2007-04-18 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
JP3744934B2 (ja) 2003-06-11 2006-02-15 松下電器産業株式会社 音響区間検出方法および装置
WO2005083677A2 (en) 2004-02-18 2005-09-09 Philips Intellectual Property & Standards Gmbh Method and system for generating training data for an automatic speech recogniser
JP4313724B2 (ja) * 2004-05-18 2009-08-12 日本電信電話株式会社 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
EP2312475B1 (en) * 2004-07-09 2012-05-09 Nippon Telegraph and Telephone Corporation Sound signal detection and image signal detection
JP4316583B2 (ja) * 2006-04-07 2009-08-19 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP2007292827A (ja) * 2006-04-21 2007-11-08 Dainippon Printing Co Ltd 音響信号検索装置
JP4597919B2 (ja) * 2006-07-03 2010-12-15 日本電信電話株式会社 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体
JP4658022B2 (ja) 2006-11-20 2011-03-23 株式会社リコー 音声認識システム
JP4673828B2 (ja) * 2006-12-13 2011-04-20 日本電信電話株式会社 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP5089295B2 (ja) 2007-08-31 2012-12-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理システム、方法及びプログラム
JP4901657B2 (ja) * 2007-09-05 2012-03-21 日本電信電話株式会社 音声認識装置、その方法、そのプログラム、その記録媒体
KR100930060B1 (ko) 2008-01-09 2009-12-08 성균관대학교산학협력단 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체
CN101404160B (zh) * 2008-11-21 2011-05-04 北京科技大学 一种基于音频识别的语音降噪方法

Also Published As

Publication number Publication date
GB2485926A (en) 2012-05-30
JP5723923B2 (ja) 2015-05-27
CN102483916B (zh) 2014-08-06
JP2013178575A (ja) 2013-09-09
US8468016B2 (en) 2013-06-18
JP5315414B2 (ja) 2013-10-16
DE112010003461B4 (de) 2019-09-05
CN102483916A (zh) 2012-05-30
KR20120046298A (ko) 2012-05-09
GB2485926B (en) 2013-06-05
US20120185243A1 (en) 2012-07-19
US20120330657A1 (en) 2012-12-27
DE112010003461T5 (de) 2012-07-26
KR101332143B1 (ko) 2013-11-21
US8930185B2 (en) 2015-01-06
GB201202741D0 (en) 2012-04-04
WO2011024572A1 (ja) 2011-03-03
TW201123169A (en) 2011-07-01

Similar Documents

Publication Publication Date Title
JP5723923B2 (ja) 音声特徴量抽出装置、及び音声特徴量抽出プログラム
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
Shahnawazuddin et al. Pitch-Adaptive Front-End Features for Robust Children's ASR.
US20080167862A1 (en) Pitch Dependent Speech Recognition Engine
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Nanavare et al. Recognition of human emotions from speech processing
Shrawankar et al. Adverse conditions and ASR techniques for robust speech user interface
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
KR101236539B1 (ko) 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
CN112151066A (zh) 基于声音特征识别的语言冲突监测方法、介质及设备
JP6791816B2 (ja) 音声区間検出装置、音声区間検出方法、およびプログラム
JP4571871B2 (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Prakash et al. Fourier-Bessel cepstral coefficients for robust speech recognition
Fukuda et al. Improved voice activity detection using static harmonic features
López et al. Normal-to-shouted speech spectral mapping for speaker recognition under vocal effort mismatch
JP2007206603A (ja) 音響モデルの作成方法
Yao et al. A speech processing front-end with eigenspace normalization for robust speech recognition in noisy automobile environments.
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
JP4576612B2 (ja) 音声認識方法および音声認識装置
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
Roh et al. Novel acoustic features for speech emotion recognition
Kathania et al. Experiments on children's speech recognition under acoustically mismatched conditions
Wang et al. End-to-End Speech Enhancement Using Fully Convolutional Networks with Skip Connections
KR100648545B1 (ko) 다양한 주파수별 해상도를 갖는 필터뱅크의 조합을 이용한화자 인식 시스템 및 방법
Tan et al. Speech feature extraction and reconstruction

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130524

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130708

R150 Certificate of patent or registration of utility model

Ref document number: 5315414

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees