JPWO2011070972A1

JPWO2011070972A1 - 音声認識システム、音声認識方法および音声認識プログラム

Info

Publication number: JPWO2011070972A1
Application number: JP2011545189A
Authority: JP
Inventors: 隆行荒川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-12-10
Filing date: 2010-11-26
Publication date: 2013-04-22
Anticipated expiration: 2030-11-26
Also published as: WO2011070972A1; JP5621783B2; US9002709B2; US20120239401A1

Abstract

認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる音声認識システムを提供する。
音声判定手段８１は、音声特徴量を時系列の入力音をもとに算出し、入力音を分類する値として定められた閾値と音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、それらの区間もしくは指定される長さのマージンをそれらの区間の前後に付加した区間を第１の音声区間と決定する。サーチ手段８２は、音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第２の音声区間と決定する。パラメータ更新手段８３は、第１の音声区間の長さと第２の音声区間の長さとの差異に応じて、閾値とマージンのうちの少なくとも一方を更新する。音声判定手段８１は、パラメータ更新手段８３が更新した閾値もしくはマージンを用いて第１の音声区間を決定する。

Description

本発明は、背景雑音の存在する環境で音声を認識する音声認識システム、音声認識方法および音声認識プログラムに関する。

一般的な音声認識システムは、マイクロフォンなどで集音された入力音の時系列データから特徴量の時系列を抽出し、認識対象になる単語及び音素モデルと、認識対象以外の非音声のモデルとを用いて特徴量の時系列に対する尤度を計算する。そして、音声認識システムは、計算された尤度をもとに入力音の時系列に対応する単語列をサーチし、認識結果を出力する。また、音声を認識する精度を向上させる方法について、複数の提案がなされている。
特許文献１には、無音部分に起因する音声認識性能の劣化を低減する音声認識装置が記載されている。図９は特許文献１に記載された音声認識装置を示す説明図である。特許文献１に記載された音声認識装置は、入力音を集音するマイクロフォン２０１と、集音された音の時系列データを所定の時間単位で切り出すフレーム化部２０２と、ノイズ区間を抽出するノイズ観測区間抽出部２０３と、ユーザが発話の開始をシステムに通知するための発話スイッチ２０４と、切り出された音声データごとに特徴量を抽出する特徴量抽出部２０５と、特徴量の時系列に対して音声認識を行う音声認識部２０８と、音声認識部で用いる音響モデルのうち、無音のモデルを補正する無音モデル補正部２０７とを備えている。
特許文献１に記載された音声認識装置は、ノイズ観測区間抽出部２０３が、発話スイッチ２０４が押される直前の区間から背景雑音を推定し、無音モデル補正部２０７が、推定された背景雑音に基づいて無音モデルを背景雑音環境に適応させる。このような構成により、対象とする音声以外を無音と判定しやすくすることで、音声認識装置は、音声の誤認識を軽減させる。
特許文献２には、ガベジモデル学習時に使用したデータ以外の背景雑音が付加された音声区間に対する誤認識率を低下させる音声認識装置が記載されている。図１０は特許文献２に記載された音声認識装置を示す説明図である。特許文献２に記載された音声認識装置は、集音された音の時系列データから特徴量の時系列を分析する分析手段３０２と、特徴量に基づいて補正量を算出する補正値算出手段３０３と、特徴量の時系列から認識対象単語列を照合する照合手段３０４と、背景雑音に対応する音パターンをモデル化したガベジモデル３０５と、認識対象語彙モデル３０６とを備えている。
特許文献２に記載された音声認識装置では、補正値算出手段３０３が、特徴量からピッチ周波数、フォルマント周波数及び帯域幅の特徴量などから音声らしさを判定する。そして、補正値算出手段３０３は、判定結果をもとに、ガベジモデルに対する尤度を補正するための補正値を求める。そして、照合手段３０４は、上述の補正値を用いて補正したガベジモデルに対する尤度、特徴量、ガベジモデル及び認識対象語彙モデルを用いて、パターンマッチングを行う。このような構成により、音声認識装置は、認識対象の音声のみを正しく認識できる。
また、非特許文献１には、音声データから音声を認識する方法及び音声認識で用いられるモデルが記載されている。

特開２００２−１５６９９２号公報特開２００７−１７７３６号公報

安藤彰男、「リアルタイム音声認識」、電子情報通信学会、２００３年９月、ｐ．２８−３３，ｐ．５９−６１，ｐ．１４８−１６５

音声認識を行う場合、背景雑音や回線ノイズ、マイクロフォンを叩く音などの突発的な雑音などが存在することがある。このような場合、特許文献１及び特許文献２に記載された音声認識装置を用いることにより、音声認識の誤りを抑制することが可能になる。
すなわち、特許文献１に記載された音声認識装置は、認識対象以外の音の悪影響を抑えるために、発話スイッチが押される直前の区間から雑音を推定することで、無音モデルを背景雑音環境に適応させている。しかしながら、特に音声認識に不慣れな話者が、発話スイッチを押す前に話し始めてしまう場合や、発話スイッチを押してからしばらく時間が経ってから話し始めてしまう場合などがある。この場合、発話スイッチが押されている時間と認識対象の発声が行われる時間とが必ずしも対応するとは限らない。そのため、このような場合には、音声認識装置は、対象となる発話区間を正確に推定できないという問題がある。
また、特許文献２に記載された音声認識装置は、認識対象以外の音の悪影響を抑えるために、ピッチ周波数や、フォルマント周波数、帯域幅の特徴量などから音声らしさを判定し、ガベジモデルに対する尤度を補正するための補正値を求めている。しかしながら、高雑音環境下では、音声らしさの判定が必ずしも正確であるとは限らないため、算出した補正値が音声らしさを判定するうえで悪影響を及ぼす場合がある。
以下、高雑音環境下で生じる問題について説明する。例えば、低雑音環境下では、音声認識装置は、パワー（音量）が異なることを利用して、音声区間（人が発声している区間）とそれ以外の非音声区間とを判定することができる。すなわち、人が発声していない区間は音量が小さく、人が発声している区間は音量が大きいため、音声認識装置は、音量がある閾値以上であるか否かを判定することにより、音声と非音声とを判定することができる。しかし、高雑音環境下では、人が発声していなくても雑音の音量が大きい。また、音声か非音声かを判定するために定められる閾値は雑音の音量に依存するため、音声と非音声の判定は困難になる。
具体例を用いて、音声と非音声の判定が困難になる理由について説明する。一般的に、音声の音量は、比較的大きくはっきり話している区間では大きくなり、発声の最初や最後などの区間では小さくなる傾向にある。以下、音声の音量をＳとし、音声の音量の最大値をＳｍａｘ、最小値をＳｍｉｎと記す。また、音声ほどではないが、雑音についても音量は変動する。以下、雑音の音量をＮとし、雑音の音量の最大値をＮｍａｘ、最小値をＮｍｉｎと記す。
ここで、音声と非音声とを判定する際の閾値をθと記すと、閾値θが、Ｎｍａｘ＜θ＜Ｓｍｉｎ＋Ｎｍｉｎの範囲に含まれていれば、音声区間においてＳ＞θの関係、及び、非音声区間においてＮ＜θの関係が常に成り立つため、音声認識装置は、音声と非音声とを判定できる。この関係から、閾値θに求められる条件として、以下の２点が挙げられる。
（１）発声が終わるまで音声の音量の最小値Ｓｍｉｎは分からないため、閾値θがとることのできる最大値は分からない。このため、ユーザ等は、θをできるだけ小さく設定したい。
（２）発声が終わるまで雑音の音量の最大値Ｎｍａｘは分からない（ただし、音声認識装置は、発声が始まる前までにおおよその雑音の音量を推定することは可能である。）。このため、ユーザ等は、θは推定された雑音の音量よりできるだけ大きく設定したい。
推定された雑音の値が小さい場合、ユーザ等は、上の２つの条件を満たす閾値θを設定することは比較的容易である。しかし、推定された雑音の値が大きい場合、ユーザ等は、適切な閾値θを設定するのは困難である。
また、特許文献２に記載された音声認識装置は、音声らしさの判定基準が固定されているため、変動する雑音に対応できないという問題がある。
以上のように、認識対象以外の音の悪影響を抑えようとしたときに、音声認識装置は、対象となる発話区間を正確に推定できない場合には、音声認識を効果的に行うことができないという課題がある。
そこで、上記の課題を解決するために、本発明は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる音声認識システム、音声認識方法および音声認識プログラムを提供することを目的とする。

本発明による音声認識システムは、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第１の音声区間と決定する音声判定手段と、音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第２の音声区間と決定するサーチ手段と、前記第１の音声区間の長さと前記第２の音声区間の長さとの差異に応じて、前記音声判定手段が第１の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新手段を備え、前記音声判定手段は、前記パラメータ更新手段が更新した閾値もしくはマージンを用いて、第１の音声区間を決定する。
本発明による音声認識方法は、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしく指定された長さのマージンを当該区間の前後に付加した区間を第１の音声区間と決定し、音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第２の音声区間と決定し、前記第１の音声区間の長さと前記第２の音声区間の長さとの差異に応じて、前記第１の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新し、前記第１の音声区間を判定する際に、更新された閾値もしくはマージンを用いて、第１の音声区間を決定する。
本発明によるプログラム記録媒体に格納された音声認識プログラムは、コンピュータに、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第１の音声区間と決定する音声判定処理、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第２の音声区間と決定するサーチ処理、および、前記第１の音声区間の長さと前記第２の音声区間の長さとの差異に応じて、前記音声判定処理で第１の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新処理を実行させ、前記音声判定処理で、前記パラメータ更新処理で更新した閾値もしくはマージンを用いて、第１の音声区間を決定させる。

本発明は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる音声認識システム、音声認識方法および音声認識プログラムを提供する。

本発明の第１の実施形態における音声認識システムの例を示すブロック図である。第１の実施形態における音声認識システムの動作の例を示すフローチャートである。入力音データの時系列と音声らしさを示す特徴量の時系列の例を示す説明図である。第１の音声区間が第２の音声区間よりも長い場合の例を示す説明図である。第１の音声区間が第２の音声区間よりも短い場合の例を示す説明図である。本発明の第２の実施形態における音声認識システムの例を示すブロック図である。仮の音声区間にマージンを付与した例を示す説明図である。本発明による音声認識システムの最小構成の例を示すブロック図である。特許文献１に記載された音声認識装置を示すブロック図である。特許文献２に記載された音声認識装置を示すブロック図である。

以下、本発明の実施形態を図面を参照して説明する。
実施形態１．
図１は、本発明の第１の実施形態における音声認識システムの例を示すブロック図である。本発明における音声認識システムは、マイクロフォン１０１と、フレーム化部１０２と、音声判定部１０３と、補正値算出部１０４と、特徴量算出部１０５と、非音声モデル格納部１０６と、語彙・音素モデル格納部１０７と、サーチ部１０８と、パラメータ更新部１０９とを備えている。
マイクロフォン１０１は、入力音を集音する装置である。
フレーム化部１０２は、マイクロフォン１０１で集音された時系列の入力音データを単位時間ごとに切り出す。なお、入力音データを単位時間ごとに切り出したデータをフレームと記す。すなわち、フレーム化部１０２は、入力音データをフレームごとに切り出す。
音声判定部１０３は、音声らしさを示す特徴量（以下、音声特徴量と記すこともある。）を時系列の入力音データをもとに算出する。すなわち、音声判定部１０３は、フレームごとに切り出された入力音データごとに音声らしさを示す特徴量を求める。そして、音声判定部１０３は、入力音を音声もしくは非音声に分類する値として定められた閾値（以下、閾値θと記す。）と音声特徴量とを比較して、その閾値をもとに決定される音声の区間もしくは非音声の区間（以下、第１の音声区間と記す。）のいずれに属するかをを判定する。例えば、音声判定部１０３は、入力音を音声もしくは非音声に分類する値として定められた閾値θよりも、算出された音声特徴量が大きい区間を第１の音声区間と判定する。なお、ここでは、閾値θよりも音声特徴量が大きい区間を第１の音声区間として説明する。音声らしさを示す特徴量（音声特徴量）は、例えば、振幅パワーである。ただし、音声らしさを示す特徴量は、振幅パワーに限定されない。このように、音声判定部１０３は、特徴量と閾値θとを比較することにより、第１の音声区間を判定する。
特徴量算出部１０５は、音声データをもとに音声認識に用いられる特徴量（以下、音声認識特徴量と記すこともある。）を算出する。具体的には、特徴量算出部１０５は、フレームごとに切り出された音声データから音声認識に用いられる特徴量（音声認識特徴量）を算出する。音声認識に用いられる特徴量（音声認識特徴量）は、例えば、ケプストラム特徴量及びその動的特徴量である。ただし、音声認識に用いられる特徴量は、ケプストラム特徴量に限定されない。音声認識に用いられる特徴量の算出方法は広く知られているため、詳細な説明は省略する。
なお、音声らしさを示す特徴量（音声特徴量）と、音声認識に用いられる特徴量（音声認識特徴量）とは、別の特徴量でも良いし、同一の特徴量でも良い。
非音声モデル格納部１０６は、音声認識の対象になる音声以外のパターンを表す非音声モデルを記憶する。以下の説明では、音声認識の対象になる音声以外のパターンを、非音声パターンと記すこともある。また、語彙・音素モデル格納部１０７は、音声認識の対象になる音声の語彙もしくは音素のパターンを表す語彙・音素モデルを記憶する。非音声モデル格納部１０６、及び、語彙・音素モデル格納部１０７は、例えば、隠れマルコフモデルなどの確率モデルで表される非音声モデル及び語彙・音素モデルを記憶する。なお、モデルのパラメータは、予め標準的な入力音データを用いて音声認識装置に学習させてもよい。非音声モデル格納部１０６及び語彙・音素モデル格納部１０７は、例えば、磁気ディスク装置等によって実現される。
サーチ部１０８は、音声認識に用いられる特徴量（音声認識特徴量）をもとに、音声の尤度及び非音声の尤度を算出し、この尤度及び上記モデルを用いて単語列を探索する。サーチ部１０８は、例えば、算出した音声の尤度のうち最尤の単語列を探索してもよい。
また、サーチ部１０８は、算出された音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間（以下、第２の音声区間と記す。）を判定する。具体的には、サーチ部１０８は、音声認識特徴量をもとに算出された音声の尤度が非音声の尤度よりも高い区間を第２の音声区間と判定する。
このように、サーチ部１０８は、フレーム毎の特徴量、語彙・音素モデル及び非音声モデルを用いて、入力音に対応する単語列（認識結果）を求めるとともに、第２の音声区間を求める。なお、音声の尤度とは、語彙・音素モデルで表わされる音声の語彙もしくは音素のパターンと、入力音とが一致する尤もらしさを表す数値である。同様に、非音声の尤度とは、非音声モデルで表わされる非音声パターンと、入力音とが一致する尤もらしさを表す数値である。
パラメータ更新部１０９は、第１の音声区間の長さと第２の音声区間の長さの差異に応じて閾値θを更新する。すなわち、パラメータ更新部１０９は、第１の音声区間と第２の音声区間を比較し、音声判定部１０３が用いる閾値θを更新する。このとき、音声判定部１０３は、更新された閾値θを用いて第１の音声区間を決定する。このように、音声判定部１０３は、パラメータ更新部１０９が更新する値（パラメータ）を用いて第１の音声区間を決定する。パラメータ更新部１０９が更新する閾値θは、音声判定部１０３が第１の音声区間を決定する際に用いるパラメータである。
補正値算出部１０４は、音声らしさを示す特徴量（音声特徴量）と閾値θとの差異に応じて、音声の尤度もしくは非音声の尤度を補正する値として用いられる補正値を算出する。すなわち、補正値算出部１０４は、音声らしさを示す特徴量（音声特徴量）と閾値θとから尤度の補正値を算出する。補正値が算出されると、サーチ部１０８は、この補正値をもとに補正された尤度に基づいて、第２の音声区間を判定する。
フレーム化部１０２と、音声判定部１０３と、補正値算出部１０４と、特徴量算出部１０５と、サーチ部１０８と、パラメータ更新部１０９とは、プログラム（音声認識プログラム）に従って動作するコンピュータのＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）によって実現される。例えば、プログラムは、音声認識装置の記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、フレーム化部１０２、音声判定部１０３、補正値算出部１０４、特徴量算出部１０５、サーチ部１０８及びパラメータ更新部１０９として動作してもよい。また、フレーム化部１０２と、音声判定部１０３と、補正値算出部１０４と、特徴量算出部１０５と、サーチ部１０８と、パラメータ更新部１０９とは、それぞれが専用のハードウェアで実現されていてもよい。
次に、本実施の形態の動作について、図１及び図２を用いて説明する。図２は、本実施形態における音声認識システムの動作の例を示すフローチャートである。
まず、マイクロフォン１０１が入力音を集音すると、フレーム化部１０２は、集音された時系列の入力音データを単位時間ごとのフレームに切り出す（ステップＳ１０１）。例えば、フレーム化部１０２は、入力音データからの切り出し対象になる部分を、予め定められた時間ずつずらしながら、単位時間分の波形データを順次切り出してもよい。以下、この単位時間をフレーム幅と記し、この予め定められた時間をフレームシフトと呼ぶ。例えば、入力音データがサンプリング周波数８０００Ｈｚの１６ｂｉｔＬｉｎｅａｒ−ＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）の場合、１秒当たり８０００点分の波形データが含まれている。この場合、フレーム化部１０２は、この波形データをフレーム幅２００点（すなわち、２５ミリ秒）、フレームシフト８０点（すなわち、１０ミリ秒）で時系列にしたがって逐次切り出す。
次に、音声判定部１０３は、フレームごとに切り出された入力音データの音声らしさを示す特徴量（すなわち、音声特徴量）を計算し、閾値θと比較することにより第１の音声区間を判定する（ステップＳ１０２）。なお、初期状態における閾値θの値として、例えば、ユーザ等が、予め閾値θの値を指定して設定してもよいし、発声が始まる前の非音声区間で推定された雑音の値をもとにその値よりも大きい値を設定してもよい。音声らしさ示す特徴量は、例えば、振幅パワーなどで表わすことができる。音声判定部１０３は、例えば、以下の式１によって振幅パワーｘｔを算出する。

ここでｓｔは時刻ｔにおける入力音データ（波形データ）の値であり、式１は、抽出した区間の波形データの平均値を振幅パワーｘｔとして算出していることを示す。
図３は、入力音データの時系列と音声らしさを示す特徴量及び音声認識に用いられる特徴量の時系列の例を示す説明図である。図３は、「こんにちは林です」という音声３Ｃが入力されたときの音声らしさを示す特徴量の時系列３Ａと、音声認識に用いられる特徴量の時系列３Ｂとを表している。
図３における時系列３Ａが示すように、振幅パワーが閾値θより大きければより音声らしいと言えるため、音声判定部１０３は、その区間を音声区間（図３におけるＬ１）と判定する。一方、振幅パワーが閾値θより小さければ、より非音声らしいと言えるため、音声判定部１０３は、その区間を非音声区間と判定する。なお、ここでは、音声らしさを示す特徴量として振幅パワーを用いる場合について説明した。他にも、音声判定部１０３は、音声らしさを示す特徴量として、信号雑音比（ＳＮ比）や、ゼロ交差数、音声モデルと非音声モデルとの尤度比や、ガウス混合分布モデルに基づく尤度比（ＧＭＭ尤度比）、ピッチ周波数、もしくはこれらの組合せなどを算出し、これらの特徴量を用いて音声区間を判定しても良い。
次に、補正値算出部１０４は、音声らしさを示す特徴量と閾値θとから尤度の補正値を算出する（ステップＳ１０３）。なお、この尤度の補正値は、後述するサーチ部１０８が単語列を探索する際に算出する語彙・音声モデルおよび非音声モデルに対する特徴量の尤度の補正値として利用される。
補正値算出部１０４は、語彙・音素モデルに対する尤度の補正値を、例えば、以下の式２により算出する。
（語彙・音素モデルに対する尤度の）補正値＝ｗ ×（ｘｔ−θ）（式２）
ここで、ｗは、補正値に対するファクターであり、正の実数値をとる。具体的には、ｗは、後述する対数尤度を一度の補正で変化させる量を調整するパラメータである。ｗが大きい場合、適切な補正値に素早く収束することができる。一方、ｗが小さい場合、音声認識装置は、閾値θを過度に変化させることを抑え、補正値を安定して変化させることができる。例えば、システム管理者はこれらのバランスを考慮し適切なｗの値を予め定めておいてもよい。
また、補正値算出部１０４は、非音声モデルに対する尤度の補正値を、例えば、以下の式３により算出する。
（非音声モデルに対する尤度の）補正値＝ｗ ×（θ−ｘｔ）（式３）
ここでは、補正値が音声らしさを示す特徴量ｘｔの一次関数で算出される例について説明した。ただし、補正値算出部１０４が補正値を算出する方法は、音声らしさを示す特徴量ｘｔの一次関数を用いる場合に限定されない。補正値算出部１０４は、特徴量ｘｔが閾値θに比べて大きい場合に補正値を大きく算出し、特徴量ｘｔを閾値θに比べて小さく算出するという関係性が保たれていれば、他の関数を用いて補正値を算出してもよい。
また、ここでは、補正値算出部１０４が、語彙・音素モデルに対する尤度の補正値と非音声モデルに対する尤度の補正値のいずれも算出する場合について説明した。ただし、補正値算出部１０４は、語彙・音素モデルに対する尤度の補正値と非音声モデルに対する尤度の補正値の両方を算出しなくてもよい。例えば、補正値算出部１０４は、どちらか一方の補正値のみを算出し、もう一方の補正値を０としてもよい。
次に、特徴量算出部１０５は、フレームごとに切り出された入力音データから音声認識に用いる特徴量（音声認識特徴量）を算出する（ステップＳ１０４）。
サーチ部１０８は、フレームごとの特徴量（音声識別特徴量）と、語彙・音素モデルと、非音声モデルとを用いて、入力音データの時系列に対応する単語列を探索するとともに、第２の音声区間を判定する（ステップＳ１０５）。サーチ部１０８は、例えば、語彙・音素モデルおよび非音声モデルとして、隠れマルコフモデルを用いて単語列を探索する。なお、各モデルのパラメータは、予め標準的な入力音データを用いて音声認識装置に学習させたパラメータでもよい。
次に、サーチ部１０８が第２の音声区間を判定する方法について、具体的に説明する。まず、サーチ部１０８は、音声の尤度及び非音声の尤度を算出する。一般的な音声認識では、特徴量と各モデルとの距離尺度として対数尤度が用いられる。そのため、ここでは、対数尤度を用いる場合について説明する。サーチ部１０８は、例えば、以下の式４に基づいて、音声及び非音声の対数尤度を計算してもよい。

ここで、ｌｏｇＬ（ｙ；θ）は、音声（非音声）のパターン列ｙが与えられたときの音声（非音声）の対数尤度であり、ｙ（ｉ）は、音声認識に用いられる特徴量（音声認識特徴量）である。また、μ及びσ（まとめてθと表わす。）は、モデルごとに設定されるパラメータである。なお、ここでは、ｎの値はｎ＝１でもよい。このように、サーチ部１０８は、音声の尤度及び非音声の尤度を音声認識特徴量をもとに算出する。なお、上記説明では、サーチ部１０８が尤度として対数尤度を算出する場合について説明した。ただし、尤度として算出する内容は、対数尤度に限定されない。
ここで、フレームごとの特徴量の時系列と、上記語彙・音素モデルに含まれる各語彙・音素を表すモデルとの対数尤度をＬｓ（ｊ，ｔ）と表す。ｊは、各語彙・音素モデルの一状態を示す。サーチ部１０８は、以下に例示する式５により、補正値算出部１０４が算出した補正値を用いて、対数尤度Ｌｓ（ｊ，ｔ）を補正する。
Ｌｓ（ｊ，ｔ）← Ｌｓ（ｊ，ｔ）＋ｗ ×（ｘｔ−θ）（式５）
また、フレームごとの特徴量の時系列と、上記非音声モデルに含まれる各非音声を表すモデルとの対数尤度をＬｎ（ｊ，ｔ）と表す。ｊは、非音声モデルの一状態を示す。このとき、サーチ部１０８は、以下に例示する式６により、補正値算出部１０４が算出した補正値を用いて、対数尤度Ｌｎ（ｊ，ｔ）を補正する。
Ｌｎ（ｊ，ｔ）← Ｌｎ（ｊ，ｔ）＋ｗ ×（θ−ｘｔ）（式６）
サーチ部１０８は、補正された対数尤度の時系列のうち、対数尤度が最大になる音声の語彙もしくは音素のパターン、又は、非音声のパターンを探索することにより、入力音データの時系列に対応する図３に例示する音声３Ｃのような単語列を探索する。例えば、上述の式４を用いる場合、サーチ部１０８は、ｌｏｇＬ（ｙ；θ）の値を最大化するθの値を求める。また、このとき、サーチ部１０８は、補正された語彙・音素モデルの対数尤度が、補正された非音声モデルの対数尤度より大きい区間を第２の音声区間と判定する。図３に示す例では、サーチ部１０８が、時系列３Ｂが波形で示されている部分を第２の音声区間Ｌ２と判定したことを示す。
以上のように、サーチ部１０８は、対数尤度Ｌｓ及びＬｎを算出し、算出された対数尤度Ｌｓ及びＬｎを、尤度の補正値を用いて補正する。そして、サーチ部１０８は、補正されたＬｓ及びＬｎが、Ｌｓ（ｊ，ｔ）＞Ｌｎ（ｊ，ｔ）を満たす区間を、第２の音声区間と判断する。
なお、上記説明では、サーチ部１０８が式４を用いて対数尤度を算出し、第２の音声区間を判定する場合について説明した。ただし、サーチ部１０８がＡ＊探索やビームサーチといった方法を用いて第２の音声区間を判定してもよい。すなわち、語彙・音素を表すモデル及び非音声を表すモデルを用いたときにＡ＊探索やビームサーチなどにより算出されるスコアは、音声・非音声についての尤度である。そのため、サーチ部１０８は、算出した音声のスコアが非音声のスコアよりも高い区間を第２の音声区間と判定してもよい。
次に、パラメータ更新部１０９は、音声判定部１０３が判定した第１の音声区間と、サーチ部１０８が判定した第２の音声区間とを比較し、音声判定部１０３が用いるパラメータである閾値θの値を更新する（ステップＳ１０６）。具体的には、パラメータ更新部１０９は、第１の音声区間の長さと第２の音声区間の長さに応じて第１の音声区間を判定するための閾値θの値を更新する。
以下、図４及び図５を用いて、パラメータ更新部１０９が閾値θの値を更新する動作について説明する。図４は、第１の音声区間が第２の音声区間よりも長い場合の例を示す説明図である。また、図５は、第１の音声区間が第２の音声区間よりも短い場合の例を示す説明図である。図４に例示するように、第１の音声区間の長さＬ１が第２の音声区間の長さＬ２よりも長い場合、パラメータ更新部１０９は、閾値θをより大きくなるように更新する。反対に、図５に例示するように、第１の音声区間の長さＬ１が第２の音声区間の長さＬ２よりも短い場合、パラメータ更新部１０９は、閾値θをより小さくなるように更新する。具体的には、パラメータ更新部１０９は、以下に例示する式７を用いて閾値θを更新する。
θ ← θ＋ε（Ｌ２−Ｌ１）（式７）
ここで、εはステップサイズを示す正の値であり、一度の更新で閾値θを変化させる量を調整するパラメータである。
上記説明では、パラメータ更新部１０９が音声区間の長さに基づいて閾値θを更新する場合について説明した。他にも、パラメータ更新部１０９は、非音声区間の長さに基づいて閾値θを更新してもよい。この場合、音声判定部１０３は、音声特徴量が閾値θよりも小さい区間を第１の音声区間と判定する。サーチ部１０８は、補正された非音声についての尤度Ｌｎが、補正された音声についての尤度Ｌｓよりも高い区間を第２の音声区間と判定する。
また、上記説明では、パラメータ更新部１０９が音声区間の長さの差異に応じて閾値θの値を更新する場合について説明した。他にも、パラメータ更新部１０９は、音声区間もしくは非音声区間の長さの大小を判定し、その大小に応じて予め定められた値ずつ閾値θを更新してもよい。
例えば、パラメータ更新部１０９は、第２の音声区間の長さＬ２＞第１の音声区間の長さＬ１の場合に、θ←θ＋εと補正し、第２の音声区間の長さＬ２＜第１の音声区間の長さＬ１の場合に、θ←θ−εと補正してもよい。
パラメータ更新部１０９は、例えば、一発声ごとや、一つの音声区間を判定するごとに、閾値θを更新する。ただし、パラメータ更新部１０９が閾値θを更新するタイミングは、上記タイミングに限定されない。例えば、パラメータ更新部１０９は、発話者の指示に応じて閾値θを更新してもよい。そして、パラメータ更新部１０９は、更新された閾値θを用いて、次の発声や次の音声区間に対するステップＳ１０１からステップＳ１０６の処理を繰り返す。
なお、パラメータ更新部１０９は、更新された閾値θを用いて、同一の発声に対するステップＳ１０２からステップＳ１０６の処理を行ってもよい。また、パラメータ更新部１０９は、同一の発声に対するＳ１０２からステップＳ１０６の処理を１回だけでなく、複数回繰り返して行ってもよい。
次に、本実施形態における効果について説明する。以上のように、本実施形態における音声認識装置は、音声判定部１０３が、音声らしさを示す特徴量を時系列の入力音をもとに算出し、閾値θと音声らしさを示す特徴量とを比較して、音声の区間（もしくは非音声の区間）を判定し、第１の音声区間を決定する。また、サーチ部１０８が、音声認識に用いられる特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、第２の音声区間を決定する。そして、パラメータ更新部１０９が、第１の音声区間の長さと第２の音声区間の長さとの差異に応じて閾値θを更新し、音声判定部１０３が、更新された閾値θを用いて第１の音声区間を決定する。このような構成により、音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。
すなわち、補正値算出部１０４が、音声らしさを示す特徴量と閾値θとから尤度の補正値を算出し、サーチ部１０８が、その補正値によって補正された尤度をもとに音声を識別する。そのため、サーチ部１０８が、認識対象となる音声を正しく認識し、それ以外を非音声と判定しやすくなる。このようにして、雑音に頑健な音声認識が実現される。
さらに、パラメータ更新部１０９が、第１の音声区間と第２の音声区間とを比較し、その比較結果に基づいて音声判定部１０３が用いる閾値を更新する。そのため、閾値が雑音環境に対して正しく設定されていない場合や、雑音環境が時刻に応じて変動するような場合であっても、尤度の補正値を正確に求めることが出来るため、より雑音に頑健な音声認識を実現できる。
一般に音声判定部１０３よりもサーチ部１０８の方がより正しく音声区間を判定できる。これは、サーチ部１０８が、単語・音素モデルや非音声モデルなど、より多くの情報を用いて音声区間を判定しているためである。これに対し、音声判定部１０３は、雑音の状況に応じて最適値の異なる閾値を用いて音声区間を判定するため、誤りの混入する可能性が高い。本実施形態における音声認識装置は、音声判定部１０３が判定した第１の音声区間をより正しくするために、パラメータ更新部１０９が、サーチ部１０８が判定した第２の音声区間を用いて閾値を更新する。そのため、音声判定部１０３は、より精度の高い探索を次の発声に対して行うことができる。以上のことから、本発明の目的を達成できる。
実施形態２．
次に、本発明による第２の実施形態について説明する。図６は、本発明の第２の実施形態における音声認識システムの例を示すブロック図である。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。本発明における音声認識システムは、マイクロフォン１０１と、フレーム化部１０２と、音声判定部１１３と、補正値算出部１０４と、特徴量算出部１０５と、非音声モデル格納部１０６と、語彙・音素モデル格納部１０７と、サーチ部１０８と、パラメータ更新部１１９とを備えている。すなわち、第２の実施形態における音声認識システムは、図６に例示するように、第１の実施形態における音声認識システムの構成の音声判定部１０３の代わりに、音声判定部１１３を、パラメータ更新部１０９の代わりに、パラメータ更新部１１９を、それぞれ備えている。
音声判定部１１３は、音声らしさを示す特徴量（すなわち、音声特徴量）を時系列の入力音をもとに算出する。そして、音声判定部１１３は、入力音を音声もしくは非音声に分類する閾値θと音声特徴量とを比較し、その閾値θをもとに決定される音声の区間もしくは非音声の区間に対して、その区間の前後にマージン（以下、マージンｍと記す。）を付加した区間を第１の音声区間と決定する。具体的には、音声判定部１１３は、音声らしさを示す特徴量が、閾値θよりも大きい区間の前後にマージンｍを付加した区間を第１の音声区間と決定する。このように、音声判定部１１３は、音声らしさを示す特徴量が閾値θよりも大きい音声の区間にマージンを加えた区間を第１の音声区間と判定する。閾値θの値は、予め定められた固定の値であってもよく、第１の実施形態に示すように、随時更新される値であってもよい。以下の説明では、閾値θの値として、予め定められた固定の値を用いるものとする。
パラメータ更新部１１９は、第１の音声区間の長さと第２の音声区間の長さの差異に応じてマージンｍを更新する。すなわち、パラメータ更新部１１９は、第１の音声区間と第２の音声区間を比較し、音声判定部１１３が用いるマージンｍの長さを更新する。このとき、音声判定部１１３は、更新されたマージンｍを用いて第１の音声区間を決定する。このように、音声判定部１１３は、パラメータ更新部１１９が更新する値（パラメータ）を用いて第１の音声区間を決定する。パラメータ更新部１１９が更新するマージンｍは、音声判定部１１３が第１の音声区間を決定する際に用いるパラメータである。
その他の構成（マイクロフォン１０１、フレーム化部１０２、補正値算出部１０４、特徴量算出部１０５、非音声モデル格納部１０６、語彙・音素モデル格納部１０７及びサーチ部１０８）については、第１の実施形態と同様である。
フレーム化部１０２と、音声判定部１１３と、補正値算出部１０４と、特徴量算出部１０５と、サーチ部１０８と、パラメータ更新部１１９とは、プログラム（音声認識プログラム）に従って動作するコンピュータのＣＰＵによって実現される。また、フレーム化部１０２と、音声判定部１１３と、補正値算出部１０４と、特徴量算出部１０５と、サーチ部１０８と、パラメータ更新部１１９とは、それぞれが専用のハードウェアで実現されていてもよい。
次に、本実施の形態の動作について、図６及び図２を用いて説明する。本発明の本実施形態における動作は、図２におけるステップＳ１０２とステップＳ１０６が変更されている点で第１の実施形態の動作と異なる。
マイクロフォン１０１が集音した入力音をフレーム化部１０２がフレームごとに切り出すと（ステップＳ１０１）、音声判定部１１３は、フレームごとに切り出された入力音データの音声らしさを示す特徴量（すなわち、音声特徴量）を計算する。音声らしさを示す特徴量を計算する方法は、第１の実施形態と同様である。次に、音声判定部１１３は、音声らしさを示す特徴量と閾値θとを比較し、仮の音声区間を求める。仮の音声区間を求める方法は、第１の実施形態において、第１の音声区間を求める方法と同様である。例えば、音声判定部１１３は、音声らしさを示す特徴量が閾値θよりも大きい区間を仮の音声区間とする。そして、音声判定部１１３は、仮の音声区間の前後にマージンｍを付与した区間を第１の音声区間と判定する（ステップＳ１０２）。
図７は、仮の音声区間にマージンを付与した例を示す説明図である。図７に示す例では、まず、音声判定部１１３が、時系列７Ａが示す特徴量と閾値θとを比較し、閾値θよりも大きい部分を仮の音声区間７１及び音声区間７２とする。ここで、音声判定部１１３は、仮の音声区間の前後にマージンとして、マージン７３ａ、マージン７３ｂ、マージン７３ｃを付加した区間を第１の音声区間と判定する。
以降、補正値算出部１０４が尤度の補正値を算出し、特徴量算出部１０５が音声認識に用いられる特徴量を算出する処理、及び、サーチ部１０８が単語列を探索するとともに第２の音声区間を判定する処理は、第１の実施形態におけるステップＳ１０３〜ステップＳ１０５の処理と同様である。
次に、パラメータ更新部１１９は、音声判定部１１３が判定した第１の音声区間と、サーチ部１０８が判定した第２の音声区間とを比較し、音声判定部１１３が用いるパラメータであるマージンｍの値を更新する（ステップＳ１０６）。ここでは、パラメータ更新部１１９は、第１の音声区間の長さと第２の音声区間の長さに応じて仮の音声区間に付与するマージンｍの値を更新する。
以下、図４及び図５を用いて、パラメータ更新部１１９がマージンｍの値を更新する動作について説明する。図４に例示するように、第１の音声区間の長さＬ１が第２の音声区間の長さＬ２よりも長い場合、パラメータ更新部１１９は、マージンｍをより短くなるように更新する。反対に、図５に例示するように、第１の音声区間の長さＬ１が第２の音声区間の長さＬ２よりも短い場合には、パラメータ更新部１１９は、マージンｍをより長くなるように更新する。具体的には、パラメータ更新部１１９は、以下に例示する式８を用いてマージンｍを更新する。
ｍ ← ｍ＋ε（Ｌ１−Ｌ２）（式８）
ここで、εはステップサイズを示す正の値であり、一度の更新でマージンｍの長さを変化させる量を調整するパラメータである。
上記説明では、パラメータ更新部１１９が音声区間の長さに基づいてマージンｍを更新する場合について説明した。他にも、パラメータ更新部１１９は、非音声区間の長さに基づいてマージンｍを更新してもよい。この場合、音声判定部１１３が、閾値θよりも小さい音声の区間である仮の音声区間にマージンｍを付与した第１の音声区間を判定し、サーチ部１０８が、補正された非音声についての尤度Ｌｎが、補正された音声についての尤度Ｌｓよりも高い区間を第２の音声区間と判定すればよい。
また、パラメータ更新部１１９は、マージンｍの長さだけでなく、第１の実施形態における閾値θの値もあわせて更新してもよい。具体的には、パラメータ更新部１１９は、第１の音声区間の長さが第２の音声区間の長さよりも長い場合に、マージンｍの長さをより短く更新するとともに、閾値θを増加させた値に更新する。また、パラメータ更新部１１９は、第１の音声区間の長さが第２の音声区間の長さよりも短い場合に、マージンｍの長さをより長く更新するとともに、閾値θを減少させた値に更新する。なお、閾値を更新する方法は、第１の実施形態に記載した方法と同様である。
また、上記説明では、パラメータ更新部１１９が音声区間の長さの差異に応じてマージンｍを更新する場合について説明した。他にも、パラメータ更新部１１９は、音声区間もしくは非音声区間の長さの大小を判定し、その大小に応じて予め定められた値ずつマージンｍを更新してもよい。
例えば、パラメータ更新部１１９は、第２の音声区間の長さＬ２＞第１の音声区間の長さＬ１の場合に、ｍ←ｍ＋εと補正し、第２の音声区間の長さＬ２＜第１の音声区間の長さＬ１の場合に、ｍ←ｍ−εと補正してもよい。
パラメータ更新部１１９は、例えば、一発声ごとのタイミングや、一つの音声区間を判定したこと契機としてマージンｍを更新する。ただし、パラメータ更新部１１９がマージンｍを更新するタイミングは、上記タイミングに限定されない。例えば、パラメータ更新部１１９は、発話者の指示に応じてマージンｍを更新してもよい。そして、パラメータ更新部１１９は、更新されたマージンｍを用いて、次の発声や次の音声区間に対するステップＳ１０１からステップＳ１０６の処理を繰り返す。
なお、パラメータ更新部１１９は、更新されたマージンｍを用いて、同一の発声に対するステップＳ１０２からステップＳ１０６の処理を行ってもよい。また、パラメータ更新部１１９は、同一の発声に対するＳ１０２からステップＳ１０６の処理を１回だけでなく、複数回繰り返して行ってもよい。
次に、本実施形態における効果について説明する。以上のように、本実施形態における音声認識装置は、音声判定部１１３が、音声特徴量が閾値θよりも大きい区間の前後にマージンｍを付加した区間を第１の音声区間と決定し、パラメータ更新部１１９が、区間の前後に付加するマージンｍの長さを更新する。そして、音声判定部１１３が、更新されたマージンｍを区間の前後に付加した区間を第１の音声区間と決定する。以上のような構成によっても、音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。
一般的に子音は母音に比べてパワーが小さく、雑音と混同されやすい為、音声区間の前後が欠けやすい。このように、音声認識装置は、前後が欠けやすい音声区間を仮の音声区間とし、この仮の音声区間にマージンｍを付与することにより、音声の欠落を防ぐことができる。
なお、マージンｍの長さを長く設定しすぎると、音声認識の対象以外の音が音声と認識される可能性がある。そのため、マージンｍの長さは、背景雑音に応じて適切に設定されることが望ましい。本実施形態における音声認識装置は、パラメータ更新部１１９が、第１の音声区間の長さと第２の音声区間の長さに基づいてマージンｍの長さを適切に更新するため、雑音に頑健な音声認識が実現でき、本発明の目的を達成できる。
次に、本発明による音声認識システムの最小構成の例を説明する。図８は、本発明による音声認識システムの最小構成の例を示すブロック図である。本発明による音声認識システムは、音声らしさを示す特徴量である音声特徴量（例えば、振幅パワー）を時系列の入力音（例えば、フレームごとに切り出された入力音データ）をもとに算出し、音声もしくは非音声に入力音を分類する値として定められた閾値（例えば、閾値θ）と音声特徴量とを比較して音声の区間（例えば、音声特徴量が閾値θよりも大きい区間）もしくは非音声の区間（例えば、音声特徴量が閾値θよりも小さい区間）を判定し、それらの区間もしくは指定された長さのマージン（例えば、マージンｍ）をそれらの区間の前後に付加した区間を第１の音声区間と決定する音声判定手段８１（例えば、音声判定部１０３）と、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される（例えば、式４を用いて算出される）音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間（例えば、音声の尤度が非音声の尤度よりも高い区間）を第２の音声区間と決定するサーチ手段８２（例えば、サーチ部１０８）と、第１の音声区間の長さと第２の音声区間の長さとの差異に応じて、音声判定手段８１が第１の音声区間を決定する際に用いられる閾値及びマージンのうちの少なくとも一方を更新するパラメータ更新手段８３（例えば、パラメータ更新部１０９、パラメータ更新部１１９）を備えている。
音声判定手段８１は、パラメータ更新手段８３が更新した閾値もしくはマージンを用いて、第１の音声区間を決定する。
上記の構成である音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。
なお、少なくとも以下に示すような音声認識システムも、上記に示すいずれかの実施形態に開示されている。
（１）音声らしさを示す特徴量である音声特徴量（例えば、振幅パワー）を時系列の入力音（例えば、フレームごとに切り出された入力音データ）をもとに算出し、音声もしくは非音声に入力音を分類する値として定められた閾値（例えば、閾値θ）と音声特徴量とを比較して音声の区間（例えば、音声特徴量が閾値θよりも大きい区間）もしくは非音声の区間（例えば、音声特徴量が閾値θよりも小さい区間）を判定し、それらの区間もしくは指定された長さのマージン（例えば、マージンｍ）をそれらの区間の前後に付加した区間を第１の音声区間と決定する音声判定手段（例えば、音声判定部１０３）と、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される（例えば、式４を用いて算出される）音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間（例えば、音声の尤度が非音声の尤度よりも高い区間）を第２の音声区間と決定するサーチ手段（例えば、サーチ部１０８）と、第１の音声区間の長さと第２の音声区間の長さとの差異に応じて、音声判定手段が第１の音声区間を決定する際に用いられる閾値及びマージンのうちの少なくとも一方を更新するパラメータ更新手段（例えば、パラメータ更新部１０９、パラメータ更新部１１９）を備え、音声判定手段が、パラメータ更新手段が更新した閾値もしくはマージンを用いて、第１の音声区間を決定する音声認識システム。
（２）パラメータ更新手段が、第１の音声区間の長さが第２の音声区間の長さよりも長い場合に閾値を増加させ、第１の音声区間の長さが第２の音声区間の長さよりも短い場合に閾値を減少させる音声認識システム。
（３）パラメータ更新手段が、第１の音声区間の長さが第２の音声区間の長さよりも長い場合にマージンの長さを短くし、第１の音声区間の長さが第２の音声区間の長さよりも短い場合にマージンの長さを長くする音声認識システム。
（４）音声認識の対象になる音声の語彙もしくは音素のパターンを表す語彙音素モデルを記憶する語彙音素モデル記憶手段（例えば、語彙・音素モデル格納部１０７）と、音声認識の対象になる非音声のパターンを表す非音声モデルを記憶する非音声音声モデル記憶手段（例えば、非音声モデル格納部１０６）とを備え、サーチ手段が、音声認識特徴量をもとに、音声の尤度である前記語彙音素モデルの尤度及び非音声の尤度である前記非音声モデルの尤度を算出し、音声の尤度の最大値が非音声の尤度の最大値よりも大きい場合、音声の尤度が最大になる音声の語彙もしくは音素のパターンを探索し、非音声の尤度の最大値が音声の尤度の最大値よりも大きい場合、非音声の尤度が最大になる非音声のパターンを探索する音声認識システム。
（５）音声特徴量と閾値との差異に応じて、語彙音素モデルの尤度と非音声モデルの尤度のうちの少なくとも１つの尤度を補正する値として用いられる補正値を算出する（例えば、式５もしくは式６を用いて算出する）補正値算出手段（例えば、サーチ部１０８）を備え、サーチ手段が、補正値をもとに補正された尤度に基づいて、第２の音声区間を判定する音声認識システム。
（６）補正値算出手段が、音声特徴量から閾値を減じた値を語彙音素モデルの尤度の補正値として算出し（例えば、式２を用いて補正値を算出し）、閾値から音声特徴量を減じた値を非音声モデルの尤度の補正値として算出する（例えば、式３を用いて補正値を算出する）音声認識システム。
（７）音声判定手段は、時系列の入力音をもとに、振幅パワー、信号雑音比、ゼロ交差数、ガウス混合分布モデルに基づく尤度比若しくはピッチ周波数又はこれらの組合せを音声特徴量として算出する音声認識システム。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
この出願は、２００９年１２月１０日に出願された日本出願特願２００９−２８０９２７を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１０１マイクロフォン
１０２フレーム化部
１０３，１１３音声判定部
１０４補正値算出部
１０５特徴量算出部
１０６非音声モデル格納部
１０７語彙・音素モデル格納部
１０８サーチ部
１０９，１１９パラメータ更新部

一般的な音声認識システムは、マイクロフォンなどで集音された入力音の時系列データから特徴量の時系列を抽出し、認識対象になる単語及び音素モデルと、認識対象以外の非音声のモデルとを用いて特徴量の時系列に対する尤度を計算する。そして、音声認識システムは、計算された尤度をもとに入力音の時系列に対応する単語列をサーチし、認識結果を出力する。また、音声を認識する精度を向上させる方法について、複数の提案がなされている。

特許文献１には、無音部分に起因する音声認識性能の劣化を低減する音声認識装置が記載されている。図９は特許文献１に記載された音声認識装置を示す説明図である。特許文献１に記載された音声認識装置は、入力音を集音するマイクロフォン２０１と、集音された音の時系列データを所定の時間単位で切り出すフレーム化部２０２と、ノイズ区間を抽出するノイズ観測区間抽出部２０３と、ユーザが発話の開始をシステムに通知するための発話スイッチ２０４と、切り出された音声データごとに特徴量を抽出する特徴量抽出部２０５と、特徴量の時系列に対して音声認識を行う音声認識部２０８と、音声認識部で用いる音響モデルのうち、無音のモデルを補正する無音モデル補正部２０７とを備えている。

特許文献１に記載された音声認識装置は、ノイズ観測区間抽出部２０３が、発話スイッチ２０４が押される直前の区間から背景雑音を推定し、無音モデル補正部２０７が、推定された背景雑音に基づいて無音モデルを背景雑音環境に適応させる。このような構成により、対象とする音声以外を無音と判定しやすくすることで、音声認識装置は、音声の誤認識を軽減させる。

特許文献２には、ガベジモデル学習時に使用したデータ以外の背景雑音が付加された音声区間に対する誤認識率を低下させる音声認識装置が記載されている。図１０は特許文献２に記載された音声認識装置を示す説明図である。特許文献２に記載された音声認識装置は、集音された音の時系列データから特徴量の時系列を分析する分析手段３０２と、特徴量に基づいて補正量を算出する補正値算出手段３０３と、特徴量の時系列から認識対象単語列を照合する照合手段３０４と、背景雑音に対応する音パターンをモデル化したガベジモデル３０５と、認識対象語彙モデル３０６とを備えている。

特許文献２に記載された音声認識装置では、補正値算出手段３０３が、特徴量からピッチ周波数、フォルマント周波数及び帯域幅の特徴量などから音声らしさを判定する。そして、補正値算出手段３０３は、判定結果をもとに、ガベジモデルに対する尤度を補正するための補正値を求める。そして、照合手段３０４は、上述の補正値を用いて補正したガベジモデルに対する尤度、特徴量、ガベジモデル及び認識対象語彙モデルを用いて、パターンマッチングを行う。このような構成により、音声認識装置は、認識対象の音声のみを正しく認識できる。

また、非特許文献１には、音声データから音声を認識する方法及び音声認識で用いられるモデルが記載されている。

音声認識を行う場合、背景雑音や回線ノイズ、マイクロフォンを叩く音などの突発的な雑音などが存在することがある。このような場合、特許文献１及び特許文献２に記載された音声認識装置を用いることにより、音声認識の誤りを抑制することが可能になる。

すなわち、特許文献１に記載された音声認識装置は、認識対象以外の音の悪影響を抑えるために、発話スイッチが押される直前の区間から雑音を推定することで、無音モデルを背景雑音環境に適応させている。しかしながら、特に音声認識に不慣れな話者が、発話スイッチを押す前に話し始めてしまう場合や、発話スイッチを押してからしばらく時間が経ってから話し始めてしまう場合などがある。この場合、発話スイッチが押されている時間と認識対象の発声が行われる時間とが必ずしも対応するとは限らない。そのため、このような場合には、音声認識装置は、対象となる発話区間を正確に推定できないという問題がある。

また、特許文献２に記載された音声認識装置は、認識対象以外の音の悪影響を抑えるために、ピッチ周波数や、フォルマント周波数、帯域幅の特徴量などから音声らしさを判定し、ガベジモデルに対する尤度を補正するための補正値を求めている。しかしながら、高雑音環境下では、音声らしさの判定が必ずしも正確であるとは限らないため、算出した補正値が音声らしさを判定するうえで悪影響を及ぼす場合がある。

以下、高雑音環境下で生じる問題について説明する。例えば、低雑音環境下では、音声認識装置は、パワー（音量）が異なることを利用して、音声区間（人が発声している区間）とそれ以外の非音声区間とを判定することができる。すなわち、人が発声していない区間は音量が小さく、人が発声している区間は音量が大きいため、音声認識装置は、音量がある閾値以上であるか否かを判定することにより、音声と非音声とを判定することができる。しかし、高雑音環境下では、人が発声していなくても雑音の音量が大きい。また、音声か非音声かを判定するために定められる閾値は雑音の音量に依存するため、音声と非音声の判定は困難になる。

具体例を用いて、音声と非音声の判定が困難になる理由について説明する。一般的に、音声の音量は、比較的大きくはっきり話している区間では大きくなり、発声の最初や最後などの区間では小さくなる傾向にある。以下、音声の音量をＳとし、音声の音量の最大値をＳｍａｘ、最小値をＳｍｉｎと記す。また、音声ほどではないが、雑音についても音量は変動する。以下、雑音の音量をＮとし、雑音の音量の最大値をＮｍａｘ、最小値をＮｍｉｎと記す。

ここで、音声と非音声とを判定する際の閾値をθと記すと、閾値θが、Ｎｍａｘ＜θ＜Ｓｍｉｎ＋Ｎｍｉｎの範囲に含まれていれば、音声区間においてＳ＞θの関係、及び、非音声区間においてＮ＜θの関係が常に成り立つため、音声認識装置は、音声と非音声とを判定できる。この関係から、閾値θに求められる条件として、以下の２点が挙げられる。

（１）発声が終わるまで音声の音量の最小値Ｓｍｉｎは分からないため、閾値θがとることのできる最大値は分からない。このため、ユーザ等は、θをできるだけ小さく設定したい。

（２）発声が終わるまで雑音の音量の最大値Ｎｍａｘは分からない（ただし、音声認識装置は、発声が始まる前までにおおよその雑音の音量を推定することは可能である。）。このため、ユーザ等は、θは推定された雑音の音量よりできるだけ大きく設定したい。

推定された雑音の値が小さい場合、ユーザ等は、上の２つの条件を満たす閾値θを設定することは比較的容易である。しかし、推定された雑音の値が大きい場合、ユーザ等は、適切な閾値θを設定するのは困難である。

また、特許文献２に記載された音声認識装置は、音声らしさの判定基準が固定されているため、変動する雑音に対応できないという問題がある。

以上のように、認識対象以外の音の悪影響を抑えようとしたときに、音声認識装置は、対象となる発話区間を正確に推定できない場合には、音声認識を効果的に行うことができないという課題がある。

そこで、上記の課題を解決するために、本発明は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる音声認識システム、音声認識方法および音声認識プログラムを提供することを目的とする。

本発明による音声認識システムは、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第１の音声区間と決定する音声判定手段と、音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第２の音声区間と決定するサーチ手段と、前記第１の音声区間の長さと前記第２の音声区間の長さとの差異に応じて、前記音声判定手段が第１の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新手段を備え、前記音声判定手段は、前記パラメータ更新手段が更新した閾値もしくはマージンを用いて、第１の音声区間を決定する。

本発明による音声認識方法は、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしく指定された長さのマージンを当該区間の前後に付加した区間を第１の音声区間と決定し、音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第２の音声区間と決定し、前記第１の音声区間の長さと前記第２の音声区間の長さとの差異に応じて、前記第１の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新し、前記第１の音声区間を判定する際に、更新された閾値もしくはマージンを用いて、第１の音声区間を決定する。

本発明によるプログラム記録媒体に格納された音声認識プログラムは、コンピュータに、音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第１の音声区間と決定する音声判定処理、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第２の音声区間と決定するサーチ処理、および、前記第１の音声区間の長さと前記第２の音声区間の長さとの差異に応じて、前記音声判定処理で第１の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新処理を実行させ、前記音声判定処理で、前記パラメータ更新処理で更新した閾値もしくはマージンを用いて、第１の音声区間を決定させる。

［図１］本発明の第１の実施形態における音声認識システムの例を示すブロック図である。

［図２］第１の実施形態における音声認識システムの動作の例を示すフローチャートである。

［図３］入力音データの時系列と音声らしさを示す特徴量の時系列の例を示す説明図である。

［図４］第１の音声区間が第２の音声区間よりも長い場合の例を示す説明図である。

［図５］第１の音声区間が第２の音声区間よりも短い場合の例を示す説明図である。

［図６］本発明の第２の実施形態における音声認識システムの例を示すブロック図である。

［図７］仮の音声区間にマージンを付与した例を示す説明図である。

［図８］本発明による音声認識システムの最小構成の例を示すブロック図である。

［図９］特許文献１に記載された音声認識装置を示すブロック図である。

［図１０］特許文献２に記載された音声認識装置を示すブロック図である。

以下、本発明の実施形態を図面を参照して説明する。
実施形態１．
図１は、本発明の第１の実施形態における音声認識システムの例を示すブロック図である。本発明における音声認識システムは、マイクロフォン１０１と、フレーム化部１０２と、音声判定部１０３と、補正値算出部１０４と、特徴量算出部１０５と、非音声モデル格納部１０６と、語彙・音素モデル格納部１０７と、サーチ部１０８と、パラメータ更新部１０９とを備えている。

マイクロフォン１０１は、入力音を集音する装置である。

フレーム化部１０２は、マイクロフォン１０１で集音された時系列の入力音データを単位時間ごとに切り出す。なお、入力音データを単位時間ごとに切り出したデータをフレームと記す。すなわち、フレーム化部１０２は、入力音データをフレームごとに切り出す。

音声判定部１０３は、音声らしさを示す特徴量（以下、音声特徴量と記すこともある。）を時系列の入力音データをもとに算出する。すなわち、音声判定部１０３は、フレームごとに切り出された入力音データごとに音声らしさを示す特徴量を求める。そして、音声判定部１０３は、入力音を音声もしくは非音声に分類する値として定められた閾値（以下、閾値θと記す。）と音声特徴量とを比較して、その閾値をもとに決定される音声の区間もしくは非音声の区間（以下、第１の音声区間と記す。）のいずれに属するかを判定する。例えば、音声判定部１０３は、入力音を音声もしくは非音声に分類する値として定められた閾値θよりも、算出された音声特徴量が大きい区間を第１の音声区間と判定する。なお、ここでは、閾値θよりも音声特徴量が大きい区間を第１の音声区間として説明する。音声らしさを示す特徴量（音声特徴量）は、例えば、振幅パワーである。ただし、音声らしさを示す特徴量は、振幅パワーに限定されない。このように、音声判定部１０３は、特徴量と閾値θとを比較することにより、第１の音声区間を判定する。

特徴量算出部１０５は、音声データをもとに音声認識に用いられる特徴量（以下、音声認識特徴量と記すこともある。）を算出する。具体的には、特徴量算出部１０５は、フレームごとに切り出された音声データから音声認識に用いられる特徴量（音声認識特徴量）を算出する。音声認識に用いられる特徴量（音声認識特徴量）は、例えば、ケプストラム特徴量及びその動的特徴量である。ただし、音声認識に用いられる特徴量は、ケプストラム特徴量に限定されない。音声認識に用いられる特徴量の算出方法は広く知られているため、詳細な説明は省略する。

なお、音声らしさを示す特徴量（音声特徴量）と、音声認識に用いられる特徴量（音声認識特徴量）とは、別の特徴量でも良いし、同一の特徴量でも良い。

非音声モデル格納部１０６は、音声認識の対象になる音声以外のパターンを表す非音声モデルを記憶する。以下の説明では、音声認識の対象になる音声以外のパターンを、非音声パターンと記すこともある。また、語彙・音素モデル格納部１０７は、音声認識の対象になる音声の語彙もしくは音素のパターンを表す語彙・音素モデルを記憶する。非音声モデル格納部１０６、及び、語彙・音素モデル格納部１０７は、例えば、隠れマルコフモデルなどの確率モデルで表される非音声モデル及び語彙・音素モデルを記憶する。なお、モデルのパラメータは、予め標準的な入力音データを用いて音声認識装置に学習させてもよい。非音声モデル格納部１０６及び語彙・音素モデル格納部１０７は、例えば、磁気ディスク装置等によって実現される。

サーチ部１０８は、音声認識に用いられる特徴量（音声認識特徴量）をもとに、音声の尤度及び非音声の尤度を算出し、この尤度及び上記モデルを用いて単語列を探索する。サーチ部１０８は、例えば、算出した音声の尤度のうち最尤の単語列を探索してもよい。

また、サーチ部１０８は、算出された音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間（以下、第２の音声区間と記す。）を判定する。具体的には、サーチ部１０８は、音声認識特徴量をもとに算出された音声の尤度が非音声の尤度よりも高い区間を第２の音声区間と判定する。

このように、サーチ部１０８は、フレーム毎の特徴量、語彙・音素モデル及び非音声モデルを用いて、入力音に対応する単語列（認識結果）を求めるとともに、第２の音声区間を求める。なお、音声の尤度とは、語彙・音素モデルで表わされる音声の語彙もしくは音素のパターンと、入力音とが一致する尤もらしさを表す数値である。同様に、非音声の尤度とは、非音声モデルで表わされる非音声パターンと、入力音とが一致する尤もらしさを表す数値である。

パラメータ更新部１０９は、第１の音声区間の長さと第２の音声区間の長さの差異に応じて閾値θを更新する。すなわち、パラメータ更新部１０９は、第１の音声区間と第２の音声区間を比較し、音声判定部１０３が用いる閾値θを更新する。このとき、音声判定部１０３は、更新された閾値θを用いて第１の音声区間を決定する。このように、音声判定部１０３は、パラメータ更新部１０９が更新する値（パラメータ）を用いて第１の音声区間を決定する。パラメータ更新部１０９が更新する閾値θは、音声判定部１０３が第１の音声区間を決定する際に用いるパラメータである。

補正値算出部１０４は、音声らしさを示す特徴量（音声特徴量）と閾値θとの差異に応じて、音声の尤度もしくは非音声の尤度を補正する値として用いられる補正値を算出する。すなわち、補正値算出部１０４は、音声らしさを示す特徴量（音声特徴量）と閾値θとから尤度の補正値を算出する。補正値が算出されると、サーチ部１０８は、この補正値をもとに補正された尤度に基づいて、第２の音声区間を判定する。

フレーム化部１０２と、音声判定部１０３と、補正値算出部１０４と、特徴量算出部１０５と、サーチ部１０８と、パラメータ更新部１０９とは、プログラム（音声認識プログラム）に従って動作するコンピュータのＣＰＵ（Central Processing Unit）によって実現される。例えば、プログラムは、音声認識装置の記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、フレーム化部１０２、音声判定部１０３、補正値算出部１０４、特徴量算出部１０５、サーチ部１０８及びパラメータ更新部１０９として動作してもよい。また、フレーム化部１０２と、音声判定部１０３と、補正値算出部１０４と、特徴量算出部１０５と、サーチ部１０８と、パラメータ更新部１０９とは、それぞれが専用のハードウェアで実現されていてもよい。

次に、本実施の形態の動作について、図１及び図２を用いて説明する。図２は、本実施形態における音声認識システムの動作の例を示すフローチャートである。

まず、マイクロフォン１０１が入力音を集音すると、フレーム化部１０２は、集音された時系列の入力音データを単位時間ごとのフレームに切り出す（ステップＳ１０１）。例えば、フレーム化部１０２は、入力音データからの切り出し対象になる部分を、予め定められた時間ずつずらしながら、単位時間分の波形データを順次切り出してもよい。以下、この単位時間をフレーム幅と記し、この予め定められた時間をフレームシフトと呼ぶ。例えば、入力音データがサンプリング周波数８０００Ｈｚの１６ｂｉｔＬｉｎｅａｒ−ＰＣＭ（Pulse Code Modulation ）の場合、１秒当たり８０００点分の波形データが含まれている。この場合、フレーム化部１０２は、この波形データをフレーム幅２００点（すなわち、２５ミリ秒）、フレームシフト８０点（すなわち、１０ミリ秒）で時系列にしたがって逐次切り出す。

次に、音声判定部１０３は、フレームごとに切り出された入力音データの音声らしさを示す特徴量（すなわち、音声特徴量）を計算し、閾値θと比較することにより第１の音声区間を判定する（ステップＳ１０２）。なお、初期状態における閾値θの値として、例えば、ユーザ等が、予め閾値θの値を指定して設定してもよいし、発声が始まる前の非音声区間で推定された雑音の値をもとにその値よりも大きい値を設定してもよい。音声らしさ示す特徴量は、例えば、振幅パワーなどで表わすことができる。音声判定部１０３は、例えば、以下の式１によって振幅パワーＸtを算出する。

ここでＳtは時刻ｔにおける入力音データ（波形データ）の値であり、式１は、抽出した区間の波形データの平均値を振幅パワーＸtとして算出していることを示す。

ここでＮは切り出した区間のフレーム幅（例えば２００点）を示す。Ｓｔ+iは、ｔ番目のフレームに含まれるi番目の入力音データ（波形データ）の値を示す。式１は、ｔ番目のフレームの振幅パワーＸｔを、同フレームに含まれるＮ個の入力音データ（波形データ）それぞれを二乗し、平均値を取ることで算出することを示す。

図３は、入力音データの時系列と音声らしさを示す特徴量及び音声認識に用いられる特徴量の時系列の例を示す説明図である。図３は、「こんにちは林です」という音声３Ｃが入力されたときの音声らしさを示す特徴量の時系列３Ａと、音声認識に用いられる特徴量の時系列３Ｂとを表している。

図３における時系列３Ａが示すように、振幅パワーが閾値θより大きければより音声らしいと言えるため、音声判定部１０３は、その区間を音声区間（図３におけるＬ１）と判定する。一方、振幅パワーが閾値θより小さければ、より非音声らしいと言えるため、音声判定部１０３は、その区間を非音声区間と判定する。なお、ここでは、音声らしさを示す特徴量として振幅パワーを用いる場合について説明した。他にも、音声判定部１０３は、音声らしさを示す特徴量として、信号雑音比（ＳＮ比）や、ゼロ交差数、音声モデルと非音声モデルとの尤度比や、ガウス混合分布モデルに基づく尤度比（ＧＭＭ尤度比）、ピッチ周波数、もしくはこれらの組合せなどを算出し、これらの特徴量を用いて音声区間を判定しても良い。

次に、補正値算出部１０４は、音声らしさを示す特徴量と閾値θとから尤度の補正値を算出する（ステップＳ１０３）。なお、この尤度の補正値は、後述するサーチ部１０８が単語列を探索する際に算出する語彙・音声モデルおよび非音声モデルに対する特徴量の尤度の補正値として利用される。

補正値算出部１０４は、語彙・音素モデルに対する尤度の補正値を、例えば、以下の式２により算出する。

（語彙・音素モデルに対する尤度の）補正値＝ｗ ×（Ｘｔ−θ）（式２）
ここで、ｗは、補正値に対するファクターであり、正の実数値をとる。具体的には、ｗは、後述する対数尤度を一度の補正で変化させる量を調整するパラメータである。ｗが大きい場合、適切な補正値に素早く収束することができる。一方、ｗが小さい場合、音声認識装置は、閾値θを過度に変化させることを抑え、補正値を安定して変化させることができる。例えば、システム管理者はこれらのバランスを考慮し適切なｗの値を予め定めておいてもよい。

また、補正値算出部１０４は、非音声モデルに対する尤度の補正値を、例えば、以下の式３により算出する。

（非音声モデルに対する尤度の）補正値＝ｗ ×（θ−Ｘｔ）（式３）
ここでは、補正値が音声らしさを示す特徴量Ｘｔの一次関数で算出される例について説明した。ただし、補正値算出部１０４が補正値を算出する方法は、音声らしさを示す特徴量Ｘｔの一次関数を用いる場合に限定されない。補正値算出部１０４は、特徴量Ｘｔが閾値θに比べて大きい場合に補正値を大きく算出し、特徴量Ｘｔを閾値θに比べて小さく算出するという関係性が保たれていれば、他の関数を用いて補正値を算出してもよい。

また、ここでは、補正値算出部１０４が、語彙・音素モデルに対する尤度の補正値と非音声モデルに対する尤度の補正値のいずれも算出する場合について説明した。ただし、補正値算出部１０４は、語彙・音素モデルに対する尤度の補正値と非音声モデルに対する尤度の補正値の両方を算出しなくてもよい。例えば、補正値算出部１０４は、どちらか一方の補正値のみを算出し、もう一方の補正値を０としてもよい。

次に、特徴量算出部１０５は、フレームごとに切り出された入力音データから音声認識に用いる特徴量（音声認識特徴量）を算出する（ステップＳ１０４）。

サーチ部１０８は、フレームごとの特徴量（音声識別特徴量）と、語彙・音素モデルと、非音声モデルとを用いて、入力音データの時系列に対応する単語列を探索するとともに、第２の音声区間を判定する（ステップＳ１０５）。サーチ部１０８は、例えば、語彙・音素モデルおよび非音声モデルとして、隠れマルコフモデルを用いて単語列を探索する。
なお、各モデルのパラメータは、予め標準的な入力音データを用いて音声認識装置に学習させたパラメータでもよい。

次に、サーチ部１０８が第２の音声区間を判定する方法について、具体的に説明する。まず、サーチ部１０８は、音声の尤度及び非音声の尤度を算出する。一般的な音声認識では、特徴量と各モデルとの距離尺度として対数尤度が用いられる。そのため、ここでは、対数尤度を用いる場合について説明する。サーチ部１０８は、例えば、以下の式４に基づいて、音声及び非音声の対数尤度を計算してもよい。

ここで、logL(y;θ)は、音声（非音声）のパターン列ｙが与えられたときの音声（非音声）の対数尤度であり、y(i)は、音声認識に用いられる特徴量（音声認識特徴量）である。また、μ及びσ（まとめてθと表わす。）は、モデルごとに設定されるパラメータである。なお、ここでは、ｎの値はｎ＝１でもよい。このように、サーチ部１０８は、音声の尤度及び非音声の尤度を音声認識特徴量をもとに算出する。なお、上記説明では、サーチ部１０８が尤度として対数尤度を算出する場合について説明した。ただし、尤度として算出する内容は、対数尤度に限定されない。

ここで、フレームごとの特徴量の時系列と、上記語彙・音素モデルに含まれる各語彙・音素を表すモデルとの対数尤度をＬｓ（ｊ，ｔ）と表す。ｊは、各語彙・音素モデルの一状態を示す。サーチ部１０８は、以下に例示する式５により、補正値算出部１０４が算出した補正値を用いて、対数尤度Ｌｓ（ｊ，ｔ）を補正する。

Ｌｓ（ｊ，ｔ）← Ｌｓ（ｊ，ｔ）＋ｗ ×（Ｘｔ−θ）（式５）
また、フレームごとの特徴量の時系列と、上記非音声モデルに含まれる各非音声を表すモデルとの対数尤度をＬｎ（ｊ，ｔ）と表す。ｊは、非音声モデルの一状態を示す。このとき、サーチ部１０８は、以下に例示する式６により、補正値算出部１０４が算出した補正値を用いて、対数尤度Ｌｎ（ｊ，ｔ）を補正する。

Ｌｎ（ｊ，ｔ）← Ｌｎ（ｊ，ｔ）＋ｗ ×（θ−Ｘｔ）（式６）
サーチ部１０８は、補正された対数尤度の時系列のうち、対数尤度が最大になる音声の語彙もしくは音素のパターン、又は、非音声のパターンを探索することにより、入力音データの時系列に対応する図３に例示する音声３Ｃのような単語列を探索する。例えば、上述の式４を用いる場合、サーチ部１０８は、logL(y;θ)の値を最大化するθの値を求める。また、このとき、サーチ部１０８は、補正された語彙・音素モデルの対数尤度が、補正された非音声モデルの対数尤度より大きい区間を第２の音声区間と判定する。図３に示す例では、サーチ部１０８が、時系列３Ｂのうち破線で区切られた区間を第２の音声区間Ｌ２と判定したことを示す。

以上のように、サーチ部１０８は、対数尤度Ｌｓ及びＬｎを算出し、算出された対数尤度Ｌｓ及びＬｎを、尤度の補正値を用いて補正する。そして、サーチ部１０８は、補正されたＬｓ及びＬｎが、Ｌｓ（ｊ，ｔ）＞Ｌｎ（ｊ，ｔ）を満たす区間を、第２の音声区間と判断する。

なお、上記説明では、サーチ部１０８が式４を用いて対数尤度を算出し、第２の音声区間を判定する場合について説明した。ただし、サーチ部１０８がＡ＊探索やビームサーチといった方法を用いて第２の音声区間を判定してもよい。すなわち、語彙・音素を表すモデル及び非音声を表すモデルを用いたときにＡ＊探索やビームサーチなどにより算出されるスコアは、音声・非音声についての尤度である。そのため、サーチ部１０８は、算出した音声のスコアが非音声のスコアよりも高い区間を第２の音声区間と判定してもよい。

次に、パラメータ更新部１０９は、音声判定部１０３が判定した第１の音声区間と、サーチ部１０８が判定した第２の音声区間とを比較し、音声判定部１０３が用いるパラメータである閾値θの値を更新する（ステップＳ１０６）。具体的には、パラメータ更新部１０９は、第１の音声区間の長さと第２の音声区間の長さに応じて第１の音声区間を判定するための閾値θの値を更新する。

以下、図４及び図５を用いて、パラメータ更新部１０９が閾値θの値を更新する動作について説明する。図４は、第１の音声区間が第２の音声区間よりも長い場合の例を示す説明図である。また、図５は、第１の音声区間が第２の音声区間よりも短い場合の例を示す説明図である。図４に例示するように、第１の音声区間の長さＬ１が第２の音声区間の長さＬ２よりも長い場合、パラメータ更新部１０９は、閾値θをより大きくなるように更新する。反対に、図５に例示するように、第１の音声区間の長さＬ１が第２の音声区間の長さＬ２よりも短い場合、パラメータ更新部１０９は、閾値θをより小さくなるように更新する。具体的には、パラメータ更新部１０９は、以下に例示する式７を用いて閾値θを更新する。

θ ← θ＋ε（Ｌ２−Ｌ１）（式７）
ここで、εはステップサイズを示す正の値であり、一度の更新で閾値θを変化させる量を調整するパラメータである。

上記説明では、パラメータ更新部１０９が音声区間の長さに基づいて閾値θを更新する場合について説明した。他にも、パラメータ更新部１０９は、非音声区間の長さに基づいて閾値θを更新してもよい。この場合、音声判定部１０３は、音声特徴量が閾値θよりも小さい区間を第１の音声区間と判定する。サーチ部１０８は、補正された非音声についての尤度Ｌｎが、補正された音声についての尤度Ｌｓよりも高い区間を第２の音声区間と判定する。

また、上記説明では、パラメータ更新部１０９が音声区間の長さの差異に応じて閾値θの値を更新する場合について説明した。他にも、パラメータ更新部１０９は、音声区間もしくは非音声区間の長さの大小を判定し、その大小に応じて予め定められた値ずつ閾値θを更新してもよい。

例えば、パラメータ更新部１０９は、第２の音声区間の長さＬ２＞第１の音声区間の長さＬ１の場合に、θ←θ＋εと補正し、第２の音声区間の長さＬ２＜第１の音声区間の長さＬ１の場合に、θ←θ−εと補正してもよい。

パラメータ更新部１０９は、例えば、一発声ごとや、一つの音声区間を判定するごとに、閾値θを更新する。ただし、パラメータ更新部１０９が閾値θを更新するタイミングは、上記タイミングに限定されない。例えば、パラメータ更新部１０９は、発話者の指示に応じて閾値θを更新してもよい。そして、パラメータ更新部１０９は、更新された閾値θを用いて、次の発声や次の音声区間に対するステップＳ１０１からステップＳ１０６の処理を繰り返す。

なお、パラメータ更新部１０９は、更新された閾値θを用いて、同一の発声に対するステップＳ１０２からステップＳ１０６の処理を行ってもよい。また、パラメータ更新部１０９は、同一の発声に対するＳ１０２からステップＳ１０６の処理を１回だけでなく、複数回繰り返して行ってもよい。

次に、本実施形態における効果について説明する。以上のように、本実施形態における音声認識装置は、音声判定部１０３が、音声らしさを示す特徴量を時系列の入力音をもとに算出し、閾値θと音声らしさを示す特徴量とを比較して、音声の区間（もしくは非音声の区間）を判定し、第１の音声区間を決定する。また、サーチ部１０８が、音声認識に用いられる特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、第２の音声区間を決定する。そして、パラメータ更新部１０９が、第１の音声区間の長さと第２の音声区間の長さとの差異に応じて閾値θを更新し、音声判定部１０３が、更新された閾値θを用いて第１の音声区間を決定する。このような構成により、音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。

すなわち、補正値算出部１０４が、音声らしさを示す特徴量と閾値θとから尤度の補正値を算出し、サーチ部１０８が、その補正値によって補正された尤度をもとに音声を識別する。そのため、サーチ部１０８が、認識対象となる音声を正しく認識し、それ以外を非音声と判定しやすくなる。このようにして、雑音に頑健な音声認識が実現される。

さらに、パラメータ更新部１０９が、第１の音声区間と第２の音声区間とを比較し、その比較結果に基づいて音声判定部１０３が用いる閾値を更新する。そのため、閾値が雑音環境に対して正しく設定されていない場合や、雑音環境が時刻に応じて変動するような場合であっても、尤度の補正値を正確に求めることが出来るため、より雑音に頑健な音声認識を実現できる。

一般に音声判定部１０３よりもサーチ部１０８の方がより正しく音声区間を判定できる。これは、サーチ部１０８が、単語・音素モデルや非音声モデルなど、より多くの情報を用いて音声区間を判定しているためである。これに対し、音声判定部１０３は、雑音の状況に応じて最適値の異なる閾値を用いて音声区間を判定するため、誤りの混入する可能性が高い。本実施形態における音声認識装置は、音声判定部１０３が判定した第１の音声区間をより正しくするために、パラメータ更新部１０９が、サーチ部１０８が判定した第２の音声区間を用いて閾値を更新する。そのため、音声判定部１０３は、より精度の高い探索を次の発声に対して行うことができる。以上のことから、本発明の目的を達成できる。
実施形態２．
次に、本発明による第２の実施形態について説明する。図６は、本発明の第２の実施形態における音声認識システムの例を示すブロック図である。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。本発明における音声認識システムは、マイクロフォン１０１と、フレーム化部１０２と、音声判定部１１３と、補正値算出部１０４と、特徴量算出部１０５と、非音声モデル格納部１０６と、語彙・音素モデル格納部１０７と、サーチ部１０８と、パラメータ更新部１１９とを備えている。すなわち、第２の実施形態における音声認識システムは、図６に例示するように、第１の実施形態における音声認識システムの構成の音声判定部１０３の代わりに、音声判定部１１３を、パラメータ更新部１０９の代わりに、パラメータ更新部１１９を、それぞれ備えている。

音声判定部１１３は、音声らしさを示す特徴量（すなわち、音声特徴量）を時系列の入力音をもとに算出する。そして、音声判定部１１３は、入力音を音声もしくは非音声に分類する閾値θと音声特徴量とを比較し、その閾値θをもとに決定される音声の区間もしくは非音声の区間に対して、その区間の前後にマージン（以下、マージンｍと記す。）を付加した区間を第１の音声区間と決定する。具体的には、音声判定部１１３は、音声らしさを示す特徴量が、閾値θよりも大きい区間の前後にマージンｍを付加した区間を第１の音声区間と決定する。このように、音声判定部１１３は、音声らしさを示す特徴量が閾値θよりも大きい音声の区間にマージンを加えた区間を第１の音声区間と判定する。閾値θの値は、予め定められた固定の値であってもよく、第１の実施形態に示すように、随時更新される値であってもよい。以下の説明では、閾値θの値として、予め定められた固定の値を用いるものとする。

パラメータ更新部１１９は、第１の音声区間の長さと第２の音声区間の長さの差異に応じてマージンｍを更新する。すなわち、パラメータ更新部１１９は、第１の音声区間と第２の音声区間を比較し、音声判定部１１３が用いるマージンｍの長さを更新する。このとき、音声判定部１１３は、更新されたマージンｍを用いて第１の音声区間を決定する。このように、音声判定部１１３は、パラメータ更新部１１９が更新する値（パラメータ）を用いて第１の音声区間を決定する。パラメータ更新部１１９が更新するマージンｍは、音声判定部１１３が第１の音声区間を決定する際に用いるパラメータである。

その他の構成（マイクロフォン１０１、フレーム化部１０２、補正値算出部１０４、特徴量算出部１０５、非音声モデル格納部１０６、語彙・音素モデル格納部１０７及びサーチ部１０８）については、第１の実施形態と同様である。

フレーム化部１０２と、音声判定部１１３と、補正値算出部１０４と、特徴量算出部１０５と、サーチ部１０８と、パラメータ更新部１１９とは、プログラム（音声認識プログラム）に従って動作するコンピュータのＣＰＵによって実現される。また、フレーム化部１０２と、音声判定部１１３と、補正値算出部１０４と、特徴量算出部１０５と、サーチ部１０８と、パラメータ更新部１１９とは、それぞれが専用のハードウェアで実現されていてもよい。

次に、本実施の形態の動作について、図６及び図２を用いて説明する。本発明の本実施形態における動作は、図２におけるステップＳ１０２とステップＳ１０６が変更されている点で第１の実施形態の動作と異なる。

マイクロフォン１０１が集音した入力音をフレーム化部１０２がフレームごとに切り出すと（ステップＳ１０１）、音声判定部１１３は、フレームごとに切り出された入力音データの音声らしさを示す特徴量（すなわち、音声特徴量）を計算する。音声らしさを示す特徴量を計算する方法は、第１の実施形態と同様である。次に、音声判定部１１３は、音声らしさを示す特徴量と閾値θとを比較し、仮の音声区間を求める。仮の音声区間を求める方法は、第１の実施形態において、第１の音声区間を求める方法と同様である。例えば、音声判定部１１３は、音声らしさを示す特徴量が閾値θよりも大きい区間を仮の音声区間とする。そして、音声判定部１１３は、仮の音声区間の前後にマージンｍを付与した区間を第１の音声区間と判定する（ステップＳ１０２）。

図７は、仮の音声区間にマージンを付与した例を示す説明図である。図７に示す例では、まず、音声判定部１１３が、時系列７Ａが示す特徴量と閾値θとを比較し、閾値θよりも大きい部分を仮の音声区間７１及び音声区間７２とする。ここで、音声判定部１１３は、仮の音声区間の前後にマージンとして、マージン７３ａ、マージン７３ｂ、マージン７３ｃを付加した区間を第１の音声区間と判定する。

以降、補正値算出部１０４が尤度の補正値を算出し、特徴量算出部１０５が音声認識に用いられる特徴量を算出する処理、及び、サーチ部１０８が単語列を探索するとともに第２の音声区間を判定する処理は、第１の実施形態におけるステップＳ１０３〜ステップＳ１０５の処理と同様である。

次に、パラメータ更新部１１９は、音声判定部１１３が判定した第１の音声区間と、サーチ部１０８が判定した第２の音声区間とを比較し、音声判定部１１３が用いるパラメータであるマージンｍの値を更新する（ステップＳ１０６）。ここでは、パラメータ更新部１１９は、第１の音声区間の長さと第２の音声区間の長さに応じて仮の音声区間に付与するマージンｍの値を更新する。

以下、図４及び図５を用いて、パラメータ更新部１１９がマージンｍの値を更新する動作について説明する。図４に例示するように、第１の音声区間の長さＬ１が第２の音声区間の長さＬ２よりも長い場合、パラメータ更新部１１９は、マージンｍをより短くなるように更新する。反対に、図５に例示するように、第１の音声区間の長さＬ１が第２の音声区間の長さＬ２よりも短い場合には、パラメータ更新部１１９は、マージンｍをより長くなるように更新する。具体的には、パラメータ更新部１１９は、以下に例示する式８を用いてマージンｍを更新する。

ｍ ← ｍ＋ε（Ｌ１−Ｌ２）（式８）
ここで、εはステップサイズを示す正の値であり、一度の更新でマージンｍの長さを変化させる量を調整するパラメータである。

上記説明では、パラメータ更新部１１９が音声区間の長さに基づいてマージンｍを更新する場合について説明した。他にも、パラメータ更新部１１９は、非音声区間の長さに基づいてマージンｍを更新してもよい。この場合、音声判定部１１３が、閾値θよりも小さい音声の区間である仮の音声区間にマージンｍを付与した第１の音声区間を判定し、サーチ部１０８が、補正された非音声についての尤度Ｌｎが、補正された音声についての尤度Ｌｓよりも高い区間を第２の音声区間と判定すればよい。

また、パラメータ更新部１１９は、マージンｍの長さだけでなく、第１の実施形態における閾値θの値もあわせて更新してもよい。具体的には、パラメータ更新部１１９は、第１の音声区間の長さが第２の音声区間の長さよりも長い場合に、マージンｍの長さをより短く更新するとともに、閾値θを増加させた値に更新する。また、パラメータ更新部１１９は、第１の音声区間の長さが第２の音声区間の長さよりも短い場合に、マージンｍの長さをより長く更新するとともに、閾値θを減少させた値に更新する。なお、閾値を更新する方法は、第１の実施形態に記載した方法と同様である。

また、上記説明では、パラメータ更新部１１９が音声区間の長さの差異に応じてマージンｍを更新する場合について説明した。他にも、パラメータ更新部１１９は、音声区間もしくは非音声区間の長さの大小を判定し、その大小に応じて予め定められた値ずつマージンｍを更新してもよい。

例えば、パラメータ更新部１１９は、第２の音声区間の長さＬ２＞第１の音声区間の長さＬ１の場合に、ｍ←ｍ＋εと補正し、第２の音声区間の長さＬ２＜第１の音声区間の長さＬ１の場合に、ｍ←ｍ−εと補正してもよい。

パラメータ更新部１１９は、例えば、一発声ごとのタイミングや、一つの音声区間を判定したこと契機としてマージンｍを更新する。ただし、パラメータ更新部１１９がマージンｍを更新するタイミングは、上記タイミングに限定されない。例えば、パラメータ更新部１１９は、発話者の指示に応じてマージンｍを更新してもよい。そして、パラメータ更新部１１９は、更新されたマージンｍを用いて、次の発声や次の音声区間に対するステップＳ１０１からステップＳ１０６の処理を繰り返す。

なお、パラメータ更新部１１９は、更新されたマージンｍを用いて、同一の発声に対するステップＳ１０２からステップＳ１０６の処理を行ってもよい。また、パラメータ更新部１１９は、同一の発声に対するＳ１０２からステップＳ１０６の処理を１回だけでなく、複数回繰り返して行ってもよい。

次に、本実施形態における効果について説明する。以上のように、本実施形態における音声認識装置は、音声判定部１１３が、音声特徴量が閾値θよりも大きい区間の前後にマージンｍを付加した区間を第１の音声区間と決定し、パラメータ更新部１１９が、区間の前後に付加するマージンｍの長さを更新する。そして、音声判定部１１３が、更新されたマージンｍを区間の前後に付加した区間を第１の音声区間と決定する。以上のような構成によっても、音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。

一般的に子音は母音に比べてパワーが小さく、雑音と混同されやすい為、音声区間の前後が欠けやすい。このように、音声認識装置は、前後が欠けやすい音声区間を仮の音声区間とし、この仮の音声区間にマージンｍを付与することにより、音声の欠落を防ぐことができる。

なお、マージンｍの長さを長く設定しすぎると、音声認識の対象以外の音が音声と認識される可能性がある。そのため、マージンｍの長さは、背景雑音に応じて適切に設定されることが望ましい。本実施形態における音声認識装置は、パラメータ更新部１１９が、第１の音声区間の長さと第２の音声区間の長さに基づいてマージンｍの長さを適切に更新するため、雑音に頑健な音声認識が実現でき、本発明の目的を達成できる。

次に、本発明による音声認識システムの最小構成の例を説明する。図８は、本発明による音声認識システムの最小構成の例を示すブロック図である。本発明による音声認識システムは、音声らしさを示す特徴量である音声特徴量（例えば、振幅パワー）を時系列の入力音（例えば、フレームごとに切り出された入力音データ）をもとに算出し、音声もしくは非音声に入力音を分類する値として定められた閾値（例えば、閾値θ）と音声特徴量とを比較して音声の区間（例えば、音声特徴量が閾値θよりも大きい区間）もしくは非音声の区間（例えば、音声特徴量が閾値θよりも小さい区間）を判定し、それらの区間もしくは指定された長さのマージン（例えば、マージンｍ）をそれらの区間の前後に付加した区間を第１の音声区間と決定する音声判定手段８１（例えば、音声判定部１０３）と、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される（例えば、式４を用いて算出される）音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間（例えば、音声の尤度が非音声の尤度よりも高い区間）を第２の音声区間と決定するサーチ手段８２（例えば、サーチ部１０８）と、第１の音声区間の長さと第２の音声区間の長さとの差異に応じて、音声判定手段８１が第１の音声区間を決定する際に用いられる閾値及びマージンのうちの少なくとも一方を更新するパラメータ更新手段８３（例えば、パラメータ更新部１０９、パラメータ更新部１１９）を備えている。

音声判定手段８１は、パラメータ更新手段８３が更新した閾値もしくはマージンを用いて、第１の音声区間を決定する。

上記の構成である音声認識装置は、認識対象以外の音の悪影響を抑えるとともに、対象となる発話区間を正確に推定できる。

なお、少なくとも以下に示すような音声認識システムも、上記に示すいずれかの実施形態に開示されている。
（１）音声らしさを示す特徴量である音声特徴量（例えば、振幅パワー）を時系列の入力音（例えば、フレームごとに切り出された入力音データ）をもとに算出し、音声もしくは非音声に入力音を分類する値として定められた閾値（例えば、閾値θ）と音声特徴量とを比較して音声の区間（例えば、音声特徴量が閾値θよりも大きい区間）もしくは非音声の区間（例えば、音声特徴量が閾値θよりも小さい区間）を判定し、それらの区間もしくは指定された長さのマージン（例えば、マージンｍ）をそれらの区間の前後に付加した区間を第１の音声区間と決定する音声判定手段（例えば、音声判定部１０３）と、音声認識に用いられる特徴量である音声認識特徴量をもとに算出される（例えば、式４を用いて算出される）音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間（例えば、音声の尤度が非音声の尤度よりも高い区間）を第２の音声区間と決定するサーチ手段（例えば、サーチ部１０８）と、第１の音声区間の長さと第２の音声区間の長さとの差異に応じて、音声判定手段が第１の音声区間を決定する際に用いられる閾値及びマージンのうちの少なくとも一方を更新するパラメータ更新手段（例えば、パラメータ更新部１０９、パラメータ更新部１１９）を備え、音声判定手段が、パラメータ更新手段が更新した閾値もしくはマージンを用いて、第１の音声区間を決定する音声認識システム。
（２）パラメータ更新手段が、第１の音声区間の長さが第２の音声区間の長さよりも長い場合に閾値を増加させ、第１の音声区間の長さが第２の音声区間の長さよりも短い場合に閾値を減少させる音声認識システム。
（３）パラメータ更新手段が、第１の音声区間の長さが第２の音声区間の長さよりも長い場合にマージンの長さを短くし、第１の音声区間の長さが第２の音声区間の長さよりも短い場合にマージンの長さを長くする音声認識システム。
（４）音声認識の対象になる音声の語彙もしくは音素のパターンを表す語彙音素モデルを記憶する語彙音素モデル記憶手段（例えば、語彙・音素モデル格納部１０７）と、音声認識の対象になる非音声のパターンを表す非音声モデルを記憶する非音声音声モデル記憶手段（例えば、非音声モデル格納部１０６）とを備え、サーチ手段が、音声認識特徴量をもとに、音声の尤度である前記語彙音素モデルの尤度及び非音声の尤度である前記非音声モデルの尤度を算出し、音声の尤度の最大値が非音声の尤度の最大値よりも大きい場合、音声の尤度が最大になる音声の語彙もしくは音素のパターンを探索し、非音声の尤度の最大値が音声の尤度の最大値よりも大きい場合、非音声の尤度が最大になる非音声のパターンを探索する音声認識システム。
（５）音声特徴量と閾値との差異に応じて、語彙音素モデルの尤度と非音声モデルの尤度のうちの少なくとも１つの尤度を補正する値として用いられる補正値を算出する（例えば、式５もしくは式６を用いて算出する）補正値算出手段（例えば、サーチ部１０８）を備え、サーチ手段が、補正値をもとに補正された尤度に基づいて、第２の音声区間を判定する音声認識システム。
（６）補正値算出手段が、音声特徴量から閾値を減じた値を語彙音素モデルの尤度の補正値として算出し（例えば、式２を用いて補正値を算出し）、閾値から音声特徴量を減じた値を非音声モデルの尤度の補正値として算出する（例えば、式３を用いて補正値を算出する）音声認識システム。
（７）音声判定手段は、時系列の入力音をもとに、振幅パワー、信号雑音比、ゼロ交差数、ガウス混合分布モデルに基づく尤度比若しくはピッチ周波数又はこれらの組合せを音声特徴量として算出する音声認識システム。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。

この出願は、２００９年１２月１０日に出願された日本出願特願２００９−２８０９２７を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第１の音声区間と決定する音声判定手段と、
音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第２の音声区間と決定するサーチ手段と、
前記第１の音声区間の長さと前記第２の音声区間の長さとの差異に応じて、前記音声判定手段が第１の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新手段と、を備え、
前記音声判定手段は、前記パラメータ更新手段が更新した閾値もしくはマージンを用いて、第１の音声区間を決定する
音声認識システム。
前記パラメータ更新手段は、前記第１の音声区間の長さが前記第２の音声区間の長さよりも長い場合に前記閾値を増加させ、前記第１の音声区間の長さが前記第２の音声区間の長さよりも短い場合に前記閾値を減少させる
請求項１に記載の音声認識システム。
前記パラメータ更新手段は、前記第１の音声区間の長さが前記第２の音声区間の長さよりも長い場合に前記マージンの長さを短くし、前記第１の音声区間の長さが前記第２の音声区間の長さよりも短い場合に前記マージンの長さを長くする
請求項１または請求項２に記載の音声認識システム。
音声認識の対象になる音声の語彙もしくは音素のパターンを表す語彙音素モデルを記憶する語彙音素モデル記憶手段と、
音声認識の対象になる非音声のパターンを表す非音声モデルを記憶する非音声モデル記憶手段と、を備え、
前記サーチ手段は、前記音声認識特徴量をもとに、音声の尤度である前記語彙音素モデルの尤度及び非音声の尤度である前記非音声モデルの尤度を算出し、前記音声の尤度の最大値が前記非音声の尤度の最大値よりも大きい場合、前記音声の尤度が最大になる音声の語彙もしくは音素のパターンを探索し、前記非音声の尤度の最大値が音声の尤度の最大値よりも大きい場合、前記非音声の尤度が最大になる非音声のパターンを探索する
請求項１から請求項３のうちのいずれか１項に記載の音声認識システム。
前記音声特徴量と前記閾値との差異に応じて、前記語彙音素モデルの尤度と前記非音声モデルの尤度のうちの少なくとも１つの尤度の補正値を算出する補正値算出手段を備え、
前記サーチ手段は、前記補正値をもとに補正された尤度に基づいて、前記第２の音声区間を判定する
請求項４に記載の音声認識システム。
前記補正値算出手段は、前記音声特徴量から前記閾値を減じた値を前記語彙音素モデルの尤度の前記補正値として算出し、前記閾値から前記音声特徴量を減じた値を前記非音声モデルの尤度の前記補正値として算出する
請求項５記載の音声認識システム。
前記音声判定手段は、前記時系列の入力音をもとに、振幅パワー、信号雑音比、ゼロ交差数、ガウス混合分布モデルに基づく尤度比若しくはピッチ周波数又はこれらの組合せを音声特徴量として算出する
請求項１から請求項６のうちのいずれか１項に記載の音声認識システム。
音声特徴量を時系列の入力音をもとに算出し、
閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしく指定された長さのマージンを当該区間の前後に付加した区間を第１の音声区間と決定し、
音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第２の音声区間と決定し、
前記第１の音声区間の長さと前記第２の音声区間の長さとの差異に応じて、前記第１の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新し、
前記第１の音声区間を判定する際に、更新された閾値もしくはマージンを用いて、第１の音声区間を決定する
音声認識方法。
コンピュータに、
音声特徴量を時系列の入力音をもとに算出し、閾値と前記音声特徴量とを比較して音声の区間もしくは非音声の区間を判定し、当該区間もしくは指定された長さのマージンを当該区間の前後に付加した区間を第１の音声区間と決定する音声判定処理、
音声認識特徴量をもとに算出される音声の尤度及び非音声の尤度に基づいて、音声認識の対象とする区間を第２の音声区間と決定するサーチ処理、および、
前記第１の音声区間の長さと前記第２の音声区間の長さとの差異に応じて、前記音声判定処理で第１の音声区間を決定する際に用いられる前記閾値及び前記マージンのうちの少なくとも一方を更新するパラメータ更新処理を実行させ、
前記音声判定処理で、前記パラメータ更新処理で更新した閾値もしくはマージンを用いて、第１の音声区間を決定させる
音声認識プログラムを格納するプログラム記録媒体。