JPWO2010061505A1

JPWO2010061505A1 - 発話音声検出装置

Info

Publication number: JPWO2010061505A1
Application number: JP2010540300A
Authority: JP
Inventors: 江森　正; 正江森; 剛範辻川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-11-27
Filing date: 2009-09-03
Publication date: 2012-04-19
Anticipated expiration: 2029-09-03
Also published as: US20110202339A1; WO2010061505A1; US8856001B2; JP5459220B2

Abstract

装置１は、入力された音声信号を受け付け（音声受付部１８）、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する（入力パワー算出部１１）。装置１は、周波数と、その周波数に対して算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する（補正関数推定部１４）。装置１は、周波数毎に、推定された補正関数により規定される関係に従って取得される補正係数に基づいて当該入力パワーを補正する（入力パワー補正部１２）。装置１は、補正された入力パワーに基づいて、受け付けられた音声信号が表す音声が発話音声であるか否かを判定する（発話音声検出部１６）。

Description

本発明は、入力された音声が発話音声であるか否かを判定する発話音声検出装置に関する。

入力された音声が発話音声（ユーザが発した音声）であるか否かを判定する発話音声検出装置が知られている。この種の発話音声検出装置の一つとして特許文献１に記載の装置は、複数のマイクロフォンを備える。

更に、この発話音声検出装置は、各マイクロフォンを介して入力された音声信号を受け付ける。そして、発話音声検出装置は、受け付けられた音声信号が表す音声の大きさを表す入力パワー（音声信号の入力パワー）を算出する。発話音声検出装置は、算出した入力パワーに基づいて、各マイクロフォンを介して入力された音声信号が表す音声が発話音声であるか否かを判定する。

ところで、この種の発話音声検出装置においては、同一の音声が各マイクロフォンに対して入力された場合であっても、各マイクロフォンを介して受け付けられた音声信号が表す音声の大きさを表す入力パワー（音声信号の入力パワー）が、マイクロフォンの固体差及び経年劣化の程度、又は、伝送系統（配線等）の相違等により、相違することがある。

このような場合、各マイクロフォンを介して入力された音声信号が表す音声が発話音声であるか否かを、一定の基準に基づいて判定することができない。即ち、各マイクロフォンを介して入力された音声のそれぞれが発話音声であるか否かを高い精度にて判定することができない。そこで、上記発話音声検出装置に、各マイクロフォンを介して受け付けられた音声信号の入力パワーを補正する信号補正装置を適用することが好適であると考えられる。

この種の信号補正装置の一つとして特許文献２に記載の装置は、あるマイクロフォンを介して入力された音声信号を受け付け、受け付けた音声信号の入力パワーを周波数毎に算出する。次いで、信号補正装置は、基準となる基準パワー（例えば、各マイクロフォンを介して入力された音声信号の入力パワーの平均値）と算出された入力パワーとの比を周波数毎に算出し、算出した比に応じて補正係数を設定する。

そして、信号補正装置は、設定された補正係数に基づいて、受け付けられた音声信号の入力パワーを補正する。これにより、周波数毎に、受け付けられた音声信号の入力パワーを基準パワーに近づけることができる。従って、この信号補正装置を上記発話音声検出装置に適用することにより、各マイクロフォンを介して入力された音声のそれぞれが発話音声であるか否かを高い精度にて判定することができる。

特開２００８−１５８０３５号公報特開２００７−６８１２５号公報

ところで、上記信号補正装置においては、何らかの理由により（例えば、入力される音声信号に雑音が重畳することにより、又は、入力される音声信号の伝播に伴う遅延時間が過大であることにより）、ある周波数において、他の周波数よりも過度に大きい（又は、小さい）入力パワーを有する音声信号が入力される場合がある。このような場合、この周波数に対して設定される補正係数は、過小（又は、過大）となってしまう。即ち、このような場合、この周波数にて、受け付けられた音声信号の入力パワーを基準パワーに十分に近づけることができない。

このため、上記信号補正装置を適用した上記発話音声検出装置によっても、入力された音声が発話音声であるか否かを高い精度にて判定することができない場合が生じるという問題があった。

このため、本発明の目的は、上述した課題である「入力された音声が発話音声であるか否かを高い精度にて判定することができない場合が生じること」を解決することが可能な発話音声検出装置を提供することにある。

かかる目的を達成するため本発明の一形態である発話音声検出装置は、
入力された音声信号を受け付ける音声受付手段と、
上記音声受付手段により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行う入力パワー算出手段と、
周波数と、その周波数に対して上記算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行う補正関数推定手段と、
周波数毎に、上記推定された補正関数により規定される関係に従って取得される補正係数を、上記算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行う入力パワー補正手段と、
上記補正された入力パワーに基づいて、上記受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う発話音声検出手段と、
を備える。

また、本発明の他の形態である発話音声検出方法は、
入力された音声信号を受け付ける音声受付手段により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行い、
周波数と、その周波数に対して上記算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行い、
周波数毎に、上記推定された補正関数により規定される関係に従って取得される補正係数を、上記算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行い、
上記補正された入力パワーに基づいて、上記受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う、方法である。

また、本発明の他の形態である発話音声検出プログラムは、
情報処理装置に、
入力された音声信号を受け付ける音声受付手段により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行う入力パワー算出手段と、
周波数と、その周波数に対して上記算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行う補正関数推定手段と、
周波数毎に、上記推定された補正関数により規定される関係に従って取得される補正係数を、上記算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行う入力パワー補正手段と、
上記補正された入力パワーに基づいて、上記受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う発話音声検出手段と、
を実現させるためのプログラムである。

本発明は、以上のように構成されることにより、入力された音声が発話音声であるか否かを高い精度にて判定することができる。

本発明の第１実施形態に係る発話音声検出装置の機能の概略を表すブロック図である。図１に示した発話音声検出装置のＣＰＵが実行する発話音声検出プログラムを示したフローチャートである。複数のマイクロフォンのそれぞれに対して算出された入力パワーの一例を示したグラフである。本発明の第２実施形態に係る発話音声検出装置の機能の概略を表すブロック図である。

以下、本発明に係る、発話音声検出装置、発話音声検出方法、及び、発話音声検出プログラム、の各実施形態について図１〜図４を参照しながら説明する。

＜第１実施形態＞
図１に示したように、第１実施形態に係る発話音声検出装置１は、情報処理装置である。発話音声検出装置１は、図示しない中央処理装置（ＣＰＵ；ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、記憶装置（メモリ及びハードディスク駆動装置（ＨＤＤ））、及び、入力装置を備える。

入力装置は、複数（本例では、Ｌ個（Ｌは整数））のマイクロフォンＭＣ１，…，ＭＣｋ，…，ＭＣＬ（ここで、ｋは、１〜Ｌの整数）と接続されている。各マイクロフォンは、周囲の音声を集音し、集音した音声を表す音声信号を入力装置へ出力する。入力装置は、各マイクロフォンから出力された音声信号を受け付ける。なお、入力装置及びマイクロフォンＭＣ１〜ＭＣＬは、音声受付手段を構成している。

上記のように構成された発話音声検出装置１の機能は、発話音声検出装置１のＣＰＵが後述する図２に示したフローチャートにより表されるプログラム等を実行することにより、実現される。なお、この機能は、論理回路等のハードウェアにより実現されていてもよい。

この発話音声検出装置１は、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して、同様に作動する。従って、以下、複数のマイクロフォンＭＣ１〜ＭＣＬのうちの任意の１つであるマイクロフォンＭＣｋに対する、発話音声検出装置１の機能について説明する。

この発話音声検出装置１の機能は、入力パワー算出部（入力パワー算出手段）１１と、入力パワー補正部（入力パワー補正手段）１２と、時間平均パワー算出部（時間平均パワー算出手段）１３と、補正関数推定部（補正関数推定手段）１４と、補正関数記憶部１５と、発話音声検出部（発話音声検出手段）１６と、を含む。

入力パワー算出部１１は、マイクロフォンＭＣｋから入力された音声信号に対してＡ／Ｄ（アナログデジタル）変換処理を行うことにより、音声信号をアナログ信号からデジタル信号に変換する。

更に、入力パワー算出部１１は、変換後の音声信号を所定の（本例では、一定の）フレーム間隔毎に分割する。入力パワー算出部１１は、以下の処理を、分割された音声信号の各部分（フレーム信号）に対して行う。

入力パワー算出部１１は、フレーム信号に対して、所定の前処理（例えば、プリエンファシス処理、及び、窓関数をかける窓掛け処理等）を行う。次いで、入力パワー算出部１１は、フレーム信号に対して高速フーリエ変換（ＦＦＴ；ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）処理を行うことにより、周波数領域におけるフレーム信号（実数部と虚数部とからなる複素数）を取得する。

そして、入力パワー算出部１１は、周波数毎に、取得されたフレーム信号の実数部を二乗した値と、取得されたフレーム信号の虚数部を二乗した値と、の和を入力パワーｘ_ｉ（ｔ）として算出する。

例えば、デジタル信号として、サンプリング周波数が４４．１ｋＨｚであり且つ１６ビットにて量子化された信号が用いられた場合において、フレーム間隔が１０ｍｓであり、且つ、１０２４点でＦＦＴ処理を行った場合、約４３Ｈｚ毎の入力パワーｘ_ｉ（ｔ）が算出される。ここで、ｉは周波数に対応する番号（この例では、ｉが１だけ増加することと周波数が約４３Ｈｚだけ増加することとが対応している）であり、ｔは、時間軸におけるフレーム信号の位置を表す番号（例えば、フレームを特定するためのフレーム番号）である。

このように、入力パワー算出部１１は、マイクロフォンＭＣｋを介して受け付けられた音声信号を所定のフレーム間隔毎に分割し、当該分割された音声信号の各部分（フレーム信号）に対して入力パワーｘ_ｉ（ｔ）を周波数毎に算出する。

入力パワー補正部１２は、周波数毎に、補正関数記憶部１５により記憶されている補正係数ｆ_ｉを、入力パワー算出部１１により算出された入力パワーｘ_ｉ（ｔ）に乗じることにより、当該パワーｘ_ｉ（ｔ）を補正する。そして、入力パワー補正部１２は、補正した入力パワーｘ’_ｉ（ｔ）を出力する。

ここで、補正係数ｆ_ｉは、補正関数により規定される関係に従って取得された値である。補正関数は、周波数に対応する番号ｉ（即ち、周波数）と、その周波数に対して算出された入力パワーｘ_ｉ（ｔ）をその周波数に対して定められた基準パワーに近づけるための補正係数ｆ_ｉと、の関係を規定する連続関数である。本例では、補正関数は、周波数を変数とする多項式関数である。後述するように、補正関数は、時間平均パワー算出部１３及び補正関数推定部１４によって推定される。

時間平均パワー算出部１３は、入力パワー算出部１１により算出された入力パワー（即ち、音声信号のフレーム間隔毎に分割された各部分に対して算出された入力パワー）ｘ_ｉ（ｔ）のうちの、予め設定された平均用時間Ｔに対応するフレーム信号に対して算出された入力パワーｘ_ｉ（ｔ）を平均した時間平均パワーｘ_ｉ（即ち、異なるｔに対する複数のｘ_ｉ（ｔ）を平均した値）を周波数毎に算出する。

時間平均パワーｘ_ｉは、ＦＦＴ処理の点数の半分の数Ｎだけ存在する。例えば１０２４点でＦＦＴ処理を行った場合、Ｎ＝５１２である。即ち、時間平均パワーｘ_ｉは、ｘ_０，ｘ_１，・・・，ｘ_５１１と５１２個存在する。

補正関数推定部１４は、周波数と、その周波数に対して時間平均パワー算出部１３により算出された時間平均パワーｘ_ｉをその周波数に対して定められた基準パワーｙ_ｉに近づけるための補正係数ｆ_ｉと、の関係を規定する補正関数を推定する。本例では、補正関数推定部１４は、基準パワーｙ_ｉとして、マイクロフォンＭＣ１〜ＭＣＬのうちの基準マイクロフォンとして予め定められた１つのマイクロフォンＭＣｒ（ここで、ｒは、１〜Ｌの整数）に対して時間平均パワー算出部１３により算出された時間平均パワーｘ_ｉを用いる。

具体的には、補正関数推定部１４は、下記式（１）に基づいて行列Ａを算出する。

補正関数推定部１４は、上記式（１）中の行列Ａの各要素における変数ｘ_ｉとして、マイクロフォンＭＣｋに対して時間平均パワー算出部１３により算出された時間平均パワーｘ_ｉを用いる。また、Ｍは、補正関数の次数である。Ｍは、予め設定された値である。Ｍは、０〜２０の値であることが好適である。

更に、補正関数推定部１４は、下記式（２）に基づいてベクトルｂを算出する。

補正関数推定部１４は、上記式（２）中のベクトルｂの各要素における変数ｙ_ｉとして、基準マイクロフォンＭＣｒに対して時間平均パワー算出部１３により算出された時間平均パワー（基準パワー）ｘ_ｉを用いる。

そして、補正関数推定部１４は、算出された行列Ａと、算出されたベクトルｂと、下記式（３）と、に基づいてベクトルａを算出する。ここで、ベクトルａ＝（ａ_１，ａ_２，・・・，ａ_Ｍ）^Ｔである。

更に、補正関数推定部１４は、算出したベクトルａと、下記式（４）と、に基づいて補正係数ｆ_ｉを周波数毎に算出する。下記式（４）は、周波数に対応する番号ｉ（即ち、周波数）を変数とする多項式関数である補正関数を表している。即ち、ベクトルａを算出することは、補正関数を推定することに対応している。

補正関数記憶部１５は、補正関数推定部１４により算出された補正係数ｆ_ｉと、周波数に対応する番号ｉと、を対応付けて記憶装置に記憶させる。

そして、上述したように、入力パワー補正部１２は、入力パワー算出部１１により算出された入力パワーｘ_ｉ（ｔ）を、下記式（５）に基づいて補正する。即ち、入力パワー補正部１２は、周波数毎に、補正関数記憶部１５により記憶されている補正係数ｆ_ｉを、入力パワー算出部１１により算出された入力パワーｘ_ｉ（ｔ）に乗じることにより、当該入力パワーｘ_ｉ（ｔ）を補正する。そして、入力パワー補正部１２は、補正した入力パワーｘ’_ｉ（ｔ）を出力する。

なお、上記式（１）〜（３）は、補正された入力パワーｘ’_ｉと、基準マイクロフォンＭＣｒに対して時間平均パワー算出部１３により算出された時間平均パワー（基準パワー）ｙ_ｉと、の差を二乗した値の、所定の周波数の範囲（本例では、周波数に対応する番号ｉのすべてに対応する範囲）にわたる和を最小とするベクトルａを求めることにより、導出される。

これによれば、受け付けられた音声信号の入力パワーを基準パワーに、十分に近づけることが可能な周波数の範囲を広くすることができる。

具体的には、上記式（１）〜（３）は、基準パワーｙ_ｉと、補正された入力パワーｘ’_ｉ（＝ｆ_ｉｘ_ｉ）と、の差を二乗した関数を、補正関数の各係数ａ_ｊ（ここで、ｊは１〜Ｍの整数）により偏微分した式を０とおくことにより得られるＭ個の方程式を連立させることにより導出される。

発話音声検出部１６は、入力パワー補正部１２により出力（補正）された入力パワーｘ’_ｉ（ｔ）に基づいて、マイクロフォンＭＣｋを介して受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う。

より具体的に述べると、発話音声検出部１６は、雑音パワー取得部（雑音パワー取得手段）１６ａと、信号対雑音比取得部（信号対雑音比取得手段）１６ｂと、を含む。

雑音パワー取得部１６ａは、マイクロフォンＭＣｋを介して受け付けられた音声信号が表す音声のうちの雑音の大きさを表す雑音パワーＮ_ｉ（ｔ）を周波数毎に取得する。

具体的には、雑音パワー取得部１６ａは、周波数毎に、マイクロフォンＭＣｋに対して入力パワー補正部１２により出力された入力パワーｘ’_ｉ（ｔ）が、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して入力パワー補正部１２により出力された入力パワーｘ’_ｉ（ｔ）のうちの最大値である場合、マイクロフォンＭＣｋに対する雑音パワーＮ_ｉ（ｔ）として、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して入力パワー補正部１２により出力された入力パワーｘ’_ｉ（ｔ）のうちの最小値を取得する。

一方、雑音パワー取得部１６ａは、マイクロフォンＭＣｋに対して入力パワー補正部１２により出力された入力パワーｘ’_ｉ（ｔ）が、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して入力パワー補正部１２により出力された入力パワーｘ’_ｉ（ｔ）のうちの最大値でない場合、マイクロフォンＭＣｋに対する雑音パワーＮ_ｉ（ｔ）として、マイクロフォンＭＣｋに対して入力パワー補正部１２により出力された入力パワーｘ’_ｉ（ｔ）を取得する。

即ち、雑音パワー取得部１６ａは、周波数毎に、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して入力パワー補正部１２により出力された入力パワーｘ’_ｉ（ｔ）のうちの最大の入力パワーｘ’_ｉ（ｔ）を算出する基となった音声信号を受け付けたマイクロフォン（パワー最大マイクロフォン）に対する雑音パワーＮ_ｉ（ｔ）として、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して入力パワー補正部１２により出力された入力パワーｘ’_ｉ（ｔ）のうちの最小の入力パワーｘ’_ｉ（ｔ）を取得している、と言うことができる。

更に、雑音パワー取得部１６ａは、周波数毎に、パワー最大マイクロフォン以外のマイクロフォンに対する雑音パワーＮ_ｉ（ｔ）として、そのマイクロフォンに対して入力パワー補正部１２により出力された入力パワーｘ’_ｉ（ｔ）を取得している、と言うことができる。

このように、発話音声検出装置１は、パワー最大マイクロフォンに対する信号対雑音比ＳＮＲ（ｔ）を、他のマイクロフォンに対する信号対雑音比ＳＮＲ（ｔ）よりもより一層大きくするように構成されている。

この結果、パワー最大マイクロフォンを介して入力された音声に基づいて、その音声が発話音声であるか否かを判定することができる。従って、入力された音声が発話音声であるか否かを高い精度にて判定することができる。

また、信号対雑音比取得部１６ｂは、周波数毎に、入力パワー補正部１２により出力された入力パワーｘ’_ｉ（ｔ）を、雑音パワー取得部１６ａにより取得された雑音パワーＮ_ｉ（ｔ）により除することにより周波数毎信号対雑音比ＳＮＲ_ｉ（ｔ）を算出する。更に、信号対雑音比取得部１６ｂは、算出した周波数毎信号対雑音比ＳＮＲ_ｉ（ｔ）を代表する値である信号対雑音比ＳＮＲ（ｔ）として、算出した周波数毎信号対雑音比ＳＮＲ_ｉ（ｔ）の所定の周波数の範囲（本例では、周波数に対応する番号ｉのすべてに対応する範囲）にわたる和を取得する。

なお、信号対雑音比取得部１６ｂは、信号対雑音比ＳＮＲ（ｔ）として、算出した周波数毎信号対雑音比ＳＮＲ_ｉ（ｔ）の最大値を取得するように構成されていてもよい。

発話音声検出部１６は、信号対雑音比取得部１６ｂにより取得された信号対雑音比ＳＮＲ（ｔ）が予め設定された閾値よりも大きい場合、マイクロフォンＭＣｋを介して受け付けられた音声信号が表す音声が発話音声であると判定する。一方、発話音声検出部１６は、信号対雑音比取得部１６ｂにより取得された信号対雑音比ＳＮＲ（ｔ）が上記閾値よりも小さい場合、マイクロフォンＭＣｋを介して受け付けられた音声信号が表す音声が発話音声でないと判定する。

次に、上述した発話音声検出装置１の作動について具体的に述べる。
発話音声検出装置１のＣＰＵは、図２にフローチャートにより示した発話音声検出プログラムを、所定の演算周期が経過する毎に実行するようになっている。

具体的に述べると、ＣＰＵは、発話音声検出プログラムの処理を開始すると、ステップ２０５にて、各マイクロフォンＭＣ１〜ＭＣＬを介して入力された音声信号を受け付ける。そして、ＣＰＵは、受け付けた音声信号をフレーム間隔毎に分割し、分割された音声信号の各部分（フレーム信号）に対する入力パワーｘ_ｉ（ｔ）を算出する入力パワー算出処理を、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して行う（入力パワー算出工程）。

そして、ＣＰＵは、ステップ２１０にて、受け付けた音声信号が白色雑音を表す音声信号であるか否かを判定する。
いま、受け付けた音声信号が白色雑音を表す音声信号である場合を想定して説明を続ける。この場合、発話音声検出装置１は、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して補正関数を推定する補正関数推定処理（記憶装置に記憶されている補正係数ｆ_ｉを更新する処理）を行う。

具体的には、ＣＰＵは、「Ｙｅｓ」と判定してステップ２１５へ進む。そして、ＣＰＵは、上記ステップ２０５にて算出された入力パワー（即ち、音声信号のフレーム間隔毎に分割された各部分に対して算出された入力パワー）ｘ_ｉ（ｔ）のうちの平均用時間Ｔに対応するフレーム信号に対して算出された入力パワーｘ_ｉ（ｔ）を平均した時間平均パワーｘ_ｉを周波数毎に算出する時間平均パワー算出処理を、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して行う（時間平均パワー算出工程）。

そして、ＣＰＵは、ステップ２２０にて、あるマイクロフォンＭＣｋに対して算出された時間平均パワーｘ_ｉ及び基準マイクロフォンＭＣｒに対して算出された時間平均パワーｙ_ｉに基づいて、補正関数を推定する補正関数推定処理を、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して行う。具体的には、ＣＰＵは、上記式（１）〜（３）に基づいてベクトルａを算出する処理を、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して行う（補正関数推定工程）。

次いで、ＣＰＵは、ステップ２２５にて、算出されたベクトルａに基づいて補正係数ｆ_ｉを算出する処理を、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して行う。そして、ＣＰＵは、既に補正係数ｆ_ｉが記憶装置に記憶されている場合には記憶されている補正係数ｆ_ｉを算出した補正係数ｆ_ｉにより更新する。一方、補正係数ｆ_ｉが記憶装置に記憶されていない（最初に補正係数ｆ_ｉが算出された）場合には、算出した補正係数ｆ_ｉを新たに記憶装置に記憶させる。

次に、受け付けた音声信号が白色雑音を表す音声信号でない場合を想定して説明を続ける。この場合、発話音声検出装置１は、マイクロフォンＭＣｋを介して受け付けられた音声信号の入力パワーを補正する入力パワー補正処理を、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して行う。

具体的には、ＣＰＵは、ステップ２１０にて「Ｎｏ」と判定してステップ２３０へ進み、周波数（即ち、周波数に対応する番号ｉ）毎に、記憶装置に記憶されている補正係数ｆ_ｉを、上記ステップ２０５にて算出された入力パワーｘ_ｉ（ｔ）に乗じることにより、当該入力パワーｘ_ｉ（ｔ）を補正する入力パワー補正処理を、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して行う（入力パワー補正工程）。そして、ＣＰＵは、補正した入力パワーｘ’_ｉ（ｔ）を出力する。

次いで、ＣＰＵは、ステップ２３５にて、出力された入力パワーｘ’_ｉ（ｔ）に基づいて、雑音パワーＮ_ｉ（ｔ）を取得する雑音パワー取得処理を、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して行う（雑音パワー取得工程）。

具体的には、ＣＰＵは、周波数毎に、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して出力された入力パワーｘ’_ｉ（ｔ）のうちの最大の入力パワーｘ’_ｉ（ｔ）を算出する基となった音声信号を受け付けたマイクロフォン（パワー最大マイクロフォン）に対する雑音パワーＮ_ｉ（ｔ）として、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して出力された入力パワーｘ’_ｉ（ｔ）のうちの最小の入力パワーｘ’_ｉ（ｔ）を取得する。

更に、ＣＰＵは、周波数毎に、パワー最大マイクロフォン以外のマイクロフォンに対する雑音パワーＮ_ｉ（ｔ）として、そのマイクロフォンに対して出力された入力パワーｘ’_ｉ（ｔ）を取得する。

いま、ＣＰＵが雑音パワーＮ_ｉ（ｔ）を取得する処理の一例について、番号ｉに対応する周波数に着目しながら説明する。ここでは、図３に示したように、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して出力された入力パワーｘ’_ｉ（ｔ）のうちの、マイクロフォンＭＣ１に対して出力された入力パワーｘ’_ｉ（ｔ）が最小であり、マイクロフォンＭＣ２に対して出力された入力パワーｘ’_ｉ（ｔ）が最大である場合を一例として説明する。

この場合、ＣＰＵは、マイクロフォンＭＣ１に対する雑音パワーＮ_ｉ（ｔ）として、マイクロフォンＭＣ１に対して出力された入力パワーｘ’_ｉ（ｔ）を取得する。また、ＣＰＵは、マイクロフォンＭＣ２に対する雑音パワーＮ_ｉ（ｔ）として、マイクロフォンＭＣ１に対して出力された入力パワーｘ’_ｉ（ｔ）を取得する。また、ＣＰＵは、マイクロフォンＭＣｋに対する雑音パワーＮ_ｉ（ｔ）として、マイクロフォンＭＣｋに対して出力された入力パワーｘ’_ｉ（ｔ）を取得する。
このようにして、ＣＰＵは、周波数毎に、雑音パワーＮ_ｉ（ｔ）を複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して取得する。

そして、ＣＰＵは、ステップ２４０にて、周波数毎に、出力された入力パワーｘ’_ｉ（ｔ）を、取得された雑音パワーＮ_ｉ（ｔ）により除することにより周波数毎信号対雑音比ＳＮＲ_ｉ（ｔ）を算出する処理を、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して行う。

更に、ＣＰＵは、算出した周波数毎信号対雑音比ＳＮＲ_ｉ（ｔ）の所定の周波数の範囲（本例では、周波数に対応する番号ｉのすべてに対応する範囲）にわたる和を信号対雑音比ＳＮＲ（ｔ）として取得する処理を、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して行う（信号対雑音比取得工程）。

次いで、ＣＰＵは、ステップ２４５にて、取得された信号対雑音比ＳＮＲ（ｔ）が予め設定された閾値よりも大きいか否かを判定することにより、マイクロフォンＭＣｋを介して受け付けた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して行う（発話音声検出工程）。上述したように、信号対雑音比ＳＮＲ（ｔ）が上記閾値よりも大きいとＣＰＵが判定することは、その信号対雑音比ＳＮＲ（ｔ）に対応するマイクロフォンＭＣｋを介して受け付けられた音声信号が表す音声が発話音声であるとＣＰＵが判定することに対応している。

以上、説明したように、本発明による発話音声検出装置の第１実施形態によれば、発話音声検出装置１は、周波数と補正係数ｆ_ｉとの関係を規定する補正関数を推定し、推定した補正関数に基づいて設定された補正係数ｆ_ｉを、受け付けられた音声信号が表す音声の大きさを表す入力パワー（音声信号の入力パワー）に乗じることにより当該入力パワーを補正する。

これにより、何らかの理由により、ある周波数にて、他の周波数よりも過度に大きい（又は、小さい）入力パワーを有する音声信号が入力された場合であっても、受け付けられた音声信号の入力パワーを基準パワーに十分に近づけることができる。

このように、上記構成によれば、入力された音声信号の入力パワーを補正することにより、その音声信号の入力パワーを高い精度にて基準パワーに近づけることができる。この結果、入力された音声が発話音声（ユーザが発した音声）であるか否かを高い精度にて判定することができる。

更に、上記第１実施形態において、補正関数は、周波数を変数とする多項式関数である。
これによれば、多項式関数の次数Ｍを調整することにより、周波数の変化に対する、補正係数ｆ_ｉの変化の滑らかさの程度を調整することができる。

加えて、上記第１実施形態において、発話音声検出装置１は、複数のマイクロフォンＭＣ１〜ＭＣＬの１つである基準マイクロフォンＭＣｒに対して算出された入力パワーｘ_ｉ（ｔ）を基準パワーｙ_ｉ（ｔ）として用いるように構成されている。

これによれば、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれにより受け付けられた音声信号の入力パワーｘ_ｉ（ｔ）を、基準マイクロフォンＭＣｒにより受け付けられた音声信号の入力パワー（基準パワー）ｙ_ｉ（ｔ）に十分に近づけることができる。

更に、上記第１実施形態において、発話音声検出装置１は、複数のフレーム信号に対して算出された入力パワーｘ_ｉ（ｔ）を平均した時間平均パワーｘ_ｉに基づいて補正関数を推定するように構成されている。

これによれば、各マイクロフォンＭＣｋに対して算出された時間平均パワー、及び、基準マイクロフォンＭＣｒに対して算出された時間平均パワーのそれぞれを算出する基となった音声信号の基となった音声が一致している程度を高めることができる。この結果、各マイクロフォンＭＣｋにより受け付けられた音声信号の入力パワーを補正することにより、その音声信号の入力パワーを基準パワー（基準マイクロフォンＭＣｒに対して算出された時間平均パワー）に十分に近づけることができる。

また、上記構成によれば、例えば、音源から発せられた音声に比較的短い期間において雑音が重畳した場合であっても、その雑音の影響を軽減することができる。従って、各マイクロフォンＭＣｋにより受け付けられた音声信号の入力パワーｘ_ｉ（ｔ）を基準パワーｙ_ｉ（ｔ）に、より一層高い精度にて近づけることができる。

＜第２実施形態＞
次に、本発明の第２実施形態に係る発話音声検出装置について図４を参照しながら説明する。
第２実施形態に係る発話音声検出装置１の機能は、音声受付部（音声受付手段）１８と、入力パワー算出部（入力パワー算出手段）１１と、入力パワー補正部（入力パワー補正手段）１２と、補正関数推定部（補正関数推定手段）１４と、発話音声検出部（発話音声検出手段）１６と、を含む。

音声受付部１８は、入力された音声信号を受け付ける。
入力パワー算出部１１は、音声受付部１８により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行う。

補正関数推定部１４は、周波数と、その周波数に対して入力パワー算出部１１により算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行う。

入力パワー補正部１２は、周波数毎に、補正関数推定部１４により推定された補正関数により規定される関係に従って取得される補正係数を、入力パワー算出部１１により算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行う。

発話音声検出部１６は、入力パワー補正部１２により補正された入力パワーに基づいて、音声受付部１８により受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う。
を備える。

これによれば、発話音声検出装置１は、周波数と補正係数との関係を規定する補正関数を推定し、推定した補正関数に基づいて設定された補正係数を、受け付けられた音声信号が表す音声の大きさを表す入力パワー（音声信号の入力パワー）に乗じることにより当該入力パワーを補正する。

この場合、上記補正関数は、周波数を変数とする多項式関数であることが好適である。

これによれば、多項式関数の次数を調整することにより、周波数の変化に対する、補正係数の変化の滑らかさの程度を調整することができる。

この場合、
上記補正関数推定手段は、上記補正された入力パワーと、上記基準パワーと、の差を二乗した値の、所定の周波数の範囲にわたる和を最小とする上記補正関数を推定するように構成されることが好適である。

この場合、上記発話音声検出手段は、
上記音声受付手段により受け付けられた音声信号が表す音声のうちの雑音の大きさを表す雑音パワーを周波数毎に取得する雑音パワー取得手段と、
周波数毎に、上記補正された入力パワーを上記取得された雑音パワーにより除することにより周波数毎信号対雑音比を算出し、当該算出した周波数毎信号対雑音比を代表する値である信号対雑音比を取得する信号対雑音比取得手段と、を含むとともに、
上記取得された信号対雑音比が予め設定された閾値よりも大きい場合、上記受け付けられた音声信号が表す音声が発話音声であると判定するように構成されることが好適である。

この場合、上記信号対雑音比取得手段は、上記算出された周波数毎信号対雑音比の、所定の周波数の範囲にわたる和を上記信号対雑音比として取得するように構成されることが好適である。

また、上記発話音声検出装置の他の態様において、
上記信号対雑音比取得手段は、上記算出された周波数毎信号対雑音比の最大値を上記信号対雑音比として取得するように構成されることが好適である。

この場合、上記発話音声検出装置は、
上記音声受付手段を複数備えるとともに、
上記入力パワー算出手段は、上記入力パワー算出処理を上記複数の音声受付手段のそれぞれに対して行うように構成され、
上記補正関数推定手段は、上記補正関数推定処理を上記複数の音声受付手段のそれぞれに対して行うように構成され、
上記入力パワー補正手段は、上記入力パワー補正処理を上記複数の音声受付手段のそれぞれに対して行うように構成され、
上記発話音声検出手段は、
上記発話音声検出処理を上記複数の音声受付手段のそれぞれに対して行うように構成されるとともに、周波数毎に、上記入力パワー補正手段により上記複数の音声受付手段のそれぞれに対して補正された入力パワーのうちの最大の入力パワーを算出する基となった音声信号を受け付けた音声受付手段に対する雑音パワーとして、上記入力パワー補正手段により上記複数の音声受付手段のそれぞれに対して補正された入力パワーのうちの最小の入力パワーを用いるように構成されることが好適である。

この場合、上記発話音声検出手段は、
周波数毎に、上記入力パワー補正手段により上記複数の音声受付手段のそれぞれに対して補正された入力パワーのうちの最大の入力パワーを算出する基となった音声信号を受け付けた音声受付手段以外の音声受付手段に対する雑音パワーとして、上記入力パワー補正手段により当該音声受付手段に対して補正された入力パワーを用いるように構成されることが好適である。

ところで、複数の音声受付手段（例えば、マイクロフォン）が比較的近くに配置されている場合、複数の音声受付手段の一つである第１の音声受付手段に対して発せられた音声が、複数の音声受付手段の他の一つである第２の音声受付手段にも入力される。

この場合、第２の音声受付手段を介して入力された音声の信号対雑音比は、第１の音声受付手段を介して入力された音声の信号対雑音比よりも小さいので、仮に、第２の音声受付手段を介して入力された音声に基づいて、その音声が発話音声であるか否かを判定しても、高い精度にて判定することができない。

これに対し、上記構成の発話音声検出装置は、入力パワーのうちの最大の入力パワーを算出する基となった音声信号を受け付けた音声受付手段に対する信号対雑音比を、他の音声受付手段に対する信号対雑音比よりもより一層大きくするように構成されている。

この結果、入力パワーのうちの最大の入力パワーを算出する基となった音声信号を受け付けた音声受付手段を介して入力された音声に基づいて、その音声が発話音声であるか否かを判定することができる。従って、入力された音声が発話音声であるか否かを高い精度にて判定することができる。

この場合、上記補正関数推定手段は、上記入力パワー算出手段により上記複数の音声受付手段の１つに対して算出された入力パワーを上記基準パワーとして用いるように構成されることが好適である。

これによれば、複数の音声受付手段のそれぞれにより受け付けられた音声信号の入力パワーを、複数の音声受付手段の１つ（基準となる音声受付手段）により受け付けられた音声信号の入力パワー（基準パワー）に十分に近づけることができる。

この場合、
上記入力パワー算出手段は、上記音声受付手段により受け付けられた音声信号を所定のフレーム間隔毎に分割し、当該分割された各部分に対して上記入力パワーを周波数毎に算出するように構成され、
上記発話音声検出装置は、
上記入力パワー算出手段により上記音声信号の各部分に対して算出された入力パワーを平均した時間平均パワーを算出する時間平均パワー算出処理を、上記複数の音声受付手段のそれぞれに対して行う時間平均パワー算出手段を備え、
上記補正関数推定手段は、周波数と、その周波数に対して上記算出された時間平均パワーを、上記時間平均パワー算出手段により上記複数の音声受付手段の１つに対して算出され且つその周波数に対して算出された時間平均パワーに近づけるための補正係数と、の関係を規定する上記補正関数を推定する上記補正関数推定処理を上記複数の音声受付手段のそれぞれに対して行うように構成されることが好適である。

ところで、複数の音声受付手段（例えば、マイクロフォン）のそれぞれと、音声信号の基となる音声を発する音源と、の間の距離が比較的大きく異なる場合、音源から各音声受付手段への音の伝播に伴う遅延時間は、比較的大きく異なる。

従って、ある時点にて、複数の音声受付手段の１つである第１の音声受付手段が第１の音声信号を受け付けるとともに、複数の音声受付手段の他の１つである第２の音声受付手段が第２の音声信号を受け付けた場合、受け付けられた第１の音声信号の基となった音声と受け付けられた第２の音声信号の基となった音声とが相違してしまう。

また、第１の音声受付手段から信号補正装置へ音声信号を伝送するために要する時間と、第２の音声受付手段から信号補正装置へ音声信号を伝送するために要する時間と、が比較的大きく異なる場合においても、信号補正装置が第１の音声受付手段を介して受け付けた第１の音声信号の基となった音声と、信号補正装置が第２の音声受付手段を介して受け付けた第２の音声信号の基となった音声と、が相違してしまう。

このような場合、上記発話音声検出装置が、ある時点の音声信号のみに基づいて補正関数を推定するように構成されていると、第１の音声受付手段により受け付けられた音声信号の入力パワーを第２の音声受付手段により受け付けられた音声信号の入力パワー（基準パワー）に十分に近づけることができない。

これに対し、上記構成によれば、第１の音声受付手段に対して算出された時間平均パワー、及び、第２の音声受付手段に対して算出された時間平均パワーのそれぞれを算出する基となった音声信号の基となった音声が一致している程度を高めることができる。この結果、第１の音声受付手段により受け付けられた音声信号の入力パワーを補正することにより、その音声信号の入力パワーを基準パワー（第２の音声受付手段に対して算出された時間平均パワー）に十分に近づけることができる。

また、上記構成によれば、例えば、音源から発せられた音声に比較的短い期間において雑音が重畳した場合であっても、その雑音の影響を軽減することができる。従って、第１の音声受付手段により受け付けられた音声信号の入力パワーを基準パワーに、より一層高い精度にて近づけることができる。

また、上記発話音声検出装置の他の態様において、
上記補正関数推定手段は、上記入力パワー算出手段により上記複数の音声受付手段のそれぞれに対して算出された入力パワーを平均した平均パワーを上記基準パワーとして用いるように構成されることが好適である。

これによれば、ある音声受付手段の近傍にて過大な雑音が発生した場合であっても、その雑音が基準パワーに及ぼす影響を低減することができる。

この場合、
上記入力パワー算出手段は、上記音声受付手段により受け付けられた音声信号を所定のフレーム間隔毎に分割し、当該分割された各部分に対して上記入力パワーを周波数毎に算出するように構成され、
上記発話音声検出装置は、
上記入力パワー算出手段により上記音声信号の各部分に対して算出された入力パワーを平均した時間平均パワーを算出する時間平均パワー算出処理を、上記複数の音声受付手段のそれぞれに対して行う時間平均パワー算出手段を備え、
上記補正関数推定手段は、周波数と、その周波数に対して上記算出された時間平均パワーを、上記時間平均パワー算出手段により上記複数の音声受付手段のそれぞれに対して算出され且つその周波数に対して算出された時間平均パワーを平均した平均時間平均パワーに近づけるための補正係数と、の関係を規定する上記補正関数を推定する上記補正関数推定処理を上記複数の音声受付手段のそれぞれに対して行うように構成されることが好適である。

これによれば、複数の音声受付手段の１つである第１の音声受付手段に対して算出された時間平均パワー、及び、各音声受付手段に対して算出された時間平均パワーを平均した平均時間平均パワーのそれぞれを算出する基となった音声信号の基となった音声が一致している程度を高めることができる。この結果、第１の音声受付手段により受け付けられた音声信号の入力パワーを補正することにより、その音声信号の入力パワーを基準パワー（各音声受付手段に対して算出された時間平均パワーを平均した平均時間平均パワー）に十分に近づけることができる。

この場合、上記補正関数推定手段は、予め記憶された値を上記基準パワーとして用いるように構成されることが好適である。

この場合、上記補正関数推定手段は、上記音声受付手段により受け付けられた音声信号が表す音声が白色雑音である場合、上記補正関数を推定するように構成されることが好適である。

この場合、上記発話音声検出方法は、
上記補正された入力パワーと、上記基準パワーと、の差を二乗した値の、所定の周波数の範囲にわたる和を最小とする上記補正関数を推定するように構成されることが好適である。

この場合、上記発話音声検出方法は、
上記音声受付手段により受け付けられた音声信号が表す音声のうちの雑音の大きさを表す雑音パワーを周波数毎に取得し、
周波数毎に、上記補正された入力パワーを上記取得された雑音パワーにより除することにより周波数毎信号対雑音比を算出し、当該算出した周波数毎信号対雑音比を代表する値である信号対雑音比を取得し、
上記取得された信号対雑音比が予め設定された閾値よりも大きい場合、上記受け付けられた音声信号が表す音声が発話音声であると判定するように構成されることが好適である。

この場合、上記補正関数推定手段は、上記補正された入力パワーと、上記基準パワーと、の差を二乗した値の、所定の周波数の範囲にわたる和を最小とする上記補正関数を推定するように構成されることが好適である。

上述した構成を有する、発話音声検出方法、又は、発話音声検出プログラム、の発明であっても、上記発話音声検出装置と同様の作用を有するために、上述した本発明の目的を達成することができる。

以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。

例えば、上記実施形態の変形例において、補正関数推定部１４は、複数のマイクロフォンＭＣ１〜ＭＣＬのそれぞれに対して時間平均パワー算出部１３により算出された時間平均パワーｘ_ｉを平均した平均時間平均パワーを、基準パワーｙ_ｉとして用いるように構成されていてもよい。

これによれば、あるマイクロフォンの近傍にて過大な雑音が発生した場合であっても、その雑音が基準パワーｙ_ｉに及ぼす影響を低減することができる。

また、上記実施形態の他の変形例において、補正関数推定部１４は、予め記憶装置に記憶された値を基準パワーｙ_ｉとして用いるように構成されていてもよい。

また、上記実施形態においては、補正関数推定部１４は、受け付けられた音声信号が表す音声が白色雑音である場合に補正関数を推定するように構成されていたが、受け付けられた音声信号が表す音声が白色雑音以外の予め定められた音声である場合に補正関数を推定するように構成されていてもよい。

また、上記実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。

また、上記各実施形態においてプログラムは、記憶装置に記憶されていたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。

なお、本発明は、日本国にて２００８年１１月２７日に出願された特願２００８−３０２２４２の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願にて開示された内容のすべてが本明細書に含まれるものとする。

本発明は、複数のマイクロフォンを備え、各マイクロフォンを介して入力された音声が発話音声であるか否かを判定する発話音声検出システム等に適用可能である。

１発話音声検出装置
１１入力パワー算出部
１２入力パワー補正部
１３時間平均パワー算出部
１４補正関数推定部
１５補正関数記憶部
１６発話音声検出部
１６ａ雑音パワー取得部
１６ｂ信号対雑音比取得部
１８音声受付部
ＭＣ１〜ＭＣＬマイクロフォン

そして、補正関数推定部１４は、算出された行列Ａと、算出されたベクトルｂと、下記式（３）と、に基づいてベクトルａを算出する。ここで、ベクトルａ＝（ａ _Ｍ，・・・，ａ _１，ａ _０）^Ｔである。

具体的には、上記式（１）〜（３）は、基準パワーｙ_ｉと、補正された入力パワーｘ’_ｉ（＝ｆ_ｉｘ_ｉ）と、の差を二乗した関数を、補正関数の各係数ａ_ｊ（ここで、ｊは０〜Ｍの整数）により偏微分した式を０とおくことにより得られるＭ＋１個の方程式を連立させることにより導出される。

Claims

入力された音声信号を受け付ける音声受付手段と、
前記音声受付手段により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行う入力パワー算出手段と、
周波数と、その周波数に対して前記算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行う補正関数推定手段と、
周波数毎に、前記推定された補正関数により規定される関係に従って取得される補正係数を、前記算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行う入力パワー補正手段と、
前記補正された入力パワーに基づいて、前記受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う発話音声検出手段と、
を備える発話音声検出装置。
請求項１に記載の発話音声検出装置であって、
前記補正関数は、周波数を変数とする多項式関数である発話音声検出装置。
請求項１又は請求項２に記載の発話音声検出装置であって、
前記補正関数推定手段は、前記補正された入力パワーと、前記基準パワーと、の差を二乗した値の、所定の周波数の範囲にわたる和を最小とする前記補正関数を推定するように構成された発話音声検出装置。
請求項１乃至請求項３のいずれか一項に記載の発話音声検出装置であって、
前記発話音声検出手段は、
前記音声受付手段により受け付けられた音声信号が表す音声のうちの雑音の大きさを表す雑音パワーを周波数毎に取得する雑音パワー取得手段と、
周波数毎に、前記補正された入力パワーを前記取得された雑音パワーにより除することにより周波数毎信号対雑音比を算出し、当該算出した周波数毎信号対雑音比を代表する値である信号対雑音比を取得する信号対雑音比取得手段と、を含むとともに、
前記取得された信号対雑音比が予め設定された閾値よりも大きい場合、前記受け付けられた音声信号が表す音声が発話音声であると判定するように構成された発話音声検出装置。
請求項４に記載の発話音声検出装置であって、
前記信号対雑音比取得手段は、前記算出された周波数毎信号対雑音比の、所定の周波数の範囲にわたる和を前記信号対雑音比として取得するように構成された発話音声検出装置。
請求項４に記載の発話音声検出装置であって、
前記信号対雑音比取得手段は、前記算出された周波数毎信号対雑音比の最大値を前記信号対雑音比として取得するように構成された発話音声検出装置。
請求項４乃至請求項６のいずれか一項に記載の発話音声検出装置であって、
前記音声受付手段を複数備えるとともに、
前記入力パワー算出手段は、前記入力パワー算出処理を前記複数の音声受付手段のそれぞれに対して行うように構成され、
前記補正関数推定手段は、前記補正関数推定処理を前記複数の音声受付手段のそれぞれに対して行うように構成され、
前記入力パワー補正手段は、前記入力パワー補正処理を前記複数の音声受付手段のそれぞれに対して行うように構成され、
前記発話音声検出手段は、
前記発話音声検出処理を前記複数の音声受付手段のそれぞれに対して行うように構成されるとともに、周波数毎に、前記入力パワー補正手段により前記複数の音声受付手段のそれぞれに対して補正された入力パワーのうちの最大の入力パワーを算出する基となった音声信号を受け付けた音声受付手段に対する雑音パワーとして、前記入力パワー補正手段により前記複数の音声受付手段のそれぞれに対して補正された入力パワーのうちの最小の入力パワーを用いるように構成された発話音声検出装置。
請求項７に記載の発話音声検出装置であって、
前記発話音声検出手段は、
周波数毎に、前記入力パワー補正手段により前記複数の音声受付手段のそれぞれに対して補正された入力パワーのうちの最大の入力パワーを算出する基となった音声信号を受け付けた音声受付手段以外の音声受付手段に対する雑音パワーとして、前記入力パワー補正手段により当該音声受付手段に対して補正された入力パワーを用いるように構成された発話音声検出装置。
請求項７又は請求項８に記載の発話音声検出装置であって、
前記補正関数推定手段は、前記入力パワー算出手段により前記複数の音声受付手段の１つに対して算出された入力パワーを前記基準パワーとして用いるように構成された発話音声検出装置。
請求項９に記載の発話音声検出装置であって、
前記入力パワー算出手段は、前記音声受付手段により受け付けられた音声信号を所定のフレーム間隔毎に分割し、当該分割された各部分に対して前記入力パワーを周波数毎に算出するように構成され、
前記発話音声検出装置は、
前記入力パワー算出手段により前記音声信号の各部分に対して算出された入力パワーを平均した時間平均パワーを算出する時間平均パワー算出処理を、前記複数の音声受付手段のそれぞれに対して行う時間平均パワー算出手段を備え、
前記補正関数推定手段は、周波数と、その周波数に対して前記算出された時間平均パワーを、前記時間平均パワー算出手段により前記複数の音声受付手段の１つに対して算出され且つその周波数に対して算出された時間平均パワーに近づけるための補正係数と、の関係を規定する前記補正関数を推定する前記補正関数推定処理を前記複数の音声受付手段のそれぞれに対して行うように構成された発話音声検出装置。
請求項７又は請求項８に記載の発話音声検出装置であって、
前記補正関数推定手段は、前記入力パワー算出手段により前記複数の音声受付手段のそれぞれに対して算出された入力パワーを平均した平均パワーを前記基準パワーとして用いるように構成された発話音声検出装置。
請求項１１に記載の発話音声検出装置であって、
前記入力パワー算出手段は、前記音声受付手段により受け付けられた音声信号を所定のフレーム間隔毎に分割し、当該分割された各部分に対して前記入力パワーを周波数毎に算出するように構成され、
前記発話音声検出装置は、
前記入力パワー算出手段により前記音声信号の各部分に対して算出された入力パワーを平均した時間平均パワーを算出する時間平均パワー算出処理を、前記複数の音声受付手段のそれぞれに対して行う時間平均パワー算出手段を備え、
前記補正関数推定手段は、周波数と、その周波数に対して前記算出された時間平均パワーを、前記時間平均パワー算出手段により前記複数の音声受付手段のそれぞれに対して算出され且つその周波数に対して算出された時間平均パワーを平均した平均時間平均パワーに近づけるための補正係数と、の関係を規定する前記補正関数を推定する前記補正関数推定処理を前記複数の音声受付手段のそれぞれに対して行うように構成された発話音声検出装置。
請求項１乃至請求項１２のいずれか一項に記載の発話音声検出装置であって、
前記補正関数推定手段は、予め記憶された値を前記基準パワーとして用いるように構成された発話音声検出装置。
請求項１乃至請求項１３のいずれか一項に記載の発話音声検出装置であって、
前記補正関数推定手段は、前記音声受付手段により受け付けられた音声信号が表す音声が白色雑音である場合、前記補正関数を推定するように構成された発話音声検出装置。
入力された音声信号を受け付ける音声受付手段により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行い、
周波数と、その周波数に対して前記算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行い、
周波数毎に、前記推定された補正関数により規定される関係に従って取得される補正係数を、前記算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行い、
前記補正された入力パワーに基づいて、前記受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う、発話音声検出方法。
請求項１５に記載の発話音声検出方法であって、
前記補正関数は、周波数を変数とする多項式関数である発話音声検出方法。
請求項１５又は請求項１６に記載の発話音声検出方法であって、
前記補正された入力パワーと、前記基準パワーと、の差を二乗した値の、所定の周波数の範囲にわたる和を最小とする前記補正関数を推定するように構成された発話音声検出方法。
請求項１５乃至請求項１７のいずれか一項に記載の発話音声検出方法であって、
前記音声受付手段により受け付けられた音声信号が表す音声のうちの雑音の大きさを表す雑音パワーを周波数毎に取得し、
周波数毎に、前記補正された入力パワーを前記取得された雑音パワーにより除することにより周波数毎信号対雑音比を算出し、当該算出した周波数毎信号対雑音比を代表する値である信号対雑音比を取得し、
前記取得された信号対雑音比が予め設定された閾値よりも大きい場合、前記受け付けられた音声信号が表す音声が発話音声であると判定するように構成された発話音声検出方法。
情報処理装置に、
入力された音声信号を受け付ける音声受付手段により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行う入力パワー算出手段と、
周波数と、その周波数に対して前記算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行う補正関数推定手段と、
周波数毎に、前記推定された補正関数により規定される関係に従って取得される補正係数を、前記算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行う入力パワー補正手段と、
前記補正された入力パワーに基づいて、前記受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う発話音声検出手段と、
を実現させるための発話音声検出プログラム。
請求項１９に記載の発話音声検出プログラムであって、
前記補正関数は、周波数を変数とする多項式関数である発話音声検出プログラム。
請求項１９又は請求項２０に記載の発話音声検出プログラムであって、
前記補正関数推定手段は、前記補正された入力パワーと、前記基準パワーと、の差を二乗した値の、所定の周波数の範囲にわたる和を最小とする前記補正関数を推定するように構成された発話音声検出プログラム。
請求項１９乃至請求項２１のいずれか一項に記載の発話音声検出プログラムであって、
前記発話音声検出手段は、
前記音声受付手段により受け付けられた音声信号が表す音声のうちの雑音の大きさを表す雑音パワーを周波数毎に取得する雑音パワー取得手段と、
周波数毎に、前記補正された入力パワーを前記取得された雑音パワーにより除することにより周波数毎信号対雑音比を算出し、当該算出した周波数毎信号対雑音比を代表する値である信号対雑音比を取得する信号対雑音比取得手段と、を含むとともに、
前記取得された信号対雑音比が予め設定された閾値よりも大きい場合、前記受け付けられた音声信号が表す音声が発話音声であると判定するように構成された発話音声検出プログラム。