JPWO2015059946A1

JPWO2015059946A1 - 音声検出装置、音声検出方法及びプログラム

Info

Publication number: JPWO2015059946A1
Application number: JP2015543724A
Authority: JP
Inventors: 真寺尾; 剛範辻川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-10-22
Filing date: 2014-05-08
Publication date: 2017-03-09
Anticipated expiration: 2034-05-08
Also published as: WO2015059946A1; US20160267924A1; JP6436088B2

Abstract

音響信号を取得する音響信号取得部（２１）と、複数の第１のフレームの中の音量が第１の閾値以上である第１のフレームを、第１の対象フレームと判定する第１の音声判定部（２５）と、複数の第２のフレームの中の、スペクトル形状を表す特徴量を入力として算出される非音声モデルの尤度に対する音声モデルの尤度の比が第２の閾値以上である第２のフレームを、第２の対象フレームと判定する第２の音声判定部（２６）と、第１の対象フレームに対応する区間、及び、第２の対象フレームに対応する区間の両方に含まれる区間を、対象音声を含む対象音声区間と判定する統合部（２７）と、を備える音声検出装置（１０）。

Description

本発明は、音声検出装置、音声検出方法及びプログラムに関する。

音声区間検出技術とは、音響信号の中から音声（人の声）が存在する時間区間を検出する技術である。音声区間検出は、様々な音響信号処理において重要な役割を担っている。例えば、音声認識では、検出した音声区間のみを認識対象とすることによって、処理量を低減しつつ湧き出し誤りを抑制して認識できる。耐雑音処理では、音声が検出されなかった非音声区間から雑音成分を推定することによって、音声区間の音質を向上できる。音声符号化では、音声区間のみを符号化することによって、効率的に信号を圧縮できる。

音声区間検出技術は音声を検出する技術であるが、たとえ音声であっても目的外の音声は雑音として扱い、検出の対象としないことが一般的である。例えば、携帯電話を介した会話内容を音声認識するために音声検出を用いる場合、検出すべき音声は携帯電話の使用者が発する音声である。携帯電話で送受信される音響信号に含まれる音声としては、携帯電話の使用者が発する音声以外にも、例えば、使用者の周囲にいる人々が会話している音声や、駅構内のアナウンス音声や、ＴＶが発する音声など様々な音声が考えられるが、これらは検出すべきではない音声である。以下では、検出の対象とすべき音声を「対象音声」と呼び、検出の対象とせずに雑音として扱う音声を「音声雑音」と呼ぶ。また、様々な雑音と無音とをあわせて「非音声」と呼ぶこともある。

非特許文献１には、雑音環境下での音声検出精度を向上するために、音響信号の振幅レベル、ゼロ交差数、スペクトル情報およびメルケプストラム係数を入力とした音声ＧＭＭと非音声ＧＭＭとの対数尤度比、の各特徴に基づいて計算される４つのスコアの重み付き和と所定の閾値とを比較することで、音響信号の各フレームが音声か非音声かを判定する手法が提案されている。

特許第４２８２２２７号公報

Yusuke Kida and Tatsuya Kawahara, "Voice Activity Detection based on Optimally Weighted Combination of Multiple Features," Proc. INTERSPEECH 2005, pp.2621-2624, 2005.

しかしながら、非特許文献１に記載の上記手法では、様々な種類の雑音が同時に存在する環境下において、対象音声の区間を適切に検出できない可能性がある。上記手法は、スコアを統合する際の重みの最適値が雑音の種類によって異なるからである。

例えば、ドアが閉まる音や電車の走行音のような雑音が存在する環境下で対象音声を検出するためには、スコアを統合する際に、振幅レベルの重みを小さくし、ＧＭＭ対数尤度の重みを大きくしなければならない。一方、駅構内のアナウンス音声のような音声雑音が存在する環境下で対象音声を検出するためには、スコアを統合する際に、振幅レベルの重みを大きくし、ＧＭＭ対数尤度の重みを小さくしなければならない。したがって、上記手法では、電車の走行音と駅構内のアナウンス音声のような、スコア統合の最適な重みが異なる２種類以上の雑音が同時に存在する環境下では、適切な重みが存在せず対象音声の区間を適切に検出できない場合がある。

本発明は、このような事情に鑑みてなされたものであり、様々な種類の雑音が同時に存在する環境下においても、対象音声の区間を高精度に検出する技術を提供する。

本発明によれば、
音響信号を取得する音響信号取得手段と、
前記音響信号から得られる複数の第１のフレーム各々に対して、音量を計算する処理を実行する音量計算手段と、
前記音量が第１の閾値以上である前記第１のフレームを、第１の対象フレームと判定する第１の音声判定手段と、
前記音響信号から得られる複数の第２のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段と、
前記第２のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段と、
前記尤度の比が第２の閾値以上である前記第２のフレームを、第２の対象フレームと判定する第２の音声判定手段と、
前記音響信号の中の前記第１の対象フレームに対応する第１の対象区間、及び、前記第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段と、
を備える音声検出装置が提供される。

また、本発明によれば、
コンピュータが、
音響信号を取得する音響信号取得工程と、
前記音響信号から得られる複数の第１のフレーム各々に対して、音量を計算する処理を実行する音量計算工程と、
前記音量が第１の閾値以上である前記第１のフレームを、第１の対象フレームと判定する第１の音声判定工程と、
前記音響信号から得られる複数の第２のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程と、
前記第２のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程と、
前記尤度の比が第２の閾値以上である前記第２のフレームを、第２の対象フレームと判定する第２の音声判定工程と、
前記音響信号の中の前記第１の対象フレームに対応する第１の対象区間、及び、前記第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合工程と、
を実行する音声検出方法が提供される。

また、本発明によれば、
コンピュータを、
音響信号を取得する音響信号取得手段、
前記音響信号から得られる複数の第１のフレーム各々に対して、音量を計算する処理を実行する音量計算手段、
前記音量が第１の閾値以上である前記第１のフレームを、第１の対象フレームと判定する第１の音声判定手段、
前記音響信号から得られる複数の第２のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
前記第２のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、
前記尤度の比が第２の閾値以上である前記第２のフレームを、第２の対象フレームと判定する第２の音声判定手段、
前記音響信号の中の前記第１の対象フレームに対応する第１の対象区間、及び、前記第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段、
として機能させるためのプログラムが提供される。

本発明によれば、様々な種類の雑音が同時に存在する環境下においても、対象音声の区間を高精度に検出することができる。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

第１実施形態における音声検出装置の構成例を概念的に示す図である。音響信号から複数のフレームを切り出す処理の具体例を示す図である。第１実施形態における統合部の処理の具体例を示す図である。第１実施形態における音声検出装置の動作例を示すフローチャートである。第１実施形態における音声検出装置の効果を説明する図である。第２実施形態における音声検出装置の構成例を概念的に示す図である。第２実施形態における第１および第２の区間整形部の具体例を示す図である。第２実施形態における音声検出装置の動作例を示すフローチャートである。２種類の音声判定結果をそれぞれ区間整形してから統合する具体例を示す図である。２種類の音声判定結果を統合してから区間整形する具体例を示す図である。駅アナウンス雑音下における音量と尤度比の時系列の具体例を示す図である。ドア開閉雑音下における音量と尤度比の時系列の具体例を示す図である。第２実施形態の変形例における音声検出装置の構成例を概念的に示す図である。第３実施形態における音声検出装置の構成例を概念的に示す図である。第３実施形態における音声検出装置の動作例を示すフローチャートである。尤度比による音声の検出成功例を示す図である。尤度比による非音声の検出成功例を示す図である。尤度比による非音声の検出失敗例を示す図である。第４実施形態における音声検出装置の構成例を概念的に示す図である。本実施形態の音声検出装置のハードウエア構成の一例を概念的に示す図である。

まず、本実施形態の音声検出装置のハードウエア構成の一例について説明する。

本実施形態の音声検出装置は、可搬型の装置であってもよいし、据置型の装置であってもよい。本実施形態の音声検出装置が備える各部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされたプログラム（あらかじめ装置を出荷する段階からメモリ内に格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む）、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インタフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

図２０は、本実施形態の音声検出装置のハードウエア構成の一例を概念的に示す図である。図示するように、本実施形態の音声検出装置は、例えば、バス８Ａで相互に接続されるＣＰＵ１Ａ、ＲＡＭ（Random Access Memory）２Ａ、ＲＯＭ（Read Only Memory）３Ａ、表示制御部４Ａ、ディスプレイ５Ａ、操作受付部６Ａ、操作部７Ａ等を有する。なお、図示しないが、その他、外部機器と有線で接続される入出力Ｉ／Ｆ、外部機器と有線及び／又は無線で通信するための通信部、マイク、スピーカ、カメラ、補助記憶装置等の他の要素を備えてもよい。

ＣＰＵ１Ａは各要素とともに電子機器のコンピュータ全体を制御する。ＲＯＭ３Ａは、コンピュータを動作させるためのプログラムや各種アプリケーションプログラム、それらのプログラムが動作する際に使用する各種設定データなどを記憶する領域を含む。ＲＡＭ２Ａは、プログラムが動作するための作業領域など一時的にデータを記憶する領域を含む。

ディスプレイ５Ａは、表示装置（ＬＥＤ（Light Emitting Diode）表示器、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ等）を有する。なお、ディスプレイ５Ａは、タッチパッドと一体になったタッチパネルディスプレイであってもよい。表示制御部４Ａは、ＶＲＡＭ（Video RAM）に記憶されたデータを読み出し、読み出したデータに対して所定の処理を施した後、ディスプレイ５Ａに送って各種画面表示を行う。操作受付部６Ａは、操作部７Ａを介して各種操作を受付ける。操作部７Ａは、操作キー、操作ボタン、スイッチ、ジョグダイヤル、タッチパネルディスプレイなどである。

以下、本実施の形態について説明する。なお、以下の実施形態の説明において利用する機能ブロック図（図１、６、１３及び１４）は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、各装置は１つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。

［第１実施形態］
［処理構成］
図１は、第１実施形態における音声検出装置の処理構成例を概念的に示す図である。第１実施形態における音声検出装置１０は、音響信号取得部２１、音量計算部２２、スペクトル形状特徴計算部２３、尤度比計算部２４、音声モデル２４１、非音声モデル２４２、第１の音声判定部２５、第２の音声判定部２６、統合部２７等を有する。

音響信号取得部２１は、処理の対象となる音響信号を取得し、取得した音響信号から複数のフレームを切り出す。音響信号は音声検出装置１０に付属するマイクからリアルタイムに取得しても良いし、事前に録音した音響信号を記録媒体や音声検出装置１０が備える補助記憶装置等から取得しても良い。また、音声検出処理を実行するコンピュータとは異なる他のコンピュータからネットワークを介して音響信号を取得しても良い。

音響信号は、時系列なデータである。以下では、音響信号の中の一部のかたまりを「区間」と呼ぶ。各区間は、区間開始時点と区間終了時点とで特定・表現される。音響信号から切り出された（得られた）フレーム各々の識別情報（例：フレームの通番等）で区間開始時点（開始フレーム）及び区間終了時点（終了フレーム）を表現してもよいし、音響信号の開始点からの経過時間で区間開始時点及び区間終了時点を表現してもよいし、その他の手法で表現してもよい。

時系列な音響信号は、検知対象の音声（以下、「対象音声」）を含む区間（以下、「対象音声区間」）と、対象音声を含まない区間（以下、「非対象音声区間」）とに分けられる。時系列順に音響信号を観察すると、対象音声区間と非対象音声区間とが交互に現れる。本実施形態の音声検出装置１０は、音響信号の中の対象音声区間を特定することを目的とする。

図２は、音響信号から複数のフレームを切り出す処理の具体例を示す図である。フレームとは、音響信号における短い時間区間のことである。所定のフレーム長の区間を所定のフレームシフト長ずつずらしていくことで、音響信号から複数のフレームを切り出す。通常、隣り合うフレーム同士は重なり合うように切り出される。例えば、フレーム長として３０ｍｓ、フレームシフト長として１０ｍｓなどを用いれば良い。

音量計算部２２は、音響信号取得部２１が切り出した複数のフレーム（第１のフレーム）各々に対して、第１のフレームの信号の音量を計算する処理を実行する。音量としては、第１のフレームの信号の振幅やパワー、またはそれらの対数値などを用いれば良い。

或いは、第１のフレームにおける信号のレベルと推定雑音のレベルとの比を信号の音量としても良い。例えば、信号のパワーと推定雑音のパワーとの比を第１のフレームの音量としても良い。推定雑音レベルとの比を用いることで、マイクの入力レベル等の変化に頑健に音量を計算することができる。第１のフレームにおける雑音成分の推定には、例えば、特許文献１のような周知の技術を用いれば良い。

第１の音声判定部２５は、第１のフレーム毎に、音量計算部２２が計算した音量とあらかじめ定めた所定の閾値とを比較する。そして、第１の音声判定部２５は、音量が閾値（第１の閾値）以上である第１のフレームは対象音声を含むフレーム（第１の対象フレーム）であると判定し、音量が第１の閾値未満である第１のフレームは対象音声を含まないフレーム（第１の非対象クレーム）であると判定する。第１の閾値は、処理対象の音響信号を用いて決定してもよい。例えば、処理対象の音響信号から切り出した複数の第１のフレーム各々の音量を算出し、算出結果を用いた所定の演算により算出した値（平均値、中間値、上位Ｘ％と下位（１００−Ｘ）％に分ける境界値等）を第１の閾値としてもよい。

スペクトル形状特徴計算部２３は、音響信号取得部２１が切り出した複数のフレーム（第２のフレーム）各々に対して、第２のフレームの信号の周波数スペクトルの形状を表す特徴量を計算する処理を実行する。周波数スペクトルの形状を表す特徴量としては、音声認識の音響モデルでよく用いられるメル周波数ケプストラム係数（ＭＦＣＣ）、線形予測係数（ＬＰＣ係数）、知覚線形予測係数（ＰＬＰ係数）、および、それらの時間差分（Δ、ΔΔ）などの周知の特徴量を用いれば良い。これらの特徴量は、音声と非音声との分類にも有効であることが知られている。

尤度比計算部２４は、第２のフレーム毎に、スペクトル形状特徴計算部２３が計算した特徴量を入力として非音声モデル２４２の尤度に対する音声モデル２４１の尤度の比（以下、単に「尤度比」、「音声対非音声の尤度比」と言う場合がある）Λを計算する。尤度比Λは、数１に示す式で計算する。

ここで、ｘｔは入力特徴量、Θsは音声モデルのパラメータ、Θnは非音声モデルのパラメータである。尤度比は、対数尤度比として計算しても良い。

音声モデル２４１と非音声モデル２４２は、音声区間と非音声区間がラベル付けされた学習用音響信号を用いて事前に学習しておく。このとき、学習用音響信号の非音声区間に、音声検出装置１０を適用する環境で想定される雑音を多く含めておくことが望ましい。モデルとしては、例えば、混合ガウスモデル（ＧＭＭ）を用い、モデルパラメータは最尤推定により学習すれば良い。

第２の音声判定部２６は、尤度比計算部２４が計算した尤度比とあらかじめ定めた所定の閾値（第２の閾値）とを比較する。そして、第２の音声判定部２６は、尤度比が第２の閾値以上である第２のフレームは、対象音声を含むフレーム（第２の対象フレーム）であると判定し、尤度比が第２の閾値未満である第２のフレームは、対象音声を含まないフレーム（第２の非対象フレーム）であると判定する。

なお、音響信号取得部２１は、同じフレーム長および同じフレームシフト長で、音量計算部２２が処理する第１のフレームと、スペクトル形状特徴計算部２３が処理する第２のフレームとを切り出しても良いし、又は、フレーム長及びフレームシフト長の少なくとも一方において異なる値を用いて、第１のフレームと第２のフレームとを別々に切り出しても良い。例えば、第１のフレームはフレーム長１００ｍｓ、フレームシフト長２０ｍｓを用いて切り出し、第２のフレームはフレーム長３０ｍｓ、フレームシフト長１０ｍｓを用いて切り出すこともできる。このようにすることで、音量計算部２２とスペクトル形状特徴計算部２３のそれぞれに最適なフレーム長およびフレームシフト長を用いることができる。

結合部２７は、音響信号の中の第１の対象フレームに対応する第１の対象区間、及び、第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、対象音声を含む対象音声区間と判定する。すなわち、結合部２７は、第１の音声判定部２５および第２の音声判定部２６の両方において対象音声を含むと判定された区間を、検出すべき対象音声を含む区間（対象音声区間）であると判定する。

統合部２７は、第１の対象フレームに対応する区間及び第２の対象フレームに対応する区間を、互いに対比可能な表現（尺度）で特定する。そして、両方に含まれる対象音声区間を特定する。

例えば、第１のフレーム及び第２のフレームのフレーム長及びフレームシフト長が同じである場合、統合部２７は、フレームの識別情報を用いて、第１の対象区間及び第２の対象区間を特定してもよい。この場合、例えば、第１の対象区間は、フレーム番号６〜９、１２〜１９、・・・等と表現され、第２の対象区間は、フレーム番号５〜７、１１〜１９、・・・等と表現される。そして、統合部２７は、第１の対象区間及び第２の対象区間の両方に含まれるフレームを特定する。第１の対象区間及び第２の対象区間が上記例で示される場合、対象音声区間は、フレーム番号６〜７、１２〜１９、・・・と表現される。

その他、統合部２７は、音響信号の開始点からの経過時間を用いて、第１の対象フレームに対応する区間及び第２の対象フレームに対応する区間を特定してもよい。この場合、第１の対象フレーム及び第２の対象フレームに対応する区間を、音響信号の開始点からの経過時間で表現する必要がある。ここで、各フレームに対応する区間を、音響信号の開始点からの経過時間で表現する例について説明する。

各フレームに対応する区間は、各フレームが音響信号から切り出した区間の少なくとも一部となる。図２を用いて説明したように、複数のフレーム（第１及び第２のフレーム）は、前後するフレームと重複部分を有するように切り出される場合がある。このような場合には、各フレームに対応する区間は、各フレームで切り出された区間の一部となる。各フレームで切り出された区間のいずれを対応する区間とするかは設計的事項である。例えば、フレーム長：３０ｍｓ、フレームシフト長：１０ｍｓの場合、音響信号の中の０（開始点）〜３０ｍｓ部分を切り出したフレーム、１０ｍｓ〜４０ｍｓ部分を切り出したフレーム、２０ｍｓ〜５０ｍｓ部分を切り出したフレーム等が存在することとなる。この時、例えば、０（開始点）〜３０ｍｓ部分を切り出したフレームに対応する区間は音響信号の中の０〜１０ｍｓとし、１０ｍｓ〜４０ｍｓ部分を切り出したフレームに対応する区間は音響信号の中の１０ｍｓ〜２０ｍｓとし、２０ｍｓ〜５０ｍｓ部分を切り出したフレームに対応する区間は音響信号の中の２０ｍｓ〜３０ｍｓとしてもよい。このようにすれば、あるフレームに対応する区間は、他のフレームに対応する区間と重なり合わなくなる。なお、複数のフレーム（第１及び第２のフレーム）が前後するフレームと重複しないように切り出された場合、各フレームに対応する区間は、各フレームで切り出された部分の全部とすることができる。

統合部２７は、例えば上述のような手法を用いて、第１の対象フレーム及び第２の対象フレームに対応する区間を、音響信号の開始点からの経過時間で表現する。そして、両方に含まれる時間帯を対象音声区間と特定する。

図３を用いて一例を説明する。図３の例の場合、第１のフレーム及び第２のフレームは、同じフレーム長及び同じフレームシフト長で切り出されている。図３では、対象音声を含むと判定したフレームを「１」で表し、対象音声を含まない（非音声）と判定したフレームを「０」で表す。図中、「第１の判定結果」が第１の音声判定部２５による判定結果であり、「第２の判定結果」が第２の音声判定部２６による判定結果である。そして、「統合判定結果」が統合部２７による判定結果である。図より、統合部２７は、第１の音声判定部２５による第１の判定結果と第２の音声判定部２６による第２の判定結果との両方が「１」であるフレーム、すなわちフレーム番号５〜１５のフレームに対応する区間を、対象音声を含む区間（対象音声区間）であると判定していることが分かる。

第１実施形態の音声検出装置１０は、統合部２７により対象音声区間と判定された区間を音声検出結果として出力する。音声検出結果はフレーム番号で表しても良いし、入力音響信号の先頭からの経過時間などで表しても良い。例えば、図３において、フレームシフト長が１０ｍｓであれば、検出した対象音声区間を５０ｍｓ〜１６０ｍｓと表すこともできる。

［動作例］
以下、第１実施形態における音声検出方法について図４を用いて説明する。図４は、第１実施形態における音声検出装置１０の動作例を示すフローチャートである。

音声検出装置１０は、処理の対象となる音響信号を取得し、音響信号から複数のフレームを切り出す（Ｓ３１）。音声検出装置１０は、機器に付属するマイクからリアルタイムに取得したり、あらかじめ記憶装置媒体や音声検出装置１０に記録された音響データを取得したり、ネットワークを介して他のコンピュータから取得したりすることができる。

次に、音声検出装置１０は、Ｓ３１で切り出された各フレームに対して、当該フレームの信号の音量を計算する処理を実行する（Ｓ３２）。

その後、音声検出装置１０は、Ｓ３２で計算された音量とあらかじめ定めた所定の閾値とを比較して、音量が閾値以上であるフレームを、対象音声を含むフレームであると判定し、音量が閾値未満であるフレームを、対象音声を含まないフレームであると判定する（Ｓ３３）。

次に、音声検出装置１０は、Ｓ３１で切り出された各フレームに対して、当該フレームの信号の周波数スペクトル形状を表す特徴量を計算する処理を実行する（Ｓ３４）。

その後、音声検出装置１０は、Ｓ３４で計算された特徴量を入力として、各フレームに対して、音声モデルの尤度に対する音声モデルの尤度の比を計算する処理を実行する（Ｓ３５）。音声モデル２４１と非音声モデル２４２とは、学習用音響信号を用いた学習によって、あらかじめ作成しておく。

その後、音声検出装置１０は、Ｓ３５で計算された尤度比とあらかじめ定めた所定の閾値とを比較して、尤度比が閾値以上であるフレームを、対象音声を含むフレームであると判定し、尤度比が閾値未満であるフレームを、対象音声を含まないフレームであると判定する（Ｓ３６）。

次に、音声検出装置１０は、Ｓ３３で対象音声を含むと判定されたフレームに対応する区間と、Ｓ３６で対象音声を含むと判定されたフレームに対応する区間との両方に含まれる区間を、検出すべき対象音声を含む区間（対象音声区間）であると判定する（Ｓ３７）。

その後、音声検出装置１０は、Ｓ３７で判定された対象音声区間の検出結果を示す出力データを生成する（Ｓ３８）。この出力データは、音声検出結果を用いる他のアプリケーション、例えば、音声認識、耐雑音処理、符号化処理などに出力するためのデータであっても良いし、ディスプレイなどに表示させるためのデータであっても良い。

音声検出装置１０の動作は、図４の動作例に限られるものではない。例えば、Ｓ３２〜Ｓ３３の処理と、Ｓ３４〜Ｓ３６の処理とは、順番を入れ替えて実行しても良い。これらの処理は同時並列に実行しても良い。また、リアルタイムに入力される音響信号を処理する場合等においては、Ｓ３１〜Ｓ３７の各処理を１フレームずつ繰り返し実行しても良い。例えば、Ｓ３１では入力された音響信号から１フレーム分を切り出し、Ｓ３２〜Ｓ３３およびＳ３４〜Ｓ３６では切り出された１フレーム分のみを処理し、Ｓ３７ではＳ３３とＳ３６による判定が完了したフレームのみを処理し、入力された音響信号すべてを処理し終わるまでＳ３１〜Ｓ３７を繰り返し実行するように動作しても良い。

［第１実施形態の作用及び効果］
上述したように第１実施形態では、音量が所定の閾値以上であり、かつ、周波数スペクトルの形状を表す特徴量を入力としたときの非音声モデルの尤度に対する音声モデルの尤度の比が所定の閾値以上である区間を、対象音声区間として検出する。従って、第１実施形態によれば、様々な種類の雑音が同時に存在する環境下においても、対象音声の区間を高精度に検出することができる。

図５は、第１実施形態の音声検出装置１０が、様々な種類の雑音が同時に存在しても正しく対象音声を検出できる仕組みを説明する図である。図５は、検出すべき対象音声と、検出すべきではない雑音とを「音量」と「尤度比」の２軸で表される空間上に配置した図である。検出すべき「対象音声」は、マイクに近い位置で発せられるため音量が大きく、また、人の声であるため尤度比も大きくなる。

本発明者らは、音声検出技術を適用する様々な場面における背景雑音を分析した結果、様々な種類の雑音は大きく「音声雑音」と「機械雑音」の２種類に分類でき、両雑音は「音量」と「尤度比」の空間上で図５のようにＬ字型に分布していることを見出した。

音声雑音は、前述したとおり、人の声を含む雑音である。例えば、周囲の人々の会話音声、駅構内のアナウンス音声、ＴＶが発する音声などである。音声検出技術の適用場面では、これらの音声を検出したくないことがほとんどである。音声雑音は人の声であるため、音声対非音声の尤度比は大きくなる。従って、尤度比で音声雑音と検出すべき対象音声とを区別することはできない。一方で、音声雑音はマイクから離れたところで発せられているため、音量は小さくなる。図５においては、音声雑音の大半は音量が第１の閾値ｔｈ１よりも小さな領域に存在する。従って、音量が第１の閾値以上である場合に対象音声と判定することで、音声雑音を棄却することができる。

機械雑音は、人の声を含まない雑音である。例えば、道路工事の音、自動車の走行音、ドアの開閉音、キーボードの打鍵音などである。機械雑音の音量は小さいことも大きいこともあり、場合によっては検出すべき対象音声と同等かそれ以上に大きいこともある。従って、音量で機械雑音と対象音声とを区別することはできない。一方で、機械雑音が非音声モデルとして適切に学習されていれば、機械雑音の音声対非音声の尤度比は小さくなる。図５においては、機械雑音の大半は尤度比が第２の閾値ｔｈ２よりも小さな領域に存在する。従って、尤度比が所定の閾値以上である場合に対象音声と判定することで、機械雑音を棄却することができる。

第１実施形態の音声検出装置１０は、音量計算部２２および第１の音声判定部２５が、音量が小さい雑音、すなわち音声雑音を棄却するよう動作する。また、スペクトル形状特徴計算部２３、尤度比計算部２４および第２の音声判定部２６が、尤度比が小さい雑音、すなわち機械雑音を棄却するよう動作する。そして、統合部２７が第１の音声判定部と第２の音声判定部の両方で対象音声を含むと判定された区間を対象音声区間として検出する。従って、音声雑音と機械雑音が同時に存在する環境下でも両雑音を誤検出することなく、対象音声区間のみを高精度に検出できる。

［第２実施形態］
以下、第２実施形態における音声検出装置について、第１実施形態と異なる内容を中心に説明する。以下の説明では、第１実施形態と同様の内容については適宜省略する。

［処理構成］
図６は、第２実施形態における音声検出装置１０の処理構成例を概念的に示す図である。第２実施形態における音声検出装置１０は、第１実施形態の構成に加えて、第１の区間整形部４１および第２の区間整形部４２を更に有する。

第１の区間整形部４１は、第１の音声判定部２５の判定結果に対して、所定の値より短い対象音声区間と所定の値より短い非音声区間を除去する整形処理を施すことで、各フレームが音声か否かを判定する。

例えば、第１の区間整形部４１は、第１の音声判定部２５による判定結果に対して、以下の２つの整形処理のうちの少なくとも一方を実行する。そして、第１の区間整形部４１は、整形処理を行った後、整形処理後の判定結果を統合部２７に入力する。

「音響信号の中の互いに分離した複数の第１の対象区間（第１の音声判定部２５が対象音声を含むと判定した第１の対象フレームに対応する区間）の内、長さが所定の値より短い第１の対象区間に対応する第１の対象フレームを、第１の対象フレームでない第１のフレームに変更する整形処理」

「音響信号の中の互いに分離した複数の第１の非対象区間（第１の音声判定部２５が対象音声を含まないと判定した第１の対象フレームに対応する区間）の内、長さが所定の値より短い第１の非対象区間に対応する第１のフレームを第１の対象フレームに変更する整形処理」

図７は、第１の区間整形部４１が、長さがＮｓ秒未満の第１の対象区間を第１の非対象区間とする整形処理、及び、長さがＮｅ秒未満の第１の非対象区間を第１の対象区間とする整形処理の具体例を示す図である。なお、長さは秒以外の単位、例えばフレーム数で測っても良い。

図７の上段は、整形前の音声検出結果、すなわち第１の音声判定部２５の出力を表す。図７の下段は、整形後の音声検出結果を表す。図７の上段を見ると、時刻Ｔ１で対象音声を含むと判定されているが、連続して対象音声を含むと判定された区間（ａ）の長さがＮｓ秒未満である。このため、第１の対象区間（ａ）は第１の非対象区間に変更される（図７の下段参照）。一方、図７の上段を見ると、時刻Ｔ２から始まる第１の対象区間は長さがＮｓ秒以上であるため、第１の非対象区間に変更されず、そのまま第１の対象区間となる（図７の下段参照）。すなわち、時刻Ｔ３において、時刻Ｔ２を音声検出区間（第１の対象区間）の始端として確定する。

図７の上段を見ると、時刻Ｔ４で非音声と判定されているが、連続して非音声と判定された区間（ｂ）の長さがＮｅ秒未満である。このため、第１の非対象区間（ｂ）は第１の対象区間に変更される（図７の下段参照）。また、図７の上段を見ると、時刻Ｔ５から始まる第１の非対象区間（ｃ）も長さがＮｅ秒未満である。このため、第１の非対象区間（ｃ）も第１の対象区間に変更される（図７の下段参照）。一方、図７の上段を見ると、時刻Ｔ６から始まる第１の非対象区間は長さがＮｅ秒以上であるため、第１の対象区間に変更されず、そのまま第１の非対象区間となる（図７の下段参照）。すなわち、時刻Ｔ７において、時刻Ｔ６を音声検出区間（第１の対象区間）の終端として確定する。

なお、整形に用いるパラメータＮｓおよびＮｅは、開発用のデータを用いた評価実験等により、あらかじめ適切な値に設定しておく。

以上の整形処理によって、図７の上段の音声検出結果が、下段の音声検出結果に整形される。音声検出区間の整形処理は、上記の手順に限定されるものではない。例えば、上記の手順を経て得られた区間に対してさらに一定長以下の音声区間を除去する処理を加えても良いし、他の方法によって音声検出区間を整形しても良い。

第２の区間整形部４２は、第２の音声判定部２６の判定結果に対して、所定の値より短い音声区間と所定の値より短い非音声区間を除去する整形処理を施すことで、各フレームが音声か否かを判定する。

例えば、第２の区間整形部４２は、第２の音声判定部２６による判定結果に対して、以下の２つの整形処理のうちの少なくとも一方を実行する。そして、第２の区間整形部４２は、整形処理を行った後、整形処理後の判定結果を統合部２７に入力する。

「音響信号の中の互いに分離した複数の第２の対象区間（第２の音声判定部２６が対象音声を含むと判定した第２の対象フレームに対応する区間）の内、長さが所定の値より短い第２の対象区間に対応する第２の対象フレームを、第２の対象フレームでない第２のフレームに変更する整形処理」

「音響信号の中の互いに分離した複数の第２の非対象区間（第２の音声判定部２６が対象音声を含まないと判定した第２の対象フレームに対応する区間）の内、長さが所定の値より短い第２の非対象区間に対応する第２のフレームを第２の対象フレームに変更する整形処理」

第２の区間整形部４２の処理内容は第１の区間整形部４１と同じであり、入力が第１の音声判定部２５の判定結果ではなく、第２の音声判定部２６の判定結果となった点が異なる。整形に用いるパラメータ、例えば、図７の例におけるＮｓおよびＮｅは、第１の区間整形部４１と第２の区間整形部４２とで異なっても良い。

統合部２７は、第１の区間整形部４１および第２の区間整形部４２から入力された整形処理後の判定結果を用いて、対象音声区間を判定する。すなわち、統合部２７は、第１の区間整形部４１および第２の区間整形部４２の両方において対象音声を含むと判定された区間を対象音声区間と判定する。すなわち、第２実施形態の統合部２７の処理内容は第１実施形態の統合部２７と同じであり、入力が第１の音声判定部２５および第２の音声判定部２６の判定結果ではなく、第１の区間整形部４１および第２の区間整形部４２の判定結果である点が異なる。

第２実施形態の音声検出装置１０は、統合部２７により対象音声であると判定された区間を音声検出結果として出力する。

[動作例]
以下、第２実施形態における音声検出方法について図８を用いて説明する。図８は、第２実施形態における音声検出装置の動作例を示すフローチャートである。図８では、図４と同じ工程については、図４と同じ符号が付されている。同じ工程の説明は、ここでは省略する。

Ｓ５１では、音声検出装置１０は、Ｓ３３の音量に基づく判定結果に整形処理を施すことで、各第１のフレームが対象音声を含むか否か判定する。

Ｓ５２では、音声検出装置１０は、Ｓ３６の尤度比に基づく判定結果に整形処理を施すことで、各第２のフレームが対象音声を含むか否か判定する。

音声検出装置１０は、Ｓ５１で対象音声を含むと判定された第１のフレームで特定される区間、及び、Ｓ５２で対象音声を含むと判定された第２のフレームで特定される区間の両方に含まれる区間を、検出すべき対象音声を含む区間（対象音声区間）であると判定する（Ｓ３７）。

音声検出装置１０の動作は、図８の動作例に限られるものではない。例えば、Ｓ３２〜Ｓ５１の処理と、Ｓ３４〜Ｓ５２の処理とは、順番を入れ替えて実行しても良い。これらの処理は同時並列に実行しても良い。また、リアルタイムに入力される音響信号を処理する場合等においては、Ｓ３１〜Ｓ３７の各処理を１フレームずつ繰り返し実行しても良い。このとき、Ｓ５１やＳ５２の整形処理は、あるフレームが音声か非音声かを判定するために、当該フレームより後のいくつかのフレームについてＳ３３やＳ３６の判定結果が必要となる。従って、Ｓ５１やＳ５２の判定結果は判定に必要なフレーム数分だけリアルタイムより遅れて出力される。Ｓ３７の処理は、Ｓ５１やＳ５２による判定結果が得られた区間に対して実行するように動作すればよい。

［第２実施形態の作用及び効果］
上述したように、第２実施形態では、音量に基づく音声検出結果に対して整形処理を施すとともに、尤度比に基づく音声検出結果に対して別の整形処理を施した上で、それら２つの整形結果の両方において対象音声を含むと判定された区間を、対象音声区間として検出する。従って、第２実施形態によれば、様々な種類の雑音が同時に存在する環境下においても対象音声の区間を高精度に検出でき、かつ、発話中の息継ぎ等の短い間によって音声検出区間が細切れになることを防ぐことができる。

図９は、第２実施形態の音声検出装置１０が、音声検出区間が細切れになることを防ぐことができる仕組みを説明する図である。図９は、検出すべき１つの発話が入力されたときの、第２実施形態の音声検出装置１０の各部の出力を模式的に表した図である。

図９の「音量による判定結果（Ａ）」は第１の音声判定部２５の判定結果を表し、「尤度比による判定結果（Ｂ）」は第２の音声判定部２６の判定結果を表す。図で示されるように、たとえ一続きの発話であっても、音量による判定結果（Ａ）と尤度比による判定結果（Ｂ）は互いに分離した複数の第１及び第２の対象区間（音声区間）と第１及び第２の非対象区間（非音声区間）から構成されることが多い。例えば、一続きの発話であっても音量は常に変動しており、部分的に数十ｍｓ〜１００ｍｓ程度音量が低下することはよくみられる。また、一続きの発話であっても、音素の境界などにおいて部分的に数十ｍｓ〜１００ｍｓ程度尤度比が低下することもよくみられる。さらに、音量による判定結果（Ａ）と尤度比による判定結果（Ｂ）とでは、対象音声を含むと判定される区間の位置が一致しないことが多い。これは、音量と尤度比がそれぞれ音響信号の異なる特徴を捉えているためである。

図９の「（Ａ）の整形結果」は第１の区間整形部４１の整形結果を表し、「（Ｂ）の整形結果」は第２区間整形部４２の整形結果を表す。整形処理によって、音量に基づく判定結果中の第１の非対象区間（非音声区間）（ｄ）〜（ｆ）、及び、尤度比に基づく判定結果中の短い第２の非対象区間（非音声区間）（ｇ）〜（ｊ）が対象音声区間（音声区間）に変更されて、それぞれ１つの第１及び第２の対象音声区間が得られている。

図９の「統合結果」は統合部２７の判定結果を表す。第１の区間整形部４１および第２の区間整形部４２が短い第１及び第２の非対象区間（非音声区間）を除去（第１及び第２の対象音声区間に変更）しているため、統合結果として１つの発話区間が正しく検出されている。

第２実施形態の音声検出装置１０は、以上のように動作するため、検出すべき１つの発話区間が細切れになることを防ぐことができる。

このような効果は、音量に基づく判定結果、及び、尤度比に基づく判定結果のそれぞれに対して独立に区間整形処理を施した上で、それらを統合する構成としたからこそ得られる効果である。図１０は、図９と同じ入力信号に対して、第１実施形態の音声検出装置１０を適用し、第１実施形態の統合部２７の判定結果に対して整形処理を施した場合の各部の出力を模式的に表した図である。図１０の「（Ａ）、（Ｂ）の統合結果」は第１実施形態の統合部２７の判定結果を表し、「整形結果」は得られた判定結果に対して整形処理を施した結果を表す。前述したように、音声による判定結果（Ａ）と尤度比による判定結果（Ｂ）とでは、対象音声を含むと判定される区間の位置は一致しない。そのため、（Ａ）、（Ｂ）の統合結果には、長い非音声区間が現れることがある。図１０における区間（ｌ）がそのような長い非音声区間である。区間（ｌ）の長さは整形処理のパラメータＮｅよりも長いため、整形処理によって除去（対象音声区間に変更）されず、非音声の区間（ｏ）として残ってしまう。すなわち、統合部２７の結果に対して整形処理を施した場合、一続きの発話区間であっても、検出する音声区間が細切れになりやすい。

第２実施形態の音声検出装置１０によれば、２種類の判定結果を統合する前に、それぞれの判定結果に対して区間整形処理を施すため、一続きの発話区間を細切れにせずに１つの音声区間として検出することができる。

このように、発話の途中で音声検出区間が途切れないように動作することは、検出された音声区間に対して音声認識を適用する場合などにおいて特に効果がある。例えば、音声認識を用いた機器操作においては、発話の途中で音声検出区間が途切れてしまうと、発話の全てを音声認識することができないため、機器操作の内容を正しく認識できない。また、話し言葉では発話が途切れる言い淀み現象が頻発するが、言い淀みによって検出区間が分断されると音声認識の精度が低下しがちである。

以下では、音声雑音下、及び、機械雑音下における音声検出の具体例を示す。

図１１は、駅アナウンス雑音下において一続きの発話を行った場合の、音量と尤度比の時系列である。１．４〜３．４秒の区間が検出すべき対象音声区間である。駅アナウンス雑音は音声雑音であるため、発話が終了した後の区間（ｐ）においても尤度比は大きい値が継続している。一方、区間（ｐ）における音量は小さい値となっている。従って、第１および第２の実施形態の音声検出装置１０によれば、区間（ｐ）は正しく非音声と判定される。さらに、検出すべき対象音声区間（１．４〜３．４秒）では、音量と尤度比が大小の変化を繰り返し、その変化位置も異なっているが、第２実施形態の音声検出装置１０によればこのような場合でも、発話区間が途切れることなく、検出すべき対象音声区間を正しく１つの音声区間として検出できる。

図１２は、ドアが閉まる音（５．５〜５．９秒）が存在するときに一続きの発話を行った場合の、音量と尤度比の時系列である。１．３〜２．９秒の区間が検出すべき対象音声区間である。ドアが閉まる音は機械雑音であり、この事例では音量が対象音声区間以上に大きい値となっている。一方、ドアが閉まる音の尤度比は小さい値となっている。従って、第１および第２の実施形態の音声検出装置１０によれば、このドアが閉まる音は正しく非音声と判定される。さらに、検出すべき対象音声区間（１．３〜２．９秒）では、音量と尤度比が大小の変化を繰り返し、その変化位置も異なっているが、第２実施形態の音声検出装置１０によればこのような場合でも検出すべき対象音声区間を正しく１つの音声区間として検出できる。このように、第２実施形態の音声検出装置１０は、現実の様々な雑音環境下において効果的であることが確認されている。

［第２実施形態の変形例］
図１３は、第２実施形態の変形例における音声検出装置１０の処理構成例を概念的に示す図である。本変形例の構成は第２実施形態の構成と同じであり、スペクトル形状特徴計算部２３が、第１の区間整形部４１が対象音声を含むと判定した区間（第１の区間整形部４１による整形処理後の第１の対象フレームで特定される区間）の音響信号に対してのみ特徴量を計算する点が異なる。尤度比計算部２４、第２の音声判定部２６、及び、第２の区間整形部は、スペクトル形状特徴計算部２３が特徴量を計算したフレームのみを対象に処理を行う。

本変形例によれば、第１の区間整形部４１が対象音声を含むと判定した区間に対してのみ、スペクトル形状特徴計算部２３、尤度比計算部２４、第２の音声判定部２６、及び、第２の区間整形部４２が動作するため、計算量を大きく削減できる。統合部２７は、少なくとも第１の区間整形部４１が対象音声を含むと判定した区間でなければ対象音声区間と判定しないため、本変形例によれば、同じ検出結果を出力しつつ計算量を削減できる。

［第３実施形態］
以下、第３実施形態における音声検出装置１０について、第１実施形態と異なる内容を中心に説明する。以下の説明では、第１実施形態と同様の内容については適宜省略する。
［処理構成］

図１４は、第３実施形態における音声検出装置１０の処理構成例を概念的に示す図である。第３実施形態における音声検出装置１０は、第１実施形態の構成に加えて、事後確率計算部６１、事後確率ベース特徴計算部６２、及び、棄却部６３を更に有する。

事後確率計算部６１は、音響信号取得部２１が切り出した複数のフレーム（第３のフレーム）各々からスペクトル形状特徴計算部２３が計算した特徴量を入力とし、第３のフレーム毎に音声モデル２４１を用いて複数の音素の事後確率ｐ（ｑｋ|ｘｔ）を計算する。ここで、ｘｔは時刻ｔの特徴量、ｑｋは音素ｋを表す。なお、図１４では尤度比計算部２４が用いる音声モデルと事後確率計算部６１が用いる音声モデルとが共有されているが、尤度比計算部２４と事後確率計算部６１はそれぞれ異なる音声モデルを用いても良い。また、スペクトル形状特徴計算部２３は、尤度比計算部２４が用いる特徴量と、事後確率計算部６１が用いる特徴量とで異なる特徴量を計算しても良い。第３のフレーム群は、フレーム長及びフレームシフト長の少なくとも一方が第１のフレーム群及び／又は第２のフレーム群と異なってもよいし、第１のフレーム群及び／又は第２のフレーム群と一致していてもよい。

事後確率計算部６１が用いる音声モデルとしては、例えば、音素ごとに学習した混合ガウスモデル（音素ＧＭＭ）を用いることができる。音素ＧＭＭは、例えば、/ａ/、/ｉ/、 /ｕ/、/ｅ/、/ｏ/などの音素ラベルを付与した学習用音声データを用いて学習すれば良い。時刻ｔにおける音素ｑｋの事後確率ｐ（ｑｋ|ｘｔ）は、各音素の事前確率ｐ（ｑｋ）が音素ｋによらずに等しいと仮定することで、音素ＧＭＭの尤度ｐ（ｘｔ|ｑｋ）を用いて数２により計算できる。

音素事後確率の計算方法はＧＭＭを用いる方法に限るものではない。例えば、ニューラルネットワークを用いて、音素事後確率を直接計算するモデルを学習しても良い。

また、学習用音声データに対して音素ラベルを付与することなしに、音素に相当する複数のモデルを学習データから自動的に学習しても良い。例えば、人の声のみを含む学習用音声データを用いて１つのＧＭＭを学習し、学習された各ガウス分布の１つ１つを疑似的に音素のモデルと考えても良い。例えば、混合数３２のＧＭＭを学習すれば、学習された３２の単一ガウス分布は疑似的に複数の音素の特徴を表すモデルである、と考えることができる。この場合の「音素」は人間が音韻論的に定めた音素とは異なるが、第３実施形態における「音素」とは、例えば、上記で説明したような方法によって学習データから自動的に学習された音素であっても良い。

事後確率ベース特徴計算部６２は、エントロピー計算部６２１、及び、時間差分計算部６２２から構成される。エントロピー計算部６２１は、第３のフレーム各々に対して、事後確率計算部６１が計算した複数の音素の事後確率ｐ（ｑｋ|ｘｔ）を用いて、数３により時刻ｔのエントロピーＥ（ｔ）を計算する処理を実行する。

音素事後確率のエントロピーは、事後確率が特定の音素に集中しているほど小さな値となる。音素の列で構成されている音声区間は、事後確率が特定の音素に集中しているため、音素事後確率のエントロピーは小さくなる。一方で、非音声区間は、事後確率が特定の音素に集中することが少ないため、音素事後確率のエントロピーは大きくなる。

時間差分計算部６２２は、第３のフレーム各々に対して、事後確率計算部６１が計算した複数の音素の事後確率ｐ（ｑｋ|ｘｔ）を用いて、数４により時刻ｔの時間差分Ｄ（ｔ）を計算する。

音素事後確率の時間差分の計算方法は数４に限られるものではない。例えば、それぞれの音素事後確率の時間差分の二乗和をとる代わりに、時間差分の絶対値の和をとっても良い。

音素事後確率の時間差分は、事後確率の分布の時間変化が大きいほど大きな値となる。音声区間は、数十ｍｓ程度の短時間で次々と音素が変化していくため、音素事後確率の時間差分は大きくなる。一方で、非音声区間は、音素という観点でみたときに短時間で特徴が大きく変化することは少ないため、音素事後確率の時間差分は小さくなる。

棄却部６３は、事後確率ベース特徴計算部６２が計算した、音素事後確率のエントロピーと時間差分の少なくとも一方を用いて、統合部２７が対象音声であると判定した区間（対象音声区間）を最終的な検出区間として出力するか、或いは、棄却（対象音声区間でない区間とする）して出力しないかを判定する。すなわち、棄却部６３は、事後確率のエントロピー及び時間差分の少なくとも一方を用いて、統合部２７により判定された対象音声区間の中から対象音声を含まない区間に変更する区間を特定する。以下では、統合部２７が対象音声であると判定した区間（対象音声区間）を「仮検出区間」と呼ぶ。

前述したように、音声区間では音素事後確率のエントロピーは小さく時間差分は大きいという特徴があり、非音声区間ではその逆の特徴があるため、エントロピーと時間差分の一方、或いは、両方を用いることで、統合部２７が出力した仮検出区間が音声であるか非音声であるかを分類することができる。

棄却部６３は、音素事後確率のエントロピーについて、統合部２７が出力した仮検出区間内で平均することで、平均化エントロピーを計算しても良い。同様に、音素事後確率の時間差分について、仮検出区間内で平均することで、平均化時間差分を計算しても良い。そして、平均化エントロピーと平均化時間差分を用いて、仮検出区間が音声であるか非音声であるかを分類しても良い。すなわち、棄却部６３は、音響信号の中の互いに分離した複数の仮検出区間毎に、事後確率のエントロピー及び時間差分の少なくとも一方の平均値を計算してもよい。そして、棄却部６３は、算出した平均値を用いて、複数の仮検出区間各々を、対象音声を含まない区間とするか否か判定してもよい。

前述したように、音声区間では、音素事後確率のエントロピーが小さくなりやすいものの、中にはエントロピーが大きいフレームも存在する。仮検出区間の全体に渡る複数フレームでエントロピーを平均化することで、仮検出区間全体が音声であるか非音声であるかをさらに高精度に判定できる。同様に、音声区間では、音素事後確率の時間差分が大きくなりやすいものの、中には時間差分が小さいフレームも存在する。仮検出区間の全体に渡る複数フレームで時間差分を平均化することで、仮検出区間全体が音声であるか非音声であるかをさらに高精度に判定できる。

仮検出区間の分類は、例えば、平均化エントロピーが所定の閾値よりも大きいこと、及び、平均化時間差分が別の所定の閾値よりも小さいこと、の少なくとも一方または両方を満たすときに、仮検出区間を非音声であると分類（対象音声を含まない区間に変更）すれば良い。

仮検出区間の別の分類方法としては、平均化エントロピー及び平均化時間差分の少なくとも一方を特徴とした分類器を用いて、仮検出区間が音声であるか非音声であるかを分類（仮検出区間の中の対象音声を含まない区間に変更する区間を特定）することもできる。すなわち、事後確率のエントロピー及び時間差分の少なくとも一方に基づいて音声及び非音声に分類する分類器を用いて、統合部２７により判定された対象音声区間の中から対象音声を含まない区間に変更する区間を特定することができる。分類器としては、ＧＭＭ、ロジスティック回帰、サポートベクトルマシンなどを用いれば良い。分類器の学習データとしては、音声であるか非音声であるかがラベル付けされた複数の音響信号区間から構成される学習用音響データを用いれば良い。

また、より望ましくは、複数の対象音声区間を含む第１の学習用音響信号に対して第１実施形態の音声検出装置１０を適用し、第１実施形態の音声検出装置１０の統合部２７が対象音声であると判定した音響信号内で互いに分離した複数の検出区間（対象音声区間）を第２の学習用音響信号とし、第２の学習用音響信号の各区間に対して音声であるか非音声であるかをラベル付けしたデータを分類器の学習データとしても良い。このように分類器の学習データを用意することで、第１実施形態の音声検出装置１０によって音声と判定されるような音響信号を分類することに特化した分類器を学習できるため、棄却部６３はさらに高精度な判定が可能となる。分類器は、学習用音響信号に対して第１実施形態に記載の音声検出装置１０を適用して、音響信号の中の互いに分離した複数の対象音声区間毎に、対象音声を含まない区間とするか否か判定するように学習されていてもよい。

第３実施形態の音声検出装置１０は、統合部２７が出力した仮検出区間が音声であるか非音声であるかを棄却部６３が判定し、棄却部６３が音声であると判定した場合は、その仮検出区間を対象音声の検出結果として出力する（対象音声区間として出力）。棄却部６３が、仮検出区間が非音声であると判定した場合は、その仮検出区間を棄却し、音声検出結果として出力しない（対象音声区間でない区間として出力）。

[動作例]
以下、第３実施形態における音声検出方法について図１５を用いて説明する。図１５は、第３実施形態における音声検出装置の動作例を示すフローチャートである。図１５では、図４と同じ工程については、図４と同じ符号が付されている。同じ工程の説明は、ここでは省略する。

Ｓ７１では、音声検出装置１０は、Ｓ３４で計算された特徴量を入力として、第３のフレーム各々に対して、音声モデル２４１を用いて、複数の音素の事後確率を計算する。音声モデル２４１は、学習用音響信号を用いた学習によって、あらかじめ作成しておく。

Ｓ７２では、音声検出装置１０は、第３のフレーム各々に対して、Ｓ７１で計算された音素事後確率を用いて、音素事後確率のエントロピーと時間差分を計算する。

Ｓ７３では、音声検出装置１０は、Ｓ３７で対象音声区間と判定した区間において、Ｓ７２で計算された音素事後確率のエントロピーと時間差分の平均値を計算する。

Ｓ７４では、音声検出装置１０は、Ｓ７３で計算された平均化エントロピーと平均化時間差分とを用いて、Ｓ３７で対象音声区間と判定した区間が音声であるか非音声であるかを分類し、音声であると分類した場合は当該区間を対象音声区間として出力し、非音声であると分類した場合は当該区間を対象音声区間として出力しない。

［第３実施形態の作用及び効果］
上述したように第３実施形態では、まず初めに音量と尤度比に基づいて対象音声区間を仮に検出し、次に音素事後確率のエントロピー及び時間差分を用いて、仮検出した対象音声区間が音声であるか非音声であるかを判定する。従って、第３実施形態によれば、音量と尤度比に基づいた判定では音声区間であると誤検出してしまうような雑音が存在する状況下においても、対象音声の区間を高精度に検出することができる。以下では、第３実施形態の音声検出装置１０が様々な雑音が存在する状況下でも対象音声を高精度に検出できる理由を詳細に説明する。

第１実施形態の音声検出装置１０のように、音声対非音声の尤度比を用いて音声区間を検出する手法の一般的な特徴として、雑音が非音声モデルとして学習されていない場合に音声検出精度が低下する、という問題がある。具体的には、非音声モデルとして学習されていない雑音区間を音声区間であると誤検出してしまう。

第３実施形態の音声検出装置１０では、非音声モデルの知識を用いてある区間が音声であるか非音声であるかを判定する処理（尤度比計算部２４及び第２の音声判定部２６）と、非音声モデルの知識を一切用いずに、音声が持つ性質のみを用いてある区間が音声であるか非音声であるかを判定する処理（事後確率計算部６１、事後確率ベース特徴計算部６２及び棄却部６３）とを行う。このため、雑音の種類に非常に頑健な判定が可能となる。音声が持つ性質とは、前述した２つの特徴、すなわち、音声は音素の列で構成されていること、及び、音声区間では数十ｍｓ程度の短時間で次々と音素が変化していくこと、である。ある音響信号区間がこれら２つの特徴を備えているかどうかを音素事後確率のエントロピーと時間差分により判定することで、雑音の種類に依存しない判定が可能となる。

以下、図１６乃至図１８を用いて、音素事後確率のエントロピーが音声と非音声との判別に有効であることを説明する。図１６は、音声区間における音声モデル（図では音素/ａ/、/ｉ/、 /ｕ/、/ｅ/、/ｏ/、・・・の音素モデル）と非音声モデル（図ではＮｏｉｓｅモデル）の尤度の具体例を表す図である。このように、音声区間では、音声モデルの尤度が大きくなるため（図では音素/ｉ/の尤度が大きい）、音声対非音声の尤度比が大きくなる。従って、尤度比によって正しく音声であると判定できる。

図１７は、非音声モデルとして学習されている雑音を含む雑音区間における音声モデルと非音声モデルの尤度の具体例を表す図である。このように、学習されている雑音の区間では、非音声モデルの尤度が大きくなるため、音声対非音声の尤度比が小さくなる。従って、尤度比によって正しく非音声であると判定できる。

図１８は、非音声モデルとして学習されていない雑音を含む雑音区間における音声モデルと非音声モデルの尤度の具体例を表す図である。このように、学習されていない雑音の区間では、音声モデルの尤度のみならず、非音声モデルの尤度も小さくなるため、音声対非音声の尤度比は十分小さくならず、場合によってはかなり大きな値となる。従って、尤度比を用いた判定のみでは、学習されていない雑音の区間を誤って音声区間と判定してしまう。

しかしながら、図１７及び図１８で示したように、雑音区間においては、特定の音素の事後確率が突出して大きくなることはなく、事後確率が複数の音素に分散する。すなわち、音素事後確率のエントロピーは大きくなる。これに対し、図１６で示したように、音声区間においては、特定の音素の事後確率が突出して大きくなる。すなわち、音素事後確率のエントロピーは小さくなる。この特徴を利用することで、音声と非音声を識別することができる。

本発明者らは、音素事後確率のエントロピーと時間差分によって音声と非音声とを正しく分類するには少なくとも数百ｍｓ程度の時間長でエントロピーと時間差分とを平均化する必要があることを見出し、かつ、そのような性質を最大限生かすために、まず初めに音量と尤度比を用いて複数の仮検出区間（統合部２７が特定した対象音声区間）の開始点および終了点（例：開始フレーム及び終了フレーム、音響信号の先頭からの経過時間で特定される時点等）を決定し、次に音素事後確率のエントロピーと時間差分を用いて仮検出区間毎に、その仮検出区間を棄却すべきか否か（対象音声区間のままにするか、対象音声区間でない区間に変更するか）を判定する処理構成とした。そのため、第３実施形態の音声検出装置１０は様々な雑音が存在する環境下でも高精度に対象音声の区間を検出できる。

［第３実施形態の変形例１］
時間差分計算部６２２は、音素事後確率の時間差分を数５により計算しても良い。

ここで、ｎは時間差分をとるフレーム間隔であり、望ましくは音声における平均的な音素間隔に近い値とするのが良い。例えば、音素間隔が約１００ｍｓとし、フレームシフト長が１０ｍｓであるとすると、ｎ＝１０とすれば良い。本変形例によれば、音声区間における音素事後確率の時間差分がより大きな値となり、音声と非音声との判別精度が向上する。

［第３実施形態の変形例２］
リアルタイムに入力される音響信号を処理して対象音声区間を検出する場合、棄却部６３は、統合部２７が対象音声区間の始端のみを確定している状態において、始端以降を仮検出区間として扱って、当該仮検出区間が音声であるか非音声であるかを判定しても良い。そして、当該仮検出区間が音声であると判定した場合に、当該仮検出区間を始端のみが確定した対象音声検出結果として出力する。本変形例によれば、対象音声区間の誤検出を抑えつつ、例えば、音声認識のような対象音声区間の始端が検出されてから処理を開始する処理を、終端が確定するより前の早いタイミングで開始することができる。

本変形例においては、棄却部６３は、統合部２７が対象音声区間の始端を確定してからある程度の時間、例えば数百ｍｓ程度が経過してから、仮検出区間が音声であるか非音声であるかの判定を始めることが望ましい。その理由は、音素事後確率のエントロピー及び時間差分による音声と非音声とを精度よく判定するためには、少なくとも数百ｍｓ程度の時間が必要となるためである。

［第３実施形態の変形例３］
事後確率計算部６１は、統合部２７が対象音声であると判定した区間（対象音声区間）に対してのみ事後確率を計算しても良い。このとき、事後確率ベース特徴計算部６２は、統合部２７が対象音声であると判定した区間（対象音声区間）に対してのみ音素事後確率のエントロピーと時間差分とを計算する。本変形例によれば、統合部２７が対象音声であると判定した区間（対象音声区間）に対してのみ、事後確率計算部６１、及び、事後確率ベース特徴計算部６２が動作するため、計算量を大きく削減できる。棄却部６３は、統合部２７が音声であると判定した区間が音声であるか非音声であるかを判定するため、本変形例によれば、同じ検出結果を出力しつつ計算量を削減できる。

［第３実施形態の変形例４］
第２実施形態で説明した図６及び図１３の構成を基本とし、これらに事後確率計算部６１、事後確率ベース特徴計算部６２及び棄却部６３をさらに設けた構成とすることもできる。

［第４実施形態］
第４実施形態は、第１、第２または第３の実施形態をプログラムにより構成した場合に、そのプログラムにより動作するコンピュータとして実現される。

［処理構成］
図１９は、第４実施形態における音声検出装置１０の処理構成例を概念的に示す図である。第４実施形態における音声検出装置１０は、ＣＰＵ等を含んで構成されるデータ処理装置８２と、磁気ディスクや半導体メモリ等で構成される記憶装置８３と、音声検出用プログラム８１等を有する。記憶装置８３は、音声モデル２４１や非音声モデル２４２等を記憶する。

音声検出用プログラム８１は、データ処理装置８２に読み込まれ、データ処理装置８２の動作を制御することにより、データ処理装置８２上に第１、第２または第３の実施形態の機能を実現する。すなわち、データ処理装置８２は、音声検出用プログラム８１の制御によって、音響信号取得部２１、音量計算部２２、スペクトル形状特徴計算部２３、尤度比計算部２４、第１の音声判定部２５、第２の音声判定部２６、統合部２７、第１の区間整形部４１、第２の区間整形部４２、事後確率計算部６１、事後確率ベース特徴計算部６２、棄却部６３等の処理を実行する。

上記の各実施形態及び各変形例の一部又は全部は、以下の付記のようにも特定され得る。但し、各実施形態及び各変形例が以下の記載に限定されるものではない。

以下、参考形態の例を付記する。
１．音響信号を取得する音響信号取得手段と、
前記音響信号から得られる複数の第１のフレーム各々に対して、音量を計算する処理を実行する音量計算手段と、
前記音量が第１の閾値以上である前記第１のフレームを、第１の対象フレームと判定する第１の音声判定手段と、
前記音響信号から得られる複数の第２のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段と、
前記第２のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段と、
前記尤度の比が第２の閾値以上である前記第２のフレームを、第２の対象フレームと判定する第２の音声判定手段と、
前記音響信号の中の前記第１の対象フレームに対応する第１の対象区間、及び、前記第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段と、
を備える音声検出装置。
２．１に記載の音声検出装置において、
前記第１の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第１の区間整形手段と、
前記第２の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第２の区間整形手段と、
をさらに有し、
前記第１の区間整形手段は、
長さが所定の値より短い前記第１の対象区間に対応する前記第１の対象フレームを前記第１の対象フレームでない前記第１のフレームに変更する整形処理、及び、
前記第１の対象区間でない第１の非対象区間の内、長さが所定の値より短い前記第１の非対象区間に対応する前記第１のフレームを前記第１の対象フレームに変更する整形処理、の少なくとも一方を実行し、
前記第２の区間整形手段は、
長さが所定の値より短い前記第２の対象区間に対応する前記第２の対象フレームを前記第２の対象フレームでない前記第２のフレームに変更する整形処理、及び、
前記第２の対象区間でない第２の非対象区間の内、長さが所定の値より短い前記第２の非対象区間に対応する前記第２のフレームを前記第２の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出装置。
３．１又は２に記載の音声検出装置において、
前記スペクトル形状特徴計算手段は、前記第１の対象区間の前記音響信号に対してのみ、前記特徴量を計算する処理を実行する音声検出装置。
４．コンピュータが、
音響信号を取得する音響信号取得工程と、
前記音響信号から得られる複数の第１のフレーム各々に対して、音量を計算する処理を実行する音量計算工程と、
前記音量が第１の閾値以上である前記第１のフレームを、第１の対象フレームと判定する第１の音声判定工程と、
前記音響信号から得られる複数の第２のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程と、
前記第２のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程と、
前記尤度の比が第２の閾値以上である前記第２のフレームを、第２の対象フレームと判定する第２の音声判定工程と、
前記音響信号の中の前記第１の対象フレームに対応する第１の対象区間、及び、前記第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合工程と、
を実行する音声検出方法。
４−２．４に記載の音声検出方法において、
前記コンピュータは、
前記第１の音声判定工程による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合工程に渡す第１の区間整形工程と、
前記第２の音声判定工程による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合工程に渡す第２の区間整形工程と、
をさらに実行し、
前記第１の区間整形工程では、
長さが所定の値より短い前記第１の対象区間に対応する前記第１の対象フレームを前記第１の対象フレームでない前記第１のフレームに変更する整形処理、及び、
前記第１の対象区間でない第１の非対象区間の内、長さが所定の値より短い前記第１の非対象区間に対応する前記第１のフレームを前記第１の対象フレームに変更する整形処理、の少なくとも一方を実行し、
前記第２の区間整形工程では、
長さが所定の値より短い前記第２の対象区間に対応する前記第２の対象フレームを前記第２の対象フレームでない前記第２のフレームに変更する整形処理、及び、
前記第２の対象区間でない第２の非対象区間の内、長さが所定の値より短い前記第２の非対象区間に対応する前記第２のフレームを前記第２の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出方法。
４−３．４又は４−２に記載の音声検出方法において、
前記スペクトル形状特徴計算工程では、前記第１の対象区間の前記音響信号に対してのみ、前記特徴量を計算する処理を実行する音声検出方法。
５．コンピュータを、
音響信号を取得する音響信号取得手段、
前記音響信号から得られる複数の第１のフレーム各々に対して、音量を計算する処理を実行する音量計算手段、
前記音量が第１の閾値以上である前記第１のフレームを、第１の対象フレームと判定する第１の音声判定手段、
前記音響信号から得られる複数の第２のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
前記第２のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、
前記尤度の比が第２の閾値以上である前記第２のフレームを、第２の対象フレームと判定する第２の音声判定手段、
前記音響信号の中の前記第１の対象フレームに対応する第１の対象区間、及び、前記第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段、
として機能させるためのプログラム。
５−２．５に記載のプログラムにおいて、
前記コンピュータを、
前記第１の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第１の区間整形手段、
前記第２の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第２の区間整形手段、
としてさらに機能させ、
前記第１の区間整形手段に、
長さが所定の値より短い前記第１の対象区間に対応する前記第１の対象フレームを前記第１の対象フレームでない前記第１のフレームに変更する整形処理、及び、
前記第１の対象区間でない第１の非対象区間の内、長さが所定の値より短い前記第１の非対象区間に対応する前記第１のフレームを前記第１の対象フレームに変更する整形処理、の少なくとも一方を実行させ、
前記第２の区間整形手段に、
長さが所定の値より短い前記第２の対象区間に対応する前記第２の対象フレームを前記第２の対象フレームでない前記第２のフレームに変更する整形処理、及び、
前記第２の対象区間でない第２の非対象区間の内、長さが所定の値より短い前記第２の非対象区間に対応する前記第２のフレームを前記第２の対象フレームに変更する整形処理、の少なくとも一方を実行させるプログラム。
５−３．５又は５−２に記載のプログラムにおいて、
前記スペクトル形状特徴計算手段に、前記第１の対象区間の前記音響信号に対してのみ、前記特徴量を計算する処理を実行させるプログラム。

この出願は、２０１３年１０月２２日に出願された日本出願特願２０１３−２１８９３４号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

音響信号を取得する音響信号取得手段と、
前記音響信号から得られる複数の第１のフレーム各々に対して、音量を計算する処理を実行する音量計算手段と、
前記音量が第１の閾値以上である前記第１のフレームを、第１の対象フレームと判定する第１の音声判定手段と、
前記音響信号から得られる複数の第２のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段と、
前記第２のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段と、
前記尤度の比が第２の閾値以上である前記第２のフレームを、第２の対象フレームと判定する第２の音声判定手段と、
前記音響信号の中の前記第１の対象フレームに対応する第１の対象区間、及び、前記第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段と、
を備える音声検出装置。
請求項１に記載の音声検出装置において、
前記第１の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第１の区間整形手段と、
前記第２の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第２の区間整形手段と、
をさらに有し、
前記第１の区間整形手段は、
長さが所定の値より短い前記第１の対象区間に対応する前記第１の対象フレームを前記第１の対象フレームでない前記第１のフレームに変更する整形処理、及び、
前記第１の対象区間でない第１の非対象区間の内、長さが所定の値より短い前記第１の非対象区間に対応する前記第１のフレームを前記第１の対象フレームに変更する整形処理、の少なくとも一方を実行し、
前記第２の区間整形手段は、
長さが所定の値より短い前記第２の対象区間に対応する前記第２の対象フレームを前記第２の対象フレームでない前記第２のフレームに変更する整形処理、及び、
前記第２の対象区間でない第２の非対象区間の内、長さが所定の値より短い前記第２の非対象区間に対応する前記第２のフレームを前記第２の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出装置。
請求項１又は２に記載の音声検出装置において、
前記スペクトル形状特徴計算手段は、前記第１の対象区間の前記音響信号に対してのみ、前記特徴量を計算する処理を実行する音声検出装置。
コンピュータが、
音響信号を取得する音響信号取得工程と、
前記音響信号から得られる複数の第１のフレーム各々に対して、音量を計算する処理を実行する音量計算工程と、
前記音量が第１の閾値以上である前記第１のフレームを、第１の対象フレームと判定する第１の音声判定工程と、
前記音響信号から得られる複数の第２のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程と、
前記第２のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程と、
前記尤度の比が第２の閾値以上である前記第２のフレームを、第２の対象フレームと判定する第２の音声判定工程と、
前記音響信号の中の前記第１の対象フレームに対応する第１の対象区間、及び、前記第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合工程と、
を実行する音声検出方法。
コンピュータを、
音響信号を取得する音響信号取得手段、
前記音響信号から得られる複数の第１のフレーム各々に対して、音量を計算する処理を実行する音量計算手段、
前記音量が第１の閾値以上である前記第１のフレームを、第１の対象フレームと判定する第１の音声判定手段、
前記音響信号から得られる複数の第２のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
前記第２のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、
前記尤度の比が第２の閾値以上である前記第２のフレームを、第２の対象フレームと判定する第２の音声判定手段、
前記音響信号の中の前記第１の対象フレームに対応する第１の対象区間、及び、前記第２の対象フレームに対応する第２の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段、
として機能させるためのプログラム。