JPWO2015059946A1 - 音声検出装置、音声検出方法及びプログラム - Google Patents

音声検出装置、音声検出方法及びプログラム Download PDF

Info

Publication number
JPWO2015059946A1
JPWO2015059946A1 JP2015543724A JP2015543724A JPWO2015059946A1 JP WO2015059946 A1 JPWO2015059946 A1 JP WO2015059946A1 JP 2015543724 A JP2015543724 A JP 2015543724A JP 2015543724 A JP2015543724 A JP 2015543724A JP WO2015059946 A1 JPWO2015059946 A1 JP WO2015059946A1
Authority
JP
Japan
Prior art keywords
target
section
frame
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015543724A
Other languages
English (en)
Other versions
JP6436088B2 (ja
Inventor
真 寺尾
真 寺尾
剛範 辻川
剛範 辻川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2015059946A1 publication Critical patent/JPWO2015059946A1/ja
Application granted granted Critical
Publication of JP6436088B2 publication Critical patent/JP6436088B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

音響信号を取得する音響信号取得部(21)と、複数の第1のフレームの中の音量が第1の閾値以上である第1のフレームを、第1の対象フレームと判定する第1の音声判定部(25)と、複数の第2のフレームの中の、スペクトル形状を表す特徴量を入力として算出される非音声モデルの尤度に対する音声モデルの尤度の比が第2の閾値以上である第2のフレームを、第2の対象フレームと判定する第2の音声判定部(26)と、第1の対象フレームに対応する区間、及び、第2の対象フレームに対応する区間の両方に含まれる区間を、対象音声を含む対象音声区間と判定する統合部(27)と、を備える音声検出装置(10)。

Description

本発明は、音声検出装置、音声検出方法及びプログラムに関する。
音声区間検出技術とは、音響信号の中から音声(人の声)が存在する時間区間を検出する技術である。音声区間検出は、様々な音響信号処理において重要な役割を担っている。例えば、音声認識では、検出した音声区間のみを認識対象とすることによって、処理量を低減しつつ湧き出し誤りを抑制して認識できる。耐雑音処理では、音声が検出されなかった非音声区間から雑音成分を推定することによって、音声区間の音質を向上できる。音声符号化では、音声区間のみを符号化することによって、効率的に信号を圧縮できる。
音声区間検出技術は音声を検出する技術であるが、たとえ音声であっても目的外の音声は雑音として扱い、検出の対象としないことが一般的である。例えば、携帯電話を介した会話内容を音声認識するために音声検出を用いる場合、検出すべき音声は携帯電話の使用者が発する音声である。携帯電話で送受信される音響信号に含まれる音声としては、携帯電話の使用者が発する音声以外にも、例えば、使用者の周囲にいる人々が会話している音声や、駅構内のアナウンス音声や、TVが発する音声など様々な音声が考えられるが、これらは検出すべきではない音声である。以下では、検出の対象とすべき音声を「対象音声」と呼び、検出の対象とせずに雑音として扱う音声を「音声雑音」と呼ぶ。また、様々な雑音と無音とをあわせて「非音声」と呼ぶこともある。
非特許文献1には、雑音環境下での音声検出精度を向上するために、音響信号の振幅レベル、ゼロ交差数、スペクトル情報およびメルケプストラム係数を入力とした音声GMMと非音声GMMとの対数尤度比、の各特徴に基づいて計算される4つのスコアの重み付き和と所定の閾値とを比較することで、音響信号の各フレームが音声か非音声かを判定する手法が提案されている。
特許第4282227号公報
Yusuke Kida and Tatsuya Kawahara, "Voice Activity Detection based on Optimally Weighted Combination of Multiple Features," Proc. INTERSPEECH 2005, pp.2621-2624, 2005.
しかしながら、非特許文献1に記載の上記手法では、様々な種類の雑音が同時に存在する環境下において、対象音声の区間を適切に検出できない可能性がある。上記手法は、スコアを統合する際の重みの最適値が雑音の種類によって異なるからである。
例えば、ドアが閉まる音や電車の走行音のような雑音が存在する環境下で対象音声を検出するためには、スコアを統合する際に、振幅レベルの重みを小さくし、GMM対数尤度の重みを大きくしなければならない。一方、駅構内のアナウンス音声のような音声雑音が存在する環境下で対象音声を検出するためには、スコアを統合する際に、振幅レベルの重みを大きくし、GMM対数尤度の重みを小さくしなければならない。したがって、上記手法では、電車の走行音と駅構内のアナウンス音声のような、スコア統合の最適な重みが異なる2種類以上の雑音が同時に存在する環境下では、適切な重みが存在せず対象音声の区間を適切に検出できない場合がある。
本発明は、このような事情に鑑みてなされたものであり、様々な種類の雑音が同時に存在する環境下においても、対象音声の区間を高精度に検出する技術を提供する。
本発明によれば、
音響信号を取得する音響信号取得手段と、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算手段と、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定手段と、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段と、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段と、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定手段と、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段と、
を備える音声検出装置が提供される。
また、本発明によれば、
コンピュータが、
音響信号を取得する音響信号取得工程と、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算工程と、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定工程と、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程と、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程と、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定工程と、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合工程と、
を実行する音声検出方法が提供される。
また、本発明によれば、
コンピュータを、
音響信号を取得する音響信号取得手段、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算手段、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定手段、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定手段、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段、
として機能させるためのプログラムが提供される。
本発明によれば、様々な種類の雑音が同時に存在する環境下においても、対象音声の区間を高精度に検出することができる。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
第1実施形態における音声検出装置の構成例を概念的に示す図である。 音響信号から複数のフレームを切り出す処理の具体例を示す図である。 第1実施形態における統合部の処理の具体例を示す図である。 第1実施形態における音声検出装置の動作例を示すフローチャートである。 第1実施形態における音声検出装置の効果を説明する図である。 第2実施形態における音声検出装置の構成例を概念的に示す図である。 第2実施形態における第1および第2の区間整形部の具体例を示す図である。 第2実施形態における音声検出装置の動作例を示すフローチャートである。 2種類の音声判定結果をそれぞれ区間整形してから統合する具体例を示す図である。 2種類の音声判定結果を統合してから区間整形する具体例を示す図である。 駅アナウンス雑音下における音量と尤度比の時系列の具体例を示す図である。 ドア開閉雑音下における音量と尤度比の時系列の具体例を示す図である。 第2実施形態の変形例における音声検出装置の構成例を概念的に示す図である。 第3実施形態における音声検出装置の構成例を概念的に示す図である。 第3実施形態における音声検出装置の動作例を示すフローチャートである。 尤度比による音声の検出成功例を示す図である。 尤度比による非音声の検出成功例を示す図である。 尤度比による非音声の検出失敗例を示す図である。 第4実施形態における音声検出装置の構成例を概念的に示す図である。 本実施形態の音声検出装置のハードウエア構成の一例を概念的に示す図である。
まず、本実施形態の音声検出装置のハードウエア構成の一例について説明する。
本実施形態の音声検出装置は、可搬型の装置であってもよいし、据置型の装置であってもよい。本実施形態の音声検出装置が備える各部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされたプログラム(あらかじめ装置を出荷する段階からメモリ内に格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む)、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インタフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
図20は、本実施形態の音声検出装置のハードウエア構成の一例を概念的に示す図である。図示するように、本実施形態の音声検出装置は、例えば、バス8Aで相互に接続されるCPU1A、RAM(Random Access Memory)2A、ROM(Read Only Memory)3A、表示制御部4A、ディスプレイ5A、操作受付部6A、操作部7A等を有する。なお、図示しないが、その他、外部機器と有線で接続される入出力I/F、外部機器と有線及び/又は無線で通信するための通信部、マイク、スピーカ、カメラ、補助記憶装置等の他の要素を備えてもよい。
CPU1Aは各要素とともに電子機器のコンピュータ全体を制御する。ROM3Aは、コンピュータを動作させるためのプログラムや各種アプリケーションプログラム、それらのプログラムが動作する際に使用する各種設定データなどを記憶する領域を含む。RAM2Aは、プログラムが動作するための作業領域など一時的にデータを記憶する領域を含む。
ディスプレイ5Aは、表示装置(LED(Light Emitting Diode)表示器、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等)を有する。なお、ディスプレイ5Aは、タッチパッドと一体になったタッチパネルディスプレイであってもよい。表示制御部4Aは、VRAM(Video RAM)に記憶されたデータを読み出し、読み出したデータに対して所定の処理を施した後、ディスプレイ5Aに送って各種画面表示を行う。操作受付部6Aは、操作部7Aを介して各種操作を受付ける。操作部7Aは、操作キー、操作ボタン、スイッチ、ジョグダイヤル、タッチパネルディスプレイなどである。
以下、本実施の形態について説明する。なお、以下の実施形態の説明において利用する機能ブロック図(図1、6、13及び14)は、ハードウエア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、各装置は1つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。
[第1実施形態]
[処理構成]
図1は、第1実施形態における音声検出装置の処理構成例を概念的に示す図である。第1実施形態における音声検出装置10は、音響信号取得部21、音量計算部22、スペクトル形状特徴計算部23、尤度比計算部24、音声モデル241、非音声モデル242、第1の音声判定部25、第2の音声判定部26、統合部27等を有する。
音響信号取得部21は、処理の対象となる音響信号を取得し、取得した音響信号から複数のフレームを切り出す。音響信号は音声検出装置10に付属するマイクからリアルタイムに取得しても良いし、事前に録音した音響信号を記録媒体や音声検出装置10が備える補助記憶装置等から取得しても良い。また、音声検出処理を実行するコンピュータとは異なる他のコンピュータからネットワークを介して音響信号を取得しても良い。
音響信号は、時系列なデータである。以下では、音響信号の中の一部のかたまりを「区間」と呼ぶ。各区間は、区間開始時点と区間終了時点とで特定・表現される。音響信号から切り出された(得られた)フレーム各々の識別情報(例:フレームの通番等)で区間開始時点(開始フレーム)及び区間終了時点(終了フレーム)を表現してもよいし、音響信号の開始点からの経過時間で区間開始時点及び区間終了時点を表現してもよいし、その他の手法で表現してもよい。
時系列な音響信号は、検知対象の音声(以下、「対象音声」)を含む区間(以下、「対象音声区間」)と、対象音声を含まない区間(以下、「非対象音声区間」)とに分けられる。時系列順に音響信号を観察すると、対象音声区間と非対象音声区間とが交互に現れる。本実施形態の音声検出装置10は、音響信号の中の対象音声区間を特定することを目的とする。
図2は、音響信号から複数のフレームを切り出す処理の具体例を示す図である。フレームとは、音響信号における短い時間区間のことである。所定のフレーム長の区間を所定のフレームシフト長ずつずらしていくことで、音響信号から複数のフレームを切り出す。通常、隣り合うフレーム同士は重なり合うように切り出される。例えば、フレーム長として30ms、フレームシフト長として10msなどを用いれば良い。
音量計算部22は、音響信号取得部21が切り出した複数のフレーム(第1のフレーム)各々に対して、第1のフレームの信号の音量を計算する処理を実行する。音量としては、第1のフレームの信号の振幅やパワー、またはそれらの対数値などを用いれば良い。
或いは、第1のフレームにおける信号のレベルと推定雑音のレベルとの比を信号の音量としても良い。例えば、信号のパワーと推定雑音のパワーとの比を第1のフレームの音量としても良い。推定雑音レベルとの比を用いることで、マイクの入力レベル等の変化に頑健に音量を計算することができる。第1のフレームにおける雑音成分の推定には、例えば、特許文献1のような周知の技術を用いれば良い。
第1の音声判定部25は、第1のフレーム毎に、音量計算部22が計算した音量とあらかじめ定めた所定の閾値とを比較する。そして、第1の音声判定部25は、音量が閾値(第1の閾値)以上である第1のフレームは対象音声を含むフレーム(第1の対象フレーム)であると判定し、音量が第1の閾値未満である第1のフレームは対象音声を含まないフレーム(第1の非対象クレーム)であると判定する。第1の閾値は、処理対象の音響信号を用いて決定してもよい。例えば、処理対象の音響信号から切り出した複数の第1のフレーム各々の音量を算出し、算出結果を用いた所定の演算により算出した値(平均値、中間値、上位X%と下位(100−X)%に分ける境界値等)を第1の閾値としてもよい。
スペクトル形状特徴計算部23は、音響信号取得部21が切り出した複数のフレーム(第2のフレーム)各々に対して、第2のフレームの信号の周波数スペクトルの形状を表す特徴量を計算する処理を実行する。周波数スペクトルの形状を表す特徴量としては、音声認識の音響モデルでよく用いられるメル周波数ケプストラム係数(MFCC)、線形予測係数(LPC係数)、知覚線形予測係数(PLP係数)、および、それらの時間差分(Δ、ΔΔ)などの周知の特徴量を用いれば良い。これらの特徴量は、音声と非音声との分類にも有効であることが知られている。
尤度比計算部24は、第2のフレーム毎に、スペクトル形状特徴計算部23が計算した特徴量を入力として非音声モデル242の尤度に対する音声モデル241の尤度の比(以下、単に「尤度比」、「音声対非音声の尤度比」と言う場合がある)Λを計算する。尤度比Λは、数1に示す式で計算する。
Figure 2015059946
ここで、xtは入力特徴量、Θsは音声モデルのパラメータ、Θnは非音声モデルのパラメータである。尤度比は、対数尤度比として計算しても良い。
音声モデル241と非音声モデル242は、音声区間と非音声区間がラベル付けされた学習用音響信号を用いて事前に学習しておく。このとき、学習用音響信号の非音声区間に、音声検出装置10を適用する環境で想定される雑音を多く含めておくことが望ましい。モデルとしては、例えば、混合ガウスモデル(GMM)を用い、モデルパラメータは最尤推定により学習すれば良い。
第2の音声判定部26は、尤度比計算部24が計算した尤度比とあらかじめ定めた所定の閾値(第2の閾値)とを比較する。そして、第2の音声判定部26は、尤度比が第2の閾値以上である第2のフレームは、対象音声を含むフレーム(第2の対象フレーム)であると判定し、尤度比が第2の閾値未満である第2のフレームは、対象音声を含まないフレーム(第2の非対象フレーム)であると判定する。
なお、音響信号取得部21は、同じフレーム長および同じフレームシフト長で、音量計算部22が処理する第1のフレームと、スペクトル形状特徴計算部23が処理する第2のフレームとを切り出しても良いし、又は、フレーム長及びフレームシフト長の少なくとも一方において異なる値を用いて、第1のフレームと第2のフレームとを別々に切り出しても良い。例えば、第1のフレームはフレーム長100ms、フレームシフト長20msを用いて切り出し、第2のフレームはフレーム長30ms、フレームシフト長10msを用いて切り出すこともできる。このようにすることで、音量計算部22とスペクトル形状特徴計算部23のそれぞれに最適なフレーム長およびフレームシフト長を用いることができる。
結合部27は、音響信号の中の第1の対象フレームに対応する第1の対象区間、及び、第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、対象音声を含む対象音声区間と判定する。すなわち、結合部27は、第1の音声判定部25および第2の音声判定部26の両方において対象音声を含むと判定された区間を、検出すべき対象音声を含む区間(対象音声区間)であると判定する。
統合部27は、第1の対象フレームに対応する区間及び第2の対象フレームに対応する区間を、互いに対比可能な表現(尺度)で特定する。そして、両方に含まれる対象音声区間を特定する。
例えば、第1のフレーム及び第2のフレームのフレーム長及びフレームシフト長が同じである場合、統合部27は、フレームの識別情報を用いて、第1の対象区間及び第2の対象区間を特定してもよい。この場合、例えば、第1の対象区間は、フレーム番号6〜9、12〜19、・・・等と表現され、第2の対象区間は、フレーム番号5〜7、11〜19、・・・等と表現される。そして、統合部27は、第1の対象区間及び第2の対象区間の両方に含まれるフレームを特定する。第1の対象区間及び第2の対象区間が上記例で示される場合、対象音声区間は、フレーム番号6〜7、12〜19、・・・と表現される。
その他、統合部27は、音響信号の開始点からの経過時間を用いて、第1の対象フレームに対応する区間及び第2の対象フレームに対応する区間を特定してもよい。この場合、第1の対象フレーム及び第2の対象フレームに対応する区間を、音響信号の開始点からの経過時間で表現する必要がある。ここで、各フレームに対応する区間を、音響信号の開始点からの経過時間で表現する例について説明する。
各フレームに対応する区間は、各フレームが音響信号から切り出した区間の少なくとも一部となる。図2を用いて説明したように、複数のフレーム(第1及び第2のフレーム)は、前後するフレームと重複部分を有するように切り出される場合がある。このような場合には、各フレームに対応する区間は、各フレームで切り出された区間の一部となる。各フレームで切り出された区間のいずれを対応する区間とするかは設計的事項である。例えば、フレーム長:30ms、フレームシフト長:10msの場合、音響信号の中の0(開始点)〜30ms部分を切り出したフレーム、10ms〜40ms部分を切り出したフレーム、20ms〜50ms部分を切り出したフレーム等が存在することとなる。この時、例えば、0(開始点)〜30ms部分を切り出したフレームに対応する区間は音響信号の中の0〜10msとし、10ms〜40ms部分を切り出したフレームに対応する区間は音響信号の中の10ms〜20msとし、20ms〜50ms部分を切り出したフレームに対応する区間は音響信号の中の20ms〜30msとしてもよい。このようにすれば、あるフレームに対応する区間は、他のフレームに対応する区間と重なり合わなくなる。なお、複数のフレーム(第1及び第2のフレーム)が前後するフレームと重複しないように切り出された場合、各フレームに対応する区間は、各フレームで切り出された部分の全部とすることができる。
統合部27は、例えば上述のような手法を用いて、第1の対象フレーム及び第2の対象フレームに対応する区間を、音響信号の開始点からの経過時間で表現する。そして、両方に含まれる時間帯を対象音声区間と特定する。
図3を用いて一例を説明する。図3の例の場合、第1のフレーム及び第2のフレームは、同じフレーム長及び同じフレームシフト長で切り出されている。図3では、対象音声を含むと判定したフレームを「1」で表し、対象音声を含まない(非音声)と判定したフレームを「0」で表す。図中、「第1の判定結果」が第1の音声判定部25による判定結果であり、「第2の判定結果」が第2の音声判定部26による判定結果である。そして、「統合判定結果」が統合部27による判定結果である。図より、統合部27は、第1の音声判定部25による第1の判定結果と第2の音声判定部26による第2の判定結果との両方が「1」であるフレーム、すなわちフレーム番号5〜15のフレームに対応する区間を、対象音声を含む区間(対象音声区間)であると判定していることが分かる。
第1実施形態の音声検出装置10は、統合部27により対象音声区間と判定された区間を音声検出結果として出力する。音声検出結果はフレーム番号で表しても良いし、入力音響信号の先頭からの経過時間などで表しても良い。例えば、図3において、フレームシフト長が10msであれば、検出した対象音声区間を50ms〜160msと表すこともできる。
[動作例]
以下、第1実施形態における音声検出方法について図4を用いて説明する。図4は、第1実施形態における音声検出装置10の動作例を示すフローチャートである。
音声検出装置10は、処理の対象となる音響信号を取得し、音響信号から複数のフレームを切り出す(S31)。音声検出装置10は、機器に付属するマイクからリアルタイムに取得したり、あらかじめ記憶装置媒体や音声検出装置10に記録された音響データを取得したり、ネットワークを介して他のコンピュータから取得したりすることができる。
次に、音声検出装置10は、S31で切り出された各フレームに対して、当該フレームの信号の音量を計算する処理を実行する(S32)。
その後、音声検出装置10は、S32で計算された音量とあらかじめ定めた所定の閾値とを比較して、音量が閾値以上であるフレームを、対象音声を含むフレームであると判定し、音量が閾値未満であるフレームを、対象音声を含まないフレームであると判定する(S33)。
次に、音声検出装置10は、S31で切り出された各フレームに対して、当該フレームの信号の周波数スペクトル形状を表す特徴量を計算する処理を実行する(S34)。
その後、音声検出装置10は、S34で計算された特徴量を入力として、各フレームに対して、音声モデルの尤度に対する音声モデルの尤度の比を計算する処理を実行する(S35)。音声モデル241と非音声モデル242とは、学習用音響信号を用いた学習によって、あらかじめ作成しておく。
その後、音声検出装置10は、S35で計算された尤度比とあらかじめ定めた所定の閾値とを比較して、尤度比が閾値以上であるフレームを、対象音声を含むフレームであると判定し、尤度比が閾値未満であるフレームを、対象音声を含まないフレームであると判定する(S36)。
次に、音声検出装置10は、S33で対象音声を含むと判定されたフレームに対応する区間と、S36で対象音声を含むと判定されたフレームに対応する区間との両方に含まれる区間を、検出すべき対象音声を含む区間(対象音声区間)であると判定する(S37)。
その後、音声検出装置10は、S37で判定された対象音声区間の検出結果を示す出力データを生成する(S38)。この出力データは、音声検出結果を用いる他のアプリケーション、例えば、音声認識、耐雑音処理、符号化処理などに出力するためのデータであっても良いし、ディスプレイなどに表示させるためのデータであっても良い。
音声検出装置10の動作は、図4の動作例に限られるものではない。例えば、S32〜S33の処理と、S34〜S36の処理とは、順番を入れ替えて実行しても良い。これらの処理は同時並列に実行しても良い。また、リアルタイムに入力される音響信号を処理する場合等においては、S31〜S37の各処理を1フレームずつ繰り返し実行しても良い。例えば、S31では入力された音響信号から1フレーム分を切り出し、S32〜S33およびS34〜S36では切り出された1フレーム分のみを処理し、S37ではS33とS36による判定が完了したフレームのみを処理し、入力された音響信号すべてを処理し終わるまでS31〜S37を繰り返し実行するように動作しても良い。
[第1実施形態の作用及び効果]
上述したように第1実施形態では、音量が所定の閾値以上であり、かつ、周波数スペクトルの形状を表す特徴量を入力としたときの非音声モデルの尤度に対する音声モデルの尤度の比が所定の閾値以上である区間を、対象音声区間として検出する。従って、第1実施形態によれば、様々な種類の雑音が同時に存在する環境下においても、対象音声の区間を高精度に検出することができる。
図5は、第1実施形態の音声検出装置10が、様々な種類の雑音が同時に存在しても正しく対象音声を検出できる仕組みを説明する図である。図5は、検出すべき対象音声と、検出すべきではない雑音とを「音量」と「尤度比」の2軸で表される空間上に配置した図である。検出すべき「対象音声」は、マイクに近い位置で発せられるため音量が大きく、また、人の声であるため尤度比も大きくなる。
本発明者らは、音声検出技術を適用する様々な場面における背景雑音を分析した結果、様々な種類の雑音は大きく「音声雑音」と「機械雑音」の2種類に分類でき、両雑音は「音量」と「尤度比」の空間上で図5のようにL字型に分布していることを見出した。
音声雑音は、前述したとおり、人の声を含む雑音である。例えば、周囲の人々の会話音声、駅構内のアナウンス音声、TVが発する音声などである。音声検出技術の適用場面では、これらの音声を検出したくないことがほとんどである。音声雑音は人の声であるため、音声対非音声の尤度比は大きくなる。従って、尤度比で音声雑音と検出すべき対象音声とを区別することはできない。一方で、音声雑音はマイクから離れたところで発せられているため、音量は小さくなる。図5においては、音声雑音の大半は音量が第1の閾値th1よりも小さな領域に存在する。従って、音量が第1の閾値以上である場合に対象音声と判定することで、音声雑音を棄却することができる。
機械雑音は、人の声を含まない雑音である。例えば、道路工事の音、自動車の走行音、ドアの開閉音、キーボードの打鍵音などである。機械雑音の音量は小さいことも大きいこともあり、場合によっては検出すべき対象音声と同等かそれ以上に大きいこともある。従って、音量で機械雑音と対象音声とを区別することはできない。一方で、機械雑音が非音声モデルとして適切に学習されていれば、機械雑音の音声対非音声の尤度比は小さくなる。図5においては、機械雑音の大半は尤度比が第2の閾値th2よりも小さな領域に存在する。従って、尤度比が所定の閾値以上である場合に対象音声と判定することで、機械雑音を棄却することができる。
第1実施形態の音声検出装置10は、音量計算部22および第1の音声判定部25が、音量が小さい雑音、すなわち音声雑音を棄却するよう動作する。また、スペクトル形状特徴計算部23、尤度比計算部24および第2の音声判定部26が、尤度比が小さい雑音、すなわち機械雑音を棄却するよう動作する。そして、統合部27が第1の音声判定部と第2の音声判定部の両方で対象音声を含むと判定された区間を対象音声区間として検出する。従って、音声雑音と機械雑音が同時に存在する環境下でも両雑音を誤検出することなく、対象音声区間のみを高精度に検出できる。
[第2実施形態]
以下、第2実施形態における音声検出装置について、第1実施形態と異なる内容を中心に説明する。以下の説明では、第1実施形態と同様の内容については適宜省略する。
[処理構成]
図6は、第2実施形態における音声検出装置10の処理構成例を概念的に示す図である。第2実施形態における音声検出装置10は、第1実施形態の構成に加えて、第1の区間整形部41および第2の区間整形部42を更に有する。
第1の区間整形部41は、第1の音声判定部25の判定結果に対して、所定の値より短い対象音声区間と所定の値より短い非音声区間を除去する整形処理を施すことで、各フレームが音声か否かを判定する。
例えば、第1の区間整形部41は、第1の音声判定部25による判定結果に対して、以下の2つの整形処理のうちの少なくとも一方を実行する。そして、第1の区間整形部41は、整形処理を行った後、整形処理後の判定結果を統合部27に入力する。
「音響信号の中の互いに分離した複数の第1の対象区間(第1の音声判定部25が対象音声を含むと判定した第1の対象フレームに対応する区間)の内、長さが所定の値より短い第1の対象区間に対応する第1の対象フレームを、第1の対象フレームでない第1のフレームに変更する整形処理」
「音響信号の中の互いに分離した複数の第1の非対象区間(第1の音声判定部25が対象音声を含まないと判定した第1の対象フレームに対応する区間)の内、長さが所定の値より短い第1の非対象区間に対応する第1のフレームを第1の対象フレームに変更する整形処理」
図7は、第1の区間整形部41が、長さがNs秒未満の第1の対象区間を第1の非対象区間とする整形処理、及び、長さがNe秒未満の第1の非対象区間を第1の対象区間とする整形処理の具体例を示す図である。なお、長さは秒以外の単位、例えばフレーム数で測っても良い。
図7の上段は、整形前の音声検出結果、すなわち第1の音声判定部25の出力を表す。図7の下段は、整形後の音声検出結果を表す。図7の上段を見ると、時刻T1で対象音声を含むと判定されているが、連続して対象音声を含むと判定された区間(a)の長さがNs秒未満である。このため、第1の対象区間(a)は第1の非対象区間に変更される(図7の下段参照)。一方、図7の上段を見ると、時刻T2から始まる第1の対象区間は長さがNs秒以上であるため、第1の非対象区間に変更されず、そのまま第1の対象区間となる(図7の下段参照)。すなわち、時刻T3において、時刻T2を音声検出区間(第1の対象区間)の始端として確定する。
図7の上段を見ると、時刻T4で非音声と判定されているが、連続して非音声と判定された区間(b)の長さがNe秒未満である。このため、第1の非対象区間(b)は第1の対象区間に変更される(図7の下段参照)。また、図7の上段を見ると、時刻T5から始まる第1の非対象区間(c)も長さがNe秒未満である。このため、第1の非対象区間(c)も第1の対象区間に変更される(図7の下段参照)。一方、図7の上段を見ると、時刻T6から始まる第1の非対象区間は長さがNe秒以上であるため、第1の対象区間に変更されず、そのまま第1の非対象区間となる(図7の下段参照)。すなわち、時刻T7において、時刻T6を音声検出区間(第1の対象区間)の終端として確定する。
なお、整形に用いるパラメータNsおよびNeは、開発用のデータを用いた評価実験等により、あらかじめ適切な値に設定しておく。
以上の整形処理によって、図7の上段の音声検出結果が、下段の音声検出結果に整形される。音声検出区間の整形処理は、上記の手順に限定されるものではない。例えば、上記の手順を経て得られた区間に対してさらに一定長以下の音声区間を除去する処理を加えても良いし、他の方法によって音声検出区間を整形しても良い。
第2の区間整形部42は、第2の音声判定部26の判定結果に対して、所定の値より短い音声区間と所定の値より短い非音声区間を除去する整形処理を施すことで、各フレームが音声か否かを判定する。
例えば、第2の区間整形部42は、第2の音声判定部26による判定結果に対して、以下の2つの整形処理のうちの少なくとも一方を実行する。そして、第2の区間整形部42は、整形処理を行った後、整形処理後の判定結果を統合部27に入力する。
「音響信号の中の互いに分離した複数の第2の対象区間(第2の音声判定部26が対象音声を含むと判定した第2の対象フレームに対応する区間)の内、長さが所定の値より短い第2の対象区間に対応する第2の対象フレームを、第2の対象フレームでない第2のフレームに変更する整形処理」
「音響信号の中の互いに分離した複数の第2の非対象区間(第2の音声判定部26が対象音声を含まないと判定した第2の対象フレームに対応する区間)の内、長さが所定の値より短い第2の非対象区間に対応する第2のフレームを第2の対象フレームに変更する整形処理」
第2の区間整形部42の処理内容は第1の区間整形部41と同じであり、入力が第1の音声判定部25の判定結果ではなく、第2の音声判定部26の判定結果となった点が異なる。整形に用いるパラメータ、例えば、図7の例におけるNsおよびNeは、第1の区間整形部41と第2の区間整形部42とで異なっても良い。
統合部27は、第1の区間整形部41および第2の区間整形部42から入力された整形処理後の判定結果を用いて、対象音声区間を判定する。すなわち、統合部27は、第1の区間整形部41および第2の区間整形部42の両方において対象音声を含むと判定された区間を対象音声区間と判定する。すなわち、第2実施形態の統合部27の処理内容は第1実施形態の統合部27と同じであり、入力が第1の音声判定部25および第2の音声判定部26の判定結果ではなく、第1の区間整形部41および第2の区間整形部42の判定結果である点が異なる。
第2実施形態の音声検出装置10は、統合部27により対象音声であると判定された区間を音声検出結果として出力する。
[動作例]
以下、第2実施形態における音声検出方法について図8を用いて説明する。図8は、第2実施形態における音声検出装置の動作例を示すフローチャートである。図8では、図4と同じ工程については、図4と同じ符号が付されている。同じ工程の説明は、ここでは省略する。
S51では、音声検出装置10は、S33の音量に基づく判定結果に整形処理を施すことで、各第1のフレームが対象音声を含むか否か判定する。
S52では、音声検出装置10は、S36の尤度比に基づく判定結果に整形処理を施すことで、各第2のフレームが対象音声を含むか否か判定する。
音声検出装置10は、S51で対象音声を含むと判定された第1のフレームで特定される区間、及び、S52で対象音声を含むと判定された第2のフレームで特定される区間の両方に含まれる区間を、検出すべき対象音声を含む区間(対象音声区間)であると判定する(S37)。
音声検出装置10の動作は、図8の動作例に限られるものではない。例えば、S32〜S51の処理と、S34〜S52の処理とは、順番を入れ替えて実行しても良い。これらの処理は同時並列に実行しても良い。また、リアルタイムに入力される音響信号を処理する場合等においては、S31〜S37の各処理を1フレームずつ繰り返し実行しても良い。このとき、S51やS52の整形処理は、あるフレームが音声か非音声かを判定するために、当該フレームより後のいくつかのフレームについてS33やS36の判定結果が必要となる。従って、S51やS52の判定結果は判定に必要なフレーム数分だけリアルタイムより遅れて出力される。S37の処理は、S51やS52による判定結果が得られた区間に対して実行するように動作すればよい。
[第2実施形態の作用及び効果]
上述したように、第2実施形態では、音量に基づく音声検出結果に対して整形処理を施すとともに、尤度比に基づく音声検出結果に対して別の整形処理を施した上で、それら2つの整形結果の両方において対象音声を含むと判定された区間を、対象音声区間として検出する。従って、第2実施形態によれば、様々な種類の雑音が同時に存在する環境下においても対象音声の区間を高精度に検出でき、かつ、発話中の息継ぎ等の短い間によって音声検出区間が細切れになることを防ぐことができる。
図9は、第2実施形態の音声検出装置10が、音声検出区間が細切れになることを防ぐことができる仕組みを説明する図である。図9は、検出すべき1つの発話が入力されたときの、第2実施形態の音声検出装置10の各部の出力を模式的に表した図である。
図9の「音量による判定結果(A)」は第1の音声判定部25の判定結果を表し、「尤度比による判定結果(B)」は第2の音声判定部26の判定結果を表す。図で示されるように、たとえ一続きの発話であっても、音量による判定結果(A)と尤度比による判定結果(B)は互いに分離した複数の第1及び第2の対象区間(音声区間)と第1及び第2の非対象区間(非音声区間)から構成されることが多い。例えば、一続きの発話であっても音量は常に変動しており、部分的に数十ms〜100ms程度音量が低下することはよくみられる。また、一続きの発話であっても、音素の境界などにおいて部分的に数十ms〜100ms程度尤度比が低下することもよくみられる。さらに、音量による判定結果(A)と尤度比による判定結果(B)とでは、対象音声を含むと判定される区間の位置が一致しないことが多い。これは、音量と尤度比がそれぞれ音響信号の異なる特徴を捉えているためである。
図9の「(A)の整形結果」は第1の区間整形部41の整形結果を表し、「(B)の整形結果」は第2区間整形部42の整形結果を表す。整形処理によって、音量に基づく判定結果中の第1の非対象区間(非音声区間)(d)〜(f)、及び、尤度比に基づく判定結果中の短い第2の非対象区間(非音声区間)(g)〜(j)が対象音声区間(音声区間)に変更されて、それぞれ1つの第1及び第2の対象音声区間が得られている。
図9の「統合結果」は統合部27の判定結果を表す。第1の区間整形部41および第2の区間整形部42が短い第1及び第2の非対象区間(非音声区間)を除去(第1及び第2の対象音声区間に変更)しているため、統合結果として1つの発話区間が正しく検出されている。
第2実施形態の音声検出装置10は、以上のように動作するため、検出すべき1つの発話区間が細切れになることを防ぐことができる。
このような効果は、音量に基づく判定結果、及び、尤度比に基づく判定結果のそれぞれに対して独立に区間整形処理を施した上で、それらを統合する構成としたからこそ得られる効果である。図10は、図9と同じ入力信号に対して、第1実施形態の音声検出装置10を適用し、第1実施形態の統合部27の判定結果に対して整形処理を施した場合の各部の出力を模式的に表した図である。図10の「(A)、(B)の統合結果」は第1実施形態の統合部27の判定結果を表し、「整形結果」は得られた判定結果に対して整形処理を施した結果を表す。前述したように、音声による判定結果(A)と尤度比による判定結果(B)とでは、対象音声を含むと判定される区間の位置は一致しない。そのため、(A)、(B)の統合結果には、長い非音声区間が現れることがある。図10における区間(l)がそのような長い非音声区間である。区間(l)の長さは整形処理のパラメータNeよりも長いため、整形処理によって除去(対象音声区間に変更)されず、非音声の区間(o)として残ってしまう。すなわち、統合部27の結果に対して整形処理を施した場合、一続きの発話区間であっても、検出する音声区間が細切れになりやすい。
第2実施形態の音声検出装置10によれば、2種類の判定結果を統合する前に、それぞれの判定結果に対して区間整形処理を施すため、一続きの発話区間を細切れにせずに1つの音声区間として検出することができる。
このように、発話の途中で音声検出区間が途切れないように動作することは、検出された音声区間に対して音声認識を適用する場合などにおいて特に効果がある。例えば、音声認識を用いた機器操作においては、発話の途中で音声検出区間が途切れてしまうと、発話の全てを音声認識することができないため、機器操作の内容を正しく認識できない。また、話し言葉では発話が途切れる言い淀み現象が頻発するが、言い淀みによって検出区間が分断されると音声認識の精度が低下しがちである。
以下では、音声雑音下、及び、機械雑音下における音声検出の具体例を示す。
図11は、駅アナウンス雑音下において一続きの発話を行った場合の、音量と尤度比の時系列である。1.4〜3.4秒の区間が検出すべき対象音声区間である。駅アナウンス雑音は音声雑音であるため、発話が終了した後の区間(p)においても尤度比は大きい値が継続している。一方、区間(p)における音量は小さい値となっている。従って、第1および第2の実施形態の音声検出装置10によれば、区間(p)は正しく非音声と判定される。さらに、検出すべき対象音声区間(1.4〜3.4秒)では、音量と尤度比が大小の変化を繰り返し、その変化位置も異なっているが、第2実施形態の音声検出装置10によればこのような場合でも、発話区間が途切れることなく、検出すべき対象音声区間を正しく1つの音声区間として検出できる。
図12は、ドアが閉まる音(5.5〜5.9秒)が存在するときに一続きの発話を行った場合の、音量と尤度比の時系列である。1.3〜2.9秒の区間が検出すべき対象音声区間である。ドアが閉まる音は機械雑音であり、この事例では音量が対象音声区間以上に大きい値となっている。一方、ドアが閉まる音の尤度比は小さい値となっている。従って、第1および第2の実施形態の音声検出装置10によれば、このドアが閉まる音は正しく非音声と判定される。さらに、検出すべき対象音声区間(1.3〜2.9秒)では、音量と尤度比が大小の変化を繰り返し、その変化位置も異なっているが、第2実施形態の音声検出装置10によればこのような場合でも検出すべき対象音声区間を正しく1つの音声区間として検出できる。このように、第2実施形態の音声検出装置10は、現実の様々な雑音環境下において効果的であることが確認されている。
[第2実施形態の変形例]
図13は、第2実施形態の変形例における音声検出装置10の処理構成例を概念的に示す図である。本変形例の構成は第2実施形態の構成と同じであり、スペクトル形状特徴計算部23が、第1の区間整形部41が対象音声を含むと判定した区間(第1の区間整形部41による整形処理後の第1の対象フレームで特定される区間)の音響信号に対してのみ特徴量を計算する点が異なる。尤度比計算部24、第2の音声判定部26、及び、第2の区間整形部は、スペクトル形状特徴計算部23が特徴量を計算したフレームのみを対象に処理を行う。
本変形例によれば、第1の区間整形部41が対象音声を含むと判定した区間に対してのみ、スペクトル形状特徴計算部23、尤度比計算部24、第2の音声判定部26、及び、第2の区間整形部42が動作するため、計算量を大きく削減できる。統合部27は、少なくとも第1の区間整形部41が対象音声を含むと判定した区間でなければ対象音声区間と判定しないため、本変形例によれば、同じ検出結果を出力しつつ計算量を削減できる。
[第3実施形態]
以下、第3実施形態における音声検出装置10について、第1実施形態と異なる内容を中心に説明する。以下の説明では、第1実施形態と同様の内容については適宜省略する。
[処理構成]
図14は、第3実施形態における音声検出装置10の処理構成例を概念的に示す図である。第3実施形態における音声検出装置10は、第1実施形態の構成に加えて、事後確率計算部61、事後確率ベース特徴計算部62、及び、棄却部63を更に有する。
事後確率計算部61は、音響信号取得部21が切り出した複数のフレーム(第3のフレーム)各々からスペクトル形状特徴計算部23が計算した特徴量を入力とし、第3のフレーム毎に音声モデル241を用いて複数の音素の事後確率p(qk|xt)を計算する。ここで、xtは時刻tの特徴量、qkは音素kを表す。なお、図14では尤度比計算部24が用いる音声モデルと事後確率計算部61が用いる音声モデルとが共有されているが、尤度比計算部24と事後確率計算部61はそれぞれ異なる音声モデルを用いても良い。また、スペクトル形状特徴計算部23は、尤度比計算部24が用いる特徴量と、事後確率計算部61が用いる特徴量とで異なる特徴量を計算しても良い。第3のフレーム群は、フレーム長及びフレームシフト長の少なくとも一方が第1のフレーム群及び/又は第2のフレーム群と異なってもよいし、第1のフレーム群及び/又は第2のフレーム群と一致していてもよい。
事後確率計算部61が用いる音声モデルとしては、例えば、音素ごとに学習した混合ガウスモデル(音素GMM)を用いることができる。音素GMMは、例えば、/a/、/i/、 /u/、/e/、/o/などの音素ラベルを付与した学習用音声データを用いて学習すれば良い。時刻tにおける音素qkの事後確率p(qk|xt)は、各音素の事前確率p(qk)が音素kによらずに等しいと仮定することで、音素GMMの尤度p(xt|qk)を用いて数2により計算できる。
Figure 2015059946
音素事後確率の計算方法はGMMを用いる方法に限るものではない。例えば、ニューラルネットワークを用いて、音素事後確率を直接計算するモデルを学習しても良い。
また、学習用音声データに対して音素ラベルを付与することなしに、音素に相当する複数のモデルを学習データから自動的に学習しても良い。例えば、人の声のみを含む学習用音声データを用いて1つのGMMを学習し、学習された各ガウス分布の1つ1つを疑似的に音素のモデルと考えても良い。例えば、混合数32のGMMを学習すれば、学習された32の単一ガウス分布は疑似的に複数の音素の特徴を表すモデルである、と考えることができる。この場合の「音素」は人間が音韻論的に定めた音素とは異なるが、第3実施形態における「音素」とは、例えば、上記で説明したような方法によって学習データから自動的に学習された音素であっても良い。
事後確率ベース特徴計算部62は、エントロピー計算部621、及び、時間差分計算部622から構成される。エントロピー計算部621は、第3のフレーム各々に対して、事後確率計算部61が計算した複数の音素の事後確率p(qk|xt)を用いて、数3により時刻tのエントロピーE(t)を計算する処理を実行する。
Figure 2015059946
音素事後確率のエントロピーは、事後確率が特定の音素に集中しているほど小さな値となる。音素の列で構成されている音声区間は、事後確率が特定の音素に集中しているため、音素事後確率のエントロピーは小さくなる。一方で、非音声区間は、事後確率が特定の音素に集中することが少ないため、音素事後確率のエントロピーは大きくなる。
時間差分計算部622は、第3のフレーム各々に対して、事後確率計算部61が計算した複数の音素の事後確率p(qk|xt)を用いて、数4により時刻tの時間差分D(t)を計算する。
Figure 2015059946
音素事後確率の時間差分の計算方法は数4に限られるものではない。例えば、それぞれの音素事後確率の時間差分の二乗和をとる代わりに、時間差分の絶対値の和をとっても良い。
音素事後確率の時間差分は、事後確率の分布の時間変化が大きいほど大きな値となる。音声区間は、数十ms程度の短時間で次々と音素が変化していくため、音素事後確率の時間差分は大きくなる。一方で、非音声区間は、音素という観点でみたときに短時間で特徴が大きく変化することは少ないため、音素事後確率の時間差分は小さくなる。
棄却部63は、事後確率ベース特徴計算部62が計算した、音素事後確率のエントロピーと時間差分の少なくとも一方を用いて、統合部27が対象音声であると判定した区間(対象音声区間)を最終的な検出区間として出力するか、或いは、棄却(対象音声区間でない区間とする)して出力しないかを判定する。すなわち、棄却部63は、事後確率のエントロピー及び時間差分の少なくとも一方を用いて、統合部27により判定された対象音声区間の中から対象音声を含まない区間に変更する区間を特定する。以下では、統合部27が対象音声であると判定した区間(対象音声区間)を「仮検出区間」と呼ぶ。
前述したように、音声区間では音素事後確率のエントロピーは小さく時間差分は大きいという特徴があり、非音声区間ではその逆の特徴があるため、エントロピーと時間差分の一方、或いは、両方を用いることで、統合部27が出力した仮検出区間が音声であるか非音声であるかを分類することができる。
棄却部63は、音素事後確率のエントロピーについて、統合部27が出力した仮検出区間内で平均することで、平均化エントロピーを計算しても良い。同様に、音素事後確率の時間差分について、仮検出区間内で平均することで、平均化時間差分を計算しても良い。そして、平均化エントロピーと平均化時間差分を用いて、仮検出区間が音声であるか非音声であるかを分類しても良い。すなわち、棄却部63は、音響信号の中の互いに分離した複数の仮検出区間毎に、事後確率のエントロピー及び時間差分の少なくとも一方の平均値を計算してもよい。そして、棄却部63は、算出した平均値を用いて、複数の仮検出区間各々を、対象音声を含まない区間とするか否か判定してもよい。
前述したように、音声区間では、音素事後確率のエントロピーが小さくなりやすいものの、中にはエントロピーが大きいフレームも存在する。仮検出区間の全体に渡る複数フレームでエントロピーを平均化することで、仮検出区間全体が音声であるか非音声であるかをさらに高精度に判定できる。同様に、音声区間では、音素事後確率の時間差分が大きくなりやすいものの、中には時間差分が小さいフレームも存在する。仮検出区間の全体に渡る複数フレームで時間差分を平均化することで、仮検出区間全体が音声であるか非音声であるかをさらに高精度に判定できる。
仮検出区間の分類は、例えば、平均化エントロピーが所定の閾値よりも大きいこと、及び、平均化時間差分が別の所定の閾値よりも小さいこと、の少なくとも一方または両方を満たすときに、仮検出区間を非音声であると分類(対象音声を含まない区間に変更)すれば良い。
仮検出区間の別の分類方法としては、平均化エントロピー及び平均化時間差分の少なくとも一方を特徴とした分類器を用いて、仮検出区間が音声であるか非音声であるかを分類(仮検出区間の中の対象音声を含まない区間に変更する区間を特定)することもできる。すなわち、事後確率のエントロピー及び時間差分の少なくとも一方に基づいて音声及び非音声に分類する分類器を用いて、統合部27により判定された対象音声区間の中から対象音声を含まない区間に変更する区間を特定することができる。分類器としては、GMM、ロジスティック回帰、サポートベクトルマシンなどを用いれば良い。分類器の学習データとしては、音声であるか非音声であるかがラベル付けされた複数の音響信号区間から構成される学習用音響データを用いれば良い。
また、より望ましくは、複数の対象音声区間を含む第1の学習用音響信号に対して第1実施形態の音声検出装置10を適用し、第1実施形態の音声検出装置10の統合部27が対象音声であると判定した音響信号内で互いに分離した複数の検出区間(対象音声区間)を第2の学習用音響信号とし、第2の学習用音響信号の各区間に対して音声であるか非音声であるかをラベル付けしたデータを分類器の学習データとしても良い。このように分類器の学習データを用意することで、第1実施形態の音声検出装置10によって音声と判定されるような音響信号を分類することに特化した分類器を学習できるため、棄却部63はさらに高精度な判定が可能となる。分類器は、学習用音響信号に対して第1実施形態に記載の音声検出装置10を適用して、音響信号の中の互いに分離した複数の対象音声区間毎に、対象音声を含まない区間とするか否か判定するように学習されていてもよい。
第3実施形態の音声検出装置10は、統合部27が出力した仮検出区間が音声であるか非音声であるかを棄却部63が判定し、棄却部63が音声であると判定した場合は、その仮検出区間を対象音声の検出結果として出力する(対象音声区間として出力)。棄却部63が、仮検出区間が非音声であると判定した場合は、その仮検出区間を棄却し、音声検出結果として出力しない(対象音声区間でない区間として出力)。
[動作例]
以下、第3実施形態における音声検出方法について図15を用いて説明する。図15は、第3実施形態における音声検出装置の動作例を示すフローチャートである。図15では、図4と同じ工程については、図4と同じ符号が付されている。同じ工程の説明は、ここでは省略する。
S71では、音声検出装置10は、S34で計算された特徴量を入力として、第3のフレーム各々に対して、音声モデル241を用いて、複数の音素の事後確率を計算する。音声モデル241は、学習用音響信号を用いた学習によって、あらかじめ作成しておく。
S72では、音声検出装置10は、第3のフレーム各々に対して、S71で計算された音素事後確率を用いて、音素事後確率のエントロピーと時間差分を計算する。
S73では、音声検出装置10は、S37で対象音声区間と判定した区間において、S72で計算された音素事後確率のエントロピーと時間差分の平均値を計算する。
S74では、音声検出装置10は、S73で計算された平均化エントロピーと平均化時間差分とを用いて、S37で対象音声区間と判定した区間が音声であるか非音声であるかを分類し、音声であると分類した場合は当該区間を対象音声区間として出力し、非音声であると分類した場合は当該区間を対象音声区間として出力しない。
[第3実施形態の作用及び効果]
上述したように第3実施形態では、まず初めに音量と尤度比に基づいて対象音声区間を仮に検出し、次に音素事後確率のエントロピー及び時間差分を用いて、仮検出した対象音声区間が音声であるか非音声であるかを判定する。従って、第3実施形態によれば、音量と尤度比に基づいた判定では音声区間であると誤検出してしまうような雑音が存在する状況下においても、対象音声の区間を高精度に検出することができる。以下では、第3実施形態の音声検出装置10が様々な雑音が存在する状況下でも対象音声を高精度に検出できる理由を詳細に説明する。
第1実施形態の音声検出装置10のように、音声対非音声の尤度比を用いて音声区間を検出する手法の一般的な特徴として、雑音が非音声モデルとして学習されていない場合に音声検出精度が低下する、という問題がある。具体的には、非音声モデルとして学習されていない雑音区間を音声区間であると誤検出してしまう。
第3実施形態の音声検出装置10では、非音声モデルの知識を用いてある区間が音声であるか非音声であるかを判定する処理(尤度比計算部24及び第2の音声判定部26)と、非音声モデルの知識を一切用いずに、音声が持つ性質のみを用いてある区間が音声であるか非音声であるかを判定する処理(事後確率計算部61、事後確率ベース特徴計算部62及び棄却部63)とを行う。このため、雑音の種類に非常に頑健な判定が可能となる。音声が持つ性質とは、前述した2つの特徴、すなわち、音声は音素の列で構成されていること、及び、音声区間では数十ms程度の短時間で次々と音素が変化していくこと、である。ある音響信号区間がこれら2つの特徴を備えているかどうかを音素事後確率のエントロピーと時間差分により判定することで、雑音の種類に依存しない判定が可能となる。
以下、図16乃至図18を用いて、音素事後確率のエントロピーが音声と非音声との判別に有効であることを説明する。図16は、音声区間における音声モデル(図では音素/a/、/i/、 /u/、/e/、/o/、・・・の音素モデル)と非音声モデル(図ではNoiseモデル)の尤度の具体例を表す図である。このように、音声区間では、音声モデルの尤度が大きくなるため(図では音素/i/の尤度が大きい)、音声対非音声の尤度比が大きくなる。従って、尤度比によって正しく音声であると判定できる。
図17は、非音声モデルとして学習されている雑音を含む雑音区間における音声モデルと非音声モデルの尤度の具体例を表す図である。このように、学習されている雑音の区間では、非音声モデルの尤度が大きくなるため、音声対非音声の尤度比が小さくなる。従って、尤度比によって正しく非音声であると判定できる。
図18は、非音声モデルとして学習されていない雑音を含む雑音区間における音声モデルと非音声モデルの尤度の具体例を表す図である。このように、学習されていない雑音の区間では、音声モデルの尤度のみならず、非音声モデルの尤度も小さくなるため、音声対非音声の尤度比は十分小さくならず、場合によってはかなり大きな値となる。従って、尤度比を用いた判定のみでは、学習されていない雑音の区間を誤って音声区間と判定してしまう。
しかしながら、図17及び図18で示したように、雑音区間においては、特定の音素の事後確率が突出して大きくなることはなく、事後確率が複数の音素に分散する。すなわち、音素事後確率のエントロピーは大きくなる。これに対し、図16で示したように、音声区間においては、特定の音素の事後確率が突出して大きくなる。すなわち、音素事後確率のエントロピーは小さくなる。この特徴を利用することで、音声と非音声を識別することができる。
本発明者らは、音素事後確率のエントロピーと時間差分によって音声と非音声とを正しく分類するには少なくとも数百ms程度の時間長でエントロピーと時間差分とを平均化する必要があることを見出し、かつ、そのような性質を最大限生かすために、まず初めに音量と尤度比を用いて複数の仮検出区間(統合部27が特定した対象音声区間)の開始点および終了点(例:開始フレーム及び終了フレーム、音響信号の先頭からの経過時間で特定される時点等)を決定し、次に音素事後確率のエントロピーと時間差分を用いて仮検出区間毎に、その仮検出区間を棄却すべきか否か(対象音声区間のままにするか、対象音声区間でない区間に変更するか)を判定する処理構成とした。そのため、第3実施形態の音声検出装置10は様々な雑音が存在する環境下でも高精度に対象音声の区間を検出できる。
[第3実施形態の変形例1]
時間差分計算部622は、音素事後確率の時間差分を数5により計算しても良い。
Figure 2015059946
ここで、nは時間差分をとるフレーム間隔であり、望ましくは音声における平均的な音素間隔に近い値とするのが良い。例えば、音素間隔が約100msとし、フレームシフト長が10msであるとすると、n=10とすれば良い。本変形例によれば、音声区間における音素事後確率の時間差分がより大きな値となり、音声と非音声との判別精度が向上する。
[第3実施形態の変形例2]
リアルタイムに入力される音響信号を処理して対象音声区間を検出する場合、棄却部63は、統合部27が対象音声区間の始端のみを確定している状態において、始端以降を仮検出区間として扱って、当該仮検出区間が音声であるか非音声であるかを判定しても良い。そして、当該仮検出区間が音声であると判定した場合に、当該仮検出区間を始端のみが確定した対象音声検出結果として出力する。本変形例によれば、対象音声区間の誤検出を抑えつつ、例えば、音声認識のような対象音声区間の始端が検出されてから処理を開始する処理を、終端が確定するより前の早いタイミングで開始することができる。
本変形例においては、棄却部63は、統合部27が対象音声区間の始端を確定してからある程度の時間、例えば数百ms程度が経過してから、仮検出区間が音声であるか非音声であるかの判定を始めることが望ましい。その理由は、音素事後確率のエントロピー及び時間差分による音声と非音声とを精度よく判定するためには、少なくとも数百ms程度の時間が必要となるためである。
[第3実施形態の変形例3]
事後確率計算部61は、統合部27が対象音声であると判定した区間(対象音声区間)に対してのみ事後確率を計算しても良い。このとき、事後確率ベース特徴計算部62は、統合部27が対象音声であると判定した区間(対象音声区間)に対してのみ音素事後確率のエントロピーと時間差分とを計算する。本変形例によれば、統合部27が対象音声であると判定した区間(対象音声区間)に対してのみ、事後確率計算部61、及び、事後確率ベース特徴計算部62が動作するため、計算量を大きく削減できる。棄却部63は、統合部27が音声であると判定した区間が音声であるか非音声であるかを判定するため、本変形例によれば、同じ検出結果を出力しつつ計算量を削減できる。
[第3実施形態の変形例4]
第2実施形態で説明した図6及び図13の構成を基本とし、これらに事後確率計算部61、事後確率ベース特徴計算部62及び棄却部63をさらに設けた構成とすることもできる。
[第4実施形態]
第4実施形態は、第1、第2または第3の実施形態をプログラムにより構成した場合に、そのプログラムにより動作するコンピュータとして実現される。
[処理構成]
図19は、第4実施形態における音声検出装置10の処理構成例を概念的に示す図である。第4実施形態における音声検出装置10は、CPU等を含んで構成されるデータ処理装置82と、磁気ディスクや半導体メモリ等で構成される記憶装置83と、音声検出用プログラム81等を有する。記憶装置83は、音声モデル241や非音声モデル242等を記憶する。
音声検出用プログラム81は、データ処理装置82に読み込まれ、データ処理装置82の動作を制御することにより、データ処理装置82上に第1、第2または第3の実施形態の機能を実現する。すなわち、データ処理装置82は、音声検出用プログラム81の制御によって、音響信号取得部21、音量計算部22、スペクトル形状特徴計算部23、尤度比計算部24、第1の音声判定部25、第2の音声判定部26、統合部27、第1の区間整形部41、第2の区間整形部42、事後確率計算部61、事後確率ベース特徴計算部62、棄却部63等の処理を実行する。
上記の各実施形態及び各変形例の一部又は全部は、以下の付記のようにも特定され得る。但し、各実施形態及び各変形例が以下の記載に限定されるものではない。
以下、参考形態の例を付記する。
1. 音響信号を取得する音響信号取得手段と、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算手段と、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定手段と、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段と、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段と、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定手段と、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段と、
を備える音声検出装置。
2. 1に記載の音声検出装置において、
前記第1の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第1の区間整形手段と、
前記第2の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第2の区間整形手段と、
をさらに有し、
前記第1の区間整形手段は、
長さが所定の値より短い前記第1の対象区間に対応する前記第1の対象フレームを前記第1の対象フレームでない前記第1のフレームに変更する整形処理、及び、
前記第1の対象区間でない第1の非対象区間の内、長さが所定の値より短い前記第1の非対象区間に対応する前記第1のフレームを前記第1の対象フレームに変更する整形処理、の少なくとも一方を実行し、
前記第2の区間整形手段は、
長さが所定の値より短い前記第2の対象区間に対応する前記第2の対象フレームを前記第2の対象フレームでない前記第2のフレームに変更する整形処理、及び、
前記第2の対象区間でない第2の非対象区間の内、長さが所定の値より短い前記第2の非対象区間に対応する前記第2のフレームを前記第2の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出装置。
3. 1又は2に記載の音声検出装置において、
前記スペクトル形状特徴計算手段は、前記第1の対象区間の前記音響信号に対してのみ、前記特徴量を計算する処理を実行する音声検出装置。
4. コンピュータが、
音響信号を取得する音響信号取得工程と、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算工程と、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定工程と、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程と、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程と、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定工程と、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合工程と、
を実行する音声検出方法。
4−2. 4に記載の音声検出方法において、
前記コンピュータは、
前記第1の音声判定工程による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合工程に渡す第1の区間整形工程と、
前記第2の音声判定工程による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合工程に渡す第2の区間整形工程と、
をさらに実行し、
前記第1の区間整形工程では、
長さが所定の値より短い前記第1の対象区間に対応する前記第1の対象フレームを前記第1の対象フレームでない前記第1のフレームに変更する整形処理、及び、
前記第1の対象区間でない第1の非対象区間の内、長さが所定の値より短い前記第1の非対象区間に対応する前記第1のフレームを前記第1の対象フレームに変更する整形処理、の少なくとも一方を実行し、
前記第2の区間整形工程では、
長さが所定の値より短い前記第2の対象区間に対応する前記第2の対象フレームを前記第2の対象フレームでない前記第2のフレームに変更する整形処理、及び、
前記第2の対象区間でない第2の非対象区間の内、長さが所定の値より短い前記第2の非対象区間に対応する前記第2のフレームを前記第2の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出方法。
4−3. 4又は4−2に記載の音声検出方法において、
前記スペクトル形状特徴計算工程では、前記第1の対象区間の前記音響信号に対してのみ、前記特徴量を計算する処理を実行する音声検出方法。
5. コンピュータを、
音響信号を取得する音響信号取得手段、
前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算手段、
前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定手段、
前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、
前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定手段、
前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段、
として機能させるためのプログラム。
5−2. 5に記載のプログラムにおいて、
前記コンピュータを、
前記第1の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第1の区間整形手段、
前記第2の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第2の区間整形手段、
としてさらに機能させ、
前記第1の区間整形手段に、
長さが所定の値より短い前記第1の対象区間に対応する前記第1の対象フレームを前記第1の対象フレームでない前記第1のフレームに変更する整形処理、及び、
前記第1の対象区間でない第1の非対象区間の内、長さが所定の値より短い前記第1の非対象区間に対応する前記第1のフレームを前記第1の対象フレームに変更する整形処理、の少なくとも一方を実行させ、
前記第2の区間整形手段に、
長さが所定の値より短い前記第2の対象区間に対応する前記第2の対象フレームを前記第2の対象フレームでない前記第2のフレームに変更する整形処理、及び、
前記第2の対象区間でない第2の非対象区間の内、長さが所定の値より短い前記第2の非対象区間に対応する前記第2のフレームを前記第2の対象フレームに変更する整形処理、の少なくとも一方を実行させるプログラム。
5−3. 5又は5−2に記載のプログラムにおいて、
前記スペクトル形状特徴計算手段に、前記第1の対象区間の前記音響信号に対してのみ、前記特徴量を計算する処理を実行させるプログラム。
この出願は、2013年10月22日に出願された日本出願特願2013−218934号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (5)

  1. 音響信号を取得する音響信号取得手段と、
    前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算手段と、
    前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定手段と、
    前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段と、
    前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段と、
    前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定手段と、
    前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段と、
    を備える音声検出装置。
  2. 請求項1に記載の音声検出装置において、
    前記第1の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第1の区間整形手段と、
    前記第2の音声判定手段による判定結果に対して整形処理を行った後、整形処理後の前記判定結果を前記統合手段に入力する第2の区間整形手段と、
    をさらに有し、
    前記第1の区間整形手段は、
    長さが所定の値より短い前記第1の対象区間に対応する前記第1の対象フレームを前記第1の対象フレームでない前記第1のフレームに変更する整形処理、及び、
    前記第1の対象区間でない第1の非対象区間の内、長さが所定の値より短い前記第1の非対象区間に対応する前記第1のフレームを前記第1の対象フレームに変更する整形処理、の少なくとも一方を実行し、
    前記第2の区間整形手段は、
    長さが所定の値より短い前記第2の対象区間に対応する前記第2の対象フレームを前記第2の対象フレームでない前記第2のフレームに変更する整形処理、及び、
    前記第2の対象区間でない第2の非対象区間の内、長さが所定の値より短い前記第2の非対象区間に対応する前記第2のフレームを前記第2の対象フレームに変更する整形処理、の少なくとも一方を実行する音声検出装置。
  3. 請求項1又は2に記載の音声検出装置において、
    前記スペクトル形状特徴計算手段は、前記第1の対象区間の前記音響信号に対してのみ、前記特徴量を計算する処理を実行する音声検出装置。
  4. コンピュータが、
    音響信号を取得する音響信号取得工程と、
    前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算工程と、
    前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定工程と、
    前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算工程と、
    前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算工程と、
    前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定工程と、
    前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合工程と、
    を実行する音声検出方法。
  5. コンピュータを、
    音響信号を取得する音響信号取得手段、
    前記音響信号から得られる複数の第1のフレーム各々に対して、音量を計算する処理を実行する音量計算手段、
    前記音量が第1の閾値以上である前記第1のフレームを、第1の対象フレームと判定する第1の音声判定手段、
    前記音響信号から得られる複数の第2のフレーム各々に対して、スペクトル形状を表す特徴量を計算する処理を実行するスペクトル形状特徴計算手段、
    前記第2のフレーム毎に、前記特徴量を入力として非音声モデルの尤度に対する音声モデルの尤度の比を計算する尤度比計算手段、
    前記尤度の比が第2の閾値以上である前記第2のフレームを、第2の対象フレームと判定する第2の音声判定手段、
    前記音響信号の中の前記第1の対象フレームに対応する第1の対象区間、及び、前記第2の対象フレームに対応する第2の対象区間の両方に含まれる区間を、前記対象音声を含む対象音声区間と判定する統合手段、
    として機能させるためのプログラム。
JP2015543724A 2013-10-22 2014-05-08 音声検出装置、音声検出方法及びプログラム Active JP6436088B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013218934 2013-10-22
JP2013218934 2013-10-22
PCT/JP2014/062360 WO2015059946A1 (ja) 2013-10-22 2014-05-08 音声検出装置、音声検出方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2015059946A1 true JPWO2015059946A1 (ja) 2017-03-09
JP6436088B2 JP6436088B2 (ja) 2018-12-12

Family

ID=52992558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015543724A Active JP6436088B2 (ja) 2013-10-22 2014-05-08 音声検出装置、音声検出方法及びプログラム

Country Status (3)

Country Link
US (1) US20160267924A1 (ja)
JP (1) JP6436088B2 (ja)
WO (1) WO2015059946A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017097206A (ja) * 2015-11-26 2017-06-01 マツダ株式会社 車両用音声認識装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015059947A1 (ja) * 2013-10-22 2015-04-30 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
KR101805976B1 (ko) * 2015-03-02 2017-12-07 한국전자통신연구원 음성 인식 장치 및 방법
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
JP6731802B2 (ja) * 2016-07-07 2020-07-29 ヤフー株式会社 検出装置、検出方法及び検出プログラム
US10586529B2 (en) * 2017-09-14 2020-03-10 International Business Machines Corporation Processing of speech signal
CN110619871B (zh) * 2018-06-20 2023-06-30 阿里巴巴集团控股有限公司 语音唤醒检测方法、装置、设备以及存储介质
US11823706B1 (en) * 2019-10-14 2023-11-21 Meta Platforms, Inc. Voice activity detection in audio signal
US11514892B2 (en) * 2020-03-19 2022-11-29 International Business Machines Corporation Audio-spectral-masking-deep-neural-network crowd search
CN112735381B (zh) * 2020-12-29 2022-09-27 四川虹微技术有限公司 一种模型更新方法及装置
CN113884986B (zh) * 2021-12-03 2022-05-03 杭州兆华电子股份有限公司 波束聚焦增强的强冲击信号空时域联合检测方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962293A (ja) * 1995-08-21 1997-03-07 Seiko Epson Corp 音声認識対話装置および音声認識対話処理方法
JPH10254476A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法
JP2002055691A (ja) * 2000-08-08 2002-02-20 Sanyo Electric Co Ltd 音声認識方法
JP2004272201A (ja) * 2002-09-27 2004-09-30 Matsushita Electric Ind Co Ltd 音声端点を検出する方法および装置
JP2005181458A (ja) * 2003-12-16 2005-07-07 Canon Inc 信号検出装置および方法、ならびに雑音追跡装置および方法
JP2008064821A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 信号区間推定装置、方法、プログラム及びその記録媒体
WO2010070840A1 (ja) * 2008-12-17 2010-06-24 日本電気株式会社 音声検出装置、音声検出プログラムおよびパラメータ調整方法
WO2011070972A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US6993481B2 (en) * 2000-12-04 2006-01-31 Global Ip Sound Ab Detection of speech activity using feature model adaptation
CN102741918B (zh) * 2010-12-24 2014-11-19 华为技术有限公司 用于话音活动检测的方法和设备
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0962293A (ja) * 1995-08-21 1997-03-07 Seiko Epson Corp 音声認識対話装置および音声認識対話処理方法
JPH10254476A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声区間検出方法
JP2002055691A (ja) * 2000-08-08 2002-02-20 Sanyo Electric Co Ltd 音声認識方法
JP2004272201A (ja) * 2002-09-27 2004-09-30 Matsushita Electric Ind Co Ltd 音声端点を検出する方法および装置
JP2005181458A (ja) * 2003-12-16 2005-07-07 Canon Inc 信号検出装置および方法、ならびに雑音追跡装置および方法
JP2008064821A (ja) * 2006-09-05 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 信号区間推定装置、方法、プログラム及びその記録媒体
WO2010070840A1 (ja) * 2008-12-17 2010-06-24 日本電気株式会社 音声検出装置、音声検出プログラムおよびパラメータ調整方法
WO2011070972A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
斎藤彰他: "複数の特徴量による条件付確率場に基づく音声区間検出", 電子情報通信学会技術研究報告, vol. 109, no. 356, JPN6014032809, December 2009 (2009-12-01), pages 59 - 64, ISSN: 0003790559 *
木田祐介他: "複数特徴の重み付き統合による雑音に頑健な発話区間検出", 電子情報通信学会論文誌, vol. 89, no. 8, JPN6014032808, August 2006 (2006-08-01), pages 1820 - 1828, ISSN: 0003790558 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017097206A (ja) * 2015-11-26 2017-06-01 マツダ株式会社 車両用音声認識装置

Also Published As

Publication number Publication date
WO2015059946A1 (ja) 2015-04-30
US20160267924A1 (en) 2016-09-15
JP6436088B2 (ja) 2018-12-12

Similar Documents

Publication Publication Date Title
JP6350536B2 (ja) 音声検出装置、音声検出方法及びプログラム
JP6436088B2 (ja) 音声検出装置、音声検出方法及びプログラム
US20240112669A1 (en) Methods and devices for selectively ignoring captured audio data
US11232788B2 (en) Wakeword detection
US10540979B2 (en) User interface for secure access to a device using speaker verification
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US20160118039A1 (en) Sound sample verification for generating sound detection model
US10755704B2 (en) Information processing apparatus
US10971149B2 (en) Voice interaction system for interaction with a user by voice, voice interaction method, and program
KR20170073113A (ko) 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치
JP5050698B2 (ja) 音声処理装置およびプログラム
JP2021033051A (ja) 情報処理装置、情報処理方法およびプログラム
US20240071408A1 (en) Acoustic event detection
JP2018005122A (ja) 検出装置、検出方法及び検出プログラム
JP5961530B2 (ja) 音響モデル生成装置とその方法とプログラム
JP2020008730A (ja) 感情推定システムおよびプログラム
Hamandouche Speech Detection for noisy audio files
JP6827602B2 (ja) 情報処理装置、プログラム及び情報処理方法
KR100873920B1 (ko) 화상 분석을 이용한 음성 인식 방법 및 장치
JP2003108188A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180611

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181029

R150 Certificate of patent or registration of utility model

Ref document number: 6436088

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150