JPWO2010061505A1 - 発話音声検出装置 - Google Patents

発話音声検出装置 Download PDF

Info

Publication number
JPWO2010061505A1
JPWO2010061505A1 JP2010540300A JP2010540300A JPWO2010061505A1 JP WO2010061505 A1 JPWO2010061505 A1 JP WO2010061505A1 JP 2010540300 A JP2010540300 A JP 2010540300A JP 2010540300 A JP2010540300 A JP 2010540300A JP WO2010061505 A1 JPWO2010061505 A1 JP WO2010061505A1
Authority
JP
Japan
Prior art keywords
voice
input power
frequency
power
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010540300A
Other languages
English (en)
Other versions
JP5459220B2 (ja
Inventor
江森 正
正 江森
剛範 辻川
剛範 辻川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010540300A priority Critical patent/JP5459220B2/ja
Publication of JPWO2010061505A1 publication Critical patent/JPWO2010061505A1/ja
Application granted granted Critical
Publication of JP5459220B2 publication Critical patent/JP5459220B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

装置1は、入力された音声信号を受け付け(音声受付部18)、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する(入力パワー算出部11)。装置1は、周波数と、その周波数に対して算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する(補正関数推定部14)。装置1は、周波数毎に、推定された補正関数により規定される関係に従って取得される補正係数に基づいて当該入力パワーを補正する(入力パワー補正部12)。装置1は、補正された入力パワーに基づいて、受け付けられた音声信号が表す音声が発話音声であるか否かを判定する(発話音声検出部16)。

Description

本発明は、入力された音声が発話音声であるか否かを判定する発話音声検出装置に関する。
入力された音声が発話音声(ユーザが発した音声)であるか否かを判定する発話音声検出装置が知られている。この種の発話音声検出装置の一つとして特許文献1に記載の装置は、複数のマイクロフォンを備える。
更に、この発話音声検出装置は、各マイクロフォンを介して入力された音声信号を受け付ける。そして、発話音声検出装置は、受け付けられた音声信号が表す音声の大きさを表す入力パワー(音声信号の入力パワー)を算出する。発話音声検出装置は、算出した入力パワーに基づいて、各マイクロフォンを介して入力された音声信号が表す音声が発話音声であるか否かを判定する。
ところで、この種の発話音声検出装置においては、同一の音声が各マイクロフォンに対して入力された場合であっても、各マイクロフォンを介して受け付けられた音声信号が表す音声の大きさを表す入力パワー(音声信号の入力パワー)が、マイクロフォンの固体差及び経年劣化の程度、又は、伝送系統(配線等)の相違等により、相違することがある。
このような場合、各マイクロフォンを介して入力された音声信号が表す音声が発話音声であるか否かを、一定の基準に基づいて判定することができない。即ち、各マイクロフォンを介して入力された音声のそれぞれが発話音声であるか否かを高い精度にて判定することができない。そこで、上記発話音声検出装置に、各マイクロフォンを介して受け付けられた音声信号の入力パワーを補正する信号補正装置を適用することが好適であると考えられる。
この種の信号補正装置の一つとして特許文献2に記載の装置は、あるマイクロフォンを介して入力された音声信号を受け付け、受け付けた音声信号の入力パワーを周波数毎に算出する。次いで、信号補正装置は、基準となる基準パワー(例えば、各マイクロフォンを介して入力された音声信号の入力パワーの平均値)と算出された入力パワーとの比を周波数毎に算出し、算出した比に応じて補正係数を設定する。
そして、信号補正装置は、設定された補正係数に基づいて、受け付けられた音声信号の入力パワーを補正する。これにより、周波数毎に、受け付けられた音声信号の入力パワーを基準パワーに近づけることができる。従って、この信号補正装置を上記発話音声検出装置に適用することにより、各マイクロフォンを介して入力された音声のそれぞれが発話音声であるか否かを高い精度にて判定することができる。
特開2008−158035号公報 特開2007−68125号公報
ところで、上記信号補正装置においては、何らかの理由により(例えば、入力される音声信号に雑音が重畳することにより、又は、入力される音声信号の伝播に伴う遅延時間が過大であることにより)、ある周波数において、他の周波数よりも過度に大きい(又は、小さい)入力パワーを有する音声信号が入力される場合がある。このような場合、この周波数に対して設定される補正係数は、過小(又は、過大)となってしまう。即ち、このような場合、この周波数にて、受け付けられた音声信号の入力パワーを基準パワーに十分に近づけることができない。
このため、上記信号補正装置を適用した上記発話音声検出装置によっても、入力された音声が発話音声であるか否かを高い精度にて判定することができない場合が生じるという問題があった。
このため、本発明の目的は、上述した課題である「入力された音声が発話音声であるか否かを高い精度にて判定することができない場合が生じること」を解決することが可能な発話音声検出装置を提供することにある。
かかる目的を達成するため本発明の一形態である発話音声検出装置は、
入力された音声信号を受け付ける音声受付手段と、
上記音声受付手段により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行う入力パワー算出手段と、
周波数と、その周波数に対して上記算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行う補正関数推定手段と、
周波数毎に、上記推定された補正関数により規定される関係に従って取得される補正係数を、上記算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行う入力パワー補正手段と、
上記補正された入力パワーに基づいて、上記受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う発話音声検出手段と、
を備える。
また、本発明の他の形態である発話音声検出方法は、
入力された音声信号を受け付ける音声受付手段により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行い、
周波数と、その周波数に対して上記算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行い、
周波数毎に、上記推定された補正関数により規定される関係に従って取得される補正係数を、上記算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行い、
上記補正された入力パワーに基づいて、上記受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う、方法である。
また、本発明の他の形態である発話音声検出プログラムは、
情報処理装置に、
入力された音声信号を受け付ける音声受付手段により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行う入力パワー算出手段と、
周波数と、その周波数に対して上記算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行う補正関数推定手段と、
周波数毎に、上記推定された補正関数により規定される関係に従って取得される補正係数を、上記算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行う入力パワー補正手段と、
上記補正された入力パワーに基づいて、上記受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う発話音声検出手段と、
を実現させるためのプログラムである。
本発明は、以上のように構成されることにより、入力された音声が発話音声であるか否かを高い精度にて判定することができる。
本発明の第1実施形態に係る発話音声検出装置の機能の概略を表すブロック図である。 図1に示した発話音声検出装置のCPUが実行する発話音声検出プログラムを示したフローチャートである。 複数のマイクロフォンのそれぞれに対して算出された入力パワーの一例を示したグラフである。 本発明の第2実施形態に係る発話音声検出装置の機能の概略を表すブロック図である。
以下、本発明に係る、発話音声検出装置、発話音声検出方法、及び、発話音声検出プログラム、の各実施形態について図1〜図4を参照しながら説明する。
<第1実施形態>
図1に示したように、第1実施形態に係る発話音声検出装置1は、情報処理装置である。発話音声検出装置1は、図示しない中央処理装置(CPU;Central Processing Unit)、記憶装置(メモリ及びハードディスク駆動装置(HDD))、及び、入力装置を備える。
入力装置は、複数(本例では、L個(Lは整数))のマイクロフォンMC1,…,MCk,…,MCL(ここで、kは、1〜Lの整数)と接続されている。各マイクロフォンは、周囲の音声を集音し、集音した音声を表す音声信号を入力装置へ出力する。入力装置は、各マイクロフォンから出力された音声信号を受け付ける。なお、入力装置及びマイクロフォンMC1〜MCLは、音声受付手段を構成している。
上記のように構成された発話音声検出装置1の機能は、発話音声検出装置1のCPUが後述する図2に示したフローチャートにより表されるプログラム等を実行することにより、実現される。なお、この機能は、論理回路等のハードウェアにより実現されていてもよい。
この発話音声検出装置1は、複数のマイクロフォンMC1〜MCLのそれぞれに対して、同様に作動する。従って、以下、複数のマイクロフォンMC1〜MCLのうちの任意の1つであるマイクロフォンMCkに対する、発話音声検出装置1の機能について説明する。
この発話音声検出装置1の機能は、入力パワー算出部(入力パワー算出手段)11と、入力パワー補正部(入力パワー補正手段)12と、時間平均パワー算出部(時間平均パワー算出手段)13と、補正関数推定部(補正関数推定手段)14と、補正関数記憶部15と、発話音声検出部(発話音声検出手段)16と、を含む。
入力パワー算出部11は、マイクロフォンMCkから入力された音声信号に対してA/D(アナログデジタル)変換処理を行うことにより、音声信号をアナログ信号からデジタル信号に変換する。
更に、入力パワー算出部11は、変換後の音声信号を所定の(本例では、一定の)フレーム間隔毎に分割する。入力パワー算出部11は、以下の処理を、分割された音声信号の各部分(フレーム信号)に対して行う。
入力パワー算出部11は、フレーム信号に対して、所定の前処理(例えば、プリエンファシス処理、及び、窓関数をかける窓掛け処理等)を行う。次いで、入力パワー算出部11は、フレーム信号に対して高速フーリエ変換(FFT;Fast Fourier Transform)処理を行うことにより、周波数領域におけるフレーム信号(実数部と虚数部とからなる複素数)を取得する。
そして、入力パワー算出部11は、周波数毎に、取得されたフレーム信号の実数部を二乗した値と、取得されたフレーム信号の虚数部を二乗した値と、の和を入力パワーx(t)として算出する。
例えば、デジタル信号として、サンプリング周波数が44.1kHzであり且つ16ビットにて量子化された信号が用いられた場合において、フレーム間隔が10msであり、且つ、1024点でFFT処理を行った場合、約43Hz毎の入力パワーx(t)が算出される。ここで、iは周波数に対応する番号(この例では、iが1だけ増加することと周波数が約43Hzだけ増加することとが対応している)であり、tは、時間軸におけるフレーム信号の位置を表す番号(例えば、フレームを特定するためのフレーム番号)である。
このように、入力パワー算出部11は、マイクロフォンMCkを介して受け付けられた音声信号を所定のフレーム間隔毎に分割し、当該分割された音声信号の各部分(フレーム信号)に対して入力パワーx(t)を周波数毎に算出する。
入力パワー補正部12は、周波数毎に、補正関数記憶部15により記憶されている補正係数fを、入力パワー算出部11により算出された入力パワーx(t)に乗じることにより、当該パワーx(t)を補正する。そして、入力パワー補正部12は、補正した入力パワーx’(t)を出力する。
ここで、補正係数fは、補正関数により規定される関係に従って取得された値である。補正関数は、周波数に対応する番号i(即ち、周波数)と、その周波数に対して算出された入力パワーx(t)をその周波数に対して定められた基準パワーに近づけるための補正係数fと、の関係を規定する連続関数である。本例では、補正関数は、周波数を変数とする多項式関数である。後述するように、補正関数は、時間平均パワー算出部13及び補正関数推定部14によって推定される。
時間平均パワー算出部13は、入力パワー算出部11により算出された入力パワー(即ち、音声信号のフレーム間隔毎に分割された各部分に対して算出された入力パワー)x(t)のうちの、予め設定された平均用時間Tに対応するフレーム信号に対して算出された入力パワーx(t)を平均した時間平均パワーx(即ち、異なるtに対する複数のx(t)を平均した値)を周波数毎に算出する。
時間平均パワーxは、FFT処理の点数の半分の数Nだけ存在する。例えば1024点でFFT処理を行った場合、N=512である。即ち、時間平均パワーxは、x,x,・・・,x511と512個存在する。
補正関数推定部14は、周波数と、その周波数に対して時間平均パワー算出部13により算出された時間平均パワーxをその周波数に対して定められた基準パワーyに近づけるための補正係数fと、の関係を規定する補正関数を推定する。本例では、補正関数推定部14は、基準パワーyとして、マイクロフォンMC1〜MCLのうちの基準マイクロフォンとして予め定められた1つのマイクロフォンMCr(ここで、rは、1〜Lの整数)に対して時間平均パワー算出部13により算出された時間平均パワーxを用いる。
具体的には、補正関数推定部14は、下記式(1)に基づいて行列Aを算出する。
Figure 2010061505
補正関数推定部14は、上記式(1)中の行列Aの各要素における変数xとして、マイクロフォンMCkに対して時間平均パワー算出部13により算出された時間平均パワーxを用いる。また、Mは、補正関数の次数である。Mは、予め設定された値である。Mは、0〜20の値であることが好適である。
更に、補正関数推定部14は、下記式(2)に基づいてベクトルbを算出する。
Figure 2010061505
補正関数推定部14は、上記式(2)中のベクトルbの各要素における変数yとして、基準マイクロフォンMCrに対して時間平均パワー算出部13により算出された時間平均パワー(基準パワー)xを用いる。
そして、補正関数推定部14は、算出された行列Aと、算出されたベクトルbと、下記式(3)と、に基づいてベクトルaを算出する。ここで、ベクトルa=(a,a,・・・,aである。
Figure 2010061505
更に、補正関数推定部14は、算出したベクトルaと、下記式(4)と、に基づいて補正係数fを周波数毎に算出する。下記式(4)は、周波数に対応する番号i(即ち、周波数)を変数とする多項式関数である補正関数を表している。即ち、ベクトルaを算出することは、補正関数を推定することに対応している。
Figure 2010061505
補正関数記憶部15は、補正関数推定部14により算出された補正係数fと、周波数に対応する番号iと、を対応付けて記憶装置に記憶させる。
そして、上述したように、入力パワー補正部12は、入力パワー算出部11により算出された入力パワーx(t)を、下記式(5)に基づいて補正する。即ち、入力パワー補正部12は、周波数毎に、補正関数記憶部15により記憶されている補正係数fを、入力パワー算出部11により算出された入力パワーx(t)に乗じることにより、当該入力パワーx(t)を補正する。そして、入力パワー補正部12は、補正した入力パワーx’(t)を出力する。
Figure 2010061505
なお、上記式(1)〜(3)は、補正された入力パワーx’と、基準マイクロフォンMCrに対して時間平均パワー算出部13により算出された時間平均パワー(基準パワー)yと、の差を二乗した値の、所定の周波数の範囲(本例では、周波数に対応する番号iのすべてに対応する範囲)にわたる和を最小とするベクトルaを求めることにより、導出される。
これによれば、受け付けられた音声信号の入力パワーを基準パワーに、十分に近づけることが可能な周波数の範囲を広くすることができる。
具体的には、上記式(1)〜(3)は、基準パワーyと、補正された入力パワーx’(=f)と、の差を二乗した関数を、補正関数の各係数a(ここで、jは1〜Mの整数)により偏微分した式を0とおくことにより得られるM個の方程式を連立させることにより導出される。
発話音声検出部16は、入力パワー補正部12により出力(補正)された入力パワーx’(t)に基づいて、マイクロフォンMCkを介して受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う。
より具体的に述べると、発話音声検出部16は、雑音パワー取得部(雑音パワー取得手段)16aと、信号対雑音比取得部(信号対雑音比取得手段)16bと、を含む。
雑音パワー取得部16aは、マイクロフォンMCkを介して受け付けられた音声信号が表す音声のうちの雑音の大きさを表す雑音パワーN(t)を周波数毎に取得する。
具体的には、雑音パワー取得部16aは、周波数毎に、マイクロフォンMCkに対して入力パワー補正部12により出力された入力パワーx’(t)が、複数のマイクロフォンMC1〜MCLのそれぞれに対して入力パワー補正部12により出力された入力パワーx’(t)のうちの最大値である場合、マイクロフォンMCkに対する雑音パワーN(t)として、複数のマイクロフォンMC1〜MCLのそれぞれに対して入力パワー補正部12により出力された入力パワーx’(t)のうちの最小値を取得する。
一方、雑音パワー取得部16aは、マイクロフォンMCkに対して入力パワー補正部12により出力された入力パワーx’(t)が、複数のマイクロフォンMC1〜MCLのそれぞれに対して入力パワー補正部12により出力された入力パワーx’(t)のうちの最大値でない場合、マイクロフォンMCkに対する雑音パワーN(t)として、マイクロフォンMCkに対して入力パワー補正部12により出力された入力パワーx’(t)を取得する。
即ち、雑音パワー取得部16aは、周波数毎に、複数のマイクロフォンMC1〜MCLのそれぞれに対して入力パワー補正部12により出力された入力パワーx’(t)のうちの最大の入力パワーx’(t)を算出する基となった音声信号を受け付けたマイクロフォン(パワー最大マイクロフォン)に対する雑音パワーN(t)として、複数のマイクロフォンMC1〜MCLのそれぞれに対して入力パワー補正部12により出力された入力パワーx’(t)のうちの最小の入力パワーx’(t)を取得している、と言うことができる。
更に、雑音パワー取得部16aは、周波数毎に、パワー最大マイクロフォン以外のマイクロフォンに対する雑音パワーN(t)として、そのマイクロフォンに対して入力パワー補正部12により出力された入力パワーx’(t)を取得している、と言うことができる。
このように、発話音声検出装置1は、パワー最大マイクロフォンに対する信号対雑音比SNR(t)を、他のマイクロフォンに対する信号対雑音比SNR(t)よりもより一層大きくするように構成されている。
この結果、パワー最大マイクロフォンを介して入力された音声に基づいて、その音声が発話音声であるか否かを判定することができる。従って、入力された音声が発話音声であるか否かを高い精度にて判定することができる。
また、信号対雑音比取得部16bは、周波数毎に、入力パワー補正部12により出力された入力パワーx’(t)を、雑音パワー取得部16aにより取得された雑音パワーN(t)により除することにより周波数毎信号対雑音比SNR(t)を算出する。更に、信号対雑音比取得部16bは、算出した周波数毎信号対雑音比SNR(t)を代表する値である信号対雑音比SNR(t)として、算出した周波数毎信号対雑音比SNR(t)の所定の周波数の範囲(本例では、周波数に対応する番号iのすべてに対応する範囲)にわたる和を取得する。
なお、信号対雑音比取得部16bは、信号対雑音比SNR(t)として、算出した周波数毎信号対雑音比SNR(t)の最大値を取得するように構成されていてもよい。
発話音声検出部16は、信号対雑音比取得部16bにより取得された信号対雑音比SNR(t)が予め設定された閾値よりも大きい場合、マイクロフォンMCkを介して受け付けられた音声信号が表す音声が発話音声であると判定する。一方、発話音声検出部16は、信号対雑音比取得部16bにより取得された信号対雑音比SNR(t)が上記閾値よりも小さい場合、マイクロフォンMCkを介して受け付けられた音声信号が表す音声が発話音声でないと判定する。
次に、上述した発話音声検出装置1の作動について具体的に述べる。
発話音声検出装置1のCPUは、図2にフローチャートにより示した発話音声検出プログラムを、所定の演算周期が経過する毎に実行するようになっている。
具体的に述べると、CPUは、発話音声検出プログラムの処理を開始すると、ステップ205にて、各マイクロフォンMC1〜MCLを介して入力された音声信号を受け付ける。そして、CPUは、受け付けた音声信号をフレーム間隔毎に分割し、分割された音声信号の各部分(フレーム信号)に対する入力パワーx(t)を算出する入力パワー算出処理を、複数のマイクロフォンMC1〜MCLのそれぞれに対して行う(入力パワー算出工程)。
そして、CPUは、ステップ210にて、受け付けた音声信号が白色雑音を表す音声信号であるか否かを判定する。
いま、受け付けた音声信号が白色雑音を表す音声信号である場合を想定して説明を続ける。この場合、発話音声検出装置1は、複数のマイクロフォンMC1〜MCLのそれぞれに対して補正関数を推定する補正関数推定処理(記憶装置に記憶されている補正係数fを更新する処理)を行う。
具体的には、CPUは、「Yes」と判定してステップ215へ進む。そして、CPUは、上記ステップ205にて算出された入力パワー(即ち、音声信号のフレーム間隔毎に分割された各部分に対して算出された入力パワー)x(t)のうちの平均用時間Tに対応するフレーム信号に対して算出された入力パワーx(t)を平均した時間平均パワーxを周波数毎に算出する時間平均パワー算出処理を、複数のマイクロフォンMC1〜MCLのそれぞれに対して行う(時間平均パワー算出工程)。
そして、CPUは、ステップ220にて、あるマイクロフォンMCkに対して算出された時間平均パワーx及び基準マイクロフォンMCrに対して算出された時間平均パワーyに基づいて、補正関数を推定する補正関数推定処理を、複数のマイクロフォンMC1〜MCLのそれぞれに対して行う。具体的には、CPUは、上記式(1)〜(3)に基づいてベクトルaを算出する処理を、複数のマイクロフォンMC1〜MCLのそれぞれに対して行う(補正関数推定工程)。
次いで、CPUは、ステップ225にて、算出されたベクトルaに基づいて補正係数fを算出する処理を、複数のマイクロフォンMC1〜MCLのそれぞれに対して行う。そして、CPUは、既に補正係数fが記憶装置に記憶されている場合には記憶されている補正係数fを算出した補正係数fにより更新する。一方、補正係数fが記憶装置に記憶されていない(最初に補正係数fが算出された)場合には、算出した補正係数fを新たに記憶装置に記憶させる。
次に、受け付けた音声信号が白色雑音を表す音声信号でない場合を想定して説明を続ける。この場合、発話音声検出装置1は、マイクロフォンMCkを介して受け付けられた音声信号の入力パワーを補正する入力パワー補正処理を、複数のマイクロフォンMC1〜MCLのそれぞれに対して行う。
具体的には、CPUは、ステップ210にて「No」と判定してステップ230へ進み、周波数(即ち、周波数に対応する番号i)毎に、記憶装置に記憶されている補正係数fを、上記ステップ205にて算出された入力パワーx(t)に乗じることにより、当該入力パワーx(t)を補正する入力パワー補正処理を、複数のマイクロフォンMC1〜MCLのそれぞれに対して行う(入力パワー補正工程)。そして、CPUは、補正した入力パワーx’(t)を出力する。
次いで、CPUは、ステップ235にて、出力された入力パワーx’(t)に基づいて、雑音パワーN(t)を取得する雑音パワー取得処理を、複数のマイクロフォンMC1〜MCLのそれぞれに対して行う(雑音パワー取得工程)。
具体的には、CPUは、周波数毎に、複数のマイクロフォンMC1〜MCLのそれぞれに対して出力された入力パワーx’(t)のうちの最大の入力パワーx’(t)を算出する基となった音声信号を受け付けたマイクロフォン(パワー最大マイクロフォン)に対する雑音パワーN(t)として、複数のマイクロフォンMC1〜MCLのそれぞれに対して出力された入力パワーx’(t)のうちの最小の入力パワーx’(t)を取得する。
更に、CPUは、周波数毎に、パワー最大マイクロフォン以外のマイクロフォンに対する雑音パワーN(t)として、そのマイクロフォンに対して出力された入力パワーx’(t)を取得する。
いま、CPUが雑音パワーN(t)を取得する処理の一例について、番号iに対応する周波数に着目しながら説明する。ここでは、図3に示したように、複数のマイクロフォンMC1〜MCLのそれぞれに対して出力された入力パワーx’(t)のうちの、マイクロフォンMC1に対して出力された入力パワーx’(t)が最小であり、マイクロフォンMC2に対して出力された入力パワーx’(t)が最大である場合を一例として説明する。
この場合、CPUは、マイクロフォンMC1に対する雑音パワーN(t)として、マイクロフォンMC1に対して出力された入力パワーx’(t)を取得する。また、CPUは、マイクロフォンMC2に対する雑音パワーN(t)として、マイクロフォンMC1に対して出力された入力パワーx’(t)を取得する。また、CPUは、マイクロフォンMCkに対する雑音パワーN(t)として、マイクロフォンMCkに対して出力された入力パワーx’(t)を取得する。
このようにして、CPUは、周波数毎に、雑音パワーN(t)を複数のマイクロフォンMC1〜MCLのそれぞれに対して取得する。
そして、CPUは、ステップ240にて、周波数毎に、出力された入力パワーx’(t)を、取得された雑音パワーN(t)により除することにより周波数毎信号対雑音比SNR(t)を算出する処理を、複数のマイクロフォンMC1〜MCLのそれぞれに対して行う。
更に、CPUは、算出した周波数毎信号対雑音比SNR(t)の所定の周波数の範囲(本例では、周波数に対応する番号iのすべてに対応する範囲)にわたる和を信号対雑音比SNR(t)として取得する処理を、複数のマイクロフォンMC1〜MCLのそれぞれに対して行う(信号対雑音比取得工程)。
次いで、CPUは、ステップ245にて、取得された信号対雑音比SNR(t)が予め設定された閾値よりも大きいか否かを判定することにより、マイクロフォンMCkを介して受け付けた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を、複数のマイクロフォンMC1〜MCLのそれぞれに対して行う(発話音声検出工程)。上述したように、信号対雑音比SNR(t)が上記閾値よりも大きいとCPUが判定することは、その信号対雑音比SNR(t)に対応するマイクロフォンMCkを介して受け付けられた音声信号が表す音声が発話音声であるとCPUが判定することに対応している。
以上、説明したように、本発明による発話音声検出装置の第1実施形態によれば、発話音声検出装置1は、周波数と補正係数fとの関係を規定する補正関数を推定し、推定した補正関数に基づいて設定された補正係数fを、受け付けられた音声信号が表す音声の大きさを表す入力パワー(音声信号の入力パワー)に乗じることにより当該入力パワーを補正する。
これにより、何らかの理由により、ある周波数にて、他の周波数よりも過度に大きい(又は、小さい)入力パワーを有する音声信号が入力された場合であっても、受け付けられた音声信号の入力パワーを基準パワーに十分に近づけることができる。
このように、上記構成によれば、入力された音声信号の入力パワーを補正することにより、その音声信号の入力パワーを高い精度にて基準パワーに近づけることができる。この結果、入力された音声が発話音声(ユーザが発した音声)であるか否かを高い精度にて判定することができる。
更に、上記第1実施形態において、補正関数は、周波数を変数とする多項式関数である。
これによれば、多項式関数の次数Mを調整することにより、周波数の変化に対する、補正係数fの変化の滑らかさの程度を調整することができる。
加えて、上記第1実施形態において、発話音声検出装置1は、複数のマイクロフォンMC1〜MCLの1つである基準マイクロフォンMCrに対して算出された入力パワーx(t)を基準パワーy(t)として用いるように構成されている。
これによれば、複数のマイクロフォンMC1〜MCLのそれぞれにより受け付けられた音声信号の入力パワーx(t)を、基準マイクロフォンMCrにより受け付けられた音声信号の入力パワー(基準パワー)y(t)に十分に近づけることができる。
更に、上記第1実施形態において、発話音声検出装置1は、複数のフレーム信号に対して算出された入力パワーx(t)を平均した時間平均パワーxに基づいて補正関数を推定するように構成されている。
これによれば、各マイクロフォンMCkに対して算出された時間平均パワー、及び、基準マイクロフォンMCrに対して算出された時間平均パワーのそれぞれを算出する基となった音声信号の基となった音声が一致している程度を高めることができる。この結果、各マイクロフォンMCkにより受け付けられた音声信号の入力パワーを補正することにより、その音声信号の入力パワーを基準パワー(基準マイクロフォンMCrに対して算出された時間平均パワー)に十分に近づけることができる。
また、上記構成によれば、例えば、音源から発せられた音声に比較的短い期間において雑音が重畳した場合であっても、その雑音の影響を軽減することができる。従って、各マイクロフォンMCkにより受け付けられた音声信号の入力パワーx(t)を基準パワーy(t)に、より一層高い精度にて近づけることができる。
<第2実施形態>
次に、本発明の第2実施形態に係る発話音声検出装置について図4を参照しながら説明する。
第2実施形態に係る発話音声検出装置1の機能は、音声受付部(音声受付手段)18と、入力パワー算出部(入力パワー算出手段)11と、入力パワー補正部(入力パワー補正手段)12と、補正関数推定部(補正関数推定手段)14と、発話音声検出部(発話音声検出手段)16と、を含む。
音声受付部18は、入力された音声信号を受け付ける。
入力パワー算出部11は、音声受付部18により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行う。
補正関数推定部14は、周波数と、その周波数に対して入力パワー算出部11により算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行う。
入力パワー補正部12は、周波数毎に、補正関数推定部14により推定された補正関数により規定される関係に従って取得される補正係数を、入力パワー算出部11により算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行う。
発話音声検出部16は、入力パワー補正部12により補正された入力パワーに基づいて、音声受付部18により受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う。
を備える。
これによれば、発話音声検出装置1は、周波数と補正係数との関係を規定する補正関数を推定し、推定した補正関数に基づいて設定された補正係数を、受け付けられた音声信号が表す音声の大きさを表す入力パワー(音声信号の入力パワー)に乗じることにより当該入力パワーを補正する。
これにより、何らかの理由により、ある周波数にて、他の周波数よりも過度に大きい(又は、小さい)入力パワーを有する音声信号が入力された場合であっても、受け付けられた音声信号の入力パワーを基準パワーに十分に近づけることができる。
このように、上記構成によれば、入力された音声信号の入力パワーを補正することにより、その音声信号の入力パワーを高い精度にて基準パワーに近づけることができる。この結果、入力された音声が発話音声(ユーザが発した音声)であるか否かを高い精度にて判定することができる。
この場合、上記補正関数は、周波数を変数とする多項式関数であることが好適である。
これによれば、多項式関数の次数を調整することにより、周波数の変化に対する、補正係数の変化の滑らかさの程度を調整することができる。
この場合、
上記補正関数推定手段は、上記補正された入力パワーと、上記基準パワーと、の差を二乗した値の、所定の周波数の範囲にわたる和を最小とする上記補正関数を推定するように構成されることが好適である。
これによれば、受け付けられた音声信号の入力パワーを基準パワーに、十分に近づけることが可能な周波数の範囲を広くすることができる。
この場合、上記発話音声検出手段は、
上記音声受付手段により受け付けられた音声信号が表す音声のうちの雑音の大きさを表す雑音パワーを周波数毎に取得する雑音パワー取得手段と、
周波数毎に、上記補正された入力パワーを上記取得された雑音パワーにより除することにより周波数毎信号対雑音比を算出し、当該算出した周波数毎信号対雑音比を代表する値である信号対雑音比を取得する信号対雑音比取得手段と、を含むとともに、
上記取得された信号対雑音比が予め設定された閾値よりも大きい場合、上記受け付けられた音声信号が表す音声が発話音声であると判定するように構成されることが好適である。
この場合、上記信号対雑音比取得手段は、上記算出された周波数毎信号対雑音比の、所定の周波数の範囲にわたる和を上記信号対雑音比として取得するように構成されることが好適である。
また、上記発話音声検出装置の他の態様において、
上記信号対雑音比取得手段は、上記算出された周波数毎信号対雑音比の最大値を上記信号対雑音比として取得するように構成されることが好適である。
この場合、上記発話音声検出装置は、
上記音声受付手段を複数備えるとともに、
上記入力パワー算出手段は、上記入力パワー算出処理を上記複数の音声受付手段のそれぞれに対して行うように構成され、
上記補正関数推定手段は、上記補正関数推定処理を上記複数の音声受付手段のそれぞれに対して行うように構成され、
上記入力パワー補正手段は、上記入力パワー補正処理を上記複数の音声受付手段のそれぞれに対して行うように構成され、
上記発話音声検出手段は、
上記発話音声検出処理を上記複数の音声受付手段のそれぞれに対して行うように構成されるとともに、周波数毎に、上記入力パワー補正手段により上記複数の音声受付手段のそれぞれに対して補正された入力パワーのうちの最大の入力パワーを算出する基となった音声信号を受け付けた音声受付手段に対する雑音パワーとして、上記入力パワー補正手段により上記複数の音声受付手段のそれぞれに対して補正された入力パワーのうちの最小の入力パワーを用いるように構成されることが好適である。
この場合、上記発話音声検出手段は、
周波数毎に、上記入力パワー補正手段により上記複数の音声受付手段のそれぞれに対して補正された入力パワーのうちの最大の入力パワーを算出する基となった音声信号を受け付けた音声受付手段以外の音声受付手段に対する雑音パワーとして、上記入力パワー補正手段により当該音声受付手段に対して補正された入力パワーを用いるように構成されることが好適である。
ところで、複数の音声受付手段(例えば、マイクロフォン)が比較的近くに配置されている場合、複数の音声受付手段の一つである第1の音声受付手段に対して発せられた音声が、複数の音声受付手段の他の一つである第2の音声受付手段にも入力される。
この場合、第2の音声受付手段を介して入力された音声の信号対雑音比は、第1の音声受付手段を介して入力された音声の信号対雑音比よりも小さいので、仮に、第2の音声受付手段を介して入力された音声に基づいて、その音声が発話音声であるか否かを判定しても、高い精度にて判定することができない。
これに対し、上記構成の発話音声検出装置は、入力パワーのうちの最大の入力パワーを算出する基となった音声信号を受け付けた音声受付手段に対する信号対雑音比を、他の音声受付手段に対する信号対雑音比よりもより一層大きくするように構成されている。
この結果、入力パワーのうちの最大の入力パワーを算出する基となった音声信号を受け付けた音声受付手段を介して入力された音声に基づいて、その音声が発話音声であるか否かを判定することができる。従って、入力された音声が発話音声であるか否かを高い精度にて判定することができる。
この場合、上記補正関数推定手段は、上記入力パワー算出手段により上記複数の音声受付手段の1つに対して算出された入力パワーを上記基準パワーとして用いるように構成されることが好適である。
これによれば、複数の音声受付手段のそれぞれにより受け付けられた音声信号の入力パワーを、複数の音声受付手段の1つ(基準となる音声受付手段)により受け付けられた音声信号の入力パワー(基準パワー)に十分に近づけることができる。
この場合、
上記入力パワー算出手段は、上記音声受付手段により受け付けられた音声信号を所定のフレーム間隔毎に分割し、当該分割された各部分に対して上記入力パワーを周波数毎に算出するように構成され、
上記発話音声検出装置は、
上記入力パワー算出手段により上記音声信号の各部分に対して算出された入力パワーを平均した時間平均パワーを算出する時間平均パワー算出処理を、上記複数の音声受付手段のそれぞれに対して行う時間平均パワー算出手段を備え、
上記補正関数推定手段は、周波数と、その周波数に対して上記算出された時間平均パワーを、上記時間平均パワー算出手段により上記複数の音声受付手段の1つに対して算出され且つその周波数に対して算出された時間平均パワーに近づけるための補正係数と、の関係を規定する上記補正関数を推定する上記補正関数推定処理を上記複数の音声受付手段のそれぞれに対して行うように構成されることが好適である。
ところで、複数の音声受付手段(例えば、マイクロフォン)のそれぞれと、音声信号の基となる音声を発する音源と、の間の距離が比較的大きく異なる場合、音源から各音声受付手段への音の伝播に伴う遅延時間は、比較的大きく異なる。
従って、ある時点にて、複数の音声受付手段の1つである第1の音声受付手段が第1の音声信号を受け付けるとともに、複数の音声受付手段の他の1つである第2の音声受付手段が第2の音声信号を受け付けた場合、受け付けられた第1の音声信号の基となった音声と受け付けられた第2の音声信号の基となった音声とが相違してしまう。
また、第1の音声受付手段から信号補正装置へ音声信号を伝送するために要する時間と、第2の音声受付手段から信号補正装置へ音声信号を伝送するために要する時間と、が比較的大きく異なる場合においても、信号補正装置が第1の音声受付手段を介して受け付けた第1の音声信号の基となった音声と、信号補正装置が第2の音声受付手段を介して受け付けた第2の音声信号の基となった音声と、が相違してしまう。
このような場合、上記発話音声検出装置が、ある時点の音声信号のみに基づいて補正関数を推定するように構成されていると、第1の音声受付手段により受け付けられた音声信号の入力パワーを第2の音声受付手段により受け付けられた音声信号の入力パワー(基準パワー)に十分に近づけることができない。
これに対し、上記構成によれば、第1の音声受付手段に対して算出された時間平均パワー、及び、第2の音声受付手段に対して算出された時間平均パワーのそれぞれを算出する基となった音声信号の基となった音声が一致している程度を高めることができる。この結果、第1の音声受付手段により受け付けられた音声信号の入力パワーを補正することにより、その音声信号の入力パワーを基準パワー(第2の音声受付手段に対して算出された時間平均パワー)に十分に近づけることができる。
また、上記構成によれば、例えば、音源から発せられた音声に比較的短い期間において雑音が重畳した場合であっても、その雑音の影響を軽減することができる。従って、第1の音声受付手段により受け付けられた音声信号の入力パワーを基準パワーに、より一層高い精度にて近づけることができる。
また、上記発話音声検出装置の他の態様において、
上記補正関数推定手段は、上記入力パワー算出手段により上記複数の音声受付手段のそれぞれに対して算出された入力パワーを平均した平均パワーを上記基準パワーとして用いるように構成されることが好適である。
これによれば、ある音声受付手段の近傍にて過大な雑音が発生した場合であっても、その雑音が基準パワーに及ぼす影響を低減することができる。
この場合、
上記入力パワー算出手段は、上記音声受付手段により受け付けられた音声信号を所定のフレーム間隔毎に分割し、当該分割された各部分に対して上記入力パワーを周波数毎に算出するように構成され、
上記発話音声検出装置は、
上記入力パワー算出手段により上記音声信号の各部分に対して算出された入力パワーを平均した時間平均パワーを算出する時間平均パワー算出処理を、上記複数の音声受付手段のそれぞれに対して行う時間平均パワー算出手段を備え、
上記補正関数推定手段は、周波数と、その周波数に対して上記算出された時間平均パワーを、上記時間平均パワー算出手段により上記複数の音声受付手段のそれぞれに対して算出され且つその周波数に対して算出された時間平均パワーを平均した平均時間平均パワーに近づけるための補正係数と、の関係を規定する上記補正関数を推定する上記補正関数推定処理を上記複数の音声受付手段のそれぞれに対して行うように構成されることが好適である。
これによれば、複数の音声受付手段の1つである第1の音声受付手段に対して算出された時間平均パワー、及び、各音声受付手段に対して算出された時間平均パワーを平均した平均時間平均パワーのそれぞれを算出する基となった音声信号の基となった音声が一致している程度を高めることができる。この結果、第1の音声受付手段により受け付けられた音声信号の入力パワーを補正することにより、その音声信号の入力パワーを基準パワー(各音声受付手段に対して算出された時間平均パワーを平均した平均時間平均パワー)に十分に近づけることができる。
また、上記構成によれば、例えば、音源から発せられた音声に比較的短い期間において雑音が重畳した場合であっても、その雑音の影響を軽減することができる。従って、第1の音声受付手段により受け付けられた音声信号の入力パワーを基準パワーに、より一層高い精度にて近づけることができる。
この場合、上記補正関数推定手段は、予め記憶された値を上記基準パワーとして用いるように構成されることが好適である。
この場合、上記補正関数推定手段は、上記音声受付手段により受け付けられた音声信号が表す音声が白色雑音である場合、上記補正関数を推定するように構成されることが好適である。
また、本発明の他の形態である発話音声検出方法は、
入力された音声信号を受け付ける音声受付手段により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行い、
周波数と、その周波数に対して上記算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行い、
周波数毎に、上記推定された補正関数により規定される関係に従って取得される補正係数を、上記算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行い、
上記補正された入力パワーに基づいて、上記受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う、方法である。
この場合、上記補正関数は、周波数を変数とする多項式関数であることが好適である。
この場合、上記発話音声検出方法は、
上記補正された入力パワーと、上記基準パワーと、の差を二乗した値の、所定の周波数の範囲にわたる和を最小とする上記補正関数を推定するように構成されることが好適である。
この場合、上記発話音声検出方法は、
上記音声受付手段により受け付けられた音声信号が表す音声のうちの雑音の大きさを表す雑音パワーを周波数毎に取得し、
周波数毎に、上記補正された入力パワーを上記取得された雑音パワーにより除することにより周波数毎信号対雑音比を算出し、当該算出した周波数毎信号対雑音比を代表する値である信号対雑音比を取得し、
上記取得された信号対雑音比が予め設定された閾値よりも大きい場合、上記受け付けられた音声信号が表す音声が発話音声であると判定するように構成されることが好適である。
また、本発明の他の形態である発話音声検出プログラムは、
情報処理装置に、
入力された音声信号を受け付ける音声受付手段により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行う入力パワー算出手段と、
周波数と、その周波数に対して上記算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行う補正関数推定手段と、
周波数毎に、上記推定された補正関数により規定される関係に従って取得される補正係数を、上記算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行う入力パワー補正手段と、
上記補正された入力パワーに基づいて、上記受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う発話音声検出手段と、
を実現させるためのプログラムである。
この場合、上記補正関数は、周波数を変数とする多項式関数であることが好適である。
この場合、上記補正関数推定手段は、上記補正された入力パワーと、上記基準パワーと、の差を二乗した値の、所定の周波数の範囲にわたる和を最小とする上記補正関数を推定するように構成されることが好適である。
この場合、上記発話音声検出手段は、
上記音声受付手段により受け付けられた音声信号が表す音声のうちの雑音の大きさを表す雑音パワーを周波数毎に取得する雑音パワー取得手段と、
周波数毎に、上記補正された入力パワーを上記取得された雑音パワーにより除することにより周波数毎信号対雑音比を算出し、当該算出した周波数毎信号対雑音比を代表する値である信号対雑音比を取得する信号対雑音比取得手段と、を含むとともに、
上記取得された信号対雑音比が予め設定された閾値よりも大きい場合、上記受け付けられた音声信号が表す音声が発話音声であると判定するように構成されることが好適である。
上述した構成を有する、発話音声検出方法、又は、発話音声検出プログラム、の発明であっても、上記発話音声検出装置と同様の作用を有するために、上述した本発明の目的を達成することができる。
以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。
例えば、上記実施形態の変形例において、補正関数推定部14は、複数のマイクロフォンMC1〜MCLのそれぞれに対して時間平均パワー算出部13により算出された時間平均パワーxを平均した平均時間平均パワーを、基準パワーyとして用いるように構成されていてもよい。
これによれば、あるマイクロフォンの近傍にて過大な雑音が発生した場合であっても、その雑音が基準パワーyに及ぼす影響を低減することができる。
また、上記実施形態の他の変形例において、補正関数推定部14は、予め記憶装置に記憶された値を基準パワーyとして用いるように構成されていてもよい。
また、上記実施形態においては、補正関数推定部14は、受け付けられた音声信号が表す音声が白色雑音である場合に補正関数を推定するように構成されていたが、受け付けられた音声信号が表す音声が白色雑音以外の予め定められた音声である場合に補正関数を推定するように構成されていてもよい。
また、上記実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。
また、上記各実施形態においてプログラムは、記憶装置に記憶されていたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
なお、本発明は、日本国にて2008年11月27日に出願された特願2008−302242の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願にて開示された内容のすべてが本明細書に含まれるものとする。
本発明は、複数のマイクロフォンを備え、各マイクロフォンを介して入力された音声が発話音声であるか否かを判定する発話音声検出システム等に適用可能である。
1 発話音声検出装置
11 入力パワー算出部
12 入力パワー補正部
13 時間平均パワー算出部
14 補正関数推定部
15 補正関数記憶部
16 発話音声検出部
16a 雑音パワー取得部
16b 信号対雑音比取得部
18 音声受付部
MC1〜MCL マイクロフォン
そして、補正関数推定部14は、算出された行列Aと、算出されたベクトルbと、下記式(3)と、に基づいてベクトルaを算出する。ここで、ベクトルa=( ,・・・,a ,a である。
Figure 2010061505
具体的には、上記式(1)〜(3)は、基準パワーyと、補正された入力パワーx’(=f)と、の差を二乗した関数を、補正関数の各係数a(ここで、jは〜Mの整数)により偏微分した式を0とおくことにより得られるM+1個の方程式を連立させることにより導出される。

Claims (22)

  1. 入力された音声信号を受け付ける音声受付手段と、
    前記音声受付手段により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行う入力パワー算出手段と、
    周波数と、その周波数に対して前記算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行う補正関数推定手段と、
    周波数毎に、前記推定された補正関数により規定される関係に従って取得される補正係数を、前記算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行う入力パワー補正手段と、
    前記補正された入力パワーに基づいて、前記受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う発話音声検出手段と、
    を備える発話音声検出装置。
  2. 請求項1に記載の発話音声検出装置であって、
    前記補正関数は、周波数を変数とする多項式関数である発話音声検出装置。
  3. 請求項1又は請求項2に記載の発話音声検出装置であって、
    前記補正関数推定手段は、前記補正された入力パワーと、前記基準パワーと、の差を二乗した値の、所定の周波数の範囲にわたる和を最小とする前記補正関数を推定するように構成された発話音声検出装置。
  4. 請求項1乃至請求項3のいずれか一項に記載の発話音声検出装置であって、
    前記発話音声検出手段は、
    前記音声受付手段により受け付けられた音声信号が表す音声のうちの雑音の大きさを表す雑音パワーを周波数毎に取得する雑音パワー取得手段と、
    周波数毎に、前記補正された入力パワーを前記取得された雑音パワーにより除することにより周波数毎信号対雑音比を算出し、当該算出した周波数毎信号対雑音比を代表する値である信号対雑音比を取得する信号対雑音比取得手段と、を含むとともに、
    前記取得された信号対雑音比が予め設定された閾値よりも大きい場合、前記受け付けられた音声信号が表す音声が発話音声であると判定するように構成された発話音声検出装置。
  5. 請求項4に記載の発話音声検出装置であって、
    前記信号対雑音比取得手段は、前記算出された周波数毎信号対雑音比の、所定の周波数の範囲にわたる和を前記信号対雑音比として取得するように構成された発話音声検出装置。
  6. 請求項4に記載の発話音声検出装置であって、
    前記信号対雑音比取得手段は、前記算出された周波数毎信号対雑音比の最大値を前記信号対雑音比として取得するように構成された発話音声検出装置。
  7. 請求項4乃至請求項6のいずれか一項に記載の発話音声検出装置であって、
    前記音声受付手段を複数備えるとともに、
    前記入力パワー算出手段は、前記入力パワー算出処理を前記複数の音声受付手段のそれぞれに対して行うように構成され、
    前記補正関数推定手段は、前記補正関数推定処理を前記複数の音声受付手段のそれぞれに対して行うように構成され、
    前記入力パワー補正手段は、前記入力パワー補正処理を前記複数の音声受付手段のそれぞれに対して行うように構成され、
    前記発話音声検出手段は、
    前記発話音声検出処理を前記複数の音声受付手段のそれぞれに対して行うように構成されるとともに、周波数毎に、前記入力パワー補正手段により前記複数の音声受付手段のそれぞれに対して補正された入力パワーのうちの最大の入力パワーを算出する基となった音声信号を受け付けた音声受付手段に対する雑音パワーとして、前記入力パワー補正手段により前記複数の音声受付手段のそれぞれに対して補正された入力パワーのうちの最小の入力パワーを用いるように構成された発話音声検出装置。
  8. 請求項7に記載の発話音声検出装置であって、
    前記発話音声検出手段は、
    周波数毎に、前記入力パワー補正手段により前記複数の音声受付手段のそれぞれに対して補正された入力パワーのうちの最大の入力パワーを算出する基となった音声信号を受け付けた音声受付手段以外の音声受付手段に対する雑音パワーとして、前記入力パワー補正手段により当該音声受付手段に対して補正された入力パワーを用いるように構成された発話音声検出装置。
  9. 請求項7又は請求項8に記載の発話音声検出装置であって、
    前記補正関数推定手段は、前記入力パワー算出手段により前記複数の音声受付手段の1つに対して算出された入力パワーを前記基準パワーとして用いるように構成された発話音声検出装置。
  10. 請求項9に記載の発話音声検出装置であって、
    前記入力パワー算出手段は、前記音声受付手段により受け付けられた音声信号を所定のフレーム間隔毎に分割し、当該分割された各部分に対して前記入力パワーを周波数毎に算出するように構成され、
    前記発話音声検出装置は、
    前記入力パワー算出手段により前記音声信号の各部分に対して算出された入力パワーを平均した時間平均パワーを算出する時間平均パワー算出処理を、前記複数の音声受付手段のそれぞれに対して行う時間平均パワー算出手段を備え、
    前記補正関数推定手段は、周波数と、その周波数に対して前記算出された時間平均パワーを、前記時間平均パワー算出手段により前記複数の音声受付手段の1つに対して算出され且つその周波数に対して算出された時間平均パワーに近づけるための補正係数と、の関係を規定する前記補正関数を推定する前記補正関数推定処理を前記複数の音声受付手段のそれぞれに対して行うように構成された発話音声検出装置。
  11. 請求項7又は請求項8に記載の発話音声検出装置であって、
    前記補正関数推定手段は、前記入力パワー算出手段により前記複数の音声受付手段のそれぞれに対して算出された入力パワーを平均した平均パワーを前記基準パワーとして用いるように構成された発話音声検出装置。
  12. 請求項11に記載の発話音声検出装置であって、
    前記入力パワー算出手段は、前記音声受付手段により受け付けられた音声信号を所定のフレーム間隔毎に分割し、当該分割された各部分に対して前記入力パワーを周波数毎に算出するように構成され、
    前記発話音声検出装置は、
    前記入力パワー算出手段により前記音声信号の各部分に対して算出された入力パワーを平均した時間平均パワーを算出する時間平均パワー算出処理を、前記複数の音声受付手段のそれぞれに対して行う時間平均パワー算出手段を備え、
    前記補正関数推定手段は、周波数と、その周波数に対して前記算出された時間平均パワーを、前記時間平均パワー算出手段により前記複数の音声受付手段のそれぞれに対して算出され且つその周波数に対して算出された時間平均パワーを平均した平均時間平均パワーに近づけるための補正係数と、の関係を規定する前記補正関数を推定する前記補正関数推定処理を前記複数の音声受付手段のそれぞれに対して行うように構成された発話音声検出装置。
  13. 請求項1乃至請求項12のいずれか一項に記載の発話音声検出装置であって、
    前記補正関数推定手段は、予め記憶された値を前記基準パワーとして用いるように構成された発話音声検出装置。
  14. 請求項1乃至請求項13のいずれか一項に記載の発話音声検出装置であって、
    前記補正関数推定手段は、前記音声受付手段により受け付けられた音声信号が表す音声が白色雑音である場合、前記補正関数を推定するように構成された発話音声検出装置。
  15. 入力された音声信号を受け付ける音声受付手段により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行い、
    周波数と、その周波数に対して前記算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行い、
    周波数毎に、前記推定された補正関数により規定される関係に従って取得される補正係数を、前記算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行い、
    前記補正された入力パワーに基づいて、前記受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う、発話音声検出方法。
  16. 請求項15に記載の発話音声検出方法であって、
    前記補正関数は、周波数を変数とする多項式関数である発話音声検出方法。
  17. 請求項15又は請求項16に記載の発話音声検出方法であって、
    前記補正された入力パワーと、前記基準パワーと、の差を二乗した値の、所定の周波数の範囲にわたる和を最小とする前記補正関数を推定するように構成された発話音声検出方法。
  18. 請求項15乃至請求項17のいずれか一項に記載の発話音声検出方法であって、
    前記音声受付手段により受け付けられた音声信号が表す音声のうちの雑音の大きさを表す雑音パワーを周波数毎に取得し、
    周波数毎に、前記補正された入力パワーを前記取得された雑音パワーにより除することにより周波数毎信号対雑音比を算出し、当該算出した周波数毎信号対雑音比を代表する値である信号対雑音比を取得し、
    前記取得された信号対雑音比が予め設定された閾値よりも大きい場合、前記受け付けられた音声信号が表す音声が発話音声であると判定するように構成された発話音声検出方法。
  19. 情報処理装置に、
    入力された音声信号を受け付ける音声受付手段により受け付けられた音声信号に基づいて、その音声信号が表す音声の大きさを表す入力パワーを周波数毎に算出する入力パワー算出処理を行う入力パワー算出手段と、
    周波数と、その周波数に対して前記算出された入力パワーをその周波数に対して定められた基準パワーに近づけるための補正係数と、の関係を規定する連続関数である補正関数を推定する補正関数推定処理を行う補正関数推定手段と、
    周波数毎に、前記推定された補正関数により規定される関係に従って取得される補正係数を、前記算出された入力パワーに乗じることにより、当該入力パワーを補正する入力パワー補正処理を行う入力パワー補正手段と、
    前記補正された入力パワーに基づいて、前記受け付けられた音声信号が表す音声が発話音声であるか否かを判定する発話音声検出処理を行う発話音声検出手段と、
    を実現させるための発話音声検出プログラム。
  20. 請求項19に記載の発話音声検出プログラムであって、
    前記補正関数は、周波数を変数とする多項式関数である発話音声検出プログラム。
  21. 請求項19又は請求項20に記載の発話音声検出プログラムであって、
    前記補正関数推定手段は、前記補正された入力パワーと、前記基準パワーと、の差を二乗した値の、所定の周波数の範囲にわたる和を最小とする前記補正関数を推定するように構成された発話音声検出プログラム。
  22. 請求項19乃至請求項21のいずれか一項に記載の発話音声検出プログラムであって、
    前記発話音声検出手段は、
    前記音声受付手段により受け付けられた音声信号が表す音声のうちの雑音の大きさを表す雑音パワーを周波数毎に取得する雑音パワー取得手段と、
    周波数毎に、前記補正された入力パワーを前記取得された雑音パワーにより除することにより周波数毎信号対雑音比を算出し、当該算出した周波数毎信号対雑音比を代表する値である信号対雑音比を取得する信号対雑音比取得手段と、を含むとともに、
    前記取得された信号対雑音比が予め設定された閾値よりも大きい場合、前記受け付けられた音声信号が表す音声が発話音声であると判定するように構成された発話音声検出プログラム。
JP2010540300A 2008-11-27 2009-09-03 発話音声検出装置 Active JP5459220B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010540300A JP5459220B2 (ja) 2008-11-27 2009-09-03 発話音声検出装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008302242 2008-11-27
JP2008302242 2008-11-27
JP2010540300A JP5459220B2 (ja) 2008-11-27 2009-09-03 発話音声検出装置
PCT/JP2009/004339 WO2010061505A1 (ja) 2008-11-27 2009-09-03 発話音声検出装置

Publications (2)

Publication Number Publication Date
JPWO2010061505A1 true JPWO2010061505A1 (ja) 2012-04-19
JP5459220B2 JP5459220B2 (ja) 2014-04-02

Family

ID=42225397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010540300A Active JP5459220B2 (ja) 2008-11-27 2009-09-03 発話音声検出装置

Country Status (3)

Country Link
US (1) US8856001B2 (ja)
JP (1) JP5459220B2 (ja)
WO (1) WO2010061505A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8842843B2 (en) * 2008-11-27 2014-09-23 Nec Corporation Signal correction apparatus equipped with correction function estimation unit
CN105103230B (zh) * 2013-04-11 2020-01-03 日本电气株式会社 信号处理装置、信号处理方法、信号处理程序
JP6244658B2 (ja) * 2013-05-23 2017-12-13 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US9685156B2 (en) * 2015-03-12 2017-06-20 Sony Mobile Communications Inc. Low-power voice command detector
CN106887241A (zh) 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3526911B2 (ja) 1993-04-20 2004-05-17 クラリオン株式会社 音声認識装置及び音声認識方法
US7567900B2 (en) * 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
JP4701931B2 (ja) * 2005-09-02 2011-06-15 日本電気株式会社 信号処理の方法及び装置並びにコンピュータプログラム
JP4182444B2 (ja) 2006-06-09 2008-11-19 ソニー株式会社 信号処理装置、信号処理方法、及びプログラム
JP4746533B2 (ja) 2006-12-21 2011-08-10 日本電信電話株式会社 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP5134477B2 (ja) * 2008-09-17 2013-01-30 日本電信電話株式会社 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体

Also Published As

Publication number Publication date
US20110202339A1 (en) 2011-08-18
US8856001B2 (en) 2014-10-07
WO2010061505A1 (ja) 2010-06-03
JP5459220B2 (ja) 2014-04-02

Similar Documents

Publication Publication Date Title
KR100883712B1 (ko) 음원 방향 추정 방법, 및 음원 방향 추정 장치
JP5452655B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
JP5219522B2 (ja) 音声明瞭度改善システム及び音声明瞭度改善方法
JP5381982B2 (ja) 音声検出装置、音声検出方法、音声検出プログラム及び記録媒体
EP2773137B1 (en) Microphone sensitivity difference correction device
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
US8509451B2 (en) Noise suppressing device, noise suppressing controller, noise suppressing method and recording medium
JP2005165021A (ja) 雑音低減装置、および低減方法
JP6668995B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
US20090232318A1 (en) Output correcting device and method, and loudspeaker output correcting device and method
JP5459220B2 (ja) 発話音声検出装置
US20130156221A1 (en) Signal processing apparatus and signal processing method
US8259961B2 (en) Audio processing apparatus and program
JP5494492B2 (ja) 信号補正装置
JP5772591B2 (ja) 音声信号処理装置
WO2020110228A1 (ja) 情報処理装置、プログラム及び情報処理方法
US11437054B2 (en) Sample-accurate delay identification in a frequency domain
US9659575B2 (en) Signal processor and method therefor
US20130044890A1 (en) Information processing device, information processing method and program
CN112133320A (zh) 语音处理装置及语音处理方法
JP6102144B2 (ja) 音響信号処理装置、方法及びプログラム
JP2010102203A (ja) 雑音抑圧装置及び雑音抑圧方法
JP2020197565A (ja) 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置
JP2003177783A (ja) 音声認識装置、音声認識方式及び音声認識プログラム
JP2013041297A (ja) 帯域拡張装置、方法及びプログラム、並びに、電話端末

Legal Events

Date Code Title Description
RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20120723

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131230

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5459220

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150