JPWO2009150894A1 - 音声認識システム、音声認識方法および音声認識用プログラム - Google Patents

音声認識システム、音声認識方法および音声認識用プログラム Download PDF

Info

Publication number
JPWO2009150894A1
JPWO2009150894A1 JP2010516790A JP2010516790A JPWO2009150894A1 JP WO2009150894 A1 JPWO2009150894 A1 JP WO2009150894A1 JP 2010516790 A JP2010516790 A JP 2010516790A JP 2010516790 A JP2010516790 A JP 2010516790A JP WO2009150894 A1 JPWO2009150894 A1 JP WO2009150894A1
Authority
JP
Japan
Prior art keywords
signal
voice
processing
speech
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010516790A
Other languages
English (en)
Inventor
透 岩沢
透 岩沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2009150894A1 publication Critical patent/JPWO2009150894A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

信号処理の負荷が原因で生じる認識処理遅延を抑制することを目的とする。音声信号を入力する音声入力手段10と、音声入力手段10によって入力される音声信号が、話者が発話しているとみなされる音声区間である有音区間の音声信号であるか否かを判定し、有音区間の音声信号であると判定された場合にのみ該音声信号を処理対象の音声信号として出力する出力判定手段20と、出力判定手段20によって処理対象の音声信号として出力される音声信号に対して信号処理を行う信号処理手段30と、信号処理手段30によって信号処理された音声信号に対して音声認識処理を行う音声認識処理手段40とを備える。

Description

本発明は、音声認識システム、音声認識方法および音声認識用プログラムが格納された記憶媒体に関し、特に、音声認識処理の前段に信号処理を伴う音声認識システム、音声認識方法および音声認識用プログラムが格納された記憶媒体に関する。
例えば、組み込みシステムのようにCPU(Central Processing Unit)やメモリのリソースが限られたシステムにおいて、雑音抑圧処理等の高度な信号処理を伴う音声認識処理を行う場合、システム自身の性能不足や他のプロセスとの競合などによっては信号処理が実時間内に収まらない状況が発生しうる。前段処理である信号処理が実時間内に収まらないと、音声認識処理に遅れが生じ、その結果、レスポンス遅延や音声入力用のバッファのオーバーフローといった問題が生じていた。
このような問題に関し、例えば、特許文献1には、音声認識処理で無音を検出した場合に、終端確定であるか否かに関わらず特徴量を認識エンジンに受け渡し処理をさせる方法が記載されている。
また、例えば、特許文献2には、音声認識処理でHDD(Hard Disk Drive)へのアクセス回数を抑制することにより、遅延を抑制する方法が記載されている。
また、例えば、特許文献3には、音声区間か雑音区間かを判定して、雑音区間信号の音響特徴量から雑音モデルを作成し、音声区間信号の音響特徴量から音声特徴量平均を算出して、それらを用いて音声認識結果を得る音声認識装置が記載されている。
特開2007−271772号公報 特開2003−177787号公報 特開2007−156364号公報
特許文献1や特許文献2に記載されている方法を用いれば、音声認識処理の負荷は抑えられる可能性がある。しかし、いずれも音声認識処理の前段処理にあたる信号処理について、負荷を抑止しようということは考慮されていないため、信号処理の負荷が原因で認識処理遅延をきたす問題には対応できない。
なお、特許文献3に記載の音声認識装置は、レスポンス性よりも高い音声認識性能が必要とされる場合を想定し、背景雑音による加法性雑音と伝達特性による乗法性雑音の両方に対策するための方法であり、認識処理遅延を解消することは考慮されていない。また、特許文献3には、音声/雑音判定結果が「音声区間」の場合に、入力されたディジタル信号の雑音抑圧を行う旨の記載があるが、これにより信号処理の負荷を抑止できる旨の記載はない。従って、この判定結果は、その区間を音声区間、すなわち雑音抑圧区間として指定して処理させることを示しているにすぎない。すると、雑音抑圧のための推定雑音を生成する処理等の音声区間以外の区間(特許文献3では雑音区間)に対する信号処理は常時行われることになり、信号処理の負荷が原因で認識処理遅延をきたす問題は解決できない。
そこで、本発明は、音声認識処理の前段で行う信号処理の負荷が原因で生じる認識処理遅延を抑制することができる音声認識システム、音声認識方法および音声認識用プログラムが格納された記憶媒体を提供することを特徴とする。
本発明による音声認識システムは、音声信号を入力する音声入力手段と、音声入力手段によって入力される音声信号が、話者が発話しているとみなされる音声区間である有音区間の音声信号であるか否かを判定し、有音区間の音声信号であると判定された場合にのみ該音声信号を処理対象の音声信号として出力する出力判定手段と、出力判定手段によって処理対象の音声信号として出力される音声信号に対し信号処理を行う信号処理手段と、信号処理手段によって信号処理された音声信号に対して音声認識処理を行う音声認識処理手段とを備えたことを特徴とする。
本発明による音声認識方法は、音声入力手段を介して入力される音声信号が、話者が発話しているとみなされる音声区間である有音区間の音声信号であるか否かを判定し、有音区間の音声信号であると判定された場合にのみ該音声信号を信号処理の処理として出力し、信号処理の処理として出力される音声信号に対し信号処理を行い、信号処理された音声信号に対し音声認識処理を行うことを特徴とする。
本発明による音声認識用プログラムが格納された記憶媒体は、コンピュータに、音声入力手段を介して入力される音声信号が、話者が発話しているとみなされる音声区間である有音区間の音声信号であるか否かを判定し、有音区間の音声信号であると判定された場合にのみ該音声信号を信号処理の処理として出力する出力判定処理、信号処理の処理として出力される音声信号に対する信号処理、および信号処理された音声信号に対する音声認識処理を実行させることを特徴とする。
本発明によれば、音声認識処理の前段で行う信号処理の負荷が原因で生じる認識処理遅延を抑制することができる。その理由は、信号処理手段への音声信号供給を、後段の処理(信号処理または音声認識処理)において必要な区間の信号のみに限定しているため、信号処理の負荷を軽減させることができるからである。
本発明による音声認識システムの構成例を示すブロック図である。 本発明による音声認識システムの他の構成例を示すブロック図である。 第1の実施形態の音声認識システムの構成を示すブロック図である。 第1の実施形態の動作の一例を示すフローチャートである。 第1の実施形態の他の動作例を示すフローチャートである。 第2の実施形態の音声認識システムの構成例を示すブロック図である。 第2の実施形態の動作の一例を示すフローチャートである。 遅延判定手段52の処理フローの一例を示すフローチャートである。 第3の実施形態の音声認識システムの構成例を示すブロック図である。 負荷状態管理手段63の処理フローの一例を示すフローチャートである。
以下、発明を実施するための最良の形態について図面を参照して詳細に説明する。図1は、本発明による音声認識システムの構成例を示すブロック図である。図1に示すように、本音声認識システムは、音声認識処理の前段に信号処理を伴う音声認識システムであって、音声入力手段10と、出力判定手段20と、信号処理手段30と、音声認識処理手段40とを備える。
音声入力手段10は、音声信号を入力する。
出力判定手段20は、音声入力手段10によって入力される音声信号が、話者が発話しているとみなされる音声区間である有音区間の音声信号であるか否かを判定し、有音区間の音声信号であると判定された場合にのみ該音声信号を処理対象の音声信号として出力する。
本例の出力判定手段20は、後段の信号処理手段30または音声認識処理手段40で必要とされる音声信号が、有音区間の音声信号のみである場合に適用される。なお、本例の出力判定手段20では、有音区間の音声信号であると判定されなかった音声信号については、そのまま破棄してもよい。
信号処理手段30は、出力判定手段20によって処理対象の音声信号として出力される音声信号に対し信号処理を行う。
音声認識処理手段40は、信号処理手段30によって信号処理された音声信号に対し音声認識処理を行う。
このような構成によれば、出力判定手段20が、信号処理手段30への音声信号供給を後段の処理(信号処理または音声認識処理)において必要な区間の信号のみに限定しているので、信号処理の実行を軽減させることができる。結果、信号処理の負荷が常時加わることがなくなり、信号処理の負荷が原因で生じる認識処理遅延を抑制することができる。
なお、音声認識処理手段40または信号処理手段30が環境適応を行う場合には、出力判定手段20は、有音区間に加え、環境適応する際に必要となる適応音声区間の音声信号を併せて出力するように構成することも可能である。そのような場合には、出力判定手段20は、音声入力手段10によって入力される音声信号が、有音区間または後段の処理において環境適応する際に必要とされる音声区間である適応音声区間の音声信号であるか否かを判定し、有音区間の音声信号または適応音声区間の音声信号であると判定された場合にのみ該音声信号を処理対象の音声信号として出力すればよい。
さらに、音声入力手段10が、発話集音用チャネルと雑音集音用チャネルとを含む複数の音声入力チャネルを用いて音声信号を入力する場合には、出力判定手段20は、有音区間の判定に発話集音用チャネルの音声信号を使用し、適応音声区間の判定に雑音集音用チャネルの音声信号を使用してもよい。
また、図2は、本発明による音声認識システムの他の構成例を示すブロック図である。図2に示すように、音声認識システムは、さらに遅延時間計測手段50を備えていてもよい。
遅延時間計測手段50は、音声信号に対する処理による遅延時間を計測する。遅延時間計測手段50は、例えば、ある音声信号について、出力判定手段20から信号処理手段30へ入力された時と信号処理手段30から出力された時との時間差を計算することにより、信号処理手段30における信号処理による遅延時間を計測してもよい。また、例えば、ある音声信号について、出力判定手段20から信号処理手段30へ入力された時と音声認識処理手段40における認識処理が完了した時との時間差を計算することにより、信号処理手段30における信号処理および音声認識処理手段40による音声認識処理による遅延時間を計測してもよい。
そのような場合には、出力判定手段20は、遅延時間計測手段50によって計測された遅延時間に応じて、処理対象とする音声信号の判定方法(もしくは基準)を変更してもよい。
また、音声認識システムは、さらに負荷監視手段60を備えていてもよい。負荷監視手段60は、当該音声認識システムを構築している装置における処理負荷を監視する。
そのような場合には、出力判定手段2は、負荷監視手段60によって監視された処理負荷に応じて、処理対象とする音声信号の判定方法(もしくは基準)を変更してもよい。
実施形態1.
以下、より具体的な実施形態について説明する。図3は、本発明の第1の実施形態の音声認識システムの構成を示すブロック図である。図3に示す音声認識システムは、音声入力手段11と、出力判定手段21と、信号処理手段31と、音声認識処理手段41とを備える。
音声入力手段11は、音声信号を入力する。音声入力手段11は、例えば、マイクロホン等の音声入力装置によって実現される。なお、これに限らず、ネットワークを介して送出される音声信号データを受信することにより入力するデータ受信装置などによって実現される場合も考えられる。なお、音声入力手段11は、入力された音声を符号化したり、適切なデータ形式に変換したりする処理機能を含む場合には、上記に加えて符号化装置やデータ変換装置などによって実現される。
出力判定手段21は、音声入力手段11から入力される音声信号が、後段の信号処理手段31や音声認識処理手段41で必要とされる有音区間の音声信号に該当するか否か、または有音区間の音声信号を含んでいるか否かを判定し、有音区間の音声信号のみを出力する。ここで、有音区間とは、話者が発話しているとみなされる音声区間(音声信号の時間軸上での区間)をいう。出力判定手段21は、例えば、プログラムに従い動作するCPU等によって実現される。また、測定器とスイッチ回路等を備えたハードウェアによって実現することも可能である。
有音区間の判定方法は、例えば、音声認識処理における音声検出方法と同様の方法で実現可能である。具体的には、入力音声の絶対パワーや、パワー変動、S/N比変動を所定の閾値と比較して、有音区間の始端または終端を検出することにより行うことが可能である。より具体的には、例えば、入力音声が特定のパワーを上回った段階で有音区間の開始とし、有音区間の開始を検出後、入力音声が特定のパワーを下回った段階で有音区間が終了したと検出してもよい。判定処理としては、入力音声に対して、有音区間の開始が検出されるか、または有音区間の開始後に入力された音声信号であれば有音区間の終了が検出されなかった場合に、有音区間の音声信号であると判定すればよい。
なお、出力判定手段21において処理される音声信号の単位は、入力される全音声信号を一単位とするのではなく、例えば、信号処理の最小単位として用いるフレーム長のように、連続して入力される音声信号をある時間単位で区切った最小単位を定義して用いてもよい。後段の信号処理手段31への入力は、その最小単位を一単位とするものとする。なお、一定時間分の音声信号を用いて有音区間か否かを判定する必要がある場合には、その一定時間分の音声信号をバッファリングして判定した上で、判定結果に応じて各音声信号を出力対象とするか否かを決定すればよい。仮に、音声入力手段11から入力される音声信号が当該処理における音声信号の単位よりも長い時間長で設定されている場合などには、出力判定手段21は、音声入力手段11から入力された音声信号に有音区間が含まれているか否かを判定し、有音区間が含まれていると判定した場合に、該有音区間の音声信号のみを切り出して、処理対象の音声信号として後段の信号処理手段31に出力することも可能である。
信号処理手段31は、出力判定手段21から受け渡された音声信号に対し、信号処理を行い信号処理済み信号として音声認識処理手段41に出力する。信号処理手段31は、例えば、ノイズキャンセラやマイクロホンアレイといった技術を用いて雑音を抑圧する雑音抑圧処理を行う手段である。一般に、音声認識処理は雑音の影響により精度が劣化することが知られており、これを防止するために、前段処理として雑音を抑圧し、残留雑音の少ない音声を入力するための様々な方法が提唱されている。なお、より残留雑音の少ない音声を入力しようとすると、より高度の信号処理が必要となる。
音声認識処理手段41は、信号処理手段31によって信号処理された信号処理済み信号に対し音声認識処理を行う。
次に、本実施形態の動作について説明する。図4は、本実施形態の動作の一例を示すフローチャートである。図4に示すように、音声入力手段11を介して音声信号が入力されると(ステップS101)、出力判定手段21は、入力された音声信号が、有音区間の音声信号であるか否かを判定する(ステップS102)。
ここで、有音区間の音声信号であると判定された場合には、出力判定手段21は、その音声信号を処理対象の音声信号として信号処理手段31に出力する(ステップS103のYes)。
信号処理手段31は、出力判定手段21から処理対象の音声信号として受け渡された音声信号(ここでは、有音区間の音声信号)に対して、雑音抑圧処理といった信号処理を行い、信号処理済み信号として音声認識処理手段41に出力する(ステップS104)。
そして、音声認識処理手段41は、信号処理手段31から入力される信号処理済み信号に対して音声認識処理を行う(ステップS105)。
一方、ステップS103において、有音区間の音声信号でないと判定された場合には、出力判定手段21は、その音声信号を信号処理手段31に出力せずに破棄して、そのまま処理を終了する(ステップS103のNO)。信号処理手段31に音声信号を出力しないことによって、該音声信号に対するその後の処理を省略させる。
なお、上記例では、後段の処理において必要な区間が有音区間である場合を例に説明したが、出力判定手段21は、有音区間に加え、環境適応する際に必要となる適応音声区間の音声信号を併せて出力するように構成することも可能である。この構成は、信号処理手段31や音声認識処理手段41が、音声認識精度の劣化防止を目的として環境適応を行う場合において有効となる。
環境適応の手法例としては、信号処理における適応フィルタや音声認識処理におけるCMN(Cepstrum Mean normalization )などが挙げられる。このような環境適応が、有音区間と判定されない環境変化(例えば、周囲の定常雑音レベルの変化)に対しても追従することが求められる場合には、そのために必要とみなされる適応音声区間の音声信号も信号処理手段31や音声認識処理手段41へ受け渡すことが有効に作用すると考えられる。
適応音声区間の判定方法としては、例えば、入力信号の定常ノイズが過去の信号に比べ変動したか否か(すなわち、S/N比を求める際のNに相当する値が変動したか否か)を所定幅の音声区間を単位に判定することによって行ってもよい。
図5は、本例の音声認識システムの動作例を示すフローチャートである。図5に示すように、出力判定手段21は、例えば、音声信号が入力されるごとに、有音区間の判定処理に加え、このような適応音声区間の判定処理を行い(ステップS111)、入力信号が有音区間の音声信号か、または適応音声区間の音声信号であると判定された場合に(ステップS112のYES)、該音声信号を処理対象の音声信号として信号処理手段31に出力してもよい。このとき、入力信号が有音区間の音声信号でなく、適応音声区間の音声信号でもないと判定された場合には、入力信号を信号処理手段301に出力せずに破棄すればよい(ステップS112のNO)。なお、他のステップについては、図4に示すフローチャートと同様であるため、説明省略する。
このように、適応音声区間の音声信号も処理対象の音声信号として出力することで、信号処理手段31や音声認識処理手段41において環境変化への追従を可能とし、音声認識精度の劣化を防ぐことが可能となる。
また、音声入力手段11が複数の音声チャネルを有し、複数の音声入力デバイスからの音声入力を受け付けることが可能な場合には、出力判定手段21における有音区間の判定と適応音声区間の判定に、それぞれに適した別個のチャネルの音声信号を使用してもよい。例えば、音声入力手段11が音声入力デバイスを2入力有し、一方の音声入力チャネルを発話集音用に、他方の音声入力チャネルを雑音集音用に使用する。ここで、発話集音用チャネルは、利用者の発話音声を集音することを主目的とする音声入力チャネルをいう。また、雑音集音用チャネルは、周囲環境の音を集音することを主目的とする音声入力チャネルをいう。このような音声入力インタフェースの場合には、出力判定手段21は、有音区間の判定には発話集音用チャネルの音声信号を、適応音声区間の判定には雑音集音用チャネルの音声信号を利用してもよい。
以上のように、本実施形態によれば、出力判定手段21の利用により、信号処理手段31への音声信号供給を後段の処理で必要と判定された区間の信号のみに限定しているので、信号処理の実行を軽減させることができ、信号処理の負荷が原因で生じる認識処理遅延を抑制することができる。また、出力判定手段21における有音区間の判定と適応音声区間の判定とに、それぞれに適した異なるチャネルの音声信号を用いる場合には、有音区間と適応音声区間の判定をより的確に行うことができる。
実施形態2.
次に、本発明の第2の実施形態について説明する。図6は、本発明の第2の実施形態の音声認識システムの構成例を示すブロック図である。図6に示すように、本実施形態の音声認識システムは、図3に示す第1の実施形態に比べて、さらに遅延判定手段52を備える点が異なる。また、出力判定手段21が、処理対象として出力する音声信号の判定方法を変更する機能を有している点で異なる。
遅延判定手段52は、音声信号に対し、出力判定手段21の信号処理手段31への入力時から信号処理手段31の出力時までの遅延時間を計測し、計測した遅延時間に応じて音声信号の判定方法を変更させる信号を出力判定手段21に送信する。なお、遅延判定手段52は、図2に示す遅延時間計測手段50の機能を含んだ、より具体的な処理手段の一例として示している。
遅延判定手段52は、音声信号に対する信号処理の前と後における遅延時間を常に計測し、遅延時間がある条件を満たした場合に、出力判定手段21に対して判定方法の変更を要求する信号を送信する。遅延時間の計測方法は、例えば、信号処理手段31に受け渡す音声信号をID付き固定長フレーム単位で受け渡すものとし、各フレームの出力判定手段21の出力時と信号処理手段31の出力時の時間差を求めることで遅延時間を計測してもよい。また、上記例は、信号処理手段31における信号処理による処理遅延時間を計測しているが、音声認識処理手段41における認識処理を含めた処理遅延時間を計測することも考えられる。
遅延判定手段52が送信する信号の例としては、遅延時間がある閾値を超えたときに発生させる警告信号と、警告信号を発した後に遅延時間が正常になったときに発生させる警告解除信号が挙げられる。
次に、本実施形態の動作について説明する。図7は、本実施形態の動作の一例を示すフローチャートである。なお、図7に示す例は、遅延時間が閾値を超えない間は、入力された音声信号全てを信号処理手段31へ入力し、閾値を超えた場合は有音区間の音声のみを信号処理手段31へ入力するように音声信号の判定方法を変更する例である。本例では、遅延判定手段52は、出力判定手段21に対し、入力された音声信号全てを出力対象とするか、有音区間の音声信号のみを出力対象とするかのいずれかの方法を選択させるための信号を出力する。ここでは、音声信号全てを出力対象とする方法を選択させる信号が警告解除信号に相当し、有音区間の音声信号のみを出力対象とする方法を選択させる信号が警告信号に相当する。
図7に示すように、本実施形態では、音声入力手段11を介して音声信号が入力されると(ステップS101)、出力判定手段201は、まず、遅延判定手段52から出力される警告信号/警告解除信号に基づく警告状態を確認する(ステップS201)。なお、認識処理の開始時は、警告状態は解除中とし、音声信号を全て通過させる方法で実施されるものとする。この間、遅延判定手段52は、信号処理手段31の処理遅延時間を常に計算し、遅延時間が上限の閾値を超えた段階で警告信号を出力する。なお、遅延判定手段52の処理の詳細フローについては後述する。
ここで、警告状態が解除中であれば(ステップS201のNO)、入力信号が有音区間か否かの判定を行うことなく、全て信号処理手段31に出力することで、ステップS104において信号処理を行わせる。以降の処理は、図4に示す第1の実施形態と同様である。
一方で、それまでの音声信号に対する信号処理の結果、遅延時間が上限の閾値を超えたことにより遅延判定手段52から警告信号を受けた後は、警告状態は発生中に変わる。出力判定手段21は、警告状態が発生中であれば(ステップS201のYES)、有音区間の判定処理を行い(ステップS102)、出力対象とする音声信号を限定する。以降の処理は、図4に示す第1の実施形態と同様である。
なお、遅延時間が下限の閾値以下になり、遅延判定手段52から警告解除信号を受けると、警告状態は解除中に戻るので、出力判定手段21は、音声信号に対する判定方法を、全ての音声信号を出力する方法に戻す。
次に、遅延判定手段52の動作について説明する。図8は、遅延判定手段52の処理フローの一例を示すフローチャートである。図8に示すように、遅延判定手段52は、例えば、音声信号フレームが信号処理手段31から出力されるごとに、遅延時間を計測する(ステップA11)。本例では、各音声信号フレームには、信号処理手段31に受け渡たされた時点のタイムスタンプが付されているものとする。遅延判定手段52は、この音声信号フレームに付されたタイムスタンプと、信号処理手段31から出力されたときの時刻との差分を計算することにより、遅延時間を計測してもよい。なお、信号処理手段31から出力されるタイミングで遅延時間を計算する方法の他に、例えば、音声認識処理手段41が認識処理を終了したタイミングで遅延時間を計測することも可能である。
遅延時間が求まると、その遅延時間が上限閾値を超えているか否かを判定する(ステップA12)。ここで、上限閾値を超えている場合には、警告信号の出力状態を判定し、警告信号を出力済みでなければ(ステップA13のNO)、警告信号を出力する(ステップA14)。その後は、ステップA11に戻り、次の音声信号フレームが出力されるのを待てばよい。一方、警告信号を出力済みであれば(ステップA13のYES)、特に処理することなく、そのままステップA11に戻ればよい。
次に、遅延判定手段52は、求めた遅延時間が下限閾値以下であるか否かを判定する(ステップA15)。ここで、下限閾値以下である場合には、警告信号の出力状態を判定し、警告信号を出力済みであれば(ステップA16のYES)、警告解除信号を出力する(ステップA17)。そして、ステップA11に戻り、次の音声信号フレームが出力されるのを待てばよい。一方、警告信号を出力済みであれば(ステップA16のNO)、特に処理することなく、そのままステップA11に戻ればよい。
このように、本実施形態によれば、信号処理や音声認識処理の遅延状態に応じて出力判定手段21から出力される音声信号を変更することが可能になる。
実施形態3.
次に、本発明の第2の実施形態について説明する。図9は、本発明の第3の実施形態の音声認識システムの構成例を示すブロック図である。図9に示すように、本実施形態の音声認識システムは、図3に示す第1の実施形態に比べて、さらに負荷監視手段63を備える点が異なる。また、出力判定手段21が、処理対象として出力する音声信号の判定方法を変更する機能を有している点で異なる。
負荷監視手段63は、当該音声認識システムを構築している装置全体における処理負荷を監視し、監視した負荷に応じて音声信号の判定方法を変更させる信号を出力判定手段21に送信する。
本実施形態は、図6に示した第2の実施形態の遅延判定手段52を、負荷監視手段63に置き換えたものである。すなわち、第2の実施形態において、遅延時間に応じて出力判定手段21の判定方法を変更していたものを、負荷状態管理手段63によって監視される負荷に応じて変更させる形態である。
負荷状態管理手段63は、システム全体の負荷を監視しており、負荷状態に応じて出力判定手段21の音声信号判定方法を変更させるよう動作する。ここでいうシステム全体の負荷には、本発明による一連の音声認識処理による負荷のみではなく、他の処理(例えば、物理的センサの状態監視や、画像処理など)が動作した場合の負荷を含む、当該音声認識システムを構築している装置全体にかかる負荷をいう。なお、負荷状態管理手段63は、図2に示す遅延時間計測手段50の機能を含んだ、より具体的な処理手段の一例として示している。
なお、出力判定手段21に対し出力する信号や、その信号を受けて出力判定手段21が判定方法を変更する動作については、第2の実施形態と同様でよい。
本実施形態では、負荷状態を示す負荷数値(例えば、CPU使用率やロードアベレージ)を信号出力の条件とする。
図10は、負荷状態管理手段63の処理フローの一例を示すフローチャートである。図10に示すように、負荷状態管理手段63は、例えば、周期的に、当該音声認識システムを構築している装置全体の負荷状態を示す負荷数値を計測する(ステップB11)。なお、負荷状態管理手段63は、例えば、ある時間単位の音声信号に対する認識処理が行われるタイミングに合わせて負荷数値を計測してもよい。なお、負荷数値を計測する既存の手段を利用し、該手段から負荷数値を読み出すことで計測処理を省略してもよい。また、当該システムが複数の装置によって構成されている場合には、各装置の負荷数値を平均化するなどしてシステム全体の負荷数値としてもよい。
負荷数値が求まると、その負荷数値が上限閾値を超えているか否かを判定する(ステップB12)。ここで、上限閾値を超えている場合には、警告信号の出力状態を判定し、警告信号を出力済みでなければ(ステップB13のNO)、警告信号を出力する(ステップB14)。その後は、ステップA11に戻って次の計測タイミングがくるのを待てばよい。一方、警告信号を出力済みであれば(ステップB13のYES)、特に処理することなく、そのままステップB11に戻ればよい。
次に、負荷状態管理手段63は、求めた負荷数値が下限閾値以下であるか否かを判定する(ステップB15)。ここで、下限閾値以下である場合には、警告信号の出力状態を判定し、警告信号を出力済みであれば(ステップB16のYES)、警告解除信号を出力する(ステップB17)。そして、ステップB11に戻って次の計測タイミングがくるのを待てばよい。一方、警告信号を出力済みであれば(ステップB16のNO)、特に処理することなく、そのままステップB11に戻ればよい。
なお、負荷状態管理手段63は、現在の負荷状態の監視のみならず、将来の負荷変動に基づき、警告信号や警告解除信号を出力することも可能である。例えば、ある時刻に画像処理プロセスが起動することが予め分かっている場合には、起動直前に警告信号を出力したり、画像処理プロセスが終了した時点で警告解除信号を出力することも可能である。
このように、本実施形態によれば、システム上で音声認識処理以外の処理が並行に実行されており、その処理の状態によりシステムの負荷が変動する場合において、システムの負荷状況に応じた音声認識処理を行うことが可能となる。
上述の実施の形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、記録媒体に記録して提供することも可能であり、また、インターネットその他の通信媒体を介して伝送することにより提供することも可能である。また、記憶媒体には、例えば、フレキシブルディスク、ハードディスク、磁気ディスク、光磁気ディスク、CD−ROM、DVD、ROMカートリッジ、バッテリバックアップ付きRAMメモリカートリッジ、フラッシュメモリカートリッジ、不揮発性RAMカートリッジ等が含まれる。また、通信媒体には、電話回線等の有線通信媒体、マイクロ波回線等の無線通信媒体等が含まれる。
以上、実施の形態(及び実施例)を参照して本番発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2008年6月10日に出願された日本出願特願2008−152019を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明によれば、携帯端末やカーナビゲーションシステム等の音声対話による情報検索を行うことを必要とする組み込みシステムや、人とコミュニケーションをとることを想定したロボットなどに好適に適用可能である。
10,11 音声入力手段
20,21 出力判定手段
30,31 信号処理手段
40,41 音声認識処理手段
50 遅延時間計測手段
52 遅延判定手段
60 負荷監視手段
63 負荷状態管理手段
実施形態3.
次に、本発明の第の実施形態について説明する。図9は、本発明の第3の実施形態の音声認識システムの構成例を示すブロック図である。図9に示すように、本実施形態の音声認識システムは、図3に示す第1の実施形態に比べて、さらに負荷監視手段63を備える点が異なる。また、出力判定手段21が、処理対象として出力する音声信号の判定方法を変更する機能を有している点で異なる。

Claims (17)

  1. 音声信号を入力する音声入力手段と、
    前記音声入力手段によって入力される音声信号が、話者が発話しているとみなされる音声区間である有音区間の音声信号であるか否かを判定し、有音区間の音声信号であると判定された場合にのみ該音声信号を処理対象の音声信号として出力する出力判定手段と、
    前記出力判定手段によって処理対象の音声信号として出力される音声信号に対して信号処理を行う信号処理手段と、
    前記信号処理手段によって信号処理された音声信号に対して音声認識処理を行う音声認識処理手段とを備えた
    ことを特徴とする音声認識システム。
  2. 前記出力判定手段は、前記音声入力手段によって入力される音声信号が、有音区間または後段の処理において環境適応する際に必要とされる音声区間である適応音声区間の音声信号であるか否かを判定し、有音区間の音声信号または適応音声区間の音声信号であると判定された場合にのみ該音声信号を処理対象の音声信号として出力する
    請求項1に記載の音声認識システム。
  3. 前記音声入力手段は、発話集音用チャネルと雑音集音用チャネルとを含む複数の音声入力チャネルを用いて音声信号を入力し、
    前記出力判定手段は、有音区間の判定に前記発話集音用チャネルの音声信号を使用し、適応音声区間の判定に前記雑音集音用チャネルの音声信号を使用する
    請求項2に記載の音声認識システム。
  4. 音声信号に対する処理による遅延時間を計測する遅延時間計測手段を備え、
    前記出力判定手段は、前記遅延時間計測手段によって計測された遅延時間に応じて、処理対象として出力する音声信号の判定方法を変更する
    請求項1から請求項3のうちのいずれか1項に記載の音声認識システム。
  5. 前記遅延時間計測手段は、ある音声信号について、前記出力判定手段から前記信号処理手段へ入力された時と前記信号処理手段から出力された時との時間差を計算することにより、前記信号処理手段における信号処理による遅延時間を計測する
    請求項4に記載の音声認識システム。
  6. 前記遅延時間計測手段は、ある音声信号について、前記出力判定手段から前記信号処理手段へ入力された時と前記音声認識処理手段における認識処理が完了した時との時間差を計算することにより、前記信号処理手段における信号処理および前記音声認識処理手段による音声認識処理による遅延時間を計測する
    請求項4に記載の音声認識システム。
  7. 当該音声認識システムを構築している装置全体における処理負荷を監視する負荷監視手段を備え、
    前記出力判定手段は、前記負荷監視手段によって監視された処理負荷に応じて、処理対象とする音声信号の判定方法を変更する
    請求項1から請求項3のうちのいずれか1項に記載の音声認識システム。
  8. 音声入力手段を介して入力される音声信号が、話者が発話しているとみなされる音声区間である有音区間の音声信号であるか否かを判定し、有音区間の音声信号であると判定された場合にのみ該音声信号を信号処理の処理として出力し、
    信号処理の処理として出力される音声信号に対して信号処理を行い、
    信号処理された音声信号に対して音声認識処理を行う
    ことを特徴とする音声認識方法。
  9. 前記音声入力手段を介して入力される音声信号が、有音区間または後段の処理である信号処理または音声認識処理において環境適応する際に必要とされる音声区間である適応音声区間の音声信号であるか否かを判定し、有音区間の音声信号または適応音声区間の音声信号であると判定された場合にのみ該音声信号を信号処理の対象として出力する
    請求項8に記載の音声認識方法。
  10. 発話集音用チャネルと雑音集音用チャネルとを含む複数の音声入力チャネルを有する音声入力手段を介して入力される音声信号のうち、前記発話集音用チャネルの音声信号を用いて有音区間の判定を行い、前記雑音集音用チャネルの音声信号を用いて適応音声区間の判定を行う
    請求項8に記載の音声認識方法。
  11. 音声信号に対する処理による遅延時間を計測し、
    計測された遅延時間に応じて、信号処理の対象として出力する音声信号の判定方法を変更する
    請求項8から請求項10のうちのいずれか1項に記載の音声認識方法。
  12. 音声認識処理を含む音声認識のための処理を実行している装置全体における処理負荷を監視し、
    監視された処理負荷に応じて、信号処理の対象として出力する音声信号の判定方法を変更する
    請求項8から請求項10のうちのいずれか1項に記載の音声認識方法。
  13. コンピュータに、
    音声入力手段を介して入力される音声信号が、話者が発話しているとみなされる音声区間である有音区間の音声信号であるか否かを判定し、有音区間の音声信号であると判定された場合にのみ該音声信号を信号処理の処理として出力する出力判定処理、
    信号処理の処理として出力される音声信号に対する信号処理、および
    信号処理された音声信号に対する音声認識処理
    を実行させるための音声認識用プログラムが格納された記憶媒体。
  14. コンピュータに、
    前記出力判定処理で、前記音声入力手段を介して入力される音声信号が、有音区間または後段の処理である信号処理または音声認識処理において環境適応する際に必要とされる音声区間である適応音声区間の音声信号であるか否かを判定し、有音区間の音声信号または適応音声区間の音声信号であると判定された場合にのみ該音声信号を信号処理の対象として出力させる
    請求項13に記載の音声認識用プログラムが格納された記憶媒体。
  15. コンピュータに、
    前記出力判定処理で、発話集音用チャネルと雑音集音用チャネルとを含む複数の音声入力チャネルを有する音声入力手段を介して入力される音声信号のうち、前記発話集音用チャネルの音声信号を用いて有音区間の判定を行い、前記雑音集音用チャネルの音声信号を用いて適応音声区間の判定を行わせる
    請求項14に記載の音声認識用プログラムが格納された記憶媒体。
  16. コンピュータに、
    音声信号に対する処理による遅延時間を計測する遅延時間計測処理を実行させ、
    前記出力判定処理で、前記遅延時間計測処理により計測された遅延時間に応じて、信号処理の対象として出力する音声信号の判定方法を変更させる
    請求項13から請求項15のうちのいずれか1項に記載の音声認識用プログラムが格納された記憶媒体。
  17. コンピュータに、
    前記音声認識処理を含む音声認識のための処理を実行している装置全体における処理負荷を監視する処理を実行させ、
    前記出力判定処理で、監視された処理負荷に応じて、信号処理の対象として出力する音声信号の判定方法を変更させる
    請求項13から請求項15のうちのいずれか1項に記載の音声認識用プログラムが格納された記憶媒体。
JP2010516790A 2008-06-10 2009-04-16 音声認識システム、音声認識方法および音声認識用プログラム Pending JPWO2009150894A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008152019 2008-06-10
JP2008152019 2008-06-10
PCT/JP2009/057661 WO2009150894A1 (ja) 2008-06-10 2009-04-16 音声認識システム、音声認識方法および音声認識用プログラムが格納された記憶媒体

Publications (1)

Publication Number Publication Date
JPWO2009150894A1 true JPWO2009150894A1 (ja) 2011-11-10

Family

ID=41416605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010516790A Pending JPWO2009150894A1 (ja) 2008-06-10 2009-04-16 音声認識システム、音声認識方法および音声認識用プログラム

Country Status (3)

Country Link
US (1) US8886527B2 (ja)
JP (1) JPWO2009150894A1 (ja)
WO (1) WO2009150894A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013015601A (ja) * 2011-07-01 2013-01-24 Dainippon Printing Co Ltd 音源の識別装置および音源に連動する情報処理装置
US9514747B1 (en) * 2013-08-28 2016-12-06 Amazon Technologies, Inc. Reducing speech recognition latency
JP6754184B2 (ja) * 2014-12-26 2020-09-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識装置及び音声認識方法
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与系统
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation
CN114039890B (zh) * 2021-11-04 2023-01-31 国家工业信息安全发展研究中心 一种语音识别时延测试方法、系统及存储介质
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4984274A (en) * 1988-07-07 1991-01-08 Casio Computer Co., Ltd. Speech recognition apparatus with means for preventing errors due to delay in speech recognition
JP2962572B2 (ja) 1990-11-19 1999-10-12 日本電信電話株式会社 雑音除去装置
US5764852A (en) * 1994-08-16 1998-06-09 International Business Machines Corporation Method and apparatus for speech recognition for distinguishing non-speech audio input events from speech audio input events
JPH0922300A (ja) 1995-07-06 1997-01-21 Asahi Chem Ind Co Ltd 音声符号化方法
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
JP2000163098A (ja) 1998-11-25 2000-06-16 Mitsubishi Electric Corp 音声認識装置
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US6937980B2 (en) * 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
JP3969079B2 (ja) 2001-12-12 2007-08-29 ソニー株式会社 音声認識装置および方法、記録媒体、並びにプログラム
JP3925734B2 (ja) * 2003-03-17 2007-06-06 財団法人名古屋産業科学研究所 対象音検出方法、信号入力遅延時間検出方法及び音信号処理装置
US20050114118A1 (en) * 2003-11-24 2005-05-26 Jeff Peck Method and apparatus to reduce latency in an automated speech recognition system
JP4601970B2 (ja) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
WO2005117366A1 (ja) * 2004-05-26 2005-12-08 Nippon Telegraph And Telephone Corporation 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
JP4728791B2 (ja) 2005-12-08 2011-07-20 日本電信電話株式会社 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP4671898B2 (ja) 2006-03-30 2011-04-20 富士通株式会社 音声認識装置、音声認識方法、音声認識プログラム
JP4675840B2 (ja) 2006-06-29 2011-04-27 三菱電機株式会社 リモートコントローラ並びに家電機器
US8311814B2 (en) * 2006-09-19 2012-11-13 Avaya Inc. Efficient voice activity detector to detect fixed power signals

Also Published As

Publication number Publication date
US8886527B2 (en) 2014-11-11
WO2009150894A1 (ja) 2009-12-17
US20110071823A1 (en) 2011-03-24

Similar Documents

Publication Publication Date Title
WO2009150894A1 (ja) 音声認識システム、音声認識方法および音声認識用プログラムが格納された記憶媒体
KR101498347B1 (ko) 모바일 디바이스들에 대한 스마트 오디오 로깅의 시스템 및 방법
JP5381982B2 (ja) 音声検出装置、音声検出方法、音声検出プログラム及び記録媒体
JP5916054B2 (ja) 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム
US9959886B2 (en) Spectral comb voice activity detection
JP5071346B2 (ja) 雑音抑圧装置及び雑音抑圧方法
JP4745916B2 (ja) 雑音抑圧音声品質推定装置、方法およびプログラム
WO2012090282A1 (ja) 音声制御装置、音声制御方法、音声制御プログラム及び携帯端末装置
JP5411807B2 (ja) チャネル統合方法、チャネル統合装置、プログラム
JP5716595B2 (ja) 音声補正装置、音声補正方法及び音声補正プログラム
JP2007286097A (ja) 音声受付クレーム検出方法、装置、音声受付クレーム検出プログラム、記録媒体
JP6182895B2 (ja) 処理装置、処理方法、プログラム及び処理システム
JP6565500B2 (ja) 発話状態判定装置、発話状態判定方法、及び判定プログラム
JP5782402B2 (ja) 音声品質客観評価装置及び方法
JP5815435B2 (ja) 音源位置判定装置、音源位置判定方法、プログラム
JP4413175B2 (ja) 非定常雑音判別方法、その装置、そのプログラム及びその記録媒体
JPWO2010106734A1 (ja) 音声信号処理装置
JP6544439B2 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
JP5952252B2 (ja) 通話品質推定方法、通話品質推定装置、及びプログラム
CN114705286B (zh) 机器震音检测方法、装置、计算机和可读存储介质
JP6973652B2 (ja) 音声処理装置、方法およびプログラム
JPWO2017168663A1 (ja) 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置
JP2014056026A (ja) 音声検出装置、音声検出方法、およびプログラム
JP2006148752A (ja) 通話品質の主観評価のための評価サンプル数を決定する方法及びサーバ