JPWO2007138741A1

JPWO2007138741A1 - 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム

Info

Publication number: JPWO2007138741A1
Application number: JP2008517781A
Authority: JP
Inventors: 透岩沢
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-05-26
Filing date: 2007-05-23
Publication date: 2009-10-01
Anticipated expiration: 2027-05-23
Also published as: WO2007138741A1; JP5018773B2; US20090099849A1; US9135913B2

Abstract

本発明の第１の音声入力システムは、音声を入力し音声信号を出力する音声入力手段２１と、音声入力の状態を検出するための不具合条件要素を含む不具合条件セットを格納する条件格納手段２２と、条件格納手段２２から不具合条件セットを選択するための選択信号を外部アプリケーション３０から入力し、選択信号に応じた不具合条件セットを格納する条件選択手段２３と、前記音声信号を分析し、分析結果と条件選択手段２３の保持する不具合条件セットに含まれる不具合条件要素とを照合し、検出結果を出力する音声入力状態検出手段２４と、検出結果に応じた動作処理を行う対応手段２５とを備える。

Description

本発明は音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラムに関し、特に、音声入力の状態を検出するための条件を外部アプリケーションもしくは音声入力システム内部の状態に応じて変更できる音声入力システム、対話型ロボット、音声入力方法、および、音声入力用プログラムに関する。

従来の音声入力方法を音声認識に適用したシステムの一例が、特許文献１に記載されている。この従来のシステムは、利用者が誤認識原因を容易に特定できることを目的とし、音声認識に利用された音声を分析し認識を阻害する不具合要因を検出した場合に利用者へフィードバックするものである。フィードバック方法としては、利用者にガイダンスを行う方法や、システム側で音声入力ゲイン調整をしたりマイクを近づけたり雑音抑圧を行うなどして音声入力を制御する方法がある。また、特許文献２には、音声入力の不具合を利用者にフィードバックするため、音声認識に失敗した場合に音声認識エンジンが使用した音声検出区間の音声を再生し利用者に聞かせる方法が記載されている。

また、特許文献３には、本発明の部分要素として適用可能な音源方向検出の技術が記載されている。また、特許文献４には、本発明の部分要素として適用可能な雑音抑制の技術が記載されている。また、非特許文献１には、本発明の部分要素として適用可能な音声認識の技術が記載されている。

特開２００３−３３０４９１号公報特開昭６１−０９４０９５号公報特公平０７−０２２４３４号公報特開２００５−２５０３９７号公報鹿野、他４名、「音声認識システム」、第１版、株式会社オーム社、平成１３年５月１５日、ｐ．１５７−１５８

上述した従来の技術の問題点は、音声入力の（不具合などの）状態を検出するための条件が固定であるということである。すなわち、従来の技術の問題点は音声入力の状態を検出するための条件を外部アプリケーション等の状態に応じて変更できないことである。

その理由は、音声入力システムが、使用環境に応じた外部アプリケーションの設定や、周囲環境に応じた動的な音声入力パラメータ調整や雑音抑圧などの処理を行うことを想定した場合、固定の条件による状態検出ならびに検出時の対応動作だけでは不十分となるためである。例えば、音声入力のゲインに関して使用環境に応じて外部アプリケーション側で変更したり、周囲雑音を推定しパラメータ調整したりするシステムを想定した場合、利用者から見ると使用時の音声入力ゲインが分からないという問題が発生する。

従って、このようなシステムには、音声入力ゲインに応じた可変の条件設定や、条件を満たした場合に利用者に現在の音声入力状態をフィードバックできるような、柔軟な動作を行うことが可能であることが求められる。

本発明の目的は、上記問題点を解決し、音声入力の状態を検出するための条件を外部アプリケーション等の状態に応じて変更できる音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラムを提供することである。

本発明の第１の音声入力システムは、１つまたは複数のチャネルから音声を入力し音声信号を出力する音声入力手段と、音声入力の状態を検出するための不具合条件要素を含む不具合条件セットを１つ以上格納する条件格納手段と、前記条件格納手段から前記不具合条件セットを選択するための第１の選択信号を外部アプリケーションから入力し、前記第１の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する条件選択手段と、前記音声信号を分析し分析結果を生成し、前記分析結果と前記条件選択手段の保持する前記不具合条件セットに含まれる前記不具合条件要素とを照合し検出結果として出力する音声入力状態検出手段と、前記検出結果に応じた動作処理を行う対応手段とを備える。

本発明の第２の音声入力システムは、前記第１の音声入力システムであって、音声入力制御処理を状況に応じて切り替え、現在の音声入力状態を第２の選択信号として前記条件選択手段へ出力する前記音声入力手段と、前記第２の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する前記条件選択手段とを備える。

本発明の第３の音声入力システムは、前記第２の音声入力システムであって、前記音声入力制御処理が、音声入力特性変更処理、または、入力された音声に対する後処理である。

本発明の第４の音声入力システムは、前記第２の音声入力システムであって、前記音声入力制御処理が、一つまたは複数のチャネルからの前記音声信号をもとに、前記音声信号に含まれる目的音声以外の音声を抑圧することにより目的音声を強調させる雑音抑圧処理である。

本発明の第５の音声入力システムは、前記第１の音声入力システムであって、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段と、前記第１の選択信号を入力し、前記第１の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する対応選択手段とを備える。

本発明の第６の音声入力システムは、前記第２、第３、または、第４の音声入力システムであって、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段と、前記第１、または、前記第２の選択信号を入力し、前記第１、または、第２の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する対応選択手段とを備える。

本発明の第７の音声入力システムは、前記第２、第３、第４、または、第６の音声入力システムであって、前記条件選択手段が、前記外部アプリケーションからの前記第１の選択信号と前記音声入力手段からの前記第２の選択信号との間の調停を行う。

本発明の第８の音声入力システムは、前記第１、第２、第３、第４、第５、第６、または、第７の音声入力システムであって、前記音声信号を入力し、音源方向を算出し前記音声入力状態検出手段へ出力する音源方向検出手段を備える。

本発明の第９の音声入力システムは、前記第１、第２、第３、第４、第５、第６、第７、または、第８の音声入力システムであって、前記音声信号を入力し音声認識の処理を行い、得られた音声認識結果を前記対応手段に出力する音声認識手段を備える。

本発明の第１０の音声入力システムは、前記第９の音声入力システムであって、前記音声認識手段が、得られた前記音声認識結果を前記対応手段に出力し、かつ、音声認識に利用した特徴量のデータを前記音声入力状態検出手段に出力する。

本発明の対話型ロボットは、前記第１、２、３、４、５、６、７、８、９、または、１０の音声入力システムを含む。

本発明の第１の音声入力方法は、音声入力手段、音声入力の状態を検出するための不具合条件要素を含む不具合条件セットを１つ以上格納する条件格納手段、条件選択手段、音声入力状態検出手段、および、対応手段を備える音声入力システムにおける音声入力方法であって、前記音声入力手段が、１つまたは複数のチャネルから音声を入力し音声信号を出力する手順と、前記条件選択手段が、前記条件格納手段から前記不具合条件セットを選択するための第１の選択信号を外部アプリケーションから入力し、前記第１の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順と、音声入力状態検出手段が、前記音声信号を分析し分析結果を生成し、前記分析結果と前記条件選択手段の保持する前記不具合条件セットに含まれる前記不具合条件要素とを照合し検出結果として出力する手順と、前記対応手段が、前記検出結果に応じた動作処理を行う手順とを含む。

本発明の第２の音声入力方法は、前記第１の音声入力方法であって、前記音声入力手段が、音声入力制御処理を状況に応じて切り替え、現在の音声入力状態を第２の選択信号として前記条件選択手段へ出力する手順と、前記条件選択手段が、前記第２の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順とを含む。

本発明の第３の音声入力方法は、前記第２の音声入力方法であって、前記音声入力制御処理が、音声入力特性変更処理、または、入力された音声に対する後処理である。

本発明の第４の音声入力方法は、前記第２の音声入力方法であって、前記音声入力制御処理が、一つまたは複数のチャネルからの前記音声信号をもとに、前記音声信号に含まれる目的音声以外の音声を抑圧することにより目的音声を強調させる雑音抑圧処理である。

本発明の第５の音声入力方法は、前記第１の音声入力方法であって、対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力方法であって、対応選択手段が、前記第１の選択信号を入力し、前記第１の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を含む。

本発明の第６の音声入力方法は、前記第２、第３、または、第４の音声入力方法であって、対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力方法であって、前記対応選択手段が、前記第１、または、前記第２の選択信号を入力し、前記第１、または、第２の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を含む。

本発明の第７の音声入力方法は、前記第２、第３、第４、または、第６の音声入力方法であって、前記条件選択手段が、前記外部アプリケーションからの前記第１の選択信号と前記音声入力手段からの前記第２の選択信号との間の調停を行う手順を含む。

本発明の第８の音声入力方法は、前記第１、第２、第３、第４、第５、第６、または、第７の音声入力方法であって、音源方向検出手段を備える前記音声入力システムにおける音声入力方法であって、前記音源方向検出手段が、前記音声信号を入力し、音源方向を算出し前記音声入力状態検出手段へ出力する手順を含む。

本発明の第９の音声入力方法は、前記第１、第２、第３、第４、第５、第６、第７、または、第８の音声入力方法であって、音声認識手段を備える前記音声入力システムにおける音声入力方法であって、前記音声認識手段が、前記音声信号を入力し音声認識の処理を行い、得られた音声認識結果を前記対応手段に出力する手順を含む。

本発明の第１０の音声入力方法は、前記第９の音声入力方法であって、前記音声認識手段が、得られた前記音声認識結果を前記対応手段に出力し、かつ、音声認識に利用した特徴量のデータを前記音声入力状態検出手段に出力する手順を含む。

本発明の第１の音声入力プログラムは、音声入力手段、音声入力の状態を検出するための不具合条件要素を含む不具合条件セットを１つ以上格納する条件格納手段、条件選択手段、音声入力状態検出手段、および、対応手段を備える音声入力システムにおける音声入力プログラムであって、前記音声入力手段に、１つまたは複数のチャネルから音声を入力し音声信号を出力する手順を実行させ、前記条件選択手段に、前記条件格納手段から前記不具合条件セットを選択するための第１の選択信号を外部アプリケーションから入力し、前記第１の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順を実行させ、音声入力状態検出手段に、前記音声信号を分析し分析結果を生成し、前記分析結果と前記条件選択手段の保持する前記不具合条件セットに含まれる前記不具合条件要素とを照合し検出結果として出力する手順を実行させ、前記対応手段に、前記検出結果に応じた動作処理を行う手順を実行させる。

本発明の第２の音声入力プログラムは、前記第１の音声入力プログラムであって、前記音声入力手段に、音声入力制御処理を状況に応じて切り替え、現在の音声入力状態を第２の選択信号として前記条件選択手段へ出力する手順を実行させ、前記条件選択手段に、前記第２の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順を実行させる。

本発明の第３の音声入力プログラムは、前記第２の音声入力プログラムであって、前記音声入力制御処理が、音声入力特性変更処理、または、入力された音声に対する後処理である。

本発明の第４の音声入力プログラムは、前記第２の音声入力プログラムであって、前記音声入力制御処理が、一つまたは複数のチャネルからの前記音声信号をもとに、前記音声信号に含まれる目的音声以外の音声を抑圧することにより目的音声を強調させる雑音抑圧処理である。

本発明の第５の音声入力プログラムは、前記第１の音声入力プログラムであって、対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力プログラムであって、対応選択手段に、前記第１の選択信号を入力し、前記第１の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を実行させる。

本発明の第６の音声入力プログラムは、前記第２、第３、または、第４の音声入力プログラムであって、対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力プログラムであって、前記対応選択手段に、前記第１、または、前記第２の選択信号を入力し、前記第１、または、第２の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を実行させる。

本発明の第７の音声入力プログラムは、前記第２、第３、第４、または、第６の音声入力プログラムであって、前記条件選択手段に、前記外部アプリケーションからの前記第１の選択信号と前記音声入力手段からの前記第２の選択信号との間の調停を行う手順を実行させる。

本発明の第８の音声入力プログラムは、前記第１、第２、第３、第４、第５、第６、または、第７の音声入力プログラムであって、音源方向検出手段を備える前記音声入力システムにおける音声入力プログラムであって、前記音源方向検出手段に、前記音声信号を入力し、音源方向を算出し前記音声入力状態検出手段へ出力する手順を実行させる。

本発明の第９の音声入力プログラムは、前記第１、第２、第３、第４、第５、第６、第７、または、第８の音声入力プログラムであって、音声認識手段を備える前記音声入力システムにおける音声入力プログラムであって、前記音声認識手段に、前記音声信号を入力し音声認識の処理を行い、得られた音声認識結果を前記対応手段に出力する手順を実行させる。

本発明の第１０の音声入力プログラムは、前記第９の音声入力プログラムであって、前記音声認識手段に、得られた前記音声認識結果を前記対応手段に出力し、かつ、音声認識に利用した特徴量のデータを前記音声入力状態検出手段に出力する手順を実行させる。

本発明の効果は、音声入力の状態を検出するための条件を外部アプリケーション等の状態に応じて動的に切り替え可能となることである。

その理由は、音声入力の状態を検出するための１以上の条件（不具合条件セット）を格納しておき、その条件を外部アプリケーションの指示で切り替える構成をとるからである。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
本発明を実施するための第１の最良の形態の構成を示すブロック図である。本発明を実施するための第１の最良の形態の動作を示すフローチャートである。本発明を実施するための第２の最良の形態の構成を示すブロック図である。本発明を実施するための第３の最良の形態の構成を示すブロック図である。本発明を実施するための第４の最良の形態の構成を示すブロック図である。本発明の第５の発明を実施するための最良の形態の構成を示すブロック図である。不具合条件セットの例を示す説明図である。対応動作リストの例を示す説明図である。本発明を実施するための第２の最良の形態の動作を示すフローチャートである。第１の実施例における不具合条件セットの例を示す説明図である。第３の実施例における対応動作リストの例を示す説明図である。第３の実施例における不具合条件セットおよび対応動作リストの他の例を示す説明図である。第４の実施例における不具合条件セットおよび対応動作リストの例を示す説明図である。第４の実施例における不具合条件セットおよび対応動作リストの他の例を示す説明図である。第５の実施例における音声認識結果と検出結果と対応動作との関係を表すリストの例を示す説明図である。

次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。

図１は、本発明を実施するための第１の最良の形態の構成を示すブロック図である。

図１を参照すると、本発明の第１の最良の形態は、音声入力手段２１と、条件格納手段２２と、条件選択手段２３と、音声入力状態検出手段２４と、対応手段２５と、外部アプリケーション３０とを含む。

音声入力手段２１は、１つ、または複数のチャネルから音声を入力し音声信号を出力する。条件格納手段２２は、音声入力の状態を検出するための不具合条件要素を１以上含む不具合条件セットを１つ以上保持する。条件選択手段２３は、条件格納手段２２内の不具合条件セットを選択するための選択信号を外部アプリケーション３０から入力し、選択信号に応じた不具合条件セットを条件格納手段２２から取得し格納する。音声入力状態検出手段２４は、音声信号を分析し、分析結果と、条件選択手段２３の保持する不具合条件セットに含まれる前記不具合条件要素とを照合し、照合結果を出力する。対応手段２５は、照合結果に応じた動作処理を行う。

音声入力手段２１は、たとえば、ハードウェアで構成される。条件格納手段２２は、たとえば、メモリ等で構成される。条件選択手段２３、および、音声入力状態検出手段２４は、たとえば、ハードウェアとソフトウェアとの組み合わせで構成される。たとえば、条件選択手段２３、および、音声入力状態検出手段２４の機能を実現する内部アプリケーションプログラムが、プロセッサ上で動作する。ここで、その内部アプリケーションプログラムは、メモリ等に格納される。その内部アプリケーションプログラムの実行に際し、プロセッサ内部のハードウェア要素（たとえば、演算回路）が動作する。対応手段２５は、たとえば、ハードウェアとソフトウェアの組み合わせで構成される。外部アプリケーション３０は、たとえば、アプリケーションプログラムの１種であり、プロセッサ上で動作する。

次に、本発明の第１の最良の形態の動作について図面を参照して説明する。

図２は、本発明の第１の最良の形態の動作を示すフローチャートである。

図２を参照すると、音声入力手段２１は、音声を入力し、音声信号（たとえば、デジタルの音声データ）に変換して音声入力状態検出手段２４に出力する（ステップＳ１）。条件格納手段２２は、図７の例に示すような条件名と不具合条件要素との対を１以上含む不具合条件セットを１つ以上保持する。外部アプリケーション３０は、条件選択手段２３に選択信号を出力する（ステップＳ２）。条件選択手段２３は、外部アプリケーション３０からの選択信号に応じた不具合条件セットを条件格納手段２２内から選択し（ステップＳ３）、自身の内部に格納する（ステップＳ４）。音声入力状態検出手段２４は、音声入力手段２１からの音声信号を入力し、音声信号を分析し分析結果を自身の内部に格納する（ステップＳ５）。また、音声入力状態検出手段２４は、条件選択手段２３に格納されている不具合条件セットを読み出す（ステップＳ６）。次に、音声入力状態検出手段２４は、読み出した不具合条件セットに含まれる不具合条件要素と音声信号の分析結果とを照合し（ステップＳ７）、分析結果が満たす不具合条件要素の条件名を検出結果として対応手段２５に出力する（ステップＳ８）。

対応手段２５は、図８の例に示すような条件名と対応動作との対からなる対応動作リストを保持している。対応手段２５は、音声入力状態検出手段２４から検出結果を入力し、検出結果に応じた対応動作を行う（ステップＳ９）。なお、対応動作リストの条件名は不具合条件セットに含まれる条件名を包含している。また、検出結果として出力される条件名は常に１つとは限らず、０個の場合も複数の場合も存在する。対応手段２５は、検出結果として出力される条件名が０個の場合は対応動作を行わない。対応手段２５は、検出結果として出力される条件名が複数の場合は、事前に設定された検出結果の優先度に基づいて、優先順位の高い検出結果に対する対応動作を行うか、あるいは、複数結果に応じた対応動作を行う。

本発明の第１の最良の形態では、条件選択手段２３が、条件格納手段２２に格納される不具合条件セットを選択する構成をとるので、外部アプリケーション３０からの要求に応じた不具合条件セットの使用が可能となる。

次に、本発明を実施するための第２の最良の形態について図面を参照して詳細に説明する。図３は、本発明を実施するための第２の最良の形態の構成を示すブロック図である。

図３を参照すると、本発明の第２の最良の形態は、音声入力手段２１が、さらに、音声入力処理を状況に応じて切り替える音声入力切り替え機能、および、現在の音声入力状態を第２の選択信号として条件選択手段２３へ出力する機能を含むことを特徴とする。

音声入力切り替え機能は、音声入力手段２１が、制御可能な音声入力処理を切り替える機能である。制御可能な音声入力処理の例としては、音声入力特性変更処理や入力された音声に対する後処理があげられる。音声入力特性の変更処理の例としては、音声入力ゲインや通過周波数帯域の変更処理、複数の音声入力チャネルを利用している時の使用チャネルの変更処理などが挙げられる。後処理の例としては、音声の白色化による無音区間雑音抑制、マイクロホンアレイによる音声指向性強調などが挙げられる。ここで、音声入力状態は、音声入力手段２１が現在使用している音声入力処理を意味する。

音声入力手段２１が自ら入力音声を分析し条件選択手段２３へ選択信号を出力する場合の動作について、図９に示すフローチャートを参照して説明する。まず、音声入力手段２１は、入力した音声（デジタル信号に変換した後でもよい）を分析し、その結果に基づき音声入力処理を決定する（ステップＳ１１）。そして、音声入力手段２１は、音声入力処理が前回使用した音声入力処理と異なるかどうかを判定する（ステップＳ１２）。

音声入力処理が前回使用した音声入力処理と異なる場合は（ステップＳ１２／Ｙ）、音声入力手段２１は、音声入力切り替え機能を利用して使用する音声入力処理を今回決定した音声入力処理に変更する（ステップＳ１３）。また、音声入力手段２１は、条件選択手段２３に対し第２の選択信号を出力する（ステップＳ１４）。条件選択手段２３は、音声入力手段２１からの第２の選択信号を入力すると、選択信号に応じた不具合条件セットを条件格納手段２２より取得し自身の内部に格納する（ステップＳ１５）。

本発明を実施するための第２の形態では、音声入力手段２１が自ら音声入力状態を分析し音声入力処理を切り替えている。その際に、音声入力手段２１が、現在使用している音声入力制御処理を示す第２の選択信号を条件選択手段２３へ送信するので、現在音声入力手段２１で使用されている音声入力制御処理に応じた不具合条件セットが音声信号の分析結果と照合される。最終的に音声入力手段２１で使用している音声入力制御処理が対応手段２５での対応動作に反映される。

なお、条件選択手段２３においては、外部アプリケーション３０からの選択信号と音声入力手段２１からの第２の選択信号との間の調停が必要となる場合も考えられる。ここでいう調停とは、外部アプリケーション３０からの選択信号により不具合条件セットＡが選択されていた場合に、音声入力手段２１から不具合条件セットＢを選択する第２の選択信号が送られた場合にＡ、Ｂどちらの不具合条件セットを選択するかを調停することである。

次に、本発明を実施するための第３の最良の形態について図面を参照して詳細に説明する。図４は、本発明を実施するための第３の最良の形態の構成を示すブロック図である。

図４を参照すると、本発明を実施するための第３の最良の形態は、第１、または、第２の最良の形態に加え、条件格納手段２２に格納される不具合条件セットに対応した対応動作を格納する対応格納手段２６と、選択信号、または、第２の選択信号を入力し、選択信号、または、第２の選択信号に応じた対応動作を対応格納手段２６から選択し自身の内部に格納する対応選択手段２７とを含む。

対応格納手段２６は、条件格納手段２２に格納される不具合条件リストそれぞれに対応した対応動作リストを保持している。対応選択手段２７は、外部アプリケーション３０、音声入力手段２１、条件選択手段２３のいずれかから現在の音声入力制御処理を示す選択信号を受信し、選択信号に応じた対応動作リスト（図１１参照）を対応格納手段２６から取得し自身の内部に格納する。対応手段２５は、対応選択手段２７に格納されている対応動作リストを基づいて対応動作を決定する。

本発明を実施するための第３の最良の形態は、音声入力制御処理の切り替えにより不具合条件セットだけではなく対応動作も変更される場合に対応することを可能とする。

次に、本発明を実施するための第４の最良の形態について図面を参照して詳細に説明する。図５は、本発明を実施するための第４の最良の形態の構成を示すブロック図である。

図５を参照すると、本発明を実施するための第４の最良の形態は、第１、第２、または、第３の最良の形態に加え、音声入力手段２１から出力される音声信号を入力し音源方向を算出し音声入力状態検出手段２４へ出力する音源方向検出手段２８を含む。

本発明を実施するための第４の最良の形態は、音源方向検出を行うために、音声入力手段２１が２つ以上の音声入力チャネルを装備する。音源方向検出手段２８は、音声入力手段２１が出力する音声信号を入力し、入力した複数チャネルの音声信号の相関関係から音源方向を推定し音源方向推定結果を音声入力状態検出手段２４へ出力する。音声入力状態検出手段２４は、音声入力手段２１からの音声信号、および、音源方向検出手段２８から入力した音源方向推定結果に基づいて音声信号の分析を行う。音源方向検出手段２８の構成は、たとえば、［特許文献３］記載の技術が適用可能である。

本発明を実施するための第４の最良の形態は、複数の音声入力チャネルを利用し、音声入力方向に適合したより高度な音声信号の分析を可能とする。

次に、本発明の第５の発明を実施するための最良の形態について図面を参照して詳細に説明する。図６は、本発明の第５の発明を実施するための最良の形態の構成を示すブロック図である。

図６を参照すると、本発明を実施するための第５の最良の形態は、第１、第２、第３、または、第４の最良の形態に加え、音声入力手段２１から出力される音声信号を入力し音声認識の処理を行い、音声認識結果を対応手段２５に出力する音声認識手段２９を含む。音声認識手段２９の構成は、たとえば、［非特許文献１］記載の技術が適用可能である。

音声認識手段２９は、音声入力手段２１から出力される音声信号を受信し、認識処理を行う。そして、得られた音声認識結果（結果が得られない場合はリジェクト）を対応手段２５へ出力する。対応手段２５は、受け渡された音声認識結果と照合結果を元に対応動作を決定する。

一般的に、音声認識手段２９からの音声認識結果と音声入力状態検出手段２４からの検出結果とは非同期に出力されるため、対応手段２５における対応動作の決定時には両者の同期を取ることが必要である。同期の方法としては、たとえば、対応手段２５が音声認識結果を入力した時点で、直前に入力した検出結果と音声認識結果とを統合し対応動作を出力する方法が考えられる。

また、音声認識手段２９は、音声認識結果を対応手段２５へ出力すると同時に音声認識に利用した特徴量などのデータを音声入力状態検出手段２４に出力することにより、特徴量に対応した不具合条件要素を利用すること（特徴量に対応する不具合条件要素を含む不具合条件セットを条件格納手段２２に格納しておく必要がある）が可能となる。特徴量などのデータの例としては、たとえば、音声認識手段２９において利用された音声検出区間の情報や音声検出区間における分析結果（音声検出された区間に人の声らしい音声が含まれているかなど）がある。

［実施例］
次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作について説明する。

まず、本発明を実施するための第１の最良の形態の実施例（第１の実施例）について説明する。第１の実施例では、音声入力手段２１の音声入力ゲインに「大」「小」の２つの値が設定可能であり、条件選択手段２３が、これら２つの値に応じて不具合条件セットを切り替える。図１０は、不具合条件セットの例を示す説明図である。各々の不具合条件要素は例であるため、簡潔に記述されている。

図１０を参照すると、声量不足条件は、ある一定時間に入力される音声のパワーがある一定の閾値以下であることにより満たされ、周囲雑音は、システムが無音区間と想定する音声区間の平均パワーがある一定の閾値以上であるときに満たされる。対応動作の例は、声量不足条件検出時に「もう少し近くでしゃべって」、また、周囲雑音検出時に「周りがうるさいです」のようにガイダンス発話を行う例を記載している。ガイダンス発話の方法としては、あらかじめ収録された音声を再生してもよいし、ＴＴＳ（ＴｅｘｔｔｏＳｐｅｅｃｈ）を利用した音声合成により発話してもよい。

なお、図１０の不具合条件セットには記載されていないが、複数の条件が満たされた場合に対する対応動作を実行することも可能である。たとえば、声量不足と周囲雑音とが同時に検出された場合に、条件名「声量不足＋周囲雑音」、対応動作「周りがうるさいので、もう少し近くでしゃべって」のようにガイダンス、というエントリーを追加し、より詳細なガイダンス発話を行う方法も可能である。

図１０に示した例において、不具合条件セット１が入力ゲイン「大」の場合、不具合条件セット２が入力ゲイン「小」の場合の検出条件である。両者の違いは、声量不足条件の最大パワー、および、周囲雑音条件の平均パワーの閾値が異なる（不具合条件セット２の閾値が不具合条件セット１の値の半分となっている）点である。各々の不具合条件セットの切り替えは、外部アプリケーション３０が、条件選択手段２３を制御することにより行われる。

外部アプリケーション３０は、条件選択手段２３へ現在の音声入力ゲイン状態を示す選択信号を送信する。条件選択手段２３は、選択信号を参照し、音声入力ゲインが「大」なら不具合条件セット１を、「小」なら不具合条件セット２を条件格納手段２２から取得し内部に格納する。また、外部アプリケーション３０が、音声入力手段２１の音声入力ゲインの「大」、「小」を決定する構成も可能である。

次に、本発明を実施するための第２の最良の形態の実施例（第２の実施例）について説明する。第２の実施例は、第１の実施例を利用し、音声入力手段２１が周囲状況に応じ音声入力ゲインの「大」「小」を自ら切り替える。第２の実施例のシステムは、通常（起動時）においては、音声入力ゲインを「大」とし、発話音声を収集しやすくし、周囲雑音過多の状況においては、音声入力ゲインを「小」とし、周囲雑音の影響を少なくするように動作する。

音声入力手段２１は、起動時は音声入力ゲイン「大」で起動し、同時に条件選択手段２３に対し音声入力ゲイン「大」を示す第２の選択信号を条件選択手段２３に出力し、条件選択手段２３に不具合条件セット１を格納させるよう動作する。そして、音声入力手段２１は、周囲雑音の不具合条件要素が満たされた場合、自身が含む音声入力切り替え機能を利用し音声入力ゲインを「小」に切り替え、条件選択手段２３に対し音声入力ゲイン「小」を示す第２の選択信号を送信し不具合条件セット２を適用させるよう動作する。

そして何らかの状況（たとえば、周囲雑音検出後に一定時間が経過した）により周囲雑音過多状態が回避されたと判断した場合は、再び音声入力ゲインを「大」に切り替えると同時に条件選択手段２３に対し不具合条件セット１を格納させるよう動作する。

次に、第２の最良の形態における選択信号の調停について例を挙げて説明する。調停方法としては、さまざまな方法が考えられる。たとえば、（１）選択信号、第２の選択信号の優先順位（上記例では外部アプリケーション３０と音声入力手段２１どちらを優先するか）を決めておく方法、（２）調停対象の選択信号状態に応じ不具合条件セットを選択する方法、が考えられる。

（２）の方法においては、条件選択手段２３が、直前に選択された不具合条件セットが選択信号、および、第２の選択信号のどちらによって選択されたものかを記憶しておき、新たに入力した選択信号、あるいは第２の選択信号と組み合わせ、新たな不具合条件セットを選択する。たとえば、直前に選択された不具合条件セットが、音声入力手段２１からの第２の選択信号によるものであり、新規に外部アプリケーション３０から選択信号が入力された場合について説明する。この場合、条件選択手段２３は、選択信号、第２の選択信号個々に対応する不具合条件セットとは別の選択信号、第２の選択信号両方に対応する不具合条件セットを選択する。

選択信号、第２の選択信号両方に対応する不具合条件セットは、直前に入力した選択信号（または、第２の選択信号）と新規に入力した選択信号（または、第２の選択信号）に対する不具合条件セットを予め定義しておき選択する方法と、個々の選択信号（または、第２の選択信号）により選択される不具合条件セットをマージ（合併）する方法とが考えられる。不具合条件セットをマージする方法の一つとしては、現在選択されている不具合条件セットに含まれない不具合条件要素のみを新規の不具合条件セットからマージする方法が考えられる。

たとえば、現在の不具合条件セットに「周囲雑音」の不具合条件要素のみが含まれており、新規の選択信号（または、第２の選択信号）で選択される不具合条件セットに「声量不足」の不具合条件要素がある場合は、両者をマージし「周囲雑音」、および、「声量不足」の不具合条件要素をもつ不具合条件セットを生成する方法が考えられる。

次に、本発明を実施するための第３の最良の形態の実施例（第３の実施例）について説明する。第３の実施例は、第２の実施例に対し、不具合条件セット１および２に対する対応動作を追加し、各々の対応動作を切り替える。図１１は、不具合条件セット１、および、不具合条件セット２各々に対応した対応動作リストを示す説明図である。図１１を参照すると、対応動作１が音声入力ゲイン「大」の状態に対応した対応動作であり、対応動作２が音声入力ゲイン「小」の状態に対応した対応動作である。

音声入力手段２１は、起動時に条件選択手段２３、および、対応選択手段２７に対し音声入力ゲイン「大」を示す選択信号を送信し、各々に対し不具合条件セット１、対応動作１を格納させるよう動作する。そして、「周囲雑音」の不具合条件要素に該当する状態を検出したら、音声入力手段２１は、音声入力ゲインを「小」に切り替え、条件選択手段２３に対し不具合条件セット２を、対応選択手段２７に対し対応動作２を格納させるよう動作する。

このような音声入力手段２１の動作により、各々の不具合条件要素が満たされた時の対応動作がより現在のシステム状態に適応したものにすることが可能となる。図１１を参照すると、「声量不足」の条件検出時は、通常は単に「もう少し近くでしゃべって」と発話しガイダンスするのに対し、音声入力ゲイン「小」の場合は「近くの音しか聞き取れないからもう少し近くでしゃべって」と音声入力ゲインを「小」に切り替えていることを利用者に伝えることができる。

また、「周囲雑音」の条件検出時は、音声入力ゲイン「小」の時は「周りがうるさいです」と単に利用者に発話するのに対し、音声入力ゲイン「大」の場合は音声入力ゲインを自動的に「小」に切り替えることで利用者にガイダンスではなくシステム側で能動的に不具合状態を回避する対応動作を行うことが可能となる。

対応選択手段２７の他の応用例としては、音声入力を受理する場合としない場合とが混在する（たとえば、入力音声を音声認識する場合で音声認識可能な状況を限定している）システムに対応する例が考えられる。図１２は、この応用例で使用する不具合条件セット３と対応動作とを示す。

不具合条件セット３は、音声入力不受理状態における発話（条件名：「不受理状態発話」）に関する状態検出に使用される。音声入力手段２１は、音声入力状態検出手段２４に対し、音声信号を出力すると共に、音声入力受理状態（音声入力受理であるか、不受理であるのか）を示す値を音声入力状態検出手段２４へ出力する。外部アプリケーション３０が音声入力状態を音声入力状態検出手段２４へ与えてもよい。

音声入力状態検出手段２４は、音声入力不受理状態であり、かつ、平均パワーが１０００を超えている（音声信号を分析による）ことを検出した場合に、「不受理状態発話」の条件を検出し、「今は音声入力できません」というガイダンス発話を行うように制御する。「今は音声入力できません」と発話することにより、音声入力不受理という状態を利用者に通知することが可能となる。

次に、本発明を実施するための第４の最良の形態の実施例（第４の実施例）について説明する。第４の実施例は、雑音抑圧処理と音源方向検出とを連動した実施例である。まず、第４の実施例においては、雑音抑圧処理の例として２チャネル入力ノイズキャンセラによる雑音抑圧を想定する。この雑音抑圧法では、音声入力手段２１が、音声入力用チャネル、および、雑音入力用チャネルを含み、両チャネルの入力音声の相関から周囲雑音を推定し、音声入力チャネルの入力音声から周囲雑音を減算することで雑音抑圧がなされる（たとえば、雑音抑制には、［特許文献４］を適用することが可能）。

この雑音抑圧法においては、集音すべき音声（たとえば、利用話者の声）は音声入力用チャネルの入力素子の近傍から発せられ、それ以外の雑音は非近傍、すなわち、雑音入力用チャネルの入力素子に入力されることが前提となっている。例として、両チャネルの入力素子が反対の方角を向けて設置されると想定すると、集音すべき音声は音声入力用チャネルの入力素子の正面から発せられ、それ以外の雑音は背面方角から雑音入力用チャネルの入力素子に入力されることが前提となる。

逆に言えば、集音すべき音声が背面から入力される状態は、システムにとって音声入力不具合の検出対象となる。そこで、音源方向検出手段２８を利用し、音声入力用チャネルの入力素子に対し背面方角からの音声を検出する条件を追加した不具合条件セット、ならびに対応動作リストを適用すればよい。図１３は、不具合条件セットと対応動作リストを示す説明図である。ここで示した不具合条件セット４と対応動作４は、先に示した不具合条件セット１および対応動作１に対し、「背面発話」という不具合条件要素が追加されたものである。「背面発話」の条件が満たされた場合には、「ノイズキャンセラを実行中なので正面からしゃべって」というガイダンス発話がなされ、正面からの発話を利用者に促すよう動作する。

ノイズキャンセラを実行するか否かは音声入力手段２１により制御され、音声入力手段２１は、ノイズキャンセラ非実行時は不具合条件セット１、および、対応動作１を、実行時は不具合条件セット４、および、対応動作４をそれぞれ条件選択手段２３、および、対応選択手段２７に出力するよう動作する。

また、不具合条件要素を満たした時の対応動作が異なる例も考えられる。不具合条件セット４の場合、声量不足が検出される原因はノイズキャンセラ利用に伴う指向性である可能性があるが、話者が正面から９０度の側面付近にいる場合は背面発話の検出条件が満たされるとは限らないため、単に声量不足の検出しかできない状態が考えられる。

このような状況においては、背面発話の検出条件が満たされない場合でも「正面からしゃべって」というガイダンスの方が「もう少し近くからしゃべって」より有効となることがある。このように、同じ不具合条件要素を満たした場合においても、音声入力方法に依存して対応動作が異なる場合が存在し、対応選択手段２７を利用し音声入力方法ごとに対応動作を切り替える方法が有効となる。

第４の実施例は、マイクロホンアレイなどの技術を利用し音声入力方向に関する指向性を制御する雑音抑圧方法にも適用可能である。この場合は、指向性の鋭角性に応じ不具合条件要素が設定される。一般に、音声入力に指向性を与える手法は、あらかじめ利用方法に応じた指向特性を想定している。

たとえば、指向の鋭角性が音声入力用の素子から左右３０度以内にあることを前提とするマイクロホンアレイ手法を利用する場合は、図１４のように音声入力角度が素子正面から左右３０度以上であることを検出する「指向性」という不具合条件要素を設定し、これが満たされた場合に「マイクロホンアレイを実行中なので正面からしゃべって」というガイダンス発話を行う。

また、無指向性マイクと指向性マイクとを周囲の雑音状況に応じ切り替えて使用（「周囲雑音」検出時に指向性マイクを使用）するような音声入力インタフェースにも適用可能である。この場合は、指向性マイクの指向鋭角性に応じて不具合条件要素が設定される。

次に、本発明を実施するための最良の形態の実施例（第５の実施例）について説明する。

第５の実施例は、図１５に示す音声認識結果と検出結果に応じた対応動作リストを使用する。図１５に記載された２つの対応動作リストは、それぞれ前出の不具合条件セット１と不具合条件セット４に対応したものである。音声認識結果は、「こんにちは」という認識結果と、「なし」という認識結果との２種類である例について説明する。音声認識結果の「なし」は、リジェクトに相当する。また、検出結果の「なし」は、満たされる不具合条件要素がなかったことを示す。

音声認識結果が「こんにちは」の場合、対応手段２５は「こんにちは」と発話した後、検出結果に応じたガイダンス発話を行う。次に、音声認識結果が「なし」の場合、対応手段２５は、満たされる不具合条件要素が存在すれば対応するガイダンス発話を行い、存在しなければ動作を行わず無視する。不具合条件セット１に対応した対応動作リストと不具合条件セット４に対応した対応動作リストとの違いは、第４の実施例で示したのと同じく、不具合検出条件に「背面発話」が追加されている点と、声量不足検出時のガイダンスが異なる点とである。

また、音声認識結果と検出結果との統合時においても、音声入力手段２１の状態に応じて対応動作が異なる場合が考えられる。図１５の不具合条件セット４に対する声量不足検出時の括弧内の対応動作に示した例のように、音声認識結果が「こんにちは」である場合もガイダンス発話のみがなされる場合も考えられる。

これは、前提条件として、不具合条件セット４の音声入力方法を採用している間は声量不足が検出される音声に対する認識の信頼度が低いという条件があると仮定した場合の対応動作である。このように、音声入力方法によってある不具合条件要素が満たされた場合に認識結果の信頼度が低くなると想定される場合は、例え音声認識結果が得られていてもその結果に応答せずガイダンスのみの対応動作を行うことが考えられる。

以上、説明した第５の実施例は、周囲雑音が使用環境や使用状況によって変化する実環境において音声入力を行うシステムへ適用が可能である。たとえば、複数のマイクロホンを搭載し、使用環境に応じてノイズキャンセラやマイクロホンアレイ、もしくは音源分離手法を使い分け利用者の発話を聞き分ける（音声認識する）コミュニケーションロボットへの適用が考えられる。

この場合は、ロボットに搭載したマイクロホンから入力される音声信号が入力となり、ロボットの動作（例えば、うなずきながらガイダンス発話を行う、など）が対応手段２５から出力される実装となる。実装の形態としては、本システムをロボットの動作プログラムとして実装する方法がある。また、ロボットの動作プログラムを外部アプリケーション３０とし、動作プログラムから音声入力方法、不具合条件セット、または、対応動作をそれぞれ音声入力手段２１、条件選択手段２３、対応選択手段２７へ与え制御する方法がある。

本発明は、音声入力を要するシステムにおいて、特に様々な条件に応じて音声入力手段２１が変化する音声入力システムといった用途に適用できる。また、本発明は、音声対話などの音声コミュニケーションを必要とするキャラクタエージェントやロボットといった用途にも適用可能である。

Claims

１つまたは複数のチャネルから音声を入力し音声信号を出力する音声入力手段と、音声入力の状態を検出するための不具合条件要素を含む不具合条件セットを１つ以上格納する条件格納手段と、前記条件格納手段から前記不具合条件セットを選択するための第１の選択信号を外部アプリケーションから入力し、前記第１の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する条件選択手段と、前記音声信号を分析し分析結果を生成し、前記分析結果と前記条件選択手段の保持する前記不具合条件セットに含まれる前記不具合条件要素とを照合し検出結果として出力する音声入力状態検出手段と、前記検出結果に応じた動作処理を行う対応手段とを備えることを特徴とする音声入力システム。
音声入力制御処理を状況に応じて切り替え、現在の音声入力状態を第２の選択信号として前記条件選択手段へ出力する前記音声入力手段と、前記第２の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する前記条件選択手段とを備えることを特徴とする請求項１記載の音声入力システム。
前記音声入力制御処理が、音声入力特性変更処理、または、入力された音声に対する後処理であることを特徴とする請求項２記載の音声入力システム。
前記音声入力制御処理が、一つまたは複数のチャネルからの前記音声信号をもとに、前記音声信号に含まれる目的音声以外の音声を抑圧することにより目的音声を強調させる雑音抑圧処理であることを特徴とする請求項２記載の音声入力システム。
前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段と、前記第１の選択信号を入力し、前記第１の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する対応選択手段とを備えることを特徴とする請求項１記載の音声入力システム。
前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段と、前記第１、または、前記第２の選択信号を入力し、前記第１、または、第２の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する対応選択手段とを備えることを特徴とする請求項２、３、または、４記載の音声入力システム。
前記条件選択手段が、前記外部アプリケーションからの前記第１の選択信号と前記音声入力手段からの前記第２の選択信号との間の調停を行うことを特徴とする請求項２、３、４、または、６記載の音声入力システム。
前記音声信号を入力し、音源方向を算出し前記音声入力状態検出手段へ出力する音源方向検出手段を備えることを特徴とする請求項１、２、３、４、５、６、または、７記載の音声入力システム。
前記音声信号を入力し音声認識の処理を行い、得られた音声認識結果を前記対応手段に出力する音声認識手段を備えることを特徴とする請求項１、２、３、４、５、６、７、または、８記載の音声入力システム。
前記音声認識手段が、得られた前記音声認識結果を前記対応手段に出力し、かつ、音声認識に利用した特徴量のデータを前記音声入力状態検出手段に出力することを特徴とする請求項９記載の音声入力システム。
請求項１、２、３、４、５、６、７、８、９、または、１０記載の前記音声入力システムを含むことを特徴とする対話型ロボット。
音声入力手段、音声入力の状態を検出するための不具合条件要素を含む不具合条件セットを１つ以上格納する条件格納手段、条件選択手段、音声入力状態検出手段、および、対応手段を備える音声入力システムにおける音声入力方法であって、前記音声入力手段が、１つまたは複数のチャネルから音声を入力し音声信号を出力する手順と、前記条件選択手段が、前記条件格納手段から前記不具合条件セットを選択するための第１の選択信号を外部アプリケーションから入力し、前記第１の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順と、音声入力状態検出手段が、前記音声信号を分析し分析結果を生成し、前記分析結果と前記条件選択手段の保持する前記不具合条件セットに含まれる前記不具合条件要素とを照合し検出結果として出力する手順と、前記対応手段が、前記検出結果に応じた動作処理を行う手順とを含むことを特徴とする音声入力方法。
前記音声入力手段が、音声入力制御処理を状況に応じて切り替え、現在の音声入力状態を第２の選択信号として前記条件選択手段へ出力する手順と、前記条件選択手段が、前記第２の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順とを含むことを特徴とする請求項１２記載の音声入力方法。
前記音声入力制御処理が、音声入力特性変更処理、または、入力された音声に対する後処理であることを特徴とする請求項１３記載の音声入力方法。
前記音声入力制御処理が、一つまたは複数のチャネルからの前記音声信号をもとに、前記音声信号に含まれる目的音声以外の音声を抑圧することにより目的音声を強調させる雑音抑圧処理であることを特徴とする請求項１３記載の音声入力方法。
対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力方法であって、対応選択手段が、前記第１の選択信号を入力し、前記第１の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を含むことを特徴とする請求項１２記載の音声入力方法。
対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力方法であって、前記対応選択手段が、前記第１、または、前記第２の選択信号を入力し、前記第１、または、第２の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を含むことを特徴とする請求項１３、１４、または、１５記載の音声入力方法。
前記条件選択手段が、前記外部アプリケーションからの前記第１の選択信号と前記音声入力手段からの前記第２の選択信号との間の調停を行う手順を含むことを特徴とする請求項１３、１４、１５、または、１７記載の音声入力方法。
音源方向検出手段を備える前記音声入力システムにおける音声入力方法であって、前記音源方向検出手段が、前記音声信号を入力し、音源方向を算出し前記音声入力状態検出手段へ出力する手順を含むことを特徴とする請求項１２、１３、１４、１５、１６、１７、または、１８記載の音声入力方法。
音声認識手段を備える前記音声入力システムにおける音声入力方法であって、前記音声認識手段が、前記音声信号を入力し音声認識の処理を行い、得られた音声認識結果を前記対応手段に出力する手順を含むことを特徴とする請求項１２、１３、１４、１５、１６、１７、１８、または、１９記載の音声入力方法。
前記音声認識手段が、得られた前記音声認識結果を前記対応手段に出力し、かつ、音声認識に利用した特徴量のデータを前記音声入力状態検出手段に出力する手順を含むことを特徴とする請求項２０記載の音声入力方法。
音声入力手段、音声入力の状態を検出するための不具合条件要素を含む不具合条件セットを１つ以上格納する条件格納手段、条件選択手段、音声入力状態検出手段、および、対応手段を備える音声入力システムにおける音声入力プログラムであって、前記音声入力手段に、１つまたは複数のチャネルから音声を入力し音声信号を出力する手順を実行させ、前記条件選択手段に、前記条件格納手段から前記不具合条件セットを選択するための第１の選択信号を外部アプリケーションから入力し、前記第１の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順を実行させ、音声入力状態検出手段に、前記音声信号を分析し分析結果を生成し、前記分析結果と前記条件選択手段の保持する前記不具合条件セットに含まれる前記不具合条件要素とを照合し検出結果として出力する手順を実行させ、前記対応手段に、前記検出結果に応じた動作処理を行う手順を実行させることを特徴とする音声入力プログラム。
前記音声入力手段に、音声入力制御処理を状況に応じて切り替え、現在の音声入力状態を第２の選択信号として前記条件選択手段へ出力する手順を実行させ、前記条件選択手段に、前記第２の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順を実行させることを特徴とする請求項２２記載の音声入力プログラム。
前記音声入力制御処理が、音声入力特性変更処理、または、入力された音声に対する後処理であることを特徴とする請求項２３記載の音声入力プログラム。
前記音声入力制御処理が、一つまたは複数のチャネルからの前記音声信号をもとに、前記音声信号に含まれる目的音声以外の音声を抑圧することにより目的音声を強調させる雑音抑圧処理であることを特徴とする請求項２３記載の音声入力プログラム。
対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力プログラムであって、対応選択手段に、前記第１の選択信号を入力し、前記第１の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を実行させることを特徴とする請求項２２記載の音声入力プログラム。
対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力プログラムであって、前記対応選択手段に、前記第１、または、前記第２の選択信号を入力し、前記第１、または、第２の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を実行させることを特徴とする請求項２３、２４、または、２５記載の音声入力プログラム。
前記条件選択手段に、前記外部アプリケーションからの前記第１の選択信号と前記音声入力手段からの前記第２の選択信号との間の調停を行う手順を実行させることを特徴とする請求項２３、２４、２５、または、２７記載の音声入力プログラム。
音源方向検出手段を備える前記音声入力システムにおける音声入力プログラムであって、前記音源方向検出手段に、前記音声信号を入力し、音源方向を算出し前記音声入力状態検出手段へ出力する手順を実行させることを特徴とする請求項２２、２３、２４、２５、２６、２７、または、２８記載の音声入力プログラム。
音声認識手段を備える前記音声入力システムにおける音声入力プログラムであって、前記音声認識手段に、前記音声信号を入力し音声認識の処理を行い、得られた音声認識結果を前記対応手段に出力する手順を実行させることを特徴とする請求項２２、２３、２４、２５、２６、２７、２８、または、２９記載の音声入力プログラム。
前記音声認識手段に、得られた前記音声認識結果を前記対応手段に出力し、かつ、音声認識に利用した特徴量のデータを前記音声入力状態検出手段に出力する手順を実行させることを特徴とする請求項３０記載の音声入力プログラム。