JPWO2007138741A1 - 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム - Google Patents

音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム Download PDF

Info

Publication number
JPWO2007138741A1
JPWO2007138741A1 JP2008517781A JP2008517781A JPWO2007138741A1 JP WO2007138741 A1 JPWO2007138741 A1 JP WO2007138741A1 JP 2008517781 A JP2008517781 A JP 2008517781A JP 2008517781 A JP2008517781 A JP 2008517781A JP WO2007138741 A1 JPWO2007138741 A1 JP WO2007138741A1
Authority
JP
Japan
Prior art keywords
voice input
voice
condition
selection
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008517781A
Other languages
English (en)
Other versions
JP5018773B2 (ja
Inventor
透 岩沢
透 岩沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008517781A priority Critical patent/JP5018773B2/ja
Publication of JPWO2007138741A1 publication Critical patent/JPWO2007138741A1/ja
Application granted granted Critical
Publication of JP5018773B2 publication Critical patent/JP5018773B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Manipulator (AREA)

Abstract

本発明の第1の音声入力システムは、音声を入力し音声信号を出力する音声入力手段21と、音声入力の状態を検出するための不具合条件要素を含む不具合条件セットを格納する条件格納手段22と、条件格納手段22から不具合条件セットを選択するための選択信号を外部アプリケーション30から入力し、選択信号に応じた不具合条件セットを格納する条件選択手段23と、前記音声信号を分析し、分析結果と条件選択手段23の保持する不具合条件セットに含まれる不具合条件要素とを照合し、検出結果を出力する音声入力状態検出手段24と、検出結果に応じた動作処理を行う対応手段25とを備える。

Description

本発明は音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラムに関し、特に、音声入力の状態を検出するための条件を外部アプリケーションもしくは音声入力システム内部の状態に応じて変更できる音声入力システム、対話型ロボット、音声入力方法、および、音声入力用プログラムに関する。
従来の音声入力方法を音声認識に適用したシステムの一例が、特許文献1に記載されている。この従来のシステムは、利用者が誤認識原因を容易に特定できることを目的とし、音声認識に利用された音声を分析し認識を阻害する不具合要因を検出した場合に利用者へフィードバックするものである。フィードバック方法としては、利用者にガイダンスを行う方法や、システム側で音声入力ゲイン調整をしたりマイクを近づけたり雑音抑圧を行うなどして音声入力を制御する方法がある。また、特許文献2には、音声入力の不具合を利用者にフィードバックするため、音声認識に失敗した場合に音声認識エンジンが使用した音声検出区間の音声を再生し利用者に聞かせる方法が記載されている。
また、特許文献3には、本発明の部分要素として適用可能な音源方向検出の技術が記載されている。また、特許文献4には、本発明の部分要素として適用可能な雑音抑制の技術が記載されている。また、非特許文献1には、本発明の部分要素として適用可能な音声認識の技術が記載されている。
特開2003−330491号公報 特開昭61−094095号公報 特公平07−022434号公報 特開2005−250397号公報 鹿野、他4名、「音声認識システム」、第1版、株式会社オーム社、平成13年5月15日、p.157−158
上述した従来の技術の問題点は、音声入力の(不具合などの)状態を検出するための条件が固定であるということである。すなわち、従来の技術の問題点は音声入力の状態を検出するための条件を外部アプリケーション等の状態に応じて変更できないことである。
その理由は、音声入力システムが、使用環境に応じた外部アプリケーションの設定や、周囲環境に応じた動的な音声入力パラメータ調整や雑音抑圧などの処理を行うことを想定した場合、固定の条件による状態検出ならびに検出時の対応動作だけでは不十分となるためである。例えば、音声入力のゲインに関して使用環境に応じて外部アプリケーション側で変更したり、周囲雑音を推定しパラメータ調整したりするシステムを想定した場合、利用者から見ると使用時の音声入力ゲインが分からないという問題が発生する。
従って、このようなシステムには、音声入力ゲインに応じた可変の条件設定や、条件を満たした場合に利用者に現在の音声入力状態をフィードバックできるような、柔軟な動作を行うことが可能であることが求められる。
本発明の目的は、上記問題点を解決し、音声入力の状態を検出するための条件を外部アプリケーション等の状態に応じて変更できる音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラムを提供することである。
本発明の第1の音声入力システムは、1つまたは複数のチャネルから音声を入力し音声信号を出力する音声入力手段と、音声入力の状態を検出するための不具合条件要素を含む不具合条件セットを1つ以上格納する条件格納手段と、前記条件格納手段から前記不具合条件セットを選択するための第1の選択信号を外部アプリケーションから入力し、前記第1の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する条件選択手段と、前記音声信号を分析し分析結果を生成し、前記分析結果と前記条件選択手段の保持する前記不具合条件セットに含まれる前記不具合条件要素とを照合し検出結果として出力する音声入力状態検出手段と、前記検出結果に応じた動作処理を行う対応手段とを備える。
本発明の第2の音声入力システムは、前記第1の音声入力システムであって、音声入力制御処理を状況に応じて切り替え、現在の音声入力状態を第2の選択信号として前記条件選択手段へ出力する前記音声入力手段と、前記第2の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する前記条件選択手段とを備える。
本発明の第3の音声入力システムは、前記第2の音声入力システムであって、前記音声入力制御処理が、音声入力特性変更処理、または、入力された音声に対する後処理である。
本発明の第4の音声入力システムは、前記第2の音声入力システムであって、前記音声入力制御処理が、一つまたは複数のチャネルからの前記音声信号をもとに、前記音声信号に含まれる目的音声以外の音声を抑圧することにより目的音声を強調させる雑音抑圧処理である。
本発明の第5の音声入力システムは、前記第1の音声入力システムであって、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段と、前記第1の選択信号を入力し、前記第1の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する対応選択手段とを備える。
本発明の第6の音声入力システムは、前記第2、第3、または、第4の音声入力システムであって、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段と、前記第1、または、前記第2の選択信号を入力し、前記第1、または、第2の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する対応選択手段とを備える。
本発明の第7の音声入力システムは、前記第2、第3、第4、または、第6の音声入力システムであって、前記条件選択手段が、前記外部アプリケーションからの前記第1の選択信号と前記音声入力手段からの前記第2の選択信号との間の調停を行う。
本発明の第8の音声入力システムは、前記第1、第2、第3、第4、第5、第6、または、第7の音声入力システムであって、前記音声信号を入力し、音源方向を算出し前記音声入力状態検出手段へ出力する音源方向検出手段を備える。
本発明の第9の音声入力システムは、前記第1、第2、第3、第4、第5、第6、第7、または、第8の音声入力システムであって、前記音声信号を入力し音声認識の処理を行い、得られた音声認識結果を前記対応手段に出力する音声認識手段を備える。
本発明の第10の音声入力システムは、前記第9の音声入力システムであって、前記音声認識手段が、得られた前記音声認識結果を前記対応手段に出力し、かつ、音声認識に利用した特徴量のデータを前記音声入力状態検出手段に出力する。
本発明の対話型ロボットは、前記第1、2、3、4、5、6、7、8、9、または、10の音声入力システムを含む。
本発明の第1の音声入力方法は、音声入力手段、音声入力の状態を検出するための不具合条件要素を含む不具合条件セットを1つ以上格納する条件格納手段、条件選択手段、音声入力状態検出手段、および、対応手段を備える音声入力システムにおける音声入力方法であって、前記音声入力手段が、1つまたは複数のチャネルから音声を入力し音声信号を出力する手順と、前記条件選択手段が、前記条件格納手段から前記不具合条件セットを選択するための第1の選択信号を外部アプリケーションから入力し、前記第1の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順と、音声入力状態検出手段が、前記音声信号を分析し分析結果を生成し、前記分析結果と前記条件選択手段の保持する前記不具合条件セットに含まれる前記不具合条件要素とを照合し検出結果として出力する手順と、前記対応手段が、前記検出結果に応じた動作処理を行う手順とを含む。
本発明の第2の音声入力方法は、前記第1の音声入力方法であって、前記音声入力手段が、音声入力制御処理を状況に応じて切り替え、現在の音声入力状態を第2の選択信号として前記条件選択手段へ出力する手順と、前記条件選択手段が、前記第2の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順とを含む。
本発明の第3の音声入力方法は、前記第2の音声入力方法であって、前記音声入力制御処理が、音声入力特性変更処理、または、入力された音声に対する後処理である。
本発明の第4の音声入力方法は、前記第2の音声入力方法であって、前記音声入力制御処理が、一つまたは複数のチャネルからの前記音声信号をもとに、前記音声信号に含まれる目的音声以外の音声を抑圧することにより目的音声を強調させる雑音抑圧処理である。
本発明の第5の音声入力方法は、前記第1の音声入力方法であって、対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力方法であって、対応選択手段が、前記第1の選択信号を入力し、前記第1の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を含む。
本発明の第6の音声入力方法は、前記第2、第3、または、第4の音声入力方法であって、対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力方法であって、前記対応選択手段が、前記第1、または、前記第2の選択信号を入力し、前記第1、または、第2の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を含む。
本発明の第7の音声入力方法は、前記第2、第3、第4、または、第6の音声入力方法であって、前記条件選択手段が、前記外部アプリケーションからの前記第1の選択信号と前記音声入力手段からの前記第2の選択信号との間の調停を行う手順を含む。
本発明の第8の音声入力方法は、前記第1、第2、第3、第4、第5、第6、または、第7の音声入力方法であって、音源方向検出手段を備える前記音声入力システムにおける音声入力方法であって、前記音源方向検出手段が、前記音声信号を入力し、音源方向を算出し前記音声入力状態検出手段へ出力する手順を含む。
本発明の第9の音声入力方法は、前記第1、第2、第3、第4、第5、第6、第7、または、第8の音声入力方法であって、音声認識手段を備える前記音声入力システムにおける音声入力方法であって、前記音声認識手段が、前記音声信号を入力し音声認識の処理を行い、得られた音声認識結果を前記対応手段に出力する手順を含む。
本発明の第10の音声入力方法は、前記第9の音声入力方法であって、前記音声認識手段が、得られた前記音声認識結果を前記対応手段に出力し、かつ、音声認識に利用した特徴量のデータを前記音声入力状態検出手段に出力する手順を含む。
本発明の第1の音声入力プログラムは、音声入力手段、音声入力の状態を検出するための不具合条件要素を含む不具合条件セットを1つ以上格納する条件格納手段、条件選択手段、音声入力状態検出手段、および、対応手段を備える音声入力システムにおける音声入力プログラムであって、前記音声入力手段に、1つまたは複数のチャネルから音声を入力し音声信号を出力する手順を実行させ、前記条件選択手段に、前記条件格納手段から前記不具合条件セットを選択するための第1の選択信号を外部アプリケーションから入力し、前記第1の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順を実行させ、音声入力状態検出手段に、前記音声信号を分析し分析結果を生成し、前記分析結果と前記条件選択手段の保持する前記不具合条件セットに含まれる前記不具合条件要素とを照合し検出結果として出力する手順を実行させ、前記対応手段に、前記検出結果に応じた動作処理を行う手順を実行させる。
本発明の第2の音声入力プログラムは、前記第1の音声入力プログラムであって、前記音声入力手段に、音声入力制御処理を状況に応じて切り替え、現在の音声入力状態を第2の選択信号として前記条件選択手段へ出力する手順を実行させ、前記条件選択手段に、前記第2の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順を実行させる。
本発明の第3の音声入力プログラムは、前記第2の音声入力プログラムであって、前記音声入力制御処理が、音声入力特性変更処理、または、入力された音声に対する後処理である。
本発明の第4の音声入力プログラムは、前記第2の音声入力プログラムであって、前記音声入力制御処理が、一つまたは複数のチャネルからの前記音声信号をもとに、前記音声信号に含まれる目的音声以外の音声を抑圧することにより目的音声を強調させる雑音抑圧処理である。
本発明の第5の音声入力プログラムは、前記第1の音声入力プログラムであって、対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力プログラムであって、対応選択手段に、前記第1の選択信号を入力し、前記第1の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を実行させる。
本発明の第6の音声入力プログラムは、前記第2、第3、または、第4の音声入力プログラムであって、対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力プログラムであって、前記対応選択手段に、前記第1、または、前記第2の選択信号を入力し、前記第1、または、第2の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を実行させる。
本発明の第7の音声入力プログラムは、前記第2、第3、第4、または、第6の音声入力プログラムであって、前記条件選択手段に、前記外部アプリケーションからの前記第1の選択信号と前記音声入力手段からの前記第2の選択信号との間の調停を行う手順を実行させる。
本発明の第8の音声入力プログラムは、前記第1、第2、第3、第4、第5、第6、または、第7の音声入力プログラムであって、音源方向検出手段を備える前記音声入力システムにおける音声入力プログラムであって、前記音源方向検出手段に、前記音声信号を入力し、音源方向を算出し前記音声入力状態検出手段へ出力する手順を実行させる。
本発明の第9の音声入力プログラムは、前記第1、第2、第3、第4、第5、第6、第7、または、第8の音声入力プログラムであって、音声認識手段を備える前記音声入力システムにおける音声入力プログラムであって、前記音声認識手段に、前記音声信号を入力し音声認識の処理を行い、得られた音声認識結果を前記対応手段に出力する手順を実行させる。
本発明の第10の音声入力プログラムは、前記第9の音声入力プログラムであって、前記音声認識手段に、得られた前記音声認識結果を前記対応手段に出力し、かつ、音声認識に利用した特徴量のデータを前記音声入力状態検出手段に出力する手順を実行させる。
本発明の効果は、音声入力の状態を検出するための条件を外部アプリケーション等の状態に応じて動的に切り替え可能となることである。
その理由は、音声入力の状態を検出するための1以上の条件(不具合条件セット)を格納しておき、その条件を外部アプリケーションの指示で切り替える構成をとるからである。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
本発明を実施するための第1の最良の形態の構成を示すブロック図である。 本発明を実施するための第1の最良の形態の動作を示すフローチャートである。 本発明を実施するための第2の最良の形態の構成を示すブロック図である。 本発明を実施するための第3の最良の形態の構成を示すブロック図である。 本発明を実施するための第4の最良の形態の構成を示すブロック図である。 本発明の第5の発明を実施するための最良の形態の構成を示すブロック図である。 不具合条件セットの例を示す説明図である。 対応動作リストの例を示す説明図である。 本発明を実施するための第2の最良の形態の動作を示すフローチャートである。 第1の実施例における不具合条件セットの例を示す説明図である。 第3の実施例における対応動作リストの例を示す説明図である。 第3の実施例における不具合条件セットおよび対応動作リストの他の例を示す説明図である。 第4の実施例における不具合条件セットおよび対応動作リストの例を示す説明図である。 第4の実施例における不具合条件セットおよび対応動作リストの他の例を示す説明図である。 第5の実施例における音声認識結果と検出結果と対応動作との関係を表すリストの例を示す説明図である。
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
図1は、本発明を実施するための第1の最良の形態の構成を示すブロック図である。
図1を参照すると、本発明の第1の最良の形態は、音声入力手段21と、条件格納手段22と、条件選択手段23と、音声入力状態検出手段24と、対応手段25と、外部アプリケーション30とを含む。
音声入力手段21は、1つ、または複数のチャネルから音声を入力し音声信号を出力する。条件格納手段22は、音声入力の状態を検出するための不具合条件要素を1以上含む不具合条件セットを1つ以上保持する。条件選択手段23は、条件格納手段22内の不具合条件セットを選択するための選択信号を外部アプリケーション30から入力し、選択信号に応じた不具合条件セットを条件格納手段22から取得し格納する。音声入力状態検出手段24は、音声信号を分析し、分析結果と、条件選択手段23の保持する不具合条件セットに含まれる前記不具合条件要素とを照合し、照合結果を出力する。対応手段25は、照合結果に応じた動作処理を行う。
音声入力手段21は、たとえば、ハードウェアで構成される。条件格納手段22は、たとえば、メモリ等で構成される。条件選択手段23、および、音声入力状態検出手段24は、たとえば、ハードウェアとソフトウェアとの組み合わせで構成される。たとえば、条件選択手段23、および、音声入力状態検出手段24の機能を実現する内部アプリケーションプログラムが、プロセッサ上で動作する。ここで、その内部アプリケーションプログラムは、メモリ等に格納される。その内部アプリケーションプログラムの実行に際し、プロセッサ内部のハードウェア要素(たとえば、演算回路)が動作する。対応手段25は、たとえば、ハードウェアとソフトウェアの組み合わせで構成される。外部アプリケーション30は、たとえば、アプリケーションプログラムの1種であり、プロセッサ上で動作する。
次に、本発明の第1の最良の形態の動作について図面を参照して説明する。
図2は、本発明の第1の最良の形態の動作を示すフローチャートである。
図2を参照すると、音声入力手段21は、音声を入力し、音声信号(たとえば、デジタルの音声データ)に変換して音声入力状態検出手段24に出力する(ステップS1)。条件格納手段22は、図7の例に示すような条件名と不具合条件要素との対を1以上含む不具合条件セットを1つ以上保持する。外部アプリケーション30は、条件選択手段23に選択信号を出力する(ステップS2)。条件選択手段23は、外部アプリケーション30からの選択信号に応じた不具合条件セットを条件格納手段22内から選択し(ステップS3)、自身の内部に格納する(ステップS4)。音声入力状態検出手段24は、音声入力手段21からの音声信号を入力し、音声信号を分析し分析結果を自身の内部に格納する(ステップS5)。また、音声入力状態検出手段24は、条件選択手段23に格納されている不具合条件セットを読み出す(ステップS6)。次に、音声入力状態検出手段24は、読み出した不具合条件セットに含まれる不具合条件要素と音声信号の分析結果とを照合し(ステップS7)、分析結果が満たす不具合条件要素の条件名を検出結果として対応手段25に出力する(ステップS8)。
対応手段25は、図8の例に示すような条件名と対応動作との対からなる対応動作リストを保持している。対応手段25は、音声入力状態検出手段24から検出結果を入力し、検出結果に応じた対応動作を行う(ステップS9)。なお、対応動作リストの条件名は不具合条件セットに含まれる条件名を包含している。また、検出結果として出力される条件名は常に1つとは限らず、0個の場合も複数の場合も存在する。対応手段25は、検出結果として出力される条件名が0個の場合は対応動作を行わない。対応手段25は、検出結果として出力される条件名が複数の場合は、事前に設定された検出結果の優先度に基づいて、優先順位の高い検出結果に対する対応動作を行うか、あるいは、複数結果に応じた対応動作を行う。
本発明の第1の最良の形態では、条件選択手段23が、条件格納手段22に格納される不具合条件セットを選択する構成をとるので、外部アプリケーション30からの要求に応じた不具合条件セットの使用が可能となる。
次に、本発明を実施するための第2の最良の形態について図面を参照して詳細に説明する。図3は、本発明を実施するための第2の最良の形態の構成を示すブロック図である。
図3を参照すると、本発明の第2の最良の形態は、音声入力手段21が、さらに、音声入力処理を状況に応じて切り替える音声入力切り替え機能、および、現在の音声入力状態を第2の選択信号として条件選択手段23へ出力する機能を含むことを特徴とする。
音声入力切り替え機能は、音声入力手段21が、制御可能な音声入力処理を切り替える機能である。制御可能な音声入力処理の例としては、音声入力特性変更処理や入力された音声に対する後処理があげられる。音声入力特性の変更処理の例としては、音声入力ゲインや通過周波数帯域の変更処理、複数の音声入力チャネルを利用している時の使用チャネルの変更処理などが挙げられる。後処理の例としては、音声の白色化による無音区間雑音抑制、マイクロホンアレイによる音声指向性強調などが挙げられる。ここで、音声入力状態は、音声入力手段21が現在使用している音声入力処理を意味する。
音声入力手段21が自ら入力音声を分析し条件選択手段23へ選択信号を出力する場合の動作について、図9に示すフローチャートを参照して説明する。まず、音声入力手段21は、入力した音声(デジタル信号に変換した後でもよい)を分析し、その結果に基づき音声入力処理を決定する(ステップS11)。そして、音声入力手段21は、音声入力処理が前回使用した音声入力処理と異なるかどうかを判定する(ステップS12)。
音声入力処理が前回使用した音声入力処理と異なる場合は(ステップS12/Y)、音声入力手段21は、音声入力切り替え機能を利用して使用する音声入力処理を今回決定した音声入力処理に変更する(ステップS13)。また、音声入力手段21は、条件選択手段23に対し第2の選択信号を出力する(ステップS14)。条件選択手段23は、音声入力手段21からの第2の選択信号を入力すると、選択信号に応じた不具合条件セットを条件格納手段22より取得し自身の内部に格納する(ステップS15)。
本発明を実施するための第2の形態では、音声入力手段21が自ら音声入力状態を分析し音声入力処理を切り替えている。その際に、音声入力手段21が、現在使用している音声入力制御処理を示す第2の選択信号を条件選択手段23へ送信するので、現在音声入力手段21で使用されている音声入力制御処理に応じた不具合条件セットが音声信号の分析結果と照合される。最終的に音声入力手段21で使用している音声入力制御処理が対応手段25での対応動作に反映される。
なお、条件選択手段23においては、外部アプリケーション30からの選択信号と音声入力手段21からの第2の選択信号との間の調停が必要となる場合も考えられる。ここでいう調停とは、外部アプリケーション30からの選択信号により不具合条件セットAが選択されていた場合に、音声入力手段21から不具合条件セットBを選択する第2の選択信号が送られた場合にA、Bどちらの不具合条件セットを選択するかを調停することである。
次に、本発明を実施するための第3の最良の形態について図面を参照して詳細に説明する。図4は、本発明を実施するための第3の最良の形態の構成を示すブロック図である。
図4を参照すると、本発明を実施するための第3の最良の形態は、第1、または、第2の最良の形態に加え、条件格納手段22に格納される不具合条件セットに対応した対応動作を格納する対応格納手段26と、選択信号、または、第2の選択信号を入力し、選択信号、または、第2の選択信号に応じた対応動作を対応格納手段26から選択し自身の内部に格納する対応選択手段27とを含む。
対応格納手段26は、条件格納手段22に格納される不具合条件リストそれぞれに対応した対応動作リストを保持している。対応選択手段27は、外部アプリケーション30、音声入力手段21、条件選択手段23のいずれかから現在の音声入力制御処理を示す選択信号を受信し、選択信号に応じた対応動作リスト(図11参照)を対応格納手段26から取得し自身の内部に格納する。対応手段25は、対応選択手段27に格納されている対応動作リストを基づいて対応動作を決定する。
本発明を実施するための第3の最良の形態は、音声入力制御処理の切り替えにより不具合条件セットだけではなく対応動作も変更される場合に対応することを可能とする。
次に、本発明を実施するための第4の最良の形態について図面を参照して詳細に説明する。図5は、本発明を実施するための第4の最良の形態の構成を示すブロック図である。
図5を参照すると、本発明を実施するための第4の最良の形態は、第1、第2、または、第3の最良の形態に加え、音声入力手段21から出力される音声信号を入力し音源方向を算出し音声入力状態検出手段24へ出力する音源方向検出手段28を含む。
本発明を実施するための第4の最良の形態は、音源方向検出を行うために、音声入力手段21が2つ以上の音声入力チャネルを装備する。音源方向検出手段28は、音声入力手段21が出力する音声信号を入力し、入力した複数チャネルの音声信号の相関関係から音源方向を推定し音源方向推定結果を音声入力状態検出手段24へ出力する。音声入力状態検出手段24は、音声入力手段21からの音声信号、および、音源方向検出手段28から入力した音源方向推定結果に基づいて音声信号の分析を行う。音源方向検出手段28の構成は、たとえば、[特許文献3]記載の技術が適用可能である。
本発明を実施するための第4の最良の形態は、複数の音声入力チャネルを利用し、音声入力方向に適合したより高度な音声信号の分析を可能とする。
次に、本発明の第5の発明を実施するための最良の形態について図面を参照して詳細に説明する。図6は、本発明の第5の発明を実施するための最良の形態の構成を示すブロック図である。
図6を参照すると、本発明を実施するための第5の最良の形態は、第1、第2、第3、または、第4の最良の形態に加え、音声入力手段21から出力される音声信号を入力し音声認識の処理を行い、音声認識結果を対応手段25に出力する音声認識手段29を含む。音声認識手段29の構成は、たとえば、[非特許文献1]記載の技術が適用可能である。
音声認識手段29は、音声入力手段21から出力される音声信号を受信し、認識処理を行う。そして、得られた音声認識結果(結果が得られない場合はリジェクト)を対応手段25へ出力する。対応手段25は、受け渡された音声認識結果と照合結果を元に対応動作を決定する。
一般的に、音声認識手段29からの音声認識結果と音声入力状態検出手段24からの検出結果とは非同期に出力されるため、対応手段25における対応動作の決定時には両者の同期を取ることが必要である。同期の方法としては、たとえば、対応手段25が音声認識結果を入力した時点で、直前に入力した検出結果と音声認識結果とを統合し対応動作を出力する方法が考えられる。
また、音声認識手段29は、音声認識結果を対応手段25へ出力すると同時に音声認識に利用した特徴量などのデータを音声入力状態検出手段24に出力することにより、特徴量に対応した不具合条件要素を利用すること(特徴量に対応する不具合条件要素を含む不具合条件セットを条件格納手段22に格納しておく必要がある)が可能となる。特徴量などのデータの例としては、たとえば、音声認識手段29において利用された音声検出区間の情報や音声検出区間における分析結果(音声検出された区間に人の声らしい音声が含まれているかなど)がある。
[実施例]
次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作について説明する。
まず、本発明を実施するための第1の最良の形態の実施例(第1の実施例)について説明する。第1の実施例では、音声入力手段21の音声入力ゲインに「大」「小」の2つの値が設定可能であり、条件選択手段23が、これら2つの値に応じて不具合条件セットを切り替える。図10は、不具合条件セットの例を示す説明図である。各々の不具合条件要素は例であるため、簡潔に記述されている。
図10を参照すると、声量不足条件は、ある一定時間に入力される音声のパワーがある一定の閾値以下であることにより満たされ、周囲雑音は、システムが無音区間と想定する音声区間の平均パワーがある一定の閾値以上であるときに満たされる。対応動作の例は、声量不足条件検出時に「もう少し近くでしゃべって」、また、周囲雑音検出時に「周りがうるさいです」のようにガイダンス発話を行う例を記載している。ガイダンス発話の方法としては、あらかじめ収録された音声を再生してもよいし、TTS(Text to Speech)を利用した音声合成により発話してもよい。
なお、図10の不具合条件セットには記載されていないが、複数の条件が満たされた場合に対する対応動作を実行することも可能である。たとえば、声量不足と周囲雑音とが同時に検出された場合に、条件名「声量不足+周囲雑音」、対応動作「周りがうるさいので、もう少し近くでしゃべって」のようにガイダンス、というエントリーを追加し、より詳細なガイダンス発話を行う方法も可能である。
図10に示した例において、不具合条件セット1が入力ゲイン「大」の場合、不具合条件セット2が入力ゲイン「小」の場合の検出条件である。両者の違いは、声量不足条件の最大パワー、および、周囲雑音条件の平均パワーの閾値が異なる(不具合条件セット2の閾値が不具合条件セット1の値の半分となっている)点である。各々の不具合条件セットの切り替えは、外部アプリケーション30が、条件選択手段23を制御することにより行われる。
外部アプリケーション30は、条件選択手段23へ現在の音声入力ゲイン状態を示す選択信号を送信する。条件選択手段23は、選択信号を参照し、音声入力ゲインが「大」なら不具合条件セット1を、「小」なら不具合条件セット2を条件格納手段22から取得し内部に格納する。また、外部アプリケーション30が、音声入力手段21の音声入力ゲインの「大」、「小」を決定する構成も可能である。
次に、本発明を実施するための第2の最良の形態の実施例(第2の実施例)について説明する。第2の実施例は、第1の実施例を利用し、音声入力手段21が周囲状況に応じ音声入力ゲインの「大」「小」を自ら切り替える。第2の実施例のシステムは、通常(起動時)においては、音声入力ゲインを「大」とし、発話音声を収集しやすくし、周囲雑音過多の状況においては、音声入力ゲインを「小」とし、周囲雑音の影響を少なくするように動作する。
音声入力手段21は、起動時は音声入力ゲイン「大」で起動し、同時に条件選択手段23に対し音声入力ゲイン「大」を示す第2の選択信号を条件選択手段23に出力し、条件選択手段23に不具合条件セット1を格納させるよう動作する。そして、音声入力手段21は、周囲雑音の不具合条件要素が満たされた場合、自身が含む音声入力切り替え機能を利用し音声入力ゲインを「小」に切り替え、条件選択手段23に対し音声入力ゲイン「小」を示す第2の選択信号を送信し不具合条件セット2を適用させるよう動作する。
そして何らかの状況(たとえば、周囲雑音検出後に一定時間が経過した)により周囲雑音過多状態が回避されたと判断した場合は、再び音声入力ゲインを「大」に切り替えると同時に条件選択手段23に対し不具合条件セット1を格納させるよう動作する。
次に、第2の最良の形態における選択信号の調停について例を挙げて説明する。調停方法としては、さまざまな方法が考えられる。たとえば、(1)選択信号、第2の選択信号の優先順位(上記例では外部アプリケーション30と音声入力手段21どちらを優先するか)を決めておく方法、(2)調停対象の選択信号状態に応じ不具合条件セットを選択する方法、が考えられる。
(2)の方法においては、条件選択手段23が、直前に選択された不具合条件セットが選択信号、および、第2の選択信号のどちらによって選択されたものかを記憶しておき、新たに入力した選択信号、あるいは第2の選択信号と組み合わせ、新たな不具合条件セットを選択する。たとえば、直前に選択された不具合条件セットが、音声入力手段21からの第2の選択信号によるものであり、新規に外部アプリケーション30から選択信号が入力された場合について説明する。この場合、条件選択手段23は、選択信号、第2の選択信号個々に対応する不具合条件セットとは別の選択信号、第2の選択信号両方に対応する不具合条件セットを選択する。
選択信号、第2の選択信号両方に対応する不具合条件セットは、直前に入力した選択信号(または、第2の選択信号)と新規に入力した選択信号(または、第2の選択信号)に対する不具合条件セットを予め定義しておき選択する方法と、個々の選択信号(または、第2の選択信号)により選択される不具合条件セットをマージ(合併)する方法とが考えられる。不具合条件セットをマージする方法の一つとしては、現在選択されている不具合条件セットに含まれない不具合条件要素のみを新規の不具合条件セットからマージする方法が考えられる。
たとえば、現在の不具合条件セットに「周囲雑音」の不具合条件要素のみが含まれており、新規の選択信号(または、第2の選択信号)で選択される不具合条件セットに「声量不足」の不具合条件要素がある場合は、両者をマージし「周囲雑音」、および、「声量不足」の不具合条件要素をもつ不具合条件セットを生成する方法が考えられる。
次に、本発明を実施するための第3の最良の形態の実施例(第3の実施例)について説明する。第3の実施例は、第2の実施例に対し、不具合条件セット1および2に対する対応動作を追加し、各々の対応動作を切り替える。図11は、不具合条件セット1、および、不具合条件セット2各々に対応した対応動作リストを示す説明図である。図11を参照すると、対応動作1が音声入力ゲイン「大」の状態に対応した対応動作であり、対応動作2が音声入力ゲイン「小」の状態に対応した対応動作である。
音声入力手段21は、起動時に条件選択手段23、および、対応選択手段27に対し音声入力ゲイン「大」を示す選択信号を送信し、各々に対し不具合条件セット1、対応動作1を格納させるよう動作する。そして、「周囲雑音」の不具合条件要素に該当する状態を検出したら、音声入力手段21は、音声入力ゲインを「小」に切り替え、条件選択手段23に対し不具合条件セット2を、対応選択手段27に対し対応動作2を格納させるよう動作する。
このような音声入力手段21の動作により、各々の不具合条件要素が満たされた時の対応動作がより現在のシステム状態に適応したものにすることが可能となる。図11を参照すると、「声量不足」の条件検出時は、通常は単に「もう少し近くでしゃべって」と発話しガイダンスするのに対し、音声入力ゲイン「小」の場合は「近くの音しか聞き取れないからもう少し近くでしゃべって」と音声入力ゲインを「小」に切り替えていることを利用者に伝えることができる。
また、「周囲雑音」の条件検出時は、音声入力ゲイン「小」の時は「周りがうるさいです」と単に利用者に発話するのに対し、音声入力ゲイン「大」の場合は音声入力ゲインを自動的に「小」に切り替えることで利用者にガイダンスではなくシステム側で能動的に不具合状態を回避する対応動作を行うことが可能となる。
対応選択手段27の他の応用例としては、音声入力を受理する場合としない場合とが混在する(たとえば、入力音声を音声認識する場合で音声認識可能な状況を限定している)システムに対応する例が考えられる。図12は、この応用例で使用する不具合条件セット3と対応動作とを示す。
不具合条件セット3は、音声入力不受理状態における発話(条件名:「不受理状態発話」)に関する状態検出に使用される。音声入力手段21は、音声入力状態検出手段24に対し、音声信号を出力すると共に、音声入力受理状態(音声入力受理であるか、不受理であるのか)を示す値を音声入力状態検出手段24へ出力する。外部アプリケーション30が音声入力状態を音声入力状態検出手段24へ与えてもよい。
音声入力状態検出手段24は、音声入力不受理状態であり、かつ、平均パワーが1000を超えている(音声信号を分析による)ことを検出した場合に、「不受理状態発話」の条件を検出し、「今は音声入力できません」というガイダンス発話を行うように制御する。「今は音声入力できません」と発話することにより、音声入力不受理という状態を利用者に通知することが可能となる。
次に、本発明を実施するための第4の最良の形態の実施例(第4の実施例)について説明する。第4の実施例は、雑音抑圧処理と音源方向検出とを連動した実施例である。まず、第4の実施例においては、雑音抑圧処理の例として2チャネル入力ノイズキャンセラによる雑音抑圧を想定する。この雑音抑圧法では、音声入力手段21が、音声入力用チャネル、および、雑音入力用チャネルを含み、両チャネルの入力音声の相関から周囲雑音を推定し、音声入力チャネルの入力音声から周囲雑音を減算することで雑音抑圧がなされる(たとえば、雑音抑制には、[特許文献4]を適用することが可能)。
この雑音抑圧法においては、集音すべき音声(たとえば、利用話者の声)は音声入力用チャネルの入力素子の近傍から発せられ、それ以外の雑音は非近傍、すなわち、雑音入力用チャネルの入力素子に入力されることが前提となっている。例として、両チャネルの入力素子が反対の方角を向けて設置されると想定すると、集音すべき音声は音声入力用チャネルの入力素子の正面から発せられ、それ以外の雑音は背面方角から雑音入力用チャネルの入力素子に入力されることが前提となる。
逆に言えば、集音すべき音声が背面から入力される状態は、システムにとって音声入力不具合の検出対象となる。そこで、音源方向検出手段28を利用し、音声入力用チャネルの入力素子に対し背面方角からの音声を検出する条件を追加した不具合条件セット、ならびに対応動作リストを適用すればよい。図13は、不具合条件セットと対応動作リストを示す説明図である。ここで示した不具合条件セット4と対応動作4は、先に示した不具合条件セット1および対応動作1に対し、「背面発話」という不具合条件要素が追加されたものである。「背面発話」の条件が満たされた場合には、「ノイズキャンセラを実行中なので正面からしゃべって」というガイダンス発話がなされ、正面からの発話を利用者に促すよう動作する。
ノイズキャンセラを実行するか否かは音声入力手段21により制御され、音声入力手段21は、ノイズキャンセラ非実行時は不具合条件セット1、および、対応動作1を、実行時は不具合条件セット4、および、対応動作4をそれぞれ条件選択手段23、および、対応選択手段27に出力するよう動作する。
また、不具合条件要素を満たした時の対応動作が異なる例も考えられる。不具合条件セット4の場合、声量不足が検出される原因はノイズキャンセラ利用に伴う指向性である可能性があるが、話者が正面から90度の側面付近にいる場合は背面発話の検出条件が満たされるとは限らないため、単に声量不足の検出しかできない状態が考えられる。
このような状況においては、背面発話の検出条件が満たされない場合でも「正面からしゃべって」というガイダンスの方が「もう少し近くからしゃべって」より有効となることがある。このように、同じ不具合条件要素を満たした場合においても、音声入力方法に依存して対応動作が異なる場合が存在し、対応選択手段27を利用し音声入力方法ごとに対応動作を切り替える方法が有効となる。
第4の実施例は、マイクロホンアレイなどの技術を利用し音声入力方向に関する指向性を制御する雑音抑圧方法にも適用可能である。この場合は、指向性の鋭角性に応じ不具合条件要素が設定される。一般に、音声入力に指向性を与える手法は、あらかじめ利用方法に応じた指向特性を想定している。
たとえば、指向の鋭角性が音声入力用の素子から左右30度以内にあることを前提とするマイクロホンアレイ手法を利用する場合は、図14のように音声入力角度が素子正面から左右30度以上であることを検出する「指向性」という不具合条件要素を設定し、これが満たされた場合に「マイクロホンアレイを実行中なので正面からしゃべって」というガイダンス発話を行う。
また、無指向性マイクと指向性マイクとを周囲の雑音状況に応じ切り替えて使用(「周囲雑音」検出時に指向性マイクを使用)するような音声入力インタフェースにも適用可能である。この場合は、指向性マイクの指向鋭角性に応じて不具合条件要素が設定される。
次に、本発明を実施するための最良の形態の実施例(第5の実施例)について説明する。
第5の実施例は、図15に示す音声認識結果と検出結果に応じた対応動作リストを使用する。図15に記載された2つの対応動作リストは、それぞれ前出の不具合条件セット1と不具合条件セット4に対応したものである。音声認識結果は、「こんにちは」という認識結果と、「なし」という認識結果との2種類である例について説明する。音声認識結果の「なし」は、リジェクトに相当する。また、検出結果の「なし」は、満たされる不具合条件要素がなかったことを示す。
音声認識結果が「こんにちは」の場合、対応手段25は「こんにちは」と発話した後、検出結果に応じたガイダンス発話を行う。次に、音声認識結果が「なし」の場合、対応手段25は、満たされる不具合条件要素が存在すれば対応するガイダンス発話を行い、存在しなければ動作を行わず無視する。不具合条件セット1に対応した対応動作リストと不具合条件セット4に対応した対応動作リストとの違いは、第4の実施例で示したのと同じく、不具合検出条件に「背面発話」が追加されている点と、声量不足検出時のガイダンスが異なる点とである。
また、音声認識結果と検出結果との統合時においても、音声入力手段21の状態に応じて対応動作が異なる場合が考えられる。図15の不具合条件セット4に対する声量不足検出時の括弧内の対応動作に示した例のように、音声認識結果が「こんにちは」である場合もガイダンス発話のみがなされる場合も考えられる。
これは、前提条件として、不具合条件セット4の音声入力方法を採用している間は声量不足が検出される音声に対する認識の信頼度が低いという条件があると仮定した場合の対応動作である。このように、音声入力方法によってある不具合条件要素が満たされた場合に認識結果の信頼度が低くなると想定される場合は、例え音声認識結果が得られていてもその結果に応答せずガイダンスのみの対応動作を行うことが考えられる。
以上、説明した第5の実施例は、周囲雑音が使用環境や使用状況によって変化する実環境において音声入力を行うシステムへ適用が可能である。たとえば、複数のマイクロホンを搭載し、使用環境に応じてノイズキャンセラやマイクロホンアレイ、もしくは音源分離手法を使い分け利用者の発話を聞き分ける(音声認識する)コミュニケーションロボットへの適用が考えられる。
この場合は、ロボットに搭載したマイクロホンから入力される音声信号が入力となり、ロボットの動作(例えば、うなずきながらガイダンス発話を行う、など)が対応手段25から出力される実装となる。実装の形態としては、本システムをロボットの動作プログラムとして実装する方法がある。また、ロボットの動作プログラムを外部アプリケーション30とし、動作プログラムから音声入力方法、不具合条件セット、または、対応動作をそれぞれ音声入力手段21、条件選択手段23、対応選択手段27へ与え制御する方法がある。
本発明は、音声入力を要するシステムにおいて、特に様々な条件に応じて音声入力手段21が変化する音声入力システムといった用途に適用できる。また、本発明は、音声対話などの音声コミュニケーションを必要とするキャラクタエージェントやロボットといった用途にも適用可能である。

Claims (31)

  1. 1つまたは複数のチャネルから音声を入力し音声信号を出力する音声入力手段と、音声入力の状態を検出するための不具合条件要素を含む不具合条件セットを1つ以上格納する条件格納手段と、前記条件格納手段から前記不具合条件セットを選択するための第1の選択信号を外部アプリケーションから入力し、前記第1の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する条件選択手段と、前記音声信号を分析し分析結果を生成し、前記分析結果と前記条件選択手段の保持する前記不具合条件セットに含まれる前記不具合条件要素とを照合し検出結果として出力する音声入力状態検出手段と、前記検出結果に応じた動作処理を行う対応手段とを備えることを特徴とする音声入力システム。
  2. 音声入力制御処理を状況に応じて切り替え、現在の音声入力状態を第2の選択信号として前記条件選択手段へ出力する前記音声入力手段と、前記第2の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する前記条件選択手段とを備えることを特徴とする請求項1記載の音声入力システム。
  3. 前記音声入力制御処理が、音声入力特性変更処理、または、入力された音声に対する後処理であることを特徴とする請求項2記載の音声入力システム。
  4. 前記音声入力制御処理が、一つまたは複数のチャネルからの前記音声信号をもとに、前記音声信号に含まれる目的音声以外の音声を抑圧することにより目的音声を強調させる雑音抑圧処理であることを特徴とする請求項2記載の音声入力システム。
  5. 前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段と、前記第1の選択信号を入力し、前記第1の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する対応選択手段とを備えることを特徴とする請求項1記載の音声入力システム。
  6. 前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段と、前記第1、または、前記第2の選択信号を入力し、前記第1、または、第2の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する対応選択手段とを備えることを特徴とする請求項2、3、または、4記載の音声入力システム。
  7. 前記条件選択手段が、前記外部アプリケーションからの前記第1の選択信号と前記音声入力手段からの前記第2の選択信号との間の調停を行うことを特徴とする請求項2、3、4、または、6記載の音声入力システム。
  8. 前記音声信号を入力し、音源方向を算出し前記音声入力状態検出手段へ出力する音源方向検出手段を備えることを特徴とする請求項1、2、3、4、5、6、または、7記載の音声入力システム。
  9. 前記音声信号を入力し音声認識の処理を行い、得られた音声認識結果を前記対応手段に出力する音声認識手段を備えることを特徴とする請求項1、2、3、4、5、6、7、または、8記載の音声入力システム。
  10. 前記音声認識手段が、得られた前記音声認識結果を前記対応手段に出力し、かつ、音声認識に利用した特徴量のデータを前記音声入力状態検出手段に出力することを特徴とする請求項9記載の音声入力システム。
  11. 請求項1、2、3、4、5、6、7、8、9、または、10記載の前記音声入力システムを含むことを特徴とする対話型ロボット。
  12. 音声入力手段、音声入力の状態を検出するための不具合条件要素を含む不具合条件セットを1つ以上格納する条件格納手段、条件選択手段、音声入力状態検出手段、および、対応手段を備える音声入力システムにおける音声入力方法であって、前記音声入力手段が、1つまたは複数のチャネルから音声を入力し音声信号を出力する手順と、前記条件選択手段が、前記条件格納手段から前記不具合条件セットを選択するための第1の選択信号を外部アプリケーションから入力し、前記第1の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順と、音声入力状態検出手段が、前記音声信号を分析し分析結果を生成し、前記分析結果と前記条件選択手段の保持する前記不具合条件セットに含まれる前記不具合条件要素とを照合し検出結果として出力する手順と、前記対応手段が、前記検出結果に応じた動作処理を行う手順とを含むことを特徴とする音声入力方法。
  13. 前記音声入力手段が、音声入力制御処理を状況に応じて切り替え、現在の音声入力状態を第2の選択信号として前記条件選択手段へ出力する手順と、前記条件選択手段が、前記第2の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順とを含むことを特徴とする請求項12記載の音声入力方法。
  14. 前記音声入力制御処理が、音声入力特性変更処理、または、入力された音声に対する後処理であることを特徴とする請求項13記載の音声入力方法。
  15. 前記音声入力制御処理が、一つまたは複数のチャネルからの前記音声信号をもとに、前記音声信号に含まれる目的音声以外の音声を抑圧することにより目的音声を強調させる雑音抑圧処理であることを特徴とする請求項13記載の音声入力方法。
  16. 対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力方法であって、対応選択手段が、前記第1の選択信号を入力し、前記第1の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を含むことを特徴とする請求項12記載の音声入力方法。
  17. 対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力方法であって、前記対応選択手段が、前記第1、または、前記第2の選択信号を入力し、前記第1、または、第2の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を含むことを特徴とする請求項13、14、または、15記載の音声入力方法。
  18. 前記条件選択手段が、前記外部アプリケーションからの前記第1の選択信号と前記音声入力手段からの前記第2の選択信号との間の調停を行う手順を含むことを特徴とする請求項13、14、15、または、17記載の音声入力方法。
  19. 音源方向検出手段を備える前記音声入力システムにおける音声入力方法であって、前記音源方向検出手段が、前記音声信号を入力し、音源方向を算出し前記音声入力状態検出手段へ出力する手順を含むことを特徴とする請求項12、13、14、15、16、17、または、18記載の音声入力方法。
  20. 音声認識手段を備える前記音声入力システムにおける音声入力方法であって、前記音声認識手段が、前記音声信号を入力し音声認識の処理を行い、得られた音声認識結果を前記対応手段に出力する手順を含むことを特徴とする請求項12、13、14、15、16、17、18、または、19記載の音声入力方法。
  21. 前記音声認識手段が、得られた前記音声認識結果を前記対応手段に出力し、かつ、音声認識に利用した特徴量のデータを前記音声入力状態検出手段に出力する手順を含むことを特徴とする請求項20記載の音声入力方法。
  22. 音声入力手段、音声入力の状態を検出するための不具合条件要素を含む不具合条件セットを1つ以上格納する条件格納手段、条件選択手段、音声入力状態検出手段、および、対応手段を備える音声入力システムにおける音声入力プログラムであって、前記音声入力手段に、1つまたは複数のチャネルから音声を入力し音声信号を出力する手順を実行させ、前記条件選択手段に、前記条件格納手段から前記不具合条件セットを選択するための第1の選択信号を外部アプリケーションから入力し、前記第1の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順を実行させ、音声入力状態検出手段に、前記音声信号を分析し分析結果を生成し、前記分析結果と前記条件選択手段の保持する前記不具合条件セットに含まれる前記不具合条件要素とを照合し検出結果として出力する手順を実行させ、前記対応手段に、前記検出結果に応じた動作処理を行う手順を実行させることを特徴とする音声入力プログラム。
  23. 前記音声入力手段に、音声入力制御処理を状況に応じて切り替え、現在の音声入力状態を第2の選択信号として前記条件選択手段へ出力する手順を実行させ、前記条件選択手段に、前記第2の選択信号に応じた前記不具合条件セットを前記条件格納手段から取得し格納する手順を実行させることを特徴とする請求項22記載の音声入力プログラム。
  24. 前記音声入力制御処理が、音声入力特性変更処理、または、入力された音声に対する後処理であることを特徴とする請求項23記載の音声入力プログラム。
  25. 前記音声入力制御処理が、一つまたは複数のチャネルからの前記音声信号をもとに、前記音声信号に含まれる目的音声以外の音声を抑圧することにより目的音声を強調させる雑音抑圧処理であることを特徴とする請求項23記載の音声入力プログラム。
  26. 対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力プログラムであって、対応選択手段に、前記第1の選択信号を入力し、前記第1の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を実行させることを特徴とする請求項22記載の音声入力プログラム。
  27. 対応選択手段、および、前記条件格納手段に格納される前記不具合条件セットに対応した前記動作処理を格納する対応格納手段を備える前記音声入力システムにおける音声入力プログラムであって、前記対応選択手段に、前記第1、または、前記第2の選択信号を入力し、前記第1、または、第2の選択信号に応じた前記動作処理を前記対応格納手段から選択し格納する手順を実行させることを特徴とする請求項23、24、または、25記載の音声入力プログラム。
  28. 前記条件選択手段に、前記外部アプリケーションからの前記第1の選択信号と前記音声入力手段からの前記第2の選択信号との間の調停を行う手順を実行させることを特徴とする請求項23、24、25、または、27記載の音声入力プログラム。
  29. 音源方向検出手段を備える前記音声入力システムにおける音声入力プログラムであって、前記音源方向検出手段に、前記音声信号を入力し、音源方向を算出し前記音声入力状態検出手段へ出力する手順を実行させることを特徴とする請求項22、23、24、25、26、27、または、28記載の音声入力プログラム。
  30. 音声認識手段を備える前記音声入力システムにおける音声入力プログラムであって、前記音声認識手段に、前記音声信号を入力し音声認識の処理を行い、得られた音声認識結果を前記対応手段に出力する手順を実行させることを特徴とする請求項22、23、24、25、26、27、28、または、29記載の音声入力プログラム。
  31. 前記音声認識手段に、得られた前記音声認識結果を前記対応手段に出力し、かつ、音声認識に利用した特徴量のデータを前記音声入力状態検出手段に出力する手順を実行させることを特徴とする請求項30記載の音声入力プログラム。
JP2008517781A 2006-05-26 2007-05-23 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム Expired - Fee Related JP5018773B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008517781A JP5018773B2 (ja) 2006-05-26 2007-05-23 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006146514 2006-05-26
JP2006146514 2006-05-26
JP2008517781A JP5018773B2 (ja) 2006-05-26 2007-05-23 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
PCT/JP2007/000555 WO2007138741A1 (ja) 2006-05-26 2007-05-23 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム

Publications (2)

Publication Number Publication Date
JPWO2007138741A1 true JPWO2007138741A1 (ja) 2009-10-01
JP5018773B2 JP5018773B2 (ja) 2012-09-05

Family

ID=38778268

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008517781A Expired - Fee Related JP5018773B2 (ja) 2006-05-26 2007-05-23 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム

Country Status (3)

Country Link
US (1) US9135913B2 (ja)
JP (1) JP5018773B2 (ja)
WO (1) WO2007138741A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5187584B2 (ja) * 2009-02-13 2013-04-24 日本電気株式会社 入力音声評価装置、入力音声の評価方法および評価プログラム
FR2962048A1 (fr) * 2010-07-02 2012-01-06 Aldebaran Robotics S A Robot humanoide joueur, methode et systeme d'utilisation dudit robot
US20120045068A1 (en) * 2010-08-20 2012-02-23 Korea Institute Of Science And Technology Self-fault detection system and method for microphone array and audio-based device
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
CN104704797B (zh) 2012-08-10 2018-08-10 纽昂斯通讯公司 用于电子设备的虚拟代理通信
JP6115941B2 (ja) * 2013-03-28 2017-04-19 Kddi株式会社 対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法
US10534623B2 (en) * 2013-12-16 2020-01-14 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
CN105845135A (zh) * 2015-01-12 2016-08-10 芋头科技(杭州)有限公司 一种机器人系统的声音识别系统及方法
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10747954B2 (en) * 2017-10-31 2020-08-18 Baidu Usa Llc System and method for performing tasks based on user inputs using natural language processing
US10923101B2 (en) * 2017-12-26 2021-02-16 International Business Machines Corporation Pausing synthesized speech output from a voice-controlled device
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02181200A (ja) * 1989-01-05 1990-07-13 Toshiba Corp 音声認識装置
JPH0675588A (ja) * 1992-08-27 1994-03-18 Fujitsu Ltd 音声認識装置
JP2000155600A (ja) * 1998-11-24 2000-06-06 Nec Corp 音声認識システムおよび入力音声レベル警告方法
JP2001159900A (ja) * 1999-12-02 2001-06-12 Canon Inc 音入出力制御装置、音入出力制御方法、及び記憶媒体
JP2001268168A (ja) * 2000-03-16 2001-09-28 Matsushita Electric Ind Co Ltd 携帯電話機
JP2001296889A (ja) * 2000-04-12 2001-10-26 Fujitsu Ltd 音声入力装置
JP2004271596A (ja) * 2003-03-05 2004-09-30 Advanced Media Inc 音声認識システム
JP2005236790A (ja) * 2004-02-20 2005-09-02 Nec Saitama Ltd 移動通信端末装置および基地局無線装置
JP2006113439A (ja) * 2004-10-18 2006-04-27 Ntt Data Corp 音声自動応答装置及びプログラム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6194095A (ja) 1984-10-16 1986-05-12 株式会社リコー 音声認識装置
US5548681A (en) * 1991-08-13 1996-08-20 Kabushiki Kaisha Toshiba Speech dialogue system for realizing improved communication between user and system
JPH0722434A (ja) 1993-06-22 1995-01-24 Mitsubishi Electric Corp 半導体装置
JPH09171395A (ja) * 1995-12-20 1997-06-30 Oki Electric Ind Co Ltd 音声認識装置
EP1021804A4 (en) * 1997-05-06 2002-03-20 Speechworks Int Inc SYSTEM AND METHOD FOR DEVELOPING INTERACTIVE LANGUAGE APPLICATIONS
US6336091B1 (en) * 1999-01-22 2002-01-01 Motorola, Inc. Communication device for screening speech recognizer input
DE19956747C1 (de) * 1999-11-25 2001-01-11 Siemens Ag Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem
US7171357B2 (en) * 2001-03-21 2007-01-30 Avaya Technology Corp. Voice-activity detection using energy ratios and periodicity
JP2003177790A (ja) 2001-09-13 2003-06-27 Matsushita Electric Ind Co Ltd 端末装置、サーバ装置および音声認識方法
DE10208466A1 (de) * 2002-02-27 2004-01-29 BSH Bosch und Siemens Hausgeräte GmbH Elektrisches Haushaltsgerät
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
JP2003330491A (ja) 2002-05-10 2003-11-19 Nec Corp 音声認識装置および音声認識方法ならびにプログラム
US20040059578A1 (en) * 2002-09-20 2004-03-25 Stefan Schulz Method and apparatus for improving the quality of speech signals transmitted in an aircraft communication system
GB0224806D0 (en) * 2002-10-24 2002-12-04 Ibm Method and apparatus for a interactive voice response system
DE10251113A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren zum Betrieb eines Spracherkennungssystems
EP1443496B1 (en) * 2003-01-18 2006-07-19 Psytechnics Limited Non-intrusive speech signal quality assessment tool
US7327985B2 (en) * 2003-01-21 2008-02-05 Telefonaktiebolaget Lm Ericsson (Publ) Mapping objective voice quality metrics to a MOS domain for field measurements
US8244536B2 (en) * 2003-08-27 2012-08-14 General Motors Llc Algorithm for intelligent speech recognition
GB2407952B (en) * 2003-11-07 2006-11-29 Psytechnics Ltd Quality assessment tool
US8050918B2 (en) * 2003-12-11 2011-11-01 Nuance Communications, Inc. Quality evaluation tool for dynamic voice portals
JP4797330B2 (ja) 2004-03-08 2011-10-19 日本電気株式会社 ロボット
US7243068B2 (en) * 2004-09-10 2007-07-10 Soliloquy Learning, Inc. Microphone setup and testing in voice recognition software
JP4679254B2 (ja) * 2004-10-28 2011-04-27 富士通株式会社 対話システム、対話方法、及びコンピュータプログラム
US7843991B2 (en) * 2005-04-21 2010-11-30 Qualcomm Incorporated Methods and apparatus for monitoring voice quality on a wireless communication device

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02181200A (ja) * 1989-01-05 1990-07-13 Toshiba Corp 音声認識装置
JPH0675588A (ja) * 1992-08-27 1994-03-18 Fujitsu Ltd 音声認識装置
JP2000155600A (ja) * 1998-11-24 2000-06-06 Nec Corp 音声認識システムおよび入力音声レベル警告方法
JP2001159900A (ja) * 1999-12-02 2001-06-12 Canon Inc 音入出力制御装置、音入出力制御方法、及び記憶媒体
JP2001268168A (ja) * 2000-03-16 2001-09-28 Matsushita Electric Ind Co Ltd 携帯電話機
JP2001296889A (ja) * 2000-04-12 2001-10-26 Fujitsu Ltd 音声入力装置
JP2004271596A (ja) * 2003-03-05 2004-09-30 Advanced Media Inc 音声認識システム
JP2005236790A (ja) * 2004-02-20 2005-09-02 Nec Saitama Ltd 移動通信端末装置および基地局無線装置
JP2006113439A (ja) * 2004-10-18 2006-04-27 Ntt Data Corp 音声自動応答装置及びプログラム

Also Published As

Publication number Publication date
WO2007138741A1 (ja) 2007-12-06
JP5018773B2 (ja) 2012-09-05
US20090099849A1 (en) 2009-04-16
US9135913B2 (en) 2015-09-15

Similar Documents

Publication Publication Date Title
JP5018773B2 (ja) 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
EP3414759B1 (en) Techniques for spatially selective wake-up word recognition and related systems and methods
EP1400814B1 (en) Directional setting apparatus, directional setting system, directional setting method and directional setting program
JP4667085B2 (ja) 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法
KR20200074199A (ko) 음성 잡음 제거 방법 및 장치, 서버 및 저장 매체
WO2007018293A1 (ja) 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
US11089404B2 (en) Sound processing apparatus and sound processing method
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
JPWO2007080886A1 (ja) 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム
JP5431282B2 (ja) 音声対話装置、方法、プログラム
US20070118380A1 (en) Method and device for controlling a speech dialog system
US11455980B2 (en) Vehicle and controlling method of vehicle
CN108810778B (zh) 用于运行听力设备的方法和听力设备
JP6766675B2 (ja) 音声対話装置
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP5130298B2 (ja) 補聴器の動作方法、および補聴器
US20180350370A1 (en) Voice processing device, voice processing method, and computer program product
WO2020223304A1 (en) Speech dialog system aware of ongoing conversations
JP7065964B2 (ja) 音場制御装置および音場制御方法
JP2005354223A (ja) 音源情報処理装置、音源情報処理方法、音源情報処理プログラム
JP6772881B2 (ja) 音声対話装置
JP2004318026A (ja) セキュリティペットロボット及びその装置に関する信号処理方法
JP2018165805A (ja) 対話装置、対話装置の制御方法およびプログラム
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP2019191477A (ja) 音声認識装置及び音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120515

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120528

R150 Certificate of patent or registration of utility model

Ref document number: 5018773

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees