WO2018207483A1

WO2018207483A1 - 情報処理装置、電子機器、制御方法、および制御プログラム

Info

Publication number: WO2018207483A1
Application number: PCT/JP2018/012384
Authority: WO
Inventors: 佐藤　義雄; 善朗石川
Original assignee: シャープ株式会社
Priority date: 2017-05-11
Filing date: 2018-03-27
Publication date: 2018-11-15
Also published as: CN110612569A; US20200058319A1; JPWO2018207483A1

Abstract

誤動作による応答を防止する。制御部（１０）は、複数のマイク（３０）から検出音をそれぞれ区別して取得する音声取得部（１１）と、検出音それぞれについて、該検出音から発話内容を認識できなかった場合、検出音がノイズであると判定するノイズ判定部（１４）と、ノイズであると判定された場合、１つ以上のマイク（３０）による音の検出を停止させる検出制御部（１７）と、を備える。

Description

情報処理装置、電子機器、制御方法、および制御プログラム

　本発明は、発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置等に関する。

　近年、センサまたはマイク等で発話を検出し、該発話の内容に応じた応答（例えば、所定の動作またはメッセージ）を出力する情報処理装置が種々開発されている。

　このような情報処理装置に係る技術として、ユーザの発話以外で誤動作することを防ぐための技術が開示されている。例えば、特許文献１には、使用者からの所定の合図を検出した場合に音声入力の受け付けを開始し、音声入力された音声の意味が予め登録された命令に一致した場合、エアコンを操作する等の所定の動作を行う操作装置が開示されている。

日本国公開特許公報「特開２００７－１２１５７９号公報（公開日：２００７年０５月１７日）」

　しかしながら、特許文献１に記載の操作装置の技術を用いた上で、より多くの音声による命令を受け付けられるようにした場合に、思わぬ誤動作が生じる虞がある。

　例えば、ユーザと対話する対話ロボット等では、非常に多種類の発話内容に対し、多岐にわたる応答を返すこととなる。このように、発話内容に応じてより細やかな応答を返そうとするほど、例えばテレビ番組の音等の環境音を、ユーザの発話であると誤検出してしまう可能性が増す。

　本発明の一態様は、上述の問題点に鑑みたものであり、誤動作による応答を防止する情報処理装置等を実現することを目的とする。

　上記の課題を解決するために、本発明の一態様に係る情報処理装置は、発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置であって、複数のマイクから検出音をそれぞれ区別して取得する音声取得部と、上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定部と、上記ノイズ判定部により上記検出音がノイズであると判定された場合、上記複数のマイクのうち、１つ以上のマイクによる音の検出を停止させる検出制御部と、を備えることを特徴とする。

　上記の課題を解決するために、本発明の一態様に係る情報処理装置の制御方法は、発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置の制御方法であって、複数のマイクから検出音をそれぞれ区別して取得する音声取得ステップと、上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定ステップと、上記ノイズ判定ステップにおいて上記検出音がノイズであると判定された場合、上記複数のマイクのうち、１つ以上のマイクによる音の検出を停止させる検出制御ステップと、を含むことを特徴とする。

　本発明の一態様によれば、誤動作による応答を防止することができる。

本発明の実施形態１に係る対話ロボットの要部構成を示すブロック図である。上記対話ロボットの動作例を示す図である。上記対話ロボットの処理の流れの一例を示すフローチャートである。本発明の実施形態２に係る対話ロボットの要部構成を示すブロック図である。上記対話ロボットの動作例を示す図である。上記対話ロボットの処理の流れの一例を示すフローチャートである。

　〔実施形態１〕
　本開示の実施形態１において、図１～３を用いて説明する。図１は、本実施形態に係る対話ロボット１の要部構成を示すブロック図である。対話ロボット１は、ユーザの発話内容を認識して、該発話内容に対応する応答を出力する電子機器である。ここで、「応答」とは、音声、動作、光、またはこれらの組み合わせで示される、対話ロボット１の、発話に対する反応を意味する。本実施形態では一例として、対話ロボット１がスピーカ４０（後述）から発話内容に対する応答を音声出力する場合について説明する。対話ロボット１は図示の通り、記憶部２０と、マイク３０と、スピーカ（出力部）４０と、制御部（情報処理装置）１０とを備える。

　記憶部２０は、制御部１０が実行する処理に必要なデータを格納するメモリである。記憶部２０は少なくとも、応答文テーブル２１を含む。応答文テーブル２１は、所定の文またはキーワードに、応答内容が対応付けて記憶されたデータテーブルである。本実施形態では、応答内容として、上記文またはキーワードに対する回答となるメッセージの文字列を記憶しておくこととする。

　マイク３０は、音を検出する入力装置である。マイク３０は、その種類は問わないが、後述する方向特定部１２で、検出音の方向を特定できる程度の検出精度および指向性を有している。マイク３０は、後述する検出制御部１７により音検出の開始および停止が制御される。対話ロボット１は、マイク３０を複数個備えている。さらに言えば、対話ロボット１には、複数個のマイク３０が、それぞれ異なる方向に向けて配置されていることが望ましい。これにより、後述する方向特定部１２による検出音の方向特定の精度を向上させることができる。

　スピーカ４０は、後述する出力制御部１６の制御に従って、応答内容であるメッセージを音声出力するものである。対話ロボット１はスピーカ４０を複数備えていてもよい。

　制御部１０は、対話ロボット１を統括的に制御するＣＰＵ（Central Processing Unit）である。制御部１０は、機能ブロックとして、音声取得部１１と、ノイズ判定部１４と、応答決定部１５と、出力制御部１６と、検出制御部１７を含む。

　音声取得部１１は、マイク３０の検出音を取得するものである。音声取得部１１は、複数のマイク３０からそれぞれの検出音を区別して取得する。また、音声取得部１１は、各マイク３０の検出音を任意の長さで区切って、複数回にわたり取得する。音声取得部１１は方向特定部１２および文字列変換部１３を含む。

　方向特定部１２は、マイク３０の検出音が発せられた方向を特定するものである。方向特定部１２は、複数のマイク３０の検出音から検出音の発生方向を総合的に特定してもよい。方向特定部１２は特定した検出音の方向を示す情報をノイズ判定部１４に送る。

　文字列変換部１３は、マイク３０の検出音を文字列に変換するものである。文字列変換部１３は、変換した文字列を応答決定部１５に送る。なお、文字列変換部１３は、例えば検出音が言語でない場合等、検出音を文字列に変換できなかった場合、変換不能である旨をノイズ判定部１４に通知する。

　文字列変換部１３は各検出音それぞれについて文字列への変換可否を判定する。そして、文字列に変換できた検出音については該文字列を応答決定部１５に送信し、文字列に変換できなかった検出音については、変換不能である旨の通知をノイズ判定部１４に送信する。もしくは、文字列変換部１３は複数の検出音のいずれか１つ（例えば、最も入力の大きい検出音）について文字列への変換可否を判定し、変換可能な場合は文字列を応答決定部１５に送信し、不可能な場合は変換不能な旨の通知をノイズ判定部１４に送信してもよい。

　ノイズ判定部１４は、マイク３０の検出音がノイズであるか否かを判定するものである。ノイズ判定部１４は、文字列変換部１３から変換不能の旨の通知を取得した場合、すなわち、文字列変換部１３において発話内容を認識できなかった場合、マイク３０の検出音がノイズであると判定する。検出音がノイズであると判定した場合、ノイズ判定部１４は、１つ以上のマイク３０による音の検出を停止させる旨の指示（ＯＦＦ指示）を、検出制御部１７に送信する。

　なお、ノイズ判定部１４は、検出音がノイズであると判定した場合、方向特定部１２から取得した検出音の方向を示す情報と、対話ロボット１におけるマイク３０の配置および指向性とから、音の検出を停止させるマイク３０を１つ以上決定してもよい。この場合、ノイズ判定部１４は、ＯＦＦ指示において停止させるマイク３０を指定してもよい。

　なお、ノイズ判定部１４は、所定期間内に所定の回数（例えば、２回）連続して変換不能の旨の通知を受信した場合に、マイク３０の検出音がノイズであると判定してもよい。この場合、ノイズ判定部１４は最初に発話内容を認識できなかった時点では、ＯＦＦ指示を送信しなくてよい。

　応答決定部１５は、応答指示に応じて、文字列に対応する応答を決定するものである。応答決定部１５は文字列変換部１３から文字列を受信すると、記憶部２０の応答文テーブル２１を参照し、該文字列に含まれる文またはキーワードに対応する応答内容（メッセージ）を検索する。応答決定部１５は検索結果で得られたメッセージの中から１つ以上のメッセージを出力メッセージとして決定し、出力制御部１６に送る。

　出力制御部１６は、応答決定部１５から受信した出力メッセージをスピーカ４０に出力させる。

　検出制御部１７は、ノイズ判定部１４からのＯＦＦ指示に従って、該指示によりノイズ判定部１４が指定するマイク３０の音の検出を停止させる。なお、検出制御部１７は所定時間が経過した後、またはノイズ判定部１４からマイク３０の音の検出を開始させる指示（ＯＮ指示）を受信した場合に、マイク３０の音の検出を再開させてもよい。

　次に、対話ロボット１の具体的な動作について、図２を用いて説明する。図２は、対話ロボット１の動作例を示す図である。図２では一例として、対話ロボット１の筐体の左右方向にそれぞれ１つずつマイク３０が配置されており、かつ右側のマイク３０がテレビのノイズまたはＢＧＭを検出した場合について説明する。また、以降の説明では、ノイズ判定部１４は２回連続して発話内容を認識できなかった場合に、検出音をノイズと判定することとする。

　対話ロボット１の右側のマイク３０がテレビ番組のノイズまたはＢＧＭを検出すると（図２の（ａ））、制御部１０の音声取得部１１はこれを取得し、文字列変換部１３は検出音の文字列への変換を試みる。ノイズまたはＢＧＭは言語として認識できないため、文字列変換部１３は変換不能の旨をノイズ判定部１４に通知する。この場合、応答決定部１５は文字列を取得しないため応答を決定せず、よって対話ロボット１は応答しない（図２の（ｂ））。

　次に、右側のマイク３０が再度テレビのノイズまたはＢＧＭを検出したとする（図２の（ｃ））。この場合、音声取得部１１の文字列変換部１３は変換不能の旨を再度ノイズ判定部１４および応答決定部１５に通知する。ノイズ判定部１４は同じマイクからの検出音について、２回連続で発話内容を認識できなかったため、検出音をノイズであると判定する。ノイズ判定部１４は、方向特定部１２から受信した方向を示す情報に基づき、検出音の発生方向に向いたマイク３０（本例では、右側のマイク３０）を特定する。ノイズ判定部１４は検出制御部１７に、特定した右側のマイク３０を指定してＯＦＦ指示を送信する。検出制御部１７は右側のマイク３０を停止させる（図２の（ｄ））。

　以降、テレビのある方向の音を検出する右側のマイク３０は停止しているため、対話ロボット１はテレビからの音自体を検知しない状態になる（図２の（ｅ））。

　なお、ノイズ判定部１４は、左側のマイク３０の検出音に応じて応答決定部１５に応答指示を送った場合、もしくは、ＯＦＦ指示の送信から所定期間が経過した場合に、該ＯＦＦ指示を解除してもよい。または、ノイズ判定部１４は、左側のマイク３０の検出音に応じて応答決定部１５に応答指示を送った場合、もしくは、ＯＦＦ指示の送信から所定期間が経過した場合に、ＯＦＦ指示で停止させた右側のマイク３０の音の検出を再開させるためのＯＮ指示を送信してもよい。そして、検出制御部１７はＯＦＦ指示の解除、またはＯＮ指示に従って、右側のマイク３０の音の検出を再開させてもよい。

　最後に、対話ロボット１の処理の流れについて、図３を用いて説明する。図３は、対話ロボット１の処理の流れの一例を示すフローチャートである。複数のマイク３０が音を検出すると、音声取得部１１は検出音をそれぞれ区別して取得する（Ｓ１０、音声取得ステップ）。音声取得部１１は方向特定部１２において、各検出音が発せられた方向を特定し（Ｓ１２）、該方向を示す情報をノイズ判定部１４に送信する。また、文字列変換部１３は各検出音を文字列に変換する（Ｓ１４）。

　ここで、文字列変換部１３が文字列変換に成功した場合（Ｓ１６でＹＥＳ）、応答決定部１５は文字列変換部１３から文字列を取得し、該文字列に対応する応答を決定する（Ｓ１８）。出力制御部１６は決定された応答を出力するようスピーカ４０に指示し、スピーカ４０は該応答を音声出力する（Ｓ２０）。

　一方、文字列変換部１３が文字列変換に失敗した場合（Ｓ１６でＮＯ）、文字列変換部１３はノイズ判定部１４に変換不能の旨を通知する。ノイズ判定部１４は、該通知を受信した場合、同じマイク３０からの検出音について、連続して２回該通知を受信したか否かを判定する（Ｓ２２）。１回目の通知である場合（Ｓ２２でＮＯ）、ノイズ判定部１４はＯＦＦ指示を送信せずに待機する。一方、連続した２回目の通知であった場合（Ｓ２２でＹＥＳ）、ノイズ判定部１４は検出音をノイズと判定し（Ｓ２４、ノイズ判定ステップ）、方向特定部１２から受信した、方向を示す情報に基づいて、該ノイズが発せられた方向に向いたマイク３０を１つ以上特定する。そして、ノイズ判定部１４は、特定したマイク３０を停止させるよう検出制御部１７に指示し、検出制御部１７は該マイク３０を停止させる（Ｓ２６、検出制御ステップ）。

　なお、Ｓ１２の処理とＳ１４の処理との順序は逆であってもよいし、同時進行であってもよい。また、Ｓ２２の処理は必須ではない。すなわち、ノイズ判定部１４は、文字列変換部１３から変換不能の旨を通知されたら、それが１回目の通知であってもＳ２４およびＳ２６の処理を行ってもよい。

　以上の処理によれば、対話ロボット１は、各マイク３０の検出音がノイズであるか否かを判定することができる。具体的には、各マイク３０の検出音が、言語として認識できる音であるか否かに応じて、該検出音がノイズであるか否かを判定することができる。これにより、対話ロボット１は、検出音がユーザの意図した発話かどうかを判断することができるため、ノイズに対し誤って応答するという誤動作を防止できる。

　また、対話ロボット１は、ノイズの発生方向を特定し、該方向に向けたマイク３０を停止させるため、以降のノイズ検出を低減することができる。したがって、検出音としてノイズを検出した場合に実行する判定処理や動作等の、無駄な処理を省略することができる。これにより、対話ロボット１の負荷を低減することができるとともに、無駄な消費電力を削減することができる。よって、対話ロボット１の稼働時間を長くすることができる。

　〔実施形態２〕
　本開示の実施形態２について、図４～６を用いて説明する。なお、説明の便宜上、実施形態１で説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　図４は、実施形態２に係る対話ロボット２の要部構成を示すブロック図である。対話ロボット２は、記憶部２０に回答文テーブル２２が格納されている点において、実施形態１に係る対話ロボット１と異なる。

　回答文テーブル２２は、応答に対し、ユーザの回答内容を示す文字列が対応付けられた情報である。なお、回答文テーブル２２の応答は、応答文テーブル２１に記憶された応答と同一のものである。

　本実施形態に係る文字列変換部１３は、検出音から変換した文字列を、ノイズ判定部１４にも送信する。また、本実施形態に係る応答決定部１５は、決定した応答をノイズ判定部１４に伝える。

　本実施形態に係るノイズ判定部１４は、応答決定部１５から受信した応答を記憶する。なお、ノイズ判定部１４は所定期間が経過した場合、記憶している応答を削除してもよい。ノイズ判定部１４は、文字列変換部１３から文字列を取得した場合、回答文テーブル２２を参照して、該文字列の少なくとも一部分が、回答文テーブル２２におけるユーザの回答内容を示す文字列と一致するか否かを判定する。すなわち、ノイズ判定部１４は、回答文テーブル２２において、文字列変換部１３から取得した文字列の少なくとも一部分と、応答決定部１５から得ていた応答とが対応付けられているか否かを判定する。換言すると、ノイズ判定部１４は、取得した文字列、すなわち検出音が示す発話内容が、スピーカ４０から出力した応答内容への回答として期待される内容であるか否かを判定する。

　回答文テーブル２２において、取得した文字列の少なくとも一部分が応答と対応付けられている場合、すなわち、発話内容が期待の回答であった場合、ノイズ判定部１４は応答決定部１５に応答を許可する旨の指示を送信する。応答決定部１５は該指示を受けてから、応答の決定を行う。

　一方、回答文テーブル２２において、取得した文字列のいずれの部分も応答と対応付けられていない場合、すなわち、発話内容が期待の回答でない場合、ノイズ判定部１４は検出制御部１７にＯＦＦ指示を送信する。この場合、ノイズ判定部１４は応答決定部１５には応答を許可する旨の指示を送信しなくてよい。結果、対話ロボット２は応答を行わない。

　なお、ノイズ判定部１４は、応答決定部１５からの応答を記憶していない状態で文字列を取得した場合、応答決定部１５に応答を許可する旨の指示を送信してよい。

　次に、対話ロボット２の具体的な動作について、図５を用いて説明する。図５は、対話ロボット２の動作例を示す図である。図５では一例として、対話ロボット２の筐体の左右方向にそれぞれ１つずつマイク３０が配置されており、かつ右側のマイク３０がテレビ番組の音声を検出した場合について説明する。

　右側のマイク３０がテレビ番組の音声「こんにちは」を検出すると（図５の（ａ））、制御部１０の音声取得部１１はこれを取得し、文字列変換部１３において文字列変換を試みる。図２の例と異なり、テレビ番組の音声「こんにちは」は言語として認識可能であるため、文字列変換部１３は該音声を文字列に変換する。文字列変換部１３は変換した文字列をノイズ判定部１４および応答決定部１５に通知する。ノイズ判定部１４は、応答決定部１５からの応答を記憶していない状態で文字列を受信すると、応答決定部１５に応答を許可する旨の指示を送信する。これにより、応答決定部１５は応答を決定し、出力制御部１６はスピーカ４０から応答（図示の例では、「今日はどこか行く？」というメッセージ）を出力させる（図５の（ｂ））。そして、ノイズ判定部１４は出力された応答を応答決定部１５から伝えられる。

　次に、右側のマイク３０が再度テレビの音声「こんにちは」を検出したとする（図５の（ｃ））。この場合も文字列変換部１３は文字列をノイズ判定部１４および応答決定部１５に送信する。

　ノイズ判定部１４は、受信した文字列の少なくとも一部分が、回答文テーブル２２において、記憶している応答と対応付けられているか否かを判定する。受信した文字列の少なくとも一部分が応答と対応付けられている場合、ノイズ判定部１４は前回と同様に、応答決定部１５に対し応答を許可する旨の指示を送信する。一方、受信した文字列のいずれの部分も応答と対応付けられていない場合、ノイズ判定部１４は、受信した文字列が、期待されるユーザの回答内容を示していないと判断する。この場合、ノイズ判定部１４は、該文字列、すなわち検出音をノイズと判定する。この場合、実施形態１に示す対話ロボット１と同様に、ノイズ判定部１４は右側のマイク３０を指定してＯＦＦ指示を検出制御部１７に送信する。またこの場合、応答決定部１５に応答を許可する旨の指示は送信されないため、対話ロボット２は応答しない（図５の（ｄ））。

　以降、テレビのある方向の音を検出する右側のマイク３０は停止しているため、対話ロボット２はテレビからの音自体を検知しない状態になる（図５の（ｅ））。

　最後に、対話ロボット２の処理の流れについて、図６を用いて説明する。図６は、対話ロボット２の処理の流れの一例を示すフローチャートである。

　対話ロボット２は、自発的に、またはユーザの発話に対し応答を出力する（Ｓ４０）。このとき、応答決定部１５は、自身が決定した応答（または自発的メッセージ）をノイズ判定部１４に伝える。なお、ここでの応答出力の流れは、図３のＳ１０～Ｓ１４、Ｓ１６でＹＥＳ、およびＳ１８～Ｓ２０の流れと同様である。

　その後、対話ロボット２は、図３のＳ１０～Ｓ１４と同様、検出音の取得（Ｓ４２、音声取得ステップ）、検出音が発せられた方向の特定（Ｓ４４）、および、検出音の文字列への変換（Ｓ４６）を検出音毎に実行する。文字列変換に成功した場合、（Ｓ１８でＹＥＳ）、文字列変換部１３はノイズ判定部１４および応答決定部１５に文字列を送信する。ノイズ判定部１４は、応答決定部１５から伝えられていた応答と、文字列変換部１３から受信した文字列と、回答文テーブル２２とから、文字列が示す発話内容が、対話ロボット２の応答または自発的メッセージから期待される回答か否か判定する（Ｓ５０）。

　文字列が示す発話内容が期待される回答である場合（Ｓ５０でＹＥＳ）、ノイズ判定部１４は応答決定部１５に対し、応答を許可する旨の指示を送信する。応答決定部１５は、図３のＳ１８およびＳ２０と同様に、応答を決定し（Ｓ５２）、スピーカ４０は出力制御部１６の制御に応じて該応答を出力する（Ｓ５４）。

　一方、文字列が示す発話内容が期待される回答でない場合（Ｓ５０でＮＯ）、ノイズ判定部１４は該文字列に変換された検出音が、ノイズであると判定する（Ｓ５６、ノイズ判定ステップ）。ノイズ判定部１４はこの場合、図３のＳ２６と同様に、マイク３０を停止させるよう検出制御部１７に指示し、検出制御部１７は該マイク３０を停止させる（Ｓ５８、検出制御ステップ）。

　なお、本実施形態においても、図３のＳ２２の処理を、Ｓ４８の処理とＳ５６の処理との間、Ｓ５０の処理とＳ５６の処理との間に行ってもよい。つまり、ノイズ判定部１４は、同じマイク３０からの検出音について２回連続して変換不能の旨を通知された場合に、該検出音をノイズと判定してもよい。またノイズ判定部１４は、２回連続して期待の回答が得られなかった場合に、該検出音をノイズと判定してもよい。

　以上の処理によれば、対話ロボット２は、マイク３０の検出音がノイズであるか否かを判定することができる。具体的には、マイク３０の検出音が、自機が発した応答（または自発的メッセージ）に対する反応であるか否かの判断に応じて、該検出音がノイズであるか否かを判定する。これにより、対話ロボット２は、検出音がユーザの意図した発話かどうかを判断することができるため、ノイズに対し誤って応答するという誤動作を防止できる。

　また、対話ロボット２は、ノイズの発生方向を特定し、該方向に向けたマイク３０を停止させるため、以降のノイズ検出を低減することができる。したがって、検出音としてノイズを検出した場合に実行する判定処理や動作等の、無駄な処理を省略することができる。これにより、対話ロボット２の負荷を低減することができるとともに、無駄な消費電力を削減することができる。よって、対話ロボット２の稼働時間を長くすることができる。

　〔変形例〕
　上記各実施形態では、制御部１０は対話ロボット１および２において、記憶部２０、マイク３０、およびスピーカ４０と一体に構成されていた。しかしながら、制御部１０と記憶部２０、マイク３０、およびスピーカ４０はそれぞれ別個の装置であってもよい。そして、これらの装置は有線または無線通信で接続されていてもよい。

　例えば、対話ロボット１および２がマイク３０およびスピーカ４０を備え、対話ロボット１および２と別のサーバが制御部１０および記憶部２０を備えていてもよい。この場合、対話ロボット１および２はマイク３０の検出音をサーバに送信し、サーバからマイク３０の音の検出の停止および開始、ならびにスピーカ４０の出力に係る指示制御を受けてもよい。

　また、本開示は対話ロボット１および２以外に適用してもよい。例えば、本開示に係る各種構成を、スマートフォン、家電製品、およびパーソナルコンピュータ等において実現してもよい。

　また、対話ロボット１および２は、応答を音声出力以外の方法で示してもよい。例えば、応答文テーブル２１に、応答として対話ロボット１および２の所定の動作（ジェスチャ等）を指定する情報を予め記憶しておいてもよい。そして、応答決定部１５は該情報で指定される動作を応答として決定し、出力制御部１６は対話ロボット１および２のモータ等を制御することで、該動作、すなわち応答をユーザに示してもよい。

　〔ソフトウェアによる実現例〕
　制御部１０の制御ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

　後者の場合、制御部１０は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

　〔まとめ〕
　本発明の態様１に係る情報処理装置（制御部１０）は、発話内容を認識して、該発話内容に対応する応答を出力部（スピーカ４０）に出力させる情報処理装置であって、複数のマイク（マイク３０）から検出音をそれぞれ区別して取得する音声取得部（音声取得部１１）と、上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定部（ノイズ判定部１４）と、上記ノイズ判定部により上記検出音がノイズであると判定された場合、上記複数のマイクのうち、１つ以上のマイクによる音の検出を停止させる検出制御部（検出制御部１７）と、を備える。

　前記の構成によれば、情報処理装置は、各マイクの検出音がノイズであるか否かを判定することができる。これにより、情報処理装置は、検出音がユーザの意図した発話かどうかを判断することができるため、ノイズに対し誤って応答するという誤動作を防止できる。

　また、前記の構成によれば、情報処理装置は、上記ノイズと判定された検出音を検出したマイクを含む一部のマイクを停止させることができる。したがって、マイクでノイズを検出する可能性を低減しつつも、ノイズを検出していないマイクで、ユーザからの発話音声の検出を引き続き試みることができる。よって、誤動作の防止と、ユーザビリティとを両立させることができる。

　また、ノイズと判定された検出音を検出したマイクを停止させることで、ノイズを検出した場合に実行する判定処理や動作等の、無駄な処理を省略することができる。これにより、自装置にかかる負荷を低減することができるとともに、無駄な消費電力を削減することができる。よって、自装置の稼働時間を長くすることができる。

　本発明の態様２に係る情報処理装置は、前記態様１において、上記音声取得部は、各マイクの検出音を複数回取得し、上記ノイズ判定部は、同じマイクの検出音について、所定の回数連続して発話内容を認識できなかった場合に、上記検出音がノイズであると判定してもよい。

　繰り返し、発話内容が認識できない検出音を検出する場合、該検出音はノイズである可能性が高いといえる。したがって、前記の構成によれば、検出音がノイズであるか否かの判定を精度よく行うことができる。

　本発明の態様３に係る情報処理装置は、前記態様１または２において、上記複数のマイクは指向性を有するマイクであって、上記複数のマイクの検出音から、該検出音の発生方向を特定する方向特定部（方向特定部１２）を備え、上記検出制御部は、上記ノイズ判定部がいずれかのマイクの検出音がノイズであると判定した場合、該検出音の発生方向に向いている１つ以上のマイクによる音の検出を停止させてもよい。

　前記の構成によれば、情報処理装置は、ノイズの発生方向を特定し、該方向に向いているマイクを１つ以上停止させる。これにより、以降、マイクでノイズを検出する可能性をさらに低減することができる。

　本発明の態様４に係る情報処理装置は、前記態様１～３のいずれか一態様において、上記ノイズ判定部は、上記検出音から発話内容を認識できた場合であって、上記発話内容が、自装置から応答した内容に対応していない場合に、上記検出音がノイズであると判定してもよい。

　前記の構成によれば、情報処理装置は、マイクの検出音が、自装置の応答に対応している発話内容であるか否かに応じて、該検出音がノイズであるか否かを判定する。これにより、情報処理装置は、検出音がユーザの意図した発話かどうかを判断することができるため、ノイズに対し誤って応答するという誤動作を防止できる。

　本発明の態様５に係る電子機器（対話ロボット１または２）は、態様１～４のいずれか一態様に記載の情報処理装置（制御部１０）と、上記マイク（マイク３０）と、上記出力部（スピーカ４０）と、を備える。前記の構成によれば、前記態様１～４のいずれか一態様に記載の情報処理装置と同様の効果を奏する。

　本発明の態様６に係る、情報処理装置の制御方法は、発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置の制御方法であって、複数のマイクから検出音をそれぞれ区別して取得する音声取得ステップ（Ｓ１０およびＳ４２）と、上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定ステップ（Ｓ２４およびＳ５６）と、上記ノイズ判定ステップにおいて上記検出音がノイズであると判定された場合、上記複数のマイクのうち、１つ以上のマイクによる音の検出を停止させる検出制御ステップ（Ｓ２６およびＳ５８）と、を含む。前記の処理によれば、前記態様１に記載の情報処理装置と同様の効果を奏する。

　本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記情報処理装置が備える各部（ソフトウェア要素）として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

　本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

　１、２　対話ロボット（電子機器）
　１０　制御部（情報処理装置）
　１１　音声取得部
　１２　方向特定部
　１３　文字列変換部
　１４　ノイズ判定部
　１５　応答決定部
　１６　出力制御部
　１７　検出制御部
　２０　記憶部
　２１　応答文テーブル
　２２　回答文テーブル
　３０　マイク
　４０　スピーカ（出力部）

Claims

　発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置であって、
　複数のマイクから検出音をそれぞれ区別して取得する音声取得部と、
　上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定部と、
　上記ノイズ判定部により上記検出音がノイズであると判定された場合、上記複数のマイクのうち、１つ以上のマイクによる音の検出を停止させる検出制御部と、を備えることを特徴とする、情報処理装置。
　上記音声取得部は各マイクの検出音を複数回取得し、
　上記ノイズ判定部は、同じマイクの検出音について、所定の回数連続して発話内容を認識できなかった場合に、上記検出音がノイズであると判定することを特徴とする、請求項１に記載の情報処理装置。
　上記複数のマイクは指向性を有するマイクであって、
　上記複数のマイクの検出音から、該検出音の発生方向を特定する方向特定部を備え、
　上記検出制御部は、上記ノイズ判定部がいずれかのマイクの検出音がノイズであると判定した場合、該検出音の発生方向に向いている１つ以上のマイクによる音の検出を停止させることを特徴とする、請求項１または２に記載の情報処理装置。
　上記ノイズ判定部は、上記検出音から発話内容を認識できた場合であって、上記発話内容が、自装置から応答した内容に対応していない場合に、上記検出音がノイズであると判定することを特徴とする、請求項１～３のいずれか１項に記載の情報処理装置。
　請求項１～４のいずれか１項に記載の情報処理装置と、
　上記マイクと、
　上記出力部と、を備えることを特徴とする、電子機器。
　発話内容を認識して、該発話内容に対応する応答を出力部に出力させる情報処理装置の制御方法であって、
　複数のマイクから検出音をそれぞれ区別して取得する音声取得ステップと、
　上記検出音それぞれについて、該検出音から発話内容を認識できなかった場合、上記検出音がノイズであると判定するノイズ判定ステップと、
　上記ノイズ判定ステップにおいて上記検出音がノイズであると判定された場合、上記複数のマイクのうち、１つ以上のマイクによる音の検出を停止させる検出制御ステップと、を含むことを特徴とする、情報処理装置の制御方法。
　請求項１に記載の情報処理装置としてコンピュータを機能させるための制御プログラムであって、上記音声取得部、上記ノイズ判定部、および上記検出制御部としてコンピュータを機能させるための制御プログラム。