WO2018056169A1

WO2018056169A1 - 対話装置、処理方法、プログラム

Info

Publication number: WO2018056169A1
Application number: PCT/JP2017/033285
Authority: WO
Inventors: 山賀　宏之; 久美子高塚; 伊藤　真由美; 康一森川
Original assignee: 日本電気株式会社
Priority date: 2016-09-21
Filing date: 2017-09-14
Publication date: 2018-03-29

Abstract

対話開始条件を満たしたか否かを判定する対話開始条件判定部と、前記対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する対話処理部と、を備える対話装置。

Description

対話装置、処理方法、プログラム

　本発明は、対話装置、処理方法、プログラムに関する。

　ＩＣＴ（Information and Communications Technology）機器の利用に不慣れな高齢者などをターゲットに機能やＧＵＩ（Graphical User Interface）を簡素化し、表示情報を大きいサイズで表示するタブレット端末などの携帯端末が存在する。このような装置ではキャラクタを用いた対話型のＵＩ（User Interface）を用いてユーザビリティの改善やユーザに親しみを持たせる工夫がされている。キャラクタなどを用いて対話処理を行うためには端末などのＩＣＴ機器はユーザの音声を精度良く検出する必要がある。なお関連する音声認識装置の技術が特許文献１に開示されている。

特開平７－６４５９５号公報

　上述の特許文献１の技術は、話者が喋る音声を集音し、話者の位置を検出し、話者が音声入力に適した位置に居ると判定した場合に音声認識手段を動作させる技術である。このようなユーザの音声認識を行うＩＣＴ機器においては、ユーザの音声を精度良く検出することのできる技術が求められている。

　そこでこの発明は、上述の課題を解決することのできる対話装置、処理方法、プログラムを提供することを目的としている。

　本発明の第１の態様によれば、対話装置は、対話開始条件を満たしたか否かを判定する対話開始条件判定部と、前記対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する対話処理部と、を備える。

　本発明の第２の態様によれば、処理方法は、対話開始条件を満たしたかを判定し、前記対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する。

　本発明の第３の態様によれば、プログラムは、コンピュータに、対話開始条件を満たしたかを判定し、前記対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する、処理を実行させる。

　本発明によれば、ＩＣＴ機器である対話装置が、ユーザの音声を精度良く検出することができる。

本実施形態による対話装置とその画像表示例を示す第一の図である。本実施形態による対話装置のハードウェア構成図である。本実施形態による対話装置の機能ブロック図である。本実施形態による対話装置とその画像表示例を示す第二の図である。本実施形態による対話装置の処理フローを示す図である。本実施形態による対話装置とその画像表示例を示す第三の図である。本実施形態による対話装置の機能を備えたロボットを示す図である。本実施形態による対話装置の最小構成を示す図である。

　以下、本発明の一実施形態による対話装置を図面を参照して説明する。
　図１は対話装置とその画像表示例を示す第一の図である。
　この図で示すように対話装置１は表示画面１６を有している。対話装置１は例えばタブレット端末である。タブレット端末はＩＣＴ機器の一態様である。対話装置１は、表示画面１６にキャラクタ画像１００や補助画像１０１を表示し、高齢者などのＩＣＴ機器に不慣れなユーザでも容易に操作できるように簡略化した操作ボタンを表示画面１６の操作ボタン表示領域１１０に表示する。本実施形態においては３つの操作ボタンのアイコン画像のみを操作ボタン表示領域１１０に表示している例を示している。対話装置１はカメラ１８を備える。

　図２は対話装置のハードウェア構成図である。
　対話装置１はＣＰＵ（Central Processing Unit）１１，ＲＡＭ（Random Access Memory）１２、ＲＯＭ(Read Only Memory)１３、ＳＳＤ（Solid State Drive）１４、通信モジュール１５、表示画面１６、ＩＦ（インタフェース）１７、カメラ１８などを備えている。表示画面１６は液晶モニタやタッチパネル等によって構成され、表示機能の他、ユーザがタッチパネルにタッチすることで操作を入力するための入力機能を有してよい。

　図３は対話装置の機能ブロック図である。
　対話装置１のＣＰＵ１１（図２）は電源が投入されるとＲＯＭ１３（図２）やＳＳＤ１４（図２）に記録されている対話処理プログラムを起動する。これにより、対話装置１のＣＰＵ１１は、制御部１１１、対話開始条件判定部１１２、対話処理部１１３、音声認識部１１４の各機能を備える。また対話装置１のＣＰＵ１１は、通信アプリケーションプログラムを起動することにより、通信アプリケーション処理部１１５の機能を備える。

　制御部１１１は他の機能部を制御する。
　対話開始条件判定部１１２は取得した情報等に基づいてユーザとの間の対話開始条件を満たしたか否かを判定する。以下、対話開始条件を満たしたか否かの判定を、対話開始条件に一致したか否かの判定と称する。また、対話開始条件を満たした場合を、対話開始条件に一致した場合と称する。
　対話処理部１１３はユーザが対話する対話対象の画像を表示画面１６に表示し、対話対象にユーザが注目するよう当該対話対象の画像を制御する。対話処理部１１３は、ユーザが対話対象を注目していないと判定された場合にも対話対象にユーザが注目するよう当該対話対象の画像を制御する。対話処理部１１３は対話開始条件に一致した場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する。移動促進情報は表示情報や音などであってよい。対話処理部１１３はその他の対話処理を行う。ユーザの音声取得に適した位置は、例えば、対話装置１がユーザの音声の内容を認識できる位置である。言い換えると、ユーザの音声取得に適した位置は、対話装置１がユーザの音声の内容を認識できる、対話装置１から所定の距離範囲内の位置である。なお、ユーザの音声取得に適した位置はユーザに応じて異なっていてもよい。
　音声認識部１１４は対話開始条件に一致した時刻から対話終了条件に一致した時刻までのユーザの会話を音声認識する。
　通信アプリケーション処理部１１５は、例えばメール機能、メッセージ処理機能、ＳＮＳ（Social Networking Service）機能など所定のアプリケーション処理を行う。

　図４は対話装置とその画像表示例を示す第二の図である。
　図４で示すように対話装置１は電源が投入された後、キャラクタ画像１００を表示し、また複数の操作ボタンを画面領域における所定の操作ボタン表示領域１１０に表示する。対話装置１は原則として操作ボタン表示領域１１０の位置を変更しない。これによりＩＣＴ機器に不慣れなユーザに多くの操作の間で迷わせることなく、操作してもらうことを可能にする。対話装置１はキャラクタ画像１００に動作を与えて、キャラクタ画像１００が画面上で歩くような仕草や会話を行う仕草などの表示をするようにしてよい。また、対話装置１は、図１に示すようにキャラクタ画像１００の感情などを表す補助画像１０１を表示するようにしてもよい。図１では補助画像１０１としてハートマークが表示されている。図４で示すキャラクタ画像１００は左右に歩くような動きを示しており、キャラクタ画像１００ａとキャラクタ画像１００ｂとの間でキャラクタが歩くような表示が行われる。

　図５は対話装置の処理フローを示す図である。
　次に対話装置１の処理フローを、順を追って説明する。
　対話装置１の対話処理部１１３は起動後にキャラクタ画像１００や補助画像１０１や操作ボタンを表示する（ステップＳ５０１）。対話処理部１１３はキャラクタ画像１００や補助画像１０１の種類（表示種類）や動きを制御する。例えば対話処理部１１３はキャラクタ画像１００が示すキャラクタを画面上で動きまわらせる、キャラクタの首を振るなど、ユーザが興味を引くような画像を表示する。また対話処理部１１３は補助画像１０１の色を変化させたり、動かしたりしてもよい。キャラクタ画像１００は対話対象の画像の一態様である。対話対象の画像の他の例としては、擬人化された画像や実際の人の画像であってもよい。

　対話開始条件判定部１１２は通信アプリケーション処理部１１５が通信情報を受信した場合に受信情報（第一取得情報）を取得するよう設定されている。通信アプリケーション処理部１１５は通信情報を受信すると、その通信情報に基づいて受信情報を対話開始条件判定部１１２へ出力する。
　通信アプリケーション処理部１１５がメール送受信に関するアプリケーション処理を行う機能部であるとする。この場合、受信情報には送信元アドレスや送信元ユーザ名などの送信元識別子、送信元ユーザの顔画像、メール本文、添付データなどの情報が含まれてよい。通信アプリケーション処理部１１５はそれらの情報を検出する。
　通信アプリケーション処理部１１５がＳＮＳに関するアプリケーション処理やメッセージ送受信に関するアプリケーションを行う機能部である場合、受信情報には、送信元ユーザ名などの送信元識別子、送信元ユーザの顔画像、メッセージ本文、添付データなどの情報が含まれてよい。
　通信アプリケーション処理部１１５が通話に関するアプリケーション処理を行う機能部である場合、受信情報には、発信元ユーザ名、発呼指示などのなどの情報が含まれてよい。

　対話開始条件判定部１１２は受信情報を取得する（ステップＳ５０２）。受信情報の取得は対話装置１に備わるサービス機能（通信アプリケーション機能）がイベントを取得することの一態様である。また対話開始条件判定部１１２の受信情報の取得は、対話開始条件に一致したことを検出したことの一態様である。受信情報を取得すると対話開始条件判定部１１２は対話を開始すると判定し、カメラ１８へ起動指示を出力する（ステップＳ５０３）。これによりカメラ１８が起動し撮影を開始する。カメラ１８は例えば動画撮影モードで起動される。なおカメラ１８は予め起動しており、対話開始条件判定部１１２は、カメラ１８による撮影画像に写るユーザを検出した場合に対話開始条件に一致したと判定してもよい。対話開始条件判定部１１２は対話開始条件に一致したと判定した場合には、対話処理部１１３へ対話の開始を指示する。

　対話処理部１１３は音声による呼びかけの声を出力する（ステップＳ５０４）。また対話処理部１１３はイベントを取得したことを通知するための情報を画面上に表示する（ステップＳ５０５）。このイベントを取得したことを通知するための情報は、キャラクタ画像１００の動きや補助画像１０１の態様を示す情報であってよい。

　対話装置１は、例えば普段は棚や机に置かれた状態である。この状態で上記のように対話装置１が通信アプリケーション処理部１１５で通信情報を受信したことがステップＳ５０４、ステップＳ５０５の処理等によって通知される。通知された場合、対話装置１のユーザが対話装置１を把持して持ち上げて顔を表示画面１６に近づけるか、対話装置１の傍に近づいて顔を表示画面１６に近づけることが想定される。これによりカメラ１８はユーザの顔を撮影する。カメラ１８は撮影画像を対話開始条件判定部１１２や対話処理部１１３へ出力する。

　対話処理部１１３は撮影画像から顔画像を検出できるか否かを判定する（ステップＳ５０６）。対話処理部１１３は顔画像を検出した場合には、その顔画像を予めユーザの顔を撮影して得られた記憶している顔画像と比較し、一致するか否かの判定を顔認証の処理と同様に行う。対話処理部１１３は顔画像の認証が成功したか否かを判定する（ステップＳ５０７）。顔画像が予めユーザの顔を撮影して得られた顔画像に一致する場合には対話処理部１１３は認証成功と判定する（ステップＳ５０７のＹＥＳ）。一方、認証成功と判定されない場合（ステップＳ５０７のＮＯ）、対話処理部１１３はステップＳ５０５の処理に戻る。

　対話処理部１１３はまた撮影画像に写る顔画像の大きさを検出する。対話処理部１１３は顔画像の大きさが、所定の大きさを示す閾値以上であるか否かを判定する（ステップＳ５０８）。すなわち、対話処理部１１３は、センサ装置（カメラ１８）による撮影画像に基づいて、ユーザが音声取得に適した位置に居るか否かを判定する。対話処理部１１３は顔画像の大きさを、例えば当該顔画像に対応する画素数が所定の画素数を示す閾値以上であるか否かに基づいて判定してもよい。対話処理部１１３は顔画像の大きさが閾値以上でない場合には（ステップＳ５０８のＮＯ）、ユーザが音声取得に適した位置まで移動していないことにより、移動促進情報の出力を開始する。

　移動促進情報は例えば音声であってよい。具体的には顔画像の大きさが閾値以上でない場合には、対話処理部１１３は対話装置１とユーザとの距離が遠いため対話装置１に近づくようにユーザを促す音声を出力する（ステップＳ５０９）。対話処理部１１３は移動促進情報として、対話装置１とユーザとの距離が遠いため、対話装置１に近づくようにユーザを促す文字情報を表示画面１６に出力してもよい。または対話処理部１１３は移動促進情報としてキャラクタ画像１００の動作を制御してもよい。例えば対話処理部１１３はキャラクタ画像１００の動作の制御として、キャラクタが手招きする動作、ユーザを探すような動作、寂しそうな表情を浮かべる動作、ユーザの声が聞こえないことをユーザに知らせる動作などの制御を行う。キャラクタ画像１００の動作の制御は移動促進情報の出力の一態様である。キャラクタ画像１００の制御とはキャラクタ画像１００のアニメーションの態様の選択と表示などである。これによりユーザが対話装置１に近づくことが想定される。ユーザが対話装置１に近づくことで対話装置１がユーザの音声をより精度良く認識できるようになる。対話処理部１１３は撮影画像に出現するユーザの顔画像が所定の大きさを示す閾値以上になるまで移動促進情報を出力するようにしてよい。

　対話処理部１１３は顔画像の大きさが閾値以上であることにより（ステップＳ５０８のＹＥＳ）ユーザまでの距離が適切であると判定した後、キャラクタ画像１００にユーザが注目するよう、そのキャラクタ画像１００の動きを制御する（ステップＳ５１０）。動きの制御は、具体的にはユーザが発話している最中のキャラクタの頷き動作、瞬き動作、ボディランゲージ動作などの制御である。このように、対話処理部１１３は、表示したキャラクタ画像１００（対話対象の画像）にユーザの注目を促す、対話対象の画像の制御を行う。対話処理部１１３はユーザが注目するようにキャラクタ画像１００以外の情報を制御してもよい。例えば対話処理部１１３は後述する処理によって解析した結果である文字情報を表示画面１６に出力してよい。または対話処理部１１３はユーザに画面を注目するよう呼びかける音声をスピーカから出力するようにしてもよい。対話処理部１１３は音声の検出レベルを示すインジケータを出力してもよい。対話処理部１１３はランプを点灯制御したり、対話装置１の端末に備わるバイブレータを振動させるなどの処理を行ってもよい。
　なお、対話処理部１１３は、ユーザの画像を含む撮影画像を解析し、当該撮影画像の解析結果に基づいてユーザがキャラクタ画像１００を注目しているか否かを判定してもよい。対話処理部１１３は、注目していないと判定した場合に、上述した、キャラクタ画像１００にユーザの注目を促す制御を行う。例えば、対話処理部１１３は、撮影画像に基づいてユーザの視線方向や顔の向きを検出し、視線や顔がキャラクタ画像１００に向いていない場合に、ユーザがキャラクタ画像１００を注目していないと判定する。
　これらの処理は対話装置１がユーザの音声を認識しやすい環境となるよう制御する処理の一態様である。対話処理部１１３はユーザまでの距離が適切と判定すると対話を開始する。具体的に対話とは、受信情報が示すメール本文の読み上げなどである。

　図６は対話装置とその画像表示例を示す第三の図である。
　対話処理において対話処理部１１３はキャラクタ画像１００の視線を画面正面に向けたり、キャラクタ画像１００の目の瞬き動作や口を動かす動作を加えた表示を行うようにしてよい。例えば対話処理部１１３はユーザの発話に基づいて、発話の途切れを検出する。そして、対話処理部１１３は、その発話の途切れにおいてキャラクタ画像１００がうなずく動作を加えた表示を行ったり、目を合わせたり瞬きを行う動作を加えた表示を行う。対話処理部１１３はこの対話処理において、受信情報に含まれる送信元ユーザ名、送信元ユーザの顔画像１０２、メール本文１０３、メッセージ本文１０３などの表示内容を出力する（ステップＳ５１１）。表示内容の出力の態様は音声での出力や表示画面１６への出力などがある。

　対話処理部１１３はステップＳ５１１の表示内容の表示の後に、ユーザが操作することなく会話のみで通信アプリケーション処理部１１５の受信に対応する返信の処理が完了するよう、ユーザとの対話を行う。対話処理部１１３は、ユーザの画像を含む撮影画像を解析し、当該撮影画像の解析結果に基づいてユーザによる発話の開始から終了までの発話期間を判定する（ステップＳ５１２）。すなわち、対話処理部１１３は、発話期間が終了したか否かを判定する。

　具体的には対話処理部１１３は撮影画像内のユーザの口の動きを検出し、口が動いている間は発話期間と判定する。対話処理部１１３は音声認識中であることを示す信号を取得している間は発話期間と判定してよい。対話処理部１１３はユーザの口の動きや音声認識中であることを示す信号の取得が停止したとしても、撮影画像内の顔画像の大きさが所定の閾値以上であれば発話期間と判定してよい。また対話処理部１１３は、撮影画像に基づいてユーザの視線方向を検出する。対話処理部１１３はユーザの口の動きや音声認識中であることを示す信号の取得が停止したとしても、視線方向が正対している対話装置１の方向を向いていると判定した場合には発話期間と判定してよい。また対話処理部１１３は、撮影画像に基づいてユーザの顔の向きを検出する。対話処理部１１３はユーザの口の動きや音声認識中であることを示す信号の取得が停止したとしても、顔の向きが正対している対話装置１の方向を向いていると判定した場合には発話期間と判定してよい。また対話処理部１１３は音声認識部１１４からユーザの音声認識中かどうかの信号を取得する。対話処理部１１３はユーザの顔が撮影画像から消えたかどうかを判定し、ユーザの口の動きや音声認識中であることを示す信号の取得が停止したとしても、顔が撮影画像から消えていないと判定した場合には発話期間と判定してよい。対話処理部１１３は上記の発話期間の判定手法の１つまたは複数を組み合わせて発話期間かどうかを判定するようにしてよい。

　対話処理部１１３は発話期間と判定している間は（Ｓ５１２のＮＯ）、音声認識部１１４へ音声認識を指示する。音声認識部１１４は対話装置１に備わるマイクを介して音を取得（検出）する。音声認識部１１４はこの検出音に基づいてユーザの音声を解析する（ステップＳ５１３）。音声認識部１１４は解析したユーザの音声を対話処理部１１３へ出力する。また音声認識部１１４は音声認識中であることを示す信号を対話処理部１１３へ出力する。対話処理部１１３は発話期間の終了を検出すると（Ｓ５１２のＹＥＳ）音声認識部１１４へ音声認識の停止を指示する。すると音声認識部１１４は音声認識の処理を停止する。音声認識部１１４は音声認識した結果を対話処理部１１３へ出力する。音声認識部１１４は音声認識した結果である文字情報を処理結果として対話処理部１１３へ出力する。

　対話処理部１１３は取得した文字情報を通信アプリケーション処理部１１５へ通知する。すると通信アプリケーション処理部１１５は文字情報を本文に記載したメールやメッセージを生成し、送信元識別子に基づく受信情報の送信元のユーザに、または送信先として予め決められた送信先のユーザに、生成したメールやメッセージなどの通信情報を送信するようにしてもよい（ステップＳ５１４）。

　以上の処理により、対話装置１はユーザの音声が検出しやすいようにユーザの位置を所望の位置に移動させたり、ユーザの視線や顔の向きを対話装置１に注目するよう促す制御を行う。また対話装置１は、ユーザに画面を注目させるように、ユーザの対話対象の画像を制御する。これにより対話装置１はユーザの音声をより精度良く認識することができる。
　また、対話装置１は単に口の動きや音声の途切れによってのみ発話期間を特定するだけでなく、画像処理を組み合わせてユーザが発話している期間かどうかを推定する。このため、対話装置１は、途中で音声認識を停止させてしまう不具合を削減でき、ユーザの発話した内容を精度良く認識することができる。

　上述の例では、カメラ１８はユーザの位置をセンシングするためのセンサ装置の一態様である。対話開始条件判定部１１２は、センサ装置（カメラ１８）による撮影画像に写るユーザを検出した場合に対話開始条件に一致したと判定する。このように、対話開始条件判定部１１２は、センサ装置がユーザをセンシングした結果に基づいて対話開始条件を満たしたか否かを判定する。他のセンサ装置の態様としては、センサ装置は赤外線センサや超音波センサなどであってよい。

　なお上述の例では、対話開始条件に一致したことの検出の一態様として、受信情報を取得したことや、撮影画像に写るユーザを検出したことが説明される。ただし、他のアプリケーションが取得した情報に基づいて、対話開始条件に一致したことが判定されてもよい。例えば、対話開始条件判定部１１２はユーザの発話を検出した場合や、対話装置１の電源が起動された場合に、対話開始条件に一致したと判定してもよい。このように、対話開始条件判定部１１２は、対話装置１やセンサ装置において所定のイベントを検出した場合に、対話開始条件を満たしたことを検出する。

　図７は対話装置の機能を備えたロボットを示す図である。
　上述の対話装置１の機能をロボット５００が備えていてもよい。この場合、例えばロボット５００が対話装置１で示した表示画面１６を前面に備えていてよい。またロボット５００に備わる対話装置１は、キャラクタ画像１００を表示する代わりに、キャラクタ画像１００の動作をロボット５００に行わせるようにロボット５００を制御してもよい。この場合、対話装置１はロボット５００に備わる機械的な目の動き、口の動き、足の動きなどを制御してよい。

　図８は対話装置の最小構成を示す図である。
　この図が示すように対話装置１は少なくとも、対話開始条件に一致したか否かを判定する対話開始条件判定部１１２と、対話開始条件に一致した場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する対話処理部１１３と、を備える。

　上述の対話装置１は内部に、コンピュータシステムを有している。そして、対話装置１に上述した各処理を行わせるためのプログラムは、当該対話装置１のコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムを対話装置１のコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。

　また、上記プログラムは、前述した各処理部の機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

　この出願は、２０１６年９月２１日に日本出願された特願２０１６－１８３６７８号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１・・・対話装置、１００・・・キャラクタ画像、１０１・・・補助画像、１１・・・ＣＰＵ、１２・・・ＲＡＭ、１３・・・ＲＯＭ、１４・・・ＳＳＤ、１５・・・通信モジュール、１６・・・表示画面、１７・・・ＩＦ、１８・・・カメラ、１１１・・・制御部、１１２・・・対話開始条件判定部、１１３・・・対話処理部、１１４・・・音声認識部、１１５・・・通信アプリケーション処理部

Claims

　対話開始条件を満たしたか否かを判定する対話開始条件判定部と、
　前記対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する対話処理部と、
　を備える対話装置。
　前記対話処理部は、前記ユーザが対話する対話対象の画像を表示画面に表示し、前記対話対象の画像に前記ユーザの注目を促す前記対話対象の画像の制御を行う
　請求項１に記載の対話装置。
　前記対話処理部は、前記ユーザの画像を含む撮影画像を解析し、当該撮影画像の解析結果に基づいて前記ユーザによる発話の開始から終了までの発話期間を判定する
　請求項１または請求項２に記載の対話装置。
　前記発話期間における前記ユーザの前記発話を音声認識する音声認識部と、
　を備える請求項３に記載の対話装置。
　前記対話処理部は、前記ユーザの画像を含む撮影画像を解析し、当該撮影画像の解析結果に基づいて前記ユーザが前記対話対象の画像を注目しているか否かを判定し、前記ユーザが前記対話対象の画像を注目していないと判定した場合に前記制御を行う
　請求項２に記載の対話装置。
　前記対話開始条件判定部は、センサ装置が前記ユーザをセンシングした結果に基づいて前記対話開始条件を満たしたか否かを判定する
　請求項１から請求項５の何れか一項に記載の対話装置。
　前記対話処理部は、センサ装置が前記ユーザをセンシングした結果に基づいて前記ユーザが前記音声取得に適した位置に居るか否かを判定する
　請求項１から請求項５の何れか一項に記載の対話装置。
　対話開始条件を満たしたかを判定し、
　前記対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する
　処理方法。
　コンピュータに、
　対話開始条件を満たしたかを判定し、
　前記対話開始条件を満たした場合にユーザの音声取得に適した位置まで当該ユーザの移動を促す移動促進情報を出力する、
　処理を実行させるプログラム。