WO2018211677A1

WO2018211677A1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: WO2018211677A1
Application number: PCT/JP2017/018797
Authority: WO
Inventors: 金岡　利知; 徹上和田
Original assignee: 富士通株式会社
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2018-11-22

Abstract

一態様に係る情報処理装置は、マシンターンとユーザターンとを交互に繰り返す自動対話を制御する情報処理装置であって、（Ａ）マシンターンにおいて音声出力される質問文の種類に応じて、第１時間長を設定する第１設定部と、（Ｂ）ユーザターンにおいてユーザ発話の開始を検知しない期間が第１時間長を超えた場合に、ユーザターンを終了すると判定する第１判定部とを有する。更に、上記情報処理装置は、ユーザターンにおいて、ユーザ発話の開始を検知する前にユーザの第１ジェスチャーを検出した場合に、第１時間長を増加させる第１補正部を有するようにしてもよい。

Description

情報処理装置、情報処理方法及び情報処理プログラム

　本発明は、自動対話の制御技術に関する。

　マシンターンとユーザターンとを交互に繰り返す自動対話装置では、例えばマシンターンにおいて質問文を人工音声で出力し、ユーザターンにおいてユーザの発話を音声認識することによって応答文を得る。

　従来技術の場合、ユーザターンにおいてユーザの発話が行われている間は、マシンターンに切り替わらない。一方、ユーザターンにおいてユーザの発話が行われないと、一定時間待って、マシンターンに切り替わる。

　但し、ユーザターンからマシンターンに切り替わるタイミングが早すぎると、ユーザが応答する機会が不適切に奪われることになる。反対に、ユーザターンからマシンターンに切り替わるタイミングが遅すぎると、対話が円滑に行われない。

特開２０１０－１５２１１９号公報特開２０１２－１８１６９７号公報特開２０１７－３６１１号公報

　本発明の目的は、一側面では、ユーザターンの終了を、より適正なタイミングで判別することである。

　一態様に係る情報処理装置は、マシンターンとユーザターンとを交互に繰り返す自動対話を制御する情報処理装置であって、（Ａ）マシンターンにおいて音声出力される質問文の種類に応じて、第１時間長を設定する第１設定部と、（Ｂ）ユーザターンにおいてユーザ発話の開始を検知しない期間が第１時間長を超えた場合に、ユーザターンを終了すると判定する第１判定部とを有する。

　一側面としては、ユーザターンの終了を、より適正なタイミングで判別できる。

図１Ａは、自動対話装置のモジュール構成例を示す図である。図１Ｂは、第１制御部のモジュール構成例を示す図である。図１Ｃは、第２制御部のモジュール構成例を示す図である。図１Ｄは、ネットワーク構成例を示す図である。図２は、分類テーブルの例を示す図である。図３は、メイン処理フローを示す図である。図４は、マシンターン処理フローを示す図である。図５は、第１設定処理フローを示す図である。図６は、ユーザターン処理フローを示す図である。図７は、第２設定処理フローを示す図である。図８は、第１補正処理フローを示す図である。図９は、第１判定処理フローを示す図である。図１０は、ユーザターン処理フローを示す図である。図１１は、ユーザターン処理フローを示す図である。図１２は、第２補正処理フローを示す図である。図１３は、第３補正処理フローを示す図である。図１４は、第２判定処理フローを示す図である。図１５は、コンピュータの機能ブロック図である。

　図１Ａに、自動対話装置のモジュール構成例を示す。自動対話装置１０１は、質問生成部１０３、対話制御部１０５、音声出力部１０７、タイマ１１１、音声入力部１１３及び画像入力部１１７を有する。

　質問生成部１０３は、質問文を生成する。質問生成部１０３は、従来技術による。対話制御部１０５は、ユーザと自動対話装置１０１との間における擬似的な対話を制御する。対話制御部１０５は、主に質問文を音声で出力し、ユーザの発話を応答文に変換する。

　音声出力部１０７は、スピーカ１０９と接続している。音声出力部１０７は、人工音声に関するデジタル信号をアナログ信号に変換する。スピーカ１０９は、アナログ信号に応じて音を出力する。

　タイマ１１１は、経過時間の計測に用いられる。

　音声入力部１１３は、マイク１１５と接続している。マイク１１５は、ユーザの音声を入力するために用いられる。音声入力部１１３は、ユーザの音声に関するアナログ信号をデジタル信号に変換する。

　画像入力部１１７は、カメラ１１９と接続している。カメラ１１９は、ユーザを撮影するために用いられる。画像入力部１１７は、カメラ１１９によって撮影された画像を入力する。

　スピーカ１０９、マイク１１５及びカメラ１１９は、自動対話装置１０１に内蔵されていてもよい。スピーカ１０９、マイク１１５及びカメラ１１９を内蔵する自動対話装置１０１は、携帯電話端末、タブレット端末或いはパーソナルコンピュータであってもよい。

　スピーカ１０９、マイク１１５及びカメラ１１９は、自動対話装置１０１の外部に設置されていてもよい。例えばスピーカ１０９、マイク１１５及びカメラ１１９が、現金自動預け払い機、案内装置、自動販売機や人型ロボットに設置されるようにしてもよい。スピーカ１０９、マイク１１５及びカメラ１１９が、自動車、電車或いは飛行機などの操縦席に搭載されるようにしてもよい。また、スピーカ１０９、マイク１１５及びカメラ１１９を含むヘッドセットを用いるようにしてもよい。

　対話制御部１０５は、第１制御部１３１、質問文記憶部１３３、第２制御部１３５、応答文記憶部１３７、分類テーブル記憶部１３９及びパラメータ記憶部１４０を有する。

　第１制御部１３１は、マシンターンにおける処理を制御する。マシンターンは、自動対話装置１０１が対話を主導する期間に相当する。第１制御部１３１の詳細については、図１Ｂを用いて後述する。質問文記憶部１３３は、質問生成部１０３から受け付けた質問文を記憶する。

　第２制御部１３５は、ユーザターンにおける処理を制御する。ユーザターンは、ユーザが対話を主導する期間に相当する。第２制御部１３５の詳細については、図１Ｃを用いて後述する。応答文記憶部１３７は、ユーザの発話から認識された応答文を記憶する。

　分類テーブル記憶部１３９は、処理の実行を開始する時点で分類テーブルを記憶している。分類テーブルについては、図２を用いて後述する。パラメータ記憶部１４０は、各種の内部パラメータ（例えば質問文の種類、ステータス、第１時間長及び第２時間長）を記憶する。質問文の種類、ステータス、第１時間長及び第２時間長については、後述する。

　上述した質問生成部１０３、対話制御部１０５、音声出力部１０７、タイマ１１１、音声入力部１１３、画像入力部１１７、第１制御部１３１及び第２制御部１３５は、ハードウエア資源（例えば、図１５）と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。

　上述した質問文記憶部１３３、応答文記憶部１３７、分類テーブル記憶部１３９及びパラメータ記憶部１４０は、ハードウエア資源（例えば、図１５）を用いて実現される。

　図１Ｂに、第１制御部１３１のモジュール構成例を示す。第１制御部１３１は、受付部１４１、第１設定部１４３及び音声合成部１４５を有する。受付部１４１は、質問生成部１０３から質問文を受け付ける。第１設定部１４３は、第１設定処理を実行する。第１設定処理については、図５を用いて後述する。音声合成部１４５は、質問文に関する音声合成を行う。

　上述した受付部１４１、第１設定部１４３及び音声合成部１４５は、ハードウエア資源（例えば、図１５）と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。

　図１Ｃに、第２制御部１３５のモジュール構成例を示す。第２制御部１３５は、第２設定部１５１、音声認識部１５３、第１補正部１５５、第１判定部１５７、第２補正部１５９、第３補正部１６１、第２判定部１６３及び返却部１６５を有する。

　第２設定部１５１は、第２設定処理を実行する。第２設定処理については、図７を用いて後述する。音声認識部１５３は、ユーザ発話に関する音声認識を行う。第１補正部１５５は、第１補正処理を実行する。第１補正処理については、図８を用いて後述する。第１判定部１５７は、第１判定処理を実行する。第１判定処理については、図９を用いて後述する。第２補正部１５９は、第２補正処理を実行する。第２補正処理については、図１２を用いて後述する。第３補正部１６１は、第３補正処理を実行する。第３補正処理については、図１３を用いて後述する。第２判定部１６３は、第２判定処理を実行する。第２判定処理については、図１４を用いて後述する。返却部１６５は、応答無しを示すコード又は応答文を質問生成部１０３へ返す。

　上述した第２設定部１５１、音声認識部１５３、第１補正部１５５、第１判定部１５７、第２補正部１５９、第３補正部１６１、第２判定部１６３及び返却部１６５は、ハードウエア資源（例えば、図１５）と、以下で述べる処理をプロセッサに実行させるプログラムとを用いて実現される。

　尚、自動対話装置１０１がネットワークに接続するようにしてもよい。図１Ｄに、ネットワーク構成例を示す。この例で、自動対話装置１０１は、ネットワークを介してスピーカ１０９、マイク１１５及びカメラ１１９を有する外部装置１７１と接続している。

　この例における音声出力部１０７は、人工音声に関するデジタル信号を外部装置１７１へ送信する。この例における音声入力部１１３は、ユーザの音声に関するデジタル信号を外部装置１７１から受信する。この例における画像入力部１１７は、デジタル画像データを外部装置１７１から受信する。

　外部装置１７１と自動対話装置１０１とを接続するネットワークは、電話回線網であってもよい。外部装置１７１は、電話端末であってもよい。また、自動対話装置１０１は、コールセンターの業務を代行するサーバ装置であってもよい。

　また、外部装置１７１と自動対話装置１０１とを接続するネットワークは、インターネットであってもよい。そして、外部装置１７１は、携帯電話端末、タブレット端末或いはパーソナルコンピュータであってもよい。また、自動対話装置１０１は、ＷＥＢサーバ装置であってもよい。

　また、外部装置１７１と自動対話装置１０１とを接続するネットワークは、企業のＬＡＮ（Local Area Network）であってもよい。そして、外部装置１７１は、受付コーナーに設置されている対面端末であってもよい。また、自動対話装置１０１は、顧客応対を支援する装置であってもよい。

　また、外部装置１７１と自動対話装置１０１とを接続するネットワークは、学校のＬＡＮであってもよい。そして、外部装置１７１は、生徒が使用する学習用端末であってもよい。また、自動対話装置１０１は、学習支援装置であってもよい。

　次に、図２を用いて、分類テーブルの例について説明する。この例における分類テーブルは、質問文の種類に対応するレコードを有している。分類テーブルのレコードは、第１初期値が設定されているフィールドと、第２初期値が設定されているフィールドとを有している。

　第１初期値は、第１時間長のデフォルトである。第１時間長は、ユーザの発話開始に係るタイムアウトの基準となる。従って、質問文が音声出力された後に、第１時間長に相当する時間が経過してもユーザが発話しなければ、ユーザの発話がないものと看做される。

　第２初期値は、第２時間長のデフォルトである。第２時間長は、ユーザの発話終了を検出する基準となる。ユーザの発話が途絶えてから、そのまま第２時間長に相当する時間が経過した時点で、ユーザの発話が終了したものと看做される。

　第１レコードは、質問文の種類が「二択に係る質問」である場合に、第１時間長の初期値が１秒であり、第２時間長の初期値が３００ミリ秒であることを意味する。「二択に係る質問」は、例えば「はい」又は「いいえ」で答えられることを想定した質問である。このような質問では、ユーザが発話するまでの間隔が短いと考えられるので、第１初期値は小さく設定されている。同じく、ユーザの発話が断続的に連なることは考え難いので、第２初期値も小さく設定されている。

　一方、第８レコードは、質問文の種類が「意見を求める質問」である場合に、第１時間長の初期値が２０秒であり、第２時間長の初期値が１２００ミリ秒であることを意味する。「意見を求める質問」では、ユーザが考えをまとめるまで待機することを想定して、第１初期値は大きく設定されている。同じく、ユーザの発話が断続的に連なることが考えられるので、第２初期値も大きく設定されている。

　続いて、対話制御部１０５の動作について説明する。図３に、メイン処理フローを示す。第１制御部１３１は、マシンターン処理を実行する（Ｓ３０１）。マシンターン処理では、主に質問生成部１０３による人工音声の出力が行われる。

　図４に、マシンターン処理フローを示す。受付部１４１は、質問生成部１０３から質問文を受け付ける（Ｓ４０１）。質問生成部１０３が質問文を生成する処理は、従来技術であるので説明を省く。

　第１制御部１３１は、第１設定部１４３による第１設定処理を起動する（Ｓ４０３）。第１設定部１４３は、第１設定処理において、音声出力される質問文の種類に応じて、第１時間長を設定する。第１設定処理は、マシンターン処理と並行に実行される。

　図５に、第１設定処理フローを示す。第１設定部１４３は、質問文を分類する（Ｓ５０１）。質問文を分類する方法は、従来技術であってもよい。質問文を分類する方法は、例えば林　秀治、山本　和英、「質問意図によるＱＡサイト質問文の自動分類」、信学技報、ｖｏｌ．１１３、ｎｏ．８３、ＮＬＣ２０１３－１０に記載されている。尚、この開示例では、質問文に含まれるキーワードに基づいて質問文を分類する。

　第１設定部１４３は、分類テーブルにおいて、質問文の種類に対応するレコードを特定する（Ｓ５０３）。第１設定部１４３は、当該レコードに格納されている第１初期値を取得する（Ｓ５０５）。そして、第１設定部１４３は、第１初期値を第１時間長に設定し（Ｓ５０７）、第１設定処理を終える。

　図４の説明に戻る。Ｓ４０３において第１制御部１３１が第１設定処理を起動すると、第１設定処理の終了を待たずに、音声合成部１４５は、音声合成処理を実行する（Ｓ４０５）。音声合成部１４５は、質問文に関する音声合成を行って、質問文を読み上げる人工音声のデジタル信号を生成する。人工音声のデジタル信号は音声出力部１０７に送られ、スピーカ１０９から人工音声が発せられる。

　音声合成処理を終えると、マシンターン処理を終え、呼び出し元のメイン処理に復帰する。尚、音声合成処理を終えた時点で、第１設定処理は終わっているものとする。

　図３の説明に戻る。マシンターン処理を終えると、第２制御部１３５は、ユーザターン処理を実行する（Ｓ３０３）。ユーザターン処理では、主にユーザの発話に関する音声認識が行われる。

　図６に、ユーザターン処理フローを示す。第２制御部１３５は、第２設定部１５１による第２設定処理を起動する（Ｓ６０１）。第２設定部１５１は、第２設定処理において、質問文の種類に応じて第２時間長を設定する。第２設定処理は、ユーザターン処理と並行に実行される。

　図７に、第２設定処理フローを示す。第２設定部１５１は、分類テーブルにおいて、質問文の種類に対応するレコードを特定する（Ｓ７０１）。第２設定部１５１は、当該レコードに格納されている第２初期値を取得する（Ｓ７０３）。そして、第２設定部１５１は、第２初期値を第２時間長に設定し（Ｓ７０５）、第２設定処理を終える。

　図６の説明に戻る。Ｓ６０１において第２制御部１３５が第２設定処理を起動すると、第２設定処理の終了を待たずに、第２制御部１３５は、音声認識部１５３による音声認識処理を起動する（Ｓ６０３）。音声認識部１５３は、音声認識処理において、音声入力部１１３からユーザの音声に関するデジタル信号を得て、ユーザの発話内容に相当するテキストを生成する。この例では、応答文が得られることを想定する。音声認識処理は、ユーザターン処理と並行に実行される。

　図６の説明に戻る。第２制御部１３５は、第１補正部１５５による第１補正処理を起動する（Ｓ６０５）。第１補正部１５５は、第１補正処理において、ユーザの第１ジェスチャーを検出した場合に第１時間長を増加させる。第１補正処理は、ユーザターン処理と並行に実行される。

　一般的な人同士の対話において、相手の話を積極的に聞こうとする場合や相手に自分の話を真剣に伝えようとする場合に、相手と視線を合わせようとする。一方、自らの考えを纏めようとしているときには、相手と視線を合わせないようにすることが多い。

　人と装置との擬似的な対話においても、ユーザが装置と正対していないときには、まだ考えが纏まっていないと想定される。従って、例えばユーザの視線をカメラ１１９から逸らす動きを第１ジェスチャーとしてもよい。

　また、考えを纏めようとしている人が、特有の手の動きを見せることも多い。ユーザが頭を掻くアクションを第１ジェスチャーとしてもよい。ユーザの手が鼻に触れるポーズを第１ジェスチャーとしてもよい。更に、ユーザが指を噛むポーズを第１ジェスチャーとしてもよい。

　このようなジェスチャーが行われている場合には、この後ユーザが発話する可能性が高い。従って、ユーザターンをすぐに打ち切らない方がよい。

　図８に、第１補正処理フローを示す。第１補正部１５５は、画像入力部１１７を介してカメラ１１９に撮影の開始を指示する（Ｓ８０１）。この指示以降、第１補正部１５５は、画像入力部１１７から撮影画像のデータを連続的に取得する。撮影画像は、動画であってもよいし、静止画であってもよい。既に、カメラ１１９が撮影を行っている場合には、Ｓ８０１の処理を省くようにしてもよい。

　第１補正部１５５は、撮影画像に基づいて、ユーザの第１ジェスチャーを検出したか否かを判定する（Ｓ８０３）。

　ユーザの第１ジェスチャーを検出したと判定した場合には、第１補正部１５５は、第１時間長を増加させる（Ｓ８０５）。第１補正部１５５は、例えば第１時間長に所定値を加える。或いは、第１補正部１５５は、第１時間長に１より大きい係数を乗じるようにしてもよい。そして、第１補正部１５５は、画像入力部１１７を介してカメラ１１９に撮影の終了を指示して（Ｓ８０７）、第１補正処理を終える。カメラ１１９の撮影を継続させる場合には、Ｓ８０７の処理を省くようにしてもよい。

　一方、ユーザの第１ジェスチャーを検出していないと判定した場合には、第１補正部１５５は、第２制御部１３５から第１補正処理の終了指示を受けたか否かを判定する（Ｓ８０９）。第２制御部１３５が第１補正処理の終了を指示する処理については、後述する。

　第１補正処理の終了指示を受けていないと判定した場合には、Ｓ８０３に示した処理に戻って、上述した処理を繰り返す。一方、第１補正処理の終了指示を受けたと判定した場合には、第１補正部１５５は、撮影の終了を指示して（Ｓ８０７）、第１補正処理を終える。カメラ１１９の撮影を継続させる場合には、Ｓ８０７の処理を省くようにしてもよい。

　図６の説明に戻る。Ｓ６０５において第２制御部１３５が第１補正処理を起動すると、第１補正処理の終了を待たずに、第１判定部１５７は、第１判定処理を実行する（Ｓ６０７）。第１判定部１５７は、第１判定処理において、ユーザ発話の開始を検知しない期間が第１時間長を超えた場合に、ユーザターンを終了すると判定する。

　図９に、第１判定処理フローを示す。第１判定部１５７は、タイマ１１１による経過時間の計測を開始する（Ｓ９０１）。第１判定部１５７は、ユーザ発話の開始を検知したか否かを判定する（Ｓ９０３）。例えば、第１判定部１５７は、音声入力部１１３から取得したデジタル信号に、ユーザの音声が含まれている場合に、ユーザ発話が開始されたと判断する。

　ユーザ発話の開始を検知したと判定した場合には、第１判定部１５７は、タイマ１１１による経過時間の計測を停止する（Ｓ９０５）。第１判定部１５７は、ユーザターンの継続を示すコードをステータスに設定する（Ｓ９０７）。そして、第１判定処理を終え、呼び出し元のユーザターン処理に復帰する。

　一方、ユーザ発話の開始を検知していないと判定した場合には、第１判定部１５７は、経過時間が第１時間長を超えたか否かを判定する（Ｓ９０９）。経過時間が第１時間長を超えていないと判定した場合には、Ｓ９０３に示した処理に戻って、上述した処理を繰り返す。

　一方、経過時間が第１時間長を超えたと判定した場合には、第１判定部１５７は、タイマ１１１による経過時間の計測を停止する（Ｓ９１１）。第１判定部１５７は、ユーザターンの終了を示すコードをステータスに設定する（Ｓ９１３）。そして、第１判定処理を終え、呼び出し元のユーザターン処理に復帰する。

　図６の説明に戻る。第１判定処理を終えると、第２制御部１３５は、第１補正部１５５に第１補正処理の終了を指示し（Ｓ６０９）、ステータスがユーザターンの終了を示しているか否かを判定する（Ｓ６１１）。

　ステータスがユーザターンの終了を示していると判定した場合には、端子Ａを介して、図１０に示したＳ１００１の処理に移る。

　第２制御部１３５は、音声認識部１５３に音声認識処理の終了を指示する（Ｓ１００１）。そして、返却部１６５は、応答無しを示すコードを質問生成部１０３へ返す（Ｓ１００３）。ユーザターン処理を終えると、呼び出し元のメイン処理に復帰する。

　図３に示すように、ユーザターン処理を終えると、Ｓ３０１に示した処理に戻って、上述した処理を繰り返す。このとき、質問生成部１０３は、次の質問文を生成する。

　図６の説明に戻る。Ｓ６１１において、ステータスがユーザターンの終了を示していないと判定した場合、つまりステータスがユーザターンの継続を示している場合には、端子Ｂを介して、図１１に示したＳ１１０１の処理に移る。

　第２制御部１３５は、第２補正部１５９による第２補正処理を起動する（Ｓ１１０１）。第２補正部１５９は、第２補正処理において、ユーザの第２ジェスチャーを検出した場合に第２時間長を増加させる。第２補正処理は、ユーザターン処理と並行に実行される。

　第２ジェスチャーは、第１ジェスチャーと同じであってもよい。第２ジェスチャーは、第１ジェスチャーと異なってもよい。

　一般的に話者が未だ自分の話を続けようとする場合に、特有の仕草をすることがある。例えば、上を見上げるポーズを第２ジェスチャーとしてもよい。口を開いている表情を第２ジェスチャーとしてもよい。更に、立てた指を振るアクションを第２ジェスチャーとしてもよい。

　図１２に、第２補正処理フローを示す。第２補正部１５９は、画像入力部１１７を介して撮影の開始を指示する（Ｓ１２０１）。この指示以降、第２補正部１５９は、画像入力部１１７から撮影画像のデータを連続的に取得する。既に、カメラ１１９が撮影を行っている場合には、Ｓ１２０１の処理を省くようにしてもよい。

　第２補正部１５９は、撮影画像に基づいて、ユーザの第２ジェスチャーを検出したか否かを判定する（Ｓ１２０３）。

　ユーザの第２ジェスチャーを検出したと判定した場合には、第２補正部１５９は、第２時間長を増加させる（Ｓ１２０５）。第２補正部１５９は、例えば第２時間長に所定値を加える。第２補正部１５９は、第２時間長に１より大きい係数を乗じるようにしてもよい。そして、第２補正部１５９は、画像入力部１１７を介してカメラ１１９に撮影の終了を指示して（Ｓ１２０７）、第２補正処理を終える。カメラ１１９の撮影を継続させる場合には、Ｓ１２０７の処理を省くようにしてもよい。

　一方、ユーザの第２ジェスチャーを検出していないと判定した場合には、第２補正部１５９は、第２制御部１３５から第２補正処理の終了指示を受けたか否かを判定する（Ｓ１２０９）。第２制御部１３５が第２補正処理の終了を指示する処理については、後述する。

　第２補正処理の終了指示を受けていないと判定した場合には、Ｓ１２０３に示した処理に戻って、上述した処理を繰り返す。一方、第２補正処理の終了指示を受けたと判定した場合には、第２補正部１５９は、撮影の終了を指示して（Ｓ１２０７）、第２補正処理を終える。カメラ１１９の撮影を継続させる場合には、Ｓ１２０７の処理を省くようにしてもよい。

　図１１の説明に戻る。Ｓ１１０１において第２制御部１３５が第２補正処理を起動すると、第２補正処理の終了を待たずに、第２制御部１３５は、第３補正部１６１による第３補正処理を起動する（Ｓ１１０３）。第３補正部１６１は、第３補正処理において、ユーザ発話に含まれる所定の言葉を検出した場合に、第２時間長を増加させる。第３補正処理は、ユーザターン処理と並行に実行される。

　所定の言葉は、例えば発話の合間に挟み込まれる言葉、つまりフィラーである。日本語の場合、「ええと」「あの」或いは「まあ」などがフィラーに相当する。フィラーは、言語や地域によって異なることがある。

　図１３に、第３補正処理フローを示す。第３補正部１６１は、フィラーを検出したか否かを判定する（Ｓ１３０１）。例えば、第３補正部１６１は、音声のデジタル信号を解析してフィラーを検出する。或いは、第３補正部１６１は、応答文にフィラーに相当する文字列が含まれている場合に、フィラーを検出したと判定するようにしてもよい。

　フィラーを検出したと判定した場合には、第３補正部１６１は、第２時間長を増加させる（Ｓ１３０３）。第３補正部１６１は、例えば第２時間長に所定値を加える。或いは、第３補正部１６１は、第２時間長に１より大きい係数を乗じるようにしてもよい。そして、第３補正部１６１は、第３補正処理を終える。

　一方、フィラーを検出していないと判定した場合には、第３補正部１６１は、第２制御部１３５から第３補正処理の終了指示を受けたか否かを判定する（Ｓ１３０５）。第２制御部１３５が第３補正処理の終了を指示する処理については、後述する。

　第３補正処理の終了指示を受けていないと判定した場合には、Ｓ１３０１に示した処理に戻って、上述した処理を繰り返す。一方、第３補正処理の終了指示を受けたと判定した場合には、第３補正処理を終える。

　図１１の説明に戻る。Ｓ１１０３において第２制御部１３５が第３補正処理を起動すると、第３補正処理の終了を待たずに、第２判定部１６３は、第２判定処理を実行する（Ｓ１１０５）。第２判定部１６３は、第２判定処理において、ユーザターンにおいてユーザ発話が途絶えた期間が第２時間長を超えた場合に、ユーザターンを終了すると判定する。

　図１４に、第２判定処理フローを示す。第２判定部１６３は、タイマ１１１による経過時間の計測を開始する（Ｓ１４０１）。第２判定部１６３は、現時点においてユーザ発話を検出しているか否かを判定する（Ｓ１４０３）。例えば、第２判定部１６３は、音声入力部１１３から取得したデジタル信号に、ユーザの音声が含まれている場合にユーザ発話を検出していると判定する。

　現時点においてユーザ発話を検出していると判定した場合には、第２判定部１６３は、ユーザターンを継続すると判定する（Ｓ１４０５）。そして、Ｓ１４１１に示した処理に移る。

　一方、現時点においてユーザ発話を検出していないと判定した場合には、第２判定部１６３は、経過時間が第２時間長を超えたか否かを判定する（Ｓ１４０７）。経過時間が第２時間長を超えていないと判定した場合には、Ｓ１４０３に示した処理に戻って、上述した処理を繰り返す。一方、経過時間が第２時間長を超えたと判定した場合には、第２判定部１６３は、ユーザターンを終了すると判定する（Ｓ１４０９）。そして、Ｓ１４１１の処理に移る。

　Ｓ１４１１において、第２判定部１６３は、タイマ１１１による経過時間の計測を停止する。第２判定部１６３は、ユーザターンを終了すると判定しているか否かによって処理を分岐させる（Ｓ１４１３）。ユーザターンを終了すると判定していない場合、つまりユーザターンを継続すると判定している場合には、Ｓ１４０１に示した処理に戻って、上述した処理を繰り返す。

　一方、ユーザターンを終了すると判定している場合には、第２判定処理を終え、呼び出し元のユーザターン処理に復帰する。

　図１１の説明に戻る。第２判定処理から復帰すると、第２制御部１３５は、第２補正部１５９に第２補正処理の終了を指示するとともに（Ｓ１１０７）、第３補正部１６１に第３補正処理の終了を指示する（Ｓ１１０９）。更に、第２制御部１３５は、音声認識部１５３に音声認識処理の終了を指示する（Ｓ１１１１）。

　返却部１６５は、応答文記憶部１３７に記憶されている応答文を質問生成部１０３へ返す（Ｓ１１１３）。ユーザターン処理を終えると、呼び出し元のメイン処理に復帰する。

　図３の説明に戻る。ユーザターン処理を終えると、Ｓ３０１に示した処理に戻って、上述した処理を繰り返す。このとき、質問生成部１０３は、次の質問文を生成する。

　尚、上述した例では、図５のＳ５０１において、第１設定部１４３が質問文を分類する例を示したが、図４のＳ４０１において、受付部１４１が質問生成部１０３から質問文と共に当該質問文の種類を受け付けるようにしてもよい。

　本実施の形態によれば、質問文の種類に応じて、ユーザの無応答を、より適正なタイミングで判別できる。

　また、第１ジェスチャーに基づいて、発話を意図しているユーザに、より適正に発話機会を与えることができる。

　また、質問文の種類に応じて、ユーザの応答完了を、より適正なタイミングで判別できる。

　また、第２ジェスチャーに基づいて、断続的に発話を行おうとしているユーザに、より適正に発話機会を与えることができる。

　また、フィラーを挟んで断続的に発話を行おうとしているユーザに、より適正に発話機会を与えることができる。

　以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上述の機能ブロック構成はプログラムモジュール構成に一致しない場合もある。

　また、上で説明した各記憶領域の構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ、処理の順番を入れ替えることや複数の処理を並列に実行させるようにしても良い。

　なお、上で述べた自動対話装置１０１は、コンピュータ装置であって、図１５に示すように、メモリ２５０１とＣＰＵ（Central Processing Unit）２５０３とハードディスク・ドライブ（ＨＤＤ：Hard Disk Drive）２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施例における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。ＣＰＵ２５０３は、アプリケーション・プログラムの処理内容に応じて表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ２５０１に格納されるが、ＨＤＤ２５０５に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

　以上述べた本発明の実施の形態をまとめると、以下のようになる。

　本実施の形態に係る情報処理装置は、マシンターンとユーザターンとを交互に繰り返す自動対話を制御する情報処理装置であって、（Ａ）マシンターンにおいて音声出力される質問文の種類に応じて、第１時間長を設定する第１設定部と、（Ｂ）ユーザターンにおいてユーザ発話の開始を検知しない期間が第１時間長を超えた場合に、ユーザターンを終了すると判定する第１判定部とを有する。

　このようにすれば、ユーザターンの終了を、より適正なタイミングで判別できる。尚、図１Ｂに示した第１設定部１４３は、第１設定部の例である。また、図１Ｃに示した第１判定部１５７は、第１判定部の例である。

　更に、上記情報処理装置は、ユーザターンにおいて、ユーザ発話の開始を検知する前にユーザの第１ジェスチャーを検出した場合に、第１時間長を増加させる第１補正部を有するようにしてもよい。

　このようにすれば、発話を意図しているユーザに、より適正に発話機会を与えることができる。尚、図１Ｃに示した第１補正部１５５は、第１補正部の例である。

　更に、上記情報処理装置は、質問文の種類に応じて、第２時間長を設定する第２設定部と、ユーザターンにおいてユーザ発話が途絶えた期間が第２時間長を超えた場合に、ユーザターンを終了すると判定する第２判定部とを有するようにしてもよい。

　このようにすれば、ユーザの応答完了を、より適正なタイミングで判別できる。尚、図１Ｃに示した第２設定部１５１は、第２設定部の例である。また、図１Ｃに示した第２判定部１６３は、第２判定部の例である。

　更に、上記情報処理装置は、ユーザターンにおいて、ユーザ発話の開始を検知した後にユーザの第２ジェスチャーを検出した場合に、第２時間長を増加させる第２補正部を有するようにしてもよい。

　このようにすれば、断続的に発話を行おうとしているユーザに、より適正に発話機会を与えることができる。尚、図１Ｃに示した第２補正部１５９は、第２補正部の例である。

　更に、上記情報処理装置は、ユーザターンにおいて、ユーザ発話に含まれる所定の言葉を検出した場合に、第２時間長を増加させる第３補正部を有するようにしてもよい。

　このようにすれば、所定の言葉を挟んで断続的に発話を行おうとしているユーザに、より適正に発話機会を与えることができる。尚、図１Ｃに示した第３補正部１６１は、第３補正部の例である。

　なお、上で述べた自動対話装置１０１における処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、ＣＤ－ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納されるようにしてもよい。尚、中間的な処理結果は、一般的にメインメモリ等の記憶装置に一時保管される。

Claims

　マシンターンとユーザターンとを交互に繰り返す自動対話を制御する情報処理装置であって、
　前記マシンターンにおいて音声出力される質問文の種類に応じて、第１時間長を設定する第１設定部と、
　前記ユーザターンにおいてユーザ発話の開始を検知しない期間が前記第１時間長を超えた場合に、当該ユーザターンを終了すると判定する第１判定部と
　を有する情報処理装置。
　更に、
　前記ユーザターンにおいて、前記ユーザ発話の開始を検知する前にユーザの第１ジェスチャーを検出した場合に、前記第１時間長を増加させる第１補正部
　を有する請求項１記載の情報処理装置。
　更に、
　前記質問文の種類に応じて、第２時間長を設定する第２設定部と、
　前記ユーザターンにおいて前記ユーザ発話が途絶えた期間が前記第２時間長を超えた場合に、当該ユーザターンを終了すると判定する第２判定部と
　を有する請求項１又は２記載の情報処理装置。
　更に、
　前記ユーザターンにおいて、前記ユーザ発話の開始を検知した後にユーザの第２ジェスチャーを検出した場合に、前記第２時間長を増加させる第２補正部
　を有する請求項３記載の情報処理装置。
　更に、
　前記ユーザターンにおいて、前記ユーザ発話に含まれる所定の言葉を検出した場合に、前記第２時間長を増加させる第３補正部
　を有する請求項３又は４記載の情報処理装置。
　マシンターンとユーザターンとを交互に繰り返す自動対話を制御するコンピュータにより実行される情報処理方法であって、
　前記マシンターンにおいて音声出力される質問文の種類に応じて、第１時間長を設定し、
　前記ユーザターンにおいてユーザ発話の開始を検知しない期間が前記第１時間長を超えた場合に、当該ユーザターンを終了すると判定する
　処理を含む情報処理方法。
　マシンターンとユーザターンとを交互に繰り返す自動対話を制御するコンピュータに、
　前記マシンターンにおいて音声出力される質問文の種類に応じて、第１時間長を設定し、
　前記ユーザターンにおいてユーザ発話の開始を検知しない期間が前記第１時間長を超えた場合に、当該ユーザターンを終了すると判定する
　処理を実行させる情報処理プログラム。