WO2020189340A1

WO2020189340A1 - 情報処理装置および情報処理方法、並びにプログラム

Info

Publication number: WO2020189340A1
Application number: PCT/JP2020/009678
Authority: WO
Inventors: 侑理網本
Original assignee: ソニー株式会社
Priority date: 2019-03-20
Filing date: 2020-03-06
Publication date: 2020-09-24
Also published as: US20220180871A1

Abstract

本開示は、よりスムーズな対話を実現することができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。トピック選定部は、ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定し、判定部は、話題を発話するタイミングであるか否かを、複数のユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定する。本技術は、例えば、ユーザと雑談を行ったり、ユーザ間の対話を補助する対話システムに適用できる。

Description

情報処理装置および情報処理方法、並びにプログラム

　本開示は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、よりスムーズな対話を実現することができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。

　従来、対話システムを利用した様々なサービスが提供されており、このような対話システムには主に、タスク達成型と対話型との２種類がある。また、対話型の中には、雑談対話のタスクがあり、発話の生成時にトピックを選定するために、例えば、ウェブをクローリングすることにより蓄積した各種の情報が利用される。

　例えば、特許文献１には、ユーザと会話する話題に関する情報、および、ユーザの発話を認識した認識結果を用いて、ユーザと会話するための応答文を生成する会話処理装置が開示されている。

　なお、非特許文献１には、複数のユーザが対話しているときの話者交替（ターンテイキング）において、心理的に快適と感じられる時間長について記述されている。

特開２００１－１８８７８７号公報

Heldner, Mattias, and Jens Edlund. "Pauses, gaps and overlaps in conversations." Journal of Phonetics 38.4 (2010): 555-568

　ところで、従来の対話システムでは、対話システムから主体的に発話するタイミングが、対話を行っているユーザにとって適切ではないことがあるため、対話システムとユーザとの間においてスムーズに対話を行うことができないだけでなく、複数のユーザ間の対話に対話システムが参加することについて技術的な困難があった。

　本開示は、このような状況に鑑みてなされたものであり、タイミングよくユーザと対話することができ、かつ、その場にいるユーザ間の対話を補助することによって、よりスムーズな対話を実現するようにするものである。

　本開示の一側面の情報処理装置は、ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定するトピック選定部と、前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定する判定部とを備える。

　本開示の一側面の情報処理方法またはプログラムは、ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定することと、前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定することとを含む。

　本開示の一側面においては、ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題が選定され、その話題を発話するタイミングであるか否かが、複数のユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定される。

本技術を適用した情報処理装置を備えた対話システムの一実施の形態の構成例を示すブロック図である。雑談モード切り替え部の構成例を示すブロック図である。対話状態測定部の構成例を示すブロック図である。トピック選定部の構成例を示すブロック図である。無声区間について説明する図である。情報処理方法を説明するフローチャートである。本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

　以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

　＜対話システムの構成例＞
　図１は、本技術を適用した情報処理装置を備えた対話システムの一実施の形態の構成例を示すブロック図である。

　図１において、対話システム１１は、情報処理装置１２、生体センサ１３、撮像装置１４、集音装置１５、位置センサ１６、および出力装置１７を備えて構成される。また、情報処理装置１２は、センシング結果取得部２１、雑談モード切り替え部２２、対話状態測定部２３、トピック選定部２４および２５、無声区間判定部２６、並びに、発話生成部２７を備えて構成される。

　情報処理装置１２は、生体センサ１３、撮像装置１４、集音装置１５、および位置センサ１６によるセンシング結果に基づいて生成した発話を出力装置１７へ出力するために、対話システム１１によるユーザとの対話を提供するのに必要な情報処理を行う。例えば、情報処理装置１２は、センシング可能な位置で複数のユーザが対話していると認識したときに情報処理を開始し、複数のユーザどうしの間で話者を交代するターンテイキングが行われるたびに情報処理を行うことができる。

　生体センサ１３は、例えば、ユーザの生体的な活動に伴って変化する様々な特徴を測定する測定機能を有しており、例えば、対話中のユーザの心拍や体温、運動強度、瞳孔の開きなどを測定する。そして、生体センサ１３は、それらの測定結果を示す生体情報を、情報処理装置１２に供給する。

　撮像装置１４は、例えば、CMOS（Complementary Metal Oxide Semiconductor）イメージセンサなどの撮像素子を有して構成され、対話中のユーザを含む周囲の状況を撮像した画像を取得し、その画像データを、情報処理装置１２に供給する。

　集音装置１５は、例えば、マイクロホンなどを有して構成され、対話中のユーザが発話した音声を集音して、その音声データを情報処理装置１２に供給する。

　位置センサ１６は、例えば、赤外線センサやToF（Time of Flight）センサなどを有して構成され、位置センサ１６による測定可能な範囲内に居るユーザの位置を検出し、そのユーザの位置を示す位置情報を情報処理装置１２に供給する。

　出力装置１７は、例えば、スピーカなどを有して構成され、情報処理装置１２から出力される音声データに従った音声を出力する。

　センシング結果取得部２１は、生体センサ１３から供給される生体情報、撮像装置１４から供給される画像データ、集音装置１５から供給される音声データ、および、位置センサ１６から供給される位置情報を、センシング結果として取得する。そして、センシング結果取得部２１は、生体情報、画像データ、および音声データを雑談モード切り替え部２２に供給し、生体情報、画像データ、音声データ、および位置情報を対話状態測定部２３に供給し、音声データを無声区間判定部２６に供給する。

　雑談モード切り替え部２２は、生体情報、画像データ、および音声データのうちの、少なくともいずれか１つに基づいて、対話システム１１において雑談を主体的に生成するようなコンテキストであるかどうかを判断して、雑談モードのオン／オフを切り替える。例えば、雑談モード切り替え部２２は、対話システム１１において雑談を主体的に生成するようなコンテキストであると判断すると、雑談モードへの切り替えを行うと判定し、雑談モードがオンであることを対話状態測定部２３に通知する。一方、雑談モード切り替え部２２は、対話システム１１において雑談を主体的に生成するようなコンテキストでないと判断すると、雑談モードへの切り替えを行わないと判定し、雑談モードがオフであることをトピック選定部２４に通知する。なお、雑談モード切り替え部２２の詳細な構成については、図２を参照して後述する。

　対話状態測定部２３は、雑談モード切り替え部２２から雑談モードがオンであることが通知されると、生体情報、画像データ、音声データ、および位置情報のうちの、少なくともいずれか１つに基づいて、対話中のユーザの対話状態を測定する。そして、対話状態測定部２３は、測定の結果得られるユーザの対話状態に従って、そのユーザについてのリアルタイムのユーザ情報を取得し、トピック選定部２５に供給する。なお、対話状態測定部２３の詳細な構成については、図３を参照して後述する。

　トピック選定部２４は、雑談モード切り替え部２２から雑談モードがオフであることが通知されると、図示しない入力部を介してユーザにより入力される動作命令に従って、例えば、ユーザが事前に登録したユーザ情報に基づいた話題を選定する。そして、トピック選定部２４は、選定した話題を示すトピック情報を発話生成部２７に供給する。

　トピック選定部２５は、対話状態測定部２３から供給されるリアルタイムのユーザ情報に基づいて、進行中の対話の内容に適切となるような、その場のコンテキストに沿う話題を選定する。そして、トピック選定部２５は、無声区間判定部２６による無声区間の測定結果に基づいた発話タイミングに従って、選定した話題を示すトピック情報を発話生成部２７に供給する。なお、トピック選定部２５の詳細な構成については、図４を参照して後述する。

　無声区間判定部２６は、音声データに基づいて無声区間を測定し、その測定結果に基づいて、対話システム１１からの主体的なアクションを行うことが対話中のユーザにとって望ましいとされる発話タイミングであるか否かを判定する。そして、無声区間判定部２６は、発話タイミングであると判定した場合、その旨をトピック選定部２５に通知する。なお、発話タイミングであると判定する無声区間については、図５を参照して後述する。

　発話生成部２７は、トピック選定部２４または２５から供給されたトピック情報により示される話題に従った発話を行うための音声データを生成し、出力装置１７に供給する。例えば、発話生成部２７は、予め話題ごとに収録された音源を組み込んで音声データを生成したり、話題の内容を示すテキストからリアルタイムに音声合成を行うことで音声データを生成したりすることができる。

　図２は、雑談モード切り替え部２２の構成例を示すブロック図である。

　図２に示すように、雑談モード切り替え部２２は、集中度測定部３１、対象物特定部３２、および発話状況認識部３３を備えて構成される。

　集中度測定部３１は、生体センサ１３により取得された生体情報（心拍や、体温、瞳孔の開きなど）に基づいて、例えば、対話中のユーザが特定の対象物から受けた影響を求め、その対象物に対するユーザの集中度を測定する。

　対象物特定部３２は、撮像装置１４により取得された画像に基づいて、例えば、対話中のユーザが関心を持っている対象物を特定する。

　発話状況認識部３３は、集音装置１５により集音された音声に基づいて、例えば、対話中のユーザが発話を行う際の発話状況を認識する。

　そして、雑談モード切り替え部２２は、対象物特定部３２により特定された対象物に対して、集中度測定部３１により測定されたユーザの集中度、および、発話状況認識部３３により認識されたユーザの発話状況のうちの、少なくともいずれか１つに基づいて、対話中のユーザが雑談を許容する状態であるかどうかを判断する。そして、雑談モード切り替え部２２は、対話中のユーザが雑談を許容する状態であると判断した場合には、雑談モードをオンにする。例えば、雑談モード切り替え部２２は、ユーザがある特定の対象や事柄などに集中していたり頻繁に発話を行う発話状況であったりするときには、雑談を許容する状態ではないと判断し、その場合には、雑談モードをオフにする。また、例えば、雑談モード切り替え部２２は、音声や画像などから場のコンテキストを解析した結果に基づいて文脈的には会話をしなくてはならないものの、コミュニケーションを取るのがユーザにとって難易度が高いとき（例えば、心拍数が上がりストレス状態にあると推定できるとき）に、雑談モードをオンにする。

　図３は、対話状態測定部２３の構成例を示すブロック図である。

　図３に示すように、対話状態測定部２３は、内部状態検知部４１、認識情報検知部４２、提示情報検知部４３、および外部環境検知部４４を備えて構成される。

　内部状態検知部４１は、生体センサ１３により取得された生体情報（心拍や、体温、瞳孔の開きなど）に基づいて、例えば、ユーザが対話に際して感じているストレスや、リラックス度合い、対話に注意を割いている割合などのようなユーザの内部状態を検知する。

　認識情報検知部４２は、撮像装置１４により取得された画像に基づいて、例えば、ユーザの人数や、ユーザどうしの対話時に行われたボディランゲージ、指示語により指示される対象物などを抽出する。これにより、認識情報検知部４２は、ユーザが認識している環境の状態を検知し、その認識している環境の状態を示す認識情報を取得する。

　提示情報検知部４３は、集音装置１５により集音された音声に基づいて、例えば、音声認識によって認識することができる文字情報の他、発話の調子（強弱やリズムなど）を示す韻律情報を取得する。そして、対話状態測定部２３は、ユーザが会話に乗り気であるか否か、ユーザの出身地（方言）、会話のトピック（言語）などのような、音声に基づいてユーザにより提示されるものを検知し、その提示されるものを示す提示情報を取得する。

　外部環境検知部４４は、位置センサ１６により検出された位置情報に基づいて、例えば、ユーザが対話をしている場所を示す外部環境（例えば、ユーザの自宅や、勤務先、その他の特定の場所など）を検知する。ここで、外部環境として検知される特定の場所として、事前に登録されている地図情報などを照合し、カフェ、美術館、病院などのような詳細を把握するようにしてもよい。

　そして、対話状態測定部２３は、これらの検知結果（内部状態、認識情報、提示情報、および外部環境のうちの、少なくともいずれか１つ）を、対話状態に従ったリアルタイムのユーザ情報として、トピック選定部２５に供給する。

　図４は、トピック選定部２５の構成例を示すブロック図である。

　図４に示すように、トピック選定部２５は、第１のトピックデータベース５１、第１の選定処理部５２、第２のトピックデータベース５３、および第２の選定処理部５４を備えて構成される。

　第１のトピックデータベース５１には、カテゴリごとに整理された形で、雑談のトピックが登録されている。例えば、第１のトピックデータベース５１では、過去に選定されたトピックについて、そのトピックが選定されたコンテキストやユーザの反応などを統合してスコアとして付与し、トピックのメタデータとして蓄積される。このようにトピックのメタデータを蓄積する際、スコアが著しく低くユーザが好まないトピックであると判定された内容については、そのトピックとの類似度の高いトピックも含め、選定され難くなるように低いスコアが付与される。さらに、第１のトピックデータベース５１には、定期的にウェブクロールなどを行うことで登録されるトピックを自動拡充することができ、このとき、既に登録済みのトピックと重複しないようにトピックが登録される。

　第１の選定処理部５２は、第１のトピックデータベース５１を参照し、ユーザが事前に登録したユーザ情報に基づいた話題を選定して、その選択した話題を第２のトピックデータベース５３に登録する選定処理を行う。例えば、第１の選定処理部５２に登録されているユーザ情報としては、対話システム１１が搭載された端末をユーザが利用することにより蓄積される利用履歴や、ユーザの年齢、ユーザの性別などが用いられることが想定される。なお、トピック選定部２４も、第１のトピックデータベース５１を参照して、ユーザが事前に登録したユーザ情報に基づいて話題を選定することができる。

　第２のトピックデータベース５３には、第１の選定処理部５２により選定された話題が登録される。

　第２の選定処理部５４は、第２のトピックデータベース５３を参照し、対話状態測定部２３から供給されるリアルタイムのユーザ情報に基づいて話題を選定して、発話生成部２７に供給する選定処理を行う。例えば、第２の選定処理部５４は、リアルタイムのユーザ情報から、発話内容の意味を解析することによってユーザの関心のある事項や、その関心のある対象に対する極性を分析（分類）して、コンテキストに沿う話題を選定することができる。また、第２の選定処理部５４は、ユーザの発話から固有名詞を抽出して、その際に現れた動詞のネガティブおよびポジティブを判定し、その判定結果を用いて、コンテキストに沿う話題を選定することができる。

　これにより、トピック選定部２５は、登録済みのユーザ情報、および、リアルタイムのユーザ情報を利用して、その場で最もユーザにとって関心を持ちやすく、対話が長く続くようなトピックを効率良く選定することができる。

　図５を参照して、無声区間判定部２６が発話タイミングであるか否かを判定するための無声区間について説明する。

　例えば、無声区間判定部２６は、複数のユーザが対話しているときの話者交替（ターンテイキング）時に発生する無声区間を、発話タイミングのトリガーとして用いる。

　一般的に、ターンテイキングには心理的に快適と感じられる時間長があると考えられており、その時間長については、上述した非特許文献１に詳細に記載されている。例えば、対話の際に長い間が空くと、話者は、話し相手が直前の発話に対して何らかのネガティブな問題（返答の難易度が高い、話者のどちらかに会話を継続する意思がないなど）があると感じられると言われている。

　そこで、対話システム１１では、このようなターンテイキング時に長すぎる無声区間が発生しないように、無声区間判定部２６は、ユーザにとって快適と感じられる時間長を超える無声区間を検出した時点で、発話タイミングであると判定することができる。これにより、対話システム１１が主体的に発話を行うことで、ターンテイキング時に、ユーザにとって快適と感じられる時間長を大きく超えるような無声区間が発生することが回避され、ユーザが、スムーズに会話を行うことができるようになる。

　例えば、図５には、ユーザＡの発話に対して、３パターンでのユーザＢの発話のタイミングが示されている。第１のパターンでのユーザＢの発話のタイミングにおいては、発話にオーバーラップがあり無声区間が発生しないこと（オーバーラップの分だけマイナスの無声区間）になる。また、第２のパターンでのユーザＢの発話のタイミングにおいては、無声区間がほぼ発生せずにスムーズにユーザ間の会話が続けられることになる。一方、第３のパターンでのユーザＢの発話のタイミングにおいては、無声区間が長く発生しておりユーザ間の会話に快適性が失われることになる。

　従って、無声区間判定部２６が、第３のパターンでのユーザＢの発話のタイミングのように、ユーザＡの発話終了からユーザＢの発話開始までの無声区間が、ユーザにとって快適と感じられる時間長として予め設定されている所定時間（ユーザにとってターンテイキングが快適と感じられる時間長）を超えたことを検出すると、対話システム１１による主体アクションが行われる。

　これにより、無声区間判定部２６は、対話システム１１が主体的に発話を生成するのに適切な発話タイミングを検出することができる。

　＜情報処理の処理例＞
　図６に示すフローチャートを参照して、図１の情報処理装置１２において実行される情報処理について説明する。

　上述したように、ターンテイキングが行われるたびに情報処理が行われ、ステップＳ１１において、センシング結果取得部２１はセンシング結果を取得する。即ち、センシング結果取得部２１は、生体センサ１３から供給される生体情報、撮像装置１４から供給される画像データ、集音装置１５から供給される音声データ、および、位置センサ１６から供給される位置情報を、センシング結果として取得する。

　ステップＳ１２において、雑談モード切り替え部２２では、集中度測定部３１が、ユーザの集中度を測定し、対象物特定部３２が、ユーザが関心を持っている対象物を特定し、発話状況認識部３３が、ユーザの発話状況を認識する。

　ステップＳ１３において、雑談モード切り替え部２２は、雑談モードへの切り替えを行うか否かを判定する。例えば、雑談モード切り替え部２２は、ステップＳ１２において特定された対象物に対するユーザの集中度や発話状況などに基づいて、対話中のユーザが雑談を許容する状態である場合には、雑談モードへの切り替えを行うと判定する。

　ステップＳ１３において、雑談モード切り替え部２２が雑談モードへの切り替えを行うと判定した場合、処理はステップＳ１４に進み、雑談モードがオンであることが対話状態測定部２３に通知される。

　ステップＳ１５において、対話状態測定部２３は、ステップＳ１１でセンシング結果取得部２１により取得されたセンシング結果に基づいて、対話中のユーザの対話状態を測定することによりリアルタイムのユーザ情報を取得し、トピック選定部２５に供給する。

　ステップＳ１６において、トピック選定部２５は、ステップＳ１５で対話状態測定部２３から供給されたリアルタイムのユーザ情報に基づいて、図４を参照して上述したように、その場のコンテキストに沿う話題を選定する。

　ステップＳ１７において、無声区間判定部２６は、図５を参照して上述したように、ユーザにとって快適と感じられる時間長を超える無声区間を検出することで、発話タイミングであるか否かを判定する。

　ステップＳ１７において、無声区間判定部２６が発話タイミングでないと判定した場合、処理はステップＳ１５に戻り、以下、上述したのと同様の処理が繰り返して行われる。一方、ステップＳ１７において、無声区間判定部２６が発話タイミングであると判定した場合、処理はステップＳ１８に進む。

　ステップＳ１８において、トピック選定部２５は、ステップＳ１６で選定した話題を示すトピック情報を発話生成部２７に供給する。そして、発話生成部２７は、トピック選定部２５から供給されたトピック情報により示される話題に従った発話を行うための音声データを生成し、出力装置１７に供給した後、処理は終了される。

　一方、ステップＳ１３において、雑談モード切り替え部２２が雑談モードへの切り替えを行わないと判定した場合、処理はステップＳ１９に進み、雑談モードがオフであることがトピック選定部２４に通知される。

　ステップＳ２０において、トピック選定部２４は、図示しない入力部を介してユーザにより動作命令が入力されたか否かを判定する。

　ステップＳ２０において、トピック選定部２４が、動作命令が入力されたと判定した場合には処理はステップＳ２１に進み、動作命令が入力されていないと判定した場合には処理は終了される。

　ステップＳ２１において、トピック選定部２４は、例えば、ユーザが事前に登録したユーザ情報に基づいた話題を選定し、その選定した話題を示すトピック情報を発話生成部２７に供給する。その後、処理はステップＳ１８に進み、発話生成部２７が、トピック選定部２４から供給されたトピック情報により示される話題に従った発話を行うための音声データを生成し、出力装置１７に供給した後、処理は終了される。

　以上のような情報処理が行われることで、対話システム１１は、トピック選定部２５により選択された話題について発話する音声データに従った音声を出力装置１７から出力することができる。これにより、対話システム１１は、その場のコンテキストに応じて、ユーザ向きにカスタマイズされたトピックを提供して、よりユーザに特化した雑談会話を行うことができる。

　また、対話システム１１は、無声区間判定部２６による無声区間の検出に応じた発話タイミングで発話を生成することにより、その場の発話状況に応じて、より適切なタイミングで発話を生成することができる。即ち、対話システム１１は、複数のユーザのセンシング結果を抽出して対話の話題を選定し、ターンテイキングのタイミングに基づく発話タイミングに従って発話を行うことで、その場にいるユーザ間の対話を補助するように対話に参加して、違和感なくスムーズに雑談会話を行うことができる。

　さらに、対話システム１１は、語レベルでの相関、極性分類をリアルタイムに行いトピックを選定することができる。

　また、対話システム１１は、ユーザからの対話を促すような発話、例えば、「なにか面白い話をして」や「なにか話して」というような動作の対象がないような対話の依頼に対しても、その発話をリアルタイムのユーザ情報として取得し、取得したユーザ情報（発話内容）に基づいてトピックを選定することで、自然な形で対話を開始することができる。これにより、ユーザは、対話システム１１に対して自発的に対話を依頼することなく、ユーザ自身にフィットするような形式で対話システム１１との対話を楽しむことができる。

　さらに、対話システム１１は、ユーザからの質問をリアルタイムのユーザ情報として取得し、より適切な返答をトピックとして選択することで対話を行うユースケースで利用することができる。

　例えば、第１のユースケースとして、具体的には、不動産の内見に行く際など、ユーザにとって初対面の相手と車内をはじめとした閉鎖空間で過ごすのは心理的負荷が大きい状況であり、そのような状況で対話システム１１を利用することが想定される。これにより、ユーザの心理的負荷の軽減を図ることができる。

　また、第２のユースケースとして、雑談を通して広範囲にわたってユーザ自身の興味のあるトピックに対して知識を深めることを促進するような状況で、対話システム１１を利用することが想定される。例えば、美術館や博物館などのように、雑学のような知識を持っていた方が楽しめるコンテンツに対応するトピックを対話システム１１が保持しておくことによって、ユーザは、より効果的にコンテンツに対して知識を深めることができる。例えば、美術館において、複数のユーザが、ある画家の所定の絵画を静かに眺めている場合に、対話システム１１は、ユーザが注目している絵画を特定して、その絵画についての知識（画家の出身地や絵画が描かれた背景など）に基づいて対話を行うことができる。

　また、第３のユースケースとして、工場見学などように、複数のユーザが同じルートを通って様々な体験を行うタイプのイベントで、対話システム１１を利用することが想定される。例えば、対話システム１１は、グループごとに複数のユーザが興味を持っているトピックについて話題を投げかけることができる。そして、対話システム１１を利用することで、工場見学などゲストの人数が多かったり、アテンドが話をし続けたりするスタイルの見学よりも、ユーザが主体的に体験にコミットしていくことが期待できる。

　また、第４のユースケースとして、災害時などが発生したときに面識のない他人とともに生活をするシーンで、対話システム１１を利用することが想定される。例えば、対話システム１１は、それぞれのユーザについてのユーザ情報を用いて共通事項を検索し、その共通事項に基づいて雑談を生成することができる。これにより、それぞれのユーザが自ら互いのことを探索しなくとも、対話システム１１が、ユーザどうしで話しやすいトピックを提供することができる。

　さらに、その他のユースケースとして、対話システム１１は、例えば、結婚活動における会話を代行するロボットに組み込むことが想定される。即ち、そのようなロボットを間に介在させることによって、初対面どうしであっても会話を円滑に行って、良好なコミュニケーションが取れるようになることが期待される。このように、対話システム１１は、ユーザ間の対話を補助し、その場にいるユーザに特化したトピックについて主体的に発話を生成することで、よりスムーズに対話を行うことができる場を提供することができる。

　＜コンピュータの構成例＞
　次に、上述した一連の処理（情報処理方法）は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

　図７は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。

　プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やROM１０３に予め記録しておくことができる。

　あるいはまた、プログラムは、ドライブ１０９によって駆動されるリムーバブル記録媒体１１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウェアとして提供することができる。ここで、リムーバブル記録媒体１１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

　なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク１０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

　コンピュータは、CPU(Central Processing Unit)１０２を内蔵しており、CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されている。

　CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、入力部１０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、CPU１０２は、ハードディスク１０５に格納されたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。

　これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

　なお、入力部１０７は、キーボードや、マウス、マイク等で構成される。また、出力部１０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

　ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

　また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

　さらに、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

　また、例えば、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。

　また、例えば、本技術は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能（機能ブロック等）を有し、必要な情報を得ることができるようにすればよい。

　また、例えば、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、１つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を１つのステップとしてまとめて実行することもできる。

　なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。

　なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。

　＜構成の組み合わせ例＞
　なお、本技術は以下のような構成も取ることができる。
（１）
　ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定するトピック選定部と、
　前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定する判定部と
　を備える情報処理装置。
（２）
　前記ユーザの生体情報、前記ユーザを含む周囲の状況を撮像した画像、前記ユーザが発話した音声、および、前記ユーザの位置を示す位置情報のうち、少なくともいずれか１つを用いて、前記ユーザの対話状態を測定し、前記ユーザ情報を取得する対話状態測定部
　をさらに備える上記（１）に記載の情報処理装置。
（３）
　前記対話状態測定部は、
　　前記生体情報に基づいて、前記ユーザの内部状態を検知する内部状態検知部と、
　　前記画像に基づいて、前記ユーザが認識している環境の状態を示す認識情報を検知する認識情報検知部と、
　　前記音声に基づいて、前記ユーザにより提示される提示情報を検知する提示情報検知部と、
　　前記位置情報に基づいて、前記ユーザの外部環境を検知する外部環境検知部と
　を有し、
　前記内部状態、前記認識情報、前記提示情報、および前記外部環境のうちの、少なくともいずれか１つを、前記ユーザの対話状態に応じて更新されるユーザ情報として取得する
　上記（２）に記載の情報処理装置。
（４）
　前記生体情報、前記画像、および前記音声のうち、少なくともいずれか１つを用いて、前記トピック選定部により選定された前記話題に基づく雑談を生成するコンテキストであるか否かを判定する雑談モード切り替え部をさらに備え、
　前記雑談モード切り替え部は、前記雑談を生成するコンテキストであると判定した場合に、その旨を前記対話状態測定部に通知して前記ユーザ情報を前記トピック選定部に供給させる
　上記（２）または（３）に記載の情報処理装置。
（５）
　前記雑談モード切り替え部は、
　　前記生体情報に基づいて、前記ユーザの集中度を測定する集中度測定部と、
　　前記画像に基づいて、前記ユーザが関心を持っている対象物を特定する対象物特定部と、
　　前記音声に基づいて、前記ユーザの発話状況を認識する発話状況認識部と
　を有し、
　前記集中度、前記対象物、および前記発話状況のうちの、少なくともいずれか１つに基づいて、前記ユーザが雑談を許容する状態であるかどうかを判断する
　上記（４）に記載の情報処理装置。
（６）
　前記ユーザによる動作命令の入力に従って、前記ユーザについて事前に登録されている登録済みのユーザ情報に基づいた前記話題を選定する動作命令トピック選定部をさらに備え、
　前記雑談モード切り替え部は、前記雑談を生成するコンテキストでないと判定した場合に、その旨を前記動作命令トピック選定部に通知して前記登録済みのユーザ情報に従った前記話題の選定を行わせる
　上記（４）または（５）に記載の情報処理装置。
（７）
　前記トピック選定部は、
　　前記ユーザについて事前に登録されている登録済みのユーザ情報に基づいた話題を選定する第１の選定処理部と、
　前記第１の選定処理部により選定された話題の中から、前記ユーザの対話状態に応じて更新されるユーザ情報に基づいた話題を選定する第２の選定処理部と
　を有する
　上記（１）から（６）までのいずれかに記載の情報処理装置。
（８）
　前記トピック選定部は、前記ユーザからの対話を促す発話を前記ユーザの対話状態に応じて更新されるユーザ情報として取得し、前記ユーザ情報に基づいて前記話題を選定する
　上記（７）に記載の情報処理装置。
（９）
　前記トピック選定部は、前記ユーザ情報としてユーザからの質問を取得し、その質問に対する返答を前記話題として選定する
　上記（７）に記載の情報処理装置。
（１０）
　前記判定部は、複数のユーザどうしで会話が行われているときに発話が行われていない無声区間が、予め設定された所定時間を超えたときに、前記話題を発話するタイミングであると判定する
　上記（１）から（９）までのいずれかに記載の情報処理装置。
（１１）
　処理装置が、
　ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定することと、
　前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定することと
　を含む情報処理方法。
（１２）
　情報処理装置のコンピュータに、
　ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定することと、
　前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定することと
　を含む情報処理を実行させるためのプログラム。

　なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　１１　対話システム，　１２　情報処理装置，　１３　生体センサ，　１４　撮像装置，　１５　集音装置，　１６　位置センサ，　１７　出力装置，　２１　センシング結果取得部，　２２　雑談モード切り替え部，　２３　対話状態測定部，　２４および２５　トピック選定部，　２６　無声区間判定部，　２７　発話生成部，　３１　集中度測定部，　３２　対象物特定部，　３３　発話状況認識部，　４１　内部状態検知部，　４２　認識情報検知部，　４３　提示情報検知部，　４４　外部環境検知部，　５１　第１のトピックデータベース，　５２　第１の選定処理部５２，　５３　第２のトピックデータベース，　５４　第２の選定処理部

Claims

　ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定するトピック選定部と、
　前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定する判定部と
　を備える情報処理装置。
　前記ユーザの生体情報、前記ユーザを含む周囲の状況を撮像した画像、前記ユーザが発話した音声、および、前記ユーザの位置を示す位置情報のうち、少なくともいずれか１つを用いて、前記ユーザの対話状態を測定し、前記ユーザ情報を取得する対話状態測定部
　をさらに備える請求項１に記載の情報処理装置。
　前記対話状態測定部は、
　　前記生体情報に基づいて、前記ユーザの内部状態を検知する内部状態検知部と、
　　前記画像に基づいて、前記ユーザが認識している環境の状態を示す認識情報を検知する認識情報検知部と、
　　前記音声に基づいて、前記ユーザにより提示される提示情報を検知する提示情報検知部と、
　　前記位置情報に基づいて、前記ユーザの外部環境を検知する外部環境検知部と
　を有し、
　前記内部状態、前記認識情報、前記提示情報、および前記外部環境のうちの、少なくともいずれか１つを、前記ユーザの対話状態に応じて更新されるユーザ情報として取得する
　請求項２に記載の情報処理装置。
　前記生体情報、前記画像、および前記音声のうち、少なくともいずれか１つを用いて、前記トピック選定部により選定された前記話題に基づく雑談を生成するコンテキストであるか否かを判定する雑談モード切り替え部をさらに備え、
　前記雑談モード切り替え部は、前記雑談を生成するコンテキストであると判定した場合に、その旨を前記対話状態測定部に通知して前記ユーザ情報を前記トピック選定部に供給させる
　請求項２に記載の情報処理装置。
　前記雑談モード切り替え部は、
　　前記生体情報に基づいて、前記ユーザの集中度を測定する集中度測定部と、
　　前記画像に基づいて、前記ユーザが関心を持っている対象物を特定する対象物特定部と、
　　前記音声に基づいて、前記ユーザの発話状況を認識する発話状況認識部と
　を有し、
　前記集中度、前記対象物、および前記発話状況のうちの、少なくともいずれか１つに基づいて、前記ユーザが雑談を許容する状態であるかどうかを判断する
　請求項４に記載の情報処理装置。
　前記ユーザによる動作命令の入力に従って、前記ユーザについて事前に登録されている登録済みのユーザ情報に基づいた前記話題を選定する動作命令トピック選定部をさらに備え、
　前記雑談モード切り替え部は、前記雑談を生成するコンテキストでないと判定した場合に、その旨を前記動作命令トピック選定部に通知して前記登録済みのユーザ情報に従った前記話題の選定を行わせる
　請求項４に記載の情報処理装置。
　前記トピック選定部は、
　　前記ユーザについて事前に登録されている登録済みのユーザ情報に基づいた前記話題を選定する第１の選定処理部と、
　前記第１の選定処理部により選定された前記話題の中から、前記ユーザの対話状態に応じて更新されるユーザ情報に基づいた前記話題を選定する第２の選定処理部と
　を有する
　請求項１に記載の情報処理装置。
　前記トピック選定部は、前記ユーザからの対話を促す発話を前記ユーザの対話状態に応じて更新されるユーザ情報として取得し、前記ユーザ情報に基づいて前記話題を選定する
　請求項７に記載の情報処理装置。
　前記トピック選定部は、前記ユーザ情報としてユーザからの質問を取得し、その質問に対する返答を前記話題として選定する
　請求項７に記載の情報処理装置。
　前記判定部は、複数のユーザどうしで会話が行われているときに発話が行われていない無声区間が、予め設定された所定時間を超えたときに、前記話題を発話するタイミングであると判定する
　請求項１に記載の情報処理装置。
　処理装置が、
　ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定することと、
　前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定することと
　を含む情報処理方法。
　情報処理装置のコンピュータに、
　ユーザの対話状態に応じて更新されるユーザ情報に基づいて、進行中の対話のコンテキストに沿った話題を選定することと、
　前記話題を発話するタイミングであるか否かを、複数の前記ユーザの間で行われている対話で最後にターンテイキングが生じてからの時間に従って判定することと
　を含む情報処理を実行させるためのプログラム。