JPWO2017175442A1

JPWO2017175442A1 - 情報処理装置、および情報処理方法

Info

Publication number: JPWO2017175442A1
Application number: JP2018510235A
Authority: JP
Inventors: 秀明渡辺
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-04-08
Filing date: 2017-01-16
Publication date: 2019-02-21
Anticipated expiration: 2037-01-16
Also published as: US20190026265A1; EP3441889A1; WO2017175442A1; JP6973380B2; EP3441889A4

Abstract

【課題】コンテキストに応じて応答を出力することで、様々な環境下に適した理解し易い応答を行うことが可能な情報処理装置、および情報処理方法を提供する。
【解決手段】入力された発話情報を送信する第一の送信部と、取得したコンテキスト情報を送信する第二の送信部と、前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御する出力制御部と、を備える、情報処理装置。
【選択図】図１

Description

本開示は、情報処理装置、および情報処理方法に関する。

近年、ユーザの発話音声に対して音声認識・意味解析を行い、音声により応答する技術の開発が行われている。特に昨今の音声認識アルゴリズムの進歩とコンピュータ技術の発展により、音声認識処理を実用的な時間で行うことが可能となり、音声を用いたＵＩ（ユーザインタフェース）がスマートフォンやタブレット端末等で普及してきている。

音声入力に関して、例えば下記特許文献１では、人間のジェスチャ、視線といった直接的な指示と、人間の発話音声とを統合的に解析して人間が何に対してどのように注目しているのかというユーザの注目情報として解析結果を出力するマルチモーダル情報解析装置が開示されている。

特開２０００−２３１４２７号公報

ここで、システムから出力される応答は、ユーザの状況や環境を考慮せずに提示されるため、ユーザが応答結果を理解し難い場合があった。

そこで、本開示では、コンテキストに応じて応答を出力することで、様々な環境下に適した理解し易い応答を行うことが可能な情報処理装置、および情報処理方法を提案する。

本開示によれば、入力された発話情報を送信する第一の送信部と、取得したコンテキスト情報を送信する第二の送信部と、前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御する出力制御部と、を備える、情報処理装置を提案する。

本開示によれば、入力された発話情報を受信する第一の受信部と、取得したコンテキスト情報を受信する第二の受信部と、前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御する出力制御部と、を備える、情報処理装置を提案する。

本開示によれば、プロセッサが、入力された発話情報を送信することと、取得したコンテキスト情報を送信することと、前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御することと、を含む、情報処理方法を提案する。

本開示によれば、プロセッサが、入力された発話情報を受信することと、取得したコンテキスト情報を受信することと、前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御することと、を含む、情報処理方法を提案する。

以上説明したように本開示によれば、コンテキストに応じて応答を出力することで、様々な環境下に適した理解し易い応答を行うことが可能となる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本実施形態による情報処理装置の概要を説明する図である。本実施形態によるシステムの全体構成を説明する図である。本実施形態による情報処理装置の構成の一例を示すブロック図である。本実施形態による制御部の機能構成例を示す図である。本実施形態によるサーバの構成の一例を示すブロック図である。本実施形態による発話意味解析部により解析される情報の具体例を示す図である。本実施形態によるコンテキスト情報の具体例を示す図である。本実施形態による応答情報の具体例を示す図である。本実施形態による応答制御処理を示すシーケンス図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、説明は以下の順序で行うものとする。
１．本開示の一実施形態による情報処理装置の概要
２．構成
２−１．情報処理装置１の構成
２−２．サーバ２の構成
３．動作
４．まとめ

＜１．本開示の一実施形態による情報処理装置の概要＞
まず、本開示の一実施形態による情報処理装置の概要について説明する。図１は、本実施形態による情報処理装置１の概要を説明する図である。図１に示すように、本実施形態による情報処理装置１は、音声入力部１０（例えばマイクアレイ）および音声出力部１６を有し、ユーザとの音声対話を実現するエージェント機能を有する。具体的には、情報処理装置１は、ユーザの発話音声を音声入力部１０により取得し、ユーザの発話に対する応答情報を音声出力部１６からユーザに対して返答する。例えば明日の天気の問い合わせをユーザから受けた場合、情報処理装置１は明日の天気情報をユーザに応答する。

さらに、本実施形態による情報処理装置１は画像出力部１４を有していてもよく、ユーザに応答する際に画像情報を表示することが可能である。

また、本実施形態による情報処理装置１は、図１に示すような据え置き型のホームエージェント装置であってもよいし、自走型のホームエージェント装置（例えばロボット）であってもよい。また、情報処理装置１は、スマートフォン、タブレット端末、携帯電話端末、ウェアラブル端末等のモバイル端末であってもよいし、パーソナルコンピュータ、ゲーム機、音楽プレイヤー、車載端末等であってもよい。

また、本実施形態による情報処理装置１は、サーバ２と接続し、サーバ２とデータの送受信を行い、ユーザへの応答処理を行い得る。情報処理装置１とサーバ２を含む本実施形態によるシステムの全体構成について図２を参照して説明する。図２に示すように、情報処理装置１は、ネットワーク３を介してサーバ２に接続し、また、ホームネットワーク４を介してホーム内の各種機器（周辺装置５）と接続する。周辺装置５は、情報処理装置１の周辺（若しくはユーザの周辺）に存在し、音声出力部、表示出力部、または照明出力部等を有する各種装置である。具体的には、例えばテレビ受像機５１、オーディオ機器５２、照明機器５３、スマートフォン５４、ＰＣ５５が想定される。ホームネットワーク４は、例えばＷｉ−Ｆｉ（登録商標）、赤外線通信、またはＢｌｕｅｔｏｏｔｈ（登録商標）等が利用され得る。

ここで、既存の音声対話システムでは、ユーザの状況や環境を考慮せずに応答が出力されるため、ユーザが応答結果を理解し難い場合があった。例えばシステムから長い文章で音声応答された場合、ユーザは理解することが困難であった。また、テレビを見ていたり掃除機をかけている際に音声で応答されても聞こえ難い場合があった。また、ユーザが電話を行っている時にシステムから通知があっても気付き難かったり注意を向けられない場合があった。さらに、例えば共有している家族の予定を確認した際に、予定を入力した者にしか分からないようなキーワード等を含む予定がそのまま提示されても、ユーザ（発話者）には内容が理解できないという問題があった。

そこで、本開示では、コンテキストに応じて応答を出力することで、様々な環境下に適した理解し易い応答を行うことを可能とする。具体的には、例えば情報処理装置１は、ユーザのコンテキスト（例えば、誰が聞いているか、時刻、ユーザの行動・状況、環境状態、ユーザの予定等）を取得し、ユーザのコンテキストに応じた適切な出力形式、出力先（出力部）、および出力タイミングで応答を提示することで、ユーザが容易に応答内容を理解できるようにする。

以上、本実施形態による情報処理装置１の概要およびシステム全体の概要について説明した。続いて、本実施形態による情報処理装置１およびサーバ２の構成について順次説明する。

＜２．構成＞
＜２−１．情報処理装置１の構成＞
図３は、本実施形態による情報処理装置１の構成の一例を示すブロック図である。図３に示すように、情報処理装置１は、音声入力部１０、音声認識部１１、制御部１２、通信部１３、画像出力部１４、音声合成部１５、および音声出力部１６を有する。

音声入力部１０は、ユーザ音声や周辺の環境音を収音し、音声信号を音声認識部１１に出力する。具体的には、音声入力部１０は、マイクロホンおよびアンプ等により実現される。また、音声入力部１０は、複数のマイクロホンから成るマイクアレイにより実現されてもよい。

音声認識部１１は、音声入力部１０から出力された音声信号に対して音声認識を行い、ユーザの発話音声をテキスト化する。テキスト化した発話データは、制御部１２に出力される。

制御部１２は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置１内の動作全般を制御する。制御部１２は、例えばＣＰＵ（Central Processing Unit）、マイクロプロセッサ等の電子回路によって実現される。また、制御部１２は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read Only Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random Access Memory）を含んでいてもよい。

また、本実施形態による制御部１２は、音声認識部１１から出力されたユーザ発話データ（テキスト情報）に対して応答する発話情報（応答情報）や、自発的な発話情報（ユーザへの通知等）を、画像出力部１４または音声合成部１５に出力する。例えば制御部１２は、音声入力されたユーザ発話に基づく発話情報を通信部１３からサーバ２へ送信し、サーバ２から返送され通信部１３で受信した応答情報を画像出力部１４または音声合成部１５に出力したり、当該応答情報を通信部１３からホームネットワーク４内の周辺装置５に出力したりしてもよい。制御部１２の詳細な構成については図４を参照して後述する。

通信部１３は、有線／無線により他の装置との間でデータの送受信を行う通信モジュールである。通信部１３は、例えば有線ＬＡＮ（Local Area Network）、無線ＬＡＮ、Ｗｉ−Ｆｉ（Wireless Fidelity、登録商標）、赤外線通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）、近距離／非接触通信等の方式で、外部機器と直接またはネットワークアクセスポイントを介して無線通信する。

また、通信部１３は、サーバ２と接続し、所定のデータの送受信を行う。例えば通信部１３は、ユーザ発話に基づく発話情報をサーバ２に送信したり、サーバ２からユーザ発話への応答情報等を受信したりする。本明細書において「発話情報」とは、ユーザが入力した発話の情報の他、当該情報の全部または一部を認識／解析／分析／推定し、音声形式、テキスト形式、または特徴量のベクトル形式等その他の形式に変換したものも含む。また、通信部１３は、周辺装置５等から取得した機器情報やセンサ情報をサーバ２へ送信する。

また、本実施形態による通信部１３は、例えばカメラ、ユーザ端末（例えばスマートフォン）、センサ類から各種情報を受信する。センサ類はユーザ端末に設けられてもよいし、ユーザが装着するウェアラブル端末に設けられていてもよいし、部屋のドアやソファー、廊下等に設置されていてもよい。センサ類としては、例えばジャイロセンサ、加速度センサ、方位センサ、位置測位部、および生体センサ等が想定される。

画像出力部１４は、例えば液晶ディスプレイ（LCD）装置、ＯＬＥＤ（Organic Light Emitting Diode）装置等により実現される。画像出力部１４は、制御部１２から出力された画像情報をユーザに表示する。

音声合成部１５は、制御部１２から出力された発話情報（テキスト）を音声データに変換（音声化）し、音声出力部１６に出力する。

音声出力部１６は、音声合成部１５から出力された音声データをユーザに出力する。具体的には、音声出力部１６は、スピーカおよびアンプ等により実現されている。

（制御部１２の詳細構成）
続いて、図４を参照して本実施形態による制御部１２の詳細構成について説明する。図４は、本実施形態による制御部１２の機能構成例を示す図である。

図４に示すように、本実施形態による制御部１２は、ローカル発話意味解析部１２１、ローカルユーザ登録情報記憶部１２２、ローカル情報検索部１２３、ローカルコンテキスト認識部１２４、ローカル応答情報生成部１２５、およびローカル出力制御部１２６として機能する。

ローカル発話意味解析部１２１は、音声認識部１１から入力された発話データ（テキスト）に対していわゆる自然言語処理を適用し、発話中のキーワードの抽出やユーザの発話意図の推定等を行なう。本実施形態によるローカル発話意味解析部１２１は、後述するサーバ２の発話意味解析部２０１のサブセットであって、簡易の発話意味解析機能を有する。

ローカルユーザ登録情報記憶部１２２は、ユーザ情報（プロファイル）やユーザにより登録された情報（ユーザ登録情報と称す）を記憶する。本実施形態によるローカルユーザ登録情報記憶部１２２は、後述するサーバ２のユーザ登録情報記憶部２２のサブセットであって、記憶するデータ量は少ない（例えば直近３カ月に登録された情報を記憶する）。

ローカル情報検索部１２３は、ユーザの要求が「検索」の場合、ローカル発話意味解析部１２１または発話意味解析部２０１により抽出された検索キーワードに基づいて、ローカルユーザ登録情報記憶部１２２から検索を行う。本実施形態によるローカル情報検索部１２３は、後述するサーバ２の情報検索部２０２のサブセットであって、簡易の情報検索機能を有する。

ローカルコンテキスト認識部１２４は、ユーザ（発話者）のコンテキストを逐次認識、推定し、コンテキスト情報を出力する。例えば、ローカルコンテキスト認識部１２４は、情報処理装置１や、情報処理装置１と無線／有線により接続する周辺装置（テレビ受像機５１、スマートフォン５４、照明機器５３等）に設けられるマイクロホン、カメラ、または各種センサ等により取得されたセンサ情報（音声情報、画像情報、センサ値等）や、機器情報に基づいて、ユーザのコンテキストを認識（推定）する。本実施形態によるローカルコンテキスト認識部１２４は、後述するサーバ２のコンテキスト認識部２０３のサブセットであって、簡易のコンテキスト認識機能を有する。

ローカル応答情報生成部１２５は、ユーザの発話に対する応答に関する情報を生成する。例えば本実施形態によるローカル応答情報生成部１２５は、検索結果とコンテキスト情報とに基づいて、ユーザ状況や環境等のコンテキストに応じた応答情報を生成する。本実施形態によるローカル応答情報生成部１２５は、後述するサーバ２の応答情報生成部２０４のサブセットであって、簡易の応答情報生成機能を有する。なお応答情報には、応答内容、出力形式（音声出力、テキスト出力、画像出力、または光出力等）、および出力部（出力先；例えば情報処理装置１、または音声出力装置、表示装置、情報処理端末、または照明装置等の周辺装置５）の情報が含まれる。

ローカル出力制御部１２６は、ローカル応答情報生成部１２５または応答情報生成部２０４により生成された応答情報と、コンテキスト情報に基づいて、ユーザのコンテキストに応じた最適な出力方式と出力先で応答情報を出力するよう制御する。具体的には、ローカル出力制御部１２６は、応答情報、出力開始条件、出力終了条件を含む出力情報を生成し、最適な出力先に出力する。本実施形態によるローカル出力制御部１２６は、後述するサーバ２の出力制御部２０５のサブセットであって、簡易の出力制御機能を有する。

なお、ローカル出力制御部１２６から出力された出力情報は、画像出力部１４、音声合成部１５、または通信部１３を介して周辺装置５に出力される。画像出力部１４に出力された場合、応答内容（テキスト、画像）が画面に表示、若しくは壁等に投影される。また、音声合成部１５に出力された場合、応答内容が音声化され、音声出力部１６から再生される。また、通信部１３を介して有線／無線で接続する周辺のテレビ受像機５１、オーディオ機器５２、照明機器５３、スマートフォン５４、ＰＣ５５等に送信された場合、これらの周辺装置５からテキストや音声等によりユーザに提示される。

以上、本実施形態による情報処理装置１の構成について具体的に説明した。なお本実施形態による情報処理装置１の構成は図３および図４に示す例に限定されない。例えば情報処理装置１は、ローカル発話意味解析部１２１、ローカルユーザ登録情報記憶部１２２、ローカル情報検索部１２３、ローカルコンテキスト認識部１２４、およびローカル応答情報生成部１２５の全てまたは一部を有さない構成であってもよい。また、情報処理装置１が人感センサやカメラを有していてもよい。

また、情報処理装置１は、ローカルユーザ登録情報記憶部１２２、ローカル情報検索部１２３、ローカルコンテキスト認識部１２４、またはローカル応答情報生成部１２５による処理が対応できない場合にサーバ２へ対応する処理の要求を行ってもよい。また、情報処理装置１は、ローカルユーザ登録情報記憶部１２２、ローカル情報検索部１２３、ローカルコンテキスト認識部１２４、またはローカル応答情報生成部１２５で処理を行うと共に、サーバ２に対して対応する処理要求を行い、いずれかの処理結果を利用するようにしてもよい。

＜２−２．サーバ２の構成＞
次に、図５を参照して本実施形態によるサーバ２の構成について説明する。図５は、本実施形態によるサーバ２の構成の一例を示すブロック図である。

図５に示すように、本実施形態によるサーバ２は、制御部２０、通信部２１、およびユーザ登録情報記憶部２２を有する。

通信部２１は、外部装置と接続し、データの送受信を行う。例えば通信部２１は、情報処理装置１から発話情報やセンサ情報を受信したり、後述する応答情報生成部２０４で生成された応答情報を情報処理装置１に送信したりする。

ユーザ登録情報記憶部２２は、ユーザ情報（プロファイル）やユーザにより登録された情報（ユーザ登録情報と称す）を記憶する。例えばユーザ登録情報は、予定（スケジュール）、備忘録（メモ）、他ユーザへの伝言等が想定される。

制御部２０は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ２内の動作全般を制御する。制御部２０は、例えばＣＰＵ、マイクロプロセッサ等の電子回路によって実現される。また、制御部２０は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ、及び適宜変化するパラメータ等を一時記憶するＲＡＭを含んでいてもよい。

本実施形態による制御部２０は、図５に示すように、発話意味解析部２０１、情報検索部２０２、コンテキスト認識部２０３、応答情報生成部２０４、および出力制御部２０５として機能する。

発話意味解析部２０１は、情報処理装置１から送信された発話情報に対していわゆる自然言語処理を適用し、発話中のキーワードの抽出やユーザの発話意図の推定等を行なう。発話情報は、例えば「２月２８日１０時からピアノ教室」、「今日の予定は？」等の音声認識処理によりテキスト化されたデータ等、様々想定される。本実施形態による発話意味解析部２０１は、例えばユーザがどのような要求（情報を登録したい、検索したい等）をしているのかを解析し、発話データから登録対象の情報や検索キーワードを抽出する。ユーザの要求が「登録」の場合、抽出された登録対象の情報がユーザ登録情報記憶部２２に格納される。また、ユーザの要求が「検索」の場合、抽出された検索キーワードが情報検索部２０２に出力される。ここで、発話意味解析部２０１により解析される情報の具体例を図６に示す。図示されたように、例えばアプリケーション（カレンダーアプリケーション、備忘録アプリケーション等）や、当該アプリケーションで行う操作内容（登録、検索、削除等）の推定、および検索キーワードや登録情報等の値（「１３時美容院」、「週末の予定」、「明日」等）の抽出が行われる。

情報検索部２０２は、ユーザの要求が「検索」の場合、発話意味解析部２０１により抽出された検索キーワードに基づいて、ユーザ登録情報記憶部２２から検索を行い、結果を応答情報生成部２０４に出力する。例えば、「週末のみんなの予定を教えて」という要求の場合、情報検索部２０２は、ユーザ登録情報記憶部２２に登録された家族全員（ここでは、「みんな」とは『家族』を示すことが発話意味解析部２０１により推定される）の予定情報から「週末」の予定を検索する。

コンテキスト認識部２０３は、ユーザ（発話者）のコンテキストを逐次認識、推定し、コンテキスト情報を出力する。具体的には、コンテキスト認識部２０３は、情報処理装置１から送信されるセンサ情報に基づいて、ユーザのコンテキストを認識（推定）する。かかるセンサ情報は、情報処理装置１や、情報処理装置１と無線／有線により接続する周辺装置５（テレビ受像機５１、オーディオ機器５２、照明機器５３、スマートフォン５４等）に設けられるマイクロホン、カメラ、または各種センサ等により取得された情報（音声情報、画像情報、センサ値等）を含む。また、コンテキスト認識部２０３は、情報処理装置１から送信された情報処理装置１や周辺装置５等の機器情報（ON/OFF情報、操作情報等）に基づいてユーザのコンテキストを認識（推定）することも可能である。ユーザのコンテキストとは、例えばユーザが誰であるか（発話者の識別）、ユーザ状態（行動、状況、画像からのユーザ視線方向推定、同視線方向推定に基づくユーザのアテンションのある物体の推定）、環境状態（ユーザが一人でいるのか複数人でいるのか等のユーザ環境、ユーザ位置）、または機器状態（ユーザ周辺に存在する機器の状態）等が想定される。コンテキスト情報とは、画像、音声、各種センサ情報から直接得られる前述のユーザ状態、環境状態、機器状態の他、これらの情報を認識／解析／分析／推定した結果、間接的に得られる情報を含む。ここで、コンテキスト情報の具体例を図７に示す。図示されたように、例えばユーザ状態として、ＴＶを見ている、部屋にいない、家事をしている等が推定される。また、機器状態として、情報処理装置１が制御可能なデバイス情報、具体的にはテレビ受像機５１のＯＮ／ＯＦＦ、スマートフォン５４、照明機器５３の状態等が認識される。また、環境状態として、騒音レベル（煩さ）や部屋の照度レベル（明るさ）等が認識される。

応答情報生成部２０４は、ユーザの発話に対する応答に関する情報を生成する。例えば本実施形態による応答情報生成部２０４は、情報検索部２０２から出力された検索結果と、コンテキスト認識部２０３から出力されたコンテキスト情報とに基づいて、ユーザ状況や環境等のコンテキストに応じた応答情報を生成する。より具体的には、応答情報生成部２０４は、検索結果およびコンテキスト情報に基づいて、応答内容、出力形式（音声、テキスト、ライト等）の指定、出力先（情報処理装置１、テレビ受像機５１、オーディオ機器５２、スマートフォン５４、照明機器５３、ＰＣ５５等）の指定を含む応答情報を生成する。また、応答情報生成部２０４は、出力の候補となり得る応答情報を複数生成して出力制御部２０５に出力してもよい。

ここで、応答情報の具体例を図８に示す。図８では、いずれも発話内容が週末の予定の問い合わせ（「週末のみんなの予定を教えて？」）であって、当該発話の意味解析結果に基づいて情報検索部２０２により、
「土曜日、１３時Ｃさん（登録者：ユーザＡ）
日曜日、１０時ユーザＢサッカー
日曜日、１８時ユーザＢ町内会」
というユーザ登録情報が検索された場合における応答情報の一例が示されている。具体的には、発話者がユーザＡ、ユーザＢの場合に生成される応答情報が示されている。ここでは、ユーザＡとユーザＢが家族（夫婦）であって、情報処理装置１をホームエージェントとして利用し、互いのスケジュールを共有している場合を想定する。

応答情報生成部２０４は、例えば図８の応答情報例に示すように、「発話者：ユーザＡ（妻）」、「ユーザ状態：発話者が情報処理装置１を見ている」というコンテキスト情報と、上記検索結果に応じて、「出力機器：情報処理装置１」、「出力形式：表示出力（テキスト）」、「出力内容（応答内容）：検索した情報をそのまま表示」という応答情報を生成する。ここでは、ユーザＡが情報処理装置１の方に視線を向けているため、応答情報を情報処理装置１に表示することで、ユーザが応答情報を容易に理解できるようにすることが可能となる。また、表示出力という形式のため、ある程度長い文章（ここでは、週末の３つの予定全ての内容）をそのまま出力してもユーザが容易に理解できるため、検索したユーザ登録情報がそのまま表示するものとする。

また、応答情報生成部２０４は、例えば図８の応答情報例に示すように、「発話者：ユーザＡ（妻）」、「ユーザ状態：発話者が手元を見ている。環境：部屋は静かな状態」というコンテキスト情報と、上記検索結果に応じて、「出力機器：情報処理装置１」、「出力形式：音声出力」、「出力内容（応答内容）：検索した情報を要約」という応答情報を生成する。ここでは、ユーザＡが手元を見ており、かつ部屋は静かな状態であるため、応答情報を音声出力することで、ユーザが応答情報を容易に理解できるようにすることが可能となる。また、音声出力という形式のため、長い文章を出力してもユーザが理解し難いため、検索ユーザ登録情報を要約することでユーザが理解し易いようにすることができる。

また、応答情報生成部２０４は、例えば図８の応答情報例に示すように、「発話者：ユーザＢ（夫）」、「ユーザ状態：発話者がＴＶを見ている」というコンテキスト情報と、上記検索結果に応じて、「出力機器：ＴＶ」、「出力形式：表示出力（テキスト）」、「出力内容（応答内容）：検索した情報を発話者が理解できる内容に変更して表示」という応答情報を生成する。ここでは、ユーザＢがＴＶを見ているため、応答情報をテレビ受像機５１に表示することで、ユーザが応答情報を容易に理解できるようにすることが可能となる。また、検索したユーザ登録情報のうち、ユーザＡによって登録された情報が「土曜日、１３時Ｃさん」というように、固有名詞「Ｃさん」が用いられている場合、登録した本人以外にはどのような予定であるのか理解するのは困難である。そこで、例えば家族に関する知識データベースが予め構築されている場合、応答情報生成部２０４は、当該知識データベースを用いて登録者以外も容易に理解できる応答内容に変更する。具体的には、例えば知識データベースから「Ｃさん：○○美容院の美容師」という情報が抽出できた場合、応答情報生成部２０４は、「土曜日、１３時Ｃさん」を『土曜日、１３時ユーザＡ ○○美容院』に変更してユーザＢも理解できる応答内容を生成する。

以上、本実施形態による応答情報例について説明した。上述した例では、応答情報生成部２０４がコンテキスト情報に応じて応答内容を変更する場合について説明したが、本実施形態はこれに限定されず、例えば検索結果に応じて応答内容を変更してもよい。具体的には、例えば検索結果が１件の場合は「音声」で返答するが、検索結果が複数の場合は「表示（またはプロジェクターによる投影）」で返答するようにしてもよい。検索結果が多い場合は音声で聞くよりも表示画面を視認した方が理解し易いためである。

また、本実施形態による応答情報生成部２０４は、複数のコンテキストに応じた応答情報を生成し、生成した複数の応答情報を出力制御部２０５に出力してもよい。例えば発話者ユーザＡの場合に、図８に示す「ユーザ状態：情報理装置１を見ている場合」と、「ユーザ状態：手元（情報処理装置１以外）を見ている場合」等の異なるコンテキストにそれぞれ対応する応答情報を生成し、出力制御部２０５に出力する。

出力制御部２０５は、応答情報生成部２０４により生成された応答情報と、コンテキスト情報に基づいて、ユーザのコンテキストに応じた最適な出力方式と出力先で応答情報を出力するよう制御する。具体的には、出力制御部２０５は、応答情報を含む出力情報を生成し、最適な出力先に出力する。ここで、コンテキストは逐次変化するため、出力制御部２０５は、出力時におけるユーザのリアルタイムのコンテキスト情報に応じて最適な応答情報を選択し、出力情報として出力することも可能である。

なお、出力制御部２０５から出力された出力情報は、情報処理装置１の画像出力部１４、音声合成部１５、または周辺装置５等に出力される。画像出力部１４に出力された場合、応答内容（テキスト、画像）が画面に表示、若しくは壁等に投影される。また、音声合成部１５に出力された場合、応答内容が音声化され、音声出力部１６から再生される。また、ユーザ周辺のテレビ受像機５１、オーディオ機器５２、照明機器５３、スマートフォン５４、ＰＣ５５等の周辺装置５に送信された場合、これらの周辺装置５からテキストや音声等によりユーザに提示される。なお周辺装置５へは、情報処理装置１を介して出力情報が送信されてもよい。

また、出力制御部２０５は、コンテキスト情報に応じて出力タイミングを制御することも可能である。具体的には、出力制御部２０５は、コンテキスト情報に応じて最適な出力開始条件と出力終了条件を生成し、出力情報に含めて出力先へ出力する。出力開始条件は、例えば「即座に、時間指定（15:00等）、ユーザ状態指定（電話が終了してから等）」等が挙げられる。また、出力終了条件は、「回数指定（１回だけ等）、時間指定（６０秒間等）、ユーザ状態指定（ユーザが部屋から出るまで等）」等が挙げられる。これにより、例えばユーザ環境の騒音が静かになった時（掃除等が終了した時）等に、音声で応答情報を提示したりすることが可能となる。

以上、本実施形態によるサーバ２の構成について具体的に説明した。なお本実施形態によるサーバ２の構成は図５に示す例に限定されない。例えばサーバ２の発話意味解析部２０１、情報検索部２０２、コンテキスト認識部２０３、応答情報生成部２０４、出力制御部２０５、およびユーザ登録情報記憶部２２の全てまたは一部が、外部装置（例えば情報処理装置１）に設けられていてもよい。

また、発話意味解析部２０１、情報検索部２０２、コンテキスト認識部２０３、応答情報生成部２０４、および出力制御部２０５の少なくともいずれかの処理が情報処理装置１側の対応するサブセットで行われ、その処理結果を情報処理装置１から受信してサーバ２側で利用してもよい。

＜３．動作＞
続いて、本実施形態による動作処理について図９を参照して説明する。図９は、本実施形態による応答制御処理を示すシーケンス図である。本実施形態による応答制御処理は、情報処理装置１で起動するシステム（アプリケーションプログラム）およびサーバ２で起動するシステム（アプリケーションプログラム）により実行される。

図９に示すように、まず、情報処理装置１は、センサ情報を取得し（ステップＳ１００）、サーバ２に送信する（ステップＳ１０３）。センサ情報は、例えば撮像画像、収音音声、または各種センサ値等であって、情報処理装置１または周辺装置５等に設けられたカメラ、マイク、センサ等により検知され得る。サーバ２に送信されるセンサ情報は、検知された生データであってもよいし、生データから特徴量抽出等、所定の加工を行ったデータであってもよい。

次に、サーバ２のコンテキスト認識部２０３は、センサ情報に基づいてコンテキストを認識し、認識結果（コンテキスト情報）を蓄積する（ステップＳ１０６）。なおステップＳ１００〜Ｓ１０６に示すコンテキストの認識、蓄積処理は、ステップＳ１０９以降の処理を行っている間も逐次行われ得る。

次いで、情報処理装置１は、ユーザからの発話を認識すると（ステップＳ１０９／Ｙｅｓ）、発話情報をサーバ２に送信する（ステップＳ１１２）。サーバ２に送信される発話情報は、収音されたユーザ発話の音声データであってもよいし、音声認識処理によりテキスト化されたテキストデータの他、音声データを認識／解析／分析／推定した結果、間接的に得られるデータであってもよい。

次に、サーバ２の発話意味解析部２０１は、発話情報に基づいてユーザ発話の意味解析を行い、検索条件や検索キーワードを抽出する（ステップＳ１１５）。

次いで、サーバ２は、情報検索部２０２により、上記抽出した検索条件、検索キーワードを用いて、ユーザ登録情報記憶部２２に記憶されているユーザ登録情報から検索を行う（ステップＳ１１８）。

次に、サーバ２は、コンテキスト認識部２０３により蓄積されたコンテキスト情報を取得する（ステップＳ１２１）。

次いで、サーバ２は、応答情報生成部２０４により、検索結果およびコンテキスト情報に基づいて、ユーザの状況や周辺環境に応じた応答情報の候補を生成する（ステップＳ１２４）。

続いて、サーバ２の出力制御部２０５は、現在のコンテキスト情報に基づいて、最適な応答タイミングであるか否かを判断する（ステップＳ１２７）。具体的には、出力制御部２０５は、コンテキスト情報に基づく現在の状況が出力開始条件を満たすか否かを判断する。

次いで、最適な応答タイミングであると判断した場合（ステップＳ１２７／Ｙｅｓ）、出力制御部２０５は、ユーザの状況（現在のコンテキスト情報）に応じた最適な応答出力制御を行う。具体的には、例えば出力先が情報処理装置１（画像出力部１４、または音声出力部１６等）である場合、出力制御部２０５は情報処理装置１に出力情報（応答情報、出力開始条件、出力終了条件を含む）を送信し（ステップＳ１３０）、情報処理装置１において応答情報が出力される（ステップＳ１３３）。一方、出力先が周辺装置５である場合、出力制御部２０５は同様に出力情報を周辺装置５に送信し（ステップＳ１３６）、周辺装置５において応答情報が出力される（ステップＳ１３９）。

なお、本実施形態による処理は図９に示す例に限定されず、例えばサーバ２が情報処理装置１に複数の応答情報の候補を送信し、情報処理装置１のローカル出力制御部１２６により最適な応答タイミングを判断し、情報処理装置１からの出力、またはホームネットワーク４を介して接続する周辺装置５からの出力を制御してもよい。

＜４．まとめ＞
上述したように、本開示の実施形態による情報処理装置１では、コンテキストに応じて応答を生成し、出力することで、様々な環境下に適した理解し易い応答を行うことを可能とする。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上述した情報処理装置１に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、情報処理装置１の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

また、本実施形態では図２を参照して情報処理装置１とサーバ２を含むシステムとして説明したが、本実施形態はこれに限定されず、サーバ２で行われる処理を全て情報処理装置１が行う構成とし、情報処理装置１単体で実現してもよい。例えば、情報処理装置１が、図４を参照して説明した構成（端末側モジュール）と、図５を参照して説明した構成（サーバ側モジュール）を含む構成であってもよい。

また、本実施形態によるシステム構成は、図２に示す例に限定されず、例えば情報処理装置１とサーバ２の間にエッジサーバを含むシステムであってもよい。エッジサーバは、発話意味解析部２０１、情報検索部２０２、コンテキスト認識部２０３、応答情報生成部２０４、またはユーザ登録情報記憶部２２の少なくともいずれかに対応するサブセット（外部サブセット）を有する。エッジサーバの外部サブセットは情報処理装置１のサブセット（内部サブセット）よりも高い性能を有する。

なお、本実施形態による情報処理装置１とユーザの対話は音声に限定されず、ジェスチャー（手話、身振り手振り）やテキスト（チャット）であってもよい。この場合、例えばタッチパネル付のディスプレイや、ディスプレイとキーボードによる入力等を介してインタラクションが実現される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、本技術は以下のような構成も取ることができる。
（１）
入力された発話情報を送信する第一の送信部と、
取得したコンテキスト情報を送信する第二の送信部と、
前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御する出力制御部と、
を備える、情報処理装置。
（２）
入力された発話情報を受信する第一の受信部と、
取得したコンテキスト情報を受信する第二の受信部と、
前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御する出力制御部と、
を備える、情報処理装置。
（３）
前記出力制御部は、前記応答情報と、前記コンテキスト情報に応じた出力開始条件および出力終了条件を含む出力情報を前記出力先に出力する、前記（１）または（２）に記載の情報処理装置。
（４）
前記応答情報は、応答内容、出力形式、および出力先の情報を含む、前記（１）〜（３）のいずれか１項に記載の情報処理装置。
（５）
前記出力形式は、音声出力、テキスト出力、画像出力、または光出力を示す、前記（４）に記載の情報処理装置。
（６）
前記出力先は、前記情報処理装置、音声出力装置、表示装置、情報処理端末、または照明装置を示す、前記（４）または（５）に記載の情報処理装置。
（７）
前記応答内容は、発話者に応じて変更される、前記（４）〜（６）のいずれか１項に記載の情報処理装置。
（８）
前記応答内容は、出力形式に応じて変更される、前記（４）〜（７）のいずれか１項に記載の情報処理装置。
（９）
前記出力制御部は、リアルタイムのコンテキスト情報に応じて出力制御する、前記（１）〜（８）のいずれか１項に記載の情報処理装置。
（１０）
プロセッサが、
入力された発話情報を送信することと、
取得したコンテキスト情報を送信することと、
前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御することと、
を含む、情報処理方法。
（１１）
プロセッサが、
入力された発話情報を受信することと、
取得したコンテキスト情報を受信することと、
前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御することと、
を含む、情報処理方法。

１情報処理装置
１０音声入力部
１１音声認識部
１２制御部
１３通信部
１４画像出力部
１５音声合成部
１６音声出力部
１２１ローカル発話意味解析部
１２２ローカルユーザ登録情報記憶部
１２３ローカル情報検索部
１２４ローカルコンテキスト認識部
１２５ローカル応答情報生成部
１２６ローカル出力制御部
２サーバ
２０制御部
２０１発話意味解析部
２０２情報検索部
２０３コンテキスト認識部
２０４応答情報生成部
２０５出力制御部
２１通信部
２２ユーザ登録情報記憶部
３ネットワーク
４ホームネットワーク
５周辺装置

Claims

入力された発話情報を送信する第一の送信部と、
取得したコンテキスト情報を送信する第二の送信部と、
前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御する出力制御部と、
を備える、情報処理装置。
入力された発話情報を受信する第一の受信部と、
取得したコンテキスト情報を受信する第二の受信部と、
前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御する出力制御部と、
を備える、情報処理装置。
前記出力制御部は、前記応答情報と、前記コンテキスト情報に応じた出力開始条件および出力終了条件を含む出力情報を前記出力先に出力する、請求項２に記載の情報処理装置。
前記応答情報は、応答内容、出力形式、および出力先の情報を含む、請求項２に記載の情報処理装置。
前記出力形式は、音声出力、テキスト出力、画像出力、または光出力を示す、請求項４に記載の情報処理装置。
前記出力先は、前記情報処理装置、音声出力装置、表示装置、情報処理端末、または照明装置を示す、請求項４に記載の情報処理装置。
前記応答内容は、発話者に応じて変更される、請求項４に記載の情報処理装置。
前記応答内容は、出力形式に応じて変更される、請求項４に記載の情報処理装置。
前記出力制御部は、リアルタイムのコンテキスト情報に応じて出力制御する、請求項２に記載の情報処理装置。
プロセッサが、
入力された発話情報を送信することと、
取得したコンテキスト情報を送信することと、
前記コンテキスト情報に基づき決定された出力先に、前記発話情報への応答情報を出力するよう制御することと、
を含む、情報処理方法。
プロセッサが、
入力された発話情報を受信することと、
取得したコンテキスト情報を受信することと、
前記発話情報に基づき生成された応答情報を、前記コンテキスト情報に基づき決定された出力先に出力するよう制御することと、
を含む、情報処理方法。