WO2019026360A1

WO2019026360A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2019026360A1
Application number: PCT/JP2018/016513
Authority: WO
Inventors: 広岩瀬; 真一河野; 真里斎藤; 祐平滝
Original assignee: ソニー株式会社
Priority date: 2017-07-31
Filing date: 2018-04-24
Publication date: 2019-02-07
Also published as: JPWO2019026360A1; EP3663933A4; US20210158836A1; US11250873B2; EP3663933A1; CN110945473A

Abstract

【課題】ユーザにコンテンツの流れを効果的に知覚させる。【解決手段】ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させる出力制御部、を備え、前記出力制御部は、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定する、情報処理装置が提供される。また、プロセッサが、ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させること、を含み、前記出力させることは、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定すること、をさらに含む、情報処理方法が提供される。

Description

情報処理装置および情報処理方法

　本開示は、情報処理装置および情報処理方法に関する。

　近年、ユーザに対し音声や視覚情報を用いて情報提示を行う種々の装置が普及している。また、情報提示の中断や再開に際し、ユーザの利便性を向上させる技術も開発されている。例えば、特許文献１には、音声発話の再開時に、中断時間に応じて再発話の再開位置を制御する技術が開示されている。

特開２０１１－２２７２３６号公報

　しかし、特許文献１に記載の技術では、ユーザが中断前の発話内容と再開された発話内容とを正確に結び付け、発話全体の意図を正しく解釈することが困難な場合がある。

　そこで、本開示では、ユーザにコンテンツの流れを効果的に知覚させることが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。

　本開示によれば、ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させる出力制御部、を備え、前記出力制御部は、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定する、情報処理装置が提供される。

　また、本開示によれば、プロセッサが、ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させること、を含み、前記出力させることは、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定すること、をさらに含む、情報処理方法が提供される。

　以上説明したように本開示によれば、ユーザにコンテンツの流れを効果的に知覚させることが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示に係る技術思想の概要について説明するための図である。本開示の一実施形態に係る情報処理システムの構成例を示すブロック図である。同実施形態に係る情報処理端末の機能構成例を示すブロック図である。同実施形態に係る情報処理サーバの機能構成例を示すブロック図である。同実施形態に係るコンテンツの中断制御について説明するための図である。同実施形態に係る中断期間の長さに基づく要旨の生成と出力について説明するための図である。同実施形態に係る中断期間の要因に基づく要旨の生成と出力について説明するための図である。同実施形態に係る要旨長スコアに基づく要旨の生成と出力について説明するための図である。同実施形態に係る情報処理サーバによる制御の流れを示すフローチャートである。同実施形態に係る不在期間に基づく要旨の生成と出力について説明するための図である。同実施形態に係る非集中期間に基づく要旨の生成と出力について説明するための図である。同実施形態に係るユーザコンテキストに基づく要旨の情報量および内容の決定について説明するための図である。同実施形態に係る情報処理サーバによる制御の流れを示すフローチャートである。同実施形態に係る本開示の一変形例について説明するための図である。本開示の一実施形態に係るハードウェア構成例を示す図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．本開示に係る技術思想の概要
　２．第１の実施形態
　　２．１．システム構成例
　　２．２．情報処理端末１０の機能構成例
　　２．３．情報処理サーバ２０の機能構成例
　　２．４．出力制御の詳細
　　２．５．制御の流れ
　３．第２の実施形態
　　３．１．第２の実施形態の概要
　　３．２．出力制御の詳細
　　３．３．制御の流れ
　４．変形例
　５．ハードウェア構成例
　６．まとめ

　＜１．本開示に係る技術思想の概要＞
　近年、ユーザに対し情報提示を行う種々の装置が普及している。上記のような装置には、例えば、音声発話や視覚情報を用いてユーザに情報を提示するエージェント装置が挙げられる。エージェント装置は、例えば、ユーザに対するニュースやメッセージの読み上げや、ユーザの問い合わせに対する応答を、音声発話や視覚情報を用いて出力することができる。

　しかし、エージェント装置などから情報提示を受けるユーザの視聴行動は、種々の要因により、その完全性が欠落することも想定される。例えば、情報提示が一度中断され、その後再開された場合、ユーザは中断前に出力された情報を失念していたり、思い出すのに時間を要する場合がある。この場合、ユーザは、再開後に出力された情報の意図や、情報全体の意図を正しく解釈することが困難となる。

　また、完全性の欠落は、ユーザの離席や不在などによっても生じ得る。例えば、エージェント装置が情報を出力している間に、ユーザがエージェント装置から離れた場所に移動し、再びエージェント装置の周囲に戻った場合、当該ユーザは、離席中に出力された情報を認識することができない。また、離席中の情報を認識していないため、その後に出力される情報の意図を解釈することが困難となる。

　また、ユーザの視聴行動が周囲の騒音などにより阻害された場合も上記と同様の事態が起こり得る。例えば、騒音により、ユーザが音声発話の一部を聞き取れなかった場合、当該ユーザは、その後に出力される音声発話の内容を正しく解釈できないことがある。

　このように、ユーザによる一連の視聴行動において、提示される情報を視聴していない期間（以下、非視聴期間、とも称する）が存在する場合、ユーザが提示される情報を理解できない事態や、情報を誤認する事態などが生じ得る。

　本開示に係る技術思想は上記の点に着目して発想されたものであり、ユーザがコンテンツを視聴していない期間が存在する場合であっても、当該ユーザにコンテンツの流れを知覚させることが可能とする。

　このために、本開示の一実施形態に係る情報処理方法を実現する情報処理装置は、コンテンツに対応するユーザの視聴行動において非視聴期間が検出された場合、当該コンテンツに係る要旨を出力させること、を特徴の一つとする。また、本開示の一実施形態に係る情報処理装置は、非視聴期間の長さに基づいてコンテンツに係る要旨の情報量を決定すること、を特徴の一つとする。

　図１は、本開示に係る技術思想の概要について説明するための図である。図１の左側には、情報処理端末１０が出力するニュースコンテンツに係る音声発話ＳＯ１、音声発話ＳＯ１を視聴するユーザＵ１、および情報処理端末１０の周囲で音を発しているテレビジョン装置が示されている。ここで、情報処理端末１０は、情報処理サーバ２０による制御に基づいて、コンテンツを出力する情報処理装置である。

　この際、情報処理サーバ２０は、テレビジョン装置により出力される音により、ユーザＵ１が音声発話ＳＯ１を聞き取れていない、または聞き取れなくなる可能性があると判定し、情報処理端末１０の音声発話ＳＯ１の出力を中断させる。図１の中央には、情報処理サーバ２０による制御に基づいて情報処理端末１０が音声発話ＳＯ１の出力を中断した状況が示されている。

　その後、テレビジョン装置が発する周囲音が所定値を下回ると、情報処理サーバ２０は、情報処理端末１０にコンテンツの出力を再開させる。この際、本開示の一実施形態に係る情報処理サーバ２０は、図１の右側に示すように、コンテンツの続きと共に、中断前に出力させた音声発話ＳＯ１の内容に係る要旨Ａ２を含んだ音声発話ＳＯ２を情報処理端末１０に出力させてよい。なお、情報処理サーバ２０は、後述するように、非視聴期間の長さ、回数、要因などに基づいて、要旨Ａ２の情報量を決定することができる。

　本開示の一実施形態に係る情報処理サーバ２０が有する上記の機能によれば、ユーザＵ１は、情報処理端末１０によるコンテンツ提示の中断期間が長く、音声発話ＳＯ１の内容を完全に覚えていない場合であっても、音声発話ＳＯ１と音声発話ＳＯ２との流れを自然に解することができ、またコンテンツ全体の意図を正しく解釈することができる。

　以上、本開示の技術思想の概要について説明した。以下、本開示の技術思想を実現する構成と制御の具体例について詳細に説明する。

　＜２．第１の実施形態＞
　＜＜２．１．システム構成例＞＞
　まず、本開示の第１の実施形態について説明する。本開示の第１の実施形態では、情報処理サーバ２０が情報処理端末１０によるコンテンツ提示に係る中断期間に基づいて、要旨の情報量を決定する場合について述べる。

　図２は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図２を参照すると、本実施形態に係る情報処理システムは、情報処理端末１０および情報処理サーバ２０を備える。また、情報処理端末１０と情報処理サーバ２０とは、互いに情報通信が行えるように、ネットワーク３０を介して接続される。

　（情報処理端末１０）
　本実施形態に係る情報処理端末１０は、情報処理サーバ２０による制御に基づいて、ユーザにコンテンツを提示する情報処理装置である。また、本実施形態に係る情報処理端末１０は、コンテンツの中断後に当該コンテンツを再開する場合、コンテンツの後続情報と共に情報処理端末１０により生成された要旨を出力することを特徴の一つとする。

　なお、本実施形態に係るコンテンツとは、ユーザに対して提示される種々の情報を指す。本実施形態に係るコンテンツは、例えば、メッセージ、ニュース、通知、アラート、広告、ストーリー性を伴う動画や音声、ユーザの問い合わせに対する回答などであってよい。

　本実施形態に係る情報処理端末１０は、上記のようなコンテンツを出力する機能を有する種々の装置として実現され得る。本実施形態に係る情報処理端末１０は、例えば、携帯電話、スマートフォン、タブレット、ウェアラブル装置、汎用コンピュータ、据え置き型または自律移動型の専用装置などであってもよい。

　（情報処理サーバ２０）
　本実施形態に係る情報処理サーバ２０は、情報処理端末１０によるユーザに対するコンテンツの提示を制御する情報処理装置である。なお、本実施形態に係る情報処理サーバ２０は、コンテンツに対応するユーザの視聴行動において非視聴期間が検出された場合、当該コンテンツに係る要旨を情報処理端末１０に出力させることを特徴とする。

　この際、本実施形態に係る情報処理サーバ２０は、上記の非視聴期間の長さや検出回数、発生要因などに基づいて、要旨の情報量、すなわち長さや、内容を決定することができる。なお、本実施形態に係る非視聴期間は、情報処理端末１０によるコンテンツ提示に係る中断期間を指す。

　（ネットワーク３０）
　ネットワーク３０は、情報処理端末１０と情報処理サーバ２０とを接続する機能を有する。ネットワーク３０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク３０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク３０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

　以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図２を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末１０および情報処理サーバ２０が有する機能は、単一の装置により実現されてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜２．２．情報処理端末１０の機能構成例＞＞
　次に、本実施形態に係る情報処理端末１０の機能構成例について説明する。図３は、本実施形態に係る情報処理端末１０の機能構成例を示すブロック図である。図３を参照すると、本実施形態に係る情報処理端末１０は、表示部１１０、音声出力部１２０、音声入力部１３０、撮像部１４０、センサ部１５０、制御部１６０、およびサーバ通信部１７０を備える。

　（表示部１１０）
　本実施形態に係る表示部１１０は、画像やテキストなどの視覚情報を出力する機能を有する。本実施形態に係る表示部１１０は、例えば、情報処理サーバ２０による制御に基づいて、コンテンツの内容や要旨を表示することができる。

　このために、本実施形態に係る表示部１１０は、視覚情報を提示する表示デバイスなどを備える。上記の表示デバイスには、例えば、液晶ディスプレイ（ＬＣＤ：Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）装置、ＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）装置、タッチパネルなどが挙げられる。また、本実施形態に係る表示部１１０は、プロジェクション機能により視覚情報を出力してもよい。

　（音声出力部１２０）
　本実施形態に係る音声出力部１２０は、音声発話を含む種々の音を出力する機能を有する。本実施形態に係る音声出力部１２０は、例えば、情報処理サーバ２０による制御に基づいて、コンテンツの内容や要旨などを音声発話により出力することができる。このために、本実施形態に係る音声出力部１２０は、スピーカやアンプなどの音声出力装置を備える。

　（音声入力部１３０）
　本実施形態に係る音声入力部１３０は、ユーザによる発話や、情報処理端末１０の周囲で発生する周囲音などの音情報を収集する機能を有する。音声入力部１３０が収集する音情報は、情報処理サーバ２０による音声認識や周囲環境の認識などに用いられる。本実施形態に係る音声入力部１３０は、音情報を収集するためのマイクロフォンを備える。

　（撮像部１４０）
　本実施形態に係る撮像部１４０は、ユーザや周囲環境の画像を撮像する機能を有する。撮像部１４０が撮像した画像は、情報処理サーバ２０によるユーザ認識や周囲環境の認識に用いられる。本実施形態に係る撮像部１４０は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。
　（センサ部１５０）
　本実施形態に係るセンサ部１５０は、周囲環境やユーザの行動、状態に関する種々のセンサ情報を収集する機能を有する。センサ部１５０が収集したセンサ情報は、情報処理サーバ２０による周囲環境の錦やユーザの行動認識、状態認識に用いられる。センサ部１５０は、例えば、赤外線センサを含む光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、熱センサ、振動センサ、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）信号受信装置などを備える。

　（制御部１６０）
　本実施形態に係る制御部１６０は、情報処理端末１０が備える各構成を制御する機能を有する。制御部１６０は、例えば、各構成の起動や停止を制御する。また、制御部１６０は、情報処理サーバ２０により生成される制御信号を表示部１１０や音声出力部１２０に入力することができる。また、本実施形態に係る制御部１６０は、後述する情報処理サーバ２０の出力制御部２３０と同等の機能を有してもよい。

　（サーバ通信部１７０）
　本実施形態に係るサーバ通信部１７０は、ネットワーク３０を介して情報処理サーバ２０との情報通信を行う機能を有する。具体的には、サーバ通信部１７０は、音声入力部１３０が収集した音情報や、撮像部１４０が撮像した画像情報、センサ部１５０が収集したセンサ情報を情報処理サーバ２０に送信する。また、サーバ通信部１７０は、情報処理サーバ２０からコンテンツおよび要旨の出力に係る制御信号や人工音声を受信する。

　以上、本実施形態に係る情報処理端末１０の機能構成例について説明した。なお、図３を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末１０の機能構成は係る例に限定されない。例えば、本実施形態に係る情報処理端末１０は、図３に示す構成のすべてを必ずしも備えなくてもよい。例えば、情報処理端末１０は、表示部１１０、撮像部１４０、センサ部１５０などを備えない構成をとることもできる。また、上述したように、本実施形態に係る制御部１６０は、情報処理サーバ２０の出力制御部２３０と同等の機能を有してもよい。本実施形態に係る情報処理端末１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜２．３．情報処理サーバ２０の機能構成例＞＞
　次に、本実施形態に係る情報処理サーバ２０の機能構成例について説明する。図４は、本実施形態に係る情報処理サーバ２０の機能構成例を示すブロック図である。図４を参照すると、本実施形態に係る情報処理サーバ２０は、認識部２１０、要旨生成部２２０、出力制御部２３０、音声合成部２４０、記憶部２５０、および端末通信部２６０を備える。また、記憶部２５０は、ユーザＤＢ２５２、視聴記録ＤＢ２５４、およびコンテンツＤＢ２５６を備える。

　（認識部２１０）
　本実施形態に係る認識部２１０は、ユーザに係る種々の認識を行う機能を有する。例えば、認識部２１０は、情報処理端末１０が収集したユーザの発話や画像と、ユーザＤＢ２５２に予め記憶されるユーザの音声特徴や画像とを比較することでユーザの認識を行うことができる。

　また、認識部２１０は、情報処理端末１０が収集した音情報や画像、センサ情報に基づいて、ユーザの行動や状態を認識することができる。認識部２１０は、例えば、情報処理端末１０が収集した画像やセンサ情報に基づいて、情報処理端末１０の周囲にユーザが存在することを検出してもよい。また、例えば、認識部２１０は、上記の画像やセンサ情報に基づいて、ユーザが移動や運動、その他の動作を行っていることや、ユーザの表情や感情を認識することができる。

　また、認識部２１０は、情報処理端末１０が収集した音情報、画像、センサ情報に基づいて、周囲環境に係る認識を行う。認識部２１０は、例えば、上記の音情報に基づいて、情報処理端末１０の周囲において発生している周囲音の大きさや、ユーザ同士の会話などを検出することができる。また、認識部２１０は、情報処理端末１０が収集した画像やセンサ情報に基づいて、情報処理端末１０の周囲においてユーザ（または、ユーザ以外の人物）が増減したこと、などを認識することが可能である。

　また、本実施形態に係る認識部２１０は、情報処理端末１０が収集した音情報に基づいて、ユーザの発話に基づく音声認識を行う。

　（要旨生成部２２０）
　本実施形態に係る要旨生成部２２０は、出力制御部２３０による制御に基づいて、コンテンツから要旨を生成する機能を有する。要旨生成部２２０は、例えば、出力制御部２３０により指示された情報量（長さ）や内容に基づいて、コンテンツの要旨を生成する。このために、本実施形態に係る要旨生成部２２０は、例えば、自然言語処理によりコンテンツの内容を解析する機能などを有してよい。

　（出力制御部２３０）
　本実施形態に係る出力制御部２３０は、ユーザに対するコンテンツの提示を制御し、当該コンテンツに対応するユーザの視聴行動において非視聴期間が検出された場合、コンテンツに係る要旨を情報処理端末１０に出力させる機能を有する。この際、本実施形態に係る出力制御部２３０は、非視聴期間の長さや検出回数、発生要因に基づいて、コンテンツに係る要旨の情報量を決定する。なお、コンテンツが音声発話により出力される場合、上記の情報量は、要旨の発話に係る発話長であるといえる。

　また、本実施形態に係る非視聴期間は、上述したとおり、コンテンツの中断期間であってよい。本実施形態に係る出力制御部２３０は、例えば、ユーザの操作によりコンテンツが中断された場合、当該コンテンツが再開されるまでの時間を中断期間として取得し、当該中断期間に応じた長さの要旨を要旨生成部２２０に生成させることができる。

　また、本実施形態に係る出力制御部２３０は、コンテンツの提示に係る中断と再開を制御してもよい。出力制御部２３０は、認識部２１０が認識した周囲環境やユーザの状態に基づいて、情報処理端末１０によるコンテンツの提示を中断させることができる。

　この際、出力制御部２３０は、ユーザがコンテンツの内容を認識できていない、あるいは認識できなくなる可能性が推定されることに基づいて、コンテンツの提示を中断させる。出力制御部２３０は、例えば、認識部２１０が認識した周囲音が閾値を上回る場合、ユーザがコンテンツを認識できなくなる可能性があると判定し、情報処理端末１０にコンテンツを中断させる。本実施形態に係る出力制御部２３０が有する上記の機能によれば、周囲音などの影響により音声発話が聞き取りづらい状況において、コンテンツの出力を行うことを回避することができ、ユーザがコンテンツの内容を聞き逃す可能性を効果的に低減することが可能となる。なお、出力制御部２３０は、周囲音がユーザにより停止可能な音である場合には、停止を求める効果音等を出力させることで、ユーザに周囲音の排除を促してもよい。この場合、中断を回避することで、例えば、重要度の高いコンテンツをユーザに遅延なく提示することが可能となる。

　また、例えば、出力制御部２３０は、認識部２１０が認識したユーザの怪訝な表情や、首をかしげる動作などに基づいて、ユーザがコンテンツの内容を認識できていないと判定し、情報処理端末１０にコンテンツを中断させてもよい。本実施形態に係る出力制御部２３０が有する上記の機能によれば、ユーザがコンテンツの内容を理解していない状態のまま、後続情報が提示されることを回避し、また要旨を出力させることで、ユーザの理解を助けることが可能となる。

　また、例えば、出力制御部２３０は、認識部２１０が認識した情報処理端末１０の周囲における人の増減に基づいて、情報処理端末１０にコンテンツを中断させてもよい。例えば、ユーザがコンテンツを視聴している際に、情報処理端末１０やユーザの周囲に他の人物が検出された場合、出力制御部２３０は、ユーザが他の人物に気を取られることや、他の人物とユーザとの間で会話が行われる可能性を予測し、コンテンツを中断させてもよい。

　また、ユーザがコンテンツを視聴している際に、情報処理端末１０の周囲に他のユーザが検出された場合、出力制御部２３０は、当該他のユーザが提示が完了しているコンテンツの内容を把握できていないと判定し、コンテンツを中断させてもよい。この場合、出力制御部２３０は、他のユーザが検出されるまでに提示されたコンテンツの内容に係る要旨を出力させることで、他のユーザがコンテンツ全体の内容を理解できるように補助することが可能である。

　（音声合成部２４０）
　本実施形態に係る音声合成部２４０は、出力制御部２３０による制御に基づいて、情報処理端末１０により出力される人工音声を合成する機能を有する。

　（記憶部２５０）
　本実施形態に係る記憶部２５０は、ユーザＤＢ２５２、視聴記録ＤＢ２５４、およびコンテンツＤＢ２５６を備える。

　（（ユーザＤＢ２５２））
　本実施形態に係るユーザＤＢ２５２は、ユーザに関する種々の情報を記憶する。ユーザＤＢ２５２は、例えば、ユーザの顔画像や音声特徴などを記憶する。また、ユーザＤＢ２５２は、ユーザの性別、年齢、嗜好、傾向などの情報を記憶してもよい。

　（（視聴記録ＤＢ２５４））
　本実施形態に係る視聴記録ＤＢ２５４は、コンテンツの中断や再開に係る状態を記憶する。視聴記録ＤＢ２５４は、例えば、出力制御部２３０により制御に基づいて、コンテンツが中断された時間や、再開された時間を記憶する。また、視聴記録ＤＢ２５４は、コンテンツの中断回数などを記憶してよい。

　（（コンテンツＤＢ２５６））
　本実施形態に係るコンテンツＤＢ２５６は、情報処理端末１０により提示されるコンテンツを記憶する。本実施形態に係るコンテンツＤＢ２５６は、例えば、ニュースや広告、動画などのコンテンツを記憶する。なお、本実施形態に係るコンテンツは、必ずしもコンテンツＤＢ２５６に記憶されなくてもよい。本実施形態に係る出力制御部２３０は、ネットワーク３０を介して別の装置からコンテンツを取得してもよい。また、本実施形態に係る出力制御部２３０は、例えば、ユーザの問い合わせに基づいて生成された回答をコンテンツして取得してもよい。

　（端末通信部２６０）
　本実施形態に係る端末通信部２６０は、ネットワーク３０を介して、情報処理端末１０との情報通信を行う機能を有する。具体的には、端末通信部２６０は、情報処理端末１０から発話などの音情報、画像情報、センサ情報を受信する。また、端末通信部２６０は、出力制御部２３０が生成した制御信号や、音声合成部２４０が合成した人工音声を情報処理端末１０に送信する。

　以上、本実施形態に係る情報処理サーバ２０の機能構成例について説明した。なお、図４を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理サーバ２０の機能構成は係る例に限定されない。例えば、情報処理サーバ２０は、必ずしも図４に示す構成のすべてを備えなくてもよい。認識部２１０、要旨生成部２２０、音声合成部２４０、および記憶部２５０は、情報処理サーバ２０とは異なる別の装置に備えることも可能である。本実施形態に係る情報処理サーバ２０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜２．４．出力制御の詳細＞＞
　次に、本実施形態に係る出力制御部２３０による出力制御の詳細について説明する。上述したように、本実施形態に係る出力制御部２３０は、種々の状況に基づいてコンテンツの中断および再開を制御することができる。また、出力制御部２３０は、中断期間の長さや回数に基づいて要旨の情報量や内容を決定し要旨生成部２２０に要旨を生成させる。また、本実施形態に係る出力制御部２３０は、コンテンツの再開時にコンテンツの後続情報と共に要旨生成部２２０が生成した要旨を出力させる。

　図５は、本実施形態に係るコンテンツの中断制御について説明するための図である。図５には、情報処理端末１０が出力する音声発話ＳＯ３（コンテンツ）と、音声発話ＳＯ３を視聴するユーザＵ２とが示されている。なお、図５では、出力制御部２３０が、ユーザＵ２宛てに送信されたメッセージをコンテンツとして出力させる場合の例が示されている。

　この際、音声発話ＳＯ３の出力において、ポイントＰ１の時点でユーザＵ２の子供Ｂ１が泣き出した場合を想定する。この際、本実施形態に係る出力制御部２３０は、認識部２１０が認識した周囲音、すなわち子供Ｂ１の泣き声が閾値を上回ることや、認識部２１０が画像から子供Ｂ１が泣き出したことを認識したことに基づいて、情報処理端末１０に音声発話ＳＯ３の出力を中断させる。

　この場合、出力制御部２３０は、子供Ｂ１の泣き声の音量が閾値以下となったことや、子供Ｂ１が泣き止んだことが検出されたことに基づいて、コンテンツの再開を制御し、音声発話ＳＯ４を出力させることができる。この際、出力制御部２３０は、例えば、ポイントＰ１において出力されていた句や文章の先頭を再開位置として設定すると共に、中断期間の長さに基づいて要旨の情報量を決定し、当該文章よりも前に出力された内容と上記の情報量とに基づく要旨Ａ４を要旨生成部２２０に生成させる。また、出力制御部２３０は、要旨生成部２２０が生成した要旨Ａ４を情報処理端末１０に出力させたのち、上記の再開位置からコンテンツの提示を再開させる。

　本実施形態に係る出力制御部２３０が有する上記の機能によれば、ユーザＵ２は、中断が行われる前に提示された内容を自然に再把握しながら、コンテンツの後続情報を視聴することができ、コンテンツ全体の流れを容易に理解することが可能となる。

　一方、コンテンツの中断および再開が短時間の間に何度も繰り返される場合、要旨を提示することがかえってユーザの不利益となることも考えられる。例えば、出力制御部２３０が中断期間の長さのみに基づいて、要旨の情報量を決定する場合を想定する。この際、同程度の長さの中断期間が繰り返される場合においては、同一の要旨が繰り返し提示されることとなり、ユーザに冗長性を感じさせると共に、集中力を低下させることも懸念される。この場合、結果としてコンテンツに対するユーザの理解度を低下させることが想定される。

　このため、本実施形態に係る出力制御部２３０は、中断期間の長さのみではなく、中断期間の回数を考慮して要旨の情報量を決定してもよい。図６は、本実施形態に係る中断期間の長さに基づく要旨の生成と出力について説明するための図である。

　図６には、図５に示した中断および再開が行われた後、ポイントＰ１の付近で再びコンテンツの提示が中断された際に、再開時において出力される音声発話が示されている。

　図６の上部には、図５に示した状況を含め合計２回の中断期間が存在した場合に、情報処理端末１０が出力する音声発話ＳＯ５ａが示されている。この際、本実施形態に係る出力制御部２３０は、冗長性を考慮し、初回再開時において出力させた要旨Ａ４よりも発話長の短い要旨Ａ５ａを要旨生成部２２０に生成させ、要旨Ａ５ａを含んだ音声発話ＳＯ５ａを情報処理端末１０に出力させてよい。

　また、図６の下部には、図５に示した状況を含め合計３回の中断期間が存在した場合に、情報処理端末１０が出力する音声発話ＳＯ５ｂが示されている。この際、本実施形態に係る出力制御部２３０は、冗長性を考慮し、２回目の再開時に出力させた要旨Ａ５ａよりもさらに発話長の短い要旨Ａ５ｂを要旨生成部２２０に生成させ、要旨Ａ５ｂを含んだ音声発話ＳＯ５ｂを情報処理端末１０に出力させることできる。

　本実施形態に係る出力制御部２３０が有する上記の機能によれば、中断の回数に基づいて要旨を簡潔化することで、要旨が冗長となることを回避し、ユーザがより自然にコンテンツを理解することを補助することが可能となる。

　また、本実施形態に係る出力制御部２３０は、中断期間の要因に基づいて要旨の情報量を決定することもできる。図７は、本実施形態に係る中断期間の要因に基づく要旨の生成と出力について説明するための図である。

　図７には、図５に示した初回の中断を含む複数回の中断が行われた後、ポイントＰ１の付近で再びコンテンツの提示が中断された際に、再開時において出力される音声発話が示されている。

　図７の上部には、子供Ｂ１が泣き出したことによりコンテンツが中断された後に、再開時において情報処理端末１０が出力する音声発話ＳＯ６ａが示されている。この際、本実施形態に係る出力制御部２３０は、図６の下部において示した音声発話ＳＯ５ｂにおける要旨Ａ５ｂと同様に、簡潔化した要旨Ａ６ａを要旨生成部２２０に生成させ、要旨Ａ６ａを含んだ音声発話ＳＯ６ａを情報処理端末１０に出力させてよい。

　一方、図７の下部には、図７の上部と同様の中断期間の長さおよび回数が検出されている場合において、情報処理端末１０が出力する音声発話ＳＯ６ｂが示されている。一方、図７の下部の中断における要因は、図７の上部とは異なり、ユーザＵ２が電話により会話を始めたことであってよい。

　この際、他者との会話は、泣き声など非言語情報と比較してユーザＵ２の短期記憶を上書きしやすいことも想定される。このため、本実施形態に出力制御部２３０は、図７の上部において示した音声発話ＳＯ６ａにおける要旨Ａ６ａよりも発話長の長い詳細な要旨Ａ６ｂを要旨生成部２２０に生成させ、要旨Ａ６ｂを含んだ音声発話ＳＯ６ｂを情報処理端末１０に出力させてよい。

　このように本実施形態に係る出力制御部２３０は、種々の中断要因に基づいて、異なる情報量を有する要旨の出力を制御することができる。本実施形態に係る出力制御部２３０が有する上記の機能によれば、状況に応じたより柔軟な要旨提示を行うことで、コンテンツに対するユーザの理解度を向上させることが可能となる。

　以上、本実施形態に係る出力制御部２３０による要旨の出力制御について説明した。上述したように、本実施形態に係る出力制御部２３０は、中断期間の長さや回数、また発生要因に基づいて情報量の異なる要旨を要旨生成部２２０に生成させることができる。

　この際、本実施形態に係る出力制御部２３０は、例えば、上記の要因を総合的に判断するための要旨長スコアを算出し、当該要旨長スコアの値に基づいて、要旨生成部２２０に生成させる要旨の情報量を決定してもよい。

　例えば、中断要因が閾値以上の周囲音である場合、要旨長スコアＳは、Ｓ＝Ｔ／Ｎ、として算出されてもよい。ここで、上記のＴは中断期間の長さを、Ｎは中断回数をそれぞれ表している。

　また、例えば、中断要因がユーザの行動である場合、要旨長スコアＳは、動作の大きさに反比例するように算出されてもよいし、行動の種別に応じて算出されてもよい。

　また、例えば、中断要因が情報処理端末１０の周囲における人の増減である場合、要旨長スコアＳは、Ｓ＝増加した人数／当初の人数、により算出されてもよい。

　このように、本実施形態に係る要旨長スコアＳは、種々の条件を考慮して算出され得る。また、本実施形態に係る要旨長スコアＳの算出方法は、例えば、アプリケーションの特性などに応じて適宜設計され得る。

　本実施形態に係る出力制御部２３０は、上記のように算出した要旨長スコアに基づいて、要旨生成部２２０に生成させる要旨の情報量を決定することができる。図８は、要旨長スコアに基づく要旨の生成と出力について説明するための図である。

　例えば、要旨長スコアＳがレベルＳ１に該当する場合、出力制御部２３０は、要旨生成部２２０に要旨を生成させず、コンテンツの後続情報のみを含む音声発話ＳＯ８ａを情報処理端末１０に出力させてもよい。

　また、要旨長スコアＳがレベルＳ２に該当する場合、出力制御部２３０は、要旨生成部２２０に簡潔な要旨Ａ８ｂを生成させ、要旨Ａ８ｂを含む音声発話ＳＯ８ｂを情報処理端末１０に出力させる。

　また、要旨長スコアＳがレベルＳ３に該当する場合、出力制御部２３０は、要旨生成部２２０にレベルＳ２における要旨Ａ８ｂよりも情報量の多い要旨Ａ８ｃを生成させ、要旨Ａ８ｃを含む音声発話ＳＯ８ｂを情報処理端末１０に出力させることができる。

　また、要旨長スコアＳがレベルＳ４に該当する場合、出力制御部２３０は、要旨生成部２２０にレベルＳ３における要旨Ａ８ｃよりもより詳細な要旨Ａ８ｄを生成させ、要旨Ａ８ｄを含む音声発話ＳＯ８ｄを情報処理端末１０に出力させることができる。

　このように、本実施形態に係る出力制御部２３０は、種々の条件に基づいて要旨長スコアを算出し、当該要旨長スコアに基づいて要旨生成部２２０に生成させる要旨の情報量を決定することができる。本実施形態に係る出力制御部２３０が有する上記の機能によれば、状況に応じた柔軟な要旨の生成および提示を実現することが可能となる。

　なお、上記で説明した要旨長スコアの算出方法および要旨長スコアに基づく要旨の生成方法はあくまで一例である。本実施形態に係る出力制御部２３０は、例えば、パーセンテージを指定して要旨生成部２２０に要旨を生成させることも可能である。また、出力制御部２３０は、特定のトピックや、主題、題名などを含むように要旨生成部２２０に要旨を生成させることもできる。本実施形態に係る出力制御部２３０による要旨の生成および出力制御は、柔軟に変形され得る。

　＜＜２．５．制御の流れ＞＞
　次に、本実施形態に係る情報処理サーバ２０による制御の流れについて説明する。図９は、本実施形態に係る情報処理サーバ２０による制御の流れを示すフローチャートである。

　図９を参照すると、まず、情報処理サーバ２０の出力制御部２３０が情報処理端末１０にコンテンツの提示を開始させる（Ｓ１１０１）。

　ステップＳ１１０１においてコンテンツの提示が開始されると、出力制御部２３０は、認識部２１０が認識するユーザや周囲環境の状態に基づいて中断要因の発生を監視する（Ｓ１１０２）。

　ここで、コンテンツの中断要因が発生した場合（Ｓ１１０２：Ｙｅｓ）、出力制御部２３０は、情報処理端末１０にコンテンツの提示を中断させる（Ｓ１１０３）。なお、コンテンツの中断は、ユーザによる操作入力に基づいて行われてもよい。

　続いて、出力制御部２３０は、ステップＳ１１０３における中断要因が解消されるまで監視を行う（Ｓ１１０４）。

　ここで、コンテンツの中断要因が解消された場合（Ｓ１１０４：Ｙｅｓ）、出力制御部２３０は、中断要因、中断時間、中断回数などに基づいた要旨長スコアを算出する（Ｓ１１０５）。なお、コンテンツの再開は、ユーザによる操作入力に基づいて行われてもよい。

　続いて、出力制御部２３０は、ステップＳ１１０５において算出した要旨長スコアに応じた情報量を有する要旨を要旨生成部２２０に生成させる（Ｓ１１０６）。

　次に、出力制御部２３０は、ステップＳ１１０６において要旨生成部２２０が生成した要旨を情報処理端末１０に出力させ、コンテンツを再開させる（Ｓ１１０７）。

　以上、本開示の第１の実施形態について説明した。上述したように、本開示の第１の実施形態に係る情報処理サーバ２０は、コンテンツの中断期間に応じた情報量を有する要旨を生成し、コンテンツの再開時にユーザに提示させることができる。

　なお、上記では、情報処理サーバ２０がコンテンツに係る音声発話を主に制御する場合を中心に述べたが、本実施形態に係る情報処理サーバ２０による制御は係る例に限定されない。本実施形態に係る情報処理サーバ２０は、視覚情報を用いたコンテンツおよび要旨の出力制御を行うことも可能である。

　また、本実施形態に係る情報処理サーバ２０は、例えば、中断時の背景音などを制御してもよい。この際、情報処理サーバ２０は、コンテンツの種別に応じた背景音を情報処理端末１０に出力させることで、ユーザに何のコンテンツが中断中であるかを提示することもできる。また、情報処理サーバ２０は、コンテンツの種別に応じて色やパターンの異なる光を情報処理端末１０に出力させてもよい。

　また、上記では、情報処理サーバ２０が主に中断前に提示された内容に係る要旨を生成し、情報処理端末１０に出力させる場合を中心に述べた。一方、コンテンツがメッセージなどである場合、情報処理サーバ２０は、当該メッセージの題名や送信者に係る情報を含んだ要旨を生成し、情報処理端末１０に出力させてもよい。

　また、情報処理サーバ２０は、例えば、「５分前に提示したメッセージの続きです」、などの付加情報を含む要旨を生成してもよいし、有効期限が切れた情報は要旨に含まない要制御することも可能である。上記の有効期限が切れた情報には、例えば、「５分後に到着します」、という情報を含むメッセージが当該情報の出力前に中断された場合において、中断期間により５分が既に経過しており、メッセージの送信者が既にユーザのもとに到着している状況などが想定される。

　＜３．第２の実施形態＞
　＜＜３．１．第２の実施形態の概要＞＞
　次に、本開示の第２の実施形態について説明する。第１の実施形態では、情報処理サーバ２０がコンテンツの中断期間に基づいて要旨の生成および出力を制御する場合の例を述べた。一方、上述したように、本開示における非視聴期間は、中断期間に限定されない。本開示に係る非視聴期間は、コンテンツをユーザが知覚していない非知覚期間を含んでよい。

　ここで、上記の非知覚期間とは、コンテンツの提示中において、何らかの原因によりユーザがコンテンツの内容を知覚できなかった期間を指す。例えば、コンテンツの提示中にユーザが情報処理端末１０の周囲から離席し、再び戻った場合、ユーザは離席中に提示されていたコンテンツの内容を知覚することができない。このように、本開示における非知覚期間は、コンテンツの提示中にユーザが当該コンテンツの享受範囲から逸脱した不在期間を含む。

　また、例えば、コンテンツの提示中に外部要因によりユーザの集中力が低下した場合、当該ユーザは提示されたコンテンツの内容を知覚できない場合がある。このため、本開示における非知覚期間は、コンテンツの提示中にユーザが当該コンテンツに係る情報に集中していない非集中期間を含んでよい。

　このように、コンテンツに対応するユーザの視聴行動においては、中断以外の要素においても完全性が失われる場合が想定される。そこで、本開示の第２の実施形態に係る情報処理サーバ２０は、上記のような非知覚期間の長さ、検出回数、また要因に基づいて決定した情報量を有する要旨を情報処理端末１０に出力させること、を特徴の一つとする。

　以下、本実施形態に係る情報処理サーバ２０が有する上記の特徴について詳細に説明する。なお、以下の説明においては、第１の実施形態との差異について中心に述べ、第１の実施形態と共通する構成や機能については、詳細な説明を省略する。

　＜＜３．２．出力制御の詳細＞＞
　続いて、本実施形態に係る出力制御部２３０による出力制御の詳細について説明する。まず、本実施形態に係る出力制御部２３０による不在期間に基づく要旨の出力制御について述べる。上述したように、本実施形態に係る非知覚期間はユーザの不在期間を含む。この際、本実施形態に係る上記の不在期間の長さまたは検出回数に基づいて、要旨の情報量を決定することができる。

　図１０は、本実施形態に係る不在期間に基づく要旨の生成と出力について説明するための図である。図１０には、情報処理端末１０が出力するニュースコンテンツに係る音声発話ＳＯ１０ａ～１０ｃと、コンテンツを視聴するユーザＵ３とが示されている。

　この際、ユーザＵ３は、音声発話ＳＯ１０ｂが出力されている最中に情報処理端末１０の周囲を一旦離れ、音声発話ＳＯ１０ｃの出力が開始されるタイミングで再び情報処理端末１０の周辺に戻ってきている。

　この場合、本実施形態に係る出力制御部２３０は、認識部２１０が認識したユーザの不在、および帰還に基づいて、音声発話ＳＯ１０ｂが提示されていた期間を不在期間として設定する。この際、本実施形態に係る出力制御部２３０は、上記の不在期間の長さに基づいて決定した情報量を含む要旨Ａ１０を要旨生成部２２０に生成させ、要旨Ａ１０を含む音声発話ＳＯ１０ｃを情報処理端末１０に出力させてよい。

　図１０における要旨Ａ１０の内容に注目すると、出力制御部２３０が、不在期間に提示された音声発話ＳＯ１０ｂの内容を含む要旨を生成していることがわかる。このように、本実施形態に係る出力制御部２３０は、不在期間などの非知覚期間が終了した際、非知覚期間の間に提示された情報を含む要旨を要旨生成部２２０に生成させ、当該要旨を情報処理端末１０に出力させることができる。

　本実施形態に係る出力制御部２３０によれば、ユーザが所用などにより一時的に情報処理端末１０の周囲を不在とした場合であっても、当該ユーザに不在期間中に提示したコンテンツの内容に係る要旨を提供することができる。本実施形態に係る出力制御部２３０が有する上記の機能によれば、欠落したユーザの視聴体験を補うことで、ユーザが提示されるコンテンツの全体の流れを容易に把握することが可能となる。

　次に、本実施形態に係る非集中期間に基づく要旨の生成と出力について説明する。図１１は、本実施形態に係る非集中期間に基づく要旨の生成と出力について説明するための図である。図１１には、図１０に示した状況と同様に、情報処理端末１０が出力するニュースコンテンツに係る音声発話ＳＯ１１ａ～１１ｃと、コンテンツを視聴するユーザＵ３とが示されている。

　一方、図１１の場合、図１０とは異なり、ユーザＵ３は、音声発話ＳＯ１１ａ～１１ｃが出力されている間、ずっと情報処理端末１０の周囲に存在している。しかし、図１１に示す状況では、音声発話ＳＯ１１ｂが出力されている間に、人物Ｐ１およびＰ２がユーザＵ３と情報処理端末１０の周囲に検出されている。

　この際、本実施形態に係る出力制御部２３０は、認識部２１０が人物Ｐ１およびＰ２を認識したことに基づいて、人物Ｐ１およびＰ２の影響によりユーザＵ３の集中力が低下し、音声発話ＳＯ１１を知覚できなかった可能性があると判定し、人物Ｐ１およびＰ２が検出されていた期間を非集中期間として設定する。この際、本実施形態に係る出力制御部２３０は、上記の非集中期間の長さに基づいて決定した情報量を含む要旨Ａ１１を要旨生成部２２０に生成させ、要旨Ａ１１を含む音声発話ＳＯ１１ｃを情報処理端末１０に出力させてよい。

　なお、出力制御部２３０は、認識部２１０がユーザＵ３の首をかしげる動作や情報処理端末１０に近づく動作を認識したことに基づいて非知覚期間を設定することも可能である。

　ここで、図１１における要旨Ａ１１の内容に注目すると、出力制御部２３０が、非知覚期間に提示された音声発話ＳＯ１１ｂの内容を含む要旨を生成していることがわかる。このように、本実施形態に係る出力制御部２３０は、不在期間などの非知覚期間が終了した際、非知覚期間の間に提示された情報を含む要旨を要旨生成部２２０に生成させ、当該要旨を情報処理端末１０に出力させることができる。

　本実施形態に係る出力制御部２３０によれば、ユーザが提示されたコンテンツの内容を知覚していない可能性がある場合であっても、当該ユーザに非集中期間中に提示したコンテンツの内容に係る要旨を提供することができる。

　次に、本実施形態に係る出力制御部２３０によるユーザコンテキストに基づく要旨の情報量および内容の決定について説明する。

　図１２は、本実施形態に係るユーザコンテキストに基づく要旨の情報量および内容の決定について説明するための図である。図１２に示す一例の場合、情報処理サーバ２０は、会議におけるユーザの発言内容に基づいて、当該会議の議事録の生成および出力を制御する装置であってもよい。また、情報処理サーバ２０は、予め設定された内容を会議において情報処理端末１０に出力させる装置であってもよい。

　ここで、図１２の上部には、会議における複数の議題が時刻ｔに沿って示されている。また、図１２には、会議に参加するユーザＵ４～Ｕ６と、ユーザＵ４～Ｕ６がそれぞれ会議に出席していた時間が矢印によって示されている。

　例えば、ユーザＵ３は、予算が議題に挙がっている際に、会議室を不在としている。この際、本実施形態に係る出力制御部２３０は、ユーザＵ４が会議室に到着した際に、予算に関して議論された内容に係る要旨Ａ１２ａを要旨生成部２２０に生成させ、要旨Ａ１２ａをユーザＵ４に割り当てられた表示部１１０ａに表示させる。なお、情報処理端末１０がビームフォーミングなどの指向性を伴う音声出力機能を有する場合、出力制御部２３０は、情報処理端末１０に、要旨Ａ１２ａをユーザＵ４に対して音声出力させてもよい。

　また、ユーザＵ５およびＵ６は、発注先が議題に挙がっている際に、会議室を不在としている。ここで、ユーザＵ５は若手社員であり、ユーザＵ６はマネージャである。この際、本実施形態に係る出力制御部２３０は、ユーザＵ５およびＵ６が会議室に戻った際に、発注先に関して議論された内容に係る要旨Ａ１２ｂおよびＡ１２ｃを要旨生成部２２０に生成させ、要旨Ａ１２ｂおよびＡ１２ｃを、それぞれユーザＵ５およびＵ６に割り当てられた表示部１１０ｂおよび１１０ｃに表示させている。

　ここで、図１２に示す要旨Ａ１２ｂおよびＡ１２ｃを参照すると、要旨Ａ１２ｂおよびＡ１２ｃは、互いに情報量が異なっていることがわかる。すなわち、本実施形態に係る出力制御部２３０は、ユーザＵ５およびＵ６の役職に基づいて、異なる情報量を有する要旨Ａ１２ｂおよびＡ１２ｃを要旨生成部２２０に生成させ、表示部１１０ｂおよび１１０ｃに出力させている。より具体的には、出力制御部２３０は、若手社員であるユーザＵ５に対しては、簡潔な要旨Ａ１２ｂを提示させ、マネージャであるユーザＵ６に対しては、より詳細な要旨Ａ１２ｃを提示させている。

　このように、例えば、役職などのユーザの属性によっては、不在期間が同一である場合であっても、要旨に求められる粒度のレベルが異なることも想定される。このため、本実施形態に係る出力制御部２３０は、ユーザに係るユーザコンテキストに基づいて、要旨の情報量や内容を決定してよい。ここで、上記のコンテキストは、ユーザの年齢、性別、役職などの属性や、ユーザの嗜好や特性、ユーザの状態などを含む。

　例えば、本実施形態に係る出力制御部２３０は、子供であるユーザに対しては、易しい語彙や口調による簡潔な要旨が提示されるよう制御を行ってもよい。また、出力制御部２３０は、ユーザが急いでいる場合には、重要な内容だけを含む簡潔な要旨が提示されるよう制御を行うことも可能である。

　本実施形態に係る出力制御部２３０が有する上記の機能によれば、非知覚期間の長さや回数が同一である場合であっても、それぞれのユーザに応じた適切な要旨を提示することができ、各ユーザのコンテンツに対する理解を効果的に高めることが可能となる。

　また、本実施形態に係る出力制御部２３０は、図１２に示すように、複数のユーザのそれぞれに係る非知覚期間に基づいて、要旨生成部２２０にユーザごとに異なる要旨を生成させることができる。本実施形態に係る出力制御部２３０が有する上記の機能によれば、情報処理端末１０が複数人のユーザによって同時に利用される場合であっても、各ユーザのコンテンツに対する理解を補助することが可能である。

　＜＜３．３．制御の流れ＞＞
　次に、本実施形態に係る情報処理サーバ２０による制御の流れについて説明する。図１３は、本実施形態に係る情報処理サーバ２０による制御の流れを示すフローチャートである。

　図１３を参照すると、まず、情報処理サーバ２０の出力制御部２３０が情報処理端末１０にコンテンツの提示を開始させる（Ｓ１２０１）。

　ステップＳ１２０１においてコンテンツの提示が開始されると、出力制御部２３０は、認識部２１０が認識するユーザや周囲環境の状態に基づいて、不在期間や非集中期間などの非知覚期間の発生を監視する（Ｓ１２０２）。

　ここで、コンテンツの非知覚期間が発生した場合（Ｓ１２０２：Ｙｅｓ）、出力制御部２３０は、非知覚期間の終了を監視する状態に遷移する。

　次に、コンテンツの非知覚期間の終了を検知した場合（Ｓ１２０３：Ｙｅｓ）、出力制御部２３０は、非知覚期間の長さ、回数、要因、およびユーザコンテキストに基づいた要旨長スコアを算出する（Ｓ１２０４）。

　続いて、出力制御部２３０は、ステップＳ１２０４において算出した要旨長スコアに応じた情報量および内容を有する要旨を要旨生成部２２０に生成させる（Ｓ１２０５）。

　次に、出力制御部２３０は、ステップＳ１２０５において要旨生成部２２０が生成した要旨を情報処理端末１０に出力させ、コンテンツを再開させる（Ｓ１２０６）。

　＜４．変形例＞
　次に、情報処理サーバ２０による出力制御の変形例について説明する。上記の第１の実施形態および第２の実施形態では、出力制御部２３０が、非視聴期間の長さや検出回数に基づいて要旨の生成と出力を制御する場合を述べたが、本開示の技術思想は、ユーザの状況に対応した適切な要旨を提示することで、ユーザの利便性を高めることを根本とする。このため、本開示の変形例に係る情報処理サーバ２０は、ユーザコンテキストに重きをおいて要旨を生成し、当該要旨を情報処理端末１０に出力させてもよい。

　図１４は、本開示の一変形例について説明するための図である。図１４に示す情報処理端末１０は、情報処理サーバ２０による制御に基づいて、ユーザとの音声対話を行うエージェント装置である。なお、図１４に示す一例では、家庭において複数のユーザが情報処理端末１０を利用するシーンが示されている。

　例えば、図１４の上段は、午前１２時において、母親であるユーザＵ７が情報処理端末１０との対話を行いながら家族旅行の計画を立てている状況を示している。この際、ユーザＵ７は、決定した事項に関する内容を発話ＵＯ１４により情報処理端末１０に入力している。ここで、発話ＵＯ１４は、旅行先、アクティビティ、予算、およびユーザＵ７の息子であるユーザＵ８のためのサプライズパーティーに関する内容を含む。また、ユーザＵ７は、発話ＵＯ１４を家族の他のユーザに共有する情報として情報処理端末１０に入力している。

　続いて、図１４の中段に示す午後４時において、出力制御部２３０は、認識部２１０がユーザＵ７の息子であるユーザＵ８の帰宅を検出したことに基づいて、ユーザＵ７により入力された発話ＵＯ１４の要旨Ａ１４ａを含む音声発話ＳＯ１４ａを情報処理端末１０に出力させている。この際、出力制御部２３０は、発話ＵＯ１４により入力された情報のうち旅行先とアクティビティに係る情報のみを含む要旨Ａ１４ａを要旨生成部２２０に生成させている。

　すなわち、出力制御部２３０は、ユーザＵ８に対し、予算とサプライズパーティーに関する情報を敢えて除外した要旨Ａ１２を提示させている。より詳細には、出力制御部２３０は、ユーザＵ８の属性が子供であることに基づいて予算に関する情報を要旨Ａ１２ａから除外している。また、出力制御部２３０は、発話ＵＯ１４に含まれる「息子」や「サプライズ」の語彙から、サプライズパーティーの対象者がユーザＵ８であることを推定し、当該サプライズパーティーに係る情報が要旨Ａ１４ａに含まれないように制御を行っている。

　このように、本変形例に係る出力制御部２３０は、ユーザコンテキストを重視した要旨の生成および提示を制御してよい。本実施形態に係る出力制御部２３０が有する上記の機能によれば、家庭などの知識レベルや社会的成熟度が大きく異なる複数のユーザが混在する環境であっても、各ユーザに応じた適切な情報を含む要旨を提示することが可能となる。

　一方、図１４の下段に示す午後７時において、出力制御部２３０は、認識部２１０がユーザＵ７の夫であるユーザＵ９の帰宅を検出したことに基づいて、ユーザＵ７により入力された発話ＵＯ１４の要旨Ａ１４ｂを含む音声発話ＳＯ１４ｂを情報処理端末１０に出力させている。この際、出力制御部２３０は、要旨Ａ１４ａとは異なり、発話ＵＯ１４により入力された情報のうちアクティビティを除くすべての事項を含む要旨Ａ１４ｂを要旨生成部２２０に生成させている。

　出力制御部２３０は、例えば、ユーザＵ９が、普段、旅行先におけるアクティビティに対して意見をしない傾向があることに基づいて、上記のような要旨Ａ１４ｂを要旨生成部２２０に生成させることができる。

　以上、情報処理サーバ２０による出力制御の変形例について説明した。図１４を用いて説明したように、本開示に係る技術思想は、種々の様態に変形可能である。また、本開示に係る技術思想によれば、状況に応じた適切な要旨をユーザに提供し、ユーザの利便性を効果的に高めることが可能である。

　＜５．ハードウェア構成例＞
　次に、本開示の一実施形態に係る情報処理端末１０および情報処理サーバ２０に共通するハードウェア構成例について説明する。図１５は、本開示の一実施形態に係る情報処理端末１０および情報処理サーバ２０のハードウェア構成例を示すブロック図である。図１５を参照すると、情報処理端末１０および情報処理サーバ２０は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（ＣＰＵ８７１）
　ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜６．まとめ＞
　以上説明したように、本開示の一実施形態に係る情報処理サーバ２０は、コンテンツに対応するユーザの視聴行動において非視聴期間が検出された場合、当該コンテンツに係る要旨を出力させること、を特徴の一つとする。また、本開示の一実施形態に係る情報処理サーバ２０は、非視聴期間の長さに基づいてコンテンツに係る要旨の情報量を決定する機能を有する。係る構成によれば、ユーザにコンテンツの流れを効果的に知覚させることが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　また、本明細書の情報処理サーバ２０の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理サーバ２０の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させる出力制御部、
　を備え、
　前記出力制御部は、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定する、
情報処理装置。
（２）
　前記出力制御部は、前記非視聴期間の検出回数に基づいて、前記要旨の情報量を決定する、
前記（１）に記載の情報処理装置。
（３）
　前記出力制御部は、前記非視聴期間の発生要因に基づいて、前記要旨の情報量を決定する、
前記（１）または（２）に記載の情報処理装置。
（４）
　前記出力制御部は、前記ユーザに係るユーザコンテキストに基づいて、前記要旨の情報量または内容を決定する、
前記（１）～（３）のいずれかに記載の情報処理装置。
（５）
　前記非視聴期間は、前記コンテンツの中断期間を含み、
　前記出力制御部は、前記中断期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
前記（１）～（４）のいずれかに記載の情報処理装置。
（６）
　前記出力制御部は、前記コンテンツの提示に係る中断と再開を制御し、前記コンテンツの再開時に前記要旨を出力させる、
前記（５）に記載の情報処理装置。
（７）
　前記出力制御部は、前記コンテンツの再開時に、前記中断期間よりも前に提示された前記コンテンツの内容に係る前記要旨を出力させる、
前記（６）に記載の情報処理装置。
（８）
　前記出力制御部は、前記コンテンツの中断期間に基づいて、前記コンテンツの再開位置を決定する、
前記（６）または（７）に記載の情報処理装置。
（９）
　前記出力制御部は、前記コンテンツの提示時における周囲環境に基づいて前記コンテンツを中断させる、
前記（５）～（８）のいずれかに記載の情報処理装置。
（１０）
　前記出力制御部は、前記コンテンツの提示時における周囲音に基づいて前記コンテンツを中断させる、
前記（５）～（９）のいずれかに記載の情報処理装置。
（１１）
　前記出力制御部は、前記コンテンツの提示時における前記ユーザの状態に基づいて前記コンテンツを中断させる、
前記（５）～（１０）のいずれかに記載の情報処理装置。
（１２）
　前記非視聴期間は、提示された前記コンテンツを前記ユーザが知覚していない非知覚期間を含み、
　前記出力制御部は、前記非知覚期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
前記（１）～（１１）のいずれかに記載の情報処理装置。
（１３）
　前記非知覚期間は、前記コンテンツの提示中に前記ユーザが前記コンテンツの享受範囲から逸脱した不在期間を含み、
　前記出力制御部は、前記不在期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
前記（１２）に記載の情報処理装置。
（１４）
　前記非知覚期間は、前記コンテンツの提示中に前記ユーザが前記コンテンツに係る情報に集中していない非集中期間を含み、
　前記出力制御部は、前記非集中期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
前記（１２）または（１３）に記載の情報処理装置。
（１５）
　前記出力制御部は、前記非知覚期間が終了した場合、前記要旨を出力させる、
前記（１２）～（１４）のいずれかに記載の情報処理装置。
（１６）
　前記出力制御部は、前記非知覚期間の間に提示された情報を含む前記要旨の出力を制御する、
前記（１２）～（１５）のいずれかに記載の情報処理装置。
（１７）
　前記出力制御部は、複数の前記ユーザのそれぞれに係る前記非知覚期間に基づいて、複数の前記ユーザごとに異なる前記要旨を出力させる、
前記（１２）～（１６）のいずれかに記載の情報処理装置。
（１８）
　前記出力制御部は、前記コンテンツに係る音声発話を制御し、前記非視聴期間の長さまたは検出回数に基づいて、前記要旨の発話長を決定する、
前記（１）～（１７）のいずれかに記載の情報処理装置。
（１９）
　前記出力制御部による制御に基づいて、前記コンテンツおよび前記要旨に係る音声発話を出力する音声出力部、
　をさらに備える、
前記（１）～（１８）のいずれかに記載の情報処理装置。
（２０）
　プロセッサが、ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させること、
　を含み、
　前記出力させることは、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定すること、
　をさらに含む、
情報処理方法。

　１０　　　情報処理端末
　１１０　　表示部
　１２０　　音声出力部
　１３０　　音声入力部
　１４０　　撮像部
　１５０　　センサ部
　１６０　　制御部
　１７０　　サーバ通信部
　２０　　　情報処理サーバ
　２１０　　認識部
　２２０　　要旨生成部
　２３０　　出力制御部
　２４０　　音声合成部
　２５０　　記憶部
　２５２　　ユーザＤＢ
　２５４　　視聴記録ＤＢ
　２５６　　コンテンツＤＢ
　２６０　　端末通信部

Claims

　ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させる出力制御部、
　を備え、
　前記出力制御部は、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定する、
情報処理装置。
　前記出力制御部は、前記非視聴期間の検出回数に基づいて、前記要旨の情報量を決定する、
請求項１に記載の情報処理装置。
　前記出力制御部は、前記非視聴期間の発生要因に基づいて、前記要旨の情報量を決定する、
請求項１に記載の情報処理装置。
　前記出力制御部は、前記ユーザに係るユーザコンテキストに基づいて、前記要旨の情報量または内容を決定する、
請求項１に記載の情報処理装置。
　前記非視聴期間は、前記コンテンツの中断期間を含み、
　前記出力制御部は、前記中断期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
請求項１に記載の情報処理装置。
　前記出力制御部は、前記コンテンツの提示に係る中断と再開を制御し、前記コンテンツの再開時に前記要旨を出力させる、
請求項５に記載の情報処理装置。
　前記出力制御部は、前記コンテンツの再開時に、前記中断期間よりも前に提示された前記コンテンツの内容に係る前記要旨を出力させる、
請求項６に記載の情報処理装置。
　前記出力制御部は、前記コンテンツの中断期間に基づいて、前記コンテンツの再開位置を決定する、
請求項６に記載の情報処理装置。
　前記出力制御部は、前記コンテンツの提示時における周囲環境に基づいて前記コンテンツを中断させる、
請求項５に記載の情報処理装置。
　前記出力制御部は、前記コンテンツの提示時における周囲音に基づいて前記コンテンツを中断させる、
請求項５に記載の情報処理装置。
　前記出力制御部は、前記コンテンツの提示時における前記ユーザの状態に基づいて前記コンテンツを中断させる、
請求項５に記載の情報処理装置。
　前記非視聴期間は、提示された前記コンテンツを前記ユーザが知覚していない非知覚期間を含み、
　前記出力制御部は、前記非知覚期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
請求項１に記載の情報処理装置。
　前記非知覚期間は、前記コンテンツの提示中に前記ユーザが前記コンテンツの享受範囲から逸脱した不在期間を含み、
　前記出力制御部は、前記不在期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
請求項１２に記載の情報処理装置。
　前記非知覚期間は、前記コンテンツの提示中に前記ユーザが前記コンテンツに係る情報に集中していない非集中期間を含み、
　前記出力制御部は、前記非集中期間の長さまたは検出回数に基づいて、前記要旨の情報量を決定する、
請求項１２に記載の情報処理装置。
　前記出力制御部は、前記非知覚期間が終了した場合、前記要旨を出力させる、
請求項１２に記載の情報処理装置。
　前記出力制御部は、前記非知覚期間の間に提示された情報を含む前記要旨の出力を制御する、
請求項１２に記載の情報処理装置。
　前記出力制御部は、複数の前記ユーザのそれぞれに係る前記非知覚期間に基づいて、複数の前記ユーザごとに異なる前記要旨を出力させる、
請求項１２に記載の情報処理装置。
　前記出力制御部は、前記コンテンツに係る音声発話を制御し、前記非視聴期間の長さまたは検出回数に基づいて、前記要旨の発話長を決定する、
請求項１に記載の情報処理装置。
　前記出力制御部による制御に基づいて、前記コンテンツおよび前記要旨に係る音声発話を出力する音声出力部、
　をさらに備える、
請求項１に記載の情報処理装置。
　プロセッサが、ユーザに対するコンテンツの提示を制御し、前記コンテンツに対応する前記ユーザの視聴行動において非視聴期間が検出された場合、前記コンテンツに係る要旨を出力させること、
　を含み、
　前記出力させることは、前記非視聴期間の長さに基づいて前記コンテンツに係る要旨の情報量を決定すること、
　をさらに含む、
情報処理方法。