WO2018211748A1

WO2018211748A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2018211748A1
Application number: PCT/JP2018/003458
Authority: WO
Inventors: 祐平滝; 広岩瀬; 真里斎藤; 真一河野
Original assignee: ソニー株式会社
Priority date: 2017-05-16
Filing date: 2018-02-01
Publication date: 2018-11-22
Also published as: US20200111475A1; EP3627495B1; EP3627495A4; EP3627495A1

Abstract

【課題】発話を含むコンテンツの再生中であっても、音声発話による情報通知の完全性を保ちながらユーザに当該情報通知に内容をより確実に知覚させる。【解決手段】発話区間を含むコンテンツの再生中に、音声発話の出力を制御する出力制御部、を備え、前記出力制御部は、前記コンテンツにおける非発話区間を延長し、延長した前記非発話区間の再生中に、前記音声発話を出力させる、情報処理装置が提供される。また、プロセッサが、発話区間を含むコンテンツの再生中に、音声発話の出力を制御すること、を含み、前記制御することは、前記コンテンツにおける非発話区間を延長し、延長した前記非発話区間の再生中に、前記音声発話を出力させること、をさらに含む、情報処理方法が提供される。

Description

情報処理装置および情報処理方法

　本開示は、情報処理装置および情報処理方法に関する。

　近年、ユーザに対し情報通知などを行う種々のエージェント装置が普及している。また、上記のようなエージェント装置による情報通知の利便性や精度を向上させる技術が開発されている。例えば、特許文献１には、楽曲の前奏時間などに収まる台詞を選択し、当該台詞を音声出力する技術が開示されている。

特開２００４－６２７６９号公報

　しかし、エージェント装置による情報通知の内容は極めて多様であり、例えば、出力したい情報通知が前奏時間などの非発話区間よりも長い場合、特許文献１に記載の技術では対応することが困難である。また、上記のような非発話区間に合わせて情報通知に係る音声発話の長さを調整することも考えられるが、この場合、通知内容の一部を削除することとなるため、重要な情報が欠落する可能性もある。

　そこで、本開示では、発話を含むコンテンツの再生中であっても、音声発話による情報通知の完全性を保ちながらユーザに当該情報通知に内容をより確実に知覚させることが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。

　本開示によれば、発話区間を含むコンテンツの再生中に、音声発話の出力を制御する出力制御部、を備え、前記出力制御部は、前記コンテンツにおける非発話区間を延長し、延長した前記非発話区間の再生中に、前記音声発話を出力させる、情報処理装置が提供される。

　また、本開示によれば、プロセッサが、発話区間を含むコンテンツの再生中に、音声発話の出力を制御すること、を含み、前記制御することは、前記コンテンツにおける非発話区間を延長し、延長した前記非発話区間の再生中に、前記音声発話を出力させること、をさらに含む、情報処理方法が提供される。

　以上説明したように本開示によれば、発話を含むコンテンツの再生中であっても、音声発話による情報通知の完全性を保ちながらユーザに当該情報通知に内容をより確実に知覚させることが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係るシステム構成の一例を示す図である。同実施形態に係る情報処理端末と出力制御装置の活用イメージを示す図である。同実施形態に係る情報処理端末の機能ブロック図の一例である。同実施形態に係る出力制御装置の機能ブロック図の一例である。同実施形態に係る情報処理サーバの機能ブロック図の一例である。同実施形態に係る音楽コンテンツの出力制御について説明するための図である。同実施形態に係る動画コンテンツの出力制御について説明するための図である。同実施形態に係るゲームコンテンツの出力制御について説明するための図である。同実施形態に係る朗読コンテンツの出力制御について説明するための図である。同実施形態に係る情報処理システムによる処理の流れを示すシーケンス図である。同実施形態に係る出力制御装置による処理の流れを示すフローチャートである。本開示の一実施形態に係るハードウェア構成例を示す図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．実施形態
　　１．１．背景
　　１．２．システム構成例
　　１．３．情報処理端末１０の機能構成例
　　１．４．出力制御装置２０の機能構成例
　　１．５．情報処理サーバ３０の機能構成例
　　１．６．出力制御の具体例
　　１．７．処理の流れ
　２．ハードウェア構成例
　３．まとめ

　＜１．実施形態＞
　＜＜１．１．背景＞＞
　上述したように、近年においては、音声発話により情報通知などを行う種々のエージェント装置が普及している。また、上記のようなエージェント装置は、発話を含むコンテンツの再生中に音声発話による情報通知を行う場合もある。例えば、ヴォーカルを含む音楽コンテンツの再生中に、エージェント装置が受信したメールに係る情報通知を行う場合なども想定される。

　しかし、この際、エージェント装置が再生中の音楽コンテンツにおけるヴォーカルと重なるように音声発話を行った場合、ヴォーカルの音に邪魔されてユーザが情報通知の内容を把握できない状況が生じ得る。

　一方、上記のような状況を回避するために、音楽コンテンツにおける前奏などの非発話区間に情報通知に係る音声発話を行うことも可能であるが、当該音声発話の長さが非発話区間の長さを上回る場合には、音声発話と発話区間との重複を避けられない場合もある。

　また、非発話区間に収まるように情報通知の内容を簡素化する場合には、重要な情報が削除される懸念もあり、情報通知の本来の意図が失われる可能性もある。さらには、上記のような意図の損失を防ぐためには、情報通知の意図を保ったうえで非発話区間に合わせて音声発話の長さを人手により調整するなど、煩雑かつ非効率的な作業を行う必要がある。

　本開示に係る技術思想は上記の点に着目して発想されたものであり、発話を含むコンテンツの再生中であっても、発話を含むコンテンツの再生中であっても、音声発話による情報通知の完全性を保ちながらユーザに当該情報通知に内容をより確実に知覚させることを可能とする。このために、本開示の一実施形態に係る情報処理装置および情報処理方法は、発話区間を含むコンテンツの再生中に音声発話の出力を制御する際、当該コンテンツの非発話区間を延長し、延長した非発話区間の再生中に音声発話を出力させること、を特徴の一つとする。すなわち、本開示の一実施形態に係る情報処理装置および情報処理方法は、情報通知に係る音声発話に応じてコンテンツの長さを調整することで、情報通知の完全性を確保すると共に、コンテンツ中の発話と情報通知に係る音声発話が重複しないよう制御することができる。本開示の一実施形態に係る情報処理装置および情報処理方法が有する上記の特徴によれば、ユーザに完全な情報を聞き取り易いタイミングで通知することができ、音声発話による情報通知の利便性を一層に向上させることが可能となる。

　＜＜１．２．システム構成例＞＞
　続いて、本開示の実施形態に係るシステム構成例について説明する。図１は、本実施形態に係るシステム構成の一例を示す図である。図１を参照すると、本実施形態に係る情報処理システムは、情報処理端末１０、出力制御装置２０、および情報処理サーバ３０を備える。また、情報処理端末１０と出力制御装置２０、出力制御装置２０と情報処理サーバ３０は、互いに通信が行えるようにネットワーク４０を介して接続される。

　（情報処理端末１０）
　本実施形態に係る情報処理端末１０は、ユーザ通知に係る通知情報を生成する種々の装置であってよい。図２は、本実施形態に係る情報処理端末１０と出力制御装置２０の活用イメージを示す図である。図２には、本実施形態に係る情報処理端末１０の一例として、複数の種別の情報処理端末１０ａ～１０ｄが示されている。

　情報処理端末１０ａは、ユーザの所持するスマートフォンである。情報処理端末１０ａは、例えば、受信したメッセージに関する通知情報や、登録されたスケジュールに関する通知情報などを生成し、出力制御装置２０に送信する。

　また、情報処理端末１０ｂは、テレビジョン装置である。情報処理端末１０ｂは、例えば、ユーザが登録した視聴予定のプログラムが開始されたことや、受信した緊急速報などに係る通知情報を生成し、出力制御装置２０に送信してもよい。

　また、情報処理端末１０ｃは、冷蔵庫である。情報処理端末１０ｃは、例えば、扉が完全に閉まっていないこと示す通知情報や、賞味期限の近い食材に関する通知情報などを生成し、出力制御装置２０に送信してもよい。

　また、情報処理端末１０ｄは、給湯器に係る操作パネルである。情報処理端末１０ｄは、例えば、風呂への給湯が完了したことを示す通知情報や各種のエラーなどに関する通知情報を生成し、出力制御装置２０に送信してもよい。

　以上、例示したように、本実施形態に係る情報処理端末１０は、通知情報を生成する機能を有する種々の装置として定義される。本実施形態に係る情報処理端末１０は、図１に示す例の他、例えば、ゲーム機器、録画機器、オーディオ機器、洗濯機、照明などの家電機器やオフィス機器であってもよい。

　（出力制御装置２０）
　本実施形態に係る出力制御装置２０は、情報処理端末１０から受信した通知情報などに基づいて音声発話による情報通知を行う情報処理装置である。本実施形態に係る出力制御装置２０は、コンテンツにおける非発話区間を延長し、延長した非発話区間の再生中に音声発話による情報通知を行うことを特徴の一つとする。図２に示す一例の場合、出力制御装置２０は据え置き型のエージェント装置であり、情報処理端末１０ａから受信した通知情報に基づいて音声発話ＳＯ１を出力している。

　また、本実施形態に係る出力制御装置２０は、上記の例に限定されず、例えば、スマートフォン、タブレット、ウェアラブル装置、コンピュータ、自律型のエージェントなどであってもよい。また、本実施形態に係る出力制御装置２０は、コンテンツの再生機能を有するテレビジョン装置、オーディオ機器、ゲーム機器などとして実現されてもよい。

　なお、本実施形態に係る出力制御装置２０は、図２に示すように、複数の情報処理端末１０から受信した通知情報に基づいて、通知情報ごとに対応する音声発話の出力を制御することができる。本実施形態に係る出力制御装置２０が有する上記の機能によれば、複数の情報処理端末１０による情報通知を一本化すると同時に、コンテンツの再生場所、すなわちユーザが存在する可能性の高い場所で情報通知を行うことができ、ユーザにより確実に情報を通知することが可能となる。

　（情報処理サーバ３０）
　本実施形態に係る情報処理サーバ３０は、再生されるコンテンツに関するコンテンツ情報を保持する情報処理装置である。また、本実施形態に係る情報処理サーバ３０は、音声発話に用いられる人工音声を合成する機能を有してもよい。

　（ネットワーク４０）
　ネットワーク４０は、情報処理端末１０と出力制御装置２０、出力制御装置２０と情報処理サーバ３０を接続する機能を有する。ネットワーク４０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク４０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク４０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

　以上、本実施形態に係る情報処理システムのシステム構成例について説明した。なお、図１および図２を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、情報処理端末１０と出力制御装置２０が有する機能は単一の装置により実現されてもよい。また、本実施形態に係る情報処理システムは、情報処理サーバ３０を必ずしも備えなくてもよい。この場合、出力制御装置２０が音声発話に用いる人工音声を合成する機能を有してよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．３．情報処理端末１０の機能構成例＞＞
　次に、本実施形態に係る情報処理端末１０の機能構成例について説明する。図３は、本実施形態に係る情報処理端末１０の機能ブロック図の一例である。図３を参照すると、本実施形態に係る情報処理端末１０は、通知生成部１１０および通信部１２０を備える。

　（通知生成部１１０）
　本実施形態に係る通知生成部１１０は、ユーザ通知に係る通知情報を生成する機能を有する。上述したように、本実施形態に係る通知生成部１１０は、情報処理端末１０の特性に応じた種々の通知情報を生成することができる。

　（通信部１２０）
　本実施形態に係る通信部１２０は、ネットワーク４０を介して出力制御装置２０との情報通信を行う機能を有する。具体的には、通信部１２０は、通知生成部１１０が生成した通知情報を出力制御装置２０に送信する。

　以上、本実施形態に係る情報処理端末１０の機能構成例について説明した。なお、図３を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末１０の機能構成は係る例に限定されない。本実施形態に係る情報処理端末１０は、図３に示す以外の構成をさらに備えてもよい。例えば、情報処理端末１０は、コンテンツを再生する再生部や、ユーザの入力操作などを受け付ける入力部などをさらに備えてもよい。また、情報処理端末１０は、装置の特性に応じた種々の処理を行う処理部を備えてよい。本実施形態に係る情報処理端末１０の構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．４．出力制御装置２０の機能構成例＞＞
　次に、本実施形態に係る出力制御装置２０の機能構成例について説明する。図４は、本実施形態に係る出力制御装置２０の機能ブロック図の一例である。図４を参照すると、本実施形態に係る出力制御装置２０は、解析部２１０、出力制御部２２０、コンテンツ再生部２３０、音声出力部２４０、および通信部２５０を備える。

　（解析部２１０）
　本実施形態に係る解析部２１０は、コンテンツにおける発話区間および非発話区間に関する情報を解析する機能を有する。解析部２１０は、振幅と零交差に基づく手法やガウス混合分布モデルに基づく手法、デコーダベースによる手法などを用いて上記の解析を行うことができる。

　ここで、本実施形態に係るコンテンツは、例えば、音楽コンテンツ、動画コンテンツ、ゲームコンテンツ、朗読コンテンツなどであってもよい。また、上記の発話区間とは、コンテンツ中において音声出力を伴う区間を指し、上記の非発話区間とは、コンテンツ中において音声出力を伴わない区間を指す。なお、上記の音声とは、人間やシステムなどにより発せられる声を指す。

　（出力制御部２２０）
　本実施形態に係る出力制御部２２０は、発話区間を含むコンテンツの再生中に、音声発話の出力を制御する機能を有する。この際、本実施形態に係る出力制御部２２０は、コンテンツにおける非発話区間を延長し、延長した非発話区間の再生中に、前記音声発話を出力させることを特徴の一つとする。

　より具体的には、本実施形態に係る出力制御部２２０は、コンテンツの内容に基づいて非発話区間を延長してよい。出力制御部２２０は、例えば、コンテンツから抽出した再生情報の一部やコンテンツの内容に関連する関連情報を用いて非発話区間を延長することができる。なお、出力制御部２２０は、音声発話の出力に要する時間に基づいて、非発話区間を延長する長さを決定してよい。本実施形態に係る出力制御部２２０が有する機能の詳細については別途後述する。

　（コンテンツ再生部２３０）
　本実施形態に係るコンテンツ再生部２３０は、出力制御部２２０による制御に基づいてコンテンツを再生する機能を有する。本実施形態に関するコンテンツ再生部２３０は、上述したように、非発話区間が延長されたコンテンツを再生することができる。なお、本実施形態に係るコンテンツ再生部２３０は、コンテンツの内容に応じた出力装置を含む。上記の出力装置には、各種のディスプレイ装置や、アンプ、スピーカなどが適用される。

　（音声出力部２４０）
　本実施形態に係る音声出力部２４０は、出力制御部２２０による制御に基づいて、情報通知に係る音声を出力する機能を有する。この際、本実施形態に係る音声出力部２４０は、コンテンツにおいて延長された非発話区間の再生中に音声発話を出力する。なお、音声出力部２４０は、通知情報やコンテンツに係る関連情報に基づいて合成された人工音声を用いて上記の音声発話を出力することができる。音声出力部２４０は、アンプ、スピーカなどの出力装置を含む。

　（通信部２５０）
　本実施形態に係る通信部２５０は、ネットワーク４０を介して情報処理端末１０および情報処理サーバ３０との情報通信を行う機能を有する。具体的には、通信部２５０は、情報処理端末１０から通知情報を受信する。また、通信部２５０は、人工音声の合成に用いられるテキスト情報や、コンテンツに係る関連情報の要求を情報処理サーバ３０に送信する。また、通信部２５０は、情報処理サーバ３０からコンテンツに係る関連情報や合成された人工音声を受信する。

　以上、本実施形態に係る出力制御装置２０の機能構成例について説明した。なお、図４を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る出力制御装置２０の機能構成は係る例に限定されない。図４に示す機能の一部は、出力制御装置２０とは異なる別の装置の機能として実現されてもよい。例えば、上述したコンテンツ再生部２３０、音声出力部２４０などは、情報処理端末１０やその他の別の装置の機能として備えられてもよい。また、一方で、本実施形態に係る出力制御装置２０は、人工音声を合成する機能や、ユーザなどによる発話の意図を解釈し応答文を生成する機能などを有してもよい。本実施形態に係る出力制御装置２０の構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．５．情報処理サーバ３０の機能構成例＞＞
　次に、本実施形態に係る情報処理サーバ３０の機能構成例について説明する。図５は、本実施形態に係る情報処理サーバ３０の機能ブロック図の一例である。図５を参照すると、本実施形態に係る情報処理サーバ３０は、音声合成部３１０、コンテンツ情報ＤＢ３２０、及び通信部３３０を備える。

　（音声合成部３１０）
　本実施形態に係る音声合成部３１０は、出力制御装置２０から受信したテキスト情報などに基づいて、人工音声を合成する機能を有する。本実施形態に係る音声合成部３１０が生成する人工音声は、通信部３３０およびネットワーク４０を介して出力制御装置２０に送信され、音声出力部２４０により出力される。

　（コンテンツ情報ＤＢ３２０）
　本実施形態に係るコンテンツ情報ＤＢ３２０は、コンテンツに関連する関連情報を保持するデータベースである。ここで、本実施形態に係る関連情報には、コンテンツに関する基本情報や付加情報などを含まれてよい。例えば、コンテンツが音楽コンテンツである場合、関連情報には、楽曲名、アーティスト名、リリース時期、ランキング、楽曲に関するコメント、メッセージ、広告などが含まれ得る。また、本実施形態に係るコンテンツ情報ＤＢ３２０は、関連情報に加え、コンテンツそのものをデータとして保持してもよい。

　（通信部３３０）
　通信部３３０は、ネットワーク４０を介して出力制御装置２０との情報通信を行う機能を有する。具体的には、通信部３３０は、出力制御装置２０から人工音声の合成に用いるテキスト情報や、コンテンツに係る関連情報の要求を受信する。また、通信部３３０は、音声合成部３１０が合成した人工音声、コンテンツ情報ＤＢ３２０が保持する関連情報、コンテンツデータなどを出力制御装置２０に送信する。

　以上、本実施形態に係る情報処理サーバ３０の機能構成例について説明した。なお、図５を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ３０の機能構成は係る例に限定されない。本実施形態に係る情報処理サーバ３０は、図５に示す以外の構成をさらに備えてもよい。情報処理サーバ３０は、例えば、ユーザなどによる発話の意図を解釈し応答文を生成する機能などを有してもよい。また、上述したように音声合成部３１０が有する機能は、出力制御装置２０の機能として実現されてもよい。本実施形態に係る情報処理サーバ３０の構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．６．出力制御の具体例＞＞
　次に、本実施形態に係る出力制御装置２０による出力制御の詳細について具体例を挙げながら説明する。

　（音楽コンテンツに係る出力制御）
　まず、本実施形態に係るコンテンツが音楽コンテンツである場合の出力制御について説明する。図６は、本実施形態に係る音楽コンテンツの出力制御について説明するための図である。ここで、図６の上段には出力制御装置２０の音声出力部２４０が出力する音声発話ＳＯが、図６の下段にはコンテンツ再生部２３０が再生する音楽コンテンツＭＣがそれぞれ可視化されて示されている。

　なお、図６では、音楽コンテンツＭＣが、２つの発話区間ＯＰ－１およびＯＰ－２、２つの非発話区間ＮＯＰ－１およびＮＯＰ－２を含む場合の一例が示されている。発話区間ＯＰ－１およびＯＰ－２は、音楽コンテンツＭＣにおけるヴォーカル区間、すなわち歌声やラップ、台詞等が再生される区間であってよい。また、非発話区間ＮＯＰ－１およびＮＯＰ－２は、音楽コンテンツＭＣにおける前奏や間奏、後奏などに該当する区間であってもよい。

　図６の左側には、本実施形態に係る出力制御装置２０による制御が行われない場合の、音楽コンテンツの再生と音声発話の出力の例が示されている。本実施形態に係る出力制御装置２０による制御が行われない場合、音声発話ＳＯは、タイミングを考慮せずに都度出力される。この場合、図示するように、音声発話ＳＯは、音楽コンテンツＭＣの発話区間ＯＰ－１などと重複して出力されることとなり、発話区間ＯＰ－１に係る音声出力と拮抗することで、ユーザにとって知覚が困難な状態となる。

　一方、図６の右側には、本実施形態に係る出力制御装置２０による非発話区間の延長制御が行われる場合の、音楽コンテンツの再生と音声発話の出力の例が示されている。なお、ここでは、出力制御部２２０が、音声発話ＳＯの出力に要する時間に基づいて非発話区間ＮＯＰ－１を延長する場合の例が示されている。

　この際、本実施形態に係る出力制御部２２０は、音楽コンテンツから抽出した非発話区間ＮＯＰ－１に係る再生情報を用いて、非発話区間ＮＯＰ－１を延長してもよい。すなわち、本実施形態に係る出力制御部２２０は、音楽コンテンツＭＣにおける前奏、間奏、または後奏などに対応する再生情報を繰り返すことで、非発話区間ＮＯＰ－１を延長することができる。出力制御部２２０は、例えば、上記の再生情報を小節ごとに繰り返すことで、違和感が生じさせることなく非発話区間ＮＯＰ－１を延長可能である。

　このように、本実施形態に係る出力制御部２２０によれば、音声発話ＳＯに応じて音楽コンテンツＭＣにおける非発話区間ＮＯＰを延長し、当該非発話区間において音声発話ＳＯを出力させることで、情報通知の完全性を保ちながら発話区間ＯＰと重複しないように音声発話ＳＯを出力させることができる。

　なお、上記の音声発話ＳＯは、例えば、情報処理端末１０から受信した各種の通知情報に基づく音声発話であってもよいし、音楽コンテンツＭＣに関連する関連情報に基づく音声発話であってもよい。出力制御部２２０は、情報処理サーバ３０から取得した関連情報に基づいて、例えば、音楽コンテンツＭＣの基本情報や付加情報などを含む音声発話ＳＯを出力させることができる。

　より詳細には、出力制御部２２０は、音楽コンテンツＭＣの楽曲名やアーティスト名、アーティストからのコメント、広告などを含む音声発話ＳＯを出力させることが可能である。出力制御部２２０が有する上記の機能によれば、例えば、音楽コンテンツＭＣの前奏を延長し、延長した前奏において音楽コンテンツＭＣの曲紹介などを行う自動ラジオステーションや、延長した前奏において広告を出力する無料音楽視聴サービスなどを低コストで実現することが可能となる。

　以上、本実施形態に係る音楽コンテンツの出力制御について詳細に説明した。なお、上記の説明においては、出力制御部２２０が音楽コンテンツにおける前奏を延長する場合を主な例として述べたが、出力制御部２２０は、間奏や後奏などの非発話区間を延長することも可能である。また、出力制御部２２０は、通知情報や関連情報に基づいて複数の音声発話を取得し、当該複数の音声発話を複数の非発話区間に分散させて出力させることもできる。

　（動画コンテンツに係る出力制御）
　次に、本実施形態に係るコンテンツが動画コンテンツである場合の出力制御について説明する。図７は、本実施形態に係る動画コンテンツの出力制御について説明するための図である。ここで、図７の上段には出力制御装置２０の音声出力部２４０が出力する音声発話ＳＯが、図６の下段にはコンテンツ再生部２３０により再生する動画コンテンツＶＣに係る音情報がそれぞれ可視化されて示されている。

　図７では、図６の場合と同様に、動画コンテンツＶＣが、２つの発話区間ＯＰ－１およびＯＰ－２、２つの非発話区間ＮＯＰ－１およびＮＯＰ－２を含む場合の一例が示されている。発話区間ＯＰ－１およびＯＰ－２は、動画コンテンツＶＣにおいて人物やキャラクターなどが発話を行っている区間である。また、非発話区間ＮＯＰ－１およびＮＯＰ－２は、動画コンテンツＶＣにおいて発話以外の音が出力される区分または音が出力されない区分である。

　図７の左側には、本実施形態に係る出力制御装置２０による制御が行われない場合の、動画コンテンツＶＣの再生と音声発話ＳＯの出力の例が示されている。本実施形態に係る出力制御装置２０による制御が行われない場合、音声発話ＳＯは、タイミングを考慮せずに都度出力される。この場合、図示するように、音声発話ＳＯは、動画コンテンツＶＣの発話区間ＯＰ－１などと重複して出力されることとなり、発話区間ＯＰ－１に係る音声出力と拮抗することで、ユーザにとって知覚が困難な状態となる。

　一方、図７の右側には、本実施形態に係る出力制御装置２０による非発話区間の延長制御が行われる場合の、動画コンテンツＶＣの再生と音声発話ＳＯの出力の例が示されている。

　この際、本実施形態に係る出力制御部２２０は、動画コンテンツＶＣから抽出した非発話区間ＮＯＰ－１に係る再生情報を用いて、非発話区間ＮＯＰ－１を延長してもよい。すなわち、本実施形態に係る出力制御部２２０は、動画コンテンツＶＣから抽出した静止画像ＩＭを用いて非発話区間ＮＯＰ－１を延長することができる。この場合、出力制御部２２０は、例えば、動画コンテンツＶＣの一シーンが繰り返し再生されるように非発話区間ＮＯＰ－１を延長してもよいし、動画コンテンツＶＣのダイジェスト画像集を生成して非発話区間ＮＯＰ－１を延長することも可能である。

　一方で、出力制御部２２０は、動画コンテンツＶＣの内容に関連する静止画像ＩＭを用いて非発話区間ＮＯＰ－１を延長してもよい。出力制御部２２０は、情報処理サーバ３０から動画コンテンツＶＣに関連する静止画像ＩＭを取得することで、上記の制御を行うことが可能である。ここで、動画コンテンツＶＣに関連する静止画像ＩＭには、例えば、登場する俳優の画像やタイアップする商品の広告などが含まれ得る。また、動画コンテンツＶＣが個人が撮影した動画などである場合には、当該動画と関連性を有する写真などを静止画像ＩＭとして用いてもよい。具体的には、動画コンテンツＶＣが画像管理アプリケーションなどに保管されている場合、出力制御部２２０は、動画コンテンツＶＣと同一のフォルダに保管されている静止画像ＩＭを用いてもよいし、動画コンテンツと近い撮影日時や同一場所で撮影された静止画像ＩＭを用いてもよい。

　このように、本実施形態に係る出力制御部２２０によれば、音声発話ＳＯに応じて動画コンテンツＶＣにおける非発話区間ＮＯＰを延長し、当該非発話区間において音声発話ＳＯを出力させることで、情報通知の完全性を保ちながら発話区間ＯＰと重複しないように音声発話ＳＯを出力させることができる。

　なお、上記の音声発話ＳＯは、例えば、情報処理端末１０から受信した各種の通知情報に基づく音声発話であってもよいし、動画コンテンツＶＣに関連する関連情報に基づく音声発話であってもよい。出力制御部２２０は、情報処理サーバ３０から取得した関連情報に基づいて、例えば、動画コンテンツＶＣの基本情報や付加情報などを含む音声発話ＳＯを出力させてもよい。具体的には、出力制御部２２０は、動画コンテンツＶＣに付加されたコメントや、撮影場所、日時、撮影時の天気などの情報を音声発話ＳＯとして出力させてもよい。出力制御部２２０が有する上記の機能によれば、動画コンテンツＶＣや関連する静止画像ＩＭを含むナレーション付きのアルバムなどを自動で生成することも可能となる。

　また、出力制御部２２０は、例えば、動画コンテンツＶＣにおいて発話される台詞などを翻訳し音声発話ＳＯとして出力させてもよい。さらには、出力制御部２２０は、例えば、動画コンテンツＶＣにおける補足情報を音声発話ＳＯとして出力させることもできる。上記の補足情報には、例えば、動画コンテンツＶＣに係る解説やナレーションが含まれる。出力制御部２２０が有する上記の機能によれば、音声発話ＳＯにより視覚情報を補うことができ、例えば、視覚障がいを有するユーザにも動画コンテンツＶＣの内容を的確に伝えることが可能となる。

　（ゲームコンテンツに係る出力制御）
　次に、本実施形態に係るコンテンツがゲームコンテンツである場合の出力制御について説明する。図８は、本実施形態に係るゲームコンテンツの出力制御について説明するための図である。図８の上段には、本実施形態に係る出力制御装置２０による制御が行われない場合の、ゲームコンテンツＧＣの再生と音声発話ＳＯの出力の例が示されている。本実施形態に係る出力制御装置２０による制御が行われない場合、音声発話ＳＯは、タイミングを考慮せずに都度出力される。この場合、図示するように、音声発話ＳＯは、ゲームコンテンツＧＣにおけるキャラクターなどの台詞Ｌ１、すなわち発話区間と重複して出力されることとなり、ユーザにとって知覚が困難な状態となる。

　一方、図８の下段には、本実施形態に係る出力制御装置２０による非発話区間の延長制御が行われる場合の、ゲームコンテンツＧＣの再生と音声発話ＳＯの出力の例が示されている。

　この際、本実施形態に係る出力制御部２２０は、ゲームコンテンツＧＣにおけるキャラクターの動作などをアイドリング状態とすることで非発話区間を延長してもよい。上記のアイドリング状態とは、動画像や背景音楽などの再生を維持したままゲームコンテンツＧＣにおける進行状態が一時停止される状態を指す。図８に示す一例の場合、出力制御部２２０は、キャラクターのまばたきなどの自然な動作を維持したまま、ゲームコンテンツＧＣの進行状態を一時停止させることで、非発話区間を延長し、音声発話ＳＯを出力させている。また、出力制御部２２０は、音声発話ＳＯの出力が完了した後には、上記のアイドリング状態を解除してよい。図８の示す一例の場合、出力制御部２２０によりアイドリング状態が解除されたことで、ゲームコンテンツＧＣが進行し、キャラクターが台詞Ｌ２を発している。本実施形態に係る出力制御部２２０が有する上記の機能によれば、ゲームコンテンツＶＣを完全に停止することなく、より自然に違和感なく音声発話ＳＯを出力させることが可能となる。

　（朗読に係る出力制御）
　次に、本実施形態に係るコンテンツが朗読コンテンツである場合の出力制御について説明する。本実施形態に係る朗読コンテンツとは、テキスト情報の読み上げを行うコンテンツであり、例えば、音声により小説などの書籍を朗読することができる。

　図９は、本実施形態に係る朗読コンテンツの出力制御について説明するための図である。図９では、朗読コンテンツＡＣが、２つの発話区間ＯＰ－１およびＯＰ－２、２つの非発話区間ＮＯＰ－１およびＮＯＰ－２を含む場合の一例が示されている。発話区間ＯＰ－１およびＯＰ－２は、朗読コンテンツＡＣにおいてテキスト情報の読み上げが行われる区間である。また、非発話区間ＮＯＰ－１およびＮＯＰ－２は、朗読コンテンツＡＣにおいて朗読が行われない区間であり、例えば、発話区間の間や、背景音のみが出力される区間が含まれる。

　ここで、図９の上段には、本実施形態に係る出力制御装置２０による制御が行われない場合の、朗読コンテンツＡＣの再生と音声発話ＳＯの出力の例が示されている。本実施形態に係る出力制御装置２０による制御が行われない場合、音声発話ＳＯは、タイミングを考慮せずに都度出力される。この場合、図示するように、音声発話ＳＯは、朗読コンテンツＡＣの発話区間ＯＰ－１などと重複して出力されることとなり、ユーザにとって知覚が困難な状態となる。

　一方、図９の下段には、本実施形態に係る出力制御装置２０による非発話区間の延長制御が行われる場合の、朗読コンテンツＶＣの再生と音声発話ＳＯの出力の例が示されている。この際、本実施形態に係る出力制御部２２０は、朗読コンテンツＡＣから抽出した非発話区間ＮＯＰ－１に係る再生情報を用いて、非発話区間ＮＯＰ－１を延長してもよい。すなわち、本実施形態に係る出力制御部２２０は、朗読コンテンツＡＣから抽出した背景音や間を用いて非発話区間ＮＯＰ－１を延長することができる。このように、本実施形態に係る再生情報には、無音の区間が含まれてよい。本実施形態に係る出力制御部２２０が有する上記の機能によれば、朗読コンテンツＡＣに係る出力を維持したまま、より自然に違和感なく音声発話ＳＯを出力させることが可能となる。

　＜＜１．７．処理の流れ＞＞
　次に、本実施形態に係る情報処理方法の流れについて詳細に説明する。図１０は、本実施形態に係る情報処理システムによる処理の流れを示すシーケンス図である。

　図１０を参照すると、まず、情報処理端末１０が通知情報を生成し（Ｓ１１０１）、当該通知情報を出力制御装置２０に送信する（Ｓ１１０２）。なお、出力制御部２２０が通知情報以外の情報に基づいて音声発話を行う場合には、ステップＳ１１０１およびＳ１１０２における処理は省略されてよい。

　次に、出力制御装置２０は、ステップＳ１１０２において受信した通知情報を蓄積する（Ｓ１１０３）。上述したように、本実施形態に係る出力制御装置２０は、複数の情報処理端末１０から通知情報を受信し、当該通知情報に基づく音声発話の出力を制御することができる。

　次に、出力制御装置２０は、蓄積された通知情報などに基づいて、コンテンツの制御可否を判定する（Ｓ１１０４）。具体的には、出力制御装置２０は、音声発話を出力するために延長可能な非発話区間が存在するか否かを判定してよい。

　ステップＳ１１０４においてコンテンツ制御が可能であると判定した場合、出力制御装置２０は、通知情報を情報処理サーバ３０に送信する（Ｓ１１０５）。次に、情報処理サーバ３０は、ステップＳ１１０５において受信した通知情報に基づいて音声合成を行い（Ｓ１１０６）、合成した人工音声を出力制御装置２０に送信する（Ｓ１１０７）。なお、上述したように、情報処理サーバ３０は、コンテンツの関連情報に基づいて音声合成を行ってもよい。続いて、出力制御装置２０は、ステップＳ１１０７において受信した人工音声を用いて音声発話およびコンテンツの出力制御を行う（Ｓ１１０８）。

　一方、ステップＳ１１０４においてコンテンツ制御が困難であると判定した場合、出力制御装置２０は、情報処理端末１０に制御不可通知を送信してもよい（Ｓ１１０９）。この場合、情報処理端末１０は、ステップＳ１１０９において受信した制御不可通知に基づいて、装置の特性に応じた情報通知を自ら実行してよい。

　続いて、本実施形態に係る出力制御装置２０による処理の流れについてより詳細に説明する。図１１は、本実施形態に係る出力制御装置２０による処理の流れを示すフローチャートである。

　図１１を参照すると、まず、解析部２１０がコンテンツにおける発話区間および非発話区間の情報を解析する（Ｓ２１０１）。なお、ステップＳ２１０１における解析処理は、事前に実施されてもよいし、再生中のコンテンツに対しリアルタイムで行われてもよい。また、発話区間および非発話区間に係る情報は、情報処理サーバ３０のコンテンツ情報ＤＢ３２０に予め保持されていてもよい。

　次に、出力制御部２２０は、再生中のコンテンツにおける非発話区間が延長可能であるか否かを判定する（Ｓ２１０２）。ここで、再生中のコンテンツにおける非発話区間の延長が困難であると判定した場合（Ｓ２１０２：Ｎｏ）、出力制御部２２０は、続いて、別コンテンツの非発話区間が延長可能であるか否かを判定する（Ｓ２１０３）。ここで上記の別コンテンツとは、例えば、再生中コンテンツの終了後に再生される予定であるコンテンツであってもよい。すなわち、本実施形態に係る出力制御部２２０は、複数のコンテンツの連続再生を制御し、再生中のコンテンツにおいて延長可能な非発話区間が存在しない場合、再生予定の別コンテンツにおける非発話区間を延長し、当該非発話区間の再生中に音声発話を出力させることができる。

　ここで、出力制御部２２０が別コンテンツにおける非発話区間の延長が困難であると判定した場合（Ｓ２１０３：Ｎｏ）、通信部２５０は情報処理端末１０に制御不可通知を送信する（Ｓ２１０７）。

　一方、別コンテンツにおける非発話区間の延長が可能であると判定した場合（Ｓ２１０３：Ｙｅｓ）、出力制御部２２０は、コンテンツの再生順序に関する制御を実行する（Ｓ２１０４）。この際、出力制御部２２０は、例えば、音声発話の重要度に基づいて、コンテンツの再生順序を制御してもよい。より具体的には、出力制御部２２０は、音声発話の重要度が高い場合などには、当該音声発話の出力に適合する非発話区間を含むコンテンツの再生順序を早めることで、重要度の高い音声発話がより早く出力されるように制御を行ってもよい。

　また、出力制御部２２０は、音声発話の特性に基づいて、コンテンツに係る再生順序を制御してもよい。出力制御部２２０は、例えば、音声発話の内容によりマッチするコンテンツの再生順序を早め、当該コンテンツの非発話区間において音声発話を出力させることができる。より具体的には、出力制御部２２０は、例えば、音声発話の内容が明るい話題である場合には曲調の明るい音楽コンテンツの再生順序を早め、当該音楽コンテンツの非発話区間において音声発話を出力させるなどの制御を行うことが可能である。

　ステップＳ２１０４における再生順序の制御が完了したのち、またはステップＳ２１０２において再生中のコンテンツの非発話区間が延長可能であると判定した場合、出力制御部２２０は、情報処理サーバ３０から人工音声を取得する（Ｓ２１０５）。

　続いて、出力制御部２２０は、ステップＳ２１０５において取得した人工音声を用いて音声発話の出力制御、および非発話区間の延長制御を実行する（Ｓ２１０６）。

　＜２．ハードウェア構成例＞
　次に、本開示の一実施形態に係る情報処理端末１０、出力制御装置２０、および情報処理サーバ３０に共通するハードウェア構成例について説明する。図１２は、本開示の一実施形態に係る情報処理端末１０、出力制御装置２０、および情報処理サーバ３０のハードウェア構成例を示すブロック図である。図１２を参照すると、情報処理端末１０、出力制御装置２０、および情報処理サーバ３０は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（ＣＰＵ８７１）
　ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜３．まとめ＞
　以上説明したように、本開示の一実施形態に係る出力制御装置２０は、コンテンツにおける非発話区間を延長し、延長した非発話区間において音声発話を出力させることができる。係る構成によれば、発話を含むコンテンツの再生中であっても、音声発話による情報通知の完全性を保ちながらユーザに当該情報通知に内容をより確実に知覚させることが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　また、本明細書の出力制御装置２０の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、出力制御装置２０の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　発話区間を含むコンテンツの再生中に、音声発話の出力を制御する出力制御部、
　を備え、
　前記出力制御部は、前記コンテンツにおける非発話区間を延長し、延長した前記非発話区間の再生中に、前記音声発話を出力させる、
情報処理装置。
（２）
　前記出力制御部は、前記コンテンツの内容に基づいて前記非発話区間を延長する、
前記（１）に記載の情報処理装置。
（３）
　前記出力制御部は、前記コンテンツから抽出された再生情報の一部を用いて前記非発話区間を延長する、
前記（２）に記載の情報処理装置。
（４）
　前記出力制御部は、前記コンテンツの内容に関連する関連情報を用いて前記非発話区間を延長する、
前記（２）または（３）に記載の情報処理装置。
（５）
　前記出力制御部は、前記音声発話の出力に要する時間に基づいて、前記非発話区間を延長する長さを決定する、
前記（２）～（４）のいずれかに記載の情報処理装置。
（６）
　前記出力制御部は、複数の前記コンテンツの連続再生を制御し、再生中の前記コンテンツにおいて延長可能な前記非発話区間が存在しない場合、再生予定の別の前記コンテンツにおける前記非発話区間を延長し、当該非発話区間の再生中に前記音声発話を出力させる、
前記（１）～（５）のいずれかに記載の情報処理装置。
（７）
　前記出力制御部は、前記音声発話の特性に基づいて、複数の前記コンテンツに係る再生順序を制御する、
前記（６）に記載の情報処理装置。
（８）
　前記出力制御部は、前記音声発話の重要度に基づいて、当該音声発話の出力に適合する前記非発話区間を含む前記コンテンツの再生順序を早める、
前記（７）に記載の情報処理装置。
（９）
　前記出力制御部は、少なくとも１つ以上の端末から受信した通知情報に基づいて前記音声発話の出力を制御する、
前記（１）～（８）のいずれかに記載の情報処理装置。
（１０）
　前記コンテンツは、音楽コンテンツを含む、
前記（１）～（９）のいずれかに記載の情報処理装置。
（１１）
　前記非発話区間は、少なくとも前記音楽コンテンツにおける前奏、間奏、または後奏のいずれかを含み、
　前記出力制御部は、前記前奏、前記間奏、または前記後奏を繰り返し再生させることで、前記非発話区間を延長する、
前記（１０）に記載の情報処理装置。
（１２）
　前記出力制御部は、前記音楽コンテンツに関連する基本情報または付加情報を含む前記音声発話の出力を制御する、
前記（１０）または（１１）に記載の情報処理装置。
（１３）
　前記コンテンツは、動画コンテンツを含む、
前記（１）～（１２）のいずれかに記載の情報処理装置。
（１４）
　前記出力制御部は、前記動画コンテンツから抽出された静止画像を用いて前記非発話区間を延長する、
前記（１３）に記載の情報処理装置。
（１５）
　前記出力制御部は、前記動画コンテンツの内容に関連する静止画像を用いて前記非発話区間を延長する、
前記（１３）または（１４）に記載の情報処理装置。
（１６）
　前記コンテンツは、朗読コンテンツを含む、
前記（１）～（１５）のいずれかに記載の情報処理装置。
（１７）
　前記コンテンツは、ゲームコンテンツを含む、
前記（１）～（１６）のいずれかに記載の情報処理装置。
（１８）
　前記コンテンツにおける前記発話区間および前記非発話区間に関する情報を解析する解析部、
　をさらに備える、
前記（１）～（１７）のいずれかに記載の情報処理装置。
（１９）
　前記音声発話を出力する音声出力部、
　をさらに備える、
前記（１）～（１８）のいずれかに記載の情報処理装置。
（２０）
　プロセッサが、発話区間を含むコンテンツの再生中に、音声発話の出力を制御すること、
　を含み、
　前記制御することは、前記コンテンツにおける非発話区間を延長し、延長した前記非発話区間の再生中に、前記音声発話を出力させること、
　をさらに含む、
情報処理方法。

　１０　　　情報処理端末
　１１０　　通知生成部
　１２０　　通信部
　２０　　　出力制御装置
　２１０　　解析部
　２２０　　出力制御部
　２３０　　コンテンツ再生部
　２４０　　音声出力部
　２５０　　通信部
　３０　　　情報処理サーバ
　３１０　　音声合成部
　３２０　　コンテンツ情報ＤＢ

Claims

　発話区間を含むコンテンツの再生中に、音声発話の出力を制御する出力制御部、
　を備え、
　前記出力制御部は、前記コンテンツにおける非発話区間を延長し、延長した前記非発話区間の再生中に、前記音声発話を出力させる、
情報処理装置。
　前記出力制御部は、前記コンテンツの内容に基づいて前記非発話区間を延長する、
請求項１に記載の情報処理装置。
　前記出力制御部は、前記コンテンツから抽出された再生情報の一部を用いて前記非発話区間を延長する、
請求項２に記載の情報処理装置。
　前記出力制御部は、前記コンテンツの内容に関連する関連情報を用いて前記非発話区間を延長する、
請求項２に記載の情報処理装置。
　前記出力制御部は、前記音声発話の出力に要する時間に基づいて、前記非発話区間を延長する長さを決定する、
請求項２に記載の情報処理装置。
　前記出力制御部は、複数の前記コンテンツの連続再生を制御し、再生中の前記コンテンツにおいて延長可能な前記非発話区間が存在しない場合、再生予定の別の前記コンテンツにおける前記非発話区間を延長し、当該非発話区間の再生中に前記音声発話を出力させる、
請求項１に記載の情報処理装置。
　前記出力制御部は、前記音声発話の特性に基づいて、複数の前記コンテンツに係る再生順序を制御する、
請求項６に記載の情報処理装置。
　前記出力制御部は、前記音声発話の重要度に基づいて、当該音声発話の出力に適合する前記非発話区間を含む前記コンテンツの再生順序を早める、
請求項７に記載の情報処理装置。
　前記出力制御部は、少なくとも１つ以上の端末から受信した通知情報に基づいて前記音声発話の出力を制御する、
請求項１に記載の情報処理装置。
　前記コンテンツは、音楽コンテンツを含む、
請求項１に記載の情報処理装置。
　前記非発話区間は、少なくとも前記音楽コンテンツにおける前奏、間奏、または後奏のいずれかを含み、
　前記出力制御部は、前記前奏、前記間奏、または前記後奏を繰り返し再生させることで、前記非発話区間を延長する、
請求項１０に記載の情報処理装置。
　前記出力制御部は、前記音楽コンテンツに関連する基本情報または付加情報を含む前記音声発話の出力を制御する、
請求項１０に記載の情報処理装置。
　前記コンテンツは、動画コンテンツを含む、
請求項１に記載の情報処理装置。
　前記出力制御部は、前記動画コンテンツから抽出された静止画像を用いて前記非発話区間を延長する、
請求項１３に記載の情報処理装置。
　前記出力制御部は、前記動画コンテンツの内容に関連する静止画像を用いて前記非発話区間を延長する、
請求項１３に記載の情報処理装置。
　前記コンテンツは、朗読コンテンツを含む、
請求項１に記載の情報処理装置。
　前記コンテンツは、ゲームコンテンツを含む、
請求項１に記載の情報処理装置。
　前記コンテンツにおける前記発話区間および前記非発話区間に関する情報を解析する解析部、
　をさらに備える、
請求項１に記載の情報処理装置。
　前記音声発話を出力する音声出力部、
　をさらに備える、
請求項１に記載の情報処理装置。
　プロセッサが、発話区間を含むコンテンツの再生中に、音声発話の出力を制御すること、
　を含み、
　前記制御することは、前記コンテンツにおける非発話区間を延長し、延長した前記非発話区間の再生中に、前記音声発話を出力させること、
　をさらに含む、
情報処理方法。