JPWO2018034077A1

JPWO2018034077A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JPWO2018034077A1
Application number: JP2018534295A
Authority: JP
Inventors: 祐紀岡村; 村田　誠; 誠村田; 允文加藤; 健吾吉井; 直樹澁谷
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-08-19
Filing date: 2017-07-06
Publication date: 2019-06-13
Anticipated expiration: 2037-07-06
Also published as: WO2018034077A1; US11264022B2; EP3502864A4; US20210295831A1; EP3502864A1; JP6904357B2

Abstract

【課題】情報処理装置、情報処理方法、及びプログラムを提供する。【解決手段】複数のコンテンツを、少なくとも１の非コンテンツ期間を介して連続的に提供するモードにおいて、入力開始から入力終了までの間にタイムラグを有するユーザの入力情報を取得する情報取得部と、前記複数のコンテンツに含まれる第一のコンテンツまたは前記第一のコンテンツより後の時刻に提供される第二のコンテンツが提供されているコンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて第一の出力情報を出力部に出力させ、前記第一のコンテンツと前記第二のコンテンツとの間の前記非コンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて前記第一の出力情報とは異なる第二の出力情報を前記出力部に出力させる出力制御部と、を備える情報処理装置。【選択図】図４

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

近年、音声合成技術の発展に伴い、音声による多様な情報提供が可能となりつつある。例えば、下記特許文献１には、テーマに応じた出力タイミングに基づいて音声出力を行うことで、ラジオ番組のような情報提供を音声合成により実現する技術が開示されている。特許文献１に記載の技術では、予め用意されたコンテンツや、動的に取得されるコンテンツが、出力タイミングに応じて連続的に提供される。

特開２０１１−４３７１０号公報

上記特許文献１のように、連続してコンテンツが提供される技術において、ユーザの入力を受け付けようとすると、ユーザの入力に対して適切な出力（応答）を行うことが困難になる可能性がある。例えば、コンテンツを対象とする入力が行われた場合、入力においてユーザが意図した対象コンテンツと、応答における対象コンテンツが異なってしまう可能性がある。

そこで、本開示では、ユーザの入力に対してより適切な出力が可能な、新規かつ改良された情報処理装置、情報処理方法、及びプログラムを提案する。

本開示によれば、複数のコンテンツを、少なくとも１の非コンテンツ期間を介して連続的に提供するモードにおいて、入力開始から入力終了までの間にタイムラグを有するユーザの入力情報を取得する情報取得部と、前記複数のコンテンツに含まれる第一のコンテンツまたは前記第一のコンテンツより後の時刻に提供される第二のコンテンツが提供されているコンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて第一の出力情報を出力部に出力させ、前記第一のコンテンツと前記第二のコンテンツとの間の前記非コンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて前記第一の出力情報とは異なる第二の出力情報を前記出力部に出力させる出力制御部と、を備える情報処理装置が提供される。

また、本開示によれば、複数のコンテンツを、少なくとも１の非コンテンツ期間を介して連続的に提供するモードにおいて、入力開始から入力終了までの間にタイムラグを有するユーザの入力情報をプロセッサが取得することと、前記複数のコンテンツに含まれる第一のコンテンツまたは前記第一のコンテンツより後の時刻に提供される第二のコンテンツが提供されているコンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて第一の出力情報を出力部に出力させ、前記第一のコンテンツと前記第二のコンテンツとの間の前記非コンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて前記第一の出力情報とは異なる第二の出力情報を前記出力部に出力させることと、を含む情報処理方法が提供される。

また、本開示によれば、コンピュータに、複数のコンテンツを、少なくとも１の非コンテンツ期間を介して連続的に提供するモードにおいて、入力開始から入力終了までの間にタイムラグを有するユーザの入力情報を取得する機能と、前記複数のコンテンツに含まれる第一のコンテンツまたは前記第一のコンテンツより後の時刻に提供される第二のコンテンツが提供されているコンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて第一の出力情報を出力部に出力させ、前記第一のコンテンツと前記第二のコンテンツとの間の前記非コンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて前記第一の出力情報とは異なる第二の出力情報を前記出力部に出力させる機能と、を実現させるための、プログラムが提供される。

以上説明したように本開示によれば、ユーザの入力に対してより適切な出力が可能である。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る情報処理システム９９の概略構成を説明するための説明図である。同実施形態に係る情報処理装置１が認識する音声コマンドの例を示す表である。同実施形態に係る情報処理装置１が提供するサービスと、音声入力による操作の例を示す概念図である。同実施形態に係る情報処理システム９９が有する情報処理装置１の構成例を示すブロック図である。同実施形態に係る情報処理装置１が行う、ユーザ入力に対する出力処理の流れを説明するためのフローチャート図である。同実施形態に係るコーナーの流れの一例をより詳細に示したタイムチャート図である。同実施形態に係るコーナーが提供されている際に入力情報が取得された場合の出力制御の例を示す表である。同実施形態に係るコーナーの具体例を説明するための説明図である。同実施形態に係るニュースコーナーにおけるユーザの入力の例を説明するための説明図である。同実施形態に係る対象コンテンツの特定の具体例を説明するための説明図である。同実施形態に係る対象コンテンツの特定の他の具体例を説明するための説明図である。同実施形態に係る対象コンテンツの特定の他の具体例を説明するための説明図である。ハードウェア構成例を示す説明図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
＜＜１．概要＞＞
＜＜２．構成＞＞
＜＜３．動作＞＞
＜３−１．処理の流れ＞
＜３−２．出力制御の例＞
＜＜４．ハードウェア構成例＞＞
＜＜５．むすび＞＞

＜＜１．概要＞＞
まず、図１を参照しながら、本開示の一実施形態に係る情報処理システムの概略構成を説明する。図１は、本実施形態に係る情報処理システム９９の概略構成を説明するための説明図である。

図１に示すように、本実施形態に係る情報処理システム９９は、ユーザＵが有する情報処理装置１、サーバ２、及び通信網５を有する。また、図１に示すように情報処理装置１とサーバ２は、通信網５を介して相互に接続される。

本実施形態に係る情報処理装置１は、ユーザＵにコンテンツを提供し、また、ユーザＵの入力を受け付ける。例えば、本実施形態に係る情報処理装置１は、音声出力によりコンテンツを提供し、また、音声入力によりユーザＵの入力を受け付けてもよい。なお、図１では、情報処理装置１がスマートフォンである例を示しているが、情報処理装置１はスマートフォンに限定されない。例えば、情報処理装置１は、ＰＣ（Personal Computer）、携帯電話、タブレットＰＣ、音楽プレイヤ、ネックバンド型デバイス等であってもよい。

例えば、情報処理装置１は、ユーザＵが発話する音声コマンドを認識して、ユーザＵの入力を受け付け、ユーザの入力に基づいた多様な処理を行ってもよい。図２は、情報処理装置１が認識する音声コマンドの例を示す表である。

図２に示すように、情報処理装置１が認識する音声コマンドは、“Ｓｔａｒｔ”、“Ｓｔｏｐ”、“Ｎｅｘｔ”等であってもよい。また、情報処理装置１が認識する音声コマンドは、上記の例に限定されず、上記に類似した音声コマンドや、図２に示すＯｐｔｉｏｎに含まれる音声コマンドを含んでもよい。

また、情報処理装置１は、音声コマンドに加え、図２に示す“Ｍｕｓｉｃ”、“Ｒｕｎｎｉｎｇ”、“Ｐｈｏｔｏ”、“Ｖｉｄｅｏ”、“Ｓｏｎｇ”、“Ｃｏｒｎｅｒ”等の目的語を認識してもよい。情報処理装置１は、音声コマンドと目的語の組み合わせを認識することで、多様な操作を認識し得る。

図３は、本実施形態に係る情報処理装置１が提供するサービスと、音声入力による操作の例を示す概念図である。図３に示すように、本実施形態に係る情報処理装置１は、ユーザＵ向けの情報を提供するラジオ番組風のサービス（パーソナルラジオサービス）を音声出力により提供する。

情報処理装置１が提供するパーソナルラジオサービスは、複数のコーナーを含み、コーナーの間には、ラジオＤＪによるコーナー紹介（図３のＤＪ）等の音声出力が行われる。また、各コーナーは、コーナーに対応した同一のカテゴリ（天気、ニュース等）に分類される複数のコンテンツを含む。コンテンツはコンテンツが提供されない非コンテンツ期間を介して連続的に提供されてもよい。

情報処理装置１は、図２に示した表のような音声コマンドと目的語の組み合わせによるユーザの入力情報を取得し、入力情報に基づいて処理（例えば音声出力）を行うことで、図３に示すようなサービス全体を対象とするサービス操作、コーナを対象とするコーナー操作、及びコンテンツを対象とするコンテンツ操作を実現し得る。

また、情報処理装置１は、目的語を含まず、音声コマンドのみを含む入力情報に基づいて、処理を行ってもよい。例えば、情報処理装置１は、目的語を含まない入力情報と、後述する条件に応じて、処理を行ってもよい。係る構成により、ユーザはより少ない音声発話により操作することが可能であり、また、ユーザは多様な目的語を覚えずとも、操作することが可能となり得る。

図１に戻って情報処理システム９９の説明を続ける。図１に示すサーバ２は、通信網５を介して、情報処理装置１に多様な情報を提供する情報処理装置である。例えば、サーバ２は、図３を参照して説明したパーソナルラジオサービスを実現するための情報を情報処理装置１に提供してもよい。例えば、サーバ２は、図３に示した各コーナーに関する情報や、各コンテンツの情報、ラジオＤＪによるコーナー紹介の情報等を情報処理装置１に提供してもよい。

通信網５は、通信網５に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網５は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、通信網５は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

以上、本実施形態に係る情報処理システム９９の概要を説明した。本実施形態に係る情報処理システム９９によれば、例えば図３を参照して説明したような音声により、ユーザ向けの情報を提供するラジオ番組風のサービスを提供することが可能であり、ユーザは、音声により多様な操作を行うことが可能となる。また、入力と出力（サービスの提供）の双方が音声により行われるため、ユーザは他の作業と並行して（作業をしながら）サービスを受け、操作を行うことが可能となる。以下、このような効果を実現するための情報処理装置１の詳細な構成について、図４を参照して説明する。

＜＜２．構成＞＞
図４は、本実施形態に係る情報処理システム９９が有する情報処理装置１の構成例を示すブロック図である。図４に示すように、本実施形態に係る情報処理装置１は、制御部１０、通信部２０、センサ部３０、出力部４０、及び記憶部５０を備える情報処理装置である。なお、出力部４０は、情報処理装置１の外部装置に設けられてもよい。

制御部１０は、情報処理装置１の各構成を制御する。また、本実施形態に係る制御部１０は、図４に示すように、通信制御部１１、情報取得部１２、音声認識部１３、条件処理部１４、及び出力制御部１５としても機能する。

通信制御部１１は、通信部２０による通信を制御する。例えば、通信制御部１１は、通信部２０を制御して、図１を参照して説明したサーバ２から各コーナーに関する情報や、各コンテンツの情報、ラジオＤＪによるコーナー紹介の情報等の情報を受信させる。

情報取得部１２は、センサ部３０のセンシングに基づく、ユーザの入力情報を取得する。例えば、本実施形態に係る情報取得部１２は、後述するセンサ部３０に含まれるマイクロフォンがユーザの音声をセンシングして生成した音声信号を入力情報として取得してもよい。

本実施形態に係る情報取得部１２は、音声信号のように、入力開始から入力終了までの間にタイムラグを有する入力情報を取得する。また、情報取得部１２は、入力情報の取得時刻に係る取得時刻情報を後述する条件処理部１４に提供する。

例えば、取得時刻情報は、入力開始の時刻と入力終了の時刻のうちいずれか、または両方を含んでもよい。情報取得部１２は、入力開始の時刻と入力終了の時刻を例えば以下のように特定する。

なお、本実施形態においては、ユーザが当該入力情報に係る音声の発話を開始した時刻が入力開始の時刻として特定されてもよい。また、後述する音声認識部１３による認識結果（例えば認識された発話テキストの長さ）に基づいて、入力終了の時刻から入力開始の時刻を推定してもよい。また、所定の音声入力開始用ワード（例えば、「Hello Agent」等）が音声認識部１３により認識された時刻が、入力開始の時刻として特定されてもよい。係る構成によれば、周辺の雑音等により音声入力開始の検出が困難である場合にも音声入力開始の時刻を特定可能である。

また、本実施形態においては、当該入力情報に係る音声の発話が終了した時刻が入力終了の時刻として特定されてもよい。また、後述する音声認識部１３により、発話テキストが認識された時刻が入力終了の時刻として特定されてもよい。

音声認識部１３は、情報取得部１２により入力情報として取得された音声信号に係る認識処理を行う。例えば、音声認識部１３は、音声信号を文字列へ変換し、発話テキストを取得する。また、音声認識部１３は、取得した発話テキストが図２を参照して説明した音声コマンドや目的語、または所定の音声入力開始用ワードに対応するか否かを判定してもよい。また、音声認識部１３は、音声の特徴に基づいてユーザを認識(識別)してもよい。

条件処理部１４は、条件に係る認識処理と、条件に応じた判定処理を行う。条件処理部１４が扱う条件は多様であるが、例えば、情報処理装置１により出力される情報の種類、入力情報の取得タイミング(取得時刻)、コンテキスト情報、コンテンツの提供に係るアプリケーションの状態等を含んでもよい。

例えば、情報処理装置１により出力される情報の種類には、音楽や、図３を参照して説明したラジオＤＪによるコーナー紹介、コーナー等が含まれる。

また、コンテキスト情報には、例えば時間帯情報、コンテンツ情報、ユーザの行動情報、ユーザの周囲の環境に関する環境情報、ユーザが存在する場所に関する場所情報等が含まれる。条件処理部１４は、例えば後述するセンサ部３０によるセンシング結果に対する認識処理を行い、上記のコンテキスト情報を取得してもよい。

条件処理部１４は、条件に応じた判定処理の結果を出力制御部１５に提供する。なお、条件処理部１４による条件に応じた判定の詳細については、出力制御部１５による判定結果に応じた出力制御例と合わせて後述する。

出力制御部１５は、後述する出力部４０を制御して、様々な出力情報を出力させる。本実施形態に係る出力制御部１５は、例えば図３を参照して説明したような、パーソナルラジオサービスに係る音声出力を制御する。以下では、一例として、本実施形態に係る出力情報が音声により出力される情報である例を説明する。

例えば、出力制御部１５は、図３を参照して説明したような各コーナー内の複数のコンテンツを出力情報として出力部４０に出力させることで、コンテンツをユーザに提供する。例えば、図３の各コーナーが提供されるモードにおいて、出力制御部１５は、複数のコンテンツを少なくとも１の非コンテンツ期間を介して連続的に提供する。

なお、出力制御部１５は、記憶部５０に記憶されるテキスト情報、またはサーバ２から取得されるテキスト情報に基づいて音声合成を行って音声を出力させてもよい。また、出力制御部１５は、記憶部５０に記憶される音声データ（音声信号）、またはサーバ２から取得される音声データに基づいて、音声を出力させてもよい。

また、出力制御部１５は、情報取得部１２が取得した入力情報に基づいて出力情報を出力部４０に出力させてもよい。例えば、出力制御部１５は、入力情報に基づいて音声認識部１３が認識した音声コマンド、目的語等に応じた出力情報を出力させることで、ユーザの入力への応答を行う。また、出力制御部１５は、条件処理部１４による条件に応じた判定処理の結果(判定結果)に応じて出力情報を出力させてもよい。係る構成により、ユーザの入力が少ない発話（例えば音声コマンドのみ）であっても、より適切な出力が可能となり得る。

例えば、出力制御部１５は、入力情報の取得時刻（取得タイミング）と、コンテンツの提供状況による判定の結果に応じて、出力を制御してもよい。上記の判定は、例えば条件処理部１４により行われる。また、当該判定に用いられる取得時刻は、例えば入力終了の時刻であってもよい。

例えば、出力制御部１５は、コンテンツが提供されるコンテンツ期間に入力情報が取得された場合、入力情報に基づいて、第一の出力情報を出力部４０に出力させ、コンテンツと他のコンテンツとの間の非コンテンツ期間に入力情報が取得された場合、入力情報に基づいて第一の出力情報とは異なる第二の出力情報を出力部４０に出力させてもよい。

また、出力制御部１５は、取得時刻情報に応じて、ユーザの入力情報に係る対象コンテンツを特定し、対象コンテンツに係る出力情報を出力させてもよい。係る構成によれば、ユーザは対象コンテンツを特定するための目的語を発話しなくても、対象コンテンツに係る情報の提供を受けることが可能である。

例えば、第一のコンテンツと、第一のコンテンツより後の時刻に提供される第二のコンテンツとの間の非コンテンツ期間に入力情報が取得された場合に出力される第二の出力情報の対象コンテンツとして、第一のコンテンツが特定されてもよい。係る構成によれば、ユーザは対象コンテンツを特定するための目的語を発話しなくても、直前に提供を受けたコンテンツ（第一のコンテンツ）を対象とした音声入力が可能である。

また、第一のコンテンツと、第二のコンテンツの間に複数の非コンテンツ期間が存在する際、出力制御部１５は、第一のコンテンツの直後の非コンテンツ期間に入力情報が取得された場合に、当該第一のコンテンツに係る出力情報を出力させてもよい。また、出力制御部１５は、第二のコンテンツの直前の非コンテンツ期間に入力情報が取得された場合、当該第二のコンテンツに係る出力情報を出力させてもよい。

また、出力制御部１５は、対象コンテンツを特定するためのユーザの入力を促す入力要求出力情報を出力部４０に出力させてもよい。係る構成によれば、例えば対象コンテンツを特定することが困難である場合に、ユーザに対象コンテンツを特定するための入力を求め、対象コンテンツを対話的に特定することが可能になる。

また、出力制御部１５は、第二のコンテンツが提供されているコンテンツ期間のうち、第二のコンテンツの提供開始から所定の期間に入力情報が取得された場合に、上記の入力要求出力情報を出力させてもよい。例えば、ユーザが第一のコンテンツの提供を受け、第一のコンテンツを対象とした入力を意図して発話（入力）を開始したが、発話の終了した時点で第二のコンテンツの提供が開始されることが考えられる。係る場合、入力情報の取得時刻だけでは、対象コンテンツの特定は困難であり得るが、上記構成によれば、対象コンテンツを対話的に特定することが可能になる。

また、例えば第一のコンテンツと第二のコンテンツの間に３以上の非コンテンツ期間が存在する際、出力制御部１５は、第一のコンテンツの直後の非コンテンツ期間と、第二のコンテンツの直前の非コンテンツ期間との間の非コンテンツ期間に入力情報が取得された場合に、入力要求出力情報を出力させてもよい。

また、出力制御部１５は、入力開始の時刻と入力終了の時刻とに応じて対象コンテンツを特定してもよい。係る構成によれば、より高精度にユーザの意図した対象コンテンツを特定することが可能であり、より適切な出力が可能となる。

なお、上述した対象コンテンツの特定と、対象コンテンツに係る出力制御の具体的な例については、図８〜１２を参照して後述する。

なお、出力制御部１５による出力制御は上記の例に限定されない。出力制御部１５は、コンテキスト情報に応じた出力情報を出力部４０に出力させてもよいし、出力制御部１５は、コンテンツの提供に係るアプリケーションの状態に応じて出力部４０による出力を制御してもよい。

上述した出力制御部１５による出力制御の具体例については後述する。

通信部２０は、他の装置との間の通信を仲介する通信インタフェースである。通信部２０は、任意の無線通信プロトコルまたは有線通信プロトコルをサポートし、例えば図１を参照して説明した通信網５を介してサーバ２との間の通信接続を確立する。また、通信部２０は、通信制御部１１の制御に従い、サーバ２から情報を受信し、またはサーバ２に情報を送信する。

センサ部３０は、情報処理装置１の周囲の状況をセンシングする。本実施形態に係るセンサ部３０は、少なくともユーザの音声をセンシングして音声信号（入力情報）を生成するマイクロフォンを含む。また、センサ部３０は、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ、力センサ等の各種のセンサを含んでもよい。

出力部４０は、出力制御部１５の制御に従い、出力を行う。本実施形態に係る出力部４０は、例えばスピーカ及びヘッドホン等の音声を出力可能な音声出力装置を含む。また、出力部４０は、ディスプレイやＬＥＤ等を含んでもよい。

記憶部５０は、情報処理装置１の各構成が機能するためのプログラムやパラメータを記憶する。

以上、本実施形態による情報処理装置１の構成について具体的に説明した。なお、図４に示す情報処理装置１の構成は一例であって、本実施形態はこれに限定されない。また、情報処理装置１は、ユーザインタフェースとして、タッチパネルディスプレイや物理ボタン等をさらに備えていてもよい。また、本実施形態による制御部１０の各機能は、通信網５を介して接続される他の情報処理装置（例えば図１のサーバ２等）が有してもよい。

＜＜３．動作＞＞
続いて、本実施形態による情報処理装置１の動作について説明する。まず、図５を参照して、本実施形態に係る情報処理装置１が行うユーザ入力に対する出力（応答）処理の流れを説明した後、ユーザの入力に対する出力制御の例を具体的に説明する。

＜３−１．処理の流れ＞
図５は、本実施形態による情報処理装置１が行う、ユーザ入力に対する出力処理の流れを説明するためのフローチャート図である。

図５に示すように、まず情報取得部１２が、センサ部３０から入力情報として、ユーザの音声信号を取得する（Ｓ１０２）。続いて、音声認識部１３が取得された入力情報（音声信号）に基づいて音声認識を行う（Ｓ１０４）。

続いて、条件処理部１４が、様々な条件に応じた判定を行う（Ｓ１０６）。続いて、ステップＳ１０４の音声認識結果と、ステップＳ１０６の判定結果に基づき、出力制御部１５が出力部４０の出力を制御する（Ｓ１０８）。

以上、本実施形態に係る処理の流れについて説明した。続いて、本実施形態に係る条件判定に応じた出力制御の幾つかの具体例について説明する。

＜３−２．出力制御の例＞
再生状態に応じた出力制御）
図６は、図３を参照して説明したコーナーの流れの一例をより詳細に示したタイムチャート図である。図６において、縦軸は音の大きさを示し、横軸は時間を示している。

図６に示すＭｕｓｉｃは、例えばユーザが選択的に再生する音楽であり、例えば音楽プレイヤ機能により再生される。また、図６に示すＣｕｅＶｏｉｃｅは、図３に示したＤＪに対応し、例えば、コーナー開始時のコーナー紹介や、コーナー終了時のレポーター（ＴＴＳ）への労いの言葉が再生される。図６に示すＬｏｏｐは、コーナーごとに独自に設定される音楽（ＢＧＭ）である。また、図６に示すＢｕｍｐｅｒ、及びＢｕｍｐｅｒＶｏｉｃｅは、それぞれコーナー独自のジングル音と、レポーターの挨拶である。また、図６に示すＴＴＳ（Text To Speech）は、音声合成によるレポーターの読み上げである。なお、以下ではＴＴＳの再生中をコーナー本編と呼ぶ場合がある。

図６に示すように、Ｍｕｓｉｃが再生された状態において、時刻Ｔ１１にＣｕｅＶｏｉｃｅ（コーナー開始時）の再生が開始されると、Ｍｕｓｉｃの再生音量が低下する。続いて、時刻Ｔ１２にＣｕｅＶｏｉｃｅの再生が終了すると共に、Ｍｕｓｉｃの再生音量が０に近づき、Ｂｕｍｐｅｒの再生が開始される。続いて、時刻Ｔ１３にＢｕｍｐｅｒＶｏｉｃｅの再生が開始される。続いて、時刻Ｔ１５にＢｕｍｐｅｒ、及びＢｕｍｐｅｒＶｏｉｃｅの再生が終了し、Ｌｏｏｐの再生が開始される。また、時刻Ｔ１５にＴＴＳの再生が開始されると、Ｌｏｏｐの再生音量が低下する。また、時刻Ｔ１６にＴＴＳの再生が終了する。時刻Ｔ１５から時刻Ｔ１６の間がコーナ―本編である。続いて、時刻Ｔ１７にＣｕｅＶｏｉｃｅ（コーナー終了時）の再生が開始され、時刻Ｔ１８に終了する。時刻Ｔ１９にＬｏｏｐの再生音量が０に近づくと共に、Ｍｕｓｉｃの再生が再開される。

図７は、図６を参照して説明したコーナーが提供されている際に入力情報が取得された場合の出力制御の例を示す表である。図７に示すように、入力情報が取得された時刻における再生状態と、入力された音声に応じた出力制御が行われる。なお、図７に示す例では、音声コマンドＳｔａｒｔはコーナー名やコーナー内の情報を指定する目的語ＸＸＸと組み合わされて入力される。

（入力タイミングに応じた出力制御）
図８は、本実施形態に係るコーナーの具体例を説明するための説明図である。図８は、本実施形態に係るニュースコーナーの一例を示している。ニュースコーナーにおいて、例えば、ＤＪによるコーナー紹介（Ｐ１）、及びレポーターの挨拶（Ｐ２）の後、音声合成により複数のコンテンツＣ１〜Ｃ３が読み上げられる（Ｐ３）。

ここで、ユーザはコンテンツをより詳しく知りたい場合、ユーザは「詳しく教えて」「もっと詳しく」等の音声入力を行うことで、より詳しい情報が出力される。ここで、ユーザの入力においてユーザが対象とする対象コンテンツを特定し易くするため、本実施形態に係るコーナーでは図８に示すように、コンテンツとコンテンツの間にはコンテンツが提供されないギャップＧ１〜Ｇ３が存在する。なお、ギャップＧ１〜Ｇ３において、図６で説明したＬｏｏｐ（ＢＧＭ）が再生されていてもよい。

図９は、ニュースコーナーにおけるユーザの入力の例を説明するための説明図である。例えば、図９に示すように、ギャップＧ１の期間にユーザが「詳しく教えて。」という発話Ｈ１を行った場合、ユーザは直前に出力(提供)されたコンテンツＣ１を対象コンテンツとして意図していると考えられる。そこで、本実施形態に係る出力制御部１５は、図９に示す例において、コンテンツＣ１を対象コンテンツとしたより詳しい出力情報Ｒ１を出力させる。

また、出力制御部１５は、対象コンテンツが特定された場合に、対象コンテンツを示す出力情報を出力させた後、対象コンテンツに係るより詳しい出力情報を出力させてもよい。

図１０は、対象コンテンツの特定の具体例を説明するための説明図である。図８の例と同様に、図１０に示すコンテンツＣ１（第一のコンテンツ）と、コンテンツＣ２（第二のコンテンツ）の間には、コンテンツが提供されないギャップＧ１が存在する。

例えば、ユーザの入力情報が、コンテンツＣ１が提供される期間Ｄ１１に取得された場合、出力制御部１５は、コンテンツＣ１を対象コンテンツとして特定してもよい。係る場合、出力制御部１５は、「ただ今の記事を詳しくお伝えします」と対象コンテンツを示す出力情報を出力させた後、コンテンツＣ１に係るより詳しい出力情報を出力させてもよい。

また、ユーザの入力情報が、コンテンツが提供されないギャップＧ１に相当する非コンテンツ期間Ｄ１２に取得された場合、出力制御部１５は、非コンテンツ期間Ｄ１２の直前のコンテンツであるコンテンツＣ１を対象コンテンツとして特定してもよい。係る場合、出力制御部１５は、「前の記事について詳しくお伝えします」と、対象コンテンツを示す出力情報を出力させた後、コンテンツＣ１に係るより詳しい出力情報を出力させてもよい。

また、ユーザの入力情報が、コンテンツＣ２が提供されている期間のうち、コンテンツＣ２が提供されてから所定の期間Ｄ１３に取得された場合、出力制御部１５は、「前の記事ですか？現在の記事ですか？」と、対象コンテンツを特定するためのユーザの入力を促す入力要求出力情報を出力させてもよい。係る構成により、対象コンテンツを特定することが困難な場合であっても、対話的に対象コンテンツを特定可能である。なお、期間Ｄ１３は非コンテンツ期間Ｄ１２の予備的な期間であるため、非コンテンツ期間Ｄ１２よりも短いことが望ましい。

また、ユーザの入力情報が、コンテンツＣ２が提供されている期間のうち、期間Ｄ１３より後の期間Ｄ１４に取得された場合、出力制御部１５は、コンテンツＣ２を対象コンテンツとして特定してもよい。係る場合、出力制御部１５は、「ただ今の記事を詳しくお伝えします」と対象コンテンツを示す出力情報を出力させた後、コンテンツＣ２に係るより詳しい出力情報を出力させてもよい。

図１１は、対象コンテンツの特定の他の具体例を説明するための説明図である。図１１に示す例では、ギャップＧ１が、３つの非コンテンツ期間Ｄ２２，Ｄ２３，Ｄ２４に細分化される。

例えば、ユーザの入力情報が、コンテンツＣ１が提供される期間Ｄ２１に取得された場合、出力制御部１５は、コンテンツＣ１を対象コンテンツとして特定してもよい。係る場合、出力制御部１５は、「ただ今の記事を詳しくお伝えします」と対象コンテンツを示す出力情報を出力させた後、コンテンツＣ１に係るより詳しい出力情報を出力させてもよい。

また、ユーザの入力情報が、コンテンツＣ１の直後の非コンテンツ期間Ｄ２２に取得された場合、出力制御部１５は、コンテンツＣ１を対象コンテンツとして特定してもよい。係る場合、出力制御部１５は、「前の記事を詳しくお伝えします」と対象コンテンツを示す出力情報を出力させた後、コンテンツＣ１に係るより詳しい出力情報を出力させてもよい。

また、ユーザの入力情報が、非コンテンツ期間Ｄ２２と非コンテンツ期間Ｄ２４の間の非コンテンツ期間Ｄ２３に取得された場合、出力制御部１５は、「前の記事ですか？現在の記事ですか？」と、対象コンテンツを特定するためのユーザの入力を促す入力要求出力情報を出力させてもよい。

また、ユーザの入力情報が、コンテンツＣ２の直前の非コンテンツ期間Ｄ２４に取得された場合、出力制御部１５は、コンテンツＣ２を対象コンテンツとして特定してもよい。係る場合、出力制御部１５は、「次の記事を詳しくお伝えします」と対象コンテンツを示す出力情報を出力させた後、コンテンツＣ２に係るより詳しい出力情報を出力させてもよい。

また、ユーザの入力情報が、コンテンツＣ２が提供される期間Ｄ２５に取得された場合、出力制御部１５は、コンテンツＣ２を対象コンテンツとして特定してもよい。係る場合、出力制御部１５は、「ただ今の記事を詳しくお伝えします」と対象コンテンツを示す出力情報を出力させた後、コンテンツＣ２に係るより詳しい出力情報を出力させてもよい。

図１１を参照して説明した出力制御は、例えば、提供されるコンテンツの概要や順番をユーザが事前に把握している場合に、有効である。例えばコンテンツの概要や順番は、出力部４０に含まれるディスプレイに表示されてもよい。

図１２は、対象コンテンツの特定の他の具体例を説明するための説明図である。図１２に示す例では、入力開始時点の時刻と、入力終了時点の時刻とに応じて、対象コンテンツが特定される。

例えば、図１２に示す入力情報Ｈ３１、Ｈ３５のように、入力の開始時刻と終了時刻が同一のコンテンツ期間（コンテンツ期間Ｄ３１、またはコンテンツ期間Ｄ３３）に含まれる場合、出力制御部１５は、当該期間に提供されるコンテンツを対象コンテンツとして特定してもよい。係る場合、出力制御部１５は、「ただ今の記事を詳しくお伝えします」と対象コンテンツを示す出力情報を出力させた後、当該コンテンツに係るより詳しい出力情報を出力させてもよい。

また、入力情報Ｈ３２のように、入力の開始時刻がコンテンツ期間Ｄ３１に含まれ、入力の終了時刻が非コンテンツ期間Ｄ３２に含まれる場合、出力制御部１５は、入力の開始時刻に提供されていたコンテンツＣ１を対象コンテンツとして特定してもよい。係る場合、出力制御部１５は、「前の記事を詳しくお伝えします」と対象コンテンツを示す出力情報を出力させた後、コンテンツＣ１に係るより詳しい出力情報を出力させてもよい。

また、入力情報Ｈ３３のように、入力の開始時刻と終了時刻が非コンテンツ期間Ｄ３２に含まれる場合、出力制御部１５は、「前の記事ですか？現在の記事ですか？」と、対象コンテンツを特定するためのユーザの入力を促す入力要求出力情報を出力させてもよい。

また、入力情報Ｈ３４、Ｈ３６のように、入力の開始時刻がコンテンツＣ１が提供される期間Ｄ３１、または非コンテンツ期間Ｄ３２に含まれ、入力の終了時刻がコンテンツＣ２が提供される期間Ｄ３３に含まれる場合、出力制御部１５は、出力制御部１５は、「前の記事ですか？現在の記事ですか？」と、対象コンテンツを特定するためのユーザの入力を促す入力要求出力情報を出力させてもよい。

図１２を参照して説明した例によれば、入力の開始と終了の時刻の両方を用いることで、より高精度にユーザの意図した対象コンテンツを特定することが可能であり、より適切な出力が可能となる。

なお、出力制御部１５は、例えばコーナーの冒頭に、「詳しく聞きたかったら詳しく教えて、と言ってください」等、ユーザの発話を促す音声を出力させてもよい。また、出力制御部１５は、「詳しく聞きたい記事を読んでいる間とその後５秒の間に発話してください」等、対象コンテンツの特定に係る説明を行ってもよい。

また、上述した非コンテンツ期間が長すぎると、コーナーの時間が予め定まっている場合には、提供可能な情報量が減少してしまい、一方で、非コンテンツ期間が短すぎると、発話するタイミングを逃してしまう恐れがある。

そこで、出力制御部１５は、ユーザに関連付けられた情報に応じて、非コンテンツ期間の長さを特定し、当該非コンテンツ期間となるように、コンテンツの出力を制御してもよい。ここで、ユーザに関連付けられた情報は、ユーザの傾向、ユーザの状態、ユーザの周辺環境のうち、少なくともいずれか一つの情報であってもよい。なお、非コンテンツ期間の長さの特定は、出力制御部１５以外の構成要素によって行われてもよく、当該構成要素は、情報処理装置１以外の外部装置が有する構成要素であってもよい。

例えば、長い発話による音声入力を行う傾向のあるユーザの場合に、非コンテンツ期間が長く設定されてもよい。なお、センサ部３０から取得される音声等に基づいてユーザが識別されてもよい。

また、ユーザが音声による情報提示により集中している場合には、非コンテンツ期間が短くてもよいと考えられる。例えば、センサ部３０から取得される情報に基づいて、ユーザの状態が認識され、非コンテンツ期間が設定されてもよい。例えば、設定される非コンテンツ期間の長さは、ユーザが走っている状態ではより長く（例えば７秒）、ユーザが歩いている状態では中程度（例えば５秒）、ユーザが座っている状態ではより短く（例えば３秒）と、設定されてもよい。

また、ユーザの周辺環境が、騒音の多い環境であれば、非コンテンツ期間がより長く設定されてもよい。なお、例えば、センサ部３０から取得される情報に基づいて環境の情報が認識されてもよい。

また、情報処理装置１が行う、ニュースコーナーにおける、ユーザ入力に対する処理は上記に限定されない。

例えば、出力制御部１５は、コンテンツが提供されるコンテンツ期間に入力情報が取得された場合に、提供されている当該コンテンツの提供開始からの期間に応じた出力情報を出力させてもよい。

例えば、出力制御部１５は、入力情報の取得時刻において、提供開始からの期間が長い程、より多くの情報を含む出力情報（より詳細な情報）を出力させてもよい。例えば、コンテンツの後半に「詳しく教えて」と発話された場合には、コンテンツの前半に「詳しく教えて」と発話された場合よりも長い（より多くの情報を含む）出力情報を出力させてもよい。

また、出力制御部１５は、入力情報が取得された場合に、提供予定の複数のコンテンツを提供可能な残り時間に応じた出力情報を出力させてもよい。例えば、残り時間がより長い程、より詳細な（情報量の多い）出力情報を出力させてもよい。

なお、残り時間は、ユーザの過去の行動から推定されるサービス（パーソナルラジオサービス）の利用の残り時間であってもよい。例えば、ユーザがいつも通勤中に当該サービスを利用する場合、残り時間は、推定される通勤終了までの時間であってもよい。また、残り時間は、例えば現在のコーナー終了までの時間であってもよい。

また、コンテンツに、予めキーワードが設定され、当該キーワードが読み上げられてから所定の期間に「詳しく教えて」と発話された場合に、当該キーワードに関連する新たなニュースコンテンツが出力されてもよい。

また、コンテンツごとに、ＢＧＭ（図６を参照して説明したＬｏｏｐ）を変更することで、コンテンツの区切りをより明確にしてもよい。

また、ユーザは「いつ」、「どこで」、「だれが」、「何を」、「なぜ」、「どのよう」等の所謂５Ｗ１Ｈの情報についてユーザーは質問可能である。質問した内容がコンテンツの後半にある場合は、その該当箇所までコンテンツの出力がジャンプしてもよい。

また、コンテンツ内に含まれる人物名等の所定のキーワードが読み上げられてから所定の期間に「ブックマーク」とユーザが発話した場合に、当該人物名等の所定のキーワードがブックマークに登録されてもよい。

なお、「ブックマーク」という発話は、ニュースコーナー以外であっても同様に可能である。例えば、ユーザが現在聞いているコンテンツ(ニュース、レストラン、イベント、ＳＮＳ情報)、再生中の楽曲、写真撮影直後の写真、長く滞在している場所店等がブックマーク対象として特定され、ブックマークに登録され得る。

コンテキストに応じた出力制御）
出力制御部１５は、コンテキスト情報に応じて出力制御を行ってもよい。コンテキスト情報には、例えば時間帯情報、コンテンツ情報、ユーザの行動情報、ユーザの周囲の環境に関する環境情報、ユーザが存在する場所に関する場所情報等が含まれる。

例えば、同じ音声コマンドを発話した場合であっても、発話した時間が異なる場合、その時間帯に合わせた出力制御を行うことがより適切であり得る。以下に時間帯情報（例えば朝、または夜）に応じた出力制御例を示す。
朝：ユーザの「Start」という発話で天気コーナーが始まり、自宅と職場の天気を教えてくれる。
夜：ユーザの「Start」という発話でエリアガイドコーナーが始まり、近くのナイトスポット情報を教えてくれる。

また、コンテンツが楽曲である場合、楽曲の雰囲気に応じて出力が制御されてよい。以下に、楽曲のＢＰＭ（コンテンツ情報の一例）に応じた出力制御例を示す。
ＢＰＭ＜１００ならば情報系コーナーを再生する。
１００ ≦ ＢＰＭならばエンターテインメント系コーナーを再生する。

なお、一般的に音楽のＢＰＭ６０以下はゆっくりなバラード調の曲、ＢＰＭ８０〜１１０が普通の曲、ＢＰＭ１３０以上は早いテンポの曲とされるため、係る基準が条件判定に用いられてもよい。

また、以下にユーザの行動情報（例えば、走っているか否か）に応じた出力制御例を示す。
走っているときにユーザが「Start」と発話したら、ユーザの行動履歴の記録を開始する。
その他のときにユーザが「Start」と発話したら、ユーザの行動履歴記録以外のコーナーを起動する。

また、周囲の会話（環境情報の一例）を認識することで、以下に示すように周囲の会話に応じた出力制御が行われてもよい。
周囲で天気の話をしていたときに、ユーザが「Start」と発話したら、天気コーナーを起動する。
周囲で午後の予定について話していたときに、ユーザが「Start」と発話したら、スケジュールコーナーを起動し、午後の予定について読み上げる。

また、ユーザが存在する場所情報に応じた出力制御も可能である。例えば、ユーザのいる場所がプライベート環境(Private Space)であるか否か(Public Space)によってコーナーの内容を制御してもよい。以下に場所情報に応じた出力制御の例を示す。

・メールコーナーの場合
場所情報：Public Space
新着メールの件数のみを読み上げる。また、ユーザが「詳しく教えて」と発話した場合、タイトルや本文が読み上げられてもよい。
場所情報：Private Space
タイトル、送信者までを読み上げる。また、「詳しく教えて」とユーザが発話した場合、本文が読み上げられてもよい。また、係る場合、ユーザの設定によっては全ての情報が読み上げられてもよい。

・スケジュールコーナーの場合
場所情報：Public Space
予定の件数のみを読み上げる。また、「詳しく教えて」とユーザが発話した場合、タイトルや場所が読み上げられてもよい
場所情報：Private Space
タイトル、場所、時間までを読み上げる。また、「詳しく教えて」とユーザが発話した場合、本文が読み上げられてもよい。

なお、例えば条件処理部１４は、センサ部３０から取得される情報に基づき、自宅にいるかつ周りに人がいない（発話検出が陰性)と判定された場合に、プライベート環境であると判定し、それ以外の場合にプライベート環境ではないと判定してもよい。

（アプリケーションの状態に応じた出力制御）
また、出力制御部１５は、コンテンツの提供に係るアプリケーションの状態に応じて出力部４０による出力の制御を行ってもよい。アプリケーションの状態には、例えばアプリケーションがバックグラウンド動作中であるか否か（バックグラウンド動作中であるか、フォアグラウンド動作中であるか）が含まれてもよい。

例えば、アプリケーションがフォアグラウンド動作中に入力情報が取得された場合、ユーザの入力情報に基づいて、当該アプリケーションへの操作が行われて、上述したような出力情報の出力が行われてもよい。一方、アプリケーションがバックグラウンド動作中に入力情報が取得された場合、当該アプリケーションではなく、フォアグラウンド動作中の他のアプリケーションへの操作に入力情報が用いられてもよい。

＜＜４．ハードウェア構成例＞＞
以上、本開示の実施形態を説明した。最後に、図１３を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図１３は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図２０に示す情報処理装置９００は、例えば、図１、４に示した情報処理装置１、及びサーバ２を実現し得る。本実施形態に係る情報処理装置１、及びサーバ２による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

図２０に示すように、情報処理装置９００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３及びホストバス９０４ａを備える。また、情報処理装置９００は、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１１、通信装置９１３、及びセンサ９１５を備える。情報処理装置９００は、ＣＰＵ９０１に代えて、又はこれとともに、ＤＳＰ若しくはＡＳＩＣ等の処理回路を有してもよい。

ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。ＣＰＵ９０１は、例えば、図４に示した制御部１０を形成し得る。

ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０４ａにより相互に接続されている。ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００のユーザは、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。

出力装置９０７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。上記出力装置９０７は、例えば、図４に示す出力部４０を形成し得る。

ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。上記ストレージ装置９０８は、例えば、図４に示す記憶部５０を形成し得る。

ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などによりデータ伝送可能な外部機器との接続口である。

通信装置９１３は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１３は、例えば、有線若しくは無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード等である。また、通信装置９１３は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１３は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。上記通信装置９１３は、例えば、図４に示す通信部２０を形成し得る。

なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

センサ９１５は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ、力センサ等の各種のセンサである。センサ９１５は、情報処理装置９００の姿勢、移動速度等、情報処理装置９００自身の状態に関する情報や、情報処理装置９００の周辺の明るさや騒音等、情報処理装置９００の周辺環境に関する情報を取得する。また、センサ９１５は、ＧＰＳ信号を受信して装置の緯度、経度及び高度を測定するＧＰＳセンサを含んでもよい。センサ９１５は、例えば、図４に示したセンサ部３０を形成し得る。

以上、本実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

なお、上述のような本実施形態に係る情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

＜＜５．むすび＞＞
以上、説明したように、本開示の実施形態によれば、ユーザの入力に対してより適切な出力が可能である。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上記実施形態では、入力情報が音声信号である例を説明したが、本技術は係る例に限定されず、他の入力情報が入力される場合にも適用可能である。例えば、上述した入力開始から入力終了までの間にタイムラグを有する入力情報は、タッチ操作におけるフリック操作、またはマウス操作におけるドラッグ・アンド・ドロップ操作等の所謂ジェスチャ操作による入力の情報であってもよい。

また、上記実施形態における各ステップは、必ずしもフローチャート図として記載された順序に沿って時系列に処理される必要はない。例えば、上記実施形態の処理における各ステップは、フローチャート図として記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。

（１）
複数のコンテンツを、少なくとも１の非コンテンツ期間を介して連続的に提供するモードにおいて、入力開始から入力終了までの間にタイムラグを有するユーザの入力情報を取得する情報取得部と、
前記複数のコンテンツに含まれる第一のコンテンツまたは前記第一のコンテンツより後の時刻に提供される第二のコンテンツが提供されているコンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて第一の出力情報を出力部に出力させ、前記第一のコンテンツと前記第二のコンテンツとの間の前記非コンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて前記第一の出力情報とは異なる第二の出力情報を前記出力部に出力させる出力制御部と、
を備える情報処理装置。
（２）
前記出力制御部は、前記第一の出力情報または前記第二の出力情報として、前記情報取得部により取得される前記入力情報の取得時刻情報に応じた対象コンテンツに係る出力情報を前記出力部に出力させる、前記（１）に記載の情報処理装置。
（３）
前記第二の出力情報の対象コンテンツは、前記第一のコンテンツである、前記（２）に記載の情報処理装置。
（４）
前記第一のコンテンツと前記第二のコンテンツの間には複数の非コンテンツ期間が存在し、
前記出力制御部は、前記第一のコンテンツの直後の前記非コンテンツ期間に前記入力情報が取得された場合、前記第一のコンテンツに係る前記第二の出力情報を出力させ、前記第二のコンテンツの直前の前記非コンテンツ期間に前記入力情報が取得された場合、前記第二のコンテンツに係る前記第二の出力情報を前記出力部に出力させる、前記（２）または（３）に記載の情報処理装置。
（５）
前記出力制御部は、前記対象コンテンツを特定するためのユーザの入力を促す入力要求出力情報を前記出力部に出力させる、前記（２）〜（４）のいずれか一項に記載の情報処理装置。
（６）
前記出力制御部は、前記第二のコンテンツが提供されている前記コンテンツ期間のうち前記第二のコンテンツの提供開始から所定の期間に前記入力情報が取得された場合に、前記入力要求出力情報を前記出力部に出力させる、前記（５）に記載の情報処理装置。
（７）
前記第一のコンテンツと前記第二のコンテンツの間には３以上の非コンテンツ期間が存在し、
前記出力制御部は、前記第一のコンテンツの直後の前記非コンテンツ期間と、前記第二のコンテンツの直前の前記非コンテンツ期間との間の前記非コンテンツ期間に前記入力情報が取得された場合に、前記入力要求出力情報を前記出力部に出力させる、前記（５）に記載の情報処理装置。
（８）
前記取得時刻情報は、前記入力終了の時刻を含む、前記（２）〜（７）のいずれか一項に記載の情報処理装置。
（９）
前記出力制御部は、前記入力開始の時刻と前記入力終了の時刻とに応じた対象コンテンツに係る前記出力情報を前記出力部に出力させる、前記（８）に記載の情報処理装置。
（１０）
前記出力制御部は、前記コンテンツ期間に前記入力情報が取得された場合に、提供されている前記コンテンツの提供開始からの期間に応じた前記第一の出力情報を前記出力部に出力させる、前記（１）〜（９）のいずれか一項に記載の情報処理装置。
（１１）
前記出力制御部は、前記提供開始からの期間が長い程、より多くの情報を含む前記第一の出力情報を前記出力部に出力させる、前記（１０）に記載の情報処理装置。
（１２）
前記非コンテンツ期間の長さは、前記ユーザの傾向、前記ユーザの状態、前記ユーザの周辺環境のうち、少なくともいずれか一つに応じて特定される、前記（１）〜（１１）のいずれか一項に記載の情報処理装置。
（１３）
前記出力制御部は、前記入力情報が取得された場合に、前記第一の出力情報または前記第二の出力情報として、前記複数のコンテンツを提供可能な残り時間に応じた出力情報を前記出力部に出力させる、前記（１）〜（１２）のいずれか一項に記載の情報処理装置。
（１４）
前記出力制御部は、コンテキスト情報に応じた出力情報を前記出力部に出力させる、前記（１）〜（１３）のいずれか一項に記載の情報処理装置。
（１５）
前記コンテキスト情報は、時間帯情報、コンテンツ情報、前記ユーザの行動情報、環境情報、場所情報のうち少なくともいずれか一つを含む、前記（１４）に記載の情報処理装置。
（１６）
前記出力制御部は、コンテンツの提供に係るアプリケーションの状態に応じて前記出力部による出力を制御する、前記（１）〜（１５）のいずれか一項に記載の情報処理装置。
（１７）
前記情報処理装置は、前記ユーザの音声をセンシングして前記入力情報を生成するマイクロフォンをさらに備える、前記（１）〜（１６）のいずれか一項に記載の情報処理装置。
（１８）
前記複数のコンテンツは、同一のカテゴリに分類されるコンテンツである、前記（１）〜（１７）のいずれか一項に記載の情報処理装置。
（１９）
複数のコンテンツを、少なくとも１の非コンテンツ期間を介して連続的に提供するモードにおいて、入力開始から入力終了までの間にタイムラグを有するユーザの入力情報をプロセッサが取得することと、
前記複数のコンテンツに含まれる第一のコンテンツまたは前記第一のコンテンツより後の時刻に提供される第二のコンテンツが提供されているコンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて第一の出力情報を出力部に出力させ、前記第一のコンテンツと前記第二のコンテンツとの間の前記非コンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて前記第一の出力情報とは異なる第二の出力情報を前記出力部に出力させることと、
を含む情報処理方法。
（２０）
コンピュータに、
複数のコンテンツを、少なくとも１の非コンテンツ期間を介して連続的に提供するモードにおいて、入力開始から入力終了までの間にタイムラグを有するユーザの入力情報を取得する機能と、
前記複数のコンテンツに含まれる第一のコンテンツまたは前記第一のコンテンツより後の時刻に提供される第二のコンテンツが提供されているコンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて第一の出力情報を出力部に出力させ、前記第一のコンテンツと前記第二のコンテンツとの間の前記非コンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて前記第一の出力情報とは異なる第二の出力情報を前記出力部に出力させる機能と、
を実現させるための、プログラム。

１情報処理装置
２サーバ
５通信網
１０制御部
１１通信制御部
１２情報取得部
１３音声認識部
１４条件処理部
１５出力制御部
２０通信部
３０センサ部
４０出力部
５０記憶部
９９情報処理システム

Claims

複数のコンテンツを、少なくとも１の非コンテンツ期間を介して連続的に提供するモードにおいて、入力開始から入力終了までの間にタイムラグを有するユーザの入力情報を取得する情報取得部と、
前記複数のコンテンツに含まれる第一のコンテンツまたは前記第一のコンテンツより後の時刻に提供される第二のコンテンツが提供されているコンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて第一の出力情報を出力部に出力させ、前記第一のコンテンツと前記第二のコンテンツとの間の前記非コンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて前記第一の出力情報とは異なる第二の出力情報を前記出力部に出力させる出力制御部と、
を備える情報処理装置。
前記出力制御部は、前記第一の出力情報または前記第二の出力情報として、前記情報取得部により取得される前記入力情報の取得時刻情報に応じた対象コンテンツに係る出力情報を前記出力部に出力させる、請求項１に記載の情報処理装置。
前記第二の出力情報の対象コンテンツは、前記第一のコンテンツである、請求項２に記載の情報処理装置。
前記第一のコンテンツと前記第二のコンテンツの間には複数の非コンテンツ期間が存在し、
前記出力制御部は、前記第一のコンテンツの直後の前記非コンテンツ期間に前記入力情報が取得された場合、前記第一のコンテンツに係る前記第二の出力情報を出力させ、前記第二のコンテンツの直前の前記非コンテンツ期間に前記入力情報が取得された場合、前記第二のコンテンツに係る前記第二の出力情報を前記出力部に出力させる、請求項２に記載の情報処理装置。
前記出力制御部は、前記対象コンテンツを特定するためのユーザの入力を促す入力要求出力情報を前記出力部に出力させる、請求項２に記載の情報処理装置。
前記出力制御部は、前記第二のコンテンツが提供されている前記コンテンツ期間のうち前記第二のコンテンツの提供開始から所定の期間に前記入力情報が取得された場合に、前記入力要求出力情報を前記出力部に出力させる、請求項５に記載の情報処理装置。
前記第一のコンテンツと前記第二のコンテンツの間には３以上の非コンテンツ期間が存在し、
前記出力制御部は、前記第一のコンテンツの直後の前記非コンテンツ期間と、前記第二のコンテンツの直前の前記非コンテンツ期間との間の前記非コンテンツ期間に前記入力情報が取得された場合に、前記入力要求出力情報を前記出力部に出力させる、請求項５に記載の情報処理装置。
前記取得時刻情報は、前記入力終了の時刻を含む、請求項２に記載の情報処理装置。
前記出力制御部は、前記入力開始の時刻と前記入力終了の時刻とに応じた対象コンテンツに係る前記出力情報を前記出力部に出力させる、請求項８に記載の情報処理装置。
前記出力制御部は、前記コンテンツ期間に前記入力情報が取得された場合に、提供されている前記コンテンツの提供開始からの期間に応じた前記第一の出力情報を前記出力部に出力させる、請求項１に記載の情報処理装置。
前記出力制御部は、前記提供開始からの期間が長い程、より多くの情報を含む前記第一の出力情報を前記出力部に出力させる、請求項１０に記載の情報処理装置。
前記非コンテンツ期間の長さは、前記ユーザの傾向、前記ユーザの状態、前記ユーザの周辺環境のうち、少なくともいずれか一つに応じて特定される、請求項１に記載の情報処理装置。
前記出力制御部は、前記入力情報が取得された場合に、前記第一の出力情報または前記第二の出力情報として、前記複数のコンテンツを提供可能な残り時間に応じた出力情報を前記出力部に出力させる、請求項１に記載の情報処理装置。
前記出力制御部は、コンテキスト情報に応じた出力情報を前記出力部に出力させる、請求項１に記載の情報処理装置。
前記コンテキスト情報は、時間帯情報、コンテンツ情報、前記ユーザの行動情報、環境情報、場所情報のうち少なくともいずれか一つを含む、請求項１４に記載の情報処理装置。
前記出力制御部は、コンテンツの提供に係るアプリケーションの状態に応じて前記出力部による出力を制御する、請求項１に記載の情報処理装置。
前記情報処理装置は、前記ユーザの音声をセンシングして前記入力情報を生成するマイクロフォンをさらに備える、請求項１に記載の情報処理装置。
前記複数のコンテンツは、同一のカテゴリに分類されるコンテンツである、請求項１に記載の情報処理装置。
複数のコンテンツを、少なくとも１の非コンテンツ期間を介して連続的に提供するモードにおいて、入力開始から入力終了までの間にタイムラグを有するユーザの入力情報をプロセッサが取得することと、
前記複数のコンテンツに含まれる第一のコンテンツまたは前記第一のコンテンツより後の時刻に提供される第二のコンテンツが提供されているコンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて第一の出力情報を出力部に出力させ、前記第一のコンテンツと前記第二のコンテンツとの間の前記非コンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて前記第一の出力情報とは異なる第二の出力情報を前記出力部に出力させることと、
を含む情報処理方法。
コンピュータに、
複数のコンテンツを、少なくとも１の非コンテンツ期間を介して連続的に提供するモードにおいて、入力開始から入力終了までの間にタイムラグを有するユーザの入力情報を取得する機能と、
前記複数のコンテンツに含まれる第一のコンテンツまたは前記第一のコンテンツより後の時刻に提供される第二のコンテンツが提供されているコンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて第一の出力情報を出力部に出力させ、前記第一のコンテンツと前記第二のコンテンツとの間の前記非コンテンツ期間に前記入力情報が取得された場合、前記入力情報に基づいて前記第一の出力情報とは異なる第二の出力情報を前記出力部に出力させる機能と、
を実現させるための、プログラム。