JPWO2020121776A1

JPWO2020121776A1 - 受信装置および制御方法

Info

Publication number: JPWO2020121776A1
Application number: JP2020559912A
Authority: JP
Inventors: 俊一杉浦
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-12-11
Filing date: 2019-11-21
Publication date: 2021-10-28
Also published as: EP3896985A1; US20230401030A1; US20220043627A1; EP3896985A4; WO2020121776A1; US11748059B2

Abstract

ユーザの発話音声から認識された語句に基づいてチャンネルまたはコンテンツを検索する検索処理と、前記検索処理により得られた複数のチャンネルまたはコンテンツのうち、１のチャンネルまたはコンテンツを選択する処理と、前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示部に表示する処理と、さらに、前記表示部に、前記検索処理により得られた複数のチャンネルまたはコンテンツを示す各項目画像を選択肢として表示する処理と、を行う制御部を備える、受信装置。

Description

本開示は受信装置および制御方法に関する。

従来、音声認識は、ユーザによる情報機器への入力を支援する技術として利用されている。例えば下記特許部文献１では、ユーザが発した音声の内容を音声認識してボイスコマンドを特定し、処理を実行する表示制御装置の技術が開示されている。

特開２０１５−９５００２号公報

ここで、音声認識したユーザ発話内容に対して複数の選択肢がある場合、どの選択肢がユーザの希望に確実に対応しているかを判断することは困難であった。

上記特許文献１では、音声入力に応じた複数の選択肢から、予め決められた基準に従って注目選択肢を特定し、他方を代替選択肢として特定し、注目選択肢を他の選択肢より大きく表示することで、選択されていることを表すことができる。

しかしながら、上記特許文献１では、当該選択肢を実行する場合には、再度、「はじめる」といった語句を表す音声入力が必要となり、選択から実行までのステップが煩わしい場合もあった。

本開示によれば、ユーザの発話音声から認識された語句に基づいてチャンネルまたはコンテンツを検索する検索処理と、前記検索処理により得られた複数のチャンネルまたはコンテンツのうち、１のチャンネルまたはコンテンツを選択する処理と、前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示部に表示する処理と、さらに、前記表示部に、前記検索処理により得られた複数のチャンネルまたはコンテンツを示す各項目画像を選択肢として表示する処理と、を行う制御部を備える、受信装置を提案する。

本開示によれば、プロセッサが、ユーザの発話音声から認識された語句に基づいてチャンネルまたはコンテンツを検索することと、前記検索により得られた複数のチャンネルまたはコンテンツのうち、１のチャンネルまたはコンテンツを選択することと、前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示部に表示することと、さらに、前記表示部に、前記検索により得られた複数のチャンネルまたはコンテンツを示す各項目画像を選択肢として表示することと、を含む、制御方法を提案する。

本開示の一実施形態による情報処理装置の概要について説明するための説明図である。本実施形態による情報処理装置のハードウェア構成の一例を示すブロック図である。図２に示した情報処理装置のメモリおよびプロセッサにより実現される論理的機能の構成の一例を示すブロック図である。本実施形態の第１の実施例によるチャンネル名の音声入力が行われた場合の情報処理装置の動作処理の流れの一例を示すフローチャートである。本実施形態の第１の実施例による音声入力時のＵＩ画像の表示例を示す図である。本実施形態の第２の実施例による現在放送中の番組と録画番組とを同時に検索結果として表示する場合について説明する図である。本実施形態の第３の実施例による現在の番組に関する音声入力がなされた場合の表示例について説明する図である。本実施形態の第６の実施例によるドラマ等の順番を有するコンテンツのタイトルが音声入力された場合の表示例について説明する図である。本実施形態の第７の実施例による外部入力を指定する音声入力がされた場合の動作処理の流れの一例を示すフローチャートである。本実施形態の第７の実施例による外部入力を指定する音声入力された場合の検索結果を表示する画面例を示す図である。本実施形態の第８の実施例によるアプリケーションの起動等に関して音声入力された場合の検索結果を表示する画面例を示す図である。本実施形態の第９の実施例による電源ＯＦＦ時の録画予約または視聴予約の動作処理の流れの一例を示すフローチャートである。本実施形態の第９の実施例による電源ＯＦＦ時のコンテンツ削除の動作処理の流れの一例を示すフローチャートである。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、説明は以下の順序で行うものとする。
１．概要
２．構成例
２−１．ハードウェア構成例
２−２．機能構成例
３．各実施例
３−１．第１の実施例：音声入力「チャンネル名」
３−２．第２の実施例：現在放送番組と録画番組の同時表示
３−３．第３の実施例：音声入力「現在の番組」
３−４．第４の実施例：音声入力「ジャンル」
３−５．第５の実施例：おすすめコンテンツ等を問う音声入力
３−６．第６の実施例：順番を有するコンテンツの表示
３−７．第７の実施例：外部入力を指定する音声入力
（音声入力「ＨＤＭＩ」の例）
３−８．第８の実施例：アプリケーションの起動等に関する音声入力
３−９．第９の実施例：電源ＯＦＦからの「録画／視聴予約、コンテンツ削除」
３−１０．補足
４．まとめ

＜＜１．概要＞＞
本節では、図１を用いて、本開示に係る技術が適用され得る情報処理装置の概要について説明する。図１は、本開示の一実施形態による情報処理装置１００の概要について説明するための説明図である。図１を参照すると、情報処理装置１００は、各放送局により電波塔２００から放送される放送信号や、インターネット２２０（具体的には、インターネットを介して通信接続されるコンテンツ配信サーバ）から配信されるコンテンツデータを受信する受信装置であって、ディスプレイ１０８を備える所謂テレビジョン装置である。なお情報処理装置１００（受信装置）は、テレビジョン装置に限定されず、スマートフォンやプロジェクタ、カーナビゲーションシステム、テレビジョン装置に接続された、録画再生機能を有するレコーダーや、再生機能を有するプレイヤー等の外部装置であってもよい。

以下では、情報処理装置１００がテレビジョン装置の場合を例として説明する。

情報処理装置１００は、マイクロフォン１０２およびディスプレイ１０８を備える。マイクロフォン１０２は、ユーザが発する音声を集音する。ディスプレイ１０８は、情報処理装置１００により生成される画像を表示する。ディスプレイ１０８により表示される画像は、コンテンツ画像に加えて、ユーザインタフェース（ＵＩ）画像を含み得る。

図１の例では、ユーザＵが、チャンネルの名称である「ＮＮＮ」の語句を発話している。情報処理装置１００は、ユーザの発話音声を認識し、「ＮＮＮ」の語句に基づいてチャンネルを検索し、検索結果から選択した１のチャンネル、例えば「ＮＮＮ総合」に切り替える制御を行う。ディスプレイ１０８には、「ＮＮＮ総合」で現在放送されている番組の映像が表示される。検索結果が複数ある場合の候補の選択は、所定の優先度に応じて決定され得る。例えば、「『ＮＮＮ』（チャンネル名）を見せて」とユーザＵが音声入力した場合に、「ＮＮＮ」のチャンネルが、「ＮＮＮ総合」、「ＮＮＮ第１」、「ＮＮＮＡＡ」、および「ＮＮＮプレミア」等複数ある場合、情報処理装置１００は、所定の優先度に基づいてユーザＵが一番視聴しそうなチャンネルを選択して表示画面を自動的に切り替え、選択候補が複数ある場合にも、できるだけユーザＵの要求に答えることを可能とする。チャンネルの名称は、「ＮＮＮ」の例に限定されず、各放送局の正式名称や略称を含む、チャンネルを識別可能な全ての名称を含み得る。

情報処理装置１００は、例えば視聴しているユーザを音声認識や顔認識（画像認識）、アカウント情報等のユーザ情報により識別できた場合、当該ユーザの嗜好情報や視聴履歴に基づいて検索結果の各優先度を算出し、最も優先度の高いチャンネルを選択するようにしてもよい。

また、情報処理装置１００は、検索結果から自動選択してチャンネルを切り替えた後、画面上に、当該検索結果による各チャンネル（選択項目）の名称等を示す項目画像３０（３０ａ〜３０ｄ）を表示する。情報処理装置１００により自動選択されたチャンネルがユーザの期待通りであれば問題ないが、ユーザが要求するチャンネルと異なっていた場合にはすぐに選び直すことが想定される。したがって本実施形態による情報処理装置１００は、検索結果（例えば検索された各チャンネルの名称）を示す項目画像３０ａ〜３０ｄを優先度順等で表示し、ユーザがチャンネル変更を行う際の音声入力を支援することを可能とする。例えば、項目画像３０ａ〜３０ｄは一定時間（例えば、数秒間）表示され、一定時間後にタイムアウトした場合には無操作で表示が消えるようにしてもよい。ユーザは、項目画像３０に表示された読み上げ項目を参照し、より正確な名称で再度音声入力を行い、所望するチャンネル（例えば、自動選択された「ＮＮＮ総合」ではなく、他の選択候補である「ＮＮＮ第１」や「ＮＮＮＡＡ」など）に切り替えることができる。

また、情報処理装置１００は、項目画像３０（３０ａ〜３０ｄ）と共に、他のチャンネルを選択する際の入力を促す画像（図１では不図示）を、ディスプレイ１０８に表示してもよい。入力を促す画像では、例えば、ユーザにリモートコントローラやスマートフォンを用いたカーソル入力を促してもよいし、マイクアイコンのようなもので音声入力を促してもよい。また、「別のチャンネルを観たい場合は、再度、その項目を話してください。」等の説明文が表示されてもよい。また、説明文のうち「その項目」の部分を、項目画像３０に表示された読み上げ項目の表示態様と一致させることで、どの項目を読み上げればよいかを直感的にユーザに把握させることが可能となる。

情報処理装置１００は、ユーザが選局したチャンネルについて、ユーザ情報や時間情報と共に視聴履歴や嗜好情報として記録し、自動選局の精度をより高めることを可能とする。

図１の例では、チャンネル名の音声入力が行われた場合に、チャンネルの検索（すなわち番組検索）を行う旨について説明したが、本開示はこれに限定されず、番組名やジャンルを指定する音声入力、アプリケーション名や外部入力機器名に加え、「おすすめを見せて」等の抽象的な音声入力が行われた場合にも、放送番組や録画番組、インターネット配信番組、アプリケーション等のコンテンツ検索を行い得る。

以上説明したように、本開示による情報処理装置１００は、ユーザの音声入力に応じてコンテンツの検索を行い、複数のコンテンツが検索された場合には、ユーザが要求している可能性が高いコンテンツを、所定の基準に従って自動的に選択してディスプレイ１０８に表示すると共に、検索結果を示す項目画像を表示する。なお、ここで検索結果を示す項目画像とは、例えばテキストのみから構成される情報をコンテンツ画像上にオーバレイ表示するようなものであってもよい。

これにより、音声入力が行われた際に、複数の選択候補があった場合にも自動でコンテンツを選択、表示（すなわち実行）することでユーザの手間を省くと共に、検索結果を選択候補の項目として表示することで、ユーザが他の候補を選択する際の音声入力の支援を行い、ユーザの要求に出来るだけ答えることを可能とする。また、音声入力を支援するＵＩ画像として、読み上げ項目の音声入力を促す画像も併せて表示してもよく、認識し難い読み上げや曖昧な読み上げを回避することを可能とする。

また、情報処理装置１００は、少なくともマイクロフォン１０２による音声検出が可能で（すなわち、プロセッサ１１２およびマイクロフォン１０２への電源供給が行われている状態）、ディスプレイ１０８がＯＦＦ（すなわち、ディスプレイ１０８への電源供給が行われていない状態）となっているスタンバイ状態において、ユーザによる要求（コンテンツ検索）の音声入力を認識した場合、自動的に情報処理装置１００の電源をＯＮにする（少なくともディスプレイ１０８をＯＮにする）操作を行ってもよい。ユーザによる要求の音声入力の認識は、エージェント名等の所定の呼び掛けがあった場合に、その後に続く語句（検索ワード、例えばチャンネル名、番組名、ジャンルの指定等）を認識するようにしてもよい。そして情報処理装置１００は、音声認識した語句に基づいてコンテンツ検索を行い、複数の候補が検索された場合、所定の基準に従って選択したコンテンツをディスプレイ１０８に表示し、また、検索結果を示す項目画像もディスプレイ１０８に表示する。このように、コンテンツ検索の音声入力により、自動的に情報処理装置１００の電源をＯＮにすることが可能となる。

本実施形態では、一例として、情報処理装置１００で音声認識処理を行うが、本開示はこれに限定されず、音声認識処理は、情報処理装置１００と接続する外部装置（スマートスピーカやスマートフォン、タブレット端末、ＰＣ等のローカル端末、または、インターネット上のサーバ等）で行うようにしてもよい。

また、本実施形態では、一例として、マイクロフォン１０２が情報処理装置１００に設けられているが、本開示はこれに限定されず、マイクロフォン１０２が、情報処理装置１００と接続する外部装置（スマートスピーカ等の音声端末やスマートフォン等のモバイル端末）やリモートコントローラに設けられていてもよい。音声端末等の外部装置は、ユーザ音声を検知、さらに音声認識処理を実行し、情報処理装置１００の電源を自動的にＯＮにする制御を行ってもよいし、検知したユーザ音声をネットワーク上のサーバに送信してサーバ側で音声認識処理を実行させ、認識結果に基づいて、情報処理装置１００の電源を自動的にＯＮにする制御を行ってもよい。また、リモートコントローラ等の入力デバイスが音声入力を受け付け、受け付けたユーザ発話情報を情報処理装置１００に送信し、情報処理装置１００が音声認識処理またはサーバへの情報送信を行うような処理が行われてもよい。情報処理装置１００は、音声認識結果に基づいて、コンテンツ検索を行い、複数の候補が検索された場合、所定の基準に従って選択したコンテンツをディスプレイ１０８に表示し、また、検索結果を示す項目画像もディスプレイ１０８に表示する。音声受付や音声認識の開始処理は、リモートコントローラやスマートフォンのような機器に配置されたボタンやアイコンを用いて開始されるようにしてもよい。

＜＜２．構成例＞＞
＜２−１．ハードウェア構成例＞
図２は、情報処理装置１００のハードウェア構成の一例を示すブロック図である。図２を参照すると、情報処理装置１００は、カメラ１０１、マイクロフォン１０２、入力デバイス１０３、通信インタフェース（Ｉ／Ｆ）１０４、メモリ１０５、チューナ１０６、デコーダ１０７、ディスプレイ１０８、スピーカ１０９、遠隔制御Ｉ／Ｆ１１０、バス１１１およびプロセッサ１１２を備える。

（１）カメラ
カメラ１０１は、ＣＣＤ（Charge Coupled Device）またはＣＭＯＳ（Complementary Metal Oxide Semiconductor）などの撮像素子を有し、画像を撮像する。カメラ１０１により撮像される画像（動画を構成する各フレーム）は、情報処理装置１００による処理のための入力画像として扱われる。

（２）マイクロフォン
マイクロフォン１０２は、ユーザにより発せられる音声を集音し、音声信号を生成する。マイクロフォン１０２により生成される音声信号は、情報処理装置１００による音声認識のための入力音声として扱われる。

（３）入力デバイス
入力デバイス１０３は、ユーザが情報処理装置１００を直接的に操作するために使用されるデバイスである。入力デバイス１０３は、例えば、情報処理装置１００の筐体に配設されるボタン、スイッチおよびダイヤルなどを含み得る。入力デバイス１０３は、ユーザ入力を検出すると、検出されたユーザ入力に対応する入力信号を生成する。

（４）通信インタフェース
通信Ｉ／Ｆ１０４は、情報処理装置１００による他の装置（外部装置）との間の通信を仲介する。通信Ｉ／Ｆ１０４は、任意の無線通信プロトコルまたは有線通信プロトコルをサポートし、他の装置との間の通信接続を確立する。

通信Ｉ／Ｆ１０４は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）端子、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）端子等の接続ポートであってもよい。

また、通信Ｉ／Ｆ１０４は、ネットワークに接続するための通信デバイスなどで構成されてもよい。例えば、通信Ｉ／Ｆ１０４は、有線または無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ−Ｆｉ（登録商標）、またはＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カードなどであり得る。また、通信Ｉ／Ｆ１０４は、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信Ｉ／Ｆ１０４は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信Ｉ／Ｆ１０４に接続されるネットワークは、有線または無線によって接続されたネットワークであり、例えば、インターネット、または家庭内ＬＡＮなどである。

また、通信Ｉ／Ｆ１０４は、外部装置（例えばインターネット配信サーバ）からコンテンツ信号を受信し、コンテンツ信号からコンテンツデータを抽出し、また、コンテンツデータに基づいて、コンテンツ画像を生成し得る。

（５）メモリ
メモリ１０５は、半導体メモリまたはハードディスクなどの記憶媒体により構成され、情報処理装置１００による処理のためのプログラムおよびデータ、並びにコンテンツデータを記憶する。メモリ１０５により記憶されるデータは、例えば、後に説明する画像認識および音声認識のための特徴データを含み得る。なお、本明細書で説明するプログラムおよびデータの一部または全部は、メモリ１０５により記憶されることなく、外部のデータソース（例えば、データサーバ、ネットワークストレージまたは外付けメモリなど）から取得されてもよい。

（６）チューナ
チューナ１０６は、アンテナ（図示せず）を介して受信される放送信号から、所望のチャンネルのコンテンツ信号を抽出しおよび復調する。そして、チューナ１０６は、復調したコンテンツ信号をデコーダ１０７へ出力する。

（７）デコーダ
デコーダ１０７は、チューナ１０６から入力されるコンテンツ信号からコンテンツデータを復号する。デコーダ１０７は、通信Ｉ／Ｆ１０４を介して受信されるコンテンツ信号からコンテンツデータを復号してもよい。デコーダ１０７により復号されるコンテンツデータに基づいて、コンテンツ画像が生成され得る。

（８）ディスプレイ
ディスプレイ１０８は、ＬＣＤ（Liquid Crystal Display）、ＯＬＥＤ（Organic light-Emitting Diode）またはＣＲＴ（Cathode Ray Tube）などにより構成される画面を有し、情報処理装置１００により生成される画像を表示する。例えば、図１を用いて説明したコンテンツ画像およびＵＩ画像（項目画像３０等）が、ディスプレイ１０８の画面に表示され得る。

（９）スピーカ
スピーカ１０９は、振動板およびアンプなどの回路素子を有し、情報処理装置１００により生成される出力音声信号に基づいて、音声を出力する。スピーカ１０９の音量は、変更可能である。

（１０）遠隔制御インタフェース
遠隔制御Ｉ／Ｆ１１０は、ユーザにより使用されるリモートコントローラから送信される遠隔制御信号（赤外線信号またはその他の無線信号）を受信するインタフェースである。遠隔制御Ｉ／Ｆ１１０は、遠隔制御信号を検出すると、検出された遠隔制御信号に対応する入力信号を生成する。

（１１）バス
バス１１１は、カメラ１０１、マイクロフォン１０２、入力デバイス１０３、通信Ｉ／Ｆ１０４、メモリ１０５、チューナ１０６、デコーダ１０７、ディスプレイ１０８、スピーカ１０９、遠隔制御Ｉ／Ｆ１１０およびプロセッサ１１２を相互に接続する。

（１２）プロセッサ
プロセッサ１１２は、例えば、ＣＰＵ（Central Processing Unit）またはＤＳＰ（Digital Signal Processor）などであってよい。プロセッサ１１２は、メモリ１０５または他の記憶媒体に記憶されるプログラムを実行することにより、後に説明する情報処理装置１００の様々な機能を動作させる。

以上、本実施形態による情報処理装置１００のハードウェア構成について説明した。なお、図２に示すハードウェア構成は、一例であって、本開示はこれに限定されない。例えば情報処理装置１００は、カメラ１０１を有していなくともよいし、スマートフォン等の外部機器がリモートコントローラの代わりに用いられてもよい。

＜２−２．機能構成例＞
図３は、図２に示した情報処理装置１００のメモリ１０５およびプロセッサ１１２により実現される論理的機能の構成の一例を示すブロック図である。論理的機能の構成の一例を示すブロック図である。図３を参照すると、情報処理装置１００は、音声取得部１２０、音声認識部１３０、アプリケーション部１５０、特徴データベース（ＤＢ）１４０および制御部１６０を備える。制御部１６０は、検索制御部１６２、選択制御部１６４、および表示制御部１６６を含む。なお、図３に示した機能ブロックの一部は、情報処理装置１００の外部の（例えば、クラウドコンピューティング環境内の）装置において実現されてもよい。例えば、制御部１６０は、以下に説明する制御処理を自ら実行する代わりに、当該処理を外部の制御機能に実行させてもよい。同様に、音声認識部１３０は、以下に説明する音声認識処理を自ら実行する代わりに、当該処理を外部の音声認識機能に実行させてもよい。

（１）音声取得部
音声取得部１２０は、マイクロフォン１０２により生成される音声信号を入力音声として取得する。そして、音声取得部１２０は、取得した入力音声を音声認識部１３０へ出力する。

（２）音声認識部
音声認識部１３０は、音声取得部１２０から入力される入力音声に基づいて、ユーザの音声を認識する。音声認識部１３０は、入力音声をその内容を示すテキストに変換し、そのテキストを制御部１６０またはアプリケーション部１５０に出力する。

また、音声認識部１３０は、音声取得部１２０から入力される入力音声の認識において、特徴ＤＢ１４０に格納されている音声特徴データを用いて、発話者（ユーザ）を識別してもよい。音声認識部１３０は、発話者の識別結果を、制御部１６０およびアプリケーション部１５０に出力する。

（３）特徴データベース
特徴ＤＢ１４０は、音声認識部１３０により音声認識のために使用される音声特徴データを予め記憶する。音声特徴データは、例えば、ユーザごとの発話の特徴を示す音声特徴量を含み得る。

また、特徴ＤＢ１４０は、アプリケーション部１５０により画像認識のために使用される画像特徴データを記憶していてもよい。画像特徴データは、例えば、ユーザの手または顔などの所定の部分の既知の画像特徴量を含み得る。また、画像特徴データは、ユーザごとの顔画像データを含んでもよい。また、特徴ＤＢは、例えば、外部サーバ等の外部装置上のものが参照または取得されてもよいし、他人の特長データを含んでもよい。

（４）アプリケーション部
アプリケーション部１５０は、情報処理装置１００が有する様々なアプリケーション機能を実行する。例えば、番組再生機能、電子番組表（ＥＰＧ；Electronic Program Guide）表示機能、録画設定機能、外部入力切り替え機能、写真再生機能、動画再生機能、音楽再生機能およびインターネットブラウジング機能などが、アプリケーション部１５０により実行されてよい。アプリケーション部１５０は、アプリケーション機能を通じて生成される（コンテンツ画像を含み得る）アプリケーション画像および音声を、制御部１６０へ出力する。

アプリケーション部１５０により実行されるアプリケーション機能の少なくとも一部は、音声認識部１３０と連携し、ユーザからの音声入力を受け付ける。例えば、番組再生機能は、音声認識部１３０により認識される音声内容に従って、テレビジョン番組またはインターネット配信番組のチャンネルおよび音量などの設定変更や、録画番組の再生を実行し得る。電子番組表表示機能は、音声認識部１３０により認識される音声内容に従って、表示すべき電子番組表のチャンネルおよび時間帯を変更し得る。録画設定機能は、音声認識部１３０により認識される音声内容に従って、録画日時およびチャンネルを設定し得る。録画番組のデータは、情報処理装置１００のメモリ１０５に記憶され得る。

外部入力切り替え機能は、音声認識部１３０により認識される音声内容に従って、外部入力の切り替えを行い得る。写真再生機能は、音声認識部１３０により認識される指定日に撮像された写真を再生し得る。インターネットブラウジング機能は、音声認識部１３０により認識されるキーワードを用いたインターネット検索を実行し得る。

また、アプリケーション部１５０には、カメラ１０１により撮像される画像が入力されてもよい。アプリケーション部１５０は、入力画像の認識を行い得る。画像認識では、例えば、入力画像から抽出される画像特徴量をユーザの身体の所定の部分について特徴ＤＢ１４０により予め記憶される画像特徴量と照合することにより、当該所定の部分を認識する。所定の部分とは、例えば、ユーザの手および顔のうちの少なくとも１つを含み得る。これにより、例えばアプリケーション部１５０は、顔認識によりユーザを識別する。また、アプリケーション部１５０は、手の動きから所定のジェスチャを認識し得る。すなわち、アプリケーション部１５０により実行されるアプリケーション機能の少なくとも一部は、ユーザのジェスチャ入力を受け付ける。

（５）検索制御部
検索制御部１６２は、アプリケーション部１５０により実行されるアプリケーション機能の少なくとも一部が、音声認識部１３０と連携してユーザからの音声入力を受け付け、ユーザが所望するコンテンツを検索する処理を制御する。例えば、番組再生機能において、ユーザからの音声入力を受け付けて番組の表示を行う場合、検索制御部１６２は、音声認識部１３０により認識された語句（検索ワード）を少なくとも含む（部分一致する）名称に対応するチャンネル（チャンネル番号またはチャンネル名）、現在放送中またはインターネット配信中の番組名、録画番組、アプリケーション等を検索する。録画番組は、メモリ１０５に記憶されていてもよいし、通信Ｉ／Ｆ１０４を介して接続するレコーダー等の外部装置に記憶されていてもよい。

また、外部入力切り替え機能において、ユーザからの音声入力を受け付けて外部の切り替えを行う場合、検索制御部１６２は、音声認識部１３０により認識された語句（検索ワード）を少なくとも含む（部分一致する）名称に対応する外部入力装置を検索する。

（６）選択制御部
選択制御部１６４は、検索制御部１６２の検索結果から、実行する１のコンテンツを選択する制御を行う。選択制御部１６４は、検索結果が１つであった場合はこれを選択すればよいが、検索結果が複数であった場合、ユーザが要求している可能性の高いコンテンツを選択するため、所定の基準に従って１のコンテンツを選択する。

所定の基準とは、例えば、人（具体的には、視聴ユーザ）や時間（具体的には、視聴時刻）等に基づいて算出された優先度である。選択制御部１６４は、例えば視聴履歴ＤＢ１７２から取得した視聴履歴情報、または、嗜好ＤＢ１７４から取得したユーザの嗜好情報の少なくともいずれかを参照し、視聴ユーザまたは現在時刻の少なくともいずれかに応じて、検索されたコンテンツの各優先度を算出することができる。視聴ユーザの識別は、音声認識、画像認識（顔認識）またはユーザ情報の参照により行われ得る。

より具体的には、例えば選択制御部１６４は、音声認識等により識別した視聴ユーザの視聴履歴または嗜好情報に基づいて、視聴ユーザがよく視聴するチャンネル／番組／ジャンル（例えば直近の所定期間における視聴頻度の高いチャンネル／番組／ジャンル）の優先度を高くしたり、視聴ユーザがよく録画する番組やジャンル等の優先度を高くしたりする。ジャンルとは、コンテンツ内容に応じた分類であって、例えば、ニュース、音楽、ドラマ、映画、バラエティ等が挙げられる。

また、例えば選択制御部１６４は、現在の時刻に視聴ユーザがよく視聴するチャンネル／番組／ジャンル、よく録画する番組／ジャンル等の優先度を高くする。

また、例えば選択制御部１６４は、嗜好情報から視聴ユーザの好きな芸能人や歌手、キャラクター等の情報を取得し、検索結果のうち、これらが出演しているコンテンツの優先度を高くするようにしてもよい。

また、選択制御部１６４は、視聴ユーザの組み合わせや人数に応じて優先度を算出してもよい。例えば、視聴履歴に基づいて、親だけの場合によく視聴するチャンネル／番組／ジャンル、子供だけの場合によく視聴するチャンネル／番組／ジャンル、家族一緒の場合によく視聴するチャンネル／番組／ジャンル等を特定し、優先度を適宜算出し得る。

また、選択制御部１６４は、視聴ユーザの識別情報が取得できない場合であっても、例えば、現在の時間帯によく視聴されるチャンネル／番組／ジャンル、よく録画される番組／ジャンル等の優先度を高くするようにしてもよい。また、視聴ユーザ自身の視聴履歴情報または嗜好情報と、他人の視聴履歴情報や嗜好情報を組み合わせて優先度を決定してもよいし、他人の視聴履歴情報や嗜好情報のみから優先度を決定してもよい。具体的には、例えば、検索結果の中で、日本中のユーザの視聴履歴情報に基づいて、所定の基準を満たしたと判断されるものに対して、さらに視聴ユーザ自身の視聴履歴情報や嗜好情報を基に優先度付けが行われてもよい。

また、選択制御部１６４は、人や時間に関わらず、視聴履歴のみに基づいて、例えば直近に選局されたチャンネルや番組、ジャンルの優先度を高くするようにしてもよい。

また、選択制御部１６４は、検索結果に録画番組が含まれている場合、未視聴の番組の優先度を視聴済みの番組の優先度より高くするようにしてもよい。

（７）視聴履歴データベース
視聴履歴ＤＢ１７２は、コンテンツ（放送番組、録画番組、インターネット配信番組、アプリケーション等）の視聴履歴を記憶する。視聴履歴には、コンテンツの視聴時刻、アプリケーションの使用回数、視聴ユーザの情報、ユーザの検索履歴や検索結果に対する選択履歴等が含まれ得る。また、視聴履歴ＤＢ１７２は、録画予約情報を記憶してもよい。また、視聴履歴ＤＢ１７２は、情報処理装置１００内に構築されていてもよいし、外部サーバ等の外部装置上にあるものが参照または取得されてもよい。また、視聴履歴ＤＢ１７２は情報処理装置１００のユーザ以外の情報を含んでもよい。

（８）嗜好データベース
嗜好ＤＢ１７４は、ユーザの嗜好情報を記憶する。嗜好情報は、ユーザに予めアンケート等を行って得た回答から取得してもよいし、ユーザの視聴履歴や番組検索履歴、録画予約情報等から取得してもよい。例えば、音声認識やカメラを用いた画像認識によって、情報処理装置１００や外部装置がユーザの嗜好情報を判断してもよい。また、嗜好情報ＤＢ１７４は、情報処理装置１００内に構築されていてもよいし、外部サーバ等の外部装置上にあるものが参照または取得されてもよい。また、嗜好情報ＤＢ１７４は情報処理装置１００のユーザ以外の情報を含んでもよい。

（９）表示制御部
表示制御部１６６は、ディスプレイ１０８を介する画像の表示を制御する。例えば、表示制御部１６６は、アプリケーション部１５０から入力されるアプリケーション画像をディスプレイ１０８に表示させる。また、表示制御部１６６は、検索制御部１６２による検索制御および選択制御部１６４による選択制御が行われた場合、検索結果および選択結果に応じた出力画像を生成し、ディスプレイ１０８に表示させる。

具体的には、例えばアプリケーション部１５０において番組再生アプリケーションが起動され、ユーザによる音声入力に応じて、検索制御部１６２によりコンテンツの検索制御、および選択制御部１６４により検索結果から再生する（実行する）コンテンツの選択制御が行われた場合、表示制御部１６６は、選択されたコンテンツをディスプレイ１０８に表示する制御（すなわち、選択したコンテンツの実行）を行う。また、表示制御部１６６は、検索結果を示す項目画像（コンテンツの名称を読み上げ項目として表示させてもよい）を生成し、ディスプレイ１０８に表示させる。項目画像は表示後、一定時間ユーザからの入力がない場合には自動的に消えるようになっていてもよいし、表示されている時間がユーザ設定や嗜好情報ＤＢの情報等に基づいて決定されるようになっていてもよい。検索結果のうち自動選択されたコンテンツの名称を示す項目画像は強調表示するようにしてもよいし、選択制御部１６４によって選択されたコンテンツが項目画像に表示されていなくてもよい。また、表示制御部１６６は、コンテンツを切り替える際の入力を促す画像を併せて表示してもよい。

（１０）制御部
制御部１６０は、上述した検索制御部１６２、選択制御部１６４、および表示制御部１６６の各制御の他、情報処理装置１００全体の制御を行い得る。例えば、本実施形態による制御部１６０は、少なくともマイクロフォン１０２による音声検出と音声認識部１３０による音声認識がＯＮとなっているスタンバイ状態において、ユーザによる音声入力の受け付けを継続するよう制御する。ユーザによる音声入力の内容が、番組再生機能に関連する場合（例えば、音声入力の内容が、「○○〔システム名等の所定の呼び掛け〕、『ＮＮＮ（チャンネル名）』を付けて」など）、制御部１６０は、ディスプレイ１０８を含む情報処理装置１００全体の電源をＯＮにする。そして制御部１６０は、アプリケーション部１５０により番組再生アプリケーションを起動し、検索制御部１６２において音声入力に基づいて検索した１以上のコンテンツから、選択制御部１６４で選択したコンテンツの画像を、ディスプレイ１０８に表示させるよう制御する。この際、制御部１６０は、上述したように、検索された各コンテンツの名称を示す項目画像や、他のコンテンツに切り替える際の入力を促す画像を、コンテンツの画像に重畳表示させる制御も行い得る。

このように、情報処理装置１００の電源がＯＦＦになっている状態においても、情報処理装置１００は、ユーザによる音声入力を受け付け、コンテンツ再生を要求する音声入力が検知された際には、電源をＯＮにし、ユーザが要求するコンテンツを表示させることができる。

なお、音声入力の受け付けは、上述したように、情報処理装置１００と接続する音声装置（例えばスマートスピーカなど）で行うことも可能である。音声装置は、検出したユーザ音声をクラウド上の音声認識サーバに送信してもよい。したがって、この場合、情報処理装置１００は、音声装置またはクラウド上のサーバから送信される制御信号により、自動的に電源がＯＮとなり、音声認識結果に基づいて、ユーザが要求するコンテンツを表示する。

以上、本実施形態による情報処理装置１００の機能構成について具体的に説明した。なお図３に示す情報処理装置１００の機能構成は一例であって、本実施形態はこれに限定されない。例えば、図３に示す情報処理装置１００の少なくとも一部の機能構成が、情報処理装置１００と通信接続する外部装置（ローカル端末またはクラウド上のサーバ）にあってもよい。また、スタンバイ状態にある情報処理装置１００はリモートコントローラ等に配置されたいずれかのボタンの操作によって自動的に電源がＯＮとなってもよいし、音声認識に基づいて自動的に電源がＯＮになる機能を有さない構成をとってもよい。

＜＜３．各実施例＞＞
続いて、本実施形態による情報処理装置１００において行われ得るいくつかの音声入力例について、図４〜図１３を用いて具体的に説明する。

＜３−１．第１の実施例：音声入力「チャンネル名」＞
まず、第１の実施例として、ユーザによるコンテンツ再生を要求する音声入力の一例として、チャンネル名の音声入力が行われた場合について説明する。

図４は、第１の実施例によるチャンネル名の音声入力が行われた場合の情報処理装置１００の動作処理の流れの一例を示すフローチャートである。

図４に示すように、まず、情報処理装置１００は、マイクロフォン１０２によりユーザの発話音声（例えば、「○○〔システム名等の所定の呼び掛け〕、『ＮＮＮ（チャンネル名）』を付けて」など）を検知すると、音声認識部１３０により音声認識を行う（ステップＳ１０３）。ここでは、情報処理装置１００の電源状態が、ディスプレイ１０８はＯＦＦになっているが音声入力の受け付けは可能なスタンバイ状態である場合を想定する。

次に、情報処理装置１００の制御部１６０は、情報処理装置１００の電源をＯＮにする（ステップＳ１０６）。これによりディスプレイ１０８が点灯する。なお、既に情報処理装置１００の電源がＯＮとなっておりディスプレイ１０８が点灯している場合は、ステップＳ１０６の処理はスキップする。

次いで、検索制御部１６２は、音声認識結果に基づいて、音声入力されたチャンネル名に対応するチャンネルを検索する（ステップＳ１０９）。

次に、選択制御部１６４は、検索制御部１６２により検索されたチャンネルが複数の場合、優先度に基づいて、１つのチャンネルを選択する（ステップＳ１１２）。例えば選択制御部１６４は、現在時刻と視聴履歴に基づいて、現在の時間帯によく視聴されているチャンネルの優先度を高くし、選択してもよい。また、選択制御部１６４は、音声認識により発話者（すなわち視聴ユーザ）を識別し、視聴ユーザの視聴履歴や嗜好情報に基づいて、検索された各チャンネルの優先度を算出してもよい。また、過去のユーザの選択履歴や同様の機能を使用する他のユーザによる選択データを基に優先度を算出してもよい。このようにして、人や時間に基づく優先度に応じてコンテンツを選択することで、ユーザが要求している可能性の高いコンテンツを自動選択することができる。また、優先度はチャンネルやコンテンツに対してユーザが行った設定を考慮して決定されてもよい。具体的には、例えば、チャンネルやコンテンツの優先度自体をユーザが指定できたり、視聴予定のリストに含めた番組やお気に入りに入れたコンテンツ、録画予約をした番組の優先度を高くしたりするような処理が行われてもよい。

次いで、表示制御部１６６は、選択制御部１６４により選択されたチャンネルで現在放送されている番組の映像をディスプレイ１０８に表示する制御（チャンネルの選局）を行う（ステップＳ１１５）。

続いて、表示制御部１６６は、検索結果を示す項目画像を生成し、ディスプレイ１０８に表示する制御を行う（ステップＳ１１８）。ステップＳ１１８において、チャンネルを切り替えるための音声入力やリモートコントローラ操作を促すような画像を生成し、ディスプレイ１０８に表示する制御を行ってもよい。ここで、図５に、本実施例による音声入力時のＵＩ画像の表示例を示す。

図５の上段に示すように、例えば何らかのコンテンツを視聴している際に（ここでは、情報処理装置１００の電源がＯＮになっている場合を想定）、ユーザが、「○○（エージェント名等の所定の呼び掛け）、『ＮＮＮ（チャンネル名）』を見せて」と発話した場合、検索制御部１６２は、「ＮＮＮ」に対応するチャンネルを検索する。「ＮＮＮ」の語句を名称に含むチャンネルが、「ＮＮＮ総合」、「ＮＮＮ第１」、「ＮＮＮＡＡ」、および「ＮＮＮプレミア」のように複数ある場合（地上波放送、衛星放送、ケーブルテレビ（有線放送）、およびインターネット配信コンテンツ等を含んでもよい）も想定される。この場合、選択制御部１６４は、複数のチャンネル（選択候補）から、ユーザの視聴履歴等に基づく優先度に応じて、ユーザが最も要求している可能性の高いチャンネルを選択する。また、ユーザの発話は、リモートコントローラに配置されているボタン操作することで、所定の呼び掛け無しに受け付けが開始されてもよいし、スマートフォン等のモバイル端末の操作によって受け付けが開始されてもよい。また、音声受付は、リモートコントローラやスマートフォン側で行われてもよいし、情報処理装置１００側で行われてもよい。

そして、表示制御部１６６は、図５の下段に示すように、ディスプレイ１０８の表示画面を、選択されたチャンネルに切り替える制御を行う。また、表示制御部１６６は、切り替えた画面上に、検索結果を示す項目画像３０（３０ａ〜３０ｅ）を、例えば、一定時間表示する。これにより、自動選択されたチャンネルがユーザの要求に合致していなかった場合に、ユーザが再度チャンネル変更を行う際の音声入力を支援することができる。ここで、項目画像３０はユーザによる何らかの指示があるまで表示され続けてもよいし、表示時間は一定ではなくユーザの状態に基づいて動的に変化してもよい。

具体的には、表示制御部１６６は、図５の下段に示すように、検索結果の各チャンネルを示す項目画像３０（３０ａ〜３０ｅ）と、チャンネル変更を行う場合の音声入力を促す画像３３を、ディスプレイ１０８に表示する。表示制御部１６６は、項目画像３０ａ〜３０ｅを、優先度順に左または上から並べて表示してもよいし、ディスプレイ１０８の画面全体にランダムに表示してもよい。また、音声入力を促す画像３３の代わりに、リモートコントローラやスマートフォンのボタン、タッチパネルまたはユーザのジェスチャによる入力を促す画像が代わりに表示されてもよいし、何も表示されなくてもよい。項目画像３０には、読み上げ項目としてチャンネルの名称が所定の表示態様で表示されてもよく、他には、そのチャンネルで現在放送している番組のタイトル情報やチャンネルの番号、チャンネルのマーク、および電子番組表（ＥＰＧ）等のチャンネルや放送番組に関連した情報が表示されてもよい。また、項目画像３０には現在放送中の番組がその全放送時間に対して、現在どこまで放送されているかを示す放送状況が表示されてもよい。また、表示制御部１６６は、項目画像のうち、現在選択しているチャンネルを示す項目画像３０ａについては、他の項目画像と異なるよう強調表示したり、「選択」等のアイコンを表示したりすることで、現在選択していることを明確に示してもよい。

「読み上げ項目」とは、読み上げに推奨する語句であって、これにより、認識し難い読み上げや曖昧な読み上げを回避することが可能となる。本実施例では、項目画像３０のチャンネルの名称が読み上げ項目となっているが、読み上げ項目は項目画像３０に表示されているどの文字情報（画像データとして表示されている文字情報を含む）であってもよい。項目画像３０において、読み上げ項目の表示態様を他のテキストと異ならせたり、また、スピーカや口、人が話すイラストを付したりすることで、読み上げ項目であることをユーザに認識し易くするようにしてもよい。また、図５に示すように、読み上げ項目３０１の表示態様と、音声入力を促す画像３３で読み上げ項目について説明するテキストにおける指示語部分３３１の表示態様を対応させる（例えば、文字色、背景色、または書体等を同じにする）ことで、さらに読み上げ項目をユーザに認識し易くすることができる。

または、音声入力を促す画像３３では、「○○色（読み上げ項目の表示色）の項目を読み上げてください」等の説明文を表示するようにしてもよい。また、音声入力を促す画像３３においても、より直感的に音声入力を促すため、マイクのイラストや口のイラスト、人が話す様子を示すイラスト等の画像３３２を表示するようにしてもよい。

次いで、他のチャンネルの名称が発話された場合（ステップＳ１２１／Ｙｅｓ）、情報処理装置１００は、選択制御部１６４により、発話された名称のチャンネルを選択し、表示制御部１６６により、選択されたチャンネルの映像をディスプレイ１０８で表示するよう制御する（ステップＳ１１５）。この場合も、再度、検索結果を示す項目画像の表示を行ってもよい（ステップＳ１１８）。

以上説明した項目画像や音声入力を促す画像といった音声入力を支援するＵＩ画像の表示は、一定時間（例えば数秒）行われてもよい。その場合、例えば、チャンネル切り替えから一定時間経過し、タイムアウトした場合（ステップＳ１２７／Ｙｅｓ）、表示制御部１６６は、項目画像の表示を終了する（ステップＳ１３０）。なお、表示制御部１６６は、チャンネルを切り替えるための音声入力やリモートコントローラ操作を促すような画像も表示していた場合、ステップＳ１３０において、かかる音声入力やコントローラ操作を促すような画像の表示も終了する。また、これらの画像の表示時間はユーザ設定やユーザ情報等に基づいて決定されてもよいし、ユーザの過去の選択情報や現在の行動等を基に動的に決定されてもよい。

なお、最終的な選局結果は、時間情報やユーザの識別情報と共に、視聴履歴として視聴履歴ＤＢ１７２に記憶され、次回の選局時における選択制御部１６４による優先度算出の際に利用される。かかる処理を繰り返すことで、ユーザが要求している可能性が高いコンテンツをより確実に選択することを可能とする。また、視聴履歴ＤＢ１７２に記憶された情報は、例えば、項目画像の表示時間や入力を促す画像の表示内容を決定するために用いられてもよく、更にそれらを決定する処理に関する情報も視聴履歴ＤＢ１７２に保存され得る。

＜３−２．第２の実施例：現在放送番組と録画番組の同時表示＞
以上説明した第１の実施例では、チャンネル名の音声入力に応じて、チャンネルを選局し、そのチャンネルで現在放送中の番組をディスプレイ１０８に表示する制御を行っているが、本開示はこれに限定されず、情報処理装置１００は、選局したチャンネルの録画番組を選択してもよい。すなわち、選択対象には、検索されたチャンネルの現在放送番組の他、録画番組も含まれ、検索結果を示す項目画像において、現在放送番組と録画番組が同時に表示されるようにしてもよい。また、チャンネル名の音声入力以外にも、番組名の音声入力に応じて、現在放送番組と録画番組が検索され、選択対象および検索結果を示す項目画像としての表示対象となってもよい。以下、現在放送中の番組と録画番組とを同時に表示する場合について、具体的に説明する。

本実施例の動作処理は、主に図４を参照して説明した第１の実施例の動作処理と同様である。本実施例では、上記ステップＳ１０９において、検索対象に、現在放送中の番組の他、録画番組も含める点が異なる。例えば、あるチャンネルの名称をユーザが音声入力した場合、検索制御部１６２は、検索したチャンネルの録画番組も含めて検索結果として出力する。ここで、検索対象、検索結果および項目画像は、録画番組のみを含み、現在放送中の番組が含まれないようにすることも可能である。

図６は、本実施例による現在放送中の番組と録画番組とを同時に検索結果として表示する場合について説明する図である。図６に示すように、例えば「『ＮＮＮ（チャンネル名）』を見せて」とユーザにより音声入力された場合、検索制御部１６２は、「ＮＮＮ」と少なくとも名所の一部に含むチャンネルを１以上検索し、さらに、検索した各チャンネルの録画番組を検索する。録画番組は、メモリ１０５に記憶されていてもよいし、情報処理装置１００と接続する外部装置（例えばレコーダー）に記憶されていてもよい。また、検索する録画番組は未視聴のものに限ってもよいし、録画番組のうち未視聴の番組は下記の優先度を高くする、または、視聴済み番組の優先度を低くするようにしてもよい。

選択制御部１６４は、検索結果のうち、所定の優先度（例えばユーザの視聴履歴、嗜好情報、時刻等に基づく優先度）が最も高いコンテンツを選択する。例えば、ユーザが現在放送されている番組を見ている際に音声入力を行った場合、選択制御部１６４は、ユーザがよく視聴するチャンネルの現在放送中の番組を選択し、ディスプレイ１０８の表示を切り替える。

また、表示制御部１６６は、図６に示すように、検索結果を示す項目画像３０（３０ａ、３０ｆ、３０ｇ、３０ｂ、３０ｃ）を、例えば優先度順に表示する。検索結果には録画番組も含まれるため、同じチャンネルであっても現在放送中の番組ではなく録画番組であることを明示するため、表示制御部１６６は、対象の項目画像３０に「録画マーク」を表示したり（図６の項目画像３０ｆ、３０ｇ参照）、録画番組を示す項目画像の表示態様を他と異ならせたりするようにしてもよい。

また、読み上げ項目の表示については第１の実施例と同様に、表示態様を変化させたり、スピーカ等のイラスト画像を付したりすることで、明示するようにしてもよい。ここで、項目画像３０のうち、チャンネル名が重複している場合、チャンネル名の読み上げでは区別ができないため、番組タイトルや、項目画像３０に付した識別番号（不図示）の読み上げを読み上げ項目として音声入力を行うよう促すようにしてもよい。例えば図６に示す例では、重複するチャンネル名の項目画像３０ｆ、３０ｇにおいて、番組タイトル３０２の表示態様を変化させ、読み上げ項目であることを明示する。

＜３−３．第３の実施例：音声入力「現在の番組」＞
また、情報処理装置１００は、チャンネルの名称ではなく、現在受信可能なコンテンツ全体またはその一部を指定した音声入力がなされた場合にも、人や時間に応じた優先度に基づいてチャンネルを自動的に選択して表示することが可能である。

本実施例の動作処理は、主に図４を参照して説明した第１の実施例の動作処理と同様である。チャンネルの名称ではなく、例えば、「現在の番組」のように現在受信可能なコンテンツ全体またはその一部を指定した音声入力がなされた場合、上記ステップＳ１０９において、検索制御部１６２は、現在受信可能なコンテンツ（地上波放送、衛星放送、ケーブルテレビ（有線放送）、およびインターネット配信コンテンツなど）を検索し、上記ステップＳ１１２において、選択制御部１６４は、例えば、認識した視聴ユーザの視聴履歴や嗜好情報、ユーザ情報、ユーザ設定および他のユーザの情報等に基づいて算出されたチャンネル（または番組）の優先度に応じて、チャンネル（番組）を選局する。

図７は、本実施例による現在の番組に関する音声入力がなされた場合の表示例について説明する図である。図７に示すように、例えば、視聴ユーザによる「現在の番組を見せて」といった音声入力に応じて、情報処理装置１００は、ディスプレイ１０８の表示画面を、優先度に応じて自動的に選局したチャンネルに切り替えると共に（電源がＯＦＦになっている場合は自動的に電源をＯＮにした上で表示してもよい）、その他の候補となるチャンネルを示す項目画像３０を、優先度順に並べて表示する。また、情報処理装置１００は、他のチャンネルを選択する際の入力を促す画像３５を併せて表示してもよい。

なお、例えば、「現在の番組」のような現在受信可能なコンテンツ全体またはその一部を指定した音声入力は、放送番組に限定されず、インターネット配信コンテンツであってもよい。また、本明細書に記載の他の実施例においても、検索制御部１６２による検索対象に、インターネット配信コンテンツを含めるようにしてもよい。また、音声入力は「地上波」や「衛星放送」のように（より具体的には、例えば、「地上波で現在放送されている番組」や「衛星放送の番組を入れて」のような音声入力）、伝送手段を指定したものでもよく、その場合は該当する伝送手段を通じて現在受信可能な番組が検索される。

＜３−４．第４の実施例：音声入力「ジャンル」＞
また、情報処理装置１００は、番組（コンテンツの一例）のジャンルが音声入力された場合にも、人や時間に応じた優先度に従って、ユーザが要求している可能性の高い番組を自動的に選択して表示することが可能である。

番組のジャンルとは、例えば、映画、ドラマ、バラエティ、音楽、ニュース、ドキュメンタリー等が挙げられる。情報処理装置１００は、ユーザにより音声入力されたジャンルに対応する番組を検索し、上記各実施例と同様に、ユーザの視聴履歴や嗜好情報等に応じた優先度に基づいて選択した番組を再生すると共に（電源がＯＦＦになっている場合は自動的に電源をＯＮにした上で表示してもよい）、検索結果を示す項目画像を、優先度順に並べて表示するようにしてもよい。ユーザは、事前に好みのジャンルを設定しておくことで、より詳細なジャンルの検索や、例えば、音楽に関するドキュメンタリーのように複数のジャンル属性を持つコンテンツを検索できるようにされてもよい。また、情報処理装置１００は、上記各実施例と同様に、他の番組を選択する際の入力を促す画像も併せて表示するようにしてもよい。また、ここでは特に番組のジャンルを例として挙げたが、コンテンツのジャンルとはこの例に限らず、例えば、動画、音楽、画像、アプリケーション等でもよいし、ジャズ、ロック、バラードのような動画コンテンツ以外のコンテンツジャンルであってもよい。

検索対象は、現在の放送番組に限られず、録画番組（未視聴のものに限ってもよいし、視聴済みの録画番組は優先度を下げるようにしてもよい）、インターネット配信番組、ＶＯＤ（ＶｉｄｅｏＯｎＤｅｍａｎｄ）アイテムやライブストリーミング動画等、広く現在視聴可能なコンテンツを対象とする。

選択候補として表示される、検索結果を示す各項目画像には、そのコンテンツが録画番組であるか、インターネット配信番組であるか等を示す表示や、チャンネル番号、チャンネル名称、番組タイトル等の表示が行われる。

＜３−５．第５の実施例：おすすめコンテンツ等を問う音声入力＞
また、情報処理装置１００は、おすすめのコンテンツを問うような抽象的な音声入力が行われた場合にも、人や時間等に応じた優先度に従って、番組を自動選択して表示することが可能である。検索対象には、現在放送中の番組、録画番組、およびインターネット配信コンテンツ等、広く現在視聴可能なコンテンツが含まれる。

具体的には、情報処理装置１００は、例えば、ユーザにより「おすすめを見せて」と音声入力された場合、上記各実施例と同様に、現在視聴可能なコンテンツから、ユーザの視聴履歴や嗜好情報等に基づいて、おすすめのコンテンツを検索し（例えばユーザが好きな俳優が出演している番組、ユーザが好きなジャンルの番組等）、優先度（例えば、人または時間に基づく優先度。また、例えば視聴済みの録画番組は優先度を下げてもよい）に応じて選択したコンテンツを再生する（電源がＯＦＦになっていた場合は自動的に電源をＯＮにした上で再生してもよい）。そして、情報処理装置１００は、上述した各実施例と同様に、検索結果を示す項目画像を優先度順に並べて表示し（読み上げ項目の明示）、更に他のコンテンツに切り替える際の入力を促す画像も併せて表示する操作を行ってもよい。

＜３−６．第６の実施例：順番を有するコンテンツの表示＞
また、情報処理装置１００は、ユーザによる音声入力に基づいて、連続ドラマや映画のシリーズなど、順番を有するコンテンツを検索した場合、コンテンツの視聴状態に応じて自動選択することが可能である。

例えば、ユーザにより順番を有するコンテンツの名前が音声入力された場合、情報処理装置１００は、現在視聴可能なコンテンツ（放送番組、録画番組、およびインターネット配信コンテンツ等）から、対象のコンテンツを検索する。次いで、検索したコンテンツが順番を有する複数のコンテンツ（同じタイトル名のコンテンツが複数検索される）の場合、情報処理装置１００は、例えば、番号の若い順にリストアップし、視聴済みまたはスタッフロールの前まで等ほぼ見終えたと判断できるコンテンツを除いて最も若い番号のコンテンツを選択し（優先度の一例）、ディスプレイ１０８で再生する制御を行う。実行選択対象に、未視聴のコンテンツのみならず、途中で視聴を中断したコンテンツも含めることで、途中まで見ていたコンテンツを除外せずに、その続きまたは初めから再生することが可能となる。また、情報処理装置１００は、途中まで見ていたコンテンツを優先的に選択するようにしてもよい。また、情報処理装置１００は、音声認識等により視聴ユーザが識別できた場合、当該視聴ユーザの視聴履歴を参照し、検索したコンテンツに関して当該視聴ユーザの視聴状態を参照することで、パーソナライズした再生制御を実現することも可能である。

図８は、本実施例によるドラマ等の順番を有するコンテンツのタイトルが音声入力された場合の表示例について説明する図である。図８に示すように、例えば、ユーザにより「○○（ドラマタイトル）を見せて」といった音声入力が行われた場合、情報処理装置１００の検索制御部１６２は、現在視聴可能な番組からタイトル「○○」のコンテンツを検索する。

次いで、選択制御部１６４は、検索したコンテンツを、例えば、番号（話数や、シリーズ番号など）の若い順にリストアップし、視聴済みまたはスタッフロールの前まで等ほぼ見終えたと判断できる番組を除いて、最も若い番号のコンテンツ（図８に示す例では、例えば「ドラマ第１０話」）を選択する。そして、表示制御部１６６は、選択された番組を、ディスプレイ１０８で自動再生（すなわち実行）する制御を行う（ディスプレイ１０８の表示がＯＦＦになっている場合は自動的にＯＮにした上で表示してもよい）。また、例えば、「○○」というキーワードをタイトルに含む連続ドラマシリーズが複数ある場合には、最も優先度が高いコンテンツを選択したうえで、項目画像には各ドラマのシリーズを表示してもよい。その場合、ユーザが他の連続ドラマシリーズを指定した場合は、その連続ドラマシリーズの中で最も優先度の高いコンテンツを選択して、再生したうえで、シリーズ内の他のエピソードを項目画像として表示するような処理が行われてもよい。

また、表示制御部１６６は、図８に示すように、ユーザの音声入力に応じて検索したコンテンツの名称を示す項目画像４０（４０ａ〜４０ｅ）と、視聴ユーザが検索された他のコンテンツを選択する際の音声入力を促す画像４２を、選択したコンテンツの再生画面上において、表示する処理を行ってもよい。これにより、ユーザの要求に出来るだけ応じる音声入力ＵＩを提供することができる。

情報処理装置１００は、図８に示す項目画像４０ａ〜４０ｅのうち、実行しているコンテンツを示す項目画像は色を変える等の強調表示により明示するようにしてもよい。また、情報処理装置１００は、項目画像４０ａ〜４０ｅには、各コンテンツの視聴状態を示す情報、例えば前回再生位置（視聴済み位置）を示すバーを併せて表示してもよい。これにより、視聴ユーザは、各コンテンツの視聴状態を直感的に把握することができる。また、バー表示と共に、「続きから再生／初めから再生」といった、再生制御に関して受付可能なコマンドを示すアイコン等を表示してもよい。また、情報処理装置１００は、未視聴のコンテンツについては、図８に示すように、「ＮＥＷ」マーク等を表示するようにしてもよい。

また、項目画像４０には、チャンネル情報や、コンテンツの名称（番組タイトル等）、コンテンツの概要、コンテンツが現在放送番組か、録画番組か、ＶＯＤアイテムか、インターネット配信コンテンツか等を示す情報等が表示されてもよいし、静止画または動画サムネイルが表示されてもよい。チャンネルやコンテンツに関する情報及び静止画、動画サムネイルは、各コンテンツの配信ソースから取得されてもよいし、番組情報送信サーバのような異なるソースから取得されてもよい。また、項目画像４０に表示されるコンテンツの動画サムネイルは、ユーザがコンテンツを選択する前に、動画配信サーバやメモリ１０５等から取得して再生するようなものであってもよい。すなわち、例えば、放送番組の動画サムネイルはＶＯＤサーバから取得され得るし、放送番組の動画サムネイルとして、当該放送番組を録画した動画が項目画像４０内で再生され得る。静止画、動画サムネイルは、コンテンツの序盤部分が用いられてもよいし、コンテンツ内の任意の位置が利用されたり、サムネイル専用の動画像等が用いられたりしてもよい。

また、ＶＯＤアイテムやインターネット配信コンテンツなどにより全話を視聴できる状況にある場合や、録画済みのコンテンツに応じて、「最新話を再生」「１話から再生」等の、音声受付可能コマンドを示すアイコンを表示するようにしてもよい。

なお、このように、項目画像に、再生位置を示すバー等の視聴状態を示す情報の表示や、静止画または動画サムネイルを表示すること、また、音声受付可能コマンドを示すアイコンを表示すること等は、本実施例に限らず、上述した第１〜第５の実施例においても同様に適用可能である。また、第１の実施例において説明した、項目画像にコンテンツの放送時間の経過を示す情報（放送状況）の表示を行うこと等も各実施例に適用することができる。

＜３−７．第７の実施例：外部入力を指定する音声入力＞
以上説明した各実施例では、ユーザによる音声入力に応じてコンテンツを検索、選択する場合について説明したが、本開示はこれに限定されず、情報処理装置１００は、ユーザによる音声入力に応じて、外部入力の検索を行うことも可能である。

情報処理装置１００は、通信Ｉ／Ｆ１０４を介して接続するレコーダー、ゲーム機、ＰＣ、デジタルカメラ、スマートフォン等の外部装置から、映像や音声のデータを受信して、ディスプレイ１０８やスピーカ１０９から出力再生することが可能である。情報処理装置１００には、複数の外部装置を接続し得る（若しくは、情報処理装置１００が分配器を介して複数の外部装置と接続し得る）。ユーザは、１以上の外部装置が情報処理装置１００に接続されている状況において、音声入力により、外部装置の選択や切り替えを行うことが可能である。この場合における情報処理装置１００による検索処理および音声入力ＵＩ画像の表示について、以下、図９および図１０を参照して説明する。

（動作処理）
図９は、本実例による外部入力を指定する音声入力がされた場合の動作処理の流れの一例を示すフローチャートである。ここでは、情報処理装置１００が、少なくともマイクロフォン１０２による音声検出が可能で、ディスプレイ１０８がＯＦＦとなっているスタンバイ状態において、ユーザによる所定の呼び掛け（エージェントの呼び出し）と、所定の検索用の語句（ここでは、例えば「外部入力」）を認識した場合の動作処理について説明する。

図９に示すように、まず、情報処理装置１００は、ユーザの発話音声（音声入力）を検知すると（ステップＳ３０３）、情報処理装置１００の電源がＯＦＦになっていた場合はこれをＯＮにする操作を行ってもよい（ステップＳ３０６）。この際、ディスプレイ１０８はＯＦＦのまま（未選択のため、非表示の状態）としてもよい。なお、ユーザの音声入力を音声端末等の外部装置で行う場合、当該音声端末等の外部装置が、ユーザの所定の音声入力（例えば、エージェントの呼び出しと、検索語句の発話等）を検知した場合に、接続する情報処理装置１００の電源をＯＮにする制御を行うようにしてもよい。また、情報処理装置１００の電源が既にＯＮになっている場合や、ディスプレイ１０８に既に何らかのコンテンツが表示されている場合は、電源状態等はそのままとされる。

次に、検知した発話音声から音声認識した語句が「外部入力」の場合、情報処理装置１００の検索制御部１６２は、情報処理装置１００に接続する外部装置を検索する（ステップＳ３０９）。

次いで、情報処理装置１００の表示制御部１６６は、図１０に示すように、検索制御部１６２により検索した外部装置の名称（または外部入力の名称）を示す項目画像４５（４５ａ〜４５ｅ）を、ユーザの視聴履歴等に基づく優先度に応じてリストアップし、ディスプレイ１０８に表示する（ステップＳ３１２）。図１０は、本実施例による外部入力を指定する音声入力された場合の検索結果を表示する画面例を示す図である。

図１０に示すように、例えばユーザによる「外部入力」という音声入力に応じて、ディスプレイ１０８に検索結果が表示される。検索結果は、優先度の高い順に並べられてもよいし、画面全体にランダムに表示されてもよい。優先度は、表示制御部１６６により、例えば人または時間の少なくともいずれかに基づいて算出され得る。より具体的には、例えば表示制御部１６６は、視聴履歴を参照し、現在の時刻によく利用されている外部装置の優先度を高く算出したり、視聴ユーザが認識できた場合は当該視聴ユーザがよく利用している外部装置の優先度を高く算出したりする。

ここで、外部入力機器検索の場合、上述したコンテンツ検索の各実施例と異なり、制御部１６０は、検索結果から外部入力の自動選択および実行（外部装置の起動等）までを一連に行わず、まずは検索結果をディスプレイ１０８に表示し、選択および実行する外部入力をユーザに選択させてもよい。したがって、例えば外部装置が起動していなかった場合には、図１０に示すように、項目画像４５を表示する際、背景画面には何ら表示されていない状態となる。また、ディスプレイ１０８に既に何らかのコンテンツが再生されていた場合は、そのコンテンツの表示を継続したまま、項目画像４５を表示するようにしてもよい。

また、項目画像４５に表示する名称は、音声認識に推奨する読み上げ項目であって、認識し易く、極力曖昧さを排除したものが望ましい。例えば、外部入力の規格名称（「ＨＤＭＩ１／２／３」）や、外部装置のデバイスタイプに応じた名称（レコーダー１／２／３、プレイヤー１／２／３、チューナ１／２／３、デバイス１／２／３など）が想定される。これらの名称は、通信Ｉ／Ｆ１０４により決定してもよいし、制御部１６０により決定してもよい。また、表示制御部１６６は、項目画像４５に、外部装置の詳細情報として、読み上げ項目と併せて、ＣＥＣ（ＣｏｎｓｕｍｅｒＥｌｅｃｔｒｏｎｉｃｓＣｏｎｔｒｏｌ）機器の名称（製品名等）を表示するようにしてもよい。また、表示制御部１６６は、項目画像４５において、読み上げ項目を強調表示する等の表示態様の変化により、明示するようにしてもよいし、外部装置の属性（例えば、レコーダーを示すアイコン）を示すようなアイコン画像を表示してもよい。また、表示制御部１６６は、スピーカや、口、または人が話す様子を示すアイコン等を、読み上げ項目の付近に表示し、どの記載が読み上げ項目であるかをユーザに直感的に把握させることも可能である。

また、表示制御部１６６は、表示した検索結果（項目画像）から外部装置の選択を促す画像を、ディスプレイ１０８に表示してもよい（ステップＳ３１５）。具体的には、例えば図１０に示すように、「選択したい項目を話してください。」といった案内文を示す画像４７が表示される。ここで、図１０に示すように、例えば案内文のうち「項目」や「選択したい項目」の文字部分を、項目画像４５に表示する読み上げ項目の表示態様と同じにすることで（例えば書体、文字色、文字の背景色等を同じにする）、読み上げ項目をさらに明確化し、認識し難い名称での読み上げや、曖昧な音声入力を回避することを可能とする。

そして、外部装置の名称が発話された場合（ステップＳ３１８／Ｙｅｓ）、情報処理装置１００の表示制御部１６６は、発話された外部装置から入力されるコンテンツをディスプレイ１０８に表示する（ステップＳ３２１）。すなわち、制御部１６０は、外部入力を、ユーザにより選択された外部装置（外部入力）に切り替える制御を行う。また、この際、対象の外部装置の電源がＯＦＦになっていた場合、制御部１６０は、当該外部装置の電源をＯＮにする制御（起動制御）を行う。

なお、ユーザにより外部装置が選択され、当該外部装置から入力されるコンテンツをディスプレイ１０８に表示した後にも、上記検索結果を示す項目画像４５と、音声入力を促す画像４７をディスプレイ１０８に表示するようにしてもよい。これにより、再度音声入力により外部装置を切り替える際の支援を行い得る。

（音声入力「ＨＤＭＩ」の例）
以上、ユーザの音声入力による外部入力の選択について説明した。なお、ユーザによる音声入力が、「ＨＤＭＩ」や「レコーダー」等、外部機器や外部入力経路に対するより具体的な指定であるが複数の選択肢がある場合（複数のＨＤＭＩ入力やレコーダーが存在している場合）にも、情報処理装置１００は、図１０を参照して説明した外部入力機器の場合と同様に、検索結果（複数のＨＤＭＩ入力やレコーダー）を示す項目画像をディスプレイ１０８に表示する。また、外部装置の選択を促す画像がディスプレイ１０８に表示されてもよい。

具体的には、例えばユーザによりＨＤＭＩ入力を指定するような音声入力がなされ、検索制御部１６２が検索した結果、複数のＨＤＭＩ入力（例えば、「ＨＤＭＩ１」、「ＨＤＭＩ２」、「ＨＤＭＩ３」、および「ＨＤＭＩ４」）があった場合、表示制御部１６６は、これらを例えば人（視聴ユーザ）や時間（現在時刻）等に応じた優先度順でリストアップし、これらを示す項目画像（例えば、「ＨＤＭＩ１」、「ＨＤＭＩ２」、「ＨＤＭＩ３」、および「ＨＤＭＩ４」といった読み上げ項目を示す項目画像）をディスプレイ１０８に表示する。読み上げ項目を明示するため、表示態様を変化させたり、スピーカ等のアイコンを併せて表示したりしてもよい。なお、この時点で、ＨＤＭＩの選択および実行（ＨＤＭＩ接続された外部装置の起動）が行われずに、ディスプレイ１０８に、音声入力時に既に表示されていたコンテンツが背景画像として継続して表示されてもよいし、優先度に基づいてＨＤＭＩの選択および実行が行われて、ディスプレイ１０８に、外部装置で再生されているコンテンツや外部装置のメニュー画面（ホーム画面）が表示されてもよい。音声入力時に外部装置が起動していなかった場合は、選択された外部装置を起動してもよいし、起動せずに、検索結果の項目画像をディスプレイ１０８に表示している際、背景画像は何ら表示されない状態となってもよい。

また、表示制御部１６６は、図１０に示す例と同様に、「選択したい項目を話してください」といった、選択を促す画像を併せて表示してもよい。ここで、図１０に示す例と同様に、音声入力を促す文字と、読み上げ項目との表示態様を合わせたり、音声入力を促す文字の付近にマイクのアイコン等を表示したりすることで、より確実に、読み上げ項目による音声入力を促すことが可能となる。

そして、表示制御部１６６は、ユーザにより項目画像４５に基づいて「ＨＤＭＩ１」、「ＨＤＭＩ２」、「ＨＤＭＩ３」、または「ＨＤＭＩ４」といった音声入力（外部入力の選択）が行われた場合、選択された外部入力に切り替える。具体的には、表示制御部１６６は、選択された外部入力先から伝送されるコンテンツを、ディスプレイ１０８に表示する制御を行う。この際、外部入力先の外部装置の電源がＯＦＦになっていた場合、情報処理装置１００は、対象の外部装置の電源をＯＮにした上で（起動制御）、当該外部装置からコンテンツを取得する。ここで外部装置から取得されるコンテンツは、外部機器のメニュー画面等であってもよい。

＜３−８．第８の実施例：アプリケーションの起動等に関する音声入力＞
次いで、情報処理装置１００においてインストール済みのアプリケーションを起動する場合の音声入力について説明する。例えば、インターネット配信コンテンツを享受するために利用される各種アプリケーション（コンテンツ配信会社により用意されたアプリケーションを含む）が情報処理装置１００にインストールされている場合を想定する。本明細書では、以下一部の箇所で、「アプリケーション」を「アプリ」と省略して称する。

例えば、ユーザにより、アプリケーションの起動やアプリケーションによる処理を求めるような音声入力あるいはアプリケーションの名称による音声入力が行われると、情報処理装置１００は、検索制御部１６２により起動可能なアプリケーションを検索し、表示制御部１６６により検索結果をディスプレイ１０８に表示する。音声入力は具体的なアプリケーションの名称だけでなく、「写真アプリ」のように機能名を基にしたものでもよく、単に「アプリ」だけでもよい。図１１は、本実施例によるアプリケーションの起動等に関して音声入力された場合の検索結果を表示する画面例を示す図である。

図１１に示すように、例えばユーザによる「アプリを表示」というような音声入力に応じて、検索制御部１６２により検索された検索結果（項目画像５０ａ〜５０ｅ）が、表示制御部１６６の制御によりディスプレイ１０８に表示される。検索結果は、優先度の高い順に並べられてもよいし、画面全体にランダムに表示されてもよい。優先度は、例えば人または時間の少なくともいずれかに基づいて、表示制御部１６６により算出され得る。より具体的には、例えば表示制御部１６６は、視聴履歴を参照し、現在の時刻によく利用されているアプリケーションの優先度を高く算出したり、視聴ユーザが認識できた場合は当該視聴ユーザがよく利用しているアプリケーションの優先度を高く算出したりする。また、項目画像５０ａ〜５０ｅでは、アプリケーションの名称の他、そのアプリケーションで受付可能なコマンド（オプション）を示すアイコン、アプリケーション自体のアイコン（例えば、情報処理装置１００のメニュー画面で当該アプリケーションを示すアイコン）またはアプリケーションの属性を示すアイコン（例えば、音楽再生アプリケーションの場合にヘッドフォンのマーク）等を表示するようにしてもよい。

ここで、本実施例によるアプリケーションの検索の場合、上述したコンテンツ検索の各実施例と異なり、制御部１６０は、検索結果からアプリケーションの自動選択および実行（アプリの起動等）までを一連に行わず、まずは検索結果をディスプレイ１０８に表示し、選択および実行するアプリをユーザに選択させてもよいし、各実施例同様、１のアプリケーションを優先度に基づき自動選択して実行する一連の処理が行われてもよい。したがって、例えばディスプレイ１０８の表示がＯＦＦ（電源供給されていない状態）になっていた場合には、図１１に示すように、項目画像５０を表示する際、背景画面には何ら表示されていない状態となり得る。一方、ディスプレイ１０８に既に何らかのコンテンツが再生されていた場合は、そのコンテンツの表示を継続したまま、項目画像５０を表示するようにしてもよい。

また、表示制御部１６６は、図１１に示すように、「選択したい項目を話してください」といった、アプリケーションの選択を促す画像５２を併せてディスプレイ１０８に表示してもよい。ここで、図１１に示すように、画像５２に示す音声入力を促す文字と、項目画像５０に示す読み上げ項目（例えばアプリケーション名）との表示態様を合わせたり、画像５２に示す音声入力を促す文字の付近にマイクのアイコン等を表示したりすることで、より確実に、読み上げ項目による音声入力を促すことが可能となる。

そして、制御部１６０は、ユーザにより、アプリケーション名の音声入力（アプリの選択）が行われた場合（選択）、選択されたアプリケーションを起動し（実行）、アプリケーション画面をディスプレイ１０８に表示する制御を行う。ここで、先にアプリケーションが自動選択および実行されていた場合には、項目画像５０には実行されていないアプリケーションが表示され、これに基づいて異なるアプリケーションがユーザにより選択されてもよい。

なお、ユーザによりアプリケーションが選択され、当該アプリケーションが起動され、アプリケーション画面（コンテンツ）がディスプレイ１０８に表示された後にも、上記検索結果を示す項目画像５０と、音声入力を促す画像５２をディスプレイ１０８に表示するようにしてもよい。これにより、再度音声入力によりアプリケーションを切り替える際の支援を行い得る。

＜３−９．第９の実施例：電源ＯＦＦからの「録画／視聴予約、コンテンツ削除」＞
本実施例による情報処理装置１００は、ディスプレイ１０８がＯＦＦの状態でも、ユーザの音声入力に従って、録画予約、視聴予約、また、コンテンツ削除を行うことが可能である。以下、図１２および図１３を用いて具体的に説明する。

（録画／視聴予約）
図１２は、本実施例による電源ＯＦＦ時の録画予約または視聴予約の動作処理の流れの一例を示すフローチャートである。ここで、「電源ＯＦＦ時」とは、少なくともマイクロフォン１０２による音声検出と音声認識部１３０による音声認識が可能な状態（プロセッサ１１２、マイクロフォン１０２への電源供給が行われている状態）であって、かつ、ディスプレイ１０８がＯＦＦ（ディスプレイ１０８への電源供給が行われていない状態）となっているスタンバイ状態を想定する。

図１２に示すように、まず、情報処理装置１００は、「○○（番組のタイトル名）の録画予約をして」、「○○（番組のタイトル名）の視聴予約をして」等の、録画／視聴予約に関する発話音声を検知する（ステップＳ５０３）。情報処理装置１００の音声認識部１３０は、エージェントの呼び出し等、ユーザによる所定の呼び掛けがあった場合に、その後に続く発話音声を認識し、録画予約、視聴予約等のコマンドを特定するようにしてもよい。

次に、制御部１６０は、情報処理装置１００の電源を、ディスプレイ１０８を除きＯＮ状態に制御する（ステップＳ５０６）。

次いで、アプリケーション部１５０は、音声認識部１３０による音声認識結果に基づいて、録画予約または視聴予約を実行する（ステップＳ５０９）。録画／視聴予約情報は、例えばメモリ１０５に記憶される。また、アプリケーション部１５０は、音声認識等により発話者（ユーザ）が判断できた場合に、当該ユーザ用に（当該ユーザの情報を予約者として関連付けて）録画／視聴予約を行うようにしてもよい。

このように、本実施例では、ディスプレイ１０８の電源を入れず、表示画面を利用した操作を行うことなく、音声入力によって録画／視聴予約を実行することが可能となり、ユーザは、ディスプレイ１０８の点灯を待たずに速やかに録画／視聴予約を行うことができる。なお、情報処理装置１００は、録画／視聴予約を受け付けた場合に、スピーカ１０９を用いて音声によりユーザにフィードバックしてもよい（例えば、「録画／視聴予約を行いました」等の応答音声を再生）。また、実際の録画や視聴の処理は情報処理装置１００と接続する外部装置によって行われるように録画／視聴予約がされてもよい。

そして、制御部１６０は、情報処理装置１００の電源をＯＦＦする（ステップＳ５１２）。ここで電源ＯＦＦとは、少なくとも録画／視聴予約を実行する機能や、音声認識機能が可能な（すなわち、これらの機能を実行できる程度の電源供給は行っている）電源状態とする。

（コンテンツ削除）
図１３は、本実施例による電源ＯＦＦ時のコンテンツ削除の動作処理の流れの一例を示すフローチャートである。

図１３に示すように、まず、情報処理装置１００は、「○○（録画番組のタイトル名）を削除して」等の、録画番組削除に関する発話音声を検知する（ステップＳ６０３）。情報処理装置１００の音声認識部１３０は、エージェントの呼び出し等、ユーザによる所定の呼び掛けがあった場合に、その後に続く発話音声を認識し、コンテンツ削除等のコマンドを特定するようにしてもよい。

次に、制御部１６０は、情報処理装置１００の電源を、ディスプレイ１０８を除きＯＮ状態に制御する（ステップＳ６０６）。

次いで、アプリケーション部１５０は、音声認識部１３０による音声認識結果に基づいて、指定された録画番組の削除を実行する（ステップＳ６０９）。録画番組データは、例えばメモリ１０５に記憶されている。なお、アプリケーション部１５０は、録画番組データが、情報処理装置１００と接続する外部装置に記憶されている場合も、当該外部装置に記憶されている録画番組を削除する制御を行い得る。

このように、本実施例では、ディスプレイ１０８を付けず、表示画面を利用した操作を行うことなく、音声入力によって録画番組の削除を実行することが可能となり、ユーザは、ディスプレイ１０８の点灯を待たずに速やかに録画番組（コンテンツ）の削除を行うことができる。なお、情報処理装置１００は、録画番組削除を受け付けた場合に、スピーカ１０９を用いて音声によりユーザにフィードバックしてもよい（例えば、「○○（録画番組のタイトル名）を削除しました」等の応答音声を再生）。

そして、制御部１６０は、情報処理装置１００の電源をＯＦＦする（ステップＳ６１２）。ここで電源ＯＦＦとは、少なくとも音声認識機能が可能な（すなわち、かかる機能を実行できる程度の電源供給は行っている）電源状態とする。

＜３−１０．補足＞
以上説明した各実施例は、それぞれ組み合わせて実施してもよい。

例えば、第１の実施例で説明したチャンネル名の音声入力によりチャンネルが自動選択され、図５に示すように検索結果として項目画像３０が表示された際に、項目画像３０に表示されている番組名の音声入力を受け付けてもよい。この場合、情報処理装置１００は、現在視聴可能なコンテンツから、音声入力された番組名と一致するコンテンツの検索を行う。検索したコンテンツが順番を有する複数のコンテンツであれば、情報処理装置１００は、第６の実施例で説明したように、例えば番号の若い順にリストアップし、視聴済みまたはスタッフロールの前まで等ほぼ見終えたと判断できる番組を除いて、最も若い番号のコンテンツを選択して自動再生する。また、第２の実施例で説明した、番組名の音声入力に応じた現在放送番組と録画番組の検索および選択処理と、第３の実施例で説明した、現在受信可能なコンテンツ全体またはその一部を指定した音声入力に応じた、インターネット配信コンテンツを含む現在受信可能なコンテンツの検索および選択処理を組み合わせることで、番組名の入力に対して現在放送番組、録画番組およびインターネット配信コンテンツを含む現在受信可能なコンテンツに対する検索および選択処理が行われてもよい。

またここでは検索・実行されるコンテンツとして、主に放送番組等の動画コンテンツを基に説明を行ったが、本発明により実現される機器・装置で実行され得るものであれば、コンテンツの種類は問わない。例えば、再生されるコンテンツは音声コンテンツ（例えば楽曲）でもよく、情報処理装置１００で実行可能なアプリケーションによって楽曲の再生が行われる。また、優先度に基づいて検索がなされる対象は、音声コンテンツでもよいし、音声コンテンツを再生するアプリケーションでもよい。それらの場合、上記の実施例のいずれかと同様の手順またはそれらの組み合わせに基づいて、１の楽曲またはアプリケーションが選択され、選択されなかった楽曲またはアプリケーションを選択肢として含む項目画像が、ディスプレイ１０８に表示される。ディスプレイ１０８には、選択されたコンテンツとして楽曲のアルバムアート画像（ジャケット画像）やアプリケーションのＵＩ画像等が表示され得る。上記実施例で説明したチャンネルは、楽曲のような音声コンテンツを放送するラジオや音楽配信ステーションのようなチャンネルであってもよい。実施例静止画コンテンツやＷＥＢページ等の他の種類のコンテンツの場合も、同様の手順で処理することができる。

＜＜４．まとめ＞＞
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

例えば、上述した情報処理装置１００に内蔵されるＣＰＵ、ＲＯＭ、およびＲＡＭ等のハードウェアに、情報処理装置１００の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、本技術は以下のような構成も取ることができる。
（１）
ユーザの発話音声から認識された語句に基づいてチャンネルまたはコンテンツを検索する検索処理と、
前記検索処理により得られた複数のチャンネルまたはコンテンツのうち、１のチャンネルまたはコンテンツを選択する処理と、
前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示部に表示する処理と、
さらに、前記表示部に、前記検索処理により得られた複数のチャンネルまたはコンテンツを示す各項目画像を選択肢として表示する処理と、を行う制御部を備える、受信装置。
（２）
前記制御部は、前記表示部に、前記複数のチャンネルまたはコンテンツを選択する際の音声入力を促す画像を表示する、前記（１）に記載の受信装置。
（３）
前記音声入力を促す画像は、前記項目画像に表示された読み上げ項目の音声入力を促す説明文を含む、前記（２）に記載の受信装置。
（４）
前記音声入力を促す画像の前記説明文には、前記項目画像に表示された読み上げ項目の表示態様に合わせた表示態様の文字が含まれる、前記（３）に記載の受信装置。
（５）
前記制御部は、
前記ユーザの視聴履歴または嗜好情報の少なくともいずれか、若しくは、時間情報に基づく優先度に応じて、前記チャンネルまたはコンテンツを選択する、前記（１）〜（４）のいずれか１項に記載の受信装置。
（６）
前記制御部は、
前記優先度の高い順に、前記検索処理により得られた複数のチャンネルまたはコンテンツを示す各項目画像を表示する処理を行う、前記（５）に記載の受信装置。
（７）
前記コンテンツは、放送番組、録画番組、または、インターネットを介して配信される配信コンテンツである、前記（１）〜（６）のいずれか１項に記載の受信装置。
（８）
前記受信装置は、
放送局から送信される放送番組を受信する受信部と、
インターネットを介して配信される配信コンテンツを受信する通信部と、
をさらに備える、前記（７）に記載の受信装置。
（９）
前記読み上げ項目は、チャンネル名またはコンテンツ名である、前記（３）または（４）に記載の受信装置。
（１０）
前記制御部は、
前記語句が、外部入力またはアプリケーションに関連する語句の場合、検索した外部入力の規格名称、外部入力先の外部装置の名称、またはアプリケーションの名称を示す各項目画像を、選択肢として前記表示部に表示し、その後、ユーザの音声入力により選択された外部入力またはアプリケーションの画像を、前記表示部に表示する処理を行う、前記（１）〜（９）のいずれか１項に記載の受信装置。
（１１）
前記制御部は、
前記表示部の電源がＯＦＦになっていた場合、前記表示部の電源をＯＮにした上で、前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示する処理を行う、前記（１）〜（１０）のいずれか１項に記載の受信装置。
（１２）
前記制御部は、
前記語句がチャンネルまたは番組の名称に関連する語句の場合、チャンネルまたは番組を検索し、検索されたチャンネルまたは番組に対応する放送番組と録画番組とから、人または時間に基づく優先度が最も高い１の番組を選択し、選択した番組を前記表示部に表示する処理を行う、前記（１）〜（１１）のいずれか１項に記載の受信装置。
（１３）
前記制御部は、
前記ユーザが視聴済みの番組については優先度が未視聴のコンテンツの優先度よりも低くなるようにする、前記（１２）に記載の受信装置。
（１４）
前記制御部は、
音声受付処理を外部操作端末からの信号によって開始し、
前記音声受付処理は外部操作端末が有するマイクロフォンによって行われる、前記（１）〜（１３）のいずれか１項に記載の受信装置。
（１５）
前記外部操作端末は、前記音声受付処理の開始操作を行うための物理キーあるいは仮想キーを有するリモートコントローラまたはモバイル端末である、前記（１４）に記載の受信装置。
（１６）
前記制御部は、
前記語句が起動していない外部機器の指定である場合、前記外部機器を起動し、前記外部機器のホーム画面を前記表示部に表示する処理を行う、前記（１）〜（１５）のいずれか１項に記載の受信装置。
（１７）
前記コンテンツは音声コンテンツであり、前記選択したコンテンツを表示部に表示する処理は、前記音声コンテンツを示す画像を前記表示部に表示する処理である、前記（１）〜（１６）のいずれか１項に記載の受信装置。
（１８）
前記制御部は、
前記項目画像を一定時間前記表示部に表示する処理を行う、前記（１）〜（１７）のいずれか１項に記載の受信装置。
（１９）
前記制御部は、
前記項目画像において、各コンテンツの放送状況または視聴状態を示す情報を表示する、前記（１）〜（１８）のいずれか１項に記載の受信装置。
（２０）
プロセッサが、
ユーザの発話音声から認識された語句に基づいてチャンネルまたはコンテンツを検索することと、
前記検索により得られた複数のチャンネルまたはコンテンツのうち、１のチャンネルまたはコンテンツを選択することと、
前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示部に表示することと、
さらに、前記表示部に、前記検索により得られた複数のチャンネルまたはコンテンツを示す各項目画像を選択肢として表示することと、
を含む、制御方法。

１００情報処理装置
１０１カメラ
１０２マイクロフォン
１０３入力デバイス
１０４通信インタフェース（Ｉ／Ｆ）
１０５メモリ
１０６チューナ
１０７デコーダ
１０８ディスプレイ
１０９スピーカ
１１１バス
１１２プロセッサ
１２０音声取得部
１３０音声認識部
１４０特徴データベース
１５０アプリケーション部
１６０制御部
１６２検索制御部
１６４選択制御部
１６６表示制御部
１７２視聴履歴データベース
１７４嗜好データベース

Claims

ユーザの発話音声から認識された語句に基づいてチャンネルまたはコンテンツを検索する検索処理と、
前記検索処理により得られた複数のチャンネルまたはコンテンツのうち、１のチャンネルまたはコンテンツを選択する処理と、
前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示部に表示する処理と、
さらに、前記表示部に、前記検索処理により得られた複数のチャンネルまたはコンテンツを示す各項目画像を選択肢として表示する処理と、を行う制御部を備える、受信装置。
前記制御部は、前記表示部に、前記複数のチャンネルまたはコンテンツを選択する際の音声入力を促す画像を表示する、請求項１に記載の受信装置。
前記音声入力を促す画像は、前記項目画像に表示された読み上げ項目の音声入力を促す説明文を含む、請求項２に記載の受信装置。
前記音声入力を促す画像の前記説明文には、前記項目画像に表示された読み上げ項目の表示態様に合わせた表示態様の文字が含まれる、請求項３に記載の受信装置。
前記制御部は、
前記ユーザの視聴履歴または嗜好情報の少なくともいずれか、若しくは、時間情報に基づく優先度に応じて、前記チャンネルまたはコンテンツを選択する、請求項１に記載の受信装置。
前記制御部は、
前記優先度の高い順に、前記検索処理により得られた複数のチャンネルまたはコンテンツを示す各項目画像を表示する処理を行う、請求項５に記載の受信装置。
前記コンテンツは、放送番組、録画番組、または、インターネットを介して配信される配信コンテンツである、請求項１に記載の受信装置。
前記受信装置は、
放送局から送信される放送番組を受信する受信部と、
インターネットを介して配信される配信コンテンツを受信する通信部と、
をさらに備える、請求項７に記載の受信装置。
前記読み上げ項目は、チャンネル名またはコンテンツ名である、請求項３に記載の受信装置。
前記制御部は、
前記語句が、外部入力またはアプリケーションに関連する語句の場合、検索した外部入力の規格名称、外部入力先の外部装置の名称、またはアプリケーションの名称を示す各項目画像を、選択肢として前記表示部に表示し、その後、ユーザの音声入力により選択された外部入力またはアプリケーションの画像を、前記表示部に表示する処理を行う、請求項１に記載の受信装置。
前記制御部は、
前記表示部の電源がＯＦＦになっていた場合、前記表示部の電源をＯＮにした上で、前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示する処理を行う、請求項１に記載の受信装置。
前記制御部は、
前記語句がチャンネルまたは番組の名称に関連する語句の場合、チャンネルまたは番組を検索し、検索されたチャンネルまたは番組に対応する放送番組と録画番組とから、人または時間に基づく優先度が最も高い１の番組を選択し、選択した番組を前記表示部に表示する処理を行う、請求項１に記載の受信装置。
前記制御部は、
前記ユーザが視聴済みの番組については優先度が未視聴のコンテンツの優先度よりも低くなるようにする、請求項１２に記載の受信装置。
前記制御部は、
音声受付処理を外部操作端末からの信号によって開始し、
前記音声受付処理は外部操作端末が有するマイクロフォンによって行われる、請求項１に記載の受信装置。
前記外部操作端末は、前記音声受付処理の開始操作を行うための物理キーあるいは仮想キーを有するリモートコントローラまたはモバイル端末である、請求項１４に記載の受信装置。
前記制御部は、
前記語句が起動していない外部機器の指定である場合、前記外部機器を起動し、前記外部機器のホーム画面を前記表示部に表示する処理を行う、請求項１に記載の受信装置。
前記コンテンツは音声コンテンツであり、前記選択したコンテンツを表示部に表示する処理は、前記音声コンテンツを表す画像を前記表示部に表示する処理である、請求項１に記載の受信装置。
前記制御部は、
前記項目画像を一定時間前記表示部に表示する処理を行う、請求項１に記載の受信装置。
前記制御部は、
前記項目画像において、各コンテンツの放送状況または視聴状態を示す情報を表示する、請求項１に記載の受信装置。
プロセッサが、
ユーザの発話音声から認識された語句に基づいてチャンネルまたはコンテンツを検索することと、
前記検索により得られた複数のチャンネルまたはコンテンツのうち、１のチャンネルまたはコンテンツを選択することと、
前記選択したコンテンツまたは前記選択したチャンネルで放送されているコンテンツを表示部に表示することと、
さらに、前記表示部に、前記検索により得られた複数のチャンネルまたはコンテンツを示す各項目画像を選択肢として表示することと、
を含む、制御方法。