WO2016158005A1

WO2016158005A1 - 制御装置、制御方法及びコンピュータプログラム

Info

Publication number: WO2016158005A1
Application number: PCT/JP2016/053420
Authority: WO
Inventors: 淳也小野
Original assignee: ソニー株式会社
Priority date: 2015-03-31
Filing date: 2016-02-04
Publication date: 2016-10-06
Also published as: CN106462646A; US10474669B2; EP3279809A4; JP2016192121A; US20170206243A1; CN106462646B; EP3279809A1

Abstract

ユーザがコンテンツを見ながらそのコンテンツに対して発した質問に対する応答を、質問したユーザに適切な形態で提示することが可能な制御装置を提供する。少なくとも１人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容及び応答を出力する対象を決定する制御を行う制御部を備える、制御装置が提供される。

Description

制御装置、制御方法及びコンピュータプログラム

　本開示は、制御装置、制御方法及びコンピュータプログラムに関する。

　ユーザからの質問に対して、その質問に対する回答を含んだ応答を生成し、生成した応答を質問したユーザに対して提示する技術が開示されている（例えば特許文献１等参照）。

特開２０１４－２２５７６６号公報

　ユーザがコンテンツを見ている際にそのコンテンツに対する疑問が生じると、ユーザは、そのコンテンツの視聴を止めずに、手軽にその疑問に対して質問し、その質問に対する応答を適切な形態で得られることを求める。

　そこで、本開示では、ユーザがコンテンツを見ながらそのコンテンツに対して発した質問に対する応答を、質問したユーザに適切な形態で提示することが可能な、新規かつ改良された制御装置、制御方法及びコンピュータプログラムを提案する。

　本開示によれば、少なくとも１人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行う制御部を備える制御部を備える、制御装置が提供される。

　また本開示によれば、コンピュータが、少なくとも１人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行うことを含む、制御装置が提供される。

　また本開示によれば、コンピュータに、少なくとも１人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行うことを実行させる、コンピュータプログラムが提供される。

　以上説明したように本開示によれば、ユーザがコンテンツを見ながらそのコンテンツに対して発した質問に対する応答を、質問したユーザに適切な形態で提示することが可能な、新規かつ改良された制御装置、制御方法及びコンピュータプログラムを提供することが出来る。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態に係る制御装置１００の機能構成例を示す説明図である。発話検出部１１０の機能構成例を示す説明図である。話者認識部１４０の機能構成例を示す説明図である。発話解析部１５０の機能構成例を示す説明図である。知識ベースシステム部１６０の機能構成例を示す説明図である。出力制御部１８０の機能構成例を示す説明図である。デバイス管理部１９０の機能構成例を示す説明図である。本開示の一実施形態に係る制御装置１００の動作例を示す流れ図である。発話解析部１５０の動作例を示す流れ図である。主ノードの取得について説明する説明図である。主ノードに関連するノードの一覧の取得について説明する説明図である。主ノード同士のマッピングを説明する説明図である。エンティティの生成について説明する説明図である。エンティティのスコアでの降順ソートについて説明する説明図である。興味グラフ構造の例を示す説明図である。本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。ハードウェア構成例を示す説明図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．本開示の一実施形態
　　１．１．背景
　　１．２．機能構成例
　　１．３．動作例
　２．ハードウェア構成例
　３．まとめ

　＜１．本開示の一実施形態＞
　［１．１．背景］
　まず、本開示の実施の形態について詳細に説明する前に、本開示の実施の形態の背景について説明する。

　ユーザは、テレビ番組、映画などの動画コンテンツを、テレビやパーソナルコンピュータ（ＰＣ）などを用いて視聴する機会が多いが、近年はユーザが身体に装着して使用することを目的とした、いわゆるウェアラブルデバイスと呼ばれている機器が登場しつつある。ウェアラブルデバイスには、例えばメガネ型、腕時計型などの様々な形態のデバイスがあるが、共通しているのは画面が小さいということである。従って、ユーザがこのような画面の小さいウェアラブルデバイスを用いてコンテンツを視聴する場合、画面を直接操作するのでは無く、デバイスに向かって話しかけることでコンテンツに対する操作を行うことが想定される。またユーザは、デバイスに向かって話しかける際には、「これ」、「あれ」等の指示語を用いた曖昧な表現を用いた発話が増えることも想定される。

　逆に、ユーザがテレビでコンテンツを視聴する場合、４Ｋと言われる横４０００ピクセル×縦２０００ピクセル前後の解像度に対応したコンテンツを視聴できる機器が登場しており、さらにその上の８Ｋと言われる横８０００ピクセル×縦４０００ピクセル前後の解像度に対応したコンテンツも、今後登場することが見込まれている。従って、今後は大きな画面でコンテンツを家族など複数人で視聴するケースが増えることも想定される。このように大きな画面でコンテンツを視聴する場合でも、ユーザが画面に向かって話しかけることでコンテンツに対する操作を行うことが想定され、ユーザが画面に向かって話しかける際には、「これ」、「あれ」等の指示語を用いた曖昧な表現を用いた発話が増えることも想定される。

　いずれの場合にしても、ユーザがコンテンツを視聴している際に、コンテンツに対して疑問に思ったことを知ろうとする場合、コンテンツの視聴を一時的に止めて、コンテンツの視聴に用いている機器や、コンテンツの視聴に用いていない機器を用いて検索するのは、ユーザによってコンテンツの視聴の妨げになる。従って、ユーザがコンテンツを視聴していて、コンテンツに対して疑問に思ったことを知ろうとする際に、ユーザはコンテンツの視聴を止めずにその疑問に対する応答が得られることが望ましい。

　また、上述したように、ユーザは、デバイスに向かって話しかける際には、「これ」、「あれ」等の指示語を用いた曖昧な表現を用いた発話が増えることも想定されるが、この曖昧な表現を正確に解釈して応答をユーザに提示することも望ましい。すなわち、ユーザがコンテンツを見ていて「この人は誰？」と問いかけた場合に、ユーザが何に対して疑問に思っているのか、それに対してどのような応答を生成すれば良いのか、を正確に解釈することが求められる。

　また上述したように、今後は大きな画面でコンテンツを家族など複数人で視聴するケースが増えることも想定されるが、その際にどのユーザが質問を発話したのかを正確に検知して、発話したユーザに向けてその発話に対する応答を返すことも求められる。

　そこで本件開示者は、上述の背景に鑑みて、ユーザがコンテンツを見ている際に、そのコンテンツに対して発した質問に対する応答を、質問したユーザに適切な形態で提示することが可能な技術について鋭意検討を行った。その結果、本件開示者は、以下で説明するように、ユーザがコンテンツを見ている際に、そのコンテンツに対して発した質問の意図を解析し、その質問に対する応答を、質問したユーザに適切な形態で提示することが可能な技術を考案するに至った。

　以上、本開示の実施の形態の背景について説明した。続いて、本開示の実施の形態について詳細に説明する。

　［１．２．機能構成例］
　まず、本開示の一実施形態に係る制御装置１００の機能構成例を示す。図１は、本開示の一実施形態に係る制御装置１００の機能構成例を示す説明図である。図１に示したのは、コンテンツを視聴しているユーザからの質問を受け付けて、その質問に対する応答を生成することを目的とした制御装置１００の機能構成例である。以下、図１を用いて本開示の一実施形態に係る制御装置１００の機能構成例について説明する。

　図１に示したように、本開示の一実施形態に係る制御装置１００は、入力部１０１と、出力部１０２と、通信部１０３と、制御部１０４と、を含んで構成される。

　入力部１０１は、ユーザの入力を受け付けるためのものであり、本実施形態では、出力部１０２から出力されているコンテンツを視聴しているユーザからの質問を受け付けるためのものとして制御装置１００に設けられている。入力部１０１は、例えば、ユーザが発話した音を集音するマイク、ユーザのジェスチャを撮像するカメラ、入力部１０１からユーザまでの距離を検出するデプスセンサなどで構成される。入力部１０１は、ユーザの入力操作によって生成されたデータを制御部１０４に送る。

　本実施形態に係る制御装置１００は、ユーザが複数人いる場合に、どのユーザが発話したのかの特定を容易にするために、入力部１０１に複数のマイクを設け、複数のマイクによるビームフォーミングを行っても良い。

　出力部１０２は、制御部１０４で生成されたデータを出力するものであり、本実施形態では、出力部１０２は、ユーザに対してコンテンツを出力するとともに、出力しているコンテンツについて発せられたユーザからの質問に対し、制御部１０４が生成した応答を出力する。出力部１０２は、例えば、文字、画像その他の視覚情報を表示するディスプレイ、音声を出力するスピーカなどで構成される。

　通信部１０３は、他の装置との間で情報の通信を行う。例えば、通信部１０３は、制御部１０４の制御に基づいて他の装置との間で情報を通信することで、他の装置から、ユーザからの質問に対する応答の基になる情報を取得することができる。

　制御部１０４は、制御装置１００の動作を制御するものであり、例えばＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等で構成される。本実施形態では、制御部１０４は、ユーザが入力部１０１で入力した質問に対する応答を生成し、そのユーザに対して適切な形態で出力部１０２から応答を出力するよう動作する。

　図１に示したように、本開示の一実施形態に係る制御装置１００に含まれる制御部１０４は、発話検出部１１０と、ジェスチャ検出部１２０と、コンテンツ解析部１３０と、話者認識部１４０と、発話解析部１５０と、知識ベースシステム部１６０と、応答生成部１７０と、出力制御部１８０と、デバイス管理部１９０と、を含んで構成される。

　発話検出部１１０は、ユーザが入力部１０１に対して発話されたことを検出する。そして発話検出部１１０は、ユーザが発話したことを検出すると、その発話の内容をテキストに変換する。また発話検出部１１０は、ユーザが発話したことを検出すると、その発話の区間の音声を後段の話者認識部１４０に送る。

　図２は、発話検出部１１０の機能構成例を示す説明図である。図２に示したように、発話検出部１１０は、信号処理部１１１と、発話受付処理部１１２と、音声認識部１１３と、を含んで構成される。

　信号処理部１１１は、音声認識の精度の向上のために、入力部１０１から送られてくる音声信号に対する信号処理を実行する。信号処理部１１１は、例えばファーフィールドでの音声認識の精度を向上させるために、音声信号から雑音や残響を除去する信号処理を行う。

　発話受付処理部１１２は、信号処理部１１１で信号処理を行った音声信号に対して、ユーザが発話したことを受け付ける処理を行う。発話受付処理部１１２は、ユーザが発話したことを受け付けて、ユーザの発話区間を検出する。このようにユーザが発話したことを受け付けて、ユーザの発話区間を検出することで発話部分を限定することで、後段の音声認識部１１３での認識の精度を向上させることができる。またこのようにユーザが発話したことを受け付けて、ユーザの発話区間を検出することで発話部分を限定することで、後段の音声認識部１１３での音声認識の処理期間を限定し、省電力化を実現できる。

　音声認識部１１３は、発話受付処理部１１２が検出したユーザの発話区間において、音声認識処理を実行して、音声をテキストに変換する。音声からテキストへの変換処理は、特定の処理に限定されるものではない。

　発話検出部１１０は、図２に示したような構成を有することで、ユーザが発話したことを検出し、ユーザが発話した内容をテキストに変換することが出来る。

　ジェスチャ検出部１２０は、ユーザが入力部１０１に対して入力したジェスチャを検出する。ジェスチャ検出部１２０は、ユーザのジェスチャを検出することで、出力部１０２が表示しているコンテンツのどの部分をユーザが示しているのかを判定することができる。

　コンテンツ解析部１３０は、出力部１０２が表示しているコンテンツの内容を解析する。例えば、コンテンツ解析部１３０は、出力部１０２が表示しているコンテンツの映像や音声を解析し、その解析結果を発話解析部１５０に送る。コンテンツ解析部１３０は、例えばコンテンツ内の画像、音声、テキストを分離して、分離したデータに応じて特徴量を抽出する。そしてコンテンツ解析部１３０は、例えば画像の特徴量をキーワードに変換したり、音声をテキストに変換して、言語解析によってそのテキストの特徴量を取得したりする。また例えば、コンテンツ解析部１３０は、出力部１０２が表示しているコンテンツにメタデータが付随されていれば、そのメタデータの内容を解析し、その解析結果を発話解析部１５０に送る。

　話者認識部１４０は、入力部１０１に対して発話した話者を特定する。話者認識部１４０は、例えば発話された方向を特定したり、発話された音声を解析したりすることで話者を特定する。

　図３は、話者認識部１４０の機能構成例を示す説明図である。図３に示したように、話者認識部１４０は、ビームフォーミング処理部１４１と、話者識別処理部１４２と、を含んで構成される。

　ビームフォーミング処理部１４１は、入力部１０１として設けられている複数のマイクによるビームフォーミングによって、発話された方向を特定する。

　話者識別処理部１４２は、発話した人物が誰であるかを特定する処理を実行する。話者識別処理部１４２は、例えば、ビームフォーミング処理部１４１によって特定された発話方向にいる人物を、入力部１０１として設けられているカメラで撮像された画像に対する顔認識処理によって特定する。また話者識別処理部１４２は、例えば、発話の音声を解析して、発話した人物が誰であるかを特定する処理を実行する。

　話者認識部１４０は、図３に示したような構成を有することで、入力部１０１に対して発話した話者が誰であるかを精度良く予定することが可能になる。なお、本実施形態に係る話者認識部１４０による話者特定処理については後に詳述する。

　発話解析部１５０は、発話検出部１１０が検出した発話の内容を解析する。発話解析部１５０は、言語解析、コンテキスト解析（発話文の引き継ぎ）、意味解析等によって発話検出部１１０が検出した発話の内容を解析する。そして発話解析部１５０は、発話検出部１１０が検出した発話の内容を解析した結果、その発話の内容が質問文であれば、知識ベースシステム部１６０に問い合わせを行う。

　図４は、発話解析部１５０の機能構成例を示す説明図である。図４に示したように、発話解析部１５０は、言語解析部１５１と、意味解析部１５２と、を含んで構成される。

　言語解析部１５１は、発話検出部１１０が変換したテキストの構造を解析する。言語解析部１５１は、発話検出部１１０が変換したテキストの構造を解析することで、ユーザによる発話の内容が質問なのかどうかを判定することが出来る。言語解析部１５１は、発話検出部１１０が変換したテキストの構造を解析する際に、コンテキスト解析を行っても良い。コンテキスト解析によって、ユーザによる前の発話を引き継いで解析し、ユーザによって省略された表現や指示語等を正しく正規化することが出来る。

　意味解析部１５２は、発話検出部１１０が変換したテキストに含まれる曖昧な表現を解釈して、ユーザによる発話の意図を解釈する。意味解析部１５２は、知識ベースシステム部１６０へ問い合わせることで、曖昧な表現を解釈する。

　発話解析部１５０は、図４に示したような構成を有することで、発話検出部１１０が検出した発話の内容を解析し、ユーザがどのような意味の発話を行ったかを検出することが出来る。

　知識ベースシステム部１６０は、例えば一般的な知識、ユーザ固有の知識、デバイス固有の知識等をグラフ構造化したデータベースを保持し、そのデータベースに対する検索を実行して、曖昧な表現に対する推論を行うことで、曖昧な表現を解釈する。知識ベースシステム部１６０は、曖昧な表現の解釈の際には、ユーザの嗜好を反映させても良い。

　知識ベースシステム部１６０は、発話解析部１５０からの質問に対して応答を生成する。知識ベースシステム部１６０が生成する応答を、本実施形態では、応答ベースパラメータとも賞する。知識ベースシステム部１６０が生成した応答ベースパラメータは、応答生成部１７０に送られて、応答生成部１７０で生成されるユーザに対する応答の基となる。

　図５は、知識ベースシステム部１６０の機能構成例を示す説明図である。図５に示したように、知識ベースシステム部１６０は、知識データベース１６１と、ＷＥＢ情報保持部１６２と、を含んで構成される。

　知識データベース１６１は、一般的な知識、ユーザ固有の知識、デバイス固有の知識をグラフ構造化したデータベースである。また、ＷＥＢ情報保持部１６２は、インターネット上に存在する情報を収集し、その情報をグラフ構造化したデータベースである。

　知識ベースシステム部１６０は、図５に示したような構成を有することで、発話解析部１５０からの質問に対して応答を生成することができる。また、知識ベースシステム部１６０は、図５に示したような構成を有することで、発話解析部１５０における曖昧な表現に対するユーザの意図の解析を可能にする。知識ベースシステム部１６０を用いた応答の生成や、曖昧な表現に対するユーザの意図の解析処理については後に詳述する。

　応答生成部１７０は、知識ベースシステム部１６０から得た応答ベースパラメータに基づいてベースとなる応答（応答文、応答表示、応答音声など）を生成する。応答生成部１７０によって生成されたベースとなる応答は、出力制御部１８０によって応答の出力のタイミング及び応答の内容が制御される。

　出力制御部１８０は、応答生成部１７０が生成したベースとなる応答について、出力のタイミングや、出力する応答の内容を制御する。

　図６は、出力制御部１８０の機能構成例を示す説明図である。図６に示したように、出力制御部１８０は、トリガ判定部１８１と、個人化出力部１８２と、を含んで構成される。

　トリガ判定部１８１は、コンテンツの再生や停止を管理し、応答の出力のタイミングについての判定を行う。本実施形態に係る制御装置１００は、応答の出力をリアルタイムに行うモードと、所定の条件を満たした時点で応答を出力するモードの２種類のモードを備える。応答の出力をリアルタイムに行うモードのことをリアルタイムモードとも称し、所定の条件を満たした時点で応答を出力するモードのことをブックマークモードとも称する。トリガ判定部１８１が使用する所定の条件は、例えば出力中のコンテンツが所定の状態になったことであってもよく、また例えば所定の時間になったことであってもよい。出力中のコンテンツの所定の状態としては、例えばコンテンツが終了したタイミングであってもよく、コンテンツがテレビ番組であればコマーシャルになったタイミングであってもよい。コンテンツが終了したタイミングは、コンテンツが最後まで再生されたタイミングと、ユーザが明示的にコンテンツの再生を終了したタイミングの両方が含まれうる。上記所定の時間には、コンテンツの終了時間から相対的に経過した時間と、コンテンツの終了とは無関係な時間の両方が含まれうる。なお、所定の時間になったことを条件に応答を出力する場合、コンテンツが出力されていない状態であることが、トリガ判定部１８１が使用する所定の条件に加えられていても良い。

　個人化出力部１８２は、応答生成部１７０が生成したベースとなる応答について、質問を発話したユーザの興味レベルに応じて内容を最適化して出力する制御を行う。

　出力制御部１８０は、図６に示したような構成を有することで、応答生成部１７０が生成したベースとなる応答について、出力のタイミングを制御することが出来る。また出力制御部１８０は、図６に示したような構成を有することで、応答生成部１７０が生成したベースとなる応答について、出力する内容を制御することが出来る。

　デバイス管理部１９０は、出力制御部１８０が応答を出力するデバイスを管理し、応答の出力に適したデバイスを選択する。

　図７は、デバイス管理部１９０の機能構成例を示す説明図である。図７に示したように、デバイス管理部１９０は、センサ情報取得部１９１と、出力デバイス選択部１９２と、を含んで構成される。

　センサ情報取得部１９１は、入力部１０１のセンサから送られる情報を取得する。センサ情報取得部１９１が取得したセンサの情報は、出力デバイス選択部１９２での、応答の出力に適したデバイスを選択する処理に用いられる。

　出力デバイス選択部１９２は、センサ情報取得部１９１が取得したセンサの情報を用いて、応答の出力に適したデバイスを選択する処理を行う。出力デバイス選択部１９２によるデバイスの選択処理については後に詳述する。

　デバイス管理部１９０は、図７に示したような構成を有することで、出力制御部１８０が応答を出力するデバイスを管理して、入力部１０１のセンサから送られる情報に基づき、応答の出力に適したデバイスを選択すること出来る。

　なお、図１に示した機能構成例では、制御装置１００に、入力部１０１及び出力部１０２が含まれている形態を示したが、本開示は係る例に限定されるものではなく、入力部１０１及び出力部１０２と、制御部１０４とは、別々の装置に設けられてもよい。

　以上、本開示の一実施形態に係る制御装置１００の機能構成例について説明した。本開示の一実施形態に係る制御装置１００は、図１～図７に示したような構成を有することで、出力しているコンテンツに対してユーザから発せられた質問の意図を理解し、質問したユーザに対して適切な形態で質問に対する応答を出力することが出来る。

　以上、本開示の一実施形態に係る制御装置１００の機能構成例について説明した。続いて、本開示の一実施形態に係る制御装置１００の動作例について説明する。

　［１．３．動作例］
　図８は、本開示の一実施形態に係る制御装置１００の動作例を示す流れ図である。図８に示したのは、出力しているコンテンツに対してユーザから発せられた質問に対する解答を生成し、質問したユーザに対して適切な形態で質問に対する応答を出力する際の、制御装置１００の動作例である。以下、図８を用いて本開示の一実施形態に係る制御装置１００の動作例について説明する。

　出力部１０２が出力しているコンテンツに対してユーザが入力部１０１に向かって発話すると、制御装置１００は、まずその発話文の抽出を行う（ステップＳ１０１）。ステップＳ１０１の発話文の抽出は、例えば発話検出部１１０が行う。

　制御装置１００は、発話文の抽出の際に、例えばユーザの所定の動作を検出し、その動作の検出によって発話受付状態に移行しても良い。制御装置１００は、動作の検出によって発話受付状態に移行することで、発話区間を限定し、発話文の抽出の際に雑音が入る確率を下げることができ、音声認識の精度を向上させることができる。また制御装置１００は、動作の検出によって発話受付状態に移行することで、音声認識を常に常駐させる必要がなく省電力化が実現できる。

　発話受付状態に移行するための所定の動作として、例えばリモートコントローラの操作、所定の起動ワード、所定のジェスチャなどがあり得る。例えば、制御装置１００は、所定の起動ワードが予め設定され、その起動ワードだけを認識する音声認識処理を動作させる。そして、制御装置１００は、起動ワードを認識すると、音声認識を起動してユーザの発話を待機する。

　例えば制御装置１００は、所定の起動ワードだけを認識する、消費電力が少ない音声認識機能だけを動作させておき、所定の起動ワードを認識すると、全ての声を認識する音声認識機能を動作させるようにしても良い。

　また例えば、所定のジェスチャの認識によって発話受付状態に移行する場合、制御装置１００は、カメラやデプスセンサ等により、ユーザの顔、指の操作、視線を検出する。例えば、表示領域の特定部分に、ユーザが顔や指、視線を所定時間向けたことを検出すると、制御装置１００は、発話受付状態に移行させることが出来る。

　制御装置１００は、ユーザの発話文の抽出をステップＳ１０１で行うと、続いて、ユーザの発話の対象が、出力部１０２が出力しているコンテンツのどの位置にあるのかを決定する、発話対象のコンテンツ内の位置決定処理を行う（ステップＳ１０２）。ステップＳ１０２の発話対象のコンテンツ内の位置決定処理は、例えばジェスチャ検出部１２０が行う。

　例えば、制御装置１００が上記ステップＳ１０１で発話文を抽出した結果、「画面の左側にいる人は誰？」という発話文が抽出出来たとする。制御装置１００は、その発話の内容から、発話対象はコンテンツ内の左側にいると決定することが出来る。このように、ユーザがコンテンツ内の位置をある程度指定していれば、制御装置１００は、発話対象のコンテンツ内の位置決定は容易に行える。

　しかし、例えば、制御装置１００が上記ステップＳ１０１で発話文を抽出した結果、「この人誰？」という発話文が抽出出来たとする。その発話の時点で、出力部１０２が出力しているコンテンツに人物が１人しか存在していなければ対象の特定は容易であるが、出力部１０２が出力しているコンテンツに人物が複数人存在していると、「この人誰？」だけでは、制御装置１００はユーザが誰のことについて言っているのかを特定することが出来ない。

　そこで本実施形態に係る制御装置１００は、発話と共になされたユーザのジェスチャを検出する。本実施形態に係る制御装置１００は、発話と共になされたユーザのジェスチャを検出することで、「この人誰？」のような曖昧な内容が発話された場合であっても、発話対象のコンテンツ内の位置を決定する。本実施形態では、ユーザが明示的に位置を示している場合を一意型と定義し、ユーザが明示的に位置を示していない場合を候補型と定義する。

　まず一意型の場合について説明する。例えば、出力部１０２にタッチパネルが設けられており、ユーザが指などでタッチパネルに触れると、制御装置１００は、その触れた場所を発話対象のコンテンツ内の位置に決定することが出来る。ユーザがタッチパネルに触れずに位置を指定するような場合は、制御装置１００は、ユーザのジェスチャを検出することで、発話対象のコンテンツ内の位置に決定する。制御装置１００は、例えばユーザの指が指している位置や、ユーザの視線を検出する等して、ユーザがどの部分を指し示しているのかを特定する。

　また制御装置１００は、ユーザのジェスチャの検出結果を出力部１０２に出力しても良い。制御装置１００は、上述の発話受付状態に移行している場合に、ユーザのジェスチャが指す位置をコンテンツ内に表示させることで、ユーザのジェスチャがコンテンツ内のどの部分を指していると検出しているかをユーザにフィードバックすることが出来る。

　続いて候補型の場合について説明する。ユーザがコンテンツに対して明示的に位置を示していない場合は、制御装置１００は、ユーザにコンテンツ内のどこを指しているかを問い合わせる。その問い合わせの際に、制御装置１００は、リアルタイムでユーザに問い合わせを返すリアルタイムモードと、コンテンツの視聴終了後やコマーシャルの間など、コンテンツ状態に応じてユーザに問い合わせを返すブックマークモードのいずれかのモードでユーザへ問い合わせる。

　制御装置１００は、リアルタイムモードで応答する場合に、コンテンツを一時停止させてユーザに候補を絞らせてもよく、ユーザのコンテンツの視聴を妨げないために、ユーザが発話した時点でのコンテンツのスクリーンショットを別画面で表示させてもよい。いずれの場合であっても、制御装置１００は、ユーザが発話した時点で出力部１０２から出力している画面をユーザに示し、ユーザに改めて位置を特定させる。ユーザに改めて位置を特定させることで、制御装置１００は、コンテンツ内の位置を特定することができる。

　制御装置１００は、ブックマークモードで応答する場合に、ユーザが発話した時点でのコンテンツのスクリーンショットを保持しておき、所定のタイミングでスクリーンショットを表示して、出力部１０２から出力している画面をユーザに示し、ユーザに改めて位置を特定させる。ユーザに改めて位置を特定させることで、制御装置１００は、コンテンツ内の位置を特定することができる。

　制御装置１００は、いずれのモードであっても、ユーザが位置を指定しなかった場合は、ユーザが指定したと思われるコンテンツ内の位置を任意に決定してもよい。例えば、ユーザの嗜好などから、ユーザが女性の芸能人に強い興味があることが分かっている場合、制御装置１００は、男性と女性が映っているシーンでユーザから「この人誰？」という問いかけがなされると、男性ではなく女性の方を指していると判断して、コンテンツ内で女性がいる場所を特定してもよい。

　ユーザが質問を発話した際に、その時点で候補となり得るものがコンテンツに複数存在している場合、ユーザがコンテンツ内の位置を指定するか否かにより、以下のパターンに分類することが出来る。

　Ａ－１のケースは、ユーザに位置を直接指定させるパターンである。Ｂ－１及びＢ－２のケースは、ユーザにジェスチャで位置を指定させるパターンである。Ｂ－３のケースは、コンテンツを視聴しているデバイスではない別のデバイスで、ユーザに位置を指定させるパターンである。別デバイスの選定方法は後述する。Ｃ－１からＣ－３のケースは、ユーザプロファイルを使用して、知識ベースシステムのグラフ構造からシステムが自動的に優先順位を付けるパターンである。優先順位の決め方については後述する。Ｄ－１及びＤ－２のケースは、知識ベースシステムが持つヒエラルキーやビッグデータ解析により、優先順位を付けるパターンである。優先順位の決め方については後述する。

　ステップＳ１０２で発話対象のコンテンツ内の位置決定を行うと、続いて制御装置１００は、コンテンツの特徴量の抽出を行う（ステップＳ１０３）。ステップＳ１０３のコンテンツの特徴量の抽出処理は、例えばコンテンツ解析部１３０が行う。

　ステップＳ１０３では、コンテンツの特徴量の抽出処理として、コンテンツ内の画像、音声、テキストの分離が行われ、分離したデータに応じた特徴量を抽出する。例えば画像ならば、抽出された特徴量が画像解析によってキーワードに変換され、音声なら音声認識によってテキストに変換され、テキストに対する言語解析によって特徴量が得られる。

　コンテンツに対して、「この人誰？」や「ここどこ？」という曖昧な表現を含む質問をユーザが発した場合、その質問に答えるためにはコンテンツが持つ特徴量が必要となる。本実施形態では、ユーザの発話を検出した時点のコンテンツに対して、予めコンテンツに付与された（タグ付けされた）情報を静的特徴量と定義し、コンテンツの画像や音声を解析することで得られる情報を動的特徴量と定義する。

　静的特徴量の場合、コンテンツに予めタグ付けされた人物や場所などの情報が該当する。なお、コンテンツに予めタグ付けされた情報がなくても、知識ベースシステム部１６０が保持する情報に基づいて、コンテンツの時系列に沿って情報を管理していても良い。例えば、テレビ番組内の人物が時系列に沿って変化する状況下で、その人物の情報（コンテンツ内の位置範囲や人物の名前、年齢等）を全てコンテンツの再生装置で保持してもよく、コンテンツを識別するＩＤ情報だけをコンテンツの再生装置で保持し、知識ベースシステム部１６０に問い合わせることで人物の情報が得られるようにしても良い。

　動的特徴量の場合、コンテンツの画像や音声を解析することで得られる情報が該当する。ここで本実施形態に係る制御装置１００は、知覚遅延フィードバックという手法によって、発話を検出した時点から所定時間遡ってから、コンテンツの画像や音声を解析する。

　動画等の時間と共に場面が変化するコンテンツの場合、ユーザがコンテンツを見て、発話するまでにはタイムラグがある。従って、制御装置１００は、ユーザが疑問に思った時点と、ユーザが発話した時点との同期を取る仕組みを有していても良い。

　人間が絵や音を知覚して、声を発生するまでのタイムラグは個人差があり、例えば年齢によってそのタイムラグが変化する。従って制御装置１００は、人間が絵や音を知覚して、声を発生するまでのタイムラグを予め定数値で静的に設定できるようにするとともに、発話したユーザを特定した後に、ユーザプロファイル情報から、タイムラグを動的に変化できるようにしてもよい。例えば、発話したのが１０代のユーザであることをユーザプロファイル情報から判別できれば、タイムラグを短くし、発話したのが６０代のユーザであることをユーザプロファイル情報から判別できれば、タイムラグを長くするようにしてもよい。

　そして制御装置１００は、ユーザの発話を検出した時点から、タイムラグを考慮して過去の時点までの毎フレームごとのコンテンツ情報を取得する。このようにタイムラグを設定することで、制御装置１００は、ユーザの知覚遅延をフィードバックすることができ、ユーザが注目したコンテンツを画像や音声の解析対象に含めることが可能となる。

　上記ステップＳ１０３でコンテンツの特徴量の抽出を行うと、続いて制御装置１００は、発話した話者を特定する処理を行う（ステップＳ１０４）。ステップＳ１０４の話者の特定処理は、話者認識部１４０が行う。制御装置１００は、コンテンツを出力するデバイスのカメラセンサ、マイクセンサ、デプスセンサでセンシングしたデータを用いて信号処理、画像解析、話者識別を行う。

　発話方向を特定するには、例えばマイクアレーセンサが用いられる。制御装置１００は、マイクアレー上を音が通過する際の時間遅延によって音が発生する方向を識別することで発話方向を特定するビームフォーミング技術により、どの方向から発話されているかを判断することができる。

　発話方向を特定するには、また例えばデプスセンサやカメラセンサが用いられる。制御装置１００は、デプスセンサやカメラセンサによって検出されるユーザのジェスチャの方向を発話方向として特定することが出来る。

　制御装置１００は、ユーザの声を識別する際には、例えばビームフォーミング技術などで発話方向を特定した後でその方向の音声を集音し、集音した音声の波形と、知識ベースシステム部１６０に登録されている波形との照合により識別出来る。

　制御装置１００は、発話したユーザの顔を識別する際には、例えばビームフォーミング技術などで発話方向を特定した後でその方向を撮像して、撮像画像に対する顔検出処理を実行して顔を抽出し、知識ベースシステム部１６０に登録されている顔画像との照合により識別出来る。

　制御装置１００は、事前に知識ベースシステム部１６０に登録した顔や名前を表示したアイコンまたはカメラにより撮像した顔の画像を、コンテンツを出力している画面に表示させてもよい。制御装置１００は、アイコンや画像をユーザに選択させることで、話者特定を行ってもよい。ユーザによるアイコンや画像の選択は、タッチパネルを用いた直接指定であってもよく、ジェスチャによる間接指定であってもよい。

　上記ステップＳ１０４で発話した話者の特定を行うと、続いて制御装置１００は、話者認識フィードバック処理を行う（ステップＳ１０５）。ステップＳ１０５の話者認識フィードバック処理は出力制御部１８０が実行する。

　ステップＳ１０５の話者認識フィードバック処理は、発話認識の受付、エラー、話者特定結果をユーザへフィードバックする処理である。話者認識フィードバック処理は、例えば以下のように行われる。話者認識部１４０は、発話認識の受付、エラー、話者特定結果のパラメータを応答生成部１７０に渡す。応答生成部１７０は、話者認識部１４０から受け取ったパラメータに基づいて応答を生成し、生成した応答を出力制御部１８０に渡す。出力制御部１８０は、応答生成部１７０から受け取った応答を、コンテンツに重畳させる形式で即座に出力する。

　なお制御装置１００は、上記ステップＳ１０５の話者認識フィードバック処理を、必ずしも実行しなくても良い。制御装置１００は、話者認識フィードバック処理を実行するかどうかを、ユーザの設定に基づいて判断し、ユーザが話者認識フィードバック処理を要求していれば話者認識フィードバック処理を実行しても良い。また制御装置１００は、発話認識が出来なかった場合や、話者を特定することが出来なかった場合に限って話者認識フィードバック処理を実行しても良い。

　上記ステップＳ１０５で話者認識フィードバック処理を実行すると、続いて制御装置１００は、上記ステップＳ１０１で抽出した発話文の意図を理解する処理を実行する（ステップＳ１０６）。ステップＳ１０６の発話文の意図理解処理は、発話解析部１５０が知識ベースシステム部１６０を用いて実行する。

　本実施形態では、発話解析部１５０は、発話文の意図を理解する際に、知識ベースと称する、事実、常識、経験などの知識をコンピュータが理解できる形式にしてデータベース化（構造化）したものを用いる。知識ベースは、単なるデータベースではなく、格納した知識を活用するための検索や推論の機構を含めたものである。知識ベースシステム部１６０は、その知識ベースを格納したものであり、図５に示したように知識データベース１６１と、ＷＥＢ情報保持部１６２と、を有する。

　知識データベース１６１は、「ｓｕｂｊｅｃｔ，ｐｒｅｄｉｃａｔｅ，ｏｂｊｅｃｔ」の各知識をノードと呼び、各ノードを結ぶものをリレーションとする３つ組（トリプル）のＲＤＦ（Ｒｅｓｏｕｒｃｅ　Ｄｅｓｃｒｉｐｔｉｏｎ　Ｆｒａｍｅｗｏｒｋ）構造を持ち、３つ組を繋いだ知識グラフ構造を構築している。３つ組の例として、「富士山，標高，３７７６メートル」等がある。

　なお、データベースには、世の中の事実、常識、経験などユーザに依存しない一般知識と、ユーザに依存したユーザ知識（ユーザプロファイル）に大きく分類される。本実施形態では、制御装置１００が応答をどのデバイスに出力するかを決定するためにはデバイス情報が必要になり、ユーザがどのデバイスを保持しているかはユーザ知識になり、デバイスの特性情報（画面のサイズ、画面有無等）は一般知識となる。

　発話解析部１５０は、発話文を用いて知識ベースシステム部１６０に格納されている知識を探索する際には、表記ゆれに対応する必要がある。音声認識の場合には、記号なし、ひらがな／カタカナの違い、漢字の違い、半角／全角の違いを吸収することが必要になる。データベースに全ての候補が読み込まれていないケースを想定し、発話解析部１５０は、抽出した発話文の文字列を動的に変えて、検索候補を増やして知識ベースシステム部１６０を探索する。発話文の文字列を動的に変えて、検索候補を増やして知識ベースシステム部１６０を探索するためには、文字列の変換ルールを定義し、ルールによって変換した文字列を圧縮表記と定義し、事前にデータベースには圧縮表記を生成しておくことが望ましい。発話解析部１５０は、発話文の文字列から動的に圧縮表記を生成し、知識ベースシステム部１６０に格納されている圧縮表記と照合する。

　知識データベース１６１の量は膨大となるため、発話解析部１５０は、処理速度を向上させるために、例えばデータのスコア値で降順ソートしておき、ヒットした件数が既定値に達した場合に探索処理を終えるようにしても良い。

　発話解析部１５０は、発話文の表記から、表２で示した圧縮表記の変換ルールに応じて、圧縮表記を生成する。また、事前に知識データベース１６１も同じ圧縮表記の変換ルールで変換しておく。

　知識ベースシステム部１６０は、同義語データベースを保持していてもよい。発話解析部１５０は、同義語データベースによって同義語を展開することで、表記の候補を増やすことが可能になる。

　発話解析部１５０は、発話文の曖昧な表現を解釈する上で、発話の表記がどのドメイン、ジャンルであるかを判断して行う。ＲＤＦ構造の３つ組データは公開されており、データベースは統一されたフォーマットや体系になっていないため、知識ベースシステム部１６０は、意味属性を独自に定義し、各データベースの属性をマッピングするための条件を保持している。

　図９は、発話解析部１５０の動作例を示す流れ図である。図９に示したのは、発話文の内容に基づいて知識ベースシステム部１６０を探索する際の発話解析部１５０の動作例を示したものである。

　発話解析部１５０は、まず、上記表２の変換ルールに基づいて、発話文の表記の動的展開を行って、検索表記の候補を生成する（ステップＳ１１１）。ステップＳ１１１で発話文の表記の動的展開を行うと、続いて発話解析部１５０は、対象言語等のパラメータにより、探索するデータベースを選択する（ステップＳ１１２）。

　ステップＳ１１２で探索するデータベースを選択すると、続いて発話解析部１５０は、意味属性条件、すなわち、人、地名、音楽等のドメインやジャンルを判定するための条件を取得する（ステップＳ１１３）。ステップＳ１１３で、ドメインやジャンルを判定するための条件を取得すると、続いて発話解析部１５０は、各データベースから主ノードの取得とスコアの設定を行う（ステップＳ１１４）。図１０は、主ノードの取得について説明する説明図である。発話解析部１５０は、対象言語、表記リスト、探索データベースリスト、意味属性条件から、抽出ノードを見つける。発話解析部１５０は、抽出ノードを見つけると、その抽出ノードから同値関係子（ｐｒｅｄｉｃａｔｅ）を辿り、主ノードを見つける。そして発話解析部１５０は、発見した主ノードのスコア値を取得する。

　ステップＳ１１４で主ノードの取得とスコアの設定を行うと、続いて発話解析部１５０は、主ノードに関連するノードの一覧を取得する（ステップＳ１１５）。図１１は、主ノードに関連するノードの一覧の取得について説明する説明図である。発話解析部１５０は、各データベースの主ノードから同値関係子を辿り、関連ノードを抽出する。関連ノードは略称表記や読み仮名表記となる。

　ステップＳ１１５で主ノードに関連するノードの一覧を取得すると、続いて発話解析部１５０は、各データベースの主ノード同士をマッピングする（ステップＳ１１６）。図１２は、主ノード同士のマッピングを説明する説明図である。発話解析部１５０は、取得した主ノード同士のリンク情報を関連ノードから算出して、主ノード同士のリンクを生成し、データベース間を結ぶ。

　ステップＳ１１６で各データベースの主ノード同士をマッピングすると、続いて発話解析部１５０は、統合グラフ構造とエンティティとを生成する（ステップＳ１１７）。各データベースにはヒエラルキーが設定してあるものとする。発話解析部１５０は、ヒエラルキー順に各データベースをリンクして統合グラフ構造を作成する。そして発話解析部１５０は、ヒエラルキーが一番高いデータベースの主ノードをエンティティとする。図１３は、エンティティの生成について説明する説明図である。

　ステップＳ１１７で統合グラフ構造とエンティティとを生成すると、続いて発話解析部１５０は、エンティティのスコア設定と降順ソートとを行う（ステップＳ１１８）。発話解析部１５０は、各データベースの主ノードのスコアで一番高いものをエンティティのスコアとし、エンティティをスコアで降順ソートする。図１４は、エンティティのスコアでの降順ソートについて説明する説明図である。

　発話解析部１５０は、図９に示した一連の動作を実行することで、発話文の内容に基づいて知識ベースシステム部１６０を探索し、発話文の意図を理解することが出来る。

　図９に示した発話解析部１５０の一連の動作の具体例について説明する。例えば、ユーザが「あっちゃんの年齢はいくつ？」と発話し、発話解析部１５０による解析結果に基づいて「２３歳です」という応答を返す場合の、発話解析部１５０の動作例を説明する。

　まず発話解析部１５０は、発話文の表記の動的展開によって様々な検索語を生成する、発話解析部１５０は、音声認識結果の表記が「アッチャン」で、知識ベースシステム部１６０における表記が「あっちゃん」であれば、「アッチャン」だけでなく「あっちゃん」についても検索語として生成する。また発話解析部１５０は、音声認識結果の表記に記号が含まれていれば、その記号も削除して検索語を生成する。

　続いて発話解析部１５０は、対象言語等のパラメータにより、探索するデータベースを選択する。発話解析部１５０は、この例では日本語が対象であるとして、日本語で情報が格納されたデータベースを選択する。

　続いて発話解析部１５０は、意味属性条件を取得する。例えばコンテンツ内に映っている人物が歌手であれば、発話解析部１５０は、意味属性を「人物：歌手：」とする。

　続いて発話解析部１５０は、選択した探索対象のデータベースから、主ノードを取得すると共にスコアを設定する。各データベースは、ｓｕｂｊｅｃｔ　ｐｒｅｄｉｃａｔｅ　ｏｂｊｅｃｔのトリプルデータを保持する。
　ＡＡ　ａｌｉａｓ　あっちゃん
　ＡＢ　ａｌｉａｓ　あっちゃん
　ＡＡ　ａｔｔｒｉｂｕｔｅ　人物：歌手
　ＡＢ　ａｔｔｒｉｂｕｔｅ　人物：芸人
　ＡＡ　年齢　２３歳
　ＡＢ　年齢　３２歳
　なお、「ＡＡ」「ＡＢ」はそれぞれ人物名を意味すると共に主ノードに相当する。また「あっちゃん」は抽出ノードに相当する。発話解析部１５０は、「あっちゃん」の抽出ノードを最初に見つけてａｌｉａｓを辿り、主ノードである「ＡＡ」「ＡＢ」にたどり着くことが出来る。なお、この例では候補が「ＡＡ」「ＡＢ」の２つ存在するので、一意に主ノードを決定することが出来ない。

　続いて発話解析部１５０は、主ノードに関連するノードの一覧を取得する。発話解析部１５０は、主ノード「ＡＡ」に関連する情報として、年齢は２３歳、意味属性（ａｔｔｒｉｂｕｔｅ）は「人物：歌手」という情報を取得する。同様に発話解析部１５０は、主ノード「ＡＢ」に関連する情報として、年齢は３２歳、意味属性（ａｔｔｒｉｂｕｔｅ）は「人物：芸人」という情報を取得する。

　続いて発話解析部１５０は、統合グラフ構造とエンティティを生成する。例えば、探索対象のデータベースが複数存在し、データベースごとに主ノード「ＡＡ」のデータが存在していれば、発話解析部１５０は、同じ主ノードをまとめて一つにして、主ノードに関連するノードをマージする。

　続いて発話解析部１５０は、エンティティのスコア設定と降順ソートを行う。この例では、エンティティとして「ＡＡ」、「ＡＢ」が生成される。従って発話解析部１５０は、エンティティの優先順位を決めるためにスコアを設定する。発話解析部１５０は、データベース内にアクセスするノードの頻度や、ＷＥＢ情報（例えば、百科事典サイトの閲覧回数やＳＮＳのキーワード頻度）からスコアを算出し、高い順にソートする。この例では、コンテンツ内の状態から、「人物：歌手」とあるため、発話解析部１５０は、「ＡＡ」をエンティティの候補とすることができる。なお、コンテンツ内の状態からは特定できない場合は、発話解析部１５０は、スコア順にソートして、一番スコアが高い物をエンティティの候補としてもよい。

　発話解析部１５０は、このように動作することでエンティティを決定することができる。そしてエンティティが「ＡＡ」と決定できれば、発話解析部１５０は、そのエンティティから年齢の情報を辿ることで、「２３歳です」という応答を生成することが出来る。

　図８のステップＳ１０６で、発話文の意図理解を行うと、続いて制御装置１００は、応答のベースとなるパラメータである応答ベースパラメータを生成する（ステップＳ１０７）。ステップＳ１０７の応答ベースパラメータの生成処理は、応答生成部１７０が行う。

　応答生成部１７０は、発話解析部１５０が知識ベースシステム部１６０を探索することによって得られたパラメータに基づき、ベースとなる応答文、応答表示、応答音声を生成する。

　図８のステップＳ１０７で、応答のベースとなるパラメータである応答ベースパラメータを生成すると、続いて制御装置１００は、応答の出力タイミングの制御を行う（ステップＳ１０８）。ステップＳ１０８の応答の出力タイミングの制御は、出力制御部１８０が行う。

　本実施形態では、制御装置１００は、コンテンツの状況や、質問を発話したユーザの状況に応じて、応答のタイミングを制御する。制御装置１００は、応答の出力タイミングのモードとして、リアルタイムモードとブックマークモードの２つのモードを有する。

　リアルタイムモードは、ユーザがコンテンツを視聴している最中に、即座に応答を返すモードである。リアルタイムモードでは、ユーザは即座に情報を取得することが可能である。リアルタイムモードでは、ユーザがコンテンツを視聴しているデバイスに応答を重畳する（オーバーレイする）形態を基本とする。制御装置１００は、ユーザが注視しているデバイスを変えずに応答を出力することで、ユーザが集中している作業（すなわち、コンテンツの視聴）を止めさせずに、ユーザが発した質問に対する応答を提示することが可能である。

　制御装置１００は、リアルタイムモードで応答を出力する場合はコンテンツを表示している画面に結果を出すことになり、その応答の表示位置は、コンテンツを出力しているデバイスと、発話を識別したユーザとの位置関係を考慮して決定する。例えば、コンテンツを表示しているデバイスの左右に人がいて、左側のユーザが発話したと検出していれば、制御装置１００は、画面の左側に応答を表示する。

　リアルタイムモードでの応答の出力時に応答を強調させたい場合は、制御装置１００は、例えば出力中のコンテンツの明るさを暗くし、シェーダー等によってコンテンツをぼかして、応答をポップアップ表示させる等で強調させてもよい。また制御装置１００は、出力中のコンテンツを自動的に一時停止させて、コンテンツに応答を重畳させてもよい。応答結果を強調させたくない場合には、制御装置１００は、画面の端にポップアップさせるなどして、ユーザのコンテンツの視聴を妨げないようにしてもよい。

　リアルタイムモードでの応答の出力時に、応答を、音声のみ出力可能なデバイスに出力する可能性もある。音声のみ出力可能なデバイスに応答を出力する場合、制御装置１００は、応答結果をユーザに聞き取りやすくさせるため、出力中のコンテンツの音量を小さくして背景音として、その背景音に重畳して応答を音声で出力するようにしてもよい。

　一方のブックマークモードは、ユーザのコンテンツの視聴をなるべく妨げないために、応答をバッファに保存しておき、ユーザの状況やコンテンツの状況に応じて、出力タイミングを適切に変えるモードである。ブックマークモードは、上述したように、応答を即座に出力するのではなく、所定の条件を満たした時点で応答を出力するモードのことである。

　ブックマークモードで応答を出力する場合、制御装置１００は、質問を発話したユーザのデバイスに応答を送る。ユーザが使用するデバイスの種類により、応答の情報量を制御することが可能である。ユーザが使用するデバイスと、応答の情報量との関係については後に詳述する。

　制御装置１００は、応答を即座にユーザのデバイスへ送ることが可能であり、応答を即座にユーザのデバイスへ送る際、その送信先のデバイスは、事前に登録しているデバイスであってもよく、ユーザの使用履歴から判断されるユーザが頻繁に使用するデバイスであってもよい。応答を即座にユーザのデバイスへ送るケースとしては、例えば、ユーザがコンテンツを視聴しながら、コンテンツを出力しているデバイスでは無い別のセカンドデバイス（タブレットやＰＣ）を操作しているケースが想定される。ユーザはコンテンツを視聴しつつ、セカンドデバイスに表示されて、ユーザは好きなタイミングで質問の応答が表示されたセカンドデバイスを見ることで、質問の応答を確認することが出来る。

　なお、制御装置１００は、応答をユーザのデバイスへ即座に送信しなくても、ユーザがセカンドデバイスを見た時点で顔認識を行って、その顔認識の結果に基づいてセカンドデバイスへ応答を表示させても良い。

　また制御装置１００は、ユーザが手にしたデバイスに応答を送信しても良い。ユーザが手にしたデバイスに応答を送信する際、制御装置１００は、応答をバッファに保持したまま、ユーザがデバイスを持ったタイミングや、ユーザがデバイスを操作したタイミングを検知し、バッファからデバイスへ情報を送信する。また、ユーザが手にしたデバイスに応答を送信する際、制御装置１００は、コンテンツが終了したタイミングを検出し、そのタイミングで応答を送信しても良い。

　コンテンツを視聴しているユーザが複数人いた場合、制御装置１００は、その全てのユーザに向けて応答を返してもよい。また、制御装置１００は、コンテンツを表示しているデバイスの前にユーザが複数いなくても、指定したユーザのデバイスに応答を送信しても良い。すなわち制御装置１００は、応答を返す先のユーザ（視聴中のユーザではない別のユーザ）がコンテンツを出力しているデバイスの前にいなくても、発話内で解釈したユーザや、予め設定しているユーザに応答を返すことができる。例えば、ユーザが「お父さんに応答を返して」と発話すると、制御装置１００は、応答を返す先を、お父さんが使用しているデバイスに決定することが出来る。

　制御装置１００は、ユーザがコンテンツに集中していると考えられる場合、即座に応答は返さず、コンテンツの状況に応じて応答を出力しても良い。制御装置１００は、コンテンツの状況の例として、例えばコンテンツが所定のタイミングになったときに（例えばＣＭに移ったタイミングや番組が終了した後、音楽であれば再生が終了した後）そのユーザが使用するデバイスへ応答を返しても良い。コンテンツが所定のタイミングになったときに応答を返す際、制御装置１００は、ユーザがコンテンツを視聴中のデバイスへ応答をオーバーレイさせてもよく、ユーザが使用している、コンテンツを視聴しているデバイスとは別のデバイスへ応答を送ってもよい。

　制御装置１００は、コンテンツの状況に応じた応答の出力タイミングの設定に基づいて応答を送信してもよい。応答の出力タイミングの設定には、予め登録されたデフォルト設定と、ユーザによって登録されたユーザ設定と、があってもよい。表３は、デフォルト設定の一例を示したものであり、予め決められたコンテンツのジャンルごとに出力タイミングが設定されている。ユーザ設定は、ユーザがコンテンツのジャンルごとに出力タイミングを登録できる設定である。

　図８のステップＳ１０８で、応答の出力タイミングの制御を行うと、続いて制御装置１００は、個人化による興味レベル判定を行う（ステップＳ１０９）。ステップＳ１０９の個人化による興味レベル判定は、出力制御部１８０が知識ベースシステム部１６０に問い合わせることで行う。

　ここで制御装置１００による，個人化による興味レベル判定処理について詳細に説明する。制御装置１００は、応答の内容をユーザごとにカスタマイズして出力してもよい。制御装置１００は、応答の内容をユーザごとにカスタマイズする際には、知識ベースシステム部１６０に格納されているユーザの個人情報（ユーザプロファイル）を参照する。表４は、知識ベースシステム部１６０に格納されているユーザプロファイルの例である。

　制御装置１００は、応答の内容をユーザごとにカスタマイズする際に、ユーザの興味レベルを判定する。本実施形態では、ユーザの興味レベルを３段階に分ける。高レベルは個人興味、中レベルは特徴抽出・共起関係、低レベルは該当しない、とする。制御装置１００は、ユーザの興味レベルの判定を行うために、興味グラフ構造を辿る。興味グラフ構造は、知識ベースシステム部１６０が保持するユーザプロファイル（表４）の他に、表５で示す特徴類似プロファイル、表６で示す関連ユーザプロファイルから生成される。

　図１５は、知識ベースシステム部１６０が保持するユーザプロファイル、特徴類似プロファイル、関連ユーザプロファイルから生成することができる興味グラフ構造の例を示す説明図である。図１５に示した興味グラフ構造から、個人興味は「ＡＡ」、特徴抽出は「ＢＢ」、共起関係は「ＥＥ」と決めることができる。そして制御装置１００は、応答の内容と合致するものから、興味レベルを判定することができる。

　制御装置１００は、判定したユーザの興味レベルに応じて、応答の内容のサマリーの量を変えてもよい。制御装置１００は、例えばアイコンの色や形、数を変えたり、音で表す場合には音の種類や高さを変えたりすることで興味レベルの高低をユーザに提示できる。表７は、興味レベルに応じた出力表示の例を示す説明図である。

　制御装置１００は、ユーザからの「この人は誰？」のような発話に対して、コンテンツ内で候補が複数あり、かつユーザが対象を指定しない場合は、優先度を付けて判定してもよい。制御装置１００は、例えば表８に示したようなトランザクションルールに基づいて興味グラフを辿ることで、表９に示すような抽出優先度リストを生成することが出来る。

　例えば、ユーザが視聴しているコンテンツがＸＸＸドラマの場合には、制御装置１００は、「ＥＥ」、「ＧＧ」、「ＵＵ」の順に優先度を決定でき、コンテンツ内の候補とマッチングして、それぞれの候補に優先度を付けることができる。

　制御装置１００は、３つ組（トリプル）のｐｒｅｄｉｃａｔｅに優先順位を保持してあり、ｐｒｅｄｉｃａｔｅのヒエラルキー順にエンティティ（ｓｕｂｊｅｃｔ）を特定してもよい。例えば、ユーザが視聴しているコンテンツがテレビドラマなら、主演、監督、演出、助演の順にｐｒｅｄｉｃａｔｅが決められていても良い。また制御装置１００は、ＳＮＳやＥＰＧ等のＷＥＢ情報を取得し、エンティティの頻度が高いものほど注目されているとし、その頻度順でエンティティを特定してもよい。

　図８のステップＳ１０９で、個人化による興味レベル判定を行うと、続いて制御装置１００は、応答を出力するデバイスに応じた出力の最適化を行う（ステップＳ１１０）。ステップＳ１１０の出力の最適化は出力制御部１８０が行う。

　ユーザが保持するデバイスにおけるディスプレイの有無や、ディスプレイの領域の大きさに応じて、応答の方法が記載されたデバイスプロファイルが知識ベースシステム部１６０に保持される。デバイス管理部１９０は、知識ベースシステム部１６０からデバイスプロファイルを取得する。そして出力制御部１８０は、デバイス管理部１９０が知識ベースシステム部１６０から取得したデバイスプロファイルに基づいた出力の最適化を行う。表１０は、デバイスプロファイルの例を示す表である。出力制御部１８０は、表１０に示したようなデバイスプロファイルに基づいて、出力先のデバイスの特徴に応じた応答の出力の最適化を行うことが出来る。

　以上、図８を用いて本開示の一実施形態に係る制御装置１００の動作例について説明した。本開示の一実施形態に係る制御装置１００は、図８に示した一連の動作を実行することで、ユーザからの発話に対して応答を生成し、その生成した応答を最適な形態で出力することが出来る。

　［１．４．ユースケース例］
　続いて、本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す。

　（１）誰が発話したかをユーザにフィードバックする
　図１６は、本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。図１６に示したユースケース例は、発話したユーザの顔を入力部１０１として設けられているカメラで撮像し、出力部１０２として設けられるディスプレイが出力しているコンテンツに重畳させる例である。図１６に示したユースケースは、ディスプレイが出力しているコンテンツを見ながらユーザＡが「ここどこ？」と発話したケースである。このケースでは、制御装置１００は、ユーザＡの場所を検出して、カメラでユーザＡを撮像して、そのユーザＡの顔を、ディスプレイが出力しているコンテンツに重畳させている。

　また図１６に示したユースケースでは、発話したユーザの側に顔の画像を重畳させても良い。すなわち、ディスプレイに向かって左側にいるユーザＡが「ここどこ？」と発話すると、制御装置１００は、そのユーザＡの顔画像をディスプレイの左側の領域に表示させてもよい。

　図１７は、本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。図１７に示したユースケース例は、発話したユーザに対応する表示を、出力部１０２が出力しているコンテンツに重畳させる例である。図１７に示したユースケースは、出力部１０２が出力しているコンテンツを見ながらユーザＡが「ここどこ？」と発話したケースである。このケースでは、制御装置１００は、発話したユーザＡを検出して、そのユーザＡに対応するアイコンを、出力部１０２が出力しているコンテンツに重畳させている。制御装置１００は、アイコンの他に、ユーザＡに対応する色、形、アバターなどを、出力部１０２が出力しているコンテンツに重畳させてもよい。

　また図１７に示したユースケースでは、発話したユーザの側にアイコンやアバター等を重畳させても良い。すなわち、ディスプレイに向かって左側にいるユーザＡが「ここどこ？」と発話すると、制御装置１００は、そのユーザＡに対応するアイコンをディスプレイの左側の領域に表示させてもよい。

　図１８は、本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。図１８に示したユースケース例は、発話したユーザに対して音声で応答を返す例である。図１８に示したユースケースは、出力部１０２が出力しているコンテンツを見ながらユーザＡが「ここどこ？」と発話したケースである。このケースでは、制御装置１００は、発話したユーザＡを検出して、「ユーザＡさん、ＸＸＸです」と音声で応答させている。

　（２）話者を特定して、コンテンツに情報を重畳する
　図１９は、本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。図１９に示したユースケース例は、発話した話者を特定して、その発話に対する応答をコンテンツに重畳させる例である。

　制御装置１００は、発話に対する応答を、常に決まったデフォルト位置に表示してもよく、話者の位置に応じて、動的に表示位置を変えて表示してもよい。また制御装置１００は、コンテンツの内容を解析して、コンテンツの妨げにならない位置に発話に対する応答を表示してもよい。また制御装置１００は、発話に対する応答を音声で出力する場合は、出力中のコンテンツの音量を下げてもよい。また制御装置１００は、発話に対する応答を出力する際に、発話を検出した時点でコンテンツを一時停止させてもよい。

　制御装置１００は、ユーザが視聴中のコンテンツに情報を重畳する場合のトリガとして、発話直後であってもよく、ＣＭ中であってもよく、番組や音楽が終わった後であってもよい。

　（３）話者を特定して、話者の別のデバイスに情報を送る
　図２０は、本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。図２０に示したユースケース例は、発話した話者を特定して、その発話に対する応答を、その話者が持つ別のデバイスに送る例である。

　制御装置１００は、話者を特定して、話者の別のデバイスに情報を送る場合、予め定められたデバイスに送ってもよく、話者が手にしたデバイスへ送ってもよく、話者が動的に指定したデバイスに送ってもよい。制御装置１００は、話者の別のデバイスに情報を送る場合、当該デバイスに応答を送信した旨を、さらに別のデバイス（例えばユーザがコンテンツを視聴しているデバイス）に通知しても良い。

　（４）話者がコンテンツ内の複数の候補に対して指定する
　図２１は、本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。図２１に示したユースケース例は、話者がコンテンツ内の複数の候補に対して指定する例であり、発話と同時に話者が候補を指定する場合の例である。

　話者が「この左の人、誰？」などのように発話文の中で明示的に指定したり、ジェスチャや画面への接触などで候補を指定したりすると、制御装置１００は、その話者が指定した候補について応答を生成し、生成した応答を出力することが出来る。

　図２２は、本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。図２２に示したユースケース例は、話者がコンテンツ内の複数の候補に対して指定する例であり、発話後に話者が候補を指定する場合の例である。

　コンテンツに複数の人物が含まれているような場合に、話者が「この人、誰？」と発話し、その他にジェスチャなどで候補を明示的に指定しなかったときは、制御装置１００は、例えば図２２に示したように、話者がどの人物について発話しているのかを逆に質問する。そして話者が、「Ａです」「左です」など発話して指定したり、画面を触って直接指定したり、指や視線の動きなどのジェスチャで間接的に指定したりすると、制御装置１００は、その指定に基づいて応答を生成し、生成した応答を出力することが出来る。

　図２３は、本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。図２３に示したユースケース例は、話者がコンテンツ内の複数の候補に対して指定する例であり、話者が発話した時点のコンテンツのスクリーンショットを制御装置１００で保存しておき、後で話者に候補を指定させる場合の例である。

　コンテンツに複数の人物が含まれているような場合に、話者が「この人、誰？」と発話し、その他にジェスチャなどで候補を明示的に指定しなかったときは、制御装置１００は、例えば図２３に示したように、話者が発話した時点のコンテンツのスクリーンショットを保持しておき、後で話者のデバイスにそのスクリーンショットを提示して、どの人物のことを指しているのか指定させてもよい。また、話者が持っているデバイスにディスプレイが無い場合は、制御装置１００は、「画面付のデバイスを見てください」等の音声を出力して、ディスプレイのあるデバイスを使用するように促してもよい。

　（５）コンテンツ内に複数の候補があり、制御装置で判断するケース
　図２４は、本開示の一実施形態に係る制御装置１００を用いたユースケース例を示す説明図である。図２４に示したユースケース例は、ユーザが発話した時点でコンテンツ内に候補が複数存在し、制御装置１００が優先度を判断して応答を出力する例である。

　コンテンツに複数の人物が含まれているような場合に、話者が「この人、誰？」と発話し、その他にジェスチャなどで候補を明示的に指定しなかったときは、制御装置１００は、例えば図２４に示したように、考えられる候補について優先度を付けて応答を出力してもよい。図２４に示した例では、コンテンツに２人の人物が登場しており、話者が候補を明示的に指定しなかった場合に、制御装置１００が、その２人の人物の情報を応答として出力している。

　制御装置１００が、コンテンツに登場している２人の人物の情報を応答として出力した後に、ユーザが発話して指定したり、画面を触って直接指定したり、指や視線の動きなどのジェスチャで間接的に指定したりすると、制御装置１００は、その指定に基づいて再度応答を生成し、生成した応答を出力することが出来る。

　（６）コンテンツを視聴しているユーザが複数いる場合
　コンテンツを視聴しているユーザが複数いる場合、制御装置１００は、話者を特定し、その話者に向けて応答を出力してもよく、話者を特定せず、コンテンツを視聴しているユーザ全員に向けて応答を出力してもよい。話者を特定しない場合には、制御装置１００が話者を特定しないモードに設定されている場合や、制御装置１００が話者を特定できなかった場合が含まれうる。

　またコンテンツを視聴しているユーザが複数いる場合、制御装置１００は、話者を特定し、発話内容に応じて送り先を変えてもよい。例えば、あるユーザＡの発話内容に「ユーザＢに送る」と言ったような送り先が含まれる場合に、制御装置１００は、応答の送り先をユーザＡからユーザＢに変えてもよい。

　（７）応答の情報量
　制御装置１００は、応答を出力する際に、常に同じ情報量で出力してもよく、発話したユーザの興味に基づいて情報量を変化させてもよい。発話したユーザの興味に基づいて情報量を変化させる場合、制御装置１００は、情報量がどの程度か分かるように色や記号等で表示したり、音の種類や高さを変えたりしてもよい。

　（８）補足情報の出力
　制御装置１００は、応答を出力する際に、補足情報を付加して出力してもよい。補足情報には、薀蓄や、ユーザに関連する情報などが含まれうる。例えば、ある芸能人がユーザの母親と同じ年齢であることがユーザプロファイルから解れば、制御装置１００は、「この人はあなたの母と同じ年齢です」などの情報を補足情報として出力してもよい。

　＜２．ハードウェア構成例＞
　次に、図２５を参照して、本開示の一実施形態にかかる制御装置１００のハードウェア構成について説明する。図２５は、本開示の実施形態にかかる制御装置１００のハードウェア構成例を示すブロック図である。上記の各アルゴリズムは、例えば、図２５に示す情報処理装置のハードウェア構成を用いて実行することが可能である。つまり、当該各アルゴリズムの処理は、コンピュータプログラムを用いて図２５に示すハードウェアを制御することにより実現される。

　なお、この図２５に示したハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、ＰＨＳ、ＰＤＡ等の携帯情報端末、ゲーム機、接触式又は非接触式のＩＣチップ、接触式又は非接触式のＩＣカード、スピーカ、テレビ、モニタ、ウェアラブル機器、又は種々の情報家電がこれに含まれる。但し、上記のＰＨＳは、Ｐｅｒｓｏｎａｌ　Ｈａｎｄｙ－ｐｈｏｎｅ　Ｓｙｓｔｅｍの略である。また、上記のＰＤＡは、Ｐｅｒｓｏｎａｌ　Ｄｉｇｉｔａｌ　Ａｓｓｉｓｔａｎｔの略である。

　図２５に示すように、このハードウェアは、主に、ＣＰＵ９０２と、ＲＯＭ９０４と、ＲＡＭ９０６と、ホストバス９０８と、ブリッジ９１０と、を有する。さらに、このハードウェアは、外部バス９１２と、インターフェース９１４と、入力部９１６と、出力部９１８と、記憶部９２０と、ドライブ９２２と、接続ポート９２４と、通信部９２６と、を有する。但し、上記のＣＰＵは、Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔの略である。また、上記のＲＯＭは、Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙの略である。そして、上記のＲＡＭは、Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙの略である。

　ＣＰＵ９０２は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ９０４、ＲＡＭ９０６、記憶部９２０、又はリムーバブル記録媒体９２８に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ＲＯＭ９０４は、ＣＰＵ９０２に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ９０６には、例えば、ＣＰＵ９０２に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス９０８を介して相互に接続される。一方、ホストバス９０８は、例えば、ブリッジ９１０を介して比較的データ伝送速度が低速な外部バス９１２に接続される。また、入力部９１６としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部９１６としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。

　出力部９１８としては、例えば、ＣＲＴ、ＬＣＤ、ＰＤＰ、又はＥＬＤ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のＣＲＴは、Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅの略である。また、上記のＬＣＤは、Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙの略である。そして、上記のＰＤＰは、Ｐｌａｓｍａ　ＤｉｓｐｌａｙＰａｎｅｌの略である。さらに、上記のＥＬＤは、Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ　Ｄｉｓｐｌａｙの略である。

　記憶部９２０は、各種のデータを格納するための装置である。記憶部９２０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のＨＤＤは、Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅの略である。

　ドライブ９２２は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９２８に記録された情報を読み出し、又はリムーバブル記録媒体９２８に情報を書き込む装置である。リムーバブル記録媒体９２８は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙメディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９２８は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。但し、上記のＩＣは、Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔの略である。

　接続ポート９２４は、例えば、ＵＳＢポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９３０を接続するためのポートである。外部接続機器９３０は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。但し、上記のＵＳＢは、Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓの略である。また、上記のＳＣＳＩは、Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅの略である。

　通信部９２６は、ネットワーク９３２に接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ用の通信カード、光通信用のルータ、ＡＤＳＬ用のルータ、又は接触又は非接触通信用のデバイス等である。また、通信部９２６に接続されるネットワーク９３２は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のＬＡＮは、Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋの略である。また、上記のＷＵＳＢは、Ｗｉｒｅｌｅｓｓ　ＵＳＢの略である。そして、上記のＡＤＳＬは、Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅの略である。

　＜３．まとめ＞
　以上説明したように本開示の一実施形態によれば、コンテンツを視聴しているユーザからの発話を検出し、その発話の内容を解析して、発話に対する応答を適切な形態でユーザに向けて出力することが可能な制御装置１００が提供される。

　本明細書の各装置が実行する処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、各装置が実行する処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

　また、各装置に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上述した各装置の構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供されることが可能である。また、機能ブロック図で示したそれぞれの機能ブロックをハードウェアまたはハードウェア回路で構成することで、一連の処理をハードウェアまたはハードウェア回路で実現することもできる。

　また上述の説明で用いた機能ブロック図で示したそれぞれの機能ブロックの一部又は全部は、たとえばインターネット等のネットワークを介して接続されるサーバ装置で実現されてもよい。また上述の説明で用いた機能ブロック図で示したそれぞれの機能ブロックの構成は、単独の装置で実現されてもよく、複数の装置が連携するシステムで実現されても良い。複数の装置が連携するシステムには、例えば複数のサーバ装置の組み合わせ、サーバ装置と端末装置との組み合わせ等が含まれ得る。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　少なくとも１人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容及び応答、前記応答を出力する対象及び前記応答を出力するタイミングを出力する対象を決定する制御を行う制御部を備える、制御装置。
（２）
　前記制御部は、前記応答を出力するタイミングとして、前記ユーザからの問い合わせに応じて前記応答を出力するか、前記ユーザからの問い合わせがあっても所定の条件を満たすまで前記応答の出力を待機するか前記（１）に記載の制御装置。
（３）
　前記制御部は、前記ユーザからの問い合わせがあっても前記コンテンツの状況が所定の条件を満たすまで前記応答の出力を待機する、前記（２）に記載の制御装置。
（４）
　前記制御部は、前記ユーザに応答する際に前記コンテンツのジャンルに応じて応答を出力するタイミングを決定する、前記（２）に記載の制御装置。
（５）
　前記制御部は、前記ユーザからの問い合わせがあっても所定の条件を満たすまで前記応答の出力を待機する際に前記コンテンツを出力する装置とは別の装置へ応答を出力する、前記（２）に記載の制御装置。
（６）
　前記制御部は、前記ユーザからの問い合わせがあっても所定の条件を満たすまで前記応答の出力を待機する際に前記コンテンツを出力する装置とは別の装置へ応答が存在する旨を出力する、前記（５）に記載の制御装置。
（７）
　前記所定の条件は、前記コンテンツが所定のタイミングとなったことである、前記（２）～（６）のいずれかに記載の制御装置。
（８）
　前記所定のタイミングは、前記コンテンツが終了したタイミングである、前記（７）に記載の制御装置。
（９）
　前記所定のタイミングは、前記コンテンツがコマーシャルになったタイミングである、前記（７）に記載の制御装置。
（１０）
　前記所定の条件は、所定の時間になったことである、前記（２）～（６）のいずれかに記載の制御装置。
（１１）
　前記制御部は、問い合わせを行った前記ユーザの興味レベルに応じて前記応答の内容を決定する、前記（１）～（１１）のいずれかに記載の制御装置。
（１２）
　前記制御部は、問い合わせを行った前記ユーザの興味レベルを、該ユーザの個人のプロファイルに基づいて決定する、前記（１１）に記載の制御装置。
（１３）
　前記制御部は、前記ユーザの興味レベルに相当する表示を前記応答に併せて出力する、前記（１１）に記載の制御装置。
（１４）
　前記制御部は、前記ユーザが手に持った装置に対して前記応答を出力する、前記（１）～（１３）のいずれかに記載の制御装置。
（１５）
　前記制御部は、前記コンテンツの出力が終了した時点で前記ユーザが手に持った装置に対して前記応答を出力する、前記（１４）に記載の制御装置。
（１６）
　前記制御部は、前記コンテンツを視聴するユーザを複数人検出した場合、前記問い合わせを行ったユーザを検出し、検出したユーザに向けて前記応答を出力する、前記（１）～（１５）のいずれかに記載の制御装置。
（１７）
　前記制御部は、前記問い合わせが行われた方向を検出することで該問い合わせを行ったユーザを検出し、検出したユーザに向けて前記応答を出力する、前記（１６）に記載の制御装置。
（１８）
　前記制御部は、前記コンテンツを視聴するユーザを複数人検出した場合、全てのユーザに向けて前記応答を出力する、前記（１）～（１７）のいずれかに記載の制御装置。
（１９）
　コンピュータが、少なくとも１人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行うことを含む、制御方法。
（２０）
　コンピュータに、少なくとも１人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行うことを実行させる、コンピュータプログラム。

１００　　：制御装置
１０１　　：入力部
１０２　　：出力部
１０３　　：通信部
１０４　　：制御部
１１０　　：発話検出部
１１１　　：信号処理部
１１２　　：発話受付処理部
１１３　　：音声認識部
１２０　　：ジェスチャ検出部
１３０　　：コンテンツ解析部
１４０　　：話者認識部
１４１　　：ビームフォーミング処理部
１４２　　：話者識別処理部
１５０　　：発話解析部
１５１　　：言語解析部
１５２　　：意味解析部
１６０　　：知識ベースシステム部
１６１　　：知識データベース
１６２　　：ＷＥＢ情報保持部
１７０　　：応答生成部
１８０　　：出力制御部
１８１　　：トリガ判定部
１８２　　：個人化出力部
１９０　　：デバイス管理部
１９１　　：センサ情報取得部
１９２　　：出力デバイス選択部

Claims

　少なくとも１人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行う制御部を備える、制御装置。
　前記制御部は、前記応答を出力するタイミングとして、前記ユーザからの問い合わせに応じて前記応答を出力するか、前記ユーザからの問い合わせがあっても所定の条件を満たすまで前記応答の出力を待機するかを決定する、請求項１に記載の制御装置。
　前記制御部は、前記ユーザからの問い合わせがあっても前記コンテンツの状況が所定の条件を満たすまで前記応答の出力を待機する、請求項２に記載の制御装置。
　前記制御部は、前記ユーザに応答する際に前記コンテンツのジャンルに応じて応答を出力するタイミングを決定する、請求項２に記載の制御装置。
　前記制御部は、前記ユーザからの問い合わせがあっても所定の条件を満たすまで前記応答の出力を待機する際に前記コンテンツを出力する装置とは別の装置へ応答を出力する、請求項２に記載の制御装置。
　前記制御部は、前記ユーザからの問い合わせがあっても所定の条件を満たすまで前記応答の出力を待機する際に前記コンテンツを出力する装置とは別の装置へ応答が存在する旨を出力する、請求項５に記載の制御装置。
　前記所定の条件は、前記コンテンツが所定のタイミングとなったことである、請求項２に記載の制御装置。
　前記所定のタイミングは、前記コンテンツが終了したタイミングである、請求項７に記載の制御装置。
　前記所定のタイミングは、前記コンテンツがコマーシャルになったタイミングである、請求項７に記載の制御装置。
　前記所定の条件は、所定の時間になったことである、請求項２に記載の制御装置。
　前記制御部は、問い合わせを行った前記ユーザの興味レベルに応じて前記応答の内容を決定する、請求項１に記載の制御装置。
　前記制御部は、問い合わせを行った前記ユーザの興味レベルを、該ユーザの個人のプロファイルに基づいて決定する、請求項１１に記載の制御装置。
　前記制御部は、前記ユーザの興味レベルに相当する表示を前記応答に併せて出力する、請求項１１に記載の制御装置。
　前記制御部は、前記ユーザが手に持った装置に対して前記応答を出力する、請求項１に記載の制御装置。
　前記制御部は、前記コンテンツの出力が終了した時点で前記ユーザが手に持った装置に対して前記応答を出力する、請求項１４に記載の制御装置。
　前記制御部は、前記コンテンツを視聴するユーザを複数人検出した場合、前記問い合わせを行ったユーザを検出し、検出したユーザに向けて前記応答を出力する、請求項１に記載の制御装置。
　前記制御部は、前記問い合わせが行われた方向を検出することで該問い合わせを行ったユーザを検出し、検出したユーザに向けて前記応答を出力する、請求項１２に記載の制御装置。
　前記制御部は、前記コンテンツを視聴するユーザを複数人検出した場合、全てのユーザに向けて前記応答を出力する、請求項１に記載の制御装置。
　コンピュータが、少なくとも１人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行うことを含む、制御方法。
　コンピュータに、少なくとも１人以上のユーザに向けて出力されているコンテンツに対する前記ユーザからの問い合わせに対して生成される応答の内容、前記応答を出力する対象及び前記応答を出力するタイミングを決定する制御を行うことを実行させる、コンピュータプログラム。