WO2021205742A1

WO2021205742A1 - 情報処理装置及び情報処理方法、並びにコンピュータプログラム

Info

Publication number: WO2021205742A1
Application number: PCT/JP2021/005122
Authority: WO
Inventors: 典子戸塚; ミヒャエルヘンチェル; 浩明小川; 康治浅野; 高橋　晃; 知香明賀; 匡伸中村; 加奈西川; 智恵山田; 眞大山本
Original assignee: ソニーグループ株式会社
Priority date: 2020-04-08
Filing date: 2021-02-10
Publication date: 2021-10-14
Also published as: US20230147985A1; JPWO2021205742A1

Abstract

制御対象装置を自動操作した理由の説明を提示する処理を行う情報処理装置を提供する。　情報処理装置は、センサー情報に対応する制御対象装置の処理を決定する決定部と、前記処理に対する理由の説明を生成する生成部と、ユーザの反応に対する推定を行う推定部を具備する。前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する。前記生成部は、前記推定結果に基づいて、前記説明の内容又は前記説明の提示方法を制御する。

Description

情報処理装置及び情報処理方法、並びにコンピュータプログラム

　本明細書で開示する技術（以下、「本開示」とする）は、制御対象装置の自動操作に関する処理を行う情報処理装置及び情報処理方法、並びにコンピュータプログラムに関する。

　最近、学習済みニューラルネットワークモデルを利用した人工知能技術が広範に普及しつつある。特に、複数のニューラルネットワークの層を備えたディープラーニングのニューラルネットワークモデル（以下、「ＤＮＮ」とも呼ぶ）は、訓練すなわちディープラーニングを通じて開発者には想像できない特徴を多くのデータから抽出して、開発者がアルゴリズムを想定し得ないような複雑な問題解決を行うことのできる人工知能機能を開発することができる（例えば、特許文献１を参照のこと）。今後、テレビを始めとする身の回りのさまざまな機器の内部処理にＤＮＮが適用されることが予想される。

特開２０１９－８２８８３号公報

　本開示の目的は、制御対象装置の自動操作に関する処理を行う情報処理装置及び情報処理方法、並びにコンピュータプログラムを提供することにある。

　本開示の第１の側面は、
　センサー情報に対応する制御対象装置の処理を決定する決定部と、
　前記処理に対する理由の説明を生成する生成部と、
　ユーザの反応に対する推定を行う推定部と、
を具備し、
　前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
情報処理装置である。

　前記生成部は、前記推定結果に基づいて、前記説明として提示する情報の粒度、説明文の表現方法、又は前記説明の出力に使用するデバイスの選択、前記説明の出力に使用するデバイス上の設定（画面を使用する場合の文字フォント、文字サイズ、音声を使用する場合の音量、声質）を制御する。

　前記生成部は、センサー情報に対応する前記制御対象装置の処理の理由の説明を推定するように学習された第１の機械学習モデルを備え、前記第１の機械学習モデルを用いて前記処理に対する説明を生成する。センサー情報に対応して前記制御対象装置が行った処理に対して提示した説明とユーザの反応に基づいて、前記第１の機械学習モデルの再学習が行われる。

　また、前記決定部は、センサー情報に対応する前記制御対象装置の処理を推定するように学習された第２の機械学習モデルを備え、前記第２の機械学習モデルを用いてセンサー情報に対応する前記制御対象装置の処理を決定する。センサー情報に対応して前記制御対象装置が行った処理とユーザの反応に基づいて、前記第２の機械学習モデルの再学習が行われる。

　また、本開示の第２の側面は、
センサー情報に対応する制御対象装置の処理を決定する決定ステップと、
　前記処理に対する理由の説明を生成する生成ステップと、
　ユーザの反応に対する推定を行う推定ステップと、
を有し、
　前記生成ステップでは、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
情報処理方法である。

　また、本開示の第３の側面は、
　センサー情報に対応する制御対象装置の処理を決定する決定部、
　前記処理に対する理由の説明を生成する生成部、
　ユーザの反応に対する推定を行う推定部、
としてコンピュータを機能させ、
　前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御するように、コンピュータ可読形式で記述されたコンピュータプログラムである。

　本開示の第３の側面に係るコンピュータプログラムは、コンピュータ上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータプログラムを定義したものである。換言すれば、本開示の第３の側面に係るコンピュータプログラムをコンピュータにインストールすることによって、コンピュータ上では協働的作用が発揮され、本開示の第１の側面に係る情報処理装置と同様の作用効果を得ることができる。

　本開示によれば、制御対象装置を自動操作した理由の説明を提示する処理を行う情報処理装置及び情報処理方法、並びにコンピュータプログラムを提供することができる。

　なお、本明細書に記載された効果は、あくまでも例示であり、本開示によりもたらされる効果はこれに限定されるものではない。また、本開示が、上記の効果以外に、さらに付加的な効果を奏する場合もある。

　本開示のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、テレビ受信装置１００の構成例を示した図である。図２は、テレビ受信装置１００に装備されるセンシング機能部３００の構成例を示した図である。図３は、テレビ受信装置１００の自動操作と最適な動作理由の説明を行うための機能的構成例を示した図である。図４は、テレビ受信装置１００の自動操作と最適な動作理由の説明を行う処理手順（前半）を示したフローチャートである。図５は、テレビ受信装置１００の自動操作と最適な動作理由の説明を行う処理手順（後半）を示したフローチャートである。図６は、ユーザ感情推定部１０３がユーザの感情を推定する処理手順を示したフローチャートである。図７は、ユーザ感情推定部１０３で使用するニューラルネットワークをユーザ毎に最適化する処理手順を示したフローチャートである。図８は、人工知能機能の判断により自動操作を行ったことを表示したテレビ画面の例を示した図である。図９は、動作履歴メモリ１１１から読み出した動作履歴のリストの構成例を示した図である。図１０は、説明生成部１０２の動作例を示した図である。図１１は、説明生成部１０２の動作例を示した図である。図１２は、説明生成部１０２の動作例を示した図である。図１３は、テレビ受信装置１００が操作の自動化及び動作理由の説明を行うための全体的な処理手順を示したフローチャートである。図１４は、動作理由の説明を提示する画面の構成例を示した図である。図１５は、再学習の学習内容を設定する画面の構成例を示した図である。図１６は、動作理由の説明を提示する画面の構成例を示した図である。図１７は、再学習の学習内容を設定する画面の構成例を示した図である。図１８は、カーナビゲーションシステムと運転手との対話例を示した図である。図１９は、カーナビゲーションシステムと運転手との対話例を示した図である。図２０は、カーナビゲーションシステムと運転手との対話例を示した図である。

　以下、図面を参照しながら本開示について、以下の順に従って説明する。
Ａ．概要
Ｂ．装置構成
Ｃ．センシング機能
Ｄ．内部処理の自動化と動作理由の説明
Ｅ．機能的構成
Ｆ．処理動作
Ｇ．動作理由の説明の実現例
Ｈ．感情推定のためのユーザの音声入力の実現例
Ｉ．動作理由の説明提示のための動作
Ｊ．動作決定を含めた学習
Ｋ．他の機器を使った説明提示
Ｌ．他の機器への応用例

Ａ．概要
　近い将来、テレビを始めとする身の回りのさまざまな機器の内部処理にＤＮＮが適用され、ＤＮＮの推論結果に基づいて機器が自動で動作することが予想される。ところが、機器が気を利かせて自動で行った動作でも、ユーザから見るとその動作を行った理由が理解できないことが懸念される。

　例えば、ＤＮＮの内部的な特徴量のうち、代表的なものを言語化及び可視化してユーザに提示する推論装置が提案されている（特許文献１を参照のこと）。この推論装置は、クラスタリング問題をニューラルネットワーク（以下、「ＮＮ」とも呼ぶ）で解く場合に、各クラスの「頻出特徴量」とＮＮ入力の「代表特徴量」に共通する「根拠特徴量」を求めて、根拠特徴量と概念を対応させることにより、推論の根拠となる特徴量を出力する。例えば画像クラスタリングＮＮが入力画像をゴミ収集車であると判断した理由の説明は「この画像は、ゴミ収集車である。なぜならば、タイヤ又は物の端っこ、四角形を組み合わせた細かい柄、細かいギザギザな模様、が含まれているからである。」となる。

　この推論装置は、ＤＮＮ動作の根拠となった特徴量を説明するものであるが、その内容がユーザにとって理解し易いかどうかを推論するようには構成されていない。また、この推論装置を内部処理にＤＮＮを適用した装置に搭載して動作理由の提示を行わせようとした場合、複数のＤＮＮを組み合わせて動作することになり、複雑な処理が行われることが予測される。したがって、動作理由の説明文が長く煩雑になる可能性がある。また、この推論装置を使って提示される説明文は、ＤＮＮの内部的な特徴量を言語化してつなぎ合わせただけである。このため、ＤＮＮの動作理由としては正しい説明であっても、それが一般的なユーザにとって理解し易い内容であるかどうかは十分に考慮されていない。

　ＤＮＮが搭載された機器における自動動作の理由を機器自身が説明するという観点では、説明文が一般的なユーザ（又は、個別のユーザ）にとって理解し易いものである必要がある。そこで、本開示では、対象とする機器の動作を自動的に決定する動作決定部に、その動作決定部が決定した動作の理由をユーザに説明する説明文を生成する説明生成部を組み合わせた装置を提案する。説明生成部は、対象とする機器のどのような動作に対してユーザが説明を求めたかや、ユーザに提示した動作理由の説明に対してユーザがどのような反応を示したかを取得することで、最適な動作理由の説明文の生成方法や説明の提示方法を学習していく。説明生成部は、ユーザ毎に最適な動作理由の説明文の生成方法や説明の提示方法を学習することもできる。したがって、対象とする機器の動作を自動的に決定する動作決定部に、このような説明生成部を組み合わせることで、ユーザに適合する形で、簡潔且つユーザにとって理解し易い機器の自動動作の理由を提示することが可能となる。

Ｂ．装置構成
　この項では、本開示が適用されるテレビ受信装置について説明する。図１には、本開示が適用されるテレビ受信装置１００の構成例を示している。テレビ受信装置１００は、主制御部２０１と、バス２０２と、ストレージ部２０３と、通信インターフェース（ＩＦ）部２０４と、拡張インターフェース（ＩＦ）部２０５と、チューナー／復調部２０６と、デマルチプレクサ（ＤＥＭＵＸ）２０７と、映像デコーダ２０８と、オーディオデコーダ２０９と、文字スーパーデコーダ２１０と、字幕デコーダ２１１と、字幕処理部２１２と、データデコーダ２１３と、キャッシュ部２１４と、アプリケーション（ＡＰ）制御部２１５と、ブラウザ部２１６と、音源部２１７と、映像処理部２１８と、表示部２１９と、オーディオ処理部２２０と、オーディオ出力部２２１と、操作入力部２２２を備えている。

　主制御部２０１は、例えばコントローラとＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）（但し、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）のような書き換え可能なＲＯＭを含むものとする）、及びＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）で構成され、所定の動作プログラムに従ってテレビ受信装置１００全体の動作を統括的に制御する。コントローラは、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、又はＭＰＵ（Ｍｉｃｒｏ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのプロセッサチップで構成される。あるいは、主制御部２０１は、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）若しくはＧＰＧＰＵ（Ｇｅｎｅｒａｌ　Ｐｕｒｐｏｓｅ　Ｇｒａｐｈｉｃ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）といった複数のプロセッサコアを持つプロセッサであってもよい。ＲＯＭは、オペレーティングシステム（ＯＳ）などの基本動作プログラムやその他の動作プログラムが格納された不揮発性メモリである。ＲＯＭ内には、テレビ受信装置１００の動作に必要な動作設定値が記憶されてもよい。ＲＡＭはＯＳやその他の動作プログラム実行時のワークエリアとなる。バス２０２は、主制御部２０１とテレビ受信装置１００内の各部との間でデータ送受信を行うためのデータ通信路である。

　本開示では、主制御部２０１において、学習済みのＤＮＮモデルを使用して、テレビ受信装置１００の内部処理に関するさまざまな推論が行われる。学習済みのＤＮＮモデルを使用した内部処理として、テレビ受信装置１００の自動操作に関する動作決定や、決定した操作に関するユーザへの説明文の生成並びに説明文の出力方法の決定、出力した説明に対するユーザの反応又は感情の推定などが含まれる。但し、ＤＮＮモデルを使用した内部処理の詳細については、後述に譲る。また、主制御部２０１において、学習済みのＤＮＮモデルの再学習を行うようにすることもできる。テレビ受信装置１００の自動操作に関する動作として、例えば、画像モード（シネマモードやゲームモード）切り替え、輝度ダイナミックレンジ（ＳＤＲやＨＤＲ、ＬＤＲ）又はガンマ補正切り替え、輝度切り替え、解像度切り替え（アップコンバート制御）、（外部入力の）画面サイズ制御（オーバースキャン、アンダースキャン、ドットバイドットなど）、ＵＩ（Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）の表示制御（位置、色、大きさなど）、チャンネル切り替え、音量調整、音声出力方向制御、字幕表示切り替え、言語切り替え、アクセシビリティ制御、入力切り替え、アプリケーションの軌道制御、画面方向制御（首振りテレビなどの場合）、画面回転制御（画面回転式ディスプレイなどの場合）、画面の露出制御（巻取り式ディスプレイなどの場合）を挙げることができる。

　ストレージ部２０３は、フラッシュＲＯＭやＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ）などの不揮発性の記憶デバイスで構成される。ストレージ部２０３は、テレビ受信装置１００の動作プログラムや動作設定値、テレビ受信装置１００を使用するユーザの個人情報などを記憶する。また、ストレージ部２０３は、インターネットを介してダウンロードした動作プログラムやその動作プログラムで作成した各種データなどを記憶する。また、ストレージ部２０３は、放送波やインターネットを通じて取得した動画、静止画、オーディオなどのコンテンツも記憶可能である。また、ストレージ部２０３は、学習済みのＤＮＮモデル（上述）のノード間の結合重み係数を記憶する。

　通信インターフェース部２０４は、ルータ（図示しない）などを介してインターネットと接続され、インターネット上の各サーバ装置やその他の通信機器とデータの送受信を行う。また、通信回線を介して伝送される番組のデータストリームの取得も行うものとする。ルータは、イーサネット（登録商標）などの有線接続、あるいはＷｉ－Ｆｉ（登録商標）などの無線接続のいずれであってもよい。

　チューナー／復調部２０６は、アンテナ（図示しない）を介して地上波放送又は衛星放送などの放送波を受信し、主制御部２０１の制御に基づいてユーザの所望するサービス（放送局など）のチャンネルに同調（選局）する。また、チューナー／復調部２０６は、受信した放送信号を復調して放送データストリームを取得する。なお、複数画面同時表示や裏番組録画などを目的として、テレビ受信装置１００が複数のチューナー／復調部を搭載する構成（すなわち多重チューナ）であってもよい。

　デマルチプレクサ２０７は、入力したデータストリーム中の制御信号に基づいてリアルタイム提示要素である映像データストリーム、オーディオデータストリーム、文字スーパーデータストリーム、字幕データストリームを、それぞれ映像デコーダ２０８、オーディオデコーダ２０９、文字スーパーデコーダ２１０、字幕デコーダ２１１に分配する。デマルチプレクサ２０７に入力されるデータストリームは、放送サービスによる放送データストリームや、ＩＰＴＶ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ　ＴＶ）やＯＴＴ（Ｏｖｅｒ－Ｔｈｅ－Ｔｏｐ）、動画共有サイトなどのネットワークを利用した配信サービスによる配信データストリームを含む。放送データストリームは、チューナー／復調部２０６で選局受信及び復調された後にデマルチプレクサ２０７に入力され、配信データストリームは、通信インターフェース部２０４で受信された後にデマルチプレクサ２０７に入力される。また、デマルチプレクサ２０７は、マルチメディアアプリケーションやその構成要素であるファイル系データを再生し、アプリケーション制御部２１５に出力し、又はキャッシュ部２１４で一時的に蓄積する。

　映像デコーダ２０８は、デマルチプレクサ２０７から入力した映像ストリームを復号して映像情報を出力する。また、オーディオデコーダ２０９は、デマルチプレクサ２０７から入力したオーディオストリームを復号してオーディオ情報を出力する。デジタル放送では、例えばＭＰＥＧ２　Ｓｙｓｔｅｍ規格に則ってそれぞれ符号化された映像ストリーム並びにオーディオストリームが多重化して伝送又は配信されている。映像デコーダ２０８並びにオーディオデコーダ２０９は、デマルチプレクサ２０７でデマルチプレクスされた符号化映像ストリーム、符号化映像ストリームを、それぞれ規格化されたデコード方式に従ってデコード処理を実施することになる。なお、複数種類の映像データストリーム及びオーディオデータストリームを同時に復号処理するために、テレビ受信装置１００は複数の映像デコーダ２０８及びオーディオデコーダ２０９を備えてもよい。

　文字スーパーデコーダ２１０は、デマルチプレクサ２０７から入力した文字スーパーデータストリームを復号して文字スーパー情報を出力する。字幕デコーダ２１１は、デマルチプレクサ２０７から入力した字幕データストリームを復号して字幕情報を出力する。字幕処理部２１２は、文字スーパーデコーダ２１０から出力された文字スーパー情報と、字幕デコーダ２１１から出力された字幕情報とを合成処理する。

　データデコーダ２１３は、ＭＰＥＧ－２　ＴＳストリームに映像及びオーディオとともに多重化されるデータストリームをデコードする。例えば、データデコーダ２１３は、ＰＳＩ（Ｐｒｏｇｒａｍ　Ｓｐｅｃｉｆｉｃ　Ｉｎｆｏｒｍａｔｉｏｎ）テーブルの１つであるＰＭＴ（Ｐｒｏｇｒａｍ　Ｍａｐ　Ｔａｂｌｅ）の記述子領域に格納された汎用イベントメッセージをデコードした結果を、主制御部２０１に通知する。

　アプリケーション制御部２１５は、放送データストリームに含まれる制御情報をデマルチプレクサ２０７から入力し、又は、通信インターフェース部２０４を介してインターネット上のサーバ装置から取得して、これら制御情報を解釈する。

　ブラウザ部２１６は、キャッシュ部２１４若しくは通信インターフェース部２０４を介してインターネット上のサーバ装置から取得したマルチメディアアプリケーションファイルやその構成要素であるファイル系データを、アプリケーション制御部２１５の指示に従って提示する。ここで言うマルチメディアアプリケーションファイルは、例えばＨＴＭＬ（Ｈｙｐｅｒ　Ｔｅｘｔ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）文書やＢＭＬ（Ｂｒｏａｄｃａｓｔ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）文書などである。また、ブラウザ部２１６は、音源部２１７に働きかけることにより、アプリケーションのオーディオ情報の再生も行うものとする。

　映像処理部２１８は、映像デコーダ２０８から出力された映像情報と、字幕処理部２１２から出力された字幕情報と、ブラウザ部２１６から出力されたアプリケーション情報を入力し、適宜選択し又は重畳する処理を行う。映像処理部２１８はビデオＲＡＭ（図示を省略）を備え、このビデオＲＡＭに入力された映像情報に基づいて表示部２１９の表示駆動が実施される。また、映像処理部２１８は、主制御部２０１の制御に基づいて、必要に応じて、ＥＰＧ（Ｅｌｅｃｔｒｏｎｉｃ　Ｐｒｏｇｒａｍ　Ｇｕｉｄｅ）画面や、主制御部２０１が実行するアプリケーションによって生成されたグラフィックスなどの画面情報の重畳処理も行う。また、映像処理部２１８は、ノイズ低減、超解像などの解像度変換処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理も行う。

　表示部２１９は、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどからなる表示デバイスであり、映像処理部２１８で選択又は重畳処理を施された映像情報をユーザに提示する。

　オーディオ処理部２２０は、オーディオデコーダ２０９から出力されたオーディオ情報と、音源部２１７で再生されたアプリケーションのオーディオ情報を入力して、適宜選択又は合成などの処理を行う。また、オーディオ処理部２２０は、低解像度又は標準解像度のオーディオ信号を、除去又は圧縮された帯域を含む高解像度オーディオ信号に帯域拡張したりする高音質化処理を実施するようにしてもよい。また、オーディオ処理部２２０は、複数のスピーカーを利用した音像定位処理を行うようにしてもよい。

　オーディオ出力部２２１は、チューナー／復調部２０６で選局受信した番組コンテンツやデータ放送コンテンツのオーディオ出力や、オーディオ処理部２２０で処理されたオーディオ情報（音声ガイダンス又は音声エージェントの合成音声などを含む）の出力に用いられる。オーディオ出力部２２１は、スピーカーなどの音響発生素子で構成される。例えば、オーディオ出力部２２１は、複数のスピーカーを組み合わせたスピーカーアレイ（多チャンネルスピーカー若しくは超多チャンネルスピーカー）であってもよく、一部又は全部のスピーカーがテレビ受信装置１００に外付け接続されていてもよい。

　操作入力部２２２は、ユーザがテレビ受信装置１００に対する操作指示の入力を行う指示入力部である。操作入力部２２２は、例えば、リモコン（図示しない）から送信されるコマンドを受信するリモコン受信部とボタンスイッチを並べた操作キーで構成される。また、操作入力部２２２は、表示部２１９の画面に重畳されたタッチパネルを含んでもよい。また、操作入力部２２２は、拡張インターフェース部２０５に接続されたキーボードなどの外付け入力デバイスを含んでもよい。

　拡張インターフェース部２０５は、テレビ受信装置１００の機能を拡張するためのインターフェース群であり、例えば、アナログ映像／オーディオインターフェースや、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　ＳｅｒｉａｌＢｕｓ）インターフェース、メモリインタフェースなどで構成される。拡張インターフェース部２０５は、ＤＶＩ端子やＨＤＭＩ（登録商標）端子やＤｉｓｐｌａｙ　Ｐｏｒｔ（登録商標）端子などからなるデジタルインターフェースを含んでいてもよい。

　拡張インターフェース部２０５は、センサー群（後述並びに図２を参照のこと）に含まれる各種のセンサーのセンサー信号を取り込むためのインターフェースとしても利用される。センサーは、テレビ受信装置１００の本体内部に装備されるセンサー、並びにテレビ受信装置１００に外付け接続されるセンサーの双方を含むものとする。外付け接続されるセンサーには、テレビ受信装置１００と同じ空間に存在する他のＣＥ（Ｃｏｎｓｕｍｅｒ　Ｅｌｅｃｔｒｏｎｉｃｓ）機器やＩｏＴ（Ｉｎｔｅｒｎｅｔ　ｏｆ　Ｔｈｉｎｇｓ）デバイスに内蔵されるセンサーも含まれる。拡張インターフェース部２０５は、センサー信号をノイズ除去などの信号処理を施しさらにデジタル変換した後に取り込んでもよいし、未処理のＲＡＷデータ（アナログ波形信号）として取り込んでもよい。

Ｃ．センシング機能
　図２には、テレビ受信装置１００に装備されるセンシング機能部３００の構成例を模式的に示している。図２に示す各センサーは、テレビ受信装置１００の本体内部に装備されるセンサー、並びにテレビ受信装置１００に外付け接続されるセンサーの双方を含むものとする。各センサーからのセンサー信号は、例えば拡張インターフェース部２０５を介してテレビ受信装置１００内に取り込まれる。また、センシング機能部３００に含まれるセンサーのうち少なくとも一部がリモコンに設けられていてもよい。センサー信号の少なくとも一部は、主制御部２０１において使用される学習済みのＤＮＮモデルへの入力となる。

　カメラ部３１０は、表示部２１９に表示された映像コンテンツを視聴中のユーザを撮影するカメラ３１１と、表示部２１９に表示された映像コンテンツを撮影するカメラ３１２と、テレビ受信装置１００が設置されている室内（あるいは、設置環境）を撮影するカメラ３１３を含んでいてもよいし、カメラ３１１乃至３１３が持つ機能のうち複数の機能を有するカメラを含んでいてもよい。

　カメラ３１１は、例えば表示部２１９の画面の上端縁中央付近に設置され映像コンテンツを視聴中のユーザを好適に撮影する。カメラ３１２は、例えば表示部２１９の画面に対向して設置され、ユーザが視聴中の映像コンテンツを撮影する。あるいは、ユーザが、カメラ３１２を搭載したゴーグルを装着するようにしてもよい。また、カメラ３１２は、映像コンテンツの音声も併せて記録（録音）する機能を備えていてもよい。また、カメラ３１３は、例えば全天周カメラや広角カメラで構成され、テレビ受信装置１００が設置されている室内（あるいは、設置環境）を撮影する。あるいは、カメラ３１３は、例えばロール、ピッチ、ヨーの各軸回りに回転駆動可能なカメラテーブル（雲台）に乗せたカメラであってもよい。

　ユーザ状態センサー部３２０は、ユーザの状態に関する状態情報を取得する１以上のセンサーからなる。ユーザ状態センサー部３２０は、状態情報として、例えば、ユーザの作業状態（映像コンテンツの視聴の有無）や、ユーザの行動状態（静止、歩行、走行などの移動状態、瞼の開閉状態、視線方向、瞳孔の大小）、精神状態（ユーザが映像コンテンツに没頭あるいは集中しているかなどの感動度、興奮度、覚醒度、感情や情動など）、さらには生理状態を取得することを意図している。ユーザ状態センサー部３２０は、発汗センサー、筋電位センサー、眼電位センサー、脳波センサー、呼気センサー、ガスセンサー、イオン濃度センサー、ユーザの挙動を計測するＩＭＵ（Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ）などの各種のセンサー、ユーザの発話を収音するオーディオセンサー（マイクなど）、ユーザの指などの物体の位置を検出する位置情報検出センサー（近接センサーなど）を備えていてもよい。なお、マイクは、テレビ受信装置１００と一体化されている必要は必ずしもなく、サウンドバーなどテレビの前に据え置く製品に搭載されたマイクでもよい。また、有線又は無線によって接続される外付けのマイク搭載機器を利用してもよい。外付けのマイク搭載機器としては、マイクを搭載しオーディオ入力可能なスマートスピーカー、無線ヘッドホン／ヘッドセット、タブレット、スマートフォン、あるいはＰＣ（ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）、又は冷蔵庫、洗濯機、エアコン、掃除機、あるいは照明器具などのいわゆるスマート家電、ＩｏＴ家電装置、又はロボットであってもよい。位置情報検出センサーは、表示部２１９に対するユーザ操作を検出するためのタッチセンサーとして構成されてもよい。

　環境センサー部３３０は、テレビ受信装置１００が設置されている室内など環境に関する情報を計測する各種センサーからなる。例えば、温度センサー、湿度センサー、光センサー、照度センサー、気流センサー、匂いセンサー、電磁波センサー、地磁気センサー、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）センサー、周囲音を収音するオーディオセンサー（マイクなど）などが環境センサー部３３０に含まれる。また、環境センサー部３３０は、テレビ受信装置１００が置かれている部屋の大きさやユーザの位置、部屋の明るさなどの情報を取得するようにしてもよい。

　機器状態センサー部３４０は、テレビ受信生装置１００の内部の状態を取得する１以上のセンサーからなる。あるいは、映像デコーダ２０８やオーディオデコーダ２０９などの回路コンポーネントが、入力信号の状態や入力信号の処理状況などを外部出力する機能を備えて、機器内部の状態を検出するセンサーとしての役割を果たすようにしてもよい。また、機器状態センサー部３４０は、テレビ受信装置１００やその他の機器に対してユーザが行った操作を検出したり、ユーザの過去の操作履歴を保存したりするようにしてもよい。ユーザの操作には、テレビ受信装置１００やその他の機器に対するリモコン操作を含んでもよい。ここで言うその他の機器は、タブレット、スマートフォン、ＰＣ、又は、冷蔵庫、洗濯機、エアコン、掃除機、あるいは照明器具などのいわゆるスマート家電、ＩｏＴ家電装置、又はロボットであってもよい。また、機器状態センサー部３４０は、機器の性能や仕様に関する情報を取得するようにしてもよい。機器状態センサー部３４０は、機器の性能や仕様に関する情報を記録した内蔵ＲＯＭのようなメモリ、あるいはこのようなメモリから情報を読み取るリーダであってもよい。

　ユーザプロファイルセンサー部３５０は、テレビ受信装置１００で映像コンテンツを視聴するユーザに関するプロファイル情報を検出する。ユーザプロファイルセンサー部３５０は、必ずしもセンサー素子で構成されていなくてもよい。例えばカメラ３１１で撮影したユーザの顔画像やオーディオセンサーで収音したユーザの発話などに基づいて、ユーザの年齢や性別などのユーザプロファイルを推定するようにしてもよい。また、スマートフォンなどのユーザが携帯する多機能情報端末上で取得されるユーザプロファイルや、スマートスピーカーやロボットがユーザとの対話を通じて取得するユーザプロファイルを、テレビ受信装置１００とスマートフォンなどの機器の間の連携により取得するようにしてもよい。但し、ユーザプロファイルセンサー部３５０は、ユーザのプライバシーや機密に関わるように機微情報まで検出する必要はない。また、同じユーザのプロファイルを、映像コンテンツの視聴の度に検出する必要はなく、一度取得したユーザプロファイル情報を保存しておくＥＥＰＲＯＭのようなメモリであってもよい。

　また、スマートフォンなどのユーザが携帯する多機能情報端末を、テレビ受信装置１００とスマートフォンなどの機器の間の連携により、カメラ部３１０あるいはユーザ状態センサー部３２０、環境センサー部３３０、ユーザプロファイルセンサー部３５０として活用してもよい。例えば、スマートフォンに内蔵されたセンサーで取得されるセンサー情報や、ヘルスケア機能（歩数計など）、カレンダー又はスケジュール帳・備忘録、メール、ブラウザ履歴、ＳＮＳ（Ｓｏｃｉａｌ　Ｎｅｔｗｏｒｋ　Ｓｅｒｖｉｃｅ）の投稿及び閲覧の履歴といったアプリケーションで管理するデータを、ユーザの状態データや環境データに加えるようにしてもよい。また、テレビ受信装置１００と同じ空間に存在する他のＣＥ機器やＩｏＴデバイスに内蔵されるセンサーを、ユーザ状態センサー部３２０あるいは環境センサー部３３０として活用してもよい。また、インターホンの音を検知するか又はインターホンシステムとの通信で来客を検知するようにしてもよい。また、テレビ受信装置１００から出力される映像やオーディオを取得して、解析する輝度計やスペクトル解析部がセンサーとして設けられていてもよい。

Ｄ．内部処理の自動化と動作理由の説明
　本実施形態では、テレビ受信装置１００の内部処理のほとんどすべてにＤＮＮが適用され、上記Ｃ項で説明したセンシング機能によりセンシングされたユーザの使用状況や周囲環境に基づいて、テレビ受信装置１００の自動操作が可能であることを想定している。具体的には、チャンネル操作、音量調整、画質調整、字幕設定といったテレビ受信装置１００本体の操作をＤＮＮにより自動化することを意図しているが、自動録画設定や外付けスピーカーへのオーディオ出力など、テレビ受信装置１００とこれに接続する外部機器との連係動作もＤＮＮを用いた自動操作の対象とすることができる。

　ＤＮＮの推論結果に基づいてテレビ受信装置１００の自動操作を行うことで、ユーザは手動操作を行う必要がなくなり便利である。しかしながら、テレビ受信装置１００又はＤＮＮが気を利かせて自動で行った動作でも、ユーザから見るとその動作を行った理由が理解できない場合がある。

　例えば、現在時刻が２２時過ぎで、テレビ受信装置１００の前にユーザが１名いるが、ユーザがテレビを観ていない場合には、そのユーザの嗜好に合った番組が放送されていないと推論して、音量を下げるなどの自動操作を行う。ユーザは、このような自動操作が行われる理由が分からず、気味悪く感じることもある。

　本開示では、ＤＮＮが搭載されたテレビ受信装置１００における自動操作の理由を、テレビ受信装置１００自身が説明する。したがって、ユーザは、テレビ受信装置１００に何が起こったかを問い合わせることができる。また、テレビ受信装置１００は、ユーザとのインタラクションを通じてどのような説明を行えばユーザに自動操作の理由を理解してもらい易くなるかを学習しており、ユーザに対する簡潔な理由の提示を実現することができる。

Ｅ．機能的構成
　図３には、テレビ受信装置１００の自動操作と最適な動作理由の説明を行うための機能的構成例を模式的に示している。テレビ受信装置１００は、当該機能を実現するために、動作決定部１０１と、説明生成部１０２と、ユーザ感情推定部１０３を備えている。また、テレビ受信装置１００は、当該機能を実現する上で必要な情報を記憶又は蓄積する手段として、動作履歴メモリ１１１と、ユーザ情報データベース１１２を備えている。動作決定部１０１と、説明生成部１０２と、ユーザ感情推定部１０３は、例えば主制御部２０１が実行するソフトウェアモジュールである。但し、動作決定部１０１と、説明生成部１０２と、ユーザ感情推定部１０３のうち少なくとも１つは、拡張インターフェース部２０５を介してテレビ受信装置１００に外部接続される情報処理装置（図示しない）上で動作していてもよい。また、動作履歴メモリ１１１とユーザ情報データベース１１２に必要な記憶領域は、例えばストレージ部２０３内に確保されるが、拡張インターフェース部２０５を介してテレビ受信装置１００に外部接続される記憶装置（図示しない）上に確保されていてもよい。

　動作決定部１０１と、説明生成部１０２と、ユーザ感情推定部１０３は、それぞれ深層学習した学習済みのＤＮＮモデルを用いて構成される。もちろん、動作決定部１０１と、説明生成部１０２と、ユーザ感情推定部１０３を併せて１つの学習済みＤＮＮモデルとして構成することもできるが、本明細書では、便宜上、動作決定部１０１と、説明生成部１０２と、ユーザ感情推定部１０３をそれぞれ独立した機能モジュールとして説明する。これらのＤＮＮモデルの深層学習は、クラウド上で行われ、学習済みのＤＮＮモデルが各製品すなわちテレビ受信装置１００に搭載されることを想定している。もちろん、テレビ受信装置１００でＤＮＮモデルの深層学習を行うことも可能である。

　動作決定部１０１は、センシング機能部３００（図２を参照のこと）によるユーザの状態や周辺環境のセンシング結果に基づいて、テレビ受信装置１００の動作を決定する。本実施形態では、動作決定部１０１は、ユーザの状態（ユーザによるテレビ受信装置１００の使用状況）や周囲環境（現在時刻や部屋の明るさ、室温など）のセンシング情報と、テレビ受信装置１００が行った動作との相関関係を深層学習した学習済みＤＮＮを備えている。そして、動作決定部１０１は、センシング機能部３００から入力されたセンシング結果から、学習済みのＤＮＮの推論によって、テレビ受信装置１００の動作を決定する。主制御部２０１は、動作決定部１０１が決定した動作を実現するための制御信号を、テレビ受信装置１００内の該当する機能モジュールに送り、自動操作を実施する。また、動作決定部１０１が決定してテレビ受信装置１００で自動実行した動作を動作履歴メモリ１１１に保存する。動作履歴メモリ１１は、テレビ受信装置１００が自動で実行した動作を、実行した時刻とともに保存する。なお、動作決定部１０１は、センシング結果に基づいて動作を決定するに至った推論履歴を、決定した動作と併せて動作履歴メモリ１１１に保存するようにしてもよい。

　なお、動作決定部１０１に入力される、センシング機能部３００によるセンシング結果には、ユーザによるテレビ受信装置１００の使用状況や周囲環境の他に、ユーザのテレビ受信装置１００やその他の機器に対する操作履歴、テレビ受信装置１００やその他の機器の動作履歴、ユーザプロファイルセンサー部３５０が取得するユーザプロファイル情報などを含んでいてもよい。

　また、動作決定部１０１がセンシング結果に基づいて決定するテレビ受信装置１００の動作として、例えば、画像モード（シネマモードやゲームモード）切り替え、輝度ダイナミックレンジ（ＳＤＲやＨＤＲ、ＬＤＲ）又はガンマ補正切り替え、輝度切り替え、解像度切り替え（アップコンバート制御）、（外部入力の）画面サイズ制御（オーバースキャン、アンダースキャン、ドットバイドットなど）、ＵＩの表示制御（位置、色、大きさなど）、チャンネル切り替え、音量調整、音声出力方向制御、字幕表示切り替え、言語切り替え、アクセシビリティ制御、入力切り替え、アプリケーションの軌道制御、画面方向制御（首振りテレビなどの場合）、画面回転制御（画面回転式ディスプレイなどの場合）、画面の露出制御（巻取り式ディスプレイなどの場合）を挙げることができる。但し、動作決定部１０１はこれらすべての動作を決定する必要はなく、音量調整や字幕表示など上記のうち一部の動作を決定すれば十分な場合もある。

　説明生成部１０２は、ユーザからの説明提示の要求があった場合に、動作決定部１０１が決定したテレビ受信装置１００の動作に対してユーザが好みそうな（又は、ユーザが納得し易い）理由の説明を生成する。本実施形態では、説明生成部１０２は、テレビ受信装置１００が行った動作と、そのときの動作理由の説明に対するユーザの反応との相関関係を深層学習した学習済みＤＮＮを備えている。ユーザの反応は、提示した動作理由の説明に対してユーザが好んだか否か（ポジティブ／ネガティブ）という２値でもよいし、より細かく分類した識別値で表現されていてもよい。また、この学習済みＤＮＮは、さらにユーザの状態や周囲環境のセンシング情報との相関関係を考慮して深層学習を行っていてもよい。そして、説明生成部１０２は、センシング機能部３００から入力されたセンシング結果と、動作決定部１０１が決定したテレビ受信装置１００の動作から、学習済みのＤＮＮの推論によって、テレビ受信装置１００の動作に対してユーザが好みそうな動作理由の説明を生成する。センシング機能部３００から入力されたセンシング結果には、ユーザプロファイルセンサー部３５０でセンシングされるユーザのプロファイル情報や、ユーザによる機器の使用履歴なども含まれる。

　説明生成部１０２は、ユーザから説明を要求されたテレビ受信装置１００の動作に対する理由の説明を、ユーザが最も納得すると推定される形式で生成する。説明生成部１０２は、複数の動作理由の説明が推定される場合には、そのうちのいずれをユーザに提示すべきか（又は、提示する優先順位）を決定する。また、説明生成部１０２は、生成した動作理由を出力する形式、又は、ユーザに提示する方法も決定するようにしてもよい。例えば、動作理由の説明を音声又は画面のいずれか又は両方で出力するかを決定する。動作理由の説明を音声で行う場合には、音量や声質も決定するようにしてもよい。

　そして、説明生成部１０２は、説明提示を要求されたテレビ受信装置１００の動作と、そのときに生成した（又は、ユーザに提示した）動作理由の説明を、ユーザ情報データベース１１２に保存する。

　なお、説明生成部１０２に対するユーザの説明提示要求は、ユーザによる音声コマンドやジェスチャによって行うようにしてもよい。また、ユーザは、操作入力部２２２やリモコン操作を介してテレビ受信装置１００に対して説明提示要求を行うようにしてもよい。

　ユーザ感情推定部１０３は、説明生成部１０２が生成した動作理由の説明を提示したときのユーザの反応を入力して、ユーザの感情を推定する。ユーザ感情推定部１０３は、ユーザの反応を、ユーザによる音声コマンドやジェスチャによって入力するようにしてもよいし、操作入力部２２２やリモコン操作を介して入力するようにしてもよい。あるいは、ユーザ感情推定部１０３は、音声やジェスチャ、入力操作といったユーザの明示的な動作としてではなく、ユーザ状態センサー部３２０からのセンシング情報としてユーザの反応を入力するようにしてもよい。ユーザの感情は、提示した動作理由に対してユーザが好んだか否か（ポジティブ／ネガティブ）という２値でもよいし、より細かく分類した識別値で表現されていてもよい。本実施形態では、ユーザ感情推定部１０３は、ユーザの音声やジェスチャ、操作入力などとユーザの反応との相関関係を深層学習した学習済みＤＮＮを備えている。そして、ユーザ感情推定部１０３は、説明生成部１０２が生成した動作理由の説明を提示したときのユーザの反応を入力して、学習済みのＤＮＮの推論によって、ユーザの感情を推定する。

　また、ユーザ感情推定部１０３は、説明生成部１０２が生成した動作理由の説明を提示したときのユーザの感情を、テレビ受信装置１００の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース１１２に保存する。

　ユーザ情報データベース１１２には、テレビ受信装置１００を自動操作したときの、「動作理由の提示の仕方」と、これに対してユーザが抱いた「ユーザの感情」のペアの情報が蓄積されていく。ユーザ情報データベース１１２に蓄積された情報は、説明生成部１０２で使用する学習済みＤＮＮの再学習に使用される。再学習によって、説明生成部１０２は、テレビ受信装置１００を使用する個別のユーザが好みそうな動作理由の説明を生成し易くなり、個別のユーザに不快感を与えるような説明を提示し難くなるようにパーソナライズされる。例えば、動作理由の説明を音声で提示する場合には、個別のユーザが心地よい声質を使って、不快感を与えない音量で出力できるように再学習される。

　なお、説明生成部１０２が使用する、テレビ受信装置１００の自動操作に対する動作理由の説明を推定する学習済みＤＮＮを「第１の機械学習モデル」とする。また、動作決定部１０１が環境情報などのセンシング結果に基づいてテレビ受信装置１００の自動操作を推定する学習済みＤＮＮを「第２の機械学習モデル」とする。ユーザ感情推定部１０３が使用する、ユーザの反応からユーザの感情（ポジティブ又はネガティブのいずれであるか）を推定する学習済みＤＮＮを「第３の機械学習モデル」とする。

　図３に示した機能的構成は、テレビ受信装置１００が行った自動操作について生成した動作理由の説明に対してユーザの反応などのフィードバックを取得して、ユーザに合った動作理由を生成するという系を備えている。したがって、人工知能技術によるテレビ受信装置１００の自動操作を実施したときに、その動作理由についてユーザにとって分かり易い説明を提示できるようになる。

　また、テレビ受信装置１００が行った１つの自動操作に対して、説明生成部１０２が複数の動作理由の説明を生成した場合には、ユーザが好みそうな順で１つずつ説明を提示して、ユーザの反応を取得する。したがって、ユーザの少ない負担で、提示した説明に対するユーザの反応を取得することができる。

　また、図３に示した機能的構成では、説明生成部１０２が使用する、テレビ受信装置１００の自動操作に対する動作理由の説明を推定する学習済みＤＮＮ「第１の機械学習モデル」の再学習を行うことができる。したがって、ユーザがテレビ受信装置１００を継続的に使用することによって、テレビ受信装置１００が自動操作を行ったときに、ユーザにとって理解し易い動作理由の説明を行えるように学習されていく。

Ｆ．処理動作
Ｆ－１．全体的な処理手順
　続いて、テレビ受信装置１００が、図３に示したような機能的構成を用いて、操作の自動化及び動作理由の説明を行うための全体的な処理動作について説明する。図４及び図５には、テレビ受信装置１００が操作の自動化及び動作理由の説明を行うための全体的な処理手順をフローチャートの形式で示している。

　まず、動作決定部１０１は、センシング機能部３００（図２を参照のこと）によるユーザの状態や周辺環境のセンシング結果に基づいて、学習済みＤＮＮ（前述）の推論によって、テレビ受信装置１００の動作を決定する（ステップＳ４０１）。

　そして、動作決定部１０１は、決定した動作を動作履歴メモリ１１１に保存する（ステップＳ４０２）。動作決定部１０１は、センシング結果に基づいて動作を決定するに至った推論履歴を、決定した動作と併せて動作履歴メモリ１１１に保存するようにしてもよい。

　主制御部２０１は、動作決定部１０１が決定した動作を実現するための制御信号を、テレビ受信装置１００内の該当する機能モジュールに送り、自動操作を実施する（ステップＳ４０３）。

　次いで、ステップＳ４０３で実施したテレビ受信装置１００の自動操作に対して、ユーザから説明提示の要求があったかどうかをチェックする（ステップＳ４０４）。ユーザから説明提示の要求がなければ（ステップＳ４０４のＮｏ）、ステップＳ４０１に戻って、上記の処理を繰り返し実行する。

　一方、ユーザから説明提示の要求があった場合には（ステップＳ４０４のＹｅｓ）、説明生成部１０２は、動作履歴メモリ１１１から説明提示を要求された動作を読み出すとともに、センシング機能部３００から入力されるセンシング結果を取得する（ステップＳ４０５）。そして、説明生成部１０２は、学習済みＤＮＮ（前述）の推論によって、説明提示が要求されたテレビ受信装置１００の動作理由に関してユーザが好みそうな説明を生成する（ステップＳ４０６）。説明生成部１０２は、１回の説明提示要求に対して、複数の動作理由の説明を生成する場合もある。

　次いで、説明生成部１０２が生成した動作理由の説明を、例えばテレビ受信装置１００が備える出力手段（スピーカーや画面など）を用いてユーザに提示する（ステップＳ４０７）。説明生成部１０２は、生成した説明を、文字として画面に表示するのか、スピーカーから音声として提示するのか、画面と音声の両方を使って提示するのかを、ユーザの好みやテレビ受信装置１００の周囲環境に基づいて選択するようにしてもよい。

　次いで、ユーザ感情推定部１０３は、説明生成部１０２が生成した動作理由の説明を提示したときのユーザの反応を入力して（ステップＳ４０８）、ユーザの感情を推定する（ステップＳ４０９）。ここでは、説明の簡素化のため、ユーザの感情は、提示した動作理由に対してユーザが好んだか否か（ポジティブ／ネガティブ）という２値で表現されるものとする。そして、ユーザ感情推定部１０３が推定したユーザの感情がポジティブなものかどうかをチェックする（ステップＳ４１０）。

　提示した動作理由の説明に対するユーザの感情がポジティブなものであれば（ステップＳ４１０のＹｅｓ）、ユーザ感情推定部１０３は、説明生成部１０２が生成した動作理由の説明を提示したときのユーザの「ポジティブ」という感情を、テレビ受信装置１００の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース１１２に保存する（ステップＳ４１３）。

　また、提示した動作理由の説明に対するユーザの感情がポジティブなものでなければ（ステップＳ４１０のＮｏ）、ユーザ感情推定部１０３は、説明生成部１０２が生成した動作理由の他の説明をユーザが要求しているかどうかをさらにチェックする（ステップＳ４１１）。

　ユーザが動作理由の他の説明を要求しない場合には（ステップＳ４１１のＮｏ）、ユーザ感情推定部１０３は、説明生成部１０２が生成した動作理由の説明を提示したときのユーザの「ポジティブ」でない（又は、「ネガティブ」である）という感情を、テレビ受信装置１００の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース１１２に保存する（ステップＳ４１３）。

　また、ユーザが動作理由の他の説明を要求する場合には（ステップＳ４１１のＹｅｓ）、説明生成部１０２が動作理由のさらに他の説明を生成しているかどうかをチェックする（ステップＳ４１２）。そして、説明生成部１０２が動作理由のさらに他の説明を生成している場合には（ステップＳ４１２のＹｅｓ）、ステップＳ４０７に戻って、ユーザに他の説明を提示して、上記処理を繰り返し実行する。説明生成部１０２が動作理由の他の説明を生成していない場合には（ステップＳ４１２のＮｏ）、ユーザ感情推定部１０３は、説明生成部１０２が生成した動作理由の説明を提示したときのユーザの「ポジティブ」でない（又は、「ネガティブ」である）という感情を、テレビ受信装置１００の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース１１２に保存する（ステップＳ４１３）。

　そして、説明生成部１０２は、ユーザ情報データベース１１２に蓄積された情報を使用して、動作理由の説明を生成する学習済みＤＮＮの再学習を実施する（ステップＳ４１４）。

　テレビ受信装置１００の自動操作に対する動作理由の説明を提示する処理動作について、さらに詳細に説明する。

　例えば、テレビ受信装置１００において音量を下げるという自動操作が行われたことに対して、ユーザから説明を要求されたとする。このような場合、説明生成部１０２は、動作履歴メモリ１１１から説明提示を要求された動作を読み出すとともに、センシング機能部３００から入力されるセンシング結果を取得して、学習済みＤＮＮ（前述）の推論によって、テレビ受信装置１００が音量を下げる自動操作を行った理由に関して、「現在時刻が２２時である」且つ「ユーザが１名しかいない」且つ「ユーザがテレビを観ていない」という説明を生成する。そして、説明生成部１０２は、これら生成した複数の説明のうちいずれをユーザが好むかを、学習済みＤＮＮ（前述）によってさらに推論する。例えば、説明提示を求めたユーザは「ユーザの習慣に基づいた説明をすると納得し易い」というように学習されているとする。この場合、説明生成部１０２は、生成した複数の説明の中から、「普段から２２時を過ぎると音量を下げる傾向があるため、今回は自動で音量調整した」という説明が、今回の動作理由の説明として最もユーザに納得してもらえるものと推定する。

　なお、説明生成部１０２は、テレビ受信装置１００の自動操作について複数の説明の候補を生成して、ユーザが納得し易い順番に各説明の候補を並べ替えてユーザに提示するようにしてもよい。また、説明生成部１０２は、生成した説明を、文字として画面に表示するのか、スピーカーから音声として提示するのか、画面と音声の両方を使って提示するのかを、ユーザの好みやテレビ受信装置１００の周囲環境に基づいて選択するようにしてもよい。

　ユーザ感情推定部１０３は、説明生成部１０２が生成した動作理由の説明を提示したときのユーザの反応を入力して、ユーザの感情を推定する。図４及び図５に示したフローチャートでは、ユーザ感情推定部１０３は、提示した動作理由に対してユーザが好んだか否か（ポジティブ／ネガティブ）を推定する。ユーザ感情推定部１０３は、例えばポジティブ○％、ネガティブ○％というような割合でユーザの感情の推定結果を示し、ポジティブ又はネガティブのいずれかの割合が閾値（例えば８５％）を超えていれば、動作理由の説明に対してユーザがポジティブ（又はネガティブ）な感情を抱いたと推定するように構成される。但し、ユーザ感情推定部１０３がユーザの感情を推定する処理手順の詳細については、後述（図６を参照のこと）に譲る。

　図４及び図５に示したフローチャートでは、提示した動作理由の説明に対するユーザの感情がポジティブなものであれば、ユーザ感情推定部１０３は、説明生成部１０２が生成した動作理由の説明を提示したときのユーザの「ポジティブ」という感情を、テレビ受信装置１００の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース１１２に保存する。一方、提示した動作理由の説明に対するユーザの感情がネガティブな場合や、ユーザの感情を推定できない場合（ポジティブ及びネガティブのいずれの割合も閾値を超えていない場合）には、ユーザが動作理由の他の説明を要求し、且つ、説明生成部１０２がさらに他の説明を生成している場合には、ユーザに他の説明を再度提示して、ユーザ感情推定部１０３はその説明に対するユーザの感情を推定する。他方、ユーザが他の説明を要求しない場合や、ユーザは他の説明を要求するが説明生成部１０２が他の説明を生成していない場合には、説明生成部１０２が生成した動作理由の説明を提示したときのユーザの「ポジティブ」でない（又は、「ネガティブ」である）という感情を、テレビ受信装置１００の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース１１２に保存する。

　説明生成部１０２は、ユーザ情報データベース１１２に蓄積された情報を使用して、動作理由の説明を生成する学習済みＤＮＮの再学習を実施する。なお、確度の低い情報を再学習に使用することを避けるために、説明を提示したときのユーザの感情が曖昧な（ポジティブ及びネガティブのいずれの割合も閾値を超えていない）場合には、ユーザ情報データベース１１２に保存しないようにしてもよい。

　説明生成部１０２は、テレビ受信装置１００の動作理由の説明を生成する際、その説明をユーザが好みそうであるかどうか、言い換えれば、ユーザがポジティブ又はネガティブのいずれの反応を示すかを、確率的に推定する。したがって、再学習では、説明生成部１０２は、ユーザ感情推定部１０３によって得られたユーザ情報データベース１１２の情報を使ってその確率を修正することによって、ユーザが納得し易い説明を生成し、ユーザを不快にさせる説明を生成しないように推定の精度を向上することができる。再学習において、ユーザ感情推定部１０３によって得られたユーザ情報データベース１１２の情報を使って、説明生成部１０２で生成する説明に対する反応の確率を修正する処理の具体例を以下に挙げておく。

（１）説明生成部１０２でポジティブな反応が得られると推定され、且つユーザ感情推定部１０３でもポジティブな反応が得られた動作理由の説明は、ユーザに提示することが必須となるので、説明生成部１０２においてポジティブな反応が得られると推定される確率が向上する。
（２）説明生成部１０２ではポジティブな反応が得られる確率が低いと推定されるが、ユーザ感情推定部１０３ではポジティブな反応が得られた動作理由の説明は、ユーザに提示することは有効であり、説明生成部１０２においてポジティブな反応が得られると推定される確率が向上する。
（３）説明生成部１０２ではポジティブな反応が得られる確率が低いと推定され、且つ、ユーザ感情推定部１０３ではネガティブな反応が得られた動作理由の説明は、ユーザに提示することは有効でないので、説明生成部１０２においてポジティブな反応が得られると推定される確率が低下する。
（４）説明生成部１０２ではポジティブな反応が得られるかどうかが不明であるが、ユーザ感情推定部１０３ではポジティブな反応が得られた動作理由の説明は、ユーザに提示することは有効であり、説明生成部１０２においてポジティブな反応が得られると推定される確率が向上する。
（５）説明生成部１０２ではポジティブな反応が得られるかどうかが不明であり、且つ、ユーザ感情推定部１０３ではネガティブな反応が得られた動作理由の説明は、ユーザに提示することは有効でないので、説明生成部１０２においてポジティブな反応が得られると推定される確率が低下する。

　また、説明生成部１０２で生成した動作理由の説明に対する、ユーザ感情推定部１０３におけるユーザの感情の推定が曖昧な場合（ポジティブ及びネガティブのいずれの割合も閾値を超えていない場合）には、ポジティブ又はネガティブの割合に応じて、その説明の説明生成部１０２における確率の上げ幅又は下げ幅を調整するようにしてもよい。例えばポジティブの割合が１００％であれば、説明生成部１０２においてポジティブな反応が得られると推定される確率を大幅に上げるようにする。

　上記のような説明生成部１０２の再学習は、ユーザ感情推定部１０３から推定結果が得られる度に行うようにしてもよいし、ユーザ情報データベース１１２に情報を蓄積して定期的に再学習を行うようにしてもよい（例えば、過去３０日分の情報が蓄積したら再学習を行うようにする）。

Ｆ－２．ユーザの感情の推定処理
　図６には、図５に示したフローチャート中のステップＳ４０９で実行される、ユーザ感情推定部１０３がユーザの感情を推定する処理手順をフローチャートの形式で示している。ここでは、説明の簡素化のため、ユーザの反応としてマイクで収音したユーザの音声を使用し、また、ユーザの感情は、提示した動作理由に対してユーザが好んだか否か（ポジティブ／ネガティブ）という２値で表現されるものとする。また、ユーザ感情推定部１０３は、パラ言語解析ニューラルネットワークや、音声認識ニューラルネットワーク、自然言語処理ニューラルネットワーク、話者認識ニューラルネットワーク、総合ポジティブ・ネガティブ判定ニューラルネットワークなど、学習済みのニューラルネットワークモデルを適宜利用するものとする。

　ユーザ感情推定部１０３は、マイクから音声情報を入力すると（ステップＳ６０１）、入力した音声を、例えば数十ミリ秒毎のフレームに分割して、各フレームから音響特徴量を抽出する（ステップＳ６０２）。

　ユーザ感情推定部１０３は、抽出した音響特徴量から、音量やピッチなどを抽出する（ステップＳ６０３）。また、ユーザ感情推定部１０３は、音声認識ニューラルネットワークを用いて、マイク入力音声の音響特徴量からテキスト情報を推定する（ステップＳ６０７）。また、ユーザ感情推定部１０３は、話者認識ニューラルネットワークを用いて、マイクから入力した音声の話者情報を推定する（ステップＳ６０９）。

　次いで、ユーザ感情推定部１０３は、音響特徴量と、音声認識ニューラルネットワークにより推定されたテキスト情報から、発話速度、イントネーション、リズム、ポーズ、声質といった周辺言語、すなわちパラ言語情報を抽出する（ステップＳ６０４）。そして、ユーザ感情推定部１０３は、パラ言語解析ニューラルネットワークを用いて、マイク入力音声の音響上のポジティブ・ネガティブを判定する（ステップＳ６０５）。

　また、ユーザ感情推定部１０３は、自然言語処理ニューラルネットワークを用いて、言語上のポジティブ・ネガティブを判定する（ステップＳ６０８）。

　そして、ユーザ感情推定部１０３は、総合ポジティブ・ネガティブ判定ニューラルネットワークを用いて、音響上のポジティブ・ネガティブ判定と、言語上のポジティブ・ネガティブ判定と、話者情報から、ユーザの感情がポジティブ又はネガティブのいずれであるかを総合的に判定する（ステップＳ６０６）。

　音声情報を利用してユーザの感情を推定する処理動作について、さらに詳細に説明する。

　マイクから入力された音声情報を、例えば数十ミリ秒単位のフレームに分割して抽出された特徴量から、パラ言語情報、テキスト情報、話者情報を抽出する。話者情報は、音響特徴量と事前に登録されたユーザの音声との相関関係を学習済みの話者情報ニューラルネットワークを用いて推定することができる。また、マイク入力音声のテキスト情報は、テキストと音響特徴量との相関関係を学習済みの音声認識ニューラルネットワークを用いて推定することができる。また、パラ言語情報として、例えば音量やピッチは音響特徴量から計算することができ、且つ、テキスト情報と音響特徴量を使うことで話速を計算することができる。そして、得られたパラ言語情報及びテキスト情報をそれぞれパラ言語解析ニューラルネットワーク及び自然言語処理ニューラルネットワークを用いて解析して、パラ言語情報及びテキスト情報にそれぞれポジティブ及びネガティブな要素がどの程度含まれているかを推定することができる。

　そして、最終的に、総合ポジティブ・ネガティブ判定ニューラルネットワークが、音響上のポジティブ・ネガティブ情報と、言語上のポジティブ・ネガティブ情報と、話者情報に基づいて、マイク入力音声にポジティブ又はネガティブの各要素が含まれる割合を決定する。

　図６に示す処理手順では、音声認識結果に加えてパラ言語情報も使用することによって、例えば「いいんじゃない？」という同じ文言について、話者の言い方によって得られる印象の違いを検出することが可能である。また、図６に示す処理手順では、話者情報も使用することによって、ユーザ毎の音声の特性の個人差を考慮して、ポジティブ・ネガティブの推定を行うことができる。

　図６に示す処理手順では、ユーザ感情推定部１０３は、パラ言語解析ニューラルネットワーク、音声認識ニューラルネットワーク、自然言語処理ニューラルネットワーク、話者認識ニューラルネットワーク、総合ポジティブ・ネガティブ判定ニューラルネットワークなど、複数のニューラルネットワークを活用して、音声情報からユーザの感情を推定する。例えばこれらのニューラルネットワークは、テレビ受信装置１００を利用するユーザ毎に最適化される。

　なお、図６に示すユーザ感情推定処理手順は、基本的に、音声情報のみを利用してユーザの感情を推定する。もちろん、カメラで撮影したユーザの顔画像から表情認識したり、テレビの画面にアンケートを表示してユーザにリモコンボタンなどを使って回答してもらったりするなど、音声以外の情報を利用して、ユーザの感情を推定する方法や、音声情報とユーザの顔画像やアンケートの回答結果を組み合わせて、ユーザの感情を総合的に推定するようにしてもよい。

　図７には、ユーザ感情推定部１０３で使用するこれらのニューラルネットワークを、ユーザ毎に最適化する処理手順をフローチャートの形式で示している。

　まず、大規模データで一般的な音声でのデータ傾向をニューラルネットワークモデルに学習させる（ステップＳ７０１）。この処理は、例えばクラウド上で行うことを想定している。

　大規模データで事前学習が済んだニューラルネットワークモデルは、個別のユーザのテレビ受信装置１００内のユーザ感情推定部１０３に搭載される。ユーザがテレビ受信装置１００を使用していくうちに、使用ログが収集される（ステップＳ７０２）。そして、テレビ受信装置１００において収集されたユーザの使用ログを用いて、ユーザ感情推定部１０３に搭載されたニューラルネットワークモデルの再学習が行われる（ステップＳ７０３）。

　その後、再学習されたニューラルネットワークモデルを使用して、実際にユーザの感情推定が行われる（ステップＳ７０４）。ユーザがテレビ受信装置１００を長く使用すればするほど、使用を通じて収集される使用ログに基づいてニューラルネットワークモデルの再学習が繰り返し行われる。その結果として、ニューラルネットワークモデルを個別のユーザの特性に合わせて最適化することができる。

　パラ言語解析ニューラルネットワークの場合、大規模データで一般的な音声でのデータ傾向として、例えば「怒ったときの音声に特定の傾向がある（音量が上がる、話速が速くなるなど）」といった、音声特徴のデータと感情という正解ラベル情報を使って音声から感情を推定できるようにあらかじめ学習（製品出荷前の事前学習）されているとする。その後、製品を購入した個別のユーザの音声特徴に適合させる再学習のために、機器状態センサー部３４０によってセンシングされるテレビ受信装置１００の使用ログや他の機器の使用状況から、音声特徴と感情のペアのデータを取得する。例えば、「使いづらい」など、言語上ネガティブな意味合いの可能性が高いユーザの音声がマイクから入力されたときに、その音声の特徴をネガティブ情報とのペアで取得して蓄積する。また、「これいいね！」など、言語上ポジティブな意味合いの高いユーザの音声がマイクから入力されたときに、その音声の特徴をポジティブ情報とのペアで取得して蓄積する。このように収集されたデータをパラ言語解析ニューラルネットワークの入力として再学習することで、個別のユーザの音声特徴に適合させることができる。

Ｇ．動作理由の説明の実現例
　この項では、説明生成部１０２で生成した動作理由の説明をユーザに提示する具体例について説明する。

（１）ユーザのテレビの視聴体験を損なわずに動作理由の説明を提示する場合
　例えばユーザ状態センサー部３２０がセンシングした視線情報に基づいて、ユーザのテレビ視聴の集中度を推定することができる。ユーザがテレビ視聴に集中している場合には、動作理由の説明を音声で出力することを控え、画面隅のポップアップ表示で動作理由の説明を提示する。ユーザが詳細表示を要求した場合には、画面上に動作理由の詳細な説明を表示する。
　また、ユーザプロファイルセンサー部３５０がセンシングしたユーザプロファイルに基づいて、視聴中のテレビ番組がユーザの嗜好に合っているかどうかを推定することができる。ユーザがテレビ視聴に集中し、且つユーザの嗜好に合った番組を視聴している場合には、ＣＭ期間を検知して、ＣＭ期間中のタイミングで画面に動作理由の説明を提示する。また、動作理由の説明提示が要求されてから一定時間内にＣＭ期間を検知できなかった場合には、ユーザが所持するスマートフォンやユーザと対話するスマートフォン又はロボットなど、テレビ受信装置１００と連携する他の機器を使って動作理由の説明を提示するようにしてもよい。

（２）テレビ画面を見ていないユーザに動作理由の説明を提示する場合
　ユーザがテレビの前を動き回っていたり、ユーザがスマートフォンや音楽プレーヤーなど他の機器に集中したりしているときには、ユーザはテレビ番組に集中していないと推定することができる。ユーザがテレビの前を動き回ってテレビ番組に集中していない場合には、テレビコンテンツの音量を下げて、音声で動作理由の説明を行う。
　また、ユーザがスマートフォンや音楽プレーヤーなど他の機器を操作してテレビ番組に集中していない場合には、他の機器を使って動作理由の説明を提示するようにしてもよい。他の機器を使ってテレビ画面に着目するようにユーザに通知した上で、テレビ受信装置１００の画面を使って動作理由の説明を提示するようにしてもよい。

（３）複数人のユーザが同席中に動作理由の説明を提示する場合
　説明生成部１０２で生成した説明文を自然言語処理技術によって解析して、説明文にユーザの個人情報（趣味・嗜好、生活習慣など）や機微情報が含まれているかどうかをチェックする。動作理由の説明にユーザの個人情報や機微情報が含まれている場合には、他のユーザも聴くことができるマイク出力や他のユーザも見ているテレビ画面に出力するのを避け、ユーザが所持するスマートフォンやユーザと対話するスマートフォン又はロボットなど、テレビ受信装置１００と連携する他の機器を使って動作理由の説明を提示するようにしてもよい。

Ｈ．感情推定のためのユーザの音声入力の実現例
　ユーザ感情推定部１０３は、提示した動作理由の説明に対するユーザの感情を、主にユーザが発話した音声情報に基づいて推定する。この項では、動作理由の説明に対するユーザの感情を推定するためのユーザの音声を入力する具体例について説明する。

（１）テレビの視聴中にユーザの明瞭な音声を取得する場合
　テレビ受信装置１００に備えられたマイクを使ってユーザの音声を取得する場合、テレビの出力音が入り込むが、エコーキャンセリング技術を使ってユーザの音声だけを抽出して、ユーザの感情を高精度で推定することができる。
　テレビ受信装置１００に複数のマイクを搭載すれば、ビームフォーミングによって雑音のゲインを低減して、ユーザの音声を強調することができる。
　また、動作理由の説明を提示したら、音声ガイダンスや画面表示によってユーザに発話を促し、その間だけテレビの出力音量を下げて、ユーザの音声を抽出し易くするようにしてもよい。
　テレビ受信装置１００本体のマイクの他に、リモコンに搭載したマイク、スマートフォン、スマートスピーカー、ロボットなどテレビ受信装置１００と連携する機器のマイクを利用して、ユーザの音声を収音することができる。周囲環境のノイズレベルに応じて、いずれのマイクを使用するかを判断して、適切なマイクへの発話をユーザに指示する。例えば周囲がうるさい場合には、ユーザの口元に近いスマートフォンのマイクを指定して、ユーザに発話を促すようにすればよい。

（２）ユーザの音声をうまく習得できない場合
　音声合成技術を利用して、申し訳なさそうな音声を生成して、ユーザに再度発話を促すようにする。音声の取得に失敗した原因がテレビの出力音以外にある場合には、ユーザに環境の改善（ゆっくり話してほしいなど）をお願いするようにしてもよい。

（３）テレビの視聴体験を損なわないようにユーザの音声を取得する場合
　ユーザがテレビ視聴に集中し、且つユーザの嗜好に合った番組を視聴している場合には、提示した説明に対するユーザの反応を取得する優先度を下げるようにしてもよい。例えばユーザが番組視聴に特に集中している場合、いかなる通知情報の提示も邪魔に感じる可能性があるが、その際に得られたユーザの感情推定の結果は普段のテレビ視聴の際に得られる感情推定の結果と大きく異なることが考えられる。そのような場合には、スマートフォンなど他の端末に反応取得に関する通知を残しておいてもよいし、ユーザの反応を取得することを必須としなくてもよい。

（４）説明の内容に対する感想のみを抽出する場合
　動作理由の説明に関する感想を音声入力で自由に受け付けた場合、説明の内容に対する感想、又は説明の提示方法に対する感想のいずれであるかを識別する必要がある。説明の内容に対する感想のみを抽出できれば、説明生成部１０２が説明の生成に成功したかどうかを評価し、説明生成部１０２の再学習に使用することができる。そこで、ユーザ感情推定部１０３は、直近の説明提示の出力先の情報と、音声認識結果を組み合わせて、ユーザの音声が説明の内容又は説明の提示方法のいずれに対する感想であるかを推定する。例えば、直近で説明生成部１０２が説明提示の方法を工夫した場合には、ユーザの音声は、説明提示方法に対する反応である可能性がある。ユーザが何に対して反応したのかを、ユーザに問い合わせるようにしてもよい。また、ユーザの音声がいずれに対する感想であるかを識別できない場合には、今回のデータを説明生成部１０２の再学習に使用しないように判断してもよい。一方、説明生成部１０２が直近で（又はしばらくの間）説明提示の方法を変更していない場合には、ユーザの音声は説明の内容に対する反応であると判断して、ユーザ感情推定部１０３はユーザの感情を推定するようにしてもよい。

（５）音声のみでユーザの感情を推定することが困難な場合
　音声のみでユーザの感情を推定することが困難な場合には、ユーザ感情推定部１０３がユーザの反応を取得する方法を音声入力から画面上での選択形式に変更するようにしてもよい。例えば、音声による話者性の抽出と感情推定の結果、特定のユーザにおいてポジティブとネガティブの割合がどちらも閾値を超えない（又は、常にニュートラルとしか判定されない）ことにより、提示した説明に対して正解ラベルを付与できない状態が一定期間又は一定の割合続いた場合には（例えば、１か月間同じ状態や、ユーザが説明提示を要求した回数に対して８割以上正解ラベルを付与できない場合）、ユーザの反応を取得する方法を音声入力から画面上での選択形式に変更する。例えば、「納得した」、「説明の意味がよく分からない」、「他の説明を見たい」の３つの選択肢を提示して、ユーザにリモコン操作などによって選択してもらうようにする。

Ｉ．動作理由の説明提示のための動作
　この項では、図３に示した機能的構成に基づいて、テレビ受信装置１００の自動操作の理由を説明するための、説明生成部１０２を中心とした具体的な動作について説明する。

Ｉ－１．動作理由の問い合わせと動作履歴との紐付け
　ユーザがテレビ受信装置１００の自動操作の理由を問い合わせるさまざまな方法が挙げられる。例えば、ユーザが操作入力部２２２又はリモコンの操作により問い合わせるようにしてもよいし（「動作理由問合せ」ボタンを設置してもよい）、テレビ受信装置１００の音声エージェント機能を利用してユーザが音声で問い合わせるようにしてもよい（「今どうしてそんなことしたの？」と尋ねるなど）。

　なお、テレビ受信装置１００がニューラルネットワークモデルを利用した人工知能機能に基づく自動操作であることを、画面や音声ガイダンスによってユーザに明示するようにしてもよい。図８には、人工知能機能の判断により音量調整を行ったことを示す特定のマーク８０１を、テレビ画面に表示した例を示している。なお、画面ではなく、ＬＥＤ（Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）を使って特定のパターンや色で発光することによって、人工知能機能による自動操作が行われたことをユーザに通知するようにしてもよい。同様に、動作理由の提示が人工知能機能に基づくものであることを、マーク８０１や発光表現などの手段によってユーザに提示してもよい。

　ユーザが動作理由の説明を要求した場合、テレビ受信装置１００が行ったどの自動操作に対して動作理由の説明を求めているのかを特定する必要がある。図３に示した機能的構成では、説明生成部１０２は、動作履歴メモリ１１１から直近の動作を読み出す。ユーザがどの自動操作に対して動作理由の説明を求めているのかを特定できない場合には、説明の提示を求めている対象となる動作をユーザに明示してもらうようにしてもよい。

　例えば、動作履歴メモリ１１１が保存している動作履歴の情報をテレビ画面に表示して、ユーザにその中から説明の提示を要求する動作を選択してもらうようにしてもよい。動作履歴メモリ１１１は、テレビ受信装置１００が人工知能機能に基づく自動操作で実行した動作と実行した時刻を保存している。例えば、図９に示すように、動作履歴メモリ１１１から読み出した動作履歴のリストをテレビ画面に表示する。そして、ユーザはリモコンのカーソルボタンなどを使って説明の提示を要求する動作を選択することができる。このようにして、ユーザが動作理由の説明を求めている動作を特定することができる。

Ｉ－２．説明生成部の推論と学習
　説明生成部１０２は、ユーザからの説明提示の要求があった場合に、動作決定部１０１が決定したテレビ受信装置１００の動作に対してユーザが好みそうな（又は、ユーザが納得し易い）理由の説明を生成する。説明生成部１０２は、動作理由の説明提示がユーザから求められると、１つの動作に対して説明を１つ以上生成してユーザに提示する。そして、ユーザ感情推定部１０３で推定したユーザの反応を正解ラベルとして、説明を推論するＤＮＮの再学習を行う。このような動作理由の説明生成とＤＮＮの再学習というサイクルを繰り返すことによって、説明生成部１０２は各ユーザにとって分かり易い説明を生成するようになっていく。

　図１０には、ユーザがテレビ受信装置１００を使い始めて間もない状態での説明生成部１０２の動作例を示している。ここでは、説明の簡素化のため、動作歴メモリ１１１には決定した動作と併せてセンシング結果に基づいて動作を決定するに至った推論履歴が保存されているものとする。

　例えば動作決定部１０１がテレビの音量を自動で下げるという動作を決定したとき、動作履歴メモリ１１１には、動作決定部１０１が決定した動作「テレビの音量を下げた」と、動作決定部１０１が動作を推論した１以上の理由（図１０に示す例では、「時刻が２２時を過ぎた」、「テレビの前に居るユーザは１名」、「ユーザの視線はテレビを向いていない」、「ユーザにおすすめの番組は放送されていない」の４つの理由）が保存される。

　ここで、ユーザから「テレビの音量を下げた」動作の理由の説明が求められた場合、説明生成部１０２は、この動作に対する理由となる情報を収集する。図１０に示す例では、説明生成部１０２は、「時刻が２２時を過ぎた」、「テレビの前に居るユーザは１名」、「ユーザの視線はテレビを向いていない」、「ユーザにおすすめの番組は放送されていない」の４つの理由を収集する。

　ユーザがテレビ受信装置１００を使い始めて間もないこの時点では、説明生成部１０２は、どのような動作理由の説明がユーザの好みに合っているかを推定するための学習が十分でない。このため、説明生成部１０２は、動作決定部１０１における動作の決定に最も寄与した割合の高い順や、動作履歴メモリ１１１に書き込まれている順番、あるいはランダムに、複数の動作理由のいずれかを選択して、説明を生成して、画面やスピーカーなどの出力部を使ってユーザに説明を提示する。図１０に示す例では、説明生成部１０２は、「時刻が２２時を過ぎた」、「テレビの前に居るユーザは１名」、「ユーザの視線はテレビを向いていない」、「ユーザにおすすめの番組は放送されていない」という各動作理由から、それぞれ「時刻が２２時を過ぎなので」、「テレビの前に１人しかいなかったので」、「テレビに注目していなかったので」、「おすすめの番組が放送されていないので」という説明文をそれぞれ生成し、このうち「時刻が２２時過ぎなので」という動作理由を選択すると、テレビ画面を使って「時刻が２２時過ぎなので音量を下げました」という説明文が表示される。

　説明生成部１０２は、あらかじめ決められた数の説明を生成するようにしてもよいし、動作理由の数に応じて生成する説明の数を変化させるようにしてもよい。

　説明生成部１０２が生成した説明を、１つずつ順番にユーザに提示していく。そして、ユーザ感情推定部１０３は、説明を提示したときのユーザの反応を推定する。ユーザがポジティブな反応を示せば、動作理由の説明の提示は終了する。また、説明を提示したときのユーザがネガティブな反応を示し、又は感情推定結果の確度が低い場合には、説明生成部１０２が生成した動作理由の他の説明を提示する。

　また、ユーザに提示した説明とそれに対するユーザの反応を、テレビ受信装置１００の動作及びその動作理由の説明と対応付けて、再学習のためにユーザ情報データベース１１２に逐次保存する。図１０に示す例では、「テレビの音量を下げた」という自動操作に対する動作理由の説明として「時刻が２２時を過ぎなので」、「テレビの前に１人しかいなかったので」、「テレビに注目していなかったので」が順にユーザに提示されたが、「時刻が２２時を過ぎなので」と「テレビの前に１人しかいなかったので」という１番目及び２番目の説明に対するユーザの反応はともにネガティブであり、「テレビに注目していなかったので」という３番目の説明に対するユーザの反応はポジティブであったことが、ユーザ情報データベース１１２に保存される。

　図１１には、説明生成部１０２の学習時の動作例を示している。

　動作決定部１０１が決定した動作をテレビ受信装置１００で自動実行し、ユーザがその動作理由の説明を要求するというサイクルが複数回繰り返されると、テレビ受信装置１００の動作理由に対する説明とそれに対するユーザの反応がユーザ情報データベース１１２に蓄積されていく。図１１に示す例では、以下の３種類の自動動作に対する動作理由の説明及びユーザの反応に関する情報が、ユーザ情報データベース１１２に蓄積されている。

動作１：テレビの電源を入れた
動作理由の説明と反応：
１．ユーザがテレビの画面を一定期間見つめていた
→ポジティブな反応、説明提示終了

動作２：自動で録画を開始した
動作理由の説明と反応：
１．過去に頻繁に録画されていたので
→ネガティブな反応、次の説明を要求
２．複数ユーザが対話中でテレビに注目できていなかったので
→ポジティブな反応、説明提示終了

動作３：テレビの音量を下げた
動作理由の説明と反応：
１．時刻が２２時過ぎなので
→ネガティブな反応、次の説明を要求
２．テレビ前に１人しかいなかったので
→ネガティブな反応、次の説明を要求
３．テレビに注目していなかったので
→ポジティブな反応、説明提示終了

　説明生成部１０２では、ユーザ感情推定部１０３によるユーザの感情推定結果（特に、ポジティブ又はネガティブが所定の割合を超えて、確度が高い推定結果）を正解ラベルとして、どのような説明をユーザが納得するのかの規則性を学習していく。例えば、学習の結果、「このユーザは、テレビ周辺の環境のセンシング結果を理由とする説明を提示すると納得し易い」という傾向が見いだされる。

　図１２には、学習が進んだ状態での説明生成部１０２の動作例を示している。

　テレビ受信装置１００において自動で字幕が表示される動作理由について、ユーザから説明が要求されたとする。説明生成部１０２は、動作履歴メモリ１１１から、字幕を自動で表示したという動作に対する動作理由に関する情報を読み出す。動作理由として、「この番組では字幕をオンにする頻度が高い」、「テレビ周辺の雑音レベルが高い」、「字幕をよく使うユーザがテレビの前に居る」の３つが読み出されたとする。

　そして、説明生成部１０２は、動作の推論過程とユーザが好む説明の傾向に基づいて、１以上の動作理由の説明候補を説明する。ここでは、学習の結果として「このユーザは、テレビ周辺の環境のセンシング結果を理由とする説明を提示すると納得し易い」という傾向が見いだされており、収集した動作理由から、説明の第１候補として「テレビ周辺の雑音レベルが高いので」、第２候補として「字幕をよく使うユーザが見ているので」、第３候補として「この番組では字幕オンにする頻度が高いので」という説明文が生成される。図１２に示す例では、説明の第１候補の「テレビ周辺の雑音レベルが高いので」が選択され、テレビ画面を使って「テレビ周辺でなっているノイズが大きかったので字幕を表示しました」という説明文が表示されている。

　説明生成部１０２が生成した説明を、候補の順に１つずつユーザに提示していく。そして、ユーザ感情推定部１０３は、説明を提示したときのユーザの反応を推定する。ユーザがポジティブな反応を示せば、動作理由の説明の提示は終了する。また、説明を提示したときにユーザがネガティブな反応を示し、又は感情推定結果の確度が低い場合には、説明生成部１０２が生成した次の候補の説明を提示する。また、ユーザに提示した説明とそれに対するユーザの反応を、テレビ受信装置１００の動作及びその動作理由の説明と対応付けて、再学習のためにユーザ情報データベース１１２に逐次保存する。

　これまでの説明では、説明生成部１０２は、複数説明した説明文の候補を、学習結果に基づいて並べ替えて、ユーザの反応に応じて順に提示していくというものであった。さらに説明生成部１０２は、同じ説明の内容であっても、説明に用いる文言など説明文の表現方法をユーザの好みに応じて変更するようにしてもよい。例えば、説明生成部１０２は、ユーザ毎に、説明に用いる言葉を平易なものに言い換えたり、説明の粒度を粗く又は細かく変化させたりするようにしてもよい。

　また、これまでの説明では、説明生成部１０２は、「テレビ周辺の環境のセンシング結果に基づいて説明すると納得し易い」、「ユーザの習慣に基づいて説明すると納得し易い」など、ユーザ毎の傾向を学習するものであった。さらに説明生成部１０２は、音声による提示、画面上で文字による提示、画面上で図を使って提示などユーザが好む説明の提示方法を学習して、同じ説明の内容であってもユーザ毎に説明の提示方法を変更するようにしてもよい。

　また、説明生成部１０２は、ユーザが好む説明の文言や説明の提示方法の傾向を学習するために、感情推定部１０３が推定した過去のユーザのポジティブ又はネガティブの反応だけではなく、ユーザプロファイルセンサー部３５０がセンシングするユーザのプロファイル情報（ユーザの機器の使用履歴や、ＳＮＳの投稿又は閲覧履歴を含む）を学習データに用いてもよい。

　このように図３に示した機能的構成によれば、ユーザがテレビ受信装置１００を使用していく過程で、テレビ受信装置１００が自動操作を実施し、ユーザの要求に応じて動作理由の説明を提示する度に、ユーザの反応を取得して学習を繰り返すことで、ユーザが納得し易い動作理由、説明文の表現方法、説明の提示方法を使ってユーザに動作理由を説明することが可能となる。

Ｊ．動作決定を含めた学習
　これまでは、テレビ受信装置１００が、図３に示した機能的構成により、自動操作を行ったときの動作理由の説明提示をユーザ好みに適合させるように学習する点について説明してきた。さらに、テレビ受信装置１００がユーザの好みに適合した自動操作を行うように、動作決定部１０１の学習を併せて行うことも可能である。

Ｊ－１．全体フロー
　図１３には、テレビ受信装置１００が操作の自動化及び動作理由の説明を行うための全体的な処理手順をフローチャートの形式で示している。図４及び図５に示した処理手順との主な相違点は、動作決定部１０１による自動操作と、説明生成部１０２による動作理由の説明提示の各々について学習を行う点である。

　まず、動作決定部１０１は、センシング機能部３００（図２を参照のこと）によるユーザの状態や周辺環境のセンシング結果に基づいて、学習済みＤＮＮ（前述）の推論によって、テレビ受信装置１００の動作を決定する（ステップＳ１３０１）。

　そして、動作決定部１０１は、決定した動作を動作履歴メモリ１１１に保存する（ステップＳ１３０２）。動作決定部１０１は、センシング結果に基づいて動作を決定するに至った推論履歴を、決定した動作と併せて動作履歴メモリ１１１に保存するようにしてもよい。

　主制御部２０１は、動作決定部１０１が決定した動作を実現するための制御信号を、テレビ受信装置１００内の該当する機能モジュールに送り、自動操作を実施する（ステップＳ１３０３）。

　次いで、ユーザ感情推定部１０３は、動作決定部１０１が決定した動作がテレビ受信装置１００で実施されたときのユーザの反応を取得して（ステップＳ１３０４）、ユーザの感情の推定を試みる（ステップＳ１３０５）。ここでは、説明の簡素化のため、ユーザの感情は、テレビ受信装置１００が実施した動作に対してユーザが好んだか否か（ポジティブ／ネガティブ）という２値で表現されるものとする。

　ユーザの感情を推定することができない場合には（ステップＳ１３０５のＮｏ）、動作決定部１０１並びに説明生成部１０２の学習の実施を諦めて、ステップＳ１３０１に戻り、センシング結果に基づくテレビ受信装置１００の動作決定を繰り返し行う。

　ユーザの感情を推定することができた場合には（ステップＳ１３０５のＹｅｓ）、ユーザ感情推定部１０３が推定したユーザの感情がネガティブかどうかをチェックする（ステップＳ１３０６）。ユーザの感情がネガティブでない場合（又は、ポジティブな場合）には（ステップＳ１３０６のＮｏ）、ユーザは動作決定部１０１が決定したテレビ受信装置１００の動作に不満はなく、動作決定部１０１を再学習したり、テレビ受信装置１００の動作理由の説明を提示したりする必要はない。したがって、この場合には、ステップＳ１３０１に戻り、センシング結果に基づくテレビ受信装置１００の動作決定を繰り返し行う。

　一方、テレビ受信装置１００が実施した動作に対するユーザの感情がネガティブな場合（又は、ポジティブでない場合）には（ステップＳ１３０６のＹｅｓ）、ステップＳ１３０３で実施したテレビ受信装置１００の自動操作に対して、ユーザに動作理由の説明を提示する必要があると考えられる。そこで、説明生成部１０２は、学習済みＤＮＮ（前述）の推論によって、説明提示が要求されたテレビ受信装置１００の動作理由に関してユーザが好みそうな説明を生成して、生成した動作理由の説明を、例えばテレビ受信装置１００が備える出力手段（スピーカーや画面など）を用いてユーザに提示する（ステップＳ１３０７）。

　次いで、ユーザ感情推定部１０３は、説明生成部１０２が生成した説明を提示したときのユーザの反応を取得して（ステップＳ１３０８）、ユーザの感情の推定を試みる（ステップＳ１３０９）。

　ユーザの感情を推定することができない場合には（ステップＳ１３０９のＮｏ）、説明生成部１０２の学習の実施を諦めて、ステップＳ１３０１に戻り、センシング結果に基づくテレビ受信装置１００の動作決定を繰り返し行う。

　ユーザの感情を推定することができた場合には（ステップＳ１３０９のＹｅｓ）、ユーザ感情推定部１０３が推定したユーザの感情がネガティブかどうかをチェックする（ステップＳ１３１０）。ユーザの感情がネガティブでない場合（又は、ポジティブな場合）には（ステップＳ１３１０のＮｏ）、ユーザは動作決定部１０１が決定したテレビ受信装置１００の動作と説明生成部１０２が生成した動作理由の説明に不満はなく、動作決定部１０１や説明生成部１０２を再学習する必要はない。したがって、この場合には、ステップＳ１３０１に戻り、センシング結果に基づくテレビ受信装置１００の動作決定を繰り返し行う。

　一方、提示した説明に対するユーザの感情がネガティブな場合（又は、ポジティブでない場合）には（ステップＳ１３１０のＹｅｓ）、動作決定部１０１や説明生成部１０２を再学習する必要がある。そこで、ユーザ感情推定部１０３は、説明生成部１０２が生成した動作理由の説明を提示したときのユーザの「ネガティブ」であるという感情を、テレビ受信装置１００の動作及びその動作理由の説明と対応付けて、ユーザ情報データベース１１２に保存する（ステップＳ１３１１）。そして、ユーザ情報データベース１１２に蓄積された情報を使用して、動作決定部１０１は動作を決定する学習済みＤＮＮの再学習を実施するとともに、説明生成部１０２は動作理由の説明を生成する学習済みＤＮＮの再学習を実施する（ステップＳ１３１２）。

　動作決定部１０１及び説明生成部１０２の再学習を行う処理手順について、さらに詳細に説明する。

　テレビ受信装置１００は、動作決定部１０１が決定した動作を自動実行する。この動作に対するユーザの反応がネガティブであった場合のみ、ユーザに説明の提示が必要であると判断して、説明生成部１０２は動作理由の説明の生成処理を行い、ユーザに説明を提示する。

　例えば、テレビ受信装置１００が周囲の雑音に応じて音量を自動で上げたときに、ユーザがリモコンで音量を下げる操作を行った。また、テレビ受信装置１００が環境に合わせて画面輝度を変更したときに、ユーザが画面輝度を元に戻す操作を行った。このように、テレビ受信装置１００の自動操作に対してユーザが否定的な操作を行った場合には、ユーザには動作理由を説明する必要があると判断することができる。

　なお、ユーザの反応がポジティブな場合にもユーザに動作理由の説明を提示することも可能である。但し、ユーザが好む自動操作が行われているときに敢えて説明を提示すると、ユーザのテレビ番組の視聴を妨げる恐れがある。

　また、テレビ受信装置１００の自動操作に対する動作理由について、説明を提示したときにユーザの反応がネガティブであった場合には、ユーザが好む自動操作が行われるように動作決定部１０１を再学習し、又はユーザが納得し易い動作理由の説明を提示できるように説明生成部１０２の再学習を行う。また、動作決定部１０１又は説明生成部１０２のいずれか一方のみが再学習されるようにしてもよい。動作決定部１０１又は説明生成部１０２のいずれについて再学習を行うべきかを、提示した説明に対するユーザの反応に基づいて判断するようにしてもよい。

　例えば、テレビ受信装置１００が環境に合わせて画面輝度を変更し、「外光に合わせて輝度を変更しました」という説明を画面又は音声で提示したときに、ユーザが「やめて」と言った場合、動作決定部１０１は、この外光状況では輝度を調整しない、と学習する。また、ユーザが「やめて」と言ったことに対して、「処理を停止しますか？」とユーザに問い合わせ、ユーザから「はい」という返事があった場合には、環境に合わせて画面輝度を変更するという自動操作に対してユーザがネガティブであることが確認できるので、動作決定部１０１は、環境に合わせて画面輝度を変更する処理はこれ以降行わないことを学習する。

　また、テレビ受信装置１００が周囲ノイズに応じて音量を自動で上げたときに、ユーザがもっと音量を上げるリモコン操作を行ったことも、自動操作に対するユーザのネガティブな反応である。このような場合、動作決定部１０１は、周囲ノイズに応じて音量をもっと上げるように学習する。

Ｊ－２．ユーザ操作を利用した再学習
　図１３に示した処理手順では、テレビ受信装置１００の自動操作に対するユーザの反応がネガティブである場合にその動作理由の説明がユーザに提示され、さらに提示された説明に対してユーザの反応がネガティブである場合に、動作決定部１０１及び説明生成部１０２でそれぞれ使用する学習済みＤＮＮの再学習が行われる。ユーザがリモコン操作などによって再学習時の学習内容を設定するようにしてもよい。

　例えば、センサー部３５０のセンシング結果に基づいて「テレビ周辺の雑音レベルが高い」という事象が検出されたことにより、テレビ受信装置１００において字幕をオンにする自動操作が実施されたとする。図１４には、動作理由の説明を提示する画面の構成例を示している。字幕の自動表示に対してユーザがネガティブな反応を示した場合には、図１４中の参照番号１４０１で示すように、画面の右下隅に「テレビ周辺の雑音レベルが高いため字幕を表示しました」という動作理由の説明が提示される。なお、画面の隅に説明を提示するのは、ユーザのテレビ番組の視聴を妨げないようにするためであるが、もちろん画面の中央に説明を大きく表示するようにしてもよい。その際、画面上に説明が提示されている間は、ユーザが表示された説明をリモコン操作で選択して、決定ボタン（ＯＫボタン）などのボタンを押すことで学習内容に関する設定画面へ遷移するようにされてもよいし、ユーザが設定を望む旨を音声入力で示すことによって、学習内容に関する設定画面へ遷移するようにされてもよい。

　このとき、ユーザがリモコン操作などによって再学習時の学習内容を設定することを通知すると、図１５に示すように、自動操作について再学習するための学習内容を設定するための画面に遷移する。図１５に示す例では、参照番号１５０１で示すように、画面の上段に動作理由の説明「以下の理由により字幕を表示しました：　テレビ周辺の雑音レベルが高い」が表示され、参照番号１５０２で示すように、画面の中段にこの動作理由に基づく自動操作の停止をユーザが意思表示するボタン「この理由に基づく処理を停止する」が表示される。また、参照番号１５０３で示すように、画面の下段に、同様の処理を行う他の理由「以下の場合に同様の処理を行います：　字幕をよく使うユーザが見ている／字幕オンにする頻度が高い番組である」を併せて提示するようにしてもよい。そして、ユーザがリモコンやタッチパネルの操作によりボタン１５０２を選択すると、テレビ受信装置１００は、これ以降同様の理由で同じ処理を行わないように、再学習が実施される。また、表示された参照番号１５０３の提示に対する選択や決定などの操作に基づいて、参照番号１５０３に提示された各理由に関する設定画面に遷移して、上記で説明した参照番号１５０１の理由に対する設定操作と同様の操作をユーザが行えるようにしてもよい。

　また、図１６には、動作理由の説明を提示する画面の他の構成例を示している。字幕の自動表示に対してユーザがネガティブな反応を示した場合には、図１６中の参照番号１６０１で示すように、画面の中央に「テレビ周辺で鳴っているノイズが大きかったので字幕を表示しました」という動作理由の説明が提示される。また、ユーザが画面の中央に表示された説明では納得しないときのために、参照番号１６０２で示すように、画面の下段には「［他の理由を提示］」と表示された、動作理由の他の説明を要求するボタンが表示される。

　このとき、ユーザがリモコンやタッチパネルの操作によりボタン１６０２を選択すると、図１７に示すように、動作理由の説明について再学習するための学習内容を設定するための画面に遷移する。図１７に示す例では、参照番号１７０１～１７０３で示すように、画面の上段には、字幕の自動表示に関する他の３種類の動作理由の説明「テレビ周辺の雑音レベルが高い」、「字幕をよく使うユーザが見ている」、「この番組では字幕オンにする頻度が高い」が表示される。ユーザは、例えばリモコンのカーソルボタンの操作を使ってこれら３種類の動作理由の説明のいずれか１つを選択することができる。図１７では、２番目の説明「字幕をよく使うユーザが見ている」が選択されて、ハイライト表示されている。また、ユーザが選択中の説明の直下には、字幕自動表示に対する動作理由の説明として指定するボタン１７０４、並びに、この説明の重要度を上げることを指定するボタン１７０５が表示される。そして、ユーザがリモコンやタッチパネルの操作によりボタン１７０４又は１７０５のいずれかを押すと、そのボタンが示す処理が動作理由の説明について再学習するための学習内容として設定される。同様に、参照番号１７０１や１７０３などの他の説明を選択することで、上記で説明した参照番号１７０２の理由に対する設定操作と同様の操作をユーザが行えるようにしてもよい。

Ｋ．他の機器を使った説明提示
　これまでは、テレビ受信装置１００で行われた自動操作に対する動作理由の説明を、テレビ受信装置１００の画面やスピーカーを用いてユーザに提示する実施形態を中心に説明してきた。変形例として、ユーザが所持するスマートフォンやユーザと対話するスマートフォン又はロボットなど、テレビ受信装置１００と連携する他の機器を使って動作理由の説明を提示することもできる。

　例えば、説明生成部１０２は、テレビ受信装置１００やスマートフォン、スマートスピーカー、ロボットなどを使って動作理由の説明を提示したときのユーザの反応からユーザの感情を推定した結果に基づいて、ユーザ毎に、あるいは動作理由毎に、説明の提示に使用する最適な機器がどれであるかを学習する。

　また、説明生成部１０２は、スマートフォンなど画面サイズが小さい機器を使って説明を提示する際に、適切な文字数や説明の粒度を学習するようにしてもよい。また、例えば有機ＥＬディスプレイなどを使った巻取り式ディスプレイの場合、提示する説明の内容（例えば、説明文の文字数や説明に使用する画像など）に応じてディスプレイの最適な引き出し量を学習するようにしてもよいし、ディスプレイの引き出し量に応じて説明の内容を学習するようにしてもよい。情報量が多い説明を好むユーザに説明を提示する場合には、より多くの情報を表示できるようにディスプレイの引き出し量が大きくなるように学習することになる。例えば、機器状態センサー部３４０によって現在のディスプレイの引き出し量を取得して、説明の内容の学習や表示する説明の内容の決定を行ったり、適切なディスプレイの引き出し量の決定を行ったりするようにされてもよい。

Ｌ．他の機器への応用例
　本開示は、ＤＮＮが搭載された機器における自動動作の理由を、ユーザにとって理解し易く説明する機器に関する技術である。すなわち、本開示を適用する機器は、自動操作を行った際に、ユーザの要求に応じて、ユーザが受け入れ易い（又は、ユーザがポジティブな反応を示す）説明文や説明の提示方法を学習する。上記では、本開示を適用する機器の具体例としてテレビ受信装置を挙げたが、エアコン、冷蔵庫、洗濯機、オーディオ機器、照明機器、スマートスピーカーなどのさまざまな家電機器や、カーナビゲーションシステム、自動運転車や無人航空機（ドローンなど）といった移動体装置にも適用することができる。

　以下では、本開示をカーナビゲーションシステムの音声ガイダンスに適用した実施例について説明する。

　図１８には、車両に搭載されたカーナビゲーションシステムとその車両の運転手の間で行われた、ナビゲーションに関する対話例を示している。

　運転手が（対話１）でＡ動物園までのルート設定を指示すると、カーナビゲーションシステムは（対話２）でＢ駅経由のルートを設定したことを通知する。そして、運転手が（対話３）で「Ｂ駅経由？なんで？」と言ったことを、カーナビゲーションシステムは、自動ルート設定した理由の説明を要求されたと解釈して、（対話４）及び（対話６）で「Ｃ市役所周辺の渋滞により、Ｂ駅経由の方が他のルートよりおよそ３分早く目的地まで到着します」とルート設定についての１つ目の理由を説明する。これに対し、運転手が（対話５）で「うん」と相槌を打つと、カーナビゲーションシステムは、さらに「また、Ｂ駅経由の方が他のルートよりも起伏が少なく、およそ１ｋｍ／Ｌ燃費がいいです」と連続してルート設定についての２つ目の理由を説明する。運転手が（対話７）で２つ目の理由の説明に対して「もういいよ」と言うと、カーナビゲーションシステムはこれを運転手が説明の提示に対してポジティブに反応したと推定して、（対話８）で「案内を開始します」と告げて、理由の説明を終了する。また、カーナビゲーションシステムは、以後の同様のやり取りでの説明の提示に関して、例えば以下の（１）又は（２）を学習する。

（１）運転手が到着時間の説明に関してポジティブに反応したと推定して、以後の類似の対話では到着時間情報を理由の説明として提示するように学習する。
（２）運転手は複数の説明の提示を好まず、又は手短な説明を好むと推定して、以後の類似のやり取りでは理由の説明を１つだけ提示するように学習する。

　図１９には、車両に搭載されたカーナビゲーションシステムとその車両の運転手の間で行われた、ナビゲーションに関する他の対話例を示している。

　運転手が（対話１）でＡ動物園までのルート設定を指示すると、カーナビゲーションシステムは（対話２）でＢ駅経由のルートを設定したことを通知する。そして、運転手が（対話３）で「Ｂ駅経由？なんで？」と言ったことを、カーナビゲーションシステムは、自動ルート設定した理由の説明を要求されたと解釈して、（対話４）で「Ｃ市役所周辺の渋滞により…」とルート設定した理由を説明する。運転手が説明の途中に割り込んで、（対話５）で「早く着くんだね。ＯＫ」と言うと、カーナビゲーションシステムは提示した説明に対して運転手がポジティブに反応したと推定して、（対話６）で「案内を開始します」と告げて、理由の説明を終了する。また、カーナビゲーションシステムは、以後の同様のやり取りでの説明の提示に関して、例えば以下の（１）又は（２）を学習する。

（１）以後の類似の対話では、Ｘ周辺渋滞のために、Ｙルートを選択したこと
（２）（Ｚ分）早く着くため、Ｙルートを選択したことを理由の説明として提示するように学習する。カーナビゲーションシステムが提示した説明に対する運転手からの反応があるまでのカーナビゲーションシステムの発話内容に基づいて、「Ｘ周辺渋滞のため」という説明を学習し、また、「早く着くんだね」と発話した運転手の反応に基づいて、「（Ｚ分）早く着くため」という説明を学習する。

　また、カーナビゲーションシステムは、運転手が説明の途中に割り込んできたことから、運転手は長い説明を好まないことを学習し、その他の動作理由の説明に関しても短く簡潔な説明を提示するように学習する。例えば、「Ｂ駅経由の方が他のルートよりも起伏が少なく、およそ１ｋｍ／Ｌ燃費がいいです」という長い説明を、「燃費がよいのでＹルートを選択」のように簡潔な説明にするように学習する。なお、学習の結果として説明の粒度を粗くした場合には、説明の文字数が短くなるので、音声ではなく、ヘッドアップディスプレイやインパネに説明を提示するようにしてもよい。

　図２０には、車両に搭載されたカーナビゲーションシステムとその車両の運転手の間で行われた、ナビゲーションに関するさらに他の対話例を示している。

　運転手が（対話１）でＡ動物園までのルート設定を指示すると、カーナビゲーションシステムは（対話２）でＢ駅経由のルートを設定したことを通知する。そして、運転手が（対話３）で「Ｂ駅経由では遠いんじゃない？」と言ったことを、カーナビゲーションシステムは、自動ルート設定に対してネガティブに反応したと解釈して、（対話４）で「Ｃ市役所周辺の渋滞により、Ｂ駅経由の方が他のルートよりおよそ３分早く目的地まで到着します」とルート設定の理由を説明する。運転手が（対話５）でこのルート設定の理由の説明に対して「そのルートは道が狭いから嫌だな」と言うと、カーナビゲーションシステムはこれを運転手がルート設定の理由の説明に対してネガティブに反応したと推定して、（対話６）で「Ｄ消防署経由のルートにしますか？」と他のルート設定を提案する。そして、運転手が（対話７）で「お願い」といったことから、カーナビゲーションシステムは提案したルートに運転手がポジティブに反応したと推定して、（対話８）で「案内を開始します」と告げて、そのルートに設定する。また、カーナビゲーションシステムは、以後の同様のやり取りでのルート設定に関して、例えば以下の（１）又は（２）を学習する。

（１）Ｂ駅周辺を通るルートを避ける（又は、Ｂ駅周辺を通るルートの優先度を下げる）
（２）狭い道を通るルートを避ける（又は、狭い道を通るルートの優先度を下げる）

　なお、例えば（対話５）でユーザが説明の内容に対してネガティブに反応したと解釈された場合には、カーナビゲーションシステムは、他の説明があれば、（対話６）でルート設定に対する他の理由を提示する。

　また、一実施例として、本開示が人型や動物型、球形、円柱形のものを含むロボットやディスプレイに表示されたキャラクターによって実施されてもよい。例えば、ユーザに対する説明の提示が、人型ロボットやディスプレイに表示された人型キャラクターの身振りで表現されてもよいし、動物型ロボットやディスプレイに表示された動物型キャラクター、又はその他の形状のロボットやキャラクターの動作によって表現されてもよい。

　以上、特定の実施形態を参照しながら、本開示について詳細に説明してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

　本明細書では、本開示をテレビ受信装置に適用した実施形態を中心に説明してきたが、本開示の要旨はこれに限定されるものではない。本開示は、内部処理にＤＮＮを適用して自動動作を行うさまざまな機器に、同様に適用することができる。例えば、エアコン、冷蔵庫、洗濯機、オーディオ機器、照明機器、スマートスピーカーなど、さまざまな家電機器に本開示を適用することができる。また、本開示は、カーナビゲーションシステム、自動運転車や無人航空機（ドローンなど）といった自律動作する移動体装置にも適用することができる。

　要するに、例示という形態により本開示について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示の要旨を判断するためには、特許請求の範囲を参酌すべきである。

　なお、本開示は、以下のような構成をとることも可能である。

（１）センサー情報に対応する制御対象装置の処理を決定する決定部と、
　前記処理に対する理由の説明を生成する生成部と、
　ユーザの反応に対する推定を行う推定部と、
を具備し、
　前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
情報処理装置。

（２）前記生成部は、前記推定結果に基づいて、前記説明の内容又は前記説明の提示方法を制御する、
上記（１）に記載の情報処理装置。

（３）前記生成部は、前記推定結果に基づいて、前記説明として提示する情報の粒度、説明文の表現方法、又は前記説明の出力に使用するデバイスの選択、前記説明の出力に使用するデバイス上の設定（画面を使用する場合の文字フォント、文字サイズ、音声を使用する場合の音量、声質）を制御する、
上記（２）に記載の情報処理装置。

（４）前記生成部は、センサー情報に対応する前記制御対象装置の処理の理由の説明を推定するように学習された第１の機械学習モデルを備え、前記第１の機械学習モデルを用いて前記処理に対する説明を生成する、
上記（１）乃至（３）のいずれかに記載の情報処理装置。

（５）センサー情報に対応して前記制御対象装置が行った処理に対して生成した説明とユーザの反応に基づいて前記第１の機械学習モデルを再学習する、
上記（４）に記載の情報処理装置。

（６）前記第１の機械学習モデルは、前記制御対象装置が行った処理に対して生成した説明に対するユーザの反応に基づいて、前記制御対象装置の処理に対して同様の内容を説明しないように又は同様の説明の提示方法を使用しないように学習する、
上記（５）に記載の情報処理装置。

（７）環境情報、機器情報、ユーザプロファイル、又はユーザの機器使用履歴のうち少なくとも１つに基づいて前記第１の機械学習モデルを再学習する、
上記（５）又は（６）のいずれかに記載の情報処理装置。

（８）前記生成部は、ユーザからの要求に基づいて前記説明の提示を制御する、
上記（１）乃至（７）のいずれかに記載の情報処理装置。

（９）前記生成部は、前記決定部が決定した処理を前記制御対象装置が実行したことに対するユーザの否定的な反応に基づいて、前記説明の提示を制御する、
上記（１）乃至（８）のいずれかに記載の情報処理装置。

（１０）前記決定部は、センサー情報に対応する前記制御対象装置の処理を推定するように学習された第２の機械学習モデルを備え、前記第２の機械学習モデルを用いてセンサー情報に対応する前記制御対象装置の処理を決定する、
上記（１）乃至（９）のいずれかに記載の情報処理装置。

（１１）センサー情報に対応して前記制御対象装置が行った処理とユーザの反応に基づいて前記第２の機械学習モデルを再学習する、
上記（１０）に記載の情報処理装置。

（１２）前記第２の機械学習モデルは、センサー情報に基づいて前記制御対象装置が実行した処理に対するユーザの否定的な反応に基づいて、前記制御対象装置が実行した処理を決定しないように学習する、
上記（１１）に記載の情報処理装置。

（１３）前記推定部は、ユーザの反応からユーザの感情を推定するように学習された第３の機械学習モデルを備え、前記第３の機械学習モデルを用いて前記制御対象装置が行った処理又は前記処理に対して提示された説明に対するユーザの感情を推定する、
上記（１）乃至（１２）のいずれかに記載の情報処理装置。

（１４）前記決定部が決定した処理、又は前記生成部が制御する説明の提示の少なくともどちらか一方に関する通知処理を制御する制御部を備える、
上記（１）乃至（１３）のいずれかに記載の情報処理装置。

（１５）前記制御部は、前記決定部が決定した処理、又は前記生成部が制御する説明の提示が、機械学習モデルを用いていることを通知する処理を制御する、
上記（１４）に記載の情報処理装置。

（１６）前記生成部は、前記制御対象装置の１つの処理に対する複数の理由の説明のうち２以上を順番に又は同時に提示する、
上記（１）乃至（１５）のいずれかに記載の情報処理装置。

（１７）前記生成部が提示した説明に対する反応を取得するためのユーザインターフェースを出力するユーザインターフェース出力部をさらに備える、
上記（１）乃至（１６）のいずれかに記載の情報処理装置。

（１８）前記説明を表示するための表示部を備える、
上記（１）乃至（１７）のいずれかに記載の情報処理装置。

（１９）センサー情報に対応する制御対象装置の処理を決定する決定ステップと、
　前記処理に対する理由の説明を生成する生成ステップと、
　ユーザの反応に対する推定を行う推定ステップと、
を有し、
　前記生成ステップでは、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
情報処理方法。

（２０）センサー情報に対応する制御対象装置の処理を決定する決定部、
　前記処理に対する理由の説明を生成する生成部、
　ユーザの反応に対する推定を行う推定部、
としてコンピュータを機能させ、
　前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御するように、コンピュータ可読形式で記述されたコンピュータプログラム。

　１００…テレビ受信装置、１０１…動作決定部、１０２…説明生成部
　１０３…ユーザ感情推定部、１１１…動作履歴メモリ
　１１２…ユーザ情報データベース
　２０１…制御部、２０２…バス、２０３…ストレージ部
　２０４…通信インターフェース（ＩＦ）部
　２０５…拡張インターフェース（ＩＦ）部
　２０６…チューナー／復調部、２０７…デマルチプレクサ
　２０８…映像デコーダ、２０９…音声デコーダ
　２１０…文字スーパーデコーダ、２１１…字幕デコーダ
　２１２…字幕処理部、２１３…データデコーダ、２１４…キャッシュ部
　２１５…アプリケーション（ＡＰ）制御部、２１６…ブラウザ部
　２１７…音源部、２１８…映像処理部、２１９…表示部
　２２０…音声処理部、２２１…音声出力部、２２２…操作入力部
　３００…センシング機能部、３１０…カメラ部
　３１１～３１３…カメラ、３２０…ユーザ状態センサー部
　３３０…環境センサー部、３４０…機器状態センサー部
　３５０…ユーザプロファイルセンサー部

Claims

　センサー情報に対応する制御対象装置の処理を決定する決定部と、
　前記処理に対する理由の説明を生成する生成部と、
　ユーザの反応に対する推定を行う推定部と、
を具備し、
　前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
情報処理装置。
　前記生成部は、前記推定結果に基づいて、前記説明の内容又は前記説明の提示方法を制御する、
請求項１に記載の情報処理装置。
　前記生成部は、前記推定結果に基づいて、前記説明として提示する情報の粒度、説明文の表現方法、又は前記説明の出力に使用するデバイスの選択、前記説明の出力に使用するデバイス上の設定（画面を使用する場合の文字フォント、文字サイズ、音声を使用する場合の音量、声質）を制御する、
請求項２に記載の情報処理装置。
　前記生成部は、センサー情報に対応する前記制御対象装置の処理の理由の説明を推定するように学習された第１の機械学習モデルを備え、前記第１の機械学習モデルを用いて前記処理に対する説明を生成する、
請求項１に記載の情報処理装置。
　センサー情報に対応して前記制御対象装置が行った処理に対して生成した説明とユーザの反応に基づいて前記第１の機械学習モデルを再学習する、
請求項４に記載の情報処理装置。
　前記第１の機械学習モデルは、前記制御対象装置が行った処理に対して生成した説明に対するユーザの反応に基づいて、前記制御対象装置の処理に対して同様の内容を説明しないように又は同様の説明の提示方法を使用しないように学習する、
請求項５に記載の情報処理装置。
　環境情報、機器情報、ユーザプロファイル、又はユーザの機器使用履歴のうち少なくとも１つに基づいて前記第１の機械学習モデルを再学習する、
請求項５に記載の情報処理装置。
　前記生成部は、ユーザからの要求に基づいて前記説明の提示を制御する、
請求項１に記載の情報処理装置。
　前記生成部は、前記決定部が決定した処理を前記制御対象装置が実行したことに対するユーザの否定的な反応に基づいて、前記説明の提示を制御する、
請求項１に記載の情報処理装置。
　前記決定部は、センサー情報に対応する前記制御対象装置の処理を推定するように学習された第２の機械学習モデルを備え、前記第２の機械学習モデルを用いてセンサー情報に対応する前記制御対象装置の処理を決定する、
請求項１に記載の情報処理装置。
　センサー情報に対応して前記制御対象装置が行った処理とユーザの反応に基づいて前記第２の機械学習モデルを再学習する、
請求項１０に記載の情報処理装置。
　前記第２の機械学習モデルは、センサー情報に基づいて前記制御対象装置が実行した処理に対するユーザの否定的な反応に基づいて、前記制御対象装置が実行した処理を決定しないように学習する、
請求項１１に記載の情報処理装置。
　前記推定部は、ユーザの反応からユーザの感情を推定するように学習された第３の機械学習モデルを備え、前記第３の機械学習モデルを用いて前記制御対象装置が行った処理又は前記処理に対して提示された説明に対するユーザの感情を推定する、
請求項１に記載の情報処理装置。
　前記決定部が決定した処理、又は前記生成部が制御する説明の提示の少なくともどちらか一方に関する通知処理を制御する制御部を備える、
請求項１に記載の情報処理装置。
　前記制御部は、前記決定部が決定した処理、又は前記生成部が制御する説明の提示が、機械学習モデルを用いていることを通知する処理を制御する、
請求項１４に記載の情報処理装置。
　前記生成部は、前記制御対象装置の１つの処理に対する複数の理由の説明のうち２以上を順番に又は同時に提示する、
請求項１に記載の情報処理装置。
　前記生成部が提示した説明に対する反応を取得するためのユーザインターフェースを出力するユーザインターフェース出力部をさらに備える、
請求項１に記載の情報処理装置。
　前記説明を表示するための表示部を備える、
請求項１に記載の情報処理装置。
　センサー情報に対応する制御対象装置の処理を決定する決定ステップと、
　前記処理に対する理由の説明を生成する生成ステップと、
　ユーザの反応に対する推定を行う推定ステップと、
を有し、
　前記生成ステップでは、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御する、
情報処理方法。
　センサー情報に対応する制御対象装置の処理を決定する決定部、
　前記処理に対する理由の説明を生成する生成部、
　ユーザの反応に対する推定を行う推定部、
としてコンピュータを機能させ、
　前記生成部は、ユーザの反応に対する推定結果に基づいて前記説明の提示を制御するように、コンピュータ可読形式で記述されたコンピュータプログラム。