WO2021079640A1

WO2021079640A1 - 情報処理装置及び情報処理方法、並びに人工知能システム

Info

Publication number: WO2021079640A1
Application number: PCT/JP2020/034290
Authority: WO
Inventors: 健平松; 由幸小林; 安達　浩
Original assignee: ソニー株式会社
Priority date: 2019-10-23
Filing date: 2020-09-10
Publication date: 2021-04-29
Also published as: US20240147001A1; EP4050909A1; EP4050909A4

Abstract

人工知能を利用してテレビから出力する映像又はオーディオを処理する情報処理装置を提供する。　情報処理装置は、再生コンテンツを取得する取得部と、視聴状況に関する情報を取得する検出部と、前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御部と、前記推定した再生コンテンツを出力する出力部を具備する。前記制御部は、コンテンツに対するユーザとクリエータ間の認識のギャップを縮めるための信号処理を推定する。

Description

情報処理装置及び情報処理方法、並びに人工知能システム

　本明細書で開示（以下、「本開示」とする）する技術は、人工知能を利用する情報処理装置及び情報処理方法、並びに人工知能システムに関する。

　テレビが広範に普及して久しい。最近では、テレビの大画面化が進むとともに、超解像技術や高ダイナミックレンジ化といった高画質化や（例えば、特許文献１を参照のこと）、帯域拡張などの高音質化（例えば、特許文献２を参照のこと）といった、再生コンテンツの高品質化も進められている。

　コンテンツのクリエータがオーサリングシステム上で制作したコンテンツは、放送やストリーミング、記録メディアなどさまざまな手段によって配給される。そして、再生装置上では、受信した映像ストリームやオーディオストリームに対して高画質化や高音質化といった信号処理を施した後に、ディスプレイやスピーカーから出力し、ユーザが視聴する。ここで、視聴コンテンツに対するユーザの認識と、制作したコンテンツに対するクリエータの認識との間にギャップが生じて、クリエータが意図した通りにユーザがコンテンツを視聴できないことが懸念される。

　ユーザとクリエータ間の主観的認識の相違を解消する１つの方法として、例えばクリエータが選定した基準白（ｄｉｆｆｕｓｅ　ｗｈｉｔｅ）の情報をＭＰＥＧ（Ｍｏｖｉｎｇ　Ｐｉｃｔｕｒｅ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ）の伝送コンテナを利用してソース機器からシンク機器へ伝送し、シンク機器側では基準白に基づいてクリエータの意図を反映するようにダイナミックレンジ変換を行なう画像表示システムについて提案がなされている（特許文献３を参照のこと）。

特開２０１９－２３７９８号公報特開２０１７－２０３９９９号公報ＷＯ２０１６／０３８９５０特開２０１５－９２５２９号公報特許第４９１５１４３号公報特開２００７－１４３０１０号公報

　本開示に係る技術の目的は、人工知能を利用してテレビから出力する映像又はオーディオを処理する情報処理装置及び情報処理方法、並びに人工知能システムを提供することにある。

　本開示に係る技術の第１の側面は、
　再生コンテンツを取得する取得部と、
　視聴状況に関する情報を取得する検出部と、
　前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御部と、
　前記推定した再生コンテンツを出力する出力部と、
を具備する情報処理装置である。

　ここで、前記ユーザに関する情報は、前記ユーザの状態、前記ユーザのプロファイル、前記情報処理装置の設置環境、前記情報処理装置のハードウェア情報、前記情報処理装置内で実施される信号処理などに関する情報であり、前記検出部によって検出された情報を含む。

　また、前記クリエータに関する情報は、前記クリエータの状態、前記クリエータのプロファイル、前記コンテンツの制作環境、前記コンテンツの制作に使用した機器ハードウェア情報、前記コンテンツのアップロード時に実施される信号処理などに関する情報であり、前記ユーザに関する情報に対応する情報を含む。

　前記制御部は、前記再生コンテンツに対する信号処理を推定する。ここで言う前記再生コンテンツに対する信号処理は、前記ユーザが認識する前記再生コンテンツの映像又は音声と、前記クリエータが認識する前記再生コンテンツの映像又は音声を対応付ける処理である。

　前記再生コンテンツは映像信号を含み、前記信号処理は、解像度変換、ダイナミックレンジ変換、ノイズ低減、ガンマ処理のうち少なくとも１つを含む。また、前記再生コンテンツは、オーディオ信号を含み、前記信号処理は、帯域拡張、音像定位のうち少なくとも１つを含む。

　また、本開示に係る技術の第２の側面は、
　再生コンテンツを取得する取得ステップと、
　視聴状況に関する情報を取得する検出ステップと、
　前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御ステップと、
　前記推定した再生コンテンツを出力ステップと、
を有する情報処理方法である。

　また、本開示に係る技術の第３の側面は、
　再生コンテンツと、再生コンテンツを視聴するユーザに関する情報と、再生コンテンツを制作するクリエータに関する情報との相関関係を学習する第１のニューラルネットワークと、
　再生コンテンツと、ユーザに関する情報と、再生コンテンツに対するユーザの認識との相関関係を学習する第２のニューラルネットワークと、
　再生コンテンツと、クリエータに関する情報と、再生コンテンツに対するクリエータの認識との相関関係を学習する第３のニューラルネットワークと、
を具備する人工知能システムである。

　但し、ここで言う「システム」とは、複数の装置（又は特定の機能を実現する機能モジュール）が論理的に集合した物のことを言い、各装置や機能モジュールが単一の筐体内にあるか否かは特に問わない。

　本開示に係る技術によれば、人工知能を利用して、視聴したコンテンツに対するユーザの認識と、制作したコンテンツに対するクリエータの認識との間のギャップが小さくなるように、テレビから出力する映像又はオーディオを処理する情報処理装置及び情報処理方法、並びに人工知能システムを提供することができる。

　なお、本明細書に記載された効果は、あくまでも例示であり、本開示に係る技術によりもたらされる効果はこれに限定されるものではない。また、本開示に係る技術が、上記の効果以外に、さらに付加的な効果を奏する場合もある。

　本開示に係る技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、映像コンテンツを視聴するシステムの構成例を示した図である。図２は、テレビ受信装置１００の構成例を示した図である。図３は、ディスプレイへのパネルスピーカー技術の適用例を示した図である。図４は、センサー部１０９の構成例を示した図である。図５は、コンテンツの制作から視聴までの流れを示した図である。図６は、人工知能システム６００の構成例を示した図である。図７は、演出機器の設置例を示した図である。図８は、演出効果を利用するテレビ受信装置１００の構成例を示した図である。図９は、人工知能システム９００の構成例を示した図である。図１０は、人工知能システム１０００の構成例を示した図である。図１１は、コンテンツが各ユーザにより視聴されるまでの流れを示した図である。図１２は、人工知能システム１２００の構成例を示した図である。

　以下、図面を参照しながら本開示に係る技術の実施形態について詳細に説明する。

Ａ．システム構成
　図１には、映像コンテンツを視聴するシステムの構成例を模式的に示している。

　テレビ受信装置１００は、例えば家庭内で一家が団らんするリビングや、ユーザの個室などに設置される。なお、本実施形態において、単に「ユーザ」という場合、特に言及しない限り、テレビ受信装置１００に表示された映像コンテンツを視聴する（視聴する予定がある場合も含む）視聴者のことを指すものとする。

　テレビ受信装置１００は、映像コンテンツを表示するディスプレイ並びの音響を出力するスピーカーを装備している。テレビ受信装置１００は、例えば放送信号を選局受信するチューナーを内蔵し、又はチューナー機能を備えたセットトップボックスが外付け接続されており、テレビ局が提供する放送サービスを利用することができる。放送信号は、地上波及び衛星波のいずれを問わない。

　また、テレビ受信装置１００は、例えばＩＰＴＶやＯＴＴ（Ｏｖｅｒ　Ｔｈｅ　Ｔｏｐ）といったネットワークを利用した放送型の動画配信サービスも利用することができる。このため、テレビ受信装置１００は、ネットワークインターフェースカードを装備し、イーサネット（登録商標）やＷｉ－Ｆｉ（登録商標）などの既存の通信規格に基づく通信を利用して、ルータ経由やアクセスポイント経由でインターネットなどの外部ネットワークに相互接続されている。テレビ受信装置１００は、その機能的な側面において、映像やオーディオなどさまざまな再生コンテンツを、放送波又はインターネットを介したストリーミングあるいはダウンロードにより取得してユーザに提示するさまざまなタイプのコンテンツの取得あるいは再生の機能を持つディスプレイを搭載したコンテンツ取得装置あるいはコンテンツ再生装置又はディスプレイ装置でもある。

　インターネット上には、映像ストリームを配信するストリーム配信サーバが設置されており、テレビ受信装置１００に対して放送型の動画配信サービスを提供する。

　また、インターネット上には、さまざまなサービスを提供する無数のサーバが設置されている。サーバの一例は、例えばＩＰＴＶやＯＴＴといったネットワークを利用した放送型の動画ストリームの配信サービスを提供するストリーム配信サーバである。テレビ受信装置１００側では、ブラウザ機能を起動し、ストリーム配信サーバに対して例えばＨＴＴＰ（Ｈｙｐｅｒ　Ｔｅｘｔ　Ｔｒａｎｓｆｅｒ　Ｐｒｏｔｏｃｏｌ）リクエストを発行して、ストリーム配信サービスを利用することができる。

　また、本実施形態では、クライアントに対してインターネット上で（あるいは、クラウド上で）人工知能の機能を提供する人工知能サーバも存在することを想定している。人工知能は、例えば、学習、推論、データ創出、計画立案といった人間の脳が発揮する機能を、ソフトウェア又はハードウェアによって人工的に実現する機能のことである。人工知能は、一般に、人間の脳神経回路を模したニューラルネットワークで表される学習モデルを利用する。ニューラルネットワークは、シナプスを介した人工ニューロン（以下、単に「ニューロン」とも呼ぶ）間の結合により形成したネットワークである。人工知能は、学習データを用いた学習を重ねることによって、ニューロン間の結合重み係数を変化させながら、問題（入力）に対して最適な解決（出力）を推定する学習モデルを構築する仕組みを備えている。学習済みのニューラルネットワークは、ニューロン間の最適な結合重み係数を持つ学習モデルとして表される。また、人工知能サーバは、深層学習（Ｄｅｅｐ　Ｌｅａｒｎｉｎｇ：ＤＬ）を行うニューラルネットワークを搭載していることを想定している。深層学習を行う場合、学習データ数もシナプス数も大規模となる。したがって、クラウドのような巨大な計算機資源を使って深層学習を行うことが適切と思料される。なお、本明細書で言う「人工知能サーバ」は、単一のサーバ装置とは限らず、例えばクラウドコンピューティングサービスを提供するクラウドの形態であってもよい。

Ｂ．テレビ受信装置の構成
　図２には、テレビ受信装置１００の構成例を示している。図示のテレビ受信装置１００は、外部から情報を取得する取得部を備えている。ここで言う取得部は、放送信号を選局受信するチューナー、メディア再生装置からの再生信号を入力するＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）インターフェース、ネットワーク接続するネットワークインターフェース（ＮＩＣ）を装備している。但し、図２では取得部の構成を省略している。

　取得部は、テレビ受信装置１００に提供されるコンテンツを取得する機能を持つ。テレビ受信装置１００にコンテンツが提供される形態として、地上放送や衛星放送などの放送信号、ハードディスクドライブ（ＨＤＤ）やブルーレイなどの記録メディアから再生される再生信号、クラウド上のストリーミングサーバなどから配信されるストリーミングコンテンツなどを想定している。ネットワークを利用した放送型の動画配信サービスとして、ＩＰＴＶやＯＴＴなどを挙げることができる。そして、これらのコンテンツは、映像、オーディオ、補助データ（字幕、テキスト、グラフィックス、番組情報など）といった各メディアデータのビットストリームを多重化した多重化ビットストリームとして、コンテンツ再生システム１００に供給される。多重化ビットストリームは、例えばＭＰＥＧ２　Ｓｙｓｔｅｍ規格に則って映像、オーディオなどの各メディアのデータが多重化されていることを想定している。また、本実施形態では、取得部が、クラウド上での深層学習などによる学習結果（ニューラルネットワークにおけるニューロン間の結合重み係数など）を、外部から取得することを想定している。

　テレビ受信装置１００は、非多重化部（デマルチプレクサ）１０１と、映像復号部１０２と、オーディオ復号部１０３と、補助（Ａｕｘｉｌｉａｒｙ）データ復号部１０４と、映像信号処理部１０５と、オーディオ信号処理部１０６と、画像表示部１０７と、オーディオ出力部１０８を備えている。なお、テレビ受信装置１００は、セットトップボックスのような端末装置であり、受信した多重化ビットストリームを処理して、画像表示部１０７及びオーディオ出力部１０８を備えたテレビ受信装置に処理後の映像及びオーディオ信号を出力するように構成してもよい。

　非多重化部１０１は、放送信号、再生信号、又はストリーミングデータとして外部から受信した多重化ビットストリームを、映像ビットストリーム、オーディオビットストリーム、及び補助ビットストリームに非多重化して、後段の映像復号部１０２、オーディオ復号部１０３、及び補助データ復号部１０４の各々に分配する。

　映像復号部１０２は、例えばＭＰＥＧ符号化された映像ビットストリームを復号処理して、ベースバンドの映像信号を出力する。なお、映像復号部１０２から出力される映像信号は、低解像度又は標準解像度の映像、あるいは低ダイナミックレンジ（ＬＤＲ）又は標準ダイナミックレンジ（ＳＤＲ）の映像であることも考えられる。

　オーディオ復号部１０３は、例えばＭＰ３（ＭＰＥＧ　Ａｕｄｉｏ　Ｌａｙｅｒ３）あるいはＨＥ－ＡＡＣ（Ｈｉｇｈ　Ｅｆｆｉｃｉｅｎｃｙ　ＭＰＥＧ４　Ａｄｖａｎｃｅｄ　Ａｕｄｉｏ　Ｃｏｄｉｎｇ）などの符号化方式により符号化されたオーディオビットストリームを復号処理して、ベースバンドのオーディオ信号を出力する。なお、オーディオ復号部１０３から出力されるオーディオ信号は、高音域などの一部の帯域が除去又は圧縮された低解像度又は標準解像度のオーディオ信号であることを想定している。

　補助データ復号部１０４は、符号化された補助ビットストリームを復号処理して、字幕、テキスト、グラフィックス、番組情報などを出力する。

　テレビ受信装置１００は、再生コンテンツの信号処理などを行う信号処理部１５０を備えている。信号処理部１５０は、映像信号処理部１０５とオーディオ信号処理部１０６を含む。

　映像信号処理部１０５は、映像復号部１０２から出力された映像信号及び補助データ復号部１０４から出力された字幕、テキスト、グラフィックス、番組情報などに対して映像信号処理を施す。ここで言う映像信号処理には、ノイズ低減、超解像などの解像度変換処理、ダイナミックレンジ変換処理、及びガンマ処理といった高画質化処理を含んでいてもよい。映像復号部１０２から出力される映像信号は、低解像度又は標準解像度の映像、あるいは低ダイナミックレンジ又は標準ダイナミックレンジの映像である場合には、映像信号処理部１０５は、低解像度又は標準解像度の映像信号から高解像度映像信号を生成する超解像処理や、高ダイナミックレンジ化などの高画質化処理を実施する。映像信号処理部１０５は、映像復号部１０２から出力された本編の映像信号と補助データ復号部１０４から出力された字幕などの補助データとを合成した後に映像信号処理を実施してもよいし、本編の映像信号と補助データとをそれぞれ個別の高画質化処理してから合成処理を行うようにしてもよい。いずれにせよ、映像信号処理部１０５は、映像信号の出力先である画像表示部１０７が許容する画面解像度又は輝度ダイナミックレンジの範囲内で、超解像処理や高ダイナミックレンジ化などの映像信号処理を実施するものとする。

　本実施形態では、映像信号処理部１０５は、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理を、ニューラルネットワークで表される学習モデルを利用する人工知能により実施することを想定している。深層学習により学習モデルを事前学習することで、最適な映像信号処理を実現することが期待される。

　オーディオ信号処理部１０６は、オーディオ復号部１０３から出力されたオーディオ信号に対してオーディオ信号処理を施す。オーディオ復号部１０３から出力されるオーディオ信号は、高音域などの一部の帯域が除去又は圧縮された低解像度又は標準解像度のオーディオ信号である。オーディオ信号処理部１０６は、低解像度又は標準解像度のオーディオ信号を、除去又は圧縮された帯域を含む高解像度オーディオ信号に帯域拡張したりする高音質化処理を実施するようにしてもよい。なお、オーディオ信号処理部１０６は、帯域拡張のような高音質化の他に、複数のスピーカーを利用した音像定位処理を行うようにしてもよい。

　本実施形態では、オーディオ信号処理部１０６は、帯域拡張や音像定位といったオーディオ信号の処理を、ニューラルネットワークで表される学習モデルを利用する人工知能により実施することを想定している。深層学習により学習モデルを事前学習することで、最適なオーディオ信号処理を実現することが期待される。なお、映像信号処理とオーディオ信号処理を併せて実施する単一のニューラルネットワークを有する信号処理部１５０を構成してもよい。

　画像表示部１０７は、映像信号処理部１０５で高画質化などの映像信号処理が施された映像を表示した画面をユーザ（コンテンツの視聴者など）に提示する。画像表示部１０７は、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、あるいは画素に微細なＬＥＤ（Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）素子を用いた自発光型ディスプレイ（例えば、特許文献４を参照のこと）などからなる表示デバイスである。

　また、画像表示部１０７は、画面を複数の領域に分割して領域毎に明るさを制御する部分駆動技術を適用した表示デバイスであってもよい。透過型の液晶パネルを用いたディスプレイの場合、信号レベルの高い領域に相当するバックライトは明るく点灯させる一方、信号レベルの低い領域に相当するバックライトは暗く点灯させることで、輝度コントラストを向上させることができる。この種の部分駆動型の表示デバイスにおいては、暗部で抑えた電力を信号レベルの高い領域に配分して集中的に発光させる突き上げ技術をさらに利用して、（バックライト全体の出力電力は一定のまま）部分的に白表示を行った場合の輝度を高くして、高ダイナミックレンジを実現することができる（例えば、特許文献５を参照のこと）。

　オーディオ出力部１０８は、オーディオ信号処理部１０６で高音質化などのオーディオ信号処理が施されたオーディオを出力する。オーディオ出力部１０８は、スピーカーなどの音響発生素子で構成される。例えば、オーディオ出力部１０８は、複数のスピーカーを組み合わせたスピーカーアレイ（多チャンネルスピーカー若しくは超多チャンネルスピーカー）であってもよく、一部又は全部のスピーカーがテレビ受信装置に外付け接続されていてもよい。

　オーディオ出力部１０８が複数のスピーカーを備える場合、複数の出力チャンネルを使ってオーディオ信号を再生することによって、音像定位を行うことができる。また、チャンネル数を増やし、スピーカーを多重化することによって、さらに高解像度で音場を制御することが可能である。外付けスピーカーは、サウンドバーなどテレビの前に据え置く形態でもよいし、ワイヤレススピーカーなどテレビに無線接続される形態でもよい。また、その他のオーディオ製品とアンプなどを介して接続されるスピーカーであってもよい。あるいは、外付けスピーカーは、スピーカーを搭載しオーディオ入力可能なスマートスピーカー、無線ヘッドホン／ヘッドセット、タブレット、スマートフォン、あるいはＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）、又は、冷蔵庫、洗濯機、エアコン、掃除機、あるいは照明器具などのいわゆるスマート家電、又はＩｏＴ（Ｉｎｔｅｒｎｅｔ　ｏｆ　Ｔｈｉｎｇｓ）家電装置であってもよい。

　コーン型スピーカーの他、フラットパネル型スピーカー（例えば、特許文献６を参照のこと）をオーディオ出力部１０８に用いることができる。もちろん、異なるタイプのスピーカーを組み合わせたスピーカーアレイをオーディオ出力部１０８として用いることもできる。また、スピーカーアレイは、振動を生成する１つ以上の加振器（アクチュエータ）によって画像表示部１０７を振動させることでオーディオ出力を行うものを含んでもよい。加振器（アクチュエータ）は、画像表示部１０７に後付けされるような形態であってもよい。

　図３には、ディスプレイへのパネルスピーカー技術の適用例を示している。ディスプレイ３００は、背面のスタンド３０２で支持されている。ディスプレイ３００の裏面には、スピーカーユニット３０１が取り付けられている。スピーカーユニット３０１の左端には加振器３０１－１が配置され、また、右端には加振器３０１－２が配置されており、スピーカーアレイを構成している。各加振器３０１－１及び３０１－２が、それぞれ左右のオーディオ信号に基づいてディスプレイ３００を振動させて音響出力することができる。スタンド２０２が、低音域の音響を出力するサブウーファーを内蔵してもよい。なお、ディスプレイ３００は、有機ＥＬ素子を用いた画像表示部１０７に相当する。

　再び図２を参照して、テレビ受信装置１００の構成について引き続き説明する。

　センサー部１０９は、テレビ受信装置１００の本体内部に装備されるセンサー、並びにテレビ受信装置１００に外付け接続されるセンサーの双方を含むものとする。外付け接続されるセンサーには、テレビ受信装置１００と同じ空間に存在する他のＣＥ（Ｃｏｎｓｕｍｅｒ　Ｅｌｅｃｔｒｏｎｉｃｓ）機器やＩｏＴデバイスに内蔵されるセンサーも含まれる。本実施形態では、センサー部１０９から得られるセンサー情報が、映像信号処理部１０５やオーディオ信号処理部１０６で用いられるニューラルネットワークの入力情報となることを想定している。但し、ニューラルネットワークの詳細については、後述に譲る。

Ｃ．センシング機能
　図４には、テレビ受信装置１００に装備されるセンサー部１０９の構成例を模式的に示している。センサー部１０９は、カメラ部４１０と、ユーザ状態センサー部４２０と、環境センサー部４３０と、機器状態センサー部４４０と、ユーザプロファイルセンサー部４５０で構成される。本実施形態では、センサー部１０９は、ユーザの視聴状況に関するさまざまな情報を取得するために使用される。

　カメラ部４１０は、画像表示部１０７に表示された映像コンテンツを視聴中のユーザを撮影するカメラ４１１と、画像表示部１０７に表示された映像コンテンツを撮影するカメラ４１２と、テレビ受信装置１００が設置されている室内（あるいは、設置環境）を撮影するカメラ４１３を含む。

　カメラ４１１は、例えば画像表示部１０７の画面の上端縁中央付近に設置され映像コンテンツを視聴中のユーザを好適に撮影する。カメラ４１２は、例えば表示部２１９の画面に対向して設置され、ユーザが視聴中の映像コンテンツを撮影する。あるいは、ユーザが、カメラ４１２を搭載したゴーグルを装着するようにしてもよい。また、カメラ４１２は、映像コンテンツの音声も併せて記録（録音）する機能を備えているものとする。また、カメラ４１３は、例えば全天周カメラや広角カメラで構成され、テレビ受信装置１００が設置されている室内（あるいは、設置環境）を撮影する。あるいは、カメラ４１３は、例えばロール、ピッチ、ヨーの各軸回りに回転駆動可能なカメラテーブル（雲台）に乗せたカメラであってもよい。但し、環境センサー４３０によって十分な環境データを取得可能な場合や環境データそのものが不要な場合には、カメラ４１０は不要である。

　ユーザ状態センサー部４２０は、ユーザの状態に関する状態情報を取得する１以上のセンサーからなる。ユーザ状態センサー部４２０は、状態情報として、例えば、ユーザの作業状態（映像コンテンツの視聴の有無）や、ユーザの行動状態（静止、歩行、走行などの移動状態、瞼の開閉状態、視線方向、瞳孔の大小）、精神状態（ユーザが映像コンテンツに没頭あるいは集中しているかなどの感動度、興奮度、覚醒度、感情や情動など）、さらには生理状態を取得することを意図している。ユーザ状態センサー部４２０は、発汗センサー、筋電位センサー、眼電位センサー、脳波センサー、呼気センサー、ガスセンサー、イオン濃度センサー、ユーザの挙動を計測するＩＭＵ（Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ）などの各種のセンサー、ユーザの発話を収音するオーディオセンサー（マイクなど）を備えていてもよい。なお、マイクは、テレビ受信装置１００と一体化されている必要は必ずしもなく、サウンドバーなどテレビの前に据え置く製品に搭載されたマイクでもよい。また、有線又は無線によって接続される外付けのマイク搭載機器を利用してもよい。外付けのマイク搭載機器としては、マイクを搭載しオーディオ入力可能なスマートスピーカー、無線ヘッドホン／ヘッドセット、タブレット、スマートフォン、あるいはＰＣ、又は冷蔵庫、洗濯機、エアコン、掃除機、あるいは照明器具などのいわゆるスマート家電、又はＩｏＴ家電装置であってもよい。

　環境センサー部４３０は、当該テレビ受信装置１００が設置されている室内など環境に関する情報を計測する各種センサーからなる。例えば、温度センサー、湿度センサー、光センサー、照度センサー、気流センサー、匂いセンサー、電磁波センサー、地磁気センサー、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）センサー、周囲音を収音するオーディオセンサー（マイクなど）などが環境センサー部４３０に含まれる。また、環境センサー部４３０は、テレビ受信装置１００が置かれている部屋の大きさやユーザの位置、部屋の明るさなどの情報を取得するようにしてもよい。

　機器状態センサー部４４０は、当該テレビ受信装置１００内部の状態を取得する１以上のセンサーからなる。あるいは、映像デコーダ２０８やオーディオデコーダ２０９などの回路コンポーネントが、入力信号の状態や入力信号の処理状況などを外部出力する機能を備えて、機器内部の状態を検出するセンサーとしての役割を果たすようにしてもよい。また、機器状態センサー部４４０は、当該テレビ受信装置１００やその他の機器に対してユーザが行った操作を検出したり、ユーザの過去の操作履歴を保存したりするようにしてもよい。また、機器状態センサー部４４０は、機器の性能や仕様に関する情報を取得するようにしてもよい。機器状態センサー部４４０は、機器の性能や仕様に関する情報を記録した内蔵ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）のようなメモリ、あるいはこのようなメモリから情報を読み取るリーダであってもよい。

　ユーザプロファイルセンサー部４５０は、テレビ受信装置１００で映像コンテンツを視聴するユーザに関するプロファイル情報を検出する。ユーザプロファイルセンサー部４５０は、必ずしもセンサー素子で構成されていなくてもよい。例えばカメラ４１１で撮影したユーザの顔画像やオーディオセンサーで収音したユーザの発話などに基づいて、ユーザの年齢や性別などのユーザプロファイルを検出するようにしてもよい。また、スマートフォンなどのユーザが携帯する多機能情報端末上で取得されるユーザプロファイルを、テレビ受信装置１００とスマートフォン間の連携により取得するようにしてもよい。但し、ユーザプロファイルセンサー部４５０は、ユーザのプライバシーや機密に関わるように機微情報まで検出する必要はない。また、同じユーザのプロファイルを、映像コンテンツの視聴の度に検出する必要はなく、一度取得したユーザプロファイル情報を保存しておくＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　ａｎｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）のようなメモリであってもよい。

　また、スマートフォンなどのユーザが携帯する多機能情報端末を、テレビ受信装置１００とスマートフォン間の連携により、ユーザ状態センサー部４２０あるいは環境センサー部４３０、ユーザプロファイルセンサー部４５０として活用してもよい。例えば、スマートフォンに内蔵されたセンサーで取得されるセンサー情報や、ヘルスケア機能（歩数計など）、カレンダー又はスケジュール帳・備忘録、メール、ブラウザ履歴、ＳＮＳ（Ｓｏｃｉａｌ　Ｎｅｔｗｏｒｋ　Ｓｅｒｖｉｃｅ）の投稿及び閲覧の履歴といったアプリケーションで管理するデータを、ユーザの状態データや環境データに加えるようにしてもよい。また、テレビ受信装置１００と同じ空間に存在する他のＣＥ機器やＩｏＴデバイスに内蔵されるセンサーを、ユーザ状態センサー部４２０あるいは環境センサー部４３０として活用してもよい。また、インターホンの音を検知するか又はインターホンシステムとの通信で来客を検知するようにしてもよい。また、テレビ受信装置１００から出力される映像やオーディオを取得して、解析する輝度計やスペクトル解析部がセンサーとして設けられていてもよい。

Ｄ．ユーザとクリエータ間の認識の相違
　図５には、図１に示したようなシステムにおいて、コンテンツ制作側でコンテンツを制作してから、ユーザがテレビ受信装置１００でコンテンツを視聴するまでの流れを模式的に示している。図５中、右側をコンテンツ制作側とし、左側をコンテンツ視聴側とする。

　クリエータ５０１は、映像及びオーディオの編集や制作の技術に秀でている。クリエータ５０１は、遮音並びに適切な室内照明を有する整った制作環境５０２の下において、高解像度及び高ダイナミックレンジを有する業務用のモニター５０３と、高機能のオーサリングシステム５０４を使って、コンテンツの制作や編集を実施する。

　なお、クリエータ５０１が制作又は編集した映像信号及びオーディオ信号をオーサリングシステム５０４の外部に出力する際に、ユーザ５１１が一般の装備するディスプレイやスピーカーの仕様に適合するように、映像信号に対する高解像度画像から標準解像度画像（又は、低解像度画像）への解像度変換、高ダイナミックレンジから標準ダイナミックレンジ（又は、低ダイナミックレンジ）へのダイナミックレンジ変換、あるいは、オーディオ信号に対する難可聴帯域の成分を除去又は圧縮する帯域縮退といった信号処理が施されることが想定される。

　そして、クリエータ５０１が制作又は編集したコンテンツは、例えばＭＰＥＧなどの所定の符号化方式で符号化処理５０５が施された後に、放送やインターネットなどの伝送メディア、あるいはブルーレイなどの記録メディアを介して、コンテンツ視聴側に届けられる。

　一方、コンテンツ視聴側では、テレビ受信装置１００やその他のコンテンツ再生装置（以下、単に「テレビ受信装置１００」とする）が、伝送メディアや記録メディアを介して、符号化データを受信する。テレビ受信装置１００は、例えばユーザ宅のリビングルーム５１２などに設置されている。テレビ受信装置１００内では、受信した符号化データに対して、ＭＰＥＧなどの所定の符号化方式に従った復号処理５１５が施されて映像ストリームとオーディオストリームに分離され、さらに信号処理を施した後に、映像の画面表示及びオーディオ出力を実施する。そして、ユーザ５１１は、テレビ受信装置１００の映像及びオーディオを視聴する。

　テレビ受信装置１００内での映像信号に対する信号処理として、ノイズ低減、並びに、画像表示部１０７の性能に適合するような超解像処理、ダイナミックレンジ変換処理、及びガンマ処理のうち少なくとも１つを含む。また、テレビ受信装置１００内でのオーディオ信号に対する信号処理として、オーディオ出力部１０８の性能に適合するような帯域拡張処理や、音像定位処理のうち少なくとも１つを含む。また、映像信号及びオーディオ信号の各々に対する信号処理は、映像信号処理部１０５及びオーディオ信号処理部１０６でそれぞれ実施される。

　ここで、制作したコンテンツに対するクリエータ５０１の認識と、視聴したコンテンツに対するユーザ５１１の認識との間にギャップが生じて、クリエータ５０１が意図した通りにユーザ５１１がコンテンツを視聴できないことが懸念される。例えば、クリエータ５０１がコンテンツの制作又は編集時に意図した色合いとは異なる色を、ユーザ５１１がテレビ画面上で視認することが懸念される。また、コンテンツを視聴するユーザ５１１が、クリエータ５０１が制作又は編集時に意図した通りの喜怒哀楽の感情を抱かない、あるいはユーザ５１１が、クリエータ５０１が意図した通りの感情を抱いたとしても、喜怒哀楽のレベルがクリエータ５０１の意図と一致しないといった、クリエータ５０１とユーザ５１１間でコンテンツに対する認識が相違する現象が懸念される。

　制作したコンテンツに対するクリエータ５０１の認識と、視聴したコンテンツに対するユーザ５１１の認識との間にギャップが生じる原因として、以下のようなものが考えられる。

（１）信号処理による原因（信号的不一致）
　伝送メディアを介してコンテンツを伝送する前後、又は記録メディアからコンテンツを再生する前後で非可逆的に符号化及び復号処理、圧縮伸長処理が実施されることや、ノイズが発生すること、高画質化や高音質化といった信号処理の過程で、映像やオーディオがクリエータ５０１の本来の意図から外れるという、信号的不一致によって、制作したコンテンツに対するクリエータ５０１の認識と、視聴したコンテンツに対するユーザ５１１の認識との間にギャップが生じる。コンテンツ制作側で扱うＲＡＷ信号をコンテンツ視聴側に伝送する際にノイズが発生し、さらには符号化及び復号処理の過程で色サンプリングや階調変換などの非可逆処理により、信号的不一致が発生する。

（２）ハードウェア特性による原因（環境的不一致（１））
　クリエータ５０１は、高解像度及び高ダイナミックレンジを有する業務用のモニター５０３と、高機能のオーサリングシステム５０４を使って、コンテンツの制作や編集を実施する。一方、ユーザ５１１は、市販のテレビ受信装置１００でコンテンツを視聴する。業務用のモニター５０３とテレビ受信装置１００との性能差や特性差といったハードウェア的不一致から、同じ映像信号及びオーディオ信号が入力されても、出力される映像やオーディオに相違が生じる。例えば、表示デバイスが液晶の場合、視野角特性、応答特性、並びに温度特性の相違によって、映像に差異が生じる。また、表示デバイスがＬＥＤの場合、色毎の応答特性や温度特性の相違によって、映像に差異が生じる。

　なお、映像系に関する性能情報や特性情報は、例えば、画面サイズや最大輝度、解像度、ディスプレイの発光形式、バックライトの種類に基づいて決まる情報であってよい。オーディオ系に関する性能情報や特性情報は、例えば、スピーカーの最大出力や対応チャンネル数、スピーカーの材質、音声出力方式に基づいて決まる情報であってよい。この種の性能情報や特性情報は、個々の製品の仕様情報から取得することができる。また、業務用のモニター５０３とテレビ受信装置１００との性能差や特性差は、各々から出力される映像信号やオーディオ信号を輝度計やスペクトル解析装置を用いて解析した結果であってもよい。

（３）環境による原因（環境的不一致（２））
　クリエータ５０１は、遮音並びに適切な室内照明を有する整った制作環境５０２の下において、コンテンツの制作や編集を実施する。一方、ユーザ５１１は、ユーザ宅のリビングルーム５１２などに設置されているテレビ受信装置１００でコンテンツを視聴する。制作環境５０２とリビングルーム５１２とでは、室内照明や自然光の強度、照射角度、色が相違する。また、制作環境５０２に設置された業務用のモニター５０３とテレビ受信装置１００とでは、画面上の反射光の強度、反射角度、色が相違する。このような環境的不一致によって、制作したコンテンツに対するクリエータ５０１の認識と、視聴したコンテンツに対するユーザ５１１の認識との間にギャップが生じる。

　また、制作環境５０２とリビングルーム５１２という各々の視聴環境に存在する視聴者数や、各視聴者の位置姿勢（言い換えれば、画面までの距離や、画面に対する視線の角度）の不一致によって、制作したコンテンツに対するクリエータ５０１の認識と、視聴したコンテンツに対するユーザ５１１の認識との間にギャップが生じる。例えば、ユーザ５１１が家族など複数人と一緒にコンテンツを視聴している場合、同じシーンを家族で共感することによって感情のレベルは高揚する。また、家族との間でコンテンツ以外の話題で話をしているときには、シーン毎の感情のレベルの変化は生じない。また、ユーザ５１１が家族など複数人と一緒にコンテンツを視聴している場合、ユーザ５１１は、必ずしもテレビ受信装置１００の画面の正面から映像を視聴しているとは限らず、斜め方向から映像を視聴することも想定される。ユーザ５１１が斜め方向から映像を視聴する場合、正面から映像を視聴する場合と比較して、感情のレベルの変化が抑制される。また、ユーザ５１１がスマートフォンを操作するなどコンテンツを「ながら視聴」する場合には、コンテンツの注視度が著しく低下することから、シーン毎の感情のレベルの変化は抑制される

　他方、クリエータ５０１は、基本的には、業務用のモニター５０３の画面に対峙して、集中してコンテンツの制作又は編集の作業を行うので、制作したコンテンツに対するクリエータ５０１の認識は、視聴者数や位置姿勢、ながら視聴の影響を受けない。したがって、視聴者数や位置姿勢、ながら視聴といった視聴環境の不一致が、制作したコンテンツに対するクリエータ５０１の認識と、視聴したコンテンツに対するユーザ５１１の認識との間のギャップの原因となる。

（４）生理上の原因（生理的不一致）
　クリエータ５０１とユーザ５１１間における、視力、動体視力、コントラスト感度、フリッカー感度といった生理学上の特徴の相違によっても、制作したコンテンツに対するクリエータ５０１の認識と、視聴したコンテンツに対するユーザ５１１の認識との間のギャップの原因となる。

　また、クリエータ５０１とユーザ５１１間における、健康状態や精神状態の相違も、制作したコンテンツに対するクリエータ５０１の認識と、視聴したコンテンツに対するユーザ５１１の認識との間のギャップの原因となる。クリエータ５０１は、基本的に、プロファイルとして、良好な健康状態において、一定の緊張度若しくは集中度を以ってコンテンツの制作又は編集を行う。一方、ユーザ５１１は、自宅でさまざまな健康状態及び精神状態でコンテンツを視聴することが想定される。このため、クリエータ５０１とユーザ５１１間で健康状態や精神状態の不一致が生じ易く、かかる不一致に基づいて、同じコンテンツに対する認識のギャップが生じ得る。

Ｅ．人工知能を利用した認識距離制御（１）
　コンテンツの制作側若しくは供給側にとっては、制作したコンテンツに対するクリエータ５０１の認識と、視聴したコンテンツに対するユーザ５１１の認識との間のギャップ、すなわち認識距離を縮めて、クリエータ５０１が意図した通りにユーザ５１１がコンテンツを視聴できるようにしたい。また、ユーザ５１１の多くは、クリエータ５０１と同じ認識でコンテンツを視聴することを望むはずである。

　テレビ受信装置１００内で、受信ストリームの復号後の映像信号処理部１０５及びオーディオ信号処理部１０６のうち少なくとも１つにおいて、認識距離を縮めるような信号処理を行う方法が考えられる。

　例えば、クリエータが選定した基準白（ｄｉｆｆｕｓｅ　ｗｈｉｔｅ）の情報をＭＰＥＧの伝送コンテナを利用してソース機器からシンク機器へ伝送し、シンク機器側では基準白に基づいてクリエータの意図を反映するようにダイナミックレンジ変換を行なう画像表示システムが提案されている（特許文献３を参照のこと）。しかしながら、認識距離の原因は、信号的不一致、環境的不一致、生理的不一致など多岐にわたるため、基準白の輝度レベルに基づくダイナミックレンジ変換という信号処理だけでは、認識距離を十分に縮めることは困難と思料される。

　多岐にわたるさまざまな原因を考慮して、クリエータとユーザ間の認識距離を縮めるような映像信号処理の最適解を、フレーム単位でリアルタイムに算出するのは難しい。オーディオ信号処理の最適解をリアルタイムで算出することも、同様に困難である。

　そこで、本開示に係る技術では、映像信号処理部１０５において、クリエータとユーザ間の認識距離を縮めるための映像信号処理を、深層学習などの事前学習した学習モデルを有する画作りニューラルネットワークを用いて実施する。コンテンツ制作側とユーザ間では、信号的不一致、環境的不一致、生理的不一致のうち少なくとも１つが存在し、このような不一致に起因して認識距離が発生する。なお、信号不一致は、映像やオーディオなどの再生信号を複数の成分からなるベクトルで表現した際に、クリエータ側でコンテンツを制作したときの再生信号と、テレビ受信装置１００でコンテンツを出力するときの再生信号のベクトル距離（仮に、「信号距離」とも言う）が０でないことを意味する。原映像信号（若しくは、復号後の映像信号）及びコンテンツ制作側とユーザ間の各不一致要因と、ユーザがクリエータと同じ認識を持つことができるようにするための映像信号処理との相関関係を、深層学習などにより画作り用ニューラルネットワークに事前学習させておく。そして、映像信号処理部１０５は、この画作り用ニューラルネットワークを用いて、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理を実施する。その結果、ユーザがクリエータと同じ認識を持つことができる映像を、画像表示部１０７に表示することができる。

　また、本開示に係る技術では、オーディオ信号処理部１０６において、クリエータとユーザ間の認識距離を縮めるためのオーディオ信号処理を、深層学習などの事前学習した学習モデルを有する音作りニューラルネットワークを用いて実施する。コンテンツ制作側とユーザ間では、信号的不一致、環境的不一致、生理的不一致が存在する（前述）。原オーディオ信号（若しくは、復号後のオーディオ信号）及びコンテンツ制作側とユーザ間の各不一致要因と、ユーザがクリエータと同じ認識を持つことができるようにするためのオーディオ信号処理との相関関係を、深層学習などにより音作り用ニューラルネットワークに事前学習させておく。そして、オーディオ信号処理部１０６は、この音作り用ニューラルネットワークを用いて、帯域拡張や音像定位、その他のオーディオ信号処理を実施する。その結果、ユーザがクリエータと同じ認識を持つことができる音響をオーディオ出力部１０８からオーディオ出力することができる。なお、信号処理部１５０内の画作りと音作りを併せて行うニューラルネットワークに対し、信号的不一致、環境的不一致、生理的不一致を解消してユーザとクリエータ間の認識距離を最小化するための映像信号処理及びオーディオ信号処理を学習するように構成することもできる。画作り及び音作りニューラルネットワークの学習（事前学習）は、テレビ受信装置１００上で行うこともできるが、後述するようにクラウド上で膨大量の教師データを用いて実施することがより好ましい。

　ニューラルネットワークは、学習を重ねることで、ニューロン間の結合重み係数を変化させながら、問題に対する解決ルールを自動的に推定することができるようになる。学習済みのニューラルネットワークは、ニューロン間の最適な結合重み係数を持つ学習モデルとして表される。ニューラルネットワークからなる人工知能に大量の訓練用データを与えて深層学習を行うことにより、要求される機能を提供できるように訓練させて、訓練済みのモデルにより動作する人工知能を備えた装置を開発することが可能である。また、深層学習などの訓練を通じて、開発者には想像できない特徴を多くのデータから抽出して、開発者がアルゴリズムを想定し得ないような複雑な問題解決を行うことのできる人工知能を有する装置を開発することができる。

　図６には、クリエータとユーザ間の認識距離を縮めるためのニューラルネットワークを学習及び運用するための人工知能システム６００の構成例を模式的に示している。図示の人工知能システム６００は、クラウドを利用して構成されることを想定している。クラウドを利用した人工知能システム６００は、ローカル環境６１０とクラウド６２０からなる。

　ローカル環境６１０は、テレビ受信装置１００を設置した動作環境（家庭）、あるいは家庭内に設置されたテレビ受信装置１００に相当する。図６には、簡素化のため１つのローカル環境６１０しか描いていないが、実際には、１つのクラウド６２０に対して膨大数のローカル環境が接続されることが想定される。また、本実施形態では、ローカル環境６１０としてテレビ受信装置１００が動作する家庭内のような動作環境を主に例示したが、ローカル環境６１０は、スマートフォンやタブレット、パーソナルコンピュータといったコンテンツを表示するディスプレイを備えた任意の装置が動作する環境（駅、バス停、空港、ショッピングセンターのような公共施設、工場や職場などの労働設備を含む）であってもよい。

　上述したように、テレビ受信装置１００内には、深層学習などの事前学習した学習モデルを有する画作りニューラルネットワークを用いて、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理を実施する映像信号処理部１０５と、深層学習などの事前学習した学習モデルを有する音作りニューラルネットワークを用いて、帯域拡張や音像定位といったオーディオ信号の処理を実施するオーディオ信号処理部１０６が搭載されている。図６では、簡素化のため、画作りニューラルネットワークを用いた映像信号処理部１０５と音作りニューラルネットワークを用いたオーディオ信号処理部１０６をまとめて、信号処理部１５０内で用いられる１つの信号処理ニューラルネットワーク６１１と総称することにする。

　一方、クラウド６２０には、人工知能を提供する人工知能サーバ（前述）（１つ以上のサーバ装置から構成される）が装備されている。人工知能サーバは、信号処理ニューラルネットワーク６２１と、ユーザの感性を学習するユーザ感性ニューラルネットワーク６２２と、クリエータの感性を学習するクリエータ感性ニューラルネットワーク６２３と、エキスパート教師データベース６２４と、フィードバックデータベース６２５が配設されている。

　エキスパート教師データベース６２４は、映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報に関する膨大なサンプルデータを蓄積している。ここで言うユーザ側情報は、ユーザの状態やプロファイル、生理情報、ユーザが使用するテレビ受信装置１００が設置された環境に関する情報、ユーザが使用するテレビ受信装置１００のハードウェアなどの特性情報、並びに、テレビ受信装置１００において映像及びオーディオの受信信号に対して適用する復号などの信号処理に関する信号情報を含むものとする。なお、ユーザのプロファイルには、ユーザのＳＮＳの投稿及び閲覧の履歴（ＳＮＳにアップした画像や観た画像）などの過去の環境情報を含んでいてもよい。ユーザ側情報は、テレビ受信装置１００に備えられたセンサー部１０９によってほとんどすべて取得可能であることを想定している。また、クリエータ側情報は、上記のユーザ側情報に対応するクリエータ側の情報であり、クリエータの状態やプロファイル、クリエータが使用する業務用のモニター及びオーサリングシステムに関するハードウェアなどの特性情報、並びにクリエータが制作した映像信号及びオーディオ信号を伝送メディア又は記録メディアにアップロードする際に適用する符号化などの信号処理に関する信号情報を含むものとする。クリエータ側情報は、コンテンツの制作環境にセンサー部１０９と同等のセンサー機能を装備することによって取得可能であるものとする。

　信号処理ニューラルネットワーク６２１は、ローカル環境６１０に配置された信号処理ニューラルネットワーク６１１と同一構成であり、画作りニューラルネットワークと音作りニューラルネットワークを含み、又は画作りニューラルネットワークと音作りニューラルネットワークをまとめた１つのニューラルネットワークである。信号処理ニューラルネットワーク６２１は、学習（継続的な学習を含む）を目的としてクラウド６２０に配置される。これに対し、ローカル環境６１０の信号処理ニューラルネットワーク６１１は、信号処理ニューラルネットワーク６２１による学習結果に基づいて構成され、運用目的でテレビ受信装置１００内の信号処理部１５０（又は、映像信号処理部１０５とオーディオ信号処理部１０６の各々）に組み込まれる。

　クラウド６２０側の信号処理ニューラルネットワーク６２１は、クラウド６２０に設置されているエキスパート教師データベース６２４を用いて、原映像信号（若しくは、復号後の映像信号）、原オーディオ信号（若しくは、復号後のオーディオ信号）、ユーザ側情報及びクリエータ側情報間と、コンテンツに対してユーザがクリエータと同じ認識を持つことができるようにするための映像信号処理及びオーディオ信号処理との相関関係を学習する。なお、ユーザ側情報には、ユーザのＳＮＳの投稿及び閲覧の履歴（ＳＮＳにアップした画像や観た画像）などの過去の環境情報を含んでいてもよい。そして、信号処理ニューラルネットワーク６２１は、映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報を入力とし、ユーザがコンテンツに対してクリエータと同じ認識を持つことができるようにする映像信号処理及びオーディオ信号処理を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号を出力とする。

　ユーザ感性ニューラルネットワーク６２２とクリエータ感性ニューラルネットワーク６２３は、信号処理ニューラルネットワーク６２１の学習状況の評価に用いられるニューラルネットワークである。

　ユーザ感性ニューラルネットワーク６２２は、ユーザの感性を学習するニューラルネットワークであり、映像信号及びオーディオ信号、ユーザ側情報と、映像及びオーディオ出力に対するユーザの認識との相関関係を学習する。図６に示す人工知能システム６００では、ユーザ感性ニューラルネットワーク６２２は、信号処理ニューラルネットワーク６２１からの出力（ユーザとクリエータ間でコンテンツに対する認識が一致するように信号処理が施された映像信号及びオーディオ信号）と、ユーザ側情報を入力とし、入力された映像信号及びオーディオ信号に対するユーザの認識を推定して出力する。

　また、クリエータ感性ニューラルネットワーク６２３は、クリエータの感性を学習するニューラルネットワークであり、映像信号及びオーディオ信号、クリエータ側情報と、映像及びオーディオ出力に対するクリエータの認識との相関関係を学習する。図６に示す人工知能システム６００では、クリエータ感性ニューラルネットワーク６２３は、（信号処理ニューラルネットワーク６２１に入力される）原映像信号及び原オーディオ信号と、クリエータ側情報を入力とし、入力された映像信号及びオーディオ信号に対するクリエータの認識を推定して出力する。

　例えば、ユーザ感性ニューラルネットワーク６２２が推定するユーザの認識と、クリエータ感性ニューラルネットワーク６２３が推定するクリエータの認識との差分に基づく損失関数を定義する。そして、損失関数が最小となるように、バックプロパゲーション（誤差逆伝播法）により信号処理ニューラルネットワーク６２１の学習を実施する。

　ローカル環境６１０側では、信号処理ニューラルネットワーク６１１は、テレビ受信装置１００で受信中又は再生中の映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報を入力とし、クラウド６２０側での信号処理ニューラルネットワーク６２１の学習結果に基づいて、ユーザがクリエータと同じ認識を持つことができるような映像信号処理及びオーディオ信号処理を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号を出力とする。なお、テレビ受信装置１００がクリエータ側情報をリアルタイムで取得することは困難である。そこで、デフォルト設定されたクリエータ側情報や一般的なクリエータ側情報を信号処理ニューラルネットワーク６１１への固定入力値として設定してもよい。また、クリエータ側情報は、テレビ受信装置１００で再生されるコンテンツに付随するメタデータとして取得されてもよい。具体的には、クリエータ側情報が放送信号やオンライン配信の映像信号でコンテンツとともに配信されてもよいし、記録メディアにコンテンツとともに記録されて配布されてもよい。また、放送時やオンライン配信時には、コンテンツとクリエータ側情報が共通のストリームで配信されてもよいし、異なるストリームで配信されてよい。そして、信号処理ニューラルネットワーク６１１から出力される映像信号及びオーディオ信号は、それぞれ画像表示部１０７及びオーディオ出力部１０８で表示及びオーディオ出力される。ここでは、簡素化のため、信号処理ニューラルネットワーク６１１への入力を単に「入力値」とも呼び、信号処理ニューラルネットワーク６１１からの出力を単に「出力値」とも呼ぶことにする。

　ローカル環境６１０のユーザ（例えば、テレビ受信装置１００の視聴者）は、信号処理ニューラルネットワーク６１１の出力値を評価して、例えばテレビ受信装置１００のリモコン、音声エージェント、連携するスマートフォンなどを介してテレビ受信装置１００から出力される映像及びオーディオに対する認識をフィードバックする。フィードバックは、例えば、画音質設定のような設定情報をユーザが設定する操作に基づいて生成されてもよい。ローカル環境６１０における入力値、出力値、及びユーザからのフィードバック（ユーザＦＢ）は、クラウド６２０に転送されて、エキスパート教師データベース６２４及びフィードバックデータベース６２５にそれぞれ蓄積される。

　クラウド６２０内では、第１ステップとしての評価用のユーザ感性ニューラルネットワーク６２２及びクリエータ感性ニューラルネットワーク６２３の学習と、第２ステップとしての信号処理ニューラルネットワーク６２１の学習が交互に実施される。第１ステップでは、信号処理ニューラルネットワーク６２１を固定して（学習を停止して）、ユーザ感性ニューラルネットワーク６２２及びクリエータ感性ニューラルネットワーク６２３の学習を実施する。これに対し、第２ステップでは、ユーザ感性ニューラルネットワーク６２２及びクリエータ感性ニューラルネットワーク６２３を固定して（学習を停止して）、信号処理ニューラルネットワーク６２１の学習を実施する。

　ユーザ感性ニューラルネットワーク６２２は、ユーザの感性を学習するニューラルネットワークである。第１ステップでは、ユーザ感性ニューラルネットワーク６２２は、信号処理ニューラルネットワーク６２１から出力される映像信号及びオーディオ信号と、信号処理ニューラルネットワーク６２１への入力と同じユーザ側情報を入力して、信号処理が施された映像信号及びオーディオ信号に対するユーザの認識を推定して出力する。そして、信号処理ニューラルネットワーク６２１から出力される映像信号及びオーディオ信号に対してユーザ感性ニューラルネットワーク６２２が推定するユーザの認識と、フィードバックデータベース６２５から読み出される現実のユーザが持つ認識との差分に基づく損失関数を定義して、損失関数が最小となるように、バックプロパゲーション（誤差逆伝播法）によりユーザ感性ニューラルネットワーク６２２の学習を実施する。この結果、ユーザ感性ニューラルネットワーク６２２は、信号処理ニューラルネットワーク６２１によってユーザとクリエータ間で認識が一致するように信号処理が施された映像信号及びオーディオ信号に対して、ユーザ感性ニューラルネットワーク６２２が推定するユーザの認識が現実のユーザが持つ認識に近づくように、学習されていく。

　クリエータ感性ニューラルネットワーク６２３は、クリエータの感性を学習するニューラルネットワークである。第１ステップでは、クリエータ感性ニューラルネットワーク６２３は、信号処理ニューラルネットワーク６２１への入力と同じ原映像信号及び原オーディオ信号とクリエータ側情報を入力して、原映像信号及び原オーディオ信号に対するクリエータの認識を推定して出力する。そして、原映像信号及び原オーディオ信号に対してクリエータ感性ニューラルネットワーク６２３が推定するクリエータの認識と、フィードバックデータベース６２５から読み出される現実のクリエータが持つ認識との差分に基づく損失関数を定義して、損失関数が最小となるように、バックプロパゲーション（誤差逆伝播法）によりクリエータ感性ニューラルネットワーク６２３の学習を実施する。この結果、クリエータ感性ニューラルネットワーク６２３は、原映像信号及び原オーディオ信号（すなわち、クリエータ自身が制作したコンテンツ）に対して、クリエータ感性ニューラルネットワーク６２３が推定するクリエータの認識が現実のクリエータが持つ認識に近づくように、学習されていく。

　続く第２ステップでは、ユーザ感性ニューラルネットワーク６２２及びクリエータ感性ニューラルネットワーク６２３をともに固定して、今度は信号処理ニューラルネットワーク６２１の学習を実施する。フィードバックデータベース６２５（前述）からフィードバックデータを取り出すと、フィードバックデータに含まれる入力値が信号処理ニューラルネットワーク６２１に入力される。信号処理ニューラルネットワーク６２１は、入力値に対し、ユーザがクリエータと同じ認識を持つことができるような映像信号処理及びオーディオ信号処理を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号を出力とする。

　次いで、ユーザ感性ニューラルネットワーク６２２は、信号処理ニューラルネットワーク６２１から出力された映像信号及びオーディオ信号と、ユーザ側情報を入力し、入力された映像信号及びオーディオ信号に対するユーザの認識を推定して出力する。また、クリエータ感性ニューラルネットワーク６２３は、フィードバックデータベース６２５から読み出された入力値（信号処理ニューラルネットワーク６２１への入力と同じ原映像信号及び原オーディオ信号）を入力して、クリエータの認識を推定して出力する。

　また、信号処理ニューラルネットワーク６２１の学習時において、エキスパート教師データベース６２４を教師データに用いてもよい。また、フィードバックデータベース６２５やエキスパート教師データベース６２４など、２以上の教師データを用いて学習を行うようにしてもよい。この場合、教師データ毎に算出した損失関数を重み付け加算して、最小となるように信号処理ニューラルネットワーク６２１の学習を行うようにしてもよい。

　上述したような第１ステップとしてのユーザ感性ニューラルネットワーク６２２及びクリエータ感性ニューラルネットワーク６２３の学習と、第２ステップとしての信号処理ニューラルネットワーク６２１の学習が交互に実施することによって、信号処理ニューラルネットワーク６２１が出力する映像信号及びオーディオ信号がユーザとクリエータ間の認識を近づける確度が向上していく。そして、学習により確度が向上した信号処理ニューラルネットワーク６２１におけるニューロン間の最適な結合重み係数の集合からなる学習モデルを、ローカル環境６１０のテレビ受信装置１００にダウンロードして、信号処理ニューラルネットワーク６１１のニューロン間結合重み係数を設定することで、ユーザ（若しくは、ユーザが使用するテレビ受信装置１００）もさらに学習が進んだ信号処理ニューラルネットワーク６１１を利用することができる。その結果、テレビ受信装置１００において出力される映像及びオーディオに対するユーザの認識が、コンテンツ制作時のクリエータの認識と一致する機会が増えていく。

　クラウド６２０側で学習により確度が向上した学習モデルをローカル環境６１０に提供する方法は任意である。例えば、信号処理ニューラルネットワーク６２１の学習モデルのビットストリームを圧縮して、クラウド６２０からローカル環境６１０のテレビ受信装置１００へダウンロードするようにしてもよい。圧縮してもビットストリームのサイズが大きいときには、学習モデルを複数に分割して、複数回に分けて圧縮ビットストリームをダウンロードするようにしてもよい。学習モデルはニューラルネットワークにおけるニューロン間の結合重み係数の集合であり、分割ダウンロードする際には、ニューラルネットワークの層毎、あるいは層内の領域毎に分割するようにしてもよい。

　図６に示す人工知能システム６００に基づいて学習された信号処理ニューラルネットワーク６１１をテレビ受信装置１００に搭載して使用することで、ユーザとクリエータ間で信号的一致５５１、環境及び生理的一致５５２、及び信号的一致５５３（図５を参照のこと）を実現して、ユーザとクリエータ間の認識距離を短縮することができる。

　信号処理ニューラルネットワーク（ＮＮ）６１１の入力と、ユーザ感性ニューラルネットワーク６２２及びクリエータ感性ニューラルネットワーク６２３の出力を、以下の表１にまとめておく。信号処理ニューラルネットワーク６２１についても同様である。信号処理ニューラルネットワーク６２１への入力は、基本的にはテレビ受信装置１００に装備されるセンサー部１０９によるセンサー情報を利用することができるが、もちろん他のデバイスからの情報を利用するようにしてもよい。

　続いて、信号処理ニューラルネットワーク６２１（又は６１１）の再学習の頻度について説明しておく。

　ユーザの視力・動体視力、コントラスト感度、フリッカー感度といった生理情報やユーザの趣味嗜好は、時間の経過とともに変化していく。そこで、これらに関する入力に対する信号処理ニューラルネットワーク６２１の再学習は、長期間にわたり所定の頻度で実施することが望ましい。

　また、ユーザが使用するテレビ受信装置１００などの再生機器は、経時的に劣化し、さらにエッジでの再生環境や、フォグ又はクラウドとの接続状況は緩やかに変化する。したがって、再生機器や再生環境に関する入力に対する信号処理ニューラルネットワーク６２１の再学習は、中期的に実施することが望ましい。

　また、テレビ受信装置１００の通信環境は、使用する通信メディアの種別（又は、メディアの帯域）に応じて数パターンに分類することが可能である。視聴環境は、周辺照明・自然光（強度／角度／色）、画面上の反射（強度／角度／色）、眼鏡の着用の有無（着用している場合は、レンズの光学特性）、スマホの使用状況（ながら視聴か否か）を含むが、これらの組み合わせを数パターンに分類することが可能である。そこで、通信環境や視聴環境について組み合わせのパターンをあらかじめ所定数だけ定義し、パターン毎の学習モデルを中間的に生成しておいてもよい。ユーザ側で通信環境や視聴環境は短期間で変動する可能性があるが、変化する度に、そのときの通信環境及び視聴環境の組み合わせパターンに適合する学習モデル、又は近似する通信環境及び視聴環境の組み合わせパターンに適合する学習モデルを適応的に使用するようにしてもよい。

Ｆ．人工知能を利用した信号距離制御
　上記Ｅ項で説明したような、人工知能を利用した映像信号処理及びオーディオ信号処理によってユーザとクリエータ間の認識距離を縮める方法に加えて、人工知能を利用した映像信号処理及びオーディオ信号処理によってユーザとクリエータ間の信号距離を最小化するような処理を実現することもできる。この項では、人工知能を利用したユーザとクリエータ間の信号距離制御について説明する。

　クリエータによる制作時のコンテンツとユーザが視聴するコンテンツの間では、信号的不一致、環境的不一致、生理的不一致のうち少なくとも１つに起因して、信号距離が発生する。信号的不一致、環境的不一致、生理的不一致の詳細については、図５を参照しながら既に説明した通りである。この項で説明する信号距離制御は、信号的不一致、環境的不一致、生理的不一致のうち少なくとも１つに起因する信号距離を最小化することを目的とする。

　また、複数のユーザがテレビ受信装置１００を利用しているような場合、ユーザ間でも認識距離があることから、ユーザとクリエータ間の認識距離制御を行うことは難しい。何故ならば、複数のユーザのうち誰とクリエータ間の認識距離を制御すべきか不明であり、いずれか１人のユーザとクリエータ間の認識距離を制御すると他のユーザとクリエータ間の認識距離が広がる可能性もあるからである。このような場合、上記Ｅ項で説明した認識距離制御よりも、この項で説明する信号距離制御の方が好ましいと言うこともできる。

　図１０には、クリエータとユーザ間の信号距離を縮めるためのニューラルネットワークを学習及び運用するための人工知能システム１０００の構成例を模式的に示している。図示の人工知能システム１０００は、クラウドを利用して構成されることを想定している。クラウドを利用した人工知能システム１０００は、ローカル環境１０１０とクラウド１０２０からなる。

　ローカル環境１０１０は、テレビ受信装置１００を設置した動作環境（家庭）、あるいは家庭内に設置されたテレビ受信装置１００に相当する。図１０には、簡素化のため１つのローカル環境１０１０しか描いていないが、実際には、１つのクラウド１０２０に対して膨大数のローカル環境が接続されることが想定される。また、本実施形態では、ローカル環境１０１０としてテレビ受信装置１００が動作する家庭内のような動作環境を主に例示したが、ローカル環境１０１０は、スマートフォンやタブレット、パーソナルコンピュータといったコンテンツを表示するディスプレイを備えた任意の装置が動作する環境（駅、バス停、空港、ショッピングセンターのような公共施設、工場や職場などの労働設備を含む）であってもよい。

　上述したように、テレビ受信装置１００内には、深層学習などの事前学習した学習モデルを有する画作りニューラルネットワークを用いて、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理を実施する映像信号処理部１０５と、深層学習などの事前学習した学習モデルを有する音作りニューラルネットワークを用いて、帯域拡張や音像定位といったオーディオ信号の処理を実施するオーディオ信号処理部１０６が搭載されている。図１０では、簡素化のため、画作りニューラルネットワークを用いた映像信号処理部１０５と音作りニューラルネットワークを用いたオーディオ信号処理部１０６をまとめて、信号処理部１５０内で用いられる１つの信号処理ニューラルネットワーク１０１１と総称することにする。

　一方、クラウド１０２０には、人工知能を提供する人工知能サーバ（前述）（１つ以上のサーバ装置から構成される）が装備されている。人工知能サーバは、信号処理ニューラルネットワーク１０２１と、信号処理ニューラルネットワーク１０２１の出力と教師データを比較する比較部１０２２と、エキスパート教師データベース１０２４と、フィードバックデータベース１０２５が配設されている。

　エキスパート教師データベース１０２４は、映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報に関する膨大なサンプルデータを蓄積している。ここで言うユーザ側情報は、ユーザの状態やプロファイル、生理情報、ユーザが使用するテレビ受信装置１００が設置された環境に関する情報、ユーザが使用するテレビ受信装置１００のハードウェアなどの特性情報、並びに、テレビ受信装置１００において映像及びオーディオの受信信号に対して適用する復号などの信号処理に関する信号情報を含むものとする。なお、ユーザのプロファイルには、ユーザのＳＮＳの投稿及び閲覧の履歴（ＳＮＳにアップした画像や観た画像）などの過去の環境情報を含んでいてもよい。ユーザ側情報は、テレビ受信装置１００に備えられたセンサー部１０９によってほとんどすべて取得可能であることを想定している。また、クリエータ側情報は、上記のユーザ側情報に対応するクリエータ側の情報であり、クリエータの状態やプロファイル、クリエータが使用する業務用のモニター及びオーサリングシステムに関するハードウェアなどの特性情報、並びにクリエータが制作した映像信号及びオーディオ信号を伝送メディア又は記録メディアにアップロードする際に適用する符号化などの信号処理に関する信号情報を含むものとする。クリエータ側情報は、コンテンツの制作環境にセンサー部１０９と同等のセンサー機能を装備することによって取得可能であるものとする。

　信号処理ニューラルネットワーク１０２１は、ローカル環境１０１０に配置された信号処理ニューラルネットワーク１０１１と同一構成であり、画作りニューラルネットワークと音作りニューラルネットワークを含み、又は画作りニューラルネットワークと音作りニューラルネットワークをまとめた１つのニューラルネットワークである。信号処理ニューラルネットワーク１０２１は、学習（継続的な学習を含む）を目的としてクラウド１０２０に配置される。これに対し、ローカル環境１０１０の信号処理ニューラルネットワーク１０１１は、信号処理ニューラルネットワーク１０２１による学習結果に基づいて構成され、運用目的でテレビ受信装置１００内の信号処理部１５０（又は、映像信号処理部１０５とオーディオ信号処理部１０６の各々）に組み込まれる。

　クラウド１０２０側の信号処理ニューラルネットワーク１０２１は、クラウド１０２０に設置されているエキスパート教師データベース１０２４を用いて、原映像信号（若しくは、復号後の映像信号）、原オーディオ信号（若しくは、復号後のオーディオ信号）、ユーザ側情報及びクリエータ側情報間と、テレビ受信装置１００が受信し再生するコンテンツの信号をクリエータによって作成された原コンテンツに近い信号にする、すなわち信号距離を最小化するための映像信号処理とオーディオ信号処理との相関関係を学習する。なお、ユーザ側情報には、ユーザのＳＮＳの投稿及び閲覧の履歴（ＳＮＳにアップした画像や観た画像）などの過去の環境情報を含んでいてもよい。そして、信号処理ニューラルネットワーク１０２１は、映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報を入力とし、ユーザとクリエータ間で信号距離を最小化する映像信号処理及びオーディオ信号処理を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号を出力とする。

　ローカル環境１０１０側では、信号処理ニューラルネットワーク１０１１は、テレビ受信装置１００で受信中又は再生中の映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報を入力とし、クラウド１０２０側での信号処理ニューラルネットワーク１０２１の学習結果に基づいて、ユーザとクリエータ間の信号距離を最小化するような映像信号処理及びオーディオ信号処理を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号を出力とする。なお、テレビ受信装置１００がクリエータ側情報をリアルタイムで取得することは困難である。そこで、デフォルト設定されたクリエータ側情報や一般的なクリエータ側情報を信号処理ニューラルネットワーク１０１１への固定入力値として設定してもよい。また、クリエータ側情報は、テレビ受信装置１００で再生されるコンテンツに付随するメタデータとして取得されてもよい。具体的には、クリエータ側情報が放送信号やオンライン配信の映像信号でコンテンツとともに配信されてもよいし、記録メディアにコンテンツとともに記録されて配布されてもよい。また、放送時やオンライン配信時には、コンテンツとクリエータ側情報が共通のストリームで配信されてもよいし、異なるストリームで配信されてよい。そして、信号処理ニューラルネットワーク１０１１から出力される映像信号及びオーディオ信号は、それぞれ画像表示部１０７及びオーディオ出力部１０８で表示及びオーディオ出力される。ここでは、簡素化のため、信号処理ニューラルネットワーク１０１１への入力を単に「入力値」とも呼び、信号処理ニューラルネットワーク１０１１からの出力を単に「出力値」とも呼ぶことにする。

　ローカル環境１０１０のユーザ（例えば、テレビ受信装置１００の視聴者）は、信号処理ニューラルネットワーク１０１１の出力値を評価して、例えばテレビ受信装置１００のリモコン、音声エージェント、連携するスマートフォンなどを介してテレビ受信装置１００から出力される映像及びオーディオに対する認識をフィードバックする。フィードバックは、例えば、画音質設定のような設定情報をユーザが設定する操作に基づいて生成されてもよい。ローカル環境１０１０における入力値、出力値、及びユーザからのフィードバック（ユーザＦＢ）は、クラウド１０２０に転送されて、エキスパート教師データベース１０２４及びフィードバックデータベース１０２５にそれぞれ蓄積される。

　比較部１０２２は、信号処理ニューラルネットワーク１０２１から出力される映像信号及びオーディオ信号を、教師データすなわち信号処理ニューラルネットワーク１０２１に入力されたものと同じ原映像信号及び原オーディオ信号と比較する。例えば、信号処理ニューラルネットワーク１０２１から出力される映像信号及びオーディオ信号と原映像信号及び原オーディオ信号との差分に基づく損失関数を定義する。あるいは、ユーザからのフィードバックをさらに考慮した損失関数を定義するようにしてもよい。そして、比較部１０２２は、損失関数が最小となるように、バックプロパゲーション（誤差逆伝播法）により信号処理ニューラルネットワーク１０２１の学習を実施する。

　テレビ受信装置１００などのコンテンツ再生装置において、再生するコンテンツに対して、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理などの高画質化処理や帯域拡張などの高音質化処理を加えることが考えられる。その際には、テレビ受信装置１００が受信したコンテンツのデータがクリエータによって作成された原コンテンツに近い信号になるような映像及びオーディオの信号処理を、クラウド１０２０側で信号処理ニューラルネットワーク１０２１に事前学習させることができる。そして、その学習結果をローカル環境１０１０の信号処理ニューラルネットワーク１０１１に設定することにより、テレビ受信装置１００においてユーザ側のコンテンツとクリエータ側のコンテンツの信号距離を最小化するような信号処理が行われる。

　さらに、センサー部１０９を用いてテレビ受信装置１００が置かれている環境情報を取得し、信号処理ニューラルネットワーク１０１１がそれらの情報に基づいて、テレビ受信装置１００からユーザへ届くコンテンツのオーディオや映像の信号と、クリエータ側の再生機器からクリエータへ届くコンテンツのオーディオや映像の信号の間の差が小さくなるように映像及びオーディオの信号処理を行うようにしてもよい。例えば、テレビ受信装置１００が置かれている部屋の大きさやユーザの位置、部屋の明るさなどの情報を取得し、クリエータ側で取得された対応する情報を基に、クリエータが意図したようにコンテンツのオーディオや映像が視聴されるように信号処理を行うことができる。また、ユーザの身体的特徴や視聴状態に関する情報を基に、ユーザ側の視聴コンテンツとクリエータ側の視聴コンテンツの差が小さくなるように処理を行ってもよい。この場合、例えば、ユーザの身長や眼鏡の有無、視聴時間帯やユーザの視線の動きのような情報を取得し、ユーザがクリエータの意図するコンテンツを視聴することができるように信号処理を行うことができる。

　比較部１０２２は、信号処理ニューラルネットワーク１０２２の出力とクリエータ側で取得されたコンテンツの信号を比較することで、信号的不一致、環境的不一致、生理的不一致に対応して、ユーザとクリエータ間の信号距離を最小にするための映像信号処理及びオーディオ信号処理を学習する。そして、信号処理ニューラルネットワーク１０２２によって生成された学習結果を基に、テレビ受信装置１００では信号処理ニューラルネットワーク１０１１で信号処理を行う。このような処理は、例えば、複数のユーザがテレビ受信装置１００を利用しているような、認識距離制御を行うことが難しい状況で利用される。但し、認識距離制御が可能な場合には、上記Ｅ項で説明したように、ユーザ感性ニューラルネットワーク及びクリエータ感性ニューラルネットワークをさらに用いた信号処理ニューラルネットワーク１０２１の学習を行うようにしてもよい。

Ｇ．人工知能を利用した認識距離制御（２）
　上記Ｅ項で説明したような、人工知能を利用した映像信号処理及びオーディオ信号処理によってユーザとクリエータ間の認識距離を縮める方法に加えて、体感型の演出効果を利用して、ユーザとクリエータ間の認識距離をさらに縮める方法が考えられる。

　ユーザに刺激を与えることによって、ユーザが持つ認識が変化することを想定している。例えば、クリエータがコンテンツ制作時に恐怖感を感じさせたいシーンでは、冷気を送ったり水滴を吹き掛けたりする演出効果を与えることで、ユーザの恐怖感をあおり、ユーザとクリエータ間の認識距離をさらに縮めるのに寄与する。

　体感型の演出技術は、「４Ｄ」とも呼ばれるが、一部の映画館などでは既に導入され、上映中のシーンと連動して、座席の前後上下左右への移動動作や、風（冷風、温風）、光（照明のオン／オフなど）、水（ミスト、スプラッシュ）、香り、煙、身体運動などを用いて観衆の感覚を刺激する。これに対し、本実施形態では、テレビ受信装置１００で再生中のコンテンツを視聴しているユーザの五感に刺激を与える機器（以下では、「演出機器」とも呼ぶ）を利用することを想定している。演出機器として、エアコン、扇風機、ヒーター、照明機器（天井照明、スタンドライト、テーブルランプなど）、噴霧器、芳香器、発煙器などを挙げることができる。また、ウェアラブルデバイスやハンディデバイス、ＩｏＴデバイス、超音波アレイスピーカー、ドローンなどの自律型装置を、演出機器に利用することができる。ここで言うウェアラブルデバイスには、腕輪型や首掛け型などのデバイスが含まれる。

　演出機器は、テレビ受信装置１００が設置された部屋内に既に設置された家電製品を利用したものでもよいし、ユーザに刺激を与えるための専用の機器でもよい。また、演出機器は、テレビ受信装置１００に外付け接続される外部機器、又は、テレビ受信装置１００の筐体内に装備される内蔵機器のいずれの形態であってもよい。外部機器として装備される演出機器は、例えばホームネットワーク経由でテレビ受信装置１００に接続される。

　図７には、テレビ受信装置１００がある室内における演出機器の設置例を示している。図示の例では、ユーザは、テレビ受信装置１００の画面に対峙するように、椅子に座っている。

　テレビ受信装置１００が設置されている部屋内には、風を利用する演出機器として、エアコン７０１、テレビ受信装置１００内に装備されたファン７０２及び７０３、扇風機（図示しない）、ヒーター（図示しない）などが配設されている。図７に示す例で、ファン７０２及び７０３は、それぞれテレビ受信装置１００の大画面の上端縁及び下端縁からそれぞれ送風するように、テレビ受信装置１００の筐体内に配置されている。また、エアコン７０１や、ファン７０２及び７０３、ヒーター（図示しない）は、温度を利用する演出機器としても動作することが可能である。ファン７０２及び７０３の風速、風量、風圧、風向、揺らぎ、送風の温度などを調整することによって、ユーザが持つ認識観が変化することを想定している。

　また、テレビ受信装置１００が設置されている部屋内に配置されている天井照明７０４、スタンドライト７０５、テーブルランプ（図示しない）などの照明機器を、光を利用する演出機器として利用することができる。照明機器の光量、波長毎の光量、光線の方向などを調整することによって、ユーザが持つ認識観が変化することを想定している。

　また、テレビ受信装置１００が設置されている部屋内に配置されているミストやスプラッシュを噴出する噴霧器７０６を、水を利用する演出機器として利用することができる。噴霧器７０６の噴霧量や噴出方向、粒子径、温度などを調整することによって、ユーザが持つ認識が変化することを想定している。

　また、テレビ受信装置１００が設置されている部屋内には、香りを利用する演出機器として、気体拡散などにより香りを効率的に空間に所望の香りを漂わせる芳香器（ディフューザー）７０７が配置されている。芳香器７０７が放つ香りの種類、濃度、持続時間などを調整することによって、ユーザが持つ認識が変化することを想定している。

　また、テレビ受信装置１００が設置されている部屋内には、煙を利用する演出機器として、空中に煙を噴出する発煙器（図示しない）が配置されている。典型的な発煙器は、液化炭酸ガスを瞬時に空中に噴出して白煙を発生する。発煙器が発生する発煙量や煙の濃度、噴出時間、煙の色などを調整することによって、ユーザが持つ認識が変化することを想定している。

　また、テレビ受信装置１００の画面の前に設置され、ユーザが座っている椅子７０８は、前後上下左右への移動動作や振動動作といった身体運動が可能であり、運動を利用する演出機器として利用に供される。例えば、マッサージチェアを、この種の演出機器として利用するようにしてもよい。また、椅子７０８は、着座したユーザと密着していることから、健康被害がない程度の電気刺激をユーザに与えたり、ユーザの皮膚感覚（ハプティックス）若しくは触覚を刺激したりすることを利用して、演出効果を得ることもできる。

　図７に示した演出機器の設置例は一例に過ぎない。図示した以外にも、ウェアラブルデバイスやハンディデバイス、ＩｏＴデバイス、超音波アレイスピーカー、ドローンなどの自律型装置を、演出機器に利用することができる。ここで言うウェアラブルデバイスには、腕輪型や首掛け型などのデバイスが含まれる。

　図８には、演出効果を利用するテレビ受信装置１００の構成例を示している。但し、図８では、図２に示したテレビ受信装置１００と共通する構成要素については同一の参照番号を付けており、これらの共通する構成要素に関しては、以下では重複した説明を回避するものとする。

　図８に示すテレビ受信装置１００は、演出機器１１０と、演出機器１１０の駆動を制御する演出制御部１１１をさらに備えている。

　演出機器１１０は、図７を参照しながら説明した通り、風、温度、光、水（ミスト、スプラッシュ）、香り、煙、身体運動などを利用する各種演出機器のうち少なくとも１つからなる。演出機器１１０は、コンテンツのシーン毎に（若しくは、映像やオーディオに同期して）演出制御部１１１から出力される制御信号に基づいて駆動する。例えば、演出機器１１０が風を利用する演出機器の場合には、演出制御部１１１から出力される制御信号に基づいて、風速、風量、風圧、風向、揺らぎ、送風の温度などを調整する。

　図８に示す例では、演出制御部１１１は、映像信号処理部１０５及びオーディオ信号処理部１０６と同様に、信号処理部１５０内のコンポーネントとする。演出制御部１１１は、映像信号及びオーディオ信号と、センサー部１０９から出力されるセンサー情報を入力して、映像及びオーディオの各シーンに適合する体感型の演出効果が得られるように、演出機器１１０の駆動を制御するための制御信号を出力する。図８に示す例では、復号後の映像信号及びオーディオ信号が演出制御装置１１１に入力されるように構成されているが、復号前の映像信号及びオーディオ信号が演出制御装置１１１に入力されるように構成してもよい。

　本実施形態では、演出制御部１１１は、演出機器１１０の駆動制御を、深層学習などの事前学習した学習モデルを有する演出制御ニューラルネットワークを用いて実施することを想定している。具体的には、原映像信号（若しくは、復号後の映像信号）及びコンテンツ制作側とユーザ間の各不一致要因と、ユーザがクリエータと同じ認識を持つことができるようにするための演出効果（若しくは、演出機器１１０への制御信号）との相関関係を、演出制御ニューラルネットワークに事前学習させておく。そして、演出制御部１１１は、この演出制御ニューラルネットワークを用いて、演出機器１１０の駆動を実施して、ユーザの五感に刺激を与える。その結果、ユーザがクリエータと同じ認識を持つことができるような演出効果を実現することができる。なお、信号処理部１５０内の画作りと音作りと演出制御とを併せて行うニューラルネットワークに対し、信号的不一致、環境的不一致、生理的不一致を解消してユーザとクリエータ間の認識距離を最小化するための映像信号処理、オーディオ信号処理、及び演出制御を学習するように構成することもできる。演出制御ニューラルネットワークの学習（事前学習）は、テレビ受信装置１００上で行うこともできるが、後述するようにクラウド上で膨大量の教師データを用いて実施することがより好ましい。

　図９には、演出効果をさらに利用して、クリエータとユーザ間の認識距離を縮めるためのニューラルネットワークを学習及び運用するための人工知能システム９００の構成例を模式的に示している。図示の人工知能システム９００は、クラウドを利用して構成されることを想定している。クラウドを利用した人工知能システム９００は、ローカル環境９１０とクラウド９２０からなる。

　ローカル環境９１０は、テレビ受信装置１００を設置した動作環境（家庭）、あるいは家庭内に設置されたテレビ受信装置１００に相当する。図６には、簡素化のため１つのローカル環境９１０しか描いていないが、実際には、１つのクラウド９２０に対して膨大数のローカル環境が接続されることが想定される。また、本実施形態では、ローカル環境９１０としてテレビ受信装置１００が動作する家庭内のような動作環境を主に例示したが、ローカル環境９１０は、スマートフォンやタブレット、パーソナルコンピュータといったコンテンツを表示するディスプレイを備えた任意の装置が動作する環境（駅、バス停、空港、ショッピングセンターのような公共施設、工場や職場などの労働設備を含む）であってもよい。

　図８に示したテレビ受信装置１００内には、深層学習などの事前学習した学習モデルを有する画作りニューラルネットワークを用いて、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理を実施する映像信号処理部１０５と、深層学習などの事前学習した学習モデルを有する音作りニューラルネットワークを用いて、帯域拡張や音像定位といったオーディオ信号の処理を実施するオーディオ信号処理部１０６に加えて、深層学習などの事前学習した学習モデルを有する演出制御ニューラルネットワークを用いて、演出機器１１０への制御信号を出力して演出効果を実現する演出制御部１１１が搭載されている。図９では、簡素化のため、画作りニューラルネットワークを用いた映像信号処理部１０５と音作りニューラルネットワークを用いたオーディオ信号処理部１０６と演出制御ニューラルネットワークを用いた演出制御部１１１をまとめて、信号処理部１５０内で用いられる１つの信号処理ニューラルネットワーク９１１と総称することにする。

　一方、クラウド９２０には、人工知能を提供する人工知能サーバ（前述）（１つ以上のサーバ装置から構成される）が装備されている。人工知能サーバは、信号処理ニューラルネットワーク９２１と、ユーザの感性を学習するユーザ感性ニューラルネットワーク９２２と、クリエータの感性を学習するクリエータ感性ニューラルネットワーク９２３と、エキスパート教師データベース９２４と、フィードバックデータベース９２５が配設されている。

　エキスパート教師データベース９２４は、映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報に関する膨大なサンプルデータを蓄積している。ユーザ側情報とクリエータ側情報は、既に説明した通りである。ユーザ側情報は、テレビ受信装置１００に備えられたセンサー部１０９によって取得可能であることを想定している。なお、ユーザのプロファイルには、ユーザのＳＮＳの投稿及び閲覧の履歴（ＳＮＳにアップした画像や観た画像）などの過去の環境情報を含んでいてもよい。また、クリエータ側情報は、コンテンツの制作環境にセンサー部１０９と同等のセンサー機能を装備することによって取得可能であるものとする。

　信号処理ニューラルネットワーク９２１は、ローカル環境９１０に配置された信号処理ニューラルネットワーク９１１と同一構成であり、画作りニューラルネットワークと音作りニューラルネットワークと演出制御ニューラルネットワークとを含み、又は画作りニューラルネットワークと音作りニューラルネットワークと演出制御ニューラルネットワークをまとめた１つのニューラルネットワークである。信号処理ニューラルネットワーク９２１は、学習（継続的な学習を含む）を目的としてクラウド９２０に配置される。これに対し、ローカル環境９１０の信号処理ニューラルネットワーク９１１は、信号処理ニューラルネットワーク９２１による学習結果に基づいて構成され、運用目的でテレビ受信装置１００内の信号処理部１５０（又は、映像信号処理部１０５とオーディオ信号処理部１０６と演出制御部１１１の各々）に組み込まれる。

　クラウド９２０側の信号処理ニューラルネットワーク９２１は、クラウド９２０に設置されているエキスパート教師データベース９２４を用いて、原映像信号（若しくは、復号後の映像信号）、原オーディオ信号（若しくは、復号後のオーディオ信号）、ユーザ側情報及びクリエータ側情報間と、コンテンツに対してユーザがクリエータと同じ認識を持つことができるようにするための映像信号処理及びオーディオ信号処理、演出効果（若しくは、演出機器１１０への制御信号）との相関関係を学習する。なお、ユーザ側情報には、ユーザのＳＮＳの投稿及び閲覧の履歴（ＳＮＳにアップした画像や観た画像）などの過去の環境情報を含んでいてもよい。そして、信号処理ニューラルネットワーク９２１は、映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報を入力とし、ユーザがコンテンツに対してクリエータと同じ認識を持つことができるようにする映像信号処理及びオーディオ信号処理、演出効果（若しくは、演出機器１１０への制御信号）を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号と、演出機器１１０への制御信号とを出力とする。

　ユーザ感性ニューラルネットワーク９２２とクリエータ感性ニューラルネットワーク９２３は、信号処理ニューラルネットワーク９２１の学習状況の評価に用いられるニューラルネットワークである。

　ユーザ感性ニューラルネットワーク９２２は、ユーザの感性を学習するニューラルネットワークであり、映像信号及びオーディオ信号と、演出効果（若しくは、演出機器１１０への制御信号）と、ユーザ側情報と、映像及びオーディオ出力に対するユーザの認識との相関関係を学習する。図９に示す人工知能システム９００では、ユーザ感性ニューラルネットワーク９２２は、信号処理ニューラルネットワーク９２１からの出力（ユーザとクリエータ間でコンテンツに対する認識が一致するように信号処理が施された映像信号及びオーディオ信号と、ユーザとクリエータ間でコンテンツに対する認識が一致するようになると推定された演出効果（演出機器１１０への制御信号））と、ユーザ側情報を入力とし、入力された映像信号及びオーディオ信号と演出効果に対するユーザの認識を推定して出力する。

　また、クリエータ感性ニューラルネットワーク９２３は、クリエータの感性を学習するニューラルネットワークであり、映像信号及びオーディオ信号、クリエータ側情報と、映像及びオーディオ出力に対するクリエータの認識との相関関係を学習する。図９に示す人工知能システム９００では、クリエータ感性ニューラルネットワーク９２３は、（信号処理ニューラルネットワーク９２１に入力される）原映像信号及び原オーディオ信号と、クリエータ側情報を入力とし、入力された映像信号及びオーディオ信号に対するクリエータの認識を推定して出力する。

　例えば、ユーザ感性ニューラルネットワーク９２２が推定するユーザの認識と、クリエータ感性ニューラルネットワーク９２３が推定するクリエータの認識との差分に基づく損失関数を定義する。そして、損失関数が最小となるように、バックプロパゲーション（誤差逆伝播法）により信号処理ニューラルネットワーク９２１の学習を実施する。

　ローカル環境９１０側では、信号処理ニューラルネットワーク９１１は、テレビ受信装置１００で受信中又は再生中の映像信号及びオーディオ信号と、ユーザ側情報と、クリエータ側情報を入力とし、クラウド９２０側での信号処理ニューラルネットワーク９２１の学習結果に基づいて、ユーザがクリエータと同じ認識を持つことができるような映像信号処理及びオーディオ信号処理と演出効果を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号と、演出機器１１０への制御信号を出力とする。なお、テレビ受信装置１００がクリエータ側情報をリアルタイムで取得することは困難である。そこで、デフォルト設定されたクリエータ側情報や一般的なクリエータ側情報を信号処理ニューラルネットワーク９１１への固定入力値として設定してもよい。また、クリエータ側情報は、テレビ受信装置１００で再生されるコンテンツに付随するメタデータとして取得されてもよい。具体的には、クリエータ側情報が放送信号やオンライン配信の映像信号でコンテンツとともに配信されてもよいし、記録メディアにコンテンツとともに記録されて配布されてもよい。また、放送時やオンライン配信時には、コンテンツとクリエータ側情報が共通のストリームで配信されてもよいし、異なるストリームで配信されてよい。そして、信号処理ニューラルネットワーク９１１から出力される映像信号及びオーディオ信号は、それぞれ画像表示部１０７及びオーディオ出力部１０８で表示及びオーディオ出力される。ここでは、簡素化のため、信号処理ニューラルネットワーク９１１への入力を単に「入力値」とも呼び、信号処理ニューラルネットワーク９１１からの出力を単に「出力値」とも呼ぶことにする。

　ローカル環境９１０のユーザ（例えば、テレビ受信装置１００の視聴者）は、信号処理ニューラルネットワーク９１１の出力値を評価して、例えばテレビ受信装置１００のリモコン、音声エージェント、連携するスマートフォンなどを介してテレビ受信装置１００から出力される映像及びオーディオに対する認識をフィードバックする。フィードバックは、例えば、画音質設定のような設定情報をユーザが設定する操作に基づいて生成されてもよい。ローカル環境９１０における入力値、出力値、及びユーザからのフィードバック（ユーザＦＢ）は、クラウド９２０に転送されて、エキスパート教師データベース９２４及びフィードバックデータベース９２５にそれぞれ蓄積される。

　クラウド９２０内では、第１ステップとしての評価用のユーザ感性ニューラルネットワーク９２２及びクリエータ感性ニューラルネットワーク９２３の学習と、第２ステップとしての信号処理ニューラルネットワーク９２１の学習が交互に実施される。第１ステップでは、信号処理ニューラルネットワーク９２１を固定して（学習を停止して）、ユーザ感性ニューラルネットワーク９２２及びクリエータ感性ニューラルネットワーク９２３の学習を実施する。これに対し、第２ステップでは、ユーザ感性ニューラルネットワーク９２２及びクリエータ感性ニューラルネットワーク９２３を固定して（学習を停止して）、信号処理ニューラルネットワーク９２１の学習を実施する。

　ユーザ感性ニューラルネットワーク９２２は、ユーザの感性を学習するニューラルネットワークである。第１ステップでは、ユーザ感性ニューラルネットワーク９２２は、信号処理ニューラルネットワーク９２１から出力される映像信号及びオーディオ信号、並びに演出効果（演出機器１１０への制御信号）と、信号処理ニューラルネットワーク９２１への入力と同じユーザ側情報を入力して、信号処理が施された映像信号及びオーディオ信号、並びに演出効果（演出機器１１０への制御信号）に対するユーザの認識を推定して出力する。そして、信号処理ニューラルネットワーク９２１から出力される映像信号及びオーディオ信号、並びに演出効果（演出機器１１０への制御信号）に対してユーザ感性ニューラルネットワーク９２２が推定するユーザの認識と、フィードバックデータベース９２５から読み出される現実のユーザが持つ認識との差分に基づく損失関数を定義して、損失関数が最小となるように、ユーザ感性ニューラルネットワーク９２２の学習を実施する。この結果、ユーザ感性ニューラルネットワーク９２２は、信号処理ニューラルネットワーク９２１によってユーザとクリエータ間で認識が一致するように信号処理が施された映像信号及びオーディオ信号、並びに演出効果（演出機器１１０への制御信号）に対して、ユーザ感性ニューラルネットワーク９２２が推定するユーザの認識が現実のユーザが持つ認識に近づくように、学習されていく。

　クリエータ感性ニューラルネットワーク９２３は、クリエータの感性を学習するニューラルネットワークである。第１ステップでは、クリエータ感性ニューラルネットワーク９２３は、信号処理ニューラルネットワーク９２１への入力と同じ原映像信号及び原オーディオ信号とクリエータ側情報を入力して、原映像信号及び原オーディオ信号に対するクリエータの認識を推定して出力する。そして、原映像信号及び原オーディオ信号に対してクリエータ感性ニューラルネットワーク９２３が推定するクリエータの認識と、フィードバックデータベース９２５から読み出される現実のクリエータが持つ認識との差分に基づく損失関数を定義して、損失関数が最小となるように、クリエータ感性ニューラルネットワーク９２３の学習を実施する。この結果、クリエータ感性ニューラルネットワーク９２３は、原映像信号及び原オーディオ信号（すなわち、クリエータ自身が制作したコンテンツ）に対して、クリエータ感性ニューラルネットワーク９２３が推定するクリエータの認識が現実のクリエータが持つ認識に近づくように、学習されていく。

　続く第２ステップでは、ユーザ感性ニューラルネットワーク９２２及びクリエータ感性ニューラルネットワーク９２３をともに固定して、今度は信号処理ニューラルネットワーク９２１の学習を実施する。フィードバックデータベース９２５（前述）からフィードバックデータを取り出すと、フィードバックデータに含まれる入力値が信号処理ニューラルネットワーク９２１に入力される。信号処理ニューラルネットワーク９２１は、入力値に対し、ユーザがクリエータと同じ認識を持つことができるような映像信号処理及びオーディオ信号処理、並びに演出効果を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号、並びに演出機器１１０への制御信号を出力とする。

　次いで、ユーザ感性ニューラルネットワーク９２２は、信号処理ニューラルネットワーク９２１から出力された映像信号及びオーディオ信号と、ユーザ側情報を入力し、入力された映像信号及びオーディオ信号、並びに演出効果（演出機器１１０への制御信号）に対するユーザの認識を推定して出力する。また、クリエータ感性ニューラルネットワーク９２３は、フィードバックデータベース９２５から読み出された入力値（信号処理ニューラルネットワーク９２１への入力と同じ原映像信号及び原オーディオ信号）を入力して、クリエータの認識を推定して出力する。

　また、信号処理ニューラルネットワーク９２１の学習時において、エキスパート教師データベース９２４を教師データに用いてもよい。また、フィードバックデータベース９２５やエキスパート教師データベース９２４など、２以上の教師データを用いて学習を行うようにしてもよい。この場合、教師データ毎に算出した損失関数を重み付け加算して、最小となるように信号処理ニューラルネットワーク９２１の学習を行うようにしてもよい。

　上述したような第１ステップとしてのユーザ感性ニューラルネットワーク９２２及びクリエータ感性ニューラルネットワーク９２３の学習と、第２ステップとしての信号処理ニューラルネットワーク９２１の学習が交互に実施することによって、信号処理ニューラルネットワーク９２１が出力する映像信号及びオーディオ信号がユーザとクリエータ間の認識を近づける確度が向上していく。そして、学習により確度が向上した信号処理ニューラルネットワーク９２１におけるニューロン間の最適な結合重み係数の集合からなる学習モデルを、ローカル環境９１０のテレビ受信装置１００にダウンロードして、信号処理ニューラルネットワーク９１１のニューロン間結合重み係数を設定することで、ユーザ（若しくは、ユーザが使用するテレビ受信装置１００）もさらに学習が進んだ信号処理ニューラルネットワーク９１１を利用することができる。その結果、テレビ受信装置１００において出力される映像及びオーディオに対するユーザの認識が、コンテンツ制作時のクリエータの認識と一致する機会が増えていく。

　クラウド９２０側で学習により確度が向上した学習モデルをローカル環境９１０に提供する方法は任意である。例えば、信号処理ニューラルネットワーク９２１の学習モデルのビットストリームを圧縮して、クラウド９２０からローカル環境９１０のテレビ受信装置１００へダウンロードするようにしてもよい。圧縮してもビットストリームのサイズが大きいときには、学習モデルを複数に分割して、複数回に分けて圧縮ビットストリームをダウンロードするようにしてもよい。学習モデルはニューラルネットワークにおけるニューロン間の結合重み係数の集合であり、分割ダウンロードする際には、ニューラルネットワークの層毎、あるいは層内の領域毎に分割するようにしてもよい。

Ｈ．人工知能を利用した任意ユーザ間の信号距離制御
　上記Ｅ項では、人工知能を利用した映像信号処理及びオーディオ信号処理によってユーザとクリエータ間の認識距離を縮める方法について説明した。その変形例として、人工知能を利用した映像信号処理及びオーディオ信号処理によって任意ユーザ間の信号距離を最小化するような処理を実現することもできる。この項では、人工知能を利用した任意ユーザ間の信号距離制御について説明する。

　図１１には、図１に示したようなシステムにおいて、コンテンツ制作側で制作されたコンテンツが各ユーザ（図１１に示す例では、ユーザＡとユーザＢ）により視聴されるまでの流れを模式的に示している。図１１中、左側をユーザＡ側とし、右側をユーザＢ側とする。

　コンテンツ制作側でクリエータが制作又は編集したコンテンツは、例えばＭＰＥＧなどの所定の符号化方式で符号化処理が施された後（図１１では図示しない）、放送やインターネットなどの伝送メディア、あるいはブルーレイなどの記録メディアを介して、各ユーザに届けられる。

　ユーザＡ側では、テレビ受信装置１００やその他のコンテンツ再生装置（以下、単に「テレビ受信装置１００」とする）が、伝送メディアや記録メディアを介して、符号化データを受信する。テレビ受信装置１００は、例えばユーザＡ宅のリビングルーム１１０１などに設置されている。テレビ受信装置１００内では、受信した符号化データに対して、ＭＰＥＧなどの所定の符号化方式に従った復号処理１１０２が施されて映像ストリームとオーディオストリームに分離され、さらに信号処理を施した後に、映像の画面表示及びオーディオ出力を実施する。そして、ユーザＡは、テレビ受信装置１００の映像及びオーディオを視聴する。

　また、ユーザＢ側でも、テレビ受信装置１００´やその他のコンテンツ再生装置（以下、単に「テレビ受信装置１００´」とする）が、伝送メディアや記録メディアを介して、符号化データを受信する。テレビ受信装置１００´は、例えばユーザＢ宅のリビングルーム１１０１´などに設置されている。テレビ受信装置１００´内では、受信した符号化データに対して、ＭＰＥＧなどの所定の符号化方式に従った復号処理１１０２´が施されて映像ストリームとオーディオストリームに分離され、さらに信号処理を施した後に、映像の画面表示及びオーディオ出力を実施する。そして、ユーザＢは、テレビ受信装置１００´の映像及びオーディオを視聴する。

　ユーザＡ側のテレビ受信装置１００で再生されるコンテンツの信号と、ユーザＢ側のテレビ受信装置１００´で再生されるコンテンツの信号との間には、ギャップすなわち信号距離が生じる。信号距離の原因として以下のようなものが考えられる。

（１）信号処理による原因（信号的不一致）
　コンテンツ制作側で扱うＲＡＷ信号を各ユーザに伝送する際にノイズが発生し、テレビ受信装置１００とテレビ受信装置１００´の各々で行う復号処理の過程で色サンプリングや階調変換など処理により、信号的不一致が発生する。さらに、テレビ受信装置１００とテレビ受信装置１００´の各々で行う高画質化や高音質化といった信号処理の過程で、再生されるコンテンツの信号の不一致が生じる。

（２）ハードウェア特性による原因（環境的不一致（１））
　ユーザＡとユーザＢはそれぞれ市販のテレビ受信装置１００、１００´でコンテンツを視聴する。テレビ受信装置１００とテレビ受信装置１００´は、製造メーカや型式などが相違すると、性能差や特性差といったハードウェア的不一致がある。このため、同じ映像信号及びオーディオ信号が入力されたとしても、テレビ受信装置１００とテレビ受信装置１００´の各々で再生されるコンテンツの信号の不一致が生じる。例えば、表示デバイスが液晶の場合、視野角特性、応答特性、並びに温度特性の相違によって、映像に際が生じる。また、表示デバイスがＬＥＤの場合、色毎の応答特性や温度特性の相違によって、映像に差異が生じる。

　なお、各テレビ受信装置の性能情報や特性情報は、個々の製品の仕様情報から取得することができる。また、各テレビ受信装置の性能差や特性差は、各々から出力される映像信号やオーディオ信号を輝度計やスペクトル解析装置を用いて解析した結果であってもよい。

（３）環境による原因（環境的不一致（２））
　ユーザＡは、自宅のリビングルーム１１０１などにテレビ受信装置１００を接地して、再生コンテンツを視聴する。同様に、ユーザＢは、自宅のリビングルーム１１０１´などにテレビ受信装置１００´を設置して、再生コンテンツを視聴する。リビングルーム１１０１とリビングルーム１１０１´とでは、遮音性、室内照明や自然光の強度、照射角度、色が相違する。また、テレビ受信装置１００とテレビ受信装置１００´とでは、画面上の反射光の強度、反射角度、色が相違する。このような環境的不一致によって、テレビ受信装置１００とテレビ受信装置１００´の各々で再生されるコンテンツの信号の不一致が生じる。

（４）生理上の原因（生理的不一致）
　ユーザＡとユーザＢ間における視力、動体視力、コントラスト感度、フリッカー感度といった生理学上の特徴の相違によって、ユーザＡとユーザＢが同じ再生コンテンツを視聴したとしても、脳内で認識される信号の不一致が生じる。同様に、ユーザＡとユーザＢ間における健康状態や精神状態の相違によって、同じ再生コンテンツを視聴した際に、互いの脳内で認識される信号の不一致が生じる。

　なお、ユーザＡとユーザＢ間には、信号距離の他にも、信号的不一致、環境的不一致、生理的不一致などに起因する認識距離ももちろん存在し得る。但し、専門家であるとともにコンテンツの制作者自身であるクリエータの認識は絶対的な基準となり得るのに対し、ユーザＡとユーザＢのいずれの認識が基準になるのか不明であり、任意のユーザの中から基準を設定することは困難である。そこで、この項では、信号的不一致、環境的不一致、生理的不一致のうち少なくとも１つに起因する信号距離を最小化することを目的とする。

　図１２には、ユーザ間の信号距離を縮めるためのニューラルネットワークを学習及び運用するための人工知能システム１２００の構成例を模式的に示している。図示の人工知能システム１２００は、クラウドを利用して構成されることを想定している。クラウドを利用した人工知能システム１２００は、ローカル環境１２１０とクラウド１２２０からなる。

　ローカル環境１２１０は、テレビ受信装置１００を設置した動作環境（家庭）、あるいは家庭内に設置されたテレビ受信装置１００に相当する。図１２には、簡素化のため１つのローカル環境１２１０しか描いていないが、実際には、１つのクラウド１２２０に対して膨大数のローカル環境が接続されることが想定される。また、本実施形態では、ローカル環境１２１０としてテレビ受信装置１００が動作する家庭内のような動作環境を主に例示したが、ローカル環境１２１０は、スマートフォンやタブレット、パーソナルコンピュータといったコンテンツを表示するディスプレイを備えた任意の装置が動作する環境（駅、バス停、空港、ショッピングセンターのような公共施設、工場や職場などの労働設備を含む）であってもよい。

　上述したように、テレビ受信装置１００内には、深層学習などの事前学習した学習モデルを有する画作りニューラルネットワークを用いて、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理といった映像信号処理を実施する映像信号処理部１０５と、深層学習などの事前学習した学習モデルを有する音作りニューラルネットワークを用いて、帯域拡張や音像定位といったオーディオ信号の処理を実施するオーディオ信号処理部１０６が搭載されている。図１２では、簡素化のため、画作りニューラルネットワークを用いた映像信号処理部１０５と音作りニューラルネットワークを用いたオーディオ信号処理部１０６をまとめて、信号処理部１５０内で用いられる１つの信号処理ニューラルネットワーク１２１１と総称することにする。

　一方、クラウド１２２０には、人工知能を提供する人工知能サーバ（前述）（１つ以上のサーバ装置から構成される）が装備されている。人工知能サーバは、信号処理ニューラルネットワーク１２２１と、信号処理ニューラルネットワーク１２２１の出力と教師データを比較する比較部１２２２と、エキスパート教師データベース１２２４と、フィードバックデータベース１２２５が配設されている。

　エキスパート教師データベース１２２４は、映像信号及びオーディオ信号と、ユーザ側情報に関する膨大なサンプルデータを蓄積している。ここで言うユーザ側情報は、ユーザの状態やプロファイル、生理情報、ユーザが使用するテレビ受信装置１００が設置された環境に関する情報、ユーザが使用するテレビ受信装置１００のハードウェアなどの特性情報、並びに、テレビ受信装置１００において映像及びオーディオの受信信号に対して適用する復号などの信号処理に関する信号情報を含むものとする。なお、ユーザのプロファイルには、ユーザのＳＮＳの投稿及び閲覧の履歴（ＳＮＳにアップした画像や観た画像）などの過去の環境情報を含んでいてもよい。ユーザ側情報は、テレビ受信装置１００に備えられたセンサー部１０９によってほとんどすべて取得可能であることを想定している。

　信号処理ニューラルネットワーク１２２１は、ローカル環境１２１０に配置された信号処理ニューラルネットワーク１２１１と同一構成であり、画作りニューラルネットワークと音作りニューラルネットワークを含み、又は画作りニューラルネットワークと音作りニューラルネットワークをまとめた１つのニューラルネットワークである。信号処理ニューラルネットワーク１２２１は、学習（継続的な学習を含む）を目的としてクラウド１２２０に配置される。これに対し、ローカル環境１２１０の信号処理ニューラルネットワーク１２１１は、信号処理ニューラルネットワーク１２２１による学習結果に基づいて構成され、運用目的でテレビ受信装置１００内の信号処理部１５０（又は、映像信号処理部１０５とオーディオ信号処理部１０６の各々）に組み込まれる。

　クラウド１２２０側の信号処理ニューラルネットワーク１２２１は、クラウド１２２０に設置されているエキスパート教師データベース１２２４を用いて、原映像信号（若しくは、復号後の映像信号）、原オーディオ信号（若しくは、復号後のオーディオ信号）、及び複数のユーザ側情報（図１２中では「ユーザＡ側情報」と「ユーザＢ側情報」とする）と、各ユーザ（図１２に示す例ではユーザＡとユーザＢ）のテレビ受信装置１００で再生されるコンテンツ間の信号距離を最小化するための映像信号処理とオーディオ信号処理との相関関係を学習する。なお、ユーザ側情報には、ユーザのＳＮＳの投稿及び閲覧の履歴（ＳＮＳにアップした画像や観た画像）などの過去の環境情報を含んでいてもよい。また、図１２に示す例では、教師データとして、ユーザＢ側のテレビ受信装置１００で再生される映像信号及びオーディオ信号を用いているが、その他の信号であってもよい。例えばコンテンツ制作側から送出される原コンテンツの映像信号及びオーディオ信号、あるいは家庭内で視聴する標準的な映像信号及びオーディオ信号を、信号処理ニューラルネットワーク１２２１の学習用の教師データとして定義した信号を用いてもよい。そして、信号処理ニューラルネットワーク１２２１は、映像信号及びオーディオ信号と、複数のユーザ側情報を入力とし、ユーザ間で信号距離を最小化する映像信号処理及びオーディオ信号処理を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号を出力とする。

　比較部１２２２は、信号処理ニューラルネットワーク１２２１の出力と基準となるコンテンツ（例えば、原コンテンツ）の信号を比較することで、信号的不一致、環境的不一致、生理的不一致に対応して、ユーザ間の信号距離を最小にするための映像信号処理及びオーディオ信号処理を学習する。

　具体的には、比較部１２２２は、信号処理ニューラルネットワーク１２２１から出力される映像信号及びオーディオ信号（図１２に示す例では、ユーザＡ向けに推定した映像信号及びオーディオ信号）を、教師データ（図１２に示す例では、ユーザＢ側のテレビ受信装置１００で再生される映像信号及びオーディオ信号）と比較する。例えば、信号処理ニューラルネットワーク１２２１から出力される映像信号及びオーディオ信号と原映像信号及び原オーディオ信号との差分に基づく損失関数を定義する。あるいは、ユーザからのフィードバックをさらに考慮した損失関数を定義するようにしてもよい。そして、比較部１２２２は、損失関数が最小となるように、バックプロパゲーション（誤差逆伝播法）により信号処理ニューラルネットワーク１２２１の学習を実施する。

　ローカル環境１２１０側では、テレビ受信装置１００が、クラウド１２２０側の信号処理ニューラルネットワーク１２２２によって生成された学習結果に基づいて、信号処理ニューラルネットワーク１２１１が映像信号及びオーディオ信号の信号処理を行う。具体的には、ローカル環境１２１０側では、信号処理ニューラルネットワーク１２１１は、テレビ受信装置１００で受信中又は再生中の映像信号及びオーディオ信号と、複数のユーザ側情報（図１２中では、ユーザ本人の情報としての「ユーザＡ側情報」と他のユーザの情報としての「ユーザＢ側情報」とする）を入力とし、クラウド１２２０側での信号処理ニューラルネットワーク１２２１の学習結果に基づいて、ユーザ間の信号距離を最小化するような映像信号処理及びオーディオ信号処理を推定して、入力された映像信号及びオーディオ信号に対してそれぞれ当該推定した映像信号処理及びオーディオ信号処理が施された映像信号及びオーディオ信号を出力とする。なお、テレビ受信装置１００が他のユーザ側情報（図１２中の、「ユーザＢ側情報」）をリアルタイムで取得することは困難である。そこで、デフォルト設定されたユーザ側情報や一般的なユーザ側情報を信号処理ニューラルネットワーク１２１１への固定入力値として設定してもよい。また、他のユーザ側情報は、テレビ受信装置１００で再生されるコンテンツに付随するメタデータとして取得されてもよい。具体的には、他のユーザ側情報が放送信号やオンライン配信の映像信号でコンテンツとともに配信されてもよいし、記録メディアにコンテンツとともに記録されて配布されてもよい。また、放送時やオンライン配信時には、コンテンツと他のユーザ側情報が共通のストリームで配信されてもよいし、異なるストリームで配信されてよい。そして、信号処理ニューラルネットワーク１２１１から出力される映像信号及びオーディオ信号は、それぞれ画像表示部１０７及びオーディオ出力部で表示及びオーディオ出力される。ここでは、簡素化のため、信号処理ニューラルネットワーク１２１１への入力を単に「入力値」とも呼び、信号処理ニューラルネットワーク１２１１からの出力を単に「出力値」とも呼ぶことにする。

　ローカル環境１２１０のユーザ（例えば、テレビ受信装置１００の視聴者）は、信号処理ニューラルネットワーク１２１１の出力値を評価して、例えばテレビ受信装置１００のリモコン、音声エージェント、連携するスマートフォンなどを介してテレビ受信装置１００から出力される映像及びオーディオに対する認識をフィードバックする。フィードバックは、例えば、画音質設定のような設定情報をユーザが設定する操作に基づいて生成されてもよい。ローカル環境１２１０における入力値、出力値、及びユーザからのフィードバック（ユーザＦＢ）は、クラウド１２２０に転送されて、エキスパート教師データベース１２２４及びフィードバックデータベース１２２５にそれぞれ蓄積される。

　テレビ受信装置１００などのコンテンツ再生装置において、再生するコンテンツに対して、ノイズ低減、超解像処理、ダイナミックレンジ変換処理、及びガンマ処理などの高画質化処理や帯域拡張などの高音質化処理を加えることが考えられる。その際には、テレビ受信装置１００が受信したコンテンツのデータが他のユーザのテレビ受信装置１００´で再生されるコンテンツに近い信号になるような映像及びオーディオの信号処理を、クラウド１２２０側で信号処理ニューラルネットワーク１２２１に事前学習させることができる。そして、その学習結果をローカル環境１２１０の信号処理ニューラルネットワーク１２１１に設定することにより、テレビ受信装置１００においてユーザ間のコンテンツの信号距離を最小化するような信号処理が行われる。

　さらに、センサー部１０９を用いてテレビ受信装置１００が置かれている環境情報を取得し、信号処理ニューラルネットワーク１２１１がそれらの情報に基づいて、テレビ受信装置１００からユーザへ届くコンテンツのオーディオや映像の信号と、テレビ受信装置１００´から他のユーザへ届くコンテンツのオーディオや映像の信号の間の差が小さくなるように映像及びオーディオの信号処理を行うようにしてもよい。例えば、テレビ受信装置１００が置かれている部屋の大きさやユーザの位置、部屋の明るさなどの情報を取得し、他のユーザ側で取得された対応する情報を基に、各ユーザが同じようにコンテンツのオーディオや映像が視聴されるように信号処理を行うことができる。また、各ユーザの身体的特徴や視聴状態に関する情報を基に、ユーザ間で視聴コンテンツの差が小さくなるように処理を行ってもよい。この場合、例えば、ユーザ毎の身長や眼鏡の有無、視聴時間帯やユーザの視線の動きのような情報を取得し、各ユーザが同じコンテンツを視聴することができるように信号処理を行うことができる。

　図１２に示す人工知能システム１２００に基づいて学習された信号処理ニューラルネットワーク１２１１をテレビ受信装置１００に搭載して使用することで、ユーザ間で信号的一致１１１１、環境及び生理的一致１１１２、及び信号的一致１１３（図１１を参照のこと）を実現して、任意のユーザ間の信号距離を短縮することができる。

　以上、特定の実施形態を参照しながら、本開示に係る技術について詳細に説明してきた。しかしながら、本開示に係る技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

　本明細書では、本開示に係る技術をテレビ受信機に適用した実施形態を中心に説明してきたが、本開示に係る技術の要旨はこれに限定されるものではない。映像やオーディオなどさまざまな再生コンテンツを、放送波又はインターネットを介したストリーミングあるいはダウンロードにより取得してユーザに提示するさまざまなタイプのコンテンツの取得あるいは再生の機能を持つディスプレイを搭載したコンテンツ取得装置あるいは再生装置又はディスプレイ装置にも、同様に本開示に係る技術を適用することができる。

　要するに、例示という形態により本開示に係る技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示に係る技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。

　なお、本明細書の開示の技術は、以下のような構成をとることも可能である。

（１）再生コンテンツを取得する取得部と、
　視聴状況に関する情報を取得する検出部と、
　前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御部と、
　前記推定した再生コンテンツを出力する出力部と、
を具備する情報処理装置。

（２）前記ユーザに関する情報は、前記ユーザの状態、前記ユーザのプロファイル、前記情報処理装置の設置環境、前記情報処理装置のハードウェア情報、前記情報処理装置内で実施される信号処理のうち少なくとも１つに関する情報を含む、
上記（１）に記載の情報処理装置。

（３）前記ユーザに関する情報は、前記検出部によって検出された情報を含む、
上記（１）又は（２）のいずれかに記載の情報処理装置。

（４）前記クリエータに関する情報は、前記クリエータの状態、前記クリエータのプロファイル、前記コンテンツの制作環境、前記コンテンツの制作に使用した機器ハードウェア情報、前記コンテンツのアップロード時に実施される信号処理のうち少なくとも１つに関する情報を含む、
上記（１）乃至（３）のいずれかに記載の情報処理装置。

（５）前記クリエータに関する情報は、前記ユーザに関する情報に対応する情報を含む、
上記（１）乃至（４）のいずれかに記載の情報処理装置。

（６）前記制御部は、前記出力する再生コンテンツを推定する制御として、前記再生コンテンツに対する信号処理を推定する、
上記（１）乃至（５）のいずれかに記載の情報処理装置。

（７）前記再生コンテンツに対する信号処理は、前記ユーザが認識する前記再生コンテンツの映像又は音声と、前記クリエータが認識する前記再生コンテンツの映像又は音声を対応付ける処理である、
上記（６）に記載の情報処理装置。

（８）前記再生コンテンツは映像信号を含み、
　前記信号処理は、解像度変換、ダイナミックレンジ変換、ノイズ低減、ガンマ処理のうち少なくとも１つを含む、
上記（６）又は（７）のいずれかに記載の情報処理装置。

（９）前記再生コンテンツは、オーディオ信号を含み、
　前記信号処理は、帯域拡張、音像定位のうち少なくとも１つを含む、
上記（６）乃至（８）のいずれかに記載の情報処理装置。

（１０）前記制御部は、前記信号処理を基に出力された前記再生コンテンツに対するフィードバックを取得し、前記フィードバックに基づいてさらに前記信号処理を行う、
上記（６）乃至（９）のいずれかに記載の情報処理装置。

（１１）前記取得部は、前記ユーザに関する情報と前記クリエータに関する情報に基づいて生成された信号処理の参照情報をさらに取得し、
　前記制御部は、前記参照情報に基づいて前記信号処理を推定する、
上記（６）に記載の情報処理装置。

（１２）前記制御部は、人工知能による処理によって、前記参照情報に基づく前記信号処理の推定を行う、
上記（１１）に記載の情報処理装置。

（１３）前記人工知能による処理は、前記検出部によって検出された情報と前記参照情報に基づいて前記推定を行う処理である、
上記（１２）に記載の情報処理装置。

（１４）前記制御部は、前記再生コンテンツに対応する演出効果を出力するように、外部機器を制御する、
上記（１）乃至（１３）に記載の情報処理装置。

（１５）前記外部機器は、演出効果を出力する演出機器であり、
　前記制御部は、前記検出部によって検出された前記ユーザに関する情報と前記クリエータに関する情報に基づいて、前記演出機器を制御する、
上記（１４）に記載の情報処理装置。

（１６）前記演出機器は、風、温度、水、光、香り、煙、身体運動のうち少なくとも１つを利用する演出機器を含む、
上記（１５）に記載の情報処理装置。

（１７）前記取得部は、前記ユーザに関する情報と前記クリエータに関する情報を基に生成された前記演出機器の制御処理の参照情報をさらに取得し、
　前記制御部は、人工知能による処理によって、前記参照情報に基づく前記外部機器を制御する処理を推定する、
上記（１４）乃至（１６）のいずれかに記載の情報処理装置。

（１８）再生コンテンツを取得する取得ステップと、
　視聴状況に関する情報を取得する検出ステップと、
　前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御ステップと、
　前記推定した再生コンテンツを出力ステップと、
を有する情報処理方法。

（１９）再生コンテンツと、再生コンテンツを視聴するユーザに関する情報と、再生コンテンツを制作するクリエータに関する情報との相関関係を学習する第１のニューラルネットワークと、
　再生コンテンツと、ユーザに関する情報と、再生コンテンツに対するユーザの認識との相関関係を学習する第２のニューラルネットワークと、
　再生コンテンツと、クリエータに関する情報と、再生コンテンツに対するクリエータの認識との相関関係を学習する第３のニューラルネットワークと、
を具備する人工知能システム。

（２０）第１ステップにおいて、前記第１のニューラルネットワークの学習を停止して、前記第２のニューラルネットワークが推定する再生コンテンツに対するユーザの認識と現実のユーザが持つ認識との差分に基づいて定義される損失関数が最小となるように、前記２のニューラルネットワークの学習を行うとともに、前記第３のニューラルネットワークが推定する再生コンテンツに対するクリエータの認識と現実のクリエータが持つ認識との差分に基づいて定義される損失関数が最小となるように、前記第３のニューラルネットワークの学習を行い、
　第２ステップにおいて、前記第２のニューラルネットワーク及び前記第３のニューラルネットワークの学習を停止して、前記第１のニューラルネットワークが再生コンテンツと、再生コンテンツを視聴するユーザに関する情報と、再生コンテンツを制作するクリエータに関する情報に基づいて推定した再生コンテンツに対するユーザの認識と、前記第３のニューラルネットワークが推定する再生コンテンツに対するクリエータの認識との差分に基づいて定義される損失関数が最小となるように、前記１のニューラルネットワークの学習を行う、
上記（１９）に記載の人工知能システム。

（２１）再生コンテンツを入力する入力部と、
　視聴状況に関する情報を取得する検出部と、
　前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御部と、
　前記推定した再生コンテンツを表示する表示部と、
を具備する人工知能搭載表示装置。

　１００…テレビ受信装置、１０１…非多重化部
　１０２…映像復号部、１０３…オーディオ復号部
　１０４…補助データ復号部、１０５…映像信号処理部
　１０６…オーディオ信号処理部、１０７…画像表示部
　１０８…オーディオ出力部、１０９…センサー部
　１１０…演出機器、１１１…演出制御部、１５０…信号処理部
　３００…ディスプレイ、３０１…スピーカーユニット、
　３０１－１、３０１－２…加振器、３０２…スタンド
　４１０…カメラ部、４１１～４１３…カメラ
　４２０…ユーザ状態センサー部、４３０…環境センサー部
　４４０…機器状態センサー部、４５０…ユーザプロファイルセンサー部
　６００…人工知能システム、６１０…ローカル環境
　６１１…信号処理ニューラルネットワーク、６２０…クラウド
　６２１…信号処理ニューラルネットワーク
　６２２…ユーザ感性ニューラルネットワーク
　６２３…クリエータ感性ニューラルネットワーク
　６２４…エキスパート教師データベース
　６２５…ユーザフィードバックデータベース
　７０１…エアコン、７０２、７０３…ファン、７０４…天井照明
　７０５…スタンドライト、７０６…噴霧器、７０７…芳香器
　７０８…椅子
　９００…人工知能システム、９１０…ローカル環境
　９１１…信号処理ニューラルネットワーク、９２０…クラウド
　９２１…信号処理ニューラルネットワーク
　９２２…ユーザ感性ニューラルネットワーク
　９２３…クリエータ感性ニューラルネットワーク
　９２４…エキスパート教師データベース
　９２５…ユーザフィードバックデータベース
　１０００…人工知能システム、１０１０…ローカル環境
　１０１１…信号処理ニューラルネットワーク、１０２０…クラウド
　１０２１…信号処理ニューラルネットワーク、１０２２…比較部
　１０２４…エキスパート教師データベース
　１０２５…ユーザフィードバックデータベース
　１２００…人工知能システム、１２１０…ローカル環境
　１２１１…信号処理ニューラルネットワーク、１２２０…クラウド
　１２２１…信号処理ニューラルネットワーク、１２２２…比較部
　１２２４…エキスパート教師データベース
　１２２５…ユーザフィードバックデータベース

Claims

　再生コンテンツを取得する取得部と、
　視聴状況に関する情報を取得する検出部と、
　前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御部と、
　前記推定した再生コンテンツを出力する出力部と、
を具備する情報処理装置。
　前記ユーザに関する情報は、前記ユーザの状態、前記ユーザのプロファイル、前記情報処理装置の設置環境、前記情報処理装置のハードウェア情報、前記情報処理装置内で実施される信号処理のうち少なくとも１つに関する情報を含む、
請求項１に記載の情報処理装置。
　前記ユーザに関する情報は、前記検出部によって検出された情報を含む、
請求項１に記載の情報処理装置。
　前記クリエータに関する情報は、前記クリエータの状態、前記クリエータのプロファイル、前記コンテンツの制作環境、前記コンテンツの制作に使用した機器ハードウェア情報、前記コンテンツのアップロード時に実施される信号処理のうち少なくとも１つに関する情報を含む、
請求項１に記載の情報処理装置。
　前記クリエータに関する情報は、前記ユーザに関する情報に対応する情報を含む、
請求項１に記載の情報処理装置。
　前記制御部は、前記出力する再生コンテンツを推定する制御として、前記再生コンテンツに対する信号処理を推定する、
請求項１に記載の情報処理装置。
　前記再生コンテンツに対する信号処理は、前記ユーザが認識する前記再生コンテンツの映像又は音声と、前記クリエータが認識する前記再生コンテンツの映像又は音声を対応付ける処理である、
請求項６に記載の情報処理装置。
　前記再生コンテンツは映像信号を含み、
　前記信号処理は、解像度変換、ダイナミックレンジ変換、ノイズ低減、ガンマ処理のうち少なくとも１つを含む、
請求項６に記載の情報処理装置。
　前記再生コンテンツは、オーディオ信号を含み、
　前記信号処理は、帯域拡張、音像定位のうち少なくとも１つを含む、
請求項６に記載の情報処理装置。
　前記制御部は、前記信号処理を基に出力された前記再生コンテンツに対するフィードバックを取得し、前記フィードバックに基づいてさらに前記信号処理を行う、
請求項６に記載の情報処理装置。
　前記取得部は、前記ユーザに関する情報と前記クリエータに関する情報に基づいて生成された学習モデルをさらに取得し、
　前記制御部は、前記学習モデルに基づいて前記信号処理を推定する、
請求項６に記載の情報処理装置。
　前記学習モデルはニューラルネットワークにおけるニューロン間の結合重み係数の集合からなり、
　前記制御部は、前記学習モデルに含まれる結合重み係数を設定したニューラルネットワークに基づいて前記信号処理の推定を行う、
請求項１１に記載の情報処理装置。
　前記学習モデルは、再生コンテンツと、前記ユーザに関する情報と、前記クリエータに関する情報の組み合わせに対応する再生コンテンツの信号処理との相関関係を学習したニューラルネットワークにおけるニューロン間の結合重み係数の集合からなり、
　前記制御部は、前記学習モデルに含まれる結合重み係数を設定したニューラルネットワークに基づいて、再生コンテンツと、前記ユーザに関する情報と、前記クリエータに関する情報の組み合わせに対応する前記信号処理の推定を行う、
請求項１２に記載の情報処理装置。
　前記制御部は、前記再生コンテンツに対応する演出効果を出力するように、外部機器を制御する、
請求項１に記載の情報処理装置。
　前記外部機器は、演出効果を出力する演出機器であり、
　前記制御部は、前記検出部によって検出された前記ユーザに関する情報と前記クリエータに関する情報に基づいて、前記演出機器を制御する、
請求項１４に記載の情報処理装置。
　前記演出機器は、風、温度、水、光、香り、煙、身体運動のうち少なくとも１つを利用する演出機器を含む、
請求項１５に記載の情報処理装置。
　前記取得部は、前記ユーザに関する情報と前記クリエータに関する情報を基に生成された前記演出機器の制御処理の学習モデルをさらに取得し、
　前記制御部は、前記学習モデルに基づいて前記演出機器を制御する処理を推定する、
請求項１４に記載の情報処理装置。
　再生コンテンツを取得する取得ステップと、
　視聴状況に関する情報を取得する検出ステップと、
　前記再生コンテンツを視聴するユーザに関する情報と、前記再生コンテンツを制作したクリエータに関する情報に基づいて、出力する再生コンテンツを推定する制御ステップと、
　前記推定した再生コンテンツを出力ステップと、
を有する情報処理方法。
　再生コンテンツと、再生コンテンツを視聴するユーザに関する情報と、再生コンテンツを制作するクリエータに関する情報の組み合わせに対応する再生コンテンツの信号処理との相関関係を学習する第１のニューラルネットワークと、
　再生コンテンツと、ユーザに関する情報と、再生コンテンツに対するユーザの認識との相関関係を学習する第２のニューラルネットワークと、
　再生コンテンツと、クリエータに関する情報と、再生コンテンツに対するクリエータの認識との相関関係を学習する第３のニューラルネットワークと、
を具備する人工知能システム。
　第１ステップにおいて、前記第１のニューラルネットワークの学習を停止して、前記第２のニューラルネットワークが推定する再生コンテンツに対するユーザの認識と現実のユーザの認識との差分に基づいて定義される損失関数が最小となるように、前記２のニューラルネットワークの学習を行うとともに、前記第３のニューラルネットワークが推定する再生コンテンツに対するクリエータの認識と現実のクリエータの認識との差分に基づいて定義される損失関数が最小となるように、前記第３のニューラルネットワークの学習を行い、
　第２ステップにおいて、前記第２のニューラルネットワーク及び前記第３のニューラルネットワークの学習を停止して、前記第１のニューラルネットワークが再生コンテンツと、再生コンテンツを視聴するユーザに関する情報と、再生コンテンツを制作するクリエータに関する情報に基づいて推定した再生コンテンツに対するユーザの認識と、前記第３のニューラルネットワークが推定する再生コンテンツに対するクリエータの認識との差分に基づいて定義される損失関数が最小となるように、前記１のニューラルネットワークの学習を行う、
請求項１９に記載の人工知能システム。