WO2020021651A1

WO2020021651A1 - 自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体

Info

Publication number: WO2020021651A1
Application number: PCT/JP2018/027871
Authority: WO
Inventors: 大西　邦一; 誠治村田
Original assignee: マクセル株式会社
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2020-01-30
Also published as: JP7252236B2; US11841901B2; CN112352421A; JP2023080121A; US20210295055A1; US20240061882A1; JPWO2020021651A1

Abstract

ＡＲ（拡張現実）やＭＲ（複合現実）等に代表される次世代映像技術において、所定の情報処理装置を用いて、高度な映像演出による合理的かつシームレスな映像融合を自動的、自律的に行うための自動映像演出装置及び自動映像演出方法を提供することである。　そのために、自動映像演出装置として、融合元となる親映像コンテンツの映像内容やシナリオを解読する機能部と、その解読結果から生成された各親映像オブジェクトやユーザに関する各種データを生成する各機能部と、各種データと融合対象の子映像オブジェクトに関する配役データ（当該映像オブジェクトの属性、特徴などを明示するデータ）を基に、所定の映像融合条件をクリアするよう融合対象となる親映像シーンの選択、子映像オブジェクト融合位置の決定、映像融合のための映像加工、編集手順の構築など所定の映像融合演出を行う機能部を設ける。

Description

自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体

　本発明は、映像コンテンツの加工、編集を行う自動映像演出装置及び自動映像演出方法に関する。

　近年「拡張現実（Augmented Reality；略称ＡＲ）」や「複合現実（Mixed Reality；略称ＭＲ）」などに代表される次世代向けの新しい映像が注目されている。これら次世代映像の分野においては、例えば前記ＡＲやＭＲにおいて現実空間像（ユーザ実視認映像）と仮想映像（所定の映像オブジェクト等）とを、リアルタイムかつ合理的でシームレスに融合させる高度な映像技術が要求される。

　一方、例えば人工知能（ＡＩ）などに代表される高機能情報処理装置の出現により、映像の加工や編集など従来人間が行っていた映像処理作業を情報処理装置が自動的または自律的行うことも現実的に可能になりつつあり、そのための技術もいくつか開示されている。

　本技術分野における背景技術として、例えば特許文献１がある。特許文献１では、コンピュータ等の所定の情報処理装置が予め定められた演出手順に応じて一連の撮影指示命令を撮影装置に与え、その命令群に従い撮影された動画を自動編集する動画シーケンス合成用ビデオシステム技術が開示されている。

特開２０１０－２３２８１３号公報

　特許文献１は、所定の映像処理装置が予め定められた演出スキーム（演出の内容や手順を示す枠組み）に即して、映像の加工や編集処理作業を行うための技術を開示したものである。しかしながら、融合元の映像コンテンツが持つストーリー性やコンテンツイメージ等を損なうことなく、かつ映像オブジェクトの嵌め込み、融合により視聴者やユーザに対して所定の訴求効果が望めるような映像融合演出を自動、自律的に行うための映像技術に関して開示は無い。

　特に前記したＡＲやＭＲのケースのように、シナリオ不定の現実空間像を映像の嵌め込みまたは融合元として、この現実空間像に所定の仮想映像をリアルタイムかつ合理的でシームレスに融合するための高度映像融合演出手段の創出は、次世代映像分野における一つの技術課題である。

　本発明は前記課題を解決するためになされたものであり、その目的とするところは、前記のような高度映像融合演出を自動的または自律的に実行するための自動映像演出装置、自動映像演出方法、及び、それに用いる映像記録媒体を提供することである。

　本発明は、上記背景技術及び課題に鑑み、その一例を挙げるならば、映像融合元となる親映像コンテンツの所定映像シーン内に当該親映像に含まれない所定の子映像オブジェクトを嵌め込みまたは融合処理を行う自動映像演出装置であって、親映像コンテンツの全部または一部の映像内容を解読、または当該親映像コンテンツを所定の親映像シーンに分割して、親映像の内容解読結果または親映像シーン分割結果を所定の記述形式でデータ化した所定の親映像解読データを生成する映像コンテンツ解読部を備える。

　本発明によれば、合理的でシームレスな映像融合を実現するための高度映像演出および加工、編集処理を自動、自律的に実行させることができる。

実施例１における自動映像演出装置の構成ブロック図である。実施例１における配役データ及び脚本データ生成プロセスの処理フローチャートである。実施例１における配役データの内容およびデータ構造を示した概略模式図である。実施例１における脚本データの内容およびデータ構造を示した概略模式図である。実施例１における配役データ及び脚本データ組込み済み映像コンテンツのデータストリーム構造を示した概略模式図である。実施例１における映像融合演出、加工、編集プロセスの処理フローチャートである。実施例１における映像融合演出、加工、編集プロセスの具体的な実施事例の概略を処理ステップ別に示した模式図表である。実施例２における処理プロセスのフローチャートである。実施例２における処理プロセスの流れを概念的に表した模式図である。実施例３における自動映像演出装置の構成ブロック図である。実施例３における処理プロセスのフローチャートである。実施例４における自動映像演出装置の構成ブロック図である。実施例４における処理プロセスのフローチャートである。実施例４における眼鏡型ＨＭＤによるＡＲ表示の一実施事例を示した概略図である。実施例５における自動映像演出装置の構成ブロック図である。実施例５における処理プロセスのフローチャートである。実施例６における自動映像演出装置を用いたＣＭ映像融合サービスシステムの概念図である。

　以下、図面を用いて本発明の実施例について説明する。

　図１は、本実施例における自動映像演出装置の構成ブロック図である。図１において、破線で囲まれた自動映像演出装置８０は、映像コンテンツデータ読込み部１、映像コンテンツ解読部２、映像オブジェクト識別抽出部３、視聴者生体データ検知部４、視聴者仕草及び行動データ検知部５、周囲環境データ検知部６、配役データ生成部７、脚本データ生成部８、子（融合対象）映像オブジェクトデータ格納部９、処理データ格納部１０、映像融合検出部１１、映像加工、編集及びレンダリング部１２、制御部２０等の各機能部から構成されている。また各機能部は図に示すように共通のデータバス２５に接続しており、このデータバス２５を経由して所定の機能部間で互いにデータ信号や制御信号のやり取りを行える。

　次に各機能部の具体的な機能について説明する。なお本実施例においては、映像融合の融合元となる映像（以下簡単のため親映像と記す）コンテンツは、例えばドラマや収録済みのアーティストライブ映像など制作済みの映像コンテンツである。

　自動映像演出装置８０内の映像コンテンツデータ読込み部１は、親映像コンテンツ５０の映像データを読込む機能を備えている。

　また映像コンテンツ解読部２は、映像コンテンツデータ読込み部１から得た親映像コンテンツ５０の映像データからその映像内容やシナリオを解読し、さらにその解読結果から当該親映像コンテンツ全編を所定の映像シーンに分割処理する機能を備えている。

　また映像オブジェクト識別抽出部３は、親映像コンテンツ５０内に登場する人物や物体さらには背景、情景なども含めた映像対象物の一部または全てをそれぞれ個別の映像オブジェクトとして識別、抽出し、抽出された各映像オブジェクトに他の映像オブジェクトと区別するためのオブジェクト名あるいはＩＤ番号などの所定のオブジェクト識別子を付与する機能を備えている。

　一方、視聴者生体データ検知部４は、所定の生体センサ１５により視聴者またはユーザ６０の呼吸数、心拍数、体温、血圧、発汗量等々の生体データを検知、取得する機能を備えている。

　また視聴者仕草及び行動データ検知部５は、視聴者モニタカメラなど所定の視覚センサ１６により、例えば視聴者の視線方向や表情の変化など視聴者またはユーザ６０の仕草あるいは行動形態などに関する諸データを検知、取得する機能を備えている。

　さらに周囲環境データ検知部６は、所定の環境センサ１７により温度、湿度、気圧、照度（明るさ）など視聴者またはユーザ６０の周囲環境の状態に関するデータを検知、取得する機能を備えている。なお、これら検知、取得データは前記したデータに限定されるものではなく、必要に応じて任意のデータ項目を追加あるいは取捨選択しても一向に構わない。また各検知部についても当然のことながら、その全てが自動映像演出装置８０内に装備される必要は無く、必要なデータ項目に応じて任意に追加あるいは取捨選択できるし、後述するように、これら検知、取得データを全く必要としない場合は、当然全て装備しなくても構わない。

　次に配役データ作成部７は、映像オブジェクト識別抽出部３で識別、抽出された親映像内の各映像オブジェクト（以下簡単のため親映像オブジェクトと記す）や、当該親映像に融合する対象である映像オブジェクト（子映像オブジェクトと記す）に対して、その物理的属性、社会的属性等々その映像オブジェクトの種別、特長、キャラクターなどを明示化したデータ（以下簡単のため配役データと記す）を生成し、それぞれ対応する映像オブジェクトに紐付けする機能を備えている。

　同様に脚本データ生成部８は、映像コンテンツ解読部２によって分割された親映像の各映像シーンに登場する各映像オブジェクトに対して、同じく映像コンテンツ解読部２において解読された親映像の放映内容やシナリオなどを基に解析した当該映像オブジェクトの位置や動き、移動などを所定のタイムテーブルに沿って明示化したデータ（以下簡単のため脚本データと記す）を生成し、それぞれ対応する映像シーン及び映像オブジェクトに紐付けする機能を備えている。なお、この脚本データ及び前記の配役データの具体的な内容については後述する。

　次に子映像オブジェクトデータ格納部９及び処理データ格納部１０は、それぞれ所定の記憶装置またはサーバなどの記憶装置、あるいは磁気ディスクや光ディスクなど所定データ記憶媒体で構成されている。

　そして子映像オブジェクトデータ格納部９には、前記した子映像オブジェクトの映像データが格納、記憶されている。なお、ここに格納される子映像オブジェクトは単一の映像オブジェクトでも構わないし、視聴者やその周囲環境の状況あるいは親映像コンテンツの放映内容やシナリオに応じて自動映像演出装置８０が自由に取捨選択できるように、複数の映像オブジェクトがライブラリーの形で格納されていても構わない。さらに、これら格納子映像オブジェクトは、時間経過や季節の推移など所定の条件に応じて逐次変更または更新される仕組みであっても一向に構わない。

　一方、処理データ格納部１０には、配役データや脚本データなど自動映像演出装置８０で生成または処理された諸データ、あるいは、これら各データを組み込んだ親映像のデータストリームなどが適宜格納される。

　なお図１では、説明の便宜上、子映像オブジェクトデータ格納部９及び処理データ格納部１０は各々独立した記憶装置で示されているが、当然のことながら同一の記憶装置を共用するような構成であっても構わない。

　また図１では、子映像オブジェクトデータ格納部９や処理データ格納部１０が自動映像演出装置８０の内部に組み込まれた構成になっているが、本実施例はこのような構成に限定されるものでは無い。例えば、これらデータ格納部をクラウドのような外部サーバに設置し、所定の通信手段あるいはネットワークによって自動映像演出装置８０とデータのやり取りや制御を行う構成であっても一向に構わない。

　次に映像融合演出部１１は、配役データや脚本データなどの各種データを用いて、親映像コンテンツに子映像オブジェクトを融合するための「映像融合演出」処理を実行する機能を備えている。この「映像融合演出」処理の具体的な内容については後述する。

　次に映像加工、編集及びレンダリング部１２は、「映像融合演出」処理結果に基づき、実際に映像の加工、編集またはレンダリング（映像描画）等の処理を実行する機能を備えている。なおこの映像の加工、編集またはレンダリング処理については、コンピュータグラフィクス技術や３Ｄモーフィング技術、シェーディング技術など所定のディジタル画像処理技術を駆使することで実行できるので、ここではその詳細な説明は省略する。

　最後に制御部２０は、データバス２５を通じて前記各機能部と繋がり適宜その機能を制御する機能を備えている。

　なお以上説明したように、図１の実施例においては、説明の便宜上機能部ごとにブロック分けされた例を示したが、当然の事ながら本実施例の自動映像演出装置８０は、実際に図のように分割された機能ブロックで構成される必要は無い。例えばＡＩなど所定の情報処理装置を用いて前記各機能部における処理を包括的に実行するような構成であっても一向に構わない。

　なお、このようにＡＩ等の情報処理装置を本実施例の自動映像演出装置８０として用いると、例えばディープラーニング技術など最新のＡＩ技術を駆使することで、より人間の思考に近づいた高度な推定、判断能力を持って前記各処理プロセスを遂行させることができる。

　そして最後に、前記一連の処理を経て子映像オブジェクトが融合処理された親映像コンテンツは、映像再生部１３で再生処理され所定の表示装置１４を経て視聴者またはユーザ６０に向けて再生または配信、放映される。

　次に本実施例における自動映像演出装置８０の処理プロセスの実施例について説明する。

　本実施例における一連の処理プロセスは、最初に親映像コンテンツ全編にわたって配役データや脚本データを生成する「配役データ、脚本データ生成プロセス」と、次に当該処理プロセスで生成された配役データと脚本データを用いて映像融合演出及び映像の加工、編集、レンダリング処理を実施し、さらに必要に応じて子映像オブジェクトが融合された親映像コンテンツを視聴者またはユーザ６０に向けて再生または配信、放映する「映像融合演出、加工、編集プロセス」の２段階の処理プロセスに分けられる。

　まず初めに「配役データ、脚本データ生成プロセス」の処理フローについて説明する。図２は本実施例における配役データ、脚本データ生成プロセスのフローチャートである。

　図２において、まず処理ステップ１０１（Ｓ１０１、以降、処理ステップをＳと略す）において、親映像コンテンツの全編及び子映像オブジェクトの映像データの全ての読込みが実行される。

　そして次のＳ１０２において、親映像コンテンツ５０内に登場する人物や物体さらには背景、景色なども含めた映像対象物の一部または全部が、それぞれ個別の親映像オブジェクトとして識別、抽出され、抽出された各親映像オブジェクトおよび別途読込まれた子映像オブジェクトに他の映像オブジェクトと区別するためのオブジェクト名あるいはＩＤ番号などの所定のオブジェクト識別子が付与される。

　さらに次のＳ１０３において、Ｓ１０２で識別、抽出した各親映像オブジェクトの位置や動き、台詞などから、映像親映像コンテンツ全編の映像内容やシナリオすなわちコンテンツのストーリー、世界観あるいは映像演出の枠組みなどが解読され、さらにその解読結果に基づきコンテンツ全編が所定の映像シーンに適宜分割処理される。そして解読された映像内容情報やシナリオ情報、あるいは映像シーン分割情報は、所定のデータ記述言語あるいはフォーマットでデータ化され適宜処理データ格納部１０に格納される。

　そして次のＳ１０４では、前段の処理ステップで識別、抽出された各親映像オブジェクト（以下親映像オブジェクト）や子映像オブジェクトに対して、それぞれ後述するような所定の配役データが生成される。さらに次のＳ１０５で、当該親映像配役データがそれぞれ対応する親映像オブジェクトに紐付けされた上で親映像コンテンツの映像データストリームに組み込まれる。また子映像オブジェクトに関する配役データもそれぞれ対応する親映像オブジェクトに紐付けされた上で子映像オブジェクトデータ格納部９あるいは処理データ格納部１０または前記以外の所定のデータ格納部に書き込まれる。

　その後、次のＳ１０６において、まずシーン番号Ｎを１とし、次のＳ１０７において親映像コンテンツの先頭からＮ番目のシーンが選択される。

　さらに次のＳ１０８では、当該親映像の映像シーン内に登場する各親映像オブジェクトに対して、後述するような所定の脚本データが生成され、次のＳ１０９で、当該脚本データがそれぞれ対応する映像シーンおよび映像オブジェクトに紐付けされた上で、親映像コンテンツの映像データストリームに組み込まれる。

　ここで、前記配役データ及び前記脚本データの内容および構成に関する実施例について説明する。

　図３は、本実施例における前記のＳ１０４で生成される配役データの内容およびデータ構造を示した概略模式図である。

　配役データとは、Ｓ１０３において識別、抽出された各親映像オブジェクトおよび子映像オブジェクトが、それぞれ親映像コンテンツ内あるいはそれ単独でどのような位置づけや役割を担っているかを、自動映像演出装置８０に確実に認識させるために生成されるデータである。

　したがって、この配役データは、前記各映像オブジェクトに対して、Ｓ１０３で解読された当該親映像コンテンツの映像内容情報やシナリオ情報あるいは映像オブジェクト自体の解析情報に基づき、例えば図３に示すような項目、すなわち、
（ａ）物理的属性（対象物の物理的類別や属性を明示する項目）
（ｂ）社会的属性（人物、動物については社会的属性や性格、キャラクターなど映像コンテンツ内でその人物や動物を特徴づける事項、あるいはその他物理的属性では明示できないオブジェクトに関する項目）
（ｃ）可視的状態（形状、寸法、色など映像から認識可能な状態を明示する項目）
（ｄ）非可視的状態（重量、温度、触感など映像では認識不可能または困難な状態を明示する項目）
（ｅ）相関パラメータ（人間関係、社会的関係、あるいはオブジェクト同士の物理的、化学的相互関係などオブジェクト間の関係性を明示する項目）
等々、当該映像コンテンツにおける各映像オブジェクトの分類、属性、役割、位置づけ、特徴、キャラクターなどに関する必要諸情報がデータ化あるいはパラメータ化され、対応する映像オブジェクト毎に紐付けされ包括管理されたデータ群またはパラメータ群で構成される。

　一方、図４は、本実施例における前記Ｓ１０８で生成される脚本データの内容およびデータ構造を示した概略模式図である。

　脚本データとは、個々の親映像コンテンツに関してちょうどドラマや演劇などで作成、使用される脚本に相当する情報を、自動映像演出装置８０に確実に認識させるために生成されるデータである。したがってこの脚本データは、前記各映像シーン及び当該シーン内に登場する各映像オブジェクトに対して、Ｓ１０３で解読された当該親映像コンテンツのシーン毎の映像内容情報やシナリオ情報あるいは映像オブジェクト自体の解析情報に基づき、例えば図４に示すような項目、すなわち、
（ａ）当該映像オブジェクトのシーン内における３次元位置
（ｂ）当該映像オブジェクトの向きや姿勢
（ｃ）当該映像オブジェクトの台詞（台詞があるオブジェクトの場合）、表情、仕草、行動
（ｄ）各映像オブジェクトあるいはシーン全体に課せられる所定の制約条件
等々、当該映像シーン内における各映像オブジェクトの位置や動きあるいはそれらに課せられる制約条件などに関する情報がデータ化あるいはパラメータ化され、対応する映像シーン及び映像オブジェクト毎に紐付けされ包括管理されたデータ群またはパラメータ群で構成される。

　なお前記した配役データや脚本データの各項目は、あくまで一実施例であり勿論これに限定されるものではない。後述する映像演出への必要性に応じて、所定の項目に関する情報をデータ化あるいはパラメータ化して追加しても構わないし、任意に取捨選択しても構わない。

　また、この配役データや脚本データ、あるいは前記の映像内容情報データやシナリオ情報データ、あるいは映像シーン分割情報データなどを記述するデータ記述言語あるいはフォーマットについては、当然のことながら自動映像演出装置が認識できるものであれば、どのような記述言語、フォーマットであっても構わない。

　ここで再び図２の「配役データ、脚本データ生成プロセス」の処理フローについての説明に戻る。
前記のＳ１０９に引き続きＳ１１０では、親映像の全シーンについて関して脚本データの生成、組込みが完了したか否かが判定される。判定が「Ｙｅｓ」の場合は、次のＳ１１１にて配役データや脚本データが組み込まれた親映像データストリームが処理データ格納部１０またはそれ以外の所定のデータ格納部に書き込まれ、さらに各子映像オブジェクトに紐付けされた配役データも子映像オブジェクトデータ格納部９もしくは処理データ格納部１０に書き込まれる。一方「Ｎｏ」の場合はＳ１１２にてＮ＝Ｎ＋１の処理がなされ、Ｓ１０７に戻り、一連の処理プロセスが繰り返される。

　図５は、本実施例における配役データ及び脚本データが組み込まれた親映像コンテンツのデータストリーム構造を示している。図５（ａ）は当該データストリームの先頭に配役データ及び脚本データを一括して配置したデータ構造例を示しており、図５（ｂ）は配役データのみデータストリームの先頭に配置し、脚本データはシーン毎に分割された各映像データの先頭に配置したデータ構造例を示している。

　なお、図５は単に２つの実施例を示したものであって、当該データストリーム構造は本実施例に限定されるものではない。当然のことながら、自動映像演出装置８０が自由に読込み、書き出しできるものであればどのようなデータ構造でも一向に構わない。

　最後に以上の処理フローに従い、親映像コンテンツの全シーンに対して配役データ及び脚本データの生成、組込み処理が完了すると、Ｓ１１３にて一連の「配役データ、脚本データ生成プロセス」を終了するか否かが判定される。判定が「Ｙｅｓ」の場合は一連の「配役データ、脚本データ生成プロセス」の処理プロセスが終了する。一方「Ｎｏ」の場合は、Ｓ１０１に戻り、引き続いて別の親映像コンテンツに対して一連の「配役データ、脚本データ生成プロセス」が繰り返される。

　次に、もう一つの処理プロセスである「映像融合演出、加工、編集プロセス」の処理フローについて説明する。図６は本実施例における映像融合演出、加工、編集プロセスのフローチャートである。

　図６において、まずＳ１２１において、前記の「配役データ、脚本データ生成プロセス」で生成され所定のデータ格納部に格納されている配役データ及び脚本データ組込み済み親映像コンテンツの映像データストリームや、全ての子映像オブジェクトデータ（子映像オブジェクトの映像データ及び当該子映像オブジェクトに紐付けされた配役データ）が読込まれる。

　なお、ここで読込まれる配役データ及び脚本データ組込み済みの親映像データストリームは、前記の「配役データ、脚本データ生成プロセス」で生成された映像データストリームに限定されるものではない。当然他の映像機器または処理プロセスで生成されたものでも構わないし、例えば手動によって作成された配役データ及び脚本データなどと元の映像コンテンツデータストリームをそれぞれ別個に読込んでも構わない。

　次のＳ１２２では、視聴者生体データ検知部４から視聴者またはユーザ６０の呼吸数、心拍数、体温、血圧、発汗量等々の生体データが検知、取得される。また同時に、視聴者仕草及び行動データ検知部５から当該視聴者またはユーザ６０の視線方向や顔の表情など仕草あるいは行動形態などに関するデータが、さらに周囲環境データ検知部６から温度、湿度、気圧、照度（明るさ）など当該視聴者またはユーザ６０の周囲環境状態に関する諸データが検知、取得される。

　なおこれら検知データの種類については本実施例に限定されるものではなく、必要に応じて任意に追加あるいは取捨選択して構わない。

　次にＳ１２３では、Ｓ１２２で検知、取得された各データから、自動映像演出装置８０自身が視聴者またはユーザ６０の健康状態や生理状態、さらには心理状態例えば感情、嗜好、欲求、興味の対象物などを推定する。

　なお勿論、本実施例における自動映像演出装置８０は、以上説明したように視聴者またはユーザ６０に関する健康状態、生理状態、心理状態の推定結果をもって後述する最適映像オブジェクトの選択条件とするものに限定されるものではなく、どのような選択条件で選択しても構わない。その場合は当然のことながらＳ１２２で取得対象となるデータは前記した各データに限定されるものではなく、選択条件に合わせて任意に変更して構わないし、選択条件によってはこのような視聴者状況に関するデータを必要としない場合もある。そのような場合は、当然のことながらＳ１２２やＳ１２３をスキップまたは当該処理ステップ自体を省略しても一向に構わない。

　そして次のＳ１２４では、検知、取得した各データ、あるいはそこから推定される視聴者またはユーザ６０の健康状態、生理状態、心理状態を基に、その時点でどのような子映像オブジェクトを親映像に嵌め込みまたは融合すれば、最も適切な訴求効果を生み出すかを自動映像演出装置８０自身が判断し、単独または複数ある子映像オブジェクトの中から最適な子映像オブジェクトが選択される。

　さらに次のＳ１２５では、親映像コンテンツの各シーンの中から選択した子映像オブジェクトを融合すべき融合元映像シーンが選択される。

　また次のＳ１２６では、当該映像シーンの中で対象の子映像オブジェクトの嵌め込みまたは融合する画面位置が指定される。

　ここで特に注意しなければならないのは、当該映像シーン中の前記子映像オブジェクト嵌め込みまたは融合位置に何らかの親映像オブジェクトが存在している場合である。このような場合は、対象の子映像オブジェクトと親映像オブジェクトとの前後関係や重畳関係に注意してこの両映像オブジェクトが違和感無く自然かつシームレスに嵌め込みまたは融合して見えるように、所定の映像加工や編集を行う必要がある。この映像加工や編集による映像演出の枠組みを決めるのが、次のＳ１２７である。

　すなわち、このＳ１２７では、選択された子映像オブジェクトを対象の親映像オブジェクトまたは画面位置に違和感無く自然かつシームレスに融合するために、当該子映像オブジェクトまたは当該親映像オブジェクトあるいはその他親映像画面に施すべき具体的な映像加工、編集の内容や手順を明示した「映像加工編集スキーム」が構築される。

　なお、このＳ１２４、Ｓ１２５、Ｓ１２６及びＳ１２７の４段階の処理ステップは、主として図１に示した本実施例のブロック図中の映像融合演出部１１で実行される処理プロセスであり、本実施例の最も主要な構成要件である。以下では説明の便宜上、当該処理プロセスを総称して「映像融合演出」ステップと記す。

　この「映像融合演出」プロセスでは、Ｓ１２７で読み込んだ各親映像オブジェクトに関する配役データや脚本データと、各子映像オブジェクトの配役データ、さらにはＳ１２２で得られた各種データとそれに基づきＳ１２３で得られた視聴者またはユーザ６０の健康状態、生理状態、心理状態の推定結果等の各種データを基にして、自動映像演出装置８０自身の判断で前記した子映像オブジェクト及び親映像融合対象シーンの選択、子映像オブジェクト融合位置の指定、「映像加工編集スキーム」の構築を実行する。

　各処理の実行に当たっては、例えば、以下に示すような「映像融合条件」をクリアするように最適処理がなされる。
（ａ）親映像コンテンツの放映内容やシナリオから想起されるコンテンツのストーリー性やコンテンツイメージを阻害しない事。
（ｂ）子映像オブジェクトの融合により所定の訴求効果が生まれる事。
（ｃ）子映像オブジェクトの融合により非合理性や物理的矛盾が無い事。
（ｄ）子映像オブジェクトの融合により視聴者へ違和感や嫌悪感を与え無い事。
なお、上記「映像融合条件」例のうち（ｃ）の「非合理性や物理的矛盾が無い事」とは、具体的に云うと、例えば何ら支えが無いのにも関わらず物体が空中に浮いていたり、あるいは実体物が壁をすり抜けたりするような非合理的な映像が存在しないということを意味している。

　しかしながら、例えば他の「映像融合条件」をクリアするため敢えてファンタジー的あるいはＳＦ的な映像演出を行うことが適当であると判断された場合は、上記のような非合理性や物理的矛盾がある演出でも許容される。

　このように前記「映像融合条件」は各条件のバランスを考慮して適宜緩和あるいは強化することが可能である。さらに、この「映像融合条件」については、前記した（ａ）～（ｄ）の各項目はあくまで一例であり、当然のことながら当該項目にのみ限定されるものではない。自動映像演出装置８０の使用者あるいは管理者が任意に追加、削除、変更しても一向に構わない。

　次にＳ１２８では、前記「映像融合演出」ステップに引き続き、その処理結果に基き、実際に映像加工、編集、レンダリング等の映像融合処理を実行するか否かが判定される。「Ｙｅｓ」の場合は、次のＳ１２９で実際に映像の加工、編集またはレンダリングの処理が実行される。なおこの映像の加工、編集またはレンダリング処理については、前記したようにコンピュータグラフィクス技術や３Ｄモーフィング技術、シェーディング技術など所定のディジタル画像処理技術を駆使することで実行できるので、その詳細な説明は省略する。一方「Ｎｏ」の場合は、このＳ１２９はスキップされ、次のＳ１３０において、一連の「映像融合演出、加工、編集プロセス」が親映像コンテンツ全編に対して完了したか否かが判定される。判定が「Ｙｅｓ」の場合は、処理フローが再びＳ１２２に戻り一連のプロセスが繰り返される。一方「Ｎｏ」の場合は、次のＳ１３１に移る。

　そして、このＳ１３１では、前記「映像融合演出」ステップで得られた融合対象の親映像シーンの選択結果や融合対象親映像オブジェクトまたは画面位置の指定結果、さらには前記「映像加工編集スキーム」などの諸データを所定の映像融合演出用データとして処理データ格納部１０に書き込む処理がなされる。また併せて一連の映像融合処理が完了した親映像コンテンツの映像データストリームも処理データ格納部１０またはそれ以外の所定のデータ格納部に書き込まれる。

　また次のＳ１３２では、一連の映像融合処理が完了した親映像コンテンツを再生するか否かが判定される。判定が「Ｙｅｓ」の場合は次のＳ１３３で実際に映像の再生あるいは配信、放映が実行される。一方「Ｎｏ」の場合は、このＳ１３３はスキップされ、「映像融合演出、加工、編集プロセス」に関する一連の処理フローが完了する。

　なお本実施例では、説明の便宜上一連の「映像融合演出、加工、編集プロセス」が親映像コンテンツ全編に対して完了した後で、改めて映像融合処理済みの親映像コンテンツの再生あるいは配信、放映処理が実行される処理フローについて説明したが、本実施例はそれに限定されるものではない。すなわち「映像融合演出、加工、編集プロセス」を先行させながら、並行して映像融合処理済み親映像コンテンツの追っかけ再生または配信、放映を行う仕組みであっても勿論構わない。

　次に、具体的な処理事例を使って図６で説明した「映像融合演出、加工、編集プロセス」の各処理ステップにおける具体的な処理手順を説明する。

　図７は、ある映像融合処理事例に関して、前記「映像融合演出、加工、編集プロセス」における処理ステップ別の具体的処理手順を示した模式図表である。ここで紹介する処理事例は、映像融合元となる制作済み親映像コンテンツとして、あるアイドル（仮名（Ａ））のライブコンサート映像を取り上げ、当該制作済みライブコンサート映像に、ある飲料メーカ（仮名（Ｂ）社）が発売している製品をＣＭ映像として組み込んで配信、放映する事例である。なおこの制作済み親映像コンテンツは、既に前記「配役データ、脚本データ生成プロセス」により所定の配役データ及び脚本データの生成、映像データストリームに組込まれているものとする。

　また図７において、処理ステップ欄に記載されている文字は、図６で説明した各処理ステップ名に相当し、処理内容欄は当該処理ステップにおける処理内容の概要を記している。そして具体的処理事例欄で本事例における具体的処理内容を文章と模式図を用いて説明している。

　図７において、（Ｂ）社からＣＭ映像提示のリクエストがあると、まず配役及び脚本データが組込まれた当該ライブコンサート映像データストリームが自動映像演出装置８０に読み込まれる（Ｓ１２１）。

　次に自動映像演出装置８０は、各種センサから視聴者の生体状況や表情、注視対象物（＝興味対象物）、周囲環境などに関するデータを検知、取得する（Ｓ１２２）。

　そして、これら検知、取得データから自動映像演出装置８０は、視聴者６０は現在喉が渇いており、何らかの飲料水を欲している状態と推定。当該ライブ映像の中に飲料水の映像を組み込むと高いＣＭ訴求効果が得られるものと判断する（Ｓ１２３）。

　そこで親映像に組込む子映像オブジェクト（ＣＭ映像対象物）として、（Ｂ）社製清涼飲料水ペットボトル（Ｃ）の映像を選択し、その映像オブジェクトデータを読込む（Ｓ１２４）。

　次に自動映像演出装置８０は、親映像コンテンツがアイドル（Ａ）を主役とするライブコンサートの映像であることを認識し、そのコンテンツイメージを阻害せず、かつ所定のＣＭ訴求効果が得られる映像演出として、ライブコンサート中にアイドル（Ａ）がダンスをする映像シーンの中に、子映像オブジェクトであるペットボトル（Ｃ）の映像を自然に融合させることを決定。親映像コンテンツの映像シーンの中から映像融合元となるダンスシーンを選択する（Ｓ１２５）。

　さらに選択したダンスシーン内で、具体的な子映像オブジェクト（ペットボトル（Ｃ））の嵌め込み位置として、アイドル（Ａ）の右手を指定。あくまで自然でシームレスな映像融合を実践するために、アイドル（Ａ）がペットボトル（Ｃ）を右手で持ってダンスする映像に演出を変更することを決定する（Ｓ１２６）。

　そこで自動映像演出装置８０は、次に、何も手にしていない元の親映像から右手にペットボトル（Ｃ）持ってダンスする映像に演出変更するため、親映像側や子映像オブジェクトにどのような映像加工あるいは編集を施せばよいか、その具体的な内容や手順が明示された「映像加工編集スキーム」を、自身の判断で構築していく（Ｓ１２７）。

　ここで当該「映像加工編集スキーム」の概要としては、例えば図７に示すように、
（ａ）（Ａ）の右手の各手指とペットボトルの重畳状態（前後関係）を整合
（ｂ）（Ａ）の開いた右手指の映像を、ペットボトルを持つ手指の映像に加工
（ｃ）ペットボトルに照射する照明光の照射状態や照り返し状態を調整
（ｄ）ペットボトルが作る影の追加と変更した手指が作る影の変更
等が挙げられる。なお上記は「映像加工編集スキーム」の一例でかつその概要であり、実際はもっと具体的で詳細なスキームが構築される。

　そして、このようにして構築された「映像加工編集スキーム」は、コンピュータグラフィクス技術や３Ｄモーフィング技術、シェーディング技術など所定のディジタル画像処理技術を駆使することで、実際の動画映像に施される（Ｓ１２９）。

　そして最後に、子映像オブジェクト（ペットボトル（Ｃ））が正しく融合処理された親映像コンテンツ、すなわち所定のダンスシーンでアイドル（Ａ）がペットボトル（Ｃ）を持ちながらダンスするシーンを含むライブ映像が視聴者６０に対して配信、放映される（Ｓ１３３）。

　以上述べてきたように、本実施例の自動映像演出手段または装置を用いると、所定の映像コンテンツの中に当該映像コンテンツとは独立した所定の映像オブジェクトを、当該映像コンテンツのストーリー性やコンテンツイメージを阻害することなくごく自然かつシームレスに融合させることが出来る。

　さらに本実施例の自動映像演出装置によれば、融合させる映像オブジェクトを、視聴者あるいはユーザ個々人の感情、嗜好、欲求、興味などに適合するよう選択する、あるいは視聴者またはユーザのほぼリアルタイム（例えば、まさに当該映像コンテンツを鑑賞している最中）の状況変化に合わせてその時々に有効な映像融合を適宜実行するなどの柔軟な対応が可能である。

　したがって、このような特徴を考慮すると、本実施例のような自動映像演出装置は、図７で紹介したような映像コンテンツへのＣＭ映像組込み用途として非常に有効であるといえる。

　なお、このように本実施例の自動映像演出装置を所定の映像コンテンツへのＣＭ映像組込み用途等で用いる場合は、対象のＣＭ映像が親映像コンテンツに嵌め込みまたは融合表示される回数や時間などをカウントして、そのカウント結果に応じて、ＣＭ提供に制限を加える、あるいはＣＭスポンサー側に所定のＣＭ料金を課金、請求する仕組みなどを組み合わせることもできる。勿論本実施例における自動映像演出装置は、前記のような映像コンテンツへのＣＭ映像組込み用途に限定されるものではなく、どのような用途に用いても構わない。

　実施例１では、初めに「配役データ、脚本データ生成プロセス」により、一旦親映像コンテンツ全編に対して配役データ及び脚本データを生成し、親映像データストリームへの組込みを実施した後に、改めて「映像融合演出、加工、編集プロセス」によって子映像オブジェクトの映像融合処理を行う２段構えの実施例であった。

　これに対して、親映像コンテンツを再生または配信、放映しつつ、並行して親映像コンテンツを先行読み込みして子映像オブジェクトの嵌め込み、融合処理を行うことも可能である。

　そこで、本実施例では、親映像コンテンツの再生または配信、放映処理と当該親映像コンテンツへの映像融合演出、加工、編集処理とを同時並行的に実行する自動映像演出装置を、親映像コンテンツを放映あるいは配信する映像コンテンツ供給サーバ等に設置する例について説明する。

　本実施例における自動映像演出装置の構成ブロック図は、図１と同様であるので省略する。

　図８は本実施例における処理プロセスに関するフローチャートである。

　本実施例では、一連の処理プロセス開始前の事前準備として、子映像オブジェクトデータ格納部９に格納されている個々の子映像オブジェクトに対して、当該子映像オブジェクトの分類、属性、特徴などに関する所定の情報をデータ化あるいはパラメータ化した所定のデータまたはデータ群、すなわち前記図２の「配役データ、脚本データ生成プロセス」の実施例で説明した配役データに相当するデータを、当該子映像オブジェクトに紐付けした形で所定のデータ格納部に格納しておく。

　図８において、まずＳ２０１で自動映像演出装置８０は、所定のデータ格納部から子映像オブジェクトデータ、すなわち子映像オブジェクトの映像データ及び当該子映像オブジェクトに紐付けされた配役データを全て読込む。

　次にＳ２０２において、親映像コンテンツの映像データ読込みが開始される。そして次のＳ２０３で自動映像演出装置８０は、親映像コンテンツの再生を開始すると共に、同時並行で現再生シーンから所定時間例えば数秒から数十秒先までに再生または配信、放映される親映像の映像データを先行して読込む。

　そして次のＳ２０４では、前記の先行読込み済み映像に対して、図２で説明したＳ１０２と同様に、そこに新たに登場する人物や物体さらには背景、景色なども含めた全ての対象物がそれぞれ個別の映像オブジェクトとして識別、抽出され、抽出された各映像オブジェクトに他の映像オブジェクトと区別するためのオブジェクト名あるいはＩＤ番号など所定のオブジェクト識別子が付加される。

　次にＳ２０５では、Ｓ２０４で識別、抽出した各親映像オブジェクトの位置や動き、台詞などの情報データから、当該先行読込み済みの映像に関して、その映像内容やシナリオが解読され、さらにそれら解読情報を基に必要に応じて所定の映像シーンに適宜分割される。

　なおＳ２０５は、主として図１に示した自動映像演出装置８０のブロック部における映像コンテンツ解読部２に相当する機能部で実行される。この映像コンテンツ解読部２に関しては、実施例１では親映像コンテンツを一旦全て読込み、その全編に対して放映内容やシナリオの解読及びシーン分割の処理を行う機能を備えていた。しかしながら本実施例における映像コンテンツ解読部２は、前記したように当該親コンテンツの映像再生または配信、放映の開始時からその時点までに先行読込み済みの映像、すなわち映像コンテンツの途中段階までの映像データをもって、その映像内容やシナリオを解読しシーン分割処理を行う機能により実現可能である。この点において本実施例と実施例１とは機能が若干異なる。

　なお、このようなコンテンツの途中段階での映像解読の場合、当然のことながら、親映像データの読込み、解読が進行するに従って解読されていく映像内容情報やシーン分割情報は順次追加される。そして、これら追加情報に基づき、配信、放映の開始時からその時点までの映像コンテンツのシナリオ情報にも所定の追加、変更あるいは修正が加えられる形で逐次更新されていく。

　そこで本実施例における映像コンテンツ解読部２あるいはそれを制御する制御部２０は、このような映像内容情報やシナリオ情報、シーン分割情報などを前記のように追加あるいは変更、修正が加えられた最新の情報データに逐次更新したうえで、所定の処理データ格納部１０に格納する機能をも備えている。

　そして次のＳ２０６では、先行読込みした親映像シーンが、子映像オブジェクトを嵌め込みまたは融合すべき対象の親映像シーンであるか否かが判定される。そして判定が「Ｙｅｓ」の場合は後述のＳ２０７以降に進む。一方「Ｎｏ」の場合は、後述のＳ２０７からＳ２１０はスキップされ、Ｓ２１１に飛ぶ。

　次のＳ２０７では、子映像オブジェクトが複数種類ある場合にその中から選択された対象親映像シーンへの嵌め込みまたは融合の対象となる子映像オブジェクトが選択される。

　そして次のＳ２０８では、当該融合対象親映像シーン内において対象の子映像オブジェクトを嵌め込みまたは融合すべき画面位置が指定される。

　さらに次のＳ２０９では、選択された子映像オブジェクトを対象の親映像オブジェクトまたは画面位置に違和感無く自然にかつシームレスに融合するために、当該子映像オブジェクトまたは当該親映像オブジェクトあるいはその他親映像画面に施される具体的な映像加工、編集の内容や手順を明示した「映像加工編集スキーム」が構築される。

　なお、これら各処理ステップにおける具体的な処理内容や手順については、図６のＳ１２４乃至Ｓ１２７で説明した所謂「映像融合演出」処理ステップと全く同様なので、ここではその詳細な説明は省略する。

　ただし本実施例は、実施例１の場合と異なり、親映像コンテンツを再生または配信、放映しながら並行して先読みした親映像コンテンツの映像データから一連の処理を実行するので、実施例１の場合に比べ時間的な制約が多く、より高速な処理が求められる。

　そこでＳ２０６やＳ２０７あるいはＳ２０８における各判定、選択、指定処理ステップでは、例えば子映像オブジェクト側の配役データの一部または全部を所定のキーワードとして、そのキーワードに対する各親映像シーンの適合性あるいは訴求効果等を所定の数値あるいはパラメータで評価し、その大小を判定や選択の基準にすることで高速に処理を行う手法などを用いることができる。

　さらに、Ｓ２０９での「映像加工編集スキーム」構築処理ステップにおいても、構築される「映像加工編集スキーム」を一部簡略化あるいは省略しても構わない。

　例えば「映像加工編集スキーム」として、親映像の所定映像シーンに嵌め込む子映像オブジェクトと当該親映像シーン内の既存の親映像オブジェクトとの前後関係または重複関係だけを規定する映像融合演出や、あるいは選択された所定の子映像オブジェクトまたはその一部を同じく選択された親映像の所定映像シーン内の指定画面位置に嵌め込むだけの演出とし、映像自体の加工や編集の演出手順を全て省略するような映像融合演出であっても勿論構わない。

　次に、以上のように構築された「映像融合演出」結果に基づき、Ｓ２１０では実際に映像の加工、編集、レンダリングの処理が実行される。これらの処理は、図６や図７の実施事例におけるＳ１２９で説明したように、コンピュータグラフィクス技術や３Ｄモーフィング技術、シェーディング技術など所定のディジタル画像処理技術を駆使することで実行される。

　そして次のＳ２１１では、上記の子映像嵌め込みまたは融合処理済みの親映像データを所定のデータ格納部１０に逐次書き込んでいく処理が行われる。なお、ここでは前記映像データと併せて、前記の「映像融合演出」処理で得られた融合対象の親映像シーンや子映像オブジェクト、あるいは当該融合対象親映像シーン内で対象の子映像オブジェクの嵌め込みまたは融合する画面位置の指定結果、さらには「映像加工編集スキーム」など「映像融合演出」関連の諸データ等を書き込みあるいは更新する処理を行っても構わない。

　そして次のＳ２１２では、Ｓ２１１でデータ格納部１０に書き込まれた映像嵌め込みまたは融合処理済みの親映像データが読出され、現再生映像シーンの次の映像シーンが再生または配信、放映される。

　そして次のＳ２１３で、親映像コンテンツの全シーンが再生または配信、放映されたか否かが判定される。判定が「Ｎｏ」の場合はＳ２０３まで戻り一連の処理プロセスが繰り返される。一方「Ｙｅｓ」の場合は、一連の処理プロセスが終了する。

　図９は、本実施例に示した先行読込みタイプの自動映像演出装置における処理プロセスの流れを概念的に表した模式図である。

　図９に示すように、一連の処理プロセスがスタートすると、自動映像演出装置８０は、まず親映像コンテンツに嵌め込む子映像オブジェクトの映像データとその付属情報いわゆる前記配役データを読込む。

　そして次に、親映像コンテンツの映像データを先頭から所定の映像シーンあるいは映像カットごとに先読みし、読込んだ親映像シーンまたはカットごとに対象の子映像オブジェクトを嵌め込むか否かの判定し、さらに嵌め込み位置のスキャン（検索）を行う。例えばこれをｎ番目のシーンまたはカットとする。

　そして次のステップでは、このｎ番目の親映像シーンまたはカットが子映像オブジェクト嵌め込み対象であった場合、実際に親映像シーンまたはカットの指定位置に子映像オブジェクトを嵌め込む処理を行う。また同時に、次のｎ＋１番目の親映像シーンまたはカットに対して前記先読み処理他が行われる。

　さらに次のステップでは、前記ｎ番目の親映像シーンまたはカットを映像再生しつつ、同時に前記ｎ＋１番目の親映像シーンまたはカットに対して前記の子映像オブジェクト嵌め込み処理と、さらにｎ＋２番目の親映像シーンに対する前記先読み処理他が行われる。

　このように複数の処理ステップを逐次かつ同時並行的に行う処理プロセスは、一般にパイブライン処理と呼ばれるが、本実施例ではこのようなパイプライン処理を採用することで、所定の親映像コンテンツを再生または放映、配信しつつ、併行して当該親映像コンテンツ内への所定の子映像オブジェクトの嵌め込み映像演出をほぼリアルタイムに実行することが可能となる。

　以上説明したように、本実施例における自動映像演出装置は、実施例１における図２で示す「配役データ、脚本データ生成プロセス」と図６で示す「映像融合演出、加工、編集プロセス」を一気通貫で行っているような処理プロセスを備えている。

　しかしながら本実施例では、図２におけるＳ１０４乃至Ｓ１０５の配役データ生成および親映像データへの組込み、さらにはＳ１０８乃至Ｓ１０９の脚本データ生成および親映像データへの組込みの一連の処理が省略されている。これは本実施例のように、親コンテンツの再生と並行して、先行読込みした親映像シーンに対する子映像オブジェクトの嵌め込み、融合処理を行う自動映像演出装置では、より高速の処理が求められるため、処理の負担軽減策の一つとして前記一連の処理を省略した例を記したものである。したがって、もし自動映像演出装置の処理能力が充分高い場合は、当然のことながら図６の実施例と同様に配役データや脚本データの生成および親映像データへの組込み処理を追加しても一向に構わない。このような処理を追加することで、後々対象の親映像コンテンツに再び何らかの子映像オブジェクトを嵌め込み、融合処理する場合、図６で説明した実施例１のように、配役データや脚本データを用いたより複雑で高度な映像融合演出処理を行うことができる。

　また同様に、本実施例では、図６で説明した実施例１の処理プロセスの場合と異なり、各種センサから視聴者の生体状況や周囲環境などに関するデータを検知、取得し、対象となる視聴者の健康状態や生理状態、さらには心理状態などを推定する処理ステップ（図６におけるＳ１２２およびＳ１２３）、およびその推定結果を親映像コンテンツに嵌め込む子映像オブジェクトの選択処理や映像融合演出処理などに反映させる一連の処理が省かれている。これも前記のように、より高速の処理を実現するために処理の負担軽減策の一つとして省略した例を記したものである。したがって、もし自動映像演出手段または装置の処理能力が充分高い場合は、当然のことながら図６の実施例と同様、視聴者関連情報の検知、推定、および当該推定結果を反映させたより高度な映像融合演出を行う事も可能である。

　さらにまた、本実施例のような自動映像演出装置を映像コンテンツへのＣＭ映像組込み用途等に用いる場合は、実施例１と同様に、対象のＣＭ映像が親映像コンテンツに嵌め込みまたは融合表示される回数や時間などをカウントして、そのカウント結果に応じて、ＣＭ提供に制限を加える、あるいはＣＭスポンサー側に所定のＣＭ料金を課金、請求する仕組みなどを組み合わせることもできる。

　以上のように本実施例によれば、親映像コンテンツを再生または配信、放映しつつ、並行して親映像コンテンツを先行読み込みして子映像オブジェクトの嵌め込み、融合処理を行うことができる。

　実施例２では、親映像コンテンツを再生または配信、放映しつつ、並行して子映像オブジェクトの嵌め込み、融合処理を行う自動映像演出手段または装置を、親映像コンテンツを放映、配信する映像コンテンツ供給サーバ側等に設置した実施例を示した。しかしながら、同様の機能を備えた自動映像演出手段または装置を一般ユーザが携帯しているスマートフォンなどに代表されるような所謂エッジ端末側に設けることも勿論可能である。

　そこで本実施例では、実施例２と同様の機能を備え、かつスマートフォン等のエッジ端末内に設置される自動映像演出装置について説明する。

　図１０は本実施例における自動映像演出装置の概略構成を示したブロック図である。なお図１０において、図１の同様の機能を備えた機能部には同じ番号を付している。

　図１０において、ユーザ６０が携帯しているスマートフォン等のエッジ端末６５には、本実施例における自動映像演出装置８０が内蔵されている。この自動映像演出装置８０には、図１に示した実施例１の自動映像演出装置と同様、映像コンテンツデータ読込み部１、映像オブジェクト識別抽出部３、視聴者生体データ検知部４、視聴者仕草及び行動データ検知部５、周囲環境データ検知部６、処理データ格納部１０、編集及びレンダリング部１２、制御部２０等の各機能部が配備されている。また視聴者生体データ検知部４、視聴者仕草及び行動データ検知部５、周囲環境データ検知部６の各機能部には、それぞれ所定の生体センサ１５、視覚センサである視聴者モニタカメラ１６、環境センサ１７などが接続されている。これら各機能部およびセンサ類は、図１に示した当該各機能部と同様の機能を備えているので、ここではその詳しい説明は省略する。

　一方、本実施例では、図１における映像コンテンツ解読部２に代わり先行読込みカット映像概要解読部３２が配備されている。

　本実施例では、実施例１のように親映像コンテンツを全編読込んだ上でそのコンテンツを構成する各映像シーンに関して詳細な映像内容を解読していくのではなく、逐次先行読み込みされている映像情報をほぼリアルタイムで解読処理していく必要がある。しかも本実施例のように自動演出装置８０がスマートフォン等のエッジ端末側に組み込まれている場合は、その処理能力には限界があり、実施例１のような高度な映像解読処理を行うことは難しい。

　そこで本実施例では、逐次先行して読込まれる映像情報から前記映像シーンをさらに細分化された映像単位である映像カットを抽出し、当該映像カット内に登場する映像オブジェクトの種類や配置等からそのカットの概要を高速に解読する機能を先行読込みカット映像概要解読部３２に具備させている。

　さらに本実施例では、実施例１の映像融合演出部１１の代わりに、例えば後述するように映像融合演出を親映像カットへの子映像オブジェクトの嵌め込み演出のみに特化させることで処理機能を簡略化した映像嵌め込み演出部３1に配備することで、高速処理を実現している。

　また本実施例では、親映像内に嵌め込まれる子映像オブジェクトの映像データが、外部サーバ内に設けた子映像オブジェクトデータ格納部９に格納されている。さらに、それら個々の子映像オブジェクトに対して、図２の「配役データ、脚本データ生成プロセス」で説明した配役データ、すなわち当該子映像オブジェクトの分類、属性、特徴などに関する所定の情報をデータ化あるいはパラメータ化した所定のデータまたはデータ群が、当該子映像オブジェクトに紐付けされた形で子映像オブジェクトデータ格納部９に格納されている。そしてこれら子映像オブジェクト関連データは、所定の通信手段によって本実施例における自動映像演出装置８０内に適宜読込まれるようになっている。

　なお、この子映像オブジェクトデータ格納部９が設けられている外部サーバは、ＣＭスポンサーあるいは所定の映像コンテンツ配信会社等が管理している専用サーバでも構わないし、インターネット等を経由して繋がっているクラウドなどの汎用サーバであっても構わない。

　図１１は本実施例における処理プロセスに関するフローチャートである。図１１おいて、まずＳ３０１で自動映像演出装置８０は、外部に配置された子映像オブジェクトデータ格納部９から、対象となる個々の子映像オブジェクトの映像データと、当該子映像オブジェクトの分類、属性、特徴などに関する所定の情報をデータ化あるいはパラメータ化した所定のデータまたはデータ群、すなわち前記図２の「配役データ、脚本データ生成プロセス」の実施例で説明した配役データに相当するデータを当該子映像オブジェクトに紐付けされた形で読込む。

　次にＳ３０２とＳ３０３において、Ｓ２０２やＳ２０３と同様に、親映像コンテンツの映像データ読込みが開始され、親映像コンテンツの再生を開始すると共に、同時並行で現再生シーンから所定時間までに再生または配信、放映される親映像の映像データを先行して読込む。

　そして次のＳ３０４では、先行読込み済み親映像を前記したように所定の映像カットに細分化し、当該細分化された映像カット毎に、実施例１の図２で説明した「配役データ、脚本データ生成プロセス」におけるＳ１０２と同様、そこに新たに登場する人物や物体さらには背景、景色なども含めた全ての対象物がそれぞれ個別の映像オブジェクトとして識別、抽出される。

　次にＳ３０５では、Ｓ３０４で識別、抽出した各親映像オブジェクトの種類や映像内の配置などから対象の親映像カットの概要が解読される。

　そしてＳ３０６では、図８におけるＳ１２２と同様、視聴者生体データ検知部４から視聴者またはユーザ６０の各種生体データが、取得視聴者仕草及び行動データ検知部５から当該視聴者またはユーザ６０の仕草あるいは行動形態などに関するデータが、さらに周囲環境データ検知部６から当該視聴者またはユーザ６０の周囲環境状態に関する諸データが検知、取得される。

　また次のＳ３０７では、図８に示したＳ１２３と同様、Ｓ３０６で検知、取得された各データから、自動映像演出装置８０自身が視聴者またはユーザ６０の健康状態や生理状態、さらには心理状態例えば感情、嗜好、欲求、興味の対象物などを推定する。

　なお勿論、本実施例における自動映像演出装置８０は、前記ように視聴者またはユーザ６０に関する健康状態、生理状態、心理状態の検知データや推定結果が必ずしも必須では無く、これら検知データや推定の対象は必要に応じて任意に変更して構わないし、これら視聴者またはユーザに関する諸データを特に必要としない処理プロセスであっても構わない。そのような場合は、当然のことながらＳ３０６およびＳ３０７をスキップするか、あるいは当該処理ステップ自体を省略しても一向に構わない。

　次のＳ３０８では、先行読込みした親映像カットが、子映像オブジェクトを嵌め込むべき対象の親映像カットであるか否かが判定される。ここでの判定が「Ｙｅｓ」の場合は後述のＳ３０９以降に進む。一方「Ｎｏ」の場合は、後述のＳ３０９からＳ３１２はスキップされ、Ｓ３１３に飛ぶ。

　そして次のＳ３０９では、子映像オブジェクトが複数種類ある場合にその中から選択された前記対象親映像シーンへの嵌め込みまたは融合の対象となる子映像オブジェクトが選択される。

　さらに次のＳ３１０では、嵌め込み対象の親映像カット内において対象の子映像オブジェクトを嵌め込むべき画面位置が指定される。

　ところで、Ｓ３０８における子映像嵌め込み対象親映像カットの判定、あるいはＳ３０９における子映像オブジェクトの選択、さらにはＳ３１０における子映像オブジェクト嵌め込み位置の指定等にあたっては、例えば前記した子映像オブジェクト側の配役データの一部または全部をキーワードとし、対象の親映像カットの概要、あるいは必要に応じてＳ３０６で検知した視聴者の生体データ、仕草、行動データ、周囲環境データ、さらには視聴者状況の推定結果などからキーワードの適合性あるいは訴求効果等を数値化し、その値の大小を判定または検索の基準にすることで高速に処理を行う手法などを用いることができる。

　そして次のＳ３１１では、選択された子映像オブジェクトを指定の親映像カット内画面位置に極力違和感無く自然かつシームレスに嵌め込むために、当該子映像オブジェクトまたは親映像カット画面に施される具体的な映像加工、編集の内容や手順を明示した「映像加工編集スキーム」が構築される。

　ただし本実施例は、実施例２と同様に、親映像コンテンツを再生または配信、放映しながら並行して先読みした親映像コンテンツの映像データから一連の処理を実行するので、実施例１の場合に比べ時間的な制約が多く、より高速な処理が求められる。そこでＳ３１１の「映像加工編集スキーム」構築処理ステップにおいても、Ｓ２０９と同様に、構築される「映像加工編集スキーム」を一部簡略化あるいは省略しても構わない。なお、この処理の詳細は、Ｓ２０９と同様なのでその説明は省略する。

　次に、以上のように構築された「映像融合演出」結果に基づき、Ｓ３１２では、実際に映像の加工、編集、レンダリングの処理が実行される。これらの処理は、図６のＳ２１０と同様なのでその説明は省略する。

　そして次のＳ３１３では、上記の子映像嵌め込み処理済みの親映像データを所定のデータ格納部１０に逐次書き込んでいく処理が行われる。なお、この処理の詳細は、Ｓ２１１と同様なのでその説明は省略する。以降のＳ３１４、Ｓ３１５は、図６のＳ２１２、Ｓ２１３と同様なのでその説明は省略する。

　以上のように本実施例によれば、スマートフォン等のエッジ端末内に設置される処理能力を簡略化した自動映像演出装置を提供できる。

　実施例１乃至３は、いずれも映像融合元となる親映像として、ドラマや収録済みのライブ映像などに代表されるような所定の制作済み映像コンテンツを対象としていた。すなわちコンテンツのストーリーやシナリオ、さらには当該コンテンツ内の全映像シーンに関する映像内容が既に規定されている映像コンテンツを対象としている。

　しかしながら、例えば次世代の映像として注目されているＡＲ（拡張現実）やＭＲ（複合現実）においては、ヘッドマウントディスプレイ（Head Mounted Display；略称ＨＭＤ）などのＡＲ，ＭＲ表示装置を使ってユーザ（ＨＭＤ装着者）が視認している実像に、所定の仮想映像を嵌め込みまたは融合させる映像技術が必須である。

　このようなＡＲまたはＭＲの場合、映像の嵌め込みや融合のベースとなる映像すなわち親映像は、ユーザすなわちＨＭＤ装着者がリアルタイムに視認している実像（以下、このユーザが視ている実像を実視認像と記す）に相当するが、その映像シーンあるいは映像カットはユーザが視認している対象物やその周りの外界状況の変化、あるいは視線方向の変化などユーザ自身の仕草や動作などによって時々刻々変化する。したがってその親映像のコンテンツ内容やシナリオに相当するものも完全に不定である。

　本実施例は、このように映像コンテンツの内容やシナリオ、さらには映像シーンそのものが不定あるいは流動的でリアルタイムに変化するような親映像に対して、所定の子映像オブジェクトすなわちＡＲ／ＭＲにおける仮想映像に相当する映像を、違和感なく自然かつシームレスな状態で嵌め込みまたは映像融合できる自動映像演出装置について説明する。

　図１２は本実施例における自動映像演出装置の構成ブロック図である。なお図１２において、図１および図１０と同様の働きをする機能部には同じ番号を付している。

　なお本実施例においても実施例３の場合と同様、その事前準備として、親映像に嵌め込みまたは融合される仮想映像の映像データが子映像オブジェクトとして、外部サーバ内に設けた子映像オブジェクトデータ格納部９に格納されている。さらに、それら個々の子映像オブジェクトに対して、図２の「配役データ、脚本データ生成プロセス」で説明した配役データ、すなわち当該子映像オブジェクトの分類、属性、特徴などに関する所定の情報をデータ化あるいはパラメータ化した所定のデータまたはデータ群が、当該子映像オブジェクトに紐付けされた形で同じく子映像オブジェクトデータ格納部９に格納されている。

　そして、これら子映像オブジェクト関連データは、所定の通信手段によって本実施例における自動映像演出装置８０内に適宜読込まれるようになっている。

　また本実施例における自動映像演出装置８０には、図１２に示すようにＡＲ／ＭＲ映像表示装置としてユーザ６０の頭部に装着されたＨＭＤ４４が接続されている。

　なお、このＨＭＤ４４には、ユーザ自身が透明ディスプレイを通して肉眼視する実像を実視認像とするシースルータイプと、当該実視認像およびそこに嵌め込みまたは融合表示される仮想映像の両者が共にビデオ映像であるビデオシースルータイプがあるが、本実施例はその両方のタイプのＨＭＤに適用可能である。

　また、このＨＭＤ４４には、ユーザ６０の視線の移動などユーザの仕草や行動を検知するセンサ、あるいはユーザ６０の生体情報を検知するセンサ、さらにはユーザ周囲の温度や湿度などの環境情報を検知するセンサ類が装備されている。なお図１２においては、便宜上これらセンサ類を一括してセンサ１８として表記している。また前記センサ類は全てが本実施例に必須のものではなく、必要に応じて任意に取捨選択してもよいし、勿論前記センサ類とは異なる情報を検知するセンサを追加しても構わない。また逆にＨＭＤ４４がこれらのセンサ類を全く装備していなくても構わない。

　さらにＨＭＤ４４には、少なくともユーザ実視認像と同様の視野領域で外界を撮影できる外界撮影カメラ１９が装備され、親映像データの入力装置として自動映像演出装置８０に接続されている。

　なおＨＭＤ４４、センサ１８及び外界撮影カメラ１９と自動映像演出装置８０との接続は、図１２のような有線による接続に限定されるものではなく、所定の無線通信接続など所定のデータ信号をやり取りできる接続であればどのような接続形態であっても構わない。

　図１２において、外界撮影カメラ１９で撮影されたユーザ実視認像に相当するリアルタイム映像データは、ユーザ実視野像読込み部４１を経て融合元となる親映像データとして、自動映像演出装置８０内へ送られる。

　映像オブジェクト識別抽出部３は、リアルタイム映像データからその各映像カット内に新たに登場する映像対象物を個別の映像オブジェクトとして逐次識別、抽出する機能を備えている。なお映像オブジェクト識別抽出部３に関しては、図１または図１０に示した同番号の機能部と同様の機能を持つので、ここでの詳しい機能説明は省略する。

　またリアルタイム映像カット解読部４２は、図１の映像コンテンツ解読部２や図１０の先行読込みカット映像概要解読部３２に相当する機能部で、読込まれた親映像すなわちユーザのリアルタイム実視視認像の内容を所定の映像カット単位で解読してデータ化する機能を備えている。

　なお、このリアルタイム実視認像の解読に当たっては、当該実視認像の映像情報データに加え、その時点までに得られた過去映像に関する解読結果やシナリオなどの情報データの履歴を基に、自動映像演出装置８０自身が考察、判断で解読、データ化が行われる。なお、このリアルタイム映像カット解読部４２は、前記解読結果に基づきシナリオを現映像シーンまでのシナリオを構築し、最新のシナリオデータとして既存のシナリオデータを逐次更新していく機能を備えていても構わない。

　一方センサ１８で検知された各検知データは、それぞれ必要に応じて視聴者生体データ検知部４、ユーザ仕草及び行動データ検知部５、周囲環境データ検知部６等を経て自動映像演出装置８０に取得される。なお、これら各検知部に関しても、図１あるいは図１０の同番号機能部と同様の機能を持つので、ここでの詳しい機能説明は省略する。

　そして逐次生成または更新される映像内容データやシナリオデータ、さらにはセンサ１８から検知、取得された各検知データ等は、適宜処理データ格納部１０に格納、記憶される。

　なお図１２では、処理データ格納部１０は自動映像演出装置８０の内部に組み込まれた構成になっているが、本実施例はこのような構成に限定されるものでは無く、例えばこれらデータ格納部をクラウドのような外部サーバに設置し、所定の通信手段あるいはネットワークによって自動映像演出装置８０とデータのやり取りや制御を行う構成であっても一向に構わない。さらには、この処理データ格納部１０と子映像オブジェクトデータ格納部９が同一の記憶装置を共用するような構成であっても構わない。

　次に映像嵌め込み演出部３１においては、図１０に示した同番号機能部と同様の映像嵌め込みまたは融合演出処理が行われる。なお、この映像嵌め込みまたは融合演出処理の具体的な処理内容については、既に実施例１乃至実施例３で説明済みであるので、ここでの詳細な説明は省略する。

　さらに映像加工、編集及びレンダリング部１２においても、図１あるいは図１０内の同番号機能部と同様、映像嵌め込みまたは融合演出結果に基づき、実際に映像の加工、編集、レンダリングの処理が実行されるので、ここでの詳しい機能説明は省略する。

　ただし本実施例における自動映像演出装置８０は、以上説明したような各機能部での処理をほぼリアルタイムに実行しなければならない。したがって自動映像演出装置８０自体の処理能力によっては、上記の各処理を遅滞なく完全に実行することが困難な場合もある。このような場合は、自動映像演出装置８０の処理能力や各データや処理の優先度等を勘案して、所定の処理手順またはその当該処理を担う機能部自体を一部省略しても構わない。

　例えば、映像嵌め込みまたは融合演出に関しては、親映像に嵌め込む子映像オブジェクトの選択と、当該親映像シーン内における対象の子映像オブジェクトの嵌め込みまたは融合位置、そして当該位置における親映像オブジェクトと対象の子映像オブジェクトとの前後関係または重複関係の指定に限定し、映像加工、編集処理の対象を子映像オブジェクト側のみに限定した映像演出であっても構わない。さらには、映像加工や編集の手順を全て省略して、親映像に所定の子映像オブジェクトまたはその一部を重畳または嵌め込みのみとし、当該親映像シーン内で所定の子映像オブジェクトを重畳する画面位置の指定だけに止める映像演出であっても構わない。

　なお、特に本実施例をシースルータイプのＨＭＤによるＡＲ／ＭＲ映像装置に適用する場合は、注意を要する。

　すなわちＡＲ／ＭＲ映像を表示するＨＭＤ４４がビデオシースルータイプであれば、前記したように親映像もそれに嵌め込みまたは融合される子映像オブジェクトも両方ビデオ映像なので、当然両者を自由に映像加工、編集することが可能である。しかしながら、ＨＭＤ４４が所謂シースルータイプの場合は、ユーザ６０がＨＭＤ４４のシースルーディスプレイ越しに直接肉眼視する実体像が親映像になるので、当然この親映像を加工、編集することはできない。したがって映像嵌め込みまたは融合のための映像加工あるいは編集処理は、子映像オブジェクト側だけに限定される。このような場合は必然的に、映像嵌め込みまたは融合演出は前記のように簡略化あるいは一部省略したものにならざるを得ない。

　なお図１２において、前記で説明した機能部以外の機能部については、図１あるいは図１０内の同番号機能部と同様の機能を持つので、ここでの詳しい機能説明は省略する。

　ところで以上説明した本実施例においても、前記した実施例１と同様に、自動映像演出装置８０は図１０に示したように分割された機能ブロックで構成される必要は無い。例えばＡＩ等の情報処理装置を用いて前記各機能部における処理を包括的に実行するような構成であっても一向に構わない。

　最後に、以上説明した各処理を経て子映像オブジェクトの嵌め込みまたは融合処理済みの親映像は、ＡＲ／ＭＲ映像再生部４３を経てユーザ６０が装着しているＨＭＤ４４の所定のディスプレイに表示される。なお当然のことながら、ＨＭＤ４４がシーススルー型の場合は、そのシースルーディスプレイに表示されるのは、前記したような所定のＡＲ／ＭＲに適用した映像嵌め込みまたは融合処理を施した子映像オブジェクトすなわち仮想映像のみが表示される。

　次に本実施例における自動映像演出装置８０の処理プロセスについて説明する。図１３は、本実施例における処理プロセスに関するフローチャートである。本実施例における処理プロセスは、基本的には図１０で説明した処理プロセスと同様の処理フローで実行される。

　図１３において、まずＳ４０１で自動映像演出装置８０は、所定のデータ格納部から子映像オブジェクトデータ、すなわち子映像オブジェクトの映像データ及び当該子映像オブジェクトに紐付けされた配役データを全て読込む。

　次にＳ４０２で親映像すなわちリアルタイム実視認像の再生がスタート（シースルー型ＨＭＤの場合はユーザの肉眼実体視の開始に相当）すると、自動映像演出装置８０は、次のＳ４０３で外界撮影カメラ１９から得られた親映像（リアルタイム実視認像）の映像データを読込む。

　そして次のＳ４０４では、現親映像シーンで新たに登場する人物や物体などの対象物がそれぞれ個別の親映像オブジェクトとして識別、抽出され、抽出された各親映像オブジェクト及び子映像オブジェクトを他の映像オブジェクトと区別するためのオブジェクト名あるいはＩＤ番号など所定の識別子が付加される。

　そして次のＳ４０５では、Ｓ４０４で識別、抽出された各親映像オブジェクトの種類やその配置位置あるいはその動き、またその時点までに得られた過去映像に関する解読結果やシナリオデータなどの情報履歴を基に、親映像すなわちリアルタイム実視認像の映像内容が解読、データ化される。

　また次のＳ４０６では、図１１のＳ３０６と同様の処理が行われ、所定の検知データが取得される。さらに次のＳ４０７では、同じく図１１のＳ３０７と同様の処理が行われ、所定の視聴者状況が推定される。なお当然のことながらＳ４０６及びＳ４０７は、前記各実施例の場合と同様、必要に応じてスキップまたは当該処理ステップ自体を省略しても一向に構わない。

　そして次のＳ４０８では、現時点での親映像カットすなわちユーザ実視認像に対して、子映像オブジェクトの嵌め込みまたは融合を施すか否かが判定される。判定が「Ｙｅｓ」の場合は後述するＳ４０９以降に進む。一方「Ｎｏ」の場合は、後述のＳ４０９乃至Ｓ４１２はスキップされ、Ｓ４１３に飛ぶ。

　そして次のＳ４０９では、複数ある子映像オブジェクトの中から当該親映像カットに嵌め込む子映像オブジェクトが選択される。さらに次のＳ４１０では、当該親映像のカット内で対象の子映像オブジェクトの嵌め込む画面位置が指定される。

　さらに次のＳ４１１では、対象の子映像オブジェクトを対象の親映像カット内の前記指定画面位置に極力違和感無く自然かつシームレスに融合するために、当該子映像オブジェクトまたは当該親映像カットに施される具体的な映像加工、編集の内容や手順を明示した「映像加工編集スキーム」が構築される。以下では、Ｓ４０９乃至Ｓ４１１の一連の処理を「映像嵌め込み融合演出」処理と記す。

　次にＳ４１２では、「映像加工編集スキーム」に基づき、実際に映像の加工、編集、レンダリングの処理が実行される。これらの処理は、実施例１乃３でも説明したように、コンピュータグラフィクス技術や３Ｄモーフィング技術、シェーディング技術など所定のディジタル画像処理技術を駆使することで実行される。

　ただし本実施例は、「映像嵌め込み融合演出」処理プロセスおよび映像加工、編集、レンダリングの処理プロセスをほぼリアルタイムに実行しなければならない。したがって自動映像演出装置８０自体の処理能力によっては、上記各処理プロセスを遅滞なく完全に実行することが困難な場合もある。このような場合は、前記したように自動映像演出装置８０の処理能力や前記各データあるいは処理ステップの優先度等を勘案して、一部を簡略化あるいは一部省略することもできる。

　そして次のＳ４１３では、必要に応じて前記の各処理ステップで得られた処理結果、すなわち子映像嵌め込みまたは融合対象となる親映像カットやそこに嵌め込むまたは融合子映像オブジェクトの選択結果、当該親映像カット内の嵌め込みまたは融合画面位置の指定結果、あるいは前記「映像加工編集スキーム」関連の諸データ、さらには子映像オブジェクトすなわち仮想映像の嵌め込みまたは融合処理済み親映像データなどを必要に応じて所定のデータ格納部に書き込みあるいは更新する処理が行われる。

　さらに次のＳ４１４では、仮想映像の嵌め込みまたは融合処理済みの親映像すなわちリアルタイム実視認像が再生される。なおＳ４１３とＳ４１４は、その処理順が入れ替わってもよいし、両処理ステップを同時に実施しても構わない。

　そして最後のＳ４１５で、親映像に対する子映像オブジェクトの嵌め込みまたは融合処理、すなわちＨＭＤなどのよるＡＲ／ＭＲ仮想映像表示を終了するか否かが判定される。判定が「Ｎｏ」の場合は、Ｓ４０３まで戻り一連の処理フローが繰り返される。一方「Ｙｅｓ」の場合は、一連の処理プロセスが終了する。

　以上のように本実施例では、ユーザの実視認像に所定の仮想映像を自然で違和感なくかつシームレスな状態で嵌め込みまたは融合表示できるＡＲ／ＭＲ映像装置を実現することができる。

　なお本実施例のような自動映像演出装置をＡＲ／ＭＲ表示画面へのＣＭ映像組込み用途等に用いる場合は、実施例１乃至３同様、対象のＣＭ映像が親映像に嵌め込みまたは融合表示される回数や時間などをカウントして、そのカウント結果に応じて、ＣＭ提供に制限を加える、あるいはＣＭスポンサー側に所定のＣＭ料金を課金、請求する仕組みなどを組み合わせることもできる。

　図１４に、本実施例における自動映像演出装置を用いたＨＭＤによるＡＲ映像装置の一実施事例を示す。

　図１４において、５５は、人物（例えば前記アイドル（Ａ））６１が、脇にバーカウンターが設置されている特設ステージ上でダンスをしている実演現場の１シーンであり、現実世界を示している。また４４は、ユーザが装着している眼鏡型ＨＭＤをユーザ側から視た概略外観図であり、ユーザはこのＨＭＤ４４の左眼用シースルーディスプレイ４５Ｌと右眼用シースルーディスプレイ４５Ｌ越しにアイドル（Ａ）６１のダンス実演シーン（３次元像）を肉眼視している。

　図１４は、このようなシチュエーションにおいて、本実施例の自動映像演出装置が例えば所定の清涼飲料水ペットボトル映像をＣＭ映像としてＡＲ重畳表示させる実施事例を示している。

　まず自動映像演出装置は、前記シチュエーションにおいて、違和感無くかつ一定のＣＭ訴求効果が期待できる映像融合演出として、あたかもアイドル（Ａ）６１のすぐ脇のバーカウンター上にＣＭ対象のペットボトル４６が置かれているように当該ペットボトルの仮想映像をＡＲ重畳表示する映像演出を決定する。

　次に自動映像演出装置は、現実世界５５において対象ペットボトルを配置すべき３次元位置を決定し、シースルーディスプレイ４５Ｌ、４５Ｒの各々上において当該３次元位置に相当するペットボトル４６の映像表示位置を演算で求める。

　すなわち、現実世界５５における対象ペットボトル４６が仮想的に置かれる３次元位置から当該ペットボトル４６とユーザ間の奥行き距離を計算し、その上でユーザが当該奥行き距離を認知する両眼視差ｄを求める。そしてこの両眼視差ｄだけ相互にずらしたペットボトル４６の映像を、それぞれ左眼用シースルーディスプレイ４５Ｌおよび右眼用シースルーディスプレイ４５Ｒ上にＡＲ重畳表示させる。

　このように所定の両眼視差ｄを与えたペットボトル４６映像をＨＭＤの左右のシースルーディスプレイにＡＲ重畳表示することで、ＣＭ対象である清涼飲料水ペットボトルがあたかも現実世界５５内のアイドル（Ａ）のすぐ脇のカウンター上に置かれているようにユーザに知覚させることができる。

　さらに云えば、現実世界５５における照明光の入射方向等から、バーカウンター上に射影される当該ペットボトルの影の方向や形状を所定の演算手段で求め、この影も所定のシェーディング技術によって重畳表示する等さらに高度な映像融合演出を施すことにより、よりリアリティのある映像をＡＲ／ＭＲ表示させることができる。

　以上のように本実施例によれば、ＡＲ／ＭＲ対応の自動映像演出装置を提供できる。

　実施例４では、ＨＭＤなどのＡＲ／ＭＲ映像装置等におけるリアルタイム実視認像を仮想映像の嵌め込みまたは融合元となる親映像としていた。したがって、仮想映像となる子映像オブジェクトの嵌め込みまたは融合に関する前記「映像嵌め込み融合演出」処理やそれに続く映像の加工、編集、レンダリングの処理、さらには処理済み映像の再生、表示などの一連の処理プロセスをほぼリアルタイムに実行しなければならない。しかしながら、ユーザが実視認像を視認する瞬間と一連の処理プロセスを経て当該実視認像に嵌め込まれる仮想映像の表示の間には、どうしても一連の処理プロセス実行に伴うある所定のタイムラグが生じてしまう。したがってＨＭＤなどのＡＲ／ＭＲ映像装置において、例えば図７で紹介したような合理的で違和感の無い高度な映像融合演出を行おうとすると、自動映像演出装置の処理能力によっては、ユーザから視てほぼリアルタイムに感じられる程度に微小なタイムラグで処理を実行することが困難になってしまう可能性がある。

　本実施例は、このような高度な映像嵌め込みまたは融合処理が可能なＡＲ／ＭＲ対応の自動映像演出装置の実施例について説明する。

　図１５は本実施例における自動映像演出装置の構成ブロック図である。なお図１５において、図１あるいは図１２と同様の働きをする機能部には同じ番号を付している。

　本実施例における自動映像演出装置８０は、図１２とほぼ同一の機能部構成になっている。図１２と異なるのは新たに映像カット推定部５３が追加されている点である。したがってこの映像カット推定部５３以外の各機能部についての詳しい説明は省略する。

　また本実施例における自動映像演出装置８０に装備されている外界撮影カメラ１９は、ユーザ６０の実視野を含むより広い視野で外界を撮影する機能と、その撮像視野の中でユーザ６０の実視認視野を規定（枠取り）する機能を備えている。

　図１５において、外界撮影カメラ１９で撮影されたリアルタイム外界映像データは、親映像データとして自動映像演出装置８０内に読込まれる。

　映像カット推定部５３は、親映像データと、当該親映像データからリアルタイム映像カット解読部４２で解読された親映像の映像内容情報やその時点で最新のシナリオ情報、さらには例えばユーザ６０の視線移動などユーザ仕草及び行動に関する検知データなどを基に、現時点から所定時間例えば数秒から数十秒先の未来までの親映像カット、すなわち現時点から当該所定時間経過時までにユーザ６０が実視認すると思われる未来の視認映像カットを推定する機能を備えている。

　なお、この時、外界撮影カメラ１９によって撮影されたリアルタイム外界映像がユーザ６０の実視認視野を含むより広い視野映像になっていることが、ユーザ６０の視線移動履歴などの基づく未来視認映像の推定に有効である。

　また、この推定未来視認映像は、リアルタイム映像カット解読部４２においてその時点までに解読済みの親映像内容情報や逐次最新のものに更新されているシナリオ情報等に基づき、常にその時点で最も正しいと判断できる推定映像に更新される。

　本実施例では、以上のように推定した先行親映像カットすなわち未来視認映像に対して、実施例４で説明したような「映像嵌め込み融合演出」処理プロセスおよび当該「映像嵌め込み融合演出」結果に基づく映像の加工、編集、レンダリング処理プロセスを、現親映像すなわち現在の実視認像に先行して実施する。

　すなわち本実施例では、推定未来視認映像に対する先行処理により、十分な時間的余裕を以て一連の映像融合処理プロセスを遂行できるので、ＡＲ／ＭＲ映像装置においても高度な映像融合処理が可能になる。

　なお以上説明した本実施例においても、前記した実施例１と同様に、自動映像演出装置８０は図１５に示したように分割された機能ブロックで構成されることは必須では無い。例えばＡＩ等の情報処理装置を用いて前記各機能部における処理を包括的に実行するような構成であっても一向に構わない。

　次に本実施例における自動映像演出装置８０の処理プロセスについて説明する。図１６は本実施例における処理プロセスのフローチャートである。

　図１６において、Ｓ５０１乃至Ｓ５０５ａは、図１３で説明したＳ４０１乃至Ｓ４０５と全く同じ処理内容であるので、ここでの詳しい説明は省略する。また同様に次のＳ５０６およびＳ５０７は、図１３におけるＳ４０６およびＳ４０７と全く同じ処理内容であるので、ここでの詳しい説明は省略する。

　本実施例の特徴は、Ｓ５０５ｂにおいて、現時点から所定時間例えば数秒から数十秒先の未来までの親映像カット、すなわち現時点から当該所定時間経過時までにユーザ６０が実際に視認すると思われる未来の実視認映像を推定する点である。そしてこの未来の実視認映像カットにおいて新たに登場すると推定される親映像側の映像オブジェクトがあれば、必要に応じてこの推定親映像オブジェクトに所定の識別子を付与する。なおＳ５０５ｂとＳ５０６およびＳ５０７は、その処理順が入れ替わっていても構わない。

　そしてＳ５０８では、親映像シーンに対して、子映像オブジェクトの嵌め込みまたは融合を施すか否かが判定される。判定が「Ｙｅｓ」の場合は後述するＳ５０９以降に進む。一方「Ｎｏ」の場合は、後述のＳ５０９乃至Ｓ５１２はスキップされ、Ｓ５１３に飛ぶ。

　なお次のＳ５０９からＳ５１２にかけての各処理内容は、図１３で説明したＳ４０９からＳ４１２にかけての各処理内容の各処理内容と全く同様なので、ここでの詳しい説明は省略する。

　そして次のＳ５１３では、子映像オブジェクトすなわち仮想映像の嵌め込みまたは融合処理済みの親映像データを逐次所定のデータ格納部に追記する処理が行われる。また必要に応じて各処理ステップで得られた処理結果、すなわち子映像嵌め込みまたは融合対象となる親映像カットやそこに嵌め込みまたは融合すべき子映像オブジェクトの選択結果、当該親映像カット内の嵌め込みまたは融合画面位置の指定結果、あるいは「映像加工編集スキーム」関連の諸データなども必要に応じてデータ格納部に書き込みあるいは更新する処理を行っても良い。

　そして次のＳ５１４で、時間経過に合わせてその時間に再生すべき子映像オブジェクトすなわち所定の仮想映像の嵌め込みまたは融合処理済み親映像が再生される。

　さらに最後のＳ５１５で、親映像に対する一連の子映像オブジェクトの嵌め込みまたは融合処理プロセス、すなわちＡＲ／ＭＲにおける仮想映像の表示を終了するか否かが判定される。判定が「Ｎｏ」の場合はＳ５０３まで戻り一連の処理プロセスが繰り返される。一方「Ｙｅｓ」の場合は一連の処理プロセスが終了する。

　ところで本実施例に関するこれまでの説明では、説明の便宜上各処理ステップが図１６中の各処理ステップがフローチャートに従って逐次的に実行されているように説明してきたが、本実施例においては、実際にはそれぞれいくつかの処理ステップからなる複数の処理プロセスが独立して同時並行的に実行される。

　例えば、Ｓ５０３からＳ５０７までの未来親映像カットの推定プロセスと、Ｓ５０８からＳ５１２に至る「映像嵌め込み融合演出」プロセスおよび当該「映像嵌め込み融合演出」結果に基づく映像の加工、編集、レンダリング処理プロセスは、同時並行的で実行される。

　すなわち自動映像演出装置８０は、リアルタイムのユーザ実視認映像から逐次最新の未来親映像を推定しつつ、同時にすでに推定済みの未来親映像を用いた「映像嵌め込み融合演出」プロセスおよびその演出結果に基づいた映像の加工、編集、レンダリング処理プロセスを実行している。

　またＳ５１４での親映像の再生は、その時点におけるリアルタイム実視認像に相当する映像であるため、実際はこのＳ５１４での親映像の再生とＳ５０３乃至Ｓ５１３の一連の処理プロセスは並行して実行される。

　すなわち本実施例では、親映像であるリアルタイム実視認像を再生（ビデオシースルータイプＨＭＤの場合）または実体像を肉眼視（シースルータイプＨＭＤの場合）しつつ、同時並行に所定時間だけ先行した推定未来視認映像に対して、所定の子映像オブジェクトすなわち仮想映像の嵌め込みまたは融合する処理が行われる。このような同時並行処理により、ＡＲ／ＭＲ映像装置のようにリアルタイム実視野像を映像の嵌め込みまたは融合元となる親映像とする場合においても、高度な映像融合による違和感無く自然な仮想映像融合を行うことができる。

　なお本実施例のような自動映像演出装置をＡＲ／ＭＲ表示画面へのＣＭ映像組込み用途等に用いる場合は、実施例１乃至４同様、対象のＣＭ映像が親映像に嵌め込みまたは融合表示される回数や時間などをカウントして、そのカウント結果に応じて、ＣＭ提供に制限を加える、あるいはＣＭスポンサー側に所定のＣＭ料金を課金、請求する仕組みなどを組み合わせることもできる。

　以上のように本実施例によれば、高度な映像嵌め込みまたは融合処理が可能なＡＲ／ＭＲ対応の自動映像演出装置を提供できる。

　本実施例は、実施例１から５で説明した自動映像演出装置を用いたサービスの一実施事例として、ＣＭ映像の自動放映サービスシステムについて説明する。

　図１７は、本実施例における自動映像演出装置を用いたＣＭ映像融合サービスシステムの概念図である。図１７において、まずＣＭスポンサー（例えば所定の製品メーカ）Ｘ社が、自動映像演出装置８０を管理する映像コンテンツ制作、配信者あるいは自動映像演出装置８０の管理担当者（会社）Ｙ社に、所定の映像コンテンツへのＣＭ映像放映リクエストを出すと、それに応じてＹ社は自社が管理している自動映像演出装置８０に映像融合演出指令を出す。

　自動映像演出装置８０は、映像融合演出指令を受け取ると、まずＹ社のサーバ８２もしくは所定の通信手段またはネットワークを通じて繋がっているクラウド等の外部サーバ８３から対象の親映像コンテンツの映像データを読込む。なお、この親映像コンテンツとしては、前記のように所定のサーバから入手される一般の制作済み映像コンテンツでも構わないし、実施例４や実施例５で示したようなＨＭＤ等を通じて得られるユーザの実視認映像でも構わない。

　一方、自動映像演出装置８０は、ＣＭスポンサーであるＸ社のサーバ８１もしくは所定の通信手段またはネットワークを通じて繋がっているクラウド等の外部サーバ８３から、子映像オブジェクトとしてＣＭ対象の映像データを受け取る。

　そして、これら親、子映像と視聴者から提供された所定の視聴者関連情報等を用い、前記各実施例で示したような処理プロセスを経てＣＭ融合演出加工を実行し、ＣＭ融合処理済みの親映像を配信し、所定の表示装置１４を経て視聴者６０に向けて放映する。

　一方、自動映像演出装置８０には所定の課金システム８４が接続されており、本課金システムにより対象のＣＭ映像が親映像コンテンツに嵌め込みまたは融合表示される回数や時間などがカウントされ、そのカウント結果に応じて、ＣＭ提供に制限を加える、あるいはＣＭスポンサーであるＸ社に所定のＣＭ料金が課金、請求される仕組みになっている。

　このようなＣＭ映像自動提供サービスシステムが構築されていると、ほとんど人手を煩わすことなく、常にスポンサー側、ユーザ側の両者とって最適なＣＭ付き映像コンテンツ鑑賞環境が得ることができる。

　以上実施例について説明したが、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであって、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の一部について、他の構成の追加・削除・置換をすることが可能である。

１：映像コンテンツデータ読込み部、２：映像コンテンツ解読部、３：映像オブジェクト識別抽出部、４：視聴者生体データ検知部、５：視聴者仕草及び行動データ検知部、６：周囲環境データ検知部、７：配役データ生成部、８：脚本データ生成部、９：子（融合対象）映像オブジェクトデータ格納部、１０：処理データ格納部、１１：映像融合検出部、１２：映像加工、編集及びレンダリング部、２０：制御部、３１：映像嵌め込み演出部、３２：先行読込みカット映像概要解読部、５３：映像カット推定部、８０：自動映像演出装置、４４：ヘッドマウントディスプレイ（略称ＨＭＤ）、６０：視聴者またはユーザ

Claims

　映像融合元となる親映像コンテンツの所定映像シーン内に当該親映像に含まれない所定の子映像オブジェクトを嵌め込みまたは融合処理を行う自動映像演出装置であって、
　前記親映像コンテンツの全部または一部の映像内容を解読、または当該親映像コンテンツを所定の親映像シーンに分割して、
　前記親映像の内容解読結果または親映像シーン分割結果を所定の記述形式でデータ化した所定の親映像解読データである処理データを生成する映像コンテンツ解読部を備えることを特徴とする自動映像演出装置。
　映像融合元となる親映像の所定映像シーン内に当該親映像に含まれない所定の子映像オブジェクトを嵌め込みまたは融合処理を行う自動映像演出装置であって、
　前記親映像内の所定の第１映像シーンにおける映像内容を解読し、当該解読結果を基に前記第１映像シーンから所定時間経過時に放映される第２映像シーンの映像内容を推定したうえで、
　当該第２映像シーンにおける親映像内容推定結果を所定の記述形式でデータ化した所定の親映像推定データである処理データを生成する映像カット推定部を備えることを特徴とする自動映像演出装置。
　請求項１または２に記載の自動映像演出装置であって、
　前記処理データを基に、前記親映像内で映像化されている所定の親映像オブジェクト及び前記子映像オブジェクトを他の映像オブジェクトから識別、抽出し、所定のオブジェクト識別子を付加する映像オブジェクト識別抽出部を備えたことを特徴とする自動映像演出装置。
　請求項３に記載の自動映像演出装置であって、
　前記映像オブジェクト識別抽出部によって識別、抽出された各映像オブジェクトに対して、所定の観点から当該映像オブジェクトの物理的な類別、属性または特徴を規定した物理的属性項目、あるいは
　所定の観点から当該映像オブジェクトの社会的な類別、属性または特徴を規定した社会的属性項目、あるいは
　当該映像オブジェクトの可視的な外観の類別または特徴を明示した項目、または
　当該映像オブジェクトの非可視的な状態の類別または特徴を明示した項目、または
　当該映像オブジェクト間の相互の関係性あるいは接続性を明示した項目、
　に関する所定の情報を所定の記述形式でデータ化またはパラメータ化した所定の配役データである処理データを生成する配役データ生成部を備えることを特徴とする自動映像演出装置。
　請求項３に記載の自動映像演出装置であって、
　前記映像オブジェクト識別抽出部によって識別、抽出された親映像オブジェクトのうち、前記親映像内の所定の親映像シーン内において映像化されている所定の親映像オブジェクトまたは子映像オブジェクトに対して、
　当該親映像オブジェクトの当該親映像シーン内での３次元位置に関する項目、または
　当該親映像オブジェクトの３次元方向に関する向きあるいは姿勢に関する項目、または
　当該親映像オブジェクトの台詞あるいは表情、仕草、行動に関する項目、または
　当該親映像オブジェクトまたは前記子映像オブジェクトに対して課せられる所定の制約条件、または
　前記所定の親映像シーン内で前記子映像オブジェクトの嵌め込みまたは融合が許容される映像領域の指定を含む前記所定の親映像シーン全体に対して課せられる制約条件、
　に関する所定の情報を所定の記述形式でデータ化またはパラメータ化した脚本データである処理データを生成する脚本データ生成部を備えることを特徴とする自動映像演出装置。
　請求項１から５の何れか1項に記載の自動映像演出装置であって、
　前記処理データを前記親映像の映像データストリームまたは前記子映像オブジェクトの映像データ内の所定位置に付加する機能を備えることを特徴とする自動映像演出装置。
　請求項１から６の何れか1項に記載の自動映像演出装置であって、
　所定の検知手段により検知された視聴者または使用者の生体状況や仕草、動作、行動等に関する情報、あるいは季節、日時、場所、温度、湿度等視聴者の周囲環境状況に関する情報を検知する機能、あるいは前記各検知情報を基に前記視聴者または使用者の生理状態あるいは心理状態を推定する機能、あるいは当該推定の結果または前記検知した各情報を基に複数の前記子映像オブジェクトの中から当該視聴者または使用者に提示する子映像オブジェクトを適宜選択する機能を備えていることを特徴とする自動映像演出装置。
　請求項１から７の何れか1項に記載の自動映像演出装置であって、
　前記処理データを基に、前記親映像の中で前記子映像オブジェクトの嵌め込みまたは融合処理を行う映像シーン、あるいは当該映像シーン内で前記子映像オブジェクトの嵌め込みまたは融合処理を行う画面位置、
　あるいは映像内容の合理性あるいはコンテンツイメージを保持しつつ前記嵌め込みまたは融合処理を実行するために前記所定の親映像オブジェクトまたは子映像オブジェクトに施す映像加工または編集処理の内容及び手順を決定し、当該決定結果を所定の記述形式でデータ化した映像融合演出スキームを生成する映像融合演出部を備えたことを特徴とする自動映像演出装置。
　請求項８に記載の自動映像演出装置であって、
　所定のコンピュータグラフィックスもしくはレンダリング機能を用いて前記映像融合演出スキームを実行することにより前記親映像への前記子映像オブジェクトの嵌め込みまたは融合を実現する映像加工編集部を備えたことを特徴とする自動映像演出装置。
　請求項６に記載の自動映像演出装置によって記録される映像記録媒体であって、
　前記処理データを付加された前記親映像の映像データストリームまたは前記子映像オブジェクトの映像データを記録したことを特徴とする映像記録媒体。
　請求項１から９の何れか1項に記載の自動映像演出装置であって、
仮想現実映像または拡張現実映像または複合現実映像の映像表示装置を有することを特徴とする自動映像演出装置。
　映像融合元となる親映像コンテンツの所定映像シーン内に当該親映像に含まれない所定の子映像オブジェクトを嵌め込みまたは融合処理を行う自動映像演出方法であって、
　前記親映像コンテンツの全部または一部の映像内容を解読、または当該親映像コンテンツを所定の親映像シーンに分割して、
　前記親映像の内容解読結果または親映像シーン分割結果を所定の記述形式でデータ化した所定の親映像解読データを生成することを特徴とする自動映像演出方法。
　請求項１２に記載の自動映像演出方法であって、
　前記親映像解読データを基に、前記親映像内で映像化されている所定の親映像オブジェクト及び前記子映像オブジェクトを他の映像オブジェクトから識別、抽出し、所定のオブジェクト識別子を付加することを特徴とする自動映像演出方法。
　請求項１３に記載の自動映像演出方法であって、
　前記識別、抽出された各映像オブジェクトに対して、所定の観点から当該映像オブジェクトの物理的な類別、属性または特徴を規定した物理的属性項目、あるいは
　所定の観点から当該映像オブジェクトの社会的な類別、属性または特徴を規定した社会的属性項目、あるいは
　当該映像オブジェクトの可視的な外観の類別または特徴を明示した項目、または
　当該映像オブジェクトの非可視的な状態の類別または特徴を明示した項目、または
　当該映像オブジェクト間の相互の関係性あるいは接続性を明示した項目、
　に関する所定の情報を所定の記述形式でデータ化またはパラメータ化した所定の配役データを生成することを特徴とする自動映像演出方法。
　請求項１３に記載の自動映像演出方法であって、
　前記識別、抽出された親映像オブジェクトのうち、前記親映像内の所定の親映像シーン内において映像化されている所定の親映像オブジェクトまたは子映像オブジェクトに対して、
　当該親映像オブジェクトの当該親映像シーン内での３次元位置に関する項目、または
　当該親映像オブジェクトの３次元方向に関する向きあるいは姿勢に関する項目、または
　当該親映像オブジェクトの台詞あるいは表情、仕草、行動に関する項目、または
　当該親映像オブジェクトまたは前記子映像オブジェクトに対して課せられる所定の制約条件、または
　前記所定の親映像シーン内で前記子映像オブジェクトの嵌め込みまたは融合が許容される映像領域の指定を含む前記所定の親映像シーン全体に対して課せられる制約条件、
　に関する所定の情報を所定の記述形式でデータ化またはパラメータ化した脚本データを生成することを特徴とする自動映像演出方法。