WO2019188091A1

WO2019188091A1 - 映像挿入装置、映像表示端末装置

Info

Publication number: WO2019188091A1
Application number: PCT/JP2019/009107
Authority: WO
Inventors: 難波　秀夫; 宏道留場
Original assignee: シャープ株式会社
Priority date: 2018-03-30
Filing date: 2019-03-07
Publication date: 2019-10-03
Also published as: US20210144419A1; JP2019179985A

Abstract

視聴者が大画面の超高解像度ディプレイ装置による視聴を行う場合、視界の殆どを映像によって覆われ、視界中央部に意識が集中する事になり、複数の映像情報を表示した時のそれぞれの映像情報に対する認識能力が低下してしまうことに対するユーザ体験を改善すること。視聴者が使用しているディスプレイ装置に合わせた複数の映像情報と音響情報をネットワーク側機器から提供し、ディスプレイ装置側で複数の映像情報の表示と共にオーディオオブジェクトを使用した音響情報を再生する事により、複数の映像情報に対する認識性を高める。

Description

映像挿入装置、映像表示端末装置

　本発明は、映像処理装置、映像表示装置に関する。
　本出願は、２０１８年３月３０日に、日本に出願された特願２０１８－６７２８７号に基づき優先権を主張し、その内容をここに援用する。

　近年、ディスプレイ装置の解像度が向上し、超高解像度（Ｕｌｔｒａ　Ｈｉｇｈ　Ｄｅｎｓｉｔｙ：ＵＨＤ）表示が可能なディスプレイ装置が登場している。このＵＨＤディスプレイの中で特に高解像度の表示が可能なディスプレイ装置を使用する、横方向に８千ピクセル前後のテレビジョン放送である８Ｋスーパーハイビジョン放送の実用化が進められている。この８Ｋスーパーハイビジョン放送に対応するディスプレイ装置（８Ｋディスプレイ装置）に映像を供給する信号は非常に帯域が広く、非圧縮時は７０Ｇｂｐｓを超える速度、圧縮時でも１００Ｍｂｐｓ程度の速度の信号を供給することが必要となる。

　このような広帯域の信号を利用する映像信号を配信するために、新しい方式の放送衛星や光ファイバーの利用が検討されている（非特許文献１）。

　超高解像度ディスプレイ装置は視聴者に提供可能な豊富な情報量を利用し、多種の情報を提供するサービスが可能である。また、超高解像度化ディスプレイ装置は画面の大きさを増やしても単位面積当たりの画素数が十分であり、ディスプレイ装置の一部を利用して映像情報を提供する場合も十分な情報量を有しており、従前の解像度のディスプレイ装置で同様のサービスを提供した場合と比較して視聴者のユーザ体験は大幅に向上する。

　また、画面サイズを増やす事で得られる臨場感を更に高めるため、音響面からの取り組みも行われており、多数のスピーカーを用いる音響システムを合わせて使用する事が検討されている（非特許文献２）。

総務省．"４Ｋ・８Ｋの推進に関する現状について"．総務省ホームページ．<www.soumu.go.jp/main_content/000276941.pdf> Dolby（登録商標）, "Dolby（登録商標） Atmos（登録商標） Next-Generation Audio for Cinema"

　しかし、視聴者が大画面の超高解像度ディプレイ装置による視聴を行う場合、視界の殆どを映像によって覆われ、視界中央部に意識が集中する事になり、複数の映像情報を表示した時のそれぞれの映像情報に対する認識能力が低下してしまう。

　本発明の一態様は以上の課題を鑑みてなされたものであり、視聴者が使用しているディスプレイ装置に合わせた複数の映像情報と音響情報をネットワーク側機器から提供し、ディスプレイ装置側で複数の映像情報の表示と共にオーディオオブジェクトを使用した音響情報を再生する事により、複数の映像情報に対する認識性を高める機器とその構成を開示するものである。

　（１）上記の目的を達成するために、本発明の一観点によれば、映像と音声を含むストリームに、１以上の所定の映像と所定の音声を挿入し、映像表示端末装置に挿入後のストリームを送信する映像挿入装置であって、前記ストリームに含まれる映像の表示範囲の一部である１以上の表示領域に、挿入する前記所定の映像の大きさと位置を合わせるスケーリング処理部と、挿入する前記所定の映像に対応する所定の音声をオーディオオブジェクトに変換し、前記オーディオオブジェクトの設定位置を前記表示領域に設定するオーディオオブジェクト位置調整部を含む映像挿入装置が提供される。

　（２）上記の目的を達成するために、本発明の一観点によれば、前記映像表示端末装置の端末情報を取得する端末インターフェース部をさらに備え、前記表示領域を、前記端末情報に基づいて設定する映像挿入装置が提供される。

　（３）上記の目的を達成するために、本発明の一観点によれば、前記挿入後のストリームの送信先である映像表示端末装置を、エリアに関する情報とユーザグループに関する情報の少なくともいずれかに基づいてグループ化し、前記グループ化した映像表示端末装置に対して前記所定の映像と前記所定の音声を挿入する映像挿入装置が提供される。

　（４）上記の目的を達成するために、本発明の一観点によれば、前記グループ化した映像表示端末装置に対して挿入した映像と音声に対し、少なくとも１つの挿入後のストリームを送信している前記映像表示端末装置から変更情報を受信したときに、前記複数のグループ化した映像表示端末装置に対して前記変更情報に基づいて前記表示領域と、前記所定の音声のオーディオオブジェクトの設定を変更する映像挿入装置が提供される。

　（５）上記の目的を達成するために、本発明の一観点によれば、映像と音声の情報を含むストリームを受信し、映像と音声の再生を行う映像表示端末装置であって、前記映像表示端末装置が備える映像表示部の大きさに関する情報と、前記映像表示部と視聴者の距離に関する情報を含めた端末情報を、映像挿入装置に送る映像表示端末装置が提供される。

　（６）上記の目的を達成するために、本発明の一観点によれば、前記端末情報に含める前記映像表示部の大きさの情報は、所定の種類に規格化されている映像表示端末装置が提供される。

　（７）上記の目的を達成するために、本発明の一観点によれば、ユーザ入力装置をさらに備え、前記映像挿入装置によって挿入された映像に対する操作が前記ユーザ入力装置から入力されたときに、前記映像に対応する変更情報を前記映像挿入装置に送信する映像表示端末装置が提供される。

　本発明の一態様によれば、視聴者が使用しているディスプレイ装置に合わせた複数の映像情報と音響情報をネットワーク側機器から提供し、ディスプレイ装置側で複数の映像情報の表示と共にオーディオオブジェクトを使用した音響情報を再生する事により、複数の映像情報に対する認識性を高めることができる。

本発明の一実施形態の機器構成例を示す図である。オーディオオブジェクトの例を示す図である。本発明の一実施形態のスピーカーの構成例を示す図である。本発明の一実施形態の機器構成例を示す図である。本発明の一実施形態のネットワークの構成例を示す図である。本発明の一実施形態の機器構成例を示す図である。本発明の一実施形態のエリア制御、グループ制御の例を示す図である。本発明の一実施形態の挿入映像とオーディオオブジェクトの制御例を示す図である。本発明の一実施形態の挿入映像とオーディオオブジェクトの制御例を示す図である。本発明の一実施形態のグループ制御の例を示す図である。

　以下、本発明の実施形態による無線通信技術について図面を参照しながら詳細に説明する。

　（第１の実施形態）
　以下、図を利用して本発明の一実施形態を詳細に説明する。図１は本実施の形態の機器構成の一例を示している。本実施の形態は映像サーバ１０１と映像挿入装置１０２、映像表示端末装置１０３、端末情報管理装置１０４から構成され、映像挿入装置１０２と映像表示端末装置１０３はネットワーク１２８で接続される。このネットワーク１２８はカッパケーブルや光ファイバーケーブルを利用する有線ネットワークや、セルラー無線通信網のような公衆無線ネットワーク、無線ＬＡＮのような自営無線ネットワークのような様々な形態のネットワークを使用して良い。本実施の形態ではセルラー無線通信網を使用する事を想定する。

　映像サーバ１０１は映像ストリームを供給する映像生成部１０５と、音声ストリームを生成する音声生成部１０６と、映像ストリームと音声ストリームを多重するマルチプレックス部１０７から構成される。音声ストリームは２以上の音声データから構成されてよい。音声ストリームの符号化方法は特に指定しないが、ＭＰＥＧ　ＡＡＣやＭＰＥＧ　ＳＡＯＣなどを使用して良い。映像ストリームの符号化方法は特に指定しないが、Ｈ．２６４方式やＨ．２６５方式、ＶＰ９などを使用して良い。音声ストリームと映像ストリームを多重する方法は特に限定しないが、ＭＰＥＧ２　ＳｙｓｔｅｍｓやＭＰＥＧ　Ｍｅｄｉａ　Ｔｒａｎｓｐｏｒｔ（ＭＭＴ）、ＭＰ４などを使用して良い。音声ストリームと映像ストリームを多重したストリームを、以降では複合ストリームと称す。

　映像挿入装置１０２は映像サーバ１０１とネットワーク１２８の間に位置し、映像サーバ１０１から出力される複合ストリームに映像の大きさを制御した別の映像ストリームと音源の位置を制御されたオブジェクトオーディオを含む別の音声ストリームを挿入する。１０８は入力された複合ストリームを多重分離し、映像ストリーム音声ストリームを取り出すデマチプレクサ部、１０９はデマルチプレクサ部１０８から出力された映像ストリームに含まれる映像データにストリームキャッシュ部１２１から出力される挿入するための映像ストリームの映像データを合成する映像合成部である。映像の合成方法は特に指定しないが、デマルチプレクサ部１０８から出力された映像ストリームをデコードして生の映像データを生成し、ストリームキャッシュ部１２１から出力された映像ストリームをデコードして生の映像データを生成し、この二つの映像データを合成後に再エンコードして合成された映像ストリームを得ても良く、また、デマルチプレクサ部１０８から出力された映像ストリームとストリームキャッシュ部１２１から出力され映像ストリームの符号化単位で合成し、再エンコード処理を一部減らすような合成をしても良い。また、ストリームキャッシュ部１２１から出力された映像ストリームを別トラックとして合成する方法でも良い。１１０はデマルチプレクサ部１０８から出力された音声ストリームに、ストリームキャッシュ部１２１から出力された音声ストリームを合成する音声合成部である。この音声の合成方法は特に指定しないが、例えば、デマルチプレクサ部１０８から出力された音声ストリームがチャネルベース音源である場合、このチャネルベース音源をベッドとし、ストリームキャッシュ１２１から出力されるオーディオオブジェクトを加えたオブジェクト音源として合成しても良い。また、デマルチプレクサ部１０８から出力された音声ストリームがオブジェクト音源であった場合、このオブジェクト音源にオーディオオブジェクトを追加しても良い。この時、オーディオオブジェクトの数の上限を超える場合はダウンミックスしても良い。また、合成する音声ストリームを別トラックとして合成しても良い。１１１はマルチプレクサ部で、映像合成部１０９から出力された合成後の映像ストリームと、音声合成部１１０から出力された合成後の音声ストリームを多重化するマルチプレクサ部である。再度多重化された複合ストリームはネットワーク１２８に出力される。

　１２１はストリームキャッシュ部で、スケーラ／位置調整部１１４から出力される挿入用の映像ストリームと、オーディオオブジェクト位置調整部１１７から出力される挿入用の音声ストリームを、挿入ストリーム設定部１１３の制御によりそれぞれ映像合成部１０９と音声合成部１１０に送る。また、挿入ストリーム設定部の制御により、映像ストリームと音声ストリームの蓄積を行い、また蓄積した映像ストリームと音声ストリームをそれぞれ映像合成部１０９と音声合成部１１０に送る。１１４はスケーラ／位置調整部で、挿入ストリーム設定部１１３の制御により映像選択部１１５から出力される映像データにスケーリング処理を施し、表示位置を調整した映像ストリームを生成するブロックである。１１５は挿入ストリーム設定部１１３の制御により映像ライブラリ部１１６から選択した映像データをスケーラ／位置調整部１１４に送るブロックである。１１６は挿入用の複数の映像データを蓄積している映像ライブラリ部である。１１７はオーディオオブジェクト位置調整部で、挿入ストリーム設定部１１３の制御により音声選択部１１８から出力された音声データをオーディオオブジェクト化し、このオーディオオブジェクトの位置を設定した音声ストリームを出力する。１１８は音声選択部で、挿入ストリーム設定部１１３の制御により音声ライブラリ１１９から選択した音声データを出力する。１１９は音声ライブラリで、挿入用の複数の音声データを蓄積している。１２０はライブラリ更新部で、映像挿入装置１０２の外部から映像ライブラリ１１６と音声ライブラリ１１９の内容を更新し、更新した内容を挿入映像ストリーム設定部１１３に送るブロックである。

　１１２は端末インターフェース部で、ネットワーク１２８を経由して接続する映像表示端末装置１０３と通信を行い、映像表示端末装置１０３のハードウェア、ソフトウェアに関する端末能力情報や、映像表示端末装置１０３のユーザ入力装置１２７を経由して入力されるユーザの操作情報などの各種情報を得て、また、端末情報管理装置１０４と通信する事で予め登録されている映像表示端末装置１０３に関する端末登録情報を得て、これらの情報を挿入映像ストリーム設定部１１３に送る。挿入映像ストリーム設定部１１３は、端末インターフェース１１２から得られる映像表示端末装置１０３の情報やユーザの操作情報、ライブラリ更新部１２０から得られる情報、その他映像サーバ１０１から取得する情報などに基づいて映像ライブラリ１１６から選択される映像ストリーム表示サイズと表示位置の設定と、音声ライブラリ１１９から選択される音声ストリームをオーディオオブジェクトに変換する際のパラメータを設定するブロックである。

　次に映像表示端末装置１０３の構成例を説明する。１２２は入力された複合ストリームに対して逆多重処理を行い、映像ストリームと音声ストリームを出力するデマルチプレクサ部、１２３は映像ストリームをデコードして表示し、またネットワークサービスインターフェース部１２５が提供するユーザインターフェース用の画面を表示する映像表示部、１２４は音声ストリームをデコードしてマルチチャネル再生を行い、ネットワークサービスインターフェース部１２５が提供するユーザインターフェース用の音声を再生する音声再生部、１２５はネットワークサービスインターフェース部で、ネットワーク１２８を経由して映像挿入装置１０２の端末インターフェース部１１２と通信し、端末情報部１２６の情報やユーザ入力装置１２７の情報などの各種情報の交換を行う。１２６は端末情報部で、映像表示端末装置１０３の構成に特有な情報や、映像表示端末装置１０３を個別に識別するための固有情報、ネットワーク１２８を使用するための契約を識別する情報などの映像表示端末装置１０３に関する情報を格納し、ネットワークサービスインターフェース部１２５を経由して映像挿入装置１０２の端末インターフェース部１１２に格納している情報を送信するブロックである。１２７はユーザ入力装置で、映像表示端末装置１０３に対するユーザの操作を受け付け、ネットワークサービスインターフェース部１２５を経由して映像挿入装置１０２の端末インターフェース部１１２にユーザの操作情報を伝え、またユーザインターフェース用の映像を生成して映像表示部１２３に出力し、ユーザインターフェース用の音声を生成して音声再生部１２４に対して出力するブロックである。

　端末情報管理装置１０４は映像挿入装置１０２の端末インターフェース部１１２からの問い合わせを受け付け、問い合わせに含まれる映像表示端末装置１０３に関する情報に基づいて、映像挿入装置１０２が使用可能なサービスに関する情報を応答として送信する装置である。

　映像表示端末装置１０３が備える音声再生部１２４はオブジェクトオーディオの再生が可能な構成とする。オブジェクトオーディオは、従来のチャネルベース音源とは異なり、再生音声を構成する複数の音源それぞれをオーディオオブジェクト（仮想音源）として定義し、再生空間の自由な位置に配置して再生する方式である。従来のチャネルベース音源は予め決められた複数の方向、一例として２チャンネルステレオ音源の場合は左と右の２方向、５チャンネルサラウンド音源の場合は左前方、前方中央、右前方、右後方、左後方にスピーカーを配置する事を前提に用意される音源である。多くの場合、チャネルベース音源で使用するスピーカーは水平面上に配置され、また、一部の実装においては水平面を複数設け、上方のあらかじめ決められた方向から到来する音を再現するものもある。これらのチャネルベース音源では、音源生成時に想定するスピーカー配置用に複数の音源をミックスするため、再生環境のスピーカーの配置位置の違いや、再生時のリスナーの位置の違いによってミックス時に意図した音が再現できない問題がある。これを音源のスイートスポットが狭いと表現することがある。これに対し、オブジェクトオーディオを使用する場合はスピーカーの配置位置やリスナーの位置によって、仮想音源を再生するスピーカーの選択、ミックスを適応的に行うことが可能となり、再生環境が変わっても音源生成時に意図した音場を再現することが可能となる。このオーディオオブジェクトを再生するスピーカーの選択、ミックスをサウンドレンダリングと称することがある。

　仮想音源の定義方法は複数あるが、ある基準点からの相対位置に配置された複数の音源とすることが多い。本実施の形態では図２の２０１に示すように基準位置（原点）からr,θ, φによる極座標表現された音源として定義するものとする。これにより視聴位置正面の前方３ｍ、右１ｍ、上方２ｍなどの任意の位置に仮想音源を設定することが可能となる。オブジェクト還元の再生環境は特別に規定されるものではないが、一例として図３に示すように視聴位置３０２の前方に表示端末装置３０１を配置した場合、映像表示端末装置３０１の左右にメインスピーカー３０１－１,－２を、メインスピーカーの上方にトップスピーカー３０４－１，－２を配置し、視聴位置３０１の左右から後方にかけて縦に長いスピーカーアレーで構成されたサテライトスピーカー３０５－１～－４を配置し、水平面のみならずオーディオオブジェクトが上方に設定された時にはメインスピーカー３０３－１，－２だけではなくトップスピーカー３０４－１、－２やサテライトスピーカー３０５－１～４を構成するスピーカーの上部に配置されたスピーカーを用い、サウンドレンダリングを行うことで設定された位置のオーディオオブジェクトを表現できる。これらのメインスピーカー３０３－１，－２、トップスピーカー３０４－１，－２、サテライトスピーカー３０５－１～－４（以下、スピーカー群と称する）の配置位置を映像端末装置３０１の音声再生部が知る方法として、視聴位置３０２または所定の位置に校正用マイクロホンを設置し、スピーカー群から校正用の参照信号を再生させて校正用マイクロホンで収集することで、スピーカー群を構成する各スピーカーから視聴位置までの伝達関数を求めて配置位置に関する情報とすることができる。映像端末装置３０１の音声再生部はオブジェクトオーディオの再生時に、この伝達関数を使用してサウンドレンダリングを実行することができる。スピーカーの構成は図３に示したものに限らす、配置するスピーカーの数や位置は異なってもよい。配置するスピーカーの数、位置に応じたサウンドレンダリングを行えばよい。

　次に映像と音声の挿入について図８を使用して説明する。映像表示端末装置１０３はネットワーク１２８を経由し、映像挿入装置１０２の端末インターフェース１１２に対して映像表示端末装置１０３の映像表示部１２３の大きさと視聴距離に関する情報を通知する。図８において映像表示部１２３は８０１が相当し、映像表示部の大きさとして縦の大きさ８０７と横の大きさ８０６を送ってもよい。また、画面の対角長８０５と画面の縦横比（アスペクト比）を送ってもよい。視聴距離は映像祖表示部１２３と視聴者８０４との距離８０８が該当する。この視聴距離は映像表示端末装置１０３にカメラ等のセンサを設けて測定した値を用いてもよいし、映像表示部１２３の大きさによりあらかじめ設定された視聴距離を用いてもよい。映像表示部１２３の大きさと、このあらかじめ設定された視聴距離は比例関係としてもよい。一例として映像表示部１２３の縦の大きさの３～５倍程度の値をあらかじめ設定された視聴距離としてもよい。また、映像表示部１２３の大きさを規格化し、いくつかの種類とすることで映像表示部１２３の大きさに関する情報の情報量を減らしてもよい。例えば映像表示部１２３の対角長を２５インチ以下、３２インチ以下、４０インチ以下、５０インチ以下、７０インチ以下、１００インチ以下、１５０インチ以下、１５０インチを超える大きさのように規格化してもよい。同様に視聴距離についても規格化してよい。映像表示部１２３の大きさを規格化することで、映像挿入装置１０２内で挿入する映像ストリームと音声ストリームの種類が限定され、予め生成しておくことが容易になる。

　映像表示端末１０３の映像表示部１２３の大きさと視聴距離に関する情報を得た映像挿入装置１０２は、挿入映像ストリーム設定部１１３で挿入する映像データと音声データをそれぞれ映像選択部１１５と音声選択部１１８を経由して映像ライブラリ１１８、音声ライブラリ１１９から選択する。選択された映像データはスケーラ／位置調整部１１４でスケーリング処理と表示位置調整を行い、映像サーバ１０１から受信する複合ストリームに含まれる映像ストリームに対してオーバーラップ表示合成ができるようにする。スケーラ／位置調整部１１４は、スケーリング処理と表示位置調整を調整した映像データを映像ストリーム化してストリームキャッシュ部１２１に送る。選択された音声データはオーディオオブジェクト位置調整部１１７でオーディオオブジェクトに変換し、オーディオオブジェクトの位置を設定する。このオーディオオブジェクトの位置を、図８を用いて説明すると、挿入映像の表示が８０２で示される領域であったとすると、視聴者８０４の頭部が表示画面８０１の中央正面にあるものとし、映像表示部１２３の前面の領域８０３で示される空間にオーディオオブジェクトの位置を設定する。オーディオオブジェクトの位置を設定後、オーディオオブジェクト位置調整部は設定後のオーディオオブジェクトを音声ストリームに変換してストリームキャッシュ部１１２に送る。ストリームキャッシュ部１１２は映像合成部１０９に合成用の映像ストリームを、音声合成部１１０に合成用の音声ストリームを送る。挿入映像ストリーム設定部１１３は、ストリームキャッシュ部１２１に挿入する映像に相当する映像ストリームや音声ストリームが蓄積されている場合は、映像ライブラリ部１１６、音声ライブラリ１１９のデータを使用せず、ストリームキャッシュ部１１２に蓄積されている映像ストリームや音声ストリームを挿入映像として使用するようにストリームキャッシュ部１２１を制御してよい。映像合成部１０９は映像サーバ１０１から送られてきた映像ストリームにオーバーラップする形でストリームキャッシュ部が出力された映像ストリームを合成する。この合成方法は特に指定しないが、映像サーバから送られてきた映像ストリームとストリームキャッシュ部が送られてきたストリームを一度復号して映像データとして合成後に再符号化して合成された映像ストリームとしてもよく、また、別トラックの映像として合成してもよい。音声合成部１１０は映像サーバから送られてきた音声ストリームにストリームキャッシュ部１２１から出力される音声ストリームを合成する。オーディオオブジェクトの数に余裕があるときは新たなオーディオオブジェクトを追加する形で合成し、オーディオオブジェクトの数の制限によりそのまま追加できない場合は映像サーバから送られてきた音声ストリームに含まれるオーディオオブジェクトに対してダウンミックス処理をし、その上でストリームキャッシュ部１２１から出力されたオーディオストリームに含まれるオーディオオブジェクトを追加して合成する。ストリームキャッシュ部１２１から出力された映像ストリームと音声ストリームを合成した映像ストリームと音声ストリームはマルチプレクサ部１１１で多重化処理を行い、合成ストリームとしてねっワーク１２８経由で映像端末装置１０３に送られ、図８に示した領域８０２に映像が、領域８０３の位置にオーディオオブジェクトが設定された音声が再生される。なお、挿入する映像、音声は１つでも複数でもよい。挿入する映像、音声が複数の場合、挿入する映像の大きさを変えてもよい。また、映像、音声は常時挿入してもよく、また、映像サーバから送られてきた複合ストリームの内容や、ライブラリの更新などのタイミングなど、外部からの情報によって挿入のＯｎ／Ｏｆｆを切り替えてもよい。

　映像表示端末１０３の表示装置１２３の大きさが小さく、挿入映像が表示される領域にオーディオオブジェクトを設定しても挿入映像に対する注意喚起効果が低い場合、表示装置１２３の範囲外に挿入する映像のオーディオオブジェクトを設定してもよい。一例として図８に表示装置１２３の表示領域８１１の外の領域８１３にオーディオオブジェクトの位置を設定する例を示す。表示装置１２３の大きさ、ここでは縦の大きさ８１７と横の大きさ８１６が所定の値より小さい場合、挿入する映像の領域８１２の位置ではなく、領域８１３に設定してもよい。側面から見た様子を図９に示す。表示装置１２３が大きい場合の一例を図９（ａ）に、表示装置１２３が小さい場合の一例を図９（ｂ）に示す。９０１、９０８が視聴者、９０２、９０９が表示装置、９０３、９１０が挿入される映像、９０４、９１１が設定されるオーディオオブジェクトとなる。表示装置９０２の大きさ９０５が大きく、挿入映像９０３が視聴者の視線９０７に対して十分高く、挿入映像９０３の位置にオーディオオブジェクト９０４を設定したときに視線９０７の外から音が到来するように設定できる場合は挿入映像９０３が表示される付近にオーディオオブジェクト９０４を設定し、表示装置９０９の大きさ９１２が小さく、挿入映像９１０の位置にオーディオオブジェクトを設定したときに視線９１４に対して挿入映像１９０の位置があまり高くなく、視線９１４の外から音が到来するように設定できない場合は表示装置９０９の上方にオーディオオブジェクト９１１を設定してもよい。視線に対するオーディオオブジェクトの相対的な位置は視聴距離９０６、９１２も関係するので、表示装置９０２、９０９の大きさ９０５、９１２だけではなく、視聴距離９０６、９１３を考慮してオーディオオブジェクトの位置を設定してもよい。

　以上は映像表示端末装置とネットワークで隔てられた映像挿入装置で挿入映像と挿入音声の合成を行う構成の一例を示したが、挿入映像と挿入音声の合成を映像表示端末装置で行う構成としてもよい。このような構成の一例を図４に示す。図１と機能が同じものについては同一の番号を付し、以下の説明を省略する。映像挿入装置４０１は映像ストリーム、音声ストリーム上の合成は行わず、挿入映像を別のサービス、番組（プログラム）として多重化する。ストリームキャッシュ１２１から出力される映像ストリームと音声ストリームを多重化部４０４で多重化して合成ストリームとし、映像サーバ１０１から送信される合成ストリームとマルチプレクサ部４０４から出力される合成ストリームをマルチプレクサ部４０５で複数のサービス、または番組として多重化し、ネットワーク１２８経由で映像表示端末装置４０４に送信する。映像表示端末装置４０３は複数のサービス、番組として受信した合成ストリームをデマルチプレクサ部４０６で個別のサービス、番組として分離し、映像ストリームから送られて来たサービス、番組をデマルチプレクサ部４０７で映像ストリームと音声ストリームに分離し、挿入映像のサービス、番組はデマルチプレクサ部４０８で映像ストリームと音声ストリームに分離し、それぞれの映像ストリームは映像合成部４０９で合成され、映像表示部１２３で表示される。また、それぞれの音声ストリームは音声合成部４１０で合成され、音声再生部１２４で再生される。端末情報部４１１はネットワークサービスインターフェース部１２５を経由して映像表示端末装置４０３の表示装置１２３の大きさと視聴距離に関する情報に加え、映像表示端末装置内で挿入映像ストリームの合成が可能であることを示す情報を映像挿入装置４０１の端末インターフェース部１１２に送信する。このような構成で、図１の構成で示した動作が可能となる。

　上記に示したように、映像挿入装置で挿入する映像の表示位置付近、または挿入映像が表示されていることを認識できる位置にオーディオオブジェクトの位置を設定して音声を再生することで視聴者の注意を喚起し、映像が挿入されたことを伝えることが可能となる。また、表示される挿入映像から音が聞こえるようにオーディオオブジェクトを設定することで挿入映像に対するユーザ体験が向上する。

　（第２の実施形態）
　本実施の形態ではネットワークを複数のサブネットワーク、例えば特定の地域に設けられたネットワークに分割できる形態とし、分割したネットワーク内に映像挿入装置を配置して分割したネットワーク内でのみ有効な映像の挿入や、ネットワークに接続するユーザの情報に基づくグループでのみ有効な映像の挿入を行うことが可能な構成を説明する。図５はセルラー無線ネットワークの構成例を示す。ゲートウェイ部５０１はセルラネットワークを構成するコアネット５０６とインターネット５０２の間に位置し、インターネット５０２とコアネットの間でデータの交換を行う。コアネット５０６はサブネットに相当するコアネットワーク１・５０７とコアネットワーク２・５０８を含み、それぞれゲートウェイ部５０４、ゲートウェイ部５０５を経由して接続する。コアネットワーク５０６は映像挿入装置５１５を含み、映像挿入装置５１５は挿入用の映像ライブラリ、音声ライブラリを書き換えるためのライブラリ用ネットワーク５０３が接続されており、このネットワーク経由で映像ライブラリ、音声ライブラリのデータを書き換えることができる。コアネットワーク１・５０７は複数の基地局装置５０９、５１０を含み、さらに映像挿入装置５１１を含む。コアネットワーク２・５０８は複数の基地局装置５１２、５１３を含み、さらに映像挿入装置５１４を含む。これらのサブネットワークに相当するコアネットワークは特定の地域に対する通信サービスを提供するネットワークでもよく、例えば特定の地域の自治体や、特定の建物、特定の競技場などに対する通信サービスを提供するサブネットワークでもよい。映像挿入装置５１５、５１１、５１４は映像ライブラリ、音声ライブラリのデータのすべて、または一部を共有してもよい。データの共有方法は特に指定しない。ハッシュ値による管理などの一般的な分散キャッシュの共有方法を使用してよい。以下、セルラネットワークを例に説明するが、セルラネットワークに限らずイーサネット（登録商標）などを利用するローカルエリアネットワーク（ＬＡＮ）や無線ＬＡＮを用いる構成など、他の形態のネットワークにおいても実施可能である。

　本実施の形態で使用する機器の構成を図６に示す。基本的な構成は図１で示した機器の構成と同様であり、同様の動作をするブロックには同じ番号を付し、以降の説明を省略する。映像サーバ１０１はインターネット上に接続されてもよく、またコアネットワーク内のいずれかのネットワーク上に接続されもよい。映像挿入装置６０４は図１に示した映像挿入装置１０２とほぼ同じ構成であるが、端末インターフェース部６０３はさらにグループ管理装置６０２に接続し、接続する映像表示端末装置の端末情報を利用したグループを行い、グループ単位で挿入する映像と音声の制御を行う。また、サブネットワークにあたるコアネットワーク内に接続された映像挿入装置６０４は、接続する映像表示端末装置がサブネットワークにあたるコアネットワーク内からの接続であるかによって挿入する映像と音声の制御を行う。映像表示端末装置６０１はグループ化の基づくユーザインターフェースを提供するネットワークサービスインターフェース部６０５を含む。

　エリア制御、グループ制御の一例を、図７を利用して説明する。この例ではサブネットワークに相当するコアネットワーク１・７０１とコアネットワーク２・７１１があり、コアネットワーク１・７０１は基地局装置７０２を備え、基地局装置７０２に映像表示端末装置７０３、映像表示端末装置７０４が接続する。また、コアネットワーク２・７１１は基地局装置７１２を備え、基地局装置７１２に映像表示端末装置７１３、映像表示端末装置７１４が接続する。コアネットワーク１・７０１とコアネットワーク２・７１１はそれぞれ映像挿入装置を備え、それぞれが管理する基地局装置に接続している映像表示端末装置に対して個別に挿入する映像と音声を設定することができる。

　この図７は１番の挿入映像は全映像表示端末に表示する挿入映像、２番の挿入映像は映像端末装置７０３のみに対する挿入映像、映像表示端末装置７０４と映像表示端末装置７１３がグループ化されおり、このグループに対して挿入する映像が３番、４番の映像がコアネットワーク２・７１１に接続している映像端末装置に表示する挿入映像である例を表している。これにより、映像表示端末装置７０３には１番の映像７０５と２番の映像７０６が表示され、それぞれの映像に対応する音声ストリームのオーディオオブジェクトが７０５、７０６の位置に設定される。映像端末装置７０４には１番の映像７０７と３番の映像７０８が表示され、それぞれの映像に対応する音声ストリームのオーディオオブジェクトが７０７、７０８の位置に設定される。映像表示端末装置７１３には１番の映像７１５と３番の映像７１６と４番の映像７１７が表示され、それぞれの映像に対応する音声ストリームのオーディオオブジェクトが７１５、７１６、７１７の位置に設定される。映像表示端末装置７１４には１番の映像７１８と４番の映像７１９が表示され、それぞれの映像に対応する音声ストリームのオーディオオブジェクトが７１８、７１９の位置に設定される。以上のように動作することで挿入する映像と音声のエリア制御、グループ制御が行われることでユーザ毎、エリア毎に固有な情報を効果的に提供することが可能になり、ユーザ体験が向上する。また、挿入する映像に関係する情報を、あらかじめ映像挿入装置６０４や、映像挿入装置６０４を経由して端末情報管理装置１０４やグループ管理装置６０２に登録しておくことで、ユーザの興味に関係がある映像、音声を挿入してもよい。また、挿入する映像、音声は映像ライブラリ１１６、音声ライブラリ１１９にあらかじめ蓄積されている映像、音声にかぎらず、映像サーバ１０１から送られてくる複合ストリームを利用した映像、音声にもとづいた映像、音声などの他の情報、一例として複合ストリームに含まれる映像、音声の一部を加工し、複合ストリームに含まれる特定の人物や構造物などの映像、音声を強調した映像、音声を挿入してもよい。

　また、グループ化されている挿入映像について、ユーザはユーザ入力装置１２７を利用し、ネットワークサービスインターフェース６０３経由で映像挿入装置に６０４に働きかけることで挿入映像と挿入音声の挿入方法を変えてもよい。この動作の一例を、図１０を使用して説明する。基地局装置１００１に接続している映像表示端末装置１００２と映像表示端末装置１００３がグループ化されており、１番の挿入映像と２番の挿入映像がグループ内で共有されているものとする。映像表示端末装置１００２では１番の映像を領域１００４に、２番の映像を領域１００５に表示し、映像表示端末装置１００３では１番の映像を領域１００６に、２番の映像を領域１００７に表示し、それぞれの領域に１つのオーディオオブジェクトを設定して映像に対応する音声を再生しているものとする。この状態を図１０（ａ）に示す。この状態で映像表示端末装置１００２のユーザがユーザ入力装置を操作して領域１００６に表示されている２番の映像の表示領域を領域１００８で示される大きさに変更する。この変更情報は映像表示端末装置１００２内のネットワークサービスインターフェース６０３を経由して映像挿入装置に送られ、映像表示端末装置１００２と映像表示端末装置１００３に対する挿入する映像と音声の設定を変更する。変更後の挿入映像の表示とオーディオオブジェクトの一例を図１０（ｂ）に示す。映像表示端末装置１００２と映像表示端末装置１００３に表示される２番の映像の表示領域はそれぞれ１００９と１０１０に変更される。また、映像２番に対するオーディオオブジェクトの数を増やして２つとし、表示領域１００９と１０１０の両端に位置するように設定する。これによりユーザにより操作された挿入映像であることが効果的にユーザに対して伝わり、ユーザ体験が向上する。

　（全実施形態共通）
　本発明に関わる装置で動作するプログラムは、本発明に関わる実施形態の機能を実現するように、Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ（ＣＰＵ）等を制御してコンピュータを機能させるプログラムであっても良い。プログラムあるいはプログラムによって取り扱われる情報は、一時的にＲａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ（ＲＡＭ）などの揮発性メモリあるいはフラッシュメモリなどの不揮発性メモリやＨａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ（ＨＤＤ）、あるいはその他の記憶装置システムに格納される。

　尚、本発明に関わる実施形態の機能を実現するためのプログラムをコンピュータが読み取り可能な記録媒体に記録しても良い。この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。ここでいう「コンピュータシステム」とは、装置に内蔵されたコンピュータシステムであって、オペレーティングシステムや周辺機器等のハードウェアを含むものとする。また、「コンピュータが読み取り可能な記録媒体」とは、半導体記録媒体、光記録媒体、磁気記録媒体、短時間動的にプログラムを保持する媒体、あるいはコンピュータが読み取り可能なその他の記録媒体であっても良い。

　また、上述した実施形態に用いた装置の各機能ブロック、または諸特徴は、電気回路、たとえば、集積回路あるいは複数の集積回路で実装または実行され得る。本明細書で述べられた機能を実行するように設計された電気回路は、汎用用途プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはその他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタロジック、ディスクリートハードウェア部品、またはこれらを組み合わせたものを含んでよい。汎用用途プロセッサは、マイクロプロセッサであってもよいし、従来型のプロセッサ、コントローラ、マイクロコントローラ、またはステートマシンであっても良い。前述した電気回路は、デジタル回路で構成されていてもよいし、アナログ回路で構成されていてもよい。また、半導体技術の進歩により現在の集積回路に代替する集積回路化の技術が出現した場合、本発明の一または複数の態様は当該技術による新たな集積回路を用いることも可能である。

　なお、本願発明は上述の実施形態に限定されるものではない。実施形態では、装置の一例を記載したが、本願発明は、これに限定されるものではなく、屋内外に設置される据え置き型、または非可動型の電子機器、たとえば、ＡＶ機器、オフィス機器、自動販売機、その他生活機器などの端末装置もしくは通信装置に適用出来る。

　以上、この発明の実施形態に関して図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、本発明は、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。また、上記各実施形態に記載された要素であり、同様の効果を奏する要素同士を置換した構成も含まれる。

　本発明は、映像挿入装置、映像表示端末装置に利用可能である。

Claims

　映像と音声を含むストリームに、１以上の所定の映像と所定の音声を挿入し、映像表示端末装置に挿入後のストリームを送信する映像挿入装置であって、
　前記ストリームに含まれる映像の表示範囲の一部である１以上の表示領域に、挿入する前記所定の映像の大きさと位置を合わせるスケーリング処理部と、
　挿入する前記所定の映像に対応する所定の音声をオーディオオブジェクトに変換し、前記オーディオオブジェクトの設定位置を前記表示領域に設定するオーディオオブジェクト位置調整部と、
　を含むことを特徴とする映像挿入装置。
　請求項１に記載の映像挿入装置であって、
　前記映像表示端末装置の端末情報を取得する端末インターフェース部をさらに備え、
　前記表示領域を、前記端末情報に基づいて設定することを特徴とする映像挿入装置。
　請求項１に記載の映像挿入装置であって、
　前記挿入後のストリームの送信先である映像表示端末装置を、エリアに関する情報とユーザグループに関する情報の少なくともいずれかに基づいてグループ化し、前記グループ化した映像表示端末装置に対して前記所定の映像と前記所定の音声を挿入することを特徴とする映像挿入装置。
　請求項３に記載の映像挿入装置であって、
　前記グループ化した映像表示端末装置に対して挿入した映像と音声に対し、少なくとも１つの挿入後のストリームを送信している前記映像表示端末装置から変更情報を受信したときに、前記複数のグループ化した映像表示端末装置に対して前記変更情報に基づいて前記表示領域と、前記所定の音声のオーディオオブジェクトの設定を変更することを特徴とする映像挿入装置。
　映像と音声の情報を含むストリームを受信し、映像と音声の再生を行う映像表示端末装置であって、
　前記映像表示端末装置が備える映像表示部の大きさに関する情報と、
　前記映像表示部と視聴者の距離に関する情報を含めた端末情報を、映像挿入装置に送ることを特徴とする映像表示端末装置。
　請求項５に記載の映像表示端末装置であって、
　前記端末情報に含める前記映像表示部の大きさの情報は、所定の種類に規格化されていることを特徴とする映像表示端末装置。
　請求項５に記載の映像表示端末装置であって、
　ユーザ入力装置をさらに備え、
　前記映像挿入装置によって挿入された映像に対する操作が前記ユーザ入力装置から入力されたときに、前記映像に対応する変更情報を前記映像挿入装置に送信することを特徴とする映像表示端末装置。