WO2022137324A1

WO2022137324A1 - 映像信号を合成する装置、方法及びプログラム

Info

Publication number: WO2022137324A1
Application number: PCT/JP2020/047863
Authority: WO
Inventors: 稔久藤原; 央也小野; 達也福井; 智彦池田; 亮太椎名
Original assignee: 日本電信電話株式会社
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2022-06-30
Also published as: JPWO2022137324A1

Abstract

本開示は、合成映像の出力までの遅延時間を短縮することを目的とする。　本開示は、映像合成装置が、非同期で入力された複数の映像信号を構成する入力フレーム同士の遅延時間を検出し、前記複数の映像信号を合成した出力フレームの遅延時間が最小となるように、前記複数の映像信号の入力フレームをそれぞれ選択し、選択した入力フレームを用いて、前記複数の映像信号を合成した出力フレームを生成する。

Description

映像信号を合成する装置、方法及びプログラム

　複数の映像信号から、画面を１つに合成し、出力する、映像合成システムに関する。

　近年、多くの映像デバイスが利用されている。このような多くの映像デバイスの映像には、多様な画素数（解像度）、フレームレート等が利用されている。この映像デバイスの映像信号は、規格によって、物理的な信号、コントロール信号等に差異があるものの、１画面をそのフレームレート分の１の時間を使って伝送する。

　これらの映像の利用方法には、テレビ会議など、複数のカメラをカメラの数よりも少ないモニタで表示するような形態がある。このような場合、複数の映像を、例えば１つの画面上に分割表示することや、ある映像画面中に、その他の映像画面縮小表示などをしてはめ込むことなどの、画面合成を行う。

　通常、映像信号のタイミングは同期されておらず、合成する他の映像信号のタイミングが異なることから、信号をメモリなどに一時的にバッファリングしてから、合成する。結果として、合成された画面の出力には遅延が発生する。

　遠隔地などでの合奏等をこのような画面合成を行うテレビ会議で行うことを想定すると、この合成に関わる遅延は、その実現性を大きく損なう。例えば、１秒間に１２０拍の曲（以下、１２０ＢＰＭ（Ｂｅａｔ　Ｐｅｒ　Ｍｉｎｕｔｅ））であれば、１拍の時間は、６０／１２０秒＝５００ミリ秒である。仮にこれを、５％の精度で合わせることが必要であるとすると、５００×０．０５＝２５ミリ秒以下にカメラで撮影して表示するまでの遅延を抑える必要がある。

　カメラで撮影して表示するまでには、実際には、合成に関わる処理以外に、カメラでの画像処理時間、モニタでの表示時間、伝送に関わる時間などの、その他の遅延も含む必要がある。結果として、従来技術では、遠隔地で相互に映像を見ながらの合奏等のタイミングが重視される用途での、協調作業は困難であった。

　そこで、低遅延要求が厳しい協調作業に対して、複数拠点などの複数の映像信号を合成するシステムで、非同期の映像信号の入力から、合成された映像信号の出力までの時間を低遅延化するシステムの提供が必要である。

ＶＥＳＡ　ａｎｄ　Ｉｎｄｕｓｔｒｙ　Ｓｔａｎｄａｒｄｓ　ａｎｄ　Ｇｕｉｄｅｌｉｎｅｓ　ｆｏｒ　Ｃｏｍｐｕｔｅｒ　Ｄｉｓｐｌａｙ　Ｍｏｎｉｔｏｒ　Ｔｉｍｉｎｇ　（ＤＭＴ），　Ｖｅｒｓｉｏｎ　１．０，　Ｒｅｖ．　１３，　Ｆｅｂｒｕａｒｙ　８，　２０１３

　本開示は、合成映像の出力までの遅延時間を短縮することを目的とする。

　本開示の装置は、複数の非同期の映像信号を合成して表示する装置において、入力された複数の映像信号の各々から出力映像の遅延時間が最小となる映像信号の組み合わせを選択して合成する。

　本開示の映像合成装置及び映像合成方法は、
　非同期で入力された複数の映像信号を構成する入力フレーム同士の遅延時間を検出し、
　前記複数の映像信号を合成した出力フレームの遅延時間が最小となるように、前記複数の映像信号の入力フレームをそれぞれ選択し、
　選択した入力フレームを用いて、前記複数の映像信号を合成した出力フレームを生成する。

　本開示の映像合成方法は、映像合成装置が、
　非同期で入力された複数の映像信号を構成する入力フレーム同士の遅延時間を検出し、
　前記複数の映像信号を合成した出力フレームの遅延時間が最小となるように、前記複数の映像信号の入力フレームをそれぞれ選択し、
　選択した入力フレームを用いて、前記複数の映像信号を合成した出力フレームを生成する。

　本開示のプログラムは、本開示に係る装置に備わる各機能部としてコンピュータを実現させるためのプログラムであり、本開示に係る装置が実行する方法に備わる各ステップをコンピュータに実行させるためのプログラムである。

　本開示は、合成映像の出力までの遅延時間を短縮することができる。

映像信号に含まれる画面の情報の一例を示す。画面の合成例を示す。本開示に関連する映像合成方法の一例を示す。本開示の映像合成方法の一例を示す。本開示の映像合成方法の一例を示す。本実施形態に係る映像合成装置の構成例を示す。本開示の映像合成方法の一例を示す。本開示の映像合成方法の一例を示す。

　以下、本開示の実施形態について、図面を参照しながら詳細に説明する。なお、本開示は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本開示は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。

　図１に、映像信号に含まれる画面の情報の一例を示す。画面の情報は、画面を横方向に１つの走査線２１毎に走査して、順次下の走査線２１を走査することで伝送される。この走査には、表示画面２４の他、ブランキング部分２２、また、ボーダ部分２３などのオーバヘッド情報／信号の走査を含む。ブランキング部分２２に、制御情報や音声情報など、映像情報以外の情報を含む場合もある。（例えば、非特許文献１、第３章参照。）

　図２に、映像信号の合成例を示す。本開示では、一例として、入力１～４の４つの映像信号が映像合成装置に入力され、映像合成装置が１つの映像信号に合成して出力する例を示す。映像信号では１画面をそのフレームレート分の１の時間を使って伝送する。例えば、１秒間に６０フレームの映像信号であれば、１／６０秒、すなわち約１６．７ミリ秒を掛けて１画面の映像信号を伝送する（以下、６０ｆｐｓ（Ｆｒａｍｅ　ｐｅｒ　Ｓｅｃｏｎｄ））。映像信号に含まれる各時点での１画面の情報を「フレーム」と称し、映像合成装置に入力される各映像信号の１画面の情報を「入力フレーム」、映像合成装置から出力される合成された１画面の情報を「出力フレーム」と称する。

　例えば、図３に示すように、映像合成装置が、全ての入力フレームを読み込んでから、１つの出力フレームに合成し、出力する場合を考える。この場合、各入力フレームのフレーム時間をＴ＿ｆ、合成処理時間をＴ＿ｐとすると、出力フレームの出力は、最初の入力１の入力フレームの入力時点から最大で、２Ｔ＿ｆ＋Ｔ＿ｐ遅れることとなる。

　本開示は、複数の非同期の映像を入力し、それらの画像を合成するシステムであって、合成後の遅延が最も低くなるよう、合成する入力フレームを選択することを特徴とする。

　ｋ番目の出力フレームを｛Ｏ，ｋフレーム｝とすると、その入力からの変換関数をｆ（ｉｎｐｕｔ１，ｉｎｐｕｔ２，…）と表す。また、入力タイミングが早い順に入力１，２，３，４とする。

　（第１の合成例）
　図４に、本開示の第１の合成例を示す。｛Ｏ，ｋ｝＝ｆ（｛１，ｋ｝，｛２，ｋ｝，｛３，ｋ｝，｛４，ｋ｝）の場合、図のように、入力｛１，ｋ｝，｛２，ｋ｝，｛３，ｋ｝は、遅延時間なしに入力され、｛４，ｋ｝は、他に比べて入力遅延時間がＤ＿ｉｎ４である。このとき、Ｏ，ｋフレームの遅延時間は、入力４に対して、Ｔ＿ｆ＋Ｔ＿ｐ、その他の入力１，２，３に対しては、Ｔ＿ｆ＋Ｔ＿ｐ＋Ｄ＿ｉｎ４である。この場合、４つの入力の遅延の平均値は、
（数１）
Ｔ＿ｆ＋Ｔ＿ｐ＋３Ｄ＿ｉｎ４／４　　　（１）
である。

　（第２の合成例）
　図５に、本開示の第２の合成例を示す。｛Ｏ，ｋ｝＝ｆ（｛１，ｋ＋１｝，｛２，ｋ＋１｝，｛３，ｋ＋１｝，｛４，ｋ｝）とした場合、入力｛４，ｋ｝から（Ｔ＿ｆ－Ｄ＿ｉｎ４）経過後に入力｛１，ｋ＋１｝，｛２，ｋ＋１｝，｛３，ｋ＋１｝が入力され、入力｛１，ｋ＋１｝，｛２，ｋ＋１｝，｛３，ｋ＋１｝の直後にＴ＿ｐで合成処理が行われる。この場合、Ｏ，ｋフレームの遅延時間は、入力１，２，３に対しては、Ｔ＿ｆ＋Ｔ＿ｐであり、入力４に対しては、２Ｔ＿ｆ＋Ｔ＿ｐ－Ｄ＿ｉｎ４である。この場合、４つの入力の遅延の平均値は、
（数２）
５Ｔ＿ｆ／４＋Ｔ＿ｐ－Ｄ＿ｉｎ４／４　　　（２）
である。

　ここで、Ｔ＿ｆ＜４Ｄ＿ｉｎ４であれば、式（１）の合成例より式（２）の合成例の方が平均遅延時間が短くなる。このように入力フレームの遅延時間量に応じて、出力の元となる入力フレームの位置（時間）の組み合わせを変えることで、平均値を最小とする組み合わせが存在し、その最小となる組み合わせで出力フレーム構成することで、合成の遅延を最小化することが可能である。

　つまり、（Ｏ，ｋ）に対して
　ｆ（｛１，ｋ｝，｛２，ｋ｝，｛３，ｋ｝，｛４，ｋ｝）
　ｆ（｛１，ｋ＋１｝，｛２，ｋ｝，｛３，ｋ｝，｛４，ｋ｝）
　ｆ（｛１，ｋ＋１｝，｛２，ｋ＋１｝，｛３，ｋ｝，｛４，ｋ｝）
　ｆ（｛１，ｋ＋１｝，｛２，ｋ＋１｝，｛３，ｋ＋１｝，｛４，ｋ｝）
の組み合わせでの遅延時間を計算し、そのうちの遅延時間の平均値が最小となる入力フレームの組み合わせを、出力の組み合わせに選択する。

　入力フレームの組み合わせは、遅延時間の平均値が最小となる組み合わせに限らず、遅延時間の最大値が最小となる組み合わせであってもよい。また、一部の入力フレームに対してのみ低遅延性を要求する等の場合、全入力フレームのうち、一部の入力フレームの遅延時間の平均値が最小となる組み合わせや、一部の入力フレームの遅延時間の最大値が最小となる組み合わせであってもよい。本実施形態では４つの映像信号の入力フレームを合成する例を示したが、これは任意のＮ個の映像信号の入力フレームで適用できる。また、図４及び図５では、理解が容易になるよう、ｋ番目及びｋ＋１番目のフレーム番号を用いたが、本開示で前提とする映像信号は非同期であり、フレーム番号や各フレームの入力タイミングは異なる。

　図６に、本実施形態に係る映像合成装置の構成例を示す。本実施形態に係る映像合成装置１０は、検出部１０１、クロスバスイッチ１０２、アップダウンコンバータ１０３、バッファ１０４、画素合成部１０５を備える。図は４入力１出力であるが、任意の数Ｎの入出力でも構わない。

　１０１は、Ｎ個の入力フレームに対して、フレーム時間内の入力順と入力の遅延時間を検出する機能部である。例えば、図４及び図５に示す入力４の入力遅延時間がＤ＿ｉｎ４を検出する。
　１０２は、クロスバスイッチであり、１０１からの入力フレームの順序の検出結果順に並べ替え出力する機能である。例えば、図４及び図５に示す入力１、２、３、４の順に、かつｋ番目、ｋ＋１番目の順に並べて出力する。
　１０３は画素数を任意の大きさに拡大縮小を行う、アップダウンコンバータである。例えば、入力１の画素数を、図２に示す画面の大きさに整合するよう拡大又は縮小する。
　１０２と１０３は入力（ａ，ｂ，ｃ，ｄ，…）に対して逆に接続しても構わない。すなわち入力ａ，ｂ，ｃ，ｄから１０３で拡大縮小を行い、その後１０２で入力１、２、３、４の順に並べ替え出力しても構わない。
　１０４は、各入力フレームを格納するバッファである。１０３または１０２の入力をバッファリングして、任意の順序で出力することができる。
　１０５は、画素合成部である。画素合成部１０５は、出力の全体画面のうち、１０１からの遅延時間を元に遅延を最小化する組み合わせの入力に対するフレーム番号を選択し、１０４からデータを読み出し、合成して出力フレームを生成し、出力する。これにより、図２に示すような、４つの映像信号が合成された映像が画面に表示される。１０５は、任意のコントロール信号を画面のブランキング部分２２に付加しても構わない。

　本開示の装置は、コンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。

　上述の実施形態では４入力、４分割１画面の例を示したが、本開示はこれに限らず、任意の入力に適用できる。また上述の実施形態では、入力１～４のフレームレートすなわちフレーム時間Ｔ＿ｆが同じ例を示したが、本開示はフレーム時間Ｔ＿ｆが異なる入力１～４に対しても適用可能である。

　例えば、出力フレームよりフレームレートが高い入力１の入力フレームについては、図７に示すように、不要な入力フレームを間引けばよい。不要な入力フレームは、例えば、入力完了時点Ｔ_１１及びＴ_１２を基準にした場合に、出力フレームの遅延時間が長くなる入力フレーム、例えばｋ－１番目のフレームである。入力完了時点は、入力フレームの先頭などに記載されているフレーム長を用いて予測されたタイミングであってもよい。

　一方、出力フレームよりフレームレートが低い入力１の入力フレームについても、図８に示すように、出力フレームＯ，ｋには、入力完了時点Ｔ_１１及びＴ_１２を基準に出力フレームの遅延時間が短くなる入力フレーム（｛１，ｋ｝，｛２，ｋ｝，｛３，ｋ｝，｛４，ｋ｝）を選択することができる。不足するフレームは時間的に過去のフレームを利用して補完することができる。例えば、出力フレームＯ，ｋ＋１には、入力フレーム（｛１，ｋ｝，｛２，ｋ＋１｝，｛３，ｋ＋１｝，｛４，ｋ＋１｝）を選択することができる。このように、本開示は、ｋ番目の入力フレームをｋ番目及びｋ＋１番目などの連続する複数の出力フレームに用いてもよいし、ｋ番目及びｋ＋１番目などの連続する複数の入力フレームを１つのｋ番目の出力フレームに用いてもよい。

　また、遅延時間の最小化にあたっては、上記、複数の出力フレームに関して、入力の組み合わせの最適化を行っても良い。つまり、上記の例では、出力フレームＯ，ｋに関してのみ入力の組み合わせが最適化されているが、出力フレームＯ，ｋ＋１については必ずしも最適化されているとは言えない。そこで、例えば、出力フレームＯ，ｋと出力フレームＯ，ｋ＋１などの複数の出力フレームに対して、平均や最大などの遅延値を最小化する最適化を行うことができる。

（本開示の効果）
　本開示は、非同期の映像入力信号を、出力の遅延時間を最小化するように入力フレームの組み合わせを選び、合成することで、合成後の出力までの遅延時間を短縮することができる。これにより、本開示は、複数拠点等の複数画面を合成するシステムで低遅延要求が厳しい協調作業が可能となる。

　例として、本開示の効果を、図４および図５に示した入力フレームタイミングの場合で示す。例えば、６０ｆｐｓ（Ｔ＿ｆ＝約１６．７ミリ秒）、Ｔ＿ｐ＝０とし、また、Ｄ＿ｉｎ４＝０．７Ｔ＿ｆ，０．８Ｔ＿ｆ，０．９Ｔ＿ｆのとき、本開示適用前の式（１）の値はそれぞれ２５．４ミリ秒、２５．７ミリ秒、２７．９ミリ秒となり２５ミリ秒を超過するが、本開示適用後の式（２）はそれぞれ１７．９ミリ秒、１７．５ミリ秒、１７．１ミリ秒となり２５ミリ秒を下回る。このため、本開示は、時間的に連続する入力フレームのうちの適切な入力フレームの組み合わせで出力フレームを生成することで、合奏のような低遅延要求が厳しい協調作業であっても、複数拠点の映像を合成して表示するシステムを提供することができる。

　本開示は、映像コンテンツやゲームコンテンツを配信する情報通信産業のほか、映像制作に関わる映画、広告、ゲーム産業に適用することができる。

１０：映像合成装置
２１：走査線
２２：ブランキング部分
２３：ボーダ部分
２４：表示画面
１０１：検出部
１０２：クロスバスイッチ
１０３：アップダウンコンバータ
１０４：バッファ
１０５：画素合成部

Claims

　非同期で入力された複数の映像信号を構成する入力フレーム同士の遅延時間を検出し、
　前記複数の映像信号を合成した出力フレームの遅延時間が最小となるように、前記複数の映像信号の入力フレームをそれぞれ選択し、
　選択した入力フレームを用いて、前記複数の映像信号を合成した出力フレームを生成する、
　映像合成装置。
　前記複数の映像信号を合成した出力フレームの遅延時間の平均値を算出し、
　前記平均値が最小となるように、前記複数の映像信号の入力フレームをそれぞれ選択する、
　請求項１に記載の映像合成装置。
　前記複数の映像信号を合成した出力フレームの遅延時間の最大値を算出し、
　前記最大値が最小となるように、前記複数の映像信号の入力フレームをそれぞれ選択する、
　請求項１に記載の映像合成装置。
　入力フレーム同士の遅延時間を、入力フレームの入力完了時点を基準に検出する、
　請求項１から３のいずれかに記載の映像合成装置。
　映像合成装置が、
　非同期で入力された複数の映像信号を構成する入力フレーム同士の遅延時間を検出し、
　前記複数の映像信号を合成した出力フレームの遅延時間が最小となるように、前記複数の映像信号の入力フレームをそれぞれ選択し、
　選択した入力フレームを用いて、前記複数の映像信号を合成した出力フレームを生成する、
　映像合成方法。
　請求項１から４のいずれかに記載の映像合成装置に備わる各機能部としてコンピュータを実現させるためのプログラム。