WO2023013072A1

WO2023013072A1 - 映像信号を合成する装置、方法及びプログラム

Info

Publication number: WO2023013072A1
Application number: PCT/JP2021/029431
Authority: WO
Inventors: 稔久藤原; 達也福井; 亮太椎名; 央也小野
Original assignee: 日本電信電話株式会社
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2023-02-09
Also published as: JPWO2023013072A1

Abstract

本開示は、複数の非同期の映像を入力し、それらの画像を合成する際、特定の映像入力の出力までの遅延時間を短縮することを目的とする。　本開示は、非同期で入力された複数の映像信号を、１つの画面に表示される映像信号に合成する装置であって、前記複数の映像信号のうちのピボット入力の映像信号の遅延が短くなるように、前記複数の映像信号を合成する、装置である。

Description

映像信号を合成する装置、方法及びプログラム

　複数の映像入力信号から、画面を１つに合成し、出力する、映像合成技術に関する。

　近年、多くの映像デバイスが利用されている。このような多くの映像デバイスの映像には、多様な画素数（解像度）、フレームレート等が利用されている。この映像デバイスの映像信号は、規格によって、物理的な信号、コントロール信号等に差異があるものの、１画面をそのフレームレート分の１の時間を使って伝送する。例えば、１秒間に６０フレームの映像信号であれば、１／６０秒、すなわち約１６．８ミリ秒を掛けて１画面の映像を伝送する（以下、６０ｆｐｓ（Ｆｒａｍｅ　ｐｅｒ　Ｓｅｃｏｎｄ））。

　これらの映像の利用方法には、テレビ会議など、複数のカメラをカメラの数よりも少ないモニタで表示するような形態がある。このよう場合、複数の映像を、例えば１つの画面上に分割表示することや、ある映像画面中に、その他の映像画面縮小表示などをしてはめ込むことなどの、画面合成を行う。

　通常、映像信号のタイミングは同期されておらず、合成する他の映像信号のタイミングが異なることから、信号をメモリなどに一時的にバッファリングしてから、合成する。結果として、合成画面の出力には遅延が発生する。

　遠隔地などでの合奏等をこのような画面合成を行うテレビ会議で行うことを想定すると、この合成に関わる遅延は、その実現性を大きく損なう。例えば、１秒間に１２０拍の曲（以下、１２０ＢＰＭ（Ｂｅａｔ　Ｐｅｒ　Ｍｉｎｕｔｅ））であれば、１拍の時間は、６０／１２０秒＝５００ミリ秒である。仮にこれを、５％の精度で合わせることが必要であるとすると、５００×０．０５＝２５ミリ秒以下にカメラで撮影して表示するまでの遅延を抑える必要がある。

　カメラで撮影して表示するまでには、実際には、合成に関わる処理以外に、カメラでの画像処理時間、モニタでの表示時間、伝送に関わる時間などの、その他の遅延も含む必要がある。結果として、従来技術では、遠隔地で相互に映像を見ながらの合奏等のタイミングが重視される用途での、協調作業は困難である。

　また、指揮者などの、タイミング、テンポやアーティキュレーションの指示者が居る合奏等においては、特にその指示者の映像は低遅延とする必要がある。

　そこで、低遅延要求が厳しい協調作業に対して、複数拠点などの複数画面を合成するシステムで、非同期映像の映像入力から、その合成映像出力までの時間を低遅延化するシステムの提供が必要である。特に、特定の映像入力の合成映像出力までの時間は最も低遅延化するシステムの提供が必要である。

ＶＥＳＡ　ａｎｄ　Ｉｎｄｕｓｔｒｙ　Ｓｔａｎｄａｒｄｓ　ａｎｄ　Ｇｕｉｄｅｌｉｎｅｓ　ｆｏｒ　Ｃｏｍｐｕｔｅｒ　Ｄｉｓｐｌａｙ　Ｍｏｎｉｔｏｒ　Ｔｉｍｉｎｇ　（ＤＭＴ），　Ｖｅｒｓｉｏｎ　１．０，　Ｒｅｖ．　１３，　Ｆｅｂｒｕａｒｙ　８，　２０１３

　本開示は、複数の非同期の映像を入力し、それらの画像を合成する際、特定の映像入力の出力までの遅延時間を短縮することを目的とする。

　本開示の装置及び方法は、
　非同期で入力された複数の映像信号を、１つの画面に表示される映像信号に合成する装置であって、
　前記複数の映像信号のうちの設定されたピボット入力の映像信号の遅延が短くなるように、前記複数の映像信号を合成する。

　本開示のプログラムは、本開示に係る装置に備わる各機能部としてコンピュータを実現させるためのプログラムであり、本開示に係る装置が実行する方法に備わる各ステップをコンピュータに実行させるためのプログラムである。

　本開示によれば、複数の非同期の映像を入力し、それらの画像を合成する際、特定の映像入力の出力までの遅延時間を短縮することができる。

映像信号に含まれる画面の情報の一例を示す。本開示のシステム構成例を示す。４つの入力フレームから１つの出力フレームへの合成例を示す。サブ画面グループの一例を示す。本開示の映像合成方法の一例を示す。本開示の映像合成方法の一例を示す。映像合成装置の構成例を示す。

　以下、本開示の実施形態について、図面を参照しながら詳細に説明する。なお、本開示は、以下に示す実施形態に限定されるものではない。これらの実施の例は例示に過ぎず、本開示は当業者の知識に基づいて種々の変更、改良を施した形態で実施することができる。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。

　図１に、映像信号に含まれる画面の情報の一例を示す。画面の情報は、画面を横方向に１つの走査線２１毎に走査して、順次下の走査線２１を走査することで伝送される。この走査には、表示画面２４の他、ブランキング部分２２、また、ボーダ部分２３などのオーバヘッド情報／信号を含む。ブランキング部分２２に、制御情報や音声情報など、映像情報以外の情報を含む場合もある。

　図２に、本開示のシステム構成例を示す。本開示では、一例として、４つの映像信号Ｖ１～Ｖ４が映像合成装置１０に入力され、映像合成装置１０が１つの画面２０に表示される映像信号に合成して出力する例を示す。映像信号では１画面をそのフレームレート分の１の時間を使って伝送する。例えば、１秒間に６０フレームの映像信号であれば、１／６０秒、すなわち約１６．７ミリ秒を掛けて１画面の映像信号を伝送する（以下、６０ｆｐｓ（Ｆｒａｍｅ　ｐｅｒ　Ｓｅｃｏｎｄ））。映像信号に含まれる各時点での１画面の情報を「フレーム」と称し、映像合成装置１０に入力される各映像信号の１画面の情報を「入力フレーム」、映像合成装置１０から出力される合成された１画面の情報を「出力フレーム」と称する。

　図３に、４つの異なるタイミングの映像を入力とし、１画面に合成して出力する例を図に示す。映像合成装置１０が、全ての入力映像画面を読み込んでから、合成し、出力する形態の場合を考える。この場合、フレーム時間をＴ＿ｆ、合成処理時間をＴ＿ｐとすると、出力フレームは、最初の入力フレームの入力時点から最大で、２Ｔ＿ｆ＋Ｔ＿ｐ遅れることとなる。例えば、６０ｆｐｓの映像を考えると、２フレーム時間以上、すなわち３３．３ミリ秒以上の遅延が合成後の映像には、含まれる可能性があるということである。

　本開示では、分割した画面のうち同一の走査線上に配置されている横方向の画面を１のグループとし、そのグループを「サブ画面グループ」と称する。例えば、映像合成装置１０が入力１～４の４つの映像信号を合成する場合、図４に示すように、横方向に並んでいるサブ画面Ｄ１－１及びＤ１－２をサブ画面グループＧ１とし、横方向に並んでいるサブ画面Ｄ２－１及びＤ２－２をサブ画面グループＧ２とする。つまり、出力フレームのデータは、上部に配置されているサブ画面グループＧ１から先に出力され、続いてサブ画面グループＧ２が出力される。

　また本開示では、入力から出力までの遅延を最も短くすべき入力（以下、「ピボット入力」と呼ぶ。）を設定する。本開示は、複数の非同期の映像を入力し、それらの画像を合成するシステムであって、このピボット入力を中心として、画面の配置、出力タイミングを最適化する。

　本開示では、入力フレームの入力完了を待つことなく、順次出力フレームへデータを出力することができる。つまり、オーバヘッドを除けば、入力から出力までの遅延を最も短く最も短くできるのは、入力フレームの入力完了と、その入力が帰属するサブグループの画面の出力完了の時刻が揃うときである。

　具体的には、本開示では、ピボット入力が出力されるまでの遅延が短くなるよう、ピボット入力のサブ画面グループを選択する。ピボット入力が出力される同一のサブ画面グループ内でのサブ画像は任意であるが、本開示では、入力タイミングが最も遅いタイミングとなるようピボット入力を配置する例を示す。

　ピボット入力の出力先のサブ画面グループを決定したのち、ピボット入力以外の入力のサブ画面グループを選択する。このとき、この際、ピボット入力以外の入力について、その出力までの平均遅延や、最大遅延を最小化するよう、サブ画面グループの帰属と、入力のフレーム順序を選択する。

　以下、図５及び図６を参照しながら、入力ａがピボット入力の場合で、また合成画面を４分割として、上２つのサブ画面Ｄ１－１及びＤ１－２をサブ画面グループＧ１、下２つのサブ画面Ｄ２－１及びＤ２－２をサブ画面グループＧ２とする例について説明する。

　例えば、ピボット入力である入力ａをサブ画面グループＧ２への出力とし、その出力を最短とすると、処理オーバヘッドを除いた場合、入力ａの入力完了時にサブ画面グループＧ２の出力が完了するよう合成出力する。例えば、入力ａのＫ＋１フレームの入力完了に合うように、サブ画面グループＧ２の出力を行う。

　サブ画面グループＧ２への入力ａ以外の入力ｂ、ｃ及びｄは、入力ａのＫ＋１フレームより早く入力が完了しているものを選ぶ。図５及び図６の例では、入力ｂのＫ以前のフレーム、入力ｃのＫ以前のフレーム、入力ｄのＫ以前のフレームが選択可能である。

　ここで、ピボット入力が属するサブ画面グループ以外のサブ画面グループの入力は、ピボット入力が属するサブ画面グループＧ２の出力を最低遅延で出力できるタイミングを基準として、出力すべきサブ画面グループの出力に間に合う入力および入力フレームを選択する。

　例えば、入力ａのＫ＋１と最も入力遅延差の少ない入力ｄのＫフレームをサブ画面グループＧ２に選択することができる。この場合、サブ画面グループＧ１への入力は、入力ｂ，入力ｃとなる。サブ画面グループＧ１への入力は、図５では、それぞれＫ番目のフレームを選択できる。一方、図６では、入力ｃのＫフレームの入力完了が、サブ画面グループＧ１の出力完了より後になる。このような場合、映像合成装置１０は、Ｋ－１フレームの入力ｃを選択し、サブ画面グループＧ１を出力する。

　図５及び図６では、入力ａをピボット入力に設定し、ピボット入力をサブ画面グループＧ２に出力する場合の例を示したが、本開示はこれに限定されない。入力ａをピボット入力に設定し、ピボット入力をサブ画面グループＧ２に出力する場合における、入力ｂ、ｃ及びｄのサブ画面の設定は、入力ｂ、ｃ及びｄの平均遅延や最大遅延を最小化する組み合わせを選択してもよい。例えば、ピボット入力に次いで遅延を最小化すべき入力の遅延を最小化するなどの組み合わせも選ぶことができる。

　また、ピボット入力を出力するサブ画面グループは、画面の下に表示されるサブ画面グループＧ２に限らず、サブ画面グループＧ１の出力とすることもできる。ピボット入力を出力するサブ画面を含め、ピボット入力を含む各入力の選択可能なサブ画面グループと、そのフレームをすべて評価し、各入力が出力されるまでの平均遅延や最大遅延を最小化する組み合わせの出力とすることができる。

　例えば、映像合成装置１０は、ピボット入力の出力をサブ画面グループＧ２に設定した場合の入力ａ～ｄの全ての平均遅延と、ピボット入力の出力をサブ画面グループＧ１に設定した場合の入力ａ～ｄの全ての平均遅延と、を比較し、ピボット入力の出力をサブ画面グループＧ１に設定した方が入力ａ～ｄの全ての平均遅延が小さい方場合、ピボット入力の出力をサブ画面グループＧ１に設定する。

　図７に、本実施形態に係る映像合成装置１０の構成例を示す。本実施形態に係る映像合成装置１０は、検出部１０１、クロスバスイッチ１０２、アップダウンコンバータ１０３、バッファ１０４、画素合成部１０５を備える。図は４入力１出力であるが、任意の数Ｎの入出力でも構わない。また、画面は等分割でなくても構わない。

　１０１は、Ｎ個の入力に対して、フレーム時間内の入力順を検出する機能部である。
　１０２は、クロスバスイッチであり、１０１からの入力順序の検出結果順に並べ替え出力する機能である。
　１０３は画素数を任意の大きさに拡大縮小を行う、アップダウンコンバータである。
　１０２と１０３は入力（ａ，ｂ，ｃ，ｄ，…）に対して逆に接続しても構わない。すなわち入力ａ，ｂ，ｃ，ｄから１０３で拡大縮小を行い、その後１０２、入力順に並べ替え出力しても構わない。
　１０４は、バッファである。１０３または１０２の入力をバッファリングして、任意の順序で出力することができる。
　１０５は、画素合成部である。出力の全体画面のうち、出力する順に１０４から画素データを読み出し、合成して出力する。この合成及び出力するサブ画面は、前記による。１０５は、任意のコントロール信号を画面のブランキング部に付加しても構わない。

　本開示の映像合成装置１０は、コンピュータとプログラムによっても実現でき、プログラムを記録媒体に記録することも、ネットワークを通して提供することも可能である。

　なお、ピボット入力は、任意に設定可能であり、例えば、外部からの指示によって設定されてもよいし、映像信号に含まれている情報に基づいて設定してもよい。例えば、映像信号に含まれている優先度を示すフラグに基づいて設定してもよいし、画像処理の結果に基づいて設定してもよい。例えば、画像処理によって指揮者を判定し、指揮者が大きく映されている映像をピボット入力に設定する。また、画像処理によって動きの激しい人物などの対象を判定し、動きの激しい対象の映されている映像をピボット入力に設定する。

　ピボット入力は、任意のタイミングで切り替え可能である。例えば、画像処理によって動きの激しい対象が変化した場合は、新たに動きが激しくなった対象にピボット入力を切り替える。これにより、遅延を最も短くすべき入力に合わせて出力を調整することができる。

（本開示の効果）
　本開示は、特定の入力に対しての合成後の出力までの遅延時間を最短化しながら、且つ、他の入力に対しての合成後の出力までの遅延時間を短縮できる。これにより、複数拠点等の複数画面を合成するシステムで低遅延要求が厳しく且つ特に特定の入力に対する低遅延要求がより厳しい協調作業が可能となる。

（本開示のポイント）
　複数拠点の映像を合成して表示するシステムで、合奏のような低遅延要求が厳しい協調作業且つ指揮者のようなその中でも特に低遅延要求が厳しい条件では、１の入力に対する出力までの合成処理の低遅延化を最も必要としつつ、他の入力に対しても合成処理の低遅延化が必要である。
　本開示は、複数の非同期の映像を入力し、それらの画像を合成するシステムであって、同一サブ画面グループ内で、入力タイミングが最も遅いタイミングとなるようピボット入力を配置することで、合成後の出力までの遅延時間を短縮することができる。これにより、複数拠点等の複数画面を合成するシステムで低遅延要求が厳しい協調作業が可能となる。

　本開示は情報通信産業に適用することができる。

１０：映像合成装置
２０：画面
２１：走査線
２２：ブランキング部分
２３：ボーダ部分
２４：表示画面
１０１：検出部
１０２：クロスバスイッチ
１０３：アップダウンコンバータ
１０４：バッファ
１０５：画素合成部

Claims

　非同期で入力された複数の映像信号を、１つの画面に表示される映像信号に合成する装置であって、
　前記複数の映像信号のうちの設定されたピボット入力の映像信号の遅延が短くなるように、前記複数の映像信号を合成する、
　装置。
　前記ピボット入力の映像信号に合成される前記ピボット入力以外の映像信号は、前記ピボット入力よりも前に入力された映像信号である、
　請求項１に記載の装置。
　前記１つの画面の一部を構成するサブ画面グループごとに、前記複数の映像信号に含まれる映像信号を出力し、
　前記ピボット入力の映像信号を、前記ピボット入力の遅延が短くなるようなサブ画面グループに出力する、
　請求項１又は２に記載の装置。
　前記サブ画面グループは、画面の同一の走査線上に配置されているサブ画面の集合である、
　請求項３に記載の装置。
　前記複数の映像信号の遅延が最小になるように、前記複数の映像信号の出力されるサブ画面を決定する、
　請求項１から４のいずれかに記載の装置。
　非同期で入力された複数の映像信号を、１つの画面に表示される映像信号に合成する方法であって、
　前記複数の映像信号のうちの設定されたピボット入力の映像信号の遅延が短くなるように、前記複数の映像信号を合成する、
　方法。
　請求項１から５のいずれかに記載の装置に備わる各機能部としてコンピュータを実現させるためのプログラム。