WO2022153476A1

WO2022153476A1 - 映像処理装置、映像処理方法、及び、映像処理プログラム

Info

Publication number: WO2022153476A1
Application number: PCT/JP2021/001198
Authority: WO
Inventors: 弘員柿沼; 翔大山田; 秀信長田; 浩太日高
Original assignee: 日本電信電話株式会社
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2022-07-21
Also published as: JPWO2022153476A1; US20240119600A1

Abstract

映像処理装置１は、入力画像の画素が前景か背景を判定する前景領域推定部１０３と、前景と背景が切り替わった対象画素について、画素値の時間変化から前景内又は背景内での切り替わりか否かを判別可能なルックアップテーブルを用いて、前記前景と背景の切り替わりが前景内又は背景内の色変化であるか否かを判定し、前記前景と背景の切り替わりが前景内又は背景内の色変化である場合、前記対象画素に対して行われた前景か背景かの判定結果を補正する明滅補正部１５３と、を備える。

Description

映像処理装置、映像処理方法、及び、映像処理プログラム

　本発明は、映像処理装置、映像処理方法、及び、映像処理プログラムに関する。

　映像から被写体を抽出する技術が知られている（特許文献１参照）。被写体の抽出は、入力映像の各画素を前景又は背景に分類して前景ラベル又は背景ラベルを付与し、前景ラベルが付与された画素のみを抽出することにより行う。このとき、映像処理装置は、入力映像の各画素値を所定の色モデルと比較して前景又は背景である確率又はスコアを計算し、当該確率又はスコアの大きさを所定の閾値と比較して、その比較結果を基に全ての画素に対して前景ラベル又は背景ラベルを付与する処理を実行する。

特許第６７１５２８９号公報

　入力映像とは連続して入力される一連の静止画像（以下、入力画像）の集合体であり、各入力画像について上記比較処理が実行されるため、画素値並びにラベル付与時に用いる閾値によっては、所定時刻の入力画像において前景ラベルが付与された画素が次時刻の入力画像においては背景ラベルが付与される等、時刻毎に入力画像のラベル種別が変化する場合がある。このとき、前景ラベルが付与された画素のみを抽出した画像が被写体抽出画像となるが、複数の被写体抽出画像を連結して得られる被写体抽出映像を視聴者が観察した場合、画素に対するラベル種別の変化（被写体内での前景と背景の切り替わり）がチラつきとして現れ、主観品質が低下してしまうという課題があった。

　本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、映像のチラつきを改善可能な技術を提供することである。

　本発明の一態様の映像処理装置は、入力画像の画素が前景か背景を判定する判定部と、前景と背景が切り替わった対象画素について、画素値の時間変化から前景内又は背景内での切り替わりか否かを判別可能なルックアップテーブルを用いて、前記前景と背景の切り替わりが前景内又は背景内の色変化であるか否かを判定し、前記前景と背景の切り替わりが前景内又は背景内の色変化である場合、前記対象画素に対して行われた前景か背景かの判定結果を補正する補正部と、を備える。

　本発明の一態様の映像処理方法は、入力画像の画素が前景か背景を判定するステップと、前景と背景が切り替わった対象画素について、画素値の時間変化から前景内又は背景内での切り替わりか否かを判別可能なルックアップテーブルを用いて、前記前景と背景の切り替わりが前景内又は背景内の色変化であるか否かを判定し、前記前景と背景の切り替わりが前景内又は背景内の色変化である場合、前記対象画素に対して行われた前景か背景かの判定結果を補正するステップと、を行う。

　本発明の一態様は、上記映像処理装置としてコンピュータを機能させる映像処理プログラムである。

　本発明によれば、映像のチラつきを抑制可能な技術を提供できる。

図１は、映像処理装置の基本構成を示すブロック図である。図２は、映像処理装置の基本動作を示すフロー図である。図３は、映像処理装置の具体的構成を示すブロック図である。図４は、推定ＮＮの学習処理を示すイメージ図である。図５は、補正ＮＮの学習処理を示すイメージ図である。図６は、映像処理装置の動作例を示すフロー図である。図７は、映像処理装置の動作例を示すフロー図である。図８は、映像処理装置のハードウェア構成を示すブロック図である。

　以下、図面を参照して、本発明の実施形態を説明する。図面の記載において同一部分には同一符号を付し説明を省略する。

　［発明の概要］
　本発明は、時間変化によりチラつきが現れる画素に対して、当該チラつきが同一領域内（前景内又は背景内）で現れているのか否かを判定し、同一領域内で現れている場合には、付与したラベル種別を補正する。具体的には、特許文献１に記載された前景か背景かを判別するＬＵＴ（ルックアップテーブル）の参照に加えて、画素値の時間変化から前景内又は背景内でのチラつきか否かを判別するＬＵＴを参照することにより、これを実現する。但し、特許文献１のＬＵＴは前景か背景かを判別する一手段にすぎず、本発明においては、既存の背景差分手法等、任意の前景背景判別手段を使用可能である。

　［映像処理装置の基本構成］
　図１は、本実施形態に係る映像処理装置１の基本構成を示すブロック図である。当該映像処理装置１は、画像入力部１０１と、前景領域推定部１０３と、明滅補正部１５３と、画像出力部１０５と、を備える。画像入力部１０１、前景領域推定部１０３、及び、画像出力部１０５は、特許文献１に記載された機能と同様の機能を備える。

　画像入力部１０１は、映像処理装置１に入力された入力映像から、当該入力映像を構成する静止画像を入力画像として取得する機能を備える。画像入力部１０１は、ユーザにより予め作成された背景用の背景画像を取得する機能を備える。

　前景領域推定部（判定部）１０３は、入力画像と背景画像の同座標で対になった各画素の組み合わせに対して、前景か背景かを判別可能な特許文献１のＬＵＴ（以下、推定ＬＵＴ）を参照し、入力画像の画素が前景か背景かを判定する機能を備える。

　明滅補正部（補正部）１５３は、前景と背景が切り替わった対象画素についてのみ、１フレーム前の入力画像と現在フレームの入力画像の同座標で対になった各画素の組み合わせに対して、画素値の時間変化から前景内又は背景内でのチラつき（同一領域内での前景と背景の切り替わり）か否かを判別可能なＬＵＴ（以下、補正ＬＵＴ）を参照し、前景と背景の切り替わりが、前景内若しくは背景内の色変化であるか、又は、前景と背景が切り替わる色変化であるかを判定し、前景内若しくは背景内の色変化である場合に、上記対象画素に対して行われた前景か背景かの判定結果を補正する機能を備える。

　画像出力部１０５は、前景と判定された画素のみを被写体抽出画像とし、複数の被写体抽出画像を連結して得られる映像を被写体抽出映像としてディスプレイに出力する機能を備える。

　［映像処理装置の基本動作］
　図２は、映像処理装置１の基本動作を示すフロー図である。

　ステップＳ１；
　まず、画像入力部１０１は、映像処理装置１に入力された入力映像から入力画像を取得し、別途作成された背景画像を取得する。

　ステップＳ２；
　次に、前景領域推定部１０３は、入力画像と背景画像の同座標で対になった各画素の組み合わせに対して推定ＬＵＴを参照し、当該推定ＬＵＴより入力画像の各画素が前景か背景かをそれぞれ判定し、当該判定結果に基づき各画素に対して前景ラベル又は背景ラベルを付与する。

　ステップＳ３；
　次に、明滅補正部１５３は、現在フレームの入力画像を取得し、当該現在フレームの入力画像の各画素に対して付与されたラベル種別を取得する。つまり、明滅補正部１５３は、ステップＳ１で画像入力部１０１が取得した入力画像を取得し、ステップＳ２で前景領域推定部１０３が付与したラベル種別を取得する。

　ステップＳ４；
　次に、明滅補正部１５３は、１フレーム前の入力画像を取得し、当該１フレーム前の入力画像の各画素に対して付与されていたラベル種別を取得する。

　ステップＳ５；
　次に、明滅補正部１５３は、１フレーム前の入力画像と現在フレームの入力画像の同座標で対になった各画素でラベル種別が切り替わったか否かを判定する。そして、明滅補正部１５３は、前景ラベルと背景ラベルが切り替わった画素についてのみ、１フレーム前の入力画像と現在フレームの入力画像の同座標で対になった各画素の組み合わせに対して補正ＬＵＴを参照し、当該推定ＬＵＴより前景ラベルと背景ラベルの切り替わりが同一種別のラベル内の色変化であるかを判定し、同一種別のラベル内の色変化である場合に、ステップＳ２で付与していたラベル種別を変更する。例えば、前景ラベルから背景ラベルへ切り替わっていた場合、明滅補正部１５３は、当該背景ラベルを前景ラベルに変更する。

　ステップＳ６；
　最後に、画像出力部１０５は、前景と判定された画素のみを被写体抽出画像としてディスプレイに出力する。

　［映像処理装置の具体例］
　図３は、図１に示した映像処理装置１の基本構成を、特許文献１の映像処理装置に適用した構成例を示すブロック図である。当該映像処理装置１は、画像処理部１００と、撮像部２００と、表示部３００と、画像編集部４００と、を備える。

　画像処理部１００は、画像入力部１０１と、色補正部１４１と、量子化画像生成部１０２と、前景領域推定部１０３と、境界補正部１２１と、画像合成部１０４と、画像出力部１０５と、画像記憶部１０６と、量子化器生成部１３１と、前景領域学習部１０７と、インデックス生成部１０８と、推定ＬＵＴ生成部１０９と、明滅学習部１５１と、補正ＬＵＴ生成部１５２と、明滅補正部１５３と、を備える。

　本実施形態に係る画像処理部１００は、特許文献１の映像処理装置に対して、明滅学習部１５１及び補正ＬＵＴ生成部１５２を追加し、補正ＬＵＴ生成部１５２の補正ＬＵＴを参照する明滅補正部１５３を前景領域推定部１０３と境界補正部１２１の間に追加している。

　以下、追加した機能部及び本発明に関連性の高い機能部について説明する。それら以外の各機能部、撮像部２００、表示部３００、及び、画像編集部４００は、特許文献１に記載された機能と同様の機能を備える。なお、前景領域学習部１０７は、特許文献１の学習部１０７である。推定ＬＵＴ生成部１０９は、特許文献１のＬＵＴ生成部１０９である。

　前景領域学習部１０７は、図４に示すように、サンプル画像、手動作成した前景のみのマスク画像、及び、背景画像を基に、サンプル画像の画素値（Ｒ_ｔ，Ｇ_ｔ，Ｂ_ｔ）と背景画像の画素値（Ｒ_ｂ，Ｇ_ｂ，Ｂ_ｂ）の組み合わせが前景である確率（ＦＧ：Ｆｏｒｅｇｒｏｕｎｄ）と背景である確率（ＢＧ：Ｂａｃｋｇｒｏｕｎｄ）を出力するニューラルネットワーク（以下、推定ＮＮ）を構築する機能を備える。前景領域学習部１０７は、複数のサンプル画像を当該推定ＮＮに入力して繰り返し学習させる機能を備える。当該推定ＮＮは、推論時に、サンプル画像に代えて入力画像を入力すると、入力画像の画素が背景画像に対して前景か背景かを判定する機能を持つ。推定ＮＮの学習方法の詳細は、特許文献１に記載の通りである。

　推定ＬＵＴ生成部１０９は、推定ＮＮの入出力の関係をテーブル化した推定ＬＵＴを生成する機能を備える。具体的には、推定ＬＵＴ生成部１０９は、上記６次元の画素値の全ての組み合わせを推定ＮＮに入力し、それらに紐づく出力を得ることで、入力と出力との関係をテーブル化する。なお、テーブル化する理由は、一般にＮＮの演算処理は時間がかかり、動画像に対する実時間処理には適していないためである。

　前景領域推定部１０３は、色補正部１４１で色補正が行われ、量子化画像生成部１０２で量子化された（画素値の階調数が削減された）入力画像と背景画像を入力し、当該入力画像と当該背景画像の同座標で対になった各画素の組み合わせに対して、推定ＬＵＴ生成部１０９で生成された推定ＬＵＴを参照し、入力画像の画素が前景か背景かを判定する機能を備える。

　明滅学習部１５１は、図５に示すように、１フレーム前の画像、現在フレームの画像、１フレーム前の画像から背景をマスクしたマスク画像、及び、現在フレームの画像から背景をマスクしたマスク画像を基に、同座標で対になった１フレーム前の入力画像の画素値（Ｒ_０，Ｇ_０，Ｂ_０）と現在フレームの入力画像の画素値（Ｒ_１，Ｇ_１，Ｂ_１）の組み合わせが同一前景内又は同一背景内である確率（Ｓ：Ｓａｍｅ）、同一前景内又は同一背景内でない確率（Ｄ：Ｄｉｆｆｅｒｅｎｔ）を出力するニューラルネットワーク（以下、補正ＮＮ）を構築する機能を備える。明滅学習部１５１は、複数の１フレーム前の入力画像と複数の現在フレームの入力画像を当該補正ＮＮに入力して繰り返し学習させる機能を備える。補正ＮＮの学習方法の詳細は、後述する。

　補正ＬＵＴ生成部１５２は、補正ＮＮの入出力の関係をテーブル化した補正ＬＵＴを生成する機能を備える。具体的には、補正ＬＵＴ生成部１５２は、全色の組み合わせについて、上記６次元の画素値の全ての組み合わせを補正ＬＵＴに入力し、それらに紐づく出力を得ることで、入力と出力との関係をテーブル化する。なお、テーブル化する理由は、上記の通り、一般にＮＮの演算処理は時間がかかるためである。

　明滅補正部１５３は、前景領域推定部１０３で入力画像の画素が前景か背景かが判定された結果、前景と背景が切り替わった画素についてのみ、１フレーム前の入力画像と現在フレームの入力画像の同座標で対になった各画素の組み合わせに対して、補正ＬＵＴ生成部１５２で生成された補正ＬＵＴを参照し、前景と背景の切り替わりが、前景内若しくは背景内の色変化であるかを判定し、前景内若しくは背景内の色変化である場合に、前景領域推定部１０３の判定結果を補正する機能を備える。

　［補正ＮＮの学習方法］
　明滅学習部１５１は、画像に含まれる全画素について、以下の処理を繰り返し実行する。全画素について実行すると演算処理に時間がかかるため、ランダムにサンプリングした所定数の画素について実行してもよい。

　まず、明滅学習部１５１は、１フレーム前の画像と現在フレームの画像を取得する。

　次に、明滅学習部１５１は、１フレーム前の画像から手動で被写体領域を切り抜いたマスク画像（白：前景となる被写体、黒：背景）を作成しておく。同様に、明滅学習部１５１は、現在フレームの画像から手動で被写体領域を切り抜いたマスク画像（白：前景となる被写体、黒：背景）を作成しておく。

　最後に、明滅学習部１５１は、同座標で対になった１フレーム前の画像の画素値と現在フレームの画像の画素値の組み合わせに対して、色変化が同一前景内又は同一背景内である又はないが定義された教師データを補正ＮＮで学習する。

　例えば、画像内の所定画素を参照し、１フレーム前の画素値（Ｒ_０，Ｇ_０，Ｂ_０）が赤（２５５，０，０）であり、現在フレームの画素値（Ｒ_１，Ｇ_１，Ｂ_１）が橙（２５５，１２８，０）であるとする。また、上記２種類のマスク画像で上記所定画素と同じ座標の画素を参照し、１フレーム前のラベル種別が前景（ＦＧ＝１，ＢＧ＝０）であり、現在フレームのラベルが背景（ＦＧ＝０，ＢＧ＝１）であるとする。この場合、上記所定画素において、時間的に前後する２つのフレーム間でラベル種別が変化しているので、１フレーム前と現在フレームの上記所定画素の色変化は同一前景内又は同一背景内の色変化ではないと判断できる。そこで、この場合には、入出力の各値を（Ｒ_０，Ｇ_０，Ｂ_０，Ｒ_１，Ｇ_１，Ｂ_１，Ｓ，Ｄ）＝（２５５，０，０，２５５，１２８，０，０，１）のように決定する。明滅学習部１５１は、このように決定された結果群を教師データとして補正ＮＮで学習させる。

　［映像処理装置の動作例］
　図６は、図３に示した映像処理装置１の動作例を示すフロー図である。

　ステップＳ１０１；
　まず、画像入力部１０１は、映像処理装置１に入力された入力映像から入力画像を取得し、別途作成された背景画像を取得する。

　ステップＳ１０２；
　次に、量子化画像生成部１０２は、入力画像と背景画像を量子化する。

　ステップＳ１０３；
　次に、前景領域推定部１０３は、量子化された入力画像と背景画像の同座標で対になった各画素の組み合わせに対して推定ＬＵＴを参照し、当該推定ＬＵＴより入力画像の各画素が前景か背景かをそれぞれ判定し、当該判定結果に基づき各画素に対して前景ラベル又は背景ラベルを付与する。

　ステップＳ１０４；
　次に、明滅補正部１５３は、量子化された現在フレームの入力画像を取得し、当該現在フレームの入力画像の各画素に対して付与されたラベル種別を取得する。

　ステップＳ１０５；
　次に、明滅補正部１５３は、１フレーム前の入力画像を取得し、当該１フレーム前の入力画像の各画素に対して付与されていたラベル種別を取得する。

　ステップＳ１０６；
　次に、明滅補正部１５３は、上記１フレーム前の入力画像を量子化する。

　ステップＳ１０７；
　次に、明滅補正部１５３は、前景と背景が切り替わった画素についてのみ、前景と背景の切り替わりが前景内若しくは背景内の色変化であるか否かを判定し、前景内若しくは背景内の色変化である場合に、ステップＳ１０３で付与していたラベル種別を変更する。ステップＳ１０７の詳細は、後述する。

　ステップＳ１０８；
　次に、境界補正部１２１は、背景に対して前景の境界を明瞭化する補正を行い、前景ラベルが付与された画素のみを抽出したマスク画像を生成する。

　ステップＳ１０９；
　次に、画像合成部１０４は、上記マスク画像を入力画像に合成し、前景のみを抽出した前景抽出画像を生成する。

　ステップＳ１１０；
　最後に、画像出力部１０５は、上記前景抽出画像を表示部３００へ出力する。

　［ステップＳ１０７の詳細］
　図７は、図６に示したステップＳ１０７の詳細動作を示すフロー図である。

　ステップＳ１０７ａ；
　まず、明滅補正部１５３は、１フレーム前の入力画像と現在フレームの入力画像の同座標で対になった各画素でラベル種別が切り替わったか否かを判定する。ラベル種別が切り替わった場合には以降のステップＳ１０７ｂへ進み、ラベル種別が切り替わっていない場合には上記ステップＳ１０８へ進む。

　ステップＳ１０７ｂ；
　次に、明滅補正部１５３は、１フレーム前の入力画像と現在フレームの入力画像の同座標で対になった各画素の組み合わせに対して補正ＬＵＴを参照する。

　ステップＳ１０７ｃ；
　次に、明滅補正部１５３は、当該推定ＬＵＴよりラベル種別の切り替わりが同一種別のラベル内の色変化であるかを判定する。同一種別のラベル内の色変化である場合には以降のステップＳ１０７ｄへ進み、同一種別のラベル内の色変化でない場合には上記ステップＳ１０８へ進む。

　ステップＳ１０７ｄ；
　最後に、明滅補正部１５３は、ステップＳ１０３で付与していたラベル種別を変更する。

　［効果］
　本実施形態によれば、映像処理装置１が、前景か背景を判定可能な推定ＬＵＴを用いて、入力画像の画素が前景か背景を判定する前景領域推定部１０３と、前景と背景が切り替わった対象画素について、画素値の時間変化から前景内又は背景内での切り替わりか否かを判別可能な補正ＬＵＴを用いて、前景と背景の切り替わりが前景内又は背景内の色変化であるか否かを判定し、前景と背景の切り替わりが前景内又は背景内の色変化である場合、対象画素にする前景か背景かの判定結果を補正する明滅補正部１５３と、を備えるので、映像のチラつきを抑制可能な技術を提供できる。

　［その他］
　本発明は、上記実施形態に限定されない。本発明は、本発明の要旨の範囲内で数々の変形が可能である。

　上記説明した本実施形態の映像処理装置１は、例えば、図８に示すように、ＣＰＵ９０１と、メモリ９０２と、ストレージ９０３と、通信装置９０４と、入力装置９０５と、出力装置９０６と、を備えた汎用的なコンピュータシステムを用いて実現できる。メモリ９０２及びストレージ９０３は、記憶装置である。当該コンピュータシステムにおいて、ＣＰＵ９０１がメモリ９０２上にロードされた所定のプログラムを実行することにより、映像処理装置１の各機能が実現される。

　映像処理装置１は、１つのコンピュータで実装されてもよい。映像処理装置１は、複数のコンピュータで実装されてもよい。映像処理装置１は、コンピュータに実装される仮想マシンであってもよい。映像処理装置１用のプログラムは、ＨＤＤ、ＳＳＤ、ＵＳＢメモリ、ＣＤ、ＤＶＤなどのコンピュータ読取り可能な記録媒体に記憶できる。映像処理装置１用のプログラムは、通信ネットワークを介して配信することもできる。

　１　：映像処理装置
　１００：画像処理部
　１０１：画像入力部
　１０２：量子化画像生成部
　１０３：前景領域推定部
　１０４：画像合成部
　１０５：画像出力部
　１０６：画像記憶部
　１０７：前景領域学習部
　１０８：インデックス生成部
　１０９：推定ＬＵＴ生成部
　１２１：境界補正部
　１３１：量子化器生成部
　１４１：色補正部
　１５１：明滅学習部
　１５２：補正ＬＵＴ生成部
　１５３：明滅補正部
　２００：撮像部
　３００：表示部
　４００：画像編集部
　９０１：ＣＰＵ
　９０２：メモリ
　９０３：ストレージ
　９０４：通信装置
　９０５：入力装置
　９０６：出力装置

Claims

　入力画像の画素が前景か背景を判定する判定部と、
　前景と背景が切り替わった対象画素について、画素値の時間変化から前景内又は背景内での切り替わりか否かを判別可能なルックアップテーブルを用いて、前記前景と背景の切り替わりが前景内又は背景内の色変化であるか否かを判定し、前記前景と背景の切り替わりが前景内又は背景内の色変化である場合、前記対象画素に対して行われた前景か背景かの判定結果を補正する補正部と、
　を備える映像処理装置。
　映像処理装置で行う映像処理方法において、
　入力画像の画素が前景か背景を判定するステップと、
　前景と背景が切り替わった対象画素について、画素値の時間変化から前景内又は背景内での切り替わりか否かを判別可能なルックアップテーブルを用いて、前記前景と背景の切り替わりが前景内又は背景内の色変化であるか否かを判定し、前記前景と背景の切り替わりが前景内又は背景内の色変化である場合、前記対象画素に対して行われた前景か背景かの判定結果を補正するステップと、
　を行う映像処理方法。
　請求項１に記載の映像処理装置としてコンピュータを機能させる映像処理プログラム。