WO2023026464A1

WO2023026464A1 - 映像処理装置、映像処理方法、およびプログラム

Info

Publication number: WO2023026464A1
Application number: PCT/JP2021/031486
Authority: WO
Inventors: 秀信長田; 弘員柿沼; 翔大山田; 浩太日高
Original assignee: 日本電信電話株式会社
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2023-03-02
Also published as: JPWO2023026464A1

Abstract

映像処理装置１は、入力画像の各画素を前景、背景または分類不能に分類する前景抽出部１２と、分類不能な画素について、これまでの分類結果に基づくエラー率を求めて分類の困難さを表す評価値を算出するエラー率評価部１３と、入力画像から前景に分類された画素を抽出した被写体画像に重畳するエフェクトを評価値に応じて配置する加工処理部１４と、被写体画像にエフェクトを重畳した出力画像を出力する出力部１５を備える。

Description

映像処理装置、映像処理方法、およびプログラム

　本発明は、映像処理装置、映像処理方法、およびプログラムに関する。

　被写体抽出処理は、撮影された映像から特定の被写体の領域のみを抽出し、被写体のみの映像を出力する処理である。被写体の領域の抽出では、背景差分、機械学習、または深層学習による方法を用いてフレーム画像における被写体の領域を推定し、被写体の領域内の各画素に対して前景ラベルを付与し、前景ラベルが付与された画素のみをフィルタすることによって被写体のみを含む被写体画像を抽出している。

Aseem Agarwala, et al.,"Keyframe-Based Tracking for Rotoscoping and Animation", ACM Transactions on Graphics (Proceedings of SIGGRAPH 2004), 2004. Unity5, インターネット〈 URL：https://docs.unity3d.com/ 〉

　被写体の抽出精度が１００パーセントとなることは少なく、被写体が存在しない部分が間違って抽出されたり、あるいは被写体の領域であるにも関わらず、前景ラベルが付与されない誤りによって被写体に穴が開いたような状態で抽出されたりすることがある。その結果、被写体画像の主観品質が低下するという問題があった。

　本発明は、上記に鑑みてなされたものであり、被写体抽出において、主観品質の低下を抑制することを目的とする。

　本発明の一態様の映像処理装置は、入力画像の各画素を前景、背景または分類不能に分類する前景抽出部と、分類不能な画素について、これまでの分類結果に基づくエラー率を求めて分類の困難さを表す評価値を算出するエラー率評価部と、前記入力画像から前景に分類された画素を抽出した被写体画像と前記評価値を出力する出力部を備える。

　本発明の一態様の映像処理方法は、コンピュータが、入力画像の各画素を前景、背景または分類不能に分類し、分類不能な画素について、これまでの分類結果に基づくエラー率を求めて分類の困難さを表す評価値を算出し、前記入力画像から前景に分類された画素を抽出した被写体画像と前記評価値を出力する。

　本発明によれば、被写体抽出において、主観品質の低下を抑制できる。

図１は、本実施形態の映像処理装置の構成の一例を示す図である。図２は、前景または背景を判定するためのルックアップテーブルの一例を示す図である。図３は、評価値の高い画素の一例を示す図である。図４は、評価値が高い画素にエフェクトを重畳した一例を示す図である。図５は、各画素に前景ラベルまたは背景ラベルを付与する処理の流れの一例を示すフローチャートである。図６は、映像処理装置のハードウェア構成の一例を示す図である。

　以下、本発明の実施の形態について図面を用いて説明する。

　図１を参照し、本実施形態の映像処理装置の構成の一例について説明する。本実施形態の映像処理装置１は、映像を入力し、映像の各フレームから被写体を抽出して被写体画像を生成するとともに、被写体画像に演出的加工を加えて出力画像を生成する装置である。例えば、映像処理装置１に舞台を撮影した映像を入力する。映像処理装置１は入力した映像から演者を抽出するとともに演出的加工を加えた映像を生成して出力する。出力された映像は遠隔地へ伝送され、別の背景と合成される。以下、映像処理装置１の各部について説明する。

　図１に示す映像処理装置１は、入力部１１、前景抽出部１２、エラー率評価部１３、加工処理部１４、出力部１５、エラー率保持部１６、および演出データ保持部１７を備える。

　入力部１１は、映像をフレームごとに入力し、入力したフレームを前景抽出部１２へ送信する。以下、フレームを入力画像と称する。

　前景抽出部１２は、入力画像の各画素に対して、前景か背景かを判定する。例えば、前景抽出部１２は、各画素について、事前に作成したルックアップテーブル（ＬＵＴ）を用いて前景または背景の確率を求め、求めた確率に応じて前景ラベルまたは背景ラベルを付与する。

　図２を参照し、ＬＵＴの一例について説明する。図２のＬＵＴは、前景と背景とを識別するニューラルネットワークの出力組合せを保持したものである。例えば、ニューラルネットワークの学習処理では、被写体の含まれない背景画像、被写体の含まれるサンプル画像、および正解となるマスク画像を用い、マスク画像の前景に対応するサンプル画像中の注目画素の画素値と、背景画像中の注目画素と同じ位置の対応画素の画素値を組み合わせたものを入力特徴ベクトルとし、その組合せが前景領域であると学習させる。同様に、マスク画像の背景に対応する画素についても、サンプル画像中の注目画素と背景画像中の対応画素の組合せが背景領域であると学習させる。これにより、入力画像の注目画素と背景画像の対応画素の組合せに対して前景であるか背景であるかを識別するニューラルネットワークが得られる。ニューラルネットワーク演算は計算量が多いので、ニューラルネットワーク演算処理をＬＵＴに実装して高速化し、リアルタイムでの抽出処理を可能にする。ＬＵＴを作成する際には、ＬＵＴのサイズを小さくするために、入力特徴ベクトルを量子化処理によって少ない階調数に削減する。量子化された入力特徴ベクトルの全てのニューラルネットワークの出力組合せをＬＵＴとして保持する。

　ＬＵＴを用いる場合、前景抽出部１２は、入力画像の注目画素と背景画像の対応画素を入力特徴ベクトルとし、入力特徴ベクトルを量子化し、ＬＵＴを参照して、注目画素が前景である確率を求める。前景抽出部１２は背景画像を事前に入力しておく。前景抽出部１２は、求めた前景である確率が大きければ、注目画素に前景ラベルを付与し、小さければ注目画素に背景ラベルを付与する。

　画素の値によっては、分類不能になる画素が存在する。このような画素は相対的にエラーが発生している画素となる。前景抽出部１２は、ＬＵＴを参照して求めた確率が所定の範囲内の値である場合、例えば前景である確率と背景である確率が五分五分に近い場合、注目画素を分類不能な画素としてエラー率評価部１３へ送信する。

　前景抽出部１２は、分類不能な画素を含む領域について０から１までの値を持つアルファマスクを導出してもよい。前景ラベルが付与された画素のアルファ値は１、背景ラベルが付与された画素のアルファ値は０である。後段の被写体画像を生成する処理では、被写体画像は入力画像にアルファマスクを適用して抽出される。

　なお、前景抽出部１２が前景領域を抽出する処理はＬＵＴを用いる処理に限らず、背景差分などの他の方法を用いてもよい。

　エラー率評価部１３は、分類不能な画素のエラー率を求め、エラー率に応じた分類の困難さを表す評価値を出力する。例えば、エラー率評価部１３は、分類不能な画素について、これまでの全フレーム数に対する分類不能と判定された回数をエラー率として求める。評価値は、エラー率をいくつかの段階に分類した値であってもよいし、エラー率そのものであってもよい。評価値が高いほど、前景または背景の分類が困難であることを示す。エラー率保持部１６は、全フレーム数ならびに各画素について、前景、背景、または分類不能に分類された回数などのエラー率の計算に必要な情報を記録しておく。

　前景抽出部１２とエラー率評価部１３により、入力画像の各画素に、前景ラベル、背景ラベル、または評価値が付与される。

　加工処理部１４は、演出に応じて、映像にエフェクトのための画像を重畳する。画像は任意の画像を使うことができる。エフェクトは、エラー率評価部１３によってエラー率が付与された画素の上に重ねるか、あるいは当該画素を含む複数の画素からなる領域に重畳する。このときのエフェクト画像として、パーティクル、ライン等をはじめとする単純な幾何学パタン、あるいは、霧、雨、紙吹雪、枯葉、花びら、雪、光の点などを使うことができる。加工処理部１４は、評価値が高い画素にエフェクトが重畳されるように位置および時間を制御する。エラー率はフレーム毎に変化するが、重畳するエフェクトはフレーム毎に対応させてもよいし、あらかじめ与えた一定のフレーム数継続させることができる。また、重畳したエフェクトを重畳した状態から任意の量ゆらぎを与えて座標を変化させることができる。演出データ保持部１７は、上記で述べたエフェクト画像をもとに、指定のエラー率となる画素位置または画素を含む領域に前記エフェクト画像を配置したデータを演出データとして保持する。なお、エフェクトは、前述の画像に限定されることなく、光沢を有するマーク、商標、あるいはパタン画像等をはじめとする抽象的な画像を用いることができる。

　ここで、図３および図４を参照し、加工処理部１４がエフェクトを重畳する一例を説明する。図３の画素１００は、評価値が高い画素である。図４に示すように、加工処理部１４は、評価値が高い画素（図３の画素１００）の位置に、エフェクト２００を配置する。また、加工処理部１４は、エフェクトが自然に見えるように、評価値に関係なく、エフェクトを分散させて配置する。加工処理部１４は、評価値の高い順に、エフェクトを重畳させる画素を選択してもよい。

　霧のエフェクトなど、隠れる領域が広いエフェクトの場合、加工処理部１４は、評価値が高い複数の画素が隠れるように霧のエフェクトを配置してもよい。

　落葉など、動きが遅いエフェクトの場合、加工処理部１４は、評価値が高い画素が隠れるようにエフェクトの動きを制御し、落葉の動く方向を変化させたり、落葉の落下速度を少し変化させたりしてもよい。

　出力部１５は、入力画像から前景ラベルの付与された画素を抽出して被写体画像を生成し、加工処理部１４の生成したエフェクト画像を被写体画像に重畳して、出力画像を生成する。なお、加工処理部１４が入力画像から被写体を抽出して被写体画像を生成し、生成した被写体画像上にエフェクトを配置して出力画像を生成してもよい。

　なお、映像処理装置１は、加工処理部１４を備えずに、出力部１５は、入力画像から前景ラベルの付与された画素を抽出した被写体画像と、各画素の評価値を出力してもよい。この場合、映像処理装置１の後段にエフェクトを追加する加工処理装置を備えて、加工処理装置が被写体画像に重畳するエフェクトを評価値に応じて配置してもよい。

　次に、図５のフローチャートを参照し、入力画像の各画素に前景ラベルまたは背景ラベルを付与する処理について説明する。図５のフローチャートに示す処理は、入力画像の各画素について実行される。

　ステップＳ１１にて、映像処理装置１は、ＬＵＴを参照し、注目画素が前景であるか、背景であるかを評価する。具体的には、映像処理装置１は、ＬＵＴを参照し、注目画素と背景画像中の対応画素との組み合わせに対応する前景である確率を取得する。

　ステップＳ１２にて、映像処理装置１は、ステップＳ１１で求めた注目画素が前景である確率に基づき、注目画素が前景であるか否か判定する。

　注目画素が前景である場合、ステップＳ１８にて、映像処理装置１は、注目画素に前景ラベルを付与する。

　ステップＳ１３にて、映像処理装置１は、ステップＳ１１で求めた注目画素が前景である確率に基づき、注目画素が背景であるか否か判定する。

　注目画素が背景である場合、ステップＳ１７にて、映像処理装置１は、注目画素に背景ラベルを付与する。

　注目画素が前景または背景に分類されない場合、映像処理装置１は、ステップＳ１４にて、注目画素のエラー率を参照し、ステップＳ１５にて、エラー率を算出して更新する。

　ステップＳ１６にて、映像処理装置１は、エラー率に応じた評価値を注目画素に付与する。また、映像処理装置１は、分類不能な画素のアルファ値を求めたり、分類不能な画素に前景ラベルまたは背景ラベルを付与したりしてもよい。

　以上の処理が入力画像の各画素について実行されると、映像処理装置１は、入力画像から前景ラベルの付与された画素を抽出して被写体画像を生成する。被写体画像に演出的加工を加える場合、映像処理装置１は、なるべく評価値の高い画素が加工されるように、演出的加工を加える。

　以上説明したように、本実施形態の映像処理装置１は、入力画像の各画素を前景、背景または分類不能に分類する前景抽出部１２と、分類不能な画素について、これまでの分類結果に基づくエラー率を求めて分類の困難さを表す評価値を算出するエラー率評価部１３と、入力画像から前景に分類された画素を抽出した被写体画像に重畳するエフェクトを評価値に応じて配置する加工処理部１４と、被写体画像にエフェクトを重畳した出力画像を出力する出力部１５を備える。これにより、前景抽出部１２による被写体抽出結果が誤っていた場合でも、評価値が高く、被写体抽出が誤りそうな画素に演出的加工が重畳されるので、主観品質の低下を抑制することができる。

　上記説明した映像処理装置１には、例えば、図６に示すような、中央演算処理装置（ＣＰＵ）９０１と、メモリ９０２と、ストレージ９０３と、通信装置９０４と、入力装置９０５と、出力装置９０６とを備える汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、ＣＰＵ９０１がメモリ９０２上にロードされた所定のプログラムを実行することにより、映像処理装置１が実現される。このプログラムは磁気ディスク、光ディスク、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記録することも、ネットワークを介して配信することもできる。

　１　映像処理装置
　１１　入力部
　１２　前景抽出部
　１３　エラー率評価部
　１４　加工処理部
　１５　出力部
　１６　エラー率保持部
　１７　演出データ保持部

Claims

　入力画像の各画素を前景、背景または分類不能に分類する前景抽出部と、
　分類不能な画素について、これまでの分類結果に基づくエラー率を求めて分類の困難さを表す評価値を算出するエラー率評価部と、
　前記入力画像から前景に分類された画素を抽出した被写体画像と前記評価値を出力する出力部を備える
　映像処理装置。
　請求項１に記載の映像処理装置であって、
　前記被写体画像に重畳するエフェクトを前記評価値に応じて配置する加工処理部を備え、
　前記出力部は、前記被写体画像に前記エフェクトを重畳した出力画像を出力する
　映像処理装置。
　コンピュータが、
　入力画像の各画素を前景、背景または分類不能に分類し、
　分類不能な画素について、これまでの分類結果に基づくエラー率を求めて分類の困難さを表す評価値を算出し、
　前記入力画像から前景に分類された画素を抽出した被写体画像と前記評価値を出力する
　映像処理方法。
　請求項３に記載の映像処理方法であって、
　前記コンピュータが、
　前記被写体画像に重畳するエフェクトを前記評価値に応じて配置し、
　前記被写体画像に前記エフェクトを重畳した出力画像を出力する
　映像処理方法。
　請求項１または２に記載の映像処理装置の各部としてコンピュータを動作させるプログラム。