WO2022153474A1

WO2022153474A1 - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: WO2022153474A1
Application number: PCT/JP2021/001176
Authority: WO
Inventors: 弘員柿沼; 翔大山田; 秀信長田; 浩太日高
Original assignee: 日本電信電話株式会社
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2022-07-21

Abstract

カメラで撮影した画像と当該画像を撮影したときのカメラの設定値を入力すると、深層学習のネットワークを通じて、画像において被写体の領域を示したマスク画像を出力する画像処理装置１である。画像処理装置１は、カメラ３からカメラ画像を入力する画像入力部１１と、カメラ画像と当該カメラ画像を撮影したときのカメラの設定値を入力して、深層学習のネットワークを通じて、カメラ画像において被写体の領域を示したマスク画像を得るマスク画像生成部１２を備える。カメラ３の設定値は、カメラ３のビューファインダー画像を文字認識することによって取得し、深層学習のネットワークの中間層に入力される。

Description

画像処理装置、画像処理方法、およびプログラム

　本発明は、画像処理装置、画像処理方法、およびプログラムに関する。

　深層学習を用いた教師あり被写体抽出処理によって特定の被写体のみを分離して被写体のみの映像を取得する技術が存在する。事前に被写体抽出の対象となるシーンを撮影して教師画像を作成し、複数の教師画像から学習データを構成する。例えば、演劇の舞台または音楽ライブなどのあらかじめ決められたシーンにおいて、特定のパフォーマーに対して深層学習を用いた被写体抽出処理を行う場合、リハーサルにおいて対象のシーンを前もって十分に学習しておけば、より精度の高い被写体抽出処理を実現できる。

O. Ronneberger, P. Fischer, T. Brox, "U-Net: Convolutional Networks for Biomedical Image Segmentation", MICCAI 2015, https://arxiv.org/pdf/1505.04597.pdf V. Vukotic V, et al., "One-Step Time-Dependent Future Video Frame Prediction with a Convolutional Encoder-Decoder Neural Network", ICIAP 2017, https://arxiv.org/pdf/1702.04125.pdf

　抽出処理の精度を保つためには、学習に用いる映像と、推論に用いる映像とで、映像撮影時のカメラのパラメータ（ＩＳＯ感度、ゲイン、およびホワイトバランスなど）が同一であることが前提となる。

　例えば、屋外で天候や時間により明るさが変化する場合、または舞台で照明が変化する場合は、カメラのパラメータを固定して撮影し続けることができないことがある。撮影環境の変化が生じる場合、カメラのオートモードによる設定変更が行われたり、手動操作による設定変更が行われたりするが、これにより事前学習の元データとなる事前撮影時の映像と、本番撮影時の映像とで映像全体の明るさおよび色のバランスが異なると、被写体抽出の精度が低くなるという問題があった。

　本発明は、上記に鑑みてなされたものであり、教師ありの深層学習により学習したネットワークを用いて映像から被写体抽出する処理において、カメラのパラメータが変化する場合に問題となる抽出精度の低下を抑止することを目的とする。

　本発明の一態様の画像処理装置は、カメラで撮影した画像と当該画像を撮影したときのカメラの設定値とを入力すると、深層学習のネットワークを通じて、前記画像において被写体の領域を示したマスク画像を出力する画像処理装置であって、カメラからカメラ画像を入力する入力部と、前記カメラ画像と当該カメラ画像を撮影したときの前記カメラの設定値とを入力して、前記深層学習のネットワークを通じて、前記カメラ画像において被写体の領域を示したマスク画像を得る生成部とを備える。

　本発明によれば、教師ありの深層学習により学習したネットワークを用いて映像から被写体抽出する処理において、カメラのパラメータが変化する場合に問題となる抽出精度の低下を抑止できる。

図１は、本実施形態の画像処理装置１の構成の一例を示す図である。図２は、マスク画像生成部の構成の一例を示す図である。図３は、画像処理装置の学習の一例を説明するための図である。図４は、画像処理装置の被写体抽出処理の流れの一例を示すフローチャートである。図５は、画像処理装置のハードウェア構成の一例を示す図である。

　以下、本発明の実施の形態について図面を用いて説明する。

　図１を参照し、本実施形態の画像処理装置１の構成について説明する。図１に示す画像処理装置１は、画像入力部１１、マスク画像生成部１２、および画像合成部１３を備える。画像処理装置１にはカメラ３が接続される。画像処理装置１とカメラ３とは、例えば、シリアルデジタルインタフェース（ＳＤＩ）で接続される。

　画像入力部１１はカメラ３の出力する映像をフレーム毎に入力し、入力したフレーム（以下、カメラ画像と称する）をマスク画像生成部１２と画像合成部１３へ送信する。

　マスク画像生成部１２は、カメラ画像と、カメラ３がカメラ画像を撮影したときのカメラ３の設定値とを、教師ありの深層学習により学習したネットワークに入力してマスク画像を生成する。マスク画像は、例えば被写体についてセグメンテーションを行った画像である。カメラ３の設定値は、例えば、ＩＳＯ感度、ゲイン、ホワイトバランス、シャッタースピード、および絞り値などである。マスク画像生成部１２は、被写体の領域を白、被写体以外の領域を黒としたマスク画像を生成してもよいし、被写体の領域を白、被写体以外の領域を黒、被写体の領域であるか否か曖昧な未知の領域をグレーとしたＴＲＩＭＡＰを生成してもよい。マスク画像は、黒、白、グレー以外の色で被写体の領域を示してもよい。

　ＯＣＲ４がカメラ３のビューファインダー画像を入力して文字認識を行い、カメラ３の設定値をマスク画像生成部１２へ入力する。画像処理装置１がＯＣＲ４の機能を備えてビューファインダー画像を入力して文字認識を行ってもよい。カメラ３から直接設定値が得られる場合は、ＯＣＲ４を備えずに、カメラ３から得られる設定値をマスク画像生成部１２へ入力してもよい。あるいは、撮影者がカメラ３の設定値をマスク画像生成部１２に入力してもよい。

　図２に、マスク画像生成部１２の構成の一例を示す。図２に示すマスク画像生成部１２は、エンコーダ１２１、デコーダ１２２、および全結合層１２３，１２４からなる各種ニューラルネットワークを有する。エンコーダ１２１は、複数の畳み込み層などによって構成され、入力するカメラ画像の特徴を抽出する。全結合層１２３は、エンコーダ１２１で得られた特徴と、カメラ３の設定値を全結合層１２４に入力して得られた中間値と、を結合したものを中間層とする構造を持つ。デコーダ１２２は、複数の逆畳み込み層などによって構成され、全結合層１２３の出力からマスク画像を生成する。マスク画像生成部１２の有するネットワーク構造は図２に示した構成以外であってもよい。

　カメラ３の設定値は、ビューファインダー画像を文字認識して得られる。図２の例では、ビューファインダー画像からシャッタースピード、絞り値、ホワイトバランス、およびＩＳＯ感度が得られる。得られた設定値のうち使用するものをマスク画像生成部１２に入力する。カメラ３本体の手動による設定変更あるいはカメラ３の自動制御モードによる設定変更に応じて中間層への入力値が変わる。例えば、カメラ３のＩＳＯ感度を高く設定し、カメラ画像にノイズが増えた場合、カメラ３のＩＳＯ感度を高く設定したことを中間層に入力することで、マスク画像生成部１２がカメラ画像にノイズが多いことを前提とした振る舞いになることを期待できる。

　画像合成部１３は、カメラ画像とマスク画像を入力して合成し、カメラ画像から被写体のみを切り出した被写体画像を出力する。

　次に、図３を参照し、事前学習処理について説明する。画像処理装置１は、図３に示す学習部１４を備えてマスク画像生成部１２の有する深層学習のネットワークの学習を行ってもよい。

　事前学習時に、カメラで学習用のシーンを撮影するとともに、カメラの設定値を記録する。カメラの設定値が変動する場合は、メインの映像と同時にビューファインダー映像を録画することにより記録する。カメラで撮影した映像から教師フレームを選定し、選定した教師フレームに対応する学習用マスク画像を作成する。学習用マスク画像は、例えば、被写体の領域を白、被写体以外の領域を黒とした２値画像であり、マスク画像生成部１２から期待される出力画像である。学習用マスク画像は、教師フレームから手動で作成してもよいし、他の手法を用いて作成してもよい。学習部１４に、教師フレーム、カメラの設定値、および学習用マスク画像を教師データとして入力し、マスク画像生成部１２の有する深層学習のネットワークの学習を行う。

　カメラの設定値を様々な値に変更した映像から教師データを作成して用意する。これにより、例えば、ＩＳＯ感度が高いときはノイズが多い映像を前提とした学習が行われ、シャッタースピードが遅いときはブラーが目立つ映像を前提とした学習が行われて、深層学習のネットワークはカメラの設定値を前提に最適化される。その結果、カメラの設定値の変化による精度の低下を抑止する効果が期待できる。

　次に、図４のフローチャートを参照し、画像処理装置１の処理について説明する。

　ステップＳ１１にて、ＯＣＲ４がカメラ３のビューファインダー画像から文字認識によりカメラ３の設定値を抽出し、画像処理装置１は、文字認識されたカメラ３の設定値を入力する。

　ステップＳ１２にて、画像処理装置１は、カメラ３から映像を入力する。画像処理装置１は、カメラ３から入力する映像をフレームごとに処理する。画像処理装置１は、カメラ３の映像と並列でカメラ３の設定値を取り込む。

　ステップＳ１３にて、画像処理装置１は、カメラ画像とカメラ３の設定値を深層学習のネットワークに入力してマスク画像を生成する。

　ステップＳ１４にて、画像処理装置１は、カメラ画像とマスク画像を合成し、カメラ画像から被写体のみを抽出した被写体画像を生成する。

　画像処理装置１は、フレームごとにステップＳ１１からステップＳ１４の処理を繰り返して被写体のみを抽出した映像を出力する。

　以上説明したように、本実施形態の画像処理装置１は、カメラ３からカメラ画像を入力する画像入力部１１と、カメラ画像と当該カメラ画像を撮影したときのカメラの設定値を入力して、深層学習のネットワークを通じて、カメラ画像において被写体の領域を示したマスク画像を得るマスク画像生成部１２を備える。これにより、カメラ３の設定値が変更された場合であっても、カメラ３の設定値を考慮したマスク画像の推論が可能になり、カメラ画像から被写体を抽出する精度の低下を抑止できる。

　本実施形態では、推論時にビューファインダー画像を文字認識することで、撮影時のカメラ３の設定値を取得できる。

　上記説明した画像処理装置１には、例えば、図５に示すような、中央演算処理装置（ＣＰＵ）９０１と、メモリ９０２と、ストレージ９０３と、通信装置９０４と、入力装置９０５と、出力装置９０６とを備える汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、ＣＰＵ９０１がメモリ９０２上にロードされた所定のプログラムを実行することにより、画像処理装置１が実現される。このプログラムは磁気ディスク、光ディスク、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記録することも、ネットワークを介して配信することもできる。

　１…画像処理装置
　１１…画像入力部
　１２…マスク画像生成部
　１３…画像合成部
　１４…学習部
　３…カメラ
　４…ＯＣＲ

Claims

　カメラで撮影した画像と当該画像を撮影したときのカメラの設定値とを入力すると、深層学習のネットワークを通じて、前記画像において被写体の領域を示したマスク画像を出力する画像処理装置であって、
　カメラからカメラ画像を入力する入力部と、
　前記カメラ画像と当該カメラ画像を撮影したときの前記カメラの設定値とを入力して、前記深層学習のネットワークを通じて、前記カメラ画像において被写体の領域を示したマスク画像を得る生成部とを備える
　画像処理装置。
　請求項１に記載の画像処理装置であって、
　前記カメラ画像を撮影したカメラのビューファインダー画像を文字認識することによって前記カメラの設定値を取得する
　画像処理装置。
　請求項１または２に記載の画像処理装置であって、
　カメラで撮影した学習用画像と、当該学習用画像を撮影したときのカメラの設定値と、当該学習用画像において被写体の領域を示した学習用マスク画像とを教師データとして用いて、前記深層学習のネットワークによって機械学習を行う学習部を備える
　画像処理装置。
　請求項１ないし３のいずれかに記載の画像処理装置であって、
　前記深層学習のネットワークは、画像を入力して特徴を抽出するエンコーダと、カメラの設定値を入力してエンコーダの出力と結合する全結合層と、前記全結合層の出力する特徴からマスク画像を生成するデコーダとを備える
　画像処理装置。
　請求項１ないし４のいずれかに記載の画像処理装置であって、
　前記カメラ画像と前記マスク画像を合成して被写体のみを抽出した被写体画像を生成する合成部を備える
　画像処理装置。
　カメラで撮影した画像と当該画像を撮影したときのカメラの設定値とを入力すると、深層学習のネットワークを通じて、前記画像において被写体の領域を示したマスク画像を出力する画像処理方法であって、
　コンピュータが、
　カメラからカメラ画像を入力し、
　前記カメラ画像と当該カメラ画像を撮影したときの前記カメラの設定値とを入力して、前記深層学習のネットワークを通じて、前記カメラ画像において被写体の領域を示したマスク画像を得る
　画像処理方法。
　請求項１ないし５のいずれかに記載の画像処理装置の各部としてコンピュータを動作させるプログラム。