WO2020129176A1

WO2020129176A1 - 画像処理システム、画像処理方法および画像処理プログラム

Info

Publication number: WO2020129176A1
Application number: PCT/JP2018/046756
Authority: WO
Inventors: 海斗笹尾
Original assignee: 株式会社日立国際電気
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2020-06-25
Also published as: EP3901900A4; US20220044020A1; EP3901900A1; US11275947B2; EP3901900B1; JP6934118B2; JPWO2020129176A1

Abstract

本発明は、白杖のような小さな被写体の検出に適した技術を提供する。　この課題を解決するために、代表的な本発明の画像処理システムの一つは、映像として取得された入力画像を取り込む映像取得部と、予め定められた検出対象の領域について学習されたＦＣＮ(Fully Convolutional Network)の学習モデルを有し、入力画像を学習モデルで処理することにより、検出対象の領域推定画像を生成する推定部と、領域推定画像に基づいて検出対象の領域を検出する画像処理部とを備える。

Description

画像処理システム、画像処理方法および画像処理プログラム

　本発明は、画像処理システム、画像処理方法および画像処理プログラムに関する。

　従来、監視カメラの撮影映像を画像処理して、検出対象を自動的に検出する技術が知られている。この種の画像処理は、人間による監視負担の軽減に有効である。

　例えば、特許文献１には、白杖を所持する視覚障がい者を自動的に検出する技術として、「１フレーム分の映像データを取得し、映像データ内のエッジ位置に基づいて、白杖の色範囲の画素値を検出して連結し、連結画素の集合について白杖の形状の特徴を有する集合か否かを判断する」旨の画像処理が開示される。

　また、非特許文献１には、画像に対して、第１ラベル（犬や猫など）および第２ラベル（人工物や自然物など）のラベル付けを学習させた畳込みニューラルネットワークＣＮＮ（畳込層＋プーリング層＋全結合層）を用いて、画像内の主要被写体について複数のラベル（犬であって自然物であるなど）に分類する技術が開示される。この非特許文献１の技術では、画像内を大きく占める主要被写体について高い分類精度が得られる。

特開２００３－１６８１１０号公報

「複数の分類を出力するディープラーニング」、［online］、［２０１８年１１月１日検索］、インターネット＜URL：https://qiita.com/cvusk/items/1439c1c6dde160c48d13＞

　特許文献１の技術では、入力画像から白杖の領域を画像処理のみで検出する。しかし、入力画像内に占める白杖の領域が小さい場合、検出精度が低くなりやすいという問題があった。

　また、非特許文献１の畳込みニューラルネットワークＣＮＮでは、小さな被写体が主要被写体と並存する場合、小さな被写体の分類が困難になるという問題があった。

　例えば、視覚障がい者を自動的に検出するために、「白杖を持つ人間」と「白杖を持たない人」とを識別する畳込みニューラルネットワークＣＮＮを考える。この場合、白杖の有無を識別する必要がある。

　しかしながら、識別すべき人間に対して、識別すべき白杖は非常に細く、かつ特徴に乏しい。そのため、人間の特徴に活性化しやすい多数のニューロンに対して、目立たない白杖に反応する少数のニューロンは紛れやすく、「白杖を持つ人間」と「白杖を持たない人」との分類は困難になる。

　そこで、本発明は、（白杖のような）小さな検出対象の検出に適した技術を提供することを目的とする。

　上記課題を解決するために、代表的な本発明の画像処理システムの一つは、映像として取得された入力画像を取り込む映像取得部と、予め定められた検出対象の領域について学習されたＦＣＮ(Fully Convolutional Network)の学習モデルを有し、入力画像を学習モデルで処理することにより、検出対象の領域推定画像を生成する推定部と、領域推定画像に基づいて検出対象の領域を検出する画像処理部とを備える。

　本発明によれば、小さな検出対象を適切に検出することができる。

　上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。

画像処理システム１００の構成を示す図である。学習モデル１３２の構成を説明する図である。中間層１層分の構成を説明する図である。中間層１層分の構成を説明する図である。実施例１の学習データを説明する図である。白杖検出の動作を説明する流れ図である。映像取得部の動作を説明する図である。推定部の動作を説明する図である。画像処理部の動作を説明する図である。表示制御部の動作を説明する図である。実施例２の学習データを説明する図である。実施例３の学習データを説明する図である。実施例３の画素論理演算を説明する図である。実施例３の画素論理演算を説明する図である。

　本発明に関わる実施形態を、図面を参照して説明する。

＜実施例１の構成＞
　実施例１は、例えば白杖（を所持する視覚障がい者）を検出する画像処理システム１００である。
　図１は、この画像処理システム１００の構成を示す図である。
　同図において、画像処理システム１００は、ハードウェアとしてＣＰＵ（Central Processing Unit）やメモリなどを備えた情報処理システム（情報処理装置）として構成される。このハードウェアが画像処理プログラムを実行することにより、後述する各種機能が実現する。このハードウェアの一部または全部については、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などで代替してもよい。また、ハードウェアの一部または全部をネットワーク上に集中または分散して配置してもよい。

　画像処理システム１００は、撮像装置１１０、映像取得部１２０、推定部１３０、画像処理部１４０、表示モニタ１５１、記録装置１５２、発報装置１５３、および学習部１５４を備える。

　撮像装置１１０は、１つ以上のカメラから構成される。この種の撮像装置１１０は、監視カメラとして監視箇所に配置されたり、ウェアラブルカメラとして人体に装着されたり、車載カメラとして車などの移動体に配置されたり、建設機械やロボットなどの機械に配置されたり、その他の多様な用途に採用される。

　映像取得部１２０は、映像入力部１２１、および解析領域指定部１２２を備える。映像入力部１２１は、撮像装置１１０や外部入力から動画または静止画の画像を有線または無線で取得する。解析領域指定部１２２は、取得した画像について白杖（検出対象）を監視する画像範囲を手動設定で決定したり、または自動で決定し、取得画像の画像範囲を内部メモリ（不図示）に取り込む。この監視する画像範囲の画像（以下「入力画像」という）は、監視すべき画像範囲や処理負荷の軽減を考慮して、取得した画像の全体または部分に設定される。

　推定部１３０は、領域推定部１３１、およびＦＣＮ（Fully Convolutional Network）の学習モデル１３２を備える。領域推定部１３１は、入力画像を学習モデル１３２で処理することにより、画像内において白杖（検出対象）の領域を推定し、領域推定画像を生成する。ここでの領域推定画像は、学習モデルが学習した検出対象について、検出対象らしさを画素単位ないし領域単位に複数の階調値や色で表した画像である。

　画像処理部１４０は、二値化部１４１、膨張処理部１４２、形状判定部１４３、制御部１４４、表示制御部１４５、記録制御部１４６、通信部１４７、および調整部１４８を備える。

　続いて、学習モデル１３２について説明する。
　図２は、この学習モデル１３２の構成を説明する図である。
　同図において、学習モデル１３２は、入力画像が入力される入力層ＩＮ、複数の中間層Ｌ１～Ｌ４、および領域推定画像を出力する出力層ＯＵＴを備える。

　複数の中間層Ｌ１～Ｌ４は、少なくとも画像（特徴マップ）に対する畳込み層を１層分に含み、全層が連結されることにより、ＦＣＮ（Fully Convolutional Network）の構成をとる。

　ここでの中間層Ｌ１～Ｌ４の層数は、白杖の領域推定においては４層程度が好ましい。なお、中間層の層数は、検出対象のサイズ、特徴の量、複雑さ、困難さ、または計算負荷などに応じて変化する。

　出力層では、中間層Ｌ１～Ｌ４で段階的に処理された複数チャンネルの画像（特徴マップ）に対して、そのままや加重加算や論理演算（最大値演算や最小値演算も含む）が行われることにより、白杖（検出対象）の領域推定画像が生成される。

　図３は、学習モデル１３２の中間層１層分の構成を説明する図である。
　同図において、入力１チャンネルの画像は、入力層ＩＮまたは一つ前の中間層から入力される。

　この画像の処理対象画素を中心に、局所域にｎ行×ｍ列のフィルタ係数が乗じられた後、局所和を求めることにより（積和演算による畳込み層の処理）、畳込み値が生成される。
　このとき、畳込み処理の前にパディング（画像の上下左右を固定値などで数画素分だけ拡大する処理）を行うことで、積和演算における画像の上下左右の画素欠落を回避してもよい。

　この畳込み値には、バイアスが加減算される。バイアスを加減算した畳込み値は、非線形の活性化関数によって処理される。活性化関数は、所定のバイアスに対応する値を境にして、非活性域から活性域に非線形変化するニューロン特性を模擬する非線形関数である。

　このような非線形の画像処理を、水平および垂直に走査しながら行うことにより、一画素一画素をニューロン化した特徴マップが生成される。水平垂直の走査間隔（ストライド）は、１画素～数画素に設定される。

　なお、白杖の検出には、人間が保持した白杖が横幅方向（画像の水平方向）に細くて特徴を消失しやすいため、水平方向の走査間隔を密（例えば１画素単位）にすることが好ましい。

　このように生成される特徴マップは、次の中間層または出力層ＯＵＴに出力される。

　なお、図３に示すように、フィルタ係数とバイアスの組み合わせをｋ種類（ｋは自然数）設けた場合、１チャンネルの画像から、ｋチャンネルの特徴マップが生成される。

　次に、図４を参照して、複数チャンネル（同図では３チャンネルを例示）が入力される中間層１層分の処理を説明する。

　これら複数チャンネルは、入力層ＩＮに入力されるカラー画像の色成分のチャンネル（ＲＧＢやＹＣｂＣｒなど）または、一つ前の中間層から入力される特徴マップのｋチャンネルである。

　複数チャンネルの画像それぞれには、畳込み層と活性化関数の処理が図４に示すようにたすき掛けに施され、ｐ群（pは自然数）の特徴マップが生成される。これらの特徴マップのｐ群毎に加重加算や画素論理演算（最大値演算や最小値演算も含む）やバイアス加算などが施され、ｐチャンネルの特徴マップが出力される。

　図５は、学習部１５４による学習モデル１３２の学習処理を説明する図である。
　同図において、学習部１５４は、事前に収集された学習データＥを有する。この学習データＥは、「人間が白杖を持つ学習画像」と「その学習画像の白杖を第１画素値（例えば白）とし、それ以外を第２画素値（例えば黒）とした教師画像」とを１セットとしたデータセットの群である。

　学習前の学習モデル１３２では、各中間層のフィルタ係数群Ｗおよびバイアス群Ｂなどは適当な初期値に設定される。この状態で、学習部１５４は、学習データＥの学習画像を学習モデル１３２に逐次入力し、暫定の領域推定画像を逐次に得る。学習部１５４は、学習データＥの教師画像と暫定の領域推定画像との画素誤差を求める。

　学習部１５４は、求めた画素誤差が縮小する方向に、逆誤差伝搬法などを用いて、各中間層のフィルタ係数群Ｗおよびバイアス群Ｂなどの値を更新する。

　この更新動作を、学習データＥの所定セットの単位に繰り替えすたびに、各中間層のフィルタ係数群Ｗおよびバイアス群Ｂなどの値は徐々に適正化される。

　学習部１５４は、学習データＥの全部を、フィルタ係数群Ｗおよびバイアス群Ｂなどの更新処理（学習）に使用せず、学習データＥの一部を学習の効果確認に使用する。

　学習部１５４は、この学習の効果確認が十分（例えば、画素誤差の大きさの総計が許容値以下）と判断とすると、学習モデル１３２の繰り返し学習を完了する。

　以上の学習処理により、「人間が白杖を持つ入力画像」に対して、「その入力画像の白杖を第１画素値（例えば白）に比較的近い値とし、それ以外を第２画素値（例えば黒）に比較的近い値とした領域推定画像（多階調画像）」を出力する学習モデル１３２が得られる。

＜実施例１の動作＞
　図６は、画像処理システム１００による白杖検出の動作を説明する流れ図である。
　以下、同図に示すステップ番号に沿って、白杖検出を説明する。

ステップＳ１０１：　映像入力部１２１は、撮像装置１１０で動画撮影される映像フレームを例えばリアルタイムに取り込む。また、撮像装置１１０の代わりに、映像記録装置から再生される映像フレームや、ネットワークを経由した映像フレームを取り込んでもよい。

　これらの映像は、学習モデル１３２での行列演算に合わせて、１次元～複数次元からなる画素配列のデータに整形される。

　また、映像に含まれるノイズやフリッカなどの影響を低減するため、前処理として平滑化フィルタや輪郭強調フィルタ、濃度変換などの空間処理を施してもよい。
　また、用途に応じてＲＧＢカラーやＹＵＶ、モノクロなどのデータ形式を選択してもよい。さらには、演算負荷を低減するために、画像データに縮小処理を施してもよい。

ステップＳ１０２：　解析領域指定部１２２は、図７に示すように、映像フレーム３０１の全部または部分領域を切り出し、白杖を検出する画像範囲の入力画像３０２を切り出す。切り出す領域は、矩形や円や楕円などでマスクされた領域でもよく、領域に余白が生じた場合は所定の画素値で埋めてもよい。

ステップＳ１０３：　領域推定部１３１は、図８に示すように、入力画像３０２を学習モデル１３２の入力層ＩＮに入力する。学習モデル１３２は、入力画像３０２を内部の中間層で順次に処理し、出力層ＯＵＴに白杖の領域推定画像４０２を出力する。

ステップＳ１０４：　図９は、領域推定画像４０２に対する画像処理を示す図である。
　同図において、二値化部１４１は、領域推定画像４０２に対して二値化処理を行い、二値化画像５０１を生成する。この二値化画像５０１は、白杖の領域と推定される第１画素値に近い領域を白とし、それ以外を黒の背景色とした画像である。
　この二値化処理の閾値は、予め実験によって定めてもよいし、大津の二値化などにより自動的に定めてもよい。

ステップＳ１０５：　膨張処理部１４２は、二値化画像５０１に対して白画素の周囲１画素～数画素を白で塗りつぶす膨張化処理を行い、領域検出画像５０２として出力する。
　白杖の推定領域の内部には、黒画素が欠陥として混入する場合がある。膨張化処理では、白画素の領域に混入した黒画素が、膨張化された白画素によって塗りつぶされ、黒画素の欠陥は除去される。
　ここでの膨張処理の回数や膨張幅（フィルタの大きさ）は、黒画素の発生頻度などによって適宜に設定される。なお、膨張処理の前または後に白画素に対する縮小処理を行ってもよい。

ステップＳ１０６：　形状判定部１４３は、この領域検出画像５０２から白画素領域を抽出し、その白画素領域について、次の形状判定を行う。
・白画素領域の面積（画素数）は、白杖の面積の許容範囲に適合するか。
・白画素領域（を囲む最小矩形）の高さや幅やその縦横比は、白杖（を囲む最小矩形）の高さや幅や縦横比の許容範囲に適合するか。
・白画素領域の最大幅と最小幅とその扁平率は、白杖の最大幅と最小幅とその扁平率の許容範囲に適合するか。
・白画素領域に内包される最大直線の長さは、白杖の画面上の直線の長さの許容範囲に適合するか。

ステップＳ１０７：　制御部１４４は、ステップＳ１０６の形状判定に全て、または、一部合致した場合、白杖を検出したと判定して、ステップＳ１０８に動作を移行する。それ以外の場合（形状範囲に非合致）、形状判定部１４３はステップＳ１０９に動作を移行する。
　このように、画像処理部１４０は、領域推定画像４０２に基づいて検出対象である白杖の有無を判定する。つまり、画像処理部１４０は、領域推定画像４０２において検出対象として推定された画素値の領域の面積、形状、長さの一部または全部に基づいて検出対象の有無を判定する。

ステップＳ１０８：　通信部１４７は、白杖（を持った視覚障がい者の方）の検出を、発報装置１５３に送信する。送信を受けた発報装置１５３は音声や光などで報知する。この報知に係員が気付くことにより、視覚障がい者の方に対する道案内や安全配慮などのサポートが適切に行われる。

　また、通信部１４７は、ネットワーク上の監視センタなどに白杖（を持った視覚障がい者の方）の検出を通知することにより、複数箇所の監視業務を一元化してもよい。

ステップＳ１０９：　表示制御部１４５は、表示画面に領域推定画像４０２（または領域検出画像５０２）の一部または全部を表示するとともに白杖が検出されたことを示す強調表示を行う。例えば、領域推定画像４０２（または領域検出画像５０２）から白杖と推定（判定）される領域を含む所定の形状範囲（矩形や楕円など）を切り出したり、かかる所定の形状範囲の枠を表示させたり、領域推定画像４０２（または領域検出画像５０２）の枠の色や線種などを変更して表示させたりして、表示画像とする。

ステップＳ１１０：　表示制御部１４５は、映像入力部１２１から映像フレーム３０１を逐次に取り込む。
　表示制御部１４５は、映像フレーム３０１を内部のＦＩＦＯ（First In First Out）やフレームメモリを介して遅延させることにより、映像フレームと表示画像のタイムラグを調整する。表示制御部１４５は、時間を合わせた映像フレームの表示画面の対応位置に表示画像を子画面として逐次に合成する。図１０に、このように合成された表示画面を示す。

ステップＳ１１１：　表示制御部１４５は、逐次に合成された表示画面を表示モニタ１５１に動画表示する。

ステップＳ１１２：　画像処理システム１００の調整または管理の担当者は、ステップＳ１１１で動画表示される表示画面（図１０参照）を参考にしながら、調整部１４８を操作することで、次の項目の調整が可能となる。
・撮像装置１１０の調整項目（撮影範囲、撮影ズーム量、撮影フレームレート、電子シャッタ時間、絞り値、撮像感度、ガンマ調整、暗所や時刻による赤外線撮影への切替、彩度調整、ホワイトバランス、ノイズ除去、輪郭強調など）
・解析領域指定部１２２の調整項目（映像フレームの切り出し範囲やマスク範囲など）
・画像処理部１４０の調整項目（二値化の閾値設定、二値化の閾値のシステリシス幅、膨張化の幅、形状判定の項目や許容範囲など）
　調整部１４８によるこれらの調整は、表示画面（図１０参照）に迅速に反映される。そのため、担当者は、調整の具合を表示画面で即座に確認しながら、白杖検出が適切に行えるように調整を追い込むことができる。

ステップＳ１１３：　記録制御部１４６は、Ｓ１０１で取得した映像フレームと、ステップＳ１１０で合成された画像（図１０参照）とを関連付けて記録装置１５２に動画記録する。
　記録制御部１４６は、この動画記録を常時記録（一定時間経つと上書き）してもよいし、白杖を検出した期間のみ記録してもよい。また、記録制御部１４６は、動画記録の圧縮率や記録間隔を制御してもよい。

　このように記録される映像は後々の確認のためだけではなく、学習データの手動または自動の作成作業に利用される。

　以上の動作（ステップＳ１０１～１１３）の後、画像処理システム１００はステップＳ１０１に動作を戻すことで、白杖の検出動作を繰り返す。なお、画像処理システム１００の運用時にはステップＳ１１２は行われなくてもよい。
＜実施例１の効果＞

（１）実施例１では、学習モデル１３２がＦＣＮ（Fully Convolutional Network）で構成される。このＦＣＮの学習モデル１３２は、図２～図３に示したように、全ての中間層が、画像の画素単位などの空間的な特徴を次段に受け渡すことのできる畳込み層により構成される。そのため、白杖のような小さくて細い検出対象であっても最終段まで画素単位などの空間的な特徴を保つことが可能になる。したがって、画像内の小さな検出対象であっても、適切に検出することができる。

（２）ちなみに、非特許文献１の畳込みニューラルネットワークＣＮＮでは、全結合層において全ニューロンが画像の空間的な特徴を無視して網羅的に結合される。そのため、大きな被写体（人間）の特徴に活性化してしまう多数のニューロンに対して、小さな検出対象（ここでは白杖）に活性化した少数のニューロンは、全結合層に入ると紛れやすくなる。そのため、非特許文献１の畳込みニューラルネットワークＣＮＮでは、大きな被写体（人間）に並存する小さな被写体（白杖）の検出は難しくなる。

　それに対して、実施例１では、全ての中間層が、画像の画素単位などの空間的な特徴を次段に受け渡す畳込み層により構成される。そのため、大きな被写体（人間）と小さな検出対象（白杖）とが並存しても、両者を画像空間上で相対的に並存させながら処理することが可能になる。そのため、大きな被写体が並存しても、小さな検出対象が紛れることなく適切に処理できる。その結果、入力画像サイズに対する検出対象の大きさに依存せずに検出・識別が可能になる。

（３）実施例１では、学習モデル１３２で生成される多階調の領域推定画像に対して、二値化処理を実施する。学習モデル１３２では、検出対象と推定されない微小レベルの背景ノイズが発生する。二値化処理は、この微小レベルの背景ノイズを適切に削減することができる。そのため、白杖のような小さな検出対象をより適切に検出できるようになる。

（４）実施例１では、学習モデル１３２で生成される領域推定画像に対して、膨張化処理を実施する。領域推定画像では、検出対象の推定領域の内側に欠陥ノイズが発生する場合がある。白杖のような小さな検出対象の場合、欠陥ノイズにより推定領域が分断されるなど形状が崩れやすい。そのため、後の形状判定が難しくなる。
　膨張化処理は、検出対象を示す第１画素値（白）側を膨張化させることにより、欠陥ノイズを除去し、推定領域の形状崩れを修正する。
　そのため、白杖のような小さな検出対象をより適切に検出できるようになる。

（５）実施例１では、学習モデル１３２で生成される領域推定画像に対して、形状判定を実施する。学習モデル１３２では、学習データＥになかった未学習の別形状の物体を検出対象と誤って推定する場合もありうる。しかしながら、実施例１では、領域推定画像の形状判定により検出対象の形状とは別形状の物体を排除することができる。したがって、高い精度で検出対象を検出できるようになる。また、学習が若干不十分であっても検出対象を精度良く検出できるようになる。

（６）実施例１では、「学習画像」および「学習画像における検出対象を第１画素値、それ以外を第２画素値とした教師画像」のセット群を学習データとして、学習モデル１３２の学習処理を行う。このように二値に領域分けされた教師画像を使用することにより、検出対象とそれ以外とを効率的かつ明確に学習することが可能になる。

（７）ちなみに、非特許文献１の畳込みニューラルネットワークＣＮＮでは、全結合層内において検出対象の画像空間的な特徴が失われるため、全結合層の内部の推考過程を表示しても人間が解釈することができない。

　しかしながら、実施例１では、全ての中間層が検出対象の画像空間上の特徴を維持できるため、領域推定画像に基づく表示画像を表示モニタ１５１に表示することにより、学習モデル１３２の推考過程の様子を人間が視認により解釈することができる。その結果、検出・識別結果の理由付けを容易にする解析結果の可視化が可能になる。

（８）実施例１では、担当者が表示モニタ１５１を見ながら調整部１４８を介して撮像装置１１０の調整パラメータを変更設定する。この変更設定は、表示モニタ１５１に表示される表示画像に迅速に反映されるため、担当者は表示モニタ１５１を確認しながら、撮像装置１１０の調整パラメータを適切な状態に調整することが容易になる。

（９）実施例１では、担当者が表示モニタ１５１を見ながら調整部１４８を介して映像取得部１２０の調整パラメータを変更設定する。この変更設定は、表示モニタ１５１に表示される表示画像に迅速に反映されるため、担当者は表示モニタ１５１を確認しながら、映像取得部１２０の調整パラメータを適切な状態に調整することが容易になる。

（１０）実施例１では、担当者が表示モニタ１５１を見ながら調整部１４８を介して画像処理部１４０の調整パラメータを変更設定する。この変更設定は、表示モニタ１５１に表示される表示画像に迅速に反映されるため、担当者は表示モニタ１５１を確認しながら、画像処理部１４０の調整パラメータを適切な状態に調整することが容易になる。

（１１）実施例１では、図１０に示すように、撮像装置１１０から取得した映像の表示画面の対応位置に、領域推定画像に基づく表示画像の部分または全部を子画面として表示モニタ１５１に合成表示する。
　したがって、撮像装置１１０の映像と共に、検出対象（白杖）の検出状況を分かりやすく確認することが可能になる。

　実施例２は、白杖用の学習モデル１３２ａを備える点を特徴とする。
　なお、その他の構成および動作は、実施例１で示した図１～４，６～１０と同様であるため、ここでの重複説明を省略する。
＜白杖用の学習モデル１３２ａの説明＞
　図１１は、白杖用の学習モデル１３２ａの学習処理に使用する２種類の学習データＥａ，Ｅｂを示す図である。

　学習データＥａは、「人間が持つ白杖の学習画像」と「その学習画像の白杖を第１画素値（白）とし、それ以外を第２画素値（黒）とした教師画像」のセット群からなる学習データである。

　この学習データＥａを用いて学習処理を行うことにより、学習モデル１３２ａ内の中間層Ｌ１～Ｌ４で生成される特徴マップの画素（ニューロン）は、人間が持つ白杖の領域とそれ以外とを分別するようになる。したがって、人間が持つ白杖の領域を推定する学習モデルが得られる。

　一方、学習データＥｂは、「人間が持たない偽物の学習画像」と「全体を第２画素値（黒）とした教師画像」のセット群からなる学習データである。ここでの偽物は、図１１に示す道路の白線や白ポールのように、白杖に似た画像的特徴を有するものを指す。

　この学習データＥｂを用いて学習処理を行うことにより、学習モデル１３２ａ内の中間層Ｌ１～Ｌ４で生成される特徴マップの画素（ニューロン）は、人間が持たない偽物の領域に対して活性化しない傾向を示すようになる。したがって、人間が持たない偽物の領域を誤って推定しない学習モデルが得られる。

　学習部１５４は、このような２種類の学習データＥａ，Ｅｂを統合した統合学習データを作成し、この統合学習データを使用して学習モデル１３２ａの学習処理を行う。

　学習データＥａ，Ｅｂの統合学習データを用いて学習処理を行うことにより、学習モデル１３２ａ内の中間層Ｌ１～Ｌ４で生成される特徴マップの画素（ニューロン）は、「人間が持つ白杖」と「人間が持たない偽物」と「それ以外」とを、人間（顔、手、胴体、足、または肌色など）の有無や位置や間隔などの関係性によって分別するようになる。
　その結果、学習モデル１３２ａは、「人間が持つ白杖」については領域を推定し、「人間が持たない偽物」や「それ以外」については白杖と推定をしないようになる。

＜実施例２の効果＞
　実施例２は、上述した実施例１の効果に加えて、次の効果を奏する。

（１）実施例２では、「人間が持つ白杖（検出対象）の画像」および「人間が持たない偽物の画像」を含む学習画像それぞれに、「学習画像において人間が持つ白杖（検出対象）を第１の画素値、それ以外を第２の画素値とした教師画像」を対応させたセット群を統合学習データとする。
　この統合学習データを使用して学習モデル１３２ａを学習処理することにより、学習モデル１３２ａは、「人間が持つもの」という白杖（検出対象）の特徴に活性化しやすくなる一方で、「人間が持たない偽物」には活性化しないようになる。
　したがって、「人間が持たない偽物」による誤った推定を抑制し、「人間が持つもの」である白杖（検出対象）をより正確に領域推定することが可能になる。

（２）記録装置１５２には、新たな偽物の出現により誤った推定が発生した場合、その偽物の映像フレームが保存される。そこで、この新たな偽物の映像フレームを手動ないし自動で収集して偽物用の学習データＥｂを拡充することが可能になる。その結果、新たな偽物の出現に対処して、学習モデル１３２ａの学習を更新することが可能になり、白杖のような小さな検出対象をより正確に領域推定できるようになる。

　実施例３は、白杖用の学習モデル１３２ａと、偽物用の学習モデル１３２ｂとを備える点を特徴とする。

　白杖用の学習モデル１３２ａについては、実施例２（図１１参照）と同じため、ここでの重複説明を省略する。
　また、その他の構成は、実施例１で示した図１～４，６～１０と同様であるため、ここでの重複説明を省略する。

＜偽物用の学習モデル１３２ｂの説明＞
　図１２は、偽物用の学習モデル１３２ｂの学習処理に使用する２種類の学習データＥｃ，Ｅｄを示す図である。

　学習データＥｃは、「人間が持つ白杖の学習画像」と「全体を第２画素値（黒）とした教師画像」のセット群からなる学習データである。

　この学習データＥｃを用いて学習処理を行うことにより、学習モデル１３２ｂ内の中間層Ｌ１～Ｌ４で生成される特徴マップの画素（ニューロン）は、人間が持つ白杖の領域に対して活性化しない傾向を示すようになる。したがって、人間が持つ白杖の領域をわざと推定しない学習モデルが得られる。

　一方、学習データＥｄは、「人間が持たない偽物の学習画像」と「その学習画像の偽物を第１画素値（白）とし、それ以外を第２画素値（黒）とした教師画像」のセット群からなる学習データである。

　この学習データＥｄを用いて学習処理を行うことにより、学習モデル１３２ｂ内の中間層Ｌ１～Ｌ４で生成される特徴マップの画素（ニューロン）は、人間が持たない偽物の領域に対して活性化する傾向を示すようになる。したがって、人間が持たない偽物の領域をわざと推定する学習モデルが得られる。

　学習部１５４は、このような２種類の学習データＥｃ，Ｅｄを統合した統合学習データを作成し、この統合学習データを使用して学習モデル１３２ｂの学習処理を行う。
　学習データＥｃ，Ｅｄの統合学習データを用いて学習処理を行うことにより、学習モデル１３２ｂ内の中間層Ｌ１～Ｌ４で生成される特徴マップの画素（ニューロン）は、「人間が持つ白杖」と「人間が持たない偽物」と「それ以外」とを、人間（顔、手、胴体、足、または肌色など）の有無や位置や間隔などの関係性によって分別するようになる。その結果、偽物用の学習モデル１３２ｂは、「人間が持たない偽物」については領域を推定し、「人間が持つ白杖」については推定をしないようになる。

＜領域推定画像の間の演算処理について＞
　図１３は、実施例３による白杖の領域検出の様子を説明する図である。

　同図において、白杖を持った人間を撮影した入力画像３０２が入力される。
　白杖用の学習モデル１３２ａは、この入力画像３０２を処理して、白杖の領域推定画像４０２ａを生成する。この白杖の領域推定画像４０２ａには、偽物によるグレーのノイズが含まれる。

　偽物用の学習モデル１３２ｂは、この入力画像３０２を処理して、偽物の領域推定画像４０２ｂを生成する。

　二値化部１４１は、２つの領域推定画像４０２ａ，４０２ｂに対して、対応する画素ごとや領域ごとの演算処理を行って、偽物を除いた白杖の領域推定画像４０２ｃを生成する。
　例えば、二値化部１４１は、白杖の領域推定画像４０２ａから、偽物の領域推定画像４０２ｂを減算して差分画像を求める。二値化部１４１は、差分画像について、正の画素値を第１画素値（白）とし、負の画素値を第２画素値（黒）とする二値化処理を実施することにより、偽物を除いた白杖の領域推定画像４０２ｃ（二値化画像）を生成することができる。

　図１４は、実施例３における誤検出防止の様子を説明する図である。
　同図において、偽物として白ポールを撮影した入力画像３１２が入力される。

　白杖用の学習モデル１３２ａは、この入力画像３１２を処理して、白杖の領域推定画像４１２ａを生成する。この白杖の領域推定画像４１２ａには、偽物の白ポールに相当するグレーのノイズが含まれる。

　偽物用の学習モデル１３２ｂは、この入力画像３１２を処理して、偽物の領域推定画像４１２ｂを生成する。この偽物の領域推定画像４１２ｂには、偽物の白ポールに相当する明確な領域が現れる。

　二値化部１４１は、上述のように２つの領域推定画像４１２ａ，４１２ｂに対して、対応する画素ごとに論理演算を行うことにより、偽物の誤検出を除去した領域推定画像４１２ｃ（二値化画像）を生成する。

＜実施例３の効果＞
（１）実施例３は、「人間が持たない偽物の入力画像」から前記偽物を領域推定する偽物用の学習モデル１３２ｂを備える。
　この偽物用の学習モデル１３２ｂにより、偽物の領域推定画像４０２ｂが生成される。この偽物の領域推定画像４０２ｂは、白杖の領域推定画像４０２ａに誤って含まれる偽物のノイズと強い相関を示す。
　そこで、白杖の領域推定画像４０２ａに含まれる偽物のノイズを、偽物の領域推定画像４０２ｂとの相関部分を除くなどの演算処理を用いて低減できる。したがって、白杖のような小さな検出対象をより正確に領域推定することが可能になる。

（２）実施例３は、「人間が持つ白杖（検出対象）の画像」および「人間が持たない偽物の画像」を含む学習画像それぞれに、「学習画像において人間が持たない偽物を第１の画素値、それ以外を第２の画素値とした教師画像」を対応させたセット群を統合学習データとする。
　この統合学習データを使用して学習モデル１３２ｂを学習処理することにより、学習モデル１３２ｂは、「人間が持つもの」という白杖（検出対象）の特徴に活性化しないようになる一方で、「人間が持たない偽物」には活性化しやすくなる。
　そのため、「人間が持つもの」である白杖（検出対象）を偽物とはせずに、「人間が持たない偽物」をより正確に領域推定することが可能になる。
　したがって、白杖の領域推定画像４０２ａに含まれる白杖（検出対象）の領域を、偽物の領域推定画像４０２ｂとの演算処理で、誤って除いてしまうなどの不具合が少なくなる。
　その結果、白杖のような小さな検出対象をより正確に領域推定することが可能になる。

＜実施形態の補足事項＞
　上述した実施形態では、白杖を検出対象とするケースについて説明した。しかしながら、検出可能な対象は白杖に限定されない。例えば、電柱・電線・標識・人・動物・建造物・乗り物・道具・部品・レントゲンその他の多様な物体を検出対象にできる。

　特に、実施形態では、人間が持つ白杖のような物品などを正確に検出できる。このような「人間が持つ検出対象」としては、野球のバット、剣道やフェンシングの剣などのスポーツ用具や、オーケストラの指揮棒タクトや、折り畳んだ傘などがある。

　また例えば、実施形態では、画像の空間的特徴を維持したまま領域推定を行うため、比較的に小さな検出対象の検出に適している。このように画像内において小さくなりがちな検出対象としては、靴・帽子・食べ物・携帯電話・スマートフォン・部品・傷などがある。

　また、実施形態では、１種類の検出対象を検出するケースについて説明した。しかしながら、本発明はこれに限定されない。複数種類の検出対象を同時に検知することも可能である。
　なお、実施形態では、学習データにおいて検出対象である白杖を第１の画素値、その他の領域を第２の画素値としたが、その他の領域を複数の画素値に分けたものとしてもよい。例えば、人の領域を第２の画素値とし、背景を第３の画素値とするなど検出対象の数や種類によって種々変更することが好ましい。また、教師画像の画素値は輝度のみに限定されない。

　さらに、実施形態では、図２～４において中間層を具体的に図示しているが、本発明はこれに限定されない。中間層の深さ（層数）や、畳込み層のフィルタのサイズや種類に特段の制限はない。また、出力層に関しては、検出対象の種類と同数の領域推定画像（または同数の多値に分別可能な領域推定画像）を、検出対象に見合う解像度で出力するものとする。

　また、実施形態では、形状判定を画像解析により行っているが、本発明はこれに限定されない。検出対象の推定領域の種々の形状を収集し、それら形状を学習データとして機械学習させた学習モデルを用いて、形状判定を行ってもよい。

　さらに、実施形態では、複数の領域推定画像に対して差分画像の二値化処理などを行っているが、本発明はこれに限定されない。複数の領域推定画像の少なくとも一方に含まれる偽物の領域をノイズとして除去する演算処理であればよい。
　また、実施形態では、画像処理部１４０の二値化部１４１および膨張処理部１４２が領域推定画像４０２に画像処理を施した後に形状判定部１４３の形状判定に基づいて検出対象の有無を制御部１４４が判定した。しかし、本発明はこれに限定されず、二値化部１４１および膨張処理部１４２の処理は無くても良いし、いずれか一方の処理のみでもよい。

　なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
　また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。
　さらに、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

１００…画像処理システム、１１０…撮像装置、１２０…映像取得部、１２１…映像入力部、１２２…解析領域指定部、１３０…推定部、１３１…領域推定部、１３２…学習モデル、１３２ａ…白杖用の学習モデル、１３２ｂ…偽物用の学習モデル、１４０…画像処理部、１４１…二値化部、１４２…膨張処理部、１４３…形状判定部、１４４…制御部、１４５…表示制御部、１４６…記録制御部、１４７…通信部、１４８…調整部、１５１…表示モニタ、１５２…記録装置、１５３…発報装置、１５４…学習部

Claims

　映像として取得された入力画像を取り込む映像取得部と、
　予め定められた検出対象の領域について学習されたＦＣＮ(Fully Convolutional Network)の学習モデルを有し、前記入力画像を前記学習モデルで処理することにより、前記検出対象の領域推定画像を生成する推定部と、
　前記領域推定画像に基づいて前記検出対象の領域を検出する画像処理部と、
　を備えた画像処理システム。
　請求項１に記載の画像処理システムにおいて、
　前記画像処理部は、
　　前記領域推定画像に対して、二値化・膨張化・形状判定の少なくとも１つの画像処理により、前記検出対象の領域を検出する
　ことを特徴とする画像処理システム。
　請求項１～２のいずれか１項に記載の画像処理システムにおいて、
　前記推定部は、
　「学習画像」および「前記学習画像における前記検出対象を第１画素値、それ以外を第２画素値とした教師画像」のセット群を学習データとして学習された前記学習モデルを有する
　ことを特徴とする画像処理システム。
　請求項１～３のいずれか１項に記載の画像処理システムにおいて、
　前記推定部は、
　　前記入力画像における人間が持つ前記検出対象を領域推定しつつ、人間が持たない偽物による推定誤りを抑制する
　ことを特徴とする画像処理システム。
　請求項４記載の画像処理システムにおいて、
　前記推定部は、
　「人間が持つ前記検出対象が写った画像」および「人間が持たない前記偽物が写った画像」を含む学習画像それぞれに、「前記学習画像において人間が持つ前記検出対象を第１の画素値、それ以外を第２の画素値とした教師画像」を対応させたセット群を学習データとして学習された前記学習モデルを有する
　ことを特徴とする画像処理システム。
　請求項４記載の画像処理システムにおいて、
　前記推定部は、
　　前記学習モデルとして、
　　「人間が持つ前記検出対象が写った入力画像」から前記検出対象を領域推定する検出対象用の学習モデルと、
　　「人間が持たない前記偽物が写った入力画像」から前記偽物を領域推定する偽物用の学習モデルとを有し、
　　前記入力画像を、前記検出対象用の学習モデルで処理することにより、前記検出対象の領域推定画像を生成し、
　　前記入力画像を、前記偽物用の学習モデルで処理することにより、前記偽物の領域推定画像を生成し、
　前記検出対象の領域推定画像と、前記偽物の領域推定画像とについて演算処理を行って、前記偽物の推定誤りを抑制した前記検出対象の領域推定を行う
　ことを特徴とする画像処理システム。
　映像として取得された入力画像を取り込む映像取得部と、
　予め定められた検出対象の領域について学習されたＦＣＮ(Fully Convolutional Network)の学習モデルを有し、前記入力画像を前記学習モデルで処理することにより、前記検出対象の領域推定画像を生成する推定部と、
　前記領域推定画像に基づいて前記検出対象の領域を検出する画像処理部とを備え、
　前記画像処理部は、
　　前記領域推定画像に基づく表示画像を生成し、前記表示画像を表示制御する表示制御部を有する
　を備えた画像処理システム。
　請求項７に記載の画像処理システムにおいて、
　前記画像処理部は、
　　「撮影により前記入力画像を出力するカメラ」、「前記映像取得部の映像処理」および「前記領域推定画像から前記検出対象の領域を検出する画像処理」の少なくとも一つの調整パラメータを変更設定する調整部を備え、
　前記表示制御部は、
　　前記調整部による調整を前記表示画像に反映させ、前記表示画像を確認しながらの前記調整部の調整作業を可能にする
　ことを特徴とする画像処理システム。
　請求項８に記載の画像処理システムにおいて、
　前記表示制御部は、
　　前記映像を表示する画面の対応位置に、前記表示画像を部分的な子画面として表示する
　ことを特徴とする画像処理システム。
　請求項１～９のいずれか１項に記載の画像処理システムにおいて、
　前記推定部は、
　　白杖を前記検出対象として、前記入力画像における前記白杖を領域推定する前記学習モデルを有する
　ことを特徴とする画像処理システム。
　映像として取得された入力画像を取り込む映像取得ステップと、
　予め定められた検出対象の領域について学習されたＦＣＮ(Fully Convolutional Network)の学習モデルを使用し、前記入力画像を前記学習モデルで処理することにより、前記検出対象の領域推定画像を生成する推定ステップと、
　前記領域推定画像に基づいて前記検出対象の領域を検出する画像処理ステップと、
　を備えた画像処理方法。
　請求項１ないし請求項１０のいずれか１項に記載の前記映像取得部、前記推定部、および前記画像処理部として、情報処理装置を機能させる
　ことを特徴とする画像処理プログラム。