WO2021245896A1

WO2021245896A1 - 分割認識方法、分割認識装置及びプログラム

Info

Publication number: WO2021245896A1
Application number: PCT/JP2020/022225
Authority: WO
Inventors: 泳青孫; 峻司細野
Original assignee: 日本電信電話株式会社
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2021-12-09
Also published as: JPWO2021245896A1; US20230186478A1; JP7323849B2

Abstract

分割認識方法は、対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、対象画像における物体画像を検出する物体検出ステップと、境界ボックス情報に基づいて、対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出するフィルタリングステップと、物体画像の物体を認識する物体認識モデルの重み情報の初期値として物体検出モデルの重み情報を用いて、物体画像を認識する境界ボックスブランチステップと、選出された有効な教師マスク情報を教師データとして、物体画像の形状で対象画像を分割する分割形状モデルの重み情報の初期値として物体認識モデルの重み情報を用いて、物体画像の形状を有するマスク情報を生成するマスクブランチステップとを含む。

Description

分割認識方法、分割認識装置及びプログラム

　本発明は、分割認識方法、分割認識装置及びプログラムに関する。

　セマンティック・セグメンテーション（意味的領域分割）とは、動画像又は静止画像の各画素にカテゴリを割当てる（画像内のオブジェクトを認識する）技術である。セマンティック・セグメンテーションは、自動運転、医療用画像の解析、撮影された人物等のオブジェクトの状態及びポーズ推定等に応用されている。

　近年、深層学習を用いて画像を画素単位で領域分割する技術が、盛んに研究されている。画像を画素単位で領域分割する技術として、例えば、Ｍａｓｋ－ＲＣＮＮ（Mask - Regions with Convolutional Neural Networks)という技術がある（非特許文献１参照）。

　図８は、Ｍａｓｋ－ＲＣＮＮの処理例を示す図である。図８には、対象画像１００と、ＣＮＮ１０１（Convolutional Neural Network : CNN）と、ＲＰＮ１０２（Region Proposal Network）と、特徴マップ１０３と、固定サイズ特徴マップ１０４と、全結合層１０５と、マスクブランチ１０６とが表されている。図８では、対象画像１００は、境界ボックス２００（bounding box）と、境界ボックス２０１と、境界ボックス２０２とを含む。

　ＣＮＮ１０１は、畳み込みニューラルネットワークがベースとなったバックボーン・ネットワークである。ＣＮＮ１０１には、対象画像１００における物体のカテゴリごとに、画素単位の境界ボックスが教師データとして入力される。対象画像１００における物体の位置検出と画素単位のカテゴリの割り当てとが、全結合層１０５とマスクブランチ１０６との二つの分岐処理で並列に実行される。このような教師あり領域分割（教師あり物体形状分割）の手法は、高度な教師情報が画素単位で用意される必要があるため、手間や時間のコストが膨大である。

　画像内の物体画像ごと又は領域ごとのカテゴリ情報を用いて学習する手法は、弱教師あり領域分割（弱教師あり物体形状分割）と呼ばれている。弱教師あり学習による物体形状分割では、物体画像ごと又は領域ごとに教師データ（境界ボックス）が収集されるので、画素単位の教師データを収集する必要がなく、手間や時間のコストが大幅に削減される。

　弱教師あり領域分割の例が、非特許文献２に開示されている。非特許文献２にでは、予め用意された領域（bounding box）ごとのカテゴリ情報に対して、ＭＣＧ（Multiscale combinatorial grouping）やＧｒａｂｃｕｔを用いて、画像内の前景と背景とが分離される。前景（マスク情報）が物体形状分割及び認識ネットワーク（例えば、Ｍａｓ－ＲＣＮＮ)に教師データとして入力される。これによって、物体形状分割（前景の抽出）と物体の認識とが実行される。

Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick, "Mask R-CNN," ICCV(International Conference on Computer Vision) 2017. Jifeng Dai, Kaiming He, Jian Sun, "BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentation," ICCV(International Conference on Computer Vision) 2015.

　教師データとしてニューラルネットワークに入力されるマスク情報（以下「教師マスク情報」という。）の質は、弱教師あり領域分割の性能に大きな影響を与える。

　物体形状分割のためのベンチマークデータセット（境界ボックス情報付き）を対象画像として、Ｇｒａｂｃｕｔの手法を用いる既存の弱教師あり領域分割によって教師マスク情報が生成された場合について、弱教師あり領域分割に使われた教師マスク情報の質が調査された。この調査では、全体の教師マスク情報のうちの約３０％の教師マスク情報は、無効な教師マスク情報、すなわち物体画像（前景）が含まれていない教師マスク情報であった。また、無効な教師マスク情報のうちの約６０％の教師マスク情報が表す教師マスクの領域は、６４×６４ピクセル以下の小さい領域であった。

　非特許文献２では、Ｇｒａｂｃｕｔの手法を用いて生成された無効なマスク情報が教師データとして用いられ、画像内の物体形状分割と物体の認識（カテゴリ情報の付与）とがを実行されたことで、サイズの小さい物体画像の物体形状分割の精度と、サイズの小さい物体画像の物体の認識精度とが低くなることがある。このように従来では、対象画像における物体画像の物体形状分割の精度と、物体画像の物体の認識精度とが低い場合がある。

　上記事情に鑑み、本発明は、対象画像における物体画像の物体形状分割の精度と、物体画像の物体の認識精度とを向上させることが可能である分割認識方法、分割認識装置及びプログラムを提供することを目的としている。

　本発明の一態様は、分割認識装置が実行する分割認識方法であって、分割認識装置が実行する分割認識方法であって、対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、前記対象画像における物体画像を検出する物体検出ステップと、前記境界ボックス情報に基づいて、前記対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出するフィルタリングステップと、前記物体画像の物体を認識する物体認識モデルの重み情報の初期値として前記物体検出モデルの重み情報を用いて、前記物体画像を認識する境界ボックスブランチステップと、選出された前記有効な教師マスク情報を教師データとして、前記物体画像の形状で前記対象画像を分割する分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いて、前記物体画像の形状を有するマスク情報を生成するマスクブランチステップとを含む分割認識方法である。

　本発明の一態様は、対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、前記対象画像における物体画像を検出する物体検出部と、前記境界ボックス情報に基づいて、前記対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出するフィルタリング部と、前記物体画像の物体を認識する物体認識モデルの重み情報の初期値として前記物体検出モデルの重み情報を用いて、前記物体画像を認識する境界ボックスブランチと、選出された前記有効な教師マスク情報を教師データとして、前記物体画像の形状で前記対象画像を分割する分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いて、前記物体画像の形状を有するマスク情報を生成するマスクブランチとを備える分割認識装置である。

　本発明の一態様は、上記の分割認識装置としてコンピュータを機能させるためのプログラムである。

　本発明により、対象画像における物体画像の物体形状分割の精度と、物体画像の物体の認識精度とを向上させることが可能である。

実施形態における、分割認識システムの構成例を示す図である。実施形態における、対象画像の処理例を示す図である。実施形態における、マスクブランチの構成例を示す図である。実施形態における、分割認識システムの動作例を示す図である。実施形態における、フィルタリング部の動作例を示す図である。実施形態における、分割認識部の動作例を示す図である。実施形態における、分割認識装置のハードウェア構成例を示す図である。Ｍａｓｋ－ＲＣＮＮの処理例を示す図である。

　本発明の実施形態について、図面を参照して詳細に説明する。
　（概要）
　実施形態では、物体形状分割（物体画像の形状を有するマスク情報の生成）と物体認識（境界ボックスに対するカテゴリ情報の付与）とのフレームワークにおける、物体検出（境界ボックスの導出）と物体形状分割との二つのタスクの目的に合わせて、教師マスク情報が分けられて有効に利用される。これによって、物体形状分割の精度と、物体認識の精度とが向上する。

　つまり、物体検出部（物体検出タスク）と境界ボックスブランチ（物体認識タスク）では、全ての境界ボックス情報（各境界ボックスの座標、各境界ボックスのカテゴリ情報）が、有効な情報である。このため、物体検出タスクと物体認識タスクでは、全ての境界ボックス情報が利用される。

　これに対して、マスクブランチ（マスク情報生成タスク）では、無効なマスク情報は、物体形状分割の精度と物体認識の精度とに影響を与える。このため、１個以上の弱教師データに対して、フィルタリング処理が実行される。これによって、マスクブランチでは、選出された有効なマスク情報が利用される。

　以下では、物体検出部は、物体形状分割と物体認識との対象となる画像（対象画像）と、対象画像に予め定められた境界ボックス情報（予め定められた正解領域「ground truth」としての境界ボックス「bounding box」）を用いて、対象画像における物体画像を検出する。

　フィルタリング部は、対象画像に予め定められた境界ボックスを用いる、Ｇｒａｂｃｕｔ等の物体形状分割（前景の抽出）の手法を用いて、抽出された前景を表す教師マスク情報を導出する。フィルタリング部は、その教師マスク情報にフィルタリング処理を実行することによって、導出された教師マスク情報のうちから有効な教師マスク情報（有効教師マスク情報）を選出する。

　分割認識部は、選出された有効マスク情報を教師データとし、第１物体検出部によって学習された物体検出モデルのニューラルネットワークの重み情報を物体形状分割と物体認識との初期値として、物体形状分割と物体認識とを実行する。ここで、分割認識部は、第１物体検出部によって学習された物体検出モデルを、転移学習の手法を用いて形状分割モデルと物体認識モデルとに転移させてもよい。これによって、分割認識部は、対象画像内の様々なサイズの物体画像に対して、物体形状分割（マスク情報の生成）と物体認識とを実行することができる。

　（実施形態）
　図１は、実施形態における、分割認識システム１の構成例を示す図である。分割認識システム１は、物体画像の形状で対象画像を分割し、物体画像の物体を認識する（物体画像にカテゴリを割り当てる）システムである。分割認識システム１は、物体画像の形状のマスクを生成し、対象画像内の物体画像にマスクを重畳する。

　分割認識システム１は、記憶装置２と、分割認識装置３とを備える。分割認識装置３は、取得部３０と、第１物体検出部３１と、フィルタリング部３２と、分割認識部３３とを備える。分割認識部３３は、第２物体検出部３３０と、境界ボックスブランチ３３１と、マスクブランチ３３２とを備える。

　記憶装置２は、対象画像と境界ボックス情報とを記憶する。境界ボックス情報（弱教師データ）は、対象画像において各物体画像を囲む各境界ボックスの座標及びサイズと、各境界ボックスのカテゴリ情報とを含む。カテゴリ情報は、例えば、対象画像に撮影されたロボット又は車両等のオブジェクトのカテゴリを表す情報である。記憶装置２は、処理指示信号を取得部３０から受信した場合、対象画像と境界ボックス情報とを取得部３０に出力する。

　記憶装置２は、境界ボックスブランチ３３１によって物体認識モデルを用いて更新された境界ボックス情報を記憶する。記憶装置２は、マスクブランチ３３２によって生成されたマスク情報を記憶する。マスク情報は、マスク画像の座標とマスク画像の形状情報とを含む。マスク画像の形状は、物体画像の形状とほぼ同じである。マスク画像は、対象画像において物体画像に重畳される。

　取得部３０は、処理指示信号を記憶装置２に出力する。取得部３０は、境界ボックス情報（各境界ボックスの座標及びサイズ、各境界ボックスのカテゴリ情報）と対象画像とを、記憶装置２から取得する。取得部３０は、弱教師データとしての境界ボックス情報（予め定められた正解領域「ground truth」としての境界ボックス「bounding box」）と対象画像とを、第１物体検出部３１とフィルタリング部３２とに出力する。

　第１物体検出部３１（Faster R-CNN）は、取得部３０から取得された境界ボックス情報と対象画像とに基づいて、「Ｆａｓｔｅｒ　Ｒ－ＣＮＮ」等の畳み込みニューラルネットワークに基づく第１物体検出モデルを用いて、対象画像内の物体を検出する（参考文献１：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun,CVPR2015.）。

　すなわち、第１物体検出部３１は、境界ボックス情報と対象画像とに基づいて、第１物体検出モデル情報（境界ボックス情報、第１物体検出モデルの重み情報）を生成する。第１物体検出部３１は、対象画像と第１物体検出モデル情報とを、第２物体検出部３３０に出力する。

　フィルタリング部３２は、取得部３０から取得された境界ボックス情報と対象画像とに基づいて、対象画像内の前景を表すマスク情報を生成する。マスク画像の形状は、前景としての物体画像の形状とほぼ同じである。フィルタリング部３２は、対象画像内の１個以上の前景のうちから有効な前景を、有効マスクとして選出する。フィルタリング部３２は、有効マスクをマスクブランチ３３２に出力する。

　第２物体検出部３３０（CNN Backbone）は、第１物体検出モデル情報（境界ボックス情報、第１物体検出モデルの重み情報）と対象画像とを、第１物体検出部３１から取得する。第２物体検出部３３０は、第１物体検出モデルのニューラルネットワークに基づく転移学習のファインチューニング手法において、第１物体検出モデルの重み情報を用いて、第２物体検出モデルの重み情報を学習することによって、第２物体検出モデルを生成する。第２物体検出部３３０は、第２物体検出モデル情報（境界ボックス情報、第２物体検出モデルの重み情報）と対象画像とを、境界ボックスブランチ３３１とマスクブランチ３３２とに出力する。

　境界ボックスブランチ３３１（bounding box branch）は、第２物体検出モデル情報（境界ボックス情報、第２物体検出モデルの重み情報）と対象画像とを、第２物体検出部３３０から取得する。境界ボックスブランチ３３１は、対象画像と第２物体検出モデル情報とに基づいて、物体認識モデルの重み情報を学習することによって、対象画像内の境界ボックス情報を更新する。境界ボックスブランチ３３１は、境界ボックスブランチ３３１は、物体認識モデルを用いて更新された境界ボックス情報を、記憶装置２に記録する。

　マスクブランチ３３２（mask branch）は、第２物体検出モデル情報（境界ボックス情報、第２物体検出モデルの重み情報）と対象画像とを、第２物体検出部３３０から取得する。マスクブランチ３３２は、有効マスクをフィルタリング部３２から取得する。マスクブランチ３３２は、対象画像と、有効マスクと、第２物体検出モデル情報（境界ボックス情報、第２物体検出モデルの重み情報）と、物体認識モデルの重み情報とに基づいて、形状分割モデルの重み情報を学習することによって、物体画像の形状を有するマスク情報を生成する。マスクブランチ３３２は、生成されたマスク情報を記憶装置２に記録する。

　図２は、実施形態における、対象画像の処理例を示す図である。図２では、境界ボックス３０１と境界ボックス３０２とが、対象画像３００に定められている。境界ボックスブランチ３３１は、境界ボックス３０１と境界ボックス３０２とに基づいて、物体画像を包含する境界ボックス３０４を生成する。マスクブランチ３３２は、生成されたマスクを対象画像３００の物体画像に重畳する。マスク画像３０５の形状は、物体画像の形状とほぼ同じである。

　図３は、実施形態における、マスクブランチ３３２の構成例を示す図である。マスクブランチ３３２は、連結部３３２０と、全結合部３３２１と、活性化部３３２２と、全結合部３３２３と、活性化部３３２４と、サイズ整形部３３２５と、畳み込み部３３２６とを備える。

　連結部３３２０は、カテゴリ情報（識別特徴、クラス化特徴）と、境界ボックス情報とを、第２物体検出部３３０から取得する。連結部３３２０は、カテゴリ情報と境界ボックス情報とを連結する。全結合部３３２１は、連結部３３２０の出力を完全連結する。活性化部３３２２は、全結合部３３２１の出力に対して、活性化関数「ＬｅａｋｙＲｅＬＵ」を実行する。

　全結合部３３２３は、活性化部３３２２の出力を完全連結する。活性化部３３２４は、全結合部３３２３の出力に対して、活性化関数「ＬｅａｋｙＲｅＬＵ」を実行する。サイズ整形部３３２５は、活性化部３３２４の出力のサイズを整形する。

　畳み込み部３３２６は、サイズ整形部３３２５の出力を取得する。畳み込み部３３２６は、有効マスク（セグメンテーション特徴）をフィルタリング部３２から取得する。畳み込み部３３２６は、有効マスクを用いて、活性化部３３２４の出力に対して畳み込み処理を実行することによって、マスク情報を生成する。

　次に、分割認識システム１の動作例を説明する。
　図４は、実施形態における、分割認識システム１の動作例を示す図である。取得部３０は、処理指示信号を記憶装置２に出力する。取得部３０は、境界ボックス情報（各境界ボックスの座標、各境界ボックスのカテゴリ情報）と対象画像とを、処理指示信号の応答として、記憶装置２から取得する（ステップＳ１０１）。

　フィルタリング部３２は、対象画像と境界ボックス情報とに基づいて、有効マスクを生成する。すなわち、フィルタリング部３２は、対象画像と境界ボックス情報とに基づいて、対象画像内の前景のうちから有効な前景を、有効マスクとして選出する（ステップＳ１０２）。フィルタリング部３２は、ステップＳ１０８に処理を進める。

　第１物体検出部３１は、対象画像と境界ボックス情報とに基づいて、対象画像内の物体画像を検出するためのモデルである第１物体検出モデル情報（Faster R-CNN）を生成する。第１物体検出部３１は、第１物体検出モデル情報（境界ボックス情報、第１物体検出モデルの重み情報）と対象画像とを、第２物体検出部３３０に出力する（ステップＳ１０３）。

　第２物体検出部３３０は、対象画像と第１物体検出モデル情報とに基づいて、第２物体検出モデルの重み情報を学習することによって、第２物体検出モデル情報を生成する。第２物体検出部３３０は、第２物体検出モデル情報（境界ボックス情報、第２物体検出モデルの重み情報）と対象画像とを、境界ボックスブランチ３３１とマスクブランチ３３２とに出力する（ステップＳ１０４）。

　境界ボックスブランチ３３１は、対象画像と第２物体検出モデル情報とに基づいて、物体認識モデルの重み情報を学習することによって、対象画像内の境界ボックス情報を更新する（ステップＳ１０５）。

　境界ボックスブランチ３３１は、物体認識モデルを用いて更新された境界ボックス情報を、記憶装置２に記録する（ステップＳ１０６）。境界ボックスブランチ３３１は、物体認識モデルの重み情報を、マスクブランチ３３２に出力する（ステップＳ１０７）。

　マスクブランチ３３２は、対象画像と、有効マスクと、第２物体検出モデル情報（境界ボックス情報、第２物体検出モデルの重み情報）と、物体認識モデルの重み情報とに基づいて、形状分割モデルの重み情報を学習することによって、物体画像の形状を有するマスク情報を生成する（ステップＳ１０８）。マスクブランチ３３２は、生成されたマスク情報を、記憶装置２に記録する（ステップＳ１０９）。

　図５は、実施形態における、フィルタリング部３２の動作例（図４に示されたステップＳ１０２の詳細）を示す図である。フィルタリング部３２は、対象画像と、境界ボックス情報（予め定められた正解領域「ground truth」としての境界ボックス「bounding box」）とを、取得部３０から取得する（ステップＳ２０１）。

　フィルタリング部３２は、境界ボックス情報に基づいて、前景と背景とに対象画像を分割する（ステップＳ２０２）。フィルタリング部３２は、各境界ボックスのＩｏＵ（Intersection over Union）を導出する。ＩｏＵは、物体検出における評価指標の一つである。すなわち、ＩｏＵは、予め定められた正解領域としての境界ボックス情報と境界ボックス（予測領域）との和集合の面積に対する、境界ボックス情報と境界ボックス（予測領域）との積集合の面積である（ステップＳ２０３）。フィルタリング部３２は、各境界ボックスのＩｏＵに基づいて、有効な前景（物体画像）を有効マスクとして選出する（ステップＳ２０４）。

　フィルタリング部３２は、例えば、ＩｏＵが第１閾値以上である境界ボックス内の前景を、有効マスクとして選出する。フィルタリング部３２は、境界ボックスの面積に対する、その境界ボックス内の前景（物体画像）の面積の比率（充填率）に基づいて、有効な前景を有効マスクとして選出してもよい。例えば、フィルタリング部３２は、充填率が第２閾値以上である境界ボックス内の前景を、有効マスクとして選出する。また、フィルタリング部３２は、境界ボックスの画素数に基づいて、境界ボックス内の前景を有効マスクとして選出してもよい。例えば、フィルタリング部３２は、画素数が第３閾値以上である境界ボックス内の前景を、有効マスクとして選出してもよい。

　図６は、実施形態における、分割認識部３３の動作例を示す図である。分割認識部３３において、第２物体検出部３３０は、第１物体検出モデル情報（第１物体検出モデルの重み情報）と対象画像とを、第１物体検出部３１から取得する。マスクブランチ３３２は、有効マスクをフィルタリング部３２から取得する（ステップＳ３０１）。

　第２物体検出部３３０は、第１物体検出モデルのニューラルネットワークに基づく転移学習のファインチューニング手法において、第１物体検出モデルの重み情報を用いて、第２物体検出モデルの重み情報を学習することによって、第２物体検出モデルを生成する（ステップＳ３０２）。

　境界ボックスブランチ３３１は、第２物体検出モデル情報（第２物体検出モデルの重み情報）と対象画像とに基づいて、物体認識モデルの重み情報を学習することによって、物体認識モデルを生成する（ステップＳ３０３）。境界ボックスブランチ３３１は、物体認識モデルの重み情報を用いて、対象画像の境界ボックス情報を更新する（ステップＳ３０４）。

　物体認識モデルの重み情報は、様々なサイズの物体画像を検出することが可能である。これに対して、マスクブランチ３３２における形状分割モデルでは、サイズの大きい有効マスクが入力データとなっている。このため、ステップＳ３０４の時点では、形状分割モデルは、サイズの大きい物体画像を対象画像において分割できるが、サイズの小さい物体画像を対象画像において精度よく分割することができない。

　そこで、マスクブランチ３３２は、物体認識モデルの特徴量に基づく転移学習のファインチューニング手法において、物体認識モデルの重み情報を用いて形状分割モデルの重み情報を学習することによって、形状分割モデルを生成する（ステップＳ３０５）。マスクブランチ３３２は、形状分割モデルを用いて、物体画像の形状で対象画像を分割することによって、物体画像の形状を有するマスク情報を生成する（ステップＳ３０５）。

　以上のように、第１物体検出部３１は、対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、対象画像における物体画像を検出する。フィルタリング部３２は、境界ボックス情報に基づいて、対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出する。境界ボックスブランチ３３１は、物体画像の物体を認識する物体認識モデルの重み情報の初期値として物体検出モデルの重み情報を用いて、物体画像を認識する。マスクブランチ３３２は、選出された有効な教師マスク情報を教師データとして、物体画像の形状で対象画像を分割する分割形状モデルの重み情報の初期値として物体認識モデルの重み情報を用いて、物体画像の形状を有するマスク情報を生成する。

　このように、選出された有効な教師マスク情報を教師データとして、分割形状モデルの重み情報の初期値として物体認識モデルの重み情報を用いて、物体画像の形状を有するマスク情報を生成する。これによって、対象画像における物体画像の物体形状分割の精度と、物体画像の物体の認識精度とを向上させることが可能である。

　図７は、実施形態における、分割認識装置のハードウェア構成例を示す図である。分割認識システム１の各機能部のうちの一部又は全部は、ＣＰＵ（Central Processing Unit）等のプロセッサ４が、不揮発性の記録媒体（非一時的な記録媒体）を有する記憶装置２とメモリ５とに記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。表示部６は、画像を表示する。

　分割認識システム１の各機能部の一部又は全部は、例えば、ＬＳＩ（Large Scale Integration circuit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）又はＦＰＧＡ（Field Programmable Gate Array）等を用いた電子回路（electronic circuit又はcircuitry）を含むハードウェアを用いて実現されてもよい。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　本発明は、画像処理装置に適用可能である。

１…分割認識システム、２…記憶装置、３…分割認識装置、４…プロセッサ、５…メモリ、６…表示部、３０…取得部、３１…第１物体検出部、３２…フィルタリング部、３３…分割認識部、１００…対象画像、１０１…ＣＮＮ、１０２…ＲＰＮ、１０３…特徴マップ、１０４…固定サイズ特徴マップ、１０５…全結合層、１０６…マスクブランチ、２００…境界ボックス、２０１…境界ボックス、２０２…境界ボックス、３００…対象画像、３０１…境界ボックス、３０２…境界ボックス、３０３…対象画像、３０４…境界ボックス、３０５…マスク画像、３３０…第２物体検出部、３３１…境界ボックスブランチ、３３２…マスクブランチ、３３２０…連結部、３３２１…全結合部、３３２２…活性化部、３３２３…全結合部、３３２４…活性化部、３３２５…サイズ整形部、３３２６…畳み込み部

Claims

　分割認識装置が実行する分割認識方法であって、
　対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、前記対象画像における物体画像を検出する物体検出ステップと、
　前記境界ボックス情報に基づいて、前記対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出するフィルタリングステップと、
　前記物体画像の物体を認識する物体認識モデルの重み情報の初期値として前記物体検出モデルの重み情報を用いて、前記物体画像を認識する境界ボックスブランチステップと、
　選出された前記有効な教師マスク情報を教師データとして、前記物体画像の形状で前記対象画像を分割する分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いて、前記物体画像の形状を有するマスク情報を生成するマスクブランチステップと
　を含む分割認識方法。
　前記マスクブランチステップでは、転移学習の手法によって、前記分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いる、
　請求項１に記載の分割認識方法。
　前記フィルタリングステップでは、予め定められた正解領域としての前記境界ボックス情報と前記境界ボックスとの和集合の面積に対する前記境界ボックス情報と前記境界ボックスとの積集合の面積と、前記境界ボックスの面積に対する前記境界ボックス内の前景の面積の比率と、前記境界ボックスの画素数とのうちのいずれか一つに基づいて、前記有効な教師マスク情報を選出する、
　請求項１又は請求項２に記載の分割認識方法。
　対象画像に定められた各境界ボックスの座標及びカテゴリ情報を含む境界ボックス情報を、機械学習の手法を用いる物体検出モデルに入力することによって、前記対象画像における物体画像を検出する物体検出部と、
　前記境界ボックス情報に基づいて、前記対象画像における前景に対応付けられた教師マスク情報のうちから、有効な教師マスク情報を選出するフィルタリング部と、
　前記物体画像の物体を認識する物体認識モデルの重み情報の初期値として前記物体検出モデルの重み情報を用いて、前記物体画像を認識する境界ボックスブランチと、
　選出された前記有効な教師マスク情報を教師データとして、前記物体画像の形状で前記対象画像を分割する分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いて、前記物体画像の形状を有するマスク情報を生成するマスクブランチと
　を備える分割認識装置。
　前記マスクブランチは、転移学習の手法によって、前記分割形状モデルの重み情報の初期値として前記物体認識モデルの重み情報を用いる、
　請求項４に記載の分割認識装置。
　前記フィルタリング部は、予め定められた正解領域としての前記境界ボックス情報と前記境界ボックスとの和集合の面積に対する前記境界ボックス情報と前記境界ボックスとの積集合の面積と、前記境界ボックスの面積に対する前記境界ボックス内の前景の面積の比率と、前記境界ボックスの画素数とのうちのいずれか一つに基づいて、前記有効な教師マスク情報を選出する、
　請求項４又は請求項５に記載の分割認識装置。
　請求項４から請求項６のいずれか一項に記載の分割認識装置としてコンピュータを機能させるためのプログラム。