WO2022230147A1

WO2022230147A1 - 認識装置、認識方法、認識プログラム、モデル学習装置、モデル学習方法、及びモデル学習プログラム

Info

Publication number: WO2022230147A1
Application number: PCT/JP2021/017091
Authority: WO
Inventors: 淳伊藤; 法子横山; 千尋山本; 和昭尾花
Original assignee: 日本電信電話株式会社
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2022-11-03
Also published as: JPWO2022230147A1

Abstract

認識装置は、データ抽出部と、認識部と、割合推定部とを含む。データ抽出部は、対象物を収めた容器に対する処置の前後を撮影した後の画像である認識対象画像について、対象物に関連する関連情報を取得し、認識対象画像及び関連情報の組み合わせである認識対象データを抽出する。認識部は、認識対象データを予め学習されたモデルへの入力としてモデルの出力により、容器と、対象物と、対象物以外と、が少なくとも区分される領域を認識した認識結果を出力する。割合推定部は、予め保存された前後を撮影した前の画像における面積割合と、認識結果とに基づいて、認識対象画像における対象物の割合を推定する。モデルは、認識対象画像を特徴量マップへと変換し、関連情報から得られる潜在情報により特徴量マップを重み付けて算出することにより、領域を認識する。

Description

認識装置、認識方法、認識プログラム、モデル学習装置、モデル学習方法、及びモデル学習プログラム

　開示の技術は、認識装置、認識方法、認識プログラム、モデル学習装置、モデル学習方法、及びモデル学習プログラムに関する。

　従来、画像に何が写っているかを認識する手法として、Ｕ－Ｎｅｔなどに代表されるセマンティックセグメンテーションが用いられてきた（非特許文献１参照）。何が写っているかを矩形ごとのラベルで表現する物体検出と異なり、セマンティックセグメンテーションは画素ごとのラベルで表現するため、被写体の領域を細かく捉えることができる。

O. Ronneberger, P. Fischer, and T. Brox, "U-Net: Convolutional Networks for Biomedical Image Segmentation," in MICCAI 2015.

　しかし、認識の難易度が高い場合に、従来の画像情報のみを用いたセマンティックセグメンテーション技術をそのまま適用するだけでは認識精度が低い場合がある。

　開示の技術は、上記の点に鑑みてなされたものであり、認識の困難な画像の領域の認識を可能にする認識装置、認識方法、認識プログラム、モデル学習装置、モデル学習方法、及びモデル学習プログラムを提供することを目的とする。

　本開示の第１態様は、認識装置であって、対象物を収めた容器に対する処置の前後を撮影した後の画像である認識対象画像について、前記対象物に関連する関連情報を取得し、前記認識対象画像及び前記関連情報の組み合わせである認識対象データを抽出するデータ抽出部と、前記認識対象データを予め学習されたモデルへの入力として前記モデルの出力により、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識した認識結果を出力する認識部と、予め保存された前記前後を撮影した前の画像における面積割合と、前記認識結果とに基づいて、前記認識対象画像における前記対象物の割合を推定する割合推定部と、を含み、前記モデルは、前記認識対象画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記領域を認識する。

　本開示の第２態様は、モデル学習装置であって、対象物を収めた容器に対する処置の前後を撮影した学習用の後の画像、前記後の画像に対応する学習用のマスク画像、及び前記対象物に関連する関連情報を含む学習用のデータを入力とし、モデルにより、前記画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識したマスク画像を認識結果として出力する認識部と、前記認識結果のマスク画像と、前記学習用のデータに含まれるマスク画像の差分を損失として数値化し、損失が少なくなるように前記モデルのパラメータを更新するモデル更新部と、を含む。

　開示の技術によれば、認識の困難な画像の領域の認識を可能にすることができる。

モデル学習装置及び認識装置のハードウェア構成を示すブロック図である。本実施形態のモデル学習装置の構成を示すブロック図である。学習用情報記憶部のデータ構造の例である。関連情報記憶部のデータ構造の例である。本実施形態の認識装置の構成を示すブロック図である。マスク情報のデータ構造の例である。出力部の出力データのデータ構造の例である。モデルにおけるセマンティックセグメンテーションのネットワーク構成例である。特徴量マップのチャンネル成分に対して、重み付き特徴量マップ算出処理を行う例である。特徴量マップの空間成分に対して、重み付き特徴量マップ算出処理を行う例である。モデル学習装置によるモデル学習処理の流れを示すフローチャートである。認識装置による認識処理の流れを示すフローチャートである。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

　まず、本開示の概要について説明する。

　セマンティックセグメンテーションの技術は、例えば、食事後の食器を撮影した画像から食べ残しを認識するようなユースケースにおいても適用ができる。

　しかし、上記課題において説明したように、食事後の食器を撮影した画像から食べ残しを認識するユースケースにおいて、従来の画像情報のみを用いたセマンティックセグメンテーション技術をそのまま適用するだけでは認識精度が低い場合がある。皿に残ったものがすべて食べ残しとなるわけではなく、食べ残しに該当しない残留物も含まれるため、認識の難易度が高いことが原因である。例えば、お椀に液体が残っていた場合、メニューがスープであれば食べ残しとなるが、ラーメンであれば完飲しないことも考えられるため食べ残しに該当しない残留物となるべきである。食べ残しに該当しない残留物のその他の例として、エビのしっぽ、パセリ、ソースやドレッシングによる皿の汚れ、などがあげられる。

　なお、以下の実施形態の説明においては食器の食べ残しを認識する態様を例に説明するが、容器の対象物の認識全般に適用可能である。

　本実施形態の構成について説明する。実施形態は、モデル学習装置と、認識装置とのそれぞれについて説明する。

　図１は、モデル学習装置１００及び認識装置２００のハードウェア構成を示すブロック図である。モデル学習装置１００及び認識装置２００は同様のハードウェア構成とすることができる。

　図１に示すように、モデル学習装置１００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１３、ストレージ１４、入力部１５、表示部１６及び通信インタフェース（Ｉ／Ｆ）１７を有する。各構成は、バス１９を介して相互に通信可能に接続されている。

　ＣＰＵ１１は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４からプログラムを読み出し、ＲＡＭ１３を作業領域としてプログラムを実行する。ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ＲＯＭ１２又はストレージ１４には、モデル学習プログラムが格納されている。

　ＲＯＭ１２は、各種プログラム及び各種データを格納する。ＲＡＭ１３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１４は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　入力部１５は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。

　表示部１６は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部１６は、タッチパネル方式を採用して、入力部１５として機能してもよい。

　通信インタフェース１７は、端末等の他の機器と通信するためのインタフェースである。当該通信には、例えば、イーサネット（登録商標）若しくはＦＤＤＩ等の有線通信の規格、又は、４Ｇ、５Ｇ、若しくはＷｉ－Ｆｉ（登録商標）等の無線通信の規格が用いられる。

　認識装置２００についても同様に、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、ストレージ２４、入力部２５、表示部２６及び通信Ｉ／Ｆ２７を有する。各構成は、バス２９を介して相互に通信可能に接続されている。ＲＯＭ２２又はストレージ２４には、認識プログラムが格納されている。ハードウェア構成の各部についての説明は、モデル学習装置１００と同様であるため省略する。

　次に、モデル学習装置１００の各機能構成について説明する。

　図２は、本実施形態のモデル学習装置１００の構成を示すブロック図である。各機能構成は、ＣＰＵ１１がＲＯＭ１２又はストレージ１４に記憶されたモデル学習プログラムを読み出し、ＲＡＭ１３に展開して実行することにより実現される。

　図２に示すように、モデル学習装置１００は、学習用情報記憶部１０２と、関連情報記憶部１０４と、データ分割部１１０と、認識部１１２と、モデル更新部１１４と、モデル書込部１１６と、モデル１２０とを含んで構成される。

　図３は学習用情報記憶部１０２のデータ構造の例である。学習用情報記憶部１０２には、少なくとも食事後画像、マスク画像、及びメニューＩＤが含まれていることとする。食事後画像は過去の食事後の画像を学習のために保存したものである。マスク画像は食事後画像中の背景、皿、食べ残し、及び食べ残しに該当しない残留物などの領域を人手によりマスキング（色分け）したものである。メニューＩＤは食事後画像に対応するメニューのＩＤであり、関連情報記憶部１０４のテーブルを参照する際のキーとして使用する。なお、皿が、本開示の容器の一例である。食べ残し（食べ物）が、本開示の対象物の一例である。食べ残しに該当しない残留物が、本開示の対象物以外の一例である。食事後画像が、本開示の対象物を収めた容器に対する処置の前後を撮影した後の画像の一例である。処置とは、本実施形態では食事に適用され、処置前が食事前（配膳時）、処置後が食事後である。

　図４は関連情報記憶部１０４のデータ構造の例である。関連情報記憶部１０４には、少なくともメニューＩＤ、メニュー関連情報、及び配膳時面積割合が含まれていることとする。また、メニュー関連情報はメニュー名、食材名、皿の種類など、メニューに関連する情報を少なくとも１つ含んでいることとする。配膳時面積割合は、配膳時における皿の面積に対するそれぞれの食べ物の面積割合である。配膳時面積割合は、配膳時の画像とメニュー関連情報を認識部１１２に入力し、出力されたマスク画像から計算する、又は配膳時の画像から目視で概算する、などの方法で数値を得た結果が保存されている。メニュー関連情報が、本開示の対象物に関連する関連情報の一例である。なお、対象物に関連する関連情報には、容器、及び対象物以外の情報も含まれる。配膳時面積割合が、本開示の処置の前後を撮影した前の画像における面積割合の一例である。

　データ分割部１１０は、学習用情報記憶部１０２、及び関連情報記憶部１０４を入力とし、学習データとテストデータに学習用のデータを分割する。学習データ及びテストデータは、学習用情報記憶部１０２の食事後画像、マスク画像、及びメニューＩＤをキーにして参照した関連情報記憶部１０４のメニュー関連情報からなる。学習データとテストデータに構造的な違いはなく、モデル更新部１１４での用途が異なる。学習データ及びテストデータが、本開示の学習用のデータの一例である。

　認識部１１２及びモデル更新部１１４の繰り返し処理によりモデルのパラメータが更新される。なお、モデルのネットワーク構成については後述する。

　認識部１１２は、学習データ及びテストデータを入力とし、モデルのセマンティックセグメンテーションにより背景、皿、食べ残し、及び食べ残しに該当しない残留物などが区分される領域を認識する。認識結果はマスク画像として出力される。従来の技術では、画像情報以外の入力を想定した構成となっていなかったが、本開示の手法では関連情報記憶部１０４のメニュー関連情報も入力とした構成になっている点が特徴である。なお、認識部１１２の詳細は後述する。

　モデル更新部１１４は、学習データを入力とした時の認識結果のマスク画像と、学習データに含まれるマスク画像の差分を損失として数値化し、損失が少なくなるようにモデルのパラメータを更新する。また、モデル更新部１１４は、テストデータを入力とした時の認識結果のマスク画像と、テストデータに含まれるマスク画像の一致度を正解率として数値化し、モデルの汎化性能を計測する。前回の学習時より汎化性能の低下が認められる場合は学習を終了してモデル書込部１１６の処理に移る。汎化性能の低下が認められない場合は学習を継続し、認識部１１２の処理に戻る。

　モデル書込部１１６は、学習したモデル１２０を外部ファイルとして出力する。

　モデル学習装置１００において、画像情報以外の入力であるメニュー関連情報が存在すること、画像情報以外の入力を扱える認識部１１２になっていることが本開示の手法の特徴である。それ以外の構成は機械学習においてモデルを学習するための一般的な構成を適用すればよい。

　次に、認識装置２００の各機能構成について説明する。

　図５は、本実施形態の認識装置２００の構成を示すブロック図である。各機能構成は、ＣＰＵ２１がＲＯＭ２２又はストレージ２４に記憶された認識プログラムを読み出し、ＲＡＭ２３に展開して実行することにより実現される。

　図５に示すように、認識装置２００は、モデル１２０と、認識情報記憶部２０２と、関連情報記憶部２０４と、マスク情報２０６と、モデル読込部２１０と、データ抽出部２１２と、認識部２１４と、割合推定部２１６と、出力部２１８とを含んで構成される。

　モデル１２０は、モデル学習装置１００で学習されたモデルである。

　認識情報記憶部２０２は、データ構造として、少なくとも食事後画像、及びメニューＩＤが含まれていることとする。認識情報記憶部２０２のデータ構造は、図３に示した学習用情報記憶部１０２のデータ構造からマスク画像を除いた形式である。

　関連情報記憶部２０４は、モデル学習装置１００の関連情報記憶部１０４と同様のデータ構造を持ち、メニューＩＤ、メニュー関連情報、及び配膳時面積割合が含まれる。

　図６は、マスク情報２０６のデータ構造の例である。マスクＩＤはマスク画像のカラーパレットのＩＤ、マスク名はそれに対応するマスクが何であるかを示した名前である。例えば、カラーパレットの０番がＲＢＧ＝（０，０，０）の黒色だったとすると、インデックスカラーのマスク画像において黒色となっている領域は背景であるということを意味する。

　モデル読込部２１０は、モデル１２０のファイルを読み込み、メモリ上に展開する。

　データ抽出部２１２は、認識情報記憶部２０２の食事後画像と、関連情報記憶部２０４のメニュー関連情報とを入力とし、認識対象データを抽出する。認識対象データは、食事後画像、及び食事後画像に対応するメニュー関連情報からなる。学習データ及びテストデータと異なり、マスク画像は認識対象データには含まれない。

　認識部２１４は、認識対象データをモデル１２０への入力として、モデル１２０の出力により、背景、皿、食べ残し、及び食べ残しに該当しない残留物などが区分される領域を認識した認識結果を出力する。入力を受けたモデル１２０ではセマンティックセグメンテーションを行う。認識結果はマスク画像として出力される。モデル学習時の認識部１１２と入力は異なるが同じ出力のマスク画像である。

　割合推定部２１６は、関連情報記憶部２０４に保存された配膳時面積割合と、認識部２１４で出力される認識結果であるマスク画像とに基づいて、食べ残し割合を推定する。マスク画像はインデックスカラーとなっているため、インデックスが何であるかは、図６のマスク情報２０６を読み込み、マスクＩＤ（インデックス）に対応するマスク名を取得することで解決する。以下に食べ残し割合の計算方法を示す。

　関連情報記憶部２０４の配膳時面積割合でポテトの数値が０．１５と保存されており、マスク画像に皿が１２８ピクセル、ポテトが２４ピクセル、ブロッコリーが１８ピクセル、ソース汚れが３０ピクセル写っていたとする。食べ残し及び食べ残しに該当しない残留物は皿の上に位置していると考えられるため、マスク画像において皿の面積に対するポテトの面積の割合を求めると、以下のように計算できる。
　２４÷（１２８＋２４＋１８＋３０）＝０．１２

　したがって、食べ残し割合は、以下の計算となり、配膳時のポテトに対して８０％が食べ残しになっている、と計算できる。
　１００＊０．１２÷０．１５＝８０

　ある食べ物ｔにおける食べ残し割合をｒ_ｔ、配膳時面積割合をａ_ｔ、マスク画像に写っている物をｍ∈Ｍ、そのピクセル数をｐ_ｍとすると、以下の（１）式で一般化される。

・・・（１）

　ｍｉｎは最小値を返す関数であり、食べ残し割合の上限を１００％にするために使用する。なお、食べ残しに該当しない残留物は食べ残しではないため、食べ残し割合の計算は行われない。

　出力部２１８は、割合推定部２１６の食べ残し割合の計算結果を外部システムに向けて出力する。出力データ構造は出力にあたって外部システムの入力インタフェースに合わせて変更する。図７は出力部２１８の出力データのデータ構造の例である。食べ残し品目はマスク情報２０６のマスク名と同じである。食べ残し割合は割合推定部２１６によって推定された値である。

　次に、モデル１２０のネットワークを説明する。図８は、モデル１２０におけるセマンティックセグメンテーションのネットワーク構成例である。入力された食事後画像は、畳み込み（ｃｏｎｖｏｌｕｔｉｏｎ）、最大プーリング（ｍａｘ　ｐｏｏｌｉｎｇ）、及びアップサンプリング（ｕｐｓａｍｐｌｉｎｇ）などの処理により、異なるシェイプの特徴量マップへと変換され、最終的にマスク画像として出力される。破線部で囲まれた部分がネットワーク構成上の特徴である。このネットワーク構成では、食事後画像以外にメニュー関連情報が入力として受け付けられるようになっており、ある特徴量マップをメニュー関連情報によって重み付け、重み付き特徴量マップとして出力する機能を有している。図８では中段のスキップ（ｓｋｉｐ）部分に重み付き特徴量マップ算出処理を適用する例を示したが、本処理は入出力前後で特徴量マップのシェイプが変わらないため、任意の特徴量マップに対して適用することができる。また、図８では１箇所のみに本処理を適用する例を示したが、複数箇所に適用することができる。重み付き特徴量マップ算出処理はいくつかの処理方法が考えられ、次に代表例を２つ挙げて説明する。

　図９は、特徴量マップのチャンネル成分に対して、重み付き特徴量マップ算出処理を行う例である。入力の特徴量マップｆ_ｉｎ、出力の重み付き特徴量マップｆ_ｏｕｔはともにシェイプが（Ｈ，Ｗ，Ｃ）である。もう１つの入力であるメニュー関連情報ｍは、例えばメニュー名などテキストデータである場合は、形態素解析などにより単語分割処理を行った上で単語埋め込み（Ｗｏｒｄ　Ｅｍｂｅｄｄｉｎｇ）によって単語ごとにベクトルに変換する。そして、メニュー名に含まれる全単語のベクトルの平均値をとるなどして用意する。皿の種類などカテゴリカルデータである場合は、Ｏｎｅ－ｈｏｔエンコーディングによってベクトルに変換して用意する。メニュー関連情報ｍは全結合層によって潜在情報Ｃ’に変換される。メニュー関連情報の情報源が複数ある場合、例えばメニュー名と皿の種類を同時に利用したい場合は、複数の情報源のそれぞれで得たベクトルを連結したメニュー関連情報ｍとすることで、複数の情報源に対応できる。そのため柔軟に追加情報の増減に対応できる。

　以下にチャンネル成分の重みｗ_ｃ、重み付き特徴量マップｆ_ｏｕｔの算出式（２－１）、（２－２）を示す。

・・・（２－１）

・・・（２－２）

　なお、Ｆ_{ｃｏｎｃａｔ}（Ｘ，Ｙ）は、テンソルＸとテンソルＹを連結する操作を意味する関数である。

　図１０は、特徴量マップの空間成分に対して、重み付き特徴量マップ算出処理を行う例である。空間成分に重みを適用するため、チャンネル成分に重みを適用した時と途中の特徴量マップや関数は異なっているが、入出力は同じである。

　以下に空間成分の重みｗ_ｓ、重み付き特徴量マップｆ_ｏｕｔの算出式（３－１）、（３－２）を示す。

・・・（３－１）

・・・（３－２）

　次に、モデル学習装置１００及び認識装置２００の作用について説明する。

　図１１は、モデル学習装置１００によるモデル学習処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４からモデル学習プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、モデル学習処理が行なわれる。

　ステップＳ１００において、ＣＰＵ１１は、データ分割部１１０として、学習用情報記憶部１０２、及び関連情報記憶部１０４を入力とし、学習データとテストデータにデータを分割する。

　ステップＳ１０２において、ＣＰＵ１１は、認識部１１２として、学習データ及びテストデータを入力とし、モデルのセマンティックセグメンテーションにより背景、皿、食べ残し、及び食べ残しに該当しない残留物などが区分される領域を認識する。

　ステップＳ１０４において、ＣＰＵ１１は、モデル更新部１１４として、学習データを入力とした時の認識結果のマスク画像と、学習データに含まれるマスク画像の差分を損失として数値化し、損失が少なくなるようにモデルのパラメータを更新する。

　ステップＳ１０６において、ＣＰＵ１１は、モデル更新部１１４として、テストデータを入力とした時の認識結果のマスク画像と、テストデータに含まれるマスク画像の一致度を正解率として数値化し、モデルの汎化性能を計測する。

　ステップＳ１０８において、ＣＰＵ１１は、モデル更新部１１４として、汎化性能の低下があるか否かを判定する。前回の学習時より汎化性能の低下がある場合はステップＳ１１０へ移行し、汎化性能の低下がない場合はステップＳ１０２に戻って処理を繰り返す。

　ステップＳ１１０において、ＣＰＵ１１は、モデル書込部１１６として、学習したモデル１２０を外部ファイルとして出力する。

　以上説明したように本実施形態のモデル学習装置１００によれば、認識の困難な画像の領域の認識を可能にするモデルのパラメータを学習できる。

　図１２は、認識装置２００による認識処理の流れを示すフローチャートである。ＣＰＵ２１がＲＯＭ２２又はストレージ２４から認識プログラムを読み出して、ＲＡＭ２３に展開して実行することにより、認識処理が行なわれる。

　ステップＳ２００において、ＣＰＵ２１は、モデル読込部２１０として、モデル１２０のファイルを読み込み、メモリ上に展開する。

　ステップＳ２０２において、ＣＰＵ２１は、データ抽出部２１２として、認識情報記憶部２０２の食事後画像と、関連情報記憶部２０４のメニュー関連情報とを入力とし、認識対象データを抽出する。

　ステップＳ２０４において、ＣＰＵ２１は、認識部２１４として、認識対象データをモデル１２０への入力として、モデル１２０の出力により、背景、皿、食べ残し、及び食べ残しに該当しない残留物などが区分される領域を認識した認識結果を出力する。入力を受けたモデル１２０ではセマンティックセグメンテーションを行う。認識結果はマスク画像として出力される。

　ステップＳ２０６において、ＣＰＵ２１は、割合推定部２１６として、関連情報記憶部２０４に保存された配膳時面積割合と、出力された認識結果であるマスク画像とに基づいて、食べ残し割合を推定する。

　ステップＳ２０８において、ＣＰＵ２１は、出力部２１８として、割合推定部２１６の食べ残し割合の計算結果を外部システムに向けて出力する。

　以上説明したように本実施形態の認識装置２００によれば、認識の困難な画像の領域の認識を可能にする。

　また、メニュー関連情報から得た潜在情報と画像情報の関係性を重みとして利用することで、メニュー関連情報と食べ残しの関係性、メニュー関連情報と食べ残しに該当しない残留物との関係性を学習することができ、認識精度が向上する。

　また、特徴量マップのチャンネル成分、又は空間成分の重みが算出される。そのため、どんな画像情報に対してどのようなメニュー関連情報が入力されると、特徴量マップのどのチャンネルや空間が注目されるのかが重みの値の大小から明らかになり、認識根拠についての説明可能性が与えられる。

　　　なお、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行したモデル学習処理又は認識処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、並びに、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、モデル学習処理又は認識処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、複数のＧＰＵ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記実施形態では、モデル学習プログラム又は認識プログラムがストレージに予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　対象物を収めた容器に対する処置の前後を撮影した後の画像である認識対象画像について、前記対象物に関連する関連情報を取得し、前記認識対象画像及び前記関連情報の組み合わせである認識対象データを抽出し、
　前記認識対象データを予め学習されたモデルへの入力として前記モデルの出力により、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識した認識結果を出力し、
　予め保存された前記前後を撮影した前の画像における面積割合と、前記認識結果とに基づいて、前記認識対象画像における前記対象物の割合を推定し、
　前記モデルは、前記認識対象画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記領域を認識する、
　ように構成されている認識装置。

　（付記項２）
　認識処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　対象物を収めた容器に対する処置の前後を撮影した後の画像である認識対象画像について、前記対象物に関連する関連情報を取得し、前記認識対象画像及び前記関連情報の組み合わせである認識対象データを抽出し、
　前記認識対象データを予め学習されたモデルへの入力として前記モデルの出力により、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識した認識結果を出力し、
　予め保存された前記前後を撮影した前の画像における面積割合と、前記認識結果とに基づいて、前記認識対象画像における前記対象物の割合を推定し、
　前記モデルは、前記認識対象画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記領域を認識する、
　非一時的記憶媒体。

１００モデル学習装置
１０２学習用情報記憶部
１０４関連情報記憶部
１１０データ分割部
１１２認識部
１１４モデル更新部
１１６モデル書込部
１２０モデル
２００認識装置
２０２認識情報記憶部
２０４関連情報記憶部
２０６マスク情報
２１０モデル読込部
２１２データ抽出部
２１４認識部
２１６割合推定部
２１８出力部

Claims

　対象物を収めた容器に対する処置の前後を撮影した後の画像である認識対象画像について、前記対象物に関連する関連情報を取得し、前記認識対象画像及び前記関連情報の組み合わせである認識対象データを抽出するデータ抽出部と、
　前記認識対象データを予め学習されたモデルへの入力として前記モデルの出力により、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識した認識結果を出力する認識部と、
　予め保存された前記前後を撮影した前の画像における面積割合と、前記認識結果とに基づいて、前記認識対象画像における前記対象物の割合を推定する割合推定部と、を含み、
　前記モデルは、前記認識対象画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記領域を認識する、
　認識装置。
　前記モデルにおいて、前記関連情報は全結合層によって前記潜在情報に変換される構成とし、前記関連情報の情報源を単一又は複数とする請求項１に記載の認識装置。
　前記モデルは、前記特徴量マップのチャンネル成分、又は空間成分に対して重み付き特徴量マップ算出処理を行う請求項１又は請求項２に記載の認識装置。
　対象物を収めた容器に対する処置の前後を撮影した学習用の後の画像、前記後の画像に対応する学習用のマスク画像、及び前記対象物に関連する関連情報を含む学習用のデータを入力とし、モデルにより、前記画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識したマスク画像を認識結果として出力する認識部と、
　前記認識結果のマスク画像と、前記学習用のデータに含まれるマスク画像の差分を損失として数値化し、損失が少なくなるように前記モデルのパラメータを更新するモデル更新部と、
　を含むモデル学習装置。
　対象物を収めた容器に対する処置の前後を撮影した後の画像である認識対象画像について、前記対象物に関連する関連情報を取得し、前記認識対象画像及び前記関連情報の組み合わせである認識対象データを抽出し、
　前記認識対象データを予め学習されたモデルへの入力として前記モデルの出力により、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識した認識結果を出力し、
　予め保存された前記前後を撮影した前の画像における面積割合と、前記認識結果とに基づいて、前記認識対象画像における前記対象物の割合を推定し、
　前記モデルは、前記認識対象画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記領域を認識する、
　ことを含む処理をコンピュータに実行させる認識方法。
　対象物を収めた容器に対する処置の前後を撮影した学習用の後の画像、前記後の画像に対応する学習用のマスク画像、及び前記対象物に関連する関連情報を含む学習用のデータを入力とし、モデルにより、前記画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識したマスク画像を認識結果として出力し、
　前記認識結果のマスク画像と、前記学習用のデータに含まれるマスク画像の差分を損失として数値化し、損失が少なくなるように前記モデルのパラメータを更新する、
　ことを含む処理をコンピュータに実行させるモデル学習方法。
　対象物を収めた容器に対する処置の前後を撮影した後の画像である認識対象画像について、前記対象物に関連する関連情報を取得し、前記認識対象画像及び前記関連情報の組み合わせである認識対象データを抽出し、
　前記認識対象データを予め学習されたモデルへの入力として前記モデルの出力により、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識した認識結果を出力し、
　予め保存された前記前後を撮影した前の画像における面積割合と、前記認識結果とに基づいて、前記認識対象画像における前記対象物の割合を推定し、
　前記モデルは、前記認識対象画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記領域を認識する、
　処理をコンピュータに実行させる認識プログラム。
　対象物を収めた容器に対する処置の前後を撮影した学習用の後の画像、前記後の画像に対応する学習用のマスク画像、及び前記対象物に関連する関連情報を含む学習用のデータを入力とし、モデルにより、前記画像を特徴量マップへと変換し、前記関連情報から得られる潜在情報により前記特徴量マップを重み付けて算出することにより、前記容器と、前記対象物と、前記対象物以外と、が少なくとも区分される領域を認識したマスク画像を認識結果として出力し、
　前記認識結果のマスク画像と、前記学習用のデータに含まれるマスク画像の差分を損失として数値化し、損失が少なくなるように前記モデルのパラメータを更新する、
　処理をコンピュータに実行させるモデル学習プログラム。