WO2020008995A1

WO2020008995A1 - 画像認識プログラム、画像認識装置、学習プログラム、および学習装置

Info

Publication number: WO2020008995A1
Application number: PCT/JP2019/025610
Authority: WO
Inventors: 智也岡▲崎▼; 一谷　修司; 辰也佐々木
Original assignee: コニカミノルタ株式会社
Priority date: 2018-07-02
Filing date: 2019-06-27
Publication date: 2020-01-09
Also published as: JPWO2020008995A1; JP7314939B2

Abstract

【課題】教師データの撮影画像の、対象物体以外の部分になかった画像が、対象物体を検出しようとする撮影画像の対象物体以外の部分に現れた場合でも、対象物体の誤検出の発生を抑制できる画像認識プログラムを提供する。【解決手段】撮影された画像を取得する手順（ａ）と、画像から特徴マップを生成する手順（ｂ）と、特徴マップから物体を検出する手順（ｃ）と、検出された物体の、対象物体に関する信頼度スコアを、対象物体検出部により、特徴マップから算出することで、対象物体を検出する手順（ｄ）と、対象物体を検出するための対象領域に対象物体が映っていない第１画像と、第２画像および第２画像に対する対象物体の検出結果の正解の組み合わせの教師データと、を用いて対象物体検出部を学習させる手順（ｅ）と、を有する処理を、コンピューターに実行させるためのプログラム。

Description

画像認識プログラム、画像認識装置、学習プログラム、および学習装置

　本発明は、画像認識プログラム、画像認識装置、学習プログラム、および学習装置に関する。

　我が国は、戦後の高度経済成長に伴う生活水準の向上、衛生環境の改善、および医療水準の向上等により、長寿命化が顕著となっている。このため、出生率の低下と相まって、高齢化率が高い高齢化社会になっている。このような高齢化社会では、病気、怪我、および加齢などにより、介護等の対応を必要とする要介護者等の増加が想定される。

　要介護者等は、病院や老人福祉施設などの施設において、歩行中に転倒したり、ベッドから転落して怪我をするおそれがある。そのため、要介護者等がこのような状態になったときに介護士や看護師等のスタッフがすぐに駆けつけられるようにするために、撮影画像から要介護者等の状態を検出するためのシステムの開発が進められている。このようなシステムで要介護者等の状態を検出するためには、撮影画像から検知対象である対象物体（対象者等）を高精度で検出する必要がある。

　このような、撮影画像から対象物体を検出する技術に関連し、下記特許文献１には、次の技術が開示されている。ディープニューラルネットワークを用いて、撮影画像から特徴マップを生成する。特徴マップに基づいて、物体が存在すると推定される領域である候補矩形を検出する。そして、各候補矩形について物体のカテゴリーごとの信頼度スコアを算出することで、対象物体を検出する。これにより、撮影画像全体から生成した１つの特徴マップを利用して、候補矩形および信頼度スコアの両方の算出を行うことで、高精度かつ高速に対象物体を検出できる。

米国特許出願公開第２０１７／０２０６４３１号明細書

　しかし、特許文献１に開示された技術は、予め収集された教師データを用いてディープニューラルネットワークを学習する。このため、教師データとして学習に用いた撮影画像の、対象物体以外の部分になかった画像が、対象物体を検出しようとする撮影画像の対象物体以外の部分に現れた場合、対象物体の誤検出が発生する可能性があるという問題がある。

　本発明は、このような問題を解決するためになされたものである。すなわち、教師データとして学習に用いた撮影画像の、対象物体以外の部分になかった画像が、対象物体を検出しようとする撮影画像の対象物体以外の部分に現れた場合でも、対象物体の誤検出の発生を抑制できる画像認識プログラム、画像認識装置、学習プログラム、および学習装置を提供することを目的とする。

　本発明の上記課題は、以下の手段によって解決される。

　（１）特徴マップ検出部、物体検出部、および対象物体検出部を有する画像認識装置を制御するためのプログラムであって、撮影された画像を取得する手順（ａ）と、取得された前記画像から、前記特徴マップ生成部により特徴マップを生成する手順（ｂ）と、生成された前記特徴マップから、前記物体検出部により物体を検出する手順（ｃ）と、検出された前記物体の、対象物体に関する信頼度スコアを、前記対象物体検出部により、前記特徴マップから算出することで、前記対象物体を検出する手順（ｄ）と、前記対象物体を検出するための対象領域に前記対象物体が映っていない第１画像と、第２画像および前記第２画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる手順（ｅ）と、を有する処理を、コンピューターに実行させるための画像認識プログラム。

　（２）前記第１画像と前記第２画像は、それぞれ基準画像が異なる画像である、上記（１）に記載の画像認識プログラム。

　（３）前記手順（ｅ）は、前記特徴マップ生成部、前記物体検出部、および前記対象物体検出部を、前記教師データを用いて学習させた後、前記対象物体検出部を、前記第１画像と前記教師データとを用いてさらに学習させる、上記（１）または（２）に記載の画像認識プログラム。

　（４）前記第２画像の前記第１画像に対する適応度の高低を推定する手順（ｆ）をさらに有し、前記手順（ｅ）は、手順（ｆ）において前記適応度が高いと推定された前記第２画像を選択し、前記教師データのうち、選択された前記第２画像および前記第２画像に対する前記対象物体の検出結果の正解の組み合わせの前記教師データと、前記第１画像と、を用いて前記対象物体検出部を学習させる、上記（１）～（３）のいずれかに記載の画像認識プログラム。

　（５）前記手順（ｅ）により前記対象物体検出部を学習させる前後における前記手順（ｄ）による前記対象物体の検出結果に基づいて、前記対象物体検出部の学習前の前記対象物体検出部のパラメーターの、前記対象物体検出部の前記手順（ｅ）による学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する手順（ｇ）をさらに有する、上記（１）～（４）のいずれかに記載の画像認識プログラム。

　（６）前記手順（ｇ）は、前記手順（ｅ）により前記対象物体検出部が学習された後における、前記手順（ｄ）による前記対象物体の検出結果に基づいて推定された行動の精度が所定の基準を満たした場合、前記対象物体の検出結果として出力された前記対象物体を含む出力矩形の形状が所定の基準を満たした場合、前記対象物体の検出結果に基づいて推定された関節点の位置が所定の基準を満たした場合、および前記出力矩形を前記画像に重畳させて表示部に表示し、表示された前記出力矩形が許容できるというユーザーによる判断を受け付けた場合、の少なくともいずれかの場合に、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定すると判断する、上記（５）に記載の画像認識プログラム。

　（７）前記手順（ｇ）は、前記手順（ｅ）により前記対象物体検出部が学習された後における、前記教師データに含まれる前記第２画像に基づく、前記手順（ｄ）による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、前記対象物体検出部が学習される前における、前記教師データに含まれる前記第２画像に基づく、前記手順（ｄ）による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、を比較し、比較結果に基づいて、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する、上記（５）に記載の画像認識プログラム。

　（８）撮影された画像を取得する取得部と、取得された前記画像から、特徴マップを生成する特徴マップ生成部と、生成された前記特徴マップから、物体を検出する物体検出部と、検出された前記物体の、対象物体に関する信頼度スコアを、前記特徴マップから算出することで、前記対象物体を検出する対象物体検出部と、前記対象物体を検出するための対象領域に前記対象物体が映っていない第１画像と、第２画像および前記第２画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる学習部と、を有する画像認識装置。

　（９）前記第１画像と前記第２画像は、それぞれ基準画像が異なる画像である、上記（８）に記載の画像認識装置。

　（１０）前記学習部は、前記特徴マップ生成部、前記物体検出部、および対象物体検出を、前記教師データを用いて学習させた後、前記対象物体検出部を、前記第１画像と前記教師データとを用いてさらに学習させる、上記（８）または（９）に記載の画像認識装置。

　（１１）前記第２画像の前記第１画像に対する適応度の高低を推定する推定部をさらに有し、前記学習部は、前記推定部により前記適応度が高いと推定された前記第２画像を選択し、前記教師データのうち、選択された前記第２画像および前記第２画像に対する前記対象物体の検出結果の正解の組み合わせの前記教師データと、前記第１画像と、を用いて前記対象物体検出部を学習させる、上記（８）～（１０）のいずれかに記載の画像認識装置。

　（１２）前記学習部により前記物体検出部を学習させる前後における前記対象物体検出部による前記対象物体の検出結果に基づいて、前記対象物体検出部の学習前の前記対象物体検出部のパラメーターの、前記対象物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する判断部をさらに有する、上記（８）～（１１）のいずれかに記載の画像認識装置。

　（１３）前記判断部は、前記学習部により前記対象物体検出部が学習された後における、前記対象物体検出部による前記対象物体の検出結果に基づいて推定された行動の精度が所定の基準を満たした場合、前記対象物体の検出結果として出力された前記対象物体を含む出力矩形が所定の基準を満たした場合、前記対象物体の検出結果に基づいて推定された関節点の位置が所定の基準を満たした場合、および前記出力矩形を前記画像に重畳させて表示部に表示し、表示された前記出力矩形が許容できるというユーザーによる判断を受け付けた場合、の少なくともいずれかの場合に、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定すると判断する、上記（１２）に記載の画像認識装置。

　（１４）前記判断部は、前記学習部により前記対象物体検出部が学習された後における、前記教師データに含まれる前記第２画像に基づく、前記対象物体検出部による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、前記学習部により前記対象物体検出部が学習される前における、前記教師データに含まれる前記第２画像に基づく、前記対象物体検出部による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、を比較し、比較結果に基づいて、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する、上記（１２）に記載の画像認識装置。

　（１５）撮影された画像を取得する取得部と、取得された前記画像から、特徴マップを生成する特徴マップ生成部と、生成された前記特徴マップから、物体を検出する物体検出部と、検出された前記物体の、対象物体に関する信頼度スコアを、前記特徴マップから算出することで、前記対象物体を検出する対象物体検出部と、を有する画像認識装置を学習させるためのプログラムであって、前記対象物体を検出するための対象領域に前記対象物体が映っていない第１画像と、第２画像および前記第２画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる手順を、コンピューターに実行させるための学習プログラム。

　（１６）撮影された画像を取得する取得部と、取得された前記画像から、特徴マップを生成する特徴マップ生成部と、生成された前記特徴マップから、物体を検出する物体検出部と、検出された前記物体の、対象物体に関する信頼度スコアを、前記特徴マップから算出することで、前記対象物体を検出する対象物体検出部と、を有する画像認識装置を学習させるための学習装置であって、前記対象物体を検出するための対象領域に前記対象物体が映っていない第１画像と、第２画像および前記第２画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる学習部を有する学習装置。

　特徴マップから検出された物体ごとに、対象物体に関する信頼度スコアを特徴マップから算出することで対象物体を検出する対象物体検出部を、対象物体が映っていない第１画像と、第２画像および第２画像に対する対象物体の検出結果の正解の組み合わせの教師画像と、を用いて学習する。これにより、教師データとして学習に用いた撮影画像の、対象物体以外の部分になかった画像が、対象物体を検出しようとする撮影画像の対象物体以外の部分に現れた場合でも、対象物体の誤検出の発生を抑制できる。

画像認識装置を含む画像認識システムの概略構成を示す図である。画像認識装置のハードウェア構成を示すブロック図である。画像認識装置の制御部の機能を示すブロック図である。候補矩形検出部による候補矩形の検出結果を示す図である。信頼度スコア算出部による信頼度スコアの算出結果を示す図である。判定部による出力矩形の検出結果を示す図である。推定された関節点の例を示す説明図である。対象領域の例を示す図である。対象領域の他の例を示す図である。基準画像が互いに異なる撮影画像を説明するための説明図である。基準画像が互いに異なる撮影画像を説明するための説明図である。画像認識装置の動作を示すフローチャートである。

　以下、図面を参照して、本発明の実施形態に係る画像認識プログラム、画像認識装置、学習プログラム、および学習装置について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

　図１は、実施形態に係る画像認識装置を含む画像認識システムの概略構成を示す図である。

　画像認識システム１０は、画像認識装置１００、撮影装置２００、通信ネットワーク３００、および携帯端末４００を有する。画像認識装置１００は、通信ネットワーク３００により撮影装置２００および携帯端末４００と相互に通信可能に接続される。本明細書において、対象物体とは、画像認識装置１００が検出対象とする物体である。対象物体には複数のカテゴリーが含まれ得る。カテゴリーとは、画像認識装置１００が認識可能な物体の種別であり、人、ベッド、机、椅子、歩行器等が含まれる。カテゴリーには、対象物体以外の物体の種別も含まれる。以下、対象物体は対象者５０（すなわち、人）であるものとして説明する。

　画像認識装置１００は、撮影装置２００により撮影された画像（以下、単に「撮影画像２５０」と称する（図４等参照））を、撮影装置２００から受信し、撮影画像２５０に含まれる対象者５００を対象物体として検出する。後述するように、画像認識装置１００は、撮影画像２５０上で物体（オブジェクト）が存在する領域を検出し、検出した領域に含まれる物体のカテゴリーを推定することで、対象者５００を検出する。物体が存在する領域は、撮影画像２５０上で物体が含まれる矩形（以下、当該矩形を「候補矩形２５３」と称する（図４等参照））として検出される。検出された候補矩形２５３のうち、物体のカテゴリーが人であると推定された候補矩形２５３（以下、当該候補矩形２５３を「出力矩形２５４」と称する（図６等参照））を検出することで、対象者５００を検出する。なお、画像認識装置１００は、出力矩形２５４に基づいて、対象者５００の姿勢および行動をさらに検出し得る。また、推定した行動から、対象者５００に関するイベントを検出し得る。イベントとは、対象者７０に関する画像認識装置１００等が認識した状態の変化であって、例えば、起床、離床、転倒、転落、および微体動異常等のスタッフ８０に発報（報知）を行うべき事象である。画像認識装置１００は、イベントを検出した場合は、イベントの内容を通知するイベント通知を携帯端末４００へ送信する。画像認識装置１００は、ディープニューラルネットワーク（以下、「ＤＮＮ」と称する）により、対象者５００を検出し得る。ＤＮＮによる対象物体の検出方法としては、例えば、Ｆａｔｅｒ　Ｒ－ＣＮＮ、Ｆａｓｔ　Ｒ－ＣＮＮ、およびＲ－ＣＮＮといった公知の方法が挙げられる。以下、画像認識装置１００は、例として、Ｆａｓｔｅｒ　Ｒ－ＣＮＮを利用して対象者５００を検出するものとして説明する。画像認識装置１００は、コンピューターにより構成される。例えば、画像認識装置１００は、サーバーとして構成され得る。

　撮影装置２００は、例えば、近赤外線カメラにより構成され、所定の位置に設置されることで、当該所定の位置を視点として俯瞰される撮影領域を撮影する。撮影装置２００は、ＬＥＤ（Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｅｖｉｃｅ）により近赤外線を撮影領域に向けて照射し、撮影領域内の物体により反射される近赤外線の反射光をＣＭＯＳ（Ｃｏｍｐｌｅｍｅｍｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）センサーにより受光することで撮影領域を撮影し得る。撮影画像２５０は近赤外線の反射率を各画素とするモノクロ画像であり得る。所定の位置は、たとえば対象者５００の居室の天井である。撮影領域は、たとえば居室の床全体を含む３次元の領域である。以下、撮影装置２００は対象者５００の居室の天井に設置され、画像認識装置１００は、当該居室の床全体を含む３次元の撮影領域に存在する対象者５００を検出対象とするものとして説明する。画像認識装置１００の出荷後等に対象者５００を検出する領域である、対象者５００の居室等を「新たな施設」と称する。

　撮影装置２００は、たとえば１５ｆｐｓ～３０ｆｐｓのフレームレートの動画として撮影領域を撮影し得る。撮影画像２５０には動画と静止画とを含む。撮影装置２００は、撮影画像２５０を画像認識装置１００等に送信する。

　撮影装置２００は、コンピューターを有するセンサーボックスにより構成し得る。センサーボックスとは、近赤外線カメラおよび体動センサー等を備える箱状の装置である。この場合、画像認識装置１００の機能の一部または全部をセンサーボックスが有するようにし得る。体動センサーは、ベッドに対してマイクロ波を送受信して対象者５００の体動（例えば呼吸動）によって生じたマイクロ波のドップラシフトを検出するドップラシフト方式のセンサーである。

　通信ネットワーク３００には、イーサネット（登録商標）などの有線通信規格によるネットワークインターフェースを使用し得る。通信ネットワーク３００には、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ８０２．１１などの無線通信規格によるネットワークインターフェースを使用してもよい。通信ネットワーク３００には、アクセスポイント３１０が設けられ、携帯端末４００と、画像認識装置１００および撮影装置２００とを無線通信ネットワークにより通信可能に接続する。

　携帯端末４００は、画像認識装置１００からイベント通知を受信し、イベント通知の内容を表示する。また、携帯端末４００は、画像認識装置１００により検出された対象者５００の検出結果を画像認識装置１００から受信して表示する。具体的には、例えば、携帯端末４００は、撮影画像２５０上で出力矩形２５４を表示することで、対象者５００の検出結果を表示し得る。携帯端末４００は、画像認識装置１００から、対象者５００の姿勢および行動の検出結果を受信して表示し得る。姿勢の検出結果には、後述するように、対象者５００の関節点１１９（図７参照）の推定結果が含まれる。行動の検出結果には、起床、離床、転倒、転落、および微体動異常等のイベントに該当する行動の検出結果の他、入室、睡眠、および着座等の行動の検出結果が含まれる。行動の検出結果はイベント通知に含まれて受信されてもよい。携帯端末４００は、撮影装置２００または画像認識装置１００から撮影画像２５０を受信して表示し得る。携帯端末４００は、たとえばスマートフォンにより構成される。

　図２は、画像認識装置のハードウェア構成を示すブロック図である。画像認識装置１００は、制御部１１０、記憶部１２０、表示部１３０、入力部１４０、および通信部１５０を有する。これらの構成要素は、バス１６０を介して相互に接続される。

　制御部１１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）により構成され、プログラムにしたがって画像認識装置１００の各部の制御および演算処理を行う。制御部１１０の機能の詳細については後述する。

　記憶部１２０は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、およびＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）により構成され得る。ＲＡＭは、制御部１１０の作業領域として一時的にプログラムやデータを記憶する。ＲＯＭは、あらかじめ各種プログラムや各種データを格納する。ＳＳＤは、オペレーションシステムを含む各種プログラムおよび各種データを格納する。

　表示部１３０は、たとえば液晶ディスプレイであり、各種情報を表示する。

　入力部１４０は、たとえばタッチパネルや各種キーにより構成される。入力部１４０は、各種操作、入力のために使用される。

　通信部１５０は、外部機器と通信するためのインターフェースである。通信には、イーサネット（登録商標）、ＳＡＴＡ、ＰＣＩ　Ｅｘｐｒｅｓｓ、ＵＳＢ、ＩＥＥＥ１３９４などの規格によるネットワークインターフェースが用いられ得る。その他、通信には、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ８０２．１１、４Ｇなどの無線通信インターフェースが用いられ得る。通信部１５０は、撮影装置２００から撮影画像２５０を受信する。通信部１５０は、イベント通知を携帯端末４００へ送信する。通信部１５０は、撮影画像２５０からの対象者５００の検出結果を携帯端末４００へ送信する。また、通信部１５０は、対象者５００の姿勢および行動の検出結果を携帯端末４００へ送信し得る。

　制御部１１０の機能の詳細について説明する。

　図３は、画像認識装置の制御部の機能を示すブロック図である。制御部１１０は、画像取得部１１１、特徴マップ生成部１１２、候補矩形検出部１１３、出力矩形検出部１１４、関節点推定部１１５、行動推定部１１６、出力部１１７、および学習部１１８を有する。画像取得部１１１は取得部を構成する。候補矩形検出部１１３は物体検出部を構成する。出力矩形検出部１１４は対象物体検出部を構成する。学習部１１８は学習装置を構成する。制御部１１０は、さらに推定部および判断部を構成する。

　画像取得部１１１は、通信部１５０を介して撮影装置２００から受信した撮影画像２５０を取得する。

　特徴マップ生成部１１２はＤＮＮにより構成され、撮影画像２５０の畳み込み演算により、画素の特徴が抽出された特徴マップを生成する。

　候補矩形検出部１１３はＤＮＮにより構成され、特徴マップから撮影画像２５０上で物体が存在する領域を候補矩形２５３として検出する。候補矩形検出部１１３は、Ｆａｓｔｅｒ　Ｒ－ＣＮＮ等のＤＮＮを用いた公知の技術により候補矩形２５３を検出し得る。なお、候補矩形検出部１１３は、物体が存在する領域（矩形）のうち、サイズまたはアスペクト比が所定の閾値範囲内となるもののみを候補矩形２５３として検出してもよい。これにより、候補矩形２５３として検出される物体を、人の可能性が高い物体に限定することで、後段の出力矩形検出部１１４において出力矩形２５４を検出する際の演算量を抑制できる。上記所定の閾値範囲は、例えば、候補矩形２５３に含まれる物体が人である可能性が高い、候補矩形２５３のサイズまたはアスペクト比の範囲として、実験により求め得る。

　図４は、候補矩形検出部による候補矩形の検出結果を示す図である。

　図４の例においては、対象者５００（すなわち、「人」）を含む３つの物体が候補矩形２５３として検出されている。

　出力矩形検出部１１４は、信頼度スコア算出部１１４ａおよび判定部１１４ｂを有する。信頼度スコア算出部１１４ａはＤＮＮにより構成され、各候補矩形２５３について、所定のカテゴリーごとの信頼度スコアを算出する。すなわち、対象物体である人を含む所定のカテゴリーに関する信頼度スコアを算出する。信頼度スコアは、対象物体に関する尤度である。信頼度スコア算出部１１４ａは、Ｆａｓｔｅｒ　Ｒ－ＣＮＮ等のＤＮＮを用いた公知の技術により信頼度スコアを算出し得る。所定のカテゴリーは、例えば、人、椅子、および機具とし得る。

　図５は、信頼度スコア算出部による信頼度スコアの算出結果を示す図である。

　図５の例においては、例えば、対象者５００（すなわち、「人」）を含む候補矩形２５３について、所定のカテゴリーである、人、椅子、機具に関する信頼度スコアが、それぞれ、０．９、０．１、０．０と算出されている。

　判定部１１４ｂは、各候補矩形２５３について、信頼度スコアが最も高いカテゴリーが人であるかどうかを判定する。そして、信頼度スコアが最も高いカテゴリーが人である候補矩形２５３を出力矩形２５４として検出する。判定部１１４ｂは、人に関する信頼度スコアが０．５を超えた候補矩形２５３を出力矩形２５４として検出してもよい。なお、１つの候補矩形２５３に対し、所定のカテゴリーことにそれぞれ算出された信頼度スコアの和は１となる。

　図６は、判定部による出力矩形の検出結果を示す図である。

　図６の例においては、信頼度スコアが最も高いカテゴリーが人である候補矩形２５３が、出力矩形２５４として検出されている。すなわち、対象者５００が、対象者５００を含む出力矩形２５４として検出されている。

　関節点推定部１１５は、出力矩形２５４に基づいて、対象者５００の姿勢として関節点１１９を推定し、関節点１１９の検出結果として行動推定部１１６へ出力する。関節点推定部１１５は、ＤＮＮを用いた公知の方法により、出力矩形２５４に基づいて関節点１１９を推定し得る。

　図７は、推定された関節点の例を示す説明図である。関節点１１９は出力矩形２５４（すなわち、撮影画像２５０の一部）に重畳されて示されており、関節点１１９の位置は白抜きの丸により示されている。関節点１１９には、例えば、頭、首、肩、肘、手、腰、腿、膝、および足の関節点１１９が含まれる。図９の例においては、各関節点１１９の相対的な位置関係から、対象者５００が座位の姿勢にあることが認識できる。

　行動推定部１１６は、関節点推定部１１５により推定された関節点１１９に基づいて、対象者５００の行動を推定し、対象者５００の行動の検出結果として出力部１１７へ出力する。行動推定部１１６は、複数の撮影画像２５０から推定された関節点１１９の時間的変化に基づいて対象者５００の行動を推定し得る。行動推定部１１６は、例えば、新たな施設に設置されているベッドに対応する範囲として予め設定された撮影画像上の範囲と、出力矩形２５４または関節点１１９との相対的な位置関係に基づいて、対象者５００の行動として、「入床」や「離床」等を推定し得る。行動推定部１１６は、各関節点１１９の平均速度が急に低下し、かつ平均速度の低下後の各関節点１１９により認識される姿勢が臥位であるような場合に、対象者５００の行動として「転倒」を推定し得る。

　出力部１１７は、出力矩形検出部１１４により検出された出力矩形２５４、関節点推定部１１５により検出された、対象者５００の関節点１１９、および行動推定部１１６により検出された、対象者５００の行動を出力する。

　学習部１１８は、特徴マップ生成部１１２、候補矩形検出部１１３、および信頼度スコア算出部１１４ａを学習させる。学習により、特徴マップ生成部１１２、候補矩形検出部１１３、および信頼度スコア算出部１１４ａのそれぞれのＤＮＮのパラメーターが更新される。学習は、事前学習および調整学習の２段階で行われる。

　事前学習は、例えば、画像認識装置１００の出荷前に、特徴マップ生成部１１２、候補矩形検出部１１３、および信頼度スコア算出部１１４ａに対して行われる。事前学習は、誤差逆伝搬法により行われる。事前学習は、比較的大量の教師データを用いて行われる。教師データは、撮影画像２５０および当該撮影画像２５０に対する対象物体の検出結果の正解の組み合わせからなる。事前学習に用いられる教師データにおいて、対象物体の検出結果の正解と対応付けされた撮影画像を「第２画像」と、以下称する。

　調整学習は、例えば、画像認識装置１００の出荷後に、画像認識システム１０が新たな施設において対象者５００を検出するために設置された際に、信頼度スコア算出部１１４ａに対してのみ行われる学習である。すなわち、調整学習は、画像認識システム１０で実際に対象者５００を検出しようとする、撮影装置２００による撮影領域が設定された対象者５００の居室で行われる。調整学習は誤差逆伝搬法により行われる。その際、例えば、特徴マップ生成部１１２および候補矩形検出部１１３のＤＮＮのパラメーターについては、学習率を０、バッチノーマライゼーションのパラメーターも固定とする。信頼度スコア算出部１１４ａのＤＮＮのパラメーターについては、学習率を０より大きい値に設定する。これにより、信頼度スコア算出部１１４ａのＤＮＮのパラメーターのみが更新されるため、信頼度スコア算出部１１４ａのみを学習させることができる。ＤＮＮのパラメーターの更新方法として、Ｍｏｍｅｎｔｕｍ　ＳＧＤ、ＡｄａＧｒａｄ、ＲＭＳｐｒｏｐ、ＡｄａＤｅｌｔａ、Ａｄａｍ等、様々なものがあり、どの方法を用いてもよい。

　調整学習は、事前学習に用いた教師データと、対象者５００を検出するための対象領域に対象者５００（対象物体）が映っていない撮影画像（以下、「第１画像」と称する）と、を用いて行われる。ここで、対象領域は、例えば、画像認識システム１０が対象者５００の居室等に設置された状態で、撮影装置２００により撮影される領域である。対象領域は、撮影装置２００により撮影される領域のうち、対象者５００を検出しない領域を除く領域であってもよい。すなわち、調整学習は、事前学習に用いた教師データを用いた学習と、第１画像を用いた学習が行われる。調整学習の、事前学習に用いた教師データを用いた学習では、後述するように、事前学習に用いた教師データの一部が選択されて用いられてもよい。第１画像を用いた学習は、具体的には、第１画像、および、対象物体が検出されないとした検出結果の正解、の組み合わせの教師データを用いて行われる。

　図８は、対象領域の例を示す図である。

　図８の例においては、新たな施設である居室の床全体を含む３次元の領域が対象領域とされている。

　図９は、対象領域の他の例を示す図である。

　図９の例においては、新たな施設である居室の撮影画像２５０上において、床全体が占める領域から、ベッドが占める領域（グレーの矩形で示す領域）が除かれた領域が、対象領域とされている。すなわち、撮影画像２５０上でベッドが占める領域がマスクされることで、対象者５００を検出しない領域とされている。このように、撮影画像２５０上でベッドが占める領域を対象者５００を検出しない領域とすることで、例えば、対象者５００がベッドで睡眠している間に撮影した撮影画像２５０を第１画像として利用できる。

　第１画像を取得する方法を例示すると、次のようなものがある。

　撮影装置２００を新たな施設に設置する際に、行動推定部１１６により対象者５００の行動を推定する等のために、新たな施設に設置されたベッドが撮影画像２５０上で占める領域が、技術スタッフ等により撮影画像２５０上でベッドの４隅が指定されることで設定される。また、新たな施設である居室の床に対応する撮影画像２５０上の範囲が、撮影画像２５０上で床の４隅が指定されることで設定される。このような、撮影画像２５０上でベッドが占める範囲等を設定する際に撮影装置２００により撮影される撮影画像２５０を第１画像として利用し得る。撮影装置２００をセンサーボックスにより構成する場合は、センサーボックスが備えるドップラシフト方式の体動センサーにより対象者５００の睡眠を検出する。そして、対象者５００の睡眠を検出している間に撮影した撮影画像２５０から、上述のように設定された、ベッドが撮影画像２５０上で占める領域を撮影画像２５０から除外した撮影画像２５０を第１画像として取得し得る。椅子に着座センサーを設定することで、対象者５００の椅子への着座を検出し、着座を検出している間に撮影した撮影画像２５０から、予め設定された、椅子が撮影画像２５０上で占める領域を撮影画像２５０から除外した撮影画像２５０を第１画像として取得してもよい。

　撮影画像２５０を記憶部１２０に記憶しておき、撮影画像２５０のデータに含まれるタイムスタンプと、記憶部１２０に蓄積されている介護記録に記録された対象者５００の行動履歴とを比較する。そして、対象者５００が食事のための外出等で新たな施設が空室となっていた間の撮影画像２５０を選択し、第１画像として取得してもよい。

　出力矩形検出部１１４、関節点推定部１１５、および行動推定部１１６の機能による対象者５００の行動の検出アルゴリズムとは異なるアルゴリズムで対象者５００の起床または離床を検出してもよい。すなわち、例えば、候補矩形検出部１１３により検出された候補矩形２５３のうち、サイズおよびアスペクト比に基づいて対象者５００（すなわち、「人」）を含む可能性が高い候補矩形２５３を抽出してもよい。抽出された候補矩形２５３と、上述のように設定された、ベッドが撮影画像２５０上で占める領域との重なり幅に基づいて、対象者５００の起床または離床を検出する。そして、撮影画像２５０のデータに含まれるタイムスタンプに基づいて、対象者５００の起床または離床の直前（すなわち、ベッドで対象者５００が寝ている可能性が高いタイミング）に撮影された撮影画像２５０を選択し、第１画像として取得してもよい。

　第１画像と、教師データに含まれる第２画像とは、それぞれ基準画像が異なり得る。基準画像は、例えば背景画像である。

　図１０Ａおよび図１０Ｂは、基準画像が互いに異なる撮影画像を説明するための説明図である。

　図１０Ａは、第２画像を示しており、図１０Ｂは、新たな施設で撮影された撮影画像２５０を示している。図１０Ｂの例に示す新たな施設で撮影された撮影画像２５０の、対象者５００等以外の部分である背景は、第１画像の背景に対応する。図１０Ａの対象者５００等以外の部分である背景と、図１０Ｂの対象者５００等以外の部分である背景は、異なっている。

　なお、基準画像には、対象物体以外の物体（例えば、猫）が含まれてもよい。以下、説明を簡単にするために、基準画像は背景画像であるものとして説明する。

　調整学習を行うのは次の理由による。すなわち、新たな施設で撮影装置２００により撮影される撮影画像２５０の背景画像は、事前学習に用いられる教師データの第２画像の背景画像と異なることが多い。このため、画像認識装置１００の第２画像に対する対象物体（すなわち、「人」）の検出精度が高くても、新たな施設で新たに撮影される撮影画像２５０に対する対象者５００の検出精度が、第２画像に対する検出精度に対し比較的大きく低下する可能性があるからである。

　調整学習を、事前学習で用いた教師データと第１画像を用いて行うのは次の理由による。すなわち、調整学習を、第１画像と、事前学習に用いる教師データとを用いて行うことにより、当該教師データに含まれる第２画像に対する対象者５００の検出精度を維持しつつ、新たな施設における対象者５００の検出精度の低下を抑制できるからである。また、新たな施設で、撮影画像２５０および当該撮影画像２５０に対する対象物体の検出結果の正解の組み合わせの新たな教師データを準備するのは手間がかかるからである。第１画像は、上述したように、画像認識システム１０が新たな施設に設置される際に、技術スタッフ等が、撮影装置２００による撮影画像２５０上で、居室のベッド等の配置物の位置情報の指定等を行うために、撮影される。このため、調整学習のためだけに撮影画像２５０を取得する必要がなく、調整学習に要する手間を抑制できる。

　調整学習において、信頼度スコア算出部１１４ａのみを学習させるのは次の理由による。すなわち、特徴マップ生成部１１２、および候補矩形検出部１１３の、事前学習に用いた教師データに含まれる第２画像に対する候補矩形２５３の検出精度は、比較的大量の教師データを用いた事前学習により、比較的高くなっている。調整学習において、第１画像等を用いて特徴マップ生成部１１２、および候補矩形検出部１１３を学習すると、特徴マップ生成部１１２、および候補矩形検出部１１３による第２画像に対する候補矩形２５３の検出精度が事前学習終了時よりも低下する可能性が比較的高いからである。また、新たな施設において撮影した撮影画像２５０に対する対象者５００の検出精度の低下を抑制することは、事前学習で用いた教師データと第１画像を用いて信頼度スコア算出部１１４ａを学習することで実現できるからである。

　画像認識装置１００の動作について説明する。

　図１１は、画像認識装置の動作を示すフローチャートである。本フローチャートは、記憶部１２０に記憶されたプログラムに従い、制御部１１０により実行される。

　制御部１１０は、第２画像および当該第２画像に対する対象物体の検出結果の正解の組み合わせからなる教師データにより、特徴マップ生成部１１２、候補矩形検出部１１３、および信頼度スコア算出部１１４ａを事前学習する（Ｓ１０１）。本ステップは、画像認識装置１００の出荷前に行われ得る。

　新たな施設において、制御部１１０は、撮影装置２００から、対象者５００が映っていない第１画像を受信することで取得する（Ｓ１０２）。

　制御部１１０は、事前学習に用いた教師データを記憶部１２０から読み出すことで取得し、各教師データについて、第２画像の第１画像に対する適応度の高低を推定する（Ｓ１０３）。第２画像の第１画像に対する適応度とは、第２画像の背景画像の、第１画像の背景画像に対する類似度である。

　第２画像の第１画像に対する適応度の高低は、次のように推定される。例えば、第１画像および第２画像について、それぞれ、すべての画素の輝度値に対する頻度のヒストグラムを作成し、生成された第１画像および第２画像のヒストグラムにおいてそれぞれ最頻値を示す輝度値の差を算出する。そして、当該差が所定の閾値以下である場合は適応度が高いと推定され、当該所定の閾値を超える場合は適応度が低いと推定する。所定の閾値は、実験により適当な値に設定し得る。具体的には、閾値と、当該閾値の設定により選択された第２画像を含む教師データを用いて調整学習をした後の対象者５００の検出精度と、の関係を実験により求め、検出精度が最も高くなるときの閾値に設定され得る。このように、所定の閾値を設定することで、第１画像の、床の色、壁紙の色、またはカーテンの色等が類似する第２画像を、第１画像に対する第２画像の適応度が高い第２画像と推定し得る。

　第２画像の第１画像に対する適応度の高低は、第２画像における居室内の荷物量が第１画像における新たな施設内の荷物量が近いかどうかにより推定してもよい。例えば、制御部１１０は、表示部１３０に第１画像と第２画像を表示し、第１画像に映った荷物量に近い荷物量が映った第２画像の、ユーザーによる選択を、入力部１４０により受付けることで、受け付けた第２画像の第１画像に対する適応度が高いと推定してもよい。

　第２画像の第１画像に対する適応度の高低は、新たな施設の入居者の対象者５００が車椅子や歩行器を使用する場合は、車椅子や歩行器を使用する対象者５００が映った第２画像が第１画像に対する適応度が高いと判断してもよい。また、新たな施設の入居者の対象者５００の寝巻きの素材または色と同じ素材または色の寝巻きを着た対象者５００が映った第２画像が第１画像に対する適応度が高いと判断してもよい。この場合、例えば、制御部１１０は、表示部１３０に第１画像と第２画像を表示し、ユーザーによる選択を、入力部１４０により受付けることで、受け付けた第２画像の第１画像に対する適応度が高いと推定し得る。

　第２画像の第１画像に対する適応度の高低は、第２画像が撮影された居室のカメラが設置されていた天井の高さが、第１画像が撮影された新たな施設の撮影装置２００が設置された天井の高さに近いかどうかにより推定してもよい。両者が近いかどうかは、両者の差が所定の閾値以下かどうかにより判定され得る。所定の閾値は、例えば、新たな施設の天井の高さの５％～２０％の間のいずれかの値に設定し得る。第２画像が撮影された居室のカメラが設置されていた天井の高さは、当該第２画像に関連付けて予め記憶部１２０に記憶させておき、新たな施設の天井の高さとともに記憶部１２０に記憶させておくことで、これらの情報を利用し得る。第２画像の第１画像に対する適応度の高低は、第２画像を撮影したカメラと、第１画像が撮影された新たな施設の撮影装置２００を構成するカメラのレンズの種類またはカメラの型番とが同じかどうかにより推定してもよい。これらのレンズの種類またはカメラの型番は予め記憶部１２０に記憶させておいて利用し得る。

　制御部１１０は、第１画像に対する適応度が高いと推定された第２画像および当該第２画像に対する対象物体の検出結果の正解の組み合わせからなる教師データを選択する（Ｓ１０４）。制御部１１０は、第１画像と、選択された教師データとを用いて信頼度スコア算出部１１４ａを調整学習する（Ｓ１０５）。第１画像に対する適応度が高い第２画像および当該第２画像に対する対象物体の検出結果の正解の組み合わせからなる教師データを用いて調整学習をするのは、第１画像と背景画像が類似する第２画像を含む教師データとで信頼度スコア算出部１１４ａを学習することで、新たな施設における対象者５００の検出精度を効率的に向上できるからである。

　施設の各居室に撮影装置２００が設置されることで、当該各居室に撮影領域が設定される場合は、居室ごとに調整学習が行われ得る。この場合、居室ごとに、信頼度スコア算出部１１４ａのパラメーターが別々に記憶部１２０に記憶され、居室ごとに、信頼度スコア算出部１１４ａのパラメーターが別個独立に更新され得る。そして、居室ごとに、当該居室に対応付けされた信頼度スコア算出部１１４ａのパラメーターを用いて、撮影画像から対象者５００の検出が行われ得る。

　一方、施設の各居室に撮影装置２００が設置されることで、当該各居室に撮影領域が設定される場合に、全ての居室に対する共通の調整学習が行われてもよい。すなわち、全ての居室においてそれぞれ撮影された複数の第１画像と、事前学習に用いた教師データとを用いて共通の調整学習が行われてもよい。この場合、全ての居室で共通の信頼度スコア算出部１１４ａのパラメーターが記憶部１２０に記憶され、更新される。そして、全ての居室で共通の信頼度スコア算出部１１４ａのパラメーターを用いて、居室ごとに撮影画像から対象者５００の検出が行われる。

　さらに、信頼度スコア算出部１１４ａのパラメーターは、１日の時間帯ごとに別々のパラメーターとしてもよい。例えば、信頼度スコア算出部１１４ａのパラメーターを、朝、昼、夜で別々のパラメーターとし得る。信頼度スコア算出部１１４ａのパラメーターは、消灯期間のみ別のパラメーターとしてもよい。

　制御部１１０は、新たな施設で、撮影画像から対象者５００を検出する（Ｓ１０６）。

　制御部１１０は、撮影画像から対象者５００を検出した検出結果を評価する。例えば、制御部１１０は、調整学習後における、事前学習に用いられた教師データに含まれる第２画像に基づく対象者５００（すなわち、「人」）の検出精度と、当該教師データに含まれる検出結果の正解との比較による検出精度を算出する。制御部１１０は、調整学習前における、事前学習に用いられた教師データに含まれる第２画像に基づく対象者５００の検出精度と、当該教師データに含まれる検出結果の正解との比較による検出精度を算出する。そして、それらの検出精度を比較し、比較結果に基づいて、調整学習後の信頼度スコア算出部１１４ａのパラメーターへの更新を決定するかどうかを判断する（Ｓ１０８）。具体的には、例えば、調整学習後の第２画像についての検出精度が、所定の基準を満たす場合は、調整学習後の信頼度スコア算出部１１４ａのパラメーターへの更新を決定するとし得る。所定の基準は、例えば、調整学習後の第２画像についての検出精度が、調整学習前の第２画像についての検出精度に対し、５％以下の劣化であることとし得る。なお、調整学習後の、新たな施設における対象者５００に対する検出精度は、調整学習前よりも、向上していることは当然に必要である。制御部１１０は、次のように、調整学習後の信頼度スコア算出部１１４ａのパラメーターへの更新を決定するかどうかを判断してもよい。例えば、調整学習後における、対象者５００の出力矩形２５４の検出結果に基づいて推定された対象者５００の行動の精度が所定の基準を満たした場合に、調整学習後の信頼度スコア算出部１１４ａのパラメーターへの更新を決定し得る。所定の基準は、例えば、予め記憶部１２０に記憶された、転倒および非転倒に対応する動画に対する、調整学習後の行動推定結果において、転倒についての行動推定精度が１００％で、かつ非転倒についての行動推定精度が調整学習前より５％以上向上したこととし得る。制御部１１０は、調整学習後における、対象者５００の検出結果として出力された出力矩形２５４の形状が所定の基準を満たした場合に、調整学習後の信頼度スコア算出部１１４ａのパラメーターへの更新を決定し得る。所定の基準は、例えば、事前学習に用いた教師データに含まれる、第２画像の検出結果の正解である出力矩形２５４のサイズおよびアスペクト比を統計処理することで得られた、平均値±３σを、すべての第２画像からの対象者５００（すなわち、「人」）の検出結果（出力矩形２５４）において外れないこととし得る。制御部１１０は、調整学習後における、対象者５００の出力矩形２５４の検出結果に基づいて推定された対象者５００の関節点１１９の位置の精度が所定の基準を満たした場合に、調整学習後の信頼度スコア算出部１１４ａのパラメーターへの更新を決定し得る。所定の基準は、例えば、人の関節点１１９としてはあり得ない関節点１１９の位置となっていないこと等とし得る。制御部１１０は、表示部１３０に表示させた出力矩形２５４が許容できるというユーザーによる判断を入力部１４０を介して受け付けた場合に、調整学習後の信頼度スコア算出部１１４ａのパラメーターへの更新を決定してもよい。制御部１１０は、上述した所定の基準の少なくともいずれか一つを満たした場合に、調整学習後の信頼度スコア算出部１１４ａのパラメーターへの更新を決定してもよい。

　制御部１１０は、調整学習後の信頼度スコア算出部１１４ａのパラメーターへの更新を決定したときは（Ｓ１０８：ＹＥＳ）、信頼度スコア算出部１１４ａのパラメーターを調整学習後の状態に維持し、以後の対象者５００の検出を行う（Ｓ１０９）。

　制御部１１０は、調整学習後の信頼度スコア算出部１１４ａのパラメーターへの更新を決定しないときは（Ｓ１０８：ＮＯ）、信頼度スコア算出部１１４ａのパラメーターを調整学習前の状態に戻し、以後の対象者５００の検出を行う（Ｓ１０９）。

　本発明に係る実施形態は、以下の効果を奏する。

　さらに、第１画像と第２画像は、それぞれ基準画像が異なる画像とする。これにより、第２画像の背景等が第１画像の背景等と異なっていても、効果的に対象物体の誤検出の発生を抑制できる。

　さらに、特徴マップ生成部、物体検出部、および対象物体検出部を、上述の教師データを用いて学習させた後、対象物体検出部を、第１画像と教師データとを用いてさらに学習させる。これにより、特徴マップ生成部および物体検出部の物体に対する検出感度を維持しつつ、対象物体検出部による新たな施設における対象物体の検出精度を向上できる。

　さらに、第２画像の第１画像に対する適応度の高低を推定し、適応度が高いと推定された第２画像および当該第２画像に対する対象物体の検出結果の正解の組み合わせの教師データと、第１画像と、を用いて対象物体検出部を学習させる。これにより、新たな施設における対象物体の検出精度を効率的に向上できる。

　さらに、対象物体検出部を学習させる前後における対象物体の検出結果に基づいて、対象物体検出部の学習前の対象物体検出部のパラメーターの、対象物体検出部の調整学習後の対象物体検出部のパラメーターへの更新を決定するかどうかを判断する。これにより、調整学習による対象物体の検出精度の変化を考慮して、対象物体検出部のパラメーターの更新可否を判断できる。

　さらに、対象物体検出部の調整学習後における、対象物体の検出結果に基づいて推定された行動の精度が所定の基準を満たした場合、対象物体の検出結果として出力された対象物体を含む出力矩形の形状が所定の基準を満たした場合、対象物体の検出結果に基づいて推定された関節点の位置が所定の基準を満たした場合、および出力矩形を撮影画像に重畳させて表示部に表示し、表示された出力矩形が許容できるというユーザーによる判断を受け付けた場合、の少なくともいずれかの場合に、対象物体検出部のパラメーターの、調整学習後の対象物体検出部のパラメーターへの更新を決定すると判断する。これにより、比較的簡単に、調整学習による対象物体の検出精度の変化を考慮して、対象物体検出部のパラメーターの更新可否を判断できる。

　さらに、調整学習後における、教師データに含まれる第２画像に基づく、対象物体の検出結果と、教師データに含まれる検出結果の正解との比較による検出精度と、調整学習前における、教師データに含まれる第２画像に基づく、対象物体の検出結果と、教師データに含まれる検出結果の正解との比較による検出精度と、を比較する。そして、比較結果に基づいて、対象物体検出部のパラメーターの、調整学習後のパラメーターへの更新を決定するかどうかを判断する。これにより、比較的簡単に、調整学習による対象物体の検出精度の変化を考慮して、対象物体検出部のパラメーターの更新可否を判断できる。

　以上に説明した画像認識システム１０の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な画像認識システムが備える構成を排除するものではない。

　例えば、画像認識装置１００が有する機能を、センサーボックスにより構成される撮影装置２００、または携帯端末４００が備えるようにしてもよい。

　また、画像認識装置１００、撮影装置２００、および携帯端末４００は、それぞれ複数の装置により構成されてもよく、いずれか複数の装置が単一の装置として構成されてもよい。

　また、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。

　また、対象物体は、人に限定されず、猫、器具等の複数のカテゴリーが含まれてもよい。

　また、上述した画像認識システム１０における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、ＵＳＢメモリやＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）－ＲＯＭ等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。

　本出願は、２０１８年７月２日に出願された日本特許出願（特願２０１８－１２６３０６号）に基づいており、その開示内容は、参照され、全体として、組み入れられている。

Claims

　特徴マップ検出部、物体検出部、および対象物体検出部を有する画像認識装置を制御するためのプログラムであって、
　撮影された画像を取得する手順（ａ）と、
　取得された前記画像から、前記特徴マップ生成部により特徴マップを生成する手順（ｂ）と、
　生成された前記特徴マップから、前記物体検出部により物体を検出する手順（ｃ）と、
　検出された前記物体の、対象物体に関する信頼度スコアを、前記対象物体検出部により、前記特徴マップから算出することで、前記対象物体を検出する手順（ｄ）と、
　前記対象物体を検出するための対象領域に前記対象物体が映っていない第１画像と、第２画像および前記第２画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる手順（ｅ）と、
　を有する処理を、コンピューターに実行させるための画像認識プログラム。
　前記第１画像と前記第２画像は、それぞれ基準画像が異なる画像である、請求項１に記載の画像認識プログラム。
　前記手順（ｅ）は、
　前記特徴マップ生成部、前記物体検出部、および前記対象物体検出部を、前記教師データを用いて学習させた後、前記対象物体検出部を、前記第１画像と前記教師データとを用いてさらに学習させる、請求項１または２に記載の画像認識プログラム。
　前記第２画像の前記第１画像に対する適応度の高低を推定する手順（ｆ）をさらに有し、
　前記手順（ｅ）は、手順（ｆ）において前記適応度が高いと推定された前記第２画像を選択し、前記教師データのうち、選択された前記第２画像および前記第２画像に対する前記対象物体の検出結果の正解の組み合わせの前記教師データと、前記第１画像と、を用いて前記対象物体検出部を学習させる、請求項１～３のいずれか一項に記載の画像認識プログラム。
　前記手順（ｅ）により前記対象物体検出部を学習させる前後における前記手順（ｄ）による前記対象物体の検出結果に基づいて、前記対象物体検出部の学習前の前記対象物体検出部のパラメーターの、前記対象物体検出部の前記手順（ｅ）による学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する手順（ｇ）をさらに有する、請求項１～４のいずれか一項に記載の画像認識プログラム。
　前記手順（ｇ）は、前記手順（ｅ）により前記対象物体検出部が学習された後における、前記手順（ｄ）による前記対象物体の検出結果に基づいて推定された行動の精度が所定の基準を満たした場合、前記対象物体の検出結果として出力された前記対象物体を含む出力矩形の形状が所定の基準を満たした場合、前記対象物体の検出結果に基づいて推定された関節点の位置が所定の基準を満たした場合、および前記出力矩形を前記画像に重畳させて表示部に表示し、表示された前記出力矩形が許容できるというユーザーによる判断を受け付けた場合、の少なくともいずれかの場合に、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定すると判断する、請求項５に記載の画像認識プログラム。
　前記手順（ｇ）は、前記手順（ｅ）により前記対象物体検出部が学習された後における、前記教師データに含まれる前記第２画像に基づく、前記手順（ｄ）による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、前記対象物体検出部が学習される前における、前記教師データに含まれる前記第２画像に基づく、前記手順（ｄ）による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、を比較し、比較結果に基づいて、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する、請求項５に記載の画像認識プログラム。
　撮影された画像を取得する取得部と、
　取得された前記画像から、特徴マップを生成する特徴マップ生成部と、
　生成された前記特徴マップから、物体を検出する物体検出部と、
　検出された前記物体の、対象物体に関する信頼度スコアを、前記特徴マップから算出することで、前記対象物体を検出する対象物体検出部と、
　前記対象物体を検出するための対象領域に前記対象物体が映っていない第１画像と、第２画像および前記第２画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる学習部と、
　を有する画像認識装置。
　前記第１画像と前記第２画像は、それぞれ基準画像が異なる画像である、請求項８に記載の画像認識装置。
　前記学習部は、
　前記特徴マップ生成部、前記物体検出部、および対象物体検出を、前記教師データを用いて学習させた後、前記対象物体検出部を、前記第１画像と前記教師データとを用いてさらに学習させる、請求項８または９に記載の画像認識装置。
　前記第２画像の前記第１画像に対する適応度の高低を推定する推定部をさらに有し、
　前記学習部は、前記推定部により前記適応度が高いと推定された前記第２画像を選択し、前記教師データのうち、選択された前記第２画像および前記第２画像に対する前記対象物体の検出結果の正解の組み合わせの前記教師データと、前記第１画像と、を用いて前記対象物体検出部を学習させる、請求項８～１０のいずれか一項に記載の画像認識装置。
　前記学習部により前記物体検出部を学習させる前後における前記対象物体検出部による前記対象物体の検出結果に基づいて、前記対象物体検出部の学習前の前記対象物体検出部のパラメーターの、前記対象物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する判断部をさらに有する、請求項８～１１のいずれか一項に記載の画像認識装置。
　前記判断部は、前記学習部により前記対象物体検出部が学習された後における、前記対象物体検出部による前記対象物体の検出結果に基づいて推定された行動の精度が所定の基準を満たした場合、前記対象物体の検出結果として出力された前記対象物体を含む出力矩形が所定の基準を満たした場合、前記対象物体の検出結果に基づいて推定された関節点の位置が所定の基準を満たした場合、および前記出力矩形を前記画像に重畳させて表示部に表示し、表示された前記出力矩形が許容できるというユーザーによる判断を受け付けた場合、の少なくともいずれかの場合に、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定すると判断する、請求項１２に記載の画像認識装置。
　前記判断部は、前記学習部により前記対象物体検出部が学習された後における、前記教師データに含まれる前記第２画像に基づく、前記対象物体検出部による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、前記学習部により前記対象物体検出部が学習される前における、前記教師データに含まれる前記第２画像に基づく、前記対象物体検出部による前記対象物体の検出結果と、前記教師データに含まれる検出結果の正解との比較による検出精度と、を比較し、比較結果に基づいて、前記対象物体検出部のパラメーターの、前記物体検出部の学習後の前記対象物体検出部のパラメーターへの更新を決定するかどうかを判断する、請求項１２に記載の画像認識装置。
　撮影された画像を取得する取得部と、
　取得された前記画像から、特徴マップを生成する特徴マップ生成部と、
　生成された前記特徴マップから、物体を検出する物体検出部と、
　検出された前記物体の、対象物体に関する信頼度スコアを、前記特徴マップから算出することで、前記対象物体を検出する対象物体検出部と、を有する画像認識装置を学習させるためのプログラムであって、
　前記対象物体を検出するための対象領域に前記対象物体が映っていない第１画像と、第２画像および前記第２画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる手順を、コンピューターに実行させるための学習プログラム。
　撮影された画像を取得する取得部と、
　取得された前記画像から、特徴マップを生成する特徴マップ生成部と、
　生成された前記特徴マップから、物体を検出する物体検出部と、
　検出された前記物体の、対象物体に関する信頼度スコアを、前記特徴マップから算出することで、前記対象物体を検出する対象物体検出部と、を有する画像認識装置を学習させるための学習装置であって、
　前記対象物体を検出するための対象領域に前記対象物体が映っていない第１画像と、第２画像および前記第２画像に対する前記対象物体の検出結果の正解の組み合わせの教師データと、を用いて前記対象物体検出部を学習させる学習部を有する学習装置。