WO2023175664A1

WO2023175664A1 - 学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体

Info

Publication number: WO2023175664A1
Application number: PCT/JP2022/011276
Authority: WO
Inventors: 雄太工藤
Original assignee: 日本電気株式会社
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2023-09-21

Abstract

学習装置１０００は、学習モデルＬＭ機械学習を行う学習装置であって、被照合人物ＩＰ＿Ｓと同一人物である第１のサンプル人物ＳＰ１及び第１のサンプル人物とは異なる第２のサンプル人物ＳＰ２が写り込んでいるサンプル画像ＳＩを学習モデルに入力することで、第１のサンプル人物の第１のサンプル特徴量ＳＦ１と、第２のサンプル人物の第２のサンプル特徴量ＳＦ２とを抽出する抽出手段１００１と、サンプル画像に写り込んでいる第１のサンプル人物が被照合人物と同一人物であるか否かを第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数Ｌｏｓｓ１と、第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数Ｌｏｓｓ２とを用いて、機械学習を行う学習手段１００２とを備える。

Description

学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体

　この開示は、例えば、画像に写り込んでいる人物が特定の人物と同一人物である否かを判定する（つまり、照合する）ために用いられる学習モデルの機械学習を行うことが可能な学習装置、学習方法及び記録媒体、並びに、画像に写り込んでいる人物が特定の人物と同一人物である否かを判定可能な人物照合装置、人物照合方法及び記録媒体の技術分野に関する。

　画像に写り込んでいる人物が特定の人物と同一人物である否かを判定可能な人物照合装置の一例が、特許文献１に記載されている。その他、この開示に関連する先行技術文献として、特許文献２から特許文献５があげられる。

特開２０２１－１４４７４９号公報特開２０２０－１１９１５４号公報特開２０２０－０５２６９４号公報特開２０１７－０５９２０７号公報特開２０１９－０５６９６６号公報

　この開示は、先行技術文献に記載された技術の改良を目的とする学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体を提供することを課題とする。

　この開示の学習装置の一の態様は、人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習装置であって、被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出する抽出手段と、前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記機械学習を行う学習手段とを備える。

　この開示の人物照合装置の一の態様は、人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出する抽出手段と、前記対象画像に写り込んでいる前記対象人物が第１の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定する照合手段とを備え、前記学習モデルは、第２の被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記第２の被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記機械学習を行うこととを含む学習方法によって学習済みである
　人物照合装置。

　この開示の学習方法の一の態様は、人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習方法であって、被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記機械学習を行うこととを含む。

　この開示の人物方法の一の態様は、人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出することと、前記対象画像に写り込んでいる前記対象人物が第１の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定することとを含み、前記学習モデルは、第２の被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記第２の被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記機械学習を行うこととを含む学習方法によって学習済みである
　人物照合方法。

　この開示の記録媒体の第１の態様は、人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習方法をコンピュータに実行させるコンピュータプログラムが記録された記録媒体であって、前記学習方法は、被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記機械学習を行うこととを含む。

　この開示の記録媒体の第２の態様は、人物照合方法をコンピュータに実行させるコンピュータプログラムが記録された記録媒体であって、前記人物照合方法は、人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出することと、前記対象画像に写り込んでいる前記対象人物が第１の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定することとを含み、前記学習モデルは、第２の被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記第２の被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記機械学習を行うこととを含む学習方法によって学習済みである。

図１は、第１実施形態における学習装置の構成を示すブロック図である。図２は、第１実施形態における人物照合装置の変形例の構成を示すブロック図である。図３は、第２実施形態における学習装置が行う学習動作を概念的に示す。図４は、第２実施形態における人物照合装置が行う人物照合動作を概念的に示す。図５は、第２実施形態における学習装置の構成を示すブロック図である。図６は、学習データセットのデータ構造の一例を示すデータ構造図である。図７（ａ）から図７（ｃ）の夫々は、サンプル画像の一例を示す。図８は、サンプル画像が切り出されるカメラ画像を示す。図９は、人物画像が入力された学習モデルが出力する特徴マップを概念的に示す。図１０は、第２実施形態における学習装置が行う学習動作の流れを示すフローチャートである。図１１は、第２実施形態における人物照合装置の構成を示すブロック図である。図１２は、第２実施形態における人物照合装置が行う人物照合動作の流れを示すフローチャートである。

　以下、図面を参照しながら、学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体の実施形態について説明する。

　（１）第１実施形態
　初めに、学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体の第１実施形態について説明する。以下では、図１及び図２を参照しながら、学習装置、学習方法及び記録媒体の第１実施形態が適用された学習装置１０００と、人物照合装置、人物照合方法及び記録媒体の第１実施形態が適用された人物照合装置２０００とを用いて、学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体の第１実施形態について説明する。図１は、第１実施形態における学習装置１０００の構成を示すブロック図である。図２は、第１実施形態における人物照合装置２０００の構成を示すブロック図である。

　学習装置１０００は、人物が写り込んでいる人物画像が入力された場合に、人物の特徴量を出力可能な学習モデルの機械学習を行う。学習モデルの機械学習を行うために、学習装置１０００は、図１に示すように、後述する付記に記載された「抽出手段」の一具体例である抽出部１００１と、後述する付記に記載された「学習手段」の一具体例である学習部１００２とを備えている。

　抽出部１００１は、第２の被照合人物と同一人物である第１のサンプル人物及び第１のサンプル人物とは異なる（つまり、第２の被照合人物とは異なる）第２のサンプル人物が写り込んでいるサンプル画像を、人物画像として学習モデルに入力する。その結果、学習モデルは、第１のサンプル人物の特徴量である第１のサンプル特徴量と、第２のサンプル人物の特徴量である第２のサンプル特徴量とを出力する。つまり、抽出部１００１は、サンプル画像を学習モデルに入力することで、第１及び第２のサンプル特徴量を抽出する。

　学習部１００２は、抽出部１００１が抽出した第１及び第２のサンプル特徴量を用いて、学習モデルの機械学習を行う。具体的には、学習部１００２は、第１の損失関数と、第２の損失関数とを用いて、学習モデルの機械学習を行う。第１の損失関数は、サンプル画像に写り込んでいる第１のサンプル人物が第２の被照合人物と同一人物であるか否かを第１のサンプル特徴量に基づいて判定する照合処理の精度に関する損失関数である。第２の損失関数は、第１及び第２のサンプル特徴量の間の距離に関する損失関数である。

　学習装置１０００が機械学習を行うことで構築された学習モデル（つまり、学習装置１０００によって学習済みの学習モデル）は、図２に示す人物照合装置２０００によって使用されてもよい。人物照合装置２０００は、学習モデルを用いて、対象画像に写り込んでいる対象人物が第１の被照合人物と同一人物であるか否かを判定する照合処理を行う。照合処理を行うために、人物照合装置２０００は、図２に示すように、後述する付記に記載された「抽出手段」の一具体例である抽出部２００１と、後述する付記に記載された「照合手段」の一具体例である照合部２００２とを備えている。

　抽出部２００１は、対象人物が写り込んでいる対象画像を、人物画像として学習モデルに入力する。その結果、学習モデルは、対象人物の特徴量である対象特徴量を出力する。つまり、抽出部２００１は、対象画像を学習モデルに入力することで、対象特徴量を抽出する。

　照合部２００２は、抽出部２００１が抽出した対象特徴量に基づいて、対象画像に写り込んでいる対象人物が第１の被照合人物と同一人物であるか否かを判定する照合処理を行う。

　以上説明したように、第１実施形態における学習装置１０００は、照合処理の精度に関する第１の損失関数を用いて、学習モデルの機械学習を行う。このため、第１の損失関数を用いることなく学習モデルの機械学習が行われる場合と比較して、学習装置１０００は、第１及び第２のサンプル人物が一枚のサンプル画像に写り込んでいる状況下において、第１のサンプル人物が第２の被照合人物と同一人物であると判定されやすくなる（つまり、照合処理の精度が向上する）ように、機械学習を行うことが可能となる。その結果、学習装置１０００によって構築された学習モデルを用いる人物照合装置２０００は、一枚の対象画像に第１の被照合人物と同一人物である第１の対象人物に加えて、第１の対象人物とは異なる第２の対象人物が写り込んでいる場合であっても、第１の対象人物が第１の被照合人物と同一人物であると適切に判定することができる。

　加えて、第１実施形態における学習装置１０００は、第１の損失関数に加えて、第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数を用いて、学習モデルの機械学習を行う。例えば、学習装置１０００は、第１及び第２のサンプル特徴量の間の距離が長くなるように（つまり、第１及び第２のサンプル特徴量の間の類似度が低くなるように）、学習モデルの機械学習を行ってもよい。このため、第２の損失関数を用いることなく学習モデルの機械学習が行われる場合と比較して、学習装置１０００は、第１及び第２のサンプル人物が一枚のサンプル画像に写り込んでいる状況下において、第２のサンプル人物が第２の被照合人物と同一人物であると誤判定されにくくなる（つまり、照合処理の精度が向上する）ように、機械学習を行うことが可能となる。その結果、学習装置１０００によって構築された学習モデルを用いる人物照合装置２０００は、第１及び第２の対象人物が一枚の対象画像に写り込んでいる場合であっても、第２の対象人物が第１の被照合人物と同一人物であると誤判定する可能性が低くなる。

　このように、学習装置１０００は、一枚の対象画像に第１及び第２の対象人物が写り込んでいる状況下において、第１の対象人物が第１の被照合人物と同一人物であると人物照合装置２０００によって適切に判定されると共に、第２の対象人物が第１の被照合人物と同一人物であると誤判定されなくなるように、学習モデルの機械学習を行うことができる。その結果、人物照合装置２０００は、一枚の対象画像に第１及び第２の対象人物が写り込んでいる状況下において、第１の対象人物が第１の被照合人物と同一人物であると適切に判定することができる。

　（２）第２実施形態
　続いて、学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体の第２実施形態について説明する。以下では、学習装置、学習方法及び記録媒体の第２実施形態が適用された学習装置１と、人物照合装置、人物照合方法及び記録媒体の第２実施形態が適用された人物照合装置２とを用いて、学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体の第２実施形態について説明する。

　学習装置１は、学習可能な学習モデルＬＭの機械学習を行うための学習動作を行う。学習モデルＬＭは、人物が写り込んでいる人物画像が入力された場合に、人物の特徴量を出力可能なモデルである。学習モデルＬＭは、例えば、ニューラルネットワークを含む学習モデルであってもよい。

　学習動作を行うために、学習装置１は、図３に示すように、人物画像の一具体例であるサンプル画像ＳＩを学習モデルＬＭに入力する。サンプル画像ＳＩは、例えば、被照合人物ＩＰ＿Ｓと同一人物であるサンプル人物ＳＰ及び被照合人物ＩＰ＿Ｓとは同一人物でないサンプル人物ＳＰが写り込んでいる画像である。その結果、学習モデルＬＭは、複数のサンプル人物ＳＰの特徴量である複数のサンプル特徴量ＳＦを出力する。学習装置１は、この複数のサンプル特徴量ＳＦを用いて、学習モデルＬＭの機械学習を行う。尚、以下の説明では、必要に応じて、被照合人物ＩＰ＿Ｓと同一人物であるサンプル人物ＳＰを、“サンプル人物ＳＰ１”と称し、被照合人物ＩＰ＿Ｓと同一人物でないサンプル人物ＳＰを、“サンプル人物ＳＰ２”と称し、サンプル人物ＳＰ１のサンプル特徴量ＳＦを、“サンプル特徴量ＳＦ１”と称し、サンプル人物ＳＰ２のサンプル特徴量ＳＦを、“サンプル特徴量ＳＦ２”と称する。

　一方で、人物照合装置２は、学習モデルＬＭを用いて、人物画像に写り込んでいる人物が特定の人物と同一人物であるか否かを判定する人物照合動作を行う。人物照合装置２が用いる学習モデルＬＭは、学習装置１によって構築された学習モデルＬＭ（つまり、学習装置１が行う機械学習によって構築された学習モデルＬＭ）である。つまり、人物照合装置２が用いる学習モデルＬＭは、学習装置１によって学習済みの学習モデルＬＭである。

　人物照合動作を行うために、人物照合装置２は、図４に示すように、人物画像の一具体例である対象画像ＴＩを学習モデルＬＭに入力する。対象画像ＴＩは、対象人物ＴＰが写り込んでいる画像である。対象画像ＴＩには、複数の対象人物ＴＰが写り込んでいてもよい。その結果、学習モデルＬＭは、対象人物ＴＰの特徴量である対象特徴量ＴＦを出力する。人物照合装置２は、対象特徴量ＴＦを用いて、対象画像ＴＩに写り込んでいる対象人物ＴＰが被照合人物ＩＰ＿Ｔと同一人物であるか否かを判定する。つまり、人物照合装置２は、この対象特徴量ＴＦを用いて、対象画像ＴＩに写り込んでいる対象人物ＴＰと同一人物である被照合人物ＩＰ＿Ｔを同定する。

　以下、学習装置１と人物照合装置２とについて、順に説明する。

　（２－１）第２実施形態における学習装置１
　初めに、第２実施形態における学習装置１について説明する。

　（２－１－１）学習装置の構成
　初めに、図５を参照しながら、第２実施形態における学習装置１について説明する。図３は、第２実施形態における学習装置１の構成を示すブロック図である。

　図５に示すように、学習装置１は、演算装置１１と、記憶装置１２とを備えている。更に、学習装置１は、通信装置１３と、入力装置１４と、出力装置１５とを備えていてもよい。但し、学習装置１は、通信装置１３、入力装置１４及び出力装置１５のうちの少なくとも一つを備えていなくてもよい。演算装置１１と、記憶装置１２と、通信装置１３と、入力装置１４と、出力装置１５とは、データバス１６を介して接続されていてもよい。

　演算装置１１は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｅｃｓｓｉｎｇ　Ｕｎｉｔ）及びＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）のうちの少なくとも一つを含む。演算装置１１は、コンピュータプログラムを読み込む。例えば、演算装置１１は、記憶装置１２が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置１１は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、学習装置１が備える図示しない記録媒体読み取り装置を用いて読み込んでもよい。演算装置１１は、通信装置１３（或いは、その他の通信装置）を介して、学習装置１の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、ダウンロードしてもよい又は読み込んでもよい）。演算装置１１は、読み込んだコンピュータプログラムを実行する。その結果、演算装置１１内には、学習装置１が行うべき動作（例えば、上述した学習動作）を行うための論理的な機能ブロックが実現される。つまり、演算装置１１は、学習装置１が行うべき動作を行うための論理的な機能ブロックを実現するためのコントローラとして機能可能である。

　図５には、学習動作を行うために演算装置１１内に実現される論理的な機能ブロックの一例が示されている。図３に示すように、演算装置１１内には、後述する付記に記載された「抽出手段」の一具体例である特徴抽出部１１１と、後述する付記に記載された「学習手段」の一具体例である学習部１１２とが実現される。尚、特徴抽出部１１１及び学習部１１２の夫々の動作については後に詳述するが、その概要についてここに簡単に説明する。特徴抽出部１１１は、サンプル画像ＳＩを学習モデルＬＭに入力することで、サンプル画像ＳＩに写り込んでいるサンプル人物ＳＰのサンプル特徴量ＳＦを抽出する。学習部１１２は、特徴抽出部１１１が抽出したサンプル特徴量ＳＦに基づいて、学習モデルＬＭの機械学習を行う。

　記憶装置１２は、所望のデータを記憶可能である。例えば、記憶装置１２は、演算装置１１が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置１２は、演算装置１１がコンピュータプログラムを実行している場合に演算装置１１が一時的に使用するデータを一時的に記憶してもよい。記憶装置１２は、学習装置１が長期的に保存するデータを記憶してもよい。尚、記憶装置１２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。つまり、記憶装置１２は、一時的でない記録媒体を含んでいてもよい。

　第２実施形態では特に、記憶装置１２は、機械学習の対象となる学習モデルＬＭを記憶可能であってもよい。

　更に、記憶装置１２は、機械学習に用いられるサンプル画像ＳＩを含む学習データセット１２１を記憶可能であってもよい。学習データセット１２１のデータ構造の一例が、図６に示されている。図６に示すように、学習データセット１２１は、複数の単位学習データ１２１０を含んでいてもよい。

　各単位学習データ１２１０は、上述したサンプル画像ＳＩを含んでいてもよい。サンプル画像ＳＩには、サンプル画像ＳＩに対応する被照合人物ＩＰ＿Ｓと同一人物である一人のサンプル人物ＳＰ１が少なくとも写り込んでいる画像である。この場合、複数の単位学習データ１２１０のうち少なくとも一つは、図７（ａ）に示すように、一人のサンプル人物ＳＰ１が写り込んでいる一方で、被照合人物ＩＰ＿Ｓと同一人物でないサンプル人物ＳＰ２が写り込んでいないサンプル画像ＳＩを含んでいてもよい。複数の単位学習データ１２１０のうち少なくとも一つは、図７（ｂ）に示すように、一人のサンプル人物ＳＰ１に加えて、サンプル人物ＳＰ２が写り込んでいるサンプル画像ＳＩを含んでいてもよい。尚、図７（ｂ）は、一人のサンプル人物ＳＰ１と一人のサンプル人物ＳＰ２とが写り込んでいるサンプル画像ＳＩを示している。しかしながら、複数の単位学習データ１２１０のうち少なくとも一つは、図７（ｃ）に示すように、一人のサンプル人物ＳＰ１と複数のサンプル人物ＳＰ２とが写り込んでいるサンプル画像ＳＩを含んでいてもよい。

　サンプル画像ＳＩは、図８に示すように、カメラが撮像したカメラ画像ＣＩに対して、当該カメラ画像ＣＩに写り込んだ撮像人物ＣＰを検出するための物体検出処理（言い換えれば、人物検出処理）を行い、且つ、物体検出処理によって検出された撮像人物ＣＰをカメラ画像ＣＩから切り出すことで生成される画像であってもよい。物体検出処理は、カメラ画像ＣＩに写り込んだ撮像人物ＣＰを少なくとも部分的に取り囲むバウンディングボックスＢａの単位で、撮像人物ＣＰを検出する処理であってもよい。この場合、サンプル画像ＳＩは、カメラ画像ＣＩからバウンディングボックスＢａに含まれる画像部分を切り出すことで生成される画像であってもよい。この場合、バウンディングボックスＢａによって囲まれた人物ＣＰ（つまり、バウンディングボックスＢａの単位で特定された撮像人物ＣＰ）は、カメラ画像ＣＩからバウンディングボックスＢａに含まれる画像部分を切り出すことで生成されるサンプル画像ＳＩにおける被照合人物ＩＰ＿Ｓ及びサンプル人物ＳＰ１となる。一方で、バウンディングボックスＢａ内には、物体検出処理によって検出された撮像人物ＣＰとは異なる撮像人物ＣＰが含まれる可能性がある。例えば、カメラ画像ＣＩに少なくとも部分的に重なり合った複数の撮像人物ＣＰが写り込んでいる場合には、複数の撮像人物ＣＰのうちの一の撮像人物ＣＰを取り囲むバウンディングボックスＢａ内には、複数の撮像人物ＣＰのうちの一の撮像人物ＣＰとは異なる他の撮像人物ＣＰが含まれる可能性がある。この場合、物体検出処理によって検出された撮像人物ＣＰとは異なる撮像人物ＣＰは、カメラ画像ＣＩからバウンディングボックスＢａに含まれる画像部分を切り出すことで生成されるサンプル画像ＳＩにおけるサンプル人物ＳＰ２となる。

　図８に示す例では、撮像画像ＣＩ内において撮像人物ＣＰ＃１と撮像人物ＣＰ＃２とが部分的に重なっており、撮像人物ＣＰ＃１を取り囲むバウンディングボックスＢａ＃１内に撮像人物ＣＰ＃２が含まれ、撮像人物ＣＰ＃２を取り囲むバウンディングボックスＢａ＃２内に撮像人物ＣＰ＃１が含まれている。この場合、カメラ画像ＣＩからバウンディングボックスＢａ＃１に含まれる画像部分を切り出すことで生成されるサンプル画像ＳＩにおいて、撮像人物ＣＰ＃１が被照合人物ＩＰ＿Ｓ及びサンプル人物ＳＰ１となり、撮像人物ＣＰ＃２がサンプル人物ＳＰ２となる。また、カメラ画像ＣＩからバウンディングボックスＢａ＃２に含まれる画像部分を切り出すことで生成されるサンプル画像ＳＩにおいて、撮像人物ＣＰ＃２が被照合人物ＩＰ＿Ｓ及びサンプル人物ＳＰ１となり、撮像人物ＣＰ＃１がサンプル人物ＳＰ２となる。

　再び図６において、各単位学習データ１２１０は更に、正解ラベル１２１２を含んでいてもよい。正解ラベル１２１２は、人物識別ラベル１２１３と、人物位置ラベル１２１４とを含んでいてもよい。

　人物識別ラベル１２１３は、サンプル画像ＳＩに写り込んでいるサンプル人物ＳＰ１と同一人物であると判定されるべき被照合人物ＩＰ＿Ｓを特定可能な識別情報（例えば、人物ＩＤ）である。例えば、「Ａ」という被照合人物ＩＰ＿Ｓと同一人物であるサンプル人物ＳＰ１が写り込んだサンプル画像ＳＩを含む単位学習データ１２１０は、「Ａ」という被照合人物ＩＰ＿Ｓを特定可能な識別情報を、人物識別ラベル１２１３として含んでいてもよい。

　人物位置ラベル１２１４は、サンプル画像ＳＩに写り込んでいるサンプル人物ＳＰの位置を示す情報である。具体的には、第２実施形態では、人物画像（この場合、サンプル画像ＳＩ）が入力された学習モデルＬＭは、図９に示すように、人物画像の特徴量がマッピングされた特徴マップＭＰと、当該特徴マップＭＰのうち人物画像に写り込んでいる人物に対応するマップ領域ＭＡの位置を示すマップ位置情報とを出力する。言い換えれば、学習モデルＬＭは、特徴マップＭＰと、特徴マップＭＰのうちの人物画像に写り込んでいる人物の特徴量を含むマップ領域ＭＡの位置を示すマップ位置情報を出力する。以下の説明では、図９に示すように、マップ位置情報が、マップ領域ＭＡを取り囲むバウンディングボックスＢｂを用いてマップ領域ＭＡの位置を示す例について説明する。この場合、人物位置ラベル１２１４は、人物位置ラベル１２１４に対応するサンプル画像ＳＩが学習モデルＬＭに入力された場合に学習モデルＬＭが出力するべきバウンディングボックスＢｂ（つまり、学習モデルＬＭが出力するべきマップ領域ＭＡの位置）を示す。

　上述したように、サンプル画像ＳＩには、複数のサンプル人物ＳＰが写り込んでいる可能性がある。この場合、サンプル画像ＳＩが入力された学習モデルＬＭは、特徴マップＭＰのうちの複数のサンプル人物ＳＰの特徴量を夫々含む複数のマップ領域ＭＡの位置を夫々示す複数のバウンディングボックスＢｂを出力する。この場合、このサンプル画像ＳＩを含む単位学習データ１２１０は、学習モデルＬＭが出力するべき複数のバウンディングボックスＢｂを夫々示す複数の人物位置ラベル１２１４を含んでいてもよい。図９に示す例では、三人のサンプル人物ＳＰが写り込んだサンプル画像ＳＩが学習モデルＬＭに入力された場合に、特徴マップＭＰのうちの三人のサンプル人物ＳＰの特徴量を夫々含む三つのマップ領域ＭＡの位置を夫々示す三つのバウンディングボックスＢｂが出力されている。この場合、このサンプル画像ＳＩを含む単位学習データ１２１０は、学習モデルＬＭが出力するべき三つのバウンディングボックスＢｂを夫々示す三つの人物位置ラベル１２１４を含んでいてもよい。

　再び図５において、通信装置１３は、学習装置１の外部の装置と通信可能である。例えば、通信装置１３は、人物照合装置２と通信可能であってもよい。この場合、学習装置１は、通信装置１３を介して、機械学習によって構築した学習モデルＬＭを、人物照合装置２に送信（つまり、出力）してもよい。

　入力装置１４は、学習装置１の外部からの学習装置１に対する情報の入力を受け付ける装置である。例えば、入力装置１４は、学習装置１のオペレータが操作可能な操作装置（例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つ）を含んでいてもよい。例えば、入力装置１４は、学習装置１に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。

　出力装置１５は、学習装置１の外部に対して情報を出力する装置である。例えば、出力装置１５は、情報を画像として出力してもよい。つまり、出力装置１５は、出力したい情報を示す画像を表示可能な表示装置（いわゆる、ディスプレイ）を含んでいてもよい。例えば、出力装置１５は、情報を音声として出力してもよい。つまり、出力装置１５は、音声を出力可能な音声装置（いわゆる、スピーカ）を含んでいてもよい。例えば、出力装置１５は、紙面に情報を出力してもよい。つまり、出力装置１５は、紙面に所望の情報を印刷可能な印刷装置（いわゆる、プリンタ）を含んでいてもよい。

　（２－１－２）学習装置１が行う学習動作
　続いて、図１０を参照しながら、第２実施形態における学習装置１が行う学習動作について説明する。図１０は、第２実施形態における学習装置１が行う学習動作の流れを示すフローチャートである。

　図１０に示すように、特徴抽出部１１１は、サンプル画像ＳＩからサンプル特徴量ＳＦを抽出する（ステップＳ１０１）。具体的には、特徴抽出部１１１は、学習データセット１２１に含まれる一つのサンプル画像ＳＩを、学習モデルＬＭに入力する。その結果、学習モデルＬＭは、サンプル画像ＳＩに写り込んでいるサンプル人物ＳＰのサンプル特徴量ＳＦを出力する。具体的には、上述したように、サンプル画像ＳＩが学習モデルＬＭに入力されると、学習モデルＬＭは、特徴マップＭＰと、特徴マップＭＰのうちのサンプル人物ＳＰの特徴量を含むマップ領域ＭＡの位置を示すバウンディングボックスＢｂを出力する。この場合、特徴抽出部１１１は、特徴マップＭＰのうちのバウンディングボックスＢｂによって囲まれたマップ領域ＭＡを用いて、サンプル特徴量ＳＦを抽出してもよい。例えば、特徴抽出部１１１は、マップ領域ＭＡに含まれる特徴量を表す一次元又は多次元のベクトルを、サンプル特徴量として抽出してもよい。例えば、特徴抽出部１１１は、マップ領域ＭＡに含まれる特徴量の演算値又は統計値（例えば、平均値）を表す一次元又は多次元のベクトルを、サンプル特徴量として抽出してもよい。この場合、学習モデルＬＭは、特徴マップＭＰとバウンディングボックスＢｂとを出力することで、特徴マップＭＰ及びバウンディングボックスＢｂに基づいて抽出可能なサンプル特徴量ＳＦを実質的に出力しているとみなしてもよい。

　上述したように、サンプル画像ＳＩには、複数のサンプル人物ＳＰが写り込んでいる可能性がある。この場合、サンプル画像ＳＩが入力された学習モデルＬＭは、特徴マップＭＰのうちの複数のサンプル人物ＳＰの特徴量を夫々含む複数のマップ領域ＭＡの位置を夫々示す複数のバウンディングボックスＢｂを出力する。特徴抽出部１１１は、各サンプル人物ＳＰに対応するマップ領域ＭＡを用いて、各サンプル人物ＳＰのサンプル特徴量ＳＦを抽出してもよい。例えば、サンプル画像ＳＩに一人のサンプル人物ＳＰ１が写り込んでいる場合には、特徴抽出部１１１は、サンプル人物ＳＰ１に対応するマップ領域ＭＡを用いて、サンプル人物ＳＰ１のサンプル特徴量ＳＦ１を抽出してもよい。例えば、サンプル画像ＳＩに一人のサンプル人物ＳＰ２が写り込んでいる場合には、特徴抽出部１１１は、サンプル人物ＳＰ２に対応するマップ領域ＭＡを用いて、サンプル人物ＳＰ２のサンプル特徴量ＳＦ１を抽出してもよい。例えば、サンプル画像ＳＩに複数のサンプル人物ＳＰ２が写り込んでいる場合には、特徴抽出部１１１は、複数のサンプル人物ＳＰ２のうちの一のサンプル人物ＳＰ２に対応する一のマップ領域ＭＡを用いて、一のサンプル人物ＳＰ２のサンプル特徴量ＳＦ１を抽出してもよい。

　以降、特徴抽出部１１１は、ステップＳ１０１のサンプル特徴量ＳＦを抽出する処理を、必要な枚数のサンプル画像ＳＩからサンプル特徴量ＳＦが抽出されるまで繰り返す（ステップＳ１０２）。

　その後、学習部１１２は、ステップＳ１０１で抽出されたサンプル特徴量ＳＦに基づいて、照合損失関数Ｌｏｓｓ１と、距離損失関数Ｌｏｓｓ２とを算出する（ステップＳ１０３）。

　照合損失関数Ｌｏｓｓ１は、サンプル画像ＳＩに写り込んでいるサンプル人物ＳＰ１（つまり、被照合人物ＩＰ＿Ｓと同一人物であると判定されるべきサンプル人物ＳＰ１）が被照合人物ＩＰ＿Ｓと同一人物であるか否かを、ステップＳ１０１で抽出されたサンプル特徴量ＳＦに基づいて判定する照合処理の精度に関する損失関数である。典型的には、照合損失関数Ｌｏｓｓ１は、照合処理の精度が高くなるほど小さくなる損失関数であってもよい。

　照合損失関数Ｌｏｓｓ１を算出するために、学習部１１２は、サンプル画像ＳＩに写り込んでいるサンプル人物ＳＰ１が、当該サンプル画像ＳＩにおける被照合人物ＩＰ＿Ｓと同一人物であるか否かを、サンプル特徴量ＳＦに基づいて判定する照合処理を行う。具体的には、学習部１１２は、一のサンプル画像ＳＩに写り込んでいるサンプル人物ＳＰ１が、当該一のサンプル画像ＳＩにおける被照合人物ＩＰ＿Ｓと同一人物であるか否かを、当該一のサンプル画像ＳＩから抽出されたサンプル特徴量ＳＦに基づいて判定する照合処理を行う。その後、学習部１１２は、一のサンプル画像ＳＩを用いた照合処理の結果と、当該一のサンプル画像ＳＩに対応する人物識別ラベル１２１３との誤差を算出する。誤差の一例として、二乗誤差及び交差エントロピーの少なくとも一つがあげられるが、誤差がこの例に限定されることはない。一のサンプル画像ＳＩを用いた照合処理の精度が高ければ高いほど、当該照合処理によって、一のサンプル画像ＳＩに写り込んでいるサンプル人物ＳＰ１が、当該一のサンプル画像ＳＩに対応する人物識別ラベル１２１３が示す被照合人物ＩＰ＿Ｓと同一人物であると判定される確率が高くなる。その結果、照合処理の結果と人物識別ラベル１２１３との誤差は小さくなる。一方で、一のサンプル画像ＳＩを用いた照合処理の精度が低ければ低いほど、当該照合処理によって、一のサンプル画像ＳＩに写り込んでいるサンプル人物ＳＰ１が、当該一のサンプル画像ＳＩに対応する人物識別ラベル１２１３が示す被照合人物ＩＰ＿Ｓと同一人物であると判定される確率が低くなる。その結果、照合処理の結果と人物識別ラベル１２１３との誤差は大きくなる。学習部１１２は、同様の処理を、学習モデルＬＭに入力されたサンプル画像ＳＩの数だけ繰り返す。その後、学習部１１２は、算出された複数の誤差の総和（或いは、任意の演算値又は統計値）を、照合損失関数Ｌｏｓｓ１として算出してもよい。

　一例として、学習部１１２は、一のサンプル画像ＳＩからステップＳ１０１で抽出されたサンプル特徴量ＳＦを、クラス分類器に入力してもよい。一のサンプル画像ＳＩに複数のサンプル人物ＳＰが写り込んでいることに起因してステップＳ１０１で複数のサンプル特徴量ＳＦが抽出された場合には、学習部１１２は、一のサンプル画像ＳＩから抽出された複数のサンプル特徴量ＳＦを、クラス分類器に入力してもよい。或いは、学習部１１２は、一のサンプル画像ＳＩから抽出された複数のサンプル特徴量ＳＦの一部を選択的に、クラス分類器に入力してもよい。クラス分類器は、人物画像から抽出された特徴量が入力された場合に、当該人物画像に写り込んでいる人物のクラスの分類結果を確率分布として出力可能である。このようなクラス分類器の一例として、入力される特徴量を一つのノードに結合する全結合層と、全結合層の出力を、ｓｏｆｔｍａｘ関数を用いて、人物画像に写り込んでいる人物が複数のクラスに夫々分類される複数の確率を含む確率分布に変換する出力層とを含むクラス分類器があげられる。この場合、サンプル特徴量ＳＦが入力されたクラス分類器は、サンプル画像ＳＩに写り込んでいるサンプル人物ＳＰ１が複数の異なる被照合人物ＩＰ＿Ｓの夫々と同一人物である確率を示す確率分布を出力する。学習部１１２は、同様の処理を、サンプル特徴量ＳＦが抽出されたサンプル画像ＳＩの数だけ繰り返す。その後、学習部１１２は、算出された複数の確率分布に基づいて、照合損失関数Ｌｏｓｓ１を算出してもよい。この場合、照合損失関数Ｌｏｓｓ１として、ｓｏｆｔｍａｘ　ｌｏｓｓに基づく損失関数が用いられてもよい。或いは、人物識別ラベル１２１３が、一のサンプル画像ＳＩに写り込んでいるサンプル人物ＳＰ１と同一人物であると判定されるべき被照合人物ＩＰ＿Ｓを確率分布で示す場合には、照合損失関数Ｌｏｓｓ１として、交差エントロピーに基づく損失関数が用いられてもよい。

　このように算出される照合損失関数Ｌｏｓｓ１は、照合処理の精度が高くなればなるほど小さくなる損失関数である。つまり、照合損失関数Ｌｏｓｓ１は、照合処理によってサンプル人物ＳＰ１が被照合人物ＩＰ＿Ｓと同一人物であると判定される確率が高くなればなるほど小さくなる損失関数である。

　一方で、距離損失関数Ｌｏｓｓ２は、被照合人物ＩＰ＿Ｓと同一人物であると判定されるべきサンプル人物ＳＰ１のサンプル特徴量ＳＦ１と、被照合人物ＩＰ＿Ｓと同一人物であると判定されるべきでないサンプル人物ＳＰ２のサンプル特徴量ＳＦ２との間の距離に関する損失関数である。このため、学習部１１２は、サンプル人物ＳＰ１及びＳＰ２の双方が写り込んでいるサンプル画像ＳＩから抽出されたサンプル特徴量ＳＦ１及びＳＦ２を用いて、距離損失関数Ｌｏｓｓ２を算出する。学習部１１２は、サンプル人物ＳＰ１が写り込んでいる一方でサンプル人物ＳＰ２が写り込んでいないサンプル画像ＳＩから抽出されたサンプル特徴量ＳＦ１を用いることなく、距離損失関数Ｌｏｓｓ２を算出してもよい。

　距離損失関数Ｌｏｓｓ２を算出するために、学習部１１２は、サンプル人物ＳＰ１及びＳＰ２の双方が写り込んでいる一のサンプル画像ＳＩから抽出されたサンプル特徴量ＳＦ１及びＳＦ２の間の距離を算出する。サンプル特徴量ＳＦ１及びＳＦ２の間の距離は、サンプル特徴量ＳＦのベクトル空間内でのサンプル特徴量ＳＦ１及びＳＦ２の間の距離を意味していてもよい。距離として、ユークリッド距離が用いられてもよいし、その他の種類の距離（例えば、マハラノビス距離、チェックシートシェフ距離及びマンハッタン距離のうちの少なくとも一つ）が用いられてもよい。学習部１１２は、サンプル特徴量ＳＦ１及びＳＦ２の間の距離を算出する処理を、サンプル特徴量ＳＦ１及びＳＦ２の双方が抽出されたサンプル画像ＳＩの数だけ繰り返す。その後、学習部１１２は、算出された複数の距離に基づいて、距離損失関数Ｌｏｓｓ２を算出してもよい。例えば、学習部１１２は、算出された複数の距離に基づいて、複数の距離が長くなるほど小さくなる距離損失関数Ｌｏｓｓ２を算出してもよい。例えば、学習部１１２は、算出された複数の距離の夫々が所定のマージン距離に近づくほど小さくなる距離損失関数Ｌｏｓｓ２（例えば、Ｃｏｎｔｒａｓｔｉｖｅ　Ｌｏｓｓのｉｎｔｅｒ－ｃｌａｓｓサンプル用の損失項）を算出してもよい。

　尚、サンプル特徴量ＳＦ１及びＳＦ２の間の距離が長くなるほど、サンプル特徴量ＳＦ１及びＳＦ２の間の類似度が低くなる。言い換えれば、サンプル特徴量ＳＦ１及びＳＦ２の間の距離が短くなるほど、サンプル特徴量ＳＦ１及びＳＦ２の間の類似度が高くなる。このため、サンプル特徴量ＳＦ１及びＳＦ２の間の距離は、サンプル特徴量ＳＦ１及びＳＦ２の間の類似度と等価であるとみなしてもよい。

　その後、学習部１１２は、ステップＳ１０３で算出した照合損失関数Ｌｏｓｓ１及び距離損失関数Ｌｏｓｓ２を統合することで、統合損失関数Ｌｏｓｓを算出する（ステップＳ１０４）。統合損失関数Ｌｏｓｓは、照合損失関数Ｌｏｓｓ１及び距離損失関数Ｌｏｓｓ２の双方が反映された損失関数である限りは、どのような損失関数であってもよい。例えば、学習部１１２は、照合損失関数Ｌｏｓｓ１及び距離損失関数Ｌｏｓｓ２を加算することで、統合損失関数Ｌｏｓｓを算出してもよい。例えば、学習部１１２は、夫々に重みづけ係数をかけ合わせた照合損失関数Ｌｏｓｓ１及び距離損失関数Ｌｏｓｓ２を加算することで、統合損失関数Ｌｏｓｓを算出してもよい。

　その後、学習部１１２は、ステップＳ１０４で算出した統合損失関数Ｌｏｓｓが小さくなる（好ましくは、最小になる）ように、学習モデルＬＭの機械学習を行う（ステップＳ１０５）。例えば、学習モデルＬＭがニューラルネットワークを含む場合には、学習部１１２は、ニューラルネットワークのパラメータ（例えば、重み及びバイアスの少なくとも一つ）を更新してもよい。

　その後、学習部１１２は、ステップＳ１０５における学習モデルＬＭの機械学習が必要回数（例えば、設定されたエポック数に相当する回数）行われるまで、ステップＳ１０１からステップＳ１０５までの処理を繰り返してもよい（ステップＳ１０６）。

　（２－２）第２実施形態における人物照合装置２
　続いて、第２実施形態における人物照合装置２について説明する。

　（２－２－１）人物照合装置２の構成
　初めに、図１１を参照しながら、第２実施形態における人物照合装置２について説明する。図１１は、第２実施形態における人物照合装置２の構成を示すブロック図である。

　図３に示すように、人物照合装置２は、演算装置２１と、記憶装置２２とを備えている。更に、人物照合装置２は、通信装置２３と、入力装置２４と、出力装置２５とを備えていてもよい。但し、人物照合装置２は、通信装置２３、入力装置２４及び出力装置２５のうちの少なくとも一つを備えていなくてもよい。演算装置２１と、記憶装置２２と、通信装置２３と、入力装置２４と、出力装置２５とは、データバス２６を介して接続されていてもよい。

　演算装置２１は、例えば、ＣＰＵ、ＧＰＵ及びＦＰＧＡのうちの少なくとも一つを含む。演算装置２１は、コンピュータプログラムを読み込む。例えば、演算装置２１は、記憶装置２２が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置２１は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、人物照合装置２が備える図示しない記録媒体読み取り装置を用いて読み込んでもよい。演算装置２１は、通信装置２３（或いは、その他の通信装置）を介して、人物照合装置２の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、ダウンロードしてもよい又は読み込んでもよい）。演算装置２１は、読み込んだコンピュータプログラムを実行する。その結果、演算装置２１内には、人物照合装置２が行うべき動作（例えば、上述した人物照合動作）を行うための論理的な機能ブロックが実現される。つまり、演算装置２１は、人物照合装置２が行うべき動作を行うための論理的な機能ブロックを実現するためのコントローラとして機能可能である。

　図１１には、人物照合動作を行うために演算装置２１内に実現される論理的な機能ブロックの一例が示されている。図１１に示すように、演算装置２１内には、画像生成部２１１と、後述する付記に記載された「抽出手段」の一具体例である特徴抽出部２１２と、後述する付記に記載された「照合手段」の一具体例である照合部２１３とが実現される。尚、画像生成部２１１、特徴抽出部２１２及び照合部２１３の夫々の動作については後に詳述するが、その概要についてここに簡単に説明する。画像生成部２１１は、対象画像ＴＩを生成する。特徴抽出部２１２は、ターゲット画像ＴＩを学習モデルＬＭに入力することで、対象画像ＴＩに写り込んでいるターゲット人物ＴＰのターゲット特徴量ＴＦを抽出する。照合部２１３は、特徴抽出部２１２が抽出したターゲット特徴量ＴＦに基づいて、対象画像ＴＩに写り込んでいる対象人物ＴＰが被照合人物ＩＰ＿Ｔと同一人物であるか否かを判定する照合処理を行う。

　記憶装置２２は、所望のデータを記憶可能である。例えば、記憶装置２２は、演算装置２１が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置２２は、演算装置２１がコンピュータプログラムを実行している場合に演算装置２１が一時的に使用するデータを一時的に記憶してもよい。記憶装置２２は、人物照合装置２が長期的に保存するデータを記憶してもよい。尚、記憶装置２２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。つまり、記憶装置２２は、一時的でない記録媒体を含んでいてもよい。

　第２実施形態では特に、記憶装置２２は、学習装置１によって構築された（つまり、学習装置１が行う機械学習によって構築された）学習モデルＬＭを記憶可能であってもよい。

　通信装置２３は、人物照合装置２の外部の装置と通信可能である。例えば、通信装置２３は、学習装置１と通信可能であってもよい。この場合、人物照合装置２は、通信装置２３を介して、学習装置１によって構築された学習モデルＬＭを、学習装置１から受信（つまり、取得）してもよい。

　入力装置２４は、人物照合装置２の外部からの人物照合装置２に対する情報の入力を受け付ける装置である。例えば、入力装置２４は、人物照合装置２のオペレータが操作可能な操作装置（例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つ）を含んでいてもよい。例えば、入力装置２４は、人物照合装置２に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。

　出力装置２５は、人物照合装置２の外部に対して情報を出力する装置である。例えば、出力装置２５は、情報を画像として出力してもよい。つまり、出力装置２５は、出力したい情報を示す画像を表示可能な表示装置（いわゆる、ディスプレイ）を含んでいてもよい。例えば、出力装置２５は、情報を音声として出力してもよい。つまり、出力装置２５は、音声を出力可能な音声装置（いわゆる、スピーカ）を含んでいてもよい。例えば、出力装置２５は、紙面に情報を出力してもよい。つまり、出力装置２５は、紙面に所望の情報を印刷可能な印刷装置（いわゆる、プリンタ）を含んでいてもよい。

　（２－２－２）人物照合装置２が行う人物照合動作
　続いて、図１２を参照しながら、第２実施形態における人物照合装置２が行う人物照合動作について説明する。図１２は、第２実施形態における人物照合装置２が行う人物照合動作の流れを示すフローチャートである。

　図１２に示すように、画像生成部２１１は、対象画像ＴＩを生成する（ステップＳ２０１）。例えば、画像生成部２１１は、上述した学習動作において用いられるサンプル画像ＳＩを生成する方法と同様の方法で、対象画像ＴＩを生成してもよい。具体的には、例えば、画像生成部２１１は、対象画像ＴＩを生成するためのカメラが撮像したカメラ画像を取得してもよい。その後、画像生成部２１１は、取得したカメラ画像に対して、当該カメラ画像に写り込んだ撮像人物を検出するための物体検出処理を行ってもよい。その後、画像生成部２１１は、物体検出処理によって検出された撮像人物をカメラ画像から切り出すことで、切り出された撮像人物が写り込んだターゲット画像ＴＩを生成してもよい。

　図７（ａ）に示すサンプル画像ＳＩと同様に、対象画像ＴＩには、一人の対象人物ＴＰが写り込んでいてもよい。図７（ｂ）及び図７（ｃ）の夫々に示すサンプル画像ＳＩと同様に、対象画像ＴＩには、複数の対象人物ＴＰが写り込んでいてもよい。

　尚、対象画像ＴＩが予め生成されている場合には、画像生成部２１１は、対象画像ＴＩを生成しなくてもよい。例えば、カメラ画像そのものが、対象画像ＴＩとして用いられてもよい。この場合、人物照合装置２は、画像生成部２１１を備えていなくてもよい。

　その後、特徴抽出部２１２は、ステップＳ２０１で生成された対象画像ＴＩから対象特徴量ＴＦを抽出する（ステップＳ２０２）。具体的には、特徴抽出部２１２は、対象画像ＴＩを、学習モデルＬＭに入力する。その結果、学習モデルＬＭは、対象画像ＴＩに写り込んでいる対象人物ＴＰの対象特徴量ＴＦを出力する。尚、ステップＳ２０２において特徴抽出部２１２が対象画像ＴＩから対象特徴量ＴＦを抽出する動作は、上述した図１０のステップＳ１０１において特徴抽出部１１１がサンプル画像ＳＩからサンプル特徴量ＳＦを抽出する動作と同様の動作であってもよい。このため、ステップＳ２０２において特徴抽出部２１２が対象画像ＴＩから対象特徴量ＴＦを抽出する動作の詳細な説明は省略する。

　その後、照合部２１３は、対象画像ＴＩに写り込んでいる対象人物ＴＰが被照合人物ＩＰ＿Ｔと同一人物であるか否かを、ステップＳ２０２において抽出された対象特徴量ＴＦに基づいて判定する照合処理を行う（ステップＳ２０３）。具体的には、照合部２１３は、対象画像ＴＩに写り込んでいる対象人物ＴＰが、複数の異なる被照合人物ＩＰ＿Ｔの夫々と同一人物であるか否かを、対象特徴量ＴＦに基づいて判定する照合処理を行う。つまり、照合部２１３は、ステップＳ２０２において抽出された対象特徴量ＴＦに基づいて、複数の異なる被照合人物ＩＰ＿Ｔの中から、対象画像ＴＩに写り込んでいる対象人物ＴＰと同一人物である被照合人物ＩＰ＿Ｔを同定する照合処理を行う。

　例えば、照合部２１３は、ステップＳ２０２において抽出された対象特徴量ＴＦと、複数の異なる被照合人物ＩＰ＿Ｔの夫々の特徴量である被照合特徴量と比較することで、対象画像ＴＩに写り込んでいる対象人物ＴＰと複数の異なる被照合人物ＩＰ＿Ｔの夫々との類似度を算出する。複数の異なる被照合人物ＩＰ＿Ｔの夫々の特徴量である被照合特徴量は、記憶装置２２に予め記憶されていてもよい。その後、照合部２１３は、対象画像ＴＩに写り込んでいる対象人物ＴＰが、複数の異なる被照合人物ＩＰ＿Ｔのうちの類似度が最も高い一人の被照合人物ＩＰ＿Ｔと同一人物であると判定してもよい。

　上述したように、対象画像ＴＩには複数の対象人物ＴＰが写り込む可能性がある。この場合には、特徴抽出部２１２は、ステップＳ２０２において、複数の対象人物ＴＰの夫々の対象特徴量ＴＦを算出する。照合部２１３は、ステップＳ２０２において抽出された複数の対象特徴量ＴＦの夫々と、複数の異なる被照合人物ＩＰ＿Ｔの夫々の被照合特徴量と比較することで、対象画像ＴＩに写り込んでいる複数の対象人物ＴＰの夫々と複数の異なる被照合人物ＩＰ＿Ｔの夫々との類似度を算出してもよい。その後、対象画像ＴＩに写り込んでいる複数の対象人物ＴＰのうちの一の対象人物ＴＰと複数の異なる被照合人物ＩＰ＿Ｔのうちの一の被照合人物ＩＰ＿Ｔとの間の類似度が最も高くなった場合には、照合部２１３は、対象画像ＴＩに写り込んでいる一の対象人物ＴＰが、一の被照合人物ＩＰ＿Ｔと同一人物であると判定してもよい。

　（２－３）技術的効果
　以上説明したように、第２実施形態における学習装置１は、照合処理の精度に関する照合損失関数Ｌｏｓｓ１を用いて、学習モデルＬＭの機械学習を行う。このため、照合損失関数Ｌｏｓｓ１を用いることなく学習モデルＬＭの機械学習が行われる場合と比較して、学習装置１は、サンプル人物ＳＰ１及びＳＰ２が一枚のサンプル画像ＳＩに写り込んでいる状況下において、被照合人物ＩＰ＿Ｓと同一人物であるサンプル人物ＳＰ１が被照合人物ＩＰ＿Ｓと同一人物であると判定されやすくなる（つまり、照合処理の精度が向上する）ように、機械学習を行うことが可能となる。その結果、学習装置１によって構築された学習モデルＬＭを用いる人物照合装置２は、一枚の対象画像ＴＩに被照合人物ＩＰ＿Ｔと同一人物である第１の対象人物ＴＰに加えて、被照合人物ＩＰ＿Ｔとは異なる第２の対象人物ＴＰが写り込んでいる場合であっても、第１の対象人物ＴＰが被照合人物ＩＰ＿Ｔと同一人物であると適切に判定することができる。つまり、人物照合装置２は、一枚の対象画像ＴＩに複数の対象人物ＴＰが写り込んでいる場合であっても、複数の異なる被照合人物ＩＰ＿Ｔの中から、複数の対象人物ＴＰのうちの一の対象人物と同一人物である一の被照合人物ＩＰ＿Ｔを適切に同定することができる。

　加えて、第２実施形態における学習装置１は、照合損失関数Ｌｏｓｓ１に加えて、距離損失関数Ｌｏｓｓ２を用いて、学習モデルＬＭの機械学習を行う。例えば、学習装置１は、サンプル特徴量ＳＦ１及びＳＦ２の間の距離が長くなるように（つまり、サンプル特徴量ＳＦ１及びＳＦ２の間の類似度が低くなるように）、学習モデルＬＭの機械学習を行ってもよい。このため、距離損失関数Ｌｏｓｓ２を用いることなく学習モデルＬＭの機械学習が行われる場合と比較して、学習装置１は、サンプル人物ＳＰ１及びＳＰ２が一枚のサンプル画像ＳＩに写り込んでいる状況下において、被照合人物ＩＰ＿Ｓと同一人物でないサンプル人物ＳＰ２が被照合人物ＩＰ＿Ｓと同一人物であると誤判定されにくくなる（つまり、照合処理の精度が向上する）ように、機械学習を行うことが可能となる。その結果、学習装置１によって構築された学習モデルを用いる人物照合装置２は、一枚の対象画像ＴＩに被照合人物ＩＰ＿Ｔと同一人物である第１の対象人物ＴＰに加えて、被照合人物ＩＰ＿Ｔとは異なる第２の対象人物ＴＰが写り込んでいる場合であっても、第２の対象人物ＴＰが被照合人物被照合人物ＩＰ＿Ｔと同一人物であると誤判定する可能性が低くなる。

　このように、学習装置１は、一枚の対象画像ＴＩに被照合人物ＩＰ＿Ｔと同一人物である第１の対象人物ＴＰに加えて被照合人物ＩＰ＿Ｔとは異なる第２の対象人物ＴＰが写り込んでいる状況下において、第１の対象人物ＴＰが被照合人物ＩＰ＿Ｔと同一人物であると人物照合装置２によって適切に判定されると共に、第２の対象人物ＴＰが被照合人物ＩＰ＿Ｔと同一人物であると誤判定されなくなるように、学習モデルＬＭの機械学習を行うことができる。その結果、人物照合装置２は、一枚の対象画像ＴＩに被照合人物ＩＰ＿Ｔと同一人物である第１の対象人物ＴＰに加えて被照合人物ＩＰ＿Ｔとは異なる第２の対象人物ＴＰが写り込んでいる状況下において、第１の対象人物ＴＰが被照合人物ＩＰ＿Ｔと同一人物であると適切に判定することができる。

　特に、照合損失関数Ｌｏｓｓ１及び距離損失関数Ｌｏｓｓ２の双方を用いて学習モデルＬＭの機械学習が行われる第１実施形態では、照合損失関数Ｌｏｓｓ１及び距離損失関数Ｌｏｓｓ２の少なくとも一方を用いることなく学習モデルＬＭの機械学習が行われる場合と比較して、一枚の対象画像ＴＩに被照合人物ＩＰ＿Ｔと同一人物である第１の対象人物ＴＰに加えて被照合人物ＩＰ＿Ｔとは異なる第２の対象人物ＴＰが写り込んでいる状況下での照合処理の精度が向上する。その結果、仮に一枚の対象画像ＴＩ内において第１の対象人物ＴＰの一部が第２の対象人物ＴＰによって遮蔽されていたとしても、人物照合装置２は、第１の対象人物ＴＰが被照合人物ＩＰ＿Ｔと同一人物であると適切に判定することができる。

　更に、第２実施形態では、サンプル画像ＳＩが入力された学習モデルＬＭは、図９に示すように、特徴マップＭＰとバウンディングボックスＢｂ（つまり、マップ領域ＭＡの位置を示すマップ位置情報）とを出力可能である。この場合、特徴抽出部１１１は、特徴マップＭＰとバウンディングボックスＢｂとを用いて、サンプル特徴量ＳＦを容易に抽出することができる。特に、一枚のサンプル画像ＳＩに複数のサンプル人物ＳＰが写り込んでいる場合であっても、学習モデルＬＭは、複数のサンプル人物ＳＰに夫々対応する複数のバウンディングボックスＢｂを出力可能である。特徴抽出部１１１は、複数サンプル人物ＳＰのサンプル特徴量ＳＦを容易に抽出することができる。

　（３）変形例
　（３－１）学習装置１の変形例
　上述したように、学習データセット１２１は、サンプル画像ＳＩが入力された学習モデルＬＭが出力するべきバウンディングボックスＢｂを示す人物位置ラベル１２１４を含んでいる。この場合、学習部１１２は、図１０のステップＳ１０３において、照合損失関数Ｌｏｓｓ１及び距離損失関数Ｌｏｓｓ２に加えて、バウンディングボックスＢｂの位置に関する位置損失関数Ｌｏｓｓ３を算出してもよい。位置損失関数Ｌｏｓｓ３は、サンプル画像ＳＩが入力された学習モデルＬＭが実際に出力したバウンディングボックスＢｂの位置と、人物位置ラベル１２１４が示すバウンディングボックスＢｂの位置との誤差に関する損失関数であってもよい。位置損失関数Ｌｏｓｓ３は、学習モデルＬＭが実際に出力したバウンディングボックスＢｂの位置と、人物位置ラベル１２１４が示すバウンディングボックスＢｂの位置との誤差が小さくなるほど小さくなる損失関数であってもよい。

　この場合、学習部１１２は、一枚のサンプル画像ＳＩが入力された学習モデルＬＭが実際に出力したバウンディングボックスＢｂの位置と、当該一枚のサンプル画像ＳＩに対応する人物位置ラベル１２１４が示すバウンディングボックスＢｂの位置との誤差を算出してもよい。サンプル画像ＳＩに複数のサンプル人物ＳＰが写り込んでいる場合には、学習部１１２は、各サンプル人物ＳＰに対応する誤差を算出してもよい。例えば、学習部１１２は、サンプル人物ＳＰ１に対応する誤差と、サンプル人物ＳＰ２に対応する誤差とを算出してもよい。学習部１１２は、同様の処理を、学習モデルＬＭに入力されたサンプル画像ＳＩの数だけ繰り返してもよい。その後、学習部１１２は、算出された複数の誤差の総和（或いは、任意の演算値又は統計値）を、照合損失関数Ｌｏｓｓ３として算出してもよい。

　位置損失関数Ｌｏｓｓ３が算出される場合、学習部１１２は、図１０のステップＳ１０３において、照合損失関数Ｌｏｓｓ１、距離損失関数Ｌｏｓｓ２及び位置損失関数Ｌｏｓｓ３を統合した統合損失関数Ｌｏｓｓを算出してもよい。その結果、学習モデルＬＭは、特徴マップＭＰのうちのサンプル人物ＳＰの特徴量を適切に含むマップ領域を指定するバウンディングボックスＢｂを出力することができる。

　尚、位置損失関数Ｌｏｓｓ３が算出されない場合には、学習データセット１２１（特に、その正解ラベル１２１２）は、人物位置ラベル１２１４を含んでいなくてもよい。

　（３－２）人物照合装置２の変形例
　対象画像ＴＩに複数の対象人物ＴＰが写り込んでいる場合には、照合部２１３は、複数の対象人物ＴＰの夫々と複数の異なる被照合人物ＩＰ＿Ｔの夫々との類似度を算出してもよいことは、上述したとおりである。しかしながら、対象人物ＴＰの数が多くなるほど及び／又は被照合人物ＩＰ＿Ｔの数が多くなるほど、類似度を算出するための演算コストが高くなる。そこで、照合部２１３は、照合部２１３は、複数の対象人物ＴＰの対象特徴量ＴＦに基づいて、類似度を算出するべき少なくとも一人の対象人物ＴＰを選択し、選択した少なくとも一人の対象人物ＴＰと夫々と複数の異なる被照合人物ＩＰ＿Ｔの夫々との類似度を算出してもよい。この場合、類似度を算出するための演算コスト（つまり、照合処理に要する演算コスト）が低減可能となる。

　一例として、複数の対象人物ＴＰの対象特徴量ＴＦの中に、過去に別の対象画像ＴＩを用いて行われた照合処理で抽出した対象特徴量ＴＦと同一の又は類似する一の対象特徴量ＴＦが含まれている場合には、照合部２１３は、当該一の対象特徴量ＴＦに対応する対象人物ＴＰを、類似度の算出対象から除外してもよい。なぜならば、一の対象特徴量ＴＦに対応する対象人物ＴＰは、過去の照合処理で既に別の被照合人物ＩＰ＿Ｔと同一人物であると判定済みである可能性が高いからである。

　（４）付記
　以上説明した実施形態に関して、更に以下の付記を開示する。
［付記１］
　人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習装置であって、
　被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出する抽出手段と、
　前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記機械学習を行う学習手段と
　を備える学習装置。
［付記２］
　前記第１の損失関数は、前記第１のサンプル人物が前記被照合人物と同一人物であると前記照合処理によって判定される確率が高くなるほど小さくなる損失関数であり、
　前記第２の損失関数は、前記距離が長くなるほど小さくなる損失関数であり、
　前記学習手段は、前記第１及び第２損失関数を統合することで得られる統合損失関数が小さくなるように、前記機械学習を行う
　付記１に記載の学習装置。
［付記３］
　前記サンプル画像が入力された前記学習モデルは、前記サンプル画像の特徴を示す特徴マップと、前記特徴マップのうちの前記第１のサンプル人物に対応する第１マップ領域及び前記特徴マップのうちの前記第２のサンプル人物に対応する第２マップ領域に関する領域情報とを出力し
　前記抽出手段は、前記特徴マップ内の前記第１マップ領域を用いて、前記第１のサンプル特徴量を抽出し、前記特徴マップ内の前記第２マップ領域を用いて、前記第２のサンプル特徴量を抽出する
　付記１又は２に記載の学習装置。
［付記４］
　前記サンプル画像には、前記特徴マップ内での前記第１マップ領域の位置と前記第２マップ領域の位置とを示す位置情報が正解ラベルとして付与されており、
　前記学習手段は、前記学習モデルが出力する前記第１及び第２マップ領域の位置と前記正解ラベルとして付与されている前記第１及び第２マップ領域の位置とのそれぞれの誤差に関する第３の損失関数を用いて、前記機械学習を行う
　付記３に記載の学習装置。
［付記５］
　人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出する抽出手段と、
　前記対象画像に写り込んでいる前記対象人物が第１の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定する照合手段と
　を備え、
　前記学習モデルは、
　第２の被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、
　前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記第２の被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記学習モデルの機械学習を行うことと
　を含む学習方法によって学習済みである
　人物照合装置。
［付記６］
　前記対象画像には、前記対象人物が複数写り込んでおり、
　前記照合手段は、前記複数の対象人物の夫々の前記対象特徴量を、前記第１の被照合人物の特徴量である被照合特徴量と比較することで、前記対象画像に写り込んでいる前記複数の対象人物の夫々が前記第１の被照合人物と同一人物であるか否かを判定する
　付記５に記載の人物照合装置。
［付記７］
　人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習方法であって、
　被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、
　前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記機械学習を行うことと
　を含む学習方法。
［付記８］
　人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出することと、
　前記対象画像に写り込んでいる前記対象人物が第１の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定することと
　を含み、
　前記学習モデルは、
　第２の被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、
　前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記第２の被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記学習モデルの機械学習を行うことと
　を含む学習方法によって学習済みである
　人物照合方法。
［付記９］
　人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習方法をコンピュータに実行させるコンピュータプログラムが記録された記録媒体であって、
　前記学習方法は、
　被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、
　前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記機械学習を行うことと
　を含む記録媒体。
［付記１０］
　人物照合方法をコンピュータに実行させるコンピュータプログラムが記録された記録媒体であって、
　前記人物学習方法は、
　人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出することと、
　前記対象画像に写り込んでいる前記対象人物が第１の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定することと
　を含み、
　前記学習モデルは、
　第２の被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、
　前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記第２の被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記学習モデルの機械学習を行うことと
　を含む学習方法によって学習済みである
　記録媒体。

　上述の各実施形態の構成要素の少なくとも一部は、上述の各実施形態の構成要素の少なくとも他の一部と適宜組み合わせることができる。上述の各実施形態の構成要素のうちの一部が用いられなくてもよい。また、法令で許容される限りにおいて、上述のこの開示で引用した全ての文献（例えば、公開公報）の開示を援用してこの開示の記載の一部とする。

　この開示は、請求の範囲及び明細書全体から読み取るこのできる技術的思想に反しない範囲で適宜変更可能である。そのような変更を伴う学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体もまた、この開示の技術的思想に含まれる。

　１０００　学習装置
　１００１　抽出部
　１００２　学習部
　２０００　人物照合装置
　２００１　抽出部
　２００２　照合部
　１　学習装置
　１１　演算装置
　１１１　特徴抽出部
　１１２　学習部
　１２　記憶装置
　１２１　学習データセット
　１２１０　単位学習データ
　１２１１　サンプル画像
　１２１２　正解ラベル
　１２１３　人物識別ラベル
　１２１４　人物位置ラベル
　２　人物照合装置
　２１　演算装置
　２１１　画像生成部
　２１２　特徴抽出部
　２１３　照合部
　ＳＰ、ＳＰ１、ＳＰ２　サンプル人物
　ＴＰ　対象人物
　ＩＰ＿Ｓ、ＩＰ＿Ｔ　被照合人物
　ＳＦ、ＳＦ１、ＳＦ２　サンプル特徴量
　ＴＦ　対象特徴量
　ＬＭ　学習モデル
　ＭＰ　特徴マップ
　ＭＡ　マップ領域
　Ｂｂ　バウンディングボックス

Claims

　人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習装置であって、
　被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出する抽出手段と、
　前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記機械学習を行う学習手段と
　を備える学習装置。
　前記第１の損失関数は、前記第１のサンプル人物が前記被照合人物と同一人物であると前記照合処理によって判定される確率が高くなるほど小さくなる損失関数であり、
　前記第２の損失関数は、前記距離が長くなるほど小さくなる損失関数であり、
　前記学習手段は、前記第１及び第２損失関数を統合することで得られる統合損失関数が小さくなるように、前記機械学習を行う
　請求項１に記載の学習装置。
　前記サンプル画像が入力された前記学習モデルは、前記サンプル画像の特徴を示す特徴マップと、前記特徴マップのうちの前記第１のサンプル人物に対応する第１マップ領域及び前記特徴マップのうちの前記第２のサンプル人物に対応する第２マップ領域に関する領域情報とを出力し
　前記抽出手段は、前記特徴マップ内の前記第１マップ領域を用いて、前記第１のサンプル特徴量を抽出し、前記特徴マップ内の前記第２マップ領域を用いて、前記第２のサンプル特徴量を抽出する
　請求項１又は２に記載の学習装置。
　前記サンプル画像には、前記特徴マップ内での前記第１マップ領域の位置と前記第２マップ領域の位置とを示す位置情報が正解ラベルとして付与されており、
　前記学習手段は、前記学習モデルが出力する前記第１及び第２マップ領域の位置と前記正解ラベルとして付与されている前記第１及び第２マップ領域の位置とのそれぞれの誤差に関する第３の損失関数を用いて、前記機械学習を行う
　請求項３に記載の学習装置。
　人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出する抽出手段と、
　前記対象画像に写り込んでいる前記対象人物が第１の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定する照合手段と
　を備え、
　前記学習モデルは、
　第２の被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、
　前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記第２の被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記学習モデルの機械学習を行うことと
　を含む学習方法によって学習済みである
　人物照合装置。
　前記対象画像には、前記対象人物が複数写り込んでおり、
　前記照合手段は、前記複数の対象人物の夫々の前記対象特徴量を、前記第１の被照合人物の特徴量である被照合特徴量と比較することで、前記対象画像に写り込んでいる前記複数の対象人物の夫々が前記第１の被照合人物と同一人物であるか否かを判定する
　請求項５に記載の人物照合装置。
　人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習方法であって、
　被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、
　前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記機械学習を行うことと
　を含む学習方法。
　人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出することと、
　前記対象画像に写り込んでいる前記対象人物が第１の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定することと
　を含み、
　前記学習モデルは、
　第２の被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、
　前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記第２の被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記学習モデルの機械学習を行うことと
　を含む学習方法によって学習済みである
　人物照合方法。
　人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習方法をコンピュータに実行させるコンピュータプログラムが記録された記録媒体であって、
　前記学習方法は、
　被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、
　前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記機械学習を行うことと
　を含む記録媒体。
　人物照合方法をコンピュータに実行させるコンピュータプログラムが記録された記録媒体であって、
　前記人物照合方法は、
　人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出することと、
　前記対象画像に写り込んでいる前記対象人物が第１の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定することと
　を含み、
　前記学習モデルは、
　第２の被照合人物と同一人物である第１のサンプル人物及び前記第１のサンプル人物とは異なる第２のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第１のサンプル人物の特徴量である第１のサンプル特徴量と、前記第２のサンプル人物の特徴量である第２のサンプル特徴量とを抽出することと、
　前記サンプル画像に写り込んでいる前記第１のサンプル人物が前記第２の被照合人物と同一人物であるか否かを前記第１のサンプル特徴量に基づいて判定する照合処理の精度に関する第１の損失関数と、前記第１及び第２のサンプル特徴量の間の距離に関する第２の損失関数とを用いて、前記学習モデルの機械学習を行うことと
　を含む学習方法によって学習済みである
　記録媒体。