WO2019111932A1

WO2019111932A1 - モデル学習装置、モデル学習方法及び記録媒体

Info

Publication number: WO2019111932A1
Application number: PCT/JP2018/044685
Authority: WO
Inventors: 真寺尾
Original assignee: 日本電気株式会社
Priority date: 2017-12-08
Filing date: 2018-12-05
Publication date: 2019-06-13
Also published as: JP7031685B2; US20200342215A1; US11580784B2; JPWO2019111932A1

Abstract

モデル学習装置は、対象物の行動を表す情報である行動ラベルが付与された、対象物の移動軌跡を表すデータである行動学習用移動軌跡データに対して誤差を付加することで、誤差付き移動軌跡データを生成する誤差付き移動軌跡生成部と、少なくとも、誤差付き移動軌跡データと、行動ラベルとに基づいて作成した学習データを用いて、ある対象物の移動軌跡から、その対象物の行動を認識可能なモデルを学習する行動認識モデル学習部と、を備える。これにより、カメラ画像を用いて推定した対象物の移動軌跡に基づいて、対象物の行動を高精度に認識可能なモデルを提供することができる。

Description

モデル学習装置、モデル学習方法及び記録媒体

　本開示は、対象物の移動の軌跡から対象物の行動を認識するモデルを学習する技術に関する。

　監視カメラ等の画像を用いて、対象物（例えば人物等）の行動を分析する技術が注目されている。例えば、駅やショッピングモールなどでの不審な行動を自動的に効率よく発見することで、事件や事故を未然に防止することが期待されている。

　カメラ等の撮影機器により撮影された画像（カメラ画像）を用いて人物の行動を認識する技術の一例が、特許文献１に記載されている。特許文献１に記載された技術においては、人物が移動した軌跡（移動軌跡）を用いて人物の行動を認識するモデルを、サポートベクトルマシンなどにより、事前に学習する。次に、カメラ画像を分析することで、監視対象者の移動軌跡を表す情報（移動軌跡情報）を取得し、事前学習したモデルと、移動軌跡情報とを用いて、監視対象者の不審な行動を判定する。

　特許文献２には、移動体の移動軌跡データに対して状態を割り当てることで状態遷移モデルを学習し、学習した状態遷移モデルを用いて移動軌跡データの行動を判定する技術が記載されている。

　また、特許文献３には、追跡対象物を含む画像領域に含まれる観測ノイズの影響を抑制しながら、実空間において追跡対象物を追跡する技術が記載されている。

特開２０１２－１２８８７７号公報特開２００９－１５７７７０号公報国際公開第２０１４／０８３９１０号

　しかしながら、上記特許文献１に記載された技術を用いた場合、人物行動の認識精度が低いという問題が生ずる。その理由は、一般にカメラ映像を用いて推定される人物の移動軌跡には推定誤差が含まれ、この推定誤差によって行動認識の誤りが引き起こされるからである。一例として、まっすぐに歩いている「通常歩行」と、ふらふらと蛇行して歩いている「ふらつき歩行」とを、移動軌跡を用いて分類することを想定する。カメラ画像を用いて推定した移動軌跡には推定誤差（揺らぎ）が含まれることから、通常歩行であっても、揺らぎを含む移動軌跡が推定される。このような揺らぎを含む移動軌跡を入力して、歩行態様を分類する場合、通常歩行がふらつき歩行と誤認識（誤判定）されてしまう可能性がある。

　また、特許文献２に記載された技術を用いた場合、生成された特徴量には、推定誤差が含まれる可能性がある。このため、例えば、「ふらつき歩行」の特徴量と、「通常歩行」の特徴量とが同じクラスタに分類される可能性がある。なお、特許文献３に記載された技術は、画像のノイズを除去する技術である。

　本開示に係る技術は、このような事情に鑑みて開発されたものである。即ち、本開示の目的の一つは、対象物（例えば人物等）の移動軌跡に基づいて、対象物の行動を高精度に認識可能な行動認識モデルを学習することができるモデル学習装置（行動認識モデル学習装置）等を提供することである。

　上記目的を達成すべく、本開示の一態様に係るモデル学習装置は、以下のように構成される。即ち、本開示の一態様に係るモデル学習装置は、対象物の行動を表す情報である行動ラベルが付与された、対象物の移動軌跡を表すデータである行動学習用移動軌跡データに対して誤差を付加することで、誤差付き移動軌跡データを生成する誤差付き移動軌跡生成部と、少なくとも、誤差付き移動軌跡データと、行動ラベルとに基づいて作成した学習データを用いて、ある対象物の移動軌跡から、その対象物の行動を認識可能なモデルを学習する行動認識モデル学習部と、を備える。

　本開示の他の一態様に係るモデル学習方法は、対象物の行動を表す情報である行動ラベルが付与された、対象物の移動軌跡を表すデータである行動学習用移動軌跡データに対して誤差を付加することで、誤差付き移動軌跡データを生成し、少なくとも、誤差付き移動軌跡データと、行動ラベルとに基づいて作成した学習データを用いて、ある対象物の移動軌跡から、その対象物の行動を認識可能なモデルを学習することを含む。

　また、同目的は、上記構成を有するモデル学習装置、モデル学習方法等をコンピュータによって実現するコンピュータ・プログラム（モデル学習プログラム）、及び、そのコンピュータ・プログラムが格納されているコンピュータ読み取り可能な記録媒体等によっても達成される。

　即ち、本開示のさらに他の一態様に係るコンピュータ・プログラムは対象物の行動を表す情報である行動ラベルが付与された、対象物の移動軌跡を表すデータである行動学習用移動軌跡データに対して誤差を付加することで、誤差付き移動軌跡データを生成する処理と、少なくとも、誤差付き移動軌跡データと、行動ラベルとに基づいて作成した学習データを用いて、ある対象物の移動軌跡から、その対象物の行動を認識可能なモデルを学習する処理と、をコンピュータに実行させる。また、本開示のさらに他の一態様に係る記録媒体には、上記したコンピュータ・プログラムが記録されてもよい。

　本開示によれば、対象物の移動軌跡に基づいて、対象物の行動を高精度に認識可能な行動認識モデルを学習することができる。

図１Ａは、本開示の第１実施形態に係る行動認識モデル学習装置の機能的な構成を例示するブロック図である。図１Ｂは、本開示の第１実施形態に係る行動認識モデル学習装置の機能的な構成を例示するブロック図である。図１Ｃは、本開示の第２及び第３実施形態に係る行動認識モデル学習装置の機能的な構成を例示するブロック図である。図２は、本開示の第２実施形態に係る誤差付き移動軌跡生成部の機能的な構成を例示するブロック図である。図３は、行動学習用移動軌跡データの具体例を示す図である。図４は、本開示の第２実施形態に係る第一の座標変換部の処理内容を説明する図である。図５は、本開示の第２実施形態に係る第一の座標変換部の処理内容を説明する図である。図６は、本開示の第２実施形態に係る第一の誤差付加部の処理内容を説明する図である。図７は、本開示の第２実施形態に係る第二の座標変換部の処理内容を説明する図である。図８は、本開示の第２実施形態に係る行動認識モデル学習装置の処理手順の一例を示すフローチャートである。図９は、本開示の第２実施形態に係る行動認識モデル学習装置の効果を説明する図である。図１０は、本開示の第３実施形態に係る誤差付き移動軌跡生成部の機能的な構成を例示するブロック図である。図１１は、誤差学習用カメラ画像データ、及び、画像データに対応する正解移動軌跡データの具体例を示す図である。図１２は、本開示の第３実施形態に係る誤差生成モデルの具体例を示す図である。図１３は、複数の人物が重なったときに発生する移動軌跡の推定誤差の特徴を説明する図である。図１４は、本開示の第３実施形態に係る行動認識モデル学習装置の処理手順の一例を示すフローチャートである。図１５は、本開示に係る行動認識モデル学習装置を実現可能なハードウェア構成の一例を示す説明図である。

　以下、本開示に係る技術を実施するための形態について、図面を参照して説明する。以下の実施の形態に記載されている、構成、数値、処理の流れ、機能要素などは一例に過ぎず、本開示の技術範囲は以下の記載に限定されるものではない。以下の各実施形態を構成する構成要素の分割（例えば、機能的な単位による分割）は、その実施形態を実現可能な一例である。各実施形態を実現可能な構成は、以下の例示に限定されず、様々な構成が想定され得る。以下の各実施形態を構成する構成要素は、さらに分割されてもよく、また、以下の各実施形態を構成する１以上の構成要素が統合されてもよい。また、以下においては、静止画像、動画像（映像）をまとめて「画像」と記載する。

　＜第１実施形態＞
　本開示に係る技術の第１実施形態としての行動認識モデル学習装置１０（モデル学習装置）について、図１Ａ、図１Ｂを用いて説明する。本実施形態における行動認識モデル学習装置１０は、対象物の行動の認識に用いられるモデルである行動認識モデルを学習する装置である。本開示に係る技術において、対象物は特に限定されない。対象物として、例えば、人物（人間）、動物、各種移動機器（自動車、列車、航空機、船舶等）等が含まれてよい。以下においては、説明の便宜上、対象物が人間（人物）である場合を具体例として説明するが、本実施形態はこれに限定されるものではない（以下の各実施形態において同様である）。

　図１Ａに示すように、行動認識モデル学習装置１０は、誤差付き移動軌跡生成部１１（誤差付き移動軌跡生成手段）と、行動認識モデル学習部１３（行動認識モデル学習手段）とを備える。なお、図１Ｂに例示するように、行動認識モデル学習装置１０は、特徴抽出部１２（特徴抽出手段）をさらに備えるよう構成されてよい。

　誤差付き移動軌跡生成部１１は、行動ラベルが付与された行動学習用移動軌跡データに対して、画像を用いて移動軌跡を自動推定する際に発生し得る推定誤差を付加することで、誤差付き移動軌跡データを生成する。行動学習用移動軌跡データは、対象物（例えば、人物）の移動軌跡を表すデータである。

　ここで、行動ラベルは、対象物（例えば、人物等）の行動を表す情報である。例えば、対象物として人物を想定する場合、ある人物の行動について、「通常歩行」や、「ふらつき歩行」等が、行動ラベルとして行動学習用移動軌跡データに付与されてよい。画像は、例えば、カメラなどの撮影装置により撮影された画像（動画像及び静止画像の少なくとも一方）であってよい。以下、説明の便宜上、誤差付き移動軌跡生成部１１は、カメラにより撮影された画像（カメラ画像）を用いて移動軌跡を自動推定する際に発生し得る推定誤差を、行動学習用移動軌跡データに付加することを想定する（以下の各実施形態において同様である。）。自動推定は、例えば、適切な装置（例えばコンピュータ装置等）等を用いて、カメラ等により撮影した画像に基づいて、対象物の移動軌跡を推定する技術を含んでよい。係る技術の一例として、例えば、下記参考文献（特開２０１４－２３８６７４号公報）に記載された技術を採用してもよいが、本実施形態はこれに限定されず、他の技術を採用してもよい。

　（参考文献）特開２０１４－２３８６７４号公報
　行動認識モデル学習部１３は、少なくとも、行動学習用移動軌跡データと行動ラベルとに基づいて作成された学習データを用いて、対象物の移動軌跡に基づいて対象物の行動を認識するモデル（行動認識モデル）を学習する。

　なお、行動認識モデル学習装置１０が特徴抽出部１２を含む場合、特徴抽出部１２は、誤差付き移動軌跡データから、対象物（例えば人物）の行動の認識に用いられる特徴量を抽出（作成）する。この場合、行動認識モデル学習部１３は、特徴抽出部１２が抽出した特徴量、及び、行動ラベルを用いて、対象物の移動軌跡に基づいて対象物の行動を認識するモデルを学習してもよい。

　本実施形態における行動認識モデル学習装置１０によれば、画像を用いて推定した対象物の移動軌跡に基づいて、対象物の行動を高精度に認識可能な行動認識モデルを学習することができる。その理由は、行動認識モデル学習装置１０は、行動学習用移動軌跡データ（学習データ）に対して、推定誤差を付加することで、誤差付き移動軌跡データを生成し、その誤差付き移動軌跡データを用いて行動認識モデルの学習処理を実行するからである。これにより、行動認識モデル学習装置１０は、画像を用いて移動軌跡を推定する際に発生する推定誤差を含めて、行動認識モデルの学習することが可能である。従って、行動認識モデル学習装置１０は、対象物の行動をより高精度に認識可能な行動認識モデルを学習することができる。

　＜第２実施形態＞
　以下、本開示の第２実施形態に係る行動認識モデル学習装置について、図１Ｃから図９を用いて説明する。

　図１Ｃ及び図２は、本実施形態に係る行動認識モデル学習装置１００の機能的な構成を例示するブロック図である。

　行動認識モデル学習装置１００は、図１Ｃに例示するように、誤差付き移動軌跡生成部１１０と、特徴抽出部１２０と、行動認識モデル学習部１３０とを備えるよう構成されてよい。誤差付き移動軌跡生成部１１０は、図２に例示するように、第一の座標変換部１１１（第一の座標変換手段）と、第一の誤差付加部１１２（第一の誤差付加手段）と、第二の座標変換部１１３（第二の座標変換手段）とを有するよう構成されてよい。

　本実施形態における誤差付き移動軌跡生成部１１０は、第１実施形態における誤差付き移動軌跡生成部１１と同様の機能を実現可能に構成されてよい。また、特徴抽出部１２０は、第１実施形態における特徴抽出部１２と同様の機能を実現可能に構成されてよい。また、行動認識モデル学習部１３０は、第１実施形態における行動認識モデル学習部１３と同様の機能を実現可能に構成されてよい。以下、行動認識モデル学習装置１００を構成するこれらの各構成要素について説明する。

　誤差付き移動軌跡生成部１１０は、行動学習用移動軌跡データを取得し、カメラ画像を用いた移動軌跡の自動推定において発生し得る推定誤差を付加することで、誤差付き移動軌跡データを生成する。誤差付き移動軌跡生成部１１０は、第一の座標変換部１１１と、第一の誤差付加部１１２と、第二の座標変換部１１３とを有する。

　行動学習用移動軌跡データは、行動内容を表す情報（以下、行動ラベル）が付与されたデータであって、人物の正しい位置を表す時系列データである。本実施形態においては、行動学習用移動軌跡データが表す人物位置は、実空間における人物の位置を表す。

　図３に、行動学習用移動軌跡データの一例を示す。図３に例示するように、行動学習用移動軌跡データには、１以上の移動軌跡データ（（ａ）から（ｆ））が含まれてよい。以下、行動学習用移動軌跡データに含まれる移動軌跡データを、単に移動軌跡データ又は移動軌跡と記載することがある。

　図３において、（ａ）、（ｂ）、（ｃ）の移動軌跡には行動ラベルとして「通常歩行」が付与されており、（ｄ）、（ｅ）、（ｆ）の移動軌跡には行動ラベルとして「ふらつき歩行」が付与されている。「通常歩行」の行動ラベルが付与された移動軌跡（（ａ）、（ｂ）、（ｃ））は、比較的軌跡の揺らぎが少ない。「ふらつき歩行」の行動ラベルが付与された移動軌跡（（ｄ）、（ｅ）、（ｆ））は、比較的軌跡の揺らぎが多い。

　行動学習用移動軌跡データを得るには、例えば、人物を撮影したカメラ画像データに対して、カメラ画像内の人物の足元位置を人手でラベル付けし、カメラ画像内の位置を実空間内の位置へと座標変換すればよい。この座標変換は、カメラの設置位置、設置角度、レンズ特性などを表すカメラパラメータを用いることで計算可能である。ただし、行動学習用移動軌跡データを得る方法はこれに限られるものではなく、例えば、レーザー測位や地面に設置した感圧センサなど、実空間における人物の位置を正確に測定できる他の方法を用いてもよい。

　行動学習用移動軌跡データの作成者は、例えば、予め人物の行動を撮影したカメラ撮影データを複数用意し、それぞれのカメラ撮影データに対して、上記のような方法でラベルを付して座標変換することで、行動学習用移動軌跡データに含まれる行動軌跡データを作成することができる。行動学習用移動軌跡データは、例えば、行動認識モデル学習装置１００に記憶されてもよい。また、行動学習用移動軌跡データは、例えば、行動認識モデル学習装置１００とは異なる装置に記憶されてもよく、各種通信回線や記録媒体等を介して、行動認識モデル学習装置１００に適宜提供されてもよい。

　第一の座標変換部１１１は、行動学習用移動軌跡データを、カメラ画像における移動軌跡を表すデータへと変換し、出力する。以下の説明では、実空間における位置を表すための座標系を「世界座標系」、カメラ画像における位置を表すための座標系を「カメラ画像座標系」と表記する。

　図４は、図３の（ａ）に例示する行動学習用移動軌跡データを、世界座標系に配置した状態を模式的に示す説明図である。このとき、仮想的なカメラも世界座標系に配置されるが、カメラの設置位置及び設置角度は適宜に選択されてよい。例えば、カメラの設置場所に非依存な行動認識モデルを学習する場合には、（仮想的な）カメラは、ランダムな場所に配置されてもよい。

　図４に例示される座標軸は、適宜選択可能である。係る座標軸は、例えば、２次元又は３次元の絶対座標を表す座標軸であってもよく、極座標を表す座標軸であってもよい。また、移動軌跡データは、世界座標系において２次元データとして配置されてもよく、３次元データとして配置されてもよい。

　図５は、第一の座標変換部１１１による座標変換の処理内容を模式的に示す説明図である。第一の座標変換部１１１は、世界座標系に配置された移動軌跡を、仮想的なカメラのカメラ画像座標系における移動軌跡のデータへと変換する。この変換は、仮想的なカメラの設置位置、設置角度、レンズ特性などを表すカメラパラメータを用いて計算できる。

　第一の誤差付加部１１２は、第一の座標変換部１１１が出力する移動軌跡のデータに、カメラ画像内の人物位置を自動推定する際に発生し得る推定誤差を付加したデータを出力する。第一の誤差付加部１１２は、例えば、カメラ画像座標系における移動軌跡上の１以上の点に対して、事前に定めた特定の大きさの分散を持つガウスノイズを加える。この処理は、カメラ画像内の人物位置を推定する際に発生する、ランダムな推定誤差を模擬することに相当する。加えるガウスノイズの分散は、カメラと人物との距離に応じて変化させてもよい。また、本実施形態において移動軌跡のデータに加えられるノイズは、ガウスノイズに限定されず、それ以外のノイズが適宜加えられてもよい。

　図６は、第一の誤差付加部１１２による誤差付加の処理内容を模式的に示す説明図である。第一の誤差付加部１１２により移動軌跡に誤差が付加されることで、カメラ座標系における移動軌跡に微小な揺らぎが加えられている。

　第二の座標変換部１１３は、第一の誤差付加部１１２が出力する移動軌跡のデータを、実空間における移動軌跡を表すデータへと変換することで、誤差付き移動軌跡データを生成し、そのデータを出力する。

　図７は、第二の座標変換部１１３による座標変換の処理内容を模式的に示す説明図である。第二の座標変換部１１３は、第一の誤差付加部１１２により生成されたデータであって、カメラ画像内の人物位置の自動推定において発生する誤差を反映したカメラ座標系のデータから、世界座標系における誤差付き移動軌跡データを生成する。

　特徴抽出部１２０は、第二の座標変換部１１３が出力する世界座標系における誤差付き移動軌跡データから、人物の行動を認識する際に用いられる特徴量を抽出する。特徴量としては、例えば、移動軌跡を微分することで得られる速度ベクトル、加速度ベクトルや、それらの時間方向の移動平均などの時系列特徴量が用いられてもよい。これらの特徴量は、人物の行動を認識する用途において有用であることが知られている。なお、特徴量は上記に限定されず、時系列データを表す他の特徴量が採用されてもよい。

　行動認識モデル学習部１３０は、特徴抽出部１２０が出力する特徴量、及び、行動学習用移動軌跡データに付与された行動ラベル（具体的には、行動学習用移動軌跡データに含まれる移動軌跡に付与された行動ラベル）を用いて、人物の移動軌跡に基づいて人物行動を認識する行動認識モデルを学習する。行動認識モデル学習部１３０は、学習されたモデルを出力してもよい。

　行動認識モデルとしては、例えばリカレント型のニューラルネットワーク（ＲＮＮ：Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）が用いられてもよい。ニューラルネットワークは、例えば、時系列特徴量を入力とした分類問題において用いられる。ただし、行動認識モデルはニューラルネットワークに限定されない。例えば、時系列特徴量に対して時間方向の平均、分散、最大値などの統計量を計算することで特徴量の次元数を定めたうえで、行動認識モデルとして、サポートベクトルマシンなどのパターン認識の分野で用いられる各種の識別器が用いられてもよい。

　なお、行動認識モデル学習部１３０は、学習する行動認識モデルの種類に応じて、周知技術を含む適切な学習アルゴリズムを適宜選択可能である。行動認識モデル学習部１３０は、例えば、ＲＮＮ、サポートベクトルマシン等のモデルを学習する学習アルゴリズムとして、本技術分野において一般的に用いられる学習アルゴリズムを採用してもよい。

　図８は、本実施形態に係る行動認識モデル学習装置１００の動作の一例を示すフローチャートである。

　行動認識モデル学習装置１００は、行動学習用移動軌跡データから移動軌跡を取得し、世界座標系に配置する（ステップＳ２０１）。上記したように、この際、誤差付き移動軌跡生成部１１０が、与えられた行動学習用移動軌跡データから移動軌跡を読み込んで、世界座標系に配置してもよい。

　行動認識モデル学習装置１００は、世界座標系に配置された移動軌跡を、仮想的なカメラのカメラ画像座標系における移動軌跡へと変換する（ステップＳ２０２）。上記したように、この際、誤差付き移動軌跡生成部１１０（第一の座標変換部１１１）が、行動学習用移動軌跡データから取得した移動軌跡を、カメラ画像座標系における移動軌跡を表すデータへと変換してもよい。

　行動認識モデル学習装置１００は、カメラ画像座標系において、カメラ画像内の人物位置の自動推定において発生し得る推定誤差を移動軌跡に付加する（ステップＳ２０３）。上記したように、この際、誤差付き移動軌跡生成部１１０（第一の誤差付加部１１２）が、カメラ画像座標系における移動軌跡を表すデータに、推定誤差（例えば、ガウスノイズ）を付加してもよい。

　行動認識モデル学習装置１００は、推定誤差が付加されたカメラ画像座標系における移動軌跡を、世界座標系における移動軌跡へと変換し、誤差付き移動軌跡データとして出力する（ステップＳ２０４）。

　行動認識モデル学習装置１００は、誤差付き移動軌跡データから、人物行動の認識に用いられる特徴量を抽出する（ステップＳ２０５）。上記したように、この際、特徴抽出部１２０が、誤差付き移動軌跡データから、特徴量を作成してもよい。

　行動認識モデル学習装置１００は、行動学習用移動軌跡データから取得した移動軌跡に対して、ステップＳ２０２からステップＳ２０５までの処理を、所定回数実行したか否かを判定する（ステップＳ２０６）。

　これらの処理が所定回数実行されていない場合は（ステップＳ２０６においてＮＯ）、同じ移動軌跡に対して、上述したステップＳ２０２からステップＳ２０５までの処理を再び実行する。この際、第一の誤差付加部１１２は、例えば、移動軌跡データに対して付加する推定誤差を確率的に変動させてもよい。これにより、第一の誤差付加部１１２は、得られる誤差付き移動軌跡データ及びその特徴量が毎回変化するよう制御することができる。この際、第一の誤差付加部１１２は、例えば、毎回確率的にガウスノイズを生成して、移動軌跡データに対して付加してもよい。

　この繰り返し処理によって、第一の誤差付加部１１２は、様々な推定誤差を持つ移動軌跡を生成することができる。即ち、第一の誤差付加部１１２は、例えば、一つの移動軌跡データから、複数のパターンの学習データ（推定誤差が付加された移動軌跡データ）を生成することができる。

　これにより、行動認識モデル学習装置１００は、様々な推定誤差を想定した学習データを用いて、後述する行動認識モデルを学習することがきる。このため、行動認識モデル学習装置１００は、移動軌跡の推定誤差に対してより頑健な行動認識モデルを学習することができる。

　ステップＳ２０６においてＹＥＳの場合、行動認識モデル学習装置１００は、行動学習用移動軌跡データに含まれるすべての移動軌跡に対してステップＳ２０１からステップＳ２０６の処理が完了したか否かを判定する（ステップＳ２０７）。

　未処理の移動軌跡が残っている場合は（ステップＳ２０７においてＮＯ）、未処理の移動軌跡に対して上述したステップＳ２０１からステップＳ２０６までの処理を実行する。

　ステップＳ２０７においてＹＥＳの場合、行動認識モデル学習装置１００は、行動学習用移動軌跡データに含まれるすべての移動軌跡に対して様々な推定誤差を付加した移動軌跡から抽出した特徴量と、各移動軌跡に付与された行動ラベルとを学習データとして用いて、人物の移動軌跡に基づいて人物行動を認識する行動認識モデルを学習する（ステップＳ２０８）。この際、行動認識モデル学習部１３０が、上記のように作成された特徴量を用いて、行動認識モデル（例えば、ＲＮＮモデル）を学習してもよい。なお、行動認識モデル学習部１３０は、学習された行動認識モデルを出力してもよい。

　本実施形態では、上述した構成によって、カメラ画像を用いて推定した人物の移動軌跡に基づいて、人物の行動を高精度に認識可能な行動認識モデルを学習することができる。その理由は、本実施形態の行動認識モデル学習装置１００は、カメラ画像を用いて推定される人物の移動軌跡に含まれる推定誤差を考慮して移動軌跡データを生成し、生成した誤差付きの移動軌跡データを学習データとして用いることで、行動認識モデルを学習するからである。

　カメラ画像を用いて人物の移動軌跡を推定する場合、カメラ画像内で人物位置を特定する際に、移動軌跡の推定誤差が発生する。即ち、カメラ画像から推定した人物の移動軌跡には、推定誤差が含まれている。このため、その移動軌跡を入力データとして用いて行動を認識する場合、入力データ（移動軌跡）に含まれる推定誤差が、認識精度に影響する。

　本実施形態における行動認識モデル学習装置１００は、人物の移動軌跡を世界座標系からカメラ画像座標系に変換してから、その移動軌跡に推定誤差を付加する。これにより、行動認識モデル学習装置１００は、カメラ画像内で人物位置を特定する際に発生する誤差の特徴を直接的に模擬した誤差を、移動軌跡に付加することができる。従って、行動認識モデル学習装置１００は、移動軌跡の推定誤差を適切に再現した学習データ（移動軌跡データ）を用いて行動認識モデルを学習することが可能となる。この結果、行動認識モデル学習装置１００は、高精度な行動認識モデル（即ち、高い精度で行動を判定可能な行動認識モデル）を学習することができる。

　本実施形態により実現される効果を、図９を参照して具体的に説明する。図９上段（図９の９０１）は、「通常歩行」または「ふらつき歩行」を行っている人物の世界座標系における正しい（正確な）移動軌跡を示している。しかし、これらの移動軌跡を描いた移動体（人物）を撮影したカメラ画像から、その移動体の移動軌跡を自動推定すると、図９下段（図９の９０２）のような推定誤差を含む移動軌跡が得られる。

　ここで、例えば、図９上段に例示するような正しい移動軌跡のみを学習データとして用いて学習した行動認識モデルを用いて、カメラ画像から自動推定した移動軌跡を認識することを想定する。この場合、学習された行動認識モデルは、揺らぎを含まないような移動軌跡については、その移動軌跡が示す行動を比較的正確に認識（判定）することができる。一方、このような学習データを用いて学習された行動認識モデルに対して、推定誤差を含む移動軌跡が与えられた場合、行動の認識精度が低下する可能性がある。

　これに対して、本実施形態の行動認識モデル学習装置１００は、図９上段の正しい移動軌跡から、図９下段の自動推定した移動軌跡を模擬した移動軌跡を生成し、その生成した移動軌跡（即ち、推定誤差を模擬した移動軌跡）を学習データとして用いる。このため、本実施形態の行動認識モデル学習装置１００は、行動を高精度に認識可能なモデルを学習することができる。

　＜第３実施形態＞
　以下、本開示の第３実施形態に係る行動認識モデル学習装置について、図１０から図１４を参照して説明する。

　本実施形態に係る行動認識モデル学習装置１００は、上記第２実施形態に対して、誤差付き移動軌跡生成部１１０の処理内容が異なる。その他の構成及び動作は、第２実施形態と同様としてよい。

　図１０は、本実施形態に係る誤差付き移動軌跡生成部１１０の機能的な構成を説明するブロック図である。本実施形態に係る誤差付き移動軌跡生成部１１０は、移動軌跡推定部１１４と、推定誤差計算部１１５と、誤差生成モデル学習部１１６と、第二の誤差付加部１１７とを有する。以下、これらの構成要素について説明する。

　移動軌跡推定部１１４は、誤差学習用カメラ画像データ（後述）を用いて、画像内の人物の移動軌跡を自動推定する。移動軌跡の自動推定手法として、移動軌跡推定部１１４は、例えば、カメラ画像内における人物領域を検出し、検出した人物領域に基づいて人物の足元位置を推定する。次に、移動軌跡推定部１１４は、カメラの設置位置、設置角度、レンズ特性などを表すカメラパラメータを用いて、カメラ画像内における足元位置を、実空間内における足元位置に変換することで、実空間における人物の移動軌跡を推定する。なお、移動軌跡推定部１１４が用いる移動軌跡の自動推定手法は、行動認識モデル学習装置１００により学習された行動認識モデルを実際に適用して人物の行動を認識（判定）する場面において人物の移動軌跡を推定する際に用いられる自動推定手法と同一であることが望ましい。即ち、移動軌跡推定部１１４が用いる移動軌跡の自動推定手法は、人物の行動を認識する際に、学習済みの行動認識モデルに入力される移動軌跡データを生成する自動推定手法と同一の手法であってよい。

　誤差学習用カメラ画像データは、多数の人物が行き交う様子をカメラなどの撮影装置を用いて撮影した画像データである。誤差学習用カメラ画像データ内の各人物に対しては、各人物の正しい移動軌跡を表す正解移動軌跡データが付与されている。

　正解移動軌跡データを得るためには、データの作成者は、例えば、誤差学習用カメラ画像データに対して、カメラ画像内の人物の足元位置を人手でラベル付けし、カメラ画像内の位置を実空間内の位置へと座標変換すればよい。この座標変換は、カメラの設置位置、設置角度、レンズ特性などを表すカメラパラメータを用いることで計算可能である。ただし、正解移動軌跡データを得る方法はこれに限られず、例えば、レーザー測位や地面に設置した感圧センサなど、実空間における人物位置を正確に測定できる他の方法を用いてもよい。

　なお、誤差学習用カメラ画像データ及び正解移動軌跡データは、行動認識モデル学習装置１００に対して通信ネットワークや記録媒体等を介して適宜提供されてもよく、行動認識モデル学習装置１００に蓄積（記憶）されてもよい。

　なお、誤差学習用カメラ画像データは、行動認識モデルを実際に適用する際（即ち、学習済みの行動認識モデルを用いて、行動を認識（判定）する際）に用いられる画像データが撮影される条件と近い条件で撮影された画像データであることが望ましい。例えば、行動認識モデルを実際に適用する画像データが撮影される場面が、多数の人物で混雑している環境なのであれば、誤差学習用カメラ画像データも多数の人物で混雑している環境で撮影された画像データであることが望ましい。係る画像データの撮影条件として、例えば、撮影される対象物（人物等）の数、移動スピード、撮影時間、撮影場所、環境光の状況、背景、等が考慮されてもよい。

　なお、行動学習用移動軌跡データと、正解移動軌跡データとは、異なるデータであってよい。第２実施形態において述べたとおり、行動学習用移動軌跡データには、行動ラベルが付与されており、行動認識モデルを学習する際に用いられる。一方、正解移動軌跡データは、誤差学習用カメラ画像データに付随するデータである。正解移動軌跡データは、後述するとおり、画像データから移動軌跡を自動推定するときに発生する推定誤差の生成モデルを学習する際に用いられるデータである。従って、正解移動軌跡データには、行動ラベルが付与されていなくともよい。

　図１１は、誤差学習用カメラ画像データ、及び、それに付随する正解移動軌跡データの一例を示す説明図である。図１１左側（図１１の１１０１）は、人物（ａ）、（ｂ）、（ｃ）、（ｄ）、（ｅ）、（ｆ）が行き交う画像データを例示しており、図１１右側（図１１の１１０２）は、各人物の世界座標系における正しい移動軌跡データである。この場合、各人の正しい移動軌跡データは、人手により付与されてもよい。

　推定誤差計算部１１５は、誤差学習用カメラ画像データに撮影された人物に関する正解移動軌跡データと、移動軌跡推定部１１４により自動推定された当該人物の移動軌跡データとの差分を推定誤差として計算する。例えば、ある人物に関する長さＴフレームの正解の移動軌跡データが（ｘ１、ｙ１）、（ｘ２、ｙ２）、・・・、（ｘｔ、ｙｔ）、・・・、（ｘＴ、ｙＴ）であることを想定する。また、同じ移動軌跡に対して自動推定された移動軌跡データが（ｘ１’、ｙ１’）、（ｘ２’、ｙ２’）、・・・、（ｘｔ’、ｙｔ’）、・・・、（ｘＴ’、ｙＴ’）であることを想定する。この場合、推定誤差計算部１１５が計算する推定誤差（推定誤差ベクトル）の時系列データは、（ｅ１、ｅ２、・・・、ｅｔ、・・・、ｅＴ）＝（（ｘ１’－ｘ１、ｙ１’－ｙ１）、（ｘ２’－ｘ２、ｙ２’－ｙ２）、・・・、（ｘｔ’－ｘｔ、ｙｔ’－ｙｔ）、・・・、（ｘＴ’－ｘＴ、ｙＴ’－ｙＴ））と算出される。ここで、フレーム数Ｔは、適宜選択されてよい。また、１フレームの時間的な長さも、適宜選択されてよい。

　誤差生成モデル学習部１１６は、推定誤差計算部１１５が計算した推定誤差の時系列データを学習データとして用いて、推定誤差の時系列データを生成可能な誤差生成モデルを学習する。誤差生成モデルとしては、例えば、推定誤差の時系列データを確率的に出力するエルゴディックＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いることができる。

　エルゴディックＨＭＭは、時刻の経過とともに状態遷移確率”ａ＿ｉｊ”に従って状態間を自由に遷移できる誤差生成モデルである。エルゴディックＨＭＭは、各時刻において、滞在する状態”ｉ”に固有の出力確率分布”ｆ（ｅ｜λｉ）”に従って推定誤差を出力する。出力確率分布としては、例えば、多次元正規分布を用いることができる。

　図１２は、２状態のエルゴディックＨＭＭの例を示す説明図である。エルゴディックＨＭＭのパラメータとして、状態遷移確率及び出力確率分布のパラメータは、推定誤差計算部１１５が計算した推定誤差の時系列データを学習データとして、Ｂａｕｍ－Ｗｌｃｈ法などの既存の手法を用いて学習されうる。

　図１３を用いて、誤差生成モデルとしてエルゴディックＨＭＭを用いる効果を説明する。カメラ画像を用いて、人物の移動軌跡を自動推定する際、カメラ画像において複数の人物が重なったときに大きな推定誤差が発生しやすい。図１３左側（図１３の１３０１）に例示するカメラ画像が「重なり無し」の例は、一人の人物が単独でカメラ画像に写っている例である。破線で示される矩形領域は、推定された人物領域（人物が撮影されていると推定された領域）を表す。また、”Ｘ”印は、推定された人物の足元位置（人物の足元であると推定された位置）を表す。画像中の人物が重なっていない場合、人物位置は概ね正しく推定され、移動軌跡の推定誤差は、分散が小さく等方的な正規分布に近くなる。

　一方、図１３右側（図１３の１３０２）に例示するカメラ画像が「重なり有り」の例は、二人の人物が重なってカメラ画像に写されている例である。この場合、手前の人物（図１３の１３０２ａ）の影響により、奥の人物（図１３の１３０２ｂ）の人物領域が図面下方向に広くなるように誤検出されている。その結果として、推定された足元位置も比較的大きな誤差を含んでいる。このように、人物が重なった場合、人物位置の推定誤差が大きくなる傾向にある。さらに、カメラと人物とを結ぶ直線方向の推定誤差が大きくなる性質がある。

　以上より、カメラ画像を用いて人物の移動軌跡を推定する際の推定誤差の性質は、単独の人物がカメラに写っている場合と、複数の人物が重なって写っている場合とで異なることが分かる。さらに、単独の人物がカメラに写っている状態と、複数の人物が重なってカメラに写っている状態は、それぞれの状態を保ったままで、ある程度の時間が継続したり、交互に入れ替わったりする（状態が遷移したりする）可能性もあると考えられる。

　エルゴディックＨＭＭは、移動軌跡の推定誤差が持つこのような特徴（性質）を表現することができる。このため、エルゴディックＨＭＭを用いることで、推定誤差を高い精度でモデル化した生成モデル（換言すると、高い精度で推定誤差を生成可能な生成モデル）を学習できる。人物の重なり有無を表現するためには、例えば、図１２に示す２状態のエルゴディックＨＭＭを用いればよい。状態ｓ１，ｓ２のそれぞれが、「人物が重なっていない状態」及び「人物が重なっている状態」のいずれかを表すように学習が進むと期待される。なお、移動軌跡の推定誤差の傾向が大きく変わる他の要因が存在する場合は、さらに状態数を増やしたエルゴディックＨＭＭを用いてもよい。

　第二の誤差付加部１１７は、行動学習用移動軌跡データに対して、誤差生成モデルが生成する推定誤差を付加することで、誤差付き移動軌跡データを生成し出力する。具体的には、第二の誤差付加部１１７は、例えば、行動学習用移動軌跡データ内の移動軌跡データに対して、誤差生成モデルを用いて移動軌跡データと同じ長さの推定誤差の時系列データを生成する。第二の誤差付加部１１７は、生成した推定誤差を、移動軌跡データに付加することで、誤差付き移動軌跡データを生成する。

　即ち、上記第１の実施形態における誤差付き移動軌跡生成部１１０（第一の誤差付加部１１２）は、行動学習用移動軌跡データに対して、ある特定の大きさの分散を持つガウスノイズを加えることで、誤差付き移動軌跡データを生成する。これに対し、本実施形態における第二の誤差付加部１１７は、行動学習用移動軌跡データに対して、誤差生成モデルが生成する推定誤差を付加することで、誤差付き移動軌跡データを生成する。これにより、本実施形態における第二の誤差付加部１１７は、より高い精度で推定誤差を模擬した誤差付き移動軌跡データを生成することができる。

　以下、本実施形態に係る行動認識モデル学習装置１００の動作について説明する。図１４は、本実施形態に係る行動認識モデル学習装置１００の動作（処理手順）の一例を示すフローチャートである。

　行動認識モデル学習装置１００は、誤差学習用カメラ画像データ内の人物の移動軌跡を自動推定する（ステップＳ３０１）。この際、移動軌跡推定部１１４が、誤差学習用カメラ画像データを用いて、画像内の人物の移動軌跡を自動推定してよい。また、上記したように、移動軌跡を自動推定する手法は、学習済みの行動認識モデルを用いて人物の行動を認識する段階で、行動認識モデルに入力される移動軌跡データを生成する際に用いられる自動推定の手法と同一の手法であってよい。

　行動認識モデル学習装置１００は、誤差学習用カメラ画像データ内の人物の正解移動軌跡データと、ステップＳ３０１において自動推定された当該人物の移動軌跡データとの差分を、推定誤差として計算する（ステップＳ３０２）。誤差学習用カメラ画像データ内の人物の正解移動軌跡データとは、誤差学習用カメラ画像データ内の人物の移動軌跡を正確に表したデータである。ステップＳ３０２の処理について、より詳細には、推定誤差計算部１１５が、係る推定誤差を計算する処理を実行してよい。上記したように、推定誤差計算部１１５により生成された推定誤差の時系列データは、誤差生成モデルを学習するための学習データとして用いられる。

　行動認識モデル学習装置１００は、移動軌跡の推定誤差の時系列を生成する誤差生成モデルを学習する（ステップＳ３０３）。より詳細には、誤差生成モデル学習部１１６が、誤差生成モデルを学習する処理を実行してよい。係る処理により、行動認識モデル学習装置１００は、行動学習用移動軌跡データに付加される推定誤差を精度よく生成可能な誤差生成モデルを学習することができる。

　行動認識モデル学習装置１００は、行動学習用移動軌跡データから移動軌跡を取得する（ステップＳ３０４）。

　行動認識モデル学習装置１００は、行動学習用移動軌跡データから取得した移動軌跡に、誤差生成モデルが生成する推定誤差を付加することで、誤差付き移動軌跡データを生成し出力する（ステップＳ３０５）。より詳細には、第二の誤差付加部１１７が、上記処理を実行してよい。

　行動認識モデル学習装置１００は、ステップＳ３０５において生成された誤差付き移動軌跡データから、人物行動を認識するための特徴量を抽出する（ステップＳ３０６）。係る処理は、第１実施形態におけるステップＳ２０５と同様としてもよい。

　行動認識モデル学習装置１００は、行動学習用移動軌跡データから取得した移動軌跡に対して、ステップＳ３０５からステップＳ３０６までの処理を、所定回数だけ実行したか否かを判定する（ステップＳ３０７）。

　所定回数に達していない場合は（ステップＳ３０７においてＮＯ）、行動認識モデル学習装置１００は、同じ移動軌跡に対して、上述したステップＳ３０５からステップＳ３０６までの処理を再び実行する。第二の誤差付加部１１７が付加する推定誤差は、確率的な生成モデル（誤差生成モデル）により生成されるため、得られる誤差付き移動軌跡データ及びその特徴量は、推定誤差を生成する度に毎回変化する。この繰り返し処理によって、行動認識モデル学習装置１００は、様々な推定誤差が付加された異なる移動軌跡（誤差付き移動軌跡データ）を生成することができる。これより、行動認識モデル学習装置１００は、そのような誤差付き移動軌跡データを用いて、移動軌跡の推定誤差に対してより頑健な行動認識モデルを学習することができる。

　ステップＳ３０７においてＹＥＳの場合、行動認識モデル学習装置１００は、行動学習用移動軌跡データに含まれるすべての移動軌跡に対してステップＳ３０４からステップＳ３０７の処理が完了したか否かを判定する（ステップＳ３０８）。未処理の移動軌跡が残っている場合は（ステップＳ３０８においてＮＯ）、行動認識モデル学習装置１００は、未処理の移動軌跡に対して上述したステップＳ３０４からステップＳ３０７までの処理を実行する。

　ステップＳ３０８においてＹＥＳの場合、行動認識モデル学習装置１００は、行動学習用移動軌跡データに含まれるすべての移動軌跡に対して様々な推定誤差を付加した移動軌跡から抽出した特徴量と、各移動軌跡に付与された行動ラベルとを用いて、行動認識モデルを学習する（ステップＳ３０９）。行動認識モデルは、人物の移動軌跡に基づいて人物行動を認識する。行動認識モデル学習装置１００は、学習した行動認識モデルを出力してもよい。ステップＳ３０９における具体的な学習処理は、例えば、第２実施形態におけるステップＳ２０８（図８）と同様としてもよい。

　本実施形態における行動認識モデル学習装置１００は、上述した処理構成によって、カメラ画像を用いて推定した人物の移動軌跡に基づいて、人物の行動を高精度に認識可能な行動認識モデルを学習することができる。その理由は、本実施形態の行動認識モデル学習装置１００は、カメラ画像を用いて推定される人物の移動軌跡に含まれる推定誤差を考慮した移動軌跡データを生成し、生成した誤差付きの移動軌跡データを学習データとして行動認識モデルを学習するからである。

　本実施形態では、行動認識モデル学習装置１００は、カメラ画像を用いて人物の移動軌跡を推定するときに発生する推定誤差のパターンを生成モデル（誤差生成）として学習する。行動認識モデル学習装置１００は、学習した生成モデル（誤差生成モデル）を用いて生成した推定誤差を、行動学習用移動軌跡データに含まれる移動軌跡に不可することで、誤差付き移動軌跡データを生成する。

　これにより、行動認識モデル学習装置１００は、カメラ画像から移動軌跡を推定する際に実際に発生し得る移動軌跡の推定誤差を正確に再現することが可能となる。従って、行動認識モデル学習装置１００は、高精度な行動認識モデルを学習することができる。

　行動認識モデル学習装置１００は、移動軌跡の誤差生成モデルとしてエルゴディックＨＭＭを用いる。これにより、行動認識モデル学習装置１００は、移動軌跡に関する推定誤差の性質の違いを反映したデータであり、より正確な誤差付き移動軌跡データを生成することが可能である。即ち、行動認識モデル学習装置１００は、より高精度な行動認識モデルを学習することができる。なお、移動軌跡に関する推定誤差は、カメラ画像に含まれる人物の重なりの有無に起因する。

　上記においては、行動学習用移動軌跡データ及び正解移動軌跡データが、世界座標系における人物位置を表す場合の具体例を説明した。本実施形態においては、行動学習用移動軌跡データ及び正解移動軌跡データを、世界座標系におけるデータから、カメラ画像座標系における人物位置を表すデータに置き換えても、同様の処理が可能であり、同様の効果が得られる。その場合には、移動軌跡推定部１１４は、誤差学習用カメラ画像データ内の人物の移動軌跡を、カメラ画像における位置データとして自動推定し、出力する。

　＜ハードウェア及びソフトウェア・プログラム（コンピュータ・プログラム）の構成＞　以下、上記説明した各実施形態及び変形例を実現可能なハードウェア構成について説明する。以下の説明においては、上記各実施形態において説明した各行動認識モデル学習装置（１０、１００）を、まとめて「モデル学習装置」と記載する。

　上記各実施形態において説明した各モデル学習装置は、１つ又は複数の専用のハードウェア装置により構成されてもよい。その場合、上記各図（例えば、図１Ａ-１Ｃ、図２、図１０）に示した各構成要素は、一部又は全部を統合したハードウェア（処理ロジックを実装した集積回路等）として実現してもよい。

　例えば、モデル学習装置をハードウェアにより実現する場合、モデル学習装置の構成要素は、それぞれの機能を提供可能な集積回路（例えば、ＳｏＣ（Ｓｙｓｔｅｍ　ｏｎ　ａ　Ｃｈｉｐ）等）として実装されてもよい。この場合、例えば、モデル学習装置の構成要素が有するデータは、ＳｏＣに統合されたＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）領域やフラッシュメモリ領域に記憶されてもよい。

　また、この場合、モデル学習装置の構成要素を接続する通信回線としては、周知の通信バスを含む通信ネットワークが採用されてもよい。また、各構成要素を接続する通信回線は、それぞれの構成要素間をピアツーピアで接続してもよい。モデル学習装置を複数のハードウェア装置により構成する場合、それぞれのハードウェア装置の間は、適切な通信方法（有線、無線、またはそれらの組み合わせ）により通信可能に接続されていてもよい。

　例えば、モデル学習装置は、誤差付き移動軌跡生成部（１１、１１０）、特徴抽出部（１２、１２０）、行動認識モデル学習部（１３、１３０）の機能を実現可能な処理回路（ｐｒｏｃｅｓｓｉｎｇ　ｃｉｒｃｕｉｔｒｙ）、通信回路、及び記憶回路等を用いて実現されてよい。なお、モデル学習装置を実現する回路構成の実装においては、様々なバリエーションが想定される。

　また、上述したモデル学習装置は、図１５に例示するような汎用のハードウェア装置１５００と、ハードウェア装置１５００によって実行される各種ソフトウェア・プログラム（コンピュータ・プログラム）とによって構成されてもよい。この場合、モデル学習装置は、１以上の適切な数のハードウェア装置１５００及びソフトウェア・プログラムにより構成されたシステムとして実現されてもよい。

　図１５におけるプロセッサ１５０１（プロセッサ）は、例えば、汎用のＣＰＵ（中央処理装置：Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）やマイクロプロセッサである。プロセッサ１５０１は、例えば、後述する不揮発性記憶装置１５０３に記憶された各種ソフトウェア・プログラムをメモリ１５０２に読み出し、そのソフトウェア・プログラムに従って処理を実行してもよい。この場合、上記各実施形態におけるモデル学習装置の構成要素は、例えば、プロセッサ１５０１により実行されるソフトウェア・プログラムとして実現可能である。

　上記各実施形態におけるモデル学習装置は、例えば、誤差付き移動軌跡生成部（１１、１１０）、特徴抽出部（１２、１２０）、行動認識モデル学習部（１３、１３０）の機能を実現可能な１以上のプログラムにより実現されてよい。なお、係るプログラムの実装においては、様々なバリエーションが想定される。

　メモリ１５０２は、プロセッサ１５０１から参照可能な、メモリデバイス（例えば、ＲＡＭ等）であり、ソフトウェア・プログラムや各種データ等を記憶する。なお、メモリ１５０２は、揮発性のメモリデバイスであってもよい。上記モデル学習装置において、行動認識モデル、誤差生成モデル、及び各種データ（行動学習用移動軌跡データ、誤差付き移動軌跡データ、推定誤差の時系列データ等）は、メモリ１５０２に読み込まれてもよい。

　不揮発性記憶装置１５０３は、例えば磁気ディスクドライブや、フラッシュメモリによる半導体記憶装置のような、不揮発性の記憶装置である。不揮発性記憶装置１５０３は、各種ソフトウェア・プログラムやデータ等を記憶可能である。上記モデル学習装置において、行動認識モデル、誤差生成モデル、及び各種データ（行動学習用移動軌跡データ、誤差付き移動軌跡データ、推定誤差の時系列データ等）は、不揮発性記憶装置１５０３に記憶されてもよい。

　ドライブ装置１５０４は、例えば、後述する記録媒体１５０５に対するデータの読み込みや書き込みを処理する装置である。モデル学習装置は、例えば、ドライブ装置１５０４を介して、後述する記録媒体１５０５に記録された各種データを読み込んでもよい。

　記録媒体１５０５は、例えば光ディスク、光磁気ディスク、半導体フラッシュメモリ等、データを記録可能な記録媒体である。本開示において、記録媒体の種類及び記録方法（フォーマット）は、特に限定されず、適宜選択されてよい。

　ネットワークインタフェース１５０６は、通信ネットワークに接続するインタフェース装置である。ネットワークインタフェース１５０６には、例えば有線及び無線のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）接続用インタフェース装置等を採用してもよい。モデル学習装置は、例えば、ネットワークインタフェース１５０６を介して、通信ネットワークに接続された他の装置から、各種データを受信してもよい。

　入出力インタフェース１５０７は、外部装置との間の入出力を制御する装置である。外部装置は、例えば、ユーザからの入力を受けつけ可能な入力機器（例えば、キーボード、マウス、タッチパネル等）であってもよい。また、外部装置は、例えばユーザに対して各種出力を提示可能出力機器であってもよい（例えば、モニタ画面、タッチパネル等）。モデル学習装置は、例えば、行動認識モデルを用いて、ある人物の移動軌跡からその人物の行動を判定した結果を、入出力インタフェースを介して出力してもよい。

　上述した各実施形態を例に説明した本開示におけるモデル学習装置は、例えば、図１５に例示するハードウェア装置１５００に対して、上記各実施形態において説明した機能を実現可能なソフトウェア・プログラムを供給することにより、実現されてもよい。より具体的には、例えば、ハードウェア装置１５００に対して供給されたソフトウェア・プログラムを、プロセッサ１５０１が実行することによって、本開示に係る技術が実現されてもよい。この場合、ハードウェア装置１５００で稼働しているオペレーティングシステムや、データベース管理ソフト、ネットワークソフト等のミドルウェアなどが、各処理の一部を実行してもよい。

　上述した各実施形態において、上記各図に示した各部は、上述したハードウェアにより実行されるソフトウェア・プログラムの機能（処理）の単位である、ソフトウェアモジュールとして実現されてもよい。例えば、上記各部をソフトウェアモジュールとして実現する場合、これらのソフトウェアモジュールは、不揮発性記憶装置１５０３に記憶されてもよい。そして、プロセッサ１５０１が、それぞれの処理を実行する際に、これらのソフトウェアモジュールをメモリ１５０２に読み出してもよい。

　また、これらのソフトウェアモジュールは、共有メモリやプロセス間通信等の適宜の方法により、相互に各種データを伝達できるように構成されてもよい。このような構成により、これらのソフトウェアモジュールは、相互に通信可能に接続される。

　さらに、上記各ソフトウェア・プログラムは、記録媒体１５０５に記録されてもよい。この場合、上記各ソフトウェア・プログラムは、上記通信装置等の出荷段階、あるいは運用段階等において、適宜ドライブ装置１５０４を通じて不揮発性記憶装置１５０３に格納されてもよい。

　各種ソフトウェア・プログラムは、モデル学習装置の出荷前の製造段階、あるいは出荷後のメンテナンス段階等において、適当な治具（ツール）を利用してハードウェア装置１５００内にインストールされてもよい。また、各種ソフトウェア・プログラムは、インターネット等の通信回線を介して外部からダウンロードされてもよい。ソフトウェア・プログラムを供給する方法として、各種の一般的な手順を採用することができる。

　このような場合において、本開示に係る技術は、ソフトウェア・プログラムを構成するコード、あるいはコードが記録されたところの、コンピュータ読み取り可能な記録媒体によって構成されてもよい。この場合、記録媒体は、ハードウェア装置１５００と独立した媒体に限らず、ＬＡＮやインターネットなどにより伝送されたソフトウェア・プログラムをダウンロードして記憶又は一時記憶した記録媒体（各種ストレージ等）を含む。

　また、上述したモデル学習装置、あるいは、当該モデル学習装置の構成要素は、図１５に例示するハードウェア装置１５００を仮想化した仮想化環境と、その仮想化環境において実行されるソフトウェア・プログラム（コンピュータ・プログラム）とによって構成されてもよい。この場合、図１５に例示するハードウェア装置１５００の構成要素は、仮想化環境における仮想デバイスとして提供される。

　上記のようなハードウェア装置１５００を用いて本開示に係るモデル学習装置を構成した場合、係るハードウェア１５００装置は、本開示に関連するコンピュータ関連技術（カメラ画像から対象物の行動を判定する技術）を改良可能な特有の装置として機能することができる。

　以上、実施形態（及び実施例）を参照して本願発明を説明したが、本願発明は上記実施形態（及び実施例）に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
　この出願は、２０１７年１２月８日に出願された日本出願特願２０１７－２３６１４３を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１０　　行動認識モデル学習装置
　１１　　誤差付き移動軌跡生成部
　１２　　特徴抽出部
　１３　　行動認識モデル学習部
　１００　　行動認識モデル学習装置
　１１０　　誤差付き移動軌跡生成部
　１２０　　特徴抽出部
　１３０　　行動認識モデル学習部
　１５０１　　プロセッサ
　１５０２　　メモリ
　１５０３　　不揮発性記憶装置
　１５０４　　ドライブ装置
　１５０５　　記録媒体
　１５０６　　ネットワークインタフェース
　１５０７　　入出力インタフェース

Claims

　対象物の行動を表す情報である行動ラベルが付与された、対象物の移動軌跡を表すデータである行動学習用移動軌跡データに対して誤差を付加することで、誤差付き移動軌跡データを生成する誤差付き移動軌跡生成手段と、
　少なくとも、前記誤差付き移動軌跡データと、前記行動ラベルとに基づいて作成した学習データを用いて、ある対象物の移動軌跡から、その対象物の行動を認識可能なモデルを学習する行動認識モデル学習手段と、を備える
モデル学習装置。
　前記誤差付き移動軌跡データから、前記対象物の行動を認識する際に用いられる特徴量を生成する特徴抽出手段をさらに備え、
　前記誤差付き移動軌跡生成手段は、前記行動学習用移動軌跡データに対して、撮影装置により撮影されたカメラ画像を用いて移動軌跡を推定する際に発生する推定誤差を付加することで、前記誤差付き移動軌跡データを生成し、
　行動認識モデル学習手段は、前記特徴抽出手段により生成された前記特徴量と、前記行動ラベルとを用いて作成された前記学習データを用いて前記モデルを学習する
請求項１に記載のモデル学習装置。
　前記行動学習用移動軌跡データは、実空間における前記対象物の移動軌跡を表すデータであって、
　前記誤差付き移動軌跡生成手段は、
　　前記行動学習用移動軌跡データを、カメラ画像における移動軌跡を表すデータへと変換する第一の座標変換手段と、
　　前記第一の座標変換手段により変換された移動軌跡のデータに、カメラ画像内の前記対象物の位置を推定する際に発生する推定誤差を付加する第一の誤差付加手段と、
　　前記第一の誤差付加手段により前記推定誤差が付加された移動軌跡のデータを、実空間における移動軌跡を表すデータへと変換することで、前記誤差付き移動軌跡データを生成する第二の座標変換手段と、を有する
請求項２に記載のモデル学習装置。
　前記第一の座標変換手段は、実空間における座標系により表された、前記対象物の移動軌跡を表す前記行動学習用移動軌跡データを、前記対象物を前記撮影装置により撮影したカメラ画像内の座標系であるカメラ座標系における移動軌跡を表すデータへと変換し、
　前記第一の誤差付加手段は、前記カメラ座標系における移動軌跡を表すデータに、前記推定誤差として、ある特定の大きさの分散を持つガウスノイズを付加し、
　前記第二の座標変換手段は、前記カメラ座標系において、前記第一の誤差付加手段により前記推定誤差が付加された移動軌跡のデータを、前記実空間における座標系における移動軌跡を表すデータへと変換する
請求項３に記載のモデル学習装置。
　前記誤差付き移動軌跡生成手段は、
　　前記対象物を撮影したカメラ画像を含むデータである誤差学習用カメラ画像データを用いて、そのカメラ画像内の人物の移動軌跡を推定する移動軌跡推定手段と、
　　前記カメラ画像内の前記対象物の正しい移動軌跡を表す正解移動軌跡データと、前記移動軌跡推定手段により推定された当該対象物の移動軌跡を表す移動軌跡データとの差分を前記推定誤差として計算する推定誤差計算手段と、
　　前記推定誤差計算手段が算出した前記推定誤差を学習データとして用いて、前記推定誤差の時系列データを生成可能なモデルである誤差生成モデルを学習する誤差生成モデル学習手段と、
　　前記行動学習用移動軌跡データに対して、前記誤差生成モデルにより生成された前記推定誤差を付加することで、前記誤差付き移動軌跡データを生成する第二の誤差付加手段と、
を有する
請求項２に記載のモデル学習装置。
　前記誤差生成モデルは、前記推定誤差を表すベクトルの時系列データを確率的に出力するエルゴディックＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）であり、
　前記誤差生成モデル学習手段は、前記推定誤差計算手段により算出された前記推定誤差の時系列データを用いて、エルゴディックＨＭＭの状態遷移確率及び各状態の出力確率分布のパラメータを学習する
請求項５に記載のモデル学習装置。
　対象物の行動を表す情報である行動ラベルが付与された、対象物の移動軌跡を表すデータである行動学習用移動軌跡データに対して誤差を付加することで、誤差付き移動軌跡データを生成し、
　少なくとも、前記誤差付き移動軌跡データと、前記行動ラベルとに基づいて作成した学習データを用いて、ある対象物の移動軌跡から、その対象物の行動を認識可能なモデルを学習する
行動認識モデル学習方法。
　前記行動学習用移動軌跡データに対して、撮影装置により撮影されたカメラ画像を用いて移動軌跡を推定する際に発生する推定誤差を付加することで、前記誤差付き移動軌跡データを生成し、
　生成された前記誤差付き移動軌跡データから、前記対象物の行動を認識する際に用いられる特徴量を生成し、
　生成された前記特徴量と、前記行動ラベルとを用いて作成された前記学習データを用いて前記モデルを学習する
請求項７に記載の行動認識モデル学習方法。
　対象物の行動を表す情報である行動ラベルが付与された、対象物の移動軌跡を表すデータである行動学習用移動軌跡データに対して誤差を付加することで、誤差付き移動軌跡データを生成する処理と、
　少なくとも、前記誤差付き移動軌跡データと、前記行動ラベルとに基づいて作成した学習データを用いて、ある対象物の移動軌跡から、その対象物の行動を認識可能なモデルを学習する処理と、をコンピュータに実行させる
モデル学習プログラムを記録する記録媒体。
前記モデル学習プログラムは、
　前記誤差付き移動軌跡データを生成する処理は、前記行動学習用移動軌跡データに対して、撮影装置により撮影されたカメラ画像を用いて移動軌跡を推定する際に発生する推定誤差を付加することで、前記誤差付き移動軌跡データを生成する処理を含み、
　生成された前記誤差付き移動軌跡データから、前記対象物の行動を認識する際に用いられる特徴量を生成する処理と、
　生成された前記特徴量と、前記行動ラベルとを用いて作成された前記学習データを用いて前記モデルを学習する処理と、をコンピュータに実行させる
請求項９に記載の記録媒体。