WO2023152841A1

WO2023152841A1 - 画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体

Info

Publication number: WO2023152841A1
Application number: PCT/JP2022/005199
Authority: WO
Inventors: 登吉田
Original assignee: 日本電気株式会社
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2023-08-17

Abstract

本開示に係る画像処理システム（１０）は、第１の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得部（１１）と、取得部（１１）により取得された姿勢情報に基づいて、姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出する抽出部（１２）と、抽出部（１２）により抽出された向き依存性低減特徴量を、第２の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する設定部（１３）と、を備えるものである。

Description

画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体

　本発明は、画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体に関する。

　近年、カメラにより撮像された画像から人物の姿勢や行動等の状態を検出する技術が利用されている。関連する技術として、例えば、特許文献１や２が知られている。特許文献１には、人物の画像領域の時間的な変化から、人物の姿勢の変化を検知する技術が記載されている。特許文献２には、人物の首及び膝の床からの高さが所定の条件を満たすか否かによって、その人物の姿勢が異常であるか否かを判定する技術が記載されている。

　また、類似した姿勢を含む画像を画像データベースから検索する技術として特許文献３が知られている。その他、人物の骨格推定に関連する技術として、非特許文献１が知られている。

特開２０１０－２３７８７３号公報特開２０２１－１４９３１３号公報特開２０１９－０９１１３８号公報

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299

　特許文献１や２などの関連する技術では、予め決まった条件を満たす場合に、人物が所定の状態であることを検出し得る。しかしながら、関連する技術では、予め基準となる人物の状態が設定されていることが前提となっている。このため、関連する技術では、検出したい人物の状態を定義することが難しい場合などにおいては、所望の人物の状態を検出することができない。

　本開示は、このような課題に鑑み、所望の人物の状態を検出可能とする画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体を提供することを目的とする。

　本開示に係る画像処理システムは、第１の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得手段と、前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出する抽出手段と、前記抽出された向き依存性低減特徴量を、第２の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する設定手段と、を備えるものである。

　本開示に係る画像処理方法は、第１の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得し、前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出し、前記抽出された向き依存性低減特徴量を、第２の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定するものである。

　本開示に係る画像処理プログラムが格納された非一時的なコンピュータ可読媒体は、第１の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得し、前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出し、前記抽出された向き依存性低減特徴量を、第２の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する、処理をコンピュータに実行させるための画像処理プログラムが格納された非一時的なコンピュータ可読媒体である。

　本開示によれば、所望の人物の状態を検出可能とする画像処理システム、画像処理方法及び非一時的なコンピュータ可読媒体を提供することができる。

関連する監視方法を示すフローチャートである。実施の形態に係る画像処理システムの概要を示す構成図である。実施の形態１に係る画像処理装置の構成例を示す構成図である。実施の形態１に係る画像処理方法の動作例を示すフローチャートである。実施の形態１に係る参照姿勢設定処理の動作例を示すフローチャートである。実施の形態１に係る状態検出処理の動作例を示すフローチャートである。実施の形態１に係る画像処理装置の動作例で使用する骨格構造を示す図である。実施の形態１に係る向き正規化処理を説明するための図である。実施の形態１に係る向き正規化処理を説明するための図である。実施の形態１に係る集計処理を説明するための図である。実施の形態１に係る集計処理を説明するための図である。実施の形態１に係る集計処理を説明するための図である。実施の形態１に係る集計処理を説明するための図である。実施の形態１に係る集計処理を説明するための図である。実施の形態１に係る状態検出結果の表示例を示す図である。実施の形態２に係る画像処理装置の構成例を示す構成図である。実施の形態２に係る参照姿勢設定処理の動作例を示すフローチャートである。実施の形態２に係る状態検出処理の動作例を示すフローチャートである。実施の形態２に係る特徴空間写像処理を説明するための図である。実施の形態２に係る特徴空間写像処理を説明するための図である。実施の形態２に係る集計処理を説明するための図である。実施の形態に係るコンピュータのハードウェアの概要を示す構成図である。

　以下、図面を参照して実施の形態について説明する。各図面においては、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略される。

（実施の形態に至る検討）
　近年、機械学習を活用した画像認識技術が様々なシステムに応用されている。一例として、監視カメラの画像により監視を行う監視システムについて検討する。

　図１は、関連する監視システムにおける監視方法を示している。図１に示すように、監視システムは、監視カメラから画像を取得し（Ｓ１０１）、取得した画像の中から人物を検知し（Ｓ１０２）、人物の状態認識及び属性認識（Ｓ１０３）を行う。例えば、人物の状態として人物の振る舞い（姿勢や行動）等を認識し、人物の属性として人物の年齢や性別、身長等を認識する。また、監視システムでは、認識した人物の状態や属性からデータ分析を行い（Ｓ１０４）、分析結果に基づき対処等のアクチュエーションを行う（Ｓ１０５）。例えば、認識した振る舞い等からアラート表示を行ったり、認識した身長等の属性の人物の監視を行う。

　このような監視システムにおける状態認識では、人物の振る舞い、特に通常とは異なる振る舞いを監視カメラの映像から検知したいという需要が高まっている。例えば、振る舞いには、しゃがみ込み、車いす利用者、転倒等が含まれる。

　発明者は、画像から人物の振る舞い等の状態を検出する方法を検討したところ、関連する技術では、所望する人物の状態を検出できない場合があり、また、簡易に検出することは困難であるという課題を見出した。例えば、“異常行動”のような定義できない行動については、基準となる状態を設定することが難しいため、検出することはできない。また、近年のディープラーニングの発展により、検知対象の振る舞い等を撮影した映像を大量に集めて学習させることで上記の振る舞い等を検知することは可能であるが、この学習データを集めることが困難であり、コストも高い。

　そこで、実施の形態では、定義が困難な人物の状態であっても検出可能とする。また、実施の形態では、一例として、人物の状態検出に、機械学習を用いた骨格推定技術等の姿勢推定技術を利用する。例えば、非特許文献１に開示されたＯｐｅｎＰｏｓｅ等のように、関連する骨格推定技術では、様々なパターンの正解付けされた画像データを学習することで、人物の骨格を推定する。以下の実施の形態では、このような骨格推定技術を活用することで、簡易に人物の状態を検出する。

　なお、ＯｐｅｎＰｏｓｅ等の骨格推定技術により推定される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン（ボーンリンク）」とから構成される。このため、以下の実施の形態では、骨格構造について「キーポイント」と「ボーン」という用語を用いて説明するが、特に限定されない限り、「キーポイント」は人物の「関節」に対応し、「ボーン」は人物の「骨」に対応している。

（実施の形態の概要）
　図２は、実施の形態に係る画像処理システム１０の概要を示している。図２に示すように、画像処理システム１０は、取得部１１、抽出部１２、設定部１３を備えている。なお、画像処理システム１０は、１つの装置により構成してもよいし、複数の装置により構成してもよい。

　取得部１１は、第１の画像に含まれる人物の姿勢を推定した姿勢情報を取得する。抽出部１２は、取得部１１により取得された姿勢情報に基づいて、向き依存性低減特徴量を抽出する。向き依存性低減特徴量とは、少なくとも姿勢情報（人物）の姿勢の向きへの依存性が低減された（小さい）特徴量であり、姿勢の向きに依存しない特徴量を含んでもよい。例えば、姿勢情報の姿勢の向きを所定の方向に正規化し、向きを正規化した姿勢情報の特徴量を向き依存性低減特徴量として抽出してもよいし、姿勢情報を向きに不変の特徴量の特徴空間に写像し、写像した特徴空間上の特徴量を向き依存性低減特徴量として抽出してもよい。向きへの依存性が大きい特徴量を向きへの依存性が小さい特徴量に変換しているとも言える。設定部１３は、抽出部１２により抽出された向き依存性低減特徴量を、第２の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する。例えば、参照姿勢を正常状態の姿勢として、対象人物が異常状態であるか否かを検出可能としてもよい。

　このように、実施の形態では、第１の画像から推定される人物の姿勢情報を用いて、人物の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出し、抽出された向き依存性低減特徴量を参照姿勢の特徴量に設定する。これにより、取得される姿勢情報から適切に参照姿勢を設定することができる。したがって、設定された参照姿勢により、定義することが困難な人物の状態などであっても所望の人物の状態を検出可能とすることができる。また、人物の姿勢の向きへの依存性が低減された向き依存性低減特徴量を使用することで、画像上の人物の姿勢の向きによらずに参照姿勢を設定し人物の状態を検出することが可能となる。

（実施の形態１）
　以下、図面を参照して実施の形態１について説明する。本実施の形態では、姿勢情報の向きを正規化することで向き依存性低減特徴量を抽出する例について説明する。

　図３は、本実施の形態に係る画像処理装置１００の構成例を示している。画像処理装置１００は、画像から推定される人物の姿勢に基づき、人物の状態を検出する装置である。

　画像処理装置１００は、画像処理装置１００に画像を提供する画像提供装置２００とともに画像処理システム１を構成してもよい。例えば、画像処理装置１００を含む画像処理システム１は、図１のような監視システムにおける監視方法に適用され、通常とは異なる振る舞い等の人物の状態を検出し、その検出に応じたアラームの表示等を行う。

　画像提供装置２００は、画像を撮像するカメラでもよいし、予め画像が格納された画像記憶装置でもよい。画像提供装置２００は、人物を含む２次元の画像を生成（記憶）し、生成した画像を画像処理装置１００へ出力する。画像提供装置２００は、画像（映像）を画像処理装置１００へ出力可能に直接接続、もしくはネットワーク等を介して接続されている。なお、画像提供装置２００を画像処理装置１００の内部に設けてもよい。

　図３に示すように、画像処理装置１００は、画像取得部１０１、骨格構造検出部１０２、特徴量抽出部１０３、集計部１０４、状態検出部１０５、入力部１０６、表示部１０７、記憶部１０８を備えている。なお、各部（ブロック）の構成は一例であり、後述の動作（方法）が可能であれば、その他の各部で構成されてもよい。また、画像処理装置１００は、例えば、プログラムを実行するパーソナルコンピュータやサーバ等のコンピュータ装置で実現されるが、１つの装置で実現してもよいし、ネットワーク上の複数の装置で実現してもよい。例えば、骨格構造検出部１０２等を外部の装置としてもよい。

　記憶部１０８は、画像処理装置１００の動作（処理）に必要な情報（データ）を記憶する。例えば、記憶部１０８は、フラッシュメモリなどの不揮発性メモリやハードディスク装置等である。記憶部１０８は、画像取得部１０１が取得した画像や、骨格構造検出部１０２が処理した画像や検出結果、機械学習用のデータ、集計部１０４が集計したデータ等を記憶する。なお、記憶部１０８は、外付けやネットワーク上の外部の記憶装置としてもよい。すなわち、画像処理装置１００は、外部の記憶装置から必要な画像や機械学習用のデータ等を取得してもよいし、外部の記憶装置に集計結果のデータ等を出力してもよい。

　画像取得部１０１は、画像提供装置２００から画像を取得する。画像取得部１０１は、画像提供装置２００が生成（記憶）した人物を含む２次元の画像（複数の画像を含む映像）を取得する。画像取得部１０１は、参照姿勢設定時に参照姿勢設定用画像（第１の画像）を取得する第１の画像取得部と、状態検出時に状態検出対象画像（第２の画像）を取得する第２の画像取得部を含むとも言える。例えば、画像提供装置２００がカメラの場合、画像取得部１０１は、参照姿勢設定時の所定の集計期間や状態検出時の検出タイミングにカメラが撮像した、人物を含む複数の画像（映像）を取得する。

　骨格構造検出部１０２は、画像に基づいて画像内の人物の姿勢を推定（検出）する姿勢推定部（姿勢検出部）である。なお、骨格構造検出部１０２は、外部の装置（画像提供装置２００や入力部１０６等）から、予め画像内の人物の姿勢を推定した姿勢情報を取得してもよい。骨格構造検出部１０２は、参照姿勢設定時に取得された参照姿勢設定用画像内の人物の姿勢を推定する第１の姿勢推定部と、状態検出時に取得された状態検出対象画像内の人物の姿勢を推定する第２の姿勢推定部を含むとも言える。

　この例では、骨格構造検出部１０２は、人物の姿勢として、画像から人物の骨格構造を検出する。なお、骨格構造の検出に限らず、その他の手法により人物の姿勢を推定してもよい。例えば、機械学習を用いたその他の姿勢推定モデルにより、画像内の人物の姿勢を推定してもよい。

　骨格構造検出部１０２は、取得された２次元の画像に基づき、画像内の人物の２次元の骨格構造（姿勢情報）を検出する。骨格構造検出部１０２は、機械学習を用いた骨格推定技術を用いて、認識される人物の関節等の特徴に基づき人物の骨格構造を検出する。骨格構造検出部１０２は、複数の画像のそれぞれにおいて、認識される人物の骨格構造を検出する。骨格構造検出部１０２は、取得された画像の中で認識される全ての人物について、骨格構造を検出してもよいし、画像の中で指定された人物について、骨格構造を検出してもよい。骨格構造検出部１０２は、例えば、非特許文献１のＯｐｅｎＰｏｓｅ等の骨格推定技術を用いる。

　特徴量抽出部１０３は、画像から検出された２次元の骨格構造（姿勢情報）に基づいて、人物の骨格（姿勢）の特徴量を抽出する。特徴量抽出部１０３は、参照姿勢設定時に参照姿勢設定用画像から推定された人物の姿勢の特徴量を抽出する第１の特徴量抽出部と、状態検出時に状態検出対象画像から推定された人物の姿勢の特徴量を抽出する第２の特徴量抽出部を含むとも言える。

　特徴量抽出部１０３は、骨格構造の特徴量として、人物の骨格（姿勢）の向きへの依存性が低減された特徴量（向き依存性低減特徴量）を抽出する。本実施の形態では、骨格構造の向きを所定の参照姿勢方向に正規化することで、向きへの依存性が低減された特徴量を抽出する。特徴量抽出部１０３は、骨格構造の向きを参照姿勢方向（例えば正面方向）に調整し、参照姿勢方向に向いた状態の骨格構造の特徴量を算出する。骨格構造の特徴量（姿勢特徴量）は、人物の骨格（姿勢）の特徴を示しており、人物の骨格に基づいて人物の状態を検出するための要素となる。骨格構造の特徴量は、骨格構造の全体の特徴量でもよいし、骨格構造の一部の特徴量でもよく、骨格構造の各部のように複数の特徴量を含んでもよい。例えば、骨格構造の特徴量は、骨格構造に含まれる各部の位置や大きさ、方向等を含んでもよい。

　また、特徴量抽出部１０３は、算出した特徴量をその他のパラメータにより正規化してもよい。例えば、正規化パラメータとして、人物の身長や骨格領域の大きさ等を用いてもよい。例えば、特徴量抽出部１０３は、２次元の画像内の人物の直立時の高さ（身長画素数）を算出し、算出された人物の身長画素数に基づいて、人物の骨格構造を正規化する。身長画素数は、２次元の画像における人物の身長（２次元画像空間上の人物の全身の長さ）である。特徴量抽出部１０３は、検出された骨格構造の各ボーンの長さ（２次元画像空間上の長さ）から身長画素数（ピクセル数）を求める。

　例えば、特徴量抽出部１０３は、骨格構造に含まれる各キーポイント（特徴点）の画像上での位置を特徴量として、身長画素数で正規化してもよい。キーポイントの位置は、キーポイントのＸ座標及びＹ座標の値（画素数）から求めることができる。Ｙ座標を求める高さ方向は、実世界の３次元座標空間における地面（基準面）に対し垂直な鉛直軸の方向を、２次元座標空間に投影した鉛直投影軸の方向（鉛直投影方向）でもよい。この場合、Ｙ座標の高さは、実世界における地面に対し垂直な軸を、カメラパラメータに基づいて２次元座標空間に投影した鉛直投影軸を求め、この鉛直投影軸に沿った値（画素数）から求めることができる。なお、カメラパラメータは、画像の撮像パラメータであり、例えば、カメラパラメータは、カメラの姿勢、位置、撮像角度、焦点距離等である。カメラにより、予め長さや位置が分かっている物体を撮像し、その画像からカメラパラメータを求めることができる。

　集計部１０４は、抽出された複数の骨格構造（姿勢）の特徴量（向き依存性低減特徴量）を集計し、集計した特徴量を参照姿勢の特徴量として設定する。なお、抽出した１つの骨格構造の特徴量から参照姿勢の特徴量を設定してもよい。集計部１０４は、参照姿勢設定時に参照姿勢設定用画像から抽出された人物の姿勢に基づいて参照姿勢を設定する設定部であるとも言える。参照姿勢は、人物の状態を検出するための基準となる姿勢であり、例えば、正常状態（通常状態）における人物の姿勢である。

　集計部１０４は、参照姿勢設定時に所定の集計期間に撮像された複数の画像における複数の骨格構造の特徴量を集計する。例えば、集計部１０４は、複数の特徴量の平均値を求め、この平均値を参照姿勢の特徴量とする。すなわち、集計部１０４は、参照姿勢方向に揃えた複数の骨格構造の全体または一部の特徴量の平均値を求める。なお、骨格構造の平均に限らず、分散や中間値など、その他の統計値を求めてもよい。例えば、求めた分散などの統計値を状態検出の際に類似度を求めるパラメータ（重み）として使用してもよい。

　集計部１０４は、特徴量を集計し設定した参照姿勢の特徴量を記憶部１０８に格納する。集計部１０４は、所定の単位ごと骨格構造の特徴量を集計する。集計部１０４は、１つの画像における人物の骨格構造の特徴量を集計してもよいし、複数の画像における人物の骨格構造の特徴量を集計してもよい。また、集計部１０４は、画像における所定の領域（場所）ごとに特徴量を集計してもよい。集計部１０４は、画像を撮像した所定の時間帯ごとに特徴量を集計してもよい。

　状態検出部１０５は、設定された参照姿勢の特徴量に基づき、画像に含まれる検出対象の人物の状態を検出する。状態検出部１０５は、状態検出時に状態検出対象画像から抽出された人物の姿勢の状態を検出する。状態検出部１０５は、記憶部１０８に記憶された参照姿勢の特徴量と検出対象の人物の姿勢の特徴量とを比較し、その比較結果に基づいて人物の状態を検出する。

　状態検出部１０５は、参照姿勢の特徴量と対象人物の姿勢（骨格構造）の特徴量（向き依存性低減特徴量）との類似度を算出し、算出した類似度に基づいて、対象人物の状態を判定する。状態検出部１０５は、参照姿勢の特徴量と対象人物の姿勢の特徴量との類似度を判定する類似度判定部でもある。特徴量間の類似度は、特徴量間の距離である。状態検出部１０５は、類似度が所定の閾値よりも高い場合、対象人物は正常状態であると判断し、類似度が所定の閾値よりも低い場合、対象人物は異常状態であると判断する。なお、正常状態と異常状態に限らず、さらに複数の状態を検出してもよい。例えば、複数の状態ごとに参照姿勢を用意し、最も近い参照姿勢の状態を選択してもよい。

　状態検出部１０５は、姿勢の類似度を求める場合、骨格構造の全体の特徴量の類似度を求めてもよいし、骨格構造の一部の特徴量の類似度を求めてもよい。例えば、骨格構造の第１の部分（例えば両手）及び第２の部分（例えば両足）の特徴量の類似度を求めてもよい。また、参照姿勢（骨格構造）の各部に設定された重みに基づいて、類似度を求めてもよい。さらに、複数の参照姿勢の特徴量と複数の対象人物の姿勢の特徴量との類似度を求めてもよい。

　なお、状態検出部１０５は、各画像における姿勢の特徴量に基づいて人物の状態を検出してもよいし、時系列に連続する複数の画像（映像）における姿勢の特徴量の変化に基づいて人物の状態を検出してもよい。すなわち、画像に限らず取得した映像から時系列の参照姿勢を含む参照行動を設定し、対象人物の時系列の姿勢を含む行動と参照行動との類似度に基づいて、人物の状態（行動）を検出してもよい。この場合、状態検出部１０５は、特徴量の類似度の検出をフレーム（画像）単位で行う。例えば、複数のフレームからキーフレームを抽出し、抽出したキーフレームを用いて類似度を判定してもよい。

　入力部１０６は、画像処理装置１００を操作するユーザから入力された情報を取得する入力インタフェースである。入力部１０６は、例えば、ＧＵＩ（Graphical User Interface）であり、キーボードやマウス、タッチパネル等の入力装置から、ユーザの操作に応じた情報が入力される。例えば、入力部１０６は、複数の画像の中から、指定された人物の姿勢を参照姿勢設定用の姿勢として受け付けてもよい。また、参照姿勢設定用の人物の姿勢（骨格）をユーザが手動で入力してもよい。

　表示部１０７は、画像処理装置１００の動作（処理）の結果等を表示する表示部であり、例えば、液晶ディスプレイや有機ＥＬ（Electro Luminescence）ディスプレイ等のディスプレイ装置である。表示部１０７は、状態検出部１０５の検出結果等、各部の処理結果をＧＵＩに表示する。

　図４～図６は、本実施の形態に係る画像処理装置１００の動作（画像処理方法）を示している。図４は、画像処理装置１００における全体の動作の流れを示し、図５は、図４の参照姿勢設定処理（Ｓ２０１）の流れを示し、図６は、図４の状態検出処理（Ｓ２０２）の流れを示している。

　図４に示すように、画像処理装置１００は、参照姿勢設定処理（Ｓ２０１）を行い、次に状態検出処理（Ｓ２０２）を行う。例えば、画像処理装置１００は、参照姿勢設定時に所定の集計期間（必要なデータが集計されるまでの期間）に撮像された画像（参照姿勢設定用画像）を用いて参照姿勢設定処理を行うことにより正常状態の姿勢の特徴量を設定する。画像処理装置１００は、その後の状態検出時の検出タイミング（もしくは検出期間）に撮像された画像（状態検出対象画像）を用いて状態検出処理を行うことにより検出対象の人物の状態を検出する。

　まず、参照姿勢設定処理（Ｓ２０１）では、図５に示すように、画像処理装置１００は、参照姿勢設定用画像を取得する（Ｓ２１１）。画像取得部１０１は、正常状態の姿勢となる参照姿勢を設定するための人物の姿勢を含む参照姿勢設定用画像を取得する。画像取得部１０１は、参照姿勢設定用画像として、カメラから所定の期間に撮像された１つ以上の画像を取得してもよいし、記憶装置に格納された１つ以上の画像を取得してもよい。取得された１つ以上の画像について以降の処理を行う。

　なお、ユーザが参照姿勢設定用画像を入力（選択）してもよいし、参照姿勢設定用の人物の姿勢を入力（選択）してもよい。例えば、表示部１０７に複数の画像を表示し、ユーザは、参照姿勢設定用として、人物の姿勢を含む画像を選択してもよいし、画像中の人物（姿勢）を選択してもよい。例えば、各画像に姿勢推定結果の人物の骨格を表示し、画像または人物を選択可能としてもよい。ユーザは、参照姿勢設定用として、複数の画像を選択してもよいし、複数の人物の姿勢を選択してもよい。例えば、人物が直立している姿勢と人物が通話している姿勢を参照姿勢に設定してもよい。

　また、画像に限らず、その他の方法で参照姿勢に設定する人物の姿勢（骨格）をユーザが入力してもよい。例えば、ユーザの操作に応じて骨格構造の各部を動かすことで姿勢を入力してもよい。骨格構造を入力した場合、姿勢推定処理（Ｓ２１２ａ）は省略してもよい。また、ユーザの入力に応じて、参照姿勢とする骨格のうち、着目したい部位に重み（例えば０～１）を設定してもよい。また、直立、しゃがみ、寝込みなどのラベル－姿勢（骨格）のペアを準備（記憶）しておき、ユーザがその中からラベル－姿勢のペアを選択することで、参照姿勢に設定する姿勢を入力してもよい。

　続いて、画像処理装置１００は、取得した参照姿勢設定用画像に基づいて人物の骨格構造を検出する（Ｓ２１２ａ）。例えば、取得した参照姿勢設定用画像には複数の人物が含まれており、骨格構造検出部１０２は、画像に含まれる各人物について、人物の姿勢として骨格構造を検出する。

　図７は、このとき検出する人体モデル３００の骨格構造を示している。骨格構造検出部１０２は、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて、２次元の画像から図７のような人体モデル（２次元骨格モデル）３００の骨格構造を検出する。人体モデル３００は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された２次元モデルである。

　骨格構造検出部１０２は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人物の各キーポイントを検出する。図７の例では、人物のキーポイントとして、頭Ａ１、首Ａ２、右肩Ａ３１、左肩Ａ３２、右肘Ａ４１、左肘Ａ４２、右手Ａ５１、左手Ａ５２、右腰Ａ６１、左腰Ａ６２、右膝Ａ７１、左膝Ａ７２、右足Ａ８１、左足Ａ８２を検出する。さらに、これらのキーポイントを連結した人物の骨として、頭Ａ１と首Ａ２を結ぶボーンＢ１、首Ａ２と右肩Ａ３１及び左肩Ａ３２をそれぞれ結ぶボーンＢ２１及びボーンＢ２２、右肩Ａ３１及び左肩Ａ３２と右肘Ａ４１及び左肘Ａ４２をそれぞれ結ぶボーンＢ３１及びボーンＢ３２、右肘Ａ４１及び左肘Ａ４２と右手Ａ５１及び左手Ａ５２をそれぞれ結ぶボーンＢ４１及びボーンＢ４２、首Ａ２と右腰Ａ６１及び左腰Ａ６２をそれぞれ結ぶボーンＢ５１及びボーンＢ５２、右腰Ａ６１及び左腰Ａ６２と右膝Ａ７１及び左膝Ａ７２をそれぞれ結ぶボーンＢ６１及びボーンＢ６２、右膝Ａ７１及び左膝Ａ７２と右足Ａ８１及び左足Ａ８２をそれぞれ結ぶボーンＢ７１及びボーンＢ７２を検出する。

　続いて、画像処理装置１００は、検出した人物の骨格構造の向きを正規化する（Ｓ２１３ａ）。特徴量抽出部１０３は、骨格構造の向きを参照姿勢方向（例えば正面方向）に調整し、骨格構造の向きを正規化する。特徴量抽出部１０３は、検出した骨格構造から人物の前後左右を検出し、画像における骨格構造の前方向を骨格構造の向きとして抽出する。特徴量抽出部１０３は、骨格構造を回転させて骨格構造の向きを参照姿勢方向に一致させる。骨格構造の回転は、２次元平面上で行ってもよいし、３次元空間上で行ってもよい。

　図８及び図９は、骨格構造の向きを正規化する例を示している。図８は、左手を上げて立っている人物を左斜め前から撮像した画像を使用する例である。例えば、首または頭から高さ方向の軸を人体モデル（骨格構造）の中心軸として、右側の各部位の座標と左側の各部位の座標により、人物の向きが抽出できる。この場合、画像から検出された人体モデル３０１に基づいて向きを抽出すると、２次元画像上における人物の向きは、撮像した視点方向（撮像方向）に対し、左前側（左下側）の向きとなる。このため、特徴量抽出部１０３は、左前側を向いている人体モデル３０１が視点方向と平行な正面方向の向きとなるよう人体モデル３０１を回転させる。例えば、人体モデル３０１の向きと視点方向との間の角度を求め、人体モデル３０１の中心軸を回転軸として、求めた角度により人体モデル３０１を回転させる。なお、人体モデル３０１の中心軸が２次元画像上の縦方向に対し傾いている場合、人体モデル３０１の中心軸が２次元画像上の縦方向と一致するよう傾きを調整する。これにより、２次元画像上で左手を上げた人物を正面から見た人体モデル３０１（骨格構造）が得られる。

　図９は、左手を上げて立っている人物を右斜め後ろから撮像した画像を使用する例である。この場合、画像から検出された人体モデル３０２に基づいて向きを抽出すると、２次元画像上における人物の向きは、撮像した視点方向（撮像方向）に対し、右後側（右上側）の向きとなる。このため、特徴量抽出部１０３は、右後側を向いている人体モデル３０２の向きが視点方向と平行な正面方向の向きとなるよう人体モデル３０２を回転させる。これにより、図８と同様に、２次元画像上で左手を上げた人物を正面から見た人体モデル３０２（骨格構造）が得られる。

　続いて、画像処理装置１００は、向きを正規化した人物の骨格構造の特徴量を抽出する（Ｓ２１４ａ）。特徴量抽出部１０３は、骨格構造の特徴量として、例えば、検出された骨格構造に含まれる全てのキーポイントの位置であるキーポイント位置を抽出する。キーポイント位置は、キーポイントにより特定されるボーンの大きさ及び方向を示しているとも言える。キーポイント位置は、２次元の画像におけるキーポイントのＸ座標及びＹ座標から求めることができる。キーポイント位置は、基準点に対するキーポイントの相対的な位置であり、基準点に対するキーポイントの高さ方向の位置（画素数）及び幅方向の位置（画素数）を含む。一例として、キーポイント位置を、画像における基準点のＹ座標及びＸ座標とキーポイントのＹ座標及びＸ座標から求めてもよい。基準点のＹ座標とキーポイントのＹ座標の差が高さ方向の位置であり、基準点のＸ座標とキーポイントのＸ座標の差が幅方向の位置となる。

　基準点は、キーポイントの相対的な位置を表すための基準となる点である。骨格構造における基準点の位置は、予め設定されていてもよいし、ユーザが選択できるようにしてもよい。基準点は、骨格構造の中心もしくは中心よりも高い（画像の上下方向における上である）ことが好ましく、例えば、首のキーポイントの座標を基準点としてもよい。なお、首に限らず頭やその他のキーポイントの座標を基準点としてもよい。キーポイントに限らず、任意の座標（例えば骨格構造の中心座標等）を基準点としてもよい。

　また、特徴量を正規化する場合、例えば、特徴量抽出部１０３は、検出された骨格構造に基づいて身長画素数などの正規化パラメータを算出する。特徴量抽出部１０３は、身長画素数等によりキーポイント位置などの特徴量を正規化する。例えば、画像における直立時の人物の骨格構造の高さである身長画素数と、画像の人物の骨格構造の各キーポイントのキーポイント位置を求める。骨格構造の各ボーンのうち、頭部から足部までのボーンの長さを合計することで、身長画素数を求めてもよい。骨格構造検出部１０２が頭頂と足元を出力しない場合は、必要に応じて定数を乗じて補正してもよい。

　具体的には、特徴量抽出部１０３は、人物の頭部から足部の２次元の画像上のボーンの長さを取得し、身長画素数を求める。例えば図７のボーンのうち、ボーンＢ１（長さＬ１）、ボーンＢ５１（長さＬ２１）、ボーンＢ６１（長さＬ３１）及びボーンＢ７１（長さＬ４１）、もしくは、ボーンＢ１（長さＬ１）、ボーンＢ５２（長さＬ２２）、ボーンＢ６２（長さＬ３２）及びボーンＢ７２（長さＬ４２）の各長さ（画素数）を取得する。各ボーンの長さは、２次元の画像における各キーポイントの座標から求めることができる。これらを合計した、Ｌ１＋Ｌ２１＋Ｌ３１＋Ｌ４１、もしくは、Ｌ１＋Ｌ２２＋Ｌ３２＋Ｌ４２に補正定数を乗じた値を身長画素数として算出する。両方の値を算出できる場合、例えば、長い方の値を身長画素数とする。すなわち、各ボーンは正面から撮像された場合が画像中での長さが最も長くなり、カメラに対して奥行き方向に傾くと短く表示される。従って、長いボーンの方が正面から撮像されている可能性が高く、真実の値に近いと考えられる。このため、長い方の値を選択することが好ましい。

　なお、その他の算出方法により、身長画素数を算出してもよい。例えば、各ボーンの長さと２次元画像空間上の身長との関係（比率）を示す平均的な人体モデルを予め用意し、用意した人体モデルを用いて検出した各ボーンの長さから身長画素数を算出してもよい。

　特徴量抽出部１０３は、各キーポイント位置を身長画素数で正規化する場合、各キーポイント位置（Ｘ座標及びＹ座標）を身長画素数により除算し、正規化値とする。

　また、正規化パラメータとして骨格領域の高さ（画素数）や面積（画素面積）を用いてもよい。図７の例では、直立した人物の骨格構造から全てのボーンを含む骨格領域を抽出する。この場合、骨格領域の上端は頭部のキーポイントＡ１、骨格領域の下端は右足のキーポイントＡ８１または左足のキーポイントＡ８２、骨格領域の左端は右手のキーポイントＡ５１、骨格領域の右端は左手のキーポイントＡ５２となる。このため、キーポイントＡ１とキーポイントＡ８１またはＡ８２のＹ座標の差分から骨格領域の高さを求める。また、キーポイントＡ５１とキーポイントＡ５２のＸ座標の差分から骨格領域の幅を求め、骨格領域の高さと幅から面積を求める。例えば、各キーポイント位置を骨格領域の高さや幅、面積等により除算して正規化値としてもよい。

　続いて、画像処理装置１００は、抽出された複数の骨格構造の特徴量を集計する（Ｓ２１５）。画像処理装置１００は、データが十分得られるまで（Ｓ２１６）、画像取得から骨格構造の特徴量の集計を繰り返し（Ｓ２１１～Ｓ２１５）、集計した特徴量を参照姿勢の特徴量として設定する（Ｓ２１７）。

　集計部１０４は、１つの画像または複数の画像から抽出された複数の骨格構造の特徴量を集計する。集計部１０４は、骨格構造の特徴量としてキーポイント位置を求めた場合、キーポイントごとにキーポイント位置を集計する。例えば、集計部１０４は、所定の単位ごとに、複数の骨格構造の特徴量の平均や分散などの統計値を求め、求めた統計値に基づいた骨格構造（平均姿勢や頻出姿勢）の特徴量を参照姿勢の特徴量に設定する。集計部１０４は、設定した参照姿勢の特徴量を記憶部１０８に格納する。

　図１０は、複数の骨格構造の特徴量から平均姿勢を求め、参照姿勢を設定する例を示している。図１０の例では、人体モデル３０１及び３０２が左手を上げて立っている人物の骨格構造であり、人体モデル３０１及び３０２の左手の位置がずれている。集計部１０４は、人体モデル３０１の各キーポイント位置と人体モデル３０２の各キーポイント位置の平均を求める。例えば、人体モデル３０１の左手のキーポイントＡ５２と人体モデル３０２の左手のキーポイントＡ５２の中間の座標がキーポイントＡ５２の平均値となる。人体モデル３０１の左肘のキーポイントＡ４２と人体モデル３０１の左肘のキーポイントＡ４２の中間の座標がキーポイントＡ４２の平均値となる。集計部１０４は、求めた平均値のキーポイント位置の骨格構造を平均姿勢として参照姿勢に設定する。

　また、平均姿勢に限らず頻出姿勢を参照姿勢に設定してもよい。頻出姿勢を設定する例として、例えば、所定の単位ごとに複数の骨格構造の特徴量をクラスタリングし、クラスタリングした結果に基づいて参照姿勢の特徴量を設定してもよい。この場合、複数の骨格構造の特徴量をクラスタリングし、いずれかのクラスタに含まれる特徴量（平均等）を、参照姿勢の特徴量に設定する。複数のクラスタのうち最も多い特徴量（姿勢情報）を含むクラスタの姿勢を頻出姿勢として参照姿勢に設定してもよい。

　図１１は、複数の骨格構造の特徴量から頻出姿勢を求め、頻出姿勢を参照姿勢に設定する例を示している。図１１の例では、人体モデル３０１及び３０２が左手を上げて立っている人物の骨格構造であり、人体モデル３０３が左手を下げて立っている人物の骨格構造である。集計部１０４は、類似する姿勢が同じクラスタとなるように分類（クラスタリング）する。例えば、人体モデル３０１及び３０２が第１のクラスタに含まれ、人体モデル３０３が第２のクラスタに含まれる。第２のクラスタよりも第１のクラスタの方が特徴量のデータ数が多いため、例えば、第１のクラスタに含まれる特徴量の平均を参照姿勢の特徴量に設定する。

　集計部１０４は、画像全体の特徴量を集計する場合、集計した特徴量により画像に対し参照姿勢を設定する。また、集計部１０４は、画像の場所ごとに特徴量を集計する場合、集計した特徴量により画像の場所ごとに参照姿勢を設定する。この場合、集計部１０４は、画像を複数の集計領域に分割し、集計領域ごとに骨格構造の特徴量を集計し、各集計結果を各集計領域の参照姿勢の特徴量として設定する。集計領域は、予め決められた領域でもよいし、ユーザが指定した領域でもよい。

　図１２及び図１３は、集計領域ごとに骨格構造の特徴量を集計する例を示している。図１２の例では、集計領域は、画像を縦方向及び横方向に所定の間隔で分割した矩形領域（Ａ１１～Ａ１９）である。集計領域は、矩形に限らず、任意の形状としてもよい。例えば、集計領域は、画像の背景を考慮せずに所定の間隔で分割されている。なお、集計領域は、画像の背景や集計データの量等を考慮して分割してもよい。例えば、画像と実世界の大きさの関係に対応するように、撮像距離に応じて、カメラに近い領域（画像の下側）よりも、カメラに遠い領域（画像の上側）を小さくしてもよい。また、集計されるデータの量に応じて、特徴量が少ない領域よりも、特徴量が多い領域を小さくしてもよい。図１２の例では、各矩形領域で集計した結果、道路を含む矩形領域（Ａ１４～Ａ１８）では、右手を上げて立っている姿勢が参照姿勢として設定され、建物を含む矩形領域（Ａ１１～Ａ１３）では、両手を下げて立っている姿勢が参照姿勢として設定され、椅子を含む矩形領域（Ａ１９）では、座っている姿勢が参照姿勢として設定されている。

　また、図１３の例では、集計領域は、画像を背景（シーン）に応じて分割した領域である。この例では、道路の領域（Ａ２３）、建物付近の領域（Ａ２１、Ａ２２）、バス停の椅子付近の領域（Ａ２４）に分割されている。背景に応じてユーザが各領域を設定してもよいし、画像内の物体等を画像認識することで自動的に各領域を設定してもよい。図１３の例では、各領域で集計した結果、道路の領域（Ａ２３）では、右手を上げて立っている姿勢が参照姿勢として設定され、建物付近の領域（Ａ２１、Ａ２２）では、両手を下げて立っている姿勢が参照姿勢として設定され、椅子付近の領域（Ａ２４）では、座っている姿勢が参照姿勢として設定されている。

　集計部１０４は、例えば、集計領域の中に足元（例えば足の下端）が検出されている人物の特徴量を、集計領域ごとに集計する。足元以外が検出されている場合、足元以外を集計の基準としてもよい。例えば、集計領域の中に頭部や胴部が検出されている人物の特徴量を、集計領域ごとに集計してもよい。集計部１０４は、集計領域ごとに、上記のように平均姿勢や頻出姿勢を求め、参照姿勢の特徴量を設定する。

　集計領域ごとに、より多くの骨格構造の特徴量を集計することで、正常状態の設定精度及び人物の検出精度を向上することができる。例えば、集計領域ごとに３～５の特徴量を集計し、平均を求めることが好ましい。複数の特徴量の平均を求めることで、集計領域における正常状態のデータを得ることができる。集計領域及び集計データを増やすことにより、検出精度を向上できるものの、検出処理に時間やコストを要する。集計領域及び集計データを減らすことにより、簡易に検出できるものの、検出精度が低下し得る。このため、必要とする検出精度とかかるコストを考慮して集計領域及び集計データの数を決めることが好ましい。

　また、集計部１０４は、時間帯ごとに特徴量を集計する場合、集計した特徴量により時間帯ごとに参照姿勢を設定する。取得した各画像には、撮像した時刻が設定されており、全ての画像を撮像した期間を複数の集計時間帯に分割する。集計部１０４は、集計時間帯ごとに、その時間帯に含まれる複数の画像の骨格構造の特徴量を集計し、各集計結果を各集計時間帯の参照姿勢の特徴量として設定する。集計時間帯は、予め決められた時間帯でもよいし、ユーザが指定した時間帯でもよい。各集計時間帯は、同じ長さの時間帯でもよいし、異なる長さの時間帯でもよい。集計時間帯は、人の行動に関連するイベントの時刻や、集計データの量等を考慮して分割してもよい。集計されるデータの量に応じて、特徴量が少ない時間帯よりも、特徴量が多い時間帯を短くしてもよい。集計部１０４は、時間帯ごとに、上記のように平均姿勢や頻出姿勢を求め、参照姿勢の特徴量を設定する。さらに、各時間帯において、上記のように集計領域ごとに集計し参照姿勢を設定してもよい。

　図１４は、時間帯ごとに骨格構造の特徴量を集計する例を示している。図１４の例では、全体の期間を集計時間帯Ｔ１～Ｔ３に分割している。図１４では、バス停にバスが到着するまでの時間帯（Ｔ１）、バス停にバスが到着している時間帯（Ｔ２）、バス停が出発した後の時間帯（Ｔ３）に分けている。例えば、各時間帯で集計した結果、バス停にバスが到着するまでの時間帯（Ｔ１）では、椅子に座っている姿勢が参照姿勢として設定され、バス停にバスが到着している時間帯（Ｔ２）では、両手を下げて立っている姿勢が参照姿勢として設定され、バス停が出発した後の時間帯（Ｔ３）では、右手を上げて立っている姿勢が参照姿勢として設定されている。

　次に、状態検出処理（Ｓ２０２）では、図６に示すように、画像処理装置１００は、状態検出対象画像を取得する（Ｓ２２１）。画像取得部１０１は、検出対象の人物の状態（姿勢）を検出するために、検出対象の人物を撮像した画像を取得する。画像取得部１０１は、状態検出対象として、カメラから所定の期間に撮像された１つ以上の画像を取得してもよいし、記憶装置に格納された１つ以上の画像を取得してもよい。取得された１つ以上の画像について以降の処理を行う。

　なお、ユーザが状態検出対象画像を入力（選択）してもよいし、状態検出対象の人物（姿勢）を入力（選択）してもよい。例えば、表示部１０７に複数の画像を表示し、ユーザは、状態検出対象として、人物の姿勢を含む画像を選択してもよいし、画像中の人物（姿勢）を選択してもよい。例えば、各画像に姿勢推定結果の人物の骨格を表示し、画像または人物を選択可能としてもよい。ユーザは、状態検出対象として、複数の画像を選択してもよいし、複数の人物を選択してもよい。

　状態検出対象画像が入力されると、画像処理装置１００は、参照姿勢設定時と同様に、状態検出対象画像の人物の骨格構造の検出（Ｓ２１２ｂ）、向き正規化（Ｓ２１３ｂ）、及び特徴量抽出（Ｓ２１４ｂ）を行う。すなわち、骨格構造検出部１０２は、状態検出対象画像における人物（検出対象として指定された人物）の骨格構造を検出する。特徴量抽出部１０３は、検出した骨格構造の向きを正規化し、向きを正規化した骨格構造の特徴量を抽出する。

　続いて、画像処理装置１００は、参照姿勢と対象人物の姿勢の類似度を算出し（Ｓ２２２）、類似度に基づいて対象人物の状態を判定する（Ｓ２２３）。状態検出部１０５は、特徴量の類似度を用いて、抽出された検出対象の人物の姿勢（骨格構造）が、設定された参照姿勢に近いか否か判定し、参照姿勢に近い場合、検出対象の人物は正常状態であると判断し、参照姿勢から離れている場合、検出対象の人物は異常状態であると判断する。

　具体的には、状態検出部１０５は、Ｓ２１７で記憶部１０８に格納された参照姿勢の特徴量と、Ｓ２１４ｂで抽出された対象人物の姿勢（骨格構造）の特徴量との類似度を算出する。例えば、状態検出部１０５は、２次元画像空間における参照姿勢の各部位（キーポイントまたはボーン）と対象人物の姿勢の各部位との距離（差）を求める。骨格構造の特徴量としてキーポイント位置を求めている場合、各部位のキーポイント位置の距離を求める。状態検出部１０５は、各部位の距離の合計値が小さい程、類似度が高くなり、各部位の距離の合計値が大きい程、類似度が小さくなるように演算する。

　例えば、状態検出部１０５は、複数の対象人物の姿勢の類似度を求め、類似度が閾値よりも大きい姿勢の対象人物は正常状態であると判断し、類似度が閾値よりも小さい姿勢の対象人物は異常状態であると判断する。特徴量の類似度に応じて、人物の正常状態または異常状態と判断される可能性（確率）を求めてもよい。参照姿勢及び対象人物の姿勢が複数の姿勢を含む場合、姿勢ごとの類似度を求め、複数の類似度の合計値に基づいて、対象人物の状態を判定してもよい。

　参照姿勢の各部位に重みが設定されている場合、状態検出部１０５は、各部位の重み基づいて類似度を算出してもよい。各部位の重みは、参照姿勢の入力時にユーザが設定してもよいし、参照姿勢設定の集計結果の分散などに応じて設定されてもよい。例えば、状態検出部１０５は、各部位の差に各部位の重みを乗算し、乗算した値の合計値に基づいて類似度を求める。

　集計領域ごとに参照姿勢を設定している場合、状態検出部１０５は、検出対象の人物の姿勢の特徴量と、検出対象に対応する集計領域に設定された参照姿勢の特徴量との類似度を算出してもよい。例えば、検出対象の人物の足元が含まれる集計領域を認識し、認識した集計領域における参照姿勢の特徴量と、検出対象の人物の姿勢の特徴量との類似度を算出する。

　時間帯ごとに参照姿勢を設定している場合、状態検出部１０５は、検出対象の人物の姿勢の特徴量と、検出対象に対応する時間帯に設定された参照姿勢の特徴量との類似度を算出してもよい。例えば、検出対象の人物の姿勢を撮像した時刻を状態検出対象画像から取得し、取得した時刻に対応する時間帯における参照姿勢の特徴量と、検出対象の人物の姿勢の特徴量との類似度を算出する。

　続いて、画像処理装置１００は、人物の状態の判定結果を表示する（Ｓ２２４）。表示部１０７は、状態検出対象画像を表示し、状態検出対象画像内で検出した人物の状態を表示する。図１５は、表示部１０７が表示する人物の状態の表示例を示している。例えば、画像における人物の姿勢（骨格構造）を表示し、異常状態と判定された人物の姿勢を強調表示する。図１５の例では、参照姿勢との類似度が低く、異常と判定された人物の姿勢に矩形を表示している。矩形に限らず、算出した参照姿勢との類似度を表示してもよいし、類似度に応じて人物の姿勢の表示態様を変えてもよい。類似度が低くなるにしたがって、人物の姿勢が強調されるように表示してもよい。また、骨格構造の部位ごとに参照姿勢の類似度を表示してもよいし、類似度に応じて人物の姿勢の各部位の表示態様を変えてもよい。

　図１５は、例えば、左手を上げて立っている姿勢を参照姿勢に設定した例である。この場合、左手を上げて立っている人物は正常状態であると判定され、座っている人物及び右手を上げて立っている人物は異常状態であると判定される。向きを正規化した特徴量を使用しているため、画像上で後ろを向いた状態で左手を上げて立っている人物も正常状態であると判定される。

　以上のように、本実施の形態では、参照姿勢設定用画像から人物の骨格構造を検出し、検出した骨格構造の特徴量を集計して参照姿勢の特徴量として設定する。さらに、参照姿勢の特徴量と対象人物の骨格構造の特徴量との類似度を求めることで、対象人物の状態を検出する。これにより、定義することが困難な人物の状態であっても、基準となる参照姿勢を設定することができ、人物の状態を検出することができる。例えば、参照姿勢を正常状態として、異常状態の人物を検出できる。

　また、本実施の形態では、人物の向き依存性低減特徴量を用いて参照姿勢を設定し、対象人物の向き依存性低減特徴量との類似度を求めることで、対象人物の状態を検出する。例えば、向き依存性低減特徴量として、骨格構造の向きを正規化して特徴量を算出する。これにより、画像上の人物の姿勢の向きによらずに参照姿勢を設定でき、正確に対象人物の状態を検出することができる。

　また、本実施の形態では、骨格推定技術を用いて骨格構造を検出することで、参照姿勢の設定及び対象人物の状態を検出する。これにより、学習データを集めることなく、参照姿勢を設定し、人物の状態を検知できる。

（実施の形態２）
　以下、図面を参照して実施の形態２について説明する。本実施の形態では、向きに不変の特徴量の特徴空間を用いることで向き依存性低減特徴量を抽出する例について説明する。

　図１６は、本実施の形態に係る画像処理装置１００の構成例を示している。図１６に示すように、本実施の形態に係る画像処理装置１００は、実施の形態１の構成と比べて、特徴量抽出部１０３の代わりに、特徴空間写像部１０９を備えている。その他の構成は、実施の形態１と同様である。

　特徴空間写像部１０９は、画像から検出された２次元の骨格構造（姿勢）を特徴空間に写像（マッピング）し、人物の姿勢の向きに不変な向き不変特徴量を生成（抽出）する。本実施の形態では、向き不変特徴量の特徴量空間を用いることで、人物の骨格（姿勢）の向きへの依存性が低減された特徴量（向き依存性低減特徴量）を抽出する。

　例えば、特徴空間写像部１０９は、機械学習を用いた特徴量抽出モデルにより、骨格構造から特徴空間における向き不変特徴量を生成してもよい。様々な向きの骨格構造と特徴空間上の特徴量との関係を学習した特徴量抽出モデルを使用することで、骨格構造を特徴空間上の向き不変特徴量に写像できる。

　なお、画像を入力とする特徴量抽出モデルにより、画像から直接、画像に含まれる人物の姿勢の特徴量を生成（抽出）してもよい。すなわち、特徴量抽出モデルにより、骨格構造検出部１０２の機能及び特徴空間写像部１０９の機能を実現してもよい。例えば、様々な向き及び姿勢の人物の画像と特徴空間上の特徴量との関係を学習した特徴量抽出モデルを使用することで、人物の画像から特徴空間上の向き不変特徴量に写像してもよい。

　図１７～図１８は、本実施の形態に係る画像処理装置１００の動作（画像処理方法）を示している。画像処理装置１００における全体の動作の流れは、実施の形態１の図４と同様である。図１７は、本実施の形態に係る参照姿勢設定処理（Ｓ２０１）の流れを示し、図１８は、本実施の形態に係る状態検出処理（Ｓ２０２）の流れを示している。

　まず、参照姿勢設定処理（Ｓ２０１）では、図１７に示すように、実施の形態１と同様、画像処理装置１００は、参照姿勢設定用画像を取得し（Ｓ２１１）、取得した参照姿勢設定用画像に基づいて人物の骨格構造を検出する（Ｓ２１２ａ）。

　続いて、画像処理装置１００は、参照姿勢設定用画像から検出した人物の骨格構造を特徴空間に写像する（Ｓ２１８ａ）。特徴空間写像部１０９は、例えば特徴量抽出モデルを用いて、参照姿勢設定用画像から検出された人物の骨格構造を特徴空間に写像し、向き不変特徴量を生成する。

　図１９及び図２０は、骨格構造を特徴空間に写像する例を示している。図１９は、図８と同様、左手を上げて立っている人物を左斜め前から撮像した画像を使用する例である。この場合、画像から検出された人体モデル３０１は、撮像した視点方向（撮像方向）に対し、２次元画像上において左前側（左下側）を向いている。特徴空間写像部１０９は、特徴量抽出モデルにより、人体モデル３０１の骨格構造を特徴空間に写像し、向き不変特徴量Ｐ１を生成する。例えば、向き不変特徴量Ｐ１は、特徴空間上の座標で示される。特徴空間の次元数等は、特に制限されない。

　図２０は、図９と同様、左手を上げて立っている人物を右斜め後ろから撮像した画像を使用する例である。この場合、画像から検出された人体モデル３０２は、撮像した視点方向（撮像方向）に対し、２次元画像上において右後側（右上側）を向いている。特徴空間写像部１０９は、特徴量抽出モデルにより、人体モデル３０２の骨格構造を特徴空間に写像し、向き不変特徴量Ｐ２を生成する。図１９の人体モデル３０１は、画像上で左前側を向いており、図２０の人体モデル３０２は、画像上で右後側を向いているが、向き不変特徴量Ｐ１及びＰ２は、特徴空間上で近い位置となる。

　続いて、画像処理装置１００は、特徴空間により抽出された複数の骨格構造の特徴量（向き不変特徴量）を集計する（Ｓ２１５）。画像処理装置１００は、データが十分得られるまで（Ｓ２１６）、画像取得から骨格構造の特徴量の集計を繰り返し（Ｓ２１１～Ｓ２１５）、集計した特徴量を参照姿勢の特徴量として設定する（Ｓ２１７）。

　集計部１０４の集計方法は、実施の形態１と同様である。例えば、集計部１０４は、特徴空間における複数の向き不変特徴量の平均を求め、求めた平均の向き不変特徴量を参照姿勢の特徴量に設定する。

　図２１は、複数の向き不変特徴量の平均を参照姿勢に設定する例を示している。例えば、集計部１０４は、人体モデル３０１の向き不変特徴量Ｐ１と人体モデル３０２の向き不変特徴量Ｐ２の平均として、特徴空間における不変特徴量Ｐ１と不変特徴量Ｐ２の中間（中心）の座標を求め、求めた座標の特徴量を参照姿勢の特徴量とする。

　次に、状態検出処理（Ｓ２０２）では、図１８に示すように、実施の形態１と同様、画像処理装置１００は、状態検出対象画像を取得し（Ｓ２２１）、状態検出対象画像の人物の骨格構造を検出する（Ｓ２１２ｂ）。次に、画像処理装置１００は、参照姿勢設定時と同様に、検出した人物の骨格構造を特徴空間に写像する（Ｓ２１８ｂ）。特徴空間写像部１０９は、例えば特徴量抽出モデルを用いて、状態検出対象画像から検出された人物の骨格構造を特徴空間に写像し向き不変特徴量を生成する。

　続いて、画像処理装置１００は、実施の形態１と同様、参照姿勢と対象人物の姿勢の類似度を算出し（Ｓ２２２）、類似度に基づいて対象人物の状態を判定し（Ｓ２２３）、判定結果を表示する（Ｓ２２４）。状態検出部１０５は、Ｓ２１７で記憶部１０８に格納された参照姿勢の向き不変特徴量と、Ｓ２１８ｂで抽出された対象人物の姿勢（骨格構造）の向き不変特徴量との類似度を算出する。状態検出部１０５は、参照姿勢の向き不変特徴量と対象人物の姿勢の向き不変特徴量との距離に基づいて類似度を求め、求めた類似度に基づいて対象人物の状態を判定する。

　以上のように、本実施の形態では、人物の向き依存性低減特徴量として、骨格構造を特徴空間に写像して得られる向き不変特徴量を使用する。この場合でも、実施の形態１と同様に、画像上の人物の姿勢の向きによらずに参照姿勢を設定でき、正確に対象人物の状態を検出することができる。

　なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

　上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、１つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置及び各機能（処理）を、図２２に示すような、ＣＰＵ（Central Processing Unit）等のプロセッサ２１及び記憶装置であるメモリ２２を有するコンピュータ２０により実現してもよい。例えば、メモリ２２に実施形態における方法（画像処理方法）を行うためのプログラムを格納し、各機能を、メモリ２２に格納されたプログラムをプロセッサ２１で実行することにより実現してもよい。

　これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

　以上、実施の形態を参照して本開示を説明したが、本開示は上記実施の形態に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
　第１の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得手段と、
　前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出する抽出手段と、
　前記抽出された向き依存性低減特徴量を、第２の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する設定手段と、
　を備える、画像処理システム。
（付記２）
　前記抽出手段は、前記姿勢情報の姿勢の向きを所定の方向に正規化し、前記向きを正規化した姿勢情報の特徴量を前記向き依存性低減特徴量として抽出する、
　付記１に記載の画像処理システム。
（付記３）
　前記抽出手段は、前記姿勢情報を向きに不変の特徴量の特徴空間に写像し、前記写像した特徴空間上の特徴量を前記向き依存性低減特徴量として抽出する、
　付記１に記載の画像処理システム。
（付記４）
　前記設定手段は、前記抽出された向き依存性低減特徴量を所定の単位ごとに集計し、前記集計した結果に基づいて前記参照姿勢の特徴量を設定する、
　付記１乃至３のいずれか一項に記載の画像処理システム。
（付記５）
　前記設定手段は、前記所定の単位ごとに前記向き依存性低減特徴量の統計値を求める、
　付記４に記載の画像処理システム。
（付記６）
　前記設定手段は、前記所定の単位ごとに前記向き依存性低減特徴量をクラスタリングし、前記クラスタリングした結果に基づいて前記参照姿勢の特徴量を設定する、
　付記４に記載の画像処理システム。
（付記７）
　前記設定手段は、前記第１の画像ごと、または、前記第１の画像における所定の領域ごとに前記向き依存性低減特徴量を集計する、
　付記４乃至６のいずれか一項に記載の画像処理システム。
（付記８）
　前記設定手段は、前記第１の画像を撮像した所定の時間帯ごとに前記向き依存性低減特徴量を集計する、
　付記４乃至７のいずれか一項に記載の画像処理システム。
（付記９）
　前記設定した参照姿勢の特徴量に基づいて、前記第２の画像に含まれる対象人物の状態を検出する状態検出手段を備える、
　付記１乃至８のいずれか一項に記載の画像処理システム。
（付記１０）
　前記取得手段は、前記第２の画像に含まれる対象人物の姿勢を推定した姿勢情報を取得し、
　前記抽出手段は、前記第２の画像から取得された姿勢情報に基づいて、前記対象人物の姿勢の向き依存性低減特徴量を抽出し、
　前記状態検出手段は、前記参照姿勢の特徴量と前記対象人物の姿勢の向き依存性低減特徴量との類似度に基づいて、前記対象人物の状態を検出する、
　付記９に記載の画像処理システム。
（付記１１）
　前記状態検出手段は、前記参照姿勢における各部位に設定された重みに基づいて、前記類似度を求める、
　付記１０に記載の画像処理システム。
（付記１２）
　前記参照姿勢の特徴量及び前記対象人物の姿勢の向き依存性低減特徴量は、それぞれ複数の姿勢の特徴量を含み、
　前記状態検出手段は、前記複数の姿勢の特徴量の類似度を求める、
　付記１０または１１に記載の画像処理システム。
（付記１３）
　前記参照姿勢の特徴量及び前記対象人物の姿勢の向き依存性低減特徴量は、それぞれ時系列に連続する複数の画像に基づいて抽出された時系列の特徴量を含み、
　前記状態検出手段は、前記時系列の特徴量の類似度を求める、
　付記１０乃至１２のいずれか一項に記載の画像処理システム。
（付記１４）
　前記状態検出手段は、前記参照姿勢を正常状態の姿勢として、前記類似度に基づいて、前記対象人物が異常状態であるか否かを検出する、
　付記１０乃至１３のいずれか一項に記載の画像処理システム。
（付記１５）
　第１の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得し、
　前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出し、
　前記抽出された向き依存性低減特徴量を、第２の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する、
　画像処理方法。
（付記１６）
　前記姿勢情報の姿勢の向きを所定の方向に正規化し、前記向きを正規化した姿勢情報の特徴量を前記向き依存性低減特徴量として抽出する、
　付記１５に記載の画像処理方法。
（付記１７）
　前記姿勢情報を向きに不変の特徴量の特徴空間に写像し、前記写像した特徴空間上の特徴量を前記向き依存性低減特徴量として抽出する、
　付記１５に記載の画像処理方法。
（付記１８）
　第１の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得し、
　前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出し、
　前記抽出された向き依存性低減特徴量を、第２の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する、
　処理をコンピュータに実行させるための画像処理プログラムが格納された非一時的なコンピュータ可読媒体。
（付記１９）
　前記姿勢情報の姿勢の向きを所定の方向に正規化し、前記向きを正規化した姿勢情報の特徴量を前記向き依存性低減特徴量として抽出する、
　付記１８に記載の非一時的なコンピュータ可読媒体。
（付記２０）
　前記姿勢情報を向きに不変の特徴量の特徴空間に写像し、前記写像した特徴空間上の特徴量を前記向き依存性低減特徴量として抽出する、
　付記１９に記載の非一時的なコンピュータ可読媒体。

１、１０　画像処理システム
１１　　取得部
１２　　抽出部
１３　　設定部
２０　　コンピュータ
２１　　プロセッサ
２２　　メモリ
１００　画像処理装置
１０１　画像取得部
１０２　骨格構造検出部
１０３　特徴量抽出部
１０４　集計部
１０５　状態検出部
１０６　入力部
１０７　表示部
１０８　記憶部
１０９　特徴空間写像部
２００　画像提供装置

Claims

　第１の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得手段と、
　前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出する抽出手段と、
　前記抽出された向き依存性低減特徴量を、第２の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する設定手段と、
　を備える、画像処理システム。
　前記抽出手段は、前記姿勢情報の姿勢の向きを所定の方向に正規化し、前記向きを正規化した姿勢情報の特徴量を前記向き依存性低減特徴量として抽出する、
　請求項１に記載の画像処理システム。
　前記抽出手段は、前記姿勢情報を向きに不変の特徴量の特徴空間に写像し、前記写像した特徴空間上の特徴量を前記向き依存性低減特徴量として抽出する、
　請求項１に記載の画像処理システム。
　前記設定手段は、前記抽出された向き依存性低減特徴量を所定の単位ごとに集計し、前記集計した結果に基づいて前記参照姿勢の特徴量を設定する、
　請求項１乃至３のいずれか一項に記載の画像処理システム。
　前記設定手段は、前記所定の単位ごとに前記向き依存性低減特徴量の統計値を求める、
　請求項４に記載の画像処理システム。
　前記設定手段は、前記所定の単位ごとに前記向き依存性低減特徴量をクラスタリングし、前記クラスタリングした結果に基づいて前記参照姿勢の特徴量を設定する、
　請求項４に記載の画像処理システム。
　前記設定手段は、前記第１の画像ごと、または、前記第１の画像における所定の領域ごとに前記向き依存性低減特徴量を集計する、
　請求項４乃至６のいずれか一項に記載の画像処理システム。
　前記設定手段は、前記第１の画像を撮像した所定の時間帯ごとに前記向き依存性低減特徴量を集計する、
　請求項４乃至７のいずれか一項に記載の画像処理システム。
　前記設定した参照姿勢の特徴量に基づいて、前記第２の画像に含まれる対象人物の状態を検出する状態検出手段を備える、
　請求項１乃至８のいずれか一項に記載の画像処理システム。
　前記取得手段は、前記第２の画像に含まれる対象人物の姿勢を推定した姿勢情報を取得し、
　前記抽出手段は、前記第２の画像から取得された姿勢情報に基づいて、前記対象人物の姿勢の向き依存性低減特徴量を抽出し、
　前記状態検出手段は、前記参照姿勢の特徴量と前記対象人物の姿勢の向き依存性低減特徴量との類似度に基づいて、前記対象人物の状態を検出する、
　請求項９に記載の画像処理システム。
　前記状態検出手段は、前記参照姿勢における各部位に設定された重みに基づいて、前記類似度を求める、
　請求項１０に記載の画像処理システム。
　前記参照姿勢の特徴量及び前記対象人物の姿勢の向き依存性低減特徴量は、それぞれ複数の姿勢の特徴量を含み、
　前記状態検出手段は、前記複数の姿勢の特徴量の類似度を求める、
　請求項１０または１１に記載の画像処理システム。
　前記参照姿勢の特徴量及び前記対象人物の姿勢の向き依存性低減特徴量は、それぞれ時系列に連続する複数の画像に基づいて抽出された時系列の特徴量を含み、
　前記状態検出手段は、前記時系列の特徴量の類似度を求める、
　請求項１０乃至１２のいずれか一項に記載の画像処理システム。
　前記状態検出手段は、前記参照姿勢を正常状態の姿勢として、前記類似度に基づいて、前記対象人物が異常状態であるか否かを検出する、
　請求項１０乃至１３のいずれか一項に記載の画像処理システム。
　第１の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得し、
　前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出し、
　前記抽出された向き依存性低減特徴量を、第２の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する、
　画像処理方法。
　前記姿勢情報の姿勢の向きを所定の方向に正規化し、前記向きを正規化した姿勢情報の特徴量を前記向き依存性低減特徴量として抽出する、
　請求項１５に記載の画像処理方法。
　前記姿勢情報を向きに不変の特徴量の特徴空間に写像し、前記写像した特徴空間上の特徴量を前記向き依存性低減特徴量として抽出する、
　請求項１５に記載の画像処理方法。
　第１の画像に含まれる人物の姿勢を推定した姿勢情報を取得する取得し、
　前記取得された姿勢情報に基づいて、前記姿勢情報の姿勢の向きへの依存性が低減された向き依存性低減特徴量を抽出し、
　前記抽出された向き依存性低減特徴量を、第２の画像に含まれる対象人物の状態を検出するための参照姿勢の特徴量として設定する、
　処理をコンピュータに実行させるための画像処理プログラムが格納された非一時的なコンピュータ可読媒体。
　前記姿勢情報の姿勢の向きを所定の方向に正規化し、前記向きを正規化した姿勢情報の特徴量を前記向き依存性低減特徴量として抽出する、
　請求項１８に記載の非一時的なコンピュータ可読媒体。
　前記姿勢情報を向きに不変の特徴量の特徴空間に写像し、前記写像した特徴空間上の特徴量を前記向き依存性低減特徴量として抽出する、
　請求項１９に記載の非一時的なコンピュータ可読媒体。