WO2019150954A1

WO2019150954A1 - 情報処理装置

Info

Publication number: WO2019150954A1
Application number: PCT/JP2019/001127
Authority: WO
Inventors: 純平松永; 田中　清明; 信二高橋
Original assignee: オムロン株式会社
Priority date: 2018-02-02
Filing date: 2019-01-16
Publication date: 2019-08-08
Also published as: JP2019133566A; JP6922768B2

Abstract

撮像された画像に写っている人物を識別する情報処理装置が、撮像された画像を取得する画像取得手段と、前記画像から、当該画像に写っている人物の姿勢、仕草、シルエット、動線、及び、滞在場所の少なくともいずれかを当該人物の特徴として示す特徴情報を取得する情報取得手段と、前記特徴情報に基づいて、前記人物を識別する識別手段と、を有する。

Description

情報処理装置

　本発明は、撮像された画像に写っている人物を識別する情報処理装置に関する。

　撮像された画像に写っている人物を識別する技術として、撮像された画像から人物の顔特徴量を取得し、取得した顔特徴量から当該人物を識別する技術がある。

　特許文献１に開示の技術では、一の画像の一の顔の特徴量と他の画像の一の顔の特徴量とが近似しており且つ一の画像の一の顔の特徴量と他の画像の一の顔以外のすべての他の顔の特徴量とが近似していないような関係が複数存在するかどうかが判定される。そして、そのような関係が複数存在する場合には、一の画像の一の顔と他の画像の一の顔とが同一人物の顔であると判定される。

特開２０１５－２２５５６７号公報

　識別結果をドアの施解錠などのために利用する場合には、人物がカメラに対して積極的に顔を向けるため、撮像された画像から当該人物の正確な顔特徴量が得られる。しかしながら、識別結果が他の目的で利用される場合には、人物がカメラに対して顔を向けないことがあり、撮像された画像から当該人物の正確な顔特徴量が得られないことがある。そのため、顔特徴量から人物を識別する従来技術では、人物を高精度に識別できないことがある。

　本発明は、上記実情に鑑みなされたものであって、顔が撮像されていない場合でも撮像された画像に写っている人物を識別できる情報処理装置を提供することを目的とする。

　上記目的を達成するために、本発明では、撮像された画像に写っている人物の姿勢、仕草、シルエット、動線、及び、滞在場所の少なくともいずれかに基づいて当該人物を識別する、という方法を採用する。

　具体的には、本発明の第一態様は、撮像された画像を取得する画像取得手段と、前記画像から、当該画像に写っている人物の姿勢、仕草、シルエット、動線、及び、滞在場所の少なくともいずれかを当該人物の特徴として示す特徴情報を取得する情報取得手段と、前記特徴情報に基づいて、前記人物を識別する識別手段と、を有することを特徴とする情報処理装置を提供する。

　この構成によれば、顔が撮像されていない場合でも撮像された画像に写っている人物を識別できる。具体的には、撮像された画像に写っている人物の姿勢、仕草、シルエット、動線、滞在場所、等は、当該人物の顔が撮像されていなくても取得できる。そして、それらの特徴は人物固有のものであるため、それらの特徴から人物を識別できる。

　前記情報取得手段は、前記人物の骨格を示す骨格情報を前記画像から取得し、当該骨格情報に基づいて前記特徴情報を取得してもよい。複数の人物のそれぞれについて、その人物の特徴を示す参照情報を記憶する記憶手段をさらに有し、前記識別手段は、前記特徴情報と各参照情報を比較して、前記画像に写っている前記人物を識別してもよい。前記画像を撮像する撮像手段、をさらに有してもよい。

　前記画像に２人以上の人物が写っている場合に、前記識別手段は、前記２人以上の人物のうちの一部の人物を、その人物に対応する特徴情報に基づいて識別し、前記２人以上の人物のうちの残りの人物を、その人物に対応する特徴情報と、前記一部の人物の識別結果とに基づいて識別するとよい。前記記憶手段は、前記複数の人物のそれぞれについて、その人物と他の人物との２つ以上の組み合わせにそれぞれ対応する２つ以上の参照情報を記憶し、前記画像に２人以上の人物が写っている場合に、前記識別手段は、前記２人以上の人物のうちの一部の人物を、その人物に対応する特徴情報と、前記各参照情報とを比較して識別し、前記２人以上の人物のうちの残りの人物を、その人物に対応する特徴情報と、識別された前記一部の人物との組み合わせに対応する各参照情報とを比較して識別してもよい。

　一の人物が他の人物と一緒にいる場合には、一の人物の特徴（姿勢、仕草、動線、滞在場所、等）が他の人物に依存して変わることがある。例えば、他の人物に特定の人物（父、母、兄、弟、姉、妹、上司、部下、等）が含まれている場合とそうでない場合との間で、一の人物の姿勢や仕草が異なることがある。そのため、他の人物の識別結果を考慮することにより、一の人物をより高精度に識別できる。

　なお、本発明は、上記構成ないし機能の少なくとも一部を有する情報処理システムとして捉えることができる。また、本発明は、上記処理の少なくとも一部を含む、情報処理方法又は情報処理システムの制御方法や、これらの方法をコンピュータに実行させるためのプログラム、又は、そのようなプログラムを非一時的に記録したコンピュータ読取可能な記録媒体として捉えることもできる。上記構成及び処理の各々は技術的な矛盾が生じない限り互いに組み合わせて本発明を構成することができる。

　本発明によれば、顔が撮像されていない場合でも撮像された画像に写っている人物を識別できる。

図１は、本発明が適用された情報処理装置の構成例を示すブロック図である。図２は、第１の実施形態に係る情報処理システムの構成例を示すブロック図である。図３は、第１の実施形態に係る情報処理装置の処理フロー例を示すフローチャートである。図４は、第１の実施形態に係る監視カメラによって撮像された画像の一例を示す図である。図５は、第１の実施形態に係る姿勢の違いの一例を示す図である。図６は、第１の実施形態に係る参照情報の一例を示す図である。図７は、第２の実施形態に係るコミュニケーションロボットの構成例を示すブロック図である。図８は、第３の実施形態に係る情報処理装置の処理フロー例を示すフローチャートである。図９Ａは、第３の実施形態に係る参照情報の一例を示す図であり、図９Ｂは、第３の実施形態に係るマスク画像によって示されたシルエットの一例を示す図である。図１０は、第３の実施形態に係るシルエット画像とマスク画像の一例を示す図である。図１１は、第４の実施形態に係る情報処理装置の処理フロー例を示すフローチャートである。図１２は、第４の実施形態に係る滞在マップ（特徴情報）の一例を示す図である。図１３Ａは、第４の実施形態に係る参照情報の一例を示す図であり、図１３Ｂは、第４の実施形態に係る滞在マップ（参照情報）の一例を示す図である。図１４は、本発明の変形例に係る動線の一例を示す図である。図１５は、第５の実施形態に係る情報処理装置の処理フロー例を示すフローチャートである。図１６は、第６の実施形態に係る情報処理装置の処理フロー例を示すフローチャートである。図１７は、第６の実施形態に係る参照情報の一例を示す図である。

　＜適用例＞
　本発明の適用例について説明する。撮像された画像に写っている人物を識別する従来技術では、撮像された画像から人物の顔特徴量が取得され、取得した顔特徴量から当該人物が識別される。識別結果をドアの施解錠などのために利用する場合には、人物がカメラに対して積極的に顔を向けるため、撮像された画像から当該人物の正確な顔特徴量が得られる。しかしながら、識別結果が他の目的で利用される場合には、人物がカメラに対して顔を向けないことがあり、撮像された画像から当該人物の正確な顔特徴量が得られないことがある。そのため、上記従来技術では、人物を高精度に識別できないことがある。

　図１は、本発明が適用された情報処理装置１００の構成例を示すブロック図である。情報処理装置１００は、画像入力部１０１、制御部１０２、記憶部１０３、及び、出力部１０４を有する。制御部１０２は、情報取得部１１１と識別部１１２を有する。

　画像入力部１０１は、撮像された画像（画像データ）を取得する。例えば、画像入力部１０１は、画像データが入力される入力端子である。画像入力部１０１は、本発明の画像取得手段の一例である。

　制御部１０２は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、等を含み、各種情報処理や各構成要素の制御を行う。

　情報取得部１１１は、画像入力部１０１によって取得された画像から、当該画像に写っている人物の姿勢、仕草、シルエット、動線、及び、滞在場所の少なくともいずれかを当該人物の特徴として示す特徴情報を取得する。情報取得部１１１は、本発明の情報取得手段の一例である。

　識別部１１２は、情報取得部１１１によって取得された特徴情報に基づいて、画像入力部１０１によって取得された画像に写っている人物を識別する。識別部１１２は、本発明の識別手段の一例である。

　記憶部１０３は、制御部１０２で実行されるプログラム、制御部１０２で使用される各種データ、等を記憶する。例えば、記憶部１０３は、ハードディスクドライブ、ソリッドステートドライブ、等の補助記憶装置である。記憶部１０３は、本発明の記憶手段の一例である。

　出力部１０４は、識別部１１２の識別結果を、外部装置、情報処理装置１００の不図示の構成要素、等へ出力する。出力部１０４は、例えば、識別結果のデータを出力する出力端子である。

　情報処理装置１００の上記構成によれば、顔が撮像されていない場合でも撮像された画像に写っている人物を識別できる。具体的には、撮像された画像に写っている人物の姿勢、仕草、シルエット、動線、滞在場所、等は、当該人物の顔が撮像されていなくても取得できる。そして、それらの特徴は人物固有のものであるため、それらの特徴から人物を識別できる。

　＜第１の実施形態＞
　本発明の第１の実施形態について説明する。従業員や住人（住民）などを管理したり、職場、地域、家庭、等におけるセキュリティを向上させたりするために、監視カメラが利用されることがある。人物が監視カメラに対して顔を向けることは少ない。第１の実施形態では、監視カメラによって撮像された画像に写っている人物を識別する例を説明する。

　図２は、第１の実施形態に係る情報処理システムの構成例を示すブロック図である。図２の情報処理システムでは、図１の情報処理装置１００に監視カメラ２００と管理装置３００とが接続されている。監視カメラ２００と管理装置３００の少なくとも一方は情報処理装置１００の一部であってもよい。

　監視カメラ２００は、撮像を行い、撮像した画像を情報処理装置１００へ出力する撮像装置である。監視カメラ２００の撮像範囲は、固定であってもよいし、変化してもよい。情報処理装置１００の画像入力部１０１には、監視カメラ２００によって撮像された画像が入力される。監視カメラ２００によって撮像された画像が画像入力部１０１に入力されると、当該画像に写っている人物が、情報処理装置１００の制御部１０２（情報取得部１１１と識別部１１２）の処理によって識別される。そして、情報処理装置１００の出力部１０４が、制御部１０２（識別部１１２）の識別結果を、管理装置３００へ出力する。管理装置３００は、情報処理装置１００から出力された識別結果を用いて各種処理を行う。例えば、管理装置３００は、所定期間における複数の識別結果の統計データを生成したり、統計データや識別結果を管理者（管理装置３００のユーザ）に通知したりする。管理者への通知は、例えば、液晶モニタなどの表示部を用いた画面表示、スピーカを用いた音声出力、等によって実現される。第１の実施形態では、情報取得部１１１は、姿勢と仕草を示す特徴情報を取得する。

　図３は、第１の実施形態に係る情報処理装置１００の処理フロー例を示すフローチャートである。

　まず、画像入力部１０１が、監視カメラ２００によって撮像された画像を監視カメラ２００から取得する（ステップＳ３０１）。図４は、監視カメラ２００によって撮像された画像の一例を示す。図４では、監視カメラ２００によって撮像された画像４００に人物４０１が写っている。

　次に、情報取得部１１１が、ステップＳ３０１で取得された画像から、当該画像に写っている人物の骨格を示す骨格情報を取得する（ステップＳ３０２）。骨格情報は、例えば、ＯｐｅｎＰｏｓｅなどを使って取得される。骨格情報は、人体を示す情報でもあるし、人体の部位（頭、首、肩、肘、手、腰、膝、足首、目、耳、指先、等）を示す情報でもある。そのため、骨格情報の取得は「人体検出」や「部位検出」などとも言える。図４では、画像４００から、人物４０１の骨格（骨格情報）４０２が検出されている。

　そして、情報取得部１１１が、ステップＳ３０２で取得された骨格情報に基づいて、ステップＳ３０１で取得された画像に写っている人物の姿勢と仕草を検出する（ステップＳ３０３，Ｓ３０４）。ステップＳ３０３の検出結果（姿勢）とステップＳ３０４の検出結果（仕草）との組み合わせが、ステップＳ３０１で取得された画像に写っている人物の特徴情報である。ステップＳ３０３の処理（姿勢検出）とステップＳ３０４の処理（仕草検出）とは、並列に行われてもよいし、順番に行われてもよい。姿勢検出と仕草検出の順番は特に限定されない。

　ステップＳ３０３では、姿勢の検出結果として、例えば、直立、猫背、Ｏ脚、Ｘ脚、等を示す情報が得られる。図５に示すように、猫背の場合と正常の場合との間で、骨格の形状は異なる。このように、骨格の形状は姿勢に依存する。そのため、骨格情報に基づいて、骨格の形状から姿勢を検出できる。

　ステップＳ３０４では、仕草の検出結果として、例えば、歩行、屈伸、寝転び、腕組み、等を示す情報が得られる。腕組みの場合と腕組みでない場合との間で、上腕と前腕の間の位置関係などは異なる。このように、各部位の位置関係は仕草に依存する。そのため、骨格情報に基づいて、各部位の位置関係から仕草を検出できる。歩行や屈伸などの動きを伴う仕草は、互いに異なる時間に撮像された複数の画像にそれぞれ対応する複数の骨格情報を用いて検出されてもよい。歩行については、歩幅と肩幅の比率を示す情報が得られてもよい。

　なお、骨格情報を用いない他の方法で姿勢や仕草が検出されてもよい。例えば、パターンマッチングなどを用いた姿勢検出や仕草検出が行われてもよい。

　次に、識別部１１２が、ステップＳ３０３，Ｓ３０４の処理によって得られた特徴情報に基づいて、ステップＳ３０１で取得された画像に写っている人物を識別する（ステップＳ３０５）。例えば、記憶部１０３は、複数の人物のそれぞれについて、その人物の特徴を示す参照情報を予め記憶する。そして、識別部１１２は、特徴情報と各参照情報を比較して、画像に写っている人物を識別する。参照情報は、情報処理装置１００に対して手動で登録されてもよいし、監視カメラ２００によって撮像された画像を用いて自動で登録されてもよい。

　図６は、第１の実施形態に係る参照情報の一例を示す。図６では、参照情報６０１～６０３が予め登録されている。参照情報６０１は、「Ａさん」の特徴として、「姿勢（背）：正常」、「姿勢（脚）：正常」、及び、「歩幅比（肩幅を１とした時の歩幅の比率）：１．５」を示す。参照情報６０２は、「Ｂさん」の特徴として、「姿勢（背）：猫背」、「姿勢（脚）：Ｏ脚」、及び、「歩幅比：１．３」を示す。そして、参照情報６０３は、「Ｃさん」の特徴として、「姿勢（背）：猫背」、「姿勢（脚）：Ｏ脚」、及び、「歩幅比：１．０」を示す。

　ここで、参照情報６０１～６０３が予め登録されており、且つ、ステップＳ３０３，Ｓ３０４の処理によって「姿勢（背）：正常」、「姿勢（脚）：正常」、及び、「歩幅比：１．４」を示す特徴情報が取得された場合を考える。この場合には、参照情報６０１～６０３のうち特徴情報に最も類似する情報は参照情報６０１である。そのため、識別部１１２は、ステップＳ３０１で取得された画像に写っている人物が「Ａさん」であると判定する。

　次に、出力部１０４が、ステップＳ３０５の識別結果を管理装置３００へ出力する（ステップＳ３０６）。

　以上述べたように、第１の実施形態によれば、監視カメラによって顔が撮像されていない場合でも、監視カメラによって撮像された画像に写っている人物の姿勢と仕草を示す特徴情報に基づいて、当該人物を識別できる。

　＜第２の実施形態＞
　本発明の第２の実施形態について説明する。ユーザ（従業員、顧客、住人、等）に有意義な情報を提供したり、ユーザとの会話を行ったりするコミュニケーションロボットでは、ユーザとの適切なコミュニケーションのために、ユーザの識別が行われることが好ましい。例えば、コミュニケーションロボットは、自身の撮像部で撮像された画像から人物の顔特徴量を取得し、取得した顔特徴量から当該人物を識別する。

　しかしながら、識別前に人物がコミュニケーションロボット（撮像部）に対して顔を向けるとは限らない。特に、コミュニケーションロボットが自発的にユーザとコミュニケーションをとる場合には、当該ユーザが識別前にコミュニケーションロボットに対して顔を向ける可能性は低い。また、遺伝などの影響により、家族における人物間で顔が似ていることがある。そのため、家族における或る人物がコミュニケーションロボットに対して顔を向けており、当該人物の正確な顔特徴量が得られたとしても、コミュニケーションロボットは、当該人物を顔特徴量から特定できないことがある。

　第２の実施形態では、コミュニケーションロボットに本発明を適用した例を説明する。

　図７は、第２の実施形態に係るロボット（コミュニケーションロボット）７００の構成例を示すブロック図である。ロボット７００は、撮像部７０１、画像入力部１０１、制御部１０２、記憶部１０３、出力部１０４、及び、コミュニケーション部７０２を有する。制御部１０２は、情報取得部１１１と識別部１１２を有する。

　撮像部７０１は、撮像を行い、撮像した画像を画像入力部１０１へ出力する。例えば、撮像部７０１は、ＣＣＤやＣＭＯＳセンサなどの撮像センサである。画像入力部１０１、制御部１０２、記憶部１０３、及び、出力部１０４については、第１の実施形態で述べたとおりである。但し、画像入力部１０１は、撮像部７０１によって撮像された画像を撮像部７０１から取得し、出力部１０４は、識別結果をコミュニケーション部７０２へ出力する。コミュニケーション部７０２は、出力部１０４から出力された識別結果に基づいて、撮像部７０１によって撮像された画像に写っている人物とのコミュニケーションのための処理を行う。例えば、コミュニケーション部７０２は、液晶モニタなどの表示部、スピーカ、等を含む。そして、コミュニケーション部７０２は、識別結果の人物への情報の提供、識別結果の人物との会話、等のために、識別結果に基づいて、液晶モニタなどの表示部を用いた画面表示、スピーカを用いた音声出力、等を行う。

　ロボット７００の処理フロー例は、第１の実施形態（図３）と同様である。但し、ステップＳ３０１にて、画像入力部１０１は、撮像部７０１によって撮像された画像を撮像部７０１から取得する。ステップＳ３０６にて、出力部１０４は、ステップＳ３０５の識別結果をコミュニケーション部７０２へ出力する。

　以上述べたように、第２の実施形態によれば、コミュニケーションロボットにおいて、顔が撮像されていない場合でも、撮像された画像に写っている人物の姿勢と仕草を示す特徴情報に基づいて、当該人物を識別できる。また、実年齢の差や精神年齢の差などにより、家族における人物間であっても姿勢や仕草が異なる可能性は高い。そのため、姿勢や仕草を考慮することにより、家族における各人物も高精度に特定できる。同様に、家族における人物間であってもシルエット、動線、滞在場所、等が異なる可能性は高い。シルエット、動線、滞在場所、等を考慮する例については後述する。

　＜第３の実施形態＞
　本発明の第３の実施形態について説明する。第１および第２の実施形態では、姿勢と仕草を示す特徴情報が取得される例を説明した。第３の実施形態では、撮像された画像に写っている人物のシルエットをさらに示す特徴情報を取得する例を説明する。

　第３の実施形態に係る情報処理装置の構成は、第１の実施形態に係る情報処理装置１００の構成（図１，２）、または、第２の実施形態に係るロボット７００の構成（図７）と同様である。

　図８は、第３の実施形態に係る情報処理装置の処理フロー例を示すフローチャートである。

　まず、第１の実施形態や第２の実施形態と同様に、画像入力部１０１が、撮像された画像を取得し（ステップＳ３０１）、情報取得部１１１が、骨格情報を取得する（ステップＳ３０２）。

　次に、情報取得部１１１が、ステップＳ３０１で取得された画像やステップＳ３０２で取得された骨格情報に基づいて、ステップＳ３０１で取得された画像に写っている人物の姿勢、仕草、及び、シルエットを検出する（ステップＳ３０３，Ｓ３０４，Ｓ８００）。ステップＳ３０３の検出結果（姿勢）、ステップＳ３０４の検出結果（仕草）、及び、ステップＳ８００の検出結果（シルエット）の組み合わせが、ステップＳ３０１で取得された画像に写っている人物の特徴情報である。ステップＳ３０３の処理（姿勢検出）、ステップＳ３０４の処理（仕草検出）、及び、ステップＳ８００の処理（シルエット検出）は、並列に行われてもよいし、順番に行われてもよい。姿勢検出、仕草検出、及び、シルエット検出の順番は特に限定されない。

　ステップＳ３０３の処理（姿勢検出）とステップＳ３０４の処理（仕草検出）とについては、第１の実施形態で述べたとおりである。ステップＳ８００では、例えば、Ｍａｓｋ　Ｒ－ＣＮＮなどを使って画像から人物のシルエットが検出される。

　次に、第１の実施形態や第２の実施形態と同様に、識別部１１２が、得られた特徴情報（具体的には、ステップＳ３０３，Ｓ３０４，Ｓ８００の処理によって得られた特徴情報）に基づいて、ステップＳ３０１で取得された画像に写っている人物を識別する（ステップＳ３０５）。

　図９Ａは、第３の実施形態に係る参照情報の一例を示す。図９Ａでは、参照情報９０１～９０３が予め登録されている。参照情報９０１は、「Ａさん」の特徴として、「姿勢（背）：正常」、「歩幅比：１．５」、及び、「マスク画像：Ｉ１」を示す。参照情報９０２は、「Ｂさん」の特徴として、「姿勢（背）：猫背」、「歩幅比：１．３」、及び、「マスク画像：Ｉ２」を示す。そして、参照情報９０３は、「Ｃさん」の特徴として、「姿勢（背）：猫背」、「歩幅比：１．３」、及び、「マスク画像：Ｉ３」を示す。

　マスク画像Ｉ１～Ｉ３はシルエットを示す画像である。図９Ｂは、マスク画像Ｉ１～Ｉ３に対応するシルエットの一例を示す。「Ａさん」、「Ｂさん」、及び、「Ｃさん」は、体型が互いに異なる。そのため、図９Ｂに示すように、マスク画像Ｉ１～Ｉ３の間でシルエットが異なる。

　ここで、参照情報９０１～９０３が予め登録されており、且つ、ステップＳ３０３，Ｓ３０４，Ｓ８００の処理によって「姿勢（背）：猫背」、「歩幅比：１．３」、及び、「シルエット画像：Ｉｐ」を示す特徴情報が取得された場合を考える。シルエット画像は、ステップＳ８００で検出されたシルエットを示す画像である。この場合には、「姿勢（背）：猫背」と「歩幅比：１．３」は、参照情報９０２，９０３のそれらと一致する。そのため、特徴情報の「姿勢（背）：猫背」と「歩幅比：１．３」からでは、ステップＳ３０１で取得された画像に写っている人物が「Ｂさん」であるか「Ｃさん」であるかを判別できない。

　第３の実施形態では、例えば、識別部１１２は、特徴情報のシルエット画像Ｉｐを、参照情報９０２のマスク画像Ｉ２や参照情報９０３のマスク画像Ｉ３と比較する。それにより、識別部１１２は、ステップＳ８００で検出されたシルエットと「Ｃさん」のシルエットとの類似度よりも、検出されたシルエットと「Ｂさん」のシルエットとの類似度が高いと判定できる。その結果、識別部１１２は、ステップＳ３０１で取得された画像に写っている人物が「Ｂさん」であると判定できる。このように、第３の実施形態では、シルエットをさらに考慮することで、姿勢と仕草のみを考慮しても識別できない人物が識別可能となる。

　なお、人物のシルエットのサイズは、カメラ（撮像部）と当該人物との距離に依存する。そのため、検出されたシルエットがサイズの正規化が施されてシルエット画像が生成されたり、サイズの正規化が施されたシルエットに対応するマスク画像が予め用意されたりする。シルエットは、例えば、頭の先から足先までのサイズが所定値となるように正規化される。

　シルエットの類似度の取得方法例をより詳細に説明する。図１０は、シルエット画像とマスク画像の一例を示す。図１０には腕の一部に対応するマスク画像が示されているが、マスク画像は、人物の全体に対応する画像であってもよいし、人物の一部に対応する画像であってもよい。図１０に示すように、マスク画像は複数の領域（複数のシルエット判定領域）からなる。マスク画像によって示されたシルエットに対応するシルエット判定領域には、当該シルエットに対応する属性「１」が割り当てられている。そして、マスク画像によって示された背景に対応するシルエット判定領域には、当該背景に対応する属性「０」が割り当てられている。

　識別部１１２は、シルエット判定領域ごとに、シルエット画像の属性（シルエット／背景）が、マスク画像の属性（１／０；シルエット／背景）と一致するか否かを判定する。そして、識別部１１２は、シルエット判定領域の総数に対する一致領域（一致すると判定されたシルエット判定領域）の総数の比率、一致領域の総数、等を、シルエットの類似度として算出する。

　なお、シルエット判定領域のサイズは特に限定されない。シルエット判定領域は、１画素の領域であってよいし、複数の画素分の領域であってもよい。シルエット判定領域が複数の画素分の領域である場合には、当該シルエット判定領域に、シルエット画像によって示されたシルエットと背景の両方が含まれることがある。その場合には、シルエット判定領域におけるシルエット（シルエット画像によって示されたシルエット）のサイズなどに基づいて、当該シルエット判定領域におけるシルエット画像の属性を判定してもよい。例えば、シルエット画像によって示されたシルエットのサイズが閾値以上であるシルエット判定領域に対して、シルエット画像の属性「シルエット」を取得し、そうでないシルエット判定領域に対して、シルエット画像の属性「背景」を取得してもよい。

　次に、第１の実施形態や第２の実施形態と同様に、出力部１０４が、ステップＳ３０５の識別結果を出力する（ステップＳ３０６）。

　以上述べたように、第３の実施形態によれば、シルエットをさらに示す特徴情報を用いることにより、第１の実施形態や第２の実施形態よりも高精度に人物を識別できる。

　＜第４の実施形態＞
　本発明の第４の実施形態について説明する。第４の実施形態では、撮像された画像に写っている人物の姿勢、仕草、及び、滞在場所を示す特徴情報を取得する例を説明する。

　第４の実施形態に係る情報処理装置の構成は、第１の実施形態に係る情報処理装置１００の構成（図１，２）、または、第２の実施形態に係るロボット７００の構成（図７）と同様である。

　図１１は、第４の実施形態に係る情報処理装置の処理フロー例を示すフローチャートである。

　次に、情報取得部１１１が、ステップＳ３０２で取得された骨格情報に基づいて、ステップＳ３０１で取得された画像に写っている人物の姿勢、仕草、及び、滞在場所を検出する（ステップＳ３０３，Ｓ３０４，Ｓ１１００）。ステップＳ３０３の検出結果（姿勢）、ステップＳ３０４の検出結果（仕草）、及び、ステップＳ１１００の検出結果（滞在場所）の組み合わせが、ステップＳ３０１で取得された画像に写っている人物の特徴情報である。ステップＳ３０３の処理（姿勢検出）、ステップＳ３０４の処理（仕草検出）、及び、ステップＳ１１００の処理（滞在場所検出）は、並列に行われてもよいし、順番に行われてもよい。姿勢検出、仕草検出、及び、滞在場所検出の順番は特に限定されない。

　ステップＳ３０３の処理（姿勢検出）とステップＳ３０４の処理（仕草検出）とについては、第１の実施形態で述べたとおりである。ステップＳ１１００では、情報取得部１１１は、例えば、骨格情報によって示された骨格の位置（人物の位置；人物位置）などに基づいて人物の滞在場所を検出する。具体的には、撮像範囲を構成する複数の滞在判定領域が予め定められている。情報取得部１１１は、過去数分間などの所定期間における人物位置の時間変化に基づいて、当該所定期間の長さに対する滞在時間の比率（滞在率）を、滞在判定領域ごとに算出する。それにより、滞在場所の検出結果として、各滞在判定領域の滞在率を示す滞在マップ（ヒートマップ）が得られる。例えば、図１２に示す滞在マップＭｐが得られる。

　次に、第１の実施形態や第２の実施形態と同様に、識別部１１２が、得られた特徴情報（具体的には、ステップＳ３０３，Ｓ３０４，Ｓ１１００の処理によって得られた特徴情報）に基づいて、ステップＳ３０１で取得された画像に写っている人物を識別する（ステップＳ３０５）。

　図１３Ａは、第４の実施形態に係る参照情報の一例を示す。図１３Ａでは、参照情報１３０１～１３０３が予め登録されている。参照情報１３０１は、「父」の特徴として、「姿勢（背）：正常」、「歩幅比：１．５」、及び、「滞在マップ：Ｍ１」を示す。参照情報１３０２は、「母」の特徴として、「姿勢（背）：猫背」、「歩幅比：１．３」、及び、「滞在マップ：Ｍ２」を示す。そして、参照情報１３０３は、「姉」の特徴として、「姿勢（背）：猫背」、「歩幅比：１．３」、及び、「滞在マップ：Ｍ３」を示す。

　参照情報１３０１～１３０３の滞在マップＭ１～Ｍ３は、例えば、過去１ヶ月などの所定期間での滞在率を示す。図１３Ｂは、滞在マップＭ１～Ｍ３の一例を示す。例えば、父はリビングの通路寄りにいることが多く、母は台所にいることが多く、姉はリビングの壁寄りにいることが多い、等のように、滞在場所（滞在率）は人物に依存する。そのため、図１３Ｂに示すように、滞在マップＭ１～Ｍ３の間で滞在率の分布が異なる。

　ここで、参照情報１３０１～１３０３が予め登録されており、且つ、ステップＳ３０３，Ｓ３０４，Ｓ１１００の処理によって「姿勢（背）：猫背」、「歩幅比：１．３」、及び、「滞在マップ：Ｍｐ（図１２）」を示す特徴情報が取得された場合を考える。この場合には、「姿勢（背）：猫背」と「歩幅比：１．３」は、参照情報１３０２，１３０３のそれらと一致する。そのため、特徴情報の「姿勢（背）：猫背」と「歩幅比：１．３」からでは、ステップＳ３０１で取得された画像に写っている人物が「母」であるか「姉」であるかを判別できない。

　第４の実施形態では、例えば、識別部１１２は、特徴情報の滞在マップＭｐを、参照情報１３０２（母）の滞在マップＭ２や参照情報１３０３（姉）の滞在マップＭ３と比較する。それにより、識別部１１２は、滞在マップＭｐと「母」の滞在マップＭ２との類似度よりも、滞在マップＭｐと「姉」の滞在マップＭ３との類似度が高いと判定できる。その結果、識別部１１２は、ステップＳ３０１で取得された画像に写っている人物が「姉」であると判定できる。このように、第４の実施形態では、姿勢や仕草に加え滞在場所をさらに考慮することで、姿勢と仕草のみを考慮しても識別できない人物が識別可能となる。

　なお、滞在場所に関する処理は上記処理に限られない。例えば、ステップＳ１１００にて、情報取得部１１１は、滞在率が最も高い滞在判定領域を滞在場所として検出してもよい。参照情報では、滞在率が最も高い滞在判定領域や、ユーザによって指定された滞在判定領域などが、滞在場所として示されていてもよい。そして、ステップＳ３０５にて、識別部１１２は、ステップＳ１１００で検出された滞在場所と参照情報の滞在場所との一致／不一致を判定してもよい。

　以上述べたように、第４の実施形態によれば、姿勢や仕草に加え滞在場所をさらに示す特徴情報を用いることにより、第１の実施形態や第２の実施形態よりも高精度に人物を識別できる。

　なお、人物の動線（移動経路）を考慮してもよい。動線は、例えば、滞在マップと同様の方法で検出される。図１４は、父、母、及び、姉の動線の一例を示す。滞在場所（滞在率）が人物に依存するのと同様に、動線も人物に依存する。そのため、図１４に示すように、父、母、及び、姉の間で動線が異なる。

　＜第５の実施形態＞
　本発明の第５の実施形態について説明する。第５の実施形態では、撮像された画像に写っている人物の姿勢、仕草、シルエット、及び、滞在場所を示す特徴情報を取得する例を説明する。即ち、第５の実施形態では、第３の実施形態と第４の実施形態との組み合わせの例を説明する。

　第５の実施形態に係る情報処理装置の構成は、第１の実施形態に係る情報処理装置１００の構成（図１，２）、または、第２の実施形態に係るロボット７００の構成（図７）と同様である。

　図１５は、第５の実施形態に係る情報処理装置の処理フロー例を示すフローチャートである。

　次に、情報取得部１１１が、ステップＳ３０２で取得された骨格情報に基づいて、ステップＳ３０１で取得された画像に写っている人物の姿勢、仕草、シルエット、及び、滞在場所を検出する（ステップＳ３０３，Ｓ３０４，Ｓ８００，Ｓ１１００）。ステップＳ３０３の検出結果（姿勢）、ステップＳ３０４の検出結果（仕草）、ステップＳ８００の検出結果（シルエット）、及び、ステップＳ１１００の検出結果（滞在場所）の組み合わせが、ステップＳ３０１で取得された画像に写っている人物の特徴情報である。ステップＳ３０３の処理（姿勢検出）、ステップＳ３０４の処理（仕草検出）、ステップＳ８００の処理（シルエット検出）、及び、ステップＳ１１００の処理（滞在場所検出）は、並列に行われてもよいし、順番に行われてもよい。姿勢検出、仕草検出、シルエット検出、及び、滞在場所検出の順番は特に限定されない。

　ステップＳ３０３の処理（姿勢検出）とステップＳ３０４の処理（仕草検出）とについては、第１の実施形態で述べたとおりである。ステップＳ８００の処理（シルエット検出）については、第３の実施形態で述べたとおりである。ステップＳ１１００の処理（滞在場所検出）については、第４の実施形態で述べたとおりである。

　次に、第１の実施形態や第２の実施形態と同様に、識別部１１２が、得られた特徴情報（具体的には、ステップＳ３０３，Ｓ３０４，Ｓ８００，Ｓ１１００の処理によって得られた特徴情報）に基づいて、ステップＳ３０１で取得された画像に写っている人物を識別する（ステップＳ３０５）。

　第３の実施形態で述べたように、姿勢と仕草に加えシルエットをさらに考慮することで、人物の識別精度が向上する。そして、第４の実施形態で述べたように、姿勢と仕草に加え滞在場所をさらに考慮することでも、人物の識別精度が向上する。そのため、姿勢と仕草に加えシルエットと滞在場所の両方をさらに考慮することで、第３の実施形態や第４の実施形態よりも高精度に人物を識別できる。例えば、姿勢、仕草、シルエット、及び、滞在場所のうちのいずれかに基づく識別に成功できなくても、姿勢、仕草、シルエット、及び、滞在場所のうちの残りに基づく識別に成功できればよい。そのため、識別に成功する確率が増す。

　以上述べたように、第５の実施形態によれば、姿勢、仕草、シルエット、及び、滞在場所を示す特徴情報を用いることにより、第１～第４の実施形態よりも高精度に人物を識別できる。

　＜第６の実施形態＞
　本発明の第６の実施形態について説明する。第６の実施形態では、撮像された画像に２人以上の人物が写っている場合の例を説明する。

　第６の実施形態に係る情報処理装置の構成は、第１の実施形態に係る情報処理装置１００の構成（図１，２）、または、第２の実施形態に係るロボット７００の構成（図７）と同様である。

　図１６は、第６の実施形態に係る情報処理装置の処理フロー例を示すフローチャートである。

　まず、第１の実施形態や第２の実施形態と同様に、画像入力部１０１が、撮像された画像を取得し（ステップＳ３０１）、情報取得部１１１が、骨格情報を取得する（ステップＳ３０２）。撮像された画像に２人以上の人物が写っている場合には、各人物の骨格情報が取得される。

　次に、第１～第５の実施形態と同様に、情報取得部１１１が、ステップＳ３０２で取得された骨格情報に基づいて特徴情報を取得する（ステップＳ１６０１）。ステップＳ１６０１では、例えば、図１５のステップＳ３０３，Ｓ３０４，Ｓ８００，Ｓ１１００などの処理が行われる。撮像された画像に２人以上の人物が写っている場合には、各人物の特徴情報が取得される。

　そして、第１～第５の実施形態と同様に、識別部１１２が、ステップＳ１６０１で取得された特徴情報に基づいて、ステップＳ３０１で取得された画像に写っている人物を識別する（ステップＳ３０５）。撮像された画像に２人以上の人物が写っている場合には、各人物の識別が行われる。ステップＳ３０５では、複数の人物にそれぞれ対応する複数の参照情報が１つの特徴情報に類似することなどによって、当該特徴情報に対応する人物を識別できないことがある。ここでは、撮像された画像に写っている２人以上の人物のうちの一部の人物のみが、ステップＳ３０５で識別され、当該２人以上の人物のうちの残りの人物が識別されなかったとする。残りの人物は、ステップＳ３０５で識別に失敗した人物であってもよいし、ステップＳ３０５で識別の対象とされなかった人物であってもよい。

　次に、識別部１１２が、上記残りの人物に対応する特徴情報（ステップＳ１６０１で取得された特徴情報）と、上記一部の人物の識別結果（ステップＳ３０５の識別結果）とに基づいて、当該残りの人物を識別する（ステップＳ１６０２）。例えば、記憶部１０３は、複数の人物のそれぞれについて、その人物と他の人物との２つ以上の組み合わせにそれぞれ対応する２つ以上の参照情報を予め記憶する。そして、識別部１１２は、上記残りの人物に対応する特徴情報と、上記一部の人物との組み合わせに対応する各参照情報とを比較して、当該残りの人物を識別する。

　図１７は、第６の実施形態に係る参照情報の一例を示す。ここでは、図１７の参照情報１７０１～１７１３が予め登録されており、且つ、ステップＳ１６０１において２人の人物Ａ，Ｂの特徴情報が取得されたとする。人物Ａの特徴情報は、「姿勢（背）：正常」、「歩幅比：１．５」、及び、「滞在マップ：Ｍ１」を示し、人物Ｂの特徴情報は、「姿勢（背）：猫背」、「歩幅比：１．３」、及び、「滞在マップ：Ｍ２」を示す。

　この場合には、人物Ａの特徴情報は「父」の参照情報１７０１～１７０４に類似するため、ステップＳ３０５にて、人物Ａが「父」であると判定できる。一方で、人物Ｂの特徴情報は、「母」の参照情報１７０５～１７０９と、「姉」の参照情報１７１０とに類似するため、ステップＳ３０５にて、人物Ｂが「母」であるか「姉」であるかを判別できない。

　第３の実施形態では、ステップＳ３０５で人物Ａが「父」であると判定されると、ステップＳ１６０２では、参照情報１７０１～１７１３のうち、「父」と一緒の「母」の参照情報１７０６と、「父」と一緒の「姉」の参照情報１７１１とが参照されることになる。人物Ｂの特徴情報は、「姉」の参照情報１７１１よりも「母」の参照情報１７０６に類似しているため、ステップＳ１６０２にて、人物Ｂが「母」であると判定できる。

　なお、図１７には、一緒の人物に依存して滞在場所（滞在マップ）が変わる例が示されているが、一緒の人物に依存して姿勢、仕草、動線、等が変わることもある。

　次に、第１～第５の実施形態と同様に、出力部１０４が、ステップＳ３０５，Ｓ１６０２の識別結果を出力する（ステップＳ３０６）。

　以上述べたように、第６の実施形態によれば、特徴情報に基づいて識別された人物を考慮することで、第１～第５の実施形態よりも高精度に他の人物を識別できる。例えば、特徴情報に基づいて識別された人物を考慮することで、識別できなかった人物が識別できるようになる。

　＜その他＞
　上述した各実施形態は、本発明の例示に過ぎない。本発明は上記の具体的な形態に限定されることはなく、その技術的思想の範囲内で種々の変形が可能である。上述した各構成、以下で述べる各構成、等を適宜組み合わせることも可能である。例えば、姿勢、仕草、シルエット、動線、及び、滞在場所のうちの少なくともいずれかが特徴情報によって示されれば、特徴情報によって示される特徴は特に限定されない。例えば、特徴情報は、姿勢、仕草、シルエット、動線、及び、滞在場所のうちの１つ、２つ、３つ、４つ、または、５つを示す。特徴情報は、姿勢、仕草、シルエット、動線、及び、滞在場所とは異なる特徴を示してもよい。参照情報についても同様である。

　＜付記＞
　撮像された画像を取得する画像取得手段（１０１）と、
　前記画像から、当該画像に写っている人物の姿勢、仕草、シルエット、動線、及び、滞在場所の少なくともいずれかを当該人物の特徴として示す特徴情報を取得する情報取得手段（１１１）と、
　前記特徴情報に基づいて、前記人物を識別する識別手段（１１２）と、を有することを特徴とする情報処理装置（１００）。

　１００：情報処理装置　１０１：画像入力部　１０２：制御部　１０３：記憶部　１０４：出力部　１１１：情報取得部　１１２：識別部
　２００：監視カメラ　３００：管理装置
　７００：コミュニケーションロボット　７０１：撮像部　７０２：コミュニケーション部
　４００：画像　４０１：人物　４０２：骨格（骨格情報）
　６０１～６０３，９０１～９０３：参照情報
　１３０１～１３０３，１７０１～１７１３：参照情報
　Ｉ１～Ｉ３，Ｉｐ：マスク画像
　Ｍ１～Ｍ３，Ｍｐ：滞在マップ（ヒートマップ）

Claims

　撮像された画像を取得する画像取得手段と、
　前記画像から、当該画像に写っている人物の姿勢、仕草、シルエット、動線、及び、滞在場所の少なくともいずれかを当該人物の特徴として示す特徴情報を取得する情報取得手段と、
　前記特徴情報に基づいて、前記人物を識別する識別手段と、
を有することを特徴とする情報処理装置。
　前記情報取得手段は、前記人物の骨格を示す骨格情報を前記画像から取得し、当該骨格情報に基づいて前記特徴情報を取得する
ことを特徴とする請求項１に記載の情報処理装置。
　複数の人物のそれぞれについて、その人物の特徴を示す参照情報を記憶する記憶手段をさらに有し、
　前記識別手段は、前記特徴情報と各参照情報を比較して、前記画像に写っている前記人物を識別する
ことを特徴とする請求項１または２に記載の情報処理装置。
　前記画像に２人以上の人物が写っている場合に、前記識別手段は、
　　前記２人以上の人物のうちの一部の人物を、その人物に対応する特徴情報に基づいて識別し、
　　前記２人以上の人物のうちの残りの人物を、その人物に対応する特徴情報と、前記一部の人物の識別結果とに基づいて識別する
ことを特徴とする請求項１～３のいずれか１項に記載の情報処理装置。
　前記記憶手段は、前記複数の人物のそれぞれについて、その人物と他の人物との２つ以上の組み合わせにそれぞれ対応する２つ以上の参照情報を記憶し、
　前記画像に２人以上の人物が写っている場合に、前記識別手段は、
　　前記２人以上の人物のうちの一部の人物を、その人物に対応する特徴情報と、前記各参照情報とを比較して識別し、
　　前記２人以上の人物のうちの残りの人物を、その人物に対応する特徴情報と、識別された前記一部の人物との組み合わせに対応する各参照情報とを比較して識別する
ことを特徴とする請求項３に記載の情報処理装置。
　前記画像を撮像する撮像手段、をさらに有する
ことを特徴とする請求項１～５のいずれか１項に記載の情報処理装置。