WO2015146102A1

WO2015146102A1 - 画像認識装置、画像認識方法、画像認識プログラムが記録された記録媒体、及び、画像認識システム

Info

Publication number: WO2015146102A1
Application number: PCT/JP2015/001567
Authority: WO
Inventors: 和之櫻井
Original assignee: 日本電気株式会社
Priority date: 2014-03-28
Filing date: 2015-03-20
Publication date: 2015-10-01
Also published as: JP6471746B2; JPWO2015146102A1

Abstract

　高精度にパラメタを算出可能な画像認識装置等が提供される。画像認識装置１０１は、カメラを用いて撮像された複数の画像２０１に像として含まれる地面からの距離が一定または略一定である物体を追跡する追跡部１０２と、追跡された物体に関して、複数の画像２０１のうち、複数の特定画像の位置及びサイズに基づき、カメラが画像を撮像する仰角を算出する算出部１０３とを有する。

Description

画像認識装置、画像認識方法、画像認識プログラムが記録された記録媒体、及び、画像認識システム

　本発明は、たとえば、カメラパラメタを算出可能な画像認識装置等に関する。

　非特許文献１や、特許文献１に開示されるように、カメラが受信する画像に基づき、該カメラの向き等を表すカメラパラメタを推定する技術が知られている。

　非特許文献１は、カメラパラメタを推定する画像認識システムを開示する。該画像認識システムは、受信した複数の画像について、それぞれ、人物と推定される人物領域を検出し、検出した人物領域に関して、頭頂の位置及び足元の位置を算出する。次に、該画像認識システムは、図１４に示すように、画像３１１に基づき、直線を用いて、頭頂の位置（及び、足元の位置）の軌跡を近似する。図１４は、非特許文献１に開示される画像認識システムが算出する軌跡の一例を表す図である。

　該画像認識システムは、人物３１２に関して、頭頂の軌跡３１３を表す直線と、足元の軌跡３１４を表す直線とを算出する。次に、該画像認識システムは、頭頂の軌跡３１３を表す直線と、足元の軌跡３１４を表す直線との交点の座標に基づき、カメラパラメタ３１５を算出する。

　特許文献１は、ランドマークの位置を固定することなく、カメラパラメタを推定することが可能なカメラパラメタ推定装置を開示する。該推定装置は、第１カメラを用いて撮像される第１画像に含まれるランドマークと、第２カメラを用いて撮像される第２画像に含まれるランドマークとの類似度を算出する。次に、該推定装置は、算出した類似度が高い場合に、第１カメラに関するカメラパラメタに基づき、該ランドマークの３次元座標を推定する。次に、該推定装置は、推定した３次元座標と、第２画像における該ランドマークの座標とに基づき、第２カメラに関するカメラパラメタを推定する。

特開２００９－１２４２０４号公報

Ｆｅｎｇｊｕｎ　Ｌｖ，　Ｔａｏ　Ｚｈａｏ　ａｎｄ　Ｎｅｖａｔｉａ　Ｒ，　"Ｓｅｌｆ－ｃａｌｉｂｒａｔｉｏｎ＿ｏｆ＿ａ＿ｃａｍｅｒａ＿ｆｒｏｍ＿ｖｉｄｅｏ＿ｏｆ＿ａ＿ｗａｌｋｉｎｇ＿ｈｕｍａｎ"，　ＩＥＥＥ　Ｐｒｏｃ．　ＩＣＰＲ　２００２，　Ｖｏｌ．１，　ｐｐ．　５６２－５６７，　２００２．

　しかし、非特許文献１に開示される画像認識システムによれば、算出されるカメラパラメタに関する精度が低い可能性が高い。

　この理由は、該画像認識システムが、複数の画像において、それぞれ検出される人物が、同一であるか否かを判定していないからである。この結果、該画像認識システムは、たとえば、直線を用いて、ある人物の頭頂の軌跡を近似する場合に、該人物と異なる人物の頭頂が混入する可能性がある。追跡する対象である人物の頭頂の高さが、該人物と異なる人物の頭頂の高さと異なることが多いので、別の人物が混入するデータの場合には、直線を用いて軌跡を近似することができない。したがって、この場合、該画像認識システムが算出するパラメタに関する精度は低い。

　そこで、本発明の主たる目的は、高精度にパラメタを算出可能な画像認識装置等を提供することである。

　前述の目的を達成するために、本発明の一態様において、画像認識装置は、
　カメラを用いて撮像された複数の画像に像として含まれる地面からの距離が一定または略一定である物体を追跡する追跡手段と、
　追跡された前記物体に関して、前記複数の画像のうち、複数の特定画像の位置及びサイズに基づき、前記カメラが前記画像を撮像する仰角を算出する算出手段と
　を備える。

　また、本発明の他の見地として、画像認識方法は、
　カメラにより撮像された複数の画像に像として含まれる地面からの距離が一定または略一定である物体を追跡し、追跡された前記物体に関して、前記複数の画像のうち、複数の特定画像の位置及びサイズに基づき、前記カメラが前記画像を撮像する仰角を算出する。

　さらに、同目的は、係る画像認識プログラム、および、そのプログラムを記録するコンピュータ読み取り可能な記録媒体によっても実現される。

　本発明に係る画像認識装置等によれば、高精度にパラメタを算出することができる。

本発明の第１の実施形態に係る画像認識装置が有する構成を示すブロック図である。第１の実施形態に係る画像認識装置における処理の流れを示すフローチャートである。追跡対象を人物の顔における目とする例を、２次元座標系の平面空間に表した図である。追跡対象を人物の顔における目とする例を、２次元座標系の平面空間に表した図である。第１の実施形態に係る画像認識システムが有する構成を表すブロック図である。本発明の第２の実施形態に係る画像認識装置が有する構成を示すブロック図である。第２の実施形態に係る画像認識装置における処理の流れを示すフローチャートである。本発明の第３の実施形態に係る画像認識装置が有する構成を示すブロック図である。第３の実施形態に係る画像認識装置における処理の流れを示すフローチャートである。本発明の第４の実施形態に係る画像認識装置が有する構成を示すブロック図である。第４の実施形態に係る画像認識装置における処理の流れを示すフローチャートである。第４の実施形態に係る画像認識装置における処理の流れの一例を示すフローチャートである。本発明の各実施形態に係る画像認識方法を実現可能な計算処理装置のハードウェア構成を、概略的に示すブロック図である。非特許文献１に開示される画像認識システムが算出する軌跡の一例を表す図である。

　次に、本発明を実施する実施形態について図面を参照しながら詳細に説明する。

　＜第１の実施形態＞
　本発明の第１の実施形態に係る画像認識装置１０１が有する構成と、画像認識装置１０１が行う処理とについて、図１と図２とを参照しながら詳細に説明する。図１は、本発明の第１の実施形態に係る画像認識装置１０１が有する構成を示すブロック図である。図２は、第１の実施形態に係る画像認識装置１０１における処理の流れを示すフローチャートである。

　第１の実施形態に係る画像認識装置１０１は、追跡部１０２と、算出部１０３とを有する。画像認識装置１０１は、さらに、検出部１０６を有してもよい。

　画像認識装置１０１は、画像２０１を受信する。画像認識装置１０１が受信する画像２０１は、フィルタや幾何変換等を行うことにより算出される画像であってもよい。

　追跡部１０２は、所定の追跡手順に従い、複数の画像に像（部分画像）として含まれる物体（以下、単に、「画像中の物体」と表す。）を、複数の画像に関して追跡する（ステップＳ１０１）。

　以降、ステップＳ１０１における算出結果（複数の画像）を「物体系列」と表す。

　所定の追跡手順は、たとえば、Ｋａｌｍａｎフィルタやパーティクルフィルタ等のフィルタリング手法、Ｍｅａｎ＿Ｓｈｉｆｔ法やテンプレートマッチング等の画像領域の追跡手法、物体中の特徴点群を追跡する手法、オプティカルフロー等の画像における時間変化を利用する手法等である。また、所定の追跡手順は、統計的識別器やテンプレートマッチング等の識別器を用いて、複数の画像に像として含まれる物体が同一であるか否かを識別することにより、追跡する手法であってもよい。さらに、所定の追跡手順は、上述した手法を組み合わせた手法であってもよい。

　上述した手法は、一般に知られた手法であるので、本実施形態においては、詳細な説明を省略する。

　次に、算出部１０３は、追跡部１０２が追跡した物体系列に基づき、式１に従い、パラメタθ（すなわち、パラメタ２０２）を算出する（ステップＳ１０２）。

　　　ただし、ｆは、カメラ（不図示）に関する焦点距離を表す。ｔ_１及びｔ_２は、あるタイミングを表す。ｙ_ｔは、タイミングｔにおける画像において、追跡対象である物体の位置を表す座標値である。ω_ｔは、タイミングｔにおける画像において、追跡対象である物体のサイズを表す。ｔａｎは、正接関数を表し、ｔａｎ^－１は、正接関数の逆関数を表す。「／」は、割り算を表す（以下、本願明細書において同様）。

　この場合、パラメタθは、カメラ（不図示）が画像を撮像する仰角（画角）を表す。

　物体の位置、及び、物体のサイズは、追跡部１０２が、画像から物体を検出することにより算出する値であってもよい。また、物体の位置、及び、物体のサイズは、検出部１０６が、画像２０１から物体を検出することにより算出する値であってもよい。尚、検出部１０６は、画像認識装置１０１の外部であってもよく、この場合に、追跡部１０２は、外部から画像２０１における物体の位置、及び、物体のサイズの値を受信する。

　また、物体のサイズは、たとえば、該物体の横幅、あるいは、該物体に含まれる複数の部位間の距離等である。尚、複数の部位間の距離を用いてサイズを定義する場合に、該部位と地面との間の距離は、一定または略一定であるとする。

　ここで、追跡対象を、画像３０１における人物の顔とする例（図３及び図４）を用いながら、第１の実施形態に係る画像認識装置１０１における処理について詳細に説明する。図３及び図４は、追跡対象を人物の顔における目とする例を、２次元座標（Ｘ－Ｙ座標）系の平面空間に表した図である。

　この例においては、画像認識装置１０１が、検出部１０６を有するとする。また、この例において、物体のサイズは、人物の顔における両目の間の距離であるとする。

　検出部１０６は、あるタイミングにおいて撮像された複数の画像（図３及び図４における画像３０１）に関して、たとえば、サポートベクトルマシン（以降、「ＳＶＭ」と表す。）を用いることにより、人物の顔の領域（以降、「顔領域」と表す。図３及び図４における顔領域３０２）を検出する。

　次に、検出部１０６は、たとえば、ＳＶＭ等を用いて、検出した顔領域３０２の一部の領域（たとえば、頭頂から鼻までの領域）を探索することにより、目の位置を算出する。次に、検出部１０６は、算出した目の位置に基づき、両目の間における距離（図３におけるω_１、及び、図４におけるω_２）を算出することにより、画像における物体のサイズを算出する。さらに、検出部１０６は、画像において、検出した目の位置を表す座標値（図３におけるｙ_１、及び、図４におけるｙ_２）を算出する。

　次に、追跡部１０２は、所定の追跡手順（たとえば、Ｋａｌｍａｎフィルタ）に従い、複数の画像（図３及び図４）に関して顔領域３０２を追跡する（ステップＳ１０１）。追跡部１０２は、ステップＳ１０１における処理に従い、物体系列を算出する。

　説明の便宜上、追跡部１０２は、図３及び図４に例示する画像における顔領域３０２が同一の人物を表す画像であると判定するとする。すなわち、追跡部１０２は、物体系列が図３及び図４における顔領域３０２を含むことを算出する。

　尚、画像が複数の顔領域を含む場合に、追跡部１０２は、各顔領域を追跡することにより、複数の物体系列を算出してもよい。

　次に、算出部１０３は、追跡部１０２が算出する物体系列に基づき、式１に従いパラメタθを算出する（ステップＳ１０２）。たとえば、追跡部１０２は、図３に例示するω_１及びｙ_１と、図４に例示するω_２及びｙ_２とに基づき、式１に従いパラメタθを算出する。

　たとえば、図５に示すように、画像認識システム１０４に画像認識装置１０１を設置する場合に、画像認識システム１０４は、画像認識装置１０１と、カメラ制御部１０５とを有する。図５は、第１の実施形態に係る画像認識システム１０４が有する構成を表すブロック図である。画像認識システム１０４は、カメラ１０７を制御することが可能である。

　画像認識装置１０１は、上述したようにパラメタ２０２を算出する。

　カメラ制御部１０５は、画像認識装置１０１が算出したパラメタ２０２に基づき、カメラ１０７が画像を撮像する向きを制御する。さらに、画像認識装置１０１が、該カメラ１０７が撮像した画像に基づきパラメタ２０２を算出し、その後、さらに、算出したパラメタ２０２に基づき、カメラ制御部１０５が該向きを制御してもよい。画像認識システム１０４は、パラメタ２０２を算出する処理と、パラメタ２０２に基づき向きを制御する処理とを繰り返し実行してもよい。

　次に、本実施形態に係る画像認識装置１０１に関する効果について説明する。

　第１の実施形態に係る画像認識装置１０１によれば、高精度にパラメタ２０２を算出することができる。

　この理由は、追跡部１０２が追跡した物体系列に基づいて、算出部１０３がパラメタ２０２を算出するからである。

　非特許文献１に開示された画像認識システムは、本実施形態に係る画像認識装置１０１とは異なり、複数の画像に像として含まれる物体が同一であるか否かに関わらず、頭頂等の位置の軌跡に基づきパラメタを算出する。このため、該画像認識システムを用いた場合に、複数の画像において検出される頭頂が同一人物の頭頂である確率は、画像認識装置１０１に比べ低い。頭頂の軌跡が誤差を含む場合に、該画像認識システムは、誤ったカメラパラメタを算出する。

　一方、画像認識装置１０１は、物体系列において同一であると推定される物体に基づきパラメタ２０２を算出する。このため、本実施形態に係る画像認識装置１０１に関しては、誤差が含まれる可能性は低い。したがって、画像認識装置１０１は、誤差の低い情報（すなわち、サイズと座標値）に基づきパラメタ２０２を算出する。この結果、本実施形態に係る画像認識装置１０１によれば、高精度にパラメタ２０２を算出することができる。

　また、画像における人物の顔を検出する精度は、向上している。さらに、画像における顔を検出した後に、該検出した顔に基づき目を検出し、検出した両目の間の距離を算出する処理については、近年の画像処理技術によれば、高精度に実施することができる。したがって、画像認識装置１０１が、該サイズに基づきパラメタ２０２を算出するので、画像認識装置１０１が算出するパラメタ２０２は、より正確な値となる。すなわち、本実施形態に係る画像認識装置１０１において、両目の間の距離という比較的計算が容易な部位のサイズを利用することにより、さらに、頑健にパラメタ２０２を算出することが可能である。

　一方、画像において、頭頂や足元を検出する精度は、顔を検出する精度に比べ低い。したがって、算出される頭頂等の軌跡が誤差を含む可能性が高いので、非特許文献１に開示された画像認識システムは、誤差を含んだパラメタを算出する可能性が高い。

　さらに、本実施形態に係る画像認識システム１０４によれば、正確に物体を追跡することができる。

　この理由は、画像認識装置１０１が算出する正確なパラメタ２０２に基づき、カメラ１０７が撮像する向きを制御するからである。

　＜第２の実施形態＞
　次に、上述した第１の実施形態を基本とする本発明の第２の実施形態について説明する。

　以降の説明においては、本実施形態に係る特徴的な部分を中心に説明すると共に、上述した第１の実施形態と同様な構成については、同一の参照番号を付すことにより、重複する説明を省略する。

　図６と図７とを参照しながら、第２の実施形態に係る画像認識装置１１１が有する構成と、画像認識装置１１１が行う処理とについて説明する。図６は、本発明の第２の実施形態に係る画像認識装置１１１が有する構成を示すブロック図である。図７は、第２の実施形態に係る画像認識装置１１１における処理の流れを示すフローチャートである。

　第２の実施形態に係る画像認識装置１１１は、追跡部１１２と、算出部１１３と、集計部１１４とを有する。

　まず、追跡部１１２は、画像２０１（すなわち、複数の画像）に含まれる複数の物体のうち、特定の物体に関して、それぞれ、追跡する（ステップＳ１１１）。追跡部１１２が各特定の物体に関して追跡する処理は、ステップＳ１０１に示す処理と同様である。

　次に、算出部１１３は、追跡された各特定の物体に関して、それぞれ、パラメタを算出する（ステップＳ１１２）。算出部１１３が各特定の物体に関してパラメタを算出する処理は、ステップＳ１０２に示す処理と同様である。

　次に、集計部１１４は、所定の集計手順に従い、各特定の物体に関して算出されるパラメタに基づき、新たにパラメタ２０２を算出する（ステップＳ１１３）。

　所定の集計手順は、該パラメタの平均値を算出する手順であってもよい。また、後述する実施形態に示すように、所定の集計手順は、各特定の物体に関するパラメタに重みづけした後に、平均値を算出する手順であってもよい。

　次に、第２の実施形態に係る画像認識装置１１１に関する効果について説明する。

　第２の実施形態に係る画像認識装置１１１によれば、第１の実施形態に係る画像認識装置１０１が有する効果に加え、より一層、高精度にパラメタ２０２を算出することができる。

　この理由は、理由１及び理由２である。すなわち、
　（理由１）第２の実施形態に係る画像認識装置１１１が有する構成は、第１の実施形態に係る画像認識装置１０１が有する構成を含むからである、
　（理由２）所定の集計手順に従い各特定の物体に関して算出されるパラメタを集計することにより、各パラメタが含む誤差を低減することができるからである。

　一般に、追跡手順に従い算出される結果には、誤差が含まれる。追跡した結果に誤差が含まれる場合に、算出部１１３が算出するパラメタも誤差を含む可能性がある。誤差を含むパラメタを平均することにより、正確または略正確に該パラメタを推定可能な場合に、集計部１１４は、パラメタの平均を算出する等により、パラメタに関する誤差を低減することができる。

　＜第３の実施形態＞
　次に、上述した第２の実施形態を基本とする本発明の第３の実施形態について説明する。

　以降の説明においては、本実施形態に係る特徴的な部分を中心に説明すると共に、上述した第２の実施形態と同様な構成については、同一の参照番号を付すことにより、重複する説明を省略する。

　図８と図９とを参照しながら、第３の実施形態に係る画像認識装置１２１が有する構成と、画像認識装置１２１が行う処理とについて説明する。図８は、本発明の第３の実施形態に係る画像認識装置１２１が有する構成を示すブロック図である。図９は、第３の実施形態に係る画像認識装置１２１における処理の流れを示すフローチャートである。

　第３の実施形態に係る画像認識装置１２１は、追跡部１２２と、算出部１２３と、集計部１２４とを有する。

　まず、追跡部１２２は、所定の追跡手順に従い、画像２０１（すなわち複数の画像）における物体を、該複数の画像に関して追跡する（ステップＳ１０１）。

　次に、算出部１２３は、特定の追跡された物体に関して、少なくとも２つの画像に基づいて、パラメタを算出する（ステップＳ１２２）。

　ステップＳ１２２において、算出部１２３は、入力される複数の画像のうち、任意の２つの画像の組み合わせに関して、パラメタを算出してもよいし、該２つの画像の組み合わせのうち、所定の条件を満たしている組み合わせに関して、パラメタを算出してもよい。

　所定の条件は、たとえば、２つの画像において、ともに、サイズが特定の値以上であるか否かである。たとえば、サイズとして、両目の間の距離を用いる場合に、所定の条件は、両目の間の距離が５ピクセル以上であるか否か等、特定の値以上であるか否かである。

　この場合に、算出部１２３は、両目の間の距離が５ピクセル以上である画像のうち、任意の２つの画像の組み合わせに関してパラメタを算出する。

　上述したように、任意の２枚の画像の組み合わせのうち、サイズが特定の値以上である画像の組み合わせに関してパラメタを算出することにより、サイズに対する誤差が小さくなるので、相対的な誤差を減らすことができる。この理由は、画像におけるサイズが小さいほど、誤差の影響を受けやすいからである。すなわち、算出部１２３によれば、サイズが比較的大きな画像の組み合わせに限定することにより、誤差の影響を低減することができる。

　次に、集計部１２４は、所定の集計手順に従い、各特定の物体に関して算出されるパラメタに基づき、新たにパラメタ２０２を算出する（ステップＳ１２３）。

　次に、第３の実施形態に係る画像認識装置１２１に関する効果について説明する。

　第３の実施形態に係る画像認識装置１２１によれば、第２の実施形態に係る画像認識装置１１１が有する効果に加え、一層、高精度にパラメタ２０２を算出することができる。

　この理由は、理由１及び理由２である。すなわち、
　（理由１）第３の実施形態に係る画像認識装置１２１が有する構成は、第２の実施形態に係る画像認識装置１１１が有する構成を含むからである、
　（理由２）算出部１２３が、画像２０１のうち、サイズに関する誤差が小さい画像に関してパラメタを算出するからである。算出部１２３が、サイズに関する誤差が小さい画像について、式１に従いパラメタ２０２を算出するので、パラメタの誤差は小さい。

　＜第４の実施形態＞
　次に、上述した第２の実施形態を基本とする本発明の第４の実施形態について説明する。

　図１０と図１１とを参照しながら、第４の実施形態に係る画像認識装置１３５が有する構成と、画像認識装置１３５が行う処理とについて説明する。図１０は、本発明の第４の実施形態に係る画像認識装置１３５が有する構成を示すブロック図である。図１１は、第４の実施形態に係る画像認識装置１３５における処理の流れを示すフローチャートである。

　第４の実施形態に係る画像認識装置１３５は、検出部１３１と、追跡部１３２と、算出部１３３と、集計部１３４とを有する。

　まず、検出部１３１は、入力された画像２０１（複数の画像）から、物体を検出する所定の検出手順に従い、物体を検出する（ステップＳ１３１）。この場合に、検出部１３１は、たとえば、検索する対象である物体に適合する度合を表す物体らしさに基づき、物体を検出する。

　尚、物体らしさは、たとえば、大きな値であるほど、物体を表す確率が高いと推定されることを表す。

　所定の検出手順は、たとえば、ニューラルネットワークやＳＶＭ等の統計的識別器を用いる手法、モデル当てはめを用いる手法、画像から算出される３次元情報を用いる手法等である。所定の検出手順は、既に多くの方法が知られている。このため、本実施形態においては、所定の検出手順に関する詳細な説明を省略する。

　次に、検出部１３１は、画像２０１における検出した物体の位置と、画像２０１における物体のサイズとを算出する。

　次に、追跡部１３２は、所定の追跡手順に従い、入力された複数の画像に関して、検出部１３１が検出した物体を追跡する（ステップＳ１３２）。

　次に、算出部１３３は、追跡部１３２が算出した物体系列における画像２０１、及び、検出部１３１が算出したサイズ等を用いて、式１に従いパラメタを算出する（ステップＳ１３３）。

　次に、集計部１３４は、所定の集計手順に従い、算出部１３３が算出するパラメタを集計することにより、新たにパラメタ２０２を算出する（ステップＳ１３４）。

　図１２を参照しながら、物体として人物の顔を検出し、物体のサイズとして両目の間の距離を用いる例における、本実施形態に係る画像認識装置１３５における処理の流れについて説明する。図１２は、第４の実施形態に係る画像認識装置１３５における処理の流れの一例を示すフローチャートである。この場合に、式１におけるω_ｔは、図３及び図４に例示すような、タイミングｔにおける両目の間の距離を表す。

　検出部１３１は、カメラを用いて撮像された画像２０１を受信する。

　検出部１３１は、たとえば、ＳＶＭを用いて、受信した画像２０１から顔を表す領域を探索することにより、顔を表す領域を検出する（ステップＳ１４１）。検出部１３１は、１枚の画像において、顔を表す複数の領域を検出してもよい。

　次に、検出部１３１は、検出した顔に関する画像２０１における位置、及び、両目の間の距離を算出する（ステップＳ１４２）。検出した顔の領域から目を検出する場合に、検出部１３１は、たとえば、ＳＶＭを用いて、顔を表す領域（部分領域）であるか否かを判定する。検出部１３１は、顔を表す領域であると物体系列において判定した各顔の領域について、顔の領域のうち座標が大きな３分の２の領域（すなわち、顔の上部）において、目を探索する。これにより、検出部１３１は、目を効率よく検出でき、さらに、検出した両目の間の距離を算出する。

　この場合に、検出部１３１は、ＳＶＭにより算出された識別境界（すなわち、顔を表す領域であるか否かを識別する境界）と、該顔を表す領域との距離等に応じて、顔らしさを算出してもよい。また、検出部１３１は、検出した顔を表す複数の画像について、それぞれ、顔らしさを算出してもよい。

　尚、顔らしさは、たとえば、大きな値であるほど、顔を表す確率が高いと推定されることを表す。

　検出部１３１は、検出した顔を表す領域における顔の向きに応じて、両目の間の距離を変換してもよい。たとえば、検出部１３１は、顔の向きが撮像する方向に平行または略平行になるように、両目の間の距離を変換してもよい。

　あるいは、検出部１３１は、顔の向きが撮像する方向に平行または略平行な画像のみを検出してもよい。顔の向きが撮像する方向に平行または略平行でない場合に、サイズは、誤差を含む。したがって、上述した処理により、サイズに関する誤差を低減することができる。

　次に、追跡部１３２は、たとえば、Ｋａｌｍａｎフィルタを用いて、検出部１３１が検出した顔の領域を、複数の画像に関して追跡する（ステップＳ１４３）。この場合に、追跡部１３２は、複数の画像に関して、同一人物と推定される顔の領域を追跡する。追跡部１３２は、追跡した顔の領域を物体系列として算出する。以降においては、物体系列に含まれる顔の領域を「顔系列」と表す。

　次に、算出部１３３は、追跡部１３２が算出した顔系列のうち、パラメタを算出していない顔系列があるか否かを判定する（ステップＳ１４４）。

　以降、説明の便宜上、パラメタを算出していない顔系列を、「未処理顔系列」と表す。

　算出部１３３は、未処理顔系列があると判定する場合（ステップＳ１４４にてＹＥＳ）に、未処理顔系列において、まだ処理されていない顔を表す画像の組み合わせがあるか否かを判定する（ステップＳ１４５）。

　以降、説明の便宜上、未処理顔系列において、まだ処理されていない顔を表す画像の組み合わせを、「未処理組み合わせ」と表す。

　次に、算出部１３３は、未処理組み合わせがあると判定する場合に（ステップＳ１４５にてＹＥＳ）、該未処理組み合わせを用いて、式１に従い、パラメタを算出する（ステップＳ１４６）。この場合に、算出部１３３は、所定の条件を満たす画像のみに関して、パラメタを算出してもよい。

　また、所定の条件として、両目の間の距離が、たとえば、５ピクセル以上等、特定の値以上となる画像の組み合わせについて、パラメタを算出してもよい。

　次に、集計部１３４は、未処理組み合わせがないと判定する場合に（ステップＳ１４５にてＮＯ）、所定の集計手順に従い（たとえば、算出部１３３が算出するパラメタを平均する）、新たにパラメタを算出する（ステップＳ１４７）。ステップＳ１４７により、１つの未処理顔系列に関する処理が完了する。

　算出部１３３がステップＳ１４４にてＮＯの場合に、集計部１３４は、所定の集計手順に従い、新たにパラメタ２０２を算出する（ステップＳ１４８）。

　たとえば、所定の集計手順は、重みづけ平均を算出する手順であってもよい。

　たとえば、検出部１３１が顔らしさを算出する場合に、所定の集計手順は、式２に従い値を算出する手順であってもよい。

　　　ただし、θ_ｋは、ステップＳ１４７において顔系列ｋ（すなわち、第ｋ顔系列）から算出されるパラメタを表す。Ｓ_ｋは、顔系列ｋのおける、任意の顔を表す画像の組み合わせを表す。（ｉ，ｊ）∈Ｓ_ｋは、Ｓ_ｋのうち、特定の組み合わせを表す。θ_{（ｉ，ｊ）}は、ステップＳ１４６において組み合わせ（ｉ，ｊ）に関して算出されるパラメタを表す。ｗ_ｉは、顔の画像ｉに関する顔らしさを表す。ｇ（ｗ_ｉ，ｗ_ｊ）は、顔らしさｗ_ｉ及びｗ_ｊに関する重み関数を表す。

　たとえば、ｈ（ｗ）が、ｗに関する単調増加関数を表す場合に、ｇ（ｗ_ｉ，ｗ_ｊ）＝ｈ（ｗ_ｉ・ｗ_ｊ）（ただし、「・」は、ｗ_ｉが数値である場合には掛け算を表し、ｗ_ｉがベクトルである場合には内積を表す。）としてもよい。たとえば、ｈ（ｗ）は、多項式関数、対数関数、指数関数等の関数や、該関数を組み合わせることにより算出される関数を表してもよい。

　たとえば、所定の集計手順は、式３に従い、値を算出する手順であってもよい。

　　　ただし、ｄ_ｉは、顔の画像ｉにおける両目の間の距離を表す。ｌ（ｄ_ｉ，ｄ_ｊ）は、ｄ_ｉ、ｄ_ｊに基づき算出される重みを表す。

　ｍ（ｄ）がｄに関する単調増加関数を表す場合に、ｌ（ｄ_ｉ，ｄ_ｊ）は、たとえば、ｌ（ｄ_ｉ，ｄ_ｊ）＝ｍ（ｄ_ｉ－ｄ_ｊ）である。

　また、所定の集計手順は、式４あるいは式５に従い値を算出する手順であってもよい。

　　　ただし、ｐ、ｑは、それぞれ、重み関数を表す。

　また、集計部１３４は、ステップＳ１４８における処理において、式６に従い、パラメタを算出してもよい。

　　　ただし、ｎ_ｋは、顔系列ｋ（すなわち、第ｋ顔系列）に含まれる顔を表す画像の組み合わせの数を表す。θ_ａｌｌは、集計部１３４がステップＳ１４８において算出するパラメタを表す。ｒ（ｎ）はｎに対する重み関数を表す。

　ｒ（ｎ）は、ｎに関する単調増加関数を表す。たとえば、ｒ（ｎ）は、多項式関数や対数関数、指数関数等の関数、または、該関数を組み合わせることにより算出される関数を表してもよい。

　さらに、画像認識システム１０４（図５）は、上述した画像認識装置１３５が算出するパラメタに基づき、撮像する向きを制御してもよい。

　次に、第４の実施形態に係る画像認識装置１３５に関する効果について説明する。

　第４の実施形態に係る画像認識装置１３５によれば、第２の実施形態に係る画像認識装置１１１が有する効果に加え、一層、高精度にパラメタ２０２を算出することができる。

　この理由は、理由１及び理由２である。すなわち、
　（理由１）第４の実施形態に係る画像認識装置１３５が有する構成は、第２の実施形態に係る画像認識装置１１１が有する構成を含むからである、
　（理由２）集計部１３４が、パラメタに関して推定される誤差に応じて重みづけすることにより、新たにパラメタ２０２を算出するからである。

　たとえば、所定の集計手順が、式２に従い値を算出する手順である場合に、顔らしさが大きな場合に算出されるパラメタに、大きな重みをつける。顔らしさが大きな値であるほど、顔を表す確率が高いと推定できる。従って、所定の集計手順は、顔を表す確率が低い画像から算出されるパラメタの重みを少なくすることを表す。言い換えれば、集計部１３４が、誤差を含む確率が低い画像を重視しながらパラメタを算出するので、パラメタの誤差は小さい。

　たとえば、所定の集計手順が、式３に従い値を算出する手順である場合に、両目の間の距離が長い場合に算出されるパラメタに、大きな重みをつける。上述したように、両目の間の距離が短いほど、誤差の影響を受けやすい。このため、所定の集計手順は、誤差の影響を受けやすいと推定される場合に算出されるパラメタの重みを少なくすることを表す。したがって、集計部１３４が算出するパラメタの誤差は小さい。

　式４または式５は、式２及び式３を組み合わせた式である。このため、所定の集計手順が、式４または式５に従い値を算出する場合における効果は、上述した効果と同様である。

　たとえば、所定の集計手順が、式６に従い値を算出する手順である場合に、顔系列に含まれる顔を表す画像の組み合わせ数が多いパラメタに、大きな重みをつける。

　ある期間においてカメラが撮像する複数の画像を、画像認識装置１３５が受信する場合に、検出部１３１が検出する顔を表す画像数が多いほど、カメラは、確実に顔を表す画像を撮像していると推定できる。すなわち、顔系列ｋ（すなわち、第ｋ顔系列）に含まれる顔を表す画像の組み合わせの数が多いほど、カメラは、確実に顔の画像を撮像していると推定できる。したがって、集計部１３４が、誤差を含む確率が低い画像を重視しながらパラメタを算出するため、パラメタの誤差は小さい。

　尚、顔らしさの例を参照しながら、本実施形態に係る画像認識装置１３５が有する効果について説明したが、本実施形態に係る画像認識装置１３５は、物体らしさであっても同様の効果を有する。

　（ハードウェア構成例）
　上述した本発明の各実施形態における画像認識装置を、１つの計算処理装置（情報処理装置、コンピュータ）を用いて実現するハードウェア資源の構成例について説明する。但し、係る画像認識装置は、物理的または機能的に少なくとも２つの計算処理装置を用いて実現してもよい。また、係る画像認識装置は、専用の装置として実現してもよい。

　図１３は、第１の実施形態乃至第４の実施形態に係る画像認識装置を実現可能な計算処理装置のハードウェア構成を概略的に示す図である。計算処理装置２０は、中央処理演算装置（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ、以降「ＣＰＵ」と表す）２１、メモリ２２、ディスク２３、不揮発性記録媒体２４、入力装置２５、出力装置２６、および、通信インターフェース（以降、「通信ＩＦ」と表す。）２７を有する。計算処理装置２０は、通信ＩＦ２７を介して、他の計算処理装置、及び、通信装置と情報を送受信することができる。

　不揮発性記録媒体２４は、コンピュータが読み取り可能な、たとえば、コンパクトディスク（Ｃｏｍｐａｃｔ　Ｄｉｓｃ）、デジタルバーサタイルディスク（Ｄｉｇｉｔａｌ＿Ｖｅｒｓａｔｉｌｅ＿Ｄｉｓｃ）、ブルーレイディスク（Ｂｌｕ－ｒａｙ　Ｄｉｓｃ。登録商標）、ユニバーサルシリアルバスメモリ（ＵＳＢメモリ）、ソリッドステートドライブ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等である。不揮発性記録媒体２４は、電源を供給しなくても係るプログラムを保持し、持ち運びを可能にする。不揮発性記録媒体２４は、上述した媒体に限定されない。また、不揮発性記録媒体２４の代わりに、通信ＩＦ２７を介して、通信ネットワークを介して係るプログラムを持ち運びしてもよい。

　すなわち、ＣＰＵ２１は、ディスク２３が記憶するソフトウェア・プログラム（コンピュータ・プログラム：以下、単に「プログラム」と称する）を、実行する際にメモリ２２にコピーし、演算処理を実行する。ＣＰＵ２１は、プログラム実行に必要なデータをメモリ２２から読み取る。表示が必要な場合には、ＣＰＵ２１は、出力装置２６に出力結果を表示する。外部からプログラムを入力する場合に、ＣＰＵ２１は、入力装置２５からプログラムを読み取る。ＣＰＵ２１は、上述した図１、図５、図６、図８、あるいは、図１０に示した各部が表す機能（処理）に対応するところのメモリ２２にある画像認識プログラム（図２、図７、図９、あるいは、図１１）を解釈し実行する。ＣＰＵ２１は、上述した本発明の各実施形態において説明した処理を順次行う。

　すなわち、このような場合に、本発明は、係る画像認識プログラムによっても成し得ると捉えることができる。更に、係る画像認識プログラムが記録されたコンピュータ読み取り可能な不揮発性の記録媒体によっても、本発明は成し得ると捉えることができる。

　尚、上述した各実施形態の一部又は全部は、以下の付記のようにも記載されうる。しかし、上述した各実施形態により例示的に説明した本発明は、以下には限られない。すなわち、
　（付記１）
　カメラを用いて撮像された複数の画像に像として含まれる地面からの距離が一定または略一定である物体を追跡する追跡手段と、
　追跡された前記物体に関して、前記複数の画像のうち、複数の特定画像の位置及びサイズに基づき、前記カメラが前記画像を撮像する仰角を算出する算出手段と
　を備える画像認識装置。

　（付記２）
　前記算出手段が算出する複数の前記仰角に基づき、新たに仰角を算出する集計手段
　をさらに備える付記１に記載の画像認識装置。

　（付記３）
　前記物体は、複数であり、
　前記追跡手段は、前記複数の画像に像として物体のうち、複数の特定物体を追跡し、
　前記算出手段は、追跡された前記特定物体に関して、前記仰角を算出する
　付記１または付記２に記載の画像認識装置。

　（付記４）
　前記複数の特定画像は、前記複数の画像に含まれる２つの画像であり、
　前記算出手段は、前記２つの画像に関して前記仰角を算出する
　付記１乃至付記３のいずれかに記載の画像認識装置。

　（付記５）
　前記複数の画像に含まれる一部の画像から、対象とする物体に適合する度合を表す物体らしさに基づき、前記物体を検出する検出手段
　をさらに備え、
　前記追跡手段は、前記検出手段が検出する前記物体のうち、前記複数の特定物体を追跡し、
　前記集計手段は、前記複数の前記仰角を平均、または、前記物体らしさに基づき定義される重みを用いて、重み付き平均を算出することにより、前記仰角を算出する
　付記２乃至付記４のいずれかに記載の画像認識装置。

　（付記６）
　前記集計手段は、前記複数の特定画像に関して、前記複数の仰角の平均値を算出する、あるいは、前記複数の特定画像を選ぶ場合における組み合わせ数に基づき定義される重みを用いて、重み付き平均を算出することにより、前記仰角を算出する
　付記２乃至付記５のいずれかに記載の画像認識装置。

　（付記７）
　前記物体は顔であり、
　前記サイズは、前記顔における両目の間の距離である
　付記１乃至付記６のいずれかに記載の画像認識装置。

　（付記８）
　前記顔の向きに応じて前記距離を算出し、算出した前記距離を前記サイズとするサイズ算出手段
　をさらに備え、
　前記算出手段は、前記サイズ算出手段が算出する前記サイズに基づき、前記仰角を算出する
　付記１乃至付記７のいずれかに記載の画像認識装置。

　（付記９）
　付記１乃至付記８のいずれかに記載の画像認識装置と、
　前記画像認識装置が算出する前記仰角に応じて、前記カメラが前記画像を撮像する向きを制御するカメラ制御手段と
　を備える画像認識システム。

　（付記１０）
　情報処理装置を用いて、カメラにより撮像された複数の画像に像として含まれる地面からの距離が一定または略一定である物体を追跡し、追跡された前記物体に関して、前記複数の画像のうち、複数の特定画像の位置及びサイズに基づき、前記カメラが前記画像を撮像する仰角を算出する画像認識方法。

　（付記１１）
　カメラを用いて撮像された複数の画像に像として含まれる地面からの距離が一定または略一定である物体を追跡する追跡機能と、
　追跡された前記物体に関して、前記複数の画像のうち、複数の特定画像の位置及びサイズに基づき、前記カメラが前記画像を撮像する仰角を算出する算出機能と
　をコンピュータに実現させる画像認識プログラムが記録されたコンピュータが読み取り可能な記録媒体。
　以上、上述した実施形態を模範的な例として本発明を説明した。しかし、本発明は、上述した実施形態には限定されない。すなわち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
　この出願は、２０１４年３月２８日に出願された日本出願特願２０１４－０６７６５１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１０１　　画像認識装置
　１０２　　追跡部
　１０３　　算出部
　１０６　　検出部
　１０７　　カメラ
　２０１　　画像
　２０２　　パラメタ
　３０１　　画像
　３０２　　顔領域
　１０４　　画像認識システム
　１０５　　カメラ制御部
　１１１　　画像認識装置
　１１２　　追跡部
　１１３　　算出部
　１１４　　集計部
　１２１　　画像認識装置
　１２２　　追跡部
　１２３　　算出部
　１２４　　集計部
　１３１　　検出部
　１３２　　追跡部
　１３３　　算出部
　１３４　　集計部
　１３５　　画像認識装置
　２０　　計算処理装置
　２１　　ＣＰＵ
　２２　　メモリ
　２３　　ディスク
　２４　　不揮発性記録媒体
　２５　　入力装置
　２６　　出力装置
　２７　　通信ＩＦ
　３１１　　画像
　３１２　　人物
　３１３　　頭頂の軌跡
　３１４　　足元の軌跡
　３１５　　カメラパラメタ

Claims

　カメラを用いて撮像された複数の画像に像として含まれる地面からの距離が一定または略一定である物体を追跡する追跡手段と、
　追跡された前記物体に関して、前記複数の画像のうち、複数の特定画像の位置及びサイズに基づき、前記カメラが前記画像を撮像する仰角を算出する算出手段と
　を備える画像認識装置。
　前記算出手段が算出する複数の前記仰角に基づき、新たに仰角を算出する集計手段
　をさらに備える請求項１に記載の画像認識装置。
　前記物体は、複数であり、
　前記追跡手段は、前記複数の画像に像として物体のうち、複数の特定物体を追跡し、
　前記算出手段は、追跡された前記特定物体に関して、前記仰角を算出する
　請求項１に記載の画像認識装置。
　前記複数の特定画像は、前記複数の画像に含まれる２つの画像であり、
　前記算出手段は、前記２つの画像に関して前記仰角を算出する
　請求項１または請求項２に記載の画像認識装置。
　前記複数の画像に含まれる一部の画像から、対象とする物体に適合する度合を表す物体らしさに基づき、前記物体を検出する検出手段
　をさらに備え、
　前記追跡手段は、前記検出手段が検出する前記物体のうち、前記複数の特定物体を追跡し、
　前記集計手段は、前記複数の前記仰角を平均、または、前記物体らしさに基づき定義される重みを用いて、重み付き平均を算出することにより、前記仰角を算出する
　請求項２乃至請求項４のいずれかに記載の画像認識装置。
　前記集計手段は、前記複数の特定画像に関して、前記複数の仰角の平均値を算出する、あるいは、前記複数の特定画像を選ぶ場合における組み合わせ数に基づき定義される重みを用いて、重み付き平均を算出することにより、前記仰角を算出する
　請求項２乃至請求項５のいずれかに記載の画像認識装置。
　前記物体は顔であり、
　前記サイズは、前記顔における両目の間の距離である
　請求項１乃至請求項６のいずれかに記載の画像認識装置。
　請求項１乃至請求項７のいずれかに記載の画像認識装置と、
　前記画像認識装置が算出する前記仰角に応じて、前記カメラが撮像する向きを制御するカメラ制御手段と
　を備える画像認識システム。
　カメラにより撮像された複数の画像に像として含まれる地面からの距離が一定または略一定である物体を追跡し、追跡された前記物体に関して、前記複数の画像のうち、複数の特定画像の位置及びサイズに基づき、前記カメラが前記画像を撮像する仰角を算出する画像認識方法。
　カメラを用いて撮像された複数の画像に像として含まれる地面からの距離が一定または略一定である物体を追跡する追跡機能と、
　追跡された前記物体に関して、前記複数の画像のうち、複数の特定画像の位置及びサイズに基づき、前記カメラが前記画像を撮像する仰角を算出する算出機能と
　をコンピュータに実現させる画像認識プログラムが記録されたコンピュータが読み取り可能な記録媒体。