WO2010032294A1

WO2010032294A1 - 画像処理装置、画像処理方法および画像処理プログラム

Info

Publication number: WO2010032294A1
Application number: PCT/JP2008/066787
Authority: WO
Inventors: 悟牛嶋; 雅芳清水; 君孝村下
Original assignee: 富士通株式会社
Priority date: 2008-09-17
Filing date: 2008-09-17
Publication date: 2010-03-25
Also published as: JP4719825B2; JPWO2010032294A1; US20110170785A1; US8358849B2

Abstract

　本発明にかかる画像処理装置（１００）は、縮小レベルを順次変更して、物体検出を実行する場合に、変更前の縮小レベルと変更後の縮小レベルとが隣り合う縮小レベルにならないように縮小レベルを変更して、物体検出を実行する。画像処理装置（１００）は、例えば、縮小レベルを縮小レベル０，１，２，３，４，５，６，７のように変更しないで、縮小レベルを縮小レベル０，４，２，６，１，５，３，７の順に変更し、物体検出を実行する。

Description

画像処理装置、画像処理方法および画像処理プログラム

　本発明は、画像データから物体を検出する画像処理装置、画像処理方法および画像処理プログラムに関するものである。

　近年、カメラ等によって撮影された画像中から、各種の物体（例えば、人物の顔、車等）を検出する物体検出の研究が行われている。物体検出の技術は、予め、検出対象となる物体の特徴を学習して学習データを作成し、作成した学習データと、画像データとを比較することで、画像中に検出対象となる物体が存在するか否かを判定する技術である。

　また、かかる物体検出の技術では、物体検出にかかる処理負荷を軽減することが重要であるため、処理負荷を軽減するための各種の技術も考案されている。例えば、連続したフレームの中で、対象物をフレーム全領域に対して検索する全検索フレームと、検索を行わない非検索フレームとを設け、対象物が見つかった後のフレームでは、見つかった位置の近傍について検索を行うことで、処理負荷を軽減するという技術が知られている（例えば、特許文献１参照）。
　また、画像情報の量子化技術には、画像データを周波数変換（ウェーブレット＜Wavelet＞変換）し、変換結果となる変換係数の大小（または、隣り合う画素同士の画素値の差分の大小）から量子化処理を行う技術がある（例えば、非特許文献１参照）。

特開２００４－１７１４９０号公報 H.Schneiderman　and　T.　Kanade,　Object　Detection　Using　the　Statistics　of　Parts　To　appear　in　International　Journal　of　Computer　Vision,2002.

　しかしながら、上述した従来の技術では、物体検出に要する時間の短縮化を図ることができないという問題があった。

　例えば、全検索フレームと非検索フレームを設けて物体検出を行う場合には、複数フレームをトータルで見れば演算量の削減につながっているが、対象物を定期的に全検索するフレームが断続的に存在しており、かかる全検索フレームでは物体検出の短縮化を図ることができていない。

　この発明は、上述した従来技術による問題点を解消するためになされたものであり、物体検出に要する時間の短縮化を図ることができる画像処理装置、画像処理方法および画像処理プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、この画像処理装置は、顔画像の特徴を含む学習データを記憶する記憶手段と、動画像の入力を受け付ける入力手段と、前記入力手段が受け付けた動画像に含まれる各フレームのうち一のフレームを処理対象フレームとし、前記処理対象フレームの画像を、数段階の縮小レベルのうち第一のレベルに縮小することで、前記処理対象フレームの縮小画像を生成する縮小手段と、前記縮小手段により生成された縮小画像と前記学習データとを比較することで、該縮小画像から顔画像を抽出する抽出手段と、前記顔画像を抽出した結果を出力する出力手段とを有し、前記縮小手段は、前記処理対象フレームに対する顔画像の抽出が終了した後に、前記処理対象フレームを、該処理対象フレームに続く次のフレームに更新し、前記第一のレベルと隣り合う縮小レベルにならない他のレベルに縮小した縮小画像を生成することを要件とする。

　この画像処理装置によれば、変更前の縮小レベルと変更後の縮小レベルとが連続しないように、縮小レベルを変更して物体検出処理を実行するので、物体検出に要する時間の短縮化を図ることができる。

図１は、従来の物体検出方法を説明するための図（１）である。図２は、従来の物体検出方法を説明するための図（２）である。図３は、本実施例１にかかる画像処理装置の概要および特徴を説明するための図（１）である。図４は、本実施例１にかかる画像処理装置の概要および特徴を説明するための図（２）である。図５は、本実施例１にかかる画像処理装置の構成を示す機能ブロック図である。図６は、顔学習データのデータ構造の一例を示す図である。図７は、非顔学習データのデータ構造の一例を示す図である。図８は、比較対象データのデータ構造の一例を示す図である。図９は、顔検出処理部の処理の一例を説明するための図である。図１０は、比較結果テーブルのデータ構造の一例を示す図である。図１１は、検出範囲の移動の様子を説明するための図である。図１２は、本実施例１にかかる画像処理装置の処理手順を示すフローチャートである。図１３は、簡単な縮小方法を説明するための図である。図１４は、複雑な縮小方法を説明するための図である。図１５は、本実施例２にかかる画像処理装置の概要および特徴を説明するための図である。図１６は、本実施例２にかかる画像処理装置の構成を示す機能ブロック図である。図１７は、縮小レベル管理データのデータ構造の一例を示す図である。図１８は、本実施例２にかかる画像処理装置の処理手順を示すフローチャートである。図１９は、本実施例にかかる画像処理装置を構成するコンピュータのハードウェア構成を示す図である。

符号の説明

　３０　　コンピュータ
　３１　　入力装置
　３２　　モニタ
　３３　　ＲＡＭ
　３３ａ，３９ａ　各種データ
　３４　　ＲＯＭ
　３５　　通信制御装置
　３６　　媒体読取装置
　３７　　カメラ
　３８　　ＣＰＵ
　３８ａ　画像処理プロセス
　３９　　ＨＤＤ
　３９ｂ　画像処理プログラム
　４０　　バス
１００，２００　　画像処理装置
１１０，２１０　　変換処理部
１２０，２２０　　分析処理部
１３０，２３０　　記憶部
１３０ａ，２３０ａ　顔学習データ
１３０ｂ，２３０ｂ　非顔学習データ
１３０ｃ，２３０ｃ　比較対象データ
１３０ｄ，２３０ｄ　縮小レベル管理データ
１４０，２４０　　顔検出処理部

　以下に、本発明にかかる画像処理装置、画像処理方法および画像処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

　本実施例にかかる画像処理装置の説明を行う前に、従来の画像処理装置が実行する物体検出方法について説明する。図１、２は、従来の物体検出方法を説明するための図である。まず、前準備として、従来の物体検出方法では学習データを作成する。

　画像処理装置が学習データを作成する場合には、顔画像集データと、非顔画像集データを周波数変換（例えば、ウェーブレット変換）することにより、顔画像の特徴を含んだ特徴データと非顔画像の特徴を含んだ特徴データとを作成する。ここで、顔画像集データは、様々な人物の顔画像を集めた画像データである。顔画像集データに含まれる画像データは、顎から頭をほぼ含む上下幅、両耳をほぼ含む左右幅で、顔を全面に写した画像群で構成されている。もちろん、多様な顔を検出するための学習データであるので、真正面から顔を写したデータのほかに、斜め上や下や左や右を向いたデータや、帽子や眼鏡を掛けた顔のデータ、様々な年齢や性別の人のデータが含まれていても良い。非顔画像集データは、顔画像以外の各種の画像を集めた画像データである。そして、画像処理装置は、各特徴データを分析して、各特徴データを量子化することにより学習データを作成する。

　続いて、画像処理装置が、動画像に顔画像が含まれているか否かを判定する場合には、入力画像データ（動画像に含まれる各フレームの画像データ）を周波数変換して、入力画像の特徴を含んだ特徴データを作成する。そして、画像処理装置は、特徴データから検索範囲（入力フレーム内で切り出し位置を走査するようにずらしながら切り出した、顔画像集データの特徴の検出対象とする領域）を設定した後、検索範囲を分析して、検索範囲内のデータを量子化し、量子化したデータと、予め作成しておいた学習データとを比較することで、検索範囲内に顔画像が含まれているか否かを判定する。画像処理装置は、検索範囲内の比較が終了した後に、検索範囲を入力画像内で順次移動させ、上記の処理を繰り返すことで、入力画像中に含まれる各顔画像を検出する。

　なお、入力画像には、様々なサイズの顔画像が含まれる可能性がある。そこで、従来の画像処理装置は、様々な顔画像の大きさに対応するために、入力画像を様々なサイズに縮小し、縮小した入力画像から物体検出処理を行っている（図２参照）。入力画像に含まれる顔画像が、上記の検出範囲からはみ出ると、顔画像が存在するにも関わらず、顔画像を検出することが出来ないが、入力画像を縮小してやれば、検出範囲に顔画像が含まれるので、適切に顔画像を検出することができる。

　例えば、図２に示すように、縮小レベル１～４に縮小する場合には、画像処理装置は、フレーム毎に画像を縮小レベル１，２，３，４の順に入力画像を縮小し、順次物体検出処理を実行する。ただし、縮小レベル４の画像のサイズ＜縮小レベル３の画像のサイズ＜縮小レベル２の画像のサイズ＜縮小レベル１の画像のサイズとする。

　ところで、学習データを作成する際に利用する顔画像集データには、様々なサイズの顔画像が含まれているため、画像領域に占める顔領域のサイズがやや大きめのものから、小さめのものまで存在する。このため、特定の縮小レベルに画像を縮小して物体検出を行うと、本来のサイズの顔画像が検出されるのと併せて、本来のサイズよりも少し大きめあるいは少し小さめの顔画像も検出されることが多い。

　例えば、縮小レベル２に顔画像を縮小して物体検出を行うと、本来のサイズ（縮小レベル２に縮小した顔画像のサイズ）よりも少し大きめの顔画像（縮小レベル１に縮小した顔画像に相当する顔画像）や、少し小さめの顔画像（縮小レベル３に縮小した顔画像に相当する顔画像）が見つかることが多い。本発明にかかる画像処理装置は、これらに着目して、物体検出に要する時間の短縮化を図る。

　次に、本実施例１にかかる画像処理装置の概要および特徴について説明する。図３、４は、本実施例１にかかる画像処理装置の概要および特徴を説明するための図である。本実施例１では一例として、縮小レベルを縮小レベル０～７とし、縮小レベル０が一番小さく、縮小レベル０～７の順に、画像のサイズが大きくなるものとする。

　本実施例１にかかる画像処理装置は、縮小レベルを順次変更して、物体検出を実行する場合に、変更前の縮小レベルと変更後の縮小レベルとが隣り合う縮小レベルにならないように縮小レベルを変更して、物体検出を実行する。例えば、縮小レベルを縮小レベル０，１，２，３，４，５，６，７のように変更しないで、縮小レベルを縮小レベル０，４，２，６，１，５，３，７の順に変更し、物体検出を実行する。なお、縮小レベルは、検索対象となる動画像のフレームが切り替わる時点で変更される。
　図３では、黒丸は、ちょうどの大きさで顔が見つかる「可能性がある」ことを、右上がり斜線の丸は、近傍の大きさで顔が見つかる「可能性がある」ことを、チェック模様の丸は、ちょうどの大きさで顔が「実際に見つかった」ことを、つぶつぶ模様の丸は、近傍の大きさで顔が「実際に見つかった」ことをそれぞれ現している。

　例えば、図４に示すように、動画像中に顔１～３が存在しており、かかる動画像に対して、縮小レベルを縮小レベル０，４，２，６，１，５，３，７の順に変更して物体検出を実行した場合について説明を行う。ここで、顔１は、縮小レベル２に相当する顔画像であり、顔２は、縮小レベル１に相当する顔画像であり、顔３は、縮小レベル４に相当する顔画像とする。

　まず、画像処理装置は、動画像中の第１フレームにて、画像を縮小レベル０に縮小して物体検出を実行すると、縮小レベル１に相当する顔２を検出する。次に、画像処理装置は、第２フレームにて、画像を縮小レベル４に縮小して物体検出を実行すると、縮小レベル４に相当する顔３を検出する。次に、画像処理装置は、第３フレームにて、画像を縮小レベル２に縮小して物体検出を実行すると、縮小レベル１に相当する顔１と、縮小レベル２に相当する顔２とを検出し、動画像中に含まれる顔１～３の検出が終了する。すなわち、レベル０，４，２の３個分のレベルを処理したところで、顔１～３の検出が終了することになる。
　もし、縮小レベルを大きい方から小さい方に、もしくは小さい方から大きい方に順に変化させて顔検出を行ったとすると、図４の例では、レベル０から始まってレベル１，２，３の４個分のレベルを処理したところで、顔１～３の検出が終了することになる。従って、本実施例に示す画像処理装置によれば、順に縮小レベルを変化させるよりも、早く、多様なレベルの大きさの顔を検出できる。

　このように、本実施例１にかかる画像処理装置は、変更前の縮小レベルと変更後の縮小レベルとが連続しないように、縮小レベルを変更することで、物体検出処理を実行するので、物体検出に要する時間の短縮化を図ることができる。入力されるフレームにどのような大きさの顔が含まれているかはわからないので、このように変更前の縮小レベルと変更後の縮小レベルとが連続しないように、縮小レベルを変更したほうが、早く万遍なく複数の縮小レベルをカバーできる。

　また、従来の物体検出では、動画像の各フレームにおいて、フレーム中の画像を全ての縮小レベルで縮小して物体検出を実行していたが、本実施例１にかかる画像処理装置は、動画像の各フレームにおいて、フレーム中の画像を単一の縮小レベルで縮小して物体検出を実行するので、画像処理装置にかかる負荷を軽減することができる。

　次に、本実施例１にかかる画像処理装置の構成について説明する。図５は、本実施例１にかかる画像処理装置の構成を示す機能ブロック図である。図５に示すように、この画像処理装置１００は、変換処理部１１０と、分析処理部１２０と、記憶部１３０と、顔検出処理部１４０とを有する。

　変換処理部１１０は、顔画像集データおよび非顔画像集データを取得し、取得した顔画像集データおよび非顔画像集データに対して周波数変換処理（例えば、ウェーブレット変換）を実行する処理部である。画像データに対する周波数変換処理は、周知技術と同様である。

　変換処理部１１０は、入力装置、記憶装置（図示略）等から顔画像集データおよび非顔画像集データを取得する。変換処理部１１０は、周波数変換した顔画像集データおよび非顔画像集データを分析処理部１２０に出力する。以下の説明において、周波数変換した顔画像集データを変換顔画像集データと表記し、周波数変換した非顔画像集データを変換非顔画像集データと表記する。

　分析処理部１２０は、変換顔画像集データおよび変換非顔画像集データを取得した場合に、変換画像集データを基にして顔学習データを作成し、変換非顔画像集データを基にして非顔学習データを作成する処理部である。

　まず、分析処理部１２０が、顔学習データを作成する処理について説明する。分析処理部１２０は、変換顔画像集データに含まれる画像データから単一の画像データを抽出する。そして、分析処理部１２０は、各変換係数と、量子化閾値とを比較することにより、該当変換係数値を量子化する。量子化閾値は、予め、分析処理部１２０に設定されているものとする。

　同様に、分析処理部１２０は、変換顔画像集データに含まれる残りの画像データも、上記の手法により量子化する。そして、分析処理部１２０は、量子化した各画像データの各変換係数値（各画像データの同一位置に対応する変換係数値）を比較し、変換係数値の頻度に基づいて、顔学習データを作成する。例えば、画像データ中の位置（ｘ１、ｙ１）の変換係数値について、各画像データを比較したところ、他の変換係数値の頻度よりも変換係数値「１」の頻度のほうが大きい場合には、顔学習データ中の位置（ｘ１、ｙ１）の変換係数値を「１」に設定する。

　図６は、顔学習データのデータ構造の一例を示す図である。図６に示すように、この顔学習データは、位置情報と変換係数値とを対応付けて記憶している。なお、顔学習データのデータ構造は、図６に示したものに限らず、例えば、物体検出時に比較する変換係数の塊（例えば、８係数）毎に変換係数値を対応付けて記憶させても良い。

　次に、分析処理部１２０が、非顔学習データを作成する処理について説明する。分析処理部１２０は、変換非顔画像集データに含まれる画像データから単一の画像データを抽出する。そして、分析処理部１２０は、各変換係数と、量子化閾値とを比較することにより、該当変換係数値を量子化する。

　同様に、分析処理部１２０は、変換非顔画像集データに含まれる残りの画像データも、上記の手法により量子化する。そして、分析処理部１２０は、量子化した各画像データの各変換係数値（各画像データの同一位置に対応する変換係数値）を比較し、変換係数値の頻度に基づいて非顔学習データを作成する。例えば、画像データ中の位置（ｘ１、ｙ１）の変換係数値について、各画像データを比較したところ、他の変換係数値の頻度よりも、変換係数値「１」の頻度のほうが大きい場合には、非顔学習データ中の位置（ｘ１、ｙ１）の変換係数値を「１」に設定する。

　図７は、非顔学習データのデータ構造の一例を示す図である。図７に示すように、この非顔学習データは、位置情報と変換係数値とを対応付けて記憶している。なお、非顔学習データのデータ構造は、図７に示したものに限らず、例えば、物体検出時に比較する変換係数の塊（例えば、８係数）毎に画素値を対応付けて記憶させても良い。

　記憶部１３０は、分析処理部１２０から出力される顔学習データ１３０ａ、非顔学習データ１３０ｂ、顔検出処理部１４０から出力される比較対象データ１３０ｃ、縮小レベル管理データ１３０ｄを記憶する記憶部である。このうち、比較対象データ１３０ｃおよび縮小レベルデータ１３０ｄの説明は後述する。

　顔検出処理部１４０は、動画像データを取得した場合に、動画像データの各フレームに含まれる画像データから顔画像を検出する処理部である。顔検出処理部１４０は、検出結果を上位の装置（図示略）に出力する。以下において、顔検出処理部１４０の処理を具体的に説明する。

　まず、顔検出処理部１４０は、縮小レベル管理データ１３０ｄを参照し、縮小レベルを判定する。この縮小レベル管理データ１３０ｄは、縮小レベルを記憶したデータである。例えば、縮小レベル管理データ１３０ｄに縮小レベル０が記憶されている場合には、顔検出処理部１４０は、画像データを縮小レベル０以外の縮小レベルに縮小する。縮小レベル管理データ１３０ｄは、顔検出処理部１４０のよって順次更新されていく。

　顔検出処理部１４０は、縮小レベルを判定した後に、判定結果に基づいて画像データ（動画像データのフレームに含まれる画像データ）を縮小する。例えば、縮小レベルが縮小レベル１ならば、顔検出処理部１４０は、画像データを縮小レベル１に縮小する。そして、顔検出処理部１４０は、変更前の縮小レベルと変更後の縮小レベルが隣り合わないように、縮小レベル管理データ１３０ｄに記憶された縮小レベルを変更する。例えば、縮小レベルが２であった場合に、隣り合う縮小レベルはレベル１とレベル３なので、顔検出処理部１４０は、変更後の縮小レベルが隣り合わないように、レベル１、レベル３以外のレベルに縮小レベルを変更する。

　次に、顔検出処理部１４０は、縮小した画像データに対して周波数変換処理（例えば、ウェーブレット変換）を実行する。そして、顔検出処理部１４０は、周波数変換を行った後に、周波数変換を行った画像データを量子化することにより、比較対象データ１３０ｃを作成する。

　ここで、比較対象データ１３０ｃを作成する処理について具体的に説明する。顔検出処理部１４０は、画像データに対して周波数変換処理を行った結果として得られる各変換係数と、量子化閾値とを比較することにより、該当ブロックの画素値を量子化し比較対象データ１３０ｃを作成する。

　図８は、比較対象データ１３０ｃのデータ構造の一例を示す図である。図８に示すように、この比較対象データ１３０ｃは、位置情報と変換係数値とを対応付けて記憶している。なお、比較対象データ１３０ｃのデータ構造は、図８に示したものに限らず、例えば、物体検出時に比較する変換係数の塊（例えば、８係数）毎に変換係数値と対応付けて記憶させても良い。

　そして、顔検出処理部１４０は、記憶部１３０に記憶された顔学習データ１３０ａと、非顔学習データ１３０ｂと、比較対象データ１３０ｃとを比較して、画像データに顔画像が含まれているか否かを判定する。

　図９は、顔検出処理部１４０の処理の一例を説明するための図である。具体的に、顔検出処理部１４０は、検出範囲を設定し、顔学習データ１３０ａ、非顔学習データ１３０ｂ、比較対象データ１３０ｃの同一位置の検出範囲に含まれる各変換係数値をそれぞれ比較する。そして、顔検出処理部１４０は、比較した結果、比較対象データの検出範囲が顔学習データに類似しているのか、非顔学習データに類似しているのかを判定し、判定結果を比較結果テーブルに登録する。かかる比較結果テーブルは、顔検出処理部１４０が、保持しているものとする。

　図９に示す例では、比較対象データ１３０ｃは、顔学習データ１３０ａに対して、７つヒットし、非顔学習データ１３０ｂに対して、１つヒットしているので、非顔学習データ１３０ｂよりも、顔学習データ１３０ａに類似していると判定する。

　図１０は、比較結果テーブルのデータ構造の一例を示す図である。図１０に示すように、この比較結果テーブルは、検出範囲を識別する検出範囲識別情報と、比較結果とを対応付けて記憶している。顔検出処理部１４０は、顔学習データ１３０ａ、非顔学習データ１３０ｂ、比較対象データ１３０ｃの検出範囲を比較した結果、顔学習データ１３０ａに類似していると判定した場合には、比較結果に「マル」を登録し、非顔学習データ１３０ｂに類似していると判定した場合には、比較結果に「バツ」を登録する。

　具体的に、図９を用いて説明する。ここでは一例として、現在、各画像データ１３０ａ～１３０ｃに設定されている検出範囲の検出範囲識別情報を「１００１」とする。顔検出処理部１４０が、比較対象データ１３０ｃの検出範囲の各画素値と、顔学習データ１３０ａの検出範囲の各画素値とを比較すると、７つヒットする。

　一方、顔検出処理部１４０が、比較対象データ１３０ｃの検出範囲の各画素値と、非顔学習データ１３０ｂの各画素値とを比較すると、１つヒットする。この場合、顔検出処理部１４０は、顔学習データ１３０ａの方が、非顔学習データ１３０ｂよりもヒット数が多いので、検出範囲識別情報「１００１」に対応する比較結果を「マル」に設定する。逆に非顔学習データ１３０ｂのほうがヒット数が多い場合は「バツ」を設定する。同数の場合には，ここでは，どちらにも設定しないこととする。

　顔検出処理部１４０は、図１１に示すように、検出範囲を移動させながら、比較結果テーブルの比較結果に「マル」または「バツ」を順次登録していく。図１１は、検出範囲の移動の様子を説明するための図である。なお、顔検出処理部１４０が、検出範囲内の各画素値を比較する際には、顔学習データ１３０ａ、非顔学習データ１３０ｂ、比較対象データ１３０ｃ上に配置される検出範囲の位置が統一されているものとする。

　そして、顔検出処理部１４０は、比較対象データ１３０ｃ、顔学習データ１３０ａ、非顔学習データ１３０ｂの比較が終了した後に、比較結果テーブルを参照し、「バツ」の数よりも「マル」の数の方が多い場合には、入力画像に顔画像が含まれていると判定する。一方、「バツ」の数よりも「マル」の数のほうが少ない場合には、入力画像に顔画像が含まれていないと判定する。なお、「バツ」の数と「マル」の数が等しい場合には、管理者の設定により、顔画像が含まれていると判定しても良いし、顔画像が含まれていないと判定しても良い。

　なお、図９に示す例では、顔検出処理部１４０は、８変換係数毎に変換係数値を比較する例を示しているが、これに限定されるものではない。例えば、ｎ（ｎは、自然数）変換係数毎に変換係数値を比較することも出来る。また、図１０に示すように、必ずしも検出範囲毎に比較結果を保存する必要はなく、例えば、「マル」の数および「バツ」の数を集計し、集計結果のみを比較結果テーブルに保存しても良い。
　また、［非特許文献１］H.Schneiderman　and　T.　Kanade,　Object　Detection　Using　the　Statistics　of　Parts　To　appear　in　International　Journal　of　Computer　Vision,2002.　に記述されている顔検出技術を用いてもよい。本技術も、Wavelet変換係数上にて、顔学習データ、非顔学習データを用いて検出するので、本発明との整合性はよく、以降の手続きを融合して全体の処理を構成することもできる。

　顔検出処理部１４０は、縮小した画像データに対する物体検出処理が終了した場合には、動画像データから次のフレームを取得する。そして、顔検出処理部１４０は、縮小レベル管理データ１３０ｄに基づいて、次のフレームに含まれる画像データを縮小し、上述した処理を繰り返し実行する。

　次に、本実施例１にかかる画像処理装置１００の処理手順について説明する。図１２は、本実施例１にかかる画像処理装置１００の処理手順を示すフローチャートである。図１２に示すように、画像処理装置１００は、縮小レベル管理データ１３０ｄを取得し（ステップＳ１０１）、フレーム中の画像データを取得する（ステップＳ１０２）。

　そして、画像処理装置１００は、縮小レベル管理データ１３０ｄに対応する縮小レベルの画像を作成し（ステップＳ１０３）、縮小した画像に対して物体検出処理を実行する（ステップＳ１０４）。

　画像処理装置１００は、物体検出処理の検出結果を出力し（ステップＳ１０５）、縮小レベル管理データ１３０ｄを更新する（ステップＳ１０６）。画像処理装置１００は、ステップＳ１０１～１０６に示した処理を繰り返し実行する。

　上述してきたように、本実施例１にかかる画像処理装置１００は、縮小レベルを順次変更して、物体検出を実行する場合に、変更前の縮小レベルと変更後の縮小レベルとが隣り合う縮小レベルにならないように縮小レベルを変更して、物体検出を実行するので、物体検出に要する時間の短縮化を図ることができる。

　なお、本実施例１では、縮小レベルを順次変更して、物体検出を実行する場合に、変更前の縮小レベルと変更後の縮小レベルとが隣り合う縮小レベルにならないように縮小レベルを変更して、物体検出を実行していたが、縮小レベルを順（縮小レベル０，１，２，３，４，５，６，７の順又は、縮小レベル７，６，５，４，３，２，１，０の順）に変更して物体検出を行っても良い。

　次に、本実施例２にかかる画像処理装置について説明する。通常、画像処理装置が、画像データを縮小する場合には、２のべき乗分の１の縮小サイズが得られるような簡単な縮小方法と、より細かな縮小サイズを得るための複雑な縮小方法とを組合せて画像データを縮小している。

　例えば、簡単な縮小方法、複雑な縮小方法ともにレベル０～３までの４レベルで構成されている場合には、簡単な縮小方法と複雑な縮小方法とを組合せることにより、レベル０～レベル１５までの１６レベルの縮小を行うことになる。なお、レベルｎは、ｎ回縮小を繰り返すことを意味する。例えば、簡単な縮小方法のレベル２は、元の画像データに対して、２回簡単な縮小方法を繰り返す。

　以下の説明において、簡単な縮小方法のレベル０と、複雑な縮小方法のレベル０との組合せを、縮小レベル０とし、簡単な縮小方法のレベル０と、複雑な縮小方法のレベル１との組合せを、縮小レベル１とし、簡単な縮小方法のレベル０と、複雑な縮小方法のレベル２との組合せを、縮小レベル２とし、簡単な縮小方法のレベル０と、複雑な縮小方法のレベル３との組合せを、縮小レベル３と定義する。

　また、簡単な縮小方法のレベル１と、複雑な縮小方法のレベル０との組合せを、縮小レベル４とし、簡単な縮小方法のレベル１と、複雑な縮小方法のレベル１との組合せを、縮小レベル５とし、簡単な縮小方法のレベル１と、複雑な縮小方法のレベル２との組合せを、縮小レベル６とし、簡単な縮小方法のレベル１と、複雑な縮小方法のレベル３との組合せを、縮小レベル７と定義する。

　また、簡単な縮小方法のレベル２と、複雑な縮小方法のレベル０との組合せを、縮小レベル８とし、簡単な縮小方法のレベル２と、複雑な縮小方法のレベル１との組合せを、縮小レベル９とし、簡単な縮小方法のレベル２と、複雑な縮小方法のレベル２との組合せを、縮小レベル１０とし、簡単な縮小方法のレベル２と、複雑な縮小方法のレベル３との組合せを、縮小レベル１１と定義する。

　また、簡単な縮小方法のレベル３と、複雑な縮小方法のレベル０との組合せを、縮小レベル１２とし、簡単な縮小方法のレベル３と、複雑な縮小方法のレベル１との組合せを、縮小レベル１３とし、簡単な縮小方法のレベル３と、複雑な縮小方法のレベル２との組合せを、縮小レベル１４とし、簡単な縮小方法のレベル３と、複雑な縮小方法のレベル３との組合せを、縮小レベル１５と定義する。

　ここで、２のべき乗分の１に縮小する場合の簡単な縮小方法と、より細かな縮小サイズを得るための複雑な縮小方法について説明する。図１３は、簡単な縮小方法を説明するための図であり、図１４は、複雑な縮小方法を説明するための図である。

　図１３に示すように、２のべき乗分の１の縮小を行う場合には、画像データを複数のブロックに分割し、４つのブロックのピクセル値の平均値を求めることで、画像データを縮小する。図１３に示す例では、１／４に画像データを縮小している。

　例えば、縮小後のＰ[１，１]のピクセルは、
（Ｐ[２，２]＋Ｐ[３，２]＋Ｐ[２，３]＋Ｐ[３，３]）／４
によって算出することができる。縮小後のその他の座標に関しても、同様に算出することができる。

　一方、図１４に示すように、画像データを２のべき乗分の１以外に縮小する場合には、図１３に示した方法と比較して、計算が複雑となる。図１４に示す例では、画像データを５／８に縮小する場合を示している。かかる縮小方法では、各ピクセルの平均値を求めるだけではなく、各ピクセルの重み付けを算出しながら、縮小後のピクセルを算出する必要がある。

　例えば、縮小後のＰ[１，１]のピクセルは、
（Ｐ[１，１]×０．１６＋Ｐ[２，１]×０．４＋Ｐ[３，１]×０．０８＋Ｐ[１，２]×０．４＋Ｐ[２，２]×１＋Ｐ[３，２]×０．２＋Ｐ[１，３]×０．０８＋Ｐ[２，３]×０．２＋Ｐ[３，３]×０．０４）／２．５６
によって算出することができる。縮小後のその他の座標に関しても、同様に算出することができる。

　例えば、縮小レベル１５では、簡単な縮小方法のレベル３と、複雑な縮小方法のレベル３との組合せであるため、元の画像データに対して、３回簡単な縮小（図１３参照）を実行し、更に、３回複雑な縮小（図１４参照）を実行することになる。

　ところで、実施例１でも説明したように、学習データを作成する際に利用する顔画像集データには、様々なサイズの顔画像が含まれているため、画像領域に占める顔領域のサイズがやや大きめのものから、小さめのものまで存在する。このため、特定の縮小レベルに画像を縮小して物体検出を行うと、本来のサイズが検出できるのはもちろんのこと、本来のサイズよりも少し大きめ、あるいは少し小さめの顔画像も併せて検出できることが多い。

　例えば、縮小レベル２に顔画像を縮小して物体検出を行うと、本来のサイズ（縮小レベル２に縮小した顔画像のサイズ）よりも少し大きめの顔画像（縮小レベル１に縮小した顔画像に相当する顔画像）や、少し小さめの顔画像（縮小レベル３に縮小した顔画像に相当する顔画像）が見つかることが多い。

　例えば、上述の縮小レベル０、４、８、１２を実行して物体を検出することが出来れば、複雑な縮小処理を実行する必要がない他、同一の複雑な縮小レベルに属する縮小レベルを選択して実行することで複雑な縮小処理を最小限に抑えつつ複数の縮小レベルを処理できるため、画像縮小の負荷を抑えつつ、様々な大きさの顔を効率よく早期に検出することが可能となる。

　本実施例２にかかる画像処理装置は、上述した点に着目し、複雑な縮小処理を実行しない縮小レベル０，４，８，１２を他の縮小レベルよりも優先して選択して物体検出を実行する。図１５は、本実施例２にかかる画像処理装置の概要および特徴を説明するための図である。図１５では、黒丸は、ちょうどの大きさで顔が見つかる「可能性がある」ことを、右上がり斜線の丸は、近傍の大きさで顔が見つかる「可能性がある」ことを、チェック模様の丸は、ちょうどの大きさで顔が「実際に見つかった」ことを、つぶつぶ模様の丸は、近傍の大きさで顔が「実際に見つかった」ことをそれぞれ現している。

　ここでは、一例として、画像処理装置が、物体検出処理の１回目において、縮小レベル０、４にて画像データを縮小し、物体検出処理の２回目において、縮小レベル８、１２にて画像データを縮小し、物体検出処理の３回目において、縮小レベル２、６にて画像データを縮小し、物体検出処理の４回目において、縮小レベル１０、１４にて画像データを縮小し、物体検出処理の５回目において、縮小レベル１、５にて画像データを縮小し、物体検出処理の６回目において、縮小レベル９、１３にて画像データを縮小し、物体検出処理の７回目において、縮小レベル３、７にて画像データを縮小し、物体検出処理の８回目において、縮小レベル１１、１５にて画像データを縮小して物体検出を実行するものとする。

　例えば、図４に示すように、動画像中に顔１～３が存在しており、かかる動画像に対して、縮小レベルを図１５に示す順に変更して物体検出を実行した場合について説明を行う。ここで、顔１は、縮小レベル５に相当する顔画像であり、顔２は、縮小レベル２に相当する顔画像であり、顔３は、縮小レベル９に相当する顔画像とする。

　まず、画像処理装置は、動画像中の第１フレームにて、画像を縮小レベル０、４に縮小して物体検出を実行すると、縮小レベル５に相当する顔１を検出する。次に、画像処理装置は、第２フレームにて、画像を縮小レベル８、１２に縮小して物体検出を実行すると、縮小レベル９に相当する顔３を検出する。次に、画像処理装置は、第３フレームにて、画像を縮小レベル２、６に縮小して物体検出を実行すると、縮小レベル５に相当する顔１と、縮小レベル２に相当する顔２とを検出し、動画像中に含まれる顔１～３の検出が終了する。

　このように、本実施例２にかかる画像処理装置は、複雑な縮小処理を実行しない縮小レベルを優先して選択して、物体検出処理を実行する他、同一の複雑な縮小レベルに属する縮小レベルを選択して実行するため、複雑な縮小処理を実行すべき頻度を減らし、物体検出に要する時間の短縮化を図ることができる。

　また、本実施例２にかかる画像処理装置は、変更前の縮小レベルと変更後の縮小レベルとが連続しないように、縮小レベルを変更することで、物体検出処理を実行するので、物体検出に要する時間の短縮化を図ることができる。

　次に、本実施例にかかる画像処理装置の構成について説明する。図１６は、本実施例２にかかる画像処理装置２００の構成を示す機能ブロック図である。図１６に示すように、この画像処理装置２００は、変換処理部２１０と、分析処理部２２０と、記憶部２３０と、顔検出処理部２４０とを有する。

　このうち、変換処理部２１０と、分析処理部２２０の説明は、図５に示した変換処理部１１０と、分析処理部１２０と同様である。記憶部２３０は、顔学習データ２３０ａと、非顔学習データ２３０ｂと、比較対象データ２３０ｃと、縮小レベル管理データ２３０ｄとを記憶する記憶部である。

　このうち、顔学習データ２３０ａのデータ構造は、図６に示した顔学習データ１３０ａと同様である。また、非顔学習データ２３０ｂのデータ構造は、図７に示した非顔学習データ１３０ｂと同様である。また、比較対象データ２３０ｃのデータ構造は、図８に示した比較対象データ１３０ｃと同様である。

　縮小レベル管理データ２３０ｄは、縮小を行う際の縮小レベルの順序を管理するデータである。図１７は、縮小レベル管理データ２３０ｄのデータ構造の一例を示す図である。図１７に示すように、かかる縮小レベル管理データ２３０ｄは、順序と縮小レベルとを対応付けて記憶している。

　顔検出処理部２４０は、動画像データを取得した場合に、動画像データの各フレームに含まれる画像データから顔画像を検出する処理部である。顔検出処理部２４０は、検出結果を上位の装置（図示略）に出力する。以下において、顔検出処理部２４０の処理を具体的に説明する。

　まず、顔検出処理部２４０は、縮小レベル管理データ２３０ｄを参照し、縮小レベルを判定する。例えば、顔検出処理部２４０は、順序をカウンタなどで管理しており、カウンタの値と、縮小レベル管理データ２３０ｄとを比較して、縮小レベルを判定する。

　例えば、カウンタの値が「１」の場合には、縮小レベルは、縮小レベル０と縮小レベル４となる。顔検出処理部１４０は、縮小レベルを判定した後に、カウンタに１をインクリメントする。なお、カウンタの初期値を１とする。ここでは、一例として、顔検出処理部２４０が、カウンタを用いて縮小レベルを判定していたが、縮小レベルの判定方法はこれに限定されるものではない。

　顔検出処理部２４０は、縮小レベルを判定した後に、判定結果に基づいて画像データ（動画像データのフレームに含まれる画像データ）を縮小する。例えば、縮小レベルが縮小レベル０、４ならば、顔検出処理部２４０は、画像データを縮小レベル０および縮小レベル４に縮小する。

　次に、顔検出処理部２４０は、縮小した画像データに対して周波数変換処理（例えば、ウェーブレット変換）を実行する。そして、顔検出処理部２４０は、周波数変換を行った後に、周波数変換を行った画像データを量子化することにより、比較対象データ２３０ｃを作成する（２種類の縮小を行った場合には、比較対象データ２３０ｃは２つ生成される）。

　そして、顔検出処理部２４０は、記憶部２３０に記憶された顔学習データ２３０ａと、非顔学習データ２３０ｂと、比較対象データ２３０ｃとを比較して、画像データに顔画像が含まれているか否かを判定する。顔検出処理部２４０が、顔検出を行う際の処理は、図９と同様である。ただし、２つの比較対象データ２３０ｃが存在する場合には、それぞれの比較対象データ２３０ｃに対して、顔検出を実行する。

　そして、顔検出処理部２４０は、図５に示した顔検出処理部１４０と同様にして、検出結果を比較結果テーブルに登録する。比較結果テーブルのデータ構造は、図１０に示した比較結果テーブルのデータ構造と同様である。

　顔検出処理部２４０は、縮小した画像データに対する物体検出処理が終了した場合には、動画像データから次のフレームを取得する。そして、顔検出処理部２４０は、縮小レベル管理データ２３０ｄに基づいて、次のフレームに含まれる画像データを縮小し、上述した処理を繰り返し実行する。

　次に、本実施例２にかかる画像処理装置２００の処理手順について説明する。図１８は、本実施例２にかかる画像処理装置２００の処理手順を示すフローチャートである。図１８に示すように、画像処理装置２００は、縮小レベル管理データ２３０ｄを取得し（ステップＳ２０１）、フレーム中の画像データを取得する（ステップＳ２０２）。

　そして、画像処理装置２００は、縮小レベル管理データ２３０ｄに対応する複雑縮小レベル（複雑な縮小方法のレベル）の画像データを生成し（ステップＳ２０３）、縮小レベル管理データ２３０ｄに対応する簡単縮小レベル（簡単な縮小方法のレベル）の画像データを生成する（ステップＳ２０４）。

　画像処理装置２００は、縮小した画像データに対して物体検出処理を実行し（ステップＳ２０５）、全ての簡単縮小レベルが終了したか否かを判定する（ステップＳ２０６）。全ての簡単縮小レベルが終了していない場合には（ステップＳ２０７，Ｎｏ）、未処理の簡単縮小レベルの画像データを生成し（ステップＳ２０８）、ステップＳ２０５に移行する。一方、全ての簡単縮小レベルが終了している場合には（ステップＳ２０７，Ｙｅｓ）、検出結果を出力する（ステップＳ２０９）。画像処理装置２００は、図１８に示した処理を繰り返し実行する。

　上述してきたように、本実施例２にかかる画像処理装置２００は、動画像データを取得して、各フレームに含まれる画像データを縮小する場合に複雑な縮小処理を実行しない縮小レベルを他の縮小レベルよりも優先して選択して物体検出を実行する他、同一の複雑な縮小レベルに属する縮小レベルを選択して実行するため、縮小処理にかかる負荷を軽減し、物体検出処理を高速化することができる。

　なお、本実施例２にかかる画像処理装置２００は、一例として、１フレームにつき、２つの縮小レベルによって画像データを縮小する場合について説明したが、これに限定されるものではなく、上述して実施例１のように、１フレームにつき、１つの縮小レベルによって画像データを縮小し、物体検出を実行しても良い。

　ところで、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

　また、図５および図１６に示した画像処理装置１００，２００の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。なお、本実施例で説明した各種の処理手順は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。

　図１９は、本実施例にかかる画像処理装置１００（画像処理装置２００）を構成するコンピュータのハードウェア構成を示す図である。図１９に示すように、このコンピュータ（画像処理装置）３０は、入力装置３１、モニタ３２、ＲＡＭ（Random　Access　Memory）３３、ＲＯＭ（Read　Only　Memory）３４、ネットワークを介して他の装置と通信を行う通信制御装置３５、記憶媒体からデータを読み出す媒体読取装置３６、カメラ３７、ＣＰＵ（Central　Processing　Unit）３８、ＨＤＤ（Hard　Disk　Drive）３９をバス４０で接続している。

　そして、ＨＤＤ３９には、上述した画像処理装置１００の機能と同様の機能を発揮する画像処理プログラム３９ｂが記憶されている。ＣＰＵ３８が、画像処理プログラム３９ｂを読み出して実行することにより、画像処理プロセス３８ａが起動される。

　ここで、画像処理プロセス３８ａは、図５の変換処理部１１０、分析処理部１２０、顔検出処理部１４０に対応する。また、ＨＤＤ３９は、画像処理装置１００の記憶部１３０に記憶される情報に対応する各種データ３９ａを記憶する。ＣＰＵ３８は、ＨＤＤ３９に格納された各種データ３９ａを読み出して、ＲＡＭ３３に格納し、ＲＡＭ３３に格納された各種データ３３ａを利用して、画像データの縮小処理、物体検出を実行する。

　ところで、図１９に示した画像処理プログラム３９ｂは、必ずしも最初からＨＤＤ３９に記憶させておく必要はない。たとえば、コンピュータに挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」、または、コンピュータの内外に備えられるハードディスクドライブ（ＨＤＤ）などの「固定用の物理媒体」、さらには、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータに接続される「他のコンピュータ（またはサーバ）」などに画像処理プログラム３９ｂを記憶しておき、コンピュータがこれらから画像処理プログラム３９ｂを読み出して実行するようにしてもよい。

Claims

　顔画像の特徴を含む学習データを記憶する記憶手段と、
　動画像の入力を受け付ける入力手段と、
　前記入力手段が受け付けた動画像に含まれる各フレームのうち一のフレームを処理対象フレームとし、前記処理対象フレームの画像を、数段階の縮小レベルのうち第一のレベルに縮小することで、前記処理対象フレームの縮小画像を生成する縮小手段と、
　前記縮小手段により生成された縮小画像と前記学習データとを比較することで、該縮小画像から顔画像を抽出する抽出手段と、
　前記顔画像を抽出した結果を出力する出力手段とを有し、
　前記縮小手段は、前記処理対象フレームに対する顔画像の抽出が終了した後に、前記処理対象フレームを、該処理対象フレームに続く次のフレームに更新し、前記第一のレベルと隣り合う縮小レベルにならない他のレベルに縮小した縮小画像を生成することを特徴とする画像処理装置。
　前記縮小手段は、前記画像を縮小する手段として第一の縮小手段と、第二の縮小手段とを有し、前記抽出手段は、前記第一の縮小手段および／または前記第二の縮小手段によって縮小された縮小画像と、前記学習データとを比較することで、該縮小画像から顔画像を抽出することを特徴とする請求項１に記載の画像処理装置。
　画像処理装置が、
　顔画像の特徴を含む学習データを記憶装置に記憶する記憶ステップと、
　動画像の入力を受け付ける入力ステップと、
　前記動画像に含まれる各フレームのうち一のフレームを処理対象フレームとし、前記処理対象フレームの画像を、数段階の縮小レベルのうち第一のレベルに縮小することで、前記処理対象フレームの縮小画像を生成する縮小ステップと、
　前記縮小ステップにより生成された縮小画像と前記学習データとを比較することで、該縮小画像から顔画像を抽出する抽出ステップと、
　前記顔画像を抽出した結果を出力する出力ステップと、
　前記処理対象フレームに対する顔画像の抽出が終了した後に、前記処理対象フレームを、該処理対象フレームに続く次のフレームに更新し、前記第一のレベルと隣り合う縮小レベルにならない他のレベルに縮小した縮小画像を生成して、再度、前記縮小画像から顔画像を検出する再抽出ステップと、
　を含んでいることを特徴とする画像処理方法。
　前記縮小ステップは、前記画像を縮小する第一の縮小ステップと、第二の縮小ステップとを含み、前記抽出ステップは、前記第一の縮小ステップおよび／または前記第二の縮小ステップによって縮小された縮小画像と、前記学習データとを比較することで、該縮小画像から顔画像を抽出することを特徴とする請求項３に記載の画像処理方法。
　コンピュータに、
　顔画像の特徴を含む学習データを記憶装置に記憶する記憶手順と、
　動画像の入力を受け付ける入力手順と、
　前記動画像に含まれる各フレームのうち一のフレームを処理対象フレームとし、前記処理対象フレームの画像を、数段階の縮小レベルのうち第一のレベルに縮小することで、前記処理対象フレームの縮小画像を生成する縮小手順と、
　前記縮小手順により生成された縮小画像と前記学習データとを比較することで、該縮小画像から顔画像を抽出する抽出手順と、
　前記顔画像を抽出した結果を出力する出力手順とを実行させ、
　前記縮小手順は、前記処理対象フレームに対する顔画像の抽出が終了した後に、前記処理対象フレームを、該処理対象フレームに続く次のフレームに更新し、前記第一のレベルと隣り合う縮小レベルにならない他のレベルに縮小した縮小画像を生成することを特徴とする画像処理プログラム。
　前記縮小手順は、前記画像を縮小する第一の縮小手順と、第二の縮小手順とを有し、前記抽出手順は、前記第一の縮小手順および／または前記第二の縮小手順によって縮小された縮小画像と、前記学習データとを比較することで、該縮小画像から顔画像を抽出することを特徴とする請求項５に記載の画像処理プログラム。