WO2012098842A1

WO2012098842A1 - 特徴抽出装置、特徴抽出方法、特徴抽出プログラム、および、画像処理装置

Info

Publication number: WO2012098842A1
Application number: PCT/JP2012/000175
Authority: WO
Inventors: 芸芸曹; 西村　洋文; スギリプラナタ; ジーヘンニュー
Original assignee: パナソニック株式会社
Priority date: 2011-01-20
Filing date: 2012-01-13
Publication date: 2012-07-26
Also published as: EP2667353B1; JPWO2012098842A1; EP2667353A4; EP2667353A1; CN103026384A; US9053384B2; US20130163870A1; JP5861123B2; CN103026384B

Abstract

　ローカルバイナリパターンを用いつつ、撮影環境のばらつきに対してロバストな物体検出が可能な画像特徴を抽出することができる特徴抽出装置。特徴抽出部（４４０）は、画像の全部または一部の画素毎に、周囲の近傍画素との画素値の差分が所定の閾値以上であるか否かをビット値により示すローカルバイナリパターンを生成するバイナリパターン生成部（４４３）と、生成されたローカルバイナリパターン毎に、基の画素値の差分に応じた重みを決定する重み生成部（４４４）と、決定された重みを対応するローカルバイナリパターンに適用して、画像から生成されたローカルバイナリパターンの分布を示すヒストグラムを生成するヒストグラム生成部（４４５）とを有する。

Description

特徴抽出装置、特徴抽出方法、特徴抽出プログラム、および、画像処理装置

　本発明は、画像データから画像特徴を抽出する、特徴抽出装置、特徴抽出方法、特徴抽出プログラム、および、特徴抽出装置を用いた画像処理装置に関する。

　従来、画像データから画像特徴を抽出して、画像に含まれる物体を検出または識別すること（以下「物体検出」という）が、広く行われている。物体検出の技術の１つとして、ローカルバイナリパターン（ＬＢＰ：Local Binary Pattern）を用いる技術が、例えば非特許文献１に記載されている（以下「従来技術」という）。

　ローカルバイナリパターンは、画素毎に、周囲近傍の各画素との輝度の差分を二値化して並べたバイナリパターンである、ローカルバイナリパターンによれば、画像に含まれる濃淡パターンを抽出することができる。

　従来技術は、識別の対象となる画像（以下「対象画像」という）のある領域に対し、全画素または部分画素に対して、ローカルバイナリパターンを算出する。そして、従来技術は、ローカルバイナリパターンの値のヒストグラムを、画像特徴として生成する。また、従来技術は、予め、所定の物体を含む画像と含まない画像（以下「学習画像」と総称する）から同様に生成したヒストグラムに基づいて、識別器を生成して記憶しておく。そして、従来技術は、識別器を用いて対象画像のヒストグラムを評価し、対象画像に所定の物体が含まれているか否かを判断する。

　ローカルバイナリパターンのヒストグラムは、輝度勾配方向ヒストグラム（ＨＯＧ：Histograms of Oriented Gradients）等の画像特徴に比べて、テクスチャの違いや濃淡パターンをより高精度に表現することができる。また、ローカルバイナリパターンのヒストグラムは、輝度勾配方向ヒストグラム等の画像特徴に比べて、より少ない処理負荷で算出することが可能である。したがって、従来技術のようなローカルバイナリパターンを用いた物体検出は、様々な分野への適用が期待されている。

特開２００９－２１１１７９号公報

Timo Ahonen, Abdenour Hadid, and Matti Pietikainen, "Face Description with Local Binary Patterns: Application to Face Recognition," IEEE, Pattern Analysis and Machine Intelligence vol. 28 no. 12, pp. 2037-2041, December 2006 Navneet Dalal and Bill Triggs, "Histograms of oriented gradients for human detection," CVPR, 2005

　しかしながら、従来技術には、学習画像および対象画像の全てにおいて、撮影画像のノイズレベルの程度がほぼ同一でなければ、高精度に物体検出を行うことができないという課題がある。すなわち、従来技術には、学習画像および対象画像の全てにおいて撮影環境が似ていなければ、高精度に物体検出を行うことができないという課題がある。なぜなら、同じ対象物を写す場合であっても、ノイズレベルが異なることでローカルバイナリパターンは異なる場合があり、このようなローカルバイナリパターンの差異は画像全体において発生し得るからである。

　本発明の目的は、ローカルバイナリパターンを用いつつ、撮影環境のばらつきに対してロバストな物体検出が可能な画像特徴を抽出することができる、特徴抽出装置、特徴抽出方法、特徴抽出プログラム、および画像処理装置を提供することである。

　本発明の特徴抽出装置は、画像の全部または一部の画素毎に、周囲の近傍画素との画素値の差分が所定の閾値以上であるか否かをビット値により示すローカルバイナリパターンを生成するバイナリパターン生成部と、生成された前記ローカルバイナリパターン毎に、基の前記画素値の差分に応じた重みを決定する重み生成部と、決定された前記重みを対応する前記ローカルバイナリパターンに適用して、前記画像から生成された前記ローカルバイナリパターンの分布を示すヒストグラムを生成するヒストグラム生成部とを有する。

　本発明の画像処理装置は、所定の物体を識別するための識別器を用いて、上記特徴抽出装置により生成された前記ヒストグラムから、前記画像に前記所定の物体が含まれるか否か判断する識別部を有する。

　本発明の特徴抽出方法は、画像の全部または一部の画素毎に、周囲の近傍画素との画素値の差分が所定の閾値以上であるか否かを各ビット値により示すローカルバイナリパターンを生成するステップと、生成された前記ローカルバイナリパターン毎に、基の前記画素値の差分に応じた重みを決定するステップと、決定された前記重みを対応する前記ローカルバイナリパターンに適用して、前記画像から生成された前記ローカルバイナリパターンの分布を示すヒストグラムを生成するステップとを有する。

　本発明の特徴抽出プログラムは、コンピュータに、画像の全部または一部の画素毎に、周囲の近傍画素との画素値の差分が所定の閾値以上であるか否かを各ビット値により示すローカルバイナリパターンを生成する処理と、生成された前記ローカルバイナリパターン毎に、基の前記画素値の差分に応じた重みを決定する処理と、決定された前記重みを対応する前記ローカルバイナリパターンに適用して、前記画像から生成された前記ローカルバイナリパターンの分布を示すヒストグラムを生成する処理とを実行させる。

　本発明によれば、ローカルバイナリパターンを用いつつ、撮影環境のばらつきに対してもロバストな物体検出が可能なヒストグラムを、画像の画像特徴として抽出することができる。

本発明の一実施の形態に係る特徴抽出装置を含む物体検出システムの構成を示すシステム構成図本実施の形態における特徴抽出部の詳細な構成を示すブロック図本実施の形態に係る物体検出装置の動作を示すフローチャート本実施の形態における画像スキャンの様子の一例を示す模式図本実施の形態における近傍領域のシフトの様子の一例を示す模式図本実施の形態におけるヒストグラムの生成処理の一例の概要を示す模式図本実施の形態におけるヒストグラムの正規化の様子の一例を示す図本実施の形態における対象画像のヒストグラムの一例を示す図従来技術により生成されるヒストグラムの一例を示す図本実施の形態におけるヒストグラムの生成処理の他の例の概要を示す模式図従来技術によるヒストグラムの生成処理の概要を示す模式図

　以下、本発明の一実施の形態について、図面を参照して詳細に説明する。

　図１は、本発明の一実施の形態に係る特徴抽出装置を含む物体検出システムの構成を示すシステム構成図である。図１では、各装置の構成についても併せて図示する。

　図１において、物体検出システム１００は、識別器学習装置２００、識別器記憶装置３００、および、物体検出装置４００を有する。識別器学習装置２００および物体検出装置４００は、例えば、インターネット等の通信ネットワーク（図示せず）を介して、識別器記憶装置３００にそれぞれ接続可能となっている。

　識別器学習装置２００においては、機械学習手法としてＢｏｏｓｔｉｎｇを用いる。識別器学習装置２００は、予め用意された学習画像から、検出の対象となる物体（以下「検出対象物体」という）を検出するための識別器を学習し、学習結果である識別器を識別器記憶装置３００に記憶させる。

　識別器学習装置２００は、学習用データ記憶部２１０と、特徴抽出領域取得部２２０と、本発明に係る特徴抽出装置を含む特徴抽出部２３０と、学習部２４０とを有する。

　学習用データ記憶部２１０は、検出対象物体を含む複数の学習画像（ポジティブサンプル）と、検出対象物体を含まない複数の学習画像（ネガティブサンプル）とを予め格納する。

　特徴抽出領域取得部２２０は、学習用データ記憶部２１０に格納された学習画像毎に、特徴抽出領域を取得し、取得した特徴抽出領域を特徴抽出部２３０へ出力する。

　特徴抽出領域とは、画像特徴の抽出の対象となる画像領域である。例えば、検出対象が人の顔である場合には、特徴抽出領域は、人の顔部品、例えば、眼、または鼻等の画像領域を含むランダムに配置された多数の画像領域とすることができる。また、検出対象が人の全身である場合には、特徴抽出領域は、例えば、頭部、腕、足等の画像領域を含むランダムに配置された多数の画像領域とすることができる。

　特徴抽出部２３０は、特徴抽出領域毎に、その画像特徴を抽出し、学習部２４０へ出力する。より具体的には、特徴抽出部２３０は、まず、特徴抽出領域の全部または一部の画素毎に、ローカルバイナリパターンを生成する。そして、特徴抽出部２３０は、生成されたローカルバイナリパターンの分布を示すヒストグラム（以下、単に「ヒストグラム」という）を、その特徴抽出領域の画像特徴として生成する。

　ローカルバイナリパターンとは、上述の通り、注目画素と、その周囲の近傍画素との画素値の差分が所定の閾値以上であるか否かをビット値により示す情報である。

　但し、特徴抽出部２３０は、ヒストグラムを生成する際に、ローカルバイナリパターンに対して基の画素値の差分に応じた重み付けを行う。

　学習部２４０は、１つまたは複数の識別器を生成する。この１つまたは複数の識別器は、ポジティブサンプルから得られたヒストグラム群と、ネガティブサンプルから得られたヒストグラム群とに基づいて、検出対象物体が含まれる画像と含まれない画像とを区分するためのものである。すなわち、学習部２４０は、識別器として、特徴抽出領域情報と、特徴抽出領域情報に対応する識別情報とを生成する。そして、学習部２４０は、識別器記憶装置３００に対して、生成した識別情報を特徴抽出領域情報と共に送信し、特徴抽出領域情報と組み付けて記憶させる。

　特徴抽出領域情報とは、特徴抽出領域の範囲を示す情報であり、例えば、特徴抽出領域の位置およびサイズを含む。識別情報とは、対象画像の特徴抽出領域のヒストグラムを評価し、対象画像に所定の物体が含まれているか否かを判定するための情報である。

　物体検出装置４００は、識別器記憶装置３００に記憶された識別器を取得して、対象画像に対する物体検出を行う。

　物体検出装置４００は、カメラ４１０と、画像入力部４２０と、特徴抽出領域取得部４３０と、本発明に係る特徴抽出装置を含む特徴抽出部４４０と、識別部４５０とを有する。

　カメラ４１０は、対象画像の撮影を行い、対象画像を画像入力部４２０へ出力する。

　画像入力部４２０は、対象画像を、予め定められたサイズのウィンドウでスキャンし、スキャンした個々の画像領域（以下「窓領域」という）を、特徴抽出領域取得部４３０へ出力する。

　特徴抽出領域取得部４３０は、窓領域毎に、その窓領域のうち、識別器記憶装置に記憶された特徴抽出領域情報が示す範囲を、特徴抽出領域として取得する。そして、特徴抽出領域取得部４３０は、取得した特徴抽出領域を、特徴抽出部４４０へ出力する。

　なお、特徴抽出領域取得部４３０が窓領域に対して行う処理と、上述の特徴抽出領域取得部２２０が学習画像に対して行う処理は類似している。すなわち、特徴抽出領域取得部２２０は、例えば、ランダムに配置された多くの領域の全てを特徴抽出領域として取得する。これに対し、特徴抽出領域取得部４３０は、識別器記憶装置３００から、既に学習部２４０によって選択された特徴抽出領域情報が示す領域のみを、特徴抽出領域として取得する。

　よって、特徴抽出領域取得部４３０および特徴抽出領域取得部２２０については、以下、適宜、一方の構成および動作の説明をもって、他方の構成および説明の説明を省略する。

　特徴抽出部４４０は、特徴抽出領域毎に、その画像特徴を抽出し、識別部４５０へ出力する。より具体的には、特徴抽出部４４０は、特徴抽出領域の画素毎にローカルバイナリパターンを生成し、ローカルバイナリパターンのヒストグラムを、その特徴抽出領域の画像特徴として生成する。

　但し、特徴抽出部４４０は、ヒストグラムが生成される際に、ローカルバイナリパターンに対して基の画素値の差分に応じた重み付けを行う。換言すると、特徴抽出部４４０は、個々のローカルバイナリパターンのマグニチュードを考慮して、ヒストグラムを生成する。

　なお、特徴抽出部４４０が行う処理と、上述の特徴抽出部２３０が行う処理とは同一であるため、以下、適宜、一方の構成および動作の説明をもって他方の構成および動作の説明を省略する。

　識別部４５０は、識別器記憶装置３００が記憶する識別情報を取得する。識別部４５０は、取得した識別情報を用いて、画像入力部４２０がスキャンした窓領域から生成されたヒストグラムから、対象画像に検出対象物体が含まれるか否か判断する。そして、識別部４５０は、判断結果を、例えば画像表示装置や音声出力装置（図示せず）を介して、ユーザに通知する。

　図２は、特徴抽出部４４０の詳細な構成を示すブロック図である。

　図２において、特徴抽出部４４０は、画素近傍取得部４４１、近傍差分計算部４４２、バイナリパターン生成部４４３、重み生成部４４４、およびヒストグラム生成部４４５を有する。

　画素近傍取得部４４１は、特徴抽出領域に対し、注目画素をシフトさせていく。画素近傍取得部４４１は、注目画素毎に、注目画素を中心とする３×３の領域（以下「近傍領域」という）の９個の画素値を取得する。そして、画素近傍取得部４４１は、近傍領域毎に、取得した９個の画素値を、近傍差分計算部４４２へ出力する。

　画素値としては、例えば、画像にエッジ強調などの前処理を施した輝度値の一次微分や二次微分により得られる値、あるいは、赤、青、緑の輝度を一つのベクトル値として表現したカラー値等、各種の値を採用することができる。本実施の形態では、画素値は、輝度値であるものとする。

　近傍差分計算部４４２は、近傍領域毎に、注目画素と周囲の各近傍画素との輝度値の差分を算出し、８個の算出結果（以下「近傍差分」という）を得る。そして、近傍差分計算部４４２は、各近傍領域の近傍差分を、バイナリパターン生成部４４３および重み生成部４４４へ出力する。

　バイナリパターン生成部４４３は、近傍領域毎に、各近傍差分が所定の閾値以上であるか否かを示すビット値を所定の順序で並べた符号を生成する。そして、バイナリパターン生成部４４３は、生成した符号を、ローカルバイナリパターンとしてヒストグラム生成部４４５へ出力する。

　重み生成部４４４は、近傍領域毎に、８個の近傍差分の絶対値の総和を、対応するローカルバイナリパターンに対する重みとして決定し、ヒストグラム生成部４４５へ出力する。

　ヒストグラム生成部４４５は、特徴抽出領域毎に、ローカルバイナリパターンのヒストグラムを生成し、図１の識別部４５０へ出力する。

　但し、この際、ヒストグラム生成部４４５は、ローカルバイナリパターンが入力される毎に、そのローカルバイナリパターンに対応するビンの値に、そのローカルバイナリパターンに対応して入力された重みを加算する。

　なお、識別器学習装置２００および物体検出装置４００は、例えば、それぞれ、ＣＰＵ（central processing unit）およびＲＡＭ（random access memory）等の記憶媒体等を含むコンピュータの構成を取ることができる。この場合、識別器学習装置２００および物体検出装置４００は、記憶する制御プログラムをＣＰＵが実行することによってそれぞれ動作する。

　また、物体検出装置４００は、その計算のみを行う専用チップにしても良い。また、識別器記憶装置３００は、例えば、半導体メモリやハードディスク等の記憶媒体を含むネットワークサーバである。

　上述のように重み付けがされたヒストグラムでは、輝度差（コントラスト）が大きい近傍領域のローカルバイナリパターンの度数が、相対的に高くなる。すなわち、被写体の濃淡パターンを明瞭に表す近傍領域のローカルバイナリパターンの度数が、相対的に高くなる。そして、ノイズにより生じた誤ったバイナリパターンに対応する度数は、相対的に低くなる。

　このような画像特徴を用いて、識別器を生成し、物体検出を行った場合、個々のローカルバイナリパターンの信頼度を物体検出に反映させることが可能となる。

　したがって、本実施の形態に係る物体検出システム１００は、画像に対する物体検出に際して、ローカルバイナリパターンを用いた画像特徴であって、撮影環境のばらつきに対してロバストな物体検出が可能な画像特徴を、用いることができる。

　次に、物体検出装置４００の動作について説明する。なお、識別器学習装置２００における特徴抽出部２３０の動作は、物体検出装置４００における特徴抽出部４４０の動作と共通しているため、その説明を省略する。

　図３は、物体検出装置４００の動作を示すフローチャートである。

　まず、ステップＳ１１００において、画像入力部４２０は、対象画像を、予め定められたサイズのウィンドウでスキャンする。

　図４は、画像スキャンの様子の一例を示す模式図である。

　図４に示すように、画像入力部４２０は、対象画像５１０の全体を、予め定められたサイズのウィンドウ５１１でスキャンし、様々な位置から窓領域５１２を取得する。ウィンドウ５１１の位置によっては、図５に示すように、その窓領域５１２に検出対象物体５１３が含まれることになる。ウィンドウ５１１のサイズは、例えば、６４画素×１２８画素である。

　そして、図３のステップＳ１２００において、特徴抽出領域取得部４３０は、識別器学習装置２００の学習で得られ、識別器記憶装置に記憶した特徴抽出領域情報（位置、サイズ等）を１つ取得する。特徴抽出領域取得部４３０は、例えば、図４に示すように、人の頭部を含む矩形状の領域を、特徴抽出領域５２０として取得する。

　そして、ステップＳ１３００において、特徴抽出部４４０の画素近傍取得部４４１は、特徴抽出領域の画素を、注目画素として１つ選択し、注目画素を中心とする近傍領域を決定する。画素近傍取得部４４１は、後述のステップＳ１８００の判断処理によってステップＳ１３００へ戻る度に、未選択の画素を選択し、その結果、近傍領域をシフトさせていく。

　図５は、近傍領域のシフトの様子の一例を示す模式図である。

　図５に示したように、画素近傍取得部４４１は、特徴抽出領域５２０の全体において、注目画素５２１として選択する画素位置をシフトさせていく。この結果、注目画素５２１とこれを囲む８個の近傍画素５２２から成る３×３の近傍領域５２３が、特徴抽出領域５２０の全体について、順次、決定されていく。

　そして、図３のステップＳ１４００において、特徴抽出部４４０の近傍差分計算部４４２は、注目画素の輝度値と８個の近傍画素の輝度値のそれぞれとの差分（近傍差分）を算出する。

　そして、ステップＳ１５００において、特徴抽出部４４０のバイナリパターン生成部４４３は、近傍差分を２値化してローカルバイナリパターンを生成する。

　ここで、注目画素の輝度値をｇ_ｃ、近傍画素の数（本実施の形態では８）をＰ、近傍画素の順序をｐ、ｐ番目の近傍画素の輝度値をｇ_ｐ、近傍領域の半径に相当する画素数（本実施の形態では１）をＲと置く。この場合、ローカルバイナリパターンＬＢＰ_Ｐ，Ｒは、例えば、以下の式（１）で表される。なお、ｐ番目の近傍画素の座標は、［Ｒｃｏｓ（２πｐ／Ｐ），Ｒｓｉｎ（２πｐ／Ｐ）］と表される。

　そして、ステップＳ１６００において、特徴抽出部４４０の重み生成部４４４は、８個の近傍差分の絶対値の総和を、重みとして算出する。重みＷ_Ｐ，Ｒは、例えば、以下の式（２）で表される。

　そして、ステップＳ１７００において、ヒストグラム生成部４４５は、ヒストグラムを構成するビンのうちローカルバイナリパターンＬＢＰ_Ｐ，Ｒのビンに、重みＷ_Ｐ，Ｒを加算する。

　そして、ステップＳ１８００において、画素近傍取得部４４１は、特徴抽出領域に未処理の画素が存在するか否かを判断する。

　画素近傍取得部４４１は、未処理の画素が存在する場合（Ｓ１８００：ＹＥＳ）、ステップＳ１３００へ戻って未処理の画素を選択して処理を繰り返す。また、画素近傍取得部４４１は、特徴抽出領域の全てについて処理を完了した場合（Ｓ１８００：ＮＯ）、ステップＳ１９００へ進む。

　図６は、ある近傍領域のローカルバイナリパターンがヒストグラムに反映されるまでの処理の一例の概要を示す模式図である。

　図６に示すように、ある近傍領域５３１について、注目画素の輝度値ｇ_ｃを「１２８」とし、その近傍画素の輝度値ｇ_ｐを［２４４，１７８，４８，２７，２５３，２０８，２３８，２８］とする数値群５３２が取得されたものとする。

　なお、輝度値ｇ_ｐは、近傍画素の左上から時計回りに取得されるものとする。この場合、近傍差分（ｇ_ｐ－ｇ_ｃ）の数値群５３３は、［１１６，５０，－８０，－１０１，１２５，８０，１１０，－１００］となる。ここで、２値化の閾値を「０」とすると、近傍差分を２値化して得られる数値群５３４は、［１，１，０，０，１，１，１，０］となる。そして、ローカルバイナリパターン５３５は、「１１００１１１０」（１０進数では「２０６」）となる。

　また、重みＷの計算５３６は、近傍差分の絶対値｜ｇ_ｐ－ｇ_ｃ｜を合計する計算、つまり、Ｗ＝１１６＋５０＋８０＋１０１＋１２５＋８０＋１１０＋１００＝７６２となる。したがって、ヒストグラム生成部４４５は、重み「７６２」を、ビン「２０６」に加算して、ヒストグラム５３７を生成する。

　このような、該当ビンへの重みの加算を繰り返すことにより、最終的に、特徴抽出領域画像の特徴を表すヒストグラムが生成される。ヒストグラムＨ（ｋ）は、例えば、Ｉ×Ｊのサイズの特徴抽出領域から得られるローカルバイナリパターンの数の最大値をＫと置くと、以下の式（３）で表される。

　そして、図３のステップＳ１９００において、ヒストグラム生成部４４５は、ヒストグラムを、特徴抽出領域の大きさに依存しない特徴量に正規化する。具体的には、ヒストグラム生成部４４５は、例えば、ヒストグラム全てのビンの度数の総和で、ヒストグラムを正規化する。度数の総和ＳｕｍＨ_ｉは、ビンの数をＮ、ｉ番目のビンの度数をＨ_ｉ（ｉ＝１，２，・・・，Ｎ）と置くと、以下の式（４）により表される。

　そして、正規化されたヒストグラムのｉ番目のビンの度数Ｈ_ｉ'は、以下の式（５）により表される。

　図７は、ヒストグラムの正規化の様子の一例を示す図である。

　図７Ａに示すように、正規化前のヒストグラムの各ビンの度数Ｈ_１、Ｈ_２、・・・、Ｈ_８が、順に、「５，６，４，７，１０，５，８，３」であったとする。この場合、度数の総和ＳｕｍＨ_ｉは、以下の式（６）のように算出される。

　そして、正規化されたヒストグラムの各ビンの度数Ｈ_１'、Ｈ_２'、・・・、Ｈ_８'は、以下の式（７）のように算出され、図７Ｂに示すような値となる。

　図８は、対象画像から生成されるヒストグラムの一例を示す図である。

　図８に示すように、ヒストグラム５４０は、画像からより多く抽出されるローカルバイナリパターンのビンにおいてピーク（例えば、部分５４１で示す）を有する。

　ローカルバイナリパターンの分布を表すヒストグラム５４０の形は、画像に含まれる物体に応じて異なる。したがって、物体検出システム１００は、ヒストグラム５４０のピークがどこに現れ、そのピークの大きさがどの程度であるかを、検出対象物体を識別するための画像特徴として用いる。ピークと他の部分（例えば、部分５４２で示す）の度数との差が大きいヒストグラム５４０ほど、画像特徴をより強く表しており、そのような画像特徴を用いた場合には、高い精度で物体検出を行うことができる。

　そして、ステップＳ２０００において、識別部４５０は、正規化されたヒストグラムに基づいて、対象画像の特徴抽出領域のノイズレベル（以下「領域ノイズレベル」という）を算出する。

　具体的には、識別部４５０は、白い点や黒い点として画素単位で発生するノイズ（salt-and-pepper noise）に対応するビンの度数が相対的に高いとき、対象画像のノイズレベルが高いと判定する。

　このようなノイズに対応するビンは、具体的には、全ての近傍差分が正の値であるときのローカルバイナリパターンに対応するビン、つまり、１０進数で「２５５」に対応するビンである。

　または、ノイズに対応するビンは、全ての近傍差分が負の値であるときのローカルバイナリパターンに対応するビン、つまり、１０進数で「０」に対応するビンである。

　図９は、従来技術により生成される、重み付けが行われていないヒストグラムの一例を示す図であり、図８に対応するものである。

　図９に示すように、従来技術のヒストグラム５４０では、部分５４１等で示すピークと、部分５４２等で示す他の部分との差が、図８に比べて小さい。これは、ヒストグラム５４０に対する信頼度の低い情報の寄与の度合いが高いためである。部分５４１、５４２の差が大きいほど、ヒストグラム５４０は画像特徴をより強く表しているといえ、そのようなヒストグラム５４０は、物体の有無を高い精度で表すことができる。

　また、このような重み付けにより、上述のノイズレベルの判定の精度も向上する。

　従来技術では、微小な輝度差でローカルバイナリパターンが１０進数「０」または「２５５」となったケースが、大きな輝度差でローカルバイナリパターンが１０進数「０」または「２５５」となったケースと同様に取り扱われる。すなわち、従来技術は、ノイズを示す可能性が非常に高い画素に基づいて、１０進数「０」または「２５５」のローカルバイナリパターンのビンの度数を増加させてしまう。

　この結果、従来技術では、図９の部分５４３、５４４に示すように、１０進数「０」または「２５５」のビンの値は、実際のノイズレベルは同一であるにもかかわらず、相対的に高くなってしまう。そして、１０進数「０」または「２５５」のビンの度数に基づいて物体検出を行うと、判定精度が低下してしまう。

　これに対し、物体検出装置４００によるヒストグラム５４０では、微小な輝度差の場合には、１０進数「０」または「２５５」のビンの度数が低く抑えられる。このように、図８と図９の比較からも、本実施の形態に係る物体検出システム１００が、従来技術に比べて、ノイズレベルの判定を高い精度で行うことができることが分かる。

　この場合、識別部４５０は、例えば、従来技術を適用したヒストグラムを併せて生成し、「０」ビンの比較および「２５５」のビンの比較に基づいて、対象画像のノイズレベルを判定するようにしても良い。すなわち、この場合、識別部４５０は、例えば、図８の部分５４３と図９の部分５４３とを比較し、図８の部分５４４と図９の部分５４４とを比較することになる。

　そして、ステップＳ２１００において、識別部４５０は、識別器記憶装置３００から識別器を取得する。そして、識別部４５０は、取得した識別器を用い、正規化後のヒストグラムに基づいて、現在の特徴抽出領域に検出対象物体が含まれているか否かを判定するための尤度を示すスコアを算出する。

　そして、ステップＳ２２００において、物体検出装置４００は、算出したスコアを累積加算する。

　そして、ステップＳ２３００において、特徴抽出領域取得部４３０は、未処理の特徴抽出領域があるか否かを判断する。すなわち、特徴抽出領域取得部４３０は、識別器記憶装置３００に記憶された特徴抽出領域情報に対応する全ての特徴抽出領域について、スコアを算出したか否かを判断する。

　特徴抽出領域取得部４３０は、未処理の特徴抽出領域がある場合には（Ｓ２３００：ＹＥＳ）、ステップＳ１２００へ戻り、未処理の特徴抽出領域に対する処理に移る。また、特徴抽出領域取得部４３０は、全ての特徴抽出領域について処理を完了した場合には（Ｓ２３００：ＮＯ）、ステップＳ２４００へ進む。

　そして、ステップＳ２４００において、全ての特徴抽出領域の領域ノイズレベルを用いて、スキャンしたウィンドウのノイズレベルを判定する。

　そして、ステップＳ２５００において、識別部４５０は、スキャンされたウィンドウ毎に、累積加算されたスコアの値に基づいて、検出対象物体が含まれているか否かを判定する。すなわち、識別部４５０は、スコアが所定の閾値以上となっている場合には、そのウィンドウに検出対象物体が含まれていると判定する。なお、識別部４５０は、スコアに対して所定の関数を適用した結果に基づいて、この判定を行っても良い。

　そして、ステップＳ２６００において、識別部４５０は、物体検出の判定結果を出力する。

　なお、識別部４５０は、指定された物体が対象画像に含まれるか否かを判定しても良いし、対象画像にどのような物体が含まれるかを判定しても良い。前者の場合には、識別部４５０は、例えば、指定された物体に対応する識別器のみを用いて、その物体が含まれるか否かのみを示す情報を出力すれば良い。また、後者の場合には、識別部４５０は、複数の識別器を順次適用して判定を繰り返し、物体が検出されたとき、どの物体が検出されたかを示す情報を出力すれば良い。

　そして、ステップＳ２７００において、画像入力部４２０は、操作等により処理の終了を指示されたか否かを判断する。

　画像入力部４２０は、処理の終了を指示されていない場合（Ｓ２７００：ＮＯ）、ステップＳ１１００へ戻り、次のスキャンまたは次の対象画像に対する処理に移る。また、画像入力部４２０は、処理の終了を指示された場合（Ｓ２７００：ＹＥＳ）、一連の処理を終了する。

　このような動作により、物体検出装置４００は、近傍差分に応じた重み付けを行って、ローカルバイナリパターンのヒストグラムを生成し、これを画像特徴として用いて、物体検出を行うことができる。なお、説明は省略したが、識別器学習装置２００も、同様に、近傍差分に応じた重み付けを行って、ローカルバイナリパターンのヒストグラムを生成し、これを画像特徴として用いて、物体検出のための識別器を生成する。

　ここで、近傍差分に応じた重み付けを行ったヒストグラムが、撮影環境のばらつきに対してロバストな物体検出が可能な画像特徴であることについて説明する。

　図１０は、物体検出システム１００において、コントラストの低い画像から取得されたローカルバイナリパターンについてのヒストグラムの生成処理の一例の概要を示す模式図であり、図６に対応するものである。

　図１０に示すように、ある近傍領域５５１の注目画素の輝度値ｇ_ｃを「１２８」とし、その近傍画素の輝度値ｇ_ｐを［１３３，１４８，１１５，１１３，１５９，１６６，２０２，１１２］とする数値群５５２が取得されたものとする。これは、図６に示す場合よりもコントラストが低い対象画像が撮影され、エッジが検出し難い状態を示す。

　この場合、近傍差分（ｇ_ｐ－ｇ_ｃ）の数値群５５３は、［５，２０，－１３，－１５，３１，３８，７４，－１６］となる。そして、近傍差分を２値化して得られる数値群５５４は、［１，１，０，０，１，１，１，０］となり、ローカルバイナリパターン５５５は、「１１００１１１０」（１０進数では「２０６」）となる。

　また、重みＷの計算５５６は、Ｗ＝５＋２０＋１３＋１５＋３１＋３８＋７４＋１６＝２１２となる。このため、ヒストグラム５５７は、重み「２１２」がビン「２０６」に加算されて、生成される。

　図１１は、従来技術による、重き付けを行わないヒストグラムの生成処理の概要を示す模式図であり、図６に対応するものである。図６と同一部分には同一符号を付し、これについての説明を省略する。

　従来技術は、本実施の形態に係る物体検出システム１００と同様に、図６および図１１に示す近傍領域５３１から、「１１００１１１０」（１０進数では「２０６」）というローカルバイナリパターン５３５を算出する。ところが、従来技術は、上述した重み付けを行わず、例えば「１」等の固定値を、ビン「２０６」に加算して、ヒストグラム５６１を生成する。すなわち、従来技術により生成されるヒストグラムＨ（ｋ）は、以下の式（８）で表される。

　低照度の環境で撮影された画像の場合、輝度差が濃淡パターンを高精度に表している可能性は低い。したがって、コントラストが高い場合に得られたローカルバイナリパターン５３５（図６参照）と、コントラストが低い場合に得られたローカルバイナリパターン５５５（図１０参照）とを同格に扱うと、ヒストグラムは、信頼度の低い情報の寄与の度合いが高くなる。ひいては、ヒストグラムから生成される識別器の精度や、ヒストグラムを用いて行われる物体検出の精度は、低くなる。

　そこで、上述の通り、特徴抽出部２３０、４４０は、コントラストとの相関が高い近傍差分の絶対値の和を重みとして算出し、重み付けを行ってヒストグラムを生成する。すなわち、特徴抽出部２３０、４４０は、同じ撮影対象であっても画質によって変化し得るローカルバイナリパターンについて、各ローカルバイナリパターンの信頼度を、近傍差分の絶対値の和により数値化する。数値化された信頼度は、例えば、「７６２」と「２１２」というようになる。そして、その数値化された信頼度を、度数を加算する際の重みとして、ヒストグラムに反映させる。これにより、特徴抽出部２３０、４４０は、ローカルバイナリパターンを用いつつ、撮影環境のばらつきに対してロバストな物体検出が可能なヒストグラムを、画像特徴として抽出することができる。

　以上のように、本実施の形態に係る物体検出システム１００は、ローカルバイナリパターンの分布を示すヒストグラムを生成する際に、各注目画素に対し、近傍領域における輝度値との差分に応じた重み付けを行う。これにより、物体検出システム１００は、画像の明るさやノイズレベルの違いに対してロバストな画像特徴を抽出することができる。つまり、物体検出システム１００は、撮影環境のばらつきに対してロバストな物体検出が可能な画像特徴を抽出することができる。

　なお、以上説明した実施の形態では、識別器学習装置２００、識別器記憶装置３００、および物体検出装置４００が別々に構成されている例について説明したが、これに限定されない。すなわち、これらの２つまたは全ては、１つの装置として一体的に構成されていても良い。特に、識別器学習装置２００と物体検出装置４００とが一体的に構成される場合には、特徴抽出領域取得部２２０、４３０や、特徴抽出部２３０、４４０は、それぞれ、共通の機能部として構成することができる。また、本実施の形態では、機械学習手法としてＢｏｏｓｔｉｎｇを用いたが、ＳＶＭ（Support Vector Machine）や決定木（Decision Tree）等、他の機械学習手法を用いてもよい。

　２０１１年１月２０日出願の特願２０１１－０１０２３８の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

　本発明に係る特徴抽出装置、特徴抽出方法、特徴抽出プログラム、および画像処理装置は、ローカルバイナリパターンを用いつつ、撮影環境のばらつきに対してロバストな物体検出が可能な画像特徴を抽出することができる特徴抽出装置、特徴抽出方法、および特徴抽出プログラム、並びに、このような特徴抽出装置を用いた画像処理装置として有用である。

　１００　物体検出システム
　２００　識別器学習装置
　２１０　学習用データ記憶部
　２２０、４３０　特徴抽出領域取得部
　２３０、４４０　特徴抽出部
　２４０　学習部
　３００　識別器記憶装置
　４００　物体検出装置
　４１０　カメラ
　４２０　画像入力部
　４４１　画素近傍取得部
　４４２　近傍差分計算部
　４４３　バイナリパターン生成部
　４４４　重み生成部
　４４５　ヒストグラム生成部
　４５０　識別部

Claims

　画像の全部または一部の画素毎に、周囲の近傍画素との画素値の差分が所定の閾値以上であるか否かをビット値により示すローカルバイナリパターンを生成するバイナリパターン生成部と、
　生成された前記ローカルバイナリパターン毎に、基の前記画素値の差分に応じた重みを決定する重み生成部と、
　決定された前記重みを対応する前記ローカルバイナリパターンに適用して、前記画像から生成された前記ローカルバイナリパターンの分布を示すヒストグラムを生成するヒストグラム生成部と、を有する、
　特徴抽出装置。
　前記ローカルバイナリパターンは、前記画素に対して所定の相対位置にある複数の前記近傍画素との前記差分が前記所定の閾値以上であるか否かを示すデジタル値を所定の順序で並べた符号である、
　請求項１記載の特徴抽出装置。
　前記重みは、前記複数の近傍画素についての前記差分の絶対値の総和に応じた重みである、
　請求項２記載の特徴抽出装置。
　前記重み生成部は、
　生成された前記ローカルバイナリパターンのそれぞれについて、前記絶対値の和を重みとして決定し、
　前記ヒストグラム生成部は、
　前記ローカルバイナリパターンが生成される毎に、当該ローカルバイナリパターンに対応するビンの値に当該ローカルバイナリパターンに対応する前記重みを加算して、前記ヒストグラムを生成する、
　請求項３記載の特徴抽出装置。
　前記ヒストグラム生成部は、
　前記ヒストグラムに対して正規化処理を行う、
　請求項４記載の特徴抽出装置。
　所定の物体を識別するための識別器を用いて、請求項１から請求項５のいずれかに記載の特徴抽出装置により生成された前記ヒストグラムから、前記画像に前記所定の物体が含まれるか否か判断する識別部を有する、
　画像処理装置。
　前記識別器は、
　前記近傍画素の全ての前記差分が正の値であるときの前記ローカルバイナリパターンに対応するビンの値、および、前記近傍画素の全ての前記差分が負の値であるときの前記ローカルバイナリパターンに対応するビンの値の少なくとも１つに基づいて、前記画像のノイズのレベルを判断する、
　請求項６記載の画像処理装置。
　画像の全部または一部の画素毎に、周囲の近傍画素との画素値の差分が所定の閾値以上であるか否かを各ビット値により示すローカルバイナリパターンを生成するステップと、
　生成された前記ローカルバイナリパターン毎に、基の前記画素値の差分に応じた重みを決定するステップと、
　決定された前記重みを対応する前記ローカルバイナリパターンに適用して、前記画像から生成された前記ローカルバイナリパターンの分布を示すヒストグラムを生成するステップと、を有する、
　特徴抽出方法。
　コンピュータに、
　画像の全部または一部の画素毎に、周囲の近傍画素との画素値の差分が所定の閾値以上であるか否かを各ビット値により示すローカルバイナリパターンを生成する処理と、
　生成された前記ローカルバイナリパターン毎に、基の前記画素値の差分に応じた重みを決定する処理と、
　決定された前記重みを対応する前記ローカルバイナリパターンに適用して、前記画像から生成された前記ローカルバイナリパターンの分布を示すヒストグラムを生成する処理と、を実行させる、
　特徴抽出プログラム。