WO2011096010A1

WO2011096010A1 - パターン認識装置

Info

Publication number: WO2011096010A1
Application number: PCT/JP2010/000603
Authority: WO
Inventors: 伊藤聡
Original assignee: 株式会社東芝
Priority date: 2010-02-02
Filing date: 2010-02-02
Publication date: 2011-08-11

Abstract

　パターン認識装置は、学習サンプルを用いて、Ｍ個の学習特徴セットからＫ個（Ｍ＞Ｋ）の学習特徴セットを選択するか否かを表すフラグ値と、選択されたＫ個の前記学習特徴セットからなる学習特徴ベクトルを線形変換するための線形変換パラメータを学習し、この学習に用いる目的関数が極小値となる前記線形変換パラメータと前記フラグ値を学習する。

Description

パターン認識装置

　本発明は、学習動作と認識動作を行うパターン認識装置に関する。

　非特許文献１には、入力パターンの属性が複数存在して、属性毎に線形変換で認識する場合に、各属性に対する線形変換パラメータのＬ２ノルムに関する全ての特徴量における和による正則化を行うことで、全ての属性の認識に同じ特徴量を選択して用いることができる技術が記載されている。

　また、非特許文献２には、１つ以上の特徴量からなる特徴セットがあり、特徴セットが複数ある場合に、同一特徴セット内の特徴量に対する線形変換パラメータのＬ∞ノルムに関する全ての特徴セットにおける和による正則化を行うことで、認識に有効な少数の特徴セットを選択することができる技術が記載されている。

A.Argyriou, T.Evgeniou,and M.Pontil,Multi-Task Feature Learning,Advances in Neural Information Processing Systems,Canada,2006. H.Zou and M.Yuan,The∞-norm Support Vector Machine,Statistica Sinica,Vol.18,pages 379-398,2008.

　しかしながら、非特許文献１及び非特許文献２の従来技術では、学習時に解くべき最適化問題が大規模なものとなり、学習サンプル数や特徴数が多い場合に解くのが困難であるという問題点があった。

　そこで本発明は、上記問題点を解決するためになされたものであって、学習サンプル数や特徴量の数が多い場合においても高速に学習できるパターン認識装置を提供することを目的とする。

　本発明の一態様に係るパターン認識装置は、学習パターンと前記学習パターンの属性とを含む複数の学習サンプルを取得し、前記学習パターンから学習特徴ベクトルを抽出し、前記学習特徴ベクトルをＭ個（Ｍは２以上の自然数である）の学習特徴セットに分割するサンプル取得部と、前記学習サンプルを用いて、前記Ｍ個の学習特徴セットからＫ個（Ｍ＞Ｋ）の学習特徴セットを選択するか否かを表すフラグ値と、選択されたＫ個の前記学習特徴セットを有する学習特徴ベクトルを前記属性の確からしさを示す属性値に線形変換するための線形変換パラメータを学習する学習部と、属性を認識しようとする入力パターンを取得し、前記Ｍ個の学習特徴セットと同様に設定されるＭ個の入力特徴セットのうちＫ個の入力特徴セットを前記フラグ値に基づいて選択し、前記選択したＫ個の入力特徴セットを有する入力特徴ベクトルを前記入力パターンから抽出するパターン取得部と、前記選択したＫ個の入力特徴セットを有する前記入力特徴ベクトルを、前記線形変換パラメータを用いて線形変換して前記属性値を求め、前記属性値から前記入力パターンの属性を認識する認識部と、を有し、前記学習部は、前記フラグ値により選択された前記学習特徴セットを有する前記学習特徴ベクトルを前記線形変換パラメータを用いて線形変換して算出された値と、前記学習サンプルの前記属性を表す属性値との差が大きいほど損失が大きくなる損失項と、前記線形変換パラメータの偏りが小さいほどに小さい値となる第１の正則化項と、前記フラグ値により選択された前記学習特徴セットの数が少ないほど小さくなる第２の正則化項との３つの項を有する目的関数に関して、前記目的関数が極小値となる前記線形変換パラメータと前記フラグ値を学習する。

　本発明によれば、学習サンプル数や特徴量の数が多い場合においても高速に学習できる。

　以下、本発明の一実施例のパターン認識装置について図面に基づいて説明する。

　まず、本実施例における用語について図４を用いて説明する。

　「特徴ベクトル」とは、複数の特徴量から構成され、かつ、Ｍ個（Ｍは２以上の自然数）の特徴セットを組み合わせたものである。

　「特徴セット」とは、特徴ベクトルを分割したものであり、少なくとも１つ以上の特徴量をそれぞれ有している。

　「パターン」とは、例えば、テキストデータ、画像データ、音声データ、統計データ、株価などの時系列データ、ＤＮＡ配列データなどの数値として表現できるものであればよい。このパターンから特徴ベクトルが抽出される。

　「学習パターン」とは、Ｍ個の特徴セットで構成する学習のために用いられるパターンである。

　「学習サンプル」とは、学習パターンと、この学習パターンの属性とからなる。

　「属性」とは、何らかの基準に従ってパターンに付与される値であり、様々なものが考えられる。例えば、パターンがテキストデータであれば、そのテキストがスパムであるか否かのフラグ、公的文書であるか否かのフラグ、又は、そのテキストの分類ラベルである。また、パターンが人物画像データであれば、年齢、身長、性別、顔向き、服装の種類、表情の種類、手荷物の有無、又は、特定の表情らしさの度合いである。属性が量的な値である場合には、線形変換後の値ｙがそのまま入力パターンの属性の認識結果となる。これに対し、例えば、スパムであるか否かのように２クラスの識別問題である場合には、線形変換後の値ｙの符号を入力パターンの属性の認識結果とすることができる。

　「属性値」とは、属性の確からしさを示すものであって、属性をプログラム上で扱えるように変換した数値のことである。例えば、属性が人物の年齢である場合は、属性の値（年齢）そのものが属性値であり、性別であれば、男性なら「１」、女性なら「－１」である。

　本発明の実施例１に係わるパターン認識装置１０について図１～図５に基づいて説明する。

　パターン認識装置１０の構成について図１に基づいて説明する。図１は、パターン認識装置１０のブロック図である。

　図１に示すように、パターン認識装置１０は、パターン取得部１１、認識部１２、サンプル取得部１３、学習部１４を有する。

　パターン取得部１１は、入力パターンを取得し、この入力パターンから入力特徴ベクトルを抽出する。次に、この入力特徴ベクトルをＭ個（Ｍは２以上の自然数）の入力特徴セットに分割する。

　認識部１２は、Ｍ個の入力特徴セットからＫ個（Ｍ＞Ｋ、Ｋは自然数）の入力特徴セット（以下、「選択入力特徴セット」と呼ぶ）を選択すると共に、選択入力特徴セットを有する入力特徴ベクトルを線形変換して、入力パターンの属性を認識する。

　サンプル取得部１３は、学習サンプルを外部から取得し、この学習サンプルにおける学習パターンから学習特徴ベクトルを抽出する。次に、この学習特徴ベクトルをＭ個の学習特徴セットに分割する。

　学習部１４は、Ｍ個の学習特徴セットからＫ個の学習特徴セット（以下、「選択学習特徴セット」と呼ぶ）を選択するためのフラグ値と、選択学習特徴セットを有する学習特徴ベクトルの線形変換パラメータとを学習する。

　パターン認識装置１０の動作について図２～図３に基づいて説明する。パターン認識装置１０の動作は、認識動作と学習動作との２つの動作があるので、これら２つの動作に分けて説明する。

　まず、パターン認識装置１０の認識動作について図２を用いて説明する。

　ステップＳ２１では、パターン取得部１１が、入力パターン（認識したいパターン）を取得する。

　次に、パターン取得部１１は、この入力パターンから入力特徴ベクトルｘを抽出する。入力特徴ベクトルｘは、パターンから一般に知られた様々な特徴抽出手法によって抽出できる。

　次に、パターン取得部１１は、入力パターンにおける入力特徴ベクトルｘをＭ個の入力特徴セットに分割する。入力特徴ベクトルをＭ個の入力特徴セットに分割する方法は、以下で説明する学習動作と同様に行う。

　次に、パターン取得部１１は、Ｍ個の入力特徴セットからＫ個の選択入力特徴セットを選択する。Ｍ個の入力特徴セットの中から、どのＫ個の選択入力特徴セットを用いるかは、同じく学習動作で学習したフラグ値ｓを用いる。

　選択入力特徴セットは、式（１）のように表される。

　但し、右上のＴはベクトルの転置、ｘ_ｊは第ｊ入力特徴セット（ｊ＝１，２，・・・，Ｍ）を表し、σ（ｋ）（ｋ＝１，・・・，Ｋ）は互いに異なる１からＭまでの整数である。

　また、ステップＳ２１において、入力パターンからＭ個の入力特徴セットを有する入力特徴ベクトルを抽出せずに、入力パターンから直接、選択したＫ個の選択特徴セットを抽出してもよい。

　ステップＳ２２では、認識部１２が、Ｋ個の入力選択特徴セットを有する入力特徴ベクトルｘに対して、線形変換パラメータｗ、ｂを用いて式（２）のように線形変換を行い、属性を表す属性値ｙを求める。線形変換パラメータｗ、ｂは、以下で説明する学習動作で学習した線形変換パラメータｗ、ｂを用いる。

　但し、ｗに含まれるｗ_ｊは第ｊ入力特徴セット（ｊ＝１，２，・・・，Ｍ）に対する線形変換パラメータを表わす。

　ステップＳ２３では、認識部１２が、線形変換後の属性値ｙを用いて、入力パターンの属性を認識する。

　ステップＳ２４では、認識部１２が、認識結果を出力する。

　次に、パターン認識装置１０の学習動作について図３を用いて説明する。

　ステップＳ３１では、サンプル取得部１３が、Ｎ個（Ｎは自然数）の学習サンプルを取得する。

　次に、サンプル取得部１３は、この学習サンプルにおける学習パターンから学習特徴ベクトルを抽出する。学習特徴ベクトルｘは、一般に知られた様々な特徴抽出手法によって学習パターンから抽出できる。

　次に、サンプル取得部１３は、学習パターンにおける学習特徴ベクトルｘをＭ個の学習特徴セットに分割する。学習パターンの学習特徴ベクトルｘをＭ個の学習特徴セットに分割する方法は、予め決められた方法で行う。

　ここで、第ｉ番目（ｉ＝１，２，・・・，Ｎ）の学習サンプルの学習特徴ベクトル、属性値をそれぞれｘ（ｉ）、ｙ（ｉ）で表すこととする。学習特徴ベクトルｘ（ｉ）はＭ個の学習特徴セットを有するので、式（３）のように表される。

　ここで、ｘ_ｊ（ｉ）（ｊ＝１，２，・・・，Ｍ）は、第ｉ番目の学習サンプルの第ｊ番目の学習特徴セットを表す。

　ステップＳ３２は、学習部１４が、学習サンプルの学習特徴ベクトルｘ（ｉ）とその属性値ｙ（ｉ）を用いて、目的関数Ｊが減少する方向に線形変換パラメータｗ（但し、式（２）のｂも含む、以下も同様である）とフラグ値ｓを更新する。

　目的関数Ｊは、学習パターンにおける選択学習特徴セットを有する学習特徴ベクトルを前記線形変換パラメータを用いて線形変換して算出された属性値ｙと、学習パターンの属性値ｙ（ｉ）との差が大きいほど損失が大きくなる損失項と、線形変換パラメータｗの偏りが小さいほど小さい値となる第１の正則化項と、選択学習特徴セットの数が少ないほど小さくなる第２の正則化項とを有する。これら３つの項について順番に説明する。

　まず、損失項について説明する。

　損失項が表す損失の大きさは、学習サンプルに対して１００％認識できれば０となり、認識精度が悪くなるに従って大きな値をとるものである。従って、損失項の値が小さいほど学習サンプルに対する認識精度は良いことになる。損失には一般によく知られた様々な損失関数Ｌの損失を用いることができる。損失関数Ｌとしては、例えば、次の例がある。

　損失関数Ｌの第１の例は、ｙ（ｉ）と認識結果ｙとの差の絶対値（Ｌ１損失）を求める関数である。

　損失関数Ｌの第２の例は、前記差の２乗値（Ｌ２損失）を求める関数である。

　損失関数Ｌの第３の例は、既知の学習機械であるＡｄａＢｏｏｓｔアルゴリズムで標準的に用いられているｅｘｐｏｎｅｎｔｉａｌ　ｌｏｓｓを求める関数である。

　損失関数Ｌの第４の例は、既知の学習機械であるＳｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅｓで標準的に用いられているｈｉｎｇｅ　ｌｏｓｓを求める関数である。

　損失関数Ｌの第５の例は、第１の例～第４の例を組み合わせた値を求める関数である。

　次に、第１の正則化項について説明する。

　第１の正則化項は、線形変換パラメータの偏りが小さいほど小さい値となる項である。すなわち、第１の正則化項は、図５に示すような過学習（オーバーフィッティングともいう）を避けるための項である。「過学習」とは、学習サンプルに特化し過ぎた学習を行うために、学習サンプルに対する認識精度は高いが、未学習サンプルに対する認識精度が悪くなることを言う。

　例えば、図５（ａ）の２クラス識別問題を、損失の大きさのみを目的関数として学習する。この場合、損失の大きさが０である図５（ｂ）の学習結果が得られる。しかし、未学習サンプルに対する認識精度という点では図５（ｃ）の結果の方が良い。なお、図５中の円形、ひし形の点がそれぞれのクラスの学習サンプルの学習特徴ベクトルを表す。

　損失項に加えて第１の正則化項を考えることで、損失項とのバランスをとりながら、線形変換パラメータｗの各成分の大きさが全体に分散する（識別面が特徴量の軸と平行になるのを避ける）ようになり、図５（ｃ）の学習結果を得ることができる。

　第１の正則化項には、過学習を避ける効果を持ち、かつ、一般によく知られた様々な正則化項を用いることができる。例えば、線形変換パラメータｗのＬｐノルム（ｐは１より大きい実数）を用いることができる。ｎ次元ベクトルをａ＝（ａ１　ａ２　・・・　ａｎ）＾Ｔとすると、ａのＬｐノルムは式（４）で表される。

　特に、ｐ＝２としたＬ２ノルムは、様々な機械学習で用いられる正則化項として知られている。また、線形変換パラメータｗの各成分に重みをかけたＬｐノルムを用いてもよい。

　次に、第２の正則化項について説明する。

　第２の正則化項は、選択学習特徴セットの数Ｋが少ないほど小さくなる項であればよい。例えば、Ｋそのものが考えられる。これは、Ｍ個の学習特徴セットに対して、第ｊ番目（ｊ＝１，・・・，Ｍ）の学習特徴セットを選択する場合に１、選択しない場合に０となるフラグ値ｓ_ｊを用いて式（５）のように表される。

　式（５）を目的関数に採用した場合、目的関数の最適化問題は、混合整数計画問題という複雑な最適化問題となり、問題が大規模な場合には解くのが困難である。

　そこで、変数であるフラグ値ｓ_ｊの条件を緩和して、学習特徴セットが選択された場合には正の値、選択されない場合に０とすることで、最適化問題を簡単にする。この場合、式（５）はフラグ値ｓのＬ１ノルムに相当する。実際には、式（５）はフラグ値ｓのＬｑノルム（ｑは１以下の非負実数）であれば、学習特徴セットの選択数が小さいほど小さくなる。一般に良く用いられるのは、Ｌ１ノルムである。

　また、ｓ_ｊに非負の重みγ_ｊをかけたＬｑノルムを用いてもよい。非負の重みγ_ｊは第ｊ番目の学習特徴セットの重要度を表し、γ_ｊが０のときが最も重要で、大きくなるに従って重要度が小さくなる。γ_ｊの値は、例えば、第ｊ番目の学習特徴セットを抽出するのにかかる計算量などを考慮して決めることができる。

　以上から、本実施例の目的関数Ｊを示すと、式（６）のようになる。

　但し、ｘ（ｉ）は第ｉ番目の学習サンプルの学習特徴ベクトル、ｙ（ｉ）はその属性、Ｃｉは第ｉ番目の学習サンプルの損失に対するコストパラメータ、Ｌ（）は各学習サンプルの損失の大きさを算出する損失関数であり、前述した様々な損失関数を用いることができる。γは非負の重みである。

　損失関数Ｌ（）が凸である場合、式（６）はｗ（上記したように式（２）のｂも含む）とｓ両方については凸ではないが、ｗ，ｓそれぞれについては凸となる。そのため、ｗ，ｓを交互に最適化することで式（６）の目的関数Ｊの極小値を求めることができる。

　ｗ，ｓそれぞれについての最適化は一般に知られた最適化手法を用いて行うことができる。最も単純な方法は、式（６）の目的関数Ｊの値が減少する方向にｗ、ｓを逐次更新していく。式（６）のｗ，ｓについての微分はそれぞれ式（７）、式（８）の通りである。

　従って、線形変換パラメータｗ，フラグ値ｓはそれぞれ式（９）、式（１０）のように更新すればよい。

　ここで、α、βは更新ステップ幅である。但し、ｓは非負であるので、負になった場合に０にするなど適宜修正する必要がある。

　なお、式（６）を上記のように解く必要はなく、ニュートン法、内点法などを用いてもよいし、又は、Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅｓのよく知られた解法と同じように、式（６）の主問題ではなく双対問題を解いてもよい。

　ステップＳ３３は、学習部１４が、目的関数Ｊの収束判定を行う。

　収束判定は、解くのに用いた最適化手法にもよるが、一般には、式（９）のｗ、式（１０）のｓの変動幅が予め定められた閾値以下になったときに収束したと判定する。

　収束した後、学習部１４が、直ちに学習結果を出力してもよいが、ステップＳ３４に進む。

　ステップＳ３４における学習部１４の動作について説明する。

　式（６）のように、得られた解が局所最適解である場合には、更に認識性能を高められる可能性がある。また、式（６）の場合、フラグ値ｓは０以上の値をとることにしているため、得られる解は、フラグ値ｓが０か１の値のみをとる場合の解の近似である。従って、学習部１４が、フラグ値ｓを式（１１）のように変換して固定した後に式（６）を線形変換パラメータｗについて解くことで、認識性能が改善できる。

　ステップＳ３４では、学習部１４が、以上で得られた学習結果を出力する。この出力値は、例えば認識動作に用いる辞書に記憶させる。出力する値としては、線形変換パラメータｗ（上記したように式（２）のｂも含む）とフラグ値ｓである。ここでフラグ値ｓは、式（５）に示すように、特徴セットを選択するか否かを示すフラグである。例えば、Ｍが５のときに、５個の入力特徴セットの中の３番目のｓ３＝０、５番目のｓ５＝０のときは、線形変換パラメータｗ３、ｗ５を選択しない。したがって、５個の入力特徴セットの中の３個が選択入力特徴セットとして選択される。

　ここで、入力特徴セット及び学習特徴セット（以下、まとめて「特徴セット」と呼ぶ）の設定方法を、人物画像データを例に挙げて説明する。なお、この人物画像データを用いた具体的なパターン認識装置については、実施例３で説明する。

　特徴セットの第１の設定方法は、人物画像データに対して一般的に用いられる特徴の一つである”IEEE Conference on Computer Vision and Pattern Recognition, Histograms of Oriented Gradients for Detection, 2005 ”においてDalal らによって提案されたHistograms of Oriented Gradients （以下、「ＨＯＧ」と呼ぶ）を用いる。この場合、画像データ内の一つの矩形領域（以下、「ブロック」と呼ぶ）から複数個の特徴量が抽出される。

　例えば、特徴量が輝度勾配方向のヒストグラムであり、輝度勾配方向の量子化数を９とし、ブロックを縦横２分割の合計４つの小領域に分割する場合、９ｘ４＝３６個の特徴量が一つのブロックから抽出される。そして、ブロックの大きさ及びブロックの画像データ内での位置を変更することで、新たに３６個の特徴量を抽出できる。したがって、各ブロックから抽出される３６個の特徴量をそれぞれ特徴セットとし、これらの特徴セットの中から認識に有効な選択特徴セットを選択することで、特徴量の選択がブロック単位で行われることになり、効率的な特徴量の抽出が実現できる。この場合、選択特徴セットの選択は、ブロックの大きさ及びブロックの画像データ内での位置というパラメータについて、認識に有効なパラメータを選択しているといえる。

　特徴セットの第２の設定方法は、ＨＯＧの拡張の一つである”Proceedings of the 3rd Pacific Rim Symposium on Advances in Image and Video Technology, Co-occurrence Histograms of Oriented Gradients for Pedestrian Detection, 2009 ”において渡辺らによって提案されたCo-occurrence Histograms of Oriented Gradients （以下、「ＣｏＨＯＧ」と呼ぶ）を用いる。この場合、画像データ内の一つの矩形領域（以下、「ブロック」と呼ぶ）及び一つの共起位置関係（輝度勾配方向の共起を調べる画素の位置関係）に対して複数の特徴量（例えば、輝度勾配方向の量子化数が８ならば６４個の特徴量）が抽出される。

　すなわち、ＣｏＨＯＧを用いる場合、特徴セットは、ブロックの大きさ及びブロックの画像データ内での位置に加えて、共起位置関係のパラメータ毎に設定できる。なお、ＣｏＨＯＧの場合においても、ＨＯＧと同様のパラメータ毎に特徴セットを設定しても構わない。

　このように、特徴セットの設定方法は、用いる特徴量の種類に応じて、適宜変更可能である。

　従来のように特徴量毎に選択するのではなく、本実施例のように特徴セット毎に選択を行う効果について説明する。

　プログラム等を用いることで自動的にパターンから特徴ベクトルを抽出する場合、個々の特徴量を順に算出するよりも、幾つかの特徴量を同時に算出する方が速いことがあるからである。

　第１の例としては、投票に基づく特徴量を算出する場合が挙げられる。これは、投票の場合、投票先の種類の数だけ同時に結果が得られるからである。

　第２の例としては、各特徴量の背後に因子があり、共通の因子をもつ特徴量毎にまとめて特徴セットにしておく。これにより、認識に有効な因子に対応する特徴セットが選択され、認識に有効な因子が何であるかを推定することができる。

　第３の例としては、画像データを領域分割して各領域から特徴抽出を行う場合、異なる領域に属する特徴量を選択すると特徴抽出処理の計算量が増大する。そのため、計算量の観点からみれば、できるだけ同じ領域に属する特徴量を選択することが望ましく、これは同じ領域に属する特徴量をまとめて特徴セットにすることで実現できる。

　上記により、本実施例に係わるパターン認識装置１０によれば、従来１つであった正則化項を、線形変換パラメータの大きさが全体に分散することで特定少数の特徴量のみを重要視することを避ける項と、選択特徴セットの数が少ないほど小さい値になる特徴選択機能を有する項との２つに分けることによって、最適化問題が大規模なものになるのを回避し、学習サンプル数や特徴量の数が多い場合においても高速に学習できる。

　そのため、学習サンプルに応じた適応的な入力特徴セットの選択と線形変換パラメータの学習を高速に行うことができ、状況に応じた精度の高い認識を行うことが可能となる。

　以下、本発明の実施例２に係わるパターン認識装置２０について図６～図７に基づいて説明する。

　パターン認識装置２０の構成について図６に基づいて説明する。図６は、パターン認識装置２０のブロック図である。

　図６に示すように、パターン認識装置２０は、パターン取得部１１、認識部１２、サンプル取得部１３、学習部１４、制御部１５を有する。

　パターン取得部１１、認識部１２、サンプル取得部１３、学習部１４は、実施例１と同様の機能を有する。

　制御部１５は、動作モードが認識モード、又は、学習モードであるかを制御する。

　ここで簡単のために、Ｍ個の特徴セットの中から用いるＫ個の選択特徴セットのフラグ値ｓや線形変換パラメータｗなど、認識動作で必要とする情報をまとめて「辞書」と呼ぶことにする。従って、認識動作は、辞書を用いた入力パターンの属性の認識であり、学習動作は、学習サンプルを用いた辞書の学習であると言える。

　認識動作に用いる辞書は、パターン認識装置２０とは別の装置で学習した辞書をネットワークや記憶媒体を介してコピーしたものでもよいし、パターン認識装置２０で学習した辞書でもよい。そして、パターン認識装置２０は辞書を保持している。

　次に、本実施例に係わるパターン認識装置２０の動作について説明する。なお、この説明において、実施例１に係わるパターン認識装置１０の認識動作と学習動作を用いつつ、図７を用いて説明する。

　ステップＳ７１では、制御部１５が、パターン認識装置２０の動作モードが、認識モード、又は、学習モードであるかの判定処理を行う。動作モードは、例えば、ユーザがボタンなどの入力インタフェースを用いて切り替えることができる。判定処理において、認識モードであると判定された場合には、ステップＳ７２に進み、学習モードであると判定された場合にはステップＳ７５に進む。

　ステップＳ７２では、認識モードと判定されたので、パターン取得部１１が、入力パターンを取得する。

　入力パターンの取得方法は、パターンの種類に依るので、幾つかの例を示す。

　パターンがテキストデータであるならば、光学文字認識機能を有するスキャナーを用いて読み込むか、又は、デジタル化されたテキストファイルをネットワーク、又は、汎用の記憶媒体から取得する。

　パターンが画像データであるならば、カメラから取得するか、又は、予め保存されている画像データをネットワーク等から取得する。

　パターンが音声データであるならば、マイクから取得するか、又は、予め保存されている音声データをネットワーク等から取得する。

　ステップＳ７３では、認識部１２が、保存している辞書を用いて、実施例１の認識動作で述べたように取得した入力パターンの属性の認識を行う。

　ステップＳ７４では、認識部１２が、認識結果を出力する。

　ステップＳ７５では、学習モードと判定されたので、サンプル取得部１３が学習サンプルを取得する。このときにパターン認識装置２０に対して学習サンプルを与える必要がある。学習サンプルの具体的な与え方については、幾つかの例を示す。

　第１の例として本実施例のパターン認識装置２０が、カメラ画像による顔認識を行う装置であると想定する。この場合、学習サンプルとしては、認証したい人物の顔画像データと前記人物のＩＤ（例えば、人物の姓名）の組が必要となる。ここでＩＤは、前述の属性に相当する。顔画像データは、例えば、その場でカメラ等の撮像装置を用いて人物を撮影することにより取得し、前記ＩＤはキーボードやタッチパネルなどの入力インタフェースを用いて取得してもよい。又は、事前に取得して保存してある前記顔画像データとＩＤの組を取得してもよい。

　第２の例として本実施例のパターン認識装置２０が、カメラ等で撮像された画像データに写った物体が何であるかを認識する装置であると想定する。この場合、学習サンプルとしては、認識したい物体の画像データと前記物体のＩＤ（例えば、物体の名称）が必要となる。これらも、顔画像データとＩＤの組の取得と同様な方法で取得できる。

　なお、学習サンプルは全て一度に与える必要はなく、例えば、過去の学習で用いた学習サンプルを保持しておき、適宜加えてもよい。

　ステップＳ７６では、学習部１４は、実施例１の学習動作で述べたように、取得した学習サンプルを用いて辞書の学習を行う。この学習によって、新しく入力された学習サンプルに対して認識性能が高くなるようなＫ個の選択特徴セットがＭ個の特徴セットの中から選択され、辞書が作成される。

　ステップＳ７７では、学習部１４が、作成された辞書で、現在保持している辞書を置き換える。これにより、例えば、新しく認証又は認識したい人物又は物体を、即座に認証又は認識できる。

　本実施例に係わるパターン認識装置２０によれば、学習動作と認識動作とを切り替えながら、学習サンプルに応じた辞書の学習を高速に行ったり、入力パターンの属性の認識を高い精度で行うことができる。

　以下、本発明の実施例３に係わるパターン認識装置３０について図８～図９に基づいて説明する。

　パターン認識装置３０の構成について図８に基づいて説明する。図８は、パターン認識装置３０のブロック図である。

　図８に示すように、パターン認識装置３０は、入力部３０２、制御部３０４、認識部３０６、辞書保持部３０８、学習部３１０、サンプル記憶部３１２、出力部３１４を有する。

　入力部３０２は、入力パターン、入力パターンの属性、及び、本装置３０の動作モードを取得する。実施例１で述べたように入力パターンには様々なものがある。しかし、以下の本実施例では、入力パターンが人物画像データである場合を例に説明する。人物画像データは、カメラなどの撮像装置を用いて撮像したもの、ＨＤＤなどの記憶媒体に保存されている画像データ、又は、ＬＡＮなどのネットワークを介して送られてくる画像データでも構わない。

　認識部３０６は、Ｄ個（Ｄは３以上の自然数）の特徴量がそれぞれＭ個（Ｍは２以上の自然数）の入力特徴セットの何れかに属する場合において、入力部３０２で取得した入力パターンからＫ個（ＫはＭよりも小さい自然数）の選択入力特徴セットの何れかに属する特徴量を全て抽出する。次に、認識部３０６は、抽出した特徴量を成分とする入力特徴ベクトルを線形変換した値を入力パターンの属性値とする。

　出力部３１４は、認識部３０６で算出した属性値に対応する属性を、入力パターンの属性として出力する。

　辞書保持部３０８は、認識部３０６で用いるＫ個の選択特徴セットのフラグ値ｓ及び線形変換パラメータｗを保持する。

　サンプル記憶部３１２は、入力部３０２で取得した入力パターンと入力パターンの属性との組を記憶する。

　学習部３１０は、サンプル記憶部３１２に保持した入力パターンと属性との組を複数組用いて、辞書保持部３０８が保持する選択特徴セットのフラグ値ｓ及び線形変換パラメータｗを学習する。

　制御部３１４は、動作モードが、認識モード、学習モード、又は、学習サンプル取得モードであるかを制御する。

　ここで簡単のために、辞書保持部３０８で保持するＫ個の選択特徴セットのフラグ値ｓ及び線形変換パラメータｗなど、認識動作で必要とする情報をまとめて「辞書」と呼ぶことにする。従って、認識動作は、辞書を用いた入力パターンの属性の認識であり、学習動作は、学習サンプルを用いた辞書の学習であると言える。

　認識動作に用いる辞書は、パターン認識装置３０とは別の装置で学習した辞書をネットワークや記憶媒体を介してコピーしたものでもよいし、パターン認識装置３０で学習した辞書でもよい。そして、パターン認識装置３０は、辞書を辞書保持部３０８で保持する。

　本実施例に係わるパターン認識装置３０の動作について説明する。なお、この説明において、実施例１に係わるパターン認識装置１０の認識動作と学習動作を用いつつ、図９を用いて説明する。

　ステップＳ９１では、入力部３０２が、人物画像データを取得する。

　ステップＳ９２、Ｓ９３では、制御部３０４が、認識モード、学習モード、又は、学習サンプル取得モードであるかの判定処理を行う。

　動作モードは、ユーザが、キーボード、マウス、タッチパネル、ボタンスイッチなどの入力インタフェースを介して切り替えることができる。ユーザは、現在の動作モードを汎用ディスプレイなどの出力装置に表示することで確認できる。

　前記判定処理において、認識モードであると判定された場合は、ステップＳ９４では、認識部３０６が、保持している辞書を用いて、実施例１の認識動作で述べたように、認識したい画像データの属性値の認識を行う。ステップＳ９５では、認識部３０６が、その属性値を属性に変換して認識結果として出力する。

　前記判定処理において、学習モードであると判定された場合は、ステップＳ９６では、学習部３１０が、サンプル記憶部３１２に記憶されている人物画像データと人物画像データの属性を表す属性値との組を複数用いて、新しく辞書の学習を行う。但し、前記組が複数組存在しない場合には、辞書の学習は行わない。

　辞書の学習は、実施例１で述べた学習動作と同様に、例えば式（６）が極少値となるような線形変換パラメータｗ及びフラグ値ｓを求めることで行われる。これにより、現在保持している学習サンプルに対して認識性能が高くなるようなＫ個の選択特徴セットが選択され、かつ、線形変換パラメータｗが求められる。

　ステップＳ９７では、学習部３１０が、Ｋ個の選択特徴セットのフラグ値ｓ及び線形変換パラメータｗをＨＤＤなどの記憶媒体（辞書）に保存して更新し、この学習以降に行われる認識動作に使用される。これにより、例えば、新しく認識したい人物の属性を、認識することが可能となる。

　前記判定処理において、学習サンプル取得モードであると判定された場合には、サンプル記憶部３１２が、取得した画像データに対する属性を取得し、画像データと取得した属性を表す属性値との組をＨＤＤなどの記憶媒体に保存する。

　属性値の取得は、キーボード、マウス、タッチパネル、ボタンスイッチなどの入力インタフェースを介して取得する。取得した学習サンプルは、必要に応じて汎用ディスプレイなどの表示デバイスによってユーザが確認でき、削除もできる。

　本実施例に係わるパターン認識装置３０によれば、学習動作と認識動作とを切り替えながら、学習サンプルに応じた辞書の学習を高速に行ったり、入力パターンの属性の認識を高い精度で行うことができる。

変更例

　なお、本発明は、上記の実施例に限定されず、その要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記の実施例に開示されている複数の構成要素の適当な組み合わせにより、種々の発明を形成できる。例えば、実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例にわたる構成要素を適宜組み合わせてもよい。

実施例１のパターン認識装置のブロック図。認識動作を示すフローチャート。学習動作を示すフローチャート。特徴セット選択の模式図を示す図。過学習の例を示す図。実施例２のパターン認識装置のブロック図。実施例２のパターン認識装置のフローチャート。実施例３のパターン認識装置のブロック図。実施例３のパターン認識装置のフローチャート。

１０　　パターン認識装置
１１　　パターン取得部
１２　　認識部
１３　　サンプル取得部
１４　　学習部

Claims

　学習パターンと前記学習パターンの属性とを含む複数の学習サンプルを取得し、前記学習パターンから学習特徴ベクトルを抽出し、前記学習特徴ベクトルをＭ個（Ｍは２以上の自然数である）の学習特徴セットに分割するサンプル取得部と、
　前記学習サンプルを用いて、前記Ｍ個の学習特徴セットからＫ個（Ｍ＞Ｋ）の学習特徴セットを選択するか否かを表すフラグ値と、選択されたＫ個の前記学習特徴セットを有する学習特徴ベクトルを前記属性の確からしさを示す属性値に線形変換するための線形変換パラメータを学習する学習部と、
　属性を認識しようとする入力パターンを取得し、前記Ｍ個の学習特徴セットと同様に設定されるＭ個の入力特徴セットのうちＫ個の入力特徴セットを前記フラグ値に基づいて選択し、前記選択したＫ個の入力特徴セットを有する入力特徴ベクトルを前記入力パターンから抽出するパターン取得部と、
　前記選択したＫ個の入力特徴セットを有する前記入力特徴ベクトルを、前記線形変換パラメータを用いて線形変換して前記属性値を求め、前記属性値から前記入力パターンの属性を認識する認識部と、
　を有し、
　前記学習部は、
　前記フラグ値により選択された前記学習特徴セットを有する前記学習特徴ベクトルを前記線形変換パラメータを用いて線形変換して算出された値と、前記学習サンプルの前記属性を表す属性値との差が大きいほど損失が大きくなる損失項と、
　前記線形変換パラメータの偏りが小さいほどに小さい値となる第１の正則化項と、
　前記フラグ値により選択された前記学習特徴セットの数が少ないほど小さくなる第２の正則化項と、
　の３つの項を有する目的関数に関して、前記目的関数が極小値となる前記線形変換パラメータと前記フラグ値を学習する、
　ことを特徴とするパターン認識装置。
　前記第１の正則化項は、前記フラグ値に前記線形変換パラメータをかけた値の２乗値の重み付き和であり、
　前記第２の正則化項は、前記フラグ値に非負パラメータをかけた重み付き和である、
　ことを特徴とする請求項１に記載のパターン認識装置。
　前記第２の正則化項は、前記フラグ値のＬ１ノルム、又は、Ｌｑノルム（ｑは１以下の非負実数である）である、
　ことを特徴とする請求項２に記載のパターン認識装置。
　前記損失項は、損失関数で表され、前記損失関数は、前記差の絶対値、前記差の２乗値、ｅｘｐｏｎｅｎｔｉａｌ　ｌｏｓｓ、ｈｉｎｇｅ　ｌｏｓｓ、又は、これらを組み合わせた値を求める関数である、
　ことを特徴とする請求項３に記載のパターン認識装置。
　前記学習部は、前記極小値を求めるために前記目的関数の収束判定を行い、前記収束判定は、前記フラグ値と前記線形変換パラメータの変動幅が予め定められた閾値以下になったときに収束したと判定する、
　ことを特徴とする請求項４に記載のパターン認識装置。