WO2011096010A1 - パターン認識装置 - Google Patents
パターン認識装置 Download PDFInfo
- Publication number
- WO2011096010A1 WO2011096010A1 PCT/JP2010/000603 JP2010000603W WO2011096010A1 WO 2011096010 A1 WO2011096010 A1 WO 2011096010A1 JP 2010000603 W JP2010000603 W JP 2010000603W WO 2011096010 A1 WO2011096010 A1 WO 2011096010A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- learning
- pattern
- value
- input
- attribute
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
Abstract
パターン認識装置は、学習サンプルを用いて、M個の学習特徴セットからK個(M>K)の学習特徴セットを選択するか否かを表すフラグ値と、選択されたK個の前記学習特徴セットからなる学習特徴ベクトルを線形変換するための線形変換パラメータを学習し、この学習に用いる目的関数が極小値となる前記線形変換パラメータと前記フラグ値を学習する。
Description
本発明は、学習動作と認識動作を行うパターン認識装置に関する。
非特許文献1には、入力パターンの属性が複数存在して、属性毎に線形変換で認識する場合に、各属性に対する線形変換パラメータのL2ノルムに関する全ての特徴量における和による正則化を行うことで、全ての属性の認識に同じ特徴量を選択して用いることができる技術が記載されている。
また、非特許文献2には、1つ以上の特徴量からなる特徴セットがあり、特徴セットが複数ある場合に、同一特徴セット内の特徴量に対する線形変換パラメータのL∞ノルムに関する全ての特徴セットにおける和による正則化を行うことで、認識に有効な少数の特徴セットを選択することができる技術が記載されている。
A.Argyriou, T.Evgeniou,and M.Pontil,Multi-Task Feature Learning,Advances in Neural Information Processing Systems,Canada,2006.
H.Zou and M.Yuan,The∞-norm Support Vector Machine,Statistica Sinica,Vol.18,pages 379-398,2008.
しかしながら、非特許文献1及び非特許文献2の従来技術では、学習時に解くべき最適化問題が大規模なものとなり、学習サンプル数や特徴数が多い場合に解くのが困難であるという問題点があった。
そこで本発明は、上記問題点を解決するためになされたものであって、学習サンプル数や特徴量の数が多い場合においても高速に学習できるパターン認識装置を提供することを目的とする。
本発明の一態様に係るパターン認識装置は、学習パターンと前記学習パターンの属性とを含む複数の学習サンプルを取得し、前記学習パターンから学習特徴ベクトルを抽出し、前記学習特徴ベクトルをM個(Mは2以上の自然数である)の学習特徴セットに分割するサンプル取得部と、前記学習サンプルを用いて、前記M個の学習特徴セットからK個(M>K)の学習特徴セットを選択するか否かを表すフラグ値と、選択されたK個の前記学習特徴セットを有する学習特徴ベクトルを前記属性の確からしさを示す属性値に線形変換するための線形変換パラメータを学習する学習部と、属性を認識しようとする入力パターンを取得し、前記M個の学習特徴セットと同様に設定されるM個の入力特徴セットのうちK個の入力特徴セットを前記フラグ値に基づいて選択し、前記選択したK個の入力特徴セットを有する入力特徴ベクトルを前記入力パターンから抽出するパターン取得部と、前記選択したK個の入力特徴セットを有する前記入力特徴ベクトルを、前記線形変換パラメータを用いて線形変換して前記属性値を求め、前記属性値から前記入力パターンの属性を認識する認識部と、を有し、前記学習部は、前記フラグ値により選択された前記学習特徴セットを有する前記学習特徴ベクトルを前記線形変換パラメータを用いて線形変換して算出された値と、前記学習サンプルの前記属性を表す属性値との差が大きいほど損失が大きくなる損失項と、前記線形変換パラメータの偏りが小さいほどに小さい値となる第1の正則化項と、前記フラグ値により選択された前記学習特徴セットの数が少ないほど小さくなる第2の正則化項との3つの項を有する目的関数に関して、前記目的関数が極小値となる前記線形変換パラメータと前記フラグ値を学習する。
本発明によれば、学習サンプル数や特徴量の数が多い場合においても高速に学習できる。
以下、本発明の一実施例のパターン認識装置について図面に基づいて説明する。
まず、本実施例における用語について図4を用いて説明する。
「特徴ベクトル」とは、複数の特徴量から構成され、かつ、M個(Mは2以上の自然数)の特徴セットを組み合わせたものである。
「特徴セット」とは、特徴ベクトルを分割したものであり、少なくとも1つ以上の特徴量をそれぞれ有している。
「パターン」とは、例えば、テキストデータ、画像データ、音声データ、統計データ、株価などの時系列データ、DNA配列データなどの数値として表現できるものであればよい。このパターンから特徴ベクトルが抽出される。
「学習パターン」とは、M個の特徴セットで構成する学習のために用いられるパターンである。
「学習サンプル」とは、学習パターンと、この学習パターンの属性とからなる。
「属性」とは、何らかの基準に従ってパターンに付与される値であり、様々なものが考えられる。例えば、パターンがテキストデータであれば、そのテキストがスパムであるか否かのフラグ、公的文書であるか否かのフラグ、又は、そのテキストの分類ラベルである。また、パターンが人物画像データであれば、年齢、身長、性別、顔向き、服装の種類、表情の種類、手荷物の有無、又は、特定の表情らしさの度合いである。属性が量的な値である場合には、線形変換後の値yがそのまま入力パターンの属性の認識結果となる。これに対し、例えば、スパムであるか否かのように2クラスの識別問題である場合には、線形変換後の値yの符号を入力パターンの属性の認識結果とすることができる。
「属性値」とは、属性の確からしさを示すものであって、属性をプログラム上で扱えるように変換した数値のことである。例えば、属性が人物の年齢である場合は、属性の値(年齢)そのものが属性値であり、性別であれば、男性なら「1」、女性なら「-1」である。
本発明の実施例1に係わるパターン認識装置10について図1~図5に基づいて説明する。
パターン認識装置10の構成について図1に基づいて説明する。図1は、パターン認識装置10のブロック図である。
図1に示すように、パターン認識装置10は、パターン取得部11、認識部12、サンプル取得部13、学習部14を有する。
パターン取得部11は、入力パターンを取得し、この入力パターンから入力特徴ベクトルを抽出する。次に、この入力特徴ベクトルをM個(Mは2以上の自然数)の入力特徴セットに分割する。
認識部12は、M個の入力特徴セットからK個(M>K、Kは自然数)の入力特徴セット(以下、「選択入力特徴セット」と呼ぶ)を選択すると共に、選択入力特徴セットを有する入力特徴ベクトルを線形変換して、入力パターンの属性を認識する。
サンプル取得部13は、学習サンプルを外部から取得し、この学習サンプルにおける学習パターンから学習特徴ベクトルを抽出する。次に、この学習特徴ベクトルをM個の学習特徴セットに分割する。
学習部14は、M個の学習特徴セットからK個の学習特徴セット(以下、「選択学習特徴セット」と呼ぶ)を選択するためのフラグ値と、選択学習特徴セットを有する学習特徴ベクトルの線形変換パラメータとを学習する。
パターン認識装置10の動作について図2~図3に基づいて説明する。パターン認識装置10の動作は、認識動作と学習動作との2つの動作があるので、これら2つの動作に分けて説明する。
まず、パターン認識装置10の認識動作について図2を用いて説明する。
ステップS21では、パターン取得部11が、入力パターン(認識したいパターン)を取得する。
次に、パターン取得部11は、この入力パターンから入力特徴ベクトルxを抽出する。入力特徴ベクトルxは、パターンから一般に知られた様々な特徴抽出手法によって抽出できる。
次に、パターン取得部11は、入力パターンにおける入力特徴ベクトルxをM個の入力特徴セットに分割する。入力特徴ベクトルをM個の入力特徴セットに分割する方法は、以下で説明する学習動作と同様に行う。
次に、パターン取得部11は、M個の入力特徴セットからK個の選択入力特徴セットを選択する。M個の入力特徴セットの中から、どのK個の選択入力特徴セットを用いるかは、同じく学習動作で学習したフラグ値sを用いる。
但し、右上のTはベクトルの転置、xjは第j入力特徴セット(j=1,2,・・・,M)を表し、σ(k)(k=1,・・・,K)は互いに異なる1からMまでの整数である。
また、ステップS21において、入力パターンからM個の入力特徴セットを有する入力特徴ベクトルを抽出せずに、入力パターンから直接、選択したK個の選択特徴セットを抽出してもよい。
ステップS22では、認識部12が、K個の入力選択特徴セットを有する入力特徴ベクトルxに対して、線形変換パラメータw、bを用いて式(2)のように線形変換を行い、属性を表す属性値yを求める。線形変換パラメータw、bは、以下で説明する学習動作で学習した線形変換パラメータw、bを用いる。
但し、wに含まれるwjは第j入力特徴セット(j=1,2,・・・,M)に対する線形変換パラメータを表わす。
ステップS23では、認識部12が、線形変換後の属性値yを用いて、入力パターンの属性を認識する。
ステップS24では、認識部12が、認識結果を出力する。
次に、パターン認識装置10の学習動作について図3を用いて説明する。
ステップS31では、サンプル取得部13が、N個(Nは自然数)の学習サンプルを取得する。
次に、サンプル取得部13は、この学習サンプルにおける学習パターンから学習特徴ベクトルを抽出する。学習特徴ベクトルxは、一般に知られた様々な特徴抽出手法によって学習パターンから抽出できる。
次に、サンプル取得部13は、学習パターンにおける学習特徴ベクトルxをM個の学習特徴セットに分割する。学習パターンの学習特徴ベクトルxをM個の学習特徴セットに分割する方法は、予め決められた方法で行う。
ここで、第i番目(i=1,2,・・・,N)の学習サンプルの学習特徴ベクトル、属性値をそれぞれx(i)、y(i)で表すこととする。学習特徴ベクトルx(i)はM個の学習特徴セットを有するので、式(3)のように表される。
ここで、xj(i)(j=1,2,・・・,M)は、第i番目の学習サンプルの第j番目の学習特徴セットを表す。
ステップS32は、学習部14が、学習サンプルの学習特徴ベクトルx(i)とその属性値y(i)を用いて、目的関数Jが減少する方向に線形変換パラメータw(但し、式(2)のbも含む、以下も同様である)とフラグ値sを更新する。
目的関数Jは、学習パターンにおける選択学習特徴セットを有する学習特徴ベクトルを前記線形変換パラメータを用いて線形変換して算出された属性値yと、学習パターンの属性値y(i)との差が大きいほど損失が大きくなる損失項と、線形変換パラメータwの偏りが小さいほど小さい値となる第1の正則化項と、選択学習特徴セットの数が少ないほど小さくなる第2の正則化項とを有する。これら3つの項について順番に説明する。
まず、損失項について説明する。
損失項が表す損失の大きさは、学習サンプルに対して100%認識できれば0となり、認識精度が悪くなるに従って大きな値をとるものである。従って、損失項の値が小さいほど学習サンプルに対する認識精度は良いことになる。損失には一般によく知られた様々な損失関数Lの損失を用いることができる。損失関数Lとしては、例えば、次の例がある。
損失関数Lの第1の例は、y(i)と認識結果yとの差の絶対値(L1損失)を求める関数である。
損失関数Lの第2の例は、前記差の2乗値(L2損失)を求める関数である。
損失関数Lの第3の例は、既知の学習機械であるAdaBoostアルゴリズムで標準的に用いられているexponential lossを求める関数である。
損失関数Lの第4の例は、既知の学習機械であるSupport Vector Machinesで標準的に用いられているhinge lossを求める関数である。
損失関数Lの第5の例は、第1の例~第4の例を組み合わせた値を求める関数である。
次に、第1の正則化項について説明する。
第1の正則化項は、線形変換パラメータの偏りが小さいほど小さい値となる項である。すなわち、第1の正則化項は、図5に示すような過学習(オーバーフィッティングともいう)を避けるための項である。「過学習」とは、学習サンプルに特化し過ぎた学習を行うために、学習サンプルに対する認識精度は高いが、未学習サンプルに対する認識精度が悪くなることを言う。
例えば、図5(a)の2クラス識別問題を、損失の大きさのみを目的関数として学習する。この場合、損失の大きさが0である図5(b)の学習結果が得られる。しかし、未学習サンプルに対する認識精度という点では図5(c)の結果の方が良い。なお、図5中の円形、ひし形の点がそれぞれのクラスの学習サンプルの学習特徴ベクトルを表す。
損失項に加えて第1の正則化項を考えることで、損失項とのバランスをとりながら、線形変換パラメータwの各成分の大きさが全体に分散する(識別面が特徴量の軸と平行になるのを避ける)ようになり、図5(c)の学習結果を得ることができる。
第1の正則化項には、過学習を避ける効果を持ち、かつ、一般によく知られた様々な正則化項を用いることができる。例えば、線形変換パラメータwのLpノルム(pは1より大きい実数)を用いることができる。n次元ベクトルをa=(a1 a2 ・・・ an)^Tとすると、aのLpノルムは式(4)で表される。
特に、p=2としたL2ノルムは、様々な機械学習で用いられる正則化項として知られている。また、線形変換パラメータwの各成分に重みをかけたLpノルムを用いてもよい。
次に、第2の正則化項について説明する。
第2の正則化項は、選択学習特徴セットの数Kが少ないほど小さくなる項であればよい。例えば、Kそのものが考えられる。これは、M個の学習特徴セットに対して、第j番目(j=1,・・・,M)の学習特徴セットを選択する場合に1、選択しない場合に0となるフラグ値sjを用いて式(5)のように表される。
式(5)を目的関数に採用した場合、目的関数の最適化問題は、混合整数計画問題という複雑な最適化問題となり、問題が大規模な場合には解くのが困難である。
そこで、変数であるフラグ値sjの条件を緩和して、学習特徴セットが選択された場合には正の値、選択されない場合に0とすることで、最適化問題を簡単にする。この場合、式(5)はフラグ値sのL1ノルムに相当する。実際には、式(5)はフラグ値sのLqノルム(qは1以下の非負実数)であれば、学習特徴セットの選択数が小さいほど小さくなる。一般に良く用いられるのは、L1ノルムである。
また、sjに非負の重みγjをかけたLqノルムを用いてもよい。非負の重みγjは第j番目の学習特徴セットの重要度を表し、γjが0のときが最も重要で、大きくなるに従って重要度が小さくなる。γjの値は、例えば、第j番目の学習特徴セットを抽出するのにかかる計算量などを考慮して決めることができる。
但し、x(i)は第i番目の学習サンプルの学習特徴ベクトル、y(i)はその属性、Ciは第i番目の学習サンプルの損失に対するコストパラメータ、L()は各学習サンプルの損失の大きさを算出する損失関数であり、前述した様々な損失関数を用いることができる。γは非負の重みである。
損失関数L()が凸である場合、式(6)はw(上記したように式(2)のbも含む)とs両方については凸ではないが、w,sそれぞれについては凸となる。そのため、w,sを交互に最適化することで式(6)の目的関数Jの極小値を求めることができる。
w,sそれぞれについての最適化は一般に知られた最適化手法を用いて行うことができる。最も単純な方法は、式(6)の目的関数Jの値が減少する方向にw、sを逐次更新していく。式(6)のw,sについての微分はそれぞれ式(7)、式(8)の通りである。
ここで、α、βは更新ステップ幅である。但し、sは非負であるので、負になった場合に0にするなど適宜修正する必要がある。
なお、式(6)を上記のように解く必要はなく、ニュートン法、内点法などを用いてもよいし、又は、Support Vector Machinesのよく知られた解法と同じように、式(6)の主問題ではなく双対問題を解いてもよい。
ステップS33は、学習部14が、目的関数Jの収束判定を行う。
収束判定は、解くのに用いた最適化手法にもよるが、一般には、式(9)のw、式(10)のsの変動幅が予め定められた閾値以下になったときに収束したと判定する。
収束した後、学習部14が、直ちに学習結果を出力してもよいが、ステップS34に進む。
ステップS34における学習部14の動作について説明する。
式(6)のように、得られた解が局所最適解である場合には、更に認識性能を高められる可能性がある。また、式(6)の場合、フラグ値sは0以上の値をとることにしているため、得られる解は、フラグ値sが0か1の値のみをとる場合の解の近似である。従って、学習部14が、フラグ値sを式(11)のように変換して固定した後に式(6)を線形変換パラメータwについて解くことで、認識性能が改善できる。
ステップS34では、学習部14が、以上で得られた学習結果を出力する。この出力値は、例えば認識動作に用いる辞書に記憶させる。出力する値としては、線形変換パラメータw(上記したように式(2)のbも含む)とフラグ値sである。ここでフラグ値sは、式(5)に示すように、特徴セットを選択するか否かを示すフラグである。例えば、Mが5のときに、5個の入力特徴セットの中の3番目のs3=0、5番目のs5=0のときは、線形変換パラメータw3、w5を選択しない。したがって、5個の入力特徴セットの中の3個が選択入力特徴セットとして選択される。
ここで、入力特徴セット及び学習特徴セット(以下、まとめて「特徴セット」と呼ぶ)の設定方法を、人物画像データを例に挙げて説明する。なお、この人物画像データを用いた具体的なパターン認識装置については、実施例3で説明する。
特徴セットの第1の設定方法は、人物画像データに対して一般的に用いられる特徴の一つである”IEEE Conference on Computer Vision and Pattern Recognition, Histograms of Oriented Gradients for Detection, 2005 ”においてDalal らによって提案されたHistograms of Oriented Gradients (以下、「HOG」と呼ぶ)を用いる。この場合、画像データ内の一つの矩形領域(以下、「ブロック」と呼ぶ)から複数個の特徴量が抽出される。
例えば、特徴量が輝度勾配方向のヒストグラムであり、輝度勾配方向の量子化数を9とし、ブロックを縦横2分割の合計4つの小領域に分割する場合、9x4=36個の特徴量が一つのブロックから抽出される。そして、ブロックの大きさ及びブロックの画像データ内での位置を変更することで、新たに36個の特徴量を抽出できる。したがって、各ブロックから抽出される36個の特徴量をそれぞれ特徴セットとし、これらの特徴セットの中から認識に有効な選択特徴セットを選択することで、特徴量の選択がブロック単位で行われることになり、効率的な特徴量の抽出が実現できる。この場合、選択特徴セットの選択は、ブロックの大きさ及びブロックの画像データ内での位置というパラメータについて、認識に有効なパラメータを選択しているといえる。
特徴セットの第2の設定方法は、HOGの拡張の一つである”Proceedings of the 3rd Pacific Rim Symposium on Advances in Image and Video Technology, Co-occurrence Histograms of Oriented Gradients for Pedestrian Detection, 2009 ”において渡辺らによって提案されたCo-occurrence Histograms of Oriented Gradients (以下、「CoHOG」と呼ぶ)を用いる。この場合、画像データ内の一つの矩形領域(以下、「ブロック」と呼ぶ)及び一つの共起位置関係(輝度勾配方向の共起を調べる画素の位置関係)に対して複数の特徴量(例えば、輝度勾配方向の量子化数が8ならば64個の特徴量)が抽出される。
すなわち、CoHOGを用いる場合、特徴セットは、ブロックの大きさ及びブロックの画像データ内での位置に加えて、共起位置関係のパラメータ毎に設定できる。なお、CoHOGの場合においても、HOGと同様のパラメータ毎に特徴セットを設定しても構わない。
このように、特徴セットの設定方法は、用いる特徴量の種類に応じて、適宜変更可能である。
従来のように特徴量毎に選択するのではなく、本実施例のように特徴セット毎に選択を行う効果について説明する。
プログラム等を用いることで自動的にパターンから特徴ベクトルを抽出する場合、個々の特徴量を順に算出するよりも、幾つかの特徴量を同時に算出する方が速いことがあるからである。
第1の例としては、投票に基づく特徴量を算出する場合が挙げられる。これは、投票の場合、投票先の種類の数だけ同時に結果が得られるからである。
第2の例としては、各特徴量の背後に因子があり、共通の因子をもつ特徴量毎にまとめて特徴セットにしておく。これにより、認識に有効な因子に対応する特徴セットが選択され、認識に有効な因子が何であるかを推定することができる。
第3の例としては、画像データを領域分割して各領域から特徴抽出を行う場合、異なる領域に属する特徴量を選択すると特徴抽出処理の計算量が増大する。そのため、計算量の観点からみれば、できるだけ同じ領域に属する特徴量を選択することが望ましく、これは同じ領域に属する特徴量をまとめて特徴セットにすることで実現できる。
上記により、本実施例に係わるパターン認識装置10によれば、従来1つであった正則化項を、線形変換パラメータの大きさが全体に分散することで特定少数の特徴量のみを重要視することを避ける項と、選択特徴セットの数が少ないほど小さい値になる特徴選択機能を有する項との2つに分けることによって、最適化問題が大規模なものになるのを回避し、学習サンプル数や特徴量の数が多い場合においても高速に学習できる。
そのため、学習サンプルに応じた適応的な入力特徴セットの選択と線形変換パラメータの学習を高速に行うことができ、状況に応じた精度の高い認識を行うことが可能となる。
以下、本発明の実施例2に係わるパターン認識装置20について図6~図7に基づいて説明する。
パターン認識装置20の構成について図6に基づいて説明する。図6は、パターン認識装置20のブロック図である。
図6に示すように、パターン認識装置20は、パターン取得部11、認識部12、サンプル取得部13、学習部14、制御部15を有する。
パターン取得部11、認識部12、サンプル取得部13、学習部14は、実施例1と同様の機能を有する。
制御部15は、動作モードが認識モード、又は、学習モードであるかを制御する。
ここで簡単のために、M個の特徴セットの中から用いるK個の選択特徴セットのフラグ値sや線形変換パラメータwなど、認識動作で必要とする情報をまとめて「辞書」と呼ぶことにする。従って、認識動作は、辞書を用いた入力パターンの属性の認識であり、学習動作は、学習サンプルを用いた辞書の学習であると言える。
認識動作に用いる辞書は、パターン認識装置20とは別の装置で学習した辞書をネットワークや記憶媒体を介してコピーしたものでもよいし、パターン認識装置20で学習した辞書でもよい。そして、パターン認識装置20は辞書を保持している。
次に、本実施例に係わるパターン認識装置20の動作について説明する。なお、この説明において、実施例1に係わるパターン認識装置10の認識動作と学習動作を用いつつ、図7を用いて説明する。
ステップS71では、制御部15が、パターン認識装置20の動作モードが、認識モード、又は、学習モードであるかの判定処理を行う。動作モードは、例えば、ユーザがボタンなどの入力インタフェースを用いて切り替えることができる。判定処理において、認識モードであると判定された場合には、ステップS72に進み、学習モードであると判定された場合にはステップS75に進む。
ステップS72では、認識モードと判定されたので、パターン取得部11が、入力パターンを取得する。
入力パターンの取得方法は、パターンの種類に依るので、幾つかの例を示す。
パターンがテキストデータであるならば、光学文字認識機能を有するスキャナーを用いて読み込むか、又は、デジタル化されたテキストファイルをネットワーク、又は、汎用の記憶媒体から取得する。
パターンが画像データであるならば、カメラから取得するか、又は、予め保存されている画像データをネットワーク等から取得する。
パターンが音声データであるならば、マイクから取得するか、又は、予め保存されている音声データをネットワーク等から取得する。
ステップS73では、認識部12が、保存している辞書を用いて、実施例1の認識動作で述べたように取得した入力パターンの属性の認識を行う。
ステップS74では、認識部12が、認識結果を出力する。
ステップS75では、学習モードと判定されたので、サンプル取得部13が学習サンプルを取得する。このときにパターン認識装置20に対して学習サンプルを与える必要がある。学習サンプルの具体的な与え方については、幾つかの例を示す。
第1の例として本実施例のパターン認識装置20が、カメラ画像による顔認識を行う装置であると想定する。この場合、学習サンプルとしては、認証したい人物の顔画像データと前記人物のID(例えば、人物の姓名)の組が必要となる。ここでIDは、前述の属性に相当する。顔画像データは、例えば、その場でカメラ等の撮像装置を用いて人物を撮影することにより取得し、前記IDはキーボードやタッチパネルなどの入力インタフェースを用いて取得してもよい。又は、事前に取得して保存してある前記顔画像データとIDの組を取得してもよい。
第2の例として本実施例のパターン認識装置20が、カメラ等で撮像された画像データに写った物体が何であるかを認識する装置であると想定する。この場合、学習サンプルとしては、認識したい物体の画像データと前記物体のID(例えば、物体の名称)が必要となる。これらも、顔画像データとIDの組の取得と同様な方法で取得できる。
なお、学習サンプルは全て一度に与える必要はなく、例えば、過去の学習で用いた学習サンプルを保持しておき、適宜加えてもよい。
ステップS76では、学習部14は、実施例1の学習動作で述べたように、取得した学習サンプルを用いて辞書の学習を行う。この学習によって、新しく入力された学習サンプルに対して認識性能が高くなるようなK個の選択特徴セットがM個の特徴セットの中から選択され、辞書が作成される。
ステップS77では、学習部14が、作成された辞書で、現在保持している辞書を置き換える。これにより、例えば、新しく認証又は認識したい人物又は物体を、即座に認証又は認識できる。
本実施例に係わるパターン認識装置20によれば、学習動作と認識動作とを切り替えながら、学習サンプルに応じた辞書の学習を高速に行ったり、入力パターンの属性の認識を高い精度で行うことができる。
以下、本発明の実施例3に係わるパターン認識装置30について図8~図9に基づいて説明する。
パターン認識装置30の構成について図8に基づいて説明する。図8は、パターン認識装置30のブロック図である。
図8に示すように、パターン認識装置30は、入力部302、制御部304、認識部306、辞書保持部308、学習部310、サンプル記憶部312、出力部314を有する。
入力部302は、入力パターン、入力パターンの属性、及び、本装置30の動作モードを取得する。実施例1で述べたように入力パターンには様々なものがある。しかし、以下の本実施例では、入力パターンが人物画像データである場合を例に説明する。人物画像データは、カメラなどの撮像装置を用いて撮像したもの、HDDなどの記憶媒体に保存されている画像データ、又は、LANなどのネットワークを介して送られてくる画像データでも構わない。
認識部306は、D個(Dは3以上の自然数)の特徴量がそれぞれM個(Mは2以上の自然数)の入力特徴セットの何れかに属する場合において、入力部302で取得した入力パターンからK個(KはMよりも小さい自然数)の選択入力特徴セットの何れかに属する特徴量を全て抽出する。次に、認識部306は、抽出した特徴量を成分とする入力特徴ベクトルを線形変換した値を入力パターンの属性値とする。
出力部314は、認識部306で算出した属性値に対応する属性を、入力パターンの属性として出力する。
辞書保持部308は、認識部306で用いるK個の選択特徴セットのフラグ値s及び線形変換パラメータwを保持する。
サンプル記憶部312は、入力部302で取得した入力パターンと入力パターンの属性との組を記憶する。
学習部310は、サンプル記憶部312に保持した入力パターンと属性との組を複数組用いて、辞書保持部308が保持する選択特徴セットのフラグ値s及び線形変換パラメータwを学習する。
制御部314は、動作モードが、認識モード、学習モード、又は、学習サンプル取得モードであるかを制御する。
ここで簡単のために、辞書保持部308で保持するK個の選択特徴セットのフラグ値s及び線形変換パラメータwなど、認識動作で必要とする情報をまとめて「辞書」と呼ぶことにする。従って、認識動作は、辞書を用いた入力パターンの属性の認識であり、学習動作は、学習サンプルを用いた辞書の学習であると言える。
認識動作に用いる辞書は、パターン認識装置30とは別の装置で学習した辞書をネットワークや記憶媒体を介してコピーしたものでもよいし、パターン認識装置30で学習した辞書でもよい。そして、パターン認識装置30は、辞書を辞書保持部308で保持する。
本実施例に係わるパターン認識装置30の動作について説明する。なお、この説明において、実施例1に係わるパターン認識装置10の認識動作と学習動作を用いつつ、図9を用いて説明する。
ステップS91では、入力部302が、人物画像データを取得する。
ステップS92、S93では、制御部304が、認識モード、学習モード、又は、学習サンプル取得モードであるかの判定処理を行う。
動作モードは、ユーザが、キーボード、マウス、タッチパネル、ボタンスイッチなどの入力インタフェースを介して切り替えることができる。ユーザは、現在の動作モードを汎用ディスプレイなどの出力装置に表示することで確認できる。
前記判定処理において、認識モードであると判定された場合は、ステップS94では、認識部306が、保持している辞書を用いて、実施例1の認識動作で述べたように、認識したい画像データの属性値の認識を行う。ステップS95では、認識部306が、その属性値を属性に変換して認識結果として出力する。
前記判定処理において、学習モードであると判定された場合は、ステップS96では、学習部310が、サンプル記憶部312に記憶されている人物画像データと人物画像データの属性を表す属性値との組を複数用いて、新しく辞書の学習を行う。但し、前記組が複数組存在しない場合には、辞書の学習は行わない。
辞書の学習は、実施例1で述べた学習動作と同様に、例えば式(6)が極少値となるような線形変換パラメータw及びフラグ値sを求めることで行われる。これにより、現在保持している学習サンプルに対して認識性能が高くなるようなK個の選択特徴セットが選択され、かつ、線形変換パラメータwが求められる。
ステップS97では、学習部310が、K個の選択特徴セットのフラグ値s及び線形変換パラメータwをHDDなどの記憶媒体(辞書)に保存して更新し、この学習以降に行われる認識動作に使用される。これにより、例えば、新しく認識したい人物の属性を、認識することが可能となる。
前記判定処理において、学習サンプル取得モードであると判定された場合には、サンプル記憶部312が、取得した画像データに対する属性を取得し、画像データと取得した属性を表す属性値との組をHDDなどの記憶媒体に保存する。
属性値の取得は、キーボード、マウス、タッチパネル、ボタンスイッチなどの入力インタフェースを介して取得する。取得した学習サンプルは、必要に応じて汎用ディスプレイなどの表示デバイスによってユーザが確認でき、削除もできる。
本実施例に係わるパターン認識装置30によれば、学習動作と認識動作とを切り替えながら、学習サンプルに応じた辞書の学習を高速に行ったり、入力パターンの属性の認識を高い精度で行うことができる。
なお、本発明は、上記の実施例に限定されず、その要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記の実施例に開示されている複数の構成要素の適当な組み合わせにより、種々の発明を形成できる。例えば、実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例にわたる構成要素を適宜組み合わせてもよい。
10 パターン認識装置
11 パターン取得部
12 認識部
13 サンプル取得部
14 学習部
11 パターン取得部
12 認識部
13 サンプル取得部
14 学習部
Claims (5)
- 学習パターンと前記学習パターンの属性とを含む複数の学習サンプルを取得し、前記学習パターンから学習特徴ベクトルを抽出し、前記学習特徴ベクトルをM個(Mは2以上の自然数である)の学習特徴セットに分割するサンプル取得部と、
前記学習サンプルを用いて、前記M個の学習特徴セットからK個(M>K)の学習特徴セットを選択するか否かを表すフラグ値と、選択されたK個の前記学習特徴セットを有する学習特徴ベクトルを前記属性の確からしさを示す属性値に線形変換するための線形変換パラメータを学習する学習部と、
属性を認識しようとする入力パターンを取得し、前記M個の学習特徴セットと同様に設定されるM個の入力特徴セットのうちK個の入力特徴セットを前記フラグ値に基づいて選択し、前記選択したK個の入力特徴セットを有する入力特徴ベクトルを前記入力パターンから抽出するパターン取得部と、
前記選択したK個の入力特徴セットを有する前記入力特徴ベクトルを、前記線形変換パラメータを用いて線形変換して前記属性値を求め、前記属性値から前記入力パターンの属性を認識する認識部と、
を有し、
前記学習部は、
前記フラグ値により選択された前記学習特徴セットを有する前記学習特徴ベクトルを前記線形変換パラメータを用いて線形変換して算出された値と、前記学習サンプルの前記属性を表す属性値との差が大きいほど損失が大きくなる損失項と、
前記線形変換パラメータの偏りが小さいほどに小さい値となる第1の正則化項と、
前記フラグ値により選択された前記学習特徴セットの数が少ないほど小さくなる第2の正則化項と、
の3つの項を有する目的関数に関して、前記目的関数が極小値となる前記線形変換パラメータと前記フラグ値を学習する、
ことを特徴とするパターン認識装置。 - 前記第1の正則化項は、前記フラグ値に前記線形変換パラメータをかけた値の2乗値の重み付き和であり、
前記第2の正則化項は、前記フラグ値に非負パラメータをかけた重み付き和である、
ことを特徴とする請求項1に記載のパターン認識装置。 - 前記第2の正則化項は、前記フラグ値のL1ノルム、又は、Lqノルム(qは1以下の非負実数である)である、
ことを特徴とする請求項2に記載のパターン認識装置。 - 前記損失項は、損失関数で表され、前記損失関数は、前記差の絶対値、前記差の2乗値、exponential loss、hinge loss、又は、これらを組み合わせた値を求める関数である、
ことを特徴とする請求項3に記載のパターン認識装置。 - 前記学習部は、前記極小値を求めるために前記目的関数の収束判定を行い、前記収束判定は、前記フラグ値と前記線形変換パラメータの変動幅が予め定められた閾値以下になったときに収束したと判定する、
ことを特徴とする請求項4に記載のパターン認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/000603 WO2011096010A1 (ja) | 2010-02-02 | 2010-02-02 | パターン認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2010/000603 WO2011096010A1 (ja) | 2010-02-02 | 2010-02-02 | パターン認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2011096010A1 true WO2011096010A1 (ja) | 2011-08-11 |
Family
ID=44355041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2010/000603 WO2011096010A1 (ja) | 2010-02-02 | 2010-02-02 | パターン認識装置 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2011096010A1 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013246790A (ja) * | 2012-05-29 | 2013-12-09 | Toshiba Tec Corp | 認識辞書作成装置及びプログラム |
WO2015125759A1 (ja) * | 2014-02-24 | 2015-08-27 | 花王株式会社 | 加齢分析方法及び加齢分析装置 |
JP2016071684A (ja) * | 2014-09-30 | 2016-05-09 | 日本電気株式会社 | パターン認識装置、パターン学習装置、パターン学習方法およびパターン学習プログラム |
US10049273B2 (en) | 2015-02-24 | 2018-08-14 | Kabushiki Kaisha Toshiba | Image recognition apparatus, image recognition system, and image recognition method |
JP2019055838A (ja) * | 2017-09-20 | 2019-04-11 | 東芝エレベータ株式会社 | エレベータシステム及びエレベータの迷子検出方法 |
JP2020194414A (ja) * | 2019-05-29 | 2020-12-03 | 株式会社日立製作所 | データ分析装置、データ分析方法、およびデータ分析プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000020504A (ja) * | 1998-06-30 | 2000-01-21 | Toshiba Corp | 目的変数の説明または予測方法、および目的変数を説明または予測するプログラムを記録した記録媒体 |
-
2010
- 2010-02-02 WO PCT/JP2010/000603 patent/WO2011096010A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000020504A (ja) * | 1998-06-30 | 2000-01-21 | Toshiba Corp | 目的変数の説明または予測方法、および目的変数を説明または予測するプログラムを記録した記録媒体 |
Non-Patent Citations (3)
Title |
---|
ANDREAS ARGYRIOU ET AL.: "Multi-Task Feature Learning", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS, vol. 19, 2007, pages 41 - 48 * |
HUI ZOU ET AL.: "THE F-infinity-NORM SUPPORT VECTOR MACHINE", STATISTICA SINICA, vol. 18, no. 1, January 2008 (2008-01-01), pages 379 - 398 * |
SHIGEO ABE: "Support Vector Machines for Pattern Classification-V : Feature Extraction and Feature Selection", SYSTEMS, CONTROL AND INFORMATION, vol. 53, no. 3, 15 March 2009 (2009-03-15), pages 30 - 35 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013246790A (ja) * | 2012-05-29 | 2013-12-09 | Toshiba Tec Corp | 認識辞書作成装置及びプログラム |
WO2015125759A1 (ja) * | 2014-02-24 | 2015-08-27 | 花王株式会社 | 加齢分析方法及び加齢分析装置 |
JP2015172935A (ja) * | 2014-02-24 | 2015-10-01 | 花王株式会社 | 加齢分析方法及び加齢分析装置 |
CN106030659A (zh) * | 2014-02-24 | 2016-10-12 | 花王株式会社 | 增龄分析方法及增龄分析装置 |
CN106030659B (zh) * | 2014-02-24 | 2019-01-22 | 花王株式会社 | 增龄分析方法及增龄分析装置 |
TWI716344B (zh) * | 2014-02-24 | 2021-01-21 | 日商花王股份有限公司 | 增齡分析方法、使用增齡分析方法之衰老修護之輔助方法、增齡分析裝置及電腦可讀取之記錄媒體 |
JP2016071684A (ja) * | 2014-09-30 | 2016-05-09 | 日本電気株式会社 | パターン認識装置、パターン学習装置、パターン学習方法およびパターン学習プログラム |
US10049273B2 (en) | 2015-02-24 | 2018-08-14 | Kabushiki Kaisha Toshiba | Image recognition apparatus, image recognition system, and image recognition method |
JP2019055838A (ja) * | 2017-09-20 | 2019-04-11 | 東芝エレベータ株式会社 | エレベータシステム及びエレベータの迷子検出方法 |
JP2020194414A (ja) * | 2019-05-29 | 2020-12-03 | 株式会社日立製作所 | データ分析装置、データ分析方法、およびデータ分析プログラム |
JP7202973B2 (ja) | 2019-05-29 | 2023-01-12 | 株式会社日立製作所 | データ分析装置、データ分析方法、およびデータ分析プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
WO2021073417A1 (zh) | 表情生成方法、装置、设备及存储介质 | |
KR102385463B1 (ko) | 얼굴 특징 추출 모델 학습 방법, 얼굴 특징 추출 방법, 장치, 디바이스 및 저장 매체 | |
Sun et al. | Gender classification based on boosting local binary pattern | |
Jang et al. | Registration-free Face-SSD: Single shot analysis of smiles, facial attributes, and affect in the wild | |
US9053358B2 (en) | Learning device for generating a classifier for detection of a target | |
CN109993102B (zh) | 相似人脸检索方法、装置及存储介质 | |
US20140153832A1 (en) | Facial expression editing in images based on collections of images | |
JP6532190B2 (ja) | 画像検索装置、画像検索方法 | |
CN106874826A (zh) | 人脸关键点跟踪方法和装置 | |
CN110781829A (zh) | 一种轻量级深度学习的智慧营业厅人脸识别方法 | |
JP2011013732A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2011096010A1 (ja) | パターン認識装置 | |
CN111178208A (zh) | 基于深度学习的行人检测方法、装置及介质 | |
CN110689480B (zh) | 一种图像变换方法及装置 | |
WO2021196721A1 (zh) | 一种舱内环境的调整方法及装置 | |
CN111401374A (zh) | 基于多任务的模型训练方法、字符识别方法及装置 | |
Raut | Facial emotion recognition using machine learning | |
CN112036260A (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
Kishore et al. | Selfie sign language recognition with convolutional neural networks | |
Amaro et al. | Evaluation of machine learning techniques for face detection and recognition | |
Agbo-Ajala et al. | A lightweight convolutional neural network for real and apparent age estimation in unconstrained face images | |
JP2012048624A (ja) | 学習装置、方法及びプログラム | |
CN113297956B (zh) | 一种基于视觉的手势识别方法及系统 | |
Hoque et al. | Bdsl36: A dataset for bangladeshi sign letters recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 10845148 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 10845148 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |