WO2023188085A1 - 学習装置、学習方法及び記録媒体 - Google Patents

学習装置、学習方法及び記録媒体 Download PDF

Info

Publication number
WO2023188085A1
WO2023188085A1 PCT/JP2022/015900 JP2022015900W WO2023188085A1 WO 2023188085 A1 WO2023188085 A1 WO 2023188085A1 JP 2022015900 W JP2022015900 W JP 2022015900W WO 2023188085 A1 WO2023188085 A1 WO 2023188085A1
Authority
WO
WIPO (PCT)
Prior art keywords
margin
learning
label
class
unit
Prior art date
Application number
PCT/JP2022/015900
Other languages
English (en)
French (fr)
Inventor
正志 宇佐見
巧一 高橋
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/015900 priority Critical patent/WO2023188085A1/ja
Publication of WO2023188085A1 publication Critical patent/WO2023188085A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

単ラベル又は多ラベルのクラスのサンプル数が不均一なデータセットを用いて分類器の学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器を実現することができる学習装置、学習方法及び記録媒体を提供する。学習装置は、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置であって、学習用の画像から抽出された特徴量を入力として分類器モデルの学習を行う学習部と、学習に用いる損失関数にマージンを付与するマージン付与部とを有し、マージン付与部は、単ラベル又は多ラベルについて付与するマージン総量を固定し、単ラベル又は多ラベルの複数のクラスにマージン総量を非対称に分配したクラスマージンを付与する。

Description

学習装置、学習方法及び記録媒体
 本発明は、学習装置、学習方法及び記録媒体に関する。
 非特許文献1-6には、クラス分類のための角度距離学習に用いられる損失関数にマージンを付与することが記載されている。
 しかしながら、非特許文献1、2に記載された手法では、クラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器モデルを実現することは困難である。
 また、非特許文献3-6では、クラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合においてクラス間の分離性能を上げるような工夫が組み込まれているが、以下に述べる課題がある。
 まず、非特許文献3、4では、単ラベル・多クラス分類の最適化を主に想定しており、多ラベルの時に任意の公平性の指標を最大化するようにマージン項を決定・調整することが困難である。すなわち、非特許文献3、4では、単ラベルの問題を想定しているため、多ラベルの時とは想定が異なり、この方法で決定したマージンでは多ラベルの時に公平性指標が必ずしも最大化されない。
 また、非特許文献5、6では、フォアグラウンドとバックグランドで分類するセグメンテーションタスクを主に想定しているため、単ラベル又は多ラベルの多クラス分類タスクの時に任意の公平性の指標を最大化するようにマージン項を決定・調整することが困難である。すなわち、非特許文献5、6では、セグメンテーションタスクでforeground=m(mはマージン項)/background=0でマージンをつけるため、公平性指標を最大化するマージン項を多クラスの時に割り振ることがそもそも難しいため、非特許文献の組み合わせのみでは既存の問題の解決が不可能である。
 本発明は、上記に述べた課題群を解決しつつ、単ラベル又は多ラベルのクラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器モデルを実現することができる学習装置、学習方法及び記録媒体を提供することを目的とする。
 本発明の一つの観点によれば、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置であって、学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行う学習部と、前記学習に用いる損失関数にマージンを付与するマージン付与部とを有し、前記マージン付与部は、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与することを特徴とする学習装置が提供される。
 本発明の他の観点によれば、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、前記学習に用いる損失関数にマージンを付与し、前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与することを特徴とする学習方法が提供される。
 本発明のさらに他の観点によれば、コンピュータに、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、前記学習に用いる損失関数にマージンを付与し、前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与することを実行させるためのプログラムが記録された記録媒体が提供される。
 本発明によれば、単ラベル又は多ラベルのクラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器モデルを実現することができる。
本発明の第1実施形態による情報処理装置の構成を示すブロック図である。 本発明の第1実施形態による情報処理装置により実行される学習方法を示す概略図である。 本発明の第1実施形態による情報処理装置により実行される学習方法を示すフローチャートである。 損失関数に付与されるマージンを説明する図である。 損失関数に付与されるマージンを説明する図である。 本発明の第1実施形態による情報処理装置において自動で決定されるクラスマージンの非対称性を模式的に示す図である。 本発明の第2実施形態による情報処理装置により実行される推定方法を示す概略図である。 本発明の第2実施形態による情報処理装置により実行される推定方法を示すフローチャートである。 本発明の第3実施形態による情報処理装置の構成を示すブロック図である。
 [第1実施形態]
 本発明の第1実施形態による情報処理装置及び情報処理方法について図1乃至図5を用いて説明する。
 まず、本実施形態による情報処理装置の構成について図1を用いて説明する。図1は、本実施形態による情報処理装置1の構成を示すブロック図である。本実施形態では、情報処理装置1が、角度を用いた深層距離学習である角度距離学習により、顔画像について多ラベル多クラス分類を行う分類器モデルを学習する学習装置である場合について説明する。多ラベル多クラス分類を行う分類器モデルは、対象の顔画像について、複数のラベルの各ラベルについて複数のクラスへの分類を行うものである。ラベル数は2以上の複数であれば特に限定されるものではなく、クラス数も2以上の複数であれば特に限定されるものではない。
 図1に示すように、本実施形態による情報処理装置1は、プロセッサ10と、メモリ20と、ストレージ30と、入力装置40、出力装置50と、インタフェース60とを有している。プロセッサ10、メモリ20、ストレージ30、入力装置40、出力装置50及びインタフェース60は、共通バス70に接続されている。
 プロセッサ10は、例えば、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)等のプロセッサである。プロセッサ10は、ストレージ30に記憶されたプログラム又はインタフェース60を介して外部のプログラムを実行することにより動作し、情報処理装置1全体の動作を制御する制御部として機能する。また、プロセッサ10は、ストレージ30に記憶されたプログラム又はインタフェース60を介して外部のプログラムを実行して情報処理装置1としての各種処理を実行する。
 具体的には、情報処理装置1が学習装置として機能する場合、プロセッサ10は、プログラムを実行することにより、後述するように、画像取得部102、特徴抽出部104、分類器学習部106、及びマージン付与部108として機能する。なお、情報処理装置1は、学習装置として機能することにより学習された学習済みの分類器モデルを用いた推定装置としても機能することもできる。この場合、プロセッサ10は、プログラムを実行することにより、第2実施形態で述べるように、画像取得部102、特徴抽出部104及び推定部110として機能する。学習装置として機能する情報処理装置1と推定装置として機能する情報処理装置1とは互いに同一の装置であってもよいし、互いに異なる装置であってもよい。学習装置として機能する場合、プロセッサ10は、必ずしも推定部110としての機能することができなくてもよい。推定装置として機能する場合、プロセッサ10は、必ずしも分類器学習部106及びマージン付与部108として機能することができなくてもよい。
 メモリ20は、RAM(Random Access Memory)等の揮発性メモリにより構成された主記憶装置である。メモリ20は、プロセッサ10の動作に必要なメモリ領域を提供し、プロセッサ10が実行するプログラム、プロセッサ10が参照するデータ等を一次的に記憶する。
 ストレージ30は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、ROM(Read Only Memory)等により構成された補助記憶装置である。ストレージ30は、プロセッサ10が実行するプログラム、プロセッサ10が参照するデータ等を記憶している。
 ストレージ30は、学習用の顔画像としてサンプル数Nの複数の顔画像が記憶された学習用データベース(DB、Database)302を記憶している。なお、学習用DB302は、インタフェース60を介して接続可能なサーバ等の外部機器に記憶されていてもよい。
 入力装置40は、例えば、キーボード、マウス、タッチパネル等である。入力装置40は、ユーザによる指示、設定値等の入力を受け付ける。入力装置40は、デジタルカメラ等の撮影装置であってもよい。出力装置50は、例えば、ディスプレイ、プリンタ等である。ディスプレイである出力装置50は、プロセッサ10により実行されるプログラムの設定画面、実行画面等の各種画面を表示する。
 情報処理装置1は、インタフェース60を介して、外部記憶装置、周辺機器等の外部機器、ネットワーク等に接続される。インタフェース60の接続規格は特に限定されるものではない。また、インタフェース60の接続方式は、有線方式であっても無線方式であってもよい。
 こうして、本実施形態による情報処理装置1が構成されている。なお、情報処理装置1は、パーソナルコンピュータ、サーバ等の汎用の計算機であってもよいし、専用に設計された計算機であってもよい。また、情報処理装置1の各機能の一部又は全部は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路により実現することもできる。
 次に、本実施形態による情報処理装置1による学習方法について更に図2及び図3を用いて説明する。図2は、本実施形態による情報処理装置1により実行される学習方法を示すフローチャートである。図3は、本実施形態による情報処理装置1により実行される学習方法を示す概略図である。
 プロセッサ10は、ストレージ30に記憶されたプログラム又はインタフェース60を介して外部のプログラムを実行することにより、画像取得部102、特徴抽出部104、分類器学習部106、及びマージン付与部108として機能する。以下では、顔画像についてAラベルのCクラス分類を行う分類器モデルを学習する場合について説明する。ここで、Aは2以上の整数、Cは2以上の整数である。例えば、分類器モデルは、顔画像について多ラベルの多クラス分類を行って顔属性を判定するモデルである。具体的には、分類器モデルは、例えば顔画像について3クラスの2クラス分類を行うモデルである。例えば、分類器モデルは、「男性」のラベルにつき「男性である」及び「男性でない」の2クラスに、「眼鏡」のラベルにつき「眼鏡がある」及び「眼鏡がない」の2クラスに、「笑顔」のラベルにつき「笑顔である」及び「笑顔でない」の2クラスに分類する。簡単のため、以降の数式ではすべてのラベルでクラス数をCにそろえた場合を考えるが、Cはラベルごとに異なっていてもよい。その場合は、Cは置き換えられてCとなり、ラベルaごとに異なる2以上の整数になる。
 図2及び図3に示すように、画像取得部102は、学習用の顔画像としてサンプル数Nの複数の顔画像が記憶された学習用データベース(DB、Database)302から、バッチサンプル数Bの複数の顔画像を含むミニバッチを取得する(ステップS102)。
 次いで、特徴抽出部104は、画像取得部102により取得されたミニバッチに含まれる各顔画像について特徴量を抽出する(ステップS104)。特徴抽出部104は、例えば、学習済みの畳み込みニューラルネットワーク(CNN、Convolutional Neural Network)を用いて顔画像から特徴量を抽出することができる。この場合、特徴抽出部104は、CNNに対する顔画像の入力に対してそのCNNの中間層により出力された中間特徴量であるD次元の特徴ベクトルを顔画像の特徴量として抽出する。特徴抽出部104は、L2正規化により中間特徴量を正規化することができる。中間特徴量の抽出に用いるCNNの中間層は、特に限定されるものではないが、例えばResNet(Kaiming He et al., "Deep Residual Learning for Image Recognition", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778参照)の中間層である。
 次いで、分類器学習部106は、各顔画像の特徴量である特徴ベクトルを入力として角度距離学習により分類器モデルの学習を行う。具体的には次のとおりである。
 まず、分類器学習部106は、1番目からA番目までのラベルのそれぞれについて、1番目からB番目までの顔画像の特徴ベクトルのそれぞれと、各クラスの代表ベクトルとのコサイン類似度を計算する(ステップS106)。分類器学習部106は、1番目からA番目までのラベルのそれぞれに対応する全結合層FC~FCを用いてコサイン類似度を計算することができる。
 次いで、分類器学習部106は、算出したコサイン類似度を用いて、1番目からA番目までのラベルのそれぞれについて、Softmax型損出関数によりロスを計算する(ステップS108)。分類器学習部106は、次式(1-1)により表される損失関数によりa番目のラベルについてのロスLを計算することができる。
Figure JPOXMLDOC01-appb-M000003
 式(1-1)中、θa,b,cは、a番目のラベルについての、b番目の顔画像の特徴ベクトルと正解クラスであるc番目のクラスの代表ベクトルとがなす角度である。aは1≦a≦Aを満たす整数である。bは1≦b≦Bを満たす整数である。cは1≦c≦Cを満たす整数である。c′はc′≠cかつ1≦c′≦Cを満たす整数である。3つの総和記号は、式(1-1)の右辺左側から右側に順に、bについての1からBまでの総和、cについての1からCまでの総和、c以外のクラスのc′についての総和を意味する。sは、角度距離学習のハイパーパラメータであり、例えばs=10に設定される。
 また、式(1-1)中、ma,c(γ)は、a番目のラベルのc番目のクラスについて定められるマージンであるクラスマージンである。ma,c(γ)は、マージン付与部108により設定される。マージン付与部108は、Softmax型の損失関数において、顔画像から特徴量として抽出された特徴ベクトルとクラスの代表ベクトルとがなす角θa,b,cのコサインに対して減算するようにma,c(γ)を設定して付与する。ロスの計算に際して、マージン付与部108は、次式(2)により計算されるma,c(γ)を設定して損失関数に付与する(ステップS110)。
Figure JPOXMLDOC01-appb-M000004
 式(2)中、mは、a番目のラベルについて定められるマージン総量であるラベルマージンである。ただし、mは、必ずしもラベルごとに定められる必要は必ずしもなく、各ラベルに共通の値mを用いることもできる。αa,c(γ)は、a番目のラベルのc番目のクラスのサンプル数に応じてmを分配するものであり、次式(3)により計算される。なお、αa,c(γ)は、cについて総和を計算すると1になる。
Figure JPOXMLDOC01-appb-M000005
 式(3)中、Na,cは、a番目のラベルにおけるc番目のクラスの顔画像のサンプル数の割合を示す。Na,c″は、a番目のラベルにおけるc″番目(c″は1≦c″≦Cを満たす整数)のクラスの顔画像のサンプル数の割合を示す。sは、ハイパーパラメータであり、式(1-1)中のsと同じものを用いることができる。式(3)の右辺分母の総和記号は、1≦c″≦Cを満たすすべての整数についての総和を意味する。γは、クラスマージンのクラス間の非対称性の強度を調整して決定するパラメータである。γの値は、正の値でも負の値でもありうるが、例えば0未満の-∞でない所定の値である。
 C=2の2クラス分類の場合、次式(2′)により計算されるma,c(γ)を設定することができる。
Figure JPOXMLDOC01-appb-M000006
 式(2′)中、αa,c(γ)は次式(3′)により計算される。
Figure JPOXMLDOC01-appb-M000007
 なお、分類器学習部106は、式(1-1)に代えて、次式(1-2)又は(1-3)により表される損失関数によりa番目のラベルについてのロスLを計算することもできる。この場合も、マージン付与部108は、上記と同様にma,c(γ)を設定することができる。
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
 式(1-2)の場合、マージン付与部108は、Softmax型の損失関数において、顔画像から特徴量として抽出された特徴ベクトルとクラスの代表ベクトルとがなす角θa,b,cに対して加算するようにma,c(γ)を設定して付与する。式(1-3)の場合、マージン付与部108は、Softmax型の損失関数において、顔画像から特徴量として抽出された特徴ベクトルとクラスの代表ベクトルとがなす角θa,b,cに対して乗算するようにma,c(γ)を設定して付与する。
 また、分類器学習部106は、式(1-1)に代えて、3つのクラスマージンm、m、mが用いられた次式(1-4)により表される損失関数によりa番目のラベルについてのロスLを計算することもできる。式(1-4)は、式(1-1)、式(1-2)及び式(1-3)を組み合わせたものである。この場合、マージン付与部108は、m、m、mのそれぞれについて、上記のma,c(γ)と同様にして設定することができる。
Figure JPOXMLDOC01-appb-M000010
 次いで、分類器学習部106は、各ラベルについて計算されるロスLが最小化されるように全結合層のパラメータを更新して分類器モデルの学習を行い、全結合層FC~FCのパラメータを最適化する(ステップS112)。例えば、分類器学習部106は、次式(4)により計算されるAラベル全部のロスLが最小化されるように分類器モデルの学習を行い、全結合層FC~FCのパラメータを最適化することができる。式(4)の右辺の総和記号は、aについての1からAまでの総和を意味する。
Figure JPOXMLDOC01-appb-M000011
 なお、プロセッサ10は、ステップS102からステップS112までの処理を繰り返して実行し、複数のミニバッチを用いてミニバッチ学習により分類器モデルの学習を行うことができる。また、プロセッサ10は、学習に用いる複数の顔画像を一括して処理するバッチ学習により分類器モデルの学習を行うこともできるし、学習に用いる複数の顔画像のそれぞれを順次処理するオンライン学習により分類器モデルの学習を行うこともできる。
 マージン付与部108は、ユーザから入力装置40等を介して入力されるラベルマージンm及びパラメータγを設定して付与することができる。ユーザは、ラベルマージンm及びパラメータγを手動で調整して、分類器モデルの評価指標であるBalanced Accuracy等の公平性指標を最適化することができる。なお、公平性指標としては、任意の指標を用いることができ、F1スコア、マシューズ相関係数(Matthews Correlation Coefficient、MCC)等を用いることもできる。
 また、分類器学習部106は、ラベルマージンm及びパラメータγを手動により調整することに代えて、ラベルマージンm及びパラメータγを学習可能なパラメータとして学習を行うこともできる。これにより、分類器学習部106は、ラベルマージンm及びパラメータγを自動で決定することができる。なお、分類器学習部106は、必ずしもラベルマージンm及びパラメータγの両方を自動で決定する必要はなく、ラベルマージンm及びパラメータγの少なくとも一方を自動で決定することができる。
 ラベルマージンm及びパラメータγを自動で決定する場合、分類器学習部106は、自明解への収束を回避するため、損失関数に拘束条件を付加することができる(非特許文献4参照)。具体的には、分類器学習部106は、例えば、次式(5)により表される拘束条件Lを式(4)で表されるロスに付加することができる。
Figure JPOXMLDOC01-appb-M000012
 λは、Lの強度を調整するためのパラメータで、大きくするほどより大きいラベルマージンmを取るようになる。なお、より厳密には、λはラベルごとに設定することができ、a番目のラベルのλをλとして式(5)に組み込むこともできる。
 なお、m=mと設定し、mを全ラベル共通の学習可能なパラメータとして学習を行うこともできる。この場合、Lは、次式(5′)により表される。
Figure JPOXMLDOC01-appb-M000013
 分類器学習部106は、上述のように分類器モデルを学習して学習済みの分類器モデルを生成する(ステップS114)。分類器学習部106は、生成した分類器モデルをストレージ30、外部ストレージ等の記憶装置に記憶させることができる。
 近年、人種、性別等の属性に性能が依存しない顔認証、すなわち公平な顔認証の重要性が高まっている。公平な認証の確立に向け、顔画像から属性を推定する顔属性推定についても公平な分類器の需要がある。これまで、分類器の分離性能を向上するため、角度距離学習において損失関数にマージンを付与することが行われている。しかしながら、学習に用いるサンプルとして完全にサンプル数が均一なデータセットを用意することは困難であるため、多数派サンプルと少数派サンプルとを含む不均一なデータセットを用いて学習を行わざるをえない。かかる場合に単にマージンを付与するだけでは、クラスのサンプル数が不均一なデータセットを用いて分類器の学習を行う場合に、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器を実現することは困難である。特に、多ラベル多クラス分類を行う分類器モデルの学習を行う場合には、簡単なラベルの簡単なクラスに偏った学習が行われて公平な学習が阻害されうる。
 一方、本実施形態では、ラベルマージンmとして各ラベルのマージン総量を固定し、非対称性の強度を決定するパラメータγにより、クラスのサンプルの割合に基づいて、ラベルマージンmをクラスマージンma,c(γ)に非対称に分配する。
 図4A及び図4Bは、それぞれラベルaのクラス0、1にそれぞれ設定されるクラスマージンma,0、ma,1を視覚的に示す図である。図4Aは各クラスに同一のマージンを設定した場合、図4Bは本実施形態により各クラスに非対称にマージンを設定した場合を示している。W、Wはそれぞれクラス0、1の代表ベクトルである。xは顔画像のサンプルbから抽出された特徴ベクトルである。図4Bに示すように、本実施形態では、ラベルマージンmが固定され、ラベルマージンmが非対称に分配されたクラスマージンma,0、ma,1が設定される。図4Bでは、クラス1が少数派の場合、クラス0よりもクラス1についてより大きなクラスマージンが付与されるため、クラス内でコンパクトに学習することが促進される。
 このように、本実施形態では、ラベルマージンmをクラスマージンma,c(γ)に非対称に分配する。これにより、本実施形態では、ロスに明示的には現れないBalanced Accuracy等の公平性に関する指標であっても最大化されるように分類器モデルを学習することが可能になる。
 また、本実施形態においてラベルマージンm及びパラメータγを自動で決定する際、式(5)に示すように、クラスマージンの非対称性を決定する成分が拘束条件Lから切り離されている。このため、本実施形態では、ラベルのマージン総量が上限に達したとしても、ラベル内部のクラスのマージン量の非対称性は別に決定されるため、公平性を損なわない学習を多ラベルの形式であっても実現することができる。本実施形態による手法は、クラスマージンの非対称性を決定する成分が拘束条件Lから切り離されている点が非特許文献4と異なる。
 図5は、本実施形態により自動で決定されるクラスマージンの非対称性を模式的に示す図である。図5では、ラベル1~15のそれぞれについて2クラスのクラス0、1のクラスマージンm、mをラベルマージンmとともに示している。図示するように、クラスマージンm、mは、ラベルマージンmが非対称に分配されて非対称に決定される。
 以上より、本実施形態によれば、クラスのサンプル数が不均一なデータセットを用いて分類器の学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器を実現することができる。
 [第2実施形態]
 本発明の第2実施形態による情報処理装置及び情報処理方法について図6及び図7を用いて説明する。図6は、本実施形態による情報処理装置により実行される推定方法を示す概略図である。図7は、本実施形態による情報処理装置により実行される推定方法を示すフローチャートである。
 本実施形態では、図1に示す情報処理装置1が、第1実施形態により学習した学習済みの分類器モデルを用いて顔画像のクラスを推定して分類する推定装置として機能する場合について説明する。なお、学習装置として機能する情報処理装置1と推定装置として機能する情報処理装置1とは互いに同一の装置であってもよいし、互いに異なる装置であってもよい。推定装置として機能する情報処理装置1は、学習装置としての機能を有していなくてもよい。
 プロセッサ10は、ストレージ30に記憶されたプログラム又はインタフェース60を介して外部のプログラムを実行することにより、画像取得部102、特徴抽出部104及び推定部110として機能する。
 図6及び図7に示すように、画像取得部102は、推定対象の顔画像を取得する(ステップS202)。画像取得部102は、予めストレージ30に記憶された推定対象の顔画像をストレージ30から取得することもできるし、インタフェース60を介して外部機器から推定対象の顔画像を取得することもできる。また、画像取得部102は、撮影装置である入力装置40により推定対象の顔画像を取得することもできる。
 次いで、徴抽出部104は、画像取得部102により取得された推定対象の顔画像について、第1実施形態と同様にCNNを用いて特徴量を抽出する(ステップS204)。
 次いで、推定部110は、第1実施形態による情報処理装置1により学習された学習済みの分類器モデルを用いて、推定対象の顔画像について各ラベルのクラスを推定して分類する(ステップS206)。すなわち、推定部110は、学習済みの全結合層FC~FCを用いてコサイン類似度を計算する。次いで、推定部110は、Softmax型関数を出力層としてコサイン類似度から分類スコアとして各クラスの分類値を計算する。
 こうして、情報処理装置1は、推定対象の顔画像について各ラベルのクラスを推定して分類する。
 [第3実施形態]
 上記実施形態において説明した情報処理装置が機能する学習装置は、第3実施形態によれば、図8に示すように構成することもできる。図8は、本実施形態による学習装置の構成を示すブロック図である。
 図8に示すように、本実施形態による学習装置1000は、画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置である。学習装置1000は、学習用の画像から抽出された特徴量を入力として分類器モデルの学習を行う学習部1002と、学習に用いる損失関数にマージンを付与するマージン付与部1004とを有する。マージン付与部1004は、単ラベル又は多ラベルについて付与するマージン総量を固定し、単ラベル又は多ラベルの複数のクラスにマージン総量を非対称に分配したクラスマージンを付与する。
 本実施形態による学習装置1000では、複数のクラスにマージン総量を非対称に分配したクラスマージンを付与する。したがって、他の実施形態による学習装置1000によれば、クラスのサンプル数が不均一なデータセットを用いて分類器モデルの学習を行う場合でも、クラス間の分離性能及びクラス間の分離の公平性に優れた分類器モデルを実現することができる。
 [変形実施形態]
 本発明は、上記実施形態に限らず、種々の変形が可能である。
 例えば、上記実施形態では、顔画像について多ラベル多クラス分類を行う場合について説明したが、これに限定されるものではない。多ラベル多クラス分類を行う画像は、1つ又は複数の物体を含む画像である物体画像であってもよい。この場合、画像中に認識された1つ又は複数の物体について、多ラベル多クラス分類を行うことができる。
 また、上記実施形態では、多ラベル多クラス分類を行う分類器モデルを学習する場合について説明したが、これに限定されるものではない。学習を行う分類器モデルは、顔画像等の画像について単一のラベルである単ラベルの多クラス分類を行うものであってもよい。
 また、上記実施形態では、損失関数としてSoftmax型損出関数を用いる場合について説明したが、これに限定されるものではない。損失関数としては推定の対象等に応じて種々の関数を選択することができ、上記と同様にして損失関数にマージンを付与することができる。損失関数としては、Softmax型損出関数や交差エントロピー誤差のほか、平均二乗誤差、平均絶対誤差等を用いることもできる。
 上述の実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
 該記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、磁気テープ、不揮発性メモリカード等を用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS上で動作して処理を実行するものも各実施形態の範疇に含まれる。
 上述の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置であって、
 学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行う学習部と、
 前記学習に用いる損失関数にマージンを付与するマージン付与部とを有し、
 前記マージン付与部は、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
 ことを特徴とする学習装置。
 (付記2)
 前記分類器モデルは、前記多ラベルの各ラベルについて多クラス分類を行うものである
 ことを特徴とする付記1に記載の学習装置。
 (付記3)
 前記学習部は、角度距離学習により前記分類器モデルの前記学習を行う
 ことを特徴とする付記1又は2に記載の学習装置。
 (付記4)
 前記マージン付与部は、前記クラスのサンプルの割合に基づき前記クラスマージンを付与する
 ことを特徴とする付記1乃至3のいずれかに記載の学習装置。
 (付記5)
 前記マージン付与部は、次式(1)により計算される前記クラスマージンを前記損失関数に付与する
 ことを特徴とする付記1乃至4のいずれかに記載の学習装置。
Figure JPOXMLDOC01-appb-M000014
 (式(1)中、mは、a番目の前記ラベルについて定められる前記マージン総量である。αa,c(γ)は次式(2)により計算される。
Figure JPOXMLDOC01-appb-M000015
 式(2)中、Na,cは、a番目の前記ラベルにおけるc番目の前記クラスのサンプル数の割合を示す。Na,c″は、a番目の前記ラベルにおけるc″番目(c″は1≦c″≦Cを満たす整数)の前記クラスのサンプル数の割合を示す。右辺分母の総和記号は、1≦c″≦Cを満たすすべての整数についての総和を意味する。sは、ハイパーパラメータである。)
 (付記6)
 前記学習部は、前記m及び前記γの少なくとも一方を自動で決定する
 ことを特徴とする付記5記載の学習装置。
 (付記7)
 前記損失関数は、Softmax型の損失関数である
 ことを特徴とする付記1乃至6のいずれかに記載の学習装置。
 (付記8)
 前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角のコサインに対して減算するように前記クラスマージンを付与する
 ことを特徴とする付記7記載の学習装置。
 (付記9)
 前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角に対して加算するように前記クラスマージンを付与する
 ことを特徴とする付記7記載の学習装置。
 (付記10)
 前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角に対して乗算するように前記クラスマージンを付与する
 ことを特徴とする付記7記載の学習装置。
 (付記11)
 畳み込みニューラルネットワークにより前記特徴量を抽出する特徴抽出部を有する
 ことを特徴とする付記1乃至10のいずれかに記載の学習装置。
 (付記12)
 前記画像は顔画像である
 ことを特徴とする付記1乃至11のいずれかに記載の学習装置。
 (付記13)
 画像を取得する画像取得部と、
 付記1乃至12のいずれかに記載の学習装置により学習された前記分類器モデルにより前記画像について前記多クラス分類を行う推定部と
 を有することを特徴とする推定装置。
 (付記14)
 画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、
 学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、
 前記学習に用いる損失関数にマージンを付与し、
 前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
 ことを特徴とする学習方法。
 (付記15)
 コンピュータに、
 画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、
 学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、
 前記学習に用いる損失関数にマージンを付与し、
 前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
 ことを実行させるためのプログラムが記録された記録媒体。
 以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
1…情報処理装置
10…プロセッサ
20…メモリ
30…ストレージ
40…入力装置
50…出力装置
60…インタフェース
70…共通バス
102…画像取得部
104…特徴抽出部
106…分類器学習部
108…マージン付与部
110…推定部
1000…学習装置
1002…学習部
1004…マージン付与部

Claims (15)

  1.  画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習装置であって、
     学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行う学習部と、
     前記学習に用いる損失関数にマージンを付与するマージン付与部とを有し、
     前記マージン付与部は、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
     ことを特徴とする学習装置。
  2.  前記分類器モデルは、前記多ラベルの各ラベルについて多クラス分類を行うものである
     ことを特徴とする請求項1に記載の学習装置。
  3.  前記学習部は、角度距離学習により前記分類器モデルの前記学習を行う
     ことを特徴とする請求項1又は2に記載の学習装置。
  4.  前記マージン付与部は、前記クラスのサンプルの割合に基づき前記クラスマージンを付与する
     ことを特徴とする請求項1乃至3のいずれか1項に記載の学習装置。
  5.  前記マージン付与部は、次式(1)により計算される前記クラスマージンを前記損失関数に付与する
     ことを特徴とする請求項1乃至4のいずれか1項に記載の学習装置。
    Figure JPOXMLDOC01-appb-M000001
     (式(1)中、mは、a番目の前記ラベルについて定められる前記マージン総量である。αa,c(γ)は次式(2)により計算される。
    Figure JPOXMLDOC01-appb-M000002
     式(2)中、Na,cは、a番目の前記ラベルにおけるc番目の前記クラスのサンプル数の割合を示す。Na,c″は、a番目の前記ラベルにおけるc″番目(c″は1≦c″≦Cを満たす整数)の前記クラスのサンプル数の割合を示す。右辺分母の総和記号は、1≦c″≦Cを満たすすべての整数についての総和を意味する。sは、ハイパーパラメータである。)
  6.  前記学習部は、前記m及び前記γの少なくとも一方を自動で決定する
     ことを特徴とする請求項5記載の学習装置。
  7.  前記損失関数は、Softmax型の損失関数である
     ことを特徴とする請求項1乃至6のいずれか1項に記載の学習装置。
  8.  前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角のコサインに対して減算するように前記クラスマージンを付与する
     ことを特徴とする請求項7記載の学習装置。
  9.  前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角に対して加算するように前記クラスマージンを付与する
     ことを特徴とする請求項7記載の学習装置。
  10.  前記マージン付与部は、前記Softmax型の損失関数において、前記画像から前記特徴量として抽出された特徴ベクトルと前記クラスの代表ベクトルとがなす角に対して乗算するように前記クラスマージンを付与する
     ことを特徴とする請求項7記載の学習装置。
  11.  畳み込みニューラルネットワークにより前記特徴量を抽出する特徴抽出部を有する
     ことを特徴とする請求項1乃至10のいずれか1項に記載の学習装置。
  12.  前記画像は顔画像である
     ことを特徴とする請求項1乃至11のいずれか1項に記載の学習装置。
  13.  画像を取得する画像取得部と、
     請求項1乃至12のいずれか1項に記載の学習装置により学習された前記分類器モデルにより前記画像について前記多クラス分類を行う推定部と
     を有することを特徴とする推定装置。
  14.  画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、
     学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、
     前記学習に用いる損失関数にマージンを付与し、
     前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
     ことを特徴とする学習方法。
  15.  コンピュータに、
     画像について単ラベル又は多ラベルの多クラス分類を行う分類器モデルを学習する学習方法であって、
     学習用の画像から抽出された特徴量を入力として前記分類器モデルの学習を行い、
     前記学習に用いる損失関数にマージンを付与し、
     前記マージンを付与することは、前記単ラベル又は前記多ラベルについて付与するマージン総量を固定し、前記単ラベル又は前記多ラベルの複数のクラスに前記マージン総量を非対称に分配したクラスマージンを付与する
     ことを実行させるためのプログラムが記録された記録媒体。
PCT/JP2022/015900 2022-03-30 2022-03-30 学習装置、学習方法及び記録媒体 WO2023188085A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/015900 WO2023188085A1 (ja) 2022-03-30 2022-03-30 学習装置、学習方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/015900 WO2023188085A1 (ja) 2022-03-30 2022-03-30 学習装置、学習方法及び記録媒体

Publications (1)

Publication Number Publication Date
WO2023188085A1 true WO2023188085A1 (ja) 2023-10-05

Family

ID=88200178

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/015900 WO2023188085A1 (ja) 2022-03-30 2022-03-30 学習装置、学習方法及び記録媒体

Country Status (1)

Country Link
WO (1) WO2023188085A1 (ja)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI ZEJU; KAMNITSAS KONSTANTINOS; GLOCKER BEN: "Analyzing Overfitting Under Class Imbalance in Neural Networks for Image Segmentation", IEEE TRANSACTIONS ON MEDICAL IMAGING, IEEE, USA, vol. 40, no. 3, 22 December 2020 (2020-12-22), USA, pages 1065 - 1077, XP011840891, ISSN: 0278-0062, DOI: 10.1109/TMI.2020.3046692 *
LIU HAO; ZHU XIANGYU; LEI ZHEN; LI STAN Z.: "AdaptiveFace: Adaptive Margin and Sampling for Face Recognition", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 15 June 2019 (2019-06-15), pages 11939 - 11948, XP033687082, DOI: 10.1109/CVPR.2019.01222 *

Similar Documents

Publication Publication Date Title
Jiang et al. Variational deep embedding: An unsupervised and generative approach to clustering
CN108132968B (zh) 网络文本与图像中关联语义基元的弱监督学习方法
Fiaschi et al. Learning to count with regression forest and structured labels
Kim et al. Color–texture segmentation using unsupervised graph cuts
WO2023125654A1 (zh) 人脸识别模型的训练方法、装置、电子设备及存储介质
CN110414299B (zh) 一种基于计算机视觉的猴脸亲缘关系分析方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
Dehshibi et al. Cubic norm and kernel-based bi-directional PCA: toward age-aware facial kinship verification
WO2022088390A1 (zh) 图像的增量聚类方法、装置、电子设备、存储介质及程序产品
Dawson et al. From same photo: Cheating on visual kinship challenges
WO2015146113A1 (ja) 識別辞書学習システム、識別辞書学習方法および記録媒体
JP5214679B2 (ja) 学習装置、方法及びプログラム
Ali et al. Biometricnet: deep unconstrained face verification through learning of metrics regularized onto gaussian distributions
Patel et al. Dictionaries for image and video-based face recognition
Sisodia et al. Fast and accurate face recognition using SVM and DCT
WO2011096010A1 (ja) パターン認識装置
Jadhav et al. HDL-PI: hybrid DeepLearning technique for person identification using multimodal finger print, iris and face biometric features
Islam et al. Large-scale geo-facial image analysis
CN110287973B (zh) 一种基于低秩鲁棒线性鉴别分析的图像特征提取方法
WO2023188085A1 (ja) 学習装置、学習方法及び記録媒体
Siripibal et al. A comparative study of object recognition techniques: Softmax, linear and quadratic discriminant analysis based on convolutional neural network feature extraction
Pan et al. Incrementally detecting moving objects in video with sparsity and connectivity
Khedher et al. Local sparse representation based interest point matching for person re-identification
Neto et al. PIC-Score: Probabilistic Interpretable Comparison Score for Optimal Matching Confidence in Single-and Multi-Biometric Face Recognition
Li et al. Person re-identification using salient region matching game

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22935231

Country of ref document: EP

Kind code of ref document: A1