WO2024023947A1

WO2024023947A1 - 学習装置、学習方法、および、学習プログラム

Info

Publication number: WO2024023947A1
Application number: PCT/JP2022/028844
Authority: WO
Inventors: 智也山下
Original assignee: 日本電信電話株式会社
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2024-02-01

Abstract

学習装置（１０）は、AIモデルが学習した各タスクの疑似F行列（疑似的なフィッシャー情報行列）の対角成分を計算する。次に、学習装置（１０）は、AIモデルのパラメータにノイズを乗せた際のタスクに関する損失の増加の度合いを当該タスクの疑似F行列の対角成分とノイズとで表現した計算式を用いて、AIモデルのパラメータにノイズを乗せた場合に、AIモデルにおける忘却対象のタスクに関する損失の増加の度合いをできるだけ大きくし、かつ、当該AIモデルにおける忘却対象外の各タスクに関する損失の増加の度合いが所定値以下となるようなノイズを決定する。学習装置（１０）は、決定したノイズをAIモデルのパラメータに乗せることにより、当該AIモデルのパラメータを更新する。

Description

学習装置、学習方法、および、学習プログラム

　本発明は、AIモデルから学習済みのタスクを忘却させる、学習装置、学習方法、および、学習プログラムに関する。

　プライバシー保護やデータ漏洩の回避のため、過去に機械学習で学習した所望のタスクをAIモデルから忘却させるLearning　with　Selective　Forgettingという課題が存在する。

Takashi　Shibata,　et　al.,　"Learning　with　Selective　Forgetting",　Proceedings　of　the　Thirtieth　International　Joint　Conference　on　Artificial　Intelligence　(IJCAI-21),　August　19th　2021

　しかし、既存技術では、Learning　with　Selective　Forgettingを実現するため、過去の特定のタスクを忘却する際にCatastrophic　Forgettingを利用しており、タスクの忘却のために新たな学習を行う必要がある。そこで、本発明は、前記した問題を解決し、AIモデルに対し新たな学習を行わずに所望のタスクを忘却させることを課題とする。

　前記した課題を解決するため、本発明は、AIモデルが学習したタスクごとに当該タスクにおける前記AIモデルのパラメータのフィッシャー情報行列の対角成分を計算するフィッシャー情報行列計算部と、前記AIモデルのパラメータにノイズを乗せた際の前記タスクに関する損失の増加の度合いを当該タスクのフィッシャー情報行列の対角成分と前記ノイズとにより表現した計算式を用いて、前記AIモデルのパラメータにノイズを乗せた場合に、前記AIモデルにおける忘却対象のタスクに関する損失の増加の度合いをできるだけ大きくし、かつ、前記AIモデルにおける忘却対象外の各タスクに関する損失の増加の度合いが所定値以下となるようなノイズを決定するノイズ決定部と、決定した前記ノイズを前記AIモデルのパラメータに乗せることにより、前記AIモデルのパラメータを更新するパラメータ更新部と、を備えることを特徴とする。

　本発明によれば、AIモデルに対し新たな学習を行わずに所望のタスクを忘却させることができる。

図１は、EWCによるAIモデルの学習の例を説明する図である。図２は、学習装置の概要を説明する図である。図３は、学習装置の構成例を示す図である。図４は、タスクの忘却処理の手順の例を示すフローチャートである。図５は、入力データの予測処理の手順の例を示すフローチャートである。図６は、学習装置によりタスクの忘却処理が行われたAIモデルの評価実験の結果を示す図である。図７は、学習プログラムを実行するコンピュータの構成例を示す図である。

　以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、本実施形態に限定されない。まず、本実施形態の学習装置に用いられる前提技術について説明する。

［Catastrophic　Forgetting］
　Catastrophic　Forgettingは、AIモデルに対し、複数のタスクを連続的に学習させた際にAIモデルが過去のタスクを忘却してしまう現象である。後記するContinual　Learningでは、このCatastrophic　Forgettingを防ぎつつ、新たなタスクを学習することを目的としている。また、Learning　with　Selective　Forgettingのための既存技術では、Catastrophic　Forgettingを利用することで、AIモデルにおける所望のタスクの忘却を実現している。

［Continual　Learning］
　Continual　Learningは、複数のタスクの連続的な学習の実現を目標としたAI研究分野である。Continual　Learningは、過去に学習したタスクに対する精度を落とすことなく、新たなタスクに対する学習を行うこと（Catastrophic　Forgettingの回避）が重要な課題である。

　Continual　Learningは、学習に用いるデータセットの集合を、D=｛D₁,D₂,…,D_K｝と定義する。そして、AIモデルの学習の際には、D₁から順にD_Kまで連続的に学習する。

　このContinual　Learningの目的は、学習済みのタスクのテストデータを正しく分類できるようなAIモデル(f_θ:X→Y)を得ることである。

［EWC］
　EWC（Elastic　Weight　Consolidation）は、Continual　Learningの1手法である。EWCでは、AIモデルの学習の際に用いる損失関数に正則化項を付け加えることで、Catastrophic　Forgettingを回避する。

　EWCで付け加える正則化項は、AIモデルのパラメータのうち、過去に学習したタスクを解くために重要なパラメータが変動することに対しペナルティを課す。これによって、AIモデルは、過去に学習したタスクに対する性能を落とすことなく、新たなタスクの学習を行うことができる。

　図１は、EWCの正則化項（詳細は後記）の効果によって、過去に学習したタスクに適したパラメータと新たに学習するタスクに適したパラメータとの共通部分に向かって学習が進む様子を示す図である。なお、ここではAIモデルがタスクAを学習した後、タスクBを学習する場合を例に説明する。L₂は、タスクAのパラメータθ_A ^*からできるだけ変化しないというペナルティを課したタスクBのパラメータの学習を示す。また、no　penaltyは、ペナルティなしでのタスクBのパラメータを学習を示す。

　EWCにおいて、タスクAを学習したのちにタスクBを学習する際に用いる損失関数を以下の式（１）に示す。

　式（１）におけるL_B(θ)はタスクBに対する損失関数であり、θ_AはタスクAを学習した直後のAIモデルのパラメータベクトルである。

　この式（１）には、タスクBを学習するための一般的な損失関数に正則化項が追加されている。この正則化項によって、タスクAを解くために重要なAIモデルのパラメータが、タスクBの学習により大きく変動しないことが実現されている。具体的には、式（１）において、タスクBの学習によるパラメータの変動((θ_i-θ_A,i)²)に対し、パラメータのフィッシャー情報行列（対角成分）F_iにより、パラメータの重要度に従った重みづけがされている。なお、式（１）におけるλはハイパーパラメータである。

［Learning　with　Selective　Forgetting(LSF)］
　Learning　with　Selective　Forgetting(LSF)は、複数のタスクを連続的に学習しつつ、過去に学習したタスクのうち所望のタスクの知識を忘却することを目的としたAI技術の課題である。

　学習に用いるデータセットの集合はContinual　Learningと同様に定義する。学習に用いるデータセットに対し、以下の2つの集合を定義する。

・Preservation　Set:　タスクの学習終了後に記憶するクラスの集合
・Deletion　Set:　タスクの学習終了後に忘却するクラスの集合

　LSFでは、各タスクの学習後にPreservation　Setに含まれるクラスの知識を保持しつつ、Deletion　Setに含まれるクラスは忘却することを目的としている。

［学習装置の概要］
　次に、図２を用いて本実施形態の学習装置１０の概要を説明する。システムは、例えば、AIモデルの学習を行う学習装置１０と、データ取得装置２０とを備える。AIモデルは、例えば、データ取得装置２０から取得した入力データの予測値を出力するモデルである。このAIモデルは、上記の予測値の出力に関する複数のタスクを学習済みであるものとする。

　学習装置１０は、AIモデルが学習したタスクのうち、ユーザから指定されたタスクを忘却させる。例えば、まず、学習装置１０は、学習したタスクごとにAIモデルのパラメータの疑似的なフィッシャー情報行列（各タスクの疑似F行列）の対角成分を計算する。

　そして、学習装置１０は、計算した各タスクの疑似F行列の対角成分を用いて、忘却させるタスクに合わせて、AIモデルのパラメータに乗せるノイズを決定する。

　これにより、学習装置１０は、忘却対象のタスクの忘却に効果的なパラメータのノイズを決定することができる。そして、学習装置１０は、決定したノイズをAIモデルのパラメータに乗せ、AIモデルのパラメータを更新する。

　学習装置１０は、タスクjを忘却させる場合、例えば、以下の式（２）に基づき、AIモデルのパラメータw_iにノイズを乗せ、AIモデルのパラメータを更新することが考えられる。

　ここで、忘却対象のタスクによっては、式（２）におけるハイパーパラメータλの調整が必要となり、AIモデルの運用コストの増大につながる可能性がある。従って、上記のハイパーパラメータλの調整を必要としない、タスクの忘却技術が望まれる。

　そこで、学習装置１０は、AIモデルのタスクを忘却させるために、AIモデルのパラメータに乗せるノイズを以下のようにして計算する。

　例えば、学習装置１０は、AIモデルのパラメータw_iに対するタスクjの損失L_j(w)をラプラス近似すると、パラメータw_iにノイズを乗せた際の損失L_j(w)の増加の度合いΔL_jは、疑似F行列とノイズの２次形式で表すことができる（後記する式（６）参照）。

　ここで、学習装置１０が、上記のΔL_jに対し、疑似F行列の対角成分のみを利用する近似を適用する（後記する式（７）参照）。これにより学習装置１０は、タスクを忘却させるために、AIモデルのパラメータに乗せるノイズを、線計画問題により解くことができる。この線形計画問題は、比較的高速に解くことができる。

　例えば、学習装置１０は、AIモデルにおける忘却対象のタスクjの損失の増加の度合いΔL_jを最大化し、かつ、忘却対象外の各タスクの損失の増加の度合いを所定値（例えば、s）以下にするようなノイズxを求めるという線形計画問題を解く。そして、学習装置１０は、上記の線形計画問題を解くことで得られたノイズxをAIモデルのパラメータに乗せることで、忘却対象のタスクを忘却させる。

　このようにすることで、AIモデルからタスクを忘却させる際に、忘却対象のタスクごとにハイパーパラメータλを調整する必要がなくなる。

［学習装置の構成例］
　次に、図３を用いて、学習装置１０の構成例を説明する。学習装置１０は、例えば、入力部１１、出力部１２、通信制御部１３、記憶部１４、および、制御部１５を備える。

　入力部１１は、各種データの入力を受け付けるインタフェースである。例えば、入力部１１は、忘却対象のタスクの指示入力や、AIモデルが予測対象とするデータの入力を受け付ける。出力部１２は、各種データの出力を行うインタフェースである。例えば、出力部１２は、制御部１５により予測されたデータのラベルを出力する。

　通信制御部１３は、ＮＩＣ（Network　Interface　Card）等で実現され、ネットワークを介したサーバ等の外部の装置と制御部１５との通信を制御する。例えば、通信制御部１３は、データ取得装置２０（図２参照）等と制御部１５との通信を制御する。

　記憶部１４は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、AIモデルのパラメータが記憶される。

　制御部１５は、例えば、ＣＰＵ（Central　Processing　Unit）等を用いて実現され、記憶部１４に記憶された処理プログラムを実行する。これにより、制御部１５は、図３に例示する、取得部１５ａ、学習部１５ｂおよび予測部１５ｃとして機能する。

　取得部１５ａは、例えば、予測処理に用いるデータを入力部１１あるいは通信制御部１３を介して取得する。

　学習部１５ｂは、AIモデルのタスクの忘却処理を行う。学習部１５ｂは、フィッシャー情報行列計算部１５１と、ノイズ決定部１５２と、パラメータ更新部１５３とを備える。

　フィッシャー情報行列計算部１５１は、AIモデルが学習したタスクごとに当該タスクに対する疑似F行列の対角成分を計算する。

　例えば、タスクjに対する一般的なフィッシャー情報行列は、式（３）に示すように損失Lをパラメータwで2次微分した値を用いるが、フィッシャー情報行列計算部１５１は、損失Lをパラメータwで1次微分した値を2乗した値を用いた疑似F行列を用いる。フィッシャー情報行列計算部１５１は、上記の疑似F行列の対角成分を計算する。

　ノイズ決定部１５２は、フィッシャー情報行列計算部１５１により計算された各タスクの疑似F行列の対角成分に基づき、AIモデルのパラメータに乗せるノイズを決定する。

　例えば、AIモデルのパラメータにノイズを乗せた際のタスクに関する損失の増加の度合いを当該タスクの疑似F行列の対角成分と上記のノイズとで表現した計算式を用意する。そして、ノイズ決定部１５２は、AIモデルのパラメータにノイズを乗せた際に、上記の計算式で表現される、AIモデルにおける忘却対象のタスクに関する損失の増加の度合いをできるだけ大きくし、かつ、AIモデルにおける忘却対象外の各タスクに関する損失の増加の度合いが所定値以下となるようなノイズを求める。

　上記の計算式について詳細に説明する。まず、パラメータwのAIモデルに対するタスクjに関する損失L_j(w)は以下の式（４）により表される。

　ここで、上記のlogP(w|D)に対してラプラス近似を行うことで、タスクjに関する損失L_j(w)は以下の式（５）のように近似される。なお、式（５）におけるw^*は、パラメータwの最適値である。

　上記の式（５）により近似されたタスクjに関する損失L_j(w)を用いて、タスクjに関する損失L_j(w)の増加の度合いΔL_jを導出すると、以下の式（６）のようになる。

　つまり、パラメータwにノイズを乗せた際のタスクjに関する損失の増加の度合いΔL_jは、疑似F行列とノイズの２次形式で表すことができる。

　ここで、上記の式（６）に示すL_j(w)に、疑似F行列の対角成分のみを利用する近似を適用すると、以下の式（７）のように変形することができる。

　ここで、kをAIモデルに含まれるタスク数、nをAIモデルのパラメータ数とし、F_-j、x、f_i、sそれぞれを以下の数８に示すように定義する。

　なお、上記のF_-jは、タスクj以外の各タスクに関するパラメータごとの疑似F行列の対角成分を示した行列である。xは、パラメータwに加えるノイズである。f_iは、タスクiに関するパラメータごとの疑似F行列の対角成分を示したベクトルである。sは、学習装置１０の管理者が付与する定数である。

　ノイズ決定部１５２が解くべき線形計画問題は、以下の式（８）のように定義できる。

　つまり、ノイズ決定部１５２は、AIモデルのパラメータにノイズxを乗せた場合に、忘却対象のタスクiに関する損失の増加の度合いをできるだけ大きくし（max　f_i ^Tx）、かつ、当該AIモデルにおけるタスクi以外の各タスクに関する損失の増加の度合いが所定値（ｓ）以下（s.t.F_-jx≦s）となるような0以上（x≧0）のノイズxを求める。

　パラメータ更新部１５３は、ノイズ決定部１５２により決定されたノイズをAIモデルのパラメータに乗せることにより、パラメータを更新する。

　予測部１５ｃは、パラメータ更新後のAIモデルを用いて、入力データのラベルを予測（識別）する。例えば、予測部１５ｃは、パラメータ更新後のAIモデルを用いて、入力データの各ラベルの確率を算出し、最も確率が高いラベルを出力する。

［タスクの忘却処理］
　次に、図４を参照して、学習装置１０によるAIモデルのタスクの忘却処理の手順の例について説明する。図４に示す処理は、例えば、ユーザから忘却対象のタスクが選択され、タスクの忘却処理の開始を指示する操作入力があったタイミングで開始される。

　まず、フィッシャー情報行列計算部１５１は、AIモデルが学習した各タスクについて疑似的なフィッシャー情報行列（疑似F行列）を計算し、その対角成分を取得する（Ｓ１）。次に、ノイズ決定部１５２は、Ｓ１で得られた、各タスクについての疑似F行列の対角成分を用いて、AIモデルのパラメータのノイズを決定する（Ｓ２）。例えば、ノイズ決定部１５２は、忘却対象のタスクの疑似F行列の対角成分の値と、忘却対象外のタスクの疑似F行列の対角成分の値とに基づき、当該AIモデルのパラメータに乗せるノイズを決定する。

　その後、パラメータ更新部１５３は、Ｓ２で決定したノイズをAIモデルのパラメータに付加することにより、パラメータを更新する（Ｓ３）。

［予測処理］
　次に、図５を参照して、学習装置１０による入力データのラベルの予測処理の例について説明する。図５に示す処理は、例えば、入力データのラベルの予測処理の開始を指示する操作入力があったタイミングで開始される。

　まず、取得部１５ａは、ラベルの予測対象のデータを取得する（Ｓ１１）。次に、予測部１５ｃは、学習部１５ｂによりパラメータが更新されたAIモデルを用いて、Ｓ１１で取得されたデータのラベルを予測する（Ｓ１２）。例えば、予測部１５ｃは、パラメータ更新後のAIモデルを用いて、Ｓ１１で取得されたデータx’のp(x’)を算出し、最も確率が高いラベルを出力する。

［実験］
　次に、図６を用いて、学習装置１０によりタスクの忘却処理が行われたAIモデルの実験結果を説明する。本実験では、まずPermuted　MNISTを用いて3つのタスクを用意し、EWCを用いて、これら3つのタスクをAIモデルに学習させる。そして、学習装置１０は、学習後のAIモデルに対し、所定のタスクの忘却処理を行い、当該タスクの精度が低下することを確認する。なお、学習装置１０が各タスクの忘却処理を行う際に用いるノイズxは、前記した式（８）を用いて決定した。なお、式（８）におけるs=0.004とした。

　なお、Permuted　MNISTは、MNISTのピクセル間に固定の置換を施したものを同一タスクとしてみなすことで、オリジナルのMNISTから複数のデータセットを生成したものである。

　本実験で用いるAIモデルは入力層28×28ユニット、隠れ層1000ユニット、出力層10ユニットの3層のAIモデルとする。また、EWCのハイパーパラメータは200000とする。また、AIモデルの訓練時はPermuted　MNISTの訓練データを利用し、AIモデルのテスト時はPermuted　MNISTのテストデータを利用することとする。

　EWCによる学習後のAIモデルの各タスク（タスク１，２，３）の精度を表６０１に示す。表６０１に示すように、EWCを用いることでAIモデルは3つのタスクに対し90%を超える精度で学習できていることが確認できる。次に、学習装置１０により当該AIモデルに対しタスク１，２，３の忘却処理を行った結果を表６０２，６０３，６０４に示す。表６０２，６０３，６０４に示すように、学習装置１０により、AIモデルにおける忘却対象のタスクに対する精度を11-12%程度に下げられたことがわかる。

　本実験で用いたデータセット（Permuted　MNIST）は、ラベル数が10のデータセットであるため、AIモデルがランダムにラベルを出力した場合の精度はおよそ10%となる。したがって、本実験により、学習装置１０は、AIモデルにおける忘却対象のタスクの精度を、ランダムに出力する場合と同等の精度にすることができたことがわかる。また、学習装置１０は、いずれのタスクの忘却処理の際にも同じパラメータ（s=0.004）を用いることができることも確認できた。また、表６０２，６０３，６０４に示す結果から、学習装置１０がタスクの忘却処理を行っても、忘却対象のタスク以外のタスクの精度を70％以上確保できることが確認できた。

　以上の実験結果により、学習装置１０によれば、AIモデルにおける忘却対象のタスク以外のタスクに対する精度を保持しつつ、忘却対象のタスクを忘却させることができることが確認できた。また、学習装置１０によれば、いずれのタスクの忘却処理の際にも同じパラメータを用いることができることも確認できた。つまり、学習装置１０がAIモデルにおけるタスクの忘却処理を行う際、忘却対象のタスクごとにパラメータを調整する必要がないことが確認できた。

［システム構成等］
　また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　前記した学習装置１０は、パッケージソフトウェアやオンラインソフトウェアとしてプログラム（学習プログラム）を所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０として機能させることができる。ここで言う情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等の端末等がその範疇に含まれる。

　図７は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記の学習装置１０が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられるデータは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続される他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　学習装置
　１１　入力部
　１２　出力部
　１３　通信制御部
　１４　記憶部
　１５　制御部
　１５ａ　取得部
　１５ｂ　学習部
　１５ｃ　予測部
　２０　データ取得装置
　１５１　フィッシャー情報行列計算部
　１５２　ノイズ決定部
　１５３　パラメータ更新部

Claims

　AIモデルが学習したタスクごとに当該タスクにおける前記AIモデルのパラメータのフィッシャー情報行列の対角成分を計算するフィッシャー情報行列計算部と、
　前記AIモデルのパラメータにノイズを乗せた際の前記タスクに関する損失の増加の度合いを当該タスクのフィッシャー情報行列の対角成分と前記ノイズとにより表現した計算式を用いて、前記AIモデルのパラメータにノイズを乗せた場合に、前記AIモデルにおける忘却対象のタスクに関する損失の増加の度合いをできるだけ大きくし、かつ、前記AIモデルにおける忘却対象外の各タスクに関する損失の増加の度合いが所定値以下となるようなノイズを決定するノイズ決定部と、
　決定した前記ノイズを前記AIモデルのパラメータに乗せることにより、前記AIモデルのパラメータを更新するパラメータ更新部と、
　を備えることを特徴とする学習装置。
　前記AIモデルのパラメータにノイズを乗せた際の前記タスクに関する損失の増加の度合いを表現した計算式は、前記タスクに関する損失をラプラス近似した式から導出された計算式に対し、前記タスクのフィッシャー情報行列の対角成分を利用した近似を適用することにより得られた計算式である、
　ことを特徴とする請求項１に記載の学習装置。
　前記パラメータが更新されたAIモデルを用いて、入力データの予測値を出力するタスクを実行する予測部
　をさらに備えることを特徴とする請求項１に記載の学習装置。
　学習装置により実行される学習方法であって、
　AIモデルが学習したタスクごとに当該タスクにおける前記AIモデルのパラメータのフィッシャー情報行列の対角成分を計算する工程と、
　前記AIモデルのパラメータにノイズを乗せた際の前記タスクに関する損失の増加の度合いを当該タスクのフィッシャー情報行列の対角成分と前記ノイズとにより表現した計算式を用いて、前記AIモデルのパラメータにノイズを乗せた場合に、前記AIモデルにおける忘却対象のタスクに関する損失の増加の度合いをできるだけ大きくし、かつ、前記AIモデルにおける忘却対象以外の各タスクに関する損失の増加の度合いが所定値以下となるようなノイズを決定する工程と、
　決定した前記ノイズを前記AIモデルのパラメータに乗せることにより、前記AIモデルのパラメータを更新する工程と、
　を含むことを特徴とする学習方法。
　AIモデルが学習したタスクごとに当該タスクにおける前記AIモデルのパラメータのフィッシャー情報行列の対角成分を計算する工程と、
　前記AIモデルのパラメータにノイズを乗せた際の前記タスクに関する損失の増加の度合いを当該タスクのフィッシャー情報行列の対角成分と前記ノイズとにより表現した計算式を用いて、前記AIモデルのパラメータにノイズを乗せた場合に、前記AIモデルにおける忘却対象のタスクに関する損失の増加の度合いをできるだけ大きくし、かつ、前記AIモデルにおける忘却対象以外の各タスクに関する損失の増加の度合いが所定値以下となるようなノイズを決定する工程と、
　決定した前記ノイズを前記AIモデルのパラメータに乗せることにより、前記AIモデルのパラメータを更新する工程と、
　をコンピュータに実行させるための学習プログラム。